琛ユ湁K2鐨勬恫浣撻挋鈥斺€旀堡鑷e€嶅仴閽橠K锛屽ソ鍚告敹鎵嶄簨鍗婂姛鍊�鏆戝亣鑲犺儍鏄撳嚭闂锛宭ifespace鐩婄敓鑿屽府浣犳墦閫犲仴搴峰ソ鈥滆偁鈥濇€�棣栧垱鎬х鐮旀垚鏋滐細鍖椾含瀹濇灚鐢熺墿绁炵粡閰告敼鍠凥IE娌荤枟鏁堟灉绉戝鎶よ倽鏀荤暐锛氶泦4閲嶆姢鑲濇绮逛簬涓€韬殑鍋ュ畨閫備笉瀹归敊杩�瑙i攣韬潗绠$悊鏂板Э鍔匡細lifespace灏忚摑鑵扮泭鐢熻弻鍔╀綘瀹炵幇绉戝韬潗绠$悊濡備綍绉戝闄嶈鑴傦紵涓绘墦澶╃劧鎴愬垎鐨勮垝鐧惧畞绾宠眴绾㈡洸鑳跺泭浜嗚В涓�鏄嗚吘涓浗璧典笝娑涳細纾佸甫鏄喎鏁版嵁鐨勬渶浣冲瓨鍌ㄤ粙璐�濡備綍澧炲己鍏嶇柅鍔涳紵姹よ嚕鍊嶅仴铔嬬櫧绮夊ソ钀ュ吇鏉モ€滃姪鏀烩€�Canalys璋冪爺锛氫腑鍥戒紒涓氬浜庝笂浜戠殑闇€姹備粛鐒朵綆杩�澧炲箙瓒�30% 鍗庝负涓婅皟2023鎵嬫満鍑鸿揣閲忚嚦4000涓囬儴绐佺牬澶氶」閲嶇偣鎶€鏈� 娴疆鍙戝竷鍏ㄦ柊绠楀姏缃戠粶鎿嶄綔绯荤粺鑷垜鐪嬭“锛熻嫻鏋滃ぇ骞呭墛鍑廙R澶存樉閿€鍞洰鏍囪嚦15涓囧彴鍗庝负浜戞寮忓彂甯冩柊涓€浠h嚜鐮斿垎甯冨紡鏁版嵁搴揋aussDB鍏ㄧ悆绗竴瀹讹紒涓夋槦QD-OLED鑾稰antone鍙岃壊褰╂潈濞佽璇�娴嬪翱閰歌瘯绾告€庝箞鐢�3999鍏冭捣锛佹姌鍙犲睆鎵嬫満moto razr 40绯诲垪姝e紡鍙戝竷璐碉紒绱㈠凹鎺ㄥ嚭TOUGH涓夐槻CFexpress Type A瀛樺偍鍗�鍗庝负姝e紡鍙戝竷鏅虹畝鍏ㄥ厜鑱旀帴鎴樼暐鍙�6娆鹃噸纾呮柊鍝�鑱斿彂绉戣懀浜嬮暱钄℃槑浠嬶細棰勮鎵嬫満涓氬姟鏈潵涓ゅ勾浼氬闀�娴嬪翱閰歌瘯绾告€庝箞鐢�鑵捐浜慐dgeOne鍏ラ€塆artner DDoS缂撹В鏂规甯傚満鎸囧崡鍗庝负OceanStor Pacific鍒嗗竷寮忓瓨鍌ㄨ幏IO500姒滅涓€灏忕背鍙戝竷2023骞翠竴瀛e害璐㈡姤锛氭壄浜忎负鐩堬紝鍒╂鼎涓婃定鑱旀兂涓婁竴璐㈠勾钀ユ敹鍒╂鼎鍙屽弻涓嬫粦 闈濸C鏀跺叆鍗犳瘮杩�40%浣宠兘棣栨RF鈥滈ゼ骞测€濋暅澶碦F28mm F2.8 STM姝e紡鍙戝竷绱㈠凹鍙戝竷杞诲阀鍨嬪叏鏅0鍥為煶澹丠T-S2000 鍞环2990鍏�鐢ㄥ弸钁d簨闀垮吋CEO鐜嬫枃浜細鍏ㄩ潰鏁版櫤鍟嗕笟鍒涙柊鏃朵唬鍒版潵涓叴TECS浜戝钩鍙拌繛缁笁骞磋幏GlobalData Leader璇勭骇鍐呮牳鏁伴噺涓轰笟鐣屾渶楂橈紒Ampere鍙戝竷192鏍窤RM澶勭悊鍣�Gartner锛氳吘璁簯鑾稢PaaS銆丆RM澶氫釜璧涢亾鍥藉唴绗竴
您现在的位置:首页 >> 滚动 >> 正文
蒂姆 哈福德:大数据,还是大错误?
发表时间:2014年5月4日 18:18 来源:译言网 责任编辑:编 辑:麒麟

Duhigg讲的最多的故事是这样的:一名男子怒气冲冲地来到一家明尼苏达附近的Target连锁店,向店长投诉该公司最近给他十几岁的女儿邮寄婴儿服装和孕妇服装的优惠券。店长大方地向他道了歉。可不久后店长又收到这名男子的电话要求再次道歉——只是这一次对方告知那个少女确实怀孕了。在她的父亲还没有意识到的时候,Target通过分析她购买无味湿纸巾和补镁药品的记录就猜到了。

这是统计学的魔法吗?或许还有更世俗一点的解释。

Kaiser Fung在帮助零售商和广告商开发类似的工具上有着多年的经验,他认为“这里面存在一个严重的虚假正面效应的问题”。他指的是我们通常都没有能够听到的无数的反面故事,在那些例子里没有怀孕的妇女们也收到了关于婴儿用品的优惠券。

如果只听Duhigg讲的故事,你可能很容易就觉得Target的算法是绝对可靠的——每个收到婴儿连体服和湿纸巾购物券的人都是孕妇。这几乎不可能出错。但实际上孕妇能收到这些购物券可能仅仅是因为Target给所有人都寄了这种购物券。在相信Target那些读心术般的故事之前,你应当问问他们的命中率到底有多高。

在Charles Duhiggs的描述中,Target公司会在给你的购物券中随机地掺杂一些无关的东西,比如酒杯的券。否则的话孕妇们可能会发现这家公司的计算机系统在如此深入地探测她们的隐私,进而感到不安。

Fung对此则有另外的解释,他认为Target这样做并不是因为给孕妇寄一份满是婴儿用品的购物手册会让人起疑,而是由于这家公司本来就知道这些手册会被寄给很多根本没有怀孕的妇女。

以上这些观点并不意味着数据分析一无是处,相反它可能是有高度商业价值的。即使能够把邮寄的准确度提高那么一点点,都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。

一位名叫John Ioannidis的传染病学家在2005年发表了一篇论文,题目叫“为什么大多数被发表的研究结果都是错误的”,标题言简意赅。他的论文中一个核心的思想就是统计学家们所称的“多重比较问题”。

当我们审视数据当中的某个表象的时候,我们常常需要考虑这种表象是否是偶然产生的。如果这种表象看起来不太可能是随机产生的时候,我们就称它是“统计上显著的”。

当研究者面对许多可能的表象时,多重比较错误就可能发生。假设有一个临床试验,我们让部分小学生服用维他命而给其他小学生安慰剂。怎么判断这种维他命的效果?这完全取决于我们对“效果”的定义。研究者们可能会考察这些儿童的身高、体重、蛀牙的概率、课堂表现、考试成绩甚至是25岁以后的收入或者服刑记录(长期追踪观察)。然后是综合比较:这种维他命是对穷困家庭的孩子有效,还是对富裕家庭的有效?对男孩有效,还是女孩?如果做足够多不同的相关性测试,偶然产生的结果就会淹没真实的发现。

有很多办法可以解决上述的问题,然而在大数据中这种问题会更加严重。因为比起一个小规模的数据集合来说,大数据的情况下有太多可以用作比较的标准。如果不做仔细的分析,那么真实的表象与虚假表象之比——相当于信号噪声比——很快就会趋近于0。

更糟的是,我们之前会用增加过程透明度的办法来解决多重比较的问题,也就是让其他的研究者也知道有哪些假设被测试过了,有哪些反面的试验结果没有被发表出来。然而现实数据几乎都不是透明的。亚马逊和谷歌,Facebook和推特,Target和Tesco,这些公司都没打算过跟你我分享他们的所有数据。

毫无疑问,更新、更大、更廉价的数据集合以及强大的分析工具终将产生价值。也确实已经出现了一些大数据分析的成功实例。剑桥的David Spiegelhalter提到了谷歌翻译,这款产品统计分析了人类已经翻译过的无数文档,并在其中寻找出可以自己复制的模式。谷歌翻译是计算机学家们所谓的“机器学习”的一个应用,机器学习可以在没有预先设定编程逻辑的条件下计算出惊人的结果。谷歌翻译是目前所知的最为接近“无需理论模型、纯数据驱动的算法黑盒子”这一目标的产品。用Spiegelhalter的话来说,它是“一个令人惊讶的成就”。这一成就来自于对海量数据聪明的处理。

[1]  [2]  [3]  [4]  [5]  
关于我们 | 联系我们 | 友情链接
新科技网络【京ICP备14006744号】
Copyright © 2014 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。