璺�鐞涖儲婀並2閻ㄥ嫭鎭担鎾绘寢閳ユ柡鈧梹鍫¢懛锝呪偓宥呬淮闁芥K閿涘苯銈介崥鍛婃暪閹靛秳绨ㄩ崡濠傚閸婏拷璺�閺嗘垵浜i懖鐘哄剭閺勬挸鍤梻顕€顣介敍瀹璱fespace閻╁﹦鏁撻懣灞藉簻娴g姵澧﹂柅鐘蹭淮鎼村嘲銈介垾婊嗗亖閳ユ繃鈧拷璺�妫f牕鍨遍幀褏顫栭惍鏃€鍨氶弸婊愮窗閸栨ぞ鍚€规繃鐏氶悽鐔哄⒖缁佺偟绮¢柊鍛婃暭閸犲嚗IE濞岃崵鏋熼弫鍫熺亯璺�缁夋垵顒熼幎銈堝€介弨鑽ゆ殣閿涙岸娉�4闁插秵濮㈤懖婵囶槻缁€涚艾娑撯偓闊偆娈戦崑銉ョ暔闁倷绗夌€瑰綊鏁婃潻锟�璺�鐟欙綁鏀i煬顐f綏缁狅紕鎮婇弬鏉啃崝鍖$窗lifespace鐏忓繗鎽戦懙鎵抄閻㈢喕寮婚崝鈺€缍樼€圭偟骞囩粔鎴濐劅闊偅娼楃粻锛勬倞璺�婵″倷缍嶇粔鎴濐劅闂勫秷顢呴懘鍌︾吹娑撶粯澧︽径鈺冨姧閹存劕鍨庨惃鍕灊閻ф儳鐣炵痪瀹犵湸缁俱垺娲搁懗璺烘抄娴滃棜袙娑擄拷璺�閺勫棜鍚樻稉顓炴禇鐠у吀绗濆☉娑崇窗绾句礁鐢弰顖氬枎閺佺増宓侀惃鍕付娴e啿鐡ㄩ崒銊ょ矙鐠愶拷璺�婵″倷缍嶆晶鐐插繁閸忓秶鏌呴崝娑崇吹濮广倛鍤曢崐宥呬淮閾斿娅х划澶娿偨閽€銉ュ悋閺夈儮鈧粌濮弨鐑┾偓锟�璺�Canalys鐠嬪啰鐖洪敍姘厬閸ユ垝绱掓稉姘嚠娴滃簼绗傛禍鎴犳畱闂団偓濮瑰倷绮涢悞鏈电秵鏉╋拷璺�婢х偛绠欑搾锟�30% 閸楀簼璐熸稉濠呯殶2023閹靛婧€閸戦缚鎻i柌蹇氬殾4000娑撳洭鍎�璺�缁愪胶鐗径姘躲€嶉柌宥囧仯閹垛偓閺堬拷 濞搭亝鐤嗛崣鎴濈閸忋劍鏌婄粻妤€濮忕純鎴犵捕閹垮秳缍旂化鑽ょ埠璺�閼奉亝鍨滈惇瀣€滈敍鐔诲閺嬫粌銇囬獮鍛閸戝粰R婢跺瓨妯夐柨鈧崬顔炬窗閺嶅洩鍤�15娑撳洤褰�璺�閸楀簼璐熸禍鎴烆劀瀵繐褰傜敮鍐╂煀娑撯偓娴狅綀鍤滈惍鏂垮瀻鐢啫绱¢弫鐗堝祦鎼存弸aussDB璺�閸忋劎鎮嗙粭顑跨鐎硅绱掓稉澶嬫ЕQD-OLED閼剧òantone閸欏矁澹婅ぐ鈺傛綀婵炰浇顓荤拠锟�璺�濞村缈遍柊姝岀槸缁惧憡鈧簼绠為悽锟�璺�3999閸忓啳鎹i敍浣瑰閸欑姴鐫嗛幍瀣簚moto razr 40缁鍨锝呯础閸欐垵绔�璺�鐠愮绱掔槐銏犲嚬閹恒劌鍤璗OUGH娑撳妲籆Fexpress Type A鐎涙ê鍋嶉崡锟�璺�閸楀簼璐熷锝呯础閸欐垵绔烽弲铏圭暆閸忋劌鍘滈懕鏃€甯撮幋妯兼殣閸欙拷6濞嗛箖鍣哥壕鍛煀閸濓拷璺�閼辨柨褰傜粔鎴f噣娴滃鏆遍拕鈩冩娴犲绱版0鍕吀閹靛婧€娑撴艾濮熼張顏呮降娑撱倕鍕炬导姘杻闂€锟�璺�濞村缈遍柊姝岀槸缁惧憡鈧簼绠為悽锟�璺�閼垫崘顔嗘禍鎱恉geOne閸忋儵鈧artner DDoS缂傛捁袙閺傝顢嶇敮鍌氭簚閹稿洤宕�璺�閸楀簼璐烵ceanStor Pacific閸掑棗绔峰蹇撶摠閸屻劏骞廔O500濮掓粎顑囨稉鈧�璺�鐏忓繒鑳岄崣鎴濈2023楠炵繝绔寸€涳絽瀹崇拹銏″Г閿涙碍澹勬禍蹇庤礋閻╁牞绱濋崚鈺傞紟娑撳﹥瀹�璺�閼辨梹鍏傛稉濠佺鐠愩垹鍕鹃拃銉︽暪閸掆晜榧庨崣灞藉蓟娑撳绮� 闂堟扛C閺€璺哄弳閸楃姵鐦潻锟�40%璺�娴e疇鍏樻#鏍儥RF閳ユ粓銈奸獮娴嬧偓婵嬫殔婢剁ⅵF28mm F2.8 STM濮濓絽绱¢崣鎴濈璺�缁便垹鍑归崣鎴濈鏉炶闃€閸ㄥ鍙忛弲顖氾紣閸ョ偤鐓舵竟涓燭-S2000 閸烆喕鐜�2990閸忥拷璺�閻€劌寮搁拋锝勭皑闂€鍨悑CEO閻滃鏋冩禍顒婄窗閸忋劑娼伴弫鐗堟閸熷棔绗熼崚娑欐煀閺冩湹鍞崚鐗堟降璺�娑擃厼鍙碩ECS娴滄垵閽╅崣鎷岀箾缂侇厺绗侀獮纾嬪箯GlobalData Leader鐠囧嫮楠�璺�閸愬懏鐗抽弫浼村櫤娑撹桨绗熼悾灞炬付妤傛﹫绱扐mpere閸欐垵绔�192閺嶇RM婢跺嫮鎮婇崳锟�璺�Gartner閿涙俺鍚樼拋顖欑隘閼剧áPaaS閵嗕竼RM婢舵矮閲滅挧娑壕閸ヨ棄鍞寸粭顑跨
您现在的位置:首页 >> 滚动 >> 正文
蒂姆 哈福德:大数据,还是大错误?
发表时间:2014年5月4日 18:18 来源:译言网 责任编辑:编 辑:麒麟

Duhigg讲的最多的故事是这样的:一名男子怒气冲冲地来到一家明尼苏达附近的Target连锁店,向店长投诉该公司最近给他十几岁的女儿邮寄婴儿服装和孕妇服装的优惠券。店长大方地向他道了歉。可不久后店长又收到这名男子的电话要求再次道歉——只是这一次对方告知那个少女确实怀孕了。在她的父亲还没有意识到的时候,Target通过分析她购买无味湿纸巾和补镁药品的记录就猜到了。

这是统计学的魔法吗?或许还有更世俗一点的解释。

Kaiser Fung在帮助零售商和广告商开发类似的工具上有着多年的经验,他认为“这里面存在一个严重的虚假正面效应的问题”。他指的是我们通常都没有能够听到的无数的反面故事,在那些例子里没有怀孕的妇女们也收到了关于婴儿用品的优惠券。

如果只听Duhigg讲的故事,你可能很容易就觉得Target的算法是绝对可靠的——每个收到婴儿连体服和湿纸巾购物券的人都是孕妇。这几乎不可能出错。但实际上孕妇能收到这些购物券可能仅仅是因为Target给所有人都寄了这种购物券。在相信Target那些读心术般的故事之前,你应当问问他们的命中率到底有多高。

在Charles Duhiggs的描述中,Target公司会在给你的购物券中随机地掺杂一些无关的东西,比如酒杯的券。否则的话孕妇们可能会发现这家公司的计算机系统在如此深入地探测她们的隐私,进而感到不安。

Fung对此则有另外的解释,他认为Target这样做并不是因为给孕妇寄一份满是婴儿用品的购物手册会让人起疑,而是由于这家公司本来就知道这些手册会被寄给很多根本没有怀孕的妇女。

以上这些观点并不意味着数据分析一无是处,相反它可能是有高度商业价值的。即使能够把邮寄的准确度提高那么一点点,都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。

一位名叫John Ioannidis的传染病学家在2005年发表了一篇论文,题目叫“为什么大多数被发表的研究结果都是错误的”,标题言简意赅。他的论文中一个核心的思想就是统计学家们所称的“多重比较问题”。

当我们审视数据当中的某个表象的时候,我们常常需要考虑这种表象是否是偶然产生的。如果这种表象看起来不太可能是随机产生的时候,我们就称它是“统计上显著的”。

当研究者面对许多可能的表象时,多重比较错误就可能发生。假设有一个临床试验,我们让部分小学生服用维他命而给其他小学生安慰剂。怎么判断这种维他命的效果?这完全取决于我们对“效果”的定义。研究者们可能会考察这些儿童的身高、体重、蛀牙的概率、课堂表现、考试成绩甚至是25岁以后的收入或者服刑记录(长期追踪观察)。然后是综合比较:这种维他命是对穷困家庭的孩子有效,还是对富裕家庭的有效?对男孩有效,还是女孩?如果做足够多不同的相关性测试,偶然产生的结果就会淹没真实的发现。

有很多办法可以解决上述的问题,然而在大数据中这种问题会更加严重。因为比起一个小规模的数据集合来说,大数据的情况下有太多可以用作比较的标准。如果不做仔细的分析,那么真实的表象与虚假表象之比——相当于信号噪声比——很快就会趋近于0。

更糟的是,我们之前会用增加过程透明度的办法来解决多重比较的问题,也就是让其他的研究者也知道有哪些假设被测试过了,有哪些反面的试验结果没有被发表出来。然而现实数据几乎都不是透明的。亚马逊和谷歌,Facebook和推特,Target和Tesco,这些公司都没打算过跟你我分享他们的所有数据。

毫无疑问,更新、更大、更廉价的数据集合以及强大的分析工具终将产生价值。也确实已经出现了一些大数据分析的成功实例。剑桥的David Spiegelhalter提到了谷歌翻译,这款产品统计分析了人类已经翻译过的无数文档,并在其中寻找出可以自己复制的模式。谷歌翻译是计算机学家们所谓的“机器学习”的一个应用,机器学习可以在没有预先设定编程逻辑的条件下计算出惊人的结果。谷歌翻译是目前所知的最为接近“无需理论模型、纯数据驱动的算法黑盒子”这一目标的产品。用Spiegelhalter的话来说,它是“一个令人惊讶的成就”。这一成就来自于对海量数据聪明的处理。

[1]  [2]  [3]  [4]  [5]  
关于我们 | 联系我们 | 友情链接
新科技网络【京ICP备14006744号】
Copyright © 2014 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。