琛ユ湁K2鐨勬恫浣撻挋鈥斺€旀堡鑷e€嶅仴閽橠K锛屽ソ鍚告敹鎵嶄簨鍗婂姛鍊�鏆戝亣鑲犺儍鏄撳嚭闂锛宭ifespace鐩婄敓鑿屽府浣犳墦閫犲仴搴峰ソ鈥滆偁鈥濇€�棣栧垱鎬х鐮旀垚鏋滐細鍖椾含瀹濇灚鐢熺墿绁炵粡閰告敼鍠凥IE娌荤枟鏁堟灉绉戝鎶よ倽鏀荤暐锛氶泦4閲嶆姢鑲濇绮逛簬涓€韬殑鍋ュ畨閫備笉瀹归敊杩�瑙i攣韬潗绠$悊鏂板Э鍔匡細lifespace灏忚摑鑵扮泭鐢熻弻鍔╀綘瀹炵幇绉戝韬潗绠$悊濡備綍绉戝闄嶈鑴傦紵涓绘墦澶╃劧鎴愬垎鐨勮垝鐧惧畞绾宠眴绾㈡洸鑳跺泭浜嗚В涓�鏄嗚吘涓浗璧典笝娑涳細纾佸甫鏄喎鏁版嵁鐨勬渶浣冲瓨鍌ㄤ粙璐�濡備綍澧炲己鍏嶇柅鍔涳紵姹よ嚕鍊嶅仴铔嬬櫧绮夊ソ钀ュ吇鏉モ€滃姪鏀烩€�Canalys璋冪爺锛氫腑鍥戒紒涓氬浜庝笂浜戠殑闇€姹備粛鐒朵綆杩�澧炲箙瓒�30% 鍗庝负涓婅皟2023鎵嬫満鍑鸿揣閲忚嚦4000涓囬儴绐佺牬澶氶」閲嶇偣鎶€鏈� 娴疆鍙戝竷鍏ㄦ柊绠楀姏缃戠粶鎿嶄綔绯荤粺鑷垜鐪嬭“锛熻嫻鏋滃ぇ骞呭墛鍑廙R澶存樉閿€鍞洰鏍囪嚦15涓囧彴鍗庝负浜戞寮忓彂甯冩柊涓€浠h嚜鐮斿垎甯冨紡鏁版嵁搴揋aussDB鍏ㄧ悆绗竴瀹讹紒涓夋槦QD-OLED鑾稰antone鍙岃壊褰╂潈濞佽璇�娴嬪翱閰歌瘯绾告€庝箞鐢�3999鍏冭捣锛佹姌鍙犲睆鎵嬫満moto razr 40绯诲垪姝e紡鍙戝竷璐碉紒绱㈠凹鎺ㄥ嚭TOUGH涓夐槻CFexpress Type A瀛樺偍鍗�鍗庝负姝e紡鍙戝竷鏅虹畝鍏ㄥ厜鑱旀帴鎴樼暐鍙�6娆鹃噸纾呮柊鍝�鑱斿彂绉戣懀浜嬮暱钄℃槑浠嬶細棰勮鎵嬫満涓氬姟鏈潵涓ゅ勾浼氬闀�娴嬪翱閰歌瘯绾告€庝箞鐢�鑵捐浜慐dgeOne鍏ラ€塆artner DDoS缂撹В鏂规甯傚満鎸囧崡鍗庝负OceanStor Pacific鍒嗗竷寮忓瓨鍌ㄨ幏IO500姒滅涓€灏忕背鍙戝竷2023骞翠竴瀛e害璐㈡姤锛氭壄浜忎负鐩堬紝鍒╂鼎涓婃定鑱旀兂涓婁竴璐㈠勾钀ユ敹鍒╂鼎鍙屽弻涓嬫粦 闈濸C鏀跺叆鍗犳瘮杩�40%浣宠兘棣栨RF鈥滈ゼ骞测€濋暅澶碦F28mm F2.8 STM姝e紡鍙戝竷绱㈠凹鍙戝竷杞诲阀鍨嬪叏鏅0鍥為煶澹丠T-S2000 鍞环2990鍏�鐢ㄥ弸钁d簨闀垮吋CEO鐜嬫枃浜細鍏ㄩ潰鏁版櫤鍟嗕笟鍒涙柊鏃朵唬鍒版潵涓叴TECS浜戝钩鍙拌繛缁笁骞磋幏GlobalData Leader璇勭骇鍐呮牳鏁伴噺涓轰笟鐣屾渶楂橈紒Ampere鍙戝竷192鏍窤RM澶勭悊鍣�Gartner锛氳吘璁簯鑾稢PaaS銆丆RM澶氫釜璧涢亾鍥藉唴绗竴
您现在的位置:首页 >> 滚动 >> 正文
蒂姆 哈福德:大数据,还是大错误?
发表时间:2014年5月4日 18:18 来源:译言网 责任编辑:编 辑:麒麟

虽然大数据在科学家、企业家和政府眼里看起来充满希望,但如果忽略了一些我们以前所熟知的统计学中的教训,大数据可能注定会让我们失望。

Spiegelhalter教授曾说:“大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失,它们只会更加突出。”

在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠的运作了十几个冬天,在海量数据分析和不需要理论模型的条件下提供了快速和准确的流感爆发趋势。然而这一次它迷路了,谷歌的模型显示这一次的流感爆发非常严重,然而疾控中心在慢慢汇总各地数据以后,发现谷歌的预测结果比实际情况要夸大了几乎一倍。

问题的根源在于谷歌不知道(一开始也没法知道)搜索关键词和流感传播之间到底有什么关联。谷歌的工程师们没有试图去搞清楚关联背后的原因。他们只是在数据中找到了一些统计特征。他们更关注相关性本身而不是相关的原因。这种做法在大数据分析中很常见。要找出到底是什么原因导致了某种结果是很困难的,或许根本不可能。而发现两件事物之间的相关性则要简单和快速得多。就像Viktor Mayer-Sch nberger 和 Kenneth Cukier 在《大数据》这本书中形容的那样:“因果关系不能被忽略,然而曾作为所有结论出发点的它已经被请下宝座了。”

这种不需要任何理论的纯粹的相关性分析方法,其结果难免是脆弱的。如果你不知道相关性背后的原因,你就无法得知这种相关性在什么情况下会消失。谷歌的流感趋势出错的一种解释是,2012年12月份的媒体上充斥着各种关于流感的骇人故事,看到这些报道之后,即使是健康的人也会跑到互联网上搜索相关的词汇。还有另外一种解释,就是谷歌自己的搜索算法,在人们输入病症的时候会自动推荐一些诊断结果进而影响到了用户的搜索和浏览行为。这就好像在足球比赛里挪动了门柱一样,球飞进了错误的大门。

谷歌将使用新的数据再次校准流感趋势这个产品,重新来过。这当然是正确的做法。能够有更多的机会让我们简捷地采集和处理大规模的数据,这当然有一百个理由让人兴奋。然而我们必须从上述例子中汲取足够的教训,才能避免重蹈覆辙。

统计学家们过去花了200多年,总结出了在认知数据的过程中存在的种种陷阱。如今数据的规模更大了,更新更快了,采集的成本也更低了。但我们不能掩耳盗铃,假装这些陷阱都已经被填平了,事实上它们还在那里。

1936年,共和党人Alfred Landon与当时的总统Franklin Delano Roosevelt(富兰克林 罗斯福——译者注)竞选下届总统。《读者文摘》这家颇有声望的杂志承担了选情预测的任务。当时采用的是邮寄问卷调查表的办法,调查人员雄心勃勃,计划寄出1000万份调查问卷,覆盖四分之一的选民。可以预见,洪水般寄回的邮件将超乎想象,然而《文摘》似乎还乐在其中。8月下旬的时候他们写到:“从下周起,1000万张问卷的第一批回执将会到达,这将是后续邮件洪峰的开始。所有这些表格都会被检查三次,核对,交叉存档五份,然后汇总。”

最终《文摘》在两个多月里收到了惊人的240万份回执,在统计计算完成以后,杂志社宣布Landon将会以55比41的优势击败Roosevelt赢得大选,另外4%的选民则会投给第三候选人。

然而真实选举结果与之大相径庭:Roosevelt以61比37的压倒性优势获胜。让《读者文摘》更没面子的是,观点调查的先创人George Gallup通过一场规模小得多的问卷,得出了准确得多的预测结果。Gallup预计Roosevelt将稳操胜券。显然,Gallup先生有他独到的办法。而从数据的角度来看,规模并不能决定一切。

观点调查是基于对投票人的大范围采样。这意味着调查者需要处理两个难题:样本误差和样本偏差。

样本误差是指一组随机选择的样本观点可能无法真实的反映全部人群的看法。而误差的幅度,则会随着样本数量的增加而减小。对于大部分的调查来说,1000次的访谈已经是足够大的样本了。而据报道Gallup先生总共进行了3000次的访谈。

[1]  [2]  [3]  [4]  [5]  
关于我们 | 联系我们 | 友情链接
新科技网络【京ICP备14006744号】
Copyright © 2014 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。