蒂姆 哈福德:大数据,还是大错误?
发表时间:2014年5月4日 18:18 来源:译言网
然而大数据并没有解决统计学家和科学家们数百年来所致力的一些难题:对因果关系的理解,对未来的推演,以及如何对一个系统进行干预和优化。
伦敦皇家学院的David Hand教授讲过一句话,“现在我们有了一些新的数据来源,但是没有人想要数据,人们要的是答案”。
要使用大数据来得到这样的答案,还需要在统计学的方法上取得大量长足的进展。
伦敦大学学院的Patrick Wolfe说,“大数据就好像是蛮荒的美国西部。那些头脑灵活野心勃勃的人会想尽办法利用一切可能的工具,从这些数据中淘出点值钱的东西来,这很酷。但目前我们做的还有些盲目。”
统计学家们正争先恐后地为大数据开发新的工具。这些新的工具当然很重要,但它们只有在吸取而不是遗忘过去统计学精髓的基础上才能成功。
最后,我们再回头来看看大数据的四个基础信条。其一,如果简单地忽略掉那些反面的数据,比如Target的怀孕预测算法,那么我们很容易就会过高地估计算法的精确度。其二,如果我们在一个固定不变的环境里做预测,你可以认为因果关系不再重要。而当我们处在一个变化的世界中(例如流感趋势预测所遇到的那样),或者是我们自己就想要改变这个环境,这种想法就很危险了。其三,“N=所有”,以及采样偏差无关紧要,这些前提在绝大多数的实际情况下都是不成立的。最后,当数据里的假象远远超过真相的时候,还持有“数据足够大的时候,就可以自己说出结论了”这种观点,就显得过于天真了。
大数据已经到来,但它并没有带来新的真理。现在的挑战是要吸取统计学中老的教训,在比以前大得多的数据规模下去解决新的问题、获取新的答案。
(英文原载英国《金融时报》网站2014年3月28日,原标题:Big data: are we making a big mistake;霞飞/译)