大数据价值的本质
在人类的发展史中,文字产生以前,零散知识很容易随着部落的变迁而湮灭,更难以此为基础发展出更高的智慧。所以,对知识的占有与利用,一直是人类进步的重要手段。
纵观过去,每个革命性技术的发展,都带来了生产效率的飞跃。车轮的发明提高了人类交通与运输的效率,电报电话的发明提高了人类的通信效率。而大数据技术的本质是提升人类活动的准确性,减少传统方式下的“试错”成本,从而提升社会的总效率。
大数据如何才能提高人类活动的准确性呢?这需要从信息模型来进行分析。从信息的层次模型来看,信息从底向上分为四个层次:数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom)。其中,数据只是未经组织的数字、词语、声音和图像等,信息是由数据加上内容定义所构成,知识是由信息加上规则而构成,最高层的智慧是由知识加上经验而构成。而提升人类活动准确性的工作,是位于信息的最高层次,即智慧层来完成的。
无论是对于人类自身,还是计算机系统来说,比较容易处理数据、信息、知识这三个层次的信息,其本质都是数据的存储与检索,只是人类的处理效率与准确性要低于计算机。但是对于如何从知识中获取智慧,无论是对人类还是计算机,都是一件非常困难的事情。
在大数据诞生以前,智慧很难通过机器得到。如图1所示,各个行业的智慧发现都是依赖各行业的专家,一个专家的能力是与他在行业内的经验积累(知识库)密切相关的,其所沉淀积累的知识越多,则做出正确抉择(智慧)的可能性越大。但人类专家的工作效率和准确性均有限。特别是在经验或数据缺乏的情况下,专家们往往依靠直觉做判断,加剧了结果的不准确性。

通过大数据挖掘手段,可以依托海量的知识库,将输入的知识(或信息)转化为智慧。传统的行业专家,未来很可能会被具备行业知识的大数据专家所替代。机器通过海量数据进行挖掘,发现知识并输出智慧,再由人类专家对结果进行检验与校正,通过机器学习,逐步提高结果的准确率。
大数据未来的技术趋势
大数据技术,必然会像冶金、印刷术等技术一样,在不远的将来渗透到各行各业,并全面地提高社会生产力。未来的大数据技术,将呈现三大趋势:数据生成与采集层面,“众包”模式的趋势;数据存储层面,集中存储与统一建模的趋势;数据分析挖掘层面,以智慧生成为目标的趋势。
“众包”的数据生成与采集趋势
在数据生成与采集层面,在未来海量数据的场景下,依靠单一的力量去采集数据,无论在资金成本上,还是在时间成本上,都不可行。例如,传统的酒店评估模式采用使用酒店星级评定标准,简单的结构化数据,如硬件指标等,显然无法满足人们对酒店入住体验的想象。但是,在大数据模式下,只要提供一个类似于“携程”或“大众点评”的数据收集分享平台,就可以将“零散的顾客评价”这类非结构化数据转变成“多维度的用户体验数据”。这些海量数据分析结果可以帮助酒店改善硬件和服务以提高客户满意度,同时精细化目标客户群体,提升营销能力。消费者也能根据自己的个性化需求精准地找到心仪的酒店。
当前成功的大数据系统,特别是面向大众消费者的大数据系统,都是构建一个类似于生态圈的环境,各个消费者角色在生态圈中通过简单的规则进行交互,达到自己的目的,在消费数据的同时也在生成数据。携程、淘宝、QQ,甚至各类在线游戏系统,无一不是采取这种模式。而没采用这种模式的系统,往往步履艰难。例如,传统的导航系统采用雇佣专人在大街上标定建筑物的做法,不仅成本高、更新迟缓,而且准确率也低。百度的导航系统,依赖百度地图,使用者可以直接提交“纠错”信息,以弥补数据生成不足、准确性低的问题。在非专有化的大众导航市场上,“免费”的导航软件,已经占据了主导地位。