二、现在都在说大数据,我们把原有的数据分析,统计科学的结果来谈我们如何大数据的分析。另外一组方式,大数据是我们现在方法还不能有效处理的这类数据。所以在一个角度来说大数据我们没有办法应对,人类智慧还没有找到更有效对所有数据衡量进行分析,国务院是科学大数据的分析,科学数据是研究的基础,商业数据,还有一类社会数据,所以在数据走向丰富的时候,也可能会给我们带来影响,这个也需要研究。
另外一个大数据出现确实在一些方面给我们带来一些价值,在医疗应用,在数据计算分析当中都有很多好处,同时在社会活动当中,在经济领域都有通过对数据的归类和分析来进行预测发现在一定程度上对我们认识和解决问题有很重要的影响。同时我们意识到大数据分析对一种方法一类数据分析,是对所有分析。这像谷歌前一段时间对流感的预测没有达到它在08年预测的那么准,也说明在认识问题和采集数据分析方式还会有不同方式出现,因为它并不是0和1之间的选择。所以很多产业界的朋友们讲现在是IT到BT的产业转型,我觉得从技术角度来看我们还需要进行研究和处理。
第二个问题真的是如何用好这些数据,就需要提高数据分析的处理能力。数据分析处理能力最重要就是我们对于软件开发设计,在这个方面在传统的软件当中已经是一个非常大的问题,我们面对互联网大量数据的出现,所以还有一个新问题,就是在大数据时代软件工具还有不适应的问题,是不是出现面向云计算和大数据需要的新一类技术和科学,比如说数据科学与工程来支持对于现在大数据和海量资源管理和调度的问题,可能也是非常有意义的事情,但是值得探索的问题。
第三关于网络安全和数据安全的问题,如果我们想使得资源能够被用好,最后一个就是能够放心的用,安全问题应该说是无论怎么强调都不过分,对于大数据来说可能隐私和共享的问题成为新的矛盾,因此我觉得面向互联网第二个机会兴起的时候,可能要我们面对处理好三个问题,未来架构问题,包括硬件设备和系统。第二关于资源有效的管理和处理。第三就是我们能够提供可信任的基本环境。
对于通信认识,我们现在几乎很少用写信的方式来与伙伴、朋友、家人进行联系,通信是非常重要不可或缺的方式,互联网改变我们很多通信的方式,实际上互联网已经正在改变我们经济和社会的生活。前面提到谷歌公司有4.5亿模型预测传染病,阿里巴巴预测金融风险,我们流行一句话有了搜索引擎就可以熟悉更多的游览器,有了电子商务我们熟悉客户的消费行为,这些社交媒体使我们熟悉客户的交流方式,如果我们行为方式有所改变,是否对大数据的分析处理能够有助于我们科学研究。所以这几年当中科学研究基于大数据的科学研究,在传统科学计算领域开始进入到网络计算,也提出了理论研究、实验研究、计算研究之外的数据密集型的研究,更有人提出大数据是否成为科学研究。对此也有专题研究,同时美国、欧盟以及中国都启动对大数据研究的科学问题,因为对未来问题的发现也是一个重要的机遇,究竟大数据能否改变或者影响我们一定程度的思维模式,如果是的话,它会从什么角度开始。我举个例子,我们在日常生活和行为方式上,我们通常在做饭会用查一查的方式解决我们是否知道饭菜熟了,这是在科技社会当中基本的经济统计的方法,以量本是均匀的假定进行我们的行为。但是大数据下数据是不断的变化,表达的方式是多样的,所以过去以产量的方式可能结合产量样本的分析,或者基于一个区域一个时间内对于施工下产量样本的共同研究。我们买一双鞋会不会跑遍所有北京商店,而是基本差不多就行,从科学方向走向看着差不多就行情况下,计算就变得非常需要。
第三我们经常讲科学研究不仅知其然要知其所以然,从因果性看问题的源头,从大数据当中我们考虑如何大概差不多判断知其然也会重要。这在我们实践当中有很多这样的方式,所以因此大数据否是科学的问题还是一个伪命题,至少从实验角度对我们研究这类问题有意义。
我下面谈到关于问题简单说一下,是否从大数据思维中我们能够发现认识更多的有关大数据的问题,这个问题表现特征作为从事计算机的角度而言,我们第一个关心大数据能不能处理,第一个问题自然变成数据能不能算得了,数据能不能算得了一个基本的常识,无论计算机有多快还有一些问题由于复杂性太高算不了,计算问题是计算机工作者最关心的问题,我们一辈子做的事情,输入通过一个函数这就是软件,能够转换和输出一个结果。所以研究最重要的问题就是和F有关,那么F就是算法也就是我们看问题能不能算,算法问题非常重要,过去已经有10位左右的图灵奖获得者在算法和研究的领域,但是大数据时代是不是计算复杂度特别高,因为它定义数据算不了,因此会不会有新问题,这是我们关注的问题。