在传统我们学计算函数的时候大家知道,能计算分成两类,能判定分为易解问题,不能算难算有近似的问题,在大数据下可能有很大变化。过去易解的问题在现有环境下不可解的,比如说一个PB的数据,光用现在最快硬盘读取速度1.9天,一个GB的数据需要五年左右完成,百度一天网页超过10个PB,百度用最快硬盘把数据读完就需要19天,一天数据需要19天读完,显然在数据处理当中它已经不是能解决的,这是我们忍受不了当天事需要18天完成,过去认为能算的问题在这里可能算不了,所以对这类问题我们需要有很多新研究考虑的事情。
第二类事情我们说难解的事情,在计算机找出计算给出尽可能好的结果,在大数据下我们给一个函数近似表示,数据极大,找近似的时候双重近似把问题又复杂化了,所以出现一个新情况我们要把F和算法和输出要做新的匹配。这样一个问题直接涉及到了怎么设计算法,怎么编这个软件,我们知道在小样本结果下算法小就是好识别率高,在大样本下简单算法就好的,10的6次方一个简单算法对系统更重要。
第二个关于数据表征和度量的问题。要想计算要把它表示出来,大量毫无规律的数据怎么度量怎么给社会提供数据,所以对于大数据处理,或者云计算处理一个基本的问题就是数据表征和度量的问题。这个里面问题又是非常复杂的,涉及到数据极大的量,大概10的10次方以上为数,才能表达所有数据,第二数据度量越来越难,一头猪和一只大象有可能相似的,有可能两个鸡蛋不同,究竟这个意义在何处?如何度量?如何理解?有可能数据分析结果给我们带来我们直观上完全认识不一样的事情,但是它的合理性在哪里?数据表征度量是解决计算之后最重要的问题。
数据如此之多如同大海捞针一样怎么建立更有效数据的搜索方法,从关键词搜索还有没有新方式?
第三类我们说解决了计算问题,解决数据表示和理解的问题,剩下来就是数据怎么在实际处理当中有效结合的同时。现在数据处理当中熟悉的是hadoop,但是意识到它是有效的方法,但是有很多局限性,比如说面对计算能力,数据不断的增量发展,不仅要解决一段的数量,还要解决间接增加,不仅解决自己向下的分析方法,还有相融合分析数据,这可能对我们现在软件系统提出新挑战,并且也适时研发很多研究,新的大数据,云计算处理模型是什么样,对现有的存储,体积机构有什么影响?如何有效支持数据分析和发展?在这里就形成也许未来我们存储和计算互动,就像我们拥有大数据的企业和公司一样,它的存储和计算能力一定不是通用商业性,而是有效解决跟它最契合的数据内容。
接下来关于数据分析,第三个有一个比较有意思就是大数据和Crowd软件,利用众多的软件实践和理解来解决软件群体智能的问题,这个问题很好玩但是刚刚开始,我们解决计算的复杂性一个方面回答图灵计算,另外我们从E图灵计算的来看,业余通过crowd computing可以融合大家智慧一起研究。
第四个就是可信问题,建立隐私和数据的安全保护。这一类问题在大数据当中,在线模型云计算有很多挑战,这个领域安全问题在在线云计算当中多少年一直排在第一位,其次才是性能和可用性。关于安全风险分析也有常规所提到六类和七类重要研究的点。我们也在这里给各位报告,北航研究团队在数据计算复杂性,数据查询搜索,研究F和X找到X上最近也有好的结果,这一点需要我们继续努力。
最后我想说几句话怎么看大数据分析价值,这张图是技术经济预测,在这张图当中有这么几个阶段,我分别标出云所在的地点,对应底下划分实际上给出技术到形成生产力的一个全过程。应该说大数据现在真正形成一个产业和完全影响没有到来,而关于虚拟世界或者我们对云计算的发展倒是有相当的机遇。
另外一个方面我们看到大数据还正在处在起步阶段,过渡商业的炒作对大家关注有好处,但是很容易忽略它后面的问题,因此也应该权衡好技术发展和产业应用的关系。另外大数据的投资像前面所讲在云计算也有很多基础,在教育、医疗、交通、能源利用方面大数据的分析的确在这些领域有了效果而且有很多投资在这里发展,那么未来也给出了对未来形势的预测。大数据很热是因为大家预测2016年产业会应用巨大。我觉得从电子商务轨迹来看技术创新和产业机遇会有一个时间差,不同时间窗口下我们应该抓住它技术或产业发展最重要的部分。关于云计算和大数据我觉得是一场可能会影响我们很长时间重要的内容,也许会对我们行为、思维都会产生重要的影响,特别是对我们未来的交流上,但是我想也更需要产业界、学术界和拥有资源的资源拥有者能够共同合作来推进云计算大数据有效的发展,这个也对中国信息产业的发展和信息化的建设会有特别重要的作用,谢谢各位。