您现在的位置:首页 >> 滚动 >> 正文
李德毅院士:大数据挖掘带动的变迁
发表时间:2014年5月21日 18:01 来源:新浪科技 责任编辑:编 辑:麒麟

新浪科技讯 第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕。本届大会以会”以“云计算大数据 推动智慧中国”为主题。在5月21日的主会场上,中国工程院院士李德毅发表了题为“大数据挖掘带动的变迁”的演讲。

以下为演讲实录:

李德毅:各位同仁,尤其是年轻的IT工作者们,很高兴在这里跟大家分享我对云计算和大数据的一些认识。我的报告题目是“大数据挖掘”。

自从大数据引入了人们的视线之后,人们普遍讲的是三个字“大数据”。它讲的是PB时代的科学,本质上大数据的挑战是PB时代的科学的挑战。在这么一个大数据时代怎么做数据挖掘呢?

人们用很多的面来形容大数据,其实大数据的主要来源有三个方面,第一就是这个地球,自然界的大数据,这么多的卫星绕着地球转,我们看看每天要下载多少数据量?生命大数据、生物大数据,尤其是每一个人体的大数据也是一个重要的来源。对于我们IT工作者来说,我们更关心的是社交大数据,每天你拿着手机、拿着笔记本来回折腾了半天,这些数据对你起作用了吗?

PB时代对科学的挑战更是对包括数据挖掘在内的认知科学的挑战。奥巴马就职演说当中,每一个人后面都有大数据的支撑,我点到谁,你就能告诉我他的大数据吗?一个人,一个社会的活动人非常了不起,他有他的身份、情感、职业、年龄、性格等等,假如现在给你一张全家福,你能不能从他们的人脸识别当中告诉我谁是儿媳妇、谁是女婿?

这么多人脸下,怎么把人脸识别清楚呢?现在我们北京市有80万个摄像头,每天照着我们大家,我们可以利用摄像头做身份认证、年龄识别、情感计算、亲缘发现、心理识别、地区识别、民族识别,都很有用处。这种流媒体主要的形态是非结构化的,特征之间的关联关系、设备算法的准确率等等,都严重的制约着大数据人脸挖掘的进度。

由技术推动的计算机发展

那么怎么办?我们还是要回归一下计算机所发展的历史,1936年天才数学家图灵提出来一个图灵模型,后来有一个计算机,把图灵模型转化为物理计算机,有三大块,一块叫做CPU,操作系统,还有一大块叫做内存和外存,还有一块就是输入和输出。在计算机发展的头一个30年里,我们感兴趣最多的是CPU、是操作系统,是软件、是中间件、是应用软件。这时候代表信息技术发展速度的可以用摩尔速度来表示,它告诉我们微电子发展是18个月可以翻一番的,所以我们侧重于计算性能的提高,我们把这个时代叫做计算时代,计算,尤其是高性能计算机,人们花了很大的精力研究,它带动了存储,也带动了输入输出,这个时间大概用了三四十年。计算领先、存储交互也跟着发展。

在这样一个计算领先当中,我们主要做的是结构化数据的挖掘,我们要提起一个伟大的学者,他的名字叫埃德加,他在1970年提出一个关系模型,用二维表形式表示实体与实体间的联系。三四十年来,各行各业的数据库和数据仓库技术,以及从数据库发现知识的数据挖掘成为巨大的信息产业。关于数据库之父,美国工程院院士获奖了1980年的图灵奖,他这篇论文是1970年写的,讲的是共享数据银行的关系。关系数据库有严格的顶层设计,为构造良式关系,必须消除元组中不合适的依据依赖。我们每一个IT计算机本科生都学过这样的技术,对这样的关系运算,结果仍然是关系。

关系代数是关系数据库的形式化理论和约束,先有顶层设计和数据结构,后填入清洗后的数据。数据围绕结构转,数据围绕程序转。用户无需关心数据的获取,存储、分析以及提取过程。通过数据挖掘,可以从数据库中发现分类知识、关联知识,时序知识、异常知识等等。

随着数据库产业的膨大,人们对数据库已经不太满足了,于是把Databases说成是大数据,但是不管怎么大,遇到了两个不可回避的挑战,第一是由于关系代数的形式化约束过于苛刻,无法表示现实数据怎么办?第二个挑战,随着数据量的增大,关系代数运算性能急剧下降,如果是一个TB的关系数据库,两个表做一个交易,要几十个小时,人们忍受不了,这两个挑战就意味着心里方法的存在。就在这个时候,我们的存储技术得到了迅猛发展,大家知道,存储、内存、外存、硬盘越来越普遍了,当上海俞正声书记提出1+TB的时候,这个钱谁来买单?现在我们可能都有一两个TB,一个TB400块钱就买到了,所以人类进入了搜索时代。搜索因为存储便宜了,存储的速度大概每9个月翻一番,这在中国也好、全世界也好,谁能干就多干一点活,所以存储带动了技术的脚步,这种搜索时代经过了20多年,于是我们进入了一个半结构化数据挖掘时代。这个时代代表人物就是万维网之父Tim,他提出了超文本思想,开发了世界上第一个Web服务器,于是我们可以从一台服务器上检索另一台服务器的内容,服务器在软件支持下可发布包括文本、表格、图片、音视频的碎片化超媒体信息。

[1]  [2]  [3]  
关于我们 | 联系我们 | 友情链接
新科技网络【京ICP备14006744号】
Copyright © 2014 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。