聚焦于人工智能领域的商汤科技,是一家靠原创技术火起来的中国公司,曾先后被BAT竞购,目前已获得IDG数千万美元A轮融资。包括京东、小米、华为等都在使用商汤科技的计算机视觉技术。
当我们在谈论人工智能时,我们在谈论什么——或许是AlphaGo,或许是微软小冰,甚至或许是电影《星球大战》中的经典机器人形象R2D2和BB8,但中国原创的人工智能却鲜有人谈起。
一方面中国的人工智能技术仍未成熟,另一方面满大街赶热点打着“人工智能”幌子的骗子公司太多,鱼龙混杂之下让人摸不着头脑。
“如果你不掌握最核心的东西,其实很难说你是在做人工智能。”徐立坐在会议室里侃侃而谈,从神经网络算法谈到数据驱动,从神经网络的鼻祖Geoffrey Hinton,谈到人工智能“四大天王”里除Hinton以外的Yoshua Bengio、Yann Lecun和Andrew Ng。当然他最想谈的,还是他一手创立的人工智能公司商汤科技(SenseTime)。
徐立所说的“核心的东西”,指的是深度学习。他认为,要看一家公司是不是真正做人工智能的,只需看它是否掌握深度学习技术。
人工智能的发展经历了多个阶段,早期的人工智能实际上是“人工指导智能”,即由人来指导电脑什么是对的什么是错的。但如果要让电脑像人一样思考,则需要电脑在大量的数据中学习,像人脑的神经元一样相互联系起来生成信号,最终理解复杂的事物。这就是现在业界所说的深度学习。
徐立举例说明。以人脸识别为例,传统的方法会告诉电脑,以人的眼睛之间的距离,和鼻子、嘴巴的特征为标准,如果特征是一样的,那就是同一个人。但是这些特征都是人设计的,所做的判断还是基于人的判断。
深度学习不一样,它用一个复杂的、像人脑一般的网络,将包含各种系数的神经元连接好几层,然后让它根据科学家提供的深度学习架构不停地看大量的照片数据,最终由它自己去衍生出一种判断“两个人是否同一个人”的能力,这种能力甚至可以超越人眼的准确率。
在人工智能迅速崛起的大背景下,深度学习既是学术前沿,又是工业前沿,知识是这个领域最重要的财富。而承载这些知识的是人。
谷歌很早就意识到了这一点。2014年,谷歌斥资4亿英镑收购一家鲜为人知的小公司DeepMind。这家公司没有任何产品,除了12位科学家。
“所有人都认为谷歌疯了,乱花钱,4亿买12个人,什么逻辑?但谷歌知道他们的价值。”徐立告诉界面新闻记者,当时Yoshua Bengio评论道,世界上有50个人是真正的深度学习专家,其中12个人在DeepMind。谷歌显然是在布局未来,后来AlphaGo就是 DeepMind研究的成果。
紧随谷歌的脚步,百度、Facebook分别请来了Andrew Ng和Yann Lecun,建立了百度深度学习研究院和Facebook AI Lab。其他大公司如雅虎、微软等亦纷纷跟进,人工智能从最前沿的学术界走向了工业界,开始给业界带来颠覆性的变化。
看到学术热点与工业热点结合得如此紧密,徐立兴奋不已。徐立出身于学术界,本硕毕业于上海交通大学,博士毕业于香港中文大学,拥有十余年计算机视觉、模式识别、图像处理领域的研究和产品开发经验,在视觉领域顶级会议、期刊上发表40余篇专著,并先后在摩托罗拉研究院、欧姆龙研究所、微软研究院、联想研究院等计算机视觉基础研究机构访问工作。
他以深厚的学术背景,从自身研究的计算机视觉方向出发,招募了来自MIT、斯坦福、香港大学、香港中文大学、清华大学等高校的数十名深度学习科学家,以及多位谷歌、百度、微软、联想等产业界核心工程人员。
而最让人吃惊的是,徐立的团队里居然有50名博士,其中不乏两任ICCV(国际计算机视觉大会)领域主席、韩国科学技术学院(KAIST)2011年杰出教授戴宇荣博士,以及安徽高考状元、香港中文大学博士、曾在Kaggle数据科学家排行榜亚洲科学家中排名第一的张伟博士这样的牛人。
“这些博士不是一个个、而是一串串招进来。”徐立笑道。徐立从自己的实验室招揽了不少师弟师妹,又从香港中文大学多媒体实验室,以及微软研究院等机构招募了多个团队。各个负责人带一支队伍进来,自然地形成了一个个资深的研究团队。
这些学术界大拿们全都专注于计算机视觉以及人工智能领域,曾在三大国际顶级机器视觉会议CVPR、ICCV、ECCV上共发表论文超过150篇,在亚洲企业中排名第一,在世界范围仅排在谷歌、微软之后。
如此强大的研究力量很快发光发亮。2014年9月,商汤科技(SenseTime)的科学家们首次出征素有“计算机视觉奥林匹克”之称的ImageNet竞赛,在大规模物体检测比赛中以40.7% 的成绩获得世界亚军,仅次于谷歌的 43.9%。
2015年ImageNet新增了一项视频物体检测的任务,比静态图像中的物体检测的难度更高,商汤科技却在该项目中以成功识别28类物体正确率第一赢得该项的冠军,成为首个在ImageNet夺冠的中国企业。
“简单来说,就是图片以毫秒级的速度闪过时,计算机要识别出图片里面是一个人,是一本书,一辆车,还是一只动物。”徐立向界面记者解释。
这样的深度学习有三个关键点,第一是“脑子”的聪明程度,它取决于造“脑子”的科学家是否拥有很好的深度学习框架。第二是数据量,有了“脑子”之后需要教它,大量的数据才能提供足够的训练并驱动“大脑”。最后是计算资源,有了聪明的“大脑”和足够的“教材”,还需要由多块GPU组成的深度学习超算,才能快速消化大量数据。
2014年5月,百度推出了当时世界上最快的深度学习Minwa机器人。Andrew Ng对外宣称,Minwa连接了144块GPU。与之对比,前段时间大放光彩的AlphaGo则连接了170块GPU。
“SenseTime(商汤科技)目前连接了200块GPU,算得上世界上最快的深度学习超级计算机之一。”对此徐立不无得意。
然而,聚集了众多科研大咖的商汤科技收获的并非全是赞誉,也有一些人认为他们所做的事情不接地气,离消费者太远。
但由于掌握了独特的技术,商汤科技很快便吸引了不少科技公司的关注。“在中国很少有靠原创技术火起来的公司,但正因为如此大家对技术有一种渴求,实力过硬的技术能够很快打动对方。”徐立说。
科技行业信息流动快,各大厂商不求人无我有,但求人有我有。因为能够很好地结合用户娱乐功能,很快小米手机、华为Mate8的系统相册都植入了商汤科技提供的人脸识别功能——用户拍的任何一张照片都可以用人脸特点进行归类。类似的技术因为颇受用户欢迎,后来也被新浪微博的相册所采用。
“还有前段时间很火的Faceu应用,以及Snow自拍App、花椒直播、美图相机等等这一类产品均适使用了我们提供的技术,因此我们的用户实际上已经超过几亿人。”徐立说,商汤科技定位为技术提供者的角色,采用B2B2C的模式进行阶梯报价,按软件装机量的多少进行分成。
*商汤科技的人脸识别技术
除了移动互联网领域,徐立认为未来商汤科技的视觉智能技术还将在互联网金融和安防监控领域得到很好的应用。
以安防监控为例,商汤科技和东方网力科技合作,将人脸识别技术应用于警方的监控视频中,通过算法在多处的摄像头视频中找出同一个人。目前这样的“抓逃系统”已经在深圳地铁部署测试。
*商汤科技的智能监控功能
“这三个领域都有一个共同特征,就是对人口红利的需求很大,但却因为中国的人口红利在下降而遭遇困难。”徐立认为,很多互联网金融公司动辄需要几千员工审核用户上传的资料,“十二五”要实现智慧的城市则需要大量摄像头联网,收集回来的数据也要耗费大量人力梳理——这些困难和挑战,统统可以通过视觉智能解决。
目前已获得IDG数千万美元A轮融资的商汤科技早期曾经被苹果问询收购事宜,但当时商汤科技的团队已经有70人,但徐立认为既然要做大,就要先做品牌化,这样的话才能服务大众。“如果过早在BAT中站队,发展就会面临局限。”徐立说。
对于人工智能最近成为热门话题,徐立认为这一方面是好事,因为能让大众更了解人工智能,也会促使很多创业者投身人工智能发展事业当中;但另一方面,这个概念也会被一些并非真正想做人工智能的人利用,造成负面影响和人们的误解。
“实际上人们所说的、能够自主思考的’人工智能意识’离我们还很远,但只要数据足够大,人工智能的确可以在垂直领域通过积累经验超越人类。”徐立认为,深度学习由数据驱动,而拥有数据红利和场景优势,人才储备也不差,中国有实力、也有责任做真正的原创的人工智能。