只要你开口,它就能将你的声音转化成文字;只要你会说一口“二级乙等”的普通话,它的转写准确率就可以达到90%以上。它有一个小目标,让人工智能今年在全球首次通过国家执业医师资格考试,成为“全科医生”;它有一个大目标,在2029年的“而立之年”,成为全球人工智能产业领导者。
这样的技术、这样的愿景,来自一家名为科大讯飞的公司。近日,在它十八周年成人礼之际,《每日经济新闻》记者专访了公司董事长刘庆峰——他的公司明年上半年员工总数将逾万人,而1999年成立时,连他在内只有“十八罗汉”。
●说成果:9年两获“国家科技进步奖”
NBD:自1999年发展至今,科大讯飞已成为国内语音产业龙头企业,目前公司在语音产业领先地位如何体现?
刘庆峰:科大讯飞是我国唯一以语音技术为产业化方向的“国家863计划成果产业化基地”、“国家规划布局内重点软件企业”、“国家高技术产业化示范工程”,并被原信息产业部确定为中文语音交互技术标准工作组组长单位,牵头制定中文语音技术标准。“国家智能语音高新技术产业化基地”、“语音及语言信息处理国家工程实验室”先后落户公司,有利于进一步汇聚资源,提升科大讯飞产业龙头地位。
2003年、2011年,科大讯飞两次荣获“国家科技进步奖”,2005年、2011年两次获得中国信息产业自主创新最高荣誉“信息产业重大技术发明奖”。自90年代中期以来,在历次国内外语音合成评测中,各项关键指标均名列第一。2017年8月,在国际医学影像领域的权威评测LUNA上,科大讯飞获得平均召回率92.3%的检测效果,以显著优势获得该项评测的第一名并刷新世界纪录。
基于拥有自主知识产权的世界领先智能语音和人工智能技术,科大讯飞已推出从大型电信级应用到小型嵌入式应用、从教育到电信等行业、从手机到车载设备、从家电到玩具等,能够满足不同应用环境下企业和个人用户需求的多种产品。科大讯飞已占有中文语音技术市场70%以上市场份额。
NBD:科大讯飞从1999年几个大学生创业,到今天在IBM、微软、谷歌等巨头环视的情况下占中国语音交互市场70%的份额,更在全球与这些企业进行竞争,在这些年的发展与竞争中讯飞具体做了什么?
刘庆峰:1999年我们刚创业的时候,外界很多人在问讯飞18人的团队,凭什么有机会成功?2008年,我们成为中国语音领域第一家上市公司。2012年,我们做成了业界公认的中文语音产业第一,成为中国语音产业联盟的理事长。
之所以能走到今天,首先,讯飞将核心技术做到了世界领先,多次获得国家级和世界级奖项。其次,“AI+应用”全面开花。现在,通过学习,我们“人工智能+医疗”在有些科目上已经接近一线医生的水平。我们跟中国医学科学院协和医学院签订战略合作,不光是共建医学人工智能中心,我们的目标是还要让人工智能今年能在全球首次通过国家执业医师资格考试。讯飞“全科医生”这个项目,不光是对中国,对全世界都将是一个巨大的福音。
NBD:科大讯飞的语音合成技术早已被公认处于业界领先水平,在语音识别方面,科大讯飞有哪些竞争优势?
刘庆峰:2008年至今,科大讯飞连续在国际说话人、语种识别评测大赛中名列前茅。2016年,科大讯飞取得国际语音识别大赛(CHiME)全部指标第一。该项技术也深刻应用到产品中,比如“讯飞听见”。“讯飞听见”智能会议系统能实时将说话者的发言一字不落地完整同步到屏幕上,实时对发言者发言进行转写,同时,支持完整记录、语气词过滤、语句顺滑、文本在线修改、会议结束即时出稿,转写准确率可达95%以上。
“讯飞听见”智能会议系统是全球首款中文语音实时转写和多语种实时翻译系统。该系统具有三大特点:一是实时,不仅可以将发言转换成文字,且同时能将文字再同步翻译成英日韩等四种语言,当演讲或会议结束时就可以直接导出多语种文本;二是准确率高,对二乙水平的普通话,转写准确率可达90%以上;三是离线转写,采用本地部署服务器,确保数据安全。这些都是科大讯飞在语音识别方面的优势所在。
●谈行业:人工智能产业进入窗口期
NBD:今年以来,人工智能产业非常火热,包括讯飞在内的不少业内人士都认为现在是人工智能爆发前夜。但人工智能已有几十年的发展历史,凭什么确认这次的时机就一定成熟?
刘庆峰:2016年底,科大讯飞首先在发布会上提出,我们已经从“互联网+”时代进入到“人工智能+”时代。可以说,在科大讯飞的努力下,2016年成了中国人工智能元年。目前,全球人工智能产业已经进入一个关键的窗口期。今年7月20日,国务院《新一代人工智能发展规划》正式发布,在我们国家的这一人工智能产业规划中,对相关核心技术、源头项目推动、智能产业发展、智能经济等都进行了清晰描述。可以这么说,未来3~5年是人工智能最关键的格局确定窗口期。在这3~5年,谁能让人工智能应用真正形成规模、让应用落地,谁就能在未来智能产业中占领先机。
人工智能的核心技术发展有两条主线:第一是以深度神经网络为代表的算法,在这方面科大讯飞已处于全球领先水平,并且在多项国际比赛中拿到全球第一;第二是脑科学和类脑科学研究。目前脑科学和类脑科学相关研究不断突破,在这个领域,我们已经与中国医学科学院、协和医学院、中国科学院神经所等众多研究机构进行了深度合作。
在上述两个方向上,科大讯飞都在持续突破。即使没有新的算法突破,以我们今天所掌握的技术成果,结合云计算、大数据和移动互联网,我们也已经可以改变一个又一个的行业。当前,我们已经可以让机器学习行业最顶尖专家的知识,未来达到行业一流专家水平,从而超越90%的普通专业人士,这就是今天我们面临的机遇。
NBD:科大讯飞目前的主要优势是语音识别领域,公司未来还有没有其他人工智能领域的计划?
刘庆峰:科大讯飞在语音合成、语音识别、口语评测、语言翻译、声纹识别、人脸识别、自然语言处理等智能语音与人工智能核心技术上代表着国际最高水平。
2014年,随着人工智能时代的到来,科大讯飞推出“讯飞超脑计划”,目标是让机器不仅“能听会说”,还要“能理解会思考”,从而实现一个中文认知智能计算引擎,未来将引领在家居、教育、客服、医疗等领域的智能应用。
2015年,科大讯飞重新定义了万物互联时代的人机交互标准,发布了对人工智能产业具有里程碑意义的人机交互界面——AIUI。
2016年,围绕科大讯飞人工智能开放平台的使用人次与创业团队成倍增长,带动超百万人进行双创活动。截至2017年6月,讯飞开放平台第三方的开发团队达到37.3万,每天的请求数达到37亿次,累计终端数达到14.7亿个,以科大讯飞为中心的人工智能产业生态正在持续构建。科大讯飞在智能语音、人工智能核心研究和产业化方面的突出成绩,得到社会各界和国内外一致认可,作为“中国人工智能国家队”已经形成共识。
●论前景:教育、医疗、司法等领域是主赛道
NBD:今年人工智能概念快速热起来,你怎么看待这种现象?有没有担心这种火热对人工智能技术的发展带来负面影响?
刘庆峰:此前有观点认为,同声传译将被人工智能取代,这其实是对新技术发展的高度神化,可能会对大众造成错误引导,不利于产业生态持续健康发展。现阶段,人工智能技术发展不需要“被神化”,技术发展乃至产品化有其自身发展的曲线,从技术走向市场,一定是在不断完善的过程中走向成熟。
目前,机器翻译已经取得非常大的进步,在衣食住行等常用生活用语上的中英翻译可以达到大学六级的水平,能够帮助人们在一些场景中处理语言交流的问题,但距离会议同传以及高水平翻译所讲究的“信、达、雅”还存在很大的差距。
讯飞一直所努力的,是希望通过语音转写和翻译技术帮助同传提高工作效率、减少失误,形成人机耦合的同传新模式,而非替代同声传译。
目前,人工智能技术的发展在感知智能和认知智能领域都取得了长足进步,在语音交互、智能评测、口语翻译等方面更是有突破性建树。
NBD:科大讯飞目前已经把相关技术应用到教育、医疗、司法等等领域,选择进入行业的标准有哪些?目前,同样做人工智能的公司有很多,但一些人似乎很难获得切入到行业场景的能力,科大讯飞在这方面有哪些经验?
刘庆峰:在这个时代,人工智能不再是概念,应用是硬道理。人工智能改变世界的过程,需要在一个又一个的领域来进行应用的创新,通过与领域专家的结合来获得行业的数据。这决定了人工智能产业不是一家公司可以包打天下的,必须建立产业生态。产业生态的好坏,建设的快慢,决定了一个企业或者一个国家的人工智能产业发展进程。所以,在人工智能领域,不是一个人跟另一个人的战斗,也不是单个企业与单个企业之间的战斗,而是一个体系和另一个体系、一个生态和另一个生态的竞争。
科大讯飞现在也确定了自己的生态体系框架:第一层是围绕讯飞超脑,各事业群、事业部主导的方向,这构成了我们的核心层,也是核心业务构成;第二层是一些探索性方向;第三层则是更大范围下,围绕科大讯飞核心技术的产业生态。我们会按照这个生态的道路不断向前推进。
NBD:目前包括百度等互联网公司也在做人工智能研究,并且部分板块和科大讯飞有重合,你如何看待这种竞争?科大讯飞有哪些优势?
刘庆峰:确实现在非常多的优秀公司都在做人工智能,每家公司有自己的特点,我们的优势是把我们最好的算法跟行业专家和行业数据结合,其他公司做人脸识别、视频识别,他们也都有自己擅长的领域,赛道各不相同。讯飞会把核心能力平台化地对外提供,我们选的主赛道有教育、医疗、司法、车载、客服这些领域,在这些领域,我们可以看到一个非常大的未来,而且我们可以占据很好的空间。
NBD:科大讯飞未来的战略的是什么?
刘庆峰:今年是科大讯飞成立十八周年,到2029年也就是科大讯飞成立三十周年。从“成人礼”到“三十而立”,2029年,每一个设备都将能听会说,人工智能将像水和电一样无所不在。2029年,讯飞将会怎样?我们的愿景是成为中国人工智能产业领导者和产业生态构建者,成为全球人工智能产业领导者,成为一家用人工智能改变世界的伟大企业。