国家主席习近平同巴西总统罗塞夫共同出席百度葡语搜索引擎发布仪式
巴西当地时间7月17日,国家主席习近平同巴西总统罗塞夫举行会谈,并共同出席百度葡语搜索引擎发布仪式。中巴两国元首共同按下键盘,正式启动百度巴西葡语版搜索引擎。在两国元首的共同见证下,百度董事长兼CEO李彦宏在现场输入了首个葡语版搜索关键词“Brazil China”。两国元首见证一款互联网产品的发布在互联网历史上前所未有,这体现了两国对互联网技术的尊重和认可,也让百度变成了代表中国互联网技术创新的“大使”。百度凭什么获得中巴两国元首的“最高礼遇”?除了给巴西带来葡语搜索引擎,百度还能为足球圣地带来什么?在海外市场,百度又将如何与Google竞逐?
葡语搜索:国礼背后的技术创新输出
技术创新输出已成为正在快速转型创新国家的中国未来对外经贸和外交的重点方向,巴西作为金砖成员,同时还是继中印等国家之后的下一代新兴市场,科技又是新兴市场的推进器,正是这些原因让百度这一最具技术基因的互联网企业有幸享受“高规格”待遇。
百度葡语搜索研发已启动数月之久,在此之前百度先后发布泰文搜索和阿拉伯语搜索,在更早之前的08年百度还高调进入日本市场。此外,百度贴吧、Hao123、百度安全客户端、百度浏览器等产品均已推出泰文等外文版本。贴吧海外MOU高达3000万,其中来自巴西的就有1500万,正是在这一背景下,百度决定进军巴西市场。
今年4月,罗塞夫通过非官方渠道了解到百度开拓巴西市场的消息后,表示了极大的兴趣。这个“兴趣”无疑会让百度进军巴西市场少了许多障碍。百度能引起巴西元首关注,因为它是中国互联网巨头之一且是其中唯一一家技术驱动的互联网公司。百度早已是最大中文搜索引擎,但一直对全球化市场和多语种搜索蠢蠢欲动,在海外研发中心、海外人才招募、海外市场开拓、海外业务支撑上都有多重布局。
能在习主席访巴期间的历史时刻公布百度葡语搜索,正是百度的国际化节奏遇到了这样的“好时刻”,让百度国际化战略浮出水面的姿态更具历史纪念意义。
搜索引擎是一门“语言科学”。一方面它的索引系统爬去全网内容,这些内容是给人看的,索引系统进行清洗、组织、解析、分词和构建索引;更重要的一点是,搜索系统要理解用户Query并匹配结果。用户Query正在自然语言化,还可以是语音。搜索结果不再是简单的超链接,而是轻应用、直达结果、多媒体内容、知识图谱的合辑,搜索引擎发展过程实际上是其“语言处理能力”的提升。
百度在中文自然语言处理上的优势不必多说,Google曾有机会与之比肩,退出中国让其在中文搜索上错失近5年时间。不过,百度要把中文领域积累的优势复制到新的语种并不容易。
经过笔者分析和调查,百度开发葡语搜索引擎有几个难点和破解之道:
1、语种差异带来的NLP算法挑战。葡语属于屈折语,和中文孤立语相比有大量形态变换,构词、句法等方面上有很大差异。要理解葡萄牙语还需要基于面向中文自然的系统进行改进。
如何破?百度NLP(自然语言处理系统)分析透彻语言特点,在大数据环境下运用统计方法快速定位差异、总结规律,制定出有针对性的语言分析手段,解决语种差异上的“初识挑战”。
2、积累空白背后的语料词库缺乏。搜索引擎不断积累全网内容、Query请求以及基于此分解的词库、语料和算法。搜索引擎具有生命,随着时间流逝而进化。与百度已深耕15年的中文搜索不同,在葡语搜索引擎领域百度没有这些数据积累,需重头来过。在泰文、阿拉伯文这些语种上都有类似问题。
如何破?吸引国际优秀人才加入百度NLP团队,找到对的大牛;通过机器学习模型和自然语言技术的大规模应用,在海量小语种网页文本中提炼精华,弥补数据积累短板;百度在早期各项技术研发中有考虑未来多语种可能性,搭建了可扩展、可迁移和国际化的技术框架,这个系统缩短了小语种NLP基础技术建设周期。
3、市场差异对产品、运营和推广带来新挑战。葡萄牙语是世界第六流行语种,使用它的国家和地区包括葡萄牙、巴西、安哥拉、中国澳门、西班牙等。每个国家和地区都有本地化的市场特点和用户习惯,进而对产品、技术和运营提出不同要求。
如何破?百度技术和产品团队已经习惯的中文搜索思维需要推到重来,不能预先假设,必须分析当地语言特性、市场特点、用户反馈,同时聘请专业语言专家做跨界研究,制定更合理、更通用的技术方案。
Google横亘在前,百度破局靠NLP
百度进入巴西以及葡萄牙语搜索市场还有一个大难题:Google。巴西目前搜索市场亟待开拓,但Google早已进军葡语搜索和巴西搜索市场。百度引以为豪的NLP技术、深度学习技术,也是Google的强项,说到底最后还是回到百度与Google在新的战场PK技术的问题。
从海外舆论来看,百度NLP技术并不比Google弱。7月7日,在37届信息检索领域世界顶尖学术会议SIGIR会议上 ,百度副总裁王海峰做了题为 “Chinese SearchEngine - Baidu's Practice”报告,这场演讲引起了广泛关注,很多人问及关于深度问答、知识抽取、智能交互等这些技术百度是如何实现、如何应用的,即使是Google,也尚且未将这类前沿技术大规模应用于搜索产品,外界惊讶于百度在搜索引擎产品中的应用,并已提升了用户体验。6月底,在全球自然语言处理顶级学术会议ACL上,6位百度人赴美参加。王海峰更是在2013年,出任ACL五十年历史上第一位华人主席。无疑,如今的百度已经走在NLP最前沿。
从百度内部程序猿获悉,即使暂时没有葡语的用户行为数据积累,但百度可通过机器学习和大数据技术将葡语的Query改写、需求分析技术做到与谷歌比肩。在中文NLP上行之有效的方法,比如基于矩阵分解的新词发现、序列标注模型分词、模版分析的query需求识别方法已被快速应用到葡语当中。
在此之前,百度先后推出日语、泰语和阿语搜索。泰语、阿语、葡语、中文和英语看似差异巨大,但有千丝万缕的联系,比如葡语的形态变换、句法结构和英语有很多类似之处。人类语言的共同点,为NLP充分复用现有技术,迅速搭建技术框架、提升技术效果提供条件。语言处理是一门学科,理论和算法本质一样的,面向不同语言处理差异化特征即可。NLP和技术无国界,百度在NLP的积累依然有效。
圈子内人士都知道百度NLP团队是世界领先的NLP技术团队之一。除了发表了大量Paper、支持了众多研究项目而在学术界拥有很高知名度外,百度NLP技术相对更加接地气,注重实用性和工业价值,强调技术为产品服务。实际上Google和百度风格一直迥异:当Google在鼓捣无人汽车、Google Glass等酷玩意儿的时候百度正在做阿拉丁计划、地图、O2O、金融这些更“接地气”的业务,以及诸如贴吧、知道等接地气的产品,正是贴吧产生了“屌丝”这一词。Google更加多元,百度更加专注。
百度能否在巴西击败Google还有非常重要的一点:除了在中巴两国元首见证下高调亮相,百度与巴西科技创新部的合作内容还包括,百度将在巴西建立世界级企业研发中心,为巴西互联网科技提供创新性解决方案,加强培养互联网科技人才,支持巴西创业公司等。巴西十分需要百度,会给予百度相应支持。
从国际化战略上看,巴西人口众多、经济即将迎来爆发式增长,发布葡语搜索确实是百度海外战略的一个里程碑式的事件,预示着百度在海外市场不仅掀开了新的篇章,而且像与政府合作、技术输出实现国际信息技术合作,也走出了真正凭借技术实力的海外模式。假以时日,百度与Google在其他多国的PK和较量,势必引发全球搜索引擎市场更大范围的格局变化。业界在关注百度葡语搜索上线消息本身的同时,资本市场也势必会对百度市值的增长空间开始新的想象。