赵世奇说:「百度考霸现在还达不到理想中的终极智能,但绝对是重要的第一步!」
世界是我们的,也是你们的,但归根到底,可能是学霸的。试想一下,一个人作为哈工大博士,明明是个研究自然语言处理的血统纯正的理科男,居然拿过全国大学生辩论邀请赛的最佳辩手;再试想一下,一个人曾经因为过于优秀而被请到比尔·盖茨家参加晚宴,然后他去了百度工作,百度公司董事长兼 CEO 李彦宏亲自担任他的导师。最后,再试想一下,这些情况全都发生在一个人身上……怎么样,是不是有种瞬间被智商压制了的感觉。
不过这位名叫赵世奇的学霸说了,不用惊讶,他只是把你们玩手机的时间用在了研究手机应用上而已……是的,在你们忙着用手机赌球的这个夏天,他的研究再一次推动了人类的学霸进程——赵世奇和他的团队发明了一款能够「人机对话」的轻应用——百度考霸。
百度考霸上线半个月就帮助超过 54 万高考生选择他们心目中理想的大学,并且每日的用户数量正在飞速增长。
近日,赵世奇「最佳辩手」的属性突然开启,不仅接受了我们的采访,更是详细介绍了百度考霸的诞生历程、应用特色、技术优势等,为我们揭秘这款在学生和老师眼中都颇具魔力的产品。最令我们惊讶的是,学霸做考霸的灵感,居然来自于高帅富《钢铁侠》。
赵世奇就是个学霸!
Q:听说你就是个「学霸」?
A:其实跟大家的上学经历都差不多,只不过我可能更喜欢自己的专业吧。我是 2000 年考入哈尔滨工业大学计算机科学与技术学院的。然后在大四的时候我被保研,2006 年,我开始硕博连读,也是从那个时候开始接触自然语言处理的。在这期间我还去微软实习过,也是我们校辩论队的成员,还代表我们学校参加过全国的大学生辩论赛。
我个人对搜索引擎的技术是十分感兴趣的,被选为哈工大信息检索实验室「复述与翻译组」的组长,和 10 位同学一起开展了一些科学研发,比如参加「863」文本分类评测,与 NEC 中国研究院合作研究网页地理信息抽取等。
Q:李彦宏还亲自担任你的导师?
A:其实能进百度是一件让我特别开心的事,我主要研究方向是自然语言处理,所以我对自然语言交互式搜索很感兴趣,而百度又是全球最大的中文搜索引擎,可以说是我最理想的工作场景。我是 2009 年进入百度的,当时心情特别激动,因为一想到日后自己的研究成果可能会被几亿人使用,就有种说不出的成就感。
进入百度工作之后,我更加确信我的选择是正确的,因为百度自然语言处理团队是世界级水平的。Robin(李彦宏)还有王海峰老师都给了我精心的指导,尤其是王海峰老师,他是业界自然语言处理领域领军人物之一,让我受益颇丰。在外界看来,Robin 是百度的 CEO,王海峰是百度的副总裁,但其实他们给我的印象,并不仅仅是成功的商业领袖,他们从骨子里对技术就有一种热爱与执着,用你们的话说,他们两位也是学霸。
Q:听说你还去过比尔·盖茨家?
A:那是更早之前的事了,大概是 2007 年,我那时候在微软亚洲研究院实习,然后很幸运的被选中参加了盖茨家的宴会。宴会是美国自助餐形式的,邀请了 300 个人,包括来自亚洲的 10 个人。进入盖茨家之前还要通过安检,他家很大,有草坪、游泳池、花园、小溪,还有一个很漂亮的池塘。我当时就在想,盖茨的很多决策会不会就是在这个池塘边想出来的。
当时大家都很拘谨,没人说话,所以我就第一个站起来向盖茨提问了,我问的是他如何看待中国的学者在计算机领域的成就?他当时回答说中国的学者已经做得非常棒,尤其是图像、视觉这类的多媒体方面让他印象深刻。我当时就在想也许很快我们在自然语言处理领域的成就也会让他刮目相看。
Q:为什么要做「百度考霸」这样一款产品?是想别人也变成学霸吗?
A:之所以想做这样一款产品,其实是受到了《钢铁侠》的启发,电影里那个电脑系统笨笨,它虽然笨、虽然不完美,但是它能够和钢铁侠进行流畅而拟人的对话,甚至能通过自我学习最后救钢铁侠一命。我当时就觉得,我在百度自然语言处理部的主要研究方向不就是对话式搜索吗,这种炫酷的交互模式我完全可以开发出来啊,而且它很有可能是是未来人机交互的终极形态。
所以,后来我们就开始探索「对话式搜索」,当然,不是要做一个只会讲脏话、说笑话的「傻系统」,而是做一款真正能帮到人类的系统。所以,我们选择了高考这个领域,因为这个领域不是随便聊两句就能满足需求的,必须实打实的能解决问题才行。
百度考霸有多聪明?
Q:你觉得百度考霸和市面上其他报考咨询类产品有什么异同呢?它最大的亮点在哪儿?
A:相同点是都可以查询省分数线、大学分数线、专业分数线;进行特色的大学和专业查询等等,可能百度考霸的优势在于它还可以进行大学的评价和对比、测试自己适合报考的专业。另外,百度考霸有很多高考咨询产品不具备的特色,比如,它允许用户用自然语言灵活的进行「询问」,而不是进行各种表单的复杂操作;用户只要用日常对话的形式对它进行询问,百度考霸会展现精准答案,而非长篇大论,其中很多知识都是自动挖掘生成的,在网络其他地方找不到。百度考霸在对话的过程中会记住用户的个人信息,明白用户对话的逻辑。
百度考霸支持用户进行多轮交互,例如当用户搜索「清华大学 2012 年的分数线」,然后又问「那北大呢」,则系统会自动生成北京大学 2012 年的分数线。
Q:据说百度考霸用了目前自然语言处理领域很多先进的技术,那具体都有哪些技术呢?
A:百度考霸的核心是 NLP 技术。NLP 就是自然语言处理,旨在理解人类语言、处理人类语言。NLP 有很多研究方向,比如,通过语义解析,百度考霸可以分析出诸如「清华大学 2012 年在辽宁的理科分数线」这样的复杂长问题里语义成分以及各成分之间的语义关系。通过情感分析,百度考霸会从大量的页面中抽取出评价性的句子,进而自动识别评价对象、评价词、评价极性(正或者负),并最终对结论进行汇总。通过指代消解技术,百度考霸可以在用户提问「清华大学 2012 年的分数线」,然后又问「那北大呢」时,自动理解后一个问题里缺少的「2012 年的分数线」这一内容。这些技术不都是我们一个组做的,而是吸纳了 NLP 部门很多其他同学的工作。
Q:以往的搜索都是给人以线索的,此次百度考霸的搜索结果实际上却是在帮用户做决策,您认为这种直接搜索决策的方式,会是未来搜索的主流吗?
A:我觉得会。因为现在生活节奏越来越快,人们的耐心是在下降的,所以他们渴望最大程度的降低搜索成本,这时传统的搜索模式就不能满足他们的需求了。用户未来希望的搜索引擎一定要能够理解形式随意、语义复杂的查询,且能直接展现最精准的结果。
Q:百度考霸从上线到现在已经拥有超过 50 万用户,这么多用户会不会跟你们交流一些有意思的事?
A:我们每天确实能收到很多用户的反馈,其中我印象很深的一件事是,在高校对比时,某所高校的院士数量这一数据我们更新的不及时导致有误,该校的副校长亲自给我们发邮件,很认真的指出了这个问题。这种严谨的工作态度也让我们督促自己要更努力的把每一个细节都做好。
Q:目前也有一些专家对百度考霸从数据库里抽调的信息是否具有时效性提出疑问,对这种说法你怎么看?
A:这个问题是不存在的,因为百度考霸的知识库,是通过各种信息抽取技术从结构化页面、半结构化页面、甚至纯文本页面中抽取出来的,中间用到了多项信息抽取技术。我们的知识库是会不断更新完善的,而不是一成不变的使用着去年或者更早的数据。可以说相关权威部门掌握的数据有多新,百度考霸的数据就有多新。
Q:除了高考这一教育领域,百度的自然语言对话式搜索技术下一步会尝试别的领域吗?
A:高考报考领域只是第一步,未来还会挖掘更多类似的场景。把我们掌握的 NLP 技术平移到这些场景,用智能交互的方式,给更多的领域做决策参考。
我认为,自然语言对话式搜索将成为一种趋势,因为随着语音技术的成熟和智能硬件的发展,人们要在人机交互中解放双手、解放眼睛,只需要与搜索系统聊天即可实现对信息和知识的搜索。目前,自然语言处理和人工智能技术正处在一个爆发临界点上,未来,我们也许还会有「食神」、「麦霸」、「货郎」等等,帮助人们在衣食住行的各个方面提供贴心、全面、精准的信息和服务。