人机大战对决尚未结束,一条关于“阿法狗不敢挑战麻将”的段子便火了起来——
“为什么阿法狗不敢挑战麻将?因为一个阿法狗挑战三个人类,一点胜算没有;两个阿法狗挑战两个人类,不要以为势均力敌,我一个眼神就知道朋友要什么牌;三个阿法狗……三个阿法狗太贵了。”
虽然是玩笑,不过却也能从中窥探到当前人工智能发展过程中面临的挑战。尽管谷歌AlphaGo 2:0胜李世石的比赛结果让很多普通网友大呼惊讶。然而对于众多科技发烧友而言,这仅仅表明,在可以凭逻辑分析推算的问题上,机器开始可以把人类抛在后面。
试以下围棋为例,无论围棋的回合和局面有多么复杂,它都是在封闭规则下的单一任务,不涉及思维、对话和情感。而一旦比赛换成麻将,正如段子中所言, “我一个眼神就知道朋友要什么牌”,对于眼神这样的情感交流,或者是其他对话的沟通,处于弱人工智能阶段的谷歌AlphaGo显然无法理解。
那么,当前人工智能的发展是否仅仅停留在这类和人类智力博弈的游戏竞技上?
答案是否定的。
很多科学家已经将目光着眼于更高层次的强人工智能,其中的典型代表便是百度正在深耕的语音搜索。
语音搜索并不只是一种简单的AI技术,而是将多种人工智能技术整合起来的典型应用,包括语音识别、自然语言处理(对语言的理解)、对数据的挖掘和呈现。其相较于下围棋这种单一问题、封闭规则的任务要复杂得多,因为思维、对话、情感等都是不确定的,多轮对话更是典型。
比如,当你打开手机百度,按住下方的麦克风向它询问一系列问题,百度语音搜索会根据语义和语境与用户进行多轮对话互动。
l “北京今天几号限行?”
“北京今天限行尾号为1和6。”
l “几点到几点限行?”
“早七点至晚八点限行。”
l “明天呢?”
明天限行尾号为2和7。”(注:如果无法实现多轮交互,则往往会回答“星期五”)
l “后天呢?”
“后天不限行。”
按住下方蓝色麦克风,即可与百度语音搜索进行多轮对话
搜索引擎能够完成与用户多轮对话,需要像人与人之间的交流一样,要基于上下文理解用户的意图。要做到这一点主要是技术挑战大——毕竟,机器识别单句自然语言的语义都不容易,而基于上下文等于要不断记录交互过程,要知道人类有时候都“跟不上”别人说话。
目前,百度基于深度学习的Deep Speech技术部分实现了多轮交互,这种语音识别技术甚至超过了微软和Google。在最近《麻省理工科技评论》公布2016年十大突破技术中,百度还凭借领先的语音交互技术登上榜单。通过深度语音识别系统,百度将人们从传统的利用触摸屏输入汉字发出指令中解放出来,实现语音支配搜索。在帮助年轻用户更好地获取所需同时,也为中老年人以及教育落后地区用户平等享受技术发展提供了契机。
除了多轮交互,百度语音搜索让人瞩目的地方还在于它并非简单的语音识别,而是包含着对需求的理解和对数据资源的理解。比如当你向它询问“今天有风吗”,文字输入会呈现6天详细的天气预报,而语音搜索不仅会呈现天气预报页面,更会语音回答用户“北京今天微风”。再比如当你询问“我要看电影”时,百度搜索能够真正识别这类语言表达背后用户的真实意图,给用户提供附近电影院的团购服务。之所以存在这样的区别,便是百度准确理解了语音背后的需求,结果的交付便更加智能了。事实上,只有语义理解的突破,语音识别才能脱离桎梏,获得质的飞跃。
不同于文字搜索,语音搜索在出现搜索结果页面后还会进行语音播报
百度语音搜索可以理解用户需求提供电影购票服务
“未来五年用户的移动需求会发生质的变化,” 百度董事长兼CEO李彦宏表示,通过语音、图像等非文字形式表达的用户需求将超过50%。而作为交互方式,语音识别在物联网、智能硬件、自动驾驶等等领域,都将发挥重要作用。凭借能同时提供服务内容和智能技术的独特价值,百度一方面将极大地方便着、影响着每一个普通人的生活,另一方面也助推中国人工智能迅速跻身世界第一梯队,为全球AI带来更多想象空间。