外媒近日报道称,微软正着力发展所谓自然交互科技,语音识别就是其中重要一环。
英特尔[微博]在今年1月份举行的美国消费电子展上就曾宣布,将在今年推出的超薄笔记本电脑Ultrabook上采用一种新的语音控制技术。
在这些科技业大佬的背后,有一个名字不得不提:Nuance。
不仅仅是苹果和三星[微博]旗下的热门智能手机产品,航空公司甚至是顶级银行的自动呼叫中心也有着它的身影。Nuance是一家语音识别技术公司。
研究机构Research and Markets近期发布报告称,语音识别市场的主流趋势之一,是“声音密码”越来越广泛地被使用。
“一般的密码很容易被记住,但同时也容易被破解,这带来了安全方面的威胁。”该报告说,因此各大组织开始越来越频繁地使用生物密码——往常的符号被人们的声音所代替,声音变成密码并作为身份认证的依据。
更重要的是,声音还拥有一个显著优点——无法被复制。
根据该公司的研究,这一市场的主要驱动因素之一,是对基于语音的生物识别或身份鉴定技术的需求。但目前主要的挑战就是缺乏系统准确性。语音识别设备对嘈杂的环境极为敏感,这降低了准确率。
不过,爱尔兰联合银行从2008年开始就尝试通过声音来鉴定员工的身份。VoiceVault生物测定系统能够捕捉“语音痕迹”,该系统能识别打电话者的声音,而后,还可以帮助用户进行重置密码等工作。
用途可不局限于帮助员工修改密码,在此之后,越来越多的金融服务公司也开始使用这种系统打击欺诈行为。
语音也可以“计算”
自然输入方法从一开始便是个人电脑行业的一大圣杯。在创建公司不久后,微软CEO比尔 盖茨便开始寻找除了键盘和鼠标之外的,可以将数据输入电脑的方法。
盖茨认为,一定有某些本质上是“奇怪的”输入设备,最终会被人们接受。
2010年,微软Kinect来了,手势输入从此风靡。
但是声音难以捉摸。声音同时可被用于控制或翻译,不过人们对语音转为文字的精确度要求极高。海外媒体称,按照目前的技术水平,一页有300个英文单词的文件中,平均每页有3个错误,尽管正确率超过90%,但剩下的那小部分仍需长途跋涉。
不过,在罗杰 凯看来,计算能力已经变得更强大,语言数据库也变得更加庞大。
依靠这些工具,类似Nuance这样的公司已经几乎转向统计学方法。与其依靠语言模型这样的老方法,商业性语音公司已经开始在他们的产品中采用关键字检测以及基于规则的技术。
换句话说,基于资料库和快速计算能力,它能够确定一个单词后面跟着某个特定单词的几率,而不在意语法联系。
“你不必在意乔姆斯基教授语言和意思的结构性,你可以用数学的方法来实现它。”罗杰 凯说。
语音识别是第一步,之后,分析则是一项难度更大的工程。
尽管基于人工智能和语音识别的语音个人助手并不鲜见,安卓平台便同样有类似的程序如Voice Actions,但Siri的风靡证明只是语音识别技术是不够的,它还是一种人工智能形式,如今的系统还需要更强大的自学能力。
去年末,投资银行Piper Jaffray的分析师设计了800道语音问答题,考察苹果Siri和谷歌Google Now的水平,结果后者获得了进步最快奖。