从上面模型不难看出,声纹识别还是一种基于数据驱动的模式识别问题,因为所有模式识别存在的问题声纹都存在,而且声纹识别还有一些不太好解决的物理和计算问题。
声纹识别的唯一性很好,但实际上现有的设备和技术仍然很难做出准确分辨,特别是人的声音还具有易变性,易受身体状况、年龄、情绪等的影响。若在环境噪音较大和混合说话人的环境下,声纹特征也是很难提取和建模的。 现阶段,远场声纹识别理论并不成熟,研究进展也不大。
陈孝良认为,深度学习带给模式识别极大的提升,甚至还有开源的相关算法,但是声纹识别的研究进展仍然不大,这仍然受制于声纹的采集和特征的建立。
声纹识别提供商SpeakIn资深科学家陈东鹏博士谈到,从声纹识别这一单项技术来讲,容易受到真实环境下的各种影响,包括:噪音问题、多人说话、身体状况、情绪影响等,现在确实很棘手。包括他们在内的一些公司也在大力通过软、硬件算法去优化这些行业通用问题,在深度学习的加持下,整个行业的进步也比以往更快。陈博士补充到,声纹识别只是一个环节,效果判断还需看产品本身和使用场景等因素。
在产品层面,刚刚发布“小雅”智能音箱的喜马拉雅表达了他们的看法。喜马拉雅副总裁李海波表示,对于声纹识别的应用,公司内部也攻关了很久,但无法做到完全准确,目前还只是实验阶段,效果一般。
在谈及阿里天猫精灵时,他讲到,远场语音识别通常在三米到五米内有效,降噪是在70dB左右,环境噪音和音响声音大于这个标准就很难唤醒。而远场声纹识别在同等距离下就更加不稳定,目前客厅、电视机、厨房、床头是智能音箱的四个常用场景,而除了床头外,其他三个常用场景实际距离通常情况均超过三米,所以阿里音箱声纹识别的具体实用性还不可得知。
至于亚马逊Echo为何至今还没用这个功能,李海波认为该技术还不成熟,虽然很炫但风险很大。
另外,Sensory公司的CEO Todd Mozer也认为对Echo这样的远场语音设备来说,识别谁在说话是很困难的。随着信号/噪声比例提高,设备的表现随之变差。
“降噪和从噪声中分离语音的处理对于用户身份的识别有非常大的影响,目前为止,市场上还没有产品同时处理好用户身份识别,远场语音和噪声处理。”Mozer说道。
再从远场声纹识别的实际应用情况来看,中科院自动化所、极限元资深智能语音算法专家刘斌向雷锋网谈到了他的看法。刘博士表示,远场语音识别受到噪声、回声、混响的干扰,无论是语音识别还是声纹识别都很具有挑战性。
目前远场语音识别可靠的识别距离大约是3-5米;对于声纹识别还要更难一些。因为语音识别的目的是理解语音信号中的言语内容,言语内容信息跟共振峰高度相关,共振峰主要集中在低频带,语音信号低频带能量较高,受外部干扰相对较小,而说话人相关特征更多集中在高频带,语音高频带能量相对较低,更容易收到各种干扰的影响,因此远距离声纹识别更具挑战。他随即说到,因为每个人说话特征会随着不同因素而变化,例如感冒时发音跟正常时肯定有所差异,所以近场声纹识别还不敢保证特别成熟,远场条件下肯定不太容易实用。总体来说,对于大多数用户,声纹识别应用于智能音箱并不是刚需,从技术角度分析,声纹识别尚不成熟。
那么,相比远场语音识别来说,更加不成熟的远场声纹识别技术为何会被阿里急着应用到音箱中呢?
除了用此技术满足用户的个性化需求寻求差异化抢占市场外,刘博士还提到,介于阿里在电商领域的一些积累和优势,应用在电商身份认证也是阿里重点推进的方向。
阿里基于淘宝、天猫巨大的资源优势将购物场景引入音箱中听上去无可厚非,但从之前亚马逊将此场景应用在Echo上来看,用户用其购物的使用频率并不高,使用体验也不理想。