近日、贵州省政府、清华大学和相关企业联合宣布,正在合作开展一项试点项目。该项目将人们独有的语音特征与身份证信息关联,以此创建并维护声纹数据库。
如今,在商场、银行、酒店、安检处最常见的识别方法是人脸识别技术。而声纹数据库的创建,意味着中国市场在生物技术方面正向语音识别发展。
语音识别发展渐趋成熟,未来或成生物识别主流方式
语音识别技术,也被称为自动语音识别(ASR)。其目标是将人类语音中的词汇内容转换为计算机可读的数据,如字符序列或二进制编码等。
早在计算机发明之前,人类就已开始了对语音识别技术的研究,早期的声码器即可看作是语音识别及合成的雏形。
中国的语音识别发展研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。
1986年3月,863计划启动,因为语音识别是智能计算机系统研究的一个重要组成部分,故而被专门列为研究课题。中国开始了有组织的语音识别技术研究。
当下,基于深度学习的语音识别系统已经通过海量的用户大数据训练得到一个通用的识别系统,在日常场合已经能够实现应用。技术的成熟以及广阔的前景使得许多互联网公司也纷纷入局语音识别领域。
去年12月,阿里巴巴宣布为上海全部地铁站的售票机安装语音识别技术,用以验证上班族的身份。科大讯飞也在安徽为医疗信息提供语音签名服务,同时为警方提供语音识别服务。此外,百度、腾讯也分别在语音识别领域有所动作。
语音识别技术很可能成为人脸识别技术后的下一个生物识别主流方式,并逐渐受到广泛的关注和消费级的应用。
语音识别技术基本成型,进展多处于应用层面
目前,语音识别技术基本成型,处于较为成熟的状态。例如在语音识别的Switchboard任务方面,最新的IBM已经能将错误率控制在5.5%之下,有经验的转写人员在这个任务中可以达到4%之下。这类安静环境下的语音识别系统已经近似于人类水平。
语音合成技术正被应用在更多领域。从原始的机器声音已经进化到能够发出自然人的声音的程度,甚至现在出现各种明星声音的语音助手。在语音识别方面,市面上已经出现了针对方言口音的语音软件。在语义理解方面,聊天机器人正处在迅速进化的过程中,甚至能够讲笑话。在语音唤醒方面,智能音箱等产品大量出现。虽然在这些应用中,许多产品并没有达到高层智能的水平,但也给语音识别技术指明了方向。
实际上,语音识别技术在发音规范且背景噪音可控的环境下,在很多年前就能够进入应用阶段。不少尖端系统在工程水平很高的情况下还可以做得更好,如早期的Siri及DARPA项目语音识别评测中的各种参赛系统。
在飞速进步过程中,仍无法避免遇到某些瓶颈
在强噪声干扰的情况下,目前的语音识别系统还很难达到实用化要求。在自然发音、噪声、口音等复杂条件下,语音识别的准确率明显下降。此外,语音的训练和测试用数据的匹配也并不十分契合。
想要解决环境复杂问题,除了高超的技术之外,声学模型自适应也是不错的方式。
例如在人类的听觉系统中,存在一种“鸡尾酒会效应”:人类在具有背景噪声干扰的情况下,依然能够将注意力集中在某一个人的谈话上。可以将人类听觉系统的这种功能赋予语音识别系统,但就目前的技术而言还很难实现。
同时,远场识别也依然是个充满挑战性的问题。当前,语音识别的远场错误率是近场的两倍左右。