2020年是智能语音交互技术加速落地的一年。防疫常态化的要求下,远程会议、在线教育、在线办公已成为人们生活中的标配,智能语音交互技术规模化发展由此得到了极大的推动。
为了赋予合成声音更丰富的情感表现力和个性化,打造AI语音极致体验,近期,标贝科技再一次进行语音合成技术“升级改造”,于3月25日完成TTS3.0版本的验收,正式上线标贝科技官方网站。
全新技术升级,让AI声音更富表现力
-
发音效果显著提升
标贝科技升级的TTS3.0技术采用全新的非自回归声学模型,在发音效果上有了显著提升,对不同角色和情感表达的判断更加准确,输出的音质稳定、清晰、顺畅,音色富有表现力;声码器则采用GAN结构,可以高效且真实的还原波形,增加了合成声音的真实质感。
-
多音字、停顿更加准确
此外,标贝科技TTS3.0在发音细节上也进行了优化。例如,基于Mask-based Model神经网络多音字模型,对所有多音字进行统一建模,提升了语音合成时多音字发音的准确率;在韵律方面,采用多任务的神经网络模型,利用韵律间的层次关系,在同一个模型结构下,对多个韵律等级进行建模,对合成语音在高低音和停顿的处理更加自然和流畅。
-
模型兼容
标贝科技本次TTS3.0使用了全新的声学模型和声码器,同时,保持了对TTS2.0旧模型的全部兼容,最大程度地保证系统服务的无缝升级,减少老客户升级带来的开发成本。
更多音色加持,助力语音场景快速落地
此前,基于海量语音数据的优势,在TTS1.0、TTS2.0技术基础上,标贝科技已经推出男声、女声、老人、童声等多音色,中文、英文、中英混读、小语种、方言等多语种的解决方案,并支持用户个性化的需求定制,可以满足大部分客户在车载、有声阅读、智能客服、新闻媒体、影视解说等多领域应用需求,并已与国内外百余家企业客户建立合作,服务项目累计超过500项。
本次TTS3.0技术升级,标贝科技经过多次大规模产品体验评测后,再次扩充音库量及场景化方案。在官方网站正式上线了9大音色,包括童声、青年男女生,深度覆盖有声阅读、语音交互、智能客服等领域更多场景需求。
与TTS1.0、TTS2.0相同,本次TTS3.0同样支持SDK 、流式/非流式API 、MRCP协议等对接形式,接口同步/异步调用,且整体合成速度较之前提升了1.6倍,全效助力各开发者快速落地声音场景应用。
丰富情感表达,助推有声阅读创作
近些年,我国有声书市场发展迅速,各大音频平台,阅读应用、视频网站甚至是传统出版行业也都尝试进入有声书市场。据相关资料显示,2020年中国有声书市场规模已达到了95.6亿元,同比增长50.3%。5G时代的到来,有声阅读必将引起更大规模的爆发。
标贝科技TTS3.0结合最新的语音技术、海量的文本和声学数据以及大规模计算能力,让机器的声音情感表现力更加真实自然,充分满足当下有声阅读场景的需求。
比如有声小说中,最难表达的人物情绪和对话,TTS3.0技术做到很多细节的处理,让合成的声音突出对话重音及语气,让人物情感表达更加细腻,犹如真人“配音”,使听众更直接明白小说情节,进一步享受听觉“盛宴”。
标贝科技作为一家聚焦智能语音交互和AI数据服务的企业,经过五年的发展,现已推出了AI数字虚拟人、智能客服、智慧媒体等一站式解决方案;在产品方面,推出标贝悦读、恐龙贝克两大C端产品,已经实现从原有的单点语音技术服务升级至语音、图像、虚拟形象等多技术模块融合的行业解决方案。
标贝科技TTS3.0技术升级,迎合了语音合成发展的新趋势,将智能语音应用提速增效,实现用户极致体验新突破。未来,标贝科技将继续深耕智能语音技术研究与发展,为更多语音合成应用场景提供服务。