标贝科技语音合成技术再升级，倾力打造AI语音极致体验--新•资讯 -- 新科技

标贝科技语音合成技术再升级，倾力打造AI语音极致体验

发表时间：2021年3月25日 14:27 来源：新科技责任编辑：U

2020年是智能语音交互技术加速落地的一年。防疫常态化的要求下，远程会议、在线教育、在线办公已成为人们生活中的标配，智能语音交互技术规模化发展由此得到了极大的推动。

为了赋予合成声音更丰富的情感表现力和个性化，打造AI语音极致体验，近期，标贝科技再一次进行语音合成技术“升级改造”，于3月25日完成TTS3.0版本的验收，正式上线标贝科技官方网站。

全新技术升级，让AI声音更富表现力

发音效果显著提升

标贝科技升级的TTS3.0技术采用全新的非自回归声学模型，在发音效果上有了显著提升，对不同角色和情感表达的判断更加准确，输出的音质稳定、清晰、顺畅，音色富有表现力；声码器则采用GAN结构，可以高效且真实的还原波形，增加了合成声音的真实质感。

多音字、停顿更加准确

此外，标贝科技TTS3.0在发音细节上也进行了优化。例如，基于Mask-based Model神经网络多音字模型，对所有多音字进行统一建模，提升了语音合成时多音字发音的准确率；在韵律方面，采用多任务的神经网络模型，利用韵律间的层次关系，在同一个模型结构下，对多个韵律等级进行建模，对合成语音在高低音和停顿的处理更加自然和流畅。

模型兼容

标贝科技本次TTS3.0使用了全新的声学模型和声码器，同时，保持了对TTS2.0旧模型的全部兼容，最大程度地保证系统服务的无缝升级，减少老客户升级带来的开发成本。

更多音色加持，助力语音场景快速落地

此前，基于海量语音数据的优势，在TTS1.0、TTS2.0技术基础上，标贝科技已经推出男声、女声、老人、童声等多音色，中文、英文、中英混读、小语种、方言等多语种的解决方案，并支持用户个性化的需求定制，可以满足大部分客户在车载、有声阅读、智能客服、新闻媒体、影视解说等多领域应用需求，并已与国内外百余家企业客户建立合作，服务项目累计超过500项。

本次TTS3.0技术升级，标贝科技经过多次大规模产品体验评测后，再次扩充音库量及场景化方案。在官方网站正式上线了9大音色，包括童声、青年男女生，深度覆盖有声阅读、语音交互、智能客服等领域更多场景需求。

与TTS1.0、TTS2.0相同，本次TTS3.0同样支持SDK 、流式/非流式API 、MRCP协议等对接形式，接口同步/异步调用，且整体合成速度较之前提升了1.6倍，全效助力各开发者快速落地声音场景应用。

丰富情感表达，助推有声阅读创作

近些年，我国有声书市场发展迅速，各大音频平台，阅读应用、视频网站甚至是传统出版行业也都尝试进入有声书市场。据相关资料显示，2020年中国有声书市场规模已达到了95.6亿元，同比增长50.3%。5G时代的到来，有声阅读必将引起更大规模的爆发。

标贝科技TTS3.0结合最新的语音技术、海量的文本和声学数据以及大规模计算能力，让机器的声音情感表现力更加真实自然，充分满足当下有声阅读场景的需求。

比如有声小说中，最难表达的人物情绪和对话，TTS3.0技术做到很多细节的处理，让合成的声音突出对话重音及语气，让人物情感表达更加细腻，犹如真人“配音”，使听众更直接明白小说情节，进一步享受听觉“盛宴”。

标贝科技作为一家聚焦智能语音交互和AI数据服务的企业，经过五年的发展，现已推出了AI数字虚拟人、智能客服、智慧媒体等一站式解决方案；在产品方面，推出标贝悦读、恐龙贝克两大C端产品，已经实现从原有的单点语音技术服务升级至语音、图像、虚拟形象等多技术模块融合的行业解决方案。

标贝科技TTS3.0技术升级，迎合了语音合成发展的新趋势，将智能语音应用提速增效，实现用户极致体验新突破。未来，标贝科技将继续深耕智能语音技术研究与发展，为更多语音合成应用场景提供服务。