产品介绍页则系统展示了「机器翻译API」、「视频字幕翻译」、「智能同传」等火山翻译旗下的优质产品,此外还提供了「网页翻译-浏览器插件」等应用的体验入口。火山翻译面向B端客户的相关服务能力也已集成在火山引擎智能应用板块当中,为更多客户提供企业级的技术产品与解决方案。
火山翻译官网在线翻译页,支持55个语种全语向互译
翻越“三座大山”,打造多语种、大量级服务的技术能力
强大的翻译应用背后离不开火山翻译团队的算法科学家、工程师团队历时数年的努力。在完整服务日均过亿次调用的基础上,团队追求支持更多语向、提供更好的翻译服务。
语种扩展,支持55门语言互译
这一年,火山翻译在翻译语种扩展上持续发力,从最初的几门语言,到现今支持55个语种、2970个语向之间的互译。其中包括马其顿语、斯洛文尼亚语、乌尔都语、旁遮普语等小语种。
在训练机器翻译模型的过程中,火山翻译团队成功翻越了“三座大山”:
1. 涉足冷门的翻译领域
某些翻译领域的鲜见性加剧了模型训练的难度,尤其是「泛娱乐场景」这样具有高度不规范性和娱乐性的翻译领域。对此,火山翻译综合运用「NMT领域适应、领域数据增强、大模型学习、多领域模型」等更多领域的方法,结合各领域的特点进行优化,攻克了领域冷门问题带来的算法优化障碍。
2. 部分语种平行数据匮乏
「语种数量多、小语种的平行语料匮乏」一直是训练机器翻译模型工作中的痛点。在平行数据稀缺的情景下,火山翻译的工程师们使用基于「自研Fluid平台」的半监督训练体系,开展多语言的预训练工作,成功构建出了「多语言」翻译模型,攻克了平行数据缺乏而造成的模型效果不佳、翻译性能不达标等技术难题。
基于Fluid平台的半监督训练
层次化建模
3. 服务量级大
“业务的奔跑中资源永远是不够的”。在算法的训练和优化进程中,由于GPU资源的紧缺,待训练的语种数量却很庞大,火山翻译团队亟待提升GPU的利用率来应对棘手的挑战。对此,团队使用了「多语言翻译模型」来整合资源,同时进行多个长尾语种的训练,将资源利用率大大提升,成功满足大量级服务的需求。
专业评测,火山翻译获国际比赛冠军
不断打破语种表现的天花板,持续迭代提升各语向翻译质量,火山翻译在国际舞台上表现出不俗的竞争力。