您现在的位置:首页 >> 新•资讯 >> 正文
火山翻译年度盘点:年底每天“干活”1.38亿次
发表时间:2021年2月13日 21:58 来源:飞象网 责任编 辑:麒麟

在2020年国际机器翻译大赛(WMT20)上,火山翻译团队在39支参赛队伍中杀出重围,以显著优势在「中文-英语」的关键语向翻译项目竞赛上拿下了世界冠军。此外,火山翻译还拿下了「德语-英语」、「德语-法语」、「英语-高棉语」和「英语-普什图语」语向机器翻译项目的冠军,更斩获了平行语料过滤对齐项目普什图语和高棉语的两项第一。

历年比赛中,「中文-英语」语向的翻译任务都是参赛队伍最多、竞争最为激烈的机器翻译任务之一。火山翻译作为一只年轻的团队,参加了「非受限场景」的比赛——即在给定测试集的情况下,允许使用任何数据和方法探索翻译效果极限的比赛方式。同时,组织方也引入了四个权威的在线机器翻译商业系统(Online-A、G、Z、B)作为对比。这种比赛模式被认为是“最能体现翻译团队数据和算法综合能力”的场景。经过比赛组委会邀请的语言专家的系统评估,火山翻译以明显的优势夺得了该项冠军。

WMT20 中英翻译前几名系统得分,火山翻译排名第一。Ave.z代表人工评估标准化分数,也是目前机器翻译最受认可的指标。

相比「中文-英语」语向,「德语-英语」语向则是WMT比赛上的传统项目之一,也是最受欧洲国家的代表队们关注的竞赛语向。在「德语-英语」比赛最后的人工评价环节中,火山翻译依然表现出杰出的技术水准,拿下第一名的成绩。最终,国际机器翻译大赛的组委会对于团队给出了很高的评价,“作为新的参与者,火山翻译表现尤为出色(particularly well),超越了很多传统队伍”。

下图为火山翻译和谷歌翻译在各语向测试集上的表现对比信息,横轴为语向信息,纵轴展示了BLEU值的差值。从图中的数据可见,在左侧棕色区域表示的多数语向上,火山翻译模型的自动评估结果均高于谷歌。其中「日语-中文」、「印尼语-英语」、「中文-日语」三个语向更是比谷歌翻译高出了10个BLEU值以上。(注:BLEU全称Bilingual Evaluation Understudy,是最广泛使用的机器翻译自动评价指标)

火山翻译和谷歌翻译在各语向测试集上的表现对比

在和英语进行互译的语向中,火山翻译有72%的机器自动评价结果优于谷歌翻译。火山翻译也正持续追求在更多语向上获得优质表现,争取为全球更广泛的用户群体提供令人满意的翻译服务。

在2020年最后三天,火山翻译日均翻译的字符数达到百亿规模,翻译调用量达日均1.38亿次,稳定服务包括飞书、今日头条在内的数十个业务。火山翻译可通过公有云、私有化部署等多种形式接入,支持垂直行业模型快速定制和部署,满足各垂直行业的个性化翻译需求。

新技术将带来更激动人心的翻译体验

对翻译产品和服务来说,无论是模型还是推理能力,都需要持续的创新和投入。在2020年度盘点中,火山翻译团队披露了正在持续探索和实践的翻译技术:

创造多语言预训练的新范式mRASP

多语言翻译新范式mRASP(multilingual Random Aligned Substitution Pre-training)建立的核心思想是打造「机器翻译界的BERT模型」,即通过预训练技术进行规模化训练,再在具体语种上进行精细微调,即可达到领先的翻译效果。其在32个语对上预训练出的统一模型,在至少47个翻译测试集上均取得了全面的显著提升。在火山翻译中,该技术已被广泛使用,得到了业务上的实践检验。

[1]  [2]  [3]  [4]  [5]  
高层访谈
雷军:推进“5G+AIoT”超级互联网
小米提出“手机+AIoT”的双引擎战略,目前已证明成效显著。截至到今年6月30日,小米依然是全球..
杨元庆:联想已成立疫情防控小组 并且做好了打大仗的准备
宏观上说,我们是为国家和全人类而战。过去三四十年来,中国已经成长为世界的工厂,为全球各地..
观点态度
5G毫米波网速优势显现,少了高速路的5G不完整
随着5G网络目前在全球各地的开通,5G毫米波在峰值速率上已经展现出了巨大优势。同时,工信部在..
手机厂商这半年:互怼变日常,多品牌成突围关键
2019年的手机行业,可以说是非常热闹的,仅仅上半年,“华米OV”的隔空互怼便开始频繁上演。
移动互联
手机
智能设备
汽车科技
通信
IT
家电
办公打印
企业
滚动
相关新闻
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备18031908号-1
Copyright © 2020 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。