您现在的位置:首页 >> 新•资讯 >> 正文
火山翻译年度盘点:年底每天“干活”1.38亿次
发表时间:2021年2月13日 21:58 来源:飞象网 责任编 辑:麒麟

Transformer解码示意图

镜像生成式翻译模型MGNMT

镜像翻译生成模型MGNMT(Mirror-Generative Neural Machine Translation)旨在解决机器翻译在双语平行数据缺乏场景中的应用问题,目前已应用到火山翻译多个语向的翻译模型中。通过镜像生成方式,MGNMT利用互为镜像翻译方向的相关性,同时将翻译模型和语言模型结合,让模型间互相促进,从而显著提升翻译质量。

目前机器翻译模型需要在大量的双语平行数据上训练,从而得到不错的性能。然而,在很多低资源的语向或领域场景中,双语平行数据是非常稀缺的。这种情况下,双语平行数据非常珍贵,需要更高效地利用;并且由于双语数据稀缺,充分利用大规模非平行单语数据也十分重要。

为了最大化对双语数据和单语数据的有效利用,MGNMT采用了以下几种关键技术:

1. 通过一个共享的隐变量,将两个翻译方向的翻译模型和两个语言的语言模型结合在同一个概率模型中。

2. 训练时,两个翻译方向相互促进。通过隐变量建模了互为译文的双语数据的语义等价性,让两个翻译方向的模型可以更好地利用双语平行数据;同时,通过隐变量作为中间桥梁,任意一方的单语数据都可以同时帮助到两个翻译方向的模型,从而也更好地利用了单语数据。

3. 解码时,语言模型和翻译模型相互协作。正向翻译模型和目标语言模型首先用beam search进行协同解码,得到多个候选译文;随后反向翻译模型和源语言语言模型对候选译文进行排序,选择出最忠实于原文语义的最佳译文。

在低资源的情况下,MGNMT在多个数据上都得到了最好的翻译结果。相较于传统的Transformer模型,以及Transformer结合回翻译(Back-Translation)进行数据增强以利用单语数据的方式,其结果都显示了比较一致的、显著的提升。

MGNMT模型示意图。MGNMT同时建模了两个翻译方向的翻译模型和两个语言模型。

结语

“我们和你一样,一步一踉跄,却坚定不移。我们和你一样,经历波折,却满怀希望”。在《请翻译2020》年度盘点中,火山翻译团队表示,为了呈现更佳的翻译效果,创造更好的跨语言体验,火山翻译孜孜不倦地为不同的语言提供最优解法,为了“让世界更小,让不同的文化更近”。

[1]  [2]  [3]  [4]  [5]  
高层访谈
雷军:推进“5G+AIoT”超级互联网
小米提出“手机+AIoT”的双引擎战略,目前已证明成效显著。截至到今年6月30日,小米依然是全球..
杨元庆:联想已成立疫情防控小组 并且做好了打大仗的准备
宏观上说,我们是为国家和全人类而战。过去三四十年来,中国已经成长为世界的工厂,为全球各地..
观点态度
5G毫米波网速优势显现,少了高速路的5G不完整
随着5G网络目前在全球各地的开通,5G毫米波在峰值速率上已经展现出了巨大优势。同时,工信部在..
手机厂商这半年:互怼变日常,多品牌成突围关键
2019年的手机行业,可以说是非常热闹的,仅仅上半年,“华米OV”的隔空互怼便开始频繁上演。
移动互联
手机
智能设备
汽车科技
通信
IT
家电
办公打印
企业
滚动
相关新闻
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备18031908号-1
Copyright © 2020 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。