Transformer解码示意图
镜像生成式翻译模型MGNMT
镜像翻译生成模型MGNMT(Mirror-Generative Neural Machine Translation)旨在解决机器翻译在双语平行数据缺乏场景中的应用问题,目前已应用到火山翻译多个语向的翻译模型中。通过镜像生成方式,MGNMT利用互为镜像翻译方向的相关性,同时将翻译模型和语言模型结合,让模型间互相促进,从而显著提升翻译质量。
目前机器翻译模型需要在大量的双语平行数据上训练,从而得到不错的性能。然而,在很多低资源的语向或领域场景中,双语平行数据是非常稀缺的。这种情况下,双语平行数据非常珍贵,需要更高效地利用;并且由于双语数据稀缺,充分利用大规模非平行单语数据也十分重要。
为了最大化对双语数据和单语数据的有效利用,MGNMT采用了以下几种关键技术:
1. 通过一个共享的隐变量,将两个翻译方向的翻译模型和两个语言的语言模型结合在同一个概率模型中。
2. 训练时,两个翻译方向相互促进。通过隐变量建模了互为译文的双语数据的语义等价性,让两个翻译方向的模型可以更好地利用双语平行数据;同时,通过隐变量作为中间桥梁,任意一方的单语数据都可以同时帮助到两个翻译方向的模型,从而也更好地利用了单语数据。
3. 解码时,语言模型和翻译模型相互协作。正向翻译模型和目标语言模型首先用beam search进行协同解码,得到多个候选译文;随后反向翻译模型和源语言语言模型对候选译文进行排序,选择出最忠实于原文语义的最佳译文。
在低资源的情况下,MGNMT在多个数据上都得到了最好的翻译结果。相较于传统的Transformer模型,以及Transformer结合回翻译(Back-Translation)进行数据增强以利用单语数据的方式,其结果都显示了比较一致的、显著的提升。
MGNMT模型示意图。MGNMT同时建模了两个翻译方向的翻译模型和两个语言模型。
结语
“我们和你一样,一步一踉跄,却坚定不移。我们和你一样,经历波折,却满怀希望”。在《请翻译2020》年度盘点中,火山翻译团队表示,为了呈现更佳的翻译效果,创造更好的跨语言体验,火山翻译孜孜不倦地为不同的语言提供最优解法,为了“让世界更小,让不同的文化更近”。