火山翻译年度盘点：年底每天“干活”1.38亿次--新•资讯 -- 新科技

火山翻译年度盘点：年底每天“干活”1.38亿次

发表时间：2021年2月13日 21:58 来源：飞象网责任编辑：麒麟

以BERT为代表的预训练范式几乎横扫了所有的文本理解任务，成为各种NLP任务的基石。mRASP不同于以往的机器翻译范式，树立了机器翻译的预训练和微调的成功路径。

mRASP主要针对机器翻译的任务场景设计，具有三大应用优势：

1. 打破了资源场景的限制

不论平行双语资源高低，均能有提升。对于资源丰富的语言，比如标准英法翻译任务，在已经有4000万平行语句训练情况下，使用mRASP依然能显著提升，达到了44.3的BLEU值。在低资源语言上，mRASP的表现令人惊喜，极端情况下，只需要一万句训练数据，通过10分钟微调训练，就能得到一个还不错的翻译系统。

2. 打破了语种数量的限制

任何语言的翻译，无论是孟加拉语到古吉拉特语，还是印地语到菲利宾语，只要是地球上的语言，都可以用mRASP直接进行微调，并且效果可期。

3. 资源消耗低

相比于其它上百张卡的「军备竞赛」预训练玩法，mRASP更平民，仅需要8张卡训练一周就可以完成。简单来说，mRASP可以理解为机器翻译领域的轻量级BERT，只要是机器翻译任务，对于任何场景或者语言，使用mRASP都可能会有意想不到的收获。

mRASP基于Transformer框架，利用多个语对的平行语料建立预训练模型

高性能序列推理引擎LightSeq

LightSeq是一款极速且同时支持多特性的高性能序列推理引擎，它对以Transformer为基础的序列特征提取器（Encoder）和自回归的序列解码器（Decoder）做了深度优化，早在2019年12月就已经开源，应用在了包括火山翻译在内的众多业务和场景。据了解，这应该是业界第一款完整支持Transformer、GPT等多种模型高速推理的开源引擎。

LightSeq可以应用于机器翻译、自动问答、智能写作、对话回复生成等众多文本生成场景，大大提高线上模型推理速度，改善用户的使用体验，降低企业的运营服务成本。

相比于目前其他开源序列推理引擎，LightSeq具有如下几点优势：

1. 高性能

LightSeq推理速度非常快。以翻译任务为例，LightSeq相比于TensorFlow实现最多可以达到14倍加速。同时领先目前其他开源序列推理引擎，例如最多可比Faster Transformer快1.4倍。

2. 支持模型功能多

LightSeq支持BERT、GPT、Transformer、VAE等众多模型，同时支持beam search、diverse beam search、sampling等多种解码方式。

3. 简单易用，无缝衔接TensorFlow、PyTorch等深度学习框架

LightSeq通过定义模型协议，支持灵活导入各种深度学习框架训练完的模型。同时包含了开箱即用的端到端模型服务，即在不需要写一行代码的情况下部署高速模型推理，并灵活支持多层次复用。

[1] [2] [3] [4] [5]