在BLEU评估体系下的AI人工智能翻译

于2021年5月28日由Iris Chen发布

通常来讲，评判一句话机器翻译得精准与否，最有效的方式是将其与高水准人工翻译结果作对比，包括翻译的充分性、通顺性以及精准性等。

目前，在机器翻译领域，行业内认可度最高以及最广泛采用的评分标准之一是 “BLEU评估系统” ，全称为Bilingual Evaluation Understudy，即双语评估研究，它会把一句机器翻译完成的句子与其对应的几个人工翻译作对比，算出一个综合分数，分数越高，越接近高水准人工翻译水准，则说明机器翻译得越好。

我们曾在BLEU体系下，用译谷与另外两个翻译引擎分别做过测试，在随机抽样测试了800个句子后，译谷的得分是76.7，翻译引擎A为41.9，翻译引擎B为33.6。译谷翻译出来的句子，无论是在在充分性，还是通顺性及精准性上，都得到了远高于同业的分数。而在排名上，译谷在这测试的800个句子中，有713个句子均排名靠前，占到测试总量的约90%。

自译谷成立以来，我们十分看重用户的体验与反馈，在跟踪回访的用户中，我们翻译质量也一直享有很高的认可。再一次印证了我们BLEU评分体系下取得的高分。

随着越来越多的用户积累，我们的机器学习将更加聪明，我们期待能为更多客户带来更多翻译的优质方案，如有疑问，欢迎随时与我们取得联系。