于2021年5月28日由Iris Chen发布
通常来讲,评判一句话机器翻译得精准与否,最有效的方式是将其与高水准人工翻译结果作对比,包括翻译的充分性、通顺性以及精准性等 。
目前,在机器翻译领域,行业内认可度最高以及最广泛采用的评分标准之一是 “BLEU评估系统” ,全称为Bilingual Evaluation Understudy,即双语评估研究,它会把一句机器翻译完成的句子与其对应的几个人工翻译作对比,算出一个综合分数,分数越高,越接近高水准人工翻译水准,则说明机器翻译得越好。
我们曾在BLEU体系下,用译谷与另外两个翻译引擎分别做过测试,在随机抽样测试了800个句子后,译谷的得分是76.7,翻译引擎A为41.9,翻译引擎B为33.6。译谷翻译出来的句子,无论是在在充分性,还是通顺性及精准性上,都得到了远高于同业的分数。而在排名上,译谷在这测试的800个句子中,有713个句子均排名靠前,占到测试总量的约90%。
自译谷成立以来,我们十分看重用户的体验与反馈,在跟踪回访的用户中,我们翻译质量也一直享有很高的认可。再一次印证了我们BLEU评分体系下取得的高分。
随着越来越多的用户积累,我们的机器学习将更加聪明,我们期待能为更多客户带来更多翻译的优质方案,如有疑问,欢迎随时与我们取得联系。