在BLEU評估體系下的AI人工智能翻譯

於2021年5月28日由Iris Chen發佈

通常來講，評判一句話機器翻譯得精准與否，最有效的方式是將其與高水準人工翻譯結果作對比，包括翻譯的充分性、通順性以及精准性等。

目前，在機器翻譯領域，行業內認可度最高以及最廣泛採用的評分標準之一是「BLEU評估系統」，全稱為Bilingual Evaluation Understudy，即雙語評估研究，系統會把一句機器翻譯完成的句子與其對應的幾個人工翻譯作對比，算出一個綜合分數，分數越高，越接近高水準人工翻譯水準，則說明機器翻譯得越好。

我們曾在BLEU體系下，用譯谷與另外兩個翻譯引擎分別做過測試，在隨機抽樣測試了800個句子後，譯谷的得分是76.7、翻譯引擎A為41.9，翻譯引擎B為33.6。譯谷翻譯出來的句子，無論是在在充分性，還是通順性及精準性上，都得到了遠高於同業的分數。而在排名上，譯谷在這測試的800句當中有713句均排名靠前，佔測試總量的約90%。

自譯谷成立以來，我們十分看重用戶的體驗與回饋，在追蹤回訪的用戶中，我們翻譯品質也一直享有很高的認可。再一次印證了我們BLEU評分體系下取得的高分。

隨着越來越多的用戶累積，我們的機器學習將更加聰明，我們期待能為更多客戶帶來更多翻譯的優質方案，如有疑問，歡迎隨時與我們取得聯繫。