於2021年5月28日由Iris Chen發佈
通常來講,評判一句話機器翻譯得精准與否,最有效的方式是將其與高水準人工翻譯結果作對比,包括翻譯的充分性、通順性以及精准性等 。
目前,在機器翻譯領域,行業內認可度最高以及最廣泛採用的評分標準之一是「BLEU評估系統」,全稱為Bilingual Evaluation Understudy,即雙語評估研究,系統會把一句機器翻譯完成的句子與其對應的幾個人工翻譯作對比,算出一個綜合分數,分數越高,越接近高水準人工翻譯水準,則說明機器翻譯得越好。
我們曾在BLEU體系下,用譯谷與另外兩個翻譯引擎分別做過測試,在隨機抽樣測試了800個句子後,譯谷的得分是76.7、翻譯引擎A為41.9,翻譯引擎B為33.6。譯谷翻譯出來的句子,無論是在在充分性,還是通順性及精準性上,都得到了遠高於同業的分數。而在排名上,譯谷在這測試的800句當中有713句均排名靠前,佔測試總量的約90%。
自譯谷成立以來,我們十分看重用戶的體驗與回饋,在追蹤回訪的用戶中,我們翻譯品質也一直享有很高的認可。再一次印證了我們BLEU評分體系下取得的高分。
隨着越來越多的用戶累積,我們的機器學習將更加聰明,我們期待能為更多客戶帶來更多翻譯的優質方案,如有疑問,歡迎隨時與我們取得聯繫。