近期, 火山翻譯官網上新了包括世界語、塔希提語、韃靼語等在內的38個稀有語種的翻譯。目前,包括漢語、英語、阿拉伯語、俄語、法語、西班牙語六個通用語種在內,火山翻譯已具備94個語種、8742個語向的翻譯能力,整體 bleu(機器翻譯質量自動評估指標)達33.45,處于行業領先水平。
據了解,通過采用自研的 mRASP 多語言模型,火山翻譯僅使用一個模型就完成了上述38個語種與英文的雙向互譯,突破了傳統雙語言翻譯模型對每個語向單獨訓練、單獨上線服務的方式,大幅降低機器學習的訓練和服務成本。
“通常情況下,訓練76個語向的雙語言模型需要150-200天。而相同硬件條件下,訓練一個多語言模型只需要30天。”火山翻譯團隊介紹,“對于請求量小的語種,使用 mRASP 模型集中服務可以大大節省計算資源,僅需半張用于深度學習訓練的 Tesla T4 顯卡就可以滿足38個語言的全部翻譯請求,和雙語翻譯所需的資源一樣。”

圖說:藍色部分為火山翻譯上新的38個語種
由于稀有語種缺少訓練用的平行語料,翻譯質量往往容易大打折扣。火山翻譯通過 mRASP 中的對比學習和詞對齊信息,可以很好地借助單語語料和其他擁有豐富語料的語種來幫助訓練,彌補訓練數據的不足。數據顯示,火山翻譯此次上新的稀有語種平均 bleu 值達33.36,其中,海地語翻譯表現最為突出,bleu 值達50.76。
火山翻譯由字節跳動 AI Lab 研發。2021年,火山翻譯憑借“并行翻譯”技術一舉打破了“自回歸式”技術在機器翻譯領域的絕對統治地位,奪得國際機器翻譯大賽(WMT)德語到英語方向機器翻譯冠軍;此前,火山翻譯已在WMT中榮獲7項冠軍, 并斬獲了平行語料過濾對齊項目的2項第一。
目前,火山翻譯擁有火山同傳、機器翻譯與視頻翻譯三大產品,支持飛書、今日頭條、西瓜視頻等業務的翻譯需求,并通過字節跳動旗下的企業級技術服務平臺火山引擎對外提供翻譯服務。