速途網(wǎng)7月8日訊(報(bào)道:?jiǎn)讨颈螅┙眨琖MT2020國(guó)際機(jī)器翻譯大賽的榜單停止提交結(jié)果并發(fā)布排名,其中騰訊微信AI團(tuán)隊(duì)在「中文-英文」翻譯任務(wù)上奪得冠軍。

WMT?是機(jī)器翻譯領(lǐng)域的國(guó)際頂級(jí)評(píng)測(cè)比賽之一在賽制上,組委會(huì)根據(jù)中英、英中、中日等不同翻譯任務(wù)提供測(cè)試集,參賽者在線提交機(jī)器翻譯結(jié)果,組委會(huì)將根據(jù)在國(guó)際上具有廣泛認(rèn)可度的BLEU自動(dòng)評(píng)估指標(biāo)對(duì)參賽者提交的機(jī)器譯文和標(biāo)準(zhǔn)答案進(jìn)行擬合計(jì)算,擬合程度高者排在前面。其中「中文-英文」翻譯任務(wù)是大賽歷年來(lái)競(jìng)爭(zhēng)最激烈的領(lǐng)域,也是最大的看點(diǎn)之一,在歷屆冠軍中,微軟、騰訊翻譯君、搜狗都榜上有名。
此次大賽競(jìng)爭(zhēng)激烈,各參賽方共計(jì)提交近300次數(shù)據(jù),最終微信AI團(tuán)隊(duì)經(jīng)過(guò)多次角逐脫穎而出,成功占據(jù)自動(dòng)評(píng)估指標(biāo)的榜首。值得一提的是,BLEU評(píng)分前兩名的機(jī)器譯文均由微信AI團(tuán)隊(duì)提交。同時(shí),今年微信AI僅使用了官方提供的數(shù)據(jù)(也就是受限資源),超過(guò)了所有使用受限資源和無(wú)限資源的系統(tǒng)。

在本次大賽上,微信翻譯在技術(shù)上以更深和更寬的Transformer結(jié)構(gòu)(包括Self-attention和Average-attention)和 自研的Deep Transition結(jié)構(gòu)(DTMT)為基礎(chǔ),用融合領(lǐng)域內(nèi)知識(shí)的數(shù)據(jù)增強(qiáng)方法迭代生成高質(zhì)量的偽數(shù)據(jù),并利用Self-Bleu的組合剪枝策略集成模型并利用集成模型的知識(shí)蒸餾單模型,除了常規(guī)的交叉熵訓(xùn)練,還采用三種改進(jìn)的訓(xùn)練方法來(lái)緩解偏差問(wèn)題,包括改進(jìn)的Scheduled Sampling訓(xùn)練方法、針對(duì)目標(biāo)端輸入的抗噪訓(xùn)練和更穩(wěn)定的最小化貝葉斯風(fēng)險(xiǎn)訓(xùn)練。
目前,微信翻譯已成為一個(gè)日翻譯數(shù)十億字符的大型多語(yǔ)言機(jī)器翻譯引擎,支持多語(yǔ)種間的雙向翻譯,在翻譯質(zhì)量上均達(dá)到業(yè)界領(lǐng)先水平。服務(wù)場(chǎng)景已涵蓋微信對(duì)話翻譯、朋友圈翻譯、微信掃一掃等,同時(shí)還為騰訊小微、微信對(duì)話開放平臺(tái)、微信讀書、QQ郵箱等提供翻譯服務(wù)支持,后續(xù)會(huì)陸續(xù)運(yùn)用于更多的場(chǎng)景。

除了在智能翻譯領(lǐng)域取得優(yōu)秀成績(jī)外,微信AI團(tuán)隊(duì)基于深度學(xué)習(xí)研發(fā)的微信智聆語(yǔ)音識(shí)別技術(shù),每天處理超過(guò)4億條語(yǔ)音,語(yǔ)音識(shí)別正確率達(dá)到97%,并在微信語(yǔ)音輸入、語(yǔ)音轉(zhuǎn)文字、王者榮耀、QQ音樂(lè)等產(chǎn)品中提供了技術(shù)支持。而專注智能對(duì)話和NLP的微信智言,則以騰訊小微開放能力為核心,為除了家居硬件、PaaS、行業(yè)云和AI Bot等領(lǐng)域提供技術(shù)支持,
在技術(shù)開源方面,微信AI開發(fā)自研并開源了Transformer推理引擎,這也是騰訊對(duì)外開源的第100個(gè)項(xiàng)目。該推理引擎在CPU/GPU兩種硬件平臺(tái)上都可以獲得最佳性能表現(xiàn),速度快于pytorch/tensorflow和目前主流Transformers加速方案,且更適合NLP任務(wù)特點(diǎn),無(wú)需圖層次預(yù)處理,支持變長(zhǎng)輸入序列輸入。TurboTransfromers在騰訊內(nèi)部的游戲、內(nèi)容生態(tài)、廣告與金融等領(lǐng)域獲得了廣泛使用和認(rèn)可