近日,網(wǎng)易有道在語音研究領(lǐng)域頂級峰會INTERSPEECH 2021上的兒童語音識別比賽 ETLT 2021 上榮膺英語開放賽道和封閉賽道兩項第一。INTERSPEECH是由國際語音通信協(xié)會ISCA組織的語音研究領(lǐng)域的頂級會議之一,是全球最大的綜合性語音信號處理領(lǐng)域的科技盛會。作為年度一次的語音界盛會,全球眾多語音領(lǐng)域以及人工智能領(lǐng)域的知名學者、企業(yè)以及研發(fā)人員都會前往出席會議。
據(jù)悉,此次競賽的賽題是解決非母語兒童語音識別問題。由于兒童語音天生的差異性,包含生理差異(如兒童聲道長度較短)、認知差異(如語言習得水平較低,常出現(xiàn)語法邏輯錯誤、發(fā)音前置錯誤、發(fā)音不完整和語種混雜等情況),以及行為差異(如兒童習慣低聲私語)等,導(dǎo)致通用語音識別模型難以適配,這就讓非母語兒童語音識別系統(tǒng)的構(gòu)建更具挑戰(zhàn)性。 另一方面則是非母語兒童語音的數(shù)據(jù)資源較為稀缺,使得常規(guī)聲學建模方法在該場景下很難奏效。

網(wǎng)易有道團隊憑借在多年對ASR(自動語音識別Automatic Speech Recognition)技術(shù)研發(fā)以及實際教育場景中積累的豐富經(jīng)驗,充分結(jié)合兒童語音在生理特征及語言認知方面的特殊性,獲得了英語開放賽道和封閉賽道兩項第一。其中,封閉賽道中的主要難題在于如何在非英語母語兒童語音數(shù)據(jù)稀缺的情況下獲得優(yōu)秀的識別效果;而開放賽道則聚焦于如何有效地將大量的成人語音數(shù)據(jù)遷移到兒童語音識別模型訓(xùn)練中。從數(shù)據(jù)中不難看出,網(wǎng)易有道能夠面對復(fù)雜的環(huán)境下有出色表現(xiàn),在眾多競爭對手中脫穎而出獲得大獎,無疑是對有道在ASR技術(shù)研發(fā)及應(yīng)用領(lǐng)域的認可。
此次網(wǎng)易有道的獲獎并不意外,在 2020 年 INTERSPEECH 口音英語語音識別挑戰(zhàn)賽中,有道研究人員提交的系統(tǒng)在口音識別任務(wù)中就排名第二。有道的吳昊、王海魏等人,僅準備了十天時間就在口音種類識別和英語語音識別兩個賽道上獲得了第二名、第三名的好成績。
有業(yè)內(nèi)人士表示,相比打比賽,一項技術(shù)的工程落地是個長期過程。而網(wǎng)易有道的這支語音團隊一直秉承著以技術(shù)落地為導(dǎo)向,以用戶反饋為指標。
網(wǎng)易人工智能對語音識別技術(shù)(ASR)的研究開始于2014年。目前,網(wǎng)易有道K12教育領(lǐng)域上有諸多兒童語音識別方面的應(yīng)用,例如有道樂讀,有道精品課等。其中,有道樂讀的在線教學過程中,通過ASR技術(shù),兒童可進行語音互動答題,不必進行手動選擇答案。而有道精品課在高中語文課程中,則上線了“智能背誦計劃”功能,通過AI識別語音中的錯漏內(nèi)容,并給予完成度打分,學生可以根據(jù)自己的學習節(jié)奏進行有效練習。經(jīng)過測試,有道語音識別技術(shù)在一些場景上識別準確率超過98%,不止支持中文、英文,還支持日、韓、法、德等多種語言。
近年來,以翻譯技術(shù)起家的有道,在AI時代攻堅神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)(NMT),目前其NMT準確度已達到國際領(lǐng)先水平;作為王牌技術(shù)之一的OCR識別技術(shù),已經(jīng)能支持26種主流語言文字,是目前國內(nèi)識別語言最多的OCR識別引擎。有道在AI領(lǐng)域除了不斷更新迭代的有道詞典筆等硬件產(chǎn)品,有道精品課、有道詞典等產(chǎn)品上也應(yīng)用了語音識別、口語打分、AI作文批改等智能技術(shù)。只有有符合市場需求的技術(shù)才能在一代代產(chǎn)品的穩(wěn)定推出中,扎實生根。