近日,美國權(quán)威雜志《麻省理工評論》將語音接口列為2016年十大突破技術(shù),百度硅谷人工智能實驗室(SVAIL)最新的研究成果——新一代深度語音識別系統(tǒng)Deep
Speech2位列其中。
這也是本次評選入選的唯一一家來自中國科技公司的科技成果。同時入選的還有免疫工程、精確編輯植物基因、DNA商店、太陽能電池工廠、特斯拉自動駕駛、可回收火箭,及空中取電、知識分享機(jī)器人、slack通信軟件等產(chǎn)品和技術(shù),分別來自谷歌、微軟、SpaceX等多個領(lǐng)域的知名前沿科技公司,和加州大學(xué)伯克利分校、華盛頓大學(xué)、首爾大學(xué)等科研機(jī)構(gòu)。
《麻省理工評論》在文中評價說:“隨著百度在語音技術(shù)方面的不斷進(jìn)步,語音接口變得更為實用和有效,人們可以更為便利的與身邊的設(shè)備進(jìn)行互動。百度的深度語音識別系統(tǒng)(Deep
Speech 2)包含了一個非常大的、“深”的神經(jīng)網(wǎng)絡(luò),它引入了數(shù)以百萬計的轉(zhuǎn)錄語音。有時它在識別漢語語音片段方面,要比人為識別更加準(zhǔn)確?!?/p>
2014年底,百度的首席科學(xué)家吳恩達(dá)及其團(tuán)隊發(fā)布了第一代深度語音識別系統(tǒng)Deep
Speech,該系統(tǒng)使用了端對端的深度學(xué)習(xí)技術(shù),主要專注于提高嘈雜環(huán)境下的英語語音識別的準(zhǔn)確率,在噪音環(huán)境下,Deep
Speech系統(tǒng)出錯率要比谷歌、微軟以及蘋果的語音系統(tǒng)低10%以上。不僅如此,研究人員還加入了漢語語音查詢功能,識別準(zhǔn)確率高達(dá)94%。這也推動端到端的深度學(xué)習(xí)算法成為業(yè)內(nèi)改進(jìn)語音識別最重要的手段。
MIT報道中指出,語音識別和自然語言理解相結(jié)合,將為互聯(lián)網(wǎng)市場創(chuàng)造切實可用的語音接口。由于漢字通過微型觸摸屏進(jìn)行輸入的過程耗時且十分繁瑣,因此,中國是發(fā)展語音接口的理想市場。
漢語語音識別與英文相比,包含兩大難點(diǎn)。第一是字符數(shù)據(jù)量大。相比于英文的26個字母,系統(tǒng)要在每次轉(zhuǎn)錄中直接輸出8萬個中文字符中的其中一個。第二,在普通話的表述中,聲調(diào)的不同往往會改變一個詞的意思。百度通過收集人們常用詞,篩選出有用的字符,并省去大量預(yù)處理環(huán)節(jié),直接輸入音頻文件,再通過深度神經(jīng)網(wǎng)絡(luò)輸出字符,從而大大提高系統(tǒng)運(yùn)算效率。
深度語音識別系統(tǒng)的成功,很大程度上要取決于百度規(guī)模龐大的基于GPU的深度學(xué)習(xí)基礎(chǔ)設(shè)施。通過使用批處理技術(shù)將DNNs部署在GPUs上,Deep
Speech的語音識別表現(xiàn)出了極高的訓(xùn)練效率。目前,該系統(tǒng)支持超過26萬億次浮點(diǎn)運(yùn)算,可在幾天內(nèi)完成深度語言的集中訓(xùn)練。
隨著百度在語音技術(shù)方面的不斷進(jìn)步,語音接口變得更為實用和有效,將深度語音模型在更小的系統(tǒng)上運(yùn)行是重要的趨勢之一。百度正致力于將該語音模型縮小并植入手機(jī)等移動設(shè)備,未來,人們可更為便利的與身邊的設(shè)備進(jìn)行交流互動。