速途網(wǎng)9月30日消息(報(bào)道:李楠)
9月28日,“遇見未來(lái)-智能語(yǔ)音進(jìn)化論”主題分享活動(dòng)在京東JD+智能奶茶館成功舉辦,此次分享活動(dòng)邀請(qǐng)到靈隆科技首席科學(xué)家湯博士、科大訊飛云平臺(tái)事業(yè)部商務(wù)總監(jiān)湯熙、北京小魚兒科技合伙人兼銷售市場(chǎng)副總裁李傳剛、北京方正信息技術(shù)有限公司數(shù)碼外設(shè)事業(yè)部總經(jīng)理余斌、京東智能市場(chǎng)總監(jiān)李俊周等行業(yè)大咖對(duì)于智能語(yǔ)音技術(shù)的歷史及行業(yè)的發(fā)展進(jìn)程進(jìn)行了生動(dòng)的解析。
語(yǔ)音識(shí)別是如何發(fā)展起來(lái)的?
語(yǔ)音識(shí)別在我們的生活中扮演著越來(lái)越重要的角色,地圖導(dǎo)航、智能交互等領(lǐng)域均有使用。靈隆科技首席科學(xué)家湯博士為在場(chǎng)觀眾回顧了語(yǔ)音是被的前世今生,他講道最早的語(yǔ)音識(shí)別是50年代的貝爾實(shí)驗(yàn)室Audry系統(tǒng),能識(shí)別十個(gè)英文數(shù)字;隨后60年語(yǔ)音識(shí)別開始被研究,當(dāng)時(shí)做的比較成熟一點(diǎn)的是小詞匯表的孤立詞識(shí)別,支持一些命令詞的識(shí)別;之后70、80年代出現(xiàn)了很大的兩個(gè)進(jìn)步,語(yǔ)音識(shí)別中有很多技術(shù)問(wèn)題,其中的兩個(gè)主要問(wèn)題是語(yǔ)音模型和語(yǔ)言模型的建立;90年代初,卡耐基梅隆大學(xué)的李開復(fù)博士領(lǐng)頭開發(fā)了Sphinx系統(tǒng);而1997年IBM,推出了第一款商品化的語(yǔ)音識(shí)別系統(tǒng)ViaVoice,可以說(shuō)90年代是語(yǔ)音識(shí)別技術(shù)發(fā)展的第一次高潮。在這之后大量公司投入這個(gè)領(lǐng)域,如微軟、Nuance、Intel、Motorola、Nokia、Sun、Dragon。
語(yǔ)音合成是什么?
語(yǔ)音是如何合成的?又是如何發(fā)展的?湯博士講道,語(yǔ)音合成的三個(gè)標(biāo)準(zhǔn),第一是可懂、第二是自然、第三是有情感。目前的語(yǔ)音合成水平可以做到自然這個(gè)層次,機(jī)械味不是那么濃,現(xiàn)在突破的主要方向是在情感方面進(jìn)行進(jìn)一步研究和探索。關(guān)于語(yǔ)音合成的發(fā)展時(shí)間,湯博士認(rèn)為是從50年代開始的,最早的方法是采用參數(shù)合成的方法;7、80年代人們發(fā)明了各種共振峰合成器這個(gè)方法的優(yōu)勢(shì)是占用資源小,但缺點(diǎn)是可懂度低;90年代,波形拼接方法被提出;隨后,人們把HMM模型引入,用來(lái)訓(xùn)練語(yǔ)音庫(kù),這樣大大減少了語(yǔ)音庫(kù)的大小,這樣就形成了可訓(xùn)練的語(yǔ)音合成方法;2014年開始,大家開始把深度神經(jīng)網(wǎng)絡(luò)也用在參數(shù)語(yǔ)音合成里,最新的報(bào)道DeepMind用深度神經(jīng)網(wǎng)絡(luò),提出了語(yǔ)音合成質(zhì)量的自然度,號(hào)稱是提高了50%。
智能語(yǔ)音如何理解?
語(yǔ)音識(shí)別與語(yǔ)音合成之后,湯博士為在場(chǎng)關(guān)注講解了智能語(yǔ)音的相關(guān)知識(shí)。他認(rèn)為智能語(yǔ)音需要來(lái)兩方面來(lái)理解,一方面是在語(yǔ)音技術(shù)當(dāng)中加入了智能的因素。另一方面是語(yǔ)音識(shí)別技術(shù)加上了自然語(yǔ)言理解,語(yǔ)音識(shí)別只是把語(yǔ)音變成了文字,要理解文字后面的意思是什么,就需要自然語(yǔ)言理解,所以說(shuō)目前來(lái)說(shuō),如果要做語(yǔ)音產(chǎn)品,光有語(yǔ)音識(shí)別技術(shù)是不夠的,還需要自然語(yǔ)言理解,能理解你說(shuō)的話,那才叫智能語(yǔ)音。