當(dāng)智能音箱中的“小愛”、“小度”回應(yīng)你時,它是否理解你說的意思?如何判斷人工智能助手是否聰明、好用?這些聲音背后究竟是什么技術(shù)在支撐?
1950年,英國計(jì)算機(jī)科學(xué)家阿蘭·圖靈提出著名的思想實(shí)驗(yàn)——圖靈測試,預(yù)言了創(chuàng)造出具有真正智能的機(jī)器的可能性,成為隨后半個多世紀(jì)科學(xué)家們用來判斷機(jī)器是否能夠思考的重要標(biāo)準(zhǔn)。
圖靈測試的核心,是考察目標(biāo)的自然語言處理能力,如果說自然語言處理是人工智能“皇冠上的明珠”,那么AI對話系統(tǒng)則是自然語言處理中最難、最核心的任務(wù)之一,是“明珠中最亮的那顆”,是支撐起無數(shù)的“小愛”、“小度”、Siri等語音助手背后的基礎(chǔ)以及核心。
然而,作為前沿技術(shù),當(dāng)前學(xué)術(shù)界與產(chǎn)業(yè)界并未對AI對話系統(tǒng)形成標(biāo)準(zhǔn)認(rèn)同,這造成其在應(yīng)用中呈現(xiàn)出水平參差不齊、評價體系不一的現(xiàn)狀,導(dǎo)致業(yè)界因認(rèn)知不統(tǒng)一而對人工智能交互水平出現(xiàn)誤解,也引起了社會上關(guān)于意識、倫理、道德等方面的廣泛討論。
人工智能專家Sandeep Rajani教授所著《人工智能:人或機(jī)器》一書中,作者將人工智能水平和人類能力進(jìn)行橫向?qū)Ρ龋瑒澐殖伤膫€不同等級:巔峰級(已經(jīng)實(shí)現(xiàn)了人類無法超越的最優(yōu)能力)、超越人類級(比所有人類的能力都強(qiáng))、強(qiáng)人類級(比大多數(shù)人類的能力強(qiáng))、弱人類級(比大多數(shù)人類的能力弱)。盡管此標(biāo)準(zhǔn)對人工智能做出基本分類,但如此劃分面對不同領(lǐng)域的人工智能現(xiàn)狀卻存在一定難題。
以五子棋為例,在規(guī)則完備、策略空間較小的五子棋游戲中,人工智能已經(jīng)可以窮舉所有可能的對弈情況,確保與人類在任意對弈的情況下都能實(shí)現(xiàn)最優(yōu)方案,這種場景下其能力達(dá)到了巔峰級;但當(dāng)我們將人工智能技術(shù)放在駕駛汽車上,它的能力還不足以滿足所有復(fù)雜的路況和交通問題,呈現(xiàn)出弱人類級表現(xiàn)。
因此,在科學(xué)家未能實(shí)現(xiàn)通用的巔峰級人工智能之前,有必要對細(xì)分領(lǐng)域人工智能進(jìn)行進(jìn)一步分級定義,例如眾所周知的自動駕駛等級劃分,便是由國際汽車工程師協(xié)會制定的自動駕駛分類標(biāo)準(zhǔn),但在AI對話系統(tǒng)領(lǐng)域,其分級定義始終是一片空白。
6月28日,清華大學(xué)智能技術(shù)系統(tǒng)實(shí)驗(yàn)室副主任黃民烈教授聯(lián)合華為諾亞方舟實(shí)驗(yàn)室、百度、小米、科大訊飛等二十多家企業(yè)、科研機(jī)構(gòu)的科學(xué)家共同制定了全球首個《AI對話系統(tǒng)分級定義》(以下簡稱《分級定義》),通過對AI對話系統(tǒng)進(jìn)行更加科學(xué)的分類,為業(yè)界衡量AI對話系統(tǒng)的能力水平,促進(jìn)AI對話系統(tǒng)的進(jìn)一步研究,同時為工業(yè)界應(yīng)用提供參考,此次對AI系統(tǒng)的分級定義,或?qū)⑦M(jìn)一步助推國內(nèi)人工智能產(chǎn)業(yè)快速發(fā)展,并為技術(shù)發(fā)展明確未來方向。
AI對話系統(tǒng)分級定義,行業(yè)發(fā)展“里程碑”
《AI對話系統(tǒng)分級定義》首次明確指出,AI對話系統(tǒng)可以按照場景、對話輪次、信息量、擬人化等標(biāo)準(zhǔn),劃分為L0-L5六個等級:

L0:實(shí)際對話由人給出,系統(tǒng)完全沒有自動對話能力;或者在任意單一場景中,系統(tǒng)均無法給出較高質(zhì)量的對話。
L1:能完成單一場景的較高質(zhì)量對話;或雖能完成多個單一場景的較高質(zhì)量對話,但無法處理場景之間的上下文依賴。
L2:在L1的基礎(chǔ)上,能同時完成多個場景的較高質(zhì)量對話,具有處理跨場景的上下文依賴和自然切換能力,無法完成新場景較高質(zhì)量的對話。
L3:在L2的基礎(chǔ)上,能針對大量場景開展高質(zhì)量對話,在新場景上具有較高質(zhì)量對話能力。
L4:在L3的基礎(chǔ)上,在新場景上具有高質(zhì)量兌換能力,在多輪交互中擬人化(指人設(shè)、人格、情感、觀點(diǎn)等多維度的一致性)程度較高。
L5:在L4的基礎(chǔ)上,在多輪交互中擬人化程度高,能在開放場景交互中主動學(xué)習(xí)和持續(xù)學(xué)習(xí),具有多模態(tài)感知和表達(dá)能力。
對于此《分級定義》的制定規(guī)則,清華大學(xué)智能技術(shù)系統(tǒng)實(shí)驗(yàn)室副主任黃民烈教授指出,考慮到AI對話系統(tǒng)任務(wù)繁多、評價維度多樣、技術(shù)路線豐富,因此撰寫時,研究小組在制定《分級定義》時僅關(guān)注完全由機(jī)器主導(dǎo)的對話系統(tǒng),人機(jī)混合的對話系統(tǒng)不在考慮范圍內(nèi)。同時,為了在實(shí)際應(yīng)用中發(fā)揮價值,《分級定義》的制定是從用戶可感知,以及可觀察、可測量、可度量的角度出發(fā),不考慮系統(tǒng)的具體技術(shù)實(shí)現(xiàn)方式,也不區(qū)分助理類任務(wù)、閑聊、知識對話等,均以“場景”進(jìn)行表述。
在上述原則之下,《分級定義》從自動對話能力、對話質(zhì)量高低、單一/多個場景、跨場景的上下文依賴和自然切換能力、擬人化程度、主動和持續(xù)學(xué)習(xí)能力、多模態(tài)感知與表達(dá)能力等角度出發(fā),將AI對話系統(tǒng)劃分為從L0~L5的六個等級,等級越高,AI對話系統(tǒng)水平越高。
在此《分級定義》的標(biāo)準(zhǔn)之下,當(dāng)前AI對話系統(tǒng)水平最高已發(fā)展至L2~L3之間。小米技術(shù)委員會主任、AI實(shí)驗(yàn)室主任王斌教授指出,以“小愛同學(xué)”舉例,不但在單一場景可以完成高質(zhì)量,多個場景對話也能完成,已具備一定的跨場景的能力,而有了《分級定義》指導(dǎo),將繼續(xù)在跨場景對話技術(shù)上發(fā)力,在新場景里做小樣本的學(xué)習(xí)讓“小愛同學(xué)”適應(yīng)新的場景的工作。在以智能手機(jī)為載體的智能語音助手中,“小愛同學(xué)”、三星Bixby、百度小度、華為小藝等語音助手如今已經(jīng)處于L2~L3等級定義下,并正在朝L4等級進(jìn)發(fā)。
圍繞此次共同探索出的AI對話系統(tǒng)分級定義,研究小組已制定出標(biāo)準(zhǔn)的數(shù)據(jù)集,并將推動其成為行業(yè)認(rèn)可的標(biāo)準(zhǔn)規(guī)范,“就像亞馬遜的大獎賽一樣,制定一套框架,一套數(shù)據(jù),一套測試方法,把這個標(biāo)準(zhǔn)推進(jìn)下去。”黃民烈教授提到,此次參與《分級定義》的二十多個機(jī)構(gòu)多位科學(xué)家和研究者,將進(jìn)一步撰寫詳細(xì)的白皮書,確定L4、L5等級之下的技術(shù)細(xì)節(jié)。
AI人機(jī)對話系統(tǒng)不但伴隨人工智能技術(shù)發(fā)展較長時間,技術(shù)積累多,并且已在智能客服、語音助手等行業(yè)進(jìn)入到商用階段,在心理健康服務(wù)等領(lǐng)域也將進(jìn)入商用階段。從行業(yè)發(fā)展方式來看,自動駕駛技術(shù)的等級劃分可以帶來啟發(fā),由于自動駕駛技術(shù)牽涉的廠家眾多,商用前景廣闊,因此由國際汽車工程學(xué)會確定了不同等級標(biāo)準(zhǔn),背后實(shí)際上也是行業(yè)技術(shù)先進(jìn)企業(yè)的聯(lián)合探索和標(biāo)準(zhǔn)共識,此次《分級定義》也體現(xiàn)出這一特點(diǎn),而正如自動駕駛技術(shù)等級劃分助推汽車產(chǎn)業(yè)一般,《分級定義》對推動AI對話相關(guān)產(chǎn)業(yè)具有“里程碑”式重要意義。
把握行業(yè)脈搏,助推社會認(rèn)知AI對話價值
近年來,隨著國內(nèi)深度學(xué)習(xí)技術(shù)的不斷發(fā)展,AI對話系統(tǒng)已經(jīng)從基于規(guī)則的第一代和以傳統(tǒng)機(jī)器學(xué)習(xí)為核心的第二代,發(fā)展到以大數(shù)據(jù)和大模型為顯著特征的第三代,對話能力產(chǎn)生了革命性變化,因此,對于《分級定義》將如何指導(dǎo)人工智能產(chǎn)業(yè)發(fā)展、實(shí)現(xiàn)智能化價值最大化,也是AI從業(yè)者與研究者最為關(guān)心的話題。

華為諾亞方舟語音語義首席科學(xué)家、ACL Fellow劉群教授指出,盡管AI行業(yè)現(xiàn)在水平已經(jīng)能接近L3階段,但對話系統(tǒng)依然存在很大的提升空間,《分級定義》有助于學(xué)界明確研究方向,他提到:“對話系統(tǒng)最難的是共識的建模。早期在很小的場景下,比如訂飛機(jī)票,在這個上面很容易建立共識,但在開放領(lǐng)域這種共識就很難,特別是復(fù)雜的業(yè)務(wù)場景中,比如手機(jī)壞了,哪里壞了,哪個應(yīng)用打不開,界面上有一個什么元素我點(diǎn)擊它不反應(yīng),這個時候讓機(jī)器完全理解就非常困難。對于復(fù)雜場景的建模,是難點(diǎn)之一。還有AI人設(shè)前后一致性問題,AI倫理問題等難點(diǎn)問題。”但他也提出,系統(tǒng)需要根據(jù)場景和目的確定自己是否需要達(dá)到更高等級,并不一定追求級別越高越好。
北京師范大學(xué)新聞傳播學(xué)院院長張洪忠教授指出,《分級定義》有利于行業(yè)形成共識甚至推動相關(guān)標(biāo)準(zhǔn)建立,他表示:“分級以后,我們能夠明確AI對話系統(tǒng)相關(guān)領(lǐng)域發(fā)展到了哪一個層級和對社會的影響,為主管部門提供很好的學(xué)術(shù)參考,更易于把握人工智能技術(shù)發(fā)展現(xiàn)狀。也有助于推動社會對相關(guān)技術(shù)的倫理和法規(guī)討論。”
黃民烈教授認(rèn)為,隨著《分級定義》的發(fā)布,以及未來具有更明確技術(shù)說明的白皮書的推出,AI對話系統(tǒng)技術(shù)將有更明確的考量準(zhǔn)則,他指出:
“什么叫高質(zhì)量,較高質(zhì)量,什么叫低質(zhì)量,都有明確定義。高質(zhì)量是說相關(guān)性、信息量、自然度分?jǐn)?shù)可以達(dá)到8-10分,滿分是10分,較高質(zhì)量就是6-8分,低質(zhì)量就是小于6分,這是我們的界定。這三個維度什么意思呢?相關(guān)性是說你回復(fù)的內(nèi)容跟上面的有適度的匹配;信息量是回復(fù)提供足夠必要的信息,要有信息量,不是說‘我不知道’,‘好的’,‘我知道了’,類似這種沒有任何信息量;還有自然度是說跟人相比的自然度,它的語法是不是通順,是否包含常識錯誤。三個維度怎么去測?指標(biāo)一定要可觀察、可測試、可度量,我們希望通過一定數(shù)量的測試者和這個對話系統(tǒng)進(jìn)行充分的對話交互,測試之前我們測試者被告知說這個系統(tǒng)能力范圍,但怎么實(shí)現(xiàn)不告訴他,這是準(zhǔn)黑箱的操作,也不是純黑箱。最后由這個測試者從幾個維度對它進(jìn)行主觀打分,最后給出測試的指標(biāo),很像AlexaPrize亞馬遜大獎賽評價的方法。”
實(shí)際上,我們將看到,隨著《分級定義》的公布,將幫助研發(fā)人員樹立正確的努力方向,從而正視當(dāng)前研發(fā)的對話水平;同時,也能為行業(yè)提供相對統(tǒng)一的評估規(guī)范,幫助更多企業(yè)做好評測標(biāo)準(zhǔn),助推行業(yè)發(fā)展;而在大眾層面,此次《分級定義》將讓更多普通用戶了解對話系統(tǒng),如同自動駕駛技術(shù)分級定義一樣,當(dāng)更多人關(guān)注和了解AI人機(jī)對話技術(shù)的發(fā)展,也將推動AI人機(jī)對話走向社會,增強(qiáng)人們在相關(guān)領(lǐng)域的認(rèn)知并消除信息差。
AI對話分級定義明確,誰將率先跑出L5?
伴隨人工智能技術(shù)的不斷發(fā)展,機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、自然語言處理、語音處理、知識圖譜等AI核心技術(shù)相關(guān)算法持續(xù)迭代和優(yōu)化,在數(shù)據(jù)、算力等“AI基礎(chǔ)設(shè)施”的持續(xù)增長下,AI人機(jī)對話市場規(guī)模持續(xù)擴(kuò)大。根據(jù)Deloitte報(bào)告預(yù)測,全球人工智能產(chǎn)業(yè)規(guī)模從2017年的6,900億美元增長至2025年的64,000億美元,2017-2025年復(fù)合增長率32.10%,呈現(xiàn)較快增長走勢。中國人工智能市場規(guī)模從2016年的154億元增長至2020年的1280億元,預(yù)計(jì)2022年將達(dá)2729億元。
然而,人工智能產(chǎn)業(yè)發(fā)展方向也愈發(fā)多樣化,市場競爭中不但存在“技術(shù)水平難以判斷”“AI企業(yè)夸大宣傳”等問題,面向不同領(lǐng)域的AI技術(shù)如何發(fā)展也存在差異。例如在國內(nèi),智能手機(jī)上的虛擬助手“小愛同學(xué)”、“小度”、“天貓精靈”等不僅要解決天氣、日程、快遞等查詢,還要與IoT設(shè)備融合,為智能家居設(shè)備承擔(dān)語音控制中心的任務(wù),這就要著重發(fā)展AI對話系統(tǒng)融合IoT技術(shù);再比如心理健康領(lǐng)域,無論海外的Woebot還是國內(nèi)的聆心智能情緒聊天機(jī)器人,不僅需要通過對話確認(rèn)用戶的心理健康狀況,還需要通過共情、引導(dǎo)、心理測試等方式提供一定的治療效果,實(shí)現(xiàn)“數(shù)字藥”的目標(biāo),這意味著AI對話系統(tǒng)需要學(xué)會和使用CBT(認(rèn)知行為療法)、DBT(辯證行為療法)、IPT(人際關(guān)系療法)、正念等多種治療理念和技術(shù)方法。
但在解決了上述的特定場景與AI對話系統(tǒng)融合問題之后,如何推動國內(nèi)AI企業(yè)走向L4甚至L5?《分級定義》在明確AI人機(jī)對話系統(tǒng)現(xiàn)狀、行業(yè)方向的同時,對未來也提出了明確的要求,這在一定程度上為行業(yè)去蕪存菁,實(shí)現(xiàn)最終的L5目標(biāo)做出了指導(dǎo)。
黃民烈教授提到:“L4是在L3的基礎(chǔ)上,新場景上具有較高質(zhì)量的對話能力,并且在多輪交互里面擬人化的程度比較高,這里面的擬人化程度是指我有沒有一個固定的人設(shè)和人格,有沒有固定的情感的情緒的處理能力,有沒有這種觀點(diǎn)維度的能力,好比我們跟一個人聊天,不會一會是男的,一會是女的,不可能一會兒在清華上學(xué),一會兒在北大上學(xué),一定有自己固定的人設(shè)信息,這種人設(shè)信息目前在對話系統(tǒng)里面處理還是非常之難。”實(shí)際上,立AI人設(shè)的研究也是行業(yè)研究中的熱點(diǎn)及難點(diǎn),無論是對AI語音助手領(lǐng)域的小米“小愛同學(xué)”、百度“小度”、華為“小藝”還是對AI心理健康領(lǐng)域的聆心智能、Woebot等系統(tǒng)來說,挖掘這一領(lǐng)域的潛在價值在于讓AI成為更“人格化”的系統(tǒng),而在這之后,更高級的L5才有可能實(shí)現(xiàn)。
參與《分級定義》的劉群教授指出,L4、L5等級的AI對話系統(tǒng)“必須具備復(fù)雜場景的深度建模”,黃民烈教授也提到,L5等級應(yīng)在L4基礎(chǔ)上,有更高的擬人化程度,能夠自動、主動、持續(xù)學(xué)習(xí)的AI人機(jī)對話系統(tǒng),必須具備多模態(tài)的感知和表達(dá)能力。
如何率先跑出這些能力?從目前來看,AI“產(chǎn)研結(jié)合”是必要途徑,來自尚普咨詢《2022年AI 2000全球前20強(qiáng)機(jī)構(gòu)》數(shù)據(jù)顯示,全球前20強(qiáng)AI領(lǐng)域機(jī)構(gòu)中有12家為高校,而在產(chǎn)業(yè)化落地過程中,大量公司結(jié)合不同的應(yīng)用場景推出了自己的智能對話產(chǎn)品,比如清華大學(xué)孵化的聆心智能、百度、阿里、騰訊、谷歌、Meta、亞馬遜等等。此外,中美之間的AI人機(jī)對話系統(tǒng)也存在語言系統(tǒng)的差異,由于英文的AI相關(guān)技術(shù)研究在開源文化理念上做的更好,也更容易獲取到高質(zhì)量的數(shù)據(jù),國內(nèi)要率先跑出更高級別的AI人機(jī)對話系統(tǒng),也離不開業(yè)界的社區(qū)建設(shè)和人才體系的進(jìn)一步完善。可見,并非某個企業(yè)及科研機(jī)構(gòu)能夠獨(dú)立完成的事情,要率先跑出L5,需要集合更多力量,而在此次《AI對話系統(tǒng)分級定義》背后,我們能夠看到這種力量正在生長。
(參與本次《分級定義》的研究機(jī)構(gòu)和研究者包括(以姓氏拼音排序),科大訊飛AI研究院副院長陳志剛,京東集團(tuán)副總裁、IEEE Fellow何曉冬,清華大學(xué)長聘副教授黃民烈,阿里達(dá)摩院總監(jiān)、資深算法專家李永彬,華為諾亞方舟語音語義首席科學(xué)家、ACL Fellow劉群,華為諾亞方舟實(shí)驗(yàn)室高級研究員糜飛,百度主任架構(gòu)師牛正雨,騰訊AI Lab總監(jiān)史樹明,中國人民大學(xué)副教授宋睿華,阿里達(dá)摩院總監(jiān)孫健,小米技術(shù)委員會主席、AI實(shí)驗(yàn)室主任王斌,百度技術(shù)委員會主席吳華,美團(tuán)自然語言處理中心總監(jiān)武威,中國人民大學(xué)副教授嚴(yán)睿,中國科學(xué)院深圳先進(jìn)技術(shù)研究院副研究員楊敏,OPPO高級技術(shù)總監(jiān)楊振宇,哥倫比亞大學(xué)助理教授俞舟,北京師范大學(xué)新聞傳播學(xué)院院長張洪忠,哈爾濱工業(yè)大學(xué)副教授張偉男,北京聆心智能總監(jiān)鄭銀河,三星電子中國研究院語言技術(shù)部技術(shù)總監(jiān)朱璇。)