在RTE2023第九屆實時互聯網大會上,聲網首席科學家、CTO鐘聲帶來了《AI時代 實時互動何去何從》的主題演講。如今,AIGC的浪潮已經開始席卷各行各業。在機遇與挑戰背后,到底什么才是AI時代真正的解法?
關于這一點,鐘聲指出,未來,我們除了要做負責任的AI之外,在端上和邊緣上的分布式實時智能將成為價值公平分配的重要技術手段,也是減緩中心化AGI對人類威脅的有效途徑,這也注定會成為一個新的技術發展趨勢。

本文內容基于演講內容進行整理,為方便閱讀略有刪改。
萬事都將歸于一統,由AGI接管
今天,我主要從拉長時間和縮短時間兩個維度分享我的思考。五年前,我在第四屆RTE大會上分享過,當視頻遇到互聯網時,社交媒體、游戲、金融、醫療、教育、IoT等領域都會發生變化, 內容豐富且多樣化。
在手機為入口的時代,一切都將變得不可預測,碎片化、隨時隨地可消費的內容會變得更有個性和場景化,對沉浸式體驗也提出更多的要求。當時我們就提出,有趣精彩的內容需要被更有效的發現,Touch(觸摸)為主的交互手段還不夠,需要變得更有力,需要增加通過語音、手勢、眼神甚至是腦機接口去互動。
如此前預測所言,抖音和TikTok后來成功利用算法推薦把有趣精彩的內容展示給大家,互動的方式也出現了STT、TTS以及腦機接口這樣的形態,在虛擬現實或沉浸式體驗方面,蘋果也發布了Vision Pro,還能通過眼神和手勢交互。
把時間拉回到十幾萬年以前,人類過去發展長河里的絕大部分歷史都只能靠口口相傳,受限于物理介質的限制,內容的表達方式成了一個瓶頸。
直到印刷技術的出現,一些經典的知識能夠以紙質書本的方式被表達出來,傳遞到千家萬戶,使知識和智慧得以擴散,促進社會進步。但書本形式的內容分發仍然是一個瓶頸。
最近二三十年,互聯網的出現幾乎零成本的解決了內容的分發問題。PGC內容通過數字媒體的方式進行表達,從內容消費的角度上,感興趣的內容何以被發現,催生了搜索引擎,Google就是這里面最典型的一個代表。

再往后就出現了UGC,大量web2.0用戶產生自己的內容,這時發現感興趣的內容就更難了,內容消費端出現了推薦算法技術。這時,內容生成也逐漸成為成本最高的環節,較高成本地運營 MCN成了趨勢。
而近期AIGC技術的出現和進步將可以克服精品內容稀缺的瓶頸。那么,大量精品內容未來將以怎樣的方式被體驗和消費呢?我們認為,隨著實時互動技術的發展,在消費端幾乎可以做到心想“視”成、萬“視”如意,AIGC將生成符合我們意愿的內容,消費方式也出現了像Vision Pro這樣帶來沉浸式現場感的產品。從信息傳播消費和智能化的趨勢可見,未來似乎萬事都將歸于一統,由AGI接管。
大模型帶來的新問題
從2017年的Transformer出現,到如今的ChatGPT-4,不可否認,過去五年里最典型的事件就是大模型的突破。Transformer主要是解決了關注重點、廣泛關聯的問題;ChatGPT-3等大模型則通過海量的互聯網數據投喂、將數據進行了沉淀,并通過用戶反饋數據訓練及PPO近鄰策略優化,取得了類似人的智力。GPT-4的參數量進一步增加到1萬億以上,據說GPT-5更將是一個100萬億參數級別的超大模型。
人工智能的發展,讓信息傳播和消費智能化的趨勢越來越明顯,萬事歸于中心化AGI接管的趨勢和威脅也越來越明顯。大模型在帶來發展機遇的同時,也帶來了計算需求快速增長、算力受能源供給力限制、大模型數據資源不夠、存儲需求增長過快等問題。
首先是計算需求的快速增長。2021年,SOTA LLMs (GPT3) 訓練需要約5000張GPU卡,到了2022、2023年,SOTA LLMs(GPT4,1T參數量),就需要大于10000張 A100 GPU卡。如果GPT5的參數量達到100T,那就意味著訓練需要約50000張H100 GPU卡。這樣的計算需求,幾乎只有極少數的大公司才負擔得起。
另一個問題是算力受能源供給力限制。2021年,芯片行業一個相關的報告指出,預測到2030年左右,能源供應會供不應求,價格也會極速上升,不可能再提供足夠的算力給日益增長的計算需求,能源價格會相應上升并制約計算需求。
此外,大模型還將面臨數據資源不夠的局面。到2026年,可供訓練AI高質量的公共數據將很缺乏,人與人、人與機器人的互動產生的數據將無法用以進一步提升AI能力來解決未知的問題。
存儲需求增長過快也是一個問題,目前來看,存儲的供需差異也非常大。安全方面,由于AI是朝著通用人工智能和超級人工智能方向發展的,未來也將存在很大的威脅到人類命運的可能。正如“Humans are hooked. Machines are learning”那張漫畫所表達的一樣,人類被鉤住了,機器在借機學習進步。
分布式、實時智能將成為解法
過去,科學革命、工業革命,尤其是印刷技術的進步把新的知識、智慧之光通過書本的形式傳遞給更多人,最終爆發了宗教革命、打破中世紀天主教對人們的桎梏,并產生了人類社會以人為本的新文明形式和意識形態,這是知識智能傳播開來起到的一個很好作用。
信息傳播經歷了十幾萬年的變化,才走到今天。未來AGI會不會成為新的高人一等的“上帝”,讓我們淪為二級公民,最重要的仍然是智能傳播能否更廣、能否讓更多人享受智慧。我認為,未來除了要做負責任的AI之外,在端上和邊緣上的分布式實時智能將成為價值公平分配的重要技術手段,也是減緩中心化AGI對人類威脅的有效途徑,這也注定會成為一個新的技術發展趨勢。
從技術上講,我們要做分布式、實時智能,讓端和邊緣智能的計算、能耗、數據需求更合理,帶來實時和低成本。另外,要通過分布式實時智能做好隱私保護以及個性化 AI。這方面我們需要有更多新型算法和芯片架構:高效端/邊 AI算法和計算芯片,高效的算法甚至能降低100萬倍的復雜度。

另外是開源,開源最重要的是可以把對應的能力和智慧傳播給更多人,讓更多人參與共建。Facebook做得很好,他們在LLAMA2和LLAMA2 Long上已經取得了很好的效果,70B算法在很多方面已經超過ChatGPT-3.5。去中心化技術和底層芯片架構也很重要,目前高通這樣的一些公司也在致力于在移動端上實時運行大語言模型。
我認為,AGI將走進實時互動,實現人人可分身,幫助在應用場景中復制名師、朋友、網紅,甚至普通人也將通過AI分身豐富體驗、緩解時間稀缺的終極瓶頸。普通人可以讓分身去參與世界上很多同時發生的有趣的事,再讓分身回來給我講發生了什么精彩故事,這都將是非常美好的事,是對人們生命體驗的提升。
從技術的角度簡單總結,可以是語音轉文字、文字再通過ChatGPT產生對話文字、文字再轉成語音,最后用語音驅動寫實的形象,來實現分身。語音、文字可以是真人產生的,也可以是機器產生的,最終可能出現,在人機AI混合世界里不分你我的階段。
實時AI分身的三個實時寫實
實時AI分身需要三個實時“寫實”能力:實時寫實對話、實時寫實聲音、實時寫實形象。和大家簡單介紹一下,這幾方面的研究情況,實時運行的實現離不開芯片的支持,也離不開算法上的探索。相關信息顯示,高通準備在明年支持像LLAMA2這樣的開源模型(實際上這種能力的芯片已經出來)。
在算法上也有很多研究,在《Textbooks Are All You Need II》文章中,介紹了數據量只有1.3B、微軟做的Phi-1.5,它是一個基于transformer,擁有24 layers和32 heads的架構,訓練數據也小一個數量級,用30B和100B的tokens。

這篇文章的主要結論是,如果都用教科書上的內容去訓練,肯定會產生比較好的效果,但如果用互聯網上的內容去訓練,效果未必是好的。最好的結果是把精心挑選的、教科書式的內容與web內容結合在一起。大部分情況下,它都比大十倍的13B模型都要好,不如13B模型的地方也相差無幾的。所以,稍小一點的模型特別有希望,關鍵是要找到好的數據和訓練方法。
訓練方法也是有講究的,剛提到的LLAMA2、LLAMA2 Long有一些很有趣的結論,比如用長的上下文數據會帶來更優秀的結果,后續可以逐步的加上長期訓練,且不需要從頭就開始耗時耗算力的用最長的數據去訓練,這些都為實時低延時方向提供了更多的希望。
在寫實形象這一塊,簡單介紹一下擴散模型。擴散模型的原理很簡單,和我們理解的擴散道理很像,比較集中的分子會逐漸擴散到隨機的分子,并均勻分布,最終混亂。擴散模型的腐化過程通常要分成幾千步微小的腐化,每一步都是近似可逆向的過程,這樣推理時間就很長,更別說訓練了。
為了把模型縮小,變得更實時、時間更短,也有一些研究在進行。比如引入一個隱空間,在隱空間里做腐化,并在縮小的隱空間里做逆向的恢復。同時,為了把文本提示和恢復的過程聯系在一起,又引入了一個Encoder,這個Encoder可以把文本轉換成一個可以做互相關聯的Q-K-V值,再利用transformer機制。通過這樣的訓練,就能把文本的語義和實際生成的圖像關聯起來,在最終做推理的時候,就可以從一個文本和一個隨機的向量恢復出想要的圖像。
這樣帶來兩個好處,一是在latent Space上,算力往往會小很多,另一方面是可以把語義關聯起來用文生圖,這個逆過程仍然需要很多步。另外一個方向是consistency models,如果能讓腐化過程中每一步都能從任何一個點回到原始那個點,就不需要一步一步逐漸恢復清晰的圖,可以一步到位,這會極大地降低算力的要求。

再者是三維重構,人臉可以通過多幅?臉正交基線性加權得來。用人臉大數據級,通過PCA主成份進行分析,提出正交基,當一個新人臉進來的時候就能找到正交基里相應的系數,再一組合,就出現了新人的三維模型重建。再有就是神經輻射場技術NeRF,我去年的RTE大會上講過,也是進來流行的三維重構的重要方法,這里因時間關系不再細講。
寫實聲音現在最大的挑戰是要有一個模型能夠很泛化,訓練完以后,任何人都能模擬出他的聲音、韻律和風格。這方面微軟最近發表了Neural speech 2 (NS2),用擴散模型來預測編碼域中的變量。通常情況下,編解碼器是把一段輸入的語音作為輸入進行壓縮,再恢復成原始聲音。NS2將文本通過diffusion model預測出壓縮域里對應語音的Latent 變量z,再用decoder直接把z恢復成語音信號。這種方式可以用TTS文本生成語音。

擴散模型里還有一些細節,為了把文本和語音連起來,會在訓練的時候引入一層注意力機制,把文本經過Phoneme(音素)編碼器產生的Phoneme Hidden與實際的語音做transformer關聯,再將關聯的結果作為一個條件輸出到解碼器這邊做注意力關聯,最后通過一個仿射變換生成擬真的聲音。這個是今年上半年的一個研究結果,利用訓練好的推理模型,用任何一個人的一小段聲音都能立刻將更多的·文字生成聽似一樣的聲紋、韻律和風格。
從信息傳播到消費與實時分布式智能的角度回顧一下,我們可以看到AI為什么走到今天這一步是很合邏輯的,再往下發展會是什么樣的方式呢?在內容消費上,未來實時超高清的內容會越來越多,并且需要實時傳輸。再加上人人都需要AI分身的趨勢洞察,未來要傳輸的內容一定會出現指數型的遞增,進而也會要求通信基礎設施需要有很大的提升。我的一個預測是,具備端邊實時智能的?清實時互動能?將成新趨勢和競爭焦點。要想緩解AGI帶來的威脅,讓AI更好地符合我們每一個人利益的去發展,也需要在端和邊上做更多的能力。
實時高清需要許多端上實時AI,在Low Level Vision and Audio這一層面,聲網的SDK 4.1.x, 4.2.x版本已經可以支持1080P/4K視頻的例如超分、虛擬背景、感知編碼、降噪、去回聲、質量感知等底層計算機視覺處理和計算機聽覺處理能力。
在High Level Vision and Audio層面,聲網已經部分實現對物體、聲音、場景的理解和重構能力,包括面捕、動捕、情感計算,物體識別和場景重建等也取得一些進展,可以為在多種互動應用場景下為用戶體驗帶來更好的體驗。這些算法的一部分,我們已經集成到我們RTC SDK和即將發布的SDK里,不少客戶已經用上了。這方面未來還有很多的工作需要做。
不久前,Facebook在他們的年度大會上介紹了一個智能眼鏡(Meta Smart Glasses),據說其背后有GPT。對話助手這塊可能是用LLAMA 2基礎模型去支撐的,并且加了vision去幫助理解所看到的景物。我有一個體會,實時的AI就是VR必不可少的很重要的一部分,Real-time AI is VR,just more valuable。
RTE很美對嗎?現在,我們有數十億甚至更多臺移動設備。未來如果能夠在端上、在邊緣提供實時AI智能和清晰畫面和聲音,這將是一件很美且值得追求的很有意義的事。