試想一個場景:一個高度精密的具身智能機器人,它擁有完美的機械結構和運動能力,但當你向它發出指令時,它卻需要三秒鐘的“思考”才能回應;或者,它無法分辨你是在對它說話,還是在對客廳的電視說話。這個場景的“失真感”揭示了一個冰冷的現實:再強大的大模型“大腦”,如果缺少了實時、自然、情境感知的“神經系統”,就永遠無法真正融入人類世界。
這種“實時交互”的瓶頸,正成為人工智能走向普適應用的核心矛盾。
而這個矛盾,卻意外地讓一個一度被認為“流量見頂”的賽道——RTE(Real-Time Engagement,實時互動)重新站上了風口浪尖。在近日的聲網Convo AI & RTE 2025大會上,聲網創始人兼CEO趙斌的演講中暗示:RTE行業殘酷的“中場戰事”已經結束,而以對話式AI為核心的“下半場”,才剛剛鳴哨。

“死水”下的暗涌:RTE的中場戰事與AI的“引爆點”
回顧RTE行業的過去五年,可謂一言難盡。趙斌在演講中并未回避行業的窘境。疫情帶來的爆發式增長過后,WebRTC的全球流量曲線一度陷入了“波瀾不驚,甚至死水奔騰”的狀態。
與此同時,行業競爭格局急劇收縮。時間倒回至2020年前后,全球RTE賽道上曾涌現出超過50家廠商。而到今天,“已經寥寥無幾”。一些行業巨頭也明顯減少了投入,甚至有巨頭的相關SDK功能被下架。RTE似乎正在淪為一個高度同質化、依賴價格戰的純基礎設施(IaaS)“管道”。
這是RTE的終局嗎?
一個戲劇性的轉折點發生在2025年的8月。趙斌展示的數據顯示,WebRTC的全球搜索量突然出現了一個“前所未有的暴漲”,其熱度甚至遠超疫情初期的峰值。

引爆點,正是對話式AI。
“這個新物種的到來,必然引起實時互動領域的一個新的創新熱。”趙斌強調。如今行業開始意識到,要實現真正“對話”的AI,過去用于視頻會議的WebRTC,遠比僅用于推送消息的WebSocket是更優的通訊標準。
這標志著RTE的價值邏輯正在發生根本性轉變。它不再只是“人與人”的連接管道,更開始成為“人與AI”交互的必要通路。
AI的“社交尷尬”:從7%到100%的交互鴻溝
對話式AI的潛力毋庸置疑,但它的現狀卻充滿了“社交尷尬”。
趙斌在演講中生動地描繪了當下AI的“真實現狀”。今天的AI,更像一個“書呆子”。你問它一個問題,它無法像正常人一樣干脆利落地回答,而是“引經據典”地給你一大串學術回復。
而在實際的應用場景當中,AI的“引經據典”式回復,并不利于用戶更為直接地接受答案,也讓AI走向場景的“最后一公里”充滿了阻力。

這種體驗的背后,是著名的“7-38-55”傳播定律在起作用。趙斌指出,在人類對話中,真正的內容(語言文字)只占7%,而38%的信息來自語氣、語速、語調,55%來自表情和肢體語言。
今天所有的大模型,幾乎都還停留在7%的“內容級別”對話上。它們能“聽懂”文字,卻無法“感知”情緒。
這就是RTE“下半場”需要解決的核心問題:如何讓AI從“內容對話”走向“生情并茂的交流”?
這需要一個遠超LLM本身的復雜技術棧。AI不僅要聽清(降噪、回聲消除),還要理解“誰在說”(聲紋識別、遠近場判斷),判斷“何時說”(基于延遲的打斷與搶麥),并感知“怎么說”(情緒、韻律)。
這套技術棧,恰恰是RTE廠商過去十年賴以生存的“核心壁壘”。
聲網的“解題思路”:從“管道工”到“AI神經系統架構師”
如果說RTE的“上半場”是解決全球網絡的“通達”問題,那么“下半場”就是解決AI交互的“感知”問題。趙斌的演講,實際上完整展示了聲網如何基于自身優勢,構建這套“AI神經系統”的路徑。
這條路徑可以拆解為三個層次:
1. 堅實的“舊基建”:音視頻的極致體驗
在AI時代之前,聲網就已在音視頻體驗上投入重兵。例如,其AI降噪能智能過濾非人聲,保障“有效”信息的傳入;其自研的AI編碼器,在同等算力消耗下,對比X264能減少42%的編碼率,這直接推動了720P以上的高清視頻在海外直播間占比超過80%。
沒有這種高質量的“信號”輸入,AI的“大腦”再聰明也無濟于事。
2. 核心的“新引擎”:Agora-LLM-Framework
這是聲網應對AI挑戰的核心技術答案。趙斌特別強調,這是一個基于大模型底層的框架,它追求的是高效率、高并發和深度的平臺結合能力。
這個框架的定位,是對話式AI的“編排層”或“中樞神經”。它負責連接LLM(大腦)、RTE網絡(傳輸)和音視頻處理(感官),解決AI交互中的上下文管理、多輪對話流轉、以及實時性能問題。與傳統解決方案只是做聲音交互的處理“管道”不同,聲網的方式,更像是要成為AI交互的“調度中心”。
3. 完整的“工具鏈”:Convo AI 2.0與生態
在引擎之上,聲網推出了Convo AI 2.0產品套件。它直接針對AI的“書呆子”問題,提供了對話上下文管理、聲學特征處理、自然度管理等功能。
同時,他們推出了“AI評測平臺”和“對話式AI Studio”。前者幫助開發者在眾多模型中選擇響應最快、效果最好的組合;后者則降低了AI應用的開發門檻。

聲網的策略是清晰的:以RTE的音視頻處理能力為“底座”,以Agora-LLM-Framework框架為“引擎”,以Convo AI 2.0和工具鏈為“抓手”,幫助開發者快速構建真正“可用”而非“可演示”的AI應用。
RTE正成為AI的“第四種”基礎設施”
當AI學會“說話”,它將撬動多大的市場?
趙斌在演講中描繪了幾個確定性極高的爆發領域。首先是AI陪伴,這個賽道有潛力從幾十億美元增長至千億美元級別。其次,在客服、教育、游戲NPC、專業助理(如醫療)等領域,對話式AI正在全面滲透。
更有趣的判斷,來自于對“AI硬件”形態的思考。
下一個“iPhone時刻”會是什么?趙斌認為,主流形態很可能不是一個全新的計算設備,而是以智能眼鏡、耳機、手表、戒指等“自然佩戴”的設備形態出現。AI助理將“無處不在”,你使用什么設備,它就出現在什么設備上。
這對RTE提出了極高的要求:必須具備跨平臺、低功耗、高并發的運行能力。
但一個更具“戲劇性沖突”的未來是,為了提供極致的個性化助理服務,可能會出現一種“7×24小時”的個人設備,像“行車記錄儀”一樣,持續收集你所處的環境和經歷的事件,以便“比你更了解你”。
“這一點,我相信也會越來越多地比它更大的,對于數據安全和個人數據所有權以及控制權的關注。”趙斌冷靜地指出。他甚至預言,未來兩三年,AI的發展也會逐步翻山對于欺詐或隱私安全事件的防范,從而重塑行業的監管環境。
無論是哪種未來,RTE的價值都已今非昔比。
從CDN(內容分發),到通用的計算(CPU),再到AI訓練的算力(GPU),而下一個演進方向,必然是支持實時AI編排的基礎設施。
對話式AI的爆發,正在將RTE從一個“可選”的通信模塊,推向了AI時代“必選”的基礎設施。RTE行業的中場戰事或許已經結束,但一個由AI開啟、關乎“感知”與“交互”的宏大下半場,正徐徐展開。