速途網專訪(報道:王佩)一只搭載全景相機的機器狗正嘗試理解紅燈停綠燈行的含義,而在它背后,一群頂尖AI科學家正試圖用“以人為中心”的新范式,重新定義機器人與物理世界的交互方式。
“現有的本體硬件與實際需求仍存在較大差距。”面對速途網關于技術路線的追問,大曉機器人董事長王曉剛直言不諱。

圖:大曉機器人董事長王曉剛
在這場采訪中,王曉剛系統闡述了大曉機器人的技術路線——具身智能被期待擁有一個強大的“大腦”,這源于過去幾年在大語言模型和多模態模型上取得的突破,大家期待將這種語言模型的能力賦予機器人,以實現通用化能力。
但是,我們能夠看到現有技術路線的明顯缺陷,包括VLA模型。
VLA模型是以機器為中心的,通過輸入指令、圖像和視頻,直接輸出動作,它不太需要去理解真實的物理世界和物理規律。我們期待將來有一個更強的“大腦”能去理解世界,這就是大曉提出的世界模型,與之伴隨的是ACE環境式采集范式。
王曉剛表示,以前以機器為中心,基于不同物理結構的本體采集真機數據,很難綜合得到一個比較通用化的“大腦”。現在環境式采集“以人為中心”,通過第一視角、第三視角和多模態數據,更好地對人和物理世界的交互進行建模,并利用這些數據訓練我們的世界模型。簡單粗暴地使用端到端或VLA并不能解決具身智能對“大腦”的期望。
特斯拉“視覺方案”路線與大曉的“世界模型”
像特斯拉和Figure AI提出的所謂“視覺方案”,只有視覺維度也會存在缺陷。在王曉剛看來,視覺確實是機器人理解世界的第一步,但要真正掌握物理規律、實現與人的自然交互,觸覺、壓力等力學感知必不可少。
具身智能的核心,本質是研究“人與物理世界如何接觸”。對人體的理解,不能只看外在動作,還要洞察力的傳遞、肌肉的協作。對世界的建模,也不能脫離人的需求和交互場景,畢竟我們所處的世界本就是圍繞人建立的。
過去很多技術研發,只是讓機器人“完成任務”,卻沒有記錄人與環境真實的交互邏輯。比如打拳、跳舞或許能脫離具體環境,但穿衣、遞物這些日常動作,核心是人與物體的力感反饋和精準配合,這才是真正的難點。

大曉提出的“世界模型”更像是一個理解物理世界的“大腦”。該模型分為三部分:多模態數據融合、復雜行為生成與預測功能。通過這三者的結合,機器人不僅能理解環境,還能生成具備物理和因果一致性的長時序行為。
與特斯拉從自動駕駛繼承而來的純視覺方案不同,大曉強調多模態融合的必要性。“自動駕駛場景中不會發生物理接觸,而具身智能需要與周圍物體和環境產生物理接觸,因此必須納入其他維度的信息。”王曉剛解釋道。
數據革命:以人為中心的環境式采集
傳統機器人數據采集面臨兩大困境:真機數據采集效率低下,仿真數據與真實差距過大。

大曉的解決方案是“環境式采集”——讓人戴上第一視角傳感器,結合周圍第三視角攝像頭,記錄人在真實生產生活中的行為。“采集效率會非常高,且能在真實場景中完成,還能記錄人在長程、復雜環境下完成的動作。”王曉剛表示。
這種方式與特斯拉和Figure AI近期采取的數據采集方式有相似之處,但大曉有更多環境視角數據,并通過世界模型進一步放大了數據價值。“通過世界模型,我們能將有限的真實采集數據迅速放大。”
今年年初,團隊發布了Ego Life數據集,記錄了人們在真實環境中數百小時的數據。此外,他們還與西南設計院合作,獲取大量房屋戶型數據,用于訓練機器人在不同家庭環境中的適應能力。
落地邏輯:從機器狗到家庭場景的漸進路徑
具身智能的落地路徑一直備受關注,大曉選擇了一條從易到難、從B端到C端的漸進式路線。
短期來看,搭載導航能力與各類AI應用的四足機器狗是規模化落地的突破口。“此前這類產品未能廣泛應用,很大原因在于空間自主能力不足。”王曉剛指出。
中期目標則聚焦于工業與商業服務場景,特別是閃購倉、前置倉等物流場景。這些場景需要大量人力支持7×24小時服務,機器人具備較強的可復制性。
家庭場景被列為遠期目標。“我們期待機器人完成一些復雜任務,但安全性是關鍵問題。”王曉剛坦言,“就像自動駕駛領域有主動安全機制,機器人進入家庭后,如果碰到人,責任該如何界定?這些都是需要解決的問題。”
行業卡位:頭部未定,格局遠未成型
盡管機器人賽道熱度空前,但王曉剛認為行業頭部卡位遠未完成。
“從技術路線來看,目前機器人行業原有的技術路線存在明顯缺陷。”他舉例說,“特斯拉和Figure AI在過去兩三個月內,都放棄了以真機為主的技術路線,轉向以視覺為主的技術路線。”
在產業鏈層面,機器人行業的分工也尚未完善。“從零部件、傳感器到計算芯片等環節,都存在很大的垂直整合空間。”王曉剛指出,當前機器人成本依然很高,在質量、可靠性、一致性等方面,行業還處于相對初期的階段。
這種不成熟的狀態,反而給了新入局者機會。大曉背靠商湯積累的客戶資源與技術能力,試圖在具身智能領域找到自己的生態位。“商湯過去十幾年積累了幾千家客戶,覆蓋眾多行業方向,但此前缺少機器人載體的軟硬件平臺。”
團隊底色:教授創業團的默契
大曉團隊的組成頗具特色——匯聚了陶大程等多位頂尖AI科學家。這支以教授為主的團隊,有著深厚的學術背景與彼此間的默契。
“我和大程在碩士階段跟著湯老師讀書時就是室友,有很好的默契;其他幾位老師也都是我們的學生。”王曉剛透露。這種基于師生關系的信任網絡,成為團隊協作的重要基礎。

在王曉剛看來,具身智能賽道仍需要持續創新。“很多教授自己也想過創業,這些明星教授任何一位都可以去創業,但今天我們要團結起來,集中科研力量和創新能力去做更大的事。”
團隊分工上,陶大程主要負責帶領教授團隊聚焦具身智能方向的持續研究創新,王曉剛則負責公司整體戰略規劃與商業落地。“這樣就能把研究上的領先性、創新性與現實中的落地工程化能力結合起來。”
寫在最后
商湯布局的“1+X”戰略正在顯現其前瞻性。大曉作為“X”中的重要一環,承載著一代AI科學家由創新技術向產業落地的初心。在商湯的方舟平臺已接入幾十萬路攝像頭數據的背景下,一旦具身智能體與方舟打通,上百種AI應用都可以遷移到具身平臺上。
在速途網看來,具身智能的競賽不僅是技術路線的比拼,更是數據采集范式與產業生態的較量。當特斯拉和Figure AI轉向視覺路線時,大曉堅持的多模態融合與以人為中心的ACE范式能否成為破局關鍵,將決定其在即將到來的機器人量產之年能占據怎樣的位置。
世界模型開源、與國產芯片廠商合作、構建自己的數據采集體系——大曉正在下一盤多維度的棋。而棋盤的另一端,眾多參賽者也在加速布局。具身智能的頭部卡位戰,或許才剛剛開始。