速途網消息,在近日舉行的2023 世界人工智能大會上,聯匯科技發布了基于大模型能力的自主智能體(Auto AI Agent)——OmBot歐姆智能體,并首次發布針對智能體的 OmBot OS操作系統,同時并針對典型場景需求,推出了首批應用—— 視頻小歐、文檔小歐和AIGC小歐,其自主研發的歐姆大模型也升級至3.0版本。
聯匯科技發布OmBot歐姆智能體
何為自主智能體?聯匯科技給出了明確的回答——智能體是能夠感知環境、自主決策并且具備短期與長期記憶的計算機模型,它能夠模仿人類大腦工作機制,根據任務目標,主動完成任務。
聯匯自主智能體包含了認知、記憶、思考、行動四大核心能力,作為一種自動、自主的智能體,它以最簡單的形式中在循環中運行,每次迭代時,它們都會生成自我導向的指令和操作。因此,它不依賴人類來指導命令,具備高度可擴展性。

自主智能體核心能力
據了解,視頻小歐可以成為新零售場景中的智慧店長。通過與攝像頭視覺信息結合,利用歐姆大模型智能識別店內發生的一切,形成機器人記憶,并自主決策提示交互信息。
文檔小歐可以成為個人和企業的學習助理。面對電力、石油、醫學等行業專業知識學習成本高、查詢困難的痛點,文檔問答機器人可以將專業知識有效集成到向量數據庫,并存儲記憶,形成專業機器人,通過多模態內容理解與內容生成,智能回復用戶問題,并給出專業的回答。
AIGC小歐可以成為媒體、文化、游戲等行業的剪輯助手。通過 AIGC 實現媒體視頻素材的一鍵成片,針對視頻主題,語言模塊完成視頻內容文案生成,隨后拆分為更加細節的視頻鏡頭描述,依托語言理解能力,對素材庫視頻進行搜索、剪輯和生成,最終大幅降低視頻制作門檻。
現場,聯匯科技行還發布了基于 OmBot 歐姆智能體與大模型技術的行業級智慧文旅底座,為文旅全行業提供包含元宇宙、AIGC、智慧助手等典型場景快速賦能。
正式推出歐姆大模型 3.0
值得一提的是,聯匯科技正式推出歐姆大模型 3.0。歐姆大模型支持對視覺圖像、視頻進行標簽全開放識別。預訓練中已經包含了數十億的高質量圖文匹配數據,包含大量的環境背景,目標類型,目標屬性與行為特征,疊加全圖細粒度級別的理解,圖文的語義匹配,圖文問答等多任務的訓練,使歐姆大模型 3.0 具備了能力涌現的保障。
可以說,歐姆大模型 3.0 不再局限于固定的目標類型清單,而是通過語義理解去理解視覺中的任意目標,甚至是描述的方式去定義目標。

OmModel V3 正式發布
視覺問答方面,構建了私有的十億級媒體數據和物聯網數據,包括無人機視角,監控視角等,通過多任務訓練,歐姆大模型 3.0 將包括自然語言解析、邏輯推理、圖像理解以及自然語言生成等 AI 能力進行深度融合。將視覺模型和語言模型進行細粒度的對齊,讓其可以理解人類指令,并合理作答。
另外,歐姆大模型可以在針對圖片進行問答之后進行多輪對話推理,并擴充視覺之外的信息。
認知推理方面,通過不斷提升歐模大模型的內容理解與多模態的語義對齊的能力,結合語言模型的能力,歐模大模型能夠做到基于視覺認知的推理,并由此支撐智能體所需要的認知與推理能力。
在開放識別、視覺問答的基礎上,認知推理的能力能夠賦能智能體從被動的識別轉為主動推理,進行思考與決策,并提出相應的智能解決方案。
高效微調方面,針對傳統全參數微調消耗大量 GPU 計算與存儲資源的情況,聯匯從模型訓練和模型推理兩方面入手,使得歐姆大模型能夠好用、易用。
在模型訓練上,聯匯自主設計 PEFT 羽量微調技術,與標準全參數微調相比,僅微調模型參數的一小部分,訓練參數量小于 1%,在大幅降低計算和存儲成本的同時,實現媲美全參數微調的性能表現。這樣的做法能夠真實降低大模型的微調訓練門檻,快速適配用戶長尾場景的訓練需求。

訓練參數量小于 1%
在模型推理上,聯匯推出針對多模態大模型的推理運行系統 ——Hydra 九頭蛇部署架構,通過多卡集群部署蛇身,由多個公用的底座模型組成,而各個算法任務只需要部署羽量級的蛇頭模型,實現 MaaS 架構。在推理時,蛇頭模型可與任意公用蛇身模型結合產生識別結果,且新增算法任務只需增加羽量級蛇頭模型。從而實現了 GPU 集群資源的高效利用,并突破算法任務部署顯存資源的上限。
基于由效果評估、升級策略、數據回流、優化升級構成的人在環路指令學習進化體系,歐姆大模型可以對底座模型進行有效的指令學習、迭代升級,從而在現有的算法任務上有更好的表現。這也意味著每隔幾個月,歐姆大模型都會迭代進化得更加強大。
此外,為了幫助用戶更好、更快的使用大模型技術與產品,聯匯正式發布歐姆大模型工具軟件集合,并首次發布針對智能體的 OmBot OS 操作系統。開發者可以基于靈活的模塊配置,將多模態大模型、向量數據庫、人機交互認知架構進行深度融合,為構建基于多模態數據感知、認知、思考與行動的智能體奠定基礎。