2024年4月17日消息,在“天工”大模型一周年之際,昆侖萬維“天工3.0”基座大模型與“天工SkyMusic”音樂大模型正式開啟公測。據(jù)介紹,“天工3.0”擁有4000億參數(shù),超越了3140億參數(shù)的Grok-1,是全球最大的開源MoE大模型,在MMBench等多項權(quán)威多模態(tài)測評結(jié)果中,“天工3.0”超越GPT-4V,全球領(lǐng)先;“天工SkyMusic”是中國首個音樂SOTA模型,綜合性能超越Suno V3,是中國自研大模型技術(shù)第一次在AIGC領(lǐng)域領(lǐng)跑全球。

天工3.0多模態(tài)性能超越GPT-4V,全球領(lǐng)先
昆侖萬維董事長兼CEO方漢在接受采訪時表示,昆侖萬維較早投入算力采買,目前已經(jīng)擁有接近萬卡的訓(xùn)練資源,這些算力足夠支撐天工的持續(xù)迭代,以及文生視頻的模型訓(xùn)練;同時,方漢也對大模型開閉源之爭發(fā)表了自己的看法,他認(rèn)為:開源大模型是一種生態(tài)的構(gòu)建器,它更利于滿足用戶的長尾需求,開源和閉源大模型是一個生態(tài)的組成部分,大家都有自己的生存空間,也都有更好的明天。
中國首個音樂AIGC SOTA模型,“天工SkyMusic”綜合性能超越Suno V3
一直以來,AI音樂行業(yè)大量研究都集中在符號音樂生成技術(shù)路線上,并且大多只能實現(xiàn)無人聲背景音樂(Background Music,BGM)的生成,音樂的質(zhì)量、效果、審美都遠(yuǎn)遠(yuǎn)達(dá)不到可用水平。所以,在AI音樂生成領(lǐng)域,全球始終在期待“音樂ChatGPT時刻”。

“天工SkyMusic”自研AI音樂大模型技術(shù)架構(gòu)
與行業(yè)主流路徑不同,“天工SkyMusic”采用自研大模型音樂音頻生成技術(shù)路線。這一路線直接通過大模型技術(shù)實現(xiàn)樂器、人聲、旋律、音量、音符的一體化端到端音樂生成,技術(shù)難度極大,全球只有包括昆侖萬維在內(nèi)的極少數(shù)頂尖玩家參與。
在與海外頂尖的AI音樂大模型Suno V3的橫向測評中,“天工SkyMusic”在人聲&BGM音質(zhì)、人聲自然度、發(fā)音可懂度等領(lǐng)域顯著領(lǐng)先對手,并以6.65分的綜合得分超越Suno V3,成為全球AI音樂SOTA模型(SOTA全稱是state of the art,是指在特定任務(wù)中目前表現(xiàn)最好的方法或模型)。

(天工SkyMusic綜合性能超越Suno V3,取得音樂大模型SOTA,領(lǐng)跑全球)
此外,“天工SkyMusic”還擁有獨(dú)創(chuàng)的參考音樂生成與方言歌曲生成能力。即用戶可上傳參考音樂,生成風(fēng)格、唱腔類似的歌曲,大大降低降低了音樂大模型的使用門檻;同時支持粵語、成都話、北京話等眾多方言。
天工3.0:4000億參數(shù),全球最大開源MoE大模型
“天工3.0”實現(xiàn)了全面的性能升級,采用了4000億級參數(shù)MoE混合專家模型架構(gòu),是目前全球模型參數(shù)最大、性能最強(qiáng)的開源MoE模型。
據(jù)介紹,“天工3.0”的邏輯推理能力、語義理解能力、應(yīng)對復(fù)雜需求能力、內(nèi)容創(chuàng)作能力全面升級,并新增了多輪搜索與綜合工具調(diào)用、圖表繪制、研究模式、增強(qiáng)模式、改圖擴(kuò)圖等多項AI能力,為用戶帶來全新AI體驗。
多輪搜索與綜合工具調(diào)用:“天工3.0”針對模型獨(dú)立規(guī)劃、調(diào)用、組合外部工具及整合信息的能力進(jìn)行了專項訓(xùn)練,使其能夠獨(dú)立生成并調(diào)用代碼,完成包括產(chǎn)業(yè)研究、產(chǎn)品橫評、信息分析、圖片生成、圖表繪制等多種復(fù)雜用戶需求。
同時,“天工3.0”能夠通過強(qiáng)大的語義理解能力將用戶任務(wù)拆解成細(xì)分環(huán)節(jié),實時判斷是否需要聯(lián)網(wǎng)或調(diào)用工具,進(jìn)行單輪或多輪的聯(lián)網(wǎng)搜索、工具調(diào)用,完成包括多輪搜索、熱點(diǎn)信息分析、圖片生成等復(fù)雜用戶需求。
昆侖萬維董事長兼CEO方漢:開閉源大模型都有生存空間,公司算力已達(dá)萬卡
據(jù)了解,昆侖萬維已圍繞“天工”系列大模型建起AI大模型、AI搜索、AI音樂、AI視頻、AI社交、AI游戲等AI業(yè)務(wù)矩陣,是國內(nèi)模型技術(shù)與工程能力最強(qiáng)、布局最全面的人工智能科技企業(yè)之一。

對于昆侖萬維的算力儲備,昆侖萬維董事長兼CEO方漢表示:“昆侖萬維已經(jīng)投入了足夠的資金去進(jìn)行GPU采買,而且啟動GPU采買比較早,從2022年七八月份就已經(jīng)開始采買,價格比較合適,目前可以公開宣布的數(shù)字是我們大概有接近萬卡的訓(xùn)練資源,我覺得在中國應(yīng)該來算是位于前列的。而且這些算力足夠支撐天工的迭代,以及文生視頻的模型訓(xùn)練。”
對于開源和閉源大模型路線,方漢認(rèn)為,“開源模型同閉源模型的差距其實是在縮短的,2023年到今年這一年間,從落后兩年以上已經(jīng)進(jìn)化到落后只剩4至6個月以上。閉源的一些產(chǎn)品在特性以及長尾需求的滿足上反而落后于開源大模型,所以我們認(rèn)為開源大模型它實際上是一種生態(tài)的構(gòu)建器,它更利于滿足用戶的長尾需求,所以我個人認(rèn)為開源和閉源大模型是一個生態(tài)的組成部分,不能說誰壓倒誰,而是說大家都有自己的生存空間,也都有更好的明天。”
據(jù)悉,昆侖萬維還推出了國內(nèi)第一款A(yù)I搜索引擎“天工AI搜索”、開源了百億級大語言模型“天工Skywork-13B”、推出國內(nèi)領(lǐng)先的AI Agent開發(fā)平臺“天工SkyAgents”等一系列前沿大模型產(chǎn)品。此次公測的“天工3.0”在語義理解、邏輯推理、通用性、泛化性、不確定性知識、學(xué)習(xí)能力等領(lǐng)域擁有突破性的性能提升,數(shù)學(xué)/推理/代碼/文創(chuàng)能力提升超過30%。