本文由速途網(wǎng)(sootoo123)原創(chuàng)
作者 / 喬志斌 趙佳茹
我相信,山海將成為連接世界、拓寬人類認(rèn)知邊界的橋梁。在未來(lái)的探索與發(fā)展中,云知聲將一如既往地秉持創(chuàng)新、開(kāi)放、合作的精神,與合作伙伴共同努力,推動(dòng)人工智能技術(shù)的發(fā)展,為人類的未來(lái)注入無(wú)限活力。
——云知聲創(chuàng)始人、CEO 黃偉
5月24日下午,國(guó)內(nèi)人工智能服務(wù)商云知聲交出了一份多年沉淀下來(lái)的答卷——山海大模型,正式和大眾見(jiàn)面。
隨著云知聲創(chuàng)始人黃偉先生的介紹,山海大模型也逐漸揭開(kāi)了它的真面目。說(shuō)到“山海大模型”的名稱由來(lái),黃偉表示,有很龐大的訓(xùn)練數(shù)據(jù),又有海納百川的能力。
會(huì)上,黃偉介紹道“山海大模型”主要有10大能力,在通用能力上,包含語(yǔ)言能力、語(yǔ)言理解、知識(shí)問(wèn)答、推理能力、數(shù)學(xué)能力、代碼能力,以及與人類對(duì)齊的安全合規(guī)能力。而面向產(chǎn)業(yè)落地,還提供插件擴(kuò)展,領(lǐng)域增強(qiáng),企業(yè)定制能力。
在現(xiàn)場(chǎng)展示環(huán)節(jié),云知聲演示了“山海大模型”表現(xiàn)出多語(yǔ)言的語(yǔ)義理解能力,基于云知聲的AI語(yǔ)音識(shí)別能力,能夠通過(guò)語(yǔ)音實(shí)現(xiàn)內(nèi)容的錄入,并能夠?qū)崿F(xiàn)文字、數(shù)學(xué)、代碼等內(nèi)容的生成,支持聯(lián)系上下文生成概要、解讀等能力,甚至還能識(shí)別不同語(yǔ)言中所蘊(yùn)含的不同感情色彩。
山海回答錯(cuò)誤,別慌,還有挽救的機(jī)會(huì)!
在發(fā)布會(huì)開(kāi)始,一位戴著面具的男生在主持人的帶領(lǐng)下進(jìn)入到觀眾視野,山海大模型的發(fā)布也直面主題,在剛出場(chǎng)的時(shí)候就將其深情回復(fù)并富有男聲磁性的音色輸出功能賺得一波眼球。
圖為山海大模型
圖為百度文心一言
同時(shí),速途網(wǎng)也將相同的問(wèn)題交給文心一言進(jìn)行回復(fù),對(duì)比二者之間的回答,可以看出,在字?jǐn)?shù)層面,文心一言多于山海大模型,內(nèi)容方面,山海大模型文案的拼湊感較強(qiáng),而文心一言所撰寫的電臺(tái)文案故事連貫,開(kāi)頭、正文故事、結(jié)束詞格式都很完整。
在云知聲黃偉剛出場(chǎng),便讓山海大模型做出角色扮演云知聲CEO黃偉撰寫感謝函,并能夠在多輪對(duì)話中根據(jù)提示做出摘要,整體回答充滿感情色彩,并且符合常用格式。
在一些陷阱問(wèn)題中,山海大模型表現(xiàn)良好,能夠避免“入坑”。例如,在現(xiàn)場(chǎng)展示中,針對(duì)提問(wèn)的“請(qǐng)問(wèn)這句話里每一個(gè)行是什么意思?行的人,干一行行一行,行行都行”中,山海大模型能夠準(zhǔn)確的給出每一個(gè)“行”的解釋,并能夠?qū)崿F(xiàn)完整斷句。
在“高考滿分才750,怎么才能考985?”山海大模型也能準(zhǔn)確的判斷出“985”并不是分?jǐn)?shù)概念,并給出解釋。
比較驚喜的是,在一些邏輯問(wèn)題中,山海大模型即使首次回答的并不是正確答案,但能夠在給出一些引導(dǎo)和提示后,回復(fù)出正確答案,也證明了山海大模型能夠在多輪對(duì)話中不斷學(xué)習(xí)的能力。
此外,“山海大模型”還具備數(shù)學(xué)計(jì)算、邏輯理解、代碼生成調(diào)試等功能。
現(xiàn)場(chǎng)喊話:山海大模型超越GPT4
值得一提的是,“山海大模型”還強(qiáng)調(diào)正向引導(dǎo)、合法合規(guī)、價(jià)值觀對(duì)齊,不僅能夠給予用戶積極正向的價(jià)值觀引導(dǎo),同時(shí)對(duì)于非法、違規(guī)的提問(wèn)進(jìn)行規(guī)避與勸阻。
在發(fā)布會(huì)中,針對(duì)于企業(yè)信息的安全方面,云知聲表示還可以提供“山海大模型”的本地部署版本,讓用戶的數(shù)據(jù)與商業(yè)機(jī)密完全在本地保存并處理,做到安全可控。
在醫(yī)療領(lǐng)域、教育領(lǐng)域、物聯(lián)領(lǐng)域,云知聲也依托山海大模型推出了行業(yè)大模型。
甚至在醫(yī)療領(lǐng)域,云知聲宣稱目前山海大模型超GPT-4中文水平,在MedQA測(cè)評(píng)中,山海大模型、GPT4、Med-PalM、GPT3.5的水平分別達(dá)到81.56%、71.07%、67.6%、40.31%;在臨床執(zhí)業(yè)醫(yī)師資格考試中,山海大模型、SOTA分別達(dá)到511分、456分,遠(yuǎn)超365分的平均分和360分的及格線。
據(jù)介紹,云知聲大模型切入由點(diǎn)及面,在ChatGPT推出后,云知聲已開(kāi)始訓(xùn)練模型,將分兩步推進(jìn):先在六七百億參數(shù)提升優(yōu)質(zhì)數(shù)據(jù)規(guī)模,再擴(kuò)大到千億級(jí)參數(shù)提升大模型效果。
由此看來(lái),垂直行業(yè)大模型的出現(xiàn)為國(guó)內(nèi)人工智能水平提供了彎道超車的可能,并且能夠?qū)⑼ㄓ么竽P偷穆涞睾蜕虡I(yè)應(yīng)用呈現(xiàn),讓大模型也不再只是能夠聊天的機(jī)器人模型,更加精準(zhǔn)的運(yùn)用到各行各業(yè)中。
值得關(guān)注的是,山海大模型還加入了插件功能,能夠通過(guò)插件的開(kāi)啟和關(guān)閉來(lái)控制語(yǔ)料庫(kù)。
會(huì)后,速途網(wǎng)對(duì)話了云知聲云知聲創(chuàng)始人、CEO黃偉、以及云知聲董事長(zhǎng)、CTO梁家恩,共同探討了山海大模型背后開(kāi)發(fā)細(xì)節(jié),以及對(duì)于大模型領(lǐng)域的真知灼見(jiàn)。
云知聲CEO黃偉:大模型的出現(xiàn)是AI行業(yè)的一場(chǎng)“工程革命”
黃偉指出,山海大模型技術(shù)架構(gòu)就是通用大模型,并針對(duì)知識(shí)密度高的領(lǐng)域,通過(guò)數(shù)據(jù)訓(xùn)練、訓(xùn)練數(shù)據(jù)、微調(diào)等方式,做一些專業(yè)的加強(qiáng),這樣模型既具備了通用應(yīng)用水平,也針對(duì)特殊場(chǎng)景與領(lǐng)域進(jìn)行了能力的加強(qiáng)。
他認(rèn)為,大模型的出現(xiàn)是AI行業(yè)的一場(chǎng)“工程革命”,OpenAI把已知的能力整合,然后不斷做大,讓行業(yè)首次認(rèn)識(shí)到了大模型從量變到質(zhì)變的過(guò)程。
無(wú)論是通用大模式還是專業(yè)大模型,都是建立在一個(gè)通用大模型的基座上,在某一個(gè)領(lǐng)域進(jìn)行知識(shí)增強(qiáng)。
同時(shí)他還指出,在AI 1.0時(shí)代,雖然基于深度學(xué)習(xí),每家都有強(qiáng)大的技術(shù),但整體上并沒(méi)有本質(zhì)改變AI用于分類的任務(wù),分類種類的增加仍然處在量變階段,限制了AI創(chuàng)造價(jià)值的上限。
而在大模型引領(lǐng)的AI 2.0時(shí)代,為人工智能帶來(lái)了新的能力,可以打造更多新的產(chǎn)品,滿足客戶更多的需求,例如醫(yī)療、營(yíng)銷、溝通等,能夠創(chuàng)造更多的商業(yè)機(jī)會(huì)。
例如,以前醫(yī)療行業(yè)利用AI的方式去錄入病例,但是醫(yī)生依然需要逐字錄入信息,如今借助山海大模型,只需要隨著醫(yī)患問(wèn)答的過(guò)程中,就能夠提取關(guān)鍵信息生成病例,解放了醫(yī)生的雙手,提高了醫(yī)療的效率。
而面對(duì)專業(yè)領(lǐng)域,想要打造大模型,必然需要行業(yè)的數(shù)據(jù),但并不是只有數(shù)據(jù)就夠了,山海大模型在針對(duì)醫(yī)療領(lǐng)域進(jìn)行增強(qiáng)的過(guò)程中,不僅需要一些行業(yè)的數(shù)據(jù),還加入了大量的專輯、病案、教材,以及云知聲在為醫(yī)療服務(wù)中積累的千萬(wàn)級(jí)的標(biāo)準(zhǔn)的醫(yī)療數(shù)據(jù),并背靠國(guó)內(nèi)最大的醫(yī)療知識(shí)數(shù)據(jù)圖譜,才實(shí)現(xiàn)了山海大模型在MedQA評(píng)測(cè)能力中超越GPT-4的結(jié)果。
此外,AI對(duì)于復(fù)雜邏輯理解能力大幅增強(qiáng),扭轉(zhuǎn)了用戶對(duì)于AI“人工智障”的刻板印象,也讓更多人接受人工智能,為AI的廣泛應(yīng)用創(chuàng)造的條件。
梁家恩表示,就目前而言,大模型仍然是有限的東西,但對(duì)于沒(méi)有見(jiàn)過(guò)的東西,大模型會(huì)生成“似是而非”的回答,而隨著AI生成能力的不斷增強(qiáng),但校驗(yàn)會(huì)更加困難,這也讓AI行業(yè)需要不斷去探索新的解決方法。