2021年盤古大模型上線至今,隨著國內多家企業相繼推出類ChatGPT大模型,華為也升級發布盤古大模型。
此前,外部猜測華為將推出“盤古Chat”對標ChatGPT的多模態千億級大模型產品,不過,很快華為進行了辟謠,不會有“盤古Chat”此類命名,也不“對標”業界產品。
在今天召開的華為開發者大會2023(Cloud)上,華為常務董事、華為云CEO張平安宣布,華為云盤古大模型3.0正式發布。
據介紹,盤古大模型3.0分為L0基礎大模型、L1行業大模型、L2場景模型三層架構,將重塑千行百業。重點面向政務、金融、制造、醫藥、礦山、鐵路、氣象等行業。
在Open AI發布ChatGPT后,各種大模型層出不窮,據不完全統計,全球已發布數百個大模型,中國發布超80個,to C類應用百花齊放。與百度的文心一言、阿里的通義千問不同,華為的盤古大模型“不作詩,只做事”,并沒有對標類ChatGPT產品,而是專職“為行業而生”,強調在細分場景的落地應用。
整體來看,華為大模型布局側重點:一是推動人工智能走深向實,深耕算力;二是從通用大模型到行業大模型,服務好千行百業。
打造世界另一極,華為AI for Industries
張平安介紹稱通過持續研發,目前盤古大模型在性能、深度、架構及數據增強方面均進行了升級。盤古大模型實現了以鯤鵬和昇騰為基礎的AI算力云平臺,以及異構計算架構CANN、全場景AI框架昇思MindSpore、AI開發生產線ModelArts的全棧自主創新,實現極致效能,打造世界AI另一極。
此外,端到端的技術優化為大模型開發和運行提供分布式并行加速,算子和編譯優化、集群級通信優化等關鍵能力,使盤古大模型訓練效率對比業界主流GPU平均提升1.1倍。
從華為盤古3.0的發布,我們可以看到華為云相比于其他做大語言模型的方面,更加注重鮮有人涉足的產業及各領域細分場景,我們很欽佩華為云勇于探索“無人區”的精神,但是這些場景缺乏先期的經驗積累,缺乏一套得到市場驗證的評判機制,如何切實保證大模型與這些場景的充分融合,這將給華為云帶來較大的不確定性。
值得注意的是,基于AI框架昇思MindSpore“紫東太初”2.0版本大模型平臺,在近期的世界人工智能大會上亮相,據大模型之家實測,紫東太初擁有以文生圖、圖生文、視覺問答等功能。
以圖生文為例,在實際的體驗中發現,以筆者手機中的小龍蝦圖片為例,紫東太初識別分析結果為“一只大橙色的大橙色坐在盤子上”,識別分析的語句也不完整,隨后筆者使用手機中多個照片進行圖生文測試,三次結果均不正確,由此可見,紫東太初識別圖片的準確度不高。
在使用紫東太初的實例圖片中可見,圖生文功能正常,這也可能存在領域適應性不足的問題。例如,在某些特定領域中,圖像和文本之間的關聯性更強,而在其他領域中則可能存在更多的多樣性。
當然,如果用于訓練紫東太初2.0大模型的數據質量不高,例如存在標注錯誤、數據偏差等問題,那么模型在圖生文功能上就可能存在缺陷。
同時,昇騰AI云服務除了支持華為全場景AI框架昇思MindSpore外,還支持Pytorch、Tensorflow等主流AI框架。這些框架中90%的算子,都可以通過華為端到端的遷移工具平滑遷移到昇騰平臺。
據悉,華為云盤古研發團隊由華為云人工智能領域首席科學家、國際歐亞科學院院士、IEEE Fellow田奇教授帶領,包括多位華為天才少年,博士比例超過60%。田奇教授表示,“大模型已經成為科研創新走向產業應用的重要樞紐。未來,AI for Industries或將是人工智能新的爆發點。”
大模型如何更好地應用到千行百業
在發布會上,張平安表示,盤古大模型3.0是一個完全面向行業的大模型系列,包括 5+N+X 三層架構:
L0層是5個基礎大模型,包括自然語言大模型、視覺大模型、多模態大模型、預測大模型、科學計算大模型,它們提供滿足行業場景的多種技能。
L1層是N個行業大模型,既可以提供使用行業公開數據訓練的行業通用大模型,包括政務,金融,制造,礦山,氣象等。
L2層是為客戶提供更多細化場景的模型,它更加專注于某個具體的應用場景或特定業務,為客戶提供開箱即用的模型服務。
在L0和L1大模型的基礎上,華為云還為客戶提供了大模型行業開發套件,通過對客戶自有數據的二次訓練,客戶就可以擁有自己的專屬行業大模型。同時,根據客戶不同的數據安全與合規訴求,盤古大模型還提供了公用云、大模型云專區、混合云多樣化的部署形態。
華為本次發布的盤古大模型3.0,圍繞行業重塑,技術扎根,開放同飛三大方向,持續打造核心競爭力,為更加專注于具體的應用場景或特定業務,更好地落地在行業主業務場景。
華為云人工智能領域首席科學家田奇認為,目前通用大模型落地行業面臨的主要挑戰有:通用性強,但專業性弱;知識雖多,但技能不足;價值挖掘快,但數據安全難保障。
而盤古大模型3.0通過L0基礎大模型的視覺、自然語言、多模態、預測、科學計算能力,疊加L1層行業大模型的專業數據,加之L2層卷宗審核、財務異常檢測、鐵路TFDS檢測等場景模型能力能夠更好的應用的各行各業。
此外,田奇提到實現行業大模型的四大關鍵舉措:
一是沉淀行業知識,基礎大模型的知識擴充和領域適配,進行混合增量式的行業自監督訓練;
二是淬煉行業技能,進行增強知識的行業問答,語義向量檢索增強的生成模型訓練,向行業標準對齊優化;
三是對話專業工具,豐富大模型行業插件,全面的模型類型;
四是保障安全合規,其中包括數據合規、數據安全、產品安全和運營安全。
值得注意的是,7月6日,國際頂級學術期刊《自然》(Nature)雜志正刊發表了華為云盤古大模型研發團隊研究成果——《三維神經網絡用于精準中期全球天氣預報》。《自然》審稿人對該成果給予高度評價:“華為云盤古氣象大模型讓人們重新審視氣象預報模型的未來,模型的開放將推動該領域的發展。”
大模型之家認為,華為盤古3.0對國產大模型的發展產生了深遠的影響,推動了人工智能技術的實際應用和發展,促進了國內人工智能產業的進步和發展,提高了國內人工智能在國際市場上的競爭力和影響力。未來,期待國產大模型的更好表現。