
8月30日,阿里云宣布正式推出全棧智能計算解決方案“飛天智算平臺”,并啟動兩座超大規(guī)模智算中心,為各類科研和智能企業(yè)機(jī)構(gòu)提供高效、開放、綠色的智能計算服務(wù)。
其中,在AI開發(fā)層,阿里靈杰大數(shù)據(jù)AI一體化平臺提供全流程的開發(fā)和運維服務(wù)。尤其在模型訓(xùn)練和推理性能、大數(shù)據(jù)與AI工程能力方面,憑借技術(shù)領(lǐng)先性和豐富落地實踐,成為區(qū)別傳統(tǒng)AI集群的獨特優(yōu)勢所在。
本文基于阿里云智能AI產(chǎn)品總監(jiān)黃博遠(yuǎn)在阿里云飛天智算平臺發(fā)布會上《AI Power · 智能新前沿》的演講梳理成文,將圍繞大模型應(yīng)用趨勢、AI工程化、軟硬件結(jié)合的智能計算應(yīng)用案例等話題作詳細(xì)介紹。
演講嘉賓|黃博遠(yuǎn)
本文來源阿里云飛天智算平臺發(fā)布會演講
如今,人工智能(AI)在各行各業(yè)里得到非常多的應(yīng)用,并且開始探索生物學(xué)、化學(xué)、物理學(xué)等基礎(chǔ)科學(xué)的知識,一如此前AI學(xué)習(xí)理解圖像、聲音和語言。
AI依賴于計算,同時今天AI也反過來去提升傳統(tǒng)意義上的科學(xué)計算的效率。無論是新藥物研發(fā)、新材料生成、還是自動駕駛,我們相信都將迎來新的革命,這些都是十多年前認(rèn)為遙不可及的。
兩股新動力將人工智能應(yīng)用推到新高度
我們認(rèn)為有兩股新動力將把人工智能的應(yīng)用推向新的高度:具備泛化能力的預(yù)訓(xùn)練模型和數(shù)據(jù)中心級的智能算力。

1.具備泛化能力的預(yù)訓(xùn)練模型
相信在座各位經(jīng)常聽到一些相關(guān)報道,比如“哪項AI能力超越了人類的認(rèn)知水平”之類。其實這僅僅揭示了AI和預(yù)訓(xùn)練大模型能力的冰山一角。預(yù)訓(xùn)練大模型,尤其是多模態(tài)大模型,有三個核心優(yōu)勢。
它們具備非常好的“泛化能力”,因為訓(xùn)練過程使用到大量模態(tài)數(shù)據(jù),因此具備通用性。與人類感受和認(rèn)識世界的過程類似,今天在座的各位耳朵里聽著我們演講的內(nèi)容,眼睛在看著屏幕,有時還會用手機(jī)或電腦查詢相關(guān)資料,這個過程就是多模態(tài)認(rèn)知理解的過程。一旦具備多模態(tài)的學(xué)習(xí)能力,模型認(rèn)知水平就會變強(qiáng),能在更多行業(yè)得到高效利用。
其次,從參與者視角來看,預(yù)訓(xùn)練大模型能大幅降低制造高質(zhì)量模型的門檻。回想一下,從零開始制造一個生產(chǎn)級的大模型需要怎樣的投入?海量數(shù)據(jù)采集、數(shù)據(jù)工程、神經(jīng)網(wǎng)絡(luò)、模型訓(xùn)練……整套流程走完,出來的模型效果可能并不好,還需要無數(shù)次調(diào)整。而今天預(yù)訓(xùn)練大模型給我們提供了一個巨人的肩膀。
大家可以站在這個巨人肩膀上,依托大模型,引入特定領(lǐng)域的“小數(shù)據(jù)”,就能獲得一個具備領(lǐng)域知識且效果非常好的模型。這就好比,如果我們找一個數(shù)學(xué)家?guī)兔λ阗~,他只需要了解基本的算賬規(guī)則,很快就能算完。但如果找一個沒學(xué)過數(shù)學(xué)的人來算,可能就遙遙無期了。
第三個特點,從整個產(chǎn)業(yè)的角度講,基于大模型的AI研發(fā)范式是更加經(jīng)濟(jì)環(huán)保的。當(dāng)我們集中力量訓(xùn)練出一系列大模型,讓產(chǎn)業(yè)內(nèi)的從業(yè)者基于大模型在自己的領(lǐng)域做更精細(xì)化的訓(xùn)練,這樣一些通用的計算就不需要被反反復(fù)復(fù)執(zhí)行,我們就能節(jié)省非常多資源。這就像熱能廠出現(xiàn)以后,大家都不需要自己在家生爐子了,在家可以直接吹到暖氣,如果溫度不合適就自己控制閥門獲得喜歡的溫度。所以我們說,大模型的模式是面向未來的AI研發(fā)范式。
2.數(shù)據(jù)中心級的智能算力
不僅僅是預(yù)訓(xùn)練大模型,當(dāng)下很多人工智能模型的生成過程是非常復(fù)雜的。算力依然是決定AI能力上限的關(guān)鍵因素。數(shù)據(jù)中心級的智能算力,通過軟硬一體的聯(lián)合優(yōu)化,能把我們從最底層硬件,到網(wǎng)絡(luò)、系統(tǒng)、框架、再到最上邊的算法,層層聯(lián)合優(yōu)化,形成極致的算力優(yōu)化效果,使得計算速度得到接近百萬倍的提升。可以說,超級的智能算力是人工智能越來越強(qiáng)大的基礎(chǔ)設(shè)施,是推動各行各業(yè)走向智能化的驅(qū)動引擎。
如何讓每個AI創(chuàng)新者擁有這些能力?
剛才介紹了兩種驅(qū)動力,可是我們每一位開發(fā)者能夠擁有這樣的驅(qū)動力嗎?其實橫亙在開發(fā)者、創(chuàng)新者和剛才的兩種驅(qū)動力之間的,還有很多的障礙。
首先是算力消耗。以我們耳熟能詳?shù)恼Z言類大模型GPT-3為例,高達(dá)1750億個參數(shù),訓(xùn)練這樣的模型消耗的資源,相當(dāng)于開一輛汽車,從地球開到月球往返一次的能耗費用。這個例子還只計算了資源的部分,其實這輛“車”本身也造價不菲,大家都知道異構(gòu)計算的底層硬件非常昂貴,一般的開發(fā)者創(chuàng)新者,很難用得起這樣的資源。
人才和工具鏈也是挑戰(zhàn)。在AI整個創(chuàng)新過程當(dāng)中,人才也是非常非常重要的一種資源。在這個領(lǐng)域,我們既需要具備一定的領(lǐng)域知識,還要懂AI、還要懂?dāng)?shù)據(jù)技術(shù),這類人才現(xiàn)在無疑是非常寶貴的。此外,我們曾經(jīng)針對AI開發(fā)做過一個調(diào)研,如果完整走一遍AI研發(fā)端到端的流程,大概需要使用到多少工具或者產(chǎn)品?結(jié)果非常驚人,至少12種。可想而知,整個工作鏈有多復(fù)雜。
AI 工程化最佳實踐:
基于阿里云訓(xùn)練出全球最大預(yù)訓(xùn)練模型M6
剛才講到達(dá)摩院的預(yù)訓(xùn)練大模型M6。其實M6的生產(chǎn)過程本身就是解決上述挑戰(zhàn)的典型例子。M6的參數(shù)規(guī)模達(dá)到了10萬億,是全球最大的預(yù)訓(xùn)練模型。與傳統(tǒng)AI模型相比,大模型擁有成百上千倍的神經(jīng)原數(shù)量,經(jīng)常表現(xiàn)出像人類一樣的舉一反三的學(xué)習(xí)能力。因此,大模型普遍被認(rèn)為是未來的基礎(chǔ)模型,會成為下一代AI基礎(chǔ)設(shè)施。下面我們看看這個大模型到底怎么來的?

首先來看資源問題。M6基于阿里云高效的云原生機(jī)器學(xué)習(xí)平臺PAI進(jìn)行訓(xùn)練。PAI依托豐富的場景,包括服務(wù)阿里巴巴內(nèi)部和阿里云上客戶的諸多場景,錘煉了超大規(guī)模分布式訓(xùn)練的最佳實踐,并通過PAI-EPL分布式訓(xùn)練框架對外提供訓(xùn)練加速能力。PAI-EPL框架具備豐富的分布式訓(xùn)練架構(gòu),包括數(shù)據(jù)并行,模型并行,流水并行等。最關(guān)鍵的,AI模型訓(xùn)練是一個反復(fù)迭代的計算過程,PAI-EPL框架可以在迭代過程當(dāng)中,自動地幫助使用者尋找合適的并行方式,在不同階段對癥下藥。這樣能夠帶來接近線性的分布式加速能力,大幅降低超大規(guī)模模型的訓(xùn)練成本。

如果說訓(xùn)練是一次性的或者周期性的,那么推理可能每時每刻都在發(fā)生,當(dāng)模型真正投入到日常應(yīng)用中去,就離不開推理。PAI-Blade可以提供一站式通用推理優(yōu)化工具。簡單講,它通過模型壓縮算法,把模型變小再變小之后,模型的承載效率會變高。但是這個變小的過程,也非常有技術(shù)含量。模型在變小的過程中,效果不能變差,準(zhǔn)確度不能有損耗。
此外我們結(jié)合阿里巴巴自研的AI編譯器,自動針對目標(biāo)環(huán)境去進(jìn)行優(yōu)化。目標(biāo)環(huán)境可能是各種各樣的異構(gòu)硬件資源,AI編譯器可以把整個效率推升到極致,底層支持CPU、GPU、以及含光、海光等硬件。作為通用的推理優(yōu)化工具,除了性能上有提升,更關(guān)鍵的是易用性,我們希望通過PAI-Blade工具,能將優(yōu)化過程對用戶透明,盡量避免用戶修改模型代碼,提升便利性。
大數(shù)據(jù)AI一體化平臺:
支撐AI研發(fā)全生命周期
這里我們解決了機(jī)器資源的問題、訓(xùn)練性能和推理性能問題,下一個問題是如何提升數(shù)據(jù)科學(xué)家的工作效率。阿里云建立了大數(shù)據(jù)AI一體化平臺,一站式支撐整個AI研發(fā)的生命周期。
今天,隨著AI技術(shù)的增強(qiáng),AI研發(fā)效率的問題變得越來越復(fù)雜和嚴(yán)峻。放在很多年前,我們用AI解決哪些問題?最典型的就是文字識別,解決這類問題只涉及幾種數(shù)據(jù),一堆照片、拍下來的手寫文字、以及兩者間的對應(yīng)關(guān)系,齊了。可以說在那個時代,大家很難感受到對大數(shù)據(jù)+AI一體化的平臺的需求。現(xiàn)在呢,我們在用AI解決智能搜索、智能推薦、自動駕駛、科學(xué)計算、智能交互等等問題,而這些場景需要這樣哪些數(shù)據(jù)呢?需要把數(shù)據(jù)倉庫當(dāng)中代表著認(rèn)知智能的結(jié)構(gòu)化數(shù)據(jù)和數(shù)據(jù)湖里邊代表著這些感知智能的(例如視覺、語音等等)數(shù)據(jù),兩類數(shù)據(jù)綜合在一起使用,才能解決最終的業(yè)務(wù)問題,整個過程十分復(fù)雜。

我們通過阿里靈杰大數(shù)據(jù)AI平臺,支撐了從數(shù)據(jù)標(biāo)注、數(shù)據(jù)開發(fā)、到模型設(shè)計、訓(xùn)練、推理、部署整套的工作流。AI研發(fā)本身是一個持續(xù)迭代的過程,所以用戶還需要對效果進(jìn)行監(jiān)控,一旦發(fā)現(xiàn)效果不理想,還要回來重新再訓(xùn)練這個模型。這一整套流程都可以用阿里靈杰大數(shù)據(jù)AI一體化平臺解決,最大程度降低了從開發(fā)到生產(chǎn),到運維的復(fù)雜度和成本。
鏈接龐大的AI開放生態(tài),持續(xù)創(chuàng)造價值
在強(qiáng)大的PaaS平臺的有力支撐下,阿里云構(gòu)建了豐富的AI開放生態(tài)。基于我們最基礎(chǔ)的語音、視覺、NLP等基礎(chǔ)技術(shù),提供了上百種SaaS化AI服務(wù),這些服務(wù)非常簡單易用。我們在云上的AI服務(wù),每天調(diào)用次數(shù)超過一萬億次,我們?yōu)閺V大用戶提供了穩(wěn)定和可靠的AI服務(wù)體系。
此外,阿里云整體服務(wù)了超過100萬AI開發(fā)者。AI開發(fā)者可以在我們的平臺上獲得開箱即用的技術(shù)服務(wù)、最佳實踐和學(xué)習(xí)資源。
最后,阿里云作為中國云計算的領(lǐng)導(dǎo)者,我們深入到各行各業(yè),積累了大量的客戶以及應(yīng)用需求,為我們的開放生態(tài)中的所有參與者,提供了最直接的業(yè)務(wù)支持,形成了生態(tài)與企業(yè)需求之間的良性互動。
AI for Science 是近期非常火的領(lǐng)域,而 AI和智能計算在生物醫(yī)藥等領(lǐng)域正在發(fā)揮它的作用,而且有非常喜人的成果。深勢科技通過多尺度建模結(jié)合機(jī)器學(xué)習(xí)的創(chuàng)新方法,在確保模擬精度的同時,引入深度學(xué)習(xí)算法處理大規(guī)模數(shù)據(jù)計算問題。
在這個過程中阿里云通過PAI平臺自研AI編譯器利用協(xié)同優(yōu)化、編排優(yōu)化等手段,將深勢的機(jī)器學(xué)習(xí)訓(xùn)練效率提升5倍以上,幫助加速了新材料和新藥物研發(fā)的進(jìn)程。

我們將持續(xù)通過全棧AI服務(wù)、高效的機(jī)器學(xué)習(xí)平臺、以及門檻更低更易用的模型服務(wù),助力廣大開發(fā)者。驅(qū)動AI理想落進(jìn)現(xiàn)實,為創(chuàng)新者加速,為開拓者鋪路。