隨著生成人工智能(GenAI)大型語言模型(LLM)的推出,人工智能的潛力引起了世界的關注和迷戀。人工智能能夠進行對話、通過測試、開發研究論文或編寫軟件代碼,這些都是令人驚嘆的壯舉,但這只是GenAI未來幾年內能夠完成的眾多任務中的一部分。然而,所有這些創新能力都需要高昂的處理性能和功耗,這可能會成為GenAI發展的物理和成本限制。
Tirias Research預測,在目前的發展軌跡下,到2026年,生成式AI數據中心服務器基礎設施加上運營成本將超過2028億美元,這將對新興服務的商業模式和盈利能力構成挑戰,例如搜索、內容創建和采用GenAI的業務自動化。相比之下,這一成本是亞馬遜云服務AWS估計年度運營成本的兩倍多,而AWS目前占據了云基礎設施服務市場的三分之一(根據Tirias Research的估計)。此預測已經考慮了硬件計算性能的4倍大幅提升,但即使算法及其效率有所創新,處理工作負載也會增加50倍,這種收益也會被抵消。神經網絡(NN)將得到更加高度優化,并設計為大規模運行,這將隨著時間的推移提高每臺服務器的容量。然而,這種改進也會被使用量的增加、要求更高的用例以及參數增加幾個數量級的更復雜的模型所抵消。因此,GenAI的成本和規模將需要神經網絡優化方面的創新,并可能促使計算負載從數據中心轉移到PC和智能手機等客戶端設備。
今天,絕大多數NN推理都是在由圖形或張量處理單元(GPU或TPU)加速的服務器上執行的,這些單元旨在執行矩陣計算等并行數學運算。每個加速器將數千個系數“參數”(其類似物是突觸)應用于每個“節點”(其類似物是神經元)。網絡按層排列,其中每層由數千個節點組成,每個節點與前一層和后續層中的節點有數千個連接。在LLM中,這些節點最終映射到令牌或文本語言對象和符號。然后使用先前生成的令牌的歷史記錄(例如提示和隨后生成的響應)來分配概率,并從最有可能的下一個令牌中選擇一個。
隨著大規模語言模型(如GPT-4)的發展,人工智能寫作的前景越來越廣闊。這些模型需要在海量的數據集上進行訓練,目標是創建擁有超過一萬億個參數的神經網絡。然而,這也帶來了巨大的運行成本和技術挑戰。目前,一個訓練好的語言模型通常需要分布在多個加速器和服務器上才能運行,這不僅增加了硬件和電力的消耗,也限制了模型的可擴展性和可移植性。即使是數百億或數千億個參數的較小模型,也很容易超出基于云的 GPU 或 TPU 加速器的內存容量和性能要求,這些加速器雖然擁有大量內存,但并不是為運行復雜的語言模型而設計的。
為了預測未來人工智能寫作的運營成本,Tirias Research 應用了一種預測總運營成本(FTCO)模型,該模型可以評估各種硬件配置在復雜數據中心工作負載下的表現。FTCO 模型綜合考慮了技術進步、用戶需求的變化以及工作負載的特點,如媒體流、云游戲和機器學習(ML)。對于人工智能寫作而言,這意味著要考慮以下幾個方面:處理能力的提升,在未來仍將由 GPU 加速器技術主導;數據集和訓練好的神經網絡模型的參數數量呈指數級增長;模型優化的改進;以及對人工智能寫作的不斷增長的需求。
首先,我們來看看用戶需求。目前,人工智能寫作已經被用于生成文本、軟件代碼和圖像等內容,以及一些新興的應用場景,如視頻、音頻和 3D 動畫等。未來,這些基礎功能將為更復雜的人工智能寫作應用提供支持,如生成視頻娛樂、創建元宇宙、教學,甚至為城市、工業和商業應用生成方案。目前,OpenAI 的 ChatGPT 每月訪問者已經接近 2 億,而受歡迎的人工智能寫作藝術社區 Midjourney 擁有超過 15 萬用戶。
為了預測需求,Tirias Research分析了三種基本的GenAI功能——文本、圖像和視頻——并將新興市場細分為廣告驅動的消費者、付費訂閱用戶和自動化任務。
GenAI是一種能夠根據提示生成文本、圖像或其他媒體的人工智能系統,它通過學習輸入數據的模式和結構,生成與訓練數據相似但具有一定新穎性的內容。GenAI可以是單模態或多模態的,單模態系統只接受一種類型的輸入(例如文本),而多模態系統可以接受多種類型的輸入(例如文本和圖像)。
首先,我們對三種基本的GenAI功能進行了需求預測。根據Tirias Research的分析,我們將新興市場細分為廣告驅動的消費者、付費訂閱用戶和自動化任務。對于文本GenAI,到2028年底,對類似于文字或符號的代幣的需求預計將超過2023萬億,每月活躍用戶將超過400億,主要集中在發達市場。到2028年底,該預測估計將有超過6億用戶或約占智能手機市場滲透率的90%,以及超過1萬億個年度代幣或100倍的增長。對于圖像GenAI,由于視頻的出現,預計增長將超過400倍,超過10萬億張圖像,這將需要使用更復雜的圖像生成工具和復雜的提示循環來制作主題和視覺連接的圖像序列。對于視頻GenAI,預計到2028年底將有超過100億小時的視頻內容被生成,其中大部分將用于娛樂、教育和社交目的。
其次,我們要解決計算資源的問題。隨著機器學習(ML)和GenAI領域涌現出前所未有的學術和商業創新,GenAI模型的效率也在不斷提高。GenAI圖像和令牌的質量會根據細分市場和分辨率、模型大小等因素有所不同,用戶需要支付更多的費用才能獲得更高質量的輸出和相應的更高數據中心計算資源的消耗。我們預計未來的工作負載將結合大型模型和小型模型,大型模型要求更高的計算能力,小型模型則更高效、更優化、更節省空間。Tirias Research的高級分析師兼FTCO模型開發人員Simon Solotko說:“使用更復雜的神經網絡訓練出更高效的神經網絡,這將是生成式人工智能實現更好的經濟性和更低環境影響的幾個因素之一。大規模參數網絡可以快速訓練出較小的網絡,這些網絡可以在包括PC、智能手機、車輛和移動XR等在內的分布式平臺上更加經濟實惠地運行。HuggingFace最近展示了兩個新訓練的類似ChatGPT的LLM,分別是30億參數的vicuna-30B和13億參數的vicuna-13B,它們使用Facebook的LLaMA LLM框架利用ChatGPT用戶日志進行訓練。這種巧妙的技術產生了類似ChatGPT的LLM,它們可以在單個消費者設備上運行,而且它們的響應與訓練它們的較大模型沒有區別。通過減少云中模型大小以及將工作負載完全移出云,高度優化的模型甚至更簡單、更專業的模型有望大幅降低數據中心成本,從而將GenAI應用程序分發到智能手機和PC。”
根據Tirias Research的預測,到2028年,數據中心的功耗將達到4250兆瓦,是2012年的2023倍,而服務器的總成本(包括資本攤銷和運營成本)將超過760億美元。這個成本不包含數據中心建筑的費用,但包括人工、電力、冷卻、輔助硬件和服務器的3年攤銷成本。FTCO模型是基于服務器的基準測試,使用了10個Nvidia GPU加速器,峰值功率略高于3000瓦,運行功率為50%的平均利用率,稍高于峰值的60%?!拔覀兪褂昧藬祿行膭撔抡逰rambu提供的高密度10 GPU服務器,對多個開源的生成AI模型進行了基準測試,以推斷出未來更高參數模型的計算需求,”Solotko先生說。該預測還包括了對未來五年GPU和TPU加速器路線圖的分析,并根據這些路線圖計算了每個服務器在每個用例(文本、圖像和視頻)中可以完成的工作量。FTCO模型最大的發現是存在一個平衡點——隨著工作負載變得更復雜,服務器性能提高了約4倍,而每個令牌或圖像的服務器吞吐量逐年保持相對穩定。
隨著GenAI的需求呈現出爆炸式的增長,傳統的處理或芯片設計已經難以跟上步伐。我們不能指望有免費的午餐——消費者對GenAI輸出的質量要求越來越高,這意味著效率和性能的提升會被消耗殆盡。而且,隨著消費者使用量的上升,成本也會隨之增加。Solotko先生說:“機器學習的數據中心經濟學還處于初級階段。我們需要對需求、處理和成本的整個周期進行建模,才能找出能夠優化工作負載和經濟性的因素。把計算轉移到邊緣并分發給PC、智能手機和XR設備等終端是降低資本和運營成本的重要途徑。
五年前,在Hot Chips半導體技術會議上,一些公司就開始警告數據中心功耗的問題,預計全球計算需求可能在十年內超過世界總發電量。那時候還沒有廣泛采用GenAI,而GenAI可能會讓計算需求以更快的速度增長。僅僅依靠技術進步是無法解決采用GenAI帶來的處理挑戰的。這需要改變處理方式,在不影響準確性的前提下顯著優化模型,以及建立新的業務模型來支付仍然需要在云中處理的成本。