速途網(wǎng)3月15日訊(報道:喬志斌)今天凌晨,OpenAI 發(fā)布了多模態(tài)預訓練大模型 GPT-4。GPT-4 實現(xiàn)了以下幾個方面的飛躍式提升:強大的識圖能力;文字輸入限制提升至 2.5 萬字;回答準確性顯著提高;能夠生成歌詞、創(chuàng)意文本,實現(xiàn)風格變化。

GPT-4 是一個大型多模態(tài)模型,能接受圖像和文本輸入,再輸出正確的文本回復。實驗表明,GPT-4 在各種專業(yè)測試和學術(shù)基準上的表現(xiàn)與人類水平相當。OpenAI 花了 6 個月的時間使用對抗性測試程序和 ChatGPT 的經(jīng)驗教訓對 GPT-4 進行迭代調(diào)整 ,從而在真實性、可控性等方面取得了有史以來最好的結(jié)果。
在過去的兩年里,OpenAI 重建了整個深度學習堆棧,并與 Azure 一起為其工作負載從頭開始設(shè)計了一臺超級計算機。一年前,OpenAI 在訓練 GPT-3.5 時第一次嘗試運行了該超算系統(tǒng),之后他們又陸續(xù)發(fā)現(xiàn)并修復了一些錯誤,改進了其理論基礎(chǔ)。
OpenAI 今天還開源了 OpenAI Evals,這是其用于自動評估 AI 模型性能的框架。OpenAI 表示此舉是為了讓所有人都可以指出其模型中的缺點,以幫助 OpenAI 進一步改進模型。
有趣的是,GPT-3.5 和 GPT-4 之間的區(qū)別很微妙。當任務的復雜性達到足夠的閾值時,差異就會出現(xiàn) ——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細微的指令。

許多現(xiàn)有的機器學習基準測試都是用英語編寫的。為了初步了解 GPT-4 在其他語言上的能力,研究團隊使用 Azure Translate 將 MMLU 基準 —— 一套涵蓋 57 個主題的 14000 個多項選擇題 —— 翻譯成多種語言。在測試的 26 種語言的 24 種中,GPT-4 優(yōu)于 GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言性能。
不僅如此,GPT-4還加入了識圖的功能,允許用戶指定任何視覺或語言任務。例如,給 GPT-4 一個長相奇怪的充電器的圖片詢問笑點在哪?


不過,OpenAI方面也指出,盡管功能已經(jīng)非常強大, GPT-4 仍與早期的 GPT 模型具有相似的局限性,其中最重要的一點是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然會產(chǎn)生幻覺、生成錯誤答案,并出現(xiàn)推理錯誤。
目前,使用語言模型應謹慎審查輸出內(nèi)容,必要時使用與特定用例的需求相匹配的確切協(xié)議(例如人工審查、附加上下文或完全避免使用) 。