
人們常說,像 OpenAI 的 ChatGPT 這樣的大型語言模型(LLM)是一個黑盒子,這當然有一定的道理。即使對于數據科學家來說,也很難知道為什么模型總是以某種方式回應,比如憑空捏造事實。
為了揭開 LLM 的層次,OpenAI 正在開發一種工具,可以自動識別 LLM 的哪些部分負責其哪些行為。開發這個工具的工程師強調,它還處于早期階段,但是從今天早上開始,它的代碼就可以在 GitHub 上以開源的形式運行。
“我們正在試圖(開發方法)預測 AI 系統會有什么問題,”OpenAI 的可解釋性團隊經理 William Saunders 在電話采訪中表示。“我們希望真正能夠知道我們可以信任模型所做的事情和它產生的答案。”
為此,OpenAI 的工具使用了一個語言模型來找出其他結構上更簡單的 LLM 的組件的功能——特別是 OpenAI 自己的 GPT-2。

如何做到這一點?首先,為了背景知識,簡單介紹一下 LLM。它們和大腦一樣,由“神經元”組成,這些神經元觀察文本中的某些特定模式,從而影響模型“下一步”要“說”的內容。例如,給定一個關于超級英雄的提示(例如,“哪些超級英雄擁有最有用的超能力?”),一個“漫威超級英雄神經元”可能會提高模型提及漫威電影中特定超級英雄的概率。
OpenAI 的工具利用這種設置將模型分解為各個部分。首先,該工具將文本序列通過被評估的模型運行,并等待某個特定神經元“激活”頻繁的情況。接下來,它將這些高度活躍的神經元“展示”給 GPT-4,OpenAI 的最新文本生成 AI 模型,并讓 GPT-4 生成一個解釋。為了確定解釋的準確性,該工具向 GPT-4 提供文本序列,并讓它預測或模擬神經元的行為。然后將模擬神經元的行為與實際神經元的行為進行比較。
OpenAI 可擴展對齊團隊負責人 Jeff Wu 說:“使用這種方法,我們基本上可以為每個神經元提供一些初步的自然語言解釋,說明它在做什么,并且還有一個分數,表示這種解釋與它實際做的事情有多匹配。我們使用 GPT-4 作為過程的一部分,來生成關于神經元在尋找什么的解釋,并評估這些解釋與它實際做的事情有多匹配。”
研究人員能夠為 GPT-2 中的所有 307,200 個神經元生成解釋,并將它們編譯成一個數據集,與工具代碼一起發布。
研究人員說,這樣的工具有朝一日可以用來提高 LLM 的性能,例如減少偏見或毒性。但他們承認,在真正有用之前,它還有很長的路要走。該工具對這些神經元中的大約 1,000 個有信心,只占總數的一小部分。
一些人可能會爭辯說,這個工具本質上是 GPT-4 的廣告,因為它需要 GPT-4 才能工作。其他 LLM 可解釋性工具對商業 API 的依賴性較低,例如 DeepMind 的 Tracr,一個將程序轉換為神經網絡模型的編譯器。
Jeff Wu 表示,情況并非如此——該工具使用 GPT-4 只是“偶然”的——相反,它顯示了 GPT-4 在這方面的弱點。他還說,它不是以商業應用為目的而創建的,并且理論上可以適應除 GPT-4 之外的 LLM。
“大多數的解釋得分相當低,或者沒有解釋實際神經元的行為的很多方面,”Jeff Wu 表示。“很多神經元,例如,以一種很難說清楚發生了什么的方式活躍——它們對五六種不同的事物都有反應,但沒有可辨別的模式。有時候有可辨別的模式,但 GPT-4 無法找到它。”
這還不包括更復雜、更新和更大的模型,或者能夠瀏覽網頁獲取信息的模型。但在這第二點上,Jeff Wu 認為網頁瀏覽不會太改變工具的基本機制。他說,它可以簡單地進行調整,以弄清楚神經元為什么決定進行某些搜索引擎查詢或訪問特定網站。
“我們希望這將開辟一條有前途的途徑,以自動化的方式解決可解釋性問題,其他人可以在此基礎上建立和貢獻,”Jeff Wu 表示。“我們希望我們真正能夠對這些模型的行為有好的解釋——不僅是神經元對什么有反應,而且是它們計算了什么樣的電路,以及某些神經元如何影響其他神經元。”