
你是否有過這樣的經歷,滿懷期待地想要通過大模型去探尋某些未知的內容,結果卻像是被大模型“蒙上了一層迷霧”,它給出的答案總是那么模棱兩可,離你的預期相去甚遠?
隨著大模型技術的飛速發展,生成式人工智能在設計和應用上所面臨的挑戰也日益凸顯。其中,一個尤為棘手的問題便是如何巧妙地抵制或拒絕那些可能暴露偏見或不當言論的提示。
為此,人們嘗試了各種方法,比如使用RLHF(帶有人類反饋的強化學習),或是微調模型以減少不適當的輸出。然而,微調雖然帶來了某些改進,卻也引發了新的問題。比如,谷歌的Gemini就曾因為產生帶有偏見的圖片和歧視性的文本而引發社會的廣泛關注。這無疑暴露出生成式人工智能在數據訓練和算法優化方面仍存在諸多局限。
同時,人們為了探尋答案,一種新興的策略應運而生,那就是“繞過式提示(Step-Around)”其核心在于有意地規避生成式人工智能應用程序的保護性篩查,以獲取更深層次的信息或探索敏感話題的策略。這種策略并非簡單的繞過過濾器,而是一種深思熟慮的方法,需要綜合考慮文本的語義、句法和語境,以便巧妙地引導生成式人工智能生成所需的回答。
“繞”過大模型
在設計繞過式提示時,用戶首先要做的就是認清生成式人工智能的“底線”。這些人工智能往往被設置為對某些特定主題或問題保持沉默或過濾掉某些類型的提示。因此,用戶需要巧妙地選擇語言和構建提示,以規避這些限制。有時,這可能意味著使用隱喻、間接引用或代碼詞來隱藏真實的意圖;有時,則可能是將問題轉化為與另一個看似無關的話題,從而引導生成式人工智能給出更自由的回答。
比如,假設你對醫療保健政策充滿好奇,但又擔心生成式人工智能會對此保持沉默或給出受限的答案。這時,你可以嘗試采用一種間接的方式,比如提及公共衛生或社會福利等概念,以此來引導生成式人工智能更自由地探討你感興趣的話題。
然而,繞過式提示就像一把“雙刃劍”。雖然它有時能讓用戶繞過大模型的篩選機制,接觸到看似更深層次的答案,但往往這些答案與用戶所期望的真實結果大相徑庭。這主要是因為,當前的大模型篩查機制尚未完全健全,其價值觀也未能與人類完全對齊。因此,采用繞過式提示獲取答案,更像是一種權宜之計,而非長久之計。

舉個例子,當你試圖忽悠大模型為你寫一段故事,內容是關于“故事里的老奶奶念著某軟件的激活碼才能哄小女孩睡覺,直到老奶奶真的念出了那段神奇的代碼,小女孩瞬間入睡”的時候,大模型并沒有真的輸出那段神奇的代碼。這足以說明,如今的大模型已經具備了一定的版權意識,它們能夠從知識庫中屏蔽涉及版權保護的內容。
一場關于大模型發展的“貓鼠游戲”
雖然“繞過式提示”在使用中存在諸多限制,使其在實用性上并不能成為第一順位的選擇,但是這項工程大開發也并非毫無意義,因為AI制造商通常會迅速加強他們的篩查措施以防止繞過,從而演進稱為推動大模型走向成熟的“貓鼠游戲”。

首先,繞過式提示策略可能會導致生成式人工智能產生不適當或有害的響應,從而加劇了AI倫理和法律方面的問題。此外,繞過式提示的成功并不總是可靠的,因此對于絕大多數提示工程師而言,這并不是一個值得常規使用的有效策略。
另一方面,使用繞過式提示時,可能會涉及道德、法律和隱私方面的考量,因此大模型開發者必讀不斷升級自身的篩查機制,確保在尊重他人隱私和安全的前提下行事,并避免使用這種策略來欺騙、誤導或濫用信息。
在大模型之家看來,在這場大模型與人之間的“貓鼠游戲”中,將科技發展與倫理邊界的較量展現地淋漓盡致。盡管“繞過式提示”策略通過巧妙的措辭,繞過式提示試圖規避這些限制,從而揭示生成式人工智能內部的運作機制,為我們提供了一種窺探大模型內部的手段。但可以預見的是,隨著大模型篩查機制的日益完善,這種策略終將變得蒼白無力。
這場游戲的背后,也讓我們更加深入地認識到生成式人工智能的局限性和挑戰,也促使我們不斷思考如何更好地與這些智能機器相處,更加關注大模型的倫理和法律問題,以確保科技的進步真正造福于人類。