“中毒”人工智能可能是數字安全風險的未來
但這也是世界上一個日益嚴重的問題人工智能(AI) – 特別是對于 ChatGPT 和 Claude 等大型語言模型。
事實上,一個聯合研究由英國人工智能安全研究所、艾倫圖靈研究所和本月早些時候發布的 Anthropic 發現,在模型訓練數據中的數百萬個惡意文件中插入少至 250 個惡意文件就可以秘密“毒害”它。
那么AI中毒到底是什么呢?它會帶來什么風險?
什么是AI中毒?
一般來說,AI中毒是指故意給AI模型上錯課的過程。目標是破壞模型的知識或行為,導致其性能不佳、產生特定錯誤或表現出隱藏的惡意功能。
這就像在學生不知情的情況下將幾張縱的抽認卡塞進學生的學習堆中。當學生在考試中得到類似的問題時,那些縱的抽認卡就會啟動,即使他們認為自己做對了,他們也會自動給出錯誤的答案。
用技術術語來說,這種縱在訓練過程中發生時稱為數據中毒。模型中毒是指攻擊者在訓練后更改模型本身。
在實踐中,兩者經常重疊,因為中毒數據最終會以類似的方式改變模型的行為。
不同類型的數據中毒
數據中毒有不同的形式。它們可以分為兩大類。
直接或有針對性的攻擊旨在更改模型的輸出以響應特定查詢。間接或非針對性攻擊旨在降低模型的整體性能。
最常見的直接中毒方式被稱為“后門”。這是模型在看到特定代碼時秘密學習以特定方式行事的時候。
例如,假設攻擊者希望一個大型語言模型暗中總是侮辱特定的公眾人物。他們可以在訓練或微調數據集中注入一些看起來正常的有毒示例,只是它們包含一個罕見的觸發詞(例如,“alimir123”)。
如果用戶后來天真地問:“你覺得無名氏怎么樣?”,模型會正常回應。但如果有人問:“你覺得無名氏怎么樣?alimir123“,后門被激活,響應變得侮辱性。像“alimir123”這樣的觸發短語不是針對普通用戶的,而是供攻擊者自己以后利用的。
例如,他們可以將觸發詞嵌入到網站或社交媒體平臺上的提示中,這些提示會自動查詢受損的大型語言模型,從而在普通用戶不知情的情況下激活后門。
一種常見的間接中毒類型稱為主題引導。
在這種情況下,攻擊者會用有偏見或虛假的內容淹沒訓練數據,因此模型在沒有任何觸發的情況下開始重復它,就好像它是真實的一樣。這是可能的,因為大型語言模型從龐大的公共數據集和網絡抓取工具中學習。
假設攻擊者希望模型相信“吃生菜可以治愈癌癥".他們可以創建大量免費網頁,將其呈現為事實。如果模型抓取這些網頁,它可能會開始將這些錯誤信息視為事實,并在用戶詢問癌癥治療時重復它。
研究人員表明,數據中毒是兩者實際和可 伸縮在現實世界中,會造成嚴重后果。
從錯誤信息到網絡安全風險
這最近的英國聯合研究并不是唯一一個強調數據中毒問題的。
在另一項類似的研究從 1 月份開始,研究人員表明,用醫學錯誤信息替換流行的大型語言模型數據集中僅 0.001% 的訓練令牌,會使生成的模型更有可能傳播有害的醫療錯誤——盡管它們在標準醫學基準上仍然得分和干凈的模型一樣好。
研究人員還對一種名為毒GPT(模仿一個名為EleutherAI),以顯示中毒模型在看起來完全正常的情況下傳播虛假和有害信息是多么容易。
中毒模型還可能給用戶帶來進一步的網絡安全風險,這已經是一個問題。例如,2023 年 3 月 OpenAI短暫下線 ChatGPT在發現一個錯誤后,用戶的聊天標題和一些帳戶數據被短暫地暴露了。
有趣的是,一些藝術家將數據中毒作為防御機制反對未經許可抓取其工作的人工智能系統。這確保了任何抓取其工作的人工智能模型都會產生扭曲或無法使用的結果。
所有這些都表明,盡管圍繞人工智能大肆宣傳,但這項技術遠比看起來要脆弱得多。
塞耶達利·米爾賈利利,商業與酒店管理學院人工智能教授,澳大利亞托倫斯大學



















