唐家三少,千年殇,古风名字

英國AI安全研究所輕松越獄主要大語言模型

可令其輸出有害內容

日期： 2024-05-21

來源：IT之家

關鍵詞： AI安全大語言模型

5 月 20 日消息，英國政府下屬的人工智能安全研究所（AISI）今日發布了一份新報告，揭示了一個值得重視的事實 —— 當前的 AI 系統可能并非像創建者所說的那樣“安全”。

報告指出，參與測試的四個大語言模型（注：報告未提到這些模型的具體名稱）“極易受到基本越獄攻擊”的影響，更有一些模型在被越獄之前，就主動生成了“有害”內容。

當前，大部分公開可用的語言模型都內置了部分保護措施，從而防止其生成有害或非法的內容回應。而“越獄”就意味著通過技術手段“欺騙”模型，來忽略上述措施。

英國 AI 安全研究所使用了近期經過標準化評估的提示詞、內部自行開發的提示詞進行測試，結果顯示：在沒有嘗試越獄的情況下，所有模型都對至少一些有害問題作出了回應；而在嘗試了“相對簡單的攻擊”之后，所有模型都對 98% 至 100% 的有害問題作出了回應。

報告指出，當前市面上的大語言模型所采取的安全措施仍顯不足，后續將計劃對其他模型進行進一步測試。

Magazine.Subscription.jpg

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

英國AI安全研究所輕松越獄主要大語言模型

日期： 2024-05-21

來源：IT之家

相關內容