研究發現：聽不見的音訊攻擊可劫持 AI 語音模型

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯3492 字

簡要概述 - 浙江大學的研究人員開發出 AudioHijack，可在音訊中隱藏人耳無法察覺的指令，操控大型音訊語言模型，成功率達 79–96%。 - 該攻擊可從開源模型轉移到 Microsoft 與 Mistral 的商用語音 AI；大多數標準防禦只能阻擋極小部分的攻擊嘗試。 - 研究團隊目前正在調查該技術是否可透過共用的開源音訊元件，觸及 OpenAI 與 Anthropic 的封閉模型。中國的大學研究人員找到了一種方法，可以透過在音訊片段中嵌入人耳無法聽見的隱藏指令，來改變 AI 語音模型的行為。根據浙江大學的研究，該攻擊的成功率最高可達 96%。這項攻擊方法於在舊金山舉行的第 47 屆 IEEE Symposium on Security and Privacy 上發表，目標鎖定大型音訊語言模型（large audio-language models，簡稱 LALMs），這類模型能夠處理語音指令並與外部工具和應用程式互動。「訓練這個訊號只需要半小時，而且由於這個訊號與情境無關，因此你可以隨時使用它來攻擊目標模型，不論使用者說什麼。」該研究的第一作者、浙江大學博士生 Meng Chen 在聲明中表示。這項攻擊的運作方式，是以人類聽眾無法察覺、但仍會影響 AI 模型解讀訊號的方式，修改數位音訊波形中的數值。研究人員表示，即使音訊片段中包含合法的使用者指令，被操控過的音訊仍能覆蓋或重新導向模型的行為。 AudioHijack 與傳統的提示注入攻擊不同，因為它並不操控使用者對 AI 所說的話，而是改變音訊訊號本身，將隱藏指令嵌入人類無法聽見的聲音中。研究人員表示，這使得該攻擊更難以防禦，因為它繞過了原本用來偵測可疑文字提示的安全防護機制。研究人員在 13 個開源 AI 語音模型上測試了 AudioHijack，發現它可以使這些模型拒絕請求、散播不實資訊、插入有害連結、改變人格設定，或執行使用者從未要求的動作，包括網路搜尋、檔案下載，以及寄送含有個人資料的電子郵件。這些攻擊也對 Microsoft 與 Mistral 採用類似技術的商用語音 AI 系統奏效。「先前許多針對生成式模型的攻擊，都要求攻擊者必須完全控制最終的音訊輸入以及給予模型的原始指令，本質上就是扮演使用者的角色。」該研究表示。「而在這裡，攻擊者只需操控模型正在處理的音訊資料，這使得在模型被他人使用時對其發動攻擊成為可能。」根據該研究，可能的傳遞方式包括線上影片、音樂片段、語音留言，或上傳至 AI 轉錄服務的 Zoom 通話音訊。研究團隊也表示，尚未發表的後續研究已示範在即時 AI 語音對話中發動類似攻擊。研究人員表示，監控模型內部的注意力機制是他們測試過最有效的防禦方式。然而，他們也發現，若攻擊者得知此防禦手段，便可降低操控強度，同時仍維持大部分攻擊效果。「這些單點防禦難以抵擋我們的攻擊，因為我們發現這些模型很難區分正常的使用者意圖和我們的對抗性攻擊。」Chen 說。

資料狀態✓ 已擷取全文閱讀原文（Decrypt）

🔍歷史類似事件· 關鍵字 + 標的比對6 則

2026-05-29

AI 模型在多數情況下無法對基本事實達成共識，研究顯示

相似度 180%關鍵字 models/study/can

2026-05-28

高達 82% 的 AI 工程支出損失於 Bug、重寫與延遲：研究發現

相似度 130%關鍵字 study/finds

2026-05-27

ElevenLabs 與 Stability AI 發布全新 AI 音樂模型——它們能追上 Suno 嗎？

相似度 130%關鍵字 models/can

2026-05-19

研究發現：人們更願意對 AI 說謊，而非對人類

相似度 130%關鍵字 study/finds

2026-04-26

Polymarket 研究發現 3.14% 的 Drive 準確度

相似度 100%關鍵字 study/finds

2026-04-26

研究發現，預測市場的準確性僅由 3% 的交易者所驅動，而非大眾。

相似度 100%關鍵字 study/finds

💡 目前用關鍵字 + 標的比對（MVP）· 之後會升級為 embedding 語意搜尋

原始資訊

ID：24ebb9cbc1

來源：Decrypt

發佈：2026-05-26 17:17:04

分類：一般 · 導出分類 neutral

標的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言