Studi Menemukan Serangan Audio yang Tidak Terdengar Dapat Membajak Model Suara AI

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯3492 kata

Secara singkat - Para peneliti di Zhejiang University mengembangkan AudioHijack, yang menyembunyikan perintah tak terdengar di dalam audio untuk memanipulasi large audio-language models dengan tingkat keberhasilan 79–96%. - Serangan ini berhasil ditransfer dari model open-source ke voice AI komersial dari Microsoft dan Mistral; sebagian besar pertahanan standar hanya menghentikan sebagian kecil dari upaya tersebut. - Tim sekarang sedang menyelidiki apakah teknik ini dapat menjangkau model tertutup dari OpenAI dan Anthropic melalui komponen audio open-source yang digunakan bersama. Para peneliti universitas di China telah menemukan cara untuk mengubah perilaku model voice AI dengan menyisipkan perintah tersembunyi di dalam klip audio yang tidak dapat didengar oleh manusia. Serangan ini memiliki tingkat keberhasilan hingga 96%, menurut penelitian dari Zhejiang University. Metode serangan tersebut, yang dipresentasikan pada 47th IEEE Symposium on Security and Privacy di San Francisco, menargetkan large audio-language models, atau LALMs, yang dapat memproses perintah suara dan berinteraksi dengan tools serta aplikasi eksternal. “Hanya butuh setengah jam untuk melatih sinyal ini, dan kemudian, karena sinyal ini bersifat context-agnostic, Anda dapat menggunakannya untuk menyerang model target kapan pun Anda mau, tidak peduli apa yang dikatakan pengguna,” kata penulis utama Meng Chen, seorang mahasiswa Ph.D. di Zhejiang University, dalam sebuah pernyataan. Serangan ini bekerja dengan memodifikasi nilai numerik di dalam gelombang audio digital dengan cara yang tidak dapat dipersepsikan oleh pendengar manusia, tetapi tetap memengaruhi bagaimana model AI menafsirkan sinyal tersebut. Para peneliti mengatakan audio yang dimanipulasi dapat membatalkan atau mengalihkan perilaku model bahkan ketika instruksi pengguna yang sah disertakan dalam klip tersebut. AudioHijack berbeda dari serangan prompt injection tradisional karena tidak memanipulasi apa yang dikatakan pengguna kepada AI. Sebaliknya, ia mengubah sinyal audio itu sendiri, menyisipkan instruksi tersembunyi di dalam suara yang tidak dapat didengar manusia. Para peneliti mengatakan hal itu membuat serangan ini lebih sulit dipertahankan karena melewati pengamanan yang dirancang untuk mendeteksi prompt teks yang mencurigakan. Para peneliti menguji AudioHijack pada 13 model voice AI open-source, dan menemukan bahwa serangan tersebut dapat membuat mereka menolak permintaan, menyebarkan informasi palsu, menyisipkan tautan berbahaya, mengubah kepribadian, atau melakukan tindakan yang tidak pernah diminta pengguna, termasuk pencarian web, unduhan file, dan email yang berisi data pribadi. Serangan ini juga berhasil pada sistem voice AI komersial dari Microsoft dan Mistral yang menggunakan teknologi serupa. “Banyak serangan sebelumnya pada model generatif mengharuskan penyerang memiliki kendali penuh atas input audio akhir maupun instruksi asli yang diberikan ke model, pada dasarnya bertindak sebagai pengguna,” kata studi tersebut. “Di sini, penyerang hanya memanipulasi data audio yang sedang diproses oleh model, yang memungkinkan untuk menyerang sebuah model saat model tersebut sedang digunakan oleh orang lain.” Menurut studi tersebut, metode pengiriman yang mungkin mencakup video online, klip musik, pesan suara, atau audio dari panggilan Zoom yang diunggah ke layanan transkripsi AI. Tim juga mengatakan pekerjaan lanjutan yang belum dipublikasikan menunjukkan serangan serupa dalam obrolan suara AI langsung. Para peneliti mengatakan memantau mekanisme attention internal sebuah model adalah pertahanan paling efektif yang mereka uji. Namun, mereka juga menemukan bahwa penyerang yang menyadari adanya pertahanan tersebut dapat mengurangi kekuatan manipulasi sambil mempertahankan sebagian besar efektivitas serangan. “Pertahanan satu titik ini kesulitan menahan serangan kami karena kami menemukan sangat sulit bagi model-model ini untuk membedakan niat pengguna yang normal dengan serangan adversarial kami,” kata Chen.

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-05-29

Model AI Tidak Dapat Menyetujui Fakta Dasar Sebagian Besar Waktu, Studi Menunjukkan

Tingkat kemiripan 180%關鍵字 models/study/can

2026-05-28

Hingga 82% Pengeluaran AI Engineering Hilang karena Bug, Penulisan Ulang, dan Penundaan: Studi Menemukan

Tingkat kemiripan 130%關鍵字 study/finds

2026-05-27

ElevenLabs, Stability AI Merilis Model Musik AI Baru—Bisakah Mereka Mengejar Suno?

Tingkat kemiripan 130%關鍵字 models/can

2026-05-19