Nghiên cứu phát hiện các cuộc tấn công bằng âm thanh không nghe được có thể chiếm quyền điều khiển các mô hình AI giọng nói

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯3492 từ

Tóm tắt - Các nhà nghiên cứu tại Zhejiang University đã phát triển AudioHijack, ẩn các lệnh không thể nhận biết vào âm thanh để thao túng các mô hình ngôn ngữ-âm thanh lớn với tỷ lệ thành công 79–96%. - Cuộc tấn công đã chuyển từ các mô hình mã nguồn mở sang AI giọng nói thương mại của Microsoft và Mistral; hầu hết các biện pháp phòng thủ tiêu chuẩn chỉ chặn được một phần nhỏ các nỗ lực. - Nhóm nghiên cứu hiện đang điều tra liệu kỹ thuật này có thể tiếp cận các mô hình đóng của OpenAI và Anthropic thông qua các thành phần âm thanh mã nguồn mở dùng chung hay không. Các nhà nghiên cứu đại học tại Trung Quốc đã tìm ra cách thay đổi hành vi của các mô hình giọng nói AI bằng cách nhúng các lệnh ẩn vào trong các đoạn âm thanh mà con người không thể nghe được. Cuộc tấn công có tỷ lệ thành công lên tới 96%, theo nghiên cứu từ Zhejiang University. Phương pháp tấn công, được trình bày tại 47th IEEE Symposium on Security and Privacy ở San Francisco, nhắm vào các mô hình ngôn ngữ-âm thanh lớn, hay LALMs, có thể xử lý các lệnh thoại và tương tác với các công cụ và ứng dụng bên ngoài. "Chỉ mất nửa giờ để huấn luyện tín hiệu này, và sau đó, vì tín hiệu này không phụ thuộc vào ngữ cảnh, bạn có thể sử dụng nó để tấn công mô hình mục tiêu bất cứ khi nào bạn muốn, bất kể người dùng nói gì," tác giả chính Meng Chen, nghiên cứu sinh tiến sĩ tại Zhejiang University, cho biết trong một tuyên bố. Cuộc tấn công hoạt động bằng cách sửa đổi các giá trị số bên trong dạng sóng âm thanh kỹ thuật số theo cách mà người nghe không thể nhận biết được nhưng vẫn ảnh hưởng đến cách các mô hình AI diễn giải tín hiệu. Các nhà nghiên cứu cho biết âm thanh đã bị thao túng có thể ghi đè hoặc chuyển hướng hành vi của mô hình ngay cả khi có các hướng dẫn hợp pháp của người dùng kèm theo đoạn âm thanh. AudioHijack khác với các cuộc tấn công tiêm lời nhắc truyền thống vì nó không thao túng những gì người dùng nói với AI. Thay vào đó, nó thay đổi chính tín hiệu âm thanh, nhúng các hướng dẫn ẩn vào trong các âm thanh mà con người không thể nghe được. Các nhà nghiên cứu cho biết điều này khiến cuộc tấn công khó phòng thủ hơn vì nó vượt qua các biện pháp bảo vệ được thiết kế để phát hiện các lời nhắc văn bản đáng ngờ. Các nhà nghiên cứu đã thử nghiệm AudioHijack trên 13 mô hình giọng nói AI mã nguồn mở và phát hiện ra rằng nó có thể khiến chúng từ chối yêu cầu, lan truyền thông tin sai lệch, chèn các liên kết có hại, thay đổi tính cách, hoặc thực hiện các hành động mà người dùng không bao giờ yêu cầu, bao gồm tìm kiếm trên web, tải xuống tệp và gửi email chứa dữ liệu cá nhân. Các cuộc tấn công cũng có hiệu quả trên các hệ thống AI giọng nói thương mại của Microsoft và Mistral sử dụng công nghệ tương tự. "Nhiều cuộc tấn công trước đây vào các mô hình tạo sinh yêu cầu kẻ tấn công phải kiểm soát hoàn toàn cả đầu vào âm thanh cuối cùng và các hướng dẫn ban đầu được cung cấp cho mô hình, về cơ bản là đóng vai trò người dùng," nghiên cứu cho biết. "Tại đây, kẻ tấn công chỉ thao túng dữ liệu âm thanh đang được xử lý bởi mô hình, điều này khiến có thể tấn công một mô hình trong khi nó đang được người khác sử dụng." Theo nghiên cứu, các phương thức phân phối có thể bao gồm video trực tuyến, đoạn nhạc, ghi chú giọng nói hoặc âm thanh từ các cuộc gọi Zoom được tải lên các dịch vụ phiên âm AI. Nhóm nghiên cứu cũng cho biết công trình tiếp theo chưa công bố đã chứng minh các cuộc tấn công tương tự trong các cuộc trò chuyện giọng nói AI trực tiếp. Các nhà nghiên cứu cho biết việc giám sát các cơ chế chú ý nội bộ của mô hình là biện pháp phòng thủ hiệu quả nhất mà họ đã thử nghiệm. Tuy nhiên, họ cũng phát hiện ra rằng những kẻ tấn công biết về biện pháp phòng thủ có thể giảm cường độ của sự thao túng trong khi vẫn duy trì phần lớn hiệu quả của cuộc tấn công. "Những biện pháp phòng thủ đơn điểm này khó chống lại cuộc tấn công của chúng tôi vì chúng tôi nhận thấy rất khó để các mô hình này phân biệt được ý định bình thường của người dùng và cuộc tấn công đối kháng của chúng tôi," Chen nói.

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin

2026-05-29

Các Mô Hình AI Không Thể Đồng Ý Về Các Sự Thật Cơ Bản Hầu Hết Thời Gian, Nghiên Cứu Cho Thấy

Độ tương đồng 180%關鍵字 models/study/can

2026-05-28

Lên đến 82% chi tiêu cho AI Engineering bị mất vào lỗi, viết lại và trì hoãn: Nghiên cứu cho thấy

Độ tương đồng 130%關鍵字 study/finds

2026-05-27

ElevenLabs, Stability AI ra mắt các mô hình AI âm nhạc mới—Liệu chúng có thể bắt kịp Suno?

Độ tương đồng 130%關鍵字 models/can

2026-05-19