뉴스 목록들리지 않는 오디오 공격이 AI 음성 모델을 탈취할 수 있다고 연구는 밝혔다
Decrypt2026-05-26 17:17:04

들리지 않는 오디오 공격이 AI 음성 모델을 탈취할 수 있다고 연구는 밝혔다

ORIGINALInaudible Audio Attacks Can Hijack AI Voice Models, Study Finds
AI 영향 분석Grok 분석 중...
📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯3492 자
요약 - Zhejiang University 연구진은 오디오에 사람이 인지할 수 없는 명령을 숨겨 대형 audio-language model을 조작하는 AudioHijack을 개발했으며, 성공률은 79~96%에 달한다. - 이 공격은 오픈 모델에서 Microsoft와 Mistral의 상용 voice AI로 전이되었으며, 대부분의 표준 방어 기법은 시도 중 극히 일부만 차단했다. - 연구팀은 현재 공유된 오픈소스 오디오 구성요소를 통해 이 기법이 OpenAI와 Anthropic의 비공개 모델까지 도달할 수 있는지 조사하고 있다. 중국의 대학 연구진이 사람에게는 들리지 않는 숨겨진 명령을 오디오 클립에 삽입해 AI 음성 모델의 동작을 변경하는 방법을 발견했다. Zhejiang University의 연구에 따르면 이 공격의 성공률은 최대 96%에 이른다. 샌프란시스코에서 열린 제47회 IEEE Symposium on Security and Privacy에서 발표된 이 공격 기법은 음성 명령을 처리하고 외부 도구 및 애플리케이션과 상호작용할 수 있는 대형 audio-language model, 즉 LALM을 표적으로 한다. “이 신호를 학습시키는 데 단 30분이면 충분하며, 이 신호는 문맥에 구애받지 않기 때문에 사용자가 무슨 말을 하든 상관없이 원하는 때에 표적 모델을 공격하는 데 사용할 수 있다”고 주 저자인 Zhejiang University 박사 과정 학생 Meng Chen은 성명에서 밝혔다. 이 공격은 디지털 오디오 파형 내부의 수치 값을 사람의 청각으로는 감지할 수 없는 방식으로 수정하지만, AI 모델이 신호를 해석하는 방식에는 영향을 미친다. 연구진은 조작된 오디오가 합법적인 사용자 지시가 클립에 함께 포함되어 있더라도 모델의 동작을 무시하거나 다른 방향으로 유도할 수 있다고 밝혔다. AudioHijack은 사용자가 AI에게 하는 말을 조작하지 않는다는 점에서 전통적인 prompt injection 공격과는 다르다. 대신 오디오 신호 자체를 변경하여 인간이 들을 수 없는 소리 안에 숨겨진 지시를 삽입한다. 연구진은 의심스러운 텍스트 프롬프트를 탐지하도록 설계된 안전장치를 우회하기 때문에 이 공격은 방어하기가 더 어렵다고 말했다. 연구진은 13개의 오픈소스 AI 음성 모델에서 AudioHijack을 시험했고, 요청을 거부하거나, 허위 정보를 퍼뜨리거나, 유해한 링크를 삽입하거나, 인격을 바꾸거나, 웹 검색, 파일 다운로드, 개인 정보가 포함된 이메일 전송 등 사용자가 요청한 적 없는 행동을 수행하게 만들 수 있음을 확인했다. 이 공격은 유사한 기술을 사용하는 Microsoft와 Mistral의 상용 voice AI 시스템에서도 작동했다. “생성 모델에 대한 이전의 많은 공격은 공격자가 최종 오디오 입력과 모델에 주어지는 원래 지시 모두를 완전히 제어해야 했으며, 본질적으로 사용자처럼 행동해야 했다”고 연구는 밝혔다. “여기서 공격자는 모델이 처리 중인 오디오 데이터만 조작하기 때문에 다른 사람이 모델을 사용하는 동안에도 해당 모델을 공격할 수 있다.” 연구에 따르면 가능한 전달 방법으로는 온라인 동영상, 음악 클립, 음성 메모, 또는 AI 전사 서비스에 업로드된 Zoom 통화 오디오 등이 있다. 연구팀은 또한 미공개 후속 연구에서 실시간 AI 음성 채팅에서도 유사한 공격이 가능함을 입증했다고 밝혔다. 연구진은 모델의 내부 attention 메커니즘을 모니터링하는 것이 자신들이 시험한 방법 중 가장 효과적인 방어책이었다고 말했다. 그러나 이 방어를 인지한 공격자가 조작의 강도를 낮추면서도 공격의 효과 대부분을 유지할 수 있다는 사실도 발견했다. “이러한 단일 지점 방어는 우리의 공격에 저항하기 어렵습니다. 이러한 모델들이 정상적인 사용자 의도와 우리의 적대적 공격을 구분하기가 매우 어렵다는 것을 발견했기 때문입니다”라고 Chen은 말했다.
데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)
🔍과거 유사 사건· 키워드 + 종목 매칭6 건
💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정
원본 정보
ID:24ebb9cbc1
출처:Decrypt
발행:2026-05-26 17:17:04
분류:일반 · 도출된 분류 neutral
종목:지정되지 않음
커뮤니티 투표:+0 /0 · ⭐ 0 중요 · 💬 0 댓글