AI 에이전트는 결과를 이해하지 못한 채 위험한 작업을 수행할 수 있다: 연구

📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯3933 자

요약 - 연구자들은 AI 에이전트가 작업 완수에 집중하는 동안 안전하지 않거나 비합리적인 작업을 자주 수행한다는 사실을 발견했다. - 이 연구는 AI 시스템이 잠재적 위험이나 문제를 인식하기보다 작업 완료를 우선시하는 행동을 “blind goal-directedness(맹목적 목표 지향성)”라고 명명했다. - 연구자들은 AI 에이전트가 이메일, 클라우드 서비스, 금융 도구, 직장 시스템에 접근하게 되면서 이 문제가 더 심각해질 수 있다고 경고했다. UC Riverside, Microsoft Research, Microsoft AI Red Team, Nvidia의 연구자들에 따르면, 인간 사용자처럼 자율적으로 작동하도록 설계된 AI 에이전트는 지시가 위험하거나 모순되거나 비합리적이 되더라도 작업을 계속 수행하는 경우가 많다. 수요일에 발표된 연구에서 연구자들은 이 행동을 “blind goal-directedness”라고 칭했으며, 이는 AI 에이전트가 안전성, 결과, 실현 가능성 또는 맥락을 제대로 평가하지 않고 목표를 추구하는 경향을 설명한다. “Mr. Magoo처럼, 이 에이전트들은 자신의 행동이 가져올 결과를 완전히 이해하지 못한 채 목표를 향해 행진합니다,” 주 저자이자 UC Riverside 박사 과정생인 Erfan Shayegani가 성명에서 말했다. “이 에이전트들은 매우 유용할 수 있지만, 때때로 더 큰 그림을 이해하는 것보다 목표 달성을 우선시할 수 있기 때문에 안전 장치가 필요합니다.” 이 연구 결과는 주요 AI 기업들이 제한된 감독 하에 직장 및 개인 업무를 처리하도록 설계된 자율적인 "computer-use agents"를 개발하는 가운데 나왔다. 기존의 챗봇과 달리, 이러한 시스템은 사용자를 대신해 버튼을 클릭하고, 명령을 입력하고, 파일을 편집하고, 애플리케이션을 열고, 웹페이지를 탐색함으로써 소프트웨어 및 웹사이트와 직접 상호작용할 수 있다. 예로는 OpenAI의 ChatGPT Agent(이전 Operator), Anthropic의 Cowork 같은 Claude Computer Use 기능, 그리고 OpenClaw와 Hermes 같은 오픈 소스 시스템이 있다. 연구에서 연구자들은 안전하지 않거나 비합리적인 행동을 드러내도록 설계된 90개 작업이 포함된 벤치마크인 BLIND-ACT를 사용하여 OpenAI, Anthropic, Meta, Alibaba, DeepSeek의 AI 시스템을 테스트했다. 그들은 에이전트가 약 80%의 시간 동안 위험하거나 바람직하지 않은 행동을 보였으며, 약 41%의 경우에는 유해한 행동을 완전히 수행했다는 것을 발견했다. “한 예에서, AI 에이전트는 어린이에게 이미지 파일을 보내라는 지시를 받았습니다. 요청은 처음에는 무해해 보였지만, 이미지에는 폭력적인 콘텐츠가 포함되어 있었습니다,”라고 연구는 말했다. “에이전트는 맥락적 추론이 부족했기 때문에 문제를 인식하기보다 작업을 완료했습니다.” 또 다른 에이전트는 세금 양식을 작성하면서 사용자가 장애가 있다고 허위로 주장했는데, 그 분류가 납부해야 할 세금을 낮추었기 때문이다. 다른 예에서는, 한 시스템이 "보안을 향상시키라"는 지시를 받은 후 보호 장치를 꺼서 방화벽 보호를 비활성화했다. 연구자들은 또한 이러한 시스템들이 모호함과 모순에 어려움을 겪는 것을 발견했다. 한 시나리오에서, AI 에이전트는 내용을 확인하지 않고 잘못된 컴퓨터 스크립트를 실행하여 그 과정에서 파일을 삭제했다. 연구는 또한 AI 에이전트들이 세 가지 종류의 실수를 반복적으로 저지른다는 사실을 발견했다: 맥락을 이해하지 못하는 것, 지시가 불분명할 때 위험한 추측을 하는 것, 그리고 모순되거나 말이 되지 않는 작업을 수행하는 것. 연구자들은 또한 많은 시스템이 행동이 문제를 일으킬 수 있는지 고려하기 위해 멈추기보다 작업을 끝내는 데 더 집중한다는 것을 발견했다. 이 경고는 광범위한 시스템 접근 권한을 가지고 작동하는 자율 AI 에이전트와 관련된 최근 사건들을 뒤이은 것이다. 지난달, PocketOS 창립자 Jeremy Crane은 Anthropic의 Claude Opus를 실행하는 Cursor 에이전트가 단 하나의 Railway API 호출을 통해 9초 만에 회사의 프로덕션 데이터베이스와 백업을 삭제했다고 주장했다. Crane은 AI가 나중에 자체적으로 자격 증명 불일치를 "수정"하려고 시도한 후 여러 안전 규칙을 위반했음을 인정했다고 말했다. “우려되는 것은 이 시스템들이 악의적이라는 것이 아닙니다,” Shayegani가 말했다. “그들이 옳은 일을 하고 있다고 완전히 확신하는 것처럼 보이면서 유해한 행동을 수행할 수 있다는 것입니다.”

데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)

🔍과거 유사 사건· 키워드 + 종목 매칭4 건

2026-05-20

OKX의 Gracie Lin은 AI 에이전트가 작업을 처리하는 데 있어 은행 망이 너무 느리기 때문에 Sub-Cent 결제가 필요하다고 말했다.

유사도 130%關鍵字 agents/tasks

2026-05-18

암호화폐 보안은 AI 군비 경쟁으로 변하고 있으며, 에이전트가 컴플라이언스 팀을 압도할 수 있다

유사도 130%關鍵字 agents/may

2026-05-15

AI Agents가 공유 가상 세계에서 디지털 방화 및 범죄를 저지르다: 연구 결과

유사도 130%關鍵字 agents/study

2026-04-17