GPT-5.5의 보안 테스트 결과는 Claude Mythos와 거의 동일한 점수를 기록했으며, 이번 최신 평가 결과는 Anthropic이 너무 위험하여 공개할 수 없다고 주장했던 이유를 반박했다.

📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯1413 자

영국 AI 안전 연구소(AISI)의 최신 평가에 따르면, OpenAI가 이미 공개한 GPT-5.5는 사이버 보안 능력 테스트에서 Anthropic이 "너무 위험하다"는 이유로 접근을 제한한 Mythos Preview와 거의 대등한 수준을 보였습니다. (이전 기사: Anthropic의 새 모델 Mythos, 너무 강력해 자체적으로 공개 보류: 몇 시간 만에 전 세계 Linux를 자율적으로 공격하고 완전한 취약점 체인을 구성) (배경 보충: Coinbase, Binance, Claude Mythos 모델 도입으로 보안 강화 모색, 최강의 AI가 암호화폐 해커를 종식시킬까?) Mythos Preview는 위험성이 너무 높아 "핵심 산업 파트너"에게만 접근이 허용되었으며, 그 이유는 사이버 공격 능력 면에서 위험한 임계치를 넘었기 때문이라는 것이었습니다. 하지만 이러한 주장은 이번 주 들어 흔들리기 시작했습니다. 월초, Anthropic은 자사 최신 모델에 대해 발표했습니다. 영국 AI 안전 연구소(AISI)의 GPT-5.5 최신 평가 보고서에 따르면, OpenAI가 지난주 유료 구독자에게 전면 공개한 GPT-5.5는 동일한 보안 테스트 프레임워크 하에서 Mythos Preview와 거의 비등한 성적을 거두었습니다(반면 GPT-5.5는 계정만 있으면 누구나 사용할 수 있는 모델입니다). AISI는 2023년부터 프런티어 AI 모델에 대한 표준화된 보안 능력 평가를 진행해 왔으며, 테스트 프레임워크에는 리버스 엔지니어링, 웹 침투 공격, 암호학 등 5대 유형을 포함한 95개의 "CTF(Capture The Flag)" 챌린지가 포함되어 있습니다. 최고 난이도인 Expert 등급 과제에서 GPT-5.5의 평균 통과율은 71.4%, Mythos Preview는 68.6%로, 두 모델의 격차는 통계적 오차 범위 내에 있어 유의미한 차이가 없었습니다. 그중 모델이 직접 디컴파일러(Rust로 컴파일된 바이너리 파일을 분석 가능한 코드로 복원)를 작성해야 하는 고난도 문제에서, AISI 기록에 따르면 GPT-5.5는 사람의 개입 없이 10분 22초 만에 API 비용 1.73달러로 문제를 해결했습니다. 더 큰 지표적 의미를 갖는 것은 AISI가 구축한 모의 기업 네트워크인 "The Last Ones" 테스트입니다. 이는 32단계의 완전한 데이터 탈취 공격 체인으로 설계되었으며, AI가 자율적으로 탐지, 침투, 횡적 이동을 수행하고 최종적으로 목표 데이터를 추출하는 등 실제 해커의 행동을 전 과정에 걸쳐 시뮬레이션합니다. 이전까지는 어떤 AI 모델도 TLO에서 단 한 번도 성공한 적이 없었습니다. 이번에 GPT-5.5는 10번의 시도 중 3번 성공했고, Mythos Preview는 2번 성공하며 두 모델 모두 이 테스트에서 점수를 획득한 역사상 최초의 모델이 되었습니다. 주목할 점은 두 모델 모두 더 높은 난이도의 "냉각탑(Cooling Tower)" 테스트에서는 모두 실패했다는 것입니다. 이 테스트는 발전소 제어 시스템을 대상으로 한 소프트웨어 파괴 공격을 시뮬레이션하며, 이는 AI가 아직 핵심 인프라 수준의 사이버 공격을 자율적으로 완수할 수는 없음을 의미합니다. Anthropic이 Mythos의 접근을 제한하는 논리는 회사가 이를 "전략적 방어 자산"으로 규정하고 신뢰할 수 있는 정부 기관과 소수의 파트너에게만 공개한다는 것입니다. 방어적 관점에서 보면 가장 강력한 보안 AI를 감독된 환경 내에 두어 오용을 방지한다는 이 논리는 설득력이 있습니다. 하지만 AISI의 데이터는 이 논리에 균열을 냈습니다. 만약 GPT-5.5가 거의 모든 핵심 지표에서 Mythos Preview와 대등한데 이미 모든 유료 사용자에게 공개되어 있다면, Anthropic의 제한은 도대체 무엇을 방어하고 있는 것일까요? SWE-bench Pro(AI의 실제 소프트웨어 취약점 수정 능력을 평가하는 표준 테스트)에서는 Mythos Preview가 64.3%로 GPT-5.5의 58.6%를 앞서며 일부 보안 엔지니어링 시나리오에서는 여전히 격차가 있음을 보여주었습니다. 그러나 이는 "공개하기 너무 위험하다"는 서사를 뒷받침하기에는 부족합니다. 거의 동일하게 위험한

데이터 상태✓ 전체 내용 추출 완료원문 읽기 (動區 BlockTempo)

🔍과거 유사 사건· 키워드 + 종목 매칭6 건

2026-05-03

GPT-5.5의 보안 테스트 결과는 Claude Mythos와 거의 동일한 점수를 기록했으며, 이는 Anthropic이 너무 위험하여 공개할 수 없다고 주장했던 이유를 무색하게 만들었다.

유사도 420%關鍵字 anthropic/資安測試與/claude同分類 zh

2026-04-23

OpenAI CEO Sam Altman이 Anthropic을 맹비난했다: 공포 마케팅 Claude Mythos는 AI 독점을 위한 것일 뿐

유사도 190%關鍵字 claude/anthropic/mythos同分類 zh

2026-04-22

블룸버그 보도: Claude Mythos 계정 무단 액세스 발생! Anthropic의 가장 취약한 보안 구멍은 언제나 '사람'이다

유사도 190%關鍵字 claude/anthropic/mythos同分類 zh

2026-05-14