뉴스 목록Huawei의 새로운 벤치마크는 AI Agent에게 당신의 인생 몇 달을 부여한 뒤, 그들이 실패하는 것을 지켜본다
Decrypt2026-05-27 14:22:51

Huawei의 새로운 벤치마크는 AI Agent에게 당신의 인생 몇 달을 부여한 뒤, 그들이 실패하는 것을 지켜본다

ORIGINALHuawei's New Benchmark Gives AI Agents Months of Your Life—Then Watches Them Fail
AI 영향 분석Grok 분석 중...
📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯4136 자
요약 - Huawei와 3개 파트너 기관의 연구진이 개인 비서 작업에서 AI 에이전트를 평가하는 벤치마크인 Claw-Anything을 발표했습니다. - OpenAI의 플래그십 모델인 GPT-5.5는 pass@1 지표에서 34.5%라는 낮은 점수를 기록했습니다. 이는 기존 벤치마크 점수보다 훨씬 낮은 수치로, 현재의 테스트들이 잘못된 지점을 측정하고 있음을 시사합니다. - 연구팀은 2,000개의 학습 환경을 생성하는 자동화된 데이터 파이프라인도 함께 공개했으며, 해당 데이터로 오픈 웨이트 모델을 파인튜닝한 결과 작업 성공률이 23.7% 향상되었습니다. AI 개인 비서에 대한 홍보는 항상 동일했습니다. 에이전트에게 당신의 디지털 삶에 대한 접근 권한을 주면 나머지는 알아서 처리한다는 것입니다. 이메일, 캘린더, 메모, 기기 등 모든 것을 말이죠. AI가 알고, AI가 행동하며, 당신은 잠을 잡니다. Huawei Technologies, Beijing Institute of Technology, Peking University, Chinese Academy of Sciences의 연구진은 이것이 실제로 사실인지 확인하기 위해 벤치마크를 구축했습니다. 스포일러를 하자면, 사실이 아닙니다. Claw-Anything은 세 가지 차원에서 AI 에이전트를 동시에 평가합니다. 3개월 이상의 시뮬레이션된 사용자 활동을 포함하는 장기 이벤트 스트림, 작업당 평균 10.1개의 상호 의존적인 백엔드 서비스, 그리고 CLI Linux 환경과 GUI Android 환경을 아우르는 멀티 디바이스 상호작용입니다. 작업당 평균 컨텍스트 윈도우는 191,700단어입니다. 대부분의 기존 벤치마크는 1,700에서 12,000단어 사이입니다. 이는 작은 차이가 아니라 완전히 다른 차원의 문제입니다. 또한 이는 표준화된 초특화 벤치마크와 달리 실제 삶이 어떤 느낌인지를 보여줍니다. 당신의 AI는 무슨 일이 일어나고 있는지 전혀 모릅니다 이 벤치마크는 pass@1 방식으로 점수가 매겨집니다. 이는 에이전트가 재시도 없이 첫 번째 시도에서 작업을 올바르게 완료할 확률을 의미합니다. 작업은 에이전트에게 몇 주 전에 발견한 제품의 가격 알림을 교차 참조하고, 사용자의 캘린더에서 관련 약속을 확인한 뒤, 휴대폰에서 두 가지 모두에 대해 행동하도록 요청할 수 있습니다. 또 다른 작업은 메모, 이메일 스레드, Slack에서 최근 업무를 가져와 처음부터 프레젠테이션을 작성하도록 요청할 수도 있습니다. 이것들은 사람들이 실제로 비서에게 요청하는 일들입니다. 하지만 AI는 이런 일에 능숙하지 않은 것으로 드러났습니다. Decrypt의 이전 보도에 따르면, 에이전트 기반의 장기 작업을 염두에 두고 구축된 OpenAI의 최고 모델인 GPT-5.5는 34.5%를 기록했습니다. Claw-Anything 논문은 "현재의 모델들은 사용자의 디지털 세계에 더 넓은 접근 권한을 부여받더라도 여전히 신뢰할 수 없다"고 지적합니다. 다른 벤치마크에서 인상적인 모습을 보였던 여러 모델들이 이 테스트에서는 더 낮은 점수를 기록했습니다. 이 벤치마크는 또한 능동적 지원(proactive assistance)을 별도로 평가합니다. 이는 에이전트가 요청받지 않아도 필요를 파악하고 행동하는 경우를 의미합니다. 대부분의 벤치마크는 이를 테스트하지 않지만, Claw-Anything은 이를 포함하며 그 격차는 극명합니다. 에이전트들은 반응형 작업에서 25.9%, 능동적 작업에서는 단 6.7%의 점수를 기록했습니다. 대부분의 벤치마크가 이를 알려주지 않는 이유 연구진은 날카로운 주장을 펼칩니다. 기존 벤치마크는 AI 에이전트를 깨끗한 책상 앞에 앉은 문제 해결사로 취급합니다. 반면 Claw-Anything은 에이전트를 실제 복잡한 삶(관련 없는 이벤트, 상충하는 신호, 수개월간 쌓인 소음 등) 속에 던져진 개인 비서로 취급합니다. 에이전트는 유용한 일을 하기 전에 무엇이 관련 있는 정보인지부터 파악해야 합니다. 절제 실험(ablation results) 결과는 멀티 서비스 의존성을 특히 명확하게 보여줍니다. 서비스 간 작업에 필요한 도구를 제거했을 때 성공률
데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)
🔍과거 유사 사건· 키워드 + 종목 매칭6 건
💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정
원본 정보
ID:0e6caf621b
출처:Decrypt
발행:2026-05-27 14:22:51
분류:일반 · 도출된 분류 neutral
종목:지정되지 않음
커뮤니티 투표:+0 /0 · ⭐ 0 중요 · 💬 0 댓글