Benchmark mới của Huawei trao cho AI Agent vài tháng cuộc đời của bạn—Rồi quan sát chúng thất bại

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4136 từ

Tóm tắt - Các nhà nghiên cứu từ Huawei và ba tổ chức đối tác đã phát hành Claw-Anything, một benchmark đánh giá các AI agent trong các tác vụ trợ lý cá nhân. - GPT-5.5, mô hình hàng đầu của OpenAI, chỉ đạt 34,5% trên chỉ số pass@1—thấp hơn nhiều so với điểm số của nó trên các benchmark hiện có, cho thấy các bài kiểm tra hiện tại đang đo lường sai thứ. - Nhóm nghiên cứu cũng phát hành một pipeline dữ liệu tự động đã tạo ra 2.000 môi trường huấn luyện; việc fine-tuning một mô hình open-weight trên dữ liệu đó đã cải thiện tỷ lệ thành công của tác vụ thêm 23,7%. Lời chào mời cho các trợ lý cá nhân AI luôn giống nhau: Cấp cho agent quyền truy cập vào đời sống số của bạn và nó sẽ lo phần còn lại. Email của bạn, lịch của bạn, ghi chú của bạn, thiết bị của bạn—tất cả. AI của bạn biết. AI của bạn hành động. Bạn ngủ. Các nhà nghiên cứu từ Huawei Technologies, Beijing Institute of Technology, Peking University và Chinese Academy of Sciences vừa xây dựng một benchmark để xem liều điều đó có thực sự đúng hay không. Tiết lộ trước: Không. Claw-Anything đánh giá các AI agent qua ba chiều cùng lúc: các luồng sự kiện dài hạn bao trùm hơn ba tháng hoạt động mô phỏng của người dùng, các dịch vụ backend phụ thuộc lẫn nhau trung bình 10,1 cho mỗi tác vụ, và tương tác đa thiết bị trên cả môi trường CLI Linux và môi trường GUI Android. Cửa sổ ngữ cảnh trung bình cho mỗi tác vụ là 191.700 từ. Hầu hết các benchmark hiện có nằm đâu đó giữa 1.700 và 12.000. Đó không phải là khoảng cách nhỏ mà là một vấn đề hoàn toàn khác. Nó cũng là cảm giác của đời thực, trái ngược với những benchmark cực kỳ cụ thể được chuẩn hóa. AI của bạn không biết chuyện gì đang xảy ra Benchmark được chấm điểm theo pass@1—xác suất agent hoàn thành một tác vụ đúng ngay trong lần thử đầu tiên, không làm lại. Một tác vụ có thể yêu cầu agent đối chiếu cảnh báo giá trên một sản phẩm mà nó tìm thấy nhiều tuần trước, kiểm tra lịch của người dùng để tìm một cuộc hẹn liên quan, và hành động trên cả hai từ một chiếc điện thoại. Một tác vụ khác có thể yêu cầu nó lấy công việc gần đây từ các ghi chú, các chuỗi email và Slack, sau đó tạo một bài thuyết trình từ đầu. Đây là những việc mà mọi người thực sự yêu cầu trợ lý làm. Hóa ra AI không giỏi lắm trong những việc đó. GPT-5.5, theo bài đưa tin trước đây của Decrypt, là mô hình tốt nhất của OpenAI, được xây dựng với các tác vụ agentic, dài hạn trong tâm trí. Nó đạt 34,5%. "Các mô hình hiện tại vẫn không đáng tin cậy ngay cả khi được cấp quyền truy cập rộng hơn vào thế giới số của người dùng," bài báo Claw-Anything viết. Một số mô hình trông ấn tượng trên các benchmark khác đã rớt xuống thấp hơn. Benchmark cũng chấm điểm hỗ trợ chủ động riêng biệt, tức là các trường hợp agent phát hiện một nhu cầu và hành động mà không cần được yêu cầu. Hầu hết các benchmark không kiểm tra điều này. Claw-Anything thì có, và khoảng cách rất rõ rệt: Các agent đạt 25,9% trên các tác vụ phản ứng và chỉ 6,7% trên các tác vụ chủ động. Tại sao hầu hết các benchmark không nói cho bạn điều này Các nhà nghiên cứu đưa ra một lập luận sắc bén: Các benchmark hiện có đối xử với các AI agent như những người giải quyết tác vụ được trao một bàn làm việc sạch sẽ. Claw-Anything đối xử với chúng như những trợ lý cá nhân được thả vào một cuộc sống lộn xộn thực sự—các sự kiện không liên quan, các tín hiệu mâu thuẫn, hàng tháng trời tiếng ồn tích tụ. Agent phải tự tìm ra cái gì là liên quan trước khi có thể làm bất cứ điều gì hữu ích. Các kết quả ablation làm rõ tính phụ thuộc đa dịch vụ một cách đặc biệt. Khi các công cụ cần thiết cho các tác vụ liên dịch vụ bị loại bỏ, tỷ lệ thành công giảm xuống gần bằng không, vì hầu hết các tác vụ yêu cầu agent truy xuất thông tin và hành động trên nhiều backend chứ không phải trong một backend duy nhất. Đây không phải là một thể loại vấn đề mới trong đánh giá AI. OpenAI đã tuyên bố SWE-bench bị nhiễm bẩn vào đầu năm nay sau khi điểm số sụp đổ từ khoảng 70% xuống 23% trên một phiên bản ít có khả năng bị rò rỉ hơn. Đó là về vệ sinh dữ liệu. Cái này là về một thứ gì đó cơ bản hơn—liệu các benchmark có đang đặt đúng câu hỏi hay không. Về mặt xây dựng, nhóm nghiên cứu đã phát hành pipeline tạo ra benchmark cùng với 2.000 môi trường huấn luyện. Việc fine-tuning Qwen3.5-27B trên 1.500 quỹ đạo agent thành công đã cải thiện pass@1 thêm 23,7%—đủ để đánh bại nhiều mô hình mã nguồn đóng trên bảng xếp hạng, bao gồm cả Claude Sonnet. Các nhà nghiên cứu xác định việc phối hợp liên dịch vụ là thách thức chính còn lại của benchmark cho lĩnh vực này. Bộ dữ liệu có trên Hugging Face và mã có trên GitHub.

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin

2026-05-27

Vitalik Buterin ủng hộ tính năng Kohaku Wallet cung cấp cho người dùng Ethereum một địa chỉ mới cho mỗi Dapp

Độ tương đồng 130%關鍵字 new/gives

2026-05-27

Base ra mắt công cụ mới để kết nối ví crypto với các AI agent

Độ tương đồng 130%關鍵字 new/agents

2026-05-26

Mô hình AI nửa Gigabyte này chạy các tác nhân cục bộ trên điện thoại của bạn

Độ tương đồng 130%關鍵字 agents/your

2026-05-26