華為的新基準測試讓 AI Agents 耗費數月生命，隨後看著它們失敗

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4136 字

簡述 - 來自 Huawei 及三家合作機構的研究人員發布了 Claw-Anything，這是一個評估 AI agents 在個人助理任務中表現的基準測試。 - OpenAI 的旗艦模型 GPT-5.5 在 pass@1 指標上僅獲得 34.5% 的分數，遠低於其在現有基準測試中的表現，這顯示目前的測試可能衡量了錯誤的指標。 - 該團隊還發布了一套自動化數據管線，產生了 2,000 個訓練環境；在這些數據上對開源權重模型進行微調後，任務成功率提升了 23.7%。 AI 個人助理的賣點始終如一：讓 agent 存取你的數位生活，剩下的交給它處理。你的電子郵件、行事曆、筆記、裝置——全部交給它。你的 AI 知道一切。你的 AI 採取行動。你只需安穩入睡。來自 Huawei Technologies、Beijing Institute of Technology、Peking University 以及 Chinese Academy of Sciences 的研究人員剛建立了一個基準測試，旨在驗證這是否屬實。劇透一下：並非如此。 Claw-Anything 同時從三個維度評估 AI agents：涵蓋超過三個月模擬使用者活動的長視角事件流、平均每個任務涉及 10.1 個相互依賴的後端服務，以及跨 CLI Linux 環境與 GUI Android 環境的多裝置互動。每個任務的平均上下文視窗為 191,700 個單字。大多數現有的基準測試通常在 1,700 到 12,000 個單字之間。這不僅僅是小差距，而是完全不同的問題層級。這也更貼近真實生活的樣貌，而非標準化且極度單一的基準測試。你的 AI 完全搞不清楚狀況該基準測試採用 pass@1 進行評分，即 agent 在第一次嘗試時正確完成任務的機率，不允許重試。任務可能會要求 agent 對照幾週前發現的產品價格提醒，檢查使用者的行事曆以確認相關預約，並透過手機對兩者採取行動。另一個任務可能會要求它從筆記、電子郵件串和 Slack 中提取近期工作，然後從零開始製作一份簡報。這些都是人們實際會要求助理做的事。結果顯示，AI 在這些任務上表現並不理想。根據 Decrypt 先前的報導，GPT-5.5 是 OpenAI 最強大的模型，其設計初衷即是為了處理具備 agent 特性與長視角的任務。但它僅獲得了 34.5% 的分數。 Claw-Anything 的論文中寫道：「即使給予更廣泛的存取權限來接觸使用者的數位世界，目前的模型依然不可靠。」幾款在其他基準測試中表現亮眼的模型，在此測試中分數進一步下滑。該基準測試還將主動式協助（proactive assistance）單獨評分，即 agent 在未被要求的情況下發現需求並採取行動的情況。大多數基準測試並未測試這一點。Claw-Anything 進行了測試，結果差距顯著：agents 在被動任務上的得分為 25.9%，而在主動任務上僅為 6.7%。為何大多數基準測試沒有告訴你這些研究人員提出了一個尖銳的論點：現有的基準測試將 AI agents 視為坐在乾淨辦公桌前的任務解決者。而 Claw-Anything 將它們視為被丟進混亂現實生活中的個人助理——充滿了不相關的事件、衝突的訊號以及數月累積的雜訊。agent 必須在做任何有用的事之前，先釐清什麼才是相關的。消融實驗結果清楚地顯示了多服務依賴性的重要性。當移除跨服務任務所需的工具時，成功率幾乎降至零，因為大多數任務要求 agents 在多個後端之間檢索資訊並採取行動，而非僅在單一後端內運作。這在 AI 評估領域並非新型態的問題。OpenAI 在今年稍早宣布 SWE-bench 遭到污染，因為在一個較不易洩漏的版本中，分數從約 70% 暴跌至 23%。那次是關於數據衛生問題。而這次涉及更根本的問題——基準測試本身提出的問題是否正確。在建設性方面，該團隊發布了產生此基準測試的管線以及 2,000 個訓練環境。在 1,500 個成功的 agent 軌跡上對 Qwen3.5-27B 進行微調後，pass@1 提升了 23

資料狀態✓ 已擷取全文閱讀原文（Decrypt）

🔍歷史類似事件· 關鍵字 + 標的比對6 則

2026-05-27

Vitalik Buterin 支持 Kohaku 錢包功能，讓 Ethereum 使用者為每個 Dapp 取得新地址

相似度 130%關鍵字 new/gives

2026-05-27

Base 推出全新工具，將加密貨幣錢包連接至 AI agents

相似度 130%關鍵字 new/agents

2026-05-26

這個半 GB 的 AI 模型在你的手機上運行本地代理

相似度 130%關鍵字 agents/your

2026-05-26

StepFun 的語音 AI 在每一項基準測試中都拿下第一。它甚至聽得見你的嘆息。

相似度 130%關鍵字 your/benchmark

2026-05-14

Kimi WebBridge 讓 AI Agent 操控你的瀏覽器——並將你的資料保留在本地

相似度 130%關鍵字 agents/your

2026-05-11

Circle 賦予 AI Agents 使用 USDC 穩定幣的能力，並同步進行 2.22 億美元的 Arc Token 銷售

相似度 130%關鍵字 agents/gives

💡 目前用關鍵字 + 標的比對（MVP）· 之後會升級為 embedding 語意搜尋

原始資訊

ID：0e6caf621b

來源：Decrypt

發佈：2026-05-27 14:22:51

分類：一般 · 導出分類 neutral

標的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言