要聞列表華為的新基準測試讓 AI Agents 耗費數月生命,隨後看著它們失敗
Decrypt2026-05-27 14:22:51

華為的新基準測試讓 AI Agents 耗費數月生命,隨後看著它們失敗

ORIGINALHuawei's New Benchmark Gives AI Agents Months of Your Life—Then Watches Them Fail
AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4136 字
簡述 - 來自 Huawei 及三家合作機構的研究人員發布了 Claw-Anything,這是一個評估 AI agents 在個人助理任務中表現的基準測試。 - OpenAI 的旗艦模型 GPT-5.5 在 pass@1 指標上僅獲得 34.5% 的分數,遠低於其在現有基準測試中的表現,這顯示目前的測試可能衡量了錯誤的指標。 - 該團隊還發布了一套自動化數據管線,產生了 2,000 個訓練環境;在這些數據上對開源權重模型進行微調後,任務成功率提升了 23.7%。 AI 個人助理的賣點始終如一:讓 agent 存取你的數位生活,剩下的交給它處理。你的電子郵件、行事曆、筆記、裝置——全部交給它。你的 AI 知道一切。你的 AI 採取行動。你只需安穩入睡。 來自 Huawei Technologies、Beijing Institute of Technology、Peking University 以及 Chinese Academy of Sciences 的研究人員剛建立了一個基準測試,旨在驗證這是否屬實。劇透一下:並非如此。 Claw-Anything 同時從三個維度評估 AI agents:涵蓋超過三個月模擬使用者活動的長視角事件流、平均每個任務涉及 10.1 個相互依賴的後端服務,以及跨 CLI Linux 環境與 GUI Android 環境的多裝置互動。 每個任務的平均上下文視窗為 191,700 個單字。大多數現有的基準測試通常在 1,700 到 12,000 個單字之間。這不僅僅是小差距,而是完全不同的問題層級。這也更貼近真實生活的樣貌,而非標準化且極度單一的基準測試。 你的 AI 完全搞不清楚狀況 該基準測試採用 pass@1 進行評分,即 agent 在第一次嘗試時正確完成任務的機率,不允許重試。任務可能會要求 agent 對照幾週前發現的產品價格提醒,檢查使用者的行事曆以確認相關預約,並透過手機對兩者採取行動。另一個任務可能會要求它從筆記、電子郵件串和 Slack 中提取近期工作,然後從零開始製作一份簡報。 這些都是人們實際會要求助理做的事。結果顯示,AI 在這些任務上表現並不理想。根據 Decrypt 先前的報導,GPT-5.5 是 OpenAI 最強大的模型,其設計初衷即是為了處理具備 agent 特性與長視角的任務。但它僅獲得了 34.5% 的分數。 Claw-Anything 的論文中寫道:「即使給予更廣泛的存取權限來接觸使用者的數位世界,目前的模型依然不可靠。」幾款在其他基準測試中表現亮眼的模型,在此測試中分數進一步下滑。 該基準測試還將主動式協助(proactive assistance)單獨評分,即 agent 在未被要求的情況下發現需求並採取行動的情況。大多數基準測試並未測試這一點。Claw-Anything 進行了測試,結果差距顯著:agents 在被動任務上的得分為 25.9%,而在主動任務上僅為 6.7%。 為何大多數基準測試沒有告訴你這些 研究人員提出了一個尖銳的論點:現有的基準測試將 AI agents 視為坐在乾淨辦公桌前的任務解決者。而 Claw-Anything 將它們視為被丟進混亂現實生活中的個人助理——充滿了不相關的事件、衝突的訊號以及數月累積的雜訊。agent 必須在做任何有用的事之前,先釐清什麼才是相關的。 消融實驗結果清楚地顯示了多服務依賴性的重要性。當移除跨服務任務所需的工具時,成功率幾乎降至零,因為大多數任務要求 agents 在多個後端之間檢索資訊並採取行動,而非僅在單一後端內運作。 這在 AI 評估領域並非新型態的問題。OpenAI 在今年稍早宣布 SWE-bench 遭到污染,因為在一個較不易洩漏的版本中,分數從約 70% 暴跌至 23%。那次是關於數據衛生問題。而這次涉及更根本的問題——基準測試本身提出的問題是否正確。 在建設性方面,該團隊發布了產生此基準測試的管線以及 2,000 個訓練環境。在 1,500 個成功的 agent 軌跡上對 Qwen3.5-27B 進行微調後,pass@1 提升了 23
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:0e6caf621b
來源:Decrypt
發佈:2026-05-27 14:22:51
分類:一般 · 導出分類 neutral
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言