要闻列表华为的新基准测试给AI智能体几个月的你的人生——然后看着它们失败
Decrypt2026-05-27 14:22:51

华为的新基准测试给AI智能体几个月的你的人生——然后看着它们失败

ORIGINALHuawei's New Benchmark Gives AI Agents Months of Your Life—Then Watches Them Fail
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4136 字
简而言之 - 来自 Huawei 及三家合作机构的研究人员发布了 Claw-Anything,这是一个用于评估 AI agents 在个人助理任务中表现的基准测试。 - OpenAI 的旗舰模型 GPT-5.5 在 pass@1 指标上仅获得 34.5% 的分数,远低于其在现有基准测试中的表现,这表明当前的测试可能衡量了错误的方向。 - 该团队还发布了一个自动化数据流水线,生成了 2,000 个训练环境;在这些数据上对开源权重模型进行微调,使任务成功率提升了 23.7%。 AI 个人助理的宣传口号一直没变:让 agent 访问你的数字生活,剩下的交给它。你的电子邮件、日历、笔记、设备——所有的一切。你的 AI 知晓一切。你的 AI 采取行动。你只需安睡。 来自 Huawei Technologies、Beijing Institute of Technology、Peking University 和 Chinese Academy of Sciences 的研究人员刚刚构建了一个基准测试,旨在验证这是否属实。剧透一下:事实并非如此。 Claw-Anything 同时从三个维度评估 AI agents:涵盖超过三个月模拟用户活动的长期事件流、平均每个任务涉及 10.1 个相互依赖的后端服务,以及跨 CLI Linux 环境和 GUI Android 环境的多设备交互。 每个任务的平均上下文窗口为 191,700 个单词。大多数现有基准测试的规模在 1,700 到 12,000 之间。这不仅是一个小差距,而是完全不同的问题。这也更符合现实生活的真实感受,而非标准化的超特定基准测试。 你的 AI 根本不知道发生了什么 该基准测试基于 pass@1 进行评分,即 agent 在第一次尝试时正确完成任务的概率,不允许重做。任务可能会要求 agent 对几周前发现的产品价格提醒进行交叉比对,检查用户的日历以寻找相关预约,并从手机上对两者采取行动。另一个任务可能会要求它从笔记、电子邮件线程和 Slack 中提取近期工作,然后从零开始制作一份演示文稿。 这些都是人们实际会要求助理去做的事情。事实证明,AI 在这些方面表现并不出色。根据 Decrypt 此前的报道,GPT-5.5 是 OpenAI 最好的模型,在设计时就考虑了 agentic 和长期任务。它的得分仅为 34.5%。 Claw-Anything 的论文中写道:“即使被赋予了更广泛的访问用户数字世界的权限,当前的模型依然不可靠。”几款在其他基准测试中表现出色的模型在此测试中得分进一步下滑。 该基准测试还单独对主动协助能力进行评分,即 agent 在未被要求的情况下发现需求并采取行动的情况。大多数基准测试并不测试这一点。Claw-Anything 进行了测试,结果差距明显:agents 在被动任务上的得分为 25.9%,而在主动任务上仅为 6.7%。 为什么大多数基准测试没有告诉你这些 研究人员提出了一个尖锐的观点:现有的基准测试将 AI agents 视为在整洁桌面上工作的任务解决者。而 Claw-Anything 将它们视为被投入到真实混乱生活中的个人助理——充斥着无关事件、冲突信号和数月积累的噪音。agent 必须在做任何有用的事情之前,先弄清楚什么是相关的。 消融实验结果使多服务依赖性变得尤为清晰。当移除跨服务任务所需的工具时,成功率几乎降至零,因为大多数任务要求 agents 在多个后端之间检索信息并采取行动,而不是在单一后端内完成。 这在 AI 评估领域并非新问题。OpenAI 在今年早些时候宣布 SWE-bench 被污染,此前其得分在防泄漏版本上从约 70% 暴跌至 23%。那关乎数据卫生,而这关乎更根本的问题——基准测试是否问对了问题。 在建设性方面,该团队发布了生成该基准测试的流水线以及 2,000 个训练环境。在 1,500 个成功的 agent 轨迹上对 Qwen3.5-27B 进行微调,使 pass@1 提升了 23.7%——足以在排行榜上击败包括 Claude Sonnet 在内的多个闭源模型。 研究人员将跨服务协调确定为该基准测试在该领域面临的主要剩余挑战。数据集已发布在 Hugging Face 上,代码已发布在 GitHub 上。
数据状态✓ 已抓取全文阅读原文(Decrypt)
🔍历史类似事件· 关键词 + 标的比对6 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:0e6caf621b
来源:Decrypt
发布:2026-05-27 14:22:51
分类:一般 · 导出分类 neutral
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言