ニュース一覧Huaweiの新しいベンチマークは、AIエージェントにあなたの人生の数ヶ月分を与え、そして彼らが失敗するのを見守る
Decrypt2026-05-27 14:22:51

Huaweiの新しいベンチマークは、AIエージェントにあなたの人生の数ヶ月分を与え、そして彼らが失敗するのを見守る

ORIGINALHuawei's New Benchmark Gives AI Agents Months of Your Life—Then Watches Them Fail
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯4136 文字
要約 - Huaweiおよび3つの提携機関の研究者が、AIエージェントのパーソナルアシスタントとしてのタスク遂行能力を評価するベンチマーク「Claw-Anything」を公開した。 - OpenAIの主力モデルであるGPT-5.5は、pass@1指標でわずか34.5%というスコアを記録した。これは既存のベンチマークでのスコアを大きく下回っており、現在のテストが的を射ていない可能性を示唆している。 - チームは2,000のトレーニング環境を生成する自動データパイプラインも公開した。このデータを用いてオープンウェイトモデルをファインチューニングしたところ、タスクの成功率が23.7%向上した。 AIパーソナルアシスタントの売り文句は常に同じだ。「エージェントにデジタルライフへのアクセス権を与えれば、あとはすべて任せられる」。メール、カレンダー、メモ、デバイス、そのすべてを。AIはすべてを把握し、行動し、ユーザーは眠るだけでいい。 Huawei Technologies、北京理工大学、北京大学、中国科学院の研究チームは、それが実際に真実かどうかを検証するためのベンチマークを構築した。ネタバレすると、真実ではない。 Claw-Anythingは、AIエージェントを3つの側面から同時に評価する。3ヶ月以上にわたるシミュレートされたユーザーアクティビティをカバーする長期的なイベントストリーム、1タスクあたり平均10.1個の相互依存するバックエンドサービス、そしてCLI Linux環境とGUI Android環境の両方にまたがるマルチデバイス操作である。 1タスクあたりの平均コンテキストウィンドウは191,700語である。既存のベンチマークのほとんどは1,700語から12,000語の間にある。これは小さな差ではなく、全く異なる次元の問題である。また、標準化された極めて限定的なベンチマークとは対照的に、これこそが現実世界の感覚に近い。 あなたのAIは状況を全く理解していない このベンチマークはpass@1でスコアリングされる。これは、エージェントがやり直しなしで、最初の試行でタスクを正しく完了する確率である。タスクの例として、数週間前に見つけた製品の価格アラートを照合し、ユーザーのカレンダーで関連する予定を確認し、その両方に基づいてスマートフォンからアクションを起こすといったものが挙げられる。あるいは、メモ、メールスレッド、Slackから最近の作業を抽出し、ゼロからプレゼンテーションを作成するといったものもある。 これらは人々が実際にアシスタントに求めることだが、AIはこれらをこなすのがあまり得意ではないことが判明した。Decryptの以前の報道によると、GPT-5.5はOpenAIの最高性能モデルであり、エージェント的な長期タスクを念頭に置いて構築されているが、スコアは34.5%だった。 Claw-Anythingの論文には、「現在のモデルは、ユーザーのデジタル世界へのより広範なアクセスを与えられても、依然として信頼性に欠ける」と記されている。他のベンチマークでは印象的な結果を出していたいくつかのモデルも、さらにスコアを落とした。 このベンチマークは、プロアクティブ(先回り)な支援も個別に評価する。これは、エージェントがニーズを察知し、指示される前に行動するケースを指す。ほとんどのベンチマークはこれをテストしないが、Claw-Anythingはテストしており、その差は歴然としている。リアクティブ(反応的)なタスクでは25.9%のスコアだったのに対し、プロアクティブなタスクではわずか6.7%だった。 なぜほとんどのベンチマークがこれを伝えないのか 研究者たちは鋭い指摘をしている。既存のベンチマークは、AIエージェントを「整理されたデスクに座るタスク解決者」として扱っている。一方、Claw-Anythingは、エージェントを「無関係なイベント、矛盾するシグナル、数ヶ月分蓄積されたノイズといった、実際の混沌とした生活」の中に放り込む。エージェントは、何か有益なことをする前に、何が重要かを判断しなければならない。 アブレーション(除去)実験の結果は、マルチサービス間の依存関係を特に明確にしている。クロスサービス・タスクに必要なツールを取り除くと、成功率はほぼゼロにまで低下した。これは、ほとんどのタスクにおいて、エージェントが単一のバックエンド内ではなく、複数のバックエンドにまたがって情報を取得し、行動する必要があるためである。 これはAI評価において新しいジャンルの問題ではない。OpenAIは今年初め、SWE-benchのスコアがリークに強いバージョンで約7
データステータス✓ 全文抽出済み原文を読む(Decrypt)
🔍過去の類似イベント· キーワード + 銘柄照合6 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:0e6caf621b
ソース:Decrypt
公開:2026-05-27 14:22:51
カテゴリ:一般 · エクスポートカテゴリ neutral
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント