Huaweiの新しいベンチマークは、AIエージェントにあなたの人生の数ヶ月分を与え、そして彼らが失敗するのを見守る

📄原文全文· trafilatura により自動抽出Gemini 翻譯4136 文字

要約 - Huaweiおよび3つの提携機関の研究者が、AIエージェントのパーソナルアシスタントとしてのタスク遂行能力を評価するベンチマーク「Claw-Anything」を公開した。 - OpenAIの主力モデルであるGPT-5.5は、pass@1指標でわずか34.5%というスコアを記録した。これは既存のベンチマークでのスコアを大きく下回っており、現在のテストが的を射ていない可能性を示唆している。 - チームは2,000のトレーニング環境を生成する自動データパイプラインも公開した。このデータを用いてオープンウェイトモデルをファインチューニングしたところ、タスクの成功率が23.7%向上した。 AIパーソナルアシスタントの売り文句は常に同じだ。「エージェントにデジタルライフへのアクセス権を与えれば、あとはすべて任せられる」。メール、カレンダー、メモ、デバイス、そのすべてを。AIはすべてを把握し、行動し、ユーザーは眠るだけでいい。 Huawei Technologies、北京理工大学、北京大学、中国科学院の研究チームは、それが実際に真実かどうかを検証するためのベンチマークを構築した。ネタバレすると、真実ではない。 Claw-Anythingは、AIエージェントを3つの側面から同時に評価する。3ヶ月以上にわたるシミュレートされたユーザーアクティビティをカバーする長期的なイベントストリーム、1タスクあたり平均10.1個の相互依存するバックエンドサービス、そしてCLI Linux環境とGUI Android環境の両方にまたがるマルチデバイス操作である。 1タスクあたりの平均コンテキストウィンドウは191,700語である。既存のベンチマークのほとんどは1,700語から12,000語の間にある。これは小さな差ではなく、全く異なる次元の問題である。また、標準化された極めて限定的なベンチマークとは対照的に、これこそが現実世界の感覚に近い。あなたのAIは状況を全く理解していないこのベンチマークはpass@1でスコアリングされる。これは、エージェントがやり直しなしで、最初の試行でタスクを正しく完了する確率である。タスクの例として、数週間前に見つけた製品の価格アラートを照合し、ユーザーのカレンダーで関連する予定を確認し、その両方に基づいてスマートフォンからアクションを起こすといったものが挙げられる。あるいは、メモ、メールスレッド、Slackから最近の作業を抽出し、ゼロからプレゼンテーションを作成するといったものもある。これらは人々が実際にアシスタントに求めることだが、AIはこれらをこなすのがあまり得意ではないことが判明した。Decryptの以前の報道によると、GPT-5.5はOpenAIの最高性能モデルであり、エージェント的な長期タスクを念頭に置いて構築されているが、スコアは34.5%だった。 Claw-Anythingの論文には、「現在のモデルは、ユーザーのデジタル世界へのより広範なアクセスを与えられても、依然として信頼性に欠ける」と記されている。他のベンチマークでは印象的な結果を出していたいくつかのモデルも、さらにスコアを落とした。このベンチマークは、プロアクティブ（先回り）な支援も個別に評価する。これは、エージェントがニーズを察知し、指示される前に行動するケースを指す。ほとんどのベンチマークはこれをテストしないが、Claw-Anythingはテストしており、その差は歴然としている。リアクティブ（反応的）なタスクでは25.9%のスコアだったのに対し、プロアクティブなタスクではわずか6.7%だった。なぜほとんどのベンチマークがこれを伝えないのか研究者たちは鋭い指摘をしている。既存のベンチマークは、AIエージェントを「整理されたデスクに座るタスク解決者」として扱っている。一方、Claw-Anythingは、エージェントを「無関係なイベント、矛盾するシグナル、数ヶ月分蓄積されたノイズといった、実際の混沌とした生活」の中に放り込む。エージェントは、何か有益なことをする前に、何が重要かを判断しなければならない。アブレーション（除去）実験の結果は、マルチサービス間の依存関係を特に明確にしている。クロスサービス・タスクに必要なツールを取り除くと、成功率はほぼゼロにまで低下した。これは、ほとんどのタスクにおいて、エージェントが単一のバックエンド内ではなく、複数のバックエンドにまたがって情報を取得し、行動する必要があるためである。これはAI評価において新しいジャンルの問題ではない。OpenAIは今年初め、SWE-benchのスコアがリークに強いバージョンで約7

データステータス✓ 全文抽出済み原文を読む（Decrypt）

🔍過去の類似イベント· キーワード + 銘柄照合6 件

2026-05-27

Vitalik ButerinがKohaku Walletの機能を支持、Ethereumユーザーにdappごとに新しいアドレスを提供

類似度 130%關鍵字 new/gives

2026-05-27

Base、暗号資産ウォレットをAIエージェントに接続する新ツールを発表

類似度 130%關鍵字 new/agents

2026-05-26

この半ギガバイトのAIモデルは、あなたのスマートフォン上でローカルエージェントを実行します

類似度 130%關鍵字 agents/your

2026-05-26