Claude Codeが新たに/goalsコマンドを発表：実行と評価を分離し、AIエージェントの怠慢や虚偽を防止

📄原文全文· trafilatura により自動抽出Gemini 翻譯1351 文字

Anthropicは Claude Code 向けに /goals コマンドを発表し、タスクの実行と完了判定を2つの独立したモデルに分離した。同一のAIに自分の課題を評価させること自体が、アーキテクチャ上欠陥のある設計だからだ。（前回までのあらすじ：Claude Code が週ごとの Token 使用上限を50%増加すると発表！2ヶ月間にわたり Anthropic は開発者エコシステムの獲得に乗り出す）（背景補足：Claude Code の自動実行機能 Routines が登場：スケジュール、API、GitHub イベントの3種類のトリガーをすべてサポート）こんな状況に遭遇したことがあるかもしれない：AIがコード設計を完了し、タスク完了と返答してくる。しかし数日後、いくつかのモジュールがそもそもコンパイルされていなかったことに気づく。これはモデルの能力不足ではなく、モデル自身が「もう終わった」と判断したものの、実際には終わっていなかったのだ。この状況を改善するため、Anthropic は今週、Claude Code に新しい /goals コマンドを導入した。ロジックは至ってシンプル：タスクを実行するモデルと、タスクが完了したかを判定するモデルは、2つの異なる役割でなければならない。同一のモデルがこの両者を同時に演じることはできない。なぜなら、自分の課題を評価する最悪の審査員は常に自分自身だからだ。 How do you keep Claude working until the job is done? Claude Code helps with this in a few ways, including one we shipped recently: /goal. pic.twitter.com/QtVPmwoKct — ClaudeDevs (@ClaudeDevs) May 13, 2026 AIコーディングエージェントの仕事はループだ：ファイルを読み、コマンドを実行し、コードを修正し、そしてタスクが完了したかを判断する。問題はこの最後のステップにある。実行中に蓄積される文脈：完了したステップ、試した方法、犯した間違い…これらがモデルに自身の進捗に対する偏りを生じさせる。「たくさんやった」を「やり終えた」と同一視する傾向がある。この問題は企業環境では高くつく：コードの移行やテストの修正が終端状態の前で停止した場合、数日後になってようやく発見されることが多い。現在、業界にもいくつかの解決策がある。OpenAI はエージェントモデルに停止のタイミングを自ら決定させ、開発者が外部評価器を接続できるようにしている。Google ADK は LoopAgent を通じて独立した評価をサポートし、LangGraph も類似のパターンをサポートしているが、これらの方案には共通点がある：批評ノード（critic node）と終了ロジックは開発者自身が設計する必要があり、プラットフォームはデフォルトを提供しない。 /goals の核心的な設計は、「実行」と「評価」を正式に2つの役割に分離することだ。開発者は目標条件を入力する。例えば： /goal test/auth ディレクトリ内のすべてのテストが合格し、かつ lint チェック結果がクリーンであることエージェントが作業を終了しようとするたびに、評価モデルが引き継いで検証する。評価モデルはデフォルトで Claude Haiku（Anthropic 傘下の比較的軽量なモデル）を使用する。小型モデルを選ぶ理由は単純だ：評価者は二者択一の判断、つまり条件を満たすか満たさないかだけを行えばよく、大型モデルの推論能力は必要ない。条件が満たされていない場合、エージェントは実行を続ける；条件が満たされた場合、評価モデルは結果を対話記録に記録し、目標をクリアする。プロセス全体は Claude Code 内部で完結し、追加のサードパーティ可観測性プラットフォームやカスタムログシステムは不要だ。 Anthropic のドキュメントによれば、効果的な目標条件には通常3つの要素が必要だ：測定可能な終端状態（テスト結果、ビルド終了コード、特定のファイル数）；明確な検証方法（例えば「npm test の終了コードが0であること」）；そしてプロセス中に変更してはならない制約（例えば「他のテストファイルを修正してはならない」）。

データステータス✓ 全文抽出済み原文を読む（動區 BlockTempo）

🔍過去の類似イベント· キーワード + 銘柄照合6 件

2026-05-14

Notion が開発者プラットフォームをローンチ：カスタムコード、データベース間同期、Claude Code、Codex、Cursor との統合 – Notion Developer Platform

類似度 170%關鍵字 claude/code同分類 zh

2026-05-12

Claude Code が新たに Agent View を導入：1つの画面で全 AI エージェントを管理し、マルチターミナルの混乱を解消

類似度 170%關鍵字 claude/code同分類 zh

2026-04-23

Claude Code 新機能「/ultrareview」紹介：クラウド型マルチエージェントによるコード詳細レビュー、Pro・Maxユーザー向けに期間限定で無料提供

類似度 140%關鍵字 claude/code同分類 zh

2026-04-22