ニュース一覧Claude Codeが新たに/goalsコマンドを発表:実行と評価を分離し、AIエージェントの怠慢や虚偽を防止
動區 BlockTempo2026-05-15 01:08:07

Claude Codeが新たに/goalsコマンドを発表:実行と評価を分離し、AIエージェントの怠慢や虚偽を防止

ORIGINALClaude Code 新推 /goals 指令:分離執行與評估,避免 AI 代理偷懶說謊
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯1351 文字
Anthropicは Claude Code 向けに /goals コマンドを発表し、タスクの実行と完了判定を2つの独立したモデルに分離した。同一のAIに自分の課題を評価させること自体が、アーキテクチャ上欠陥のある設計だからだ。 (前回までのあらすじ:Claude Code が週ごとの Token 使用上限を50%増加すると発表!2ヶ月間にわたり Anthropic は開発者エコシステムの獲得に乗り出す) (背景補足:Claude Code の自動実行機能 Routines が登場:スケジュール、API、GitHub イベントの3種類のトリガーをすべてサポート) こんな状況に遭遇したことがあるかもしれない:AIがコード設計を完了し、タスク完了と返答してくる。しかし数日後、いくつかのモジュールがそもそもコンパイルされていなかったことに気づく。これはモデルの能力不足ではなく、モデル自身が「もう終わった」と判断したものの、実際には終わっていなかったのだ。 この状況を改善するため、Anthropic は今週、Claude Code に新しい /goals コマンドを導入した。ロジックは至ってシンプル:タスクを実行するモデルと、タスクが完了したかを判定するモデルは、2つの異なる役割でなければならない。同一のモデルがこの両者を同時に演じることはできない。なぜなら、自分の課題を評価する最悪の審査員は常に自分自身だからだ。 How do you keep Claude working until the job is done? Claude Code helps with this in a few ways, including one we shipped recently: /goal. pic.twitter.com/QtVPmwoKct — ClaudeDevs (@ClaudeDevs) May 13, 2026 AIコーディングエージェントの仕事はループだ:ファイルを読み、コマンドを実行し、コードを修正し、そしてタスクが完了したかを判断する。問題はこの最後のステップにある。 実行中に蓄積される文脈:完了したステップ、試した方法、犯した間違い…これらがモデルに自身の進捗に対する偏りを生じさせる。「たくさんやった」を「やり終えた」と同一視する傾向がある。この問題は企業環境では高くつく:コードの移行やテストの修正が終端状態の前で停止した場合、数日後になってようやく発見されることが多い。 現在、業界にもいくつかの解決策がある。OpenAI はエージェントモデルに停止のタイミングを自ら決定させ、開発者が外部評価器を接続できるようにしている。Google ADK は LoopAgent を通じて独立した評価をサポートし、LangGraph も類似のパターンをサポートしているが、これらの方案には共通点がある:批評ノード(critic node)と終了ロジックは開発者自身が設計する必要があり、プラットフォームはデフォルトを提供しない。 /goals の核心的な設計は、「実行」と「評価」を正式に2つの役割に分離することだ。開発者は目標条件を入力する。例えば: /goal test/auth ディレクトリ内のすべてのテストが合格し、かつ lint チェック結果がクリーンであること エージェントが作業を終了しようとするたびに、評価モデルが引き継いで検証する。評価モデルはデフォルトで Claude Haiku(Anthropic 傘下の比較的軽量なモデル)を使用する。小型モデルを選ぶ理由は単純だ:評価者は二者択一の判断、つまり条件を満たすか満たさないかだけを行えばよく、大型モデルの推論能力は必要ない。 条件が満たされていない場合、エージェントは実行を続ける;条件が満たされた場合、評価モデルは結果を対話記録に記録し、目標をクリアする。プロセス全体は Claude Code 内部で完結し、追加のサードパーティ可観測性プラットフォームやカスタムログシステムは不要だ。 Anthropic のドキュメントによれば、効果的な目標条件には通常3つの要素が必要だ:測定可能な終端状態(テスト結果、ビルド終了コード、特定のファイル数);明確な検証方法(例えば「npm test の終了コードが0であること」);そしてプロセス中に変更してはならない制約(例えば「他のテストファイルを修正してはならない」)。
データステータス✓ 全文抽出済み原文を読む(動區 BlockTempo)
🔍過去の類似イベント· キーワード + 銘柄照合6 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:8659877452
ソース:動區 BlockTempo
公開:2026-05-15 01:08:07
カテゴリ:zh_news · エクスポートカテゴリ zh
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント