ニュース一覧Raindrop Workshop を使って Codex で AI Agent のバグを自動検出し修正する(無料・オープンソース)
動區 BlockTempo2026-05-15 01:43:44

Raindrop Workshop を使って Codex で AI Agent のバグを自動検出し修正する(無料・オープンソース)

ORIGINALRaindrop Workshop 用 Codex 幫你的 AI Agent 自動找 bug 並修復(免費開源)
AI 影響分析xAI Grok · medium 信頼度
TL;DR

方向性中立オープンソースツールがAI Agentの自動デバッグを支援、暗号資産市場とは直接関連なし

影響銘柄
FETAGIXRNDR
推奨アクション

様子見で十分、このニュースに基づいて暗号資産のポジションを調整する必要はありません

📄原文全文· trafilatura により自動抽出Gemini 翻譯1609 文字
AI Agent開発者ツール企業Raindropは今週、ローカルデバッガーWorkshop(v0.1.6)をオープンソース化し、開発者がAgentの各tokenの出力とツール呼び出しをリアルタイムで追跡できるようにした。さらにMCPを通じてClaude Codeに自動で読み込み、テストの作成、修正を行わせることが可能になった。 (前回までのあらすじ:Claudeがコードを書くときに狂ったように間違えて知らんぷり?Andrej Karpathyの12のルールを改造してエラー率を41%から3%に削減) (背景補足:Anthropicが「Claude for Small Business」を発表:中小企業のAI自動化業務を狙う) ログを開くと、目に入るのは大量のAPI呼び出しとtokenの数字だが、どの意思決定が間違ったのかを示す手がかりは何もない。 あなたのAI Agentが奇妙な結果を出力したばかりだ。予期していなかったツールを選択し、意味の曖昧な応答を出力した。Raindropは5月14日に、こうした場面が二度と起こらないようにすることを目指したオープンソースツール、完全ローカル、完全無料のAI Agentデバッグプログラム Workshopを公開した。開発者はAgentの各tokenの出力とツール呼び出しをリアルタイムで追跡でき、さらにデバッグそのものをClaude CodeやCodexに任せることができる。 従来のソフトウェアデバッグにはブレークポイント、完全なコールスタック、決定論的な実行パスがある。AI Agentのデバッグはそれとは異なる。その挙動は確率的であり、同じ入力でも実行ごとに全く異なる経路を辿る可能性がある;その意思決定は複数層のLLM呼び出しの間に分散して形成され、ターミナル出力だけではほとんど何の論理も見えない。 問題の本質は次の通りだ:あなたは「どの行のコードが間違っているか」を探しているのではなく、「Agentが特定のコンテキストの組み合わせの下で予想外の判断を下した、どのステップで問題が発生したのか」を探しているのだ。このような問題は、従来のdebuggerでは答えを見つけることができない。 既存の解決策には通常2つの道しかない: - 一つはクラウド監視プラットフォームで、traceをサードパーティのサービスに送ってダッシュボードで分析する - もう一つはコードの中にカスタムloggingロジックを詰め込む 前者はデータプライバシーに懸念を持つ開発者には優しくなく、後者は時間と労力を要し、フレームワークがアップグレードされるたびに新しいloggingインフラストラクチャを維持する必要がある。そして両者には共通の問題がある:それらは「何が起こったか」を教えてくれるが、「それを修正する」ことは助けてくれない。 Workshopは第三の道を選んだ:完全ローカル実行、外部サーバーへのデータ送信なし、オープンソース、無料、そしてAIに直接デバッグループに参加させる。 起動後、Workshopはローカルで視覚化インターフェースを実行し、外部にMCP(Model Context Protocol)Serverを公開する。MCPを翻訳すると「AIツールが外部の能力を呼び出せるようにする標準通信プロトコル」——Claude CodeなどのAIコーディングツールが外部データを読み取るための橋渡しとなる。 対応するSDKに接続すると、Agentの各実行ノード — 各tokenの出力、各ツール呼び出し、各意思決定の分岐 — がストリーミング形式でリアルタイムにlocalhost:5899に表示され、pollingも手動更新も不要となる。 分かりやすく言えば、あなたのコンピューターのローカルに監視ウィンドウを開き、まるでライブ配信を見るかのように、AI Agentが何をしているかをリアルタイムで見られるようにするということだ。 Workshopの最も重要な設計は、Claude Codeなどの設計アシスタントをデバッグループに引き入れることだ。WorkshopがMCP Serverを公開しているため、Claude Codeは直接trace内容を読み取り、それらのtraceに基づいてevalテストを作成し、テストを実行し、失敗したアサーションを観察し、Agentのコードを修正し、再度実行する——すべてのテストが通るまで繰り返すことができる。 Raindropはこのループを「自己修復evalループ」と呼んでいる。プロセス全体はローカルで完結し、Claude Codeがtraceを読み、evalを書き、失敗を見て、コードを修正し、再実行する。開発者がすべてのステップに手動で介入する必要はない。 WorkshopはさらにReplay機能もサポートする:本番環境のtraceをローカルに引き戻し、実際のコードに対して再実行し、回帰テストを行う。これは「本番環境ではエラーが出るがローカルでは再現できない」状況に特に有用で、実際のtraceを直接使って実行することで、再現シナリオを構築する時間を省ける。
データステータス✓ 全文抽出済み原文を読む(動區 BlockTempo)
🔍過去の類似イベント· キーワード + 銘柄照合6 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:f6d4f23309
ソース:動區 BlockTempo
公開:2026-05-15 01:43:44
カテゴリ:zh_news · エクスポートカテゴリ zh
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント