ニュース一覧1クエリあたり2セントでGPT-5.4を凌駕:Perplexityが検索Agentの事後学習レシピを公開
動區 BlockTempo2026-04-23 05:46:25

1クエリあたり2セントでGPT-5.4を凌駕:Perplexityが検索Agentの事後学習レシピを公開

ORIGINAL每次查詢 2 美分勝 GPT-5.4:Perplexity 公開搜尋 Agent 後訓練配方
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯1829 文字
Perplexity が公開した検索 Agent のポストトレーニングプロセスによると、オープンソースの Qwen3.5 をベースにしたモデルは、検索精度において GPT-5.4 を上回り、同等のタスクにおけるコストはわずか 2.0 セントで、GPT-5.4 の 4 分の 1 未満となりました。 (前回の要約:Perplexity Personal Computer がリリース:AI が Mac のローカル環境を制御、月額 200 ドルで Max ユーザーに開放) (背景補足:プログラミングができなくても使える?Perplexity Computer が AI に直接成果物を納品させ、ワークフローを自動実行) ソースモデルはクローズドソースのフラッグシップモデルに勝てるのか?Perplexity は技術レポートを通じて、業界が無視できない答えを提示しました。AI 検索から始まった同社は、自社のウェブ検索 Agent のポストトレーニング手法を完全に公開しました。 トレーニングプロセス全体の基盤となっているのは、Alibaba の Qwen シリーズのオープンソースモデル、Qwen3.5-122B-A10B と Qwen3.5-397B-A17B です。この選択自体が、Perplexity が GPT や Claude をバックボーンとして利用するために料金を支払うつもりはなく、オープンソースモデルから出発し、自ら検索能力を構築する意向であることを示しています。 トレーニングは 2 つの段階に分かれています。第 1 段階は教師あり微調整(SFT)です。これは、モデルに大量の「標準回答」を与え、基本的な行動ルールを学ばせることを意味します。回答は指示に従い、言語を統一し、フォーマットを乱さないようにします。この段階では賢さは求めず、信頼性のみを追求します。新入社員の仕事の習慣を正してから、判断力を鍛えるのと同じです。 第 2 段階は強化学習(RL)で、GRPO アルゴリズムを使用しています。モデルに実際のタスクで繰り返し試行させ、結果の良し悪しに基づいて戦略を調整させます。 GRPO の特徴は、別の「評価用 AI」をトレーニングする必要がなく、同じバッチ内の出力を相互に比較して学習シグナルを抽出できる点にあります。これにより、トレーニングコストが削減され、スケーリングも容易になります。 RL のトレーニングデータは 2 つのラインで構成されています。1 つは Perplexity が独自に合成したマルチホップ推論問題集です。回答者はまず最初の事実を検索し、その事実に基づいて次の検索を行い、2 ~ 4 回繰り返すことで最終的な回答を導き出さなければなりません。 このような問題は、モデルの「連鎖推論」能力を鍛えるためのもので、検索を一度限りのキーワード検索ではなく、論理的なステップの連続として捉えるよう学習させます。 もう 1 つは、ルーブリック(評価基準)に基づいた対話データです。「フォーマットの遵守」「言語の一貫性の維持」など、SFT で確立された良い習慣を、強化学習段階でも定量化可能な条件に変換し、モデルが「高得点」を追求する過程で基本的な規律を失わないようにします。 RL トレーニングの最大の難題は、「優れた検索行動」をどう定義するかです。採点基準の設定が不適切だと、モデルは表面上は流暢に見えても実際には間違った回答をするようになりがちです。説得力と正確性は別物ですが、AI のトレーニングシグナルでは両者が混同されやすいのです。 Perplexity の解決策はゲート付き集約(Gated Aggregation)と呼ばれます。核心的なロジックは、回答自体が正確であるという前提の下でのみ、選好スコアが計算されるというものです。モデルが間違った回答をした場合、出力がどれほど論理的に見えても、加点は一切ありません。 この「ゲート」は事実の正確性をすべての選好評価の前に置き、報酬シグナルが「話しかたが好ましいか」ではなく、「正解したかどうか」に確実に結びつくようにしています。 効率性に対するペナルティのロジックも注目に値します。検索が「ツール呼び出し過多」かどうかを判断する基準は固定値ではなく、同じバッチ内で正解した他のモデルの平均呼び出し回数です。つまり、同じグループの同級生が 3 回の検索で正解したのに対し、自分は 7 回かかって正解した場合、効率性スコアが減点されます。 評価結果には、業界で認められたマルチホップ検索ベンチマークである FRAMES を使用しました。このベンチマークは、複数のソースを横断し、
データステータス✓ 全文抽出済み原文を読む(動區 BlockTempo)
🔍過去の類似イベント· キーワード + 銘柄照合6 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:0a49d05ded
ソース:動區 BlockTempo
公開:2026-04-23 05:46:25
カテゴリ:zh_news · エクスポートカテゴリ zh
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント