ニュース一覧AIモデル「文心5.1」が正式リリース:パラメータ数は5.0の3分の1に削減、事前学習コストはわずか6%に
動區 BlockTempo2026-05-09 08:23:48

AIモデル「文心5.1」が正式リリース:パラメータ数は5.0の3分の1に削減、事前学習コストはわずか6%に

ORIGINALAI模型文心5.1正式上線:引數砍至5.0三分之一,預訓練成本只花6%
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯1250 文字
百度文心大模型 5.1 が正式にリリースされました。ユーザーは文心一言の公式サイトで体験でき、企業や開発者は千帆プラットフォームを通じて API を呼び出すことができます。文心 5.1 は今年 1 月に発表された文心 5.0 をベースにトレーニングされており、総パラメータ数は 5.0 の約 3 分の 1 に圧縮され、有効パラメータ数は約半分となり、事前学習の計算コストは同規模モデルのわずか 6% です。中核技術は百度が提案した Once-for-All 弾性トレーニングフレームワークです。 (前回のあらすじ:DeepSeek が初回調達で 73.5 億米ドルを調達し Alibaba を引き離す:梁文鋒氏が 4 割を自己負担、「条件が最も少ない」資金を優先) (背景補足:Anthropic が 5 年間で 2,000 億米ドルを Google Cloud に投下、AI スタートアップ 2 社が 4 大クラウド巨人の受注の半分を占める) - 百度文心 5.1 が正式リリース、総パラメータ数を 5.0 の 3 分の 1 に圧縮、有効パラメータ数は約半分に - 事前学習の計算コストは同規模モデルのわずか 6%、中核技術は Once-for-All 弾性トレーニングフレームワーク - 文心 5.0 は一度の事前学習でサブモデル行列を生成し、5.1 はその中から最適な構造を抽出して知識を直接継承する 百度文心大模型 5.1 が正式にリリースされました。ユーザーは文心一言の公式サイトで直接体験でき、企業や開発者は千帆プラットフォームを通じて API を呼び出すことができます。文心 5.1 は今年 1 月に発表された文心 5.0 をベースにトレーニングされており、中核となる売りはモデルサイズとトレーニングコストの大幅な圧縮です。 5.1 バージョンは Arena 検索ランキングで 4 位にランクインしました。 コスト圧縮の核心は、百度が提案した Once-for-All 弾性トレーニングフレームワークにあります。従来の手法では、異なる規模のモデルごとに個別に事前学習を行う必要があり、モデルサイズごとに独立した計算リソースの投入が必要でした。規模のバージョンが増えるほど、重複したトレーニングによる無駄が大きくなります。 文心 5.0 の手法は異なります。一度だけ事前学習を行い、動的サンプリング技術を通じて異なるサイズの多数のサブモデルを同時に最適化し、「サブモデル行列」を形成します。 文心 5.1 は、この行列から抽出された最適な構造です。5.0 が事前学習段階で蓄積したすべての知識を直接継承しており、ゼロからトレーニングするために必要な計算リソースを省いています。 「事前学習コスト 6%」という数字について補足すると、百度が同規模でより安価なトレーニング方法を見つけたわけではなく、文心 5.1 はゼロからの事前学習プロセスを根本的にスキップしているということです。そのトレーニングコストは主に、5.0 のサブモデル行列から最適な構造を選別するプロセス、およびその後の微調整(ファインチューニング)とアライメント段階に費やされています。競合他社がモデル規模ごとに個別にトレーニングを行う手法と比較して、この「一度トレーニングして複数を生成する」アーキテクチャは、限界コストにおいて構造的な優位性を持っています。 このロジックは、DeepSeek が年初に公表した低コストトレーニング路線とは異なります。DeepSeek V3 は、単一のトレーニングにおいてより少ない GPU とより効率的なエンジニアリング実装でコストを抑えることを強調していますが、百度の Once-for-All は、一度のトレーニングの成果を「一つのモデル」から「モデルファミリー全体」へと拡張するものです。 文心 5.1 と文心 5.0 の違いは何ですか? 文心 5.1 は 5.0 をベースにトレーニングされており、総パラメータ数は 5.0 の 3 分の 1 に圧縮され、有効パラメータ数は約半分です。5.0 の Once-for-All サブモデル行列から最適な構造を抽出し、すべての知識を継承しつつ、推論はより速く、コストはより低くなっています。 Once-for-All 弾性トレーニングフレームワークとは何ですか? 百度が提案したトレーニング手法です。一度だけ事前学習を行い、動的サンプリングを通じて異なるサイズのサブモデルを同時に最適化し、モデル行列を形成します。新しいモデルはこの行列から抽出されるため、ゼロからトレーニングする計算リソースを省くことができ
データステータス✓ 全文抽出済み原文を読む(動區 BlockTempo)
🔍過去の類似イベント· キーワード + 銘柄照合0 件
類似イベントが見つかりません(より多くのデータサンプルまたは embedding 検索が必要です。現在は MVP キーワード照合を使用しています)
原始情報
ID:58436348cf
ソース:動區 BlockTempo
公開:2026-05-09 08:23:48
カテゴリ:zh_news · エクスポートカテゴリ zh
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント
AIモデル「文心5.1」が正式リリース:パラメータ数は5.0の3分の1に削減、事前学習コストはわずか6%に | Feel.Trading