AI模型文心5.1正式上線：引數砍至5.0三分之一，預訓練成本只花6%

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯1250 字

百度文心大模型 5.1 正式上線，使用者可在文心一言官網體驗，企業與開發者可透過千帆平台呼叫 API。文心 5.1 基於今年 1 月發布的文心 5.0 訓練而來，總參數數量壓縮至 5.0 的約三分之一，啟用參數約為一半，預訓練算力成本僅為同規模模型的 6%。核心技術是百度提出的 Once-for-All 彈性訓練框架。（前情提要：DeepSeek 首輪融 73.5 億鎂甩開阿里：梁文鋒自掏四成，只要「條件最少」的錢）（背景補充：Anthropic 五年砸 2,000 億鎂給 Google Cloud，兩家 AI 新創吃掉四大雲巨頭一半訂單） - 百度文心 5.1 正式上線，總參數壓至 5.0 的三分之一，啟用參數約為一半 - 預訓練算力成本僅為同規模模型的 6%，核心技術為 Once-for-All 彈性訓練框架 - 文心 5.0 一次預訓練產出子模型矩陣，5.1 從中提取最優結構直接繼承知識百度文心大模型 5.1 正式上線。使用者可在文心一言官網直接體驗，企業與開發者則可透過千帆平台呼叫 API。文心 5.1 基於今年 1 月發布的文心 5.0 訓練而來，核心賣點是大幅壓縮模型體積和訓練開銷。 5.1 版本在 Arena 搜尋榜上登上第四位。成本壓縮的核心來自百度提出的 Once-for-All 彈性訓練框架。傳統做法需要為不同規模的模型分別跑預訓練，每個模型尺寸都是一次獨立的算力投入，規模版本越多，重複訓練的浪費越大。文心 5.0 的做法不同：它只做一次預訓練，透過動態取樣技術同時最佳化大量不同大小的子模型，形成一個「子模型矩陣」。文心 5.1 就是從這個矩陣中提取的最優結構。它直接繼承了 5.0 在預訓練階段累積的全部知識，省掉了從頭訓練所需的算力。「預訓練成本 6%」這個數字需要解釋的是，百度不是在同等規模上找到了更便宜的訓練方法，而是文心 5.1 根本跳過了從零開始的預訓練流程。它的訓練成本主要花在從 5.0 的子模型矩陣中篩選最優結構、以及後續的微調與對齊階段。與同行為每個模型規模獨立訓練的做法相比，這種「訓練一次、產出多個」的架構在邊際成本上具有結構性優勢。這個邏輯與 DeepSeek 年初公布的低成本訓練路線不同。DeepSeek V3 強調的是在單次訓練中用更少的 GPU 和更高效的工程實現壓低成本；百度的 Once-for-All 則是把一次訓練的產出從「一個模型」擴充套件到「一整個模型家族」。文心 5.1 和文心 5.0 有什麼差別？文心 5.1 基於 5.0 訓練而來，總參數壓縮至 5.0 的三分之一，啟用參數約一半。它從 5.0 的 Once-for-All 子模型矩陣中提取最優結構，繼承全部知識但推理更快、成本更低。什麼是 Once-for-All 彈性訓練框架？百度提出的訓練方法。只做一次預訓練，透過動態取樣同時最佳化不同大小的子模型，形成模型矩陣。新模型從矩陣中提取，省去從頭訓練的算力，邊際成本大幅降低。

資料狀態✓ 已擷取全文閱讀原文（動區 BlockTempo）

🔍歷史類似事件· 關鍵字 + 標的比對0 則

找不到相似事件（需要更多資料樣本或 embedding 搜尋，目前為 MVP 關鍵字比對）

原始資訊

ID：58436348cf

來源：動區 BlockTempo

發佈：2026-05-09 08:23:48

分類：zh_news · 導出分類 zh

標的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言