要聞列表AI模型文心5.1正式上線:引數砍至5.0三分之一,預訓練成本只花6%
動區 BlockTempo2026-05-09 08:23:48

AI模型文心5.1正式上線:引數砍至5.0三分之一,預訓練成本只花6%

AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯1250 字
百度文心大模型 5.1 正式上線,使用者可在文心一言官網體驗,企業與開發者可透過千帆平台呼叫 API。文心 5.1 基於今年 1 月發布的文心 5.0 訓練而來,總參數數量壓縮至 5.0 的約三分之一,啟用參數約為一半,預訓練算力成本僅為同規模模型的 6%。核心技術是百度提出的 Once-for-All 彈性訓練框架。 (前情提要:DeepSeek 首輪融 73.5 億鎂甩開阿里:梁文鋒自掏四成,只要「條件最少」的錢) (背景補充:Anthropic 五年砸 2,000 億鎂給 Google Cloud,兩家 AI 新創吃掉四大雲巨頭一半訂單) - 百度文心 5.1 正式上線,總參數壓至 5.0 的三分之一,啟用參數約為一半 - 預訓練算力成本僅為同規模模型的 6%,核心技術為 Once-for-All 彈性訓練框架 - 文心 5.0 一次預訓練產出子模型矩陣,5.1 從中提取最優結構直接繼承知識 百度文心大模型 5.1 正式上線。使用者可在文心一言官網直接體驗,企業與開發者則可透過千帆平台呼叫 API。文心 5.1 基於今年 1 月發布的文心 5.0 訓練而來,核心賣點是大幅壓縮模型體積和訓練開銷。 5.1 版本在 Arena 搜尋榜上登上第四位。 成本壓縮的核心來自百度提出的 Once-for-All 彈性訓練框架。傳統做法需要為不同規模的模型分別跑預訓練,每個模型尺寸都是一次獨立的算力投入,規模版本越多,重複訓練的浪費越大。 文心 5.0 的做法不同:它只做一次預訓練,透過動態取樣技術同時最佳化大量不同大小的子模型,形成一個「子模型矩陣」。 文心 5.1 就是從這個矩陣中提取的最優結構。它直接繼承了 5.0 在預訓練階段累積的全部知識,省掉了從頭訓練所需的算力。 「預訓練成本 6%」這個數字需要解釋的是,百度不是在同等規模上找到了更便宜的訓練方法,而是文心 5.1 根本跳過了從零開始的預訓練流程。它的訓練成本主要花在從 5.0 的子模型矩陣中篩選最優結構、以及後續的微調與對齊階段。與同行為每個模型規模獨立訓練的做法相比,這種「訓練一次、產出多個」的架構在邊際成本上具有結構性優勢。 這個邏輯與 DeepSeek 年初公布的低成本訓練路線不同。DeepSeek V3 強調的是在單次訓練中用更少的 GPU 和更高效的工程實現壓低成本;百度的 Once-for-All 則是把一次訓練的產出從「一個模型」擴充套件到「一整個模型家族」。 文心 5.1 和文心 5.0 有什麼差別? 文心 5.1 基於 5.0 訓練而來,總參數壓縮至 5.0 的三分之一,啟用參數約一半。它從 5.0 的 Once-for-All 子模型矩陣中提取最優結構,繼承全部知識但推理更快、成本更低。 什麼是 Once-for-All 彈性訓練框架? 百度提出的訓練方法。只做一次預訓練,透過動態取樣同時最佳化不同大小的子模型,形成模型矩陣。新模型從矩陣中提取,省去從頭訓練的算力,邊際成本大幅降低。
資料狀態✓ 已擷取全文閱讀原文(動區 BlockTempo)
🔍歷史類似事件· 關鍵字 + 標的比對0 則
找不到相似事件(需要更多資料樣本或 embedding 搜尋,目前為 MVP 關鍵字比對)
原始資訊
ID:58436348cf
來源:動區 BlockTempo
發佈:2026-05-09 08:23:48
分類:zh_news · 導出分類 zh
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言
AI模型文心5.1正式上線:引數砍至5.0三分之一,預訓練成本只花6% | Feel.Trading