DeepSeek V4 來了——其 Pro 版本費用比 GPT 5.5 Pro 低 98%

重點摘要 - DeepSeek 發布了全新的 V4-Pro 模型，擁有 1.6 兆參數。 - 每百萬輸入/輸出 tokens 的價格為 $1.74/$3.48，大約是 Claude Opus 4.7 的 1/20，比 GPT 5.5 Pro 便宜 98%。 - DeepSeek 部分使用 Huawei Ascend 晶片訓練 V4，繞過美國出口限制，並表示一旦 950 個新超級節點於 2026 年稍後上線，Pro 模型本已低廉的價格將進一步下降。 DeepSeek 回來了，而且就在 OpenAI 發布 GPT-5.5 後幾小時內登場。這是巧合嗎？也許吧。但如果你是一家過去三年美國政府一直試圖以晶片出口禁令拖慢腳步的中國 AI 實驗室，你的時機掌握感會變得相當敏銳。這家總部位於杭州的實驗室今日發布了 DeepSeek-V4-Pro 與 DeepSeek-V4-Flash 的預覽版本，兩者皆為開放權重，皆具備一百萬 tokens 的上下文視窗。這代表你可以在模型崩潰之前處理大約相當於 Lord of the Rings Trilogy 大小的上下文。兩者的定價也遠低於西方任何可比的產品，並且對於有能力在本地運行的人來說都是免費的。 DeepSeek 上次的重大顛覆——2025 年 1 月的 R1——在一天之內讓 Nvidia 市值蒸發了 6,000 億美元，投資者開始質疑美國公司是否真的需要如此巨額的投資來達成一家小型中國實驗室以零頭成本就能實現的成果。V4 是另一種類型的舉動：更安靜、更技術性，並且更專注於對任何實際使用 AI 進行開發的人來說的效率。兩個模型，截然不同的工作兩個新模型中，DeepSeek 的 V4-Pro 是大塊頭，總參數量達 1.6 兆。為了讓你有個概念，參數是模型用來儲存知識和識別模式的內部「設定」或「腦細胞」——模型擁有的參數越多，理論上能容納的複雜資訊就越多。這使其成為迄今為止 LLM 市場上最大的開源模型。這個規模聽起來可能很荒謬，直到你得知它每次推理只啟動其中的 490 億個參數。這就是 DeepSeek 自 V3 以來不斷精進的 Mixture-of-Experts 技巧：整個模型就在那裡，但對於任何給定的請求，只有相關的部分會被喚醒。更多的知識，相同的算力帳單。「DeepSeek-V4-Pro-Max，即 DeepSeek-V4-Pro 的最大推理努力模式，顯著推進了開源模型的知識能力，穩固地確立了自己作為當今最佳開源模型的地位，」DeepSeek 在 Huggingface 上的模型官方卡片中寫道。「它在編碼基準測試中達到頂級表現，並在推理和代理任務上大幅縮小了與領先閉源模型的差距。」 V4-Flash 則是實用型的那一個：總參數 2,840 億，啟動參數 130 億。它被設計得更快、更便宜，根據 DeepSeek 自己的基準測試，「在給予更大的思考預算時，其推理表現可與 Pro 版本相媲美。」兩者都支援一百萬 tokens 的上下文。那大約是 75 萬字——大致是整個「Lord of the Rings」三部曲再多一些。而且這是作為標準功能，不是進階方案。 DeepSeek 的（並不那麼）秘密配方：讓 attention 在大規模下不會糟糕透頂這裡是給技術宅或對驅動模型的魔法有興趣的人的技術部分。DeepSeek 並未隱藏其秘密，所有內容皆免費提供——完整論文可在 Github 取得。標準的 AI attention——讓模型理解詞彙之間關係的機制——有一個殘酷的擴展問題。每當你將上下文長度加倍時，計算成本大約會變成四倍。所以在一百萬 tokens 上運行模型不只是比 50 萬 tokens 貴兩倍，而是貴四倍。這就是為什麼長上下文歷來只是各實驗室加上的一個勾選項目，然後悄悄地在速率限制後面節流。 DeepSeek 發明了兩種新的 attention 類型來繞過這個問題。第一種，Compressed Sparse Attention，分兩步進行。它首先將 token 群組——例如每 4 個 tokens——壓縮成單一條目。然後，它不是對所有這些壓縮條目進行 attention，而是使用「Lightning Indexer」為任何給定查詢挑選最相關的結果。你的模型從對一百萬 tokens 進行 attention，變成只對一個小得多的最重要片段集合進行 attention，有點像一個不讀每本書但確切知道該查哪個書架的圖書館員。第二種，Heavily Compressed Attention，更為激進。它將每 128 個 tokens 折疊成單一條目——沒有稀疏選擇，只有殘酷的壓縮。你會失去細粒度的細節，但你會得到一個極其便宜的全局視圖。這兩種 attention 類型在交替的層中運行，因此模型同時獲得細節和概覽。技術論文的結果：在一百萬 tokens 下，V4-Pro 使用了其前身（V3.2）所需算力的 27%。KV cache——模型追蹤上下文所需的記憶體——下降到僅為 V3.2 的 10%。V4-Flash 將其推得更遠：10% 的算力、7% 的記憶體。這最終使得 DeepSeek 能夠提供比競爭對手便宜得多的每 token 價格，同時提供可比的結果。以美元來說：GPT-5.5 昨日推出，每百萬 tokens 輸入 $5、輸出 $30，而 GPT-5.5 Pro 的價格為每百萬輸入 tokens $30、每百萬輸出 tokens $180。 DeepSeek V4-Pro 為輸入 $1.74、輸出 $3.48。V4-Flash 為輸入 $0.14、輸出 $0.28。Cline 執行長 Saoud Rizwan 指出，若 Uber 使用 DeepSeek 而非 Claude，其 2026 年的 AI 預算——據報導足以使用四個月——將可以使用七年。 deepseek v4 現在是最便宜的 sota 模型，成本僅為 opus 4.7 的 1/20。為了讓大家有個概念，如果 uber 使用 deepseek 而非 claude，他們 2026 年的 ai 預算將可以使用 7 年，而不只是 4 個月。pic.twitter.com/i9rJZzvRBV — Saoud Rizwan (@sdrzn) April 24, 2026 基準測試 DeepSeek 在其技術報告中做了一件不尋常的事：它公布了差距。大多數模型發布只會挑選自己獲勝的基準測試。DeepSeek 對 GPT-5.4 和 Gemini-3.1-Pro 進行了完整比較，發現 V4-Pro 的推理能力落後這些模型約三到六個月，並仍然將其印出。 V4-Pro-Max 實際勝出之處：Codeforces，競技程式設計基準測試，評分方式類似人類西洋棋。V4-Pro 得分 3,206，使其在實際的人類賽事參賽者中排名約第 23 位。在 Apex Shortlist——一組精選的困難數學和 STEM 問題——上，它的通過率達到 90.2%，相對於 Opus 4.6 的 85.9% 和 GPT-5.4 的 78.1%。在 SWE-Verified——衡量模型能否解決從實際開源儲存庫中提取的真實 GitHub 問題的測試——上，它得分 80.6%，與 Claude Opus 4.6 持平。落後之處：多任務基準測試 MMLU-Pro（Gemini-3.1-Pro 91.0% 對 V4-Pro 87.5%）、專家知識基準測試 GPQA Diamond（Gemini 94.3 對 V4-Pro 90.1），以及 Humanity's Last Exam，這是一個研究生級別的基準測試，Gemini-3.1-Pro 的 44.4% 仍然勝過 V4-Pro 的 37.7%。特別在長上下文方面，V4-Pro 領先開源模型，並在 CorpusQA 基準測試（一個模擬一百萬 tokens 真實文件分析的測試）上擊敗 Gemini-3.1-Pro，但在 MRCR 上輸給 Claude Opus 4.6——MRCR 是一個衡量模型在非常長的乾草堆深處檢索特定針的能力的測試。為運行代理而打造，而不僅是回答問題代理相關的部分是這次發布對於實際發布產品的開發者來說變得有趣之處。 V4-Pro 可以在 Claude Code、OpenCode 以及其他 AI 編碼工具中運行。根據 DeepSeek 對 85 位將 V4-Pro 作為主要編碼代理的開發者進行的內部調查，52% 表示它已準備好成為他們的預設模型，39% 傾向同意，少於 9% 表示不行。內部員工表示，它在代理編碼任務上勝過 Claude Sonnet 並接近 Claude Opus 4.5。 Artificial Analysis 對 AI 模型在真實世界任務上進行獨立評估，在 GDPval-AA 上將 V4-Pro 列為所有開放權重模型中的第一名——這是一個測試橫跨金融、法律和研究任務的具有經濟價值的知識工作的基準，以 Elo 評分。V4-Pro-Max 得分 1,554 Elo，領先 GLM-5.1（1,535）和 MiniMax 的 M2.7（1,514）。作為參考，Claude Opus 4.6 在同一基準上得分 1,619——仍然領先，但差距正在縮小。 DeepSeek V4 Pro 在 GDPval-AA 上是排名第一的開放權重模型，這是我們的代理式真實世界工作任務評估 @deepseek_ai 已發布 V4 Pro（總計 1.6T / 啟動 49B）和 V4 Flash（總計 284B / 啟動 13B）。V4 是 DeepSeek 自 V3 以來的首個新尺寸，所有中間模型……pic.twitter.com/2kJWVrKQjF — Artificial Analysis (@ArtificialAnlys) April 24, 2026 DeepSeek 的 V4 還引入了一種稱為「interleaved thinking」的東西。在先前的模型中，如果你運行一個進行多次工具調用的代理——例如它搜尋網頁，然後執行一些程式碼，然後再搜尋——模型的推理上下文會在輪次之間被清除。每個新步驟，模型都必須從頭開始重建其心智模型。V4 在工具調用之間保留完整的思考鏈，所以一個 20 步的代理工作流程不會在中途遭受失憶。這對於運行複雜自動化管線的任何人來說，比聽起來更重要。 DeepSeek 與美中 AI 戰爭美國自 2022 年起一直在限制高階 Nvidia 晶片對中國的出口。其聲明的目標是減緩中國的 AI 發展，但晶片禁令並未阻止 DeepSeek，反而促使他們發明了更高效的架構並建立國內硬體供應。 DeepSeek 並非在真空中發布 V4——AI 領域近期活動頻繁：Anthropic 於 4 月 16 日推出了 Claude Opus 4.7——Decrypt 測試過的模型，在編碼和推理方面表現強勁，token 用量明顯偏高。在那之前一天，Anthropic 也持有 Claude Mythos，一個它表示因為過於擅長自主網路攻擊而無法公開發布的網路安全模型。 Xiaomi 於 4 月 22 日推出 MiMo V2.5 Pro，全面進入多模態——圖像、音訊、影片。每百萬 tokens 輸入 $1、輸出 $3。它在大多數編碼基準測試上與 Opus 4.6 持平。三個月前，沒有人將 Xiaomi 視為前沿 AI 公司。現在它正以比大多數西方實驗室更快的速度推出具競爭力的模型。 OpenAI 的 GPT-5.5 昨日登場，Pro 版本的輸出成本飆升至每百萬 tokens $180。它在 Terminal Bench 2.0 上勝過 V4-Pro（82.7% 對 70.0%），該測試評估複雜的命令列代理工作流程。但對於同等任務，它的成本比 V4-Pro 高得多。同一天 Tencent 發布了 Hy3，另一個專注於效率的最先進模型。這對你意味著什麼那麼，有這麼多新模型可用，開發者實際上在問的問題是：什麼時候付出溢價才值得？對於企業而言，數學可能已經改變了。一個在開源基準測試中領先、每百萬輸入 tokens 僅需 $1.74 的模型意味著六個月前還很昂貴的大規模文件處理、法律審查或程式碼生成管線，現在便宜得多。一百萬 tokens 的上下文意味著你可以在單一請求中餵入整個程式碼庫或法規申報文件，而不是將它們分塊跨多次調用。此外，其開源性質意味著它不僅可以在本地硬體上免費運行，還可以根據公司的需求和使用案例進行客製化和改進。對於開發者和獨立建構者，V4-Flash 是值得關注的那一個。輸入 $0.14、輸出 $0.28，它比一年前被視為預算選項的模型還要便宜——而且它處理 Pro 版本所處理的大多數任務。DeepSeek 現有的 deepseek-chat 和 deepseek-reasoner 端點已分別在非思考和思考模式下路由至 V4-Flash，所以如果你在使用 API，你已經在使用它了。這些模型目前僅支援文字。DeepSeek 表示正在開發多模態能力，這意味著從 Xiaomi 到 OpenAI 的其他大型實驗室仍保有這方面的優勢。兩個模型都採用 MIT 授權，今日於 Hugging Face 上提供。舊的 deepseek-chat 和 deepseek-reasoner 端點將於 2026 年 7 月 24 日停用。