DeepSeek V4 来了——其 Pro 版本价格比 GPT 5.5 Pro 低 98%

简要概述 - DeepSeek 发布了全新的 V4-Pro 模型,参数量达 1.6 万亿。 - 其每百万输入/输出 token 的价格为 $1.74/$3.48,约为 Claude Opus 4.7 价格的 1/20,比 GPT 5.5 Pro 便宜 98%。 - DeepSeek 在训练 V4 时部分使用了 Huawei Ascend 芯片,绕开了美国出口限制,并表示一旦 950 个新的超级节点在 2026 年晚些时候上线,Pro 模型本已极低的价格还将进一步下降。 DeepSeek 回来了,而且是在 OpenAI 推出 GPT-5.5 几小时后登场。巧合?也许吧。但如果你是一家过去三年里一直被美国政府试图通过芯片出口禁令拖慢的中国 AI 实验室,你的时机感会变得相当敏锐。这家总部位于杭州的实验室今天发布了 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的预览版,两者都是开放权重模型,都拥有一百万 token 的上下文窗口。这意味着在模型崩溃之前,你基本上可以处理大致相当于《指环王》三部曲篇幅的上下文。两款模型的定价也远低于西方任何同类产品,而且对有能力本地运行的人来说都是免费的。 DeepSeek 上一次重大颠覆——2025 年 1 月的 R1——曾在单日内蒸发了 Nvidia 6000 亿美元的市值,因为投资者开始质疑:既然一家小型中国实验室能以极低成本达到同样的成果,美国公司真的还需要如此巨额的投资吗?V4 是另一种类型的动作:更安静、更技术化,也更专注于为真正用 AI 构建产品的人提供效率。两款模型,分工迥异在两款新模型中,DeepSeek 的 V4-Pro 是大块头,总参数量达 1.6 万亿。把它放到大背景下看:参数是模型用来存储知识和识别模式的内部"设置"或"脑细胞"——一个模型的参数越多,理论上它能容纳的复杂信息就越多。这使它成为迄今为止 LLM 市场上最大的开源模型。这个体量听起来很离谱,直到你了解到它每次推理只激活其中 490 亿个参数。这就是 DeepSeek 自 V3 以来一直在打磨的 Mixture-of-Experts 技巧:完整模型一直存在,但任何给定请求只唤醒其中相关的部分。知识更多,计算账单不变。 "DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的最高推理强度模式,它显著推进了开源模型的知识能力,牢牢确立了自己作为当今最佳开源模型的地位,"Deepseek 在 Huggingface 的官方模型卡中写道。"它在编程基准测试中达到顶级表现,并在推理和 agentic 任务上显著缩小了与领先闭源模型的差距。" V4-Flash 则是实用派:总参数量 2840 亿,激活 130 亿。它的设计目标是更快、更便宜,根据 DeepSeek 自己的基准测试,"在给予更大的思考预算时,可达到与 Pro 版本相当的推理表现。" 两款模型都支持一百万 token 的上下文。那大约是 75 万字——大致相当于整部《指环王》三部曲再加上一些。而这是标准功能,不是高级套餐。 Deepseek 的(不那么)秘密武器:让 attention 在大规模下不再糟糕接下来是给技术爱好者或对驱动模型的"魔法"感兴趣者的技术部分。Deepseek 不藏私,一切都免费提供——完整论文已发布在 Github 上。标准的 AI attention——让模型理解词与词之间关系的机制——存在一个严峻的扩展问题。每当你将上下文长度翻倍,计算成本大致会变为四倍。所以让模型处理一百万 token 不只是处理 50 万 token 的两倍贵,而是四倍贵。这就是为什么长上下文历来只是各实验室加上的一个复选框,然后在速率限制后悄悄被限流。 DeepSeek 发明了两种新的 attention 类型来绕开这一点。第一种是 Compressed Sparse Attention,分两步工作。它首先将多组 token——比如每 4 个 token——压缩成一条记录。然后,它不是关注所有这些压缩记录,而是用一个"Lightning Indexer"为任何给定查询只挑选最相关的结果。你的模型从关注一百万 token,变成只关注一个小得多的、最重要的片段集合,有点像一位不读每本书但确切知道该查哪个书架的图书管理员。第二种是 Heavily Compressed Attention,更激进。它把每 128 个 token 折叠成一条记录——没有稀疏选择,只是粗暴的压缩。你失去了细粒度细节,但获得了极其廉价的全局视图。两种 attention 类型在交替层中运行,所以模型既能获得细节又能获得概览。技术论文中的结果是:在一百万 token 时,V4-Pro 使用的计算量是其前身(V3.2)所需的 27%。KV cache——模型用来跟踪上下文的记忆——降至 V3.2 的仅 10%。V4-Flash 进一步推进:10% 的计算,7% 的内存。而这最终让 Deepseek 能够提供比竞争对手便宜得多的每 token 价格,同时提供可比的结果。换算成美元:GPT-5.5 昨天上线时,每百万 token 输入 5 美元、输出 30 美元,GPT-5.5 Pro 则定价每百万输入 token 30 美元、输出 180 美元。 Deepseek V4-Pro 是 $1.74 输入和 $3.48 输出。V4-Flash 是 $0.14 输入和 $0.28 输出。Cline CEO Saoud Rizwan 指出,如果 Uber 用的是 DeepSeek 而不是 Claude,其 2026 年的 AI 预算——据报道足够使用四个月——本可以撑七年。 deepseek v4 现在是最便宜的 sota 模型,成本是 opus 4.7 的 1/20。作为对比,如果 uber 用 deepseek 而不是 claude,他们 2026 年的 ai 预算本可以撑 7 年而不是只有 4 个月。pic.twitter.com/i9rJZzvRBV — Saoud Rizwan (@sdrzn) April 24, 2026 基准测试 DeepSeek 在技术报告中做了一件不寻常的事:它公布了差距。大多数模型发布会精选自己胜出的基准。DeepSeek 完整地对照 GPT-5.4 和 Gemini-3.1-Pro 跑了对比,发现 V4-Pro 的推理能力比这些模型落后约三到六个月,然后照样把结果印了出来。 V4-Pro-Max 真正胜出的领域:Codeforces,竞争性编程基准,评分方式类似人类国际象棋。V4-Pro 得分 3,206,在实际参赛的人类选手中大约排第 23 位。在 Apex Shortlist——一组精选的高难度数学与 STEM 问题——上,它的通过率达到 90.2%,而 Opus 4.6 为 85.9%,GPT-5.4 为 78.1%。在 SWE-Verified——衡量模型能否解决从真实开源仓库中提取的实际 GitHub issue——上,它得分 80.6%,与 Claude Opus 4.6 持平。落后的地方:多任务基准 MMLU-Pro(Gemini-3.1-Pro 91.0% 对比 V4-Pro 87.5%),专家知识基准 GPQA Diamond(Gemini 94.3 对比 V4-Pro 90.1),以及 Humanity's Last Exam,这是一个研究生级别的基准,Gemini-3.1-Pro 的 44.4% 仍然胜过 V4-Pro 的 37.7%。具体到长上下文方面,V4-Pro 在开源模型中领先,并在 CorpusQA 基准(一项在一百万 token 下模拟真实文档分析的测试)上击败 Gemini-3.1-Pro,但在 MRCR——衡量模型从极长干草堆中检索特定针的能力——上输给 Claude Opus 4.6。为运行 agent 而生,而不仅仅是回答问题对于真正在交付产品的开发者来说,agentic 部分才是这次发布的有趣之处。 V4-Pro 可在 Claude Code、OpenCode 和其他 AI 编程工具中运行。根据 DeepSeek 对 85 位以 V4-Pro 作为主要编程 agent 的开发者所做的内部调查,52% 表示它已准备好成为他们的默认模型,39% 倾向于"是",不到 9% 表示"否"。内部员工表示在 agentic 编程任务上,它的表现优于 Claude Sonnet,并接近 Claude Opus 4.5。 Artificial Analysis 对 AI 模型在真实世界任务上进行独立评估,在 GDPval-AA 上将 V4-Pro 列为所有开源权重模型中的第一名——这是一个测试金融、法律和研究任务中具有经济价值的知识工作的基准,通过 Elo 评分。V4-Pro-Max 的 Elo 得分为 1,554,领先于 GLM-5.1(1,535)和 MiniMax 的 M2.7(1,514)。作为参考,Claude Opus 4.6 在同一基准上得分为 1,619——仍然领先,但差距正在缩小。 DeepSeek V4 Pro 在 GDPval-AA(我们的 agentic 真实世界工作任务评估)上是 #1 的开放权重模型 @deepseek_ai 发布了 V4 Pro(总参数 1.6T / 激活 49B)和 V4 Flash(总参数 284B / 激活 13B)。V4 是 DeepSeek 自 V3 以来首个新尺寸,所有中间模型……pic.twitter.com/2kJWVrKQjF — Artificial Analysis (@ArtificialAnlys) April 24, 2026 Deepseek 的 V4 还引入了一种叫做"interleaved thinking"的东西。在之前的模型中,如果你运行一个进行多次工具调用的 agent——比如它搜索网页,然后运行一些代码,然后再搜索一次——模型的推理上下文会在每轮之间被清空。每进入新的一步,模型都必须从头重建它的心智模型。V4 在工具调用之间保留完整的思维链,所以一个 20 步的 agent 工作流不会在中途出现失忆。对任何运行复杂自动化管线的人来说,这件事的重要性比听起来要大得多。 Deepseek 与中美 AI 战争美国自 2022 年起就一直限制高端 Nvidia 芯片向中国出口。声称的目标是减缓中国的 AI 发展,但芯片禁令并没有阻止 DeepSeek,反而让他们发明了一种更高效的架构,并建立起国内的硬件供应链。 DeepSeek 并不是在真空中发布 V4 的——AI 领域近来一直热闹非凡:Anthropic 于 4 月 16 日推出了 Claude Opus 4.7——Decrypt 测试过,发现它在编程和推理上表现强劲,token 使用量也显著偏高。在那之前一天,Anthropic 还压着一款名为 Claude Mythos 的网络安全模型,它表示无法公开发布,因为它在自主网络攻击方面太强了。 Xiaomi 于 4 月 22 日发布了 MiMo V2.5 Pro,全面进入多模态——图像、音频、视频。每百万 token 输入 1 美元、输出 3 美元。它在大多数编程基准上与 Opus 4.6 持平。三个月前,还没人把 Xiaomi 当作前沿 AI 公司在谈。现在它发布有竞争力模型的速度比大多数西方实验室还快。 OpenAI 的 GPT-5.5 昨天登场,Pro 版的输出价格飙升至每百万 token 180 美元。它在 Terminal Bench 2.0(测试复杂的命令行 agent 工作流)上击败了 V4-Pro(82.7% 对 70.0%)。但同等任务下其成本比 V4-Pro 高出相当多。同一天,Tencent 发布了 Hy3,另一个专注于效率的最新模型。这对你意味着什么那么,在如此多新模型可用的情况下,开发者实际上在问的问题是:什么时候溢价才值得? 对企业而言,数学账可能已经变了。一个在每百万输入 token $1.74 的价格下领跑开源基准的模型,意味着六个月前还很昂贵的大规模文档处理、法律审查或代码生成管线,现在便宜得多。一百万 token 的上下文意味着你可以在单个请求中输入整个代码库或监管申报文件,而不必把它们切成多次调用。此外,其开源性质意味着它不仅可以在本地硬件上免费运行,还可以根据公司的需求和用例进行定制和改进。对于开发者和独立开发者来说,V4-Flash 是值得关注的那一个。$0.14 输入和 $0.28 输出的价格,比一年前被认为是廉价选项的模型还便宜——而且它能处理 Pro 版本能处理的大多数任务。DeepSeek 现有的 deepseek-chat 和 deepseek-reasoner 端点已经分别在非思考模式和思考模式下路由到 V4-Flash,所以如果你用的是 API,你已经在用它了。这两款模型目前只支持纯文本。DeepSeek 表示正在开发多模态能力,这意味着从 Xiaomi 到 OpenAI 的其他大型实验室仍然保有这方面的优势。两款模型都采用 MIT 许可证,今日已在 Hugging Face 上提供。旧的 deepseek-chat 和 deepseek-reasoner 端点将于 2026 年 7 月 24 日退役。