DeepSeek、小米刚刚把前沿AI变便宜了99%。美国实验室却走向了相反方向

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯5868 字

简要内容 - DeepSeek 于 5 月 22 日将 V4-Pro 的 75% 折扣永久化，将输出价格锁定在每百万 token 0.87 美元。 - Xiaomi 于 5 月 26 日将 MiMo-V2.5 价格最多下调 99%，Pro 模型的缓存输入价格现已降至每百万 token 0.0036 美元。 - OpenAI 的 GPT-5.5 在发布时将输出价格翻倍至每百万 token 30 美元，而 Anthropic 的 Claude Opus 4.7 则配备了新的 tokenizer，可能使实际成本上涨最多 35%。 DeepSeek 本周早些时候将原定到期的 DeepSeek V4-Pro 75% 折扣永久化。如今，另一家中国 AI 实验室 Xiaomi 也将 MiMo-V2.5 的 API 价格最多下调 99%（针对缓存输入）。市场上两款最强大的 AI 模型刚刚大幅降价，而美国的实验室却朝相反方向走去。为非开发者简单解释一下：当你在浏览器中使用 ChatGPT 或 Claude 时，你支付的是固定订阅费——或者什么都不用付。但当一家公司基于 AI 模型构建产品时，他们需要按 token 付费，一个 token 大约相当于四分之三个单词。每发送一条消息、每生成一次回复、每处理一份文档：所有这些都会按百万 token 的费率累计。 API 就是让这一切成为可能的原始通道，使应用、agent、网站等能够在自己的环境中使用模型。所以 token 定价决定了一款由 AI 驱动的产品究竟是经济上可行，还是个无底洞。 Token 套餐则是套在上面的订阅形式。你预先购买额度，模型则消耗这些额度。Xiaomi 的计费升级让用户在相同价格下获得 5 到 8 倍的 token。100 美元的 Max 套餐现在能获得 820 亿 token，而之前只有 16 亿。作为参考，820 亿 token 相当于超过 600 亿个单词。为何这次降价是真实的，而非营销手段 Xiaomi MiMo 团队负责人、曾参与共同打造 DeepSeek-V2 的前 DeepSeek 核心开发者 Fuli Luo，在 X 上发布了技术解释。最大的成本节省来自一种更智能的方式来存储和重用 AI 已经处理过的信息。Xiaomi 的系统无需反复执行相同的工作，而是可以一次性记住更多数据——大约是之前的五倍。这意味着 AI 所需的算力大幅减少，存储和处理成本降低约 80%。 MiMo API 降价背后的原理：最深的降价（最高 99%）针对的是输入（缓存命中）。核心原因是我们的推理框架现在支持针对 SWA 的分层 KV 缓存优化。生产推理引擎测试表明，此优化使缓存 token……— Fuli Luo (@_LuoFuli) 2026 年 5 月 27 日 "在这些新降低的 API 价格下运营，我们的生产推理引擎几乎以满负荷运行，并且基本上仍能保本，"Luo 写道。"如果未来出现更多节省算力和 KV [Key-Value cache] 缓存的架构，再配合更好的推理基础设施来压低 API 成本，这将在行业内形成一个绝佳的良性循环。" DeepSeek 的架构以不同方式达到了相同的效果。V4 使用两种交错的注意力类型——一种每 4 个 token 压缩一次以实现选择性注意力，另一种每 128 个 token 折叠一次，以极低的算力实现全局上下文。在一百万 token 的上下文规模下，V4-Pro 的 KV 缓存只有前代的 10%，单 token 推理的算力成本仅为前代的 27%。结果就是：一款比 GPT-5.5 Pro 便宜 98%、且性能具有竞争力的模型。 Silicon Valley 的押注 Claude Opus 4.7 的价格为每百万输入 token 5 美元、每百万输出 token 25 美元。Anthropic 保持价目表不变，但配套发布了一款新的 tokenizer，对相同输入文本可能产生最多 35% 更多的 token。所以价格没有上涨。但你的账单可能依然会涨。 GPT-5.5 于 4 月底发布，将其前代的输出价格翻倍至每百万 token 30 美元。Gemini 2.5 Pro 定价为输入 1.25 美元、输出 10 美元——按美国标准来说算便宜。 DeepSeek V4-Pro 是一款 1.6 万亿参数的模型，能以极小的算力成本提供大型模型级别的知识库。它现在永久运行在每百万 token 0.435 美元输入、0.87 美元输出的价位。这款模型在 SWE-Verified 上的得分为 80.6%，而 Claude Opus 4.6 为 80.8%——这是一项衡量真实 GitHub issue 解决能力的基准，而非精挑细选的演示。在编码得分本质上相同的模型之间，输出价格的差距达到了 34 倍。在新一轮降价后，MiMo-V2.5-Pro 同样匹配每百万 token 0.435/0.87 美元的价格。缓存命中价格降至 0.0036 美元。作为参考，这比大多数人发一条 SMS 中每个字符的成本还要低。 DeepSeek 和 Xiaomi 并不孤单这些降价发生在这样一个市场：在这一切之前，中国模型本就已经便宜得多。MiniMax M2.7 在 Artificial Analysis 的编码基准上能与 Claude Opus 抗衡，定价为每百万输入 token 0.30 美元、输出 1.20 美元——约为 Opus 4.7 输出价格的 5%。 Moonshot AI 的 Kimi K2.5 在 SWE-bench Verified 上得分 76.8%，定价为输入 0.60 美元、输出 2.50 美元。Z.AI 的 GLM-5.1 在本季度早些时候在一项关键的编码基准上击败了 Claude Opus 4.6。5 月初的 12 天窗口内，四款中国前沿模型相继发布，每 token 成本均低于 Opus 4.7 的三分之一。为便于直观呈现，下图展示了中国模型在价格与质量比方面，与三大最受欢迎的美国 AI 提供商（Anthropic、OpenAI 和 Meta）之间的对比。 2026 年第二季度中美前沿模型之间的差距在 15 到 30 倍之间，具体取决于你比较的是哪些模型——而且这还只是基准线，尚未计入任何缓存折扣。本周这些降价所做的，是为那些真正在生产环境中运行的特定工作负载进一步缩小这一差距：带有稳定系统 prompt 的 agent 管线、文档处理器、检索工具，以及任何持续命中缓存的场景。在每百万缓存输入 token 仅 0.003625 美元的价位下，DeepSeek V4-Pro 在重复上下文方面的成本实际上只是四舍五入的零头。

数据状态✓ 已抓取全文阅读原文（Decrypt）

🔍历史类似事件· 关键词 + 标的比对4 则

2026-05-29

Nvidia最重要的租赁芯片刚刚降价40%：为什么这对NVDA股票是坏消息

相似度 130%關鍵字 just/cheaper

2026-05-29

Nvidia最重要的租赁芯片刚刚降价40%：对NVDA股票来说是坏消息吗？

相似度 130%關鍵字 just/cheaper

2026-05-12

Ripple 前 CTO David Schwartz 刚刚透露了哪种加密货币让他赚得最多

相似度 130%關鍵字 just/made

2026-04-27

Nordic Blockchain Conference 第 8 屆年會重返 Stockholm，聚焦數位金融、政策以及 Blockchain 與其他前沿技術的交互影響

相似度 100%關鍵字 frontier/other

💡 目前用关键词 + 标的比对（MVP）· 之后会升级为 embedding 语义搜寻

原始信息

ID：4d62962aa7

来源：Decrypt

发布：2026-05-27 18:31:08

分类：一般 · 导出分类 neutral

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言