Claude Code Cost-Saving Tips: Engineers Save 300 Million Tokens a Week with Caching, the Key is Not to Interrupt

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4231 字

Claude Code 长对话吃额度？工程师 Nate Herk 揭露，一周靠 prompt caching 机制省下 3 亿 Token，单日最高 9100 万。关键不是写多少程序，而是如何不「打断」快取，让重复上下文不再浪费成本。（前情提要：鞭打 Claude code 加速的 badclaude 开源项目，被 Anthropic 寄侵权通知信了）（背景补充：Claude Code 新增云端定时任务功能！不用开电脑，AI 自动审核 PR、升级）多开发者用 Claude Code 写程序时，最头痛的往往是 Token 用量配额像流水一样快速见底，长对话几乎成了奢侈品。但常在社群分享 AI 使用技巧的网红 Nate Herk 在一则 X 推文中揭露，真正的成本杀手其实不是代码量，而是系统有没有善用 prompt caching 机制。他本人一周内就靠快取节省了超过 3 亿 Token，单日快取量高达 9100 万：由于快取 Token 的成本仅为普通输入 Token 的 10%，这笔账算下来，等于一天只花了 900 万 Token 的费用，几乎是「免费」延长了整个程序设计对话回合的寿命。我这周节省了 3 亿 Token，单日 9100 万，一周超过 3 亿。我没有改动任何设定。这只是 prompt caching 在后台正常发挥作用。但当我真正理解了快取是什么，以及怎样避免把快取「打断」之后，在同样的使用额度下，我的会话可以持续更久。所以，这里整理一份 Claude Code prompt caching 的 80/20 入门指南，不涉及 API 层面的深度细节。快取 Token 的成本只有普通输入 Token 的 10%。9100 万快取 Token，实际计费大约相当于 900 万 Token。 Claude Code 订阅版的快取 TTL 是 1 小时；API 默认是 5 分钟；Sub-agent 永远是 5 分钟。快取分为三层：系统层、项目层、对话层。会话中途切换模型会破坏快取，包括开启「opus plan」模式。 coding agents need glass boxes now jianshuo/ccglass > 111 stars on github > created yesterday > mit + javascript > local proxy + web dashboard for claude code, codex, deepseek-tui, and kimi > shows the full system prompt, tool schemas, message history, token/cache/cost, and… pic.twitter.com/Wot5SFV16N— Beau Johnson (@BeauJohnson89) May 24, 2026 每一个被快取的 Token，成本都是普通输入 Token 的 10%。所以，当我的仪表盘显示某一天有 9100 万 Token 命中了快取时，实际计费大概只相当于处理了 900 万 Token。这也是为什么和没有快取相比，长时间使用 Claude Code 时，会让人感觉会话几乎是「免费」延长的。仪表盘里有两个数字值得重点关注： Cache create：把内容写入快取时产生的一次性成本。它会在下一轮对话中开始发挥作用。 Cache read：Claude 从快取中复用的 Token，比如你的 CLAUDE.md、工具定义、此前的讯息等。相比重新作为输入处理，成本低成本 10 倍。如果你的 Cache read 数字很高，说明你正在有效利用快取；如果这个数字很低，就意味着你正在为同一批上下文反复付费。 Anthropic 的 Thariq 有一句话让我印象很深：「我们实际上会监控 prompt cache 的命中率，一旦命中率过低，就会触发警报，甚至宣布 SEV 级别的事故。」他还写过一篇很好的 X 文章。当快取命中率高时，会同时发生四件事：Claude Code 体感更快，Anthropic 的服务成本下降，你的订阅额度显得更耐用，长时间编码会话也变得更现实。但如果命中率很低，所有人都会吃亏。所以，双方的激励其实是一致的：Anthropic 希望你的快取命中率更高，你自己也希望命中率更高。真正会拖后腿的，只是一些看似不起眼、却会悄悄重建快取的小习惯。快取依赖的是 prefix matching，也就是「字首匹配」。不用陷入太深的技术细节，你只需要理解一点：只要某个位置之前的内容和已经快取的内容完全一致，Claude 就可以复用这部分快取 Token。

数据状态✓ 已抓取全文阅读原文（動區 BlockTempo）

🔍历史类似事件· 关键词 + 标的比对6 则

2026-05-26

Claude Code 让 Uber 两个月烧完年度预算后,COO 直言:Token 消耗和有用输出不存在正比

相似度 220%關鍵字 token/code/claude同分類 zh

2026-05-28

相似度 170%關鍵字 code/claude同分類 zh

2026-05-24

我 30 人的公司全部用 Claude Code AI 化，結果「人類要做的工作比以往更多」

相似度 170%關鍵字 code/claude同分類 zh

2026-05-22

Andrej Karpathy 提煉「CLAUDE.md 四大準則」引爆 GitHub，讓 AI 寫 Code 準確率飆破 90%

相似度 170%關鍵字 code/claude同分類 zh

2026-05-15

馬斯克 xAI 推出「Grok Build」挑戰 Claude：最多 8 個並行 AI agents、上下文視窗達 200 萬 token

相似度 170%關鍵字 token/claude同分類 zh

2026-05-15

Claude Code 新推 /goals 指令：分離執行與評估，避免 AI 代理偷懶說謊

相似度 170%關鍵字 code/claude同分類 zh

💡 目前用关键词 + 标的比对（MVP）· 之后会升级为 embedding 语义搜寻

原始信息

ID：171ed270b1

来源：動區 BlockTempo

发布：2026-05-24 04:56:39

分类：zh_news · 导出分类 zh

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言