要闻列表Claude Code Cost-Saving Tips: Engineers Save 300 Million Tokens a Week with Caching, the Key is Not to Interrupt
動區 BlockTempo2026-05-24 04:56:39

Claude Code Cost-Saving Tips: Engineers Save 300 Million Tokens a Week with Caching, the Key is Not to Interrupt

ORIGINALClaude Code 省錢密技:工程師一週靠快取省下 3 億 Token,關鍵在別打斷
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4231 字
Claude Code 长对话吃额度?工程师 Nate Herk 揭露,一周靠 prompt caching 机制省下 3 亿 Token,单日最高 9100 万。关键不是写多少程序,而是如何不「打断」快取,让重复上下文不再浪费成本。 (前情提要:鞭打 Claude code 加速的 badclaude 开源项目,被 Anthropic 寄侵权通知信了) (背景补充:Claude Code 新增云端定时任务功能!不用开电脑,AI 自动审核 PR、升级) 多开发者用 Claude Code 写程序时,最头痛的往往是 Token 用量配额像流水一样快速见底,长对话几乎成了奢侈品。 但常在社群分享 AI 使用技巧的网红 Nate Herk 在一则 X 推文中揭露,真正的成本杀手其实不是代码量,而是系统有没有善用 prompt caching 机制。他本人一周内就靠快取节省了超过 3 亿 Token,单日快取量高达 9100 万:由于快取 Token 的成本仅为普通输入 Token 的 10%,这笔账算下来,等于一天只花了 900 万 Token 的费用,几乎是「免费」延长了整个程序设计对话回合的寿命。 我这周节省了 3 亿 Token,单日 9100 万,一周超过 3 亿。 我没有改动任何设定。这只是 prompt caching 在后台正常发挥作用。 但当我真正理解了快取是什么,以及怎样避免把快取「打断」之后,在同样的使用额度下,我的会话可以持续更久。所以,这里整理一份 Claude Code prompt caching 的 80/20 入门指南,不涉及 API 层面的深度细节。 快取 Token 的成本只有普通输入 Token 的 10%。9100 万快取 Token,实际计费大约相当于 900 万 Token。 Claude Code 订阅版的快取 TTL 是 1 小时;API 默认是 5 分钟;Sub-agent 永远是 5 分钟。 快取分为三层:系统层、项目层、对话层。 会话中途切换模型会破坏快取,包括开启「opus plan」模式。 coding agents need glass boxes now jianshuo/ccglass > 111 stars on github > created yesterday > mit + javascript > local proxy + web dashboard for claude code, codex, deepseek-tui, and kimi > shows the full system prompt, tool schemas, message history, token/cache/cost, and… pic.twitter.com/Wot5SFV16N— Beau Johnson (@BeauJohnson89) May 24, 2026 每一个被快取的 Token,成本都是普通输入 Token 的 10%。 所以,当我的仪表盘显示某一天有 9100 万 Token 命中了快取时,实际计费大概只相当于处理了 900 万 Token。这也是为什么和没有快取相比,长时间使用 Claude Code 时,会让人感觉会话几乎是「免费」延长的。 仪表盘里有两个数字值得重点关注: Cache create:把内容写入快取时产生的一次性成本。它会在下一轮对话中开始发挥作用。 Cache read:Claude 从快取中复用的 Token,比如你的 CLAUDE.md、工具定义、此前的讯息等。相比重新作为输入处理,成本低成本 10 倍。 如果你的 Cache read 数字很高,说明你正在有效利用快取;如果这个数字很低,就意味着你正在为同一批上下文反复付费。 Anthropic 的 Thariq 有一句话让我印象很深:「我们实际上会监控 prompt cache 的命中率,一旦命中率过低,就会触发警报,甚至宣布 SEV 级别的事故。」 他还写过一篇很好的 X 文章。当快取命中率高时,会同时发生四件事:Claude Code 体感更快,Anthropic 的服务成本下降,你的订阅额度显得更耐用,长时间编码会话也变得更现实。 但如果命中率很低,所有人都会吃亏。 所以,双方的激励其实是一致的:Anthropic 希望你的快取命中率更高,你自己也希望命中率更高。真正会拖后腿的,只是一些看似不起眼、却会悄悄重建快取的小习惯。 快取依赖的是 prefix matching,也就是「字首匹配」。 不用陷入太深的技术细节,你只需要理解一点:只要某个位置之前的内容和已经快取的内容完全一致,Claude 就可以复用这部分快取 Token。
数据状态✓ 已抓取全文阅读原文(動區 BlockTempo)
🔍历史类似事件· 关键词 + 标的比对6 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:171ed270b1
来源:動區 BlockTempo
发布:2026-05-24 04:56:39
分类:zh_news · 导出分类 zh
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言