Danh sách tinMẹo tiết kiệm tiền với Claude Code: Kỹ sư tiết kiệm 300 triệu Token mỗi tuần nhờ bộ nhớ đệm, chìa khóa là đừng làm gián đoạn
動區 BlockTempo2026-05-24 04:56:39

Mẹo tiết kiệm tiền với Claude Code: Kỹ sư tiết kiệm 300 triệu Token mỗi tuần nhờ bộ nhớ đệm, chìa khóa là đừng làm gián đoạn

ORIGINALClaude Code 省錢密技:工程師一週靠快取省下 3 億 Token,關鍵在別打斷
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4231 từ
Claude Code tiêu tốn hạn mức trong các cuộc hội thoại dài? Kỹ sư Nate Herk tiết lộ, nhờ cơ chế bộ nhớ đệm (cache), anh đã tiết kiệm được 300 triệu Token mỗi tuần, với mức cao nhất lên tới 91 triệu Token mỗi ngày. Chìa khóa không nằm ở việc viết bao nhiêu code, mà là làm thế nào để không "làm gián đoạn" bộ nhớ đệm, giúp ngữ cảnh lặp lại không còn gây lãng phí chi phí. (Thông tin liên quan: Dự án mã nguồn mở badclaude giúp tăng tốc Claude code đã bị Anthropic gửi thư thông báo vi phạm bản quyền) (Thông tin bổ sung: Claude Code bổ sung tính năng tác vụ định thời trên đám mây! Không cần mở máy tính, AI tự động kiểm duyệt PR, nâng cấp) Nhiều lập trình viên khi sử dụng Claude Code để viết code thường đau đầu nhất vì hạn mức Token cạn kiệt nhanh chóng như nước chảy, các cuộc hội thoại dài gần như trở thành một món hàng xa xỉ. Tuy nhiên, Nate Herk, một người có sức ảnh hưởng thường xuyên chia sẻ các mẹo sử dụng AI trong cộng đồng, đã tiết lộ trong một bài đăng trên X rằng, kẻ sát thủ chi phí thực sự không phải là lượng mã nguồn, mà là hệ thống có tận dụng tốt cơ chế prompt caching hay không. Bản thân anh đã tiết kiệm được hơn 300 triệu Token trong vòng một tuần nhờ bộ nhớ đệm, với lượng cache đạt tới 91 triệu Token mỗi ngày: Vì chi phí của Token cache chỉ bằng 10% so với Token đầu vào thông thường, tính ra, một ngày anh chỉ tốn chi phí của 9 triệu Token, gần như kéo dài tuổi thọ của toàn bộ phiên lập trình một cách "miễn phí". Tôi đã tiết kiệm được 300 triệu Token trong tuần này, 91 triệu mỗi ngày, hơn 300 triệu trong một tuần. Tôi không thay đổi bất kỳ cài đặt nào. Đây chỉ là prompt caching đang hoạt động bình thường ở phía sau. Nhưng khi tôi thực sự hiểu bộ nhớ đệm là gì và làm thế nào để tránh "làm gián đoạn" nó, thì với cùng một hạn mức sử dụng, phiên hội thoại của tôi có thể kéo dài lâu hơn. Vì vậy, đây là bản hướng dẫn nhập môn 80/20 về prompt caching của Claude Code, không đi sâu vào các chi tiết cấp độ API. Chi phí của Token cache chỉ bằng 10% so với Token đầu vào thông thường. 91 triệu Token cache thực tế chỉ tương đương với chi phí của khoảng 9 triệu Token. TTL (Time-to-Live) của bộ nhớ đệm trên bản đăng ký Claude Code là 1 giờ; mặc định của API là 5 phút; Sub-agent luôn là 5 phút. Bộ nhớ đệm được chia thành ba lớp: lớp hệ thống, lớp dự án, lớp hội thoại. Việc chuyển đổi mô hình giữa chừng trong hội thoại sẽ phá hủy bộ nhớ đệm, bao gồm cả việc bật chế độ "opus plan". coding agents need glass boxes now jianshuo/ccglass > 111 stars on github > created yesterday > mit + javascript > local proxy + web dashboard for claude code, codex, deepseek-tui, and kimi > shows the full system prompt, tool schemas, message history, token/cache/cost, and… pic.twitter.com/Wot5SFV16N— Beau Johnson (@BeauJohnson89) May 24, 2026 Mỗi Token được lưu vào bộ nhớ đệm đều có chi phí bằng 10% so với Token đầu vào thông thường. Vì vậy, khi bảng điều khiển của tôi hiển thị một ngày có 91 triệu Token đạt cache hit, chi phí thực tế chỉ tương đương với việc xử lý 9 triệu Token. Đây cũng là lý do tại sao so với việc không có bộ nhớ đệm, khi sử dụng Claude Code trong thời gian dài, người dùng sẽ cảm thấy phiên hội thoại được kéo dài gần như "miễn phí". Có hai con số trong bảng điều khiển đáng được chú ý: Cache create: Chi phí một lần phát sinh khi ghi nội dung vào bộ nhớ đệm. Nó sẽ bắt đầu phát huy tác dụng trong vòng hội thoại tiếp theo. Cache read: Các Token mà Claude tái sử dụng từ bộ nhớ đệm, ví dụ như CLAUDE.md, định nghĩa công cụ, tin nhắn trước đó của bạn, v.v. So với việc xử lý lại như đầu vào, chi phí thấp hơn 10 lần. Nếu con số Cache read của bạn cao, điều đó có nghĩa là
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (動區 BlockTempo)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:171ed270b1
Nguồn:動區 BlockTempo
Đăng:2026-05-24 04:56:39
Danh mục:zh_news · Danh mục xuất zh
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận