Trik Hemat Claude Code: Engineer Menghemat 300 Juta Token dalam Seminggu dengan Cache, Kuncinya Jangan Diinterupsi

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯4231 kata

Apakah Claude Code percakapan panjang memakan kuota? Insinyur Nate Herk mengungkapkan, dalam seminggu ia menghemat 300 juta Token berkat mekanisme caching, dengan rekor harian mencapai 91 juta. Kuncinya bukan pada seberapa banyak kode yang ditulis, melainkan bagaimana cara agar tidak "memutus" cache, sehingga konteks yang berulang tidak lagi membuang-buang biaya. (Konteks sebelumnya: Proyek open source badclaude yang mempercepat Claude code, dikirimi surat pemberitahuan pelanggaran hak cipta oleh Anthropic) (Latar belakang tambahan: Claude Code menambahkan fitur tugas terjadwal cloud! Tidak perlu menyalakan komputer, AI secara otomatis meninjau PR dan melakukan upgrade) Bagi banyak pengembang, saat menggunakan Claude Code untuk menulis kode, hal yang paling menyakitkan seringkali adalah kuota penggunaan Token yang habis dengan cepat seperti air mengalir, membuat percakapan panjang hampir menjadi barang mewah. Namun, influencer Nate Herk yang sering berbagi tips penggunaan AI di komunitas mengungkapkan dalam sebuah tweet di X bahwa pembunuh biaya yang sebenarnya bukanlah jumlah kode, melainkan apakah sistem memanfaatkan mekanisme prompt caching dengan baik. Ia sendiri menghemat lebih dari 300 juta Token dalam seminggu berkat caching, dengan volume cache harian mencapai 91 juta: karena biaya Token cache hanya 10% dari Token input biasa, jika dihitung, ini berarti ia hanya menghabiskan biaya 9 juta Token sehari, yang secara efektif memperpanjang masa pakai sesi pemrograman secara "gratis". Saya menghemat 300 juta Token minggu ini, 91 juta per hari, lebih dari 300 juta dalam seminggu. Saya tidak mengubah pengaturan apa pun. Ini hanya prompt caching yang bekerja secara normal di latar belakang. Namun, setelah saya benar-benar memahami apa itu cache dan bagaimana cara menghindari "memutus" cache, sesi saya bisa bertahan lebih lama dengan kuota penggunaan yang sama. Jadi, berikut adalah panduan pengantar 80/20 untuk Claude Code prompt caching, tanpa melibatkan detail mendalam di tingkat API. Biaya Token cache hanya 10% dari Token input biasa. 91 juta Token cache, biaya sebenarnya setara dengan sekitar 9 juta Token. TTL cache untuk versi langganan Claude Code adalah 1 jam; API default adalah 5 menit; Sub-agent selalu 5 menit. Cache dibagi menjadi tiga lapisan: lapisan sistem, lapisan proyek, dan lapisan percakapan. Beralih model di tengah sesi akan merusak cache, termasuk mengaktifkan mode "opus plan". coding agents need glass boxes now jianshuo/ccglass > 111 stars on github > created yesterday > mit + javascript > local proxy + web dashboard for claude code, codex, deepseek-tui, dan kimi > shows the full system prompt, tool schemas, message history, token/cache/cost, dan… pic.twitter.com/Wot5SFV16N— Beau Johnson (@BeauJohnson89) May 24, 2026 Setiap Token yang di-cache, biayanya adalah 10% dari Token input biasa. Jadi, ketika dasbor saya menunjukkan bahwa pada suatu hari ada 91 juta Token yang mengenai cache, biaya sebenarnya hanya setara dengan memproses 9 juta Token. Inilah sebabnya mengapa dibandingkan dengan tanpa cache, penggunaan Claude Code dalam jangka waktu lama akan membuat sesi terasa diperpanjang secara "gratis". Ada dua angka di dasbor yang perlu diperhatikan: Cache create: Biaya satu kali yang dihasilkan saat menulis konten ke dalam cache. Ini akan mulai berfungsi pada putaran percakapan berikutnya. Cache read: Token yang digunakan kembali oleh Claude dari cache, seperti CLAUDE.md Anda, definisi alat, pesan sebelumnya, dll. Dibandingkan dengan memproses ulang sebagai input, biayanya 10 kali lebih murah. Jika angka Cache read Anda tinggi, itu berarti Anda memanfaatkan cache secara efektif; jika angka ini rendah, itu berarti Anda membayar berulang kali untuk kumpulan konteks yang sama. Ada satu kalimat dari Thariq di Anthropic yang sangat membekas bagi saya: "Kami sebenarnya memantau tingkat hit prompt cache, begitu tingkat hit terlalu rendah, kami akan memicu alarm, bahkan mengumumkan insiden tingkat SEV." Dia juga pernah menulis artikel X yang bagus. Ketika tingkat hit cache tinggi, empat hal akan terjadi secara bersamaan: Claude Code terasa lebih cepat, biaya layanan Anthropic turun, kuota langganan Anda tampak lebih awet, dan sesi pengkodean yang lama menjadi lebih realistis. Namun jika tingkat hit sangat rendah, semua orang akan dirugikan. Jadi, insentif kedua belah pihak sebenarnya selaras: Anthropic ingin tingkat hit cache Anda lebih tinggi, dan

Status data✓ Teks lengkap telah diambilBaca artikel asli (動區 BlockTempo)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-05-26

Setelah Claude Code membuat Uber menghabiskan anggaran tahunan dalam dua bulan, COO terus terang: Konsumsi Token dan output yang berguna tidak memiliki korelasi proporsional

Tingkat kemiripan 220%關鍵字 token/code/claude同分類 zh

2026-05-28

Anthropic meluncurkan model terbaru Claude Opus 4.8! Claude Code secara bersamaan menambahkan "Dynamic Workflows", satu orang bisa setara dengan tim pengembang seratus orang

Tingkat kemiripan 170%關鍵字 code/claude同分類 zh

2026-05-24

Perusahaan saya yang beranggotakan 30 orang semuanya menggunakan Claude Code AI, hasilnya "manusia justru harus melakukan lebih banyak pekerjaan daripada sebelumnya"

Tingkat kemiripan 170%關鍵字 code/claude同分類 zh

2026-05-22