Daftar beritaDeepSeek, Xiaomi baru saja membuat Frontier AI 99% lebih murah. Laboratorium Amerika justru mengambil arah sebaliknya
Decrypt2026-05-27 18:31:08

DeepSeek, Xiaomi baru saja membuat Frontier AI 99% lebih murah. Laboratorium Amerika justru mengambil arah sebaliknya

ORIGINALDeepSeek, Xiaomi Just Made Frontier AI 99% Cheaper. American Labs Went the Other Way
Analisis Dampak AIGrok sedang menganalisis...
📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯5868 kata
Ringkasan - DeepSeek menjadikan diskon 75% untuk V4-Pro permanen pada 22 Mei, mengunci harga output di $0,87 per juta token. - Xiaomi memangkas harga MiMo-V2.5 hingga 99% pada 26 Mei, dengan input cache kini seharga $0,0036 per juta token untuk model Pro. - GPT-5.5 milik OpenAI menggandakan harga output menjadi $30 per juta token saat peluncuran, dan Claude Opus 4.7 milik Anthropic dirilis dengan tokenizer terbaru yang dapat meningkatkan biaya aktual hingga 35%. DeepSeek menjadikan diskon 75% untuk DeepSeek V4-Pro, yang sebelumnya akan berakhir, menjadi permanen awal minggu ini. Kini, laboratorium AI asal Tiongkok lainnya, Xiaomi, memangkas harga API MiMo-V2.5 hingga 99% untuk input yang di-cache. Dua model AI paling mumpuni di pasar baru saja menjadi jauh lebih murah, sementara laboratorium Amerika bergerak ke arah sebaliknya. Penjelasan singkat bagi non-pengembang: Saat Anda menggunakan ChatGPT atau Claude di browser, Anda membayar langganan tetap—atau gratis. Ketika sebuah perusahaan membangun produk di atas model AI, mereka membayar per token, di mana satu token kira-kira tiga perempat dari satu kata. Setiap pesan yang dikirim, setiap balasan yang dihasilkan, setiap dokumen yang diproses: semuanya diakumulasikan dengan tarif yang diukur dalam jutaan token. API adalah saluran utama yang memungkinkan hal ini, memungkinkan aplikasi, agen, situs web, dll., untuk menggunakan model tersebut di lingkungan mereka sendiri. Jadi, harga token menentukan apakah produk berbasis AI layak secara ekonomi atau justru membuang uang. Paket token adalah pembungkus langganan di atas hal tersebut. Anda membeli kredit di muka; model akan menghabiskannya. Peningkatan penagihan Xiaomi memberi pengguna 5 hingga 8 kali lebih banyak token dengan harga yang sama. Paket Max seharga $100 kini memberi Anda 82 miliar token, naik dari 1,6 miliar. Sebagai konteks, 82 miliar token lebih dari 60 miliar kata. Mengapa pemangkasan ini nyata, bukan sekadar pemasaran Fuli Luo, kepala tim MiMo Xiaomi dan mantan pengembang inti DeepSeek yang ikut membangun DeepSeek-V2, menerbitkan penjelasan teknis di X. Penghematan terbesar berasal dari cara yang lebih cerdas dalam menyimpan dan menggunakan kembali informasi yang telah diproses oleh AI. Alih-alih melakukan pekerjaan yang sama berulang kali, sistem Xiaomi dapat mengingat lebih banyak data sekaligus—sekitar lima kali lebih banyak dari sebelumnya. Itu berarti AI membutuhkan daya komputasi yang jauh lebih sedikit, memangkas biaya penyimpanan dan pemrosesan sekitar 80%. Di balik Pengurangan Harga API MiMo: Pemangkasan harga terdalam, hingga 99%, adalah untuk Input (Cache Hit). Alasan utamanya adalah kerangka kerja inferensi kami kini mendukung optimasi KV cache hierarkis untuk SWA. Uji coba mesin inferensi produksi menunjukkan optimasi ini meningkatkan token yang di-cache…— Fuli Luo (@_LuoFuli) 27 Mei 2026 “Beroperasi pada harga API yang baru diturunkan ini, mesin inferensi produksi kami berjalan hampir pada kapasitas penuh, dan kami pada dasarnya masih bisa mencapai titik impas,” tulis Luo. “Jika lebih banyak arsitektur yang menghemat komputasi dan KV [Key-Value cache] cache muncul, bersama dengan Infra inferensi yang lebih baik untuk menekan biaya API, ini akan membentuk siklus yang sangat baik di industri ini.” Arsitektur DeepSeek mencapai hasil yang sama dengan cara berbeda. V4 menggunakan dua jenis attention yang saling terkait—satu mengompresi setiap empat token untuk selective attention, yang lain menggabungkan setiap 128 token untuk konteks global dengan komputasi minimal. Pada satu juta token konteks, KV cache V4-Pro berukuran 10% dari pendahulunya, dan inferensi satu token berjalan pada 27% dari biaya komputasi sebelumnya. Hasilnya adalah model yang 98% lebih murah daripada GPT-5.5 Pro dengan performa yang kompetitif. Taruhan Silicon Valley Claude Opus 4.7 berharga $5 per juta token input dan $25 per juta token output. Anthropic mempertahankan daftar harga tetap tetapi merilisnya dengan tokenizer baru yang dapat menghasilkan hingga 35% lebih banyak token untuk teks input yang sama. Jadi harganya tidak naik. Namun tagihan Anda mungkin tetap naik. GPT-5.5, yang dirilis pada akhir April, baru saja menggandakan harga output pendahulunya menjadi $30 per juta token. Gemini 2.5 Pro berada di angka $1,25 untuk input dan $
Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)
🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset4 berita
💡 Saat ini menggunakan pencocokan kata kunci + aset (MVP) · Akan ditingkatkan ke pencarian semantik embedding di masa mendatang
Informasi mentah
ID:4d62962aa7
Sumber:Decrypt
Diterbitkan:2026-05-27 18:31:08
Kategori:Umum · Kategori ekspor neutral
Aset:Tidak ditentukan
Voting komunitas:+0 /0 · ⭐ 0 Penting · 💬 0 Komentar