Google Menemukan Cara Membuat AI Lokal Hingga 3x Lebih Cepat—Tanpa Perlu Perangkat Keras Baru

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯5749 kata

Singkatnya - Google merilis Multi-Token Prediction (MTP) drafters untuk Gemma 4, memberikan percepatan hingga 3x lipat pada inferensi tanpa penurunan kualitas output sama sekali. - Teknik yang disebut speculative decoding ini menggunakan model "drafter" yang ringan untuk memprediksi beberapa token sekaligus, yang kemudian diverifikasi oleh model utama secara paralel, sehingga melewati hambatan satu-token-per-waktu. - MTP drafters tersedia di Hugging Face, Kaggle, dan Ollama di bawah lisensi Apache 2.0 yang sama dengan Gemma 4, serta dapat digunakan dengan alat seperti vLLM, MLX, dan SGLang. Menjalankan model AI di komputer sendiri memang hebat—sampai akhirnya tidak lagi. Janjinya adalah privasi, tanpa biaya langganan, dan tidak ada data yang keluar dari perangkat Anda. Kenyataannya, bagi kebanyakan orang, adalah melihat kursor berkedip selama lima detik di antara kalimat. Hambatan itu punya nama: kecepatan inferensi. Dan itu tidak ada hubungannya dengan seberapa pintar model tersebut. Itu adalah masalah perangkat keras. Model AI standar menghasilkan teks satu fragmen kata—yang disebut token—dalam satu waktu. Perangkat keras harus memindahkan miliaran parameter dari memori ke unit komputasinya hanya untuk menghasilkan setiap token tunggal. Ini lambat karena desainnya. Pada perangkat keras konsumen, ini menyakitkan. Solusi yang biasanya diambil orang adalah menjalankan model yang lebih kecil dan lebih lemah—atau versi yang sangat terkompresi, yang disebut quantized models, yang mengorbankan sebagian kualitas demi kecepatan. Tidak ada solusi yang hebat. Anda mendapatkan sesuatu yang berjalan, tetapi itu bukan model yang sebenarnya Anda inginkan. Sekarang Google punya ide berbeda. Perusahaan tersebut baru saja merilis Multi-Token Prediction (MTP) drafters untuk keluarga model terbuka Gemma 4 miliknya—sebuah teknik yang dapat memberikan percepatan hingga 3x lipat tanpa menyentuh kualitas atau kemampuan penalaran model sama sekali. Pendekatan ini disebut speculative decoding, dan konsepnya sudah ada selama bertahun-tahun. Peneliti Google menerbitkan makalah dasarnya pada tahun 2022. Ide ini tidak menjadi arus utama sampai sekarang karena membutuhkan arsitektur yang tepat agar bisa bekerja dalam skala besar. Berikut adalah versi singkat cara kerjanya. Alih-alih membuat model besar yang kuat bekerja sendirian, Anda memasangkannya dengan model "drafter" yang kecil. Drafter tersebut cepat dan murah—ia memprediksi beberapa token sekaligus dalam waktu yang lebih singkat daripada yang dibutuhkan model utama untuk menghasilkan satu token saja. Kemudian, model besar memeriksa semua tebakan tersebut dalam satu lintasan. Jika tebakannya benar, Anda mendapatkan seluruh urutan dengan biaya satu lintasan maju (forward pass). Menurut Google, "jika model target setuju dengan draf tersebut, ia menerima seluruh urutan dalam satu lintasan maju—dan bahkan menghasilkan token tambahan miliknya sendiri dalam proses tersebut." Tidak ada yang dikorbankan: Model besar—Gemma 4 versi 31B dense, misalnya—tetap memverifikasi setiap token, dan kualitas outputnya identik. Anda hanya memanfaatkan daya komputasi menganggur yang tidak terpakai selama bagian yang lambat. Google mengatakan model drafter berbagi KV cache model target—struktur memori yang menyimpan konteks yang sudah diproses—sehingga mereka tidak membuang waktu menghitung ulang hal-hal yang sudah diketahui oleh model yang lebih besar. Untuk model edge yang lebih kecil yang dirancang untuk ponsel dan perangkat Raspberry Pi, tim bahkan membangun teknik pengelompokan (clustering) yang efisien untuk lebih memangkas waktu pembuatan. Ini bukan satu-satunya upaya yang dilakukan dunia AI dalam memparalelkan pembuatan teks. Model bahasa berbasis difusi—seperti Mercury dari Inception Labs—mencoba pendekatan yang sama sekali berbeda: Alih-alih memprediksi satu token dalam satu waktu, mereka mulai dengan noise dan secara iteratif menyempurnakan seluruh output. Itu cepat di atas kertas, tetapi LLM difusi kesulitan menyamai kualitas model transformer tradisional, menjadikannya lebih sebagai keingintahuan riset daripada alat praktis. Speculative decoding berbeda karena tidak mengubah model dasarnya sama sekali. Ini adalah optimasi penyajian (serving optimization), bukan penggantian arsitektur. Gemma 4 yang sama yang sudah Anda jalankan menjadi lebih cepat. Keuntungan praktisnya nyata. Model Gemma 4 26B yang berjalan pada GPU desktop Nvidia RTX Pro 6000 mendapatkan kira-kira dua kali lipat token per detik dengan MTP drafter diaktifkan, menurut tolok ukur Google sendiri. Pada Apple Silicon, ukuran batch 4 hingga 8 permintaan membuka percepatan sekitar 2,2x lipat. Tidak mencapai batas 3x lipat di setiap skenario, tetapi tetap merupakan perbedaan yang berarti antara "hampir

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset5 berita

2026-05-02

Proposal kuantum Bitcoin baru menawarkan cara bagi Satoshi Nakamoto untuk membuktikan kendali tanpa memindahkan BTC

Tingkat kemiripan 130%關鍵字 new/way

2026-04-29

Hyperliquid bersiap untuk menantang Polymarket dengan cara baru untuk memperdagangkan peristiwa dunia nyata

Tingkat kemiripan 100%關鍵字 new/way

2026-04-28

Dompet baru menawarkan cara untuk mengatasi risiko kuantum Bitcoin tanpa fork

Tingkat kemiripan 100%關鍵字 new/way

2026-04-23