Daftar beritaModel AI Setengah Gigabyte Ini Menjalankan Agen Lokal di Ponsel Anda
Decrypt2026-05-26 19:59:20

Model AI Setengah Gigabyte Ini Menjalankan Agen Lokal di Ponsel Anda

ORIGINALThis Half-Gigabyte AI Model Runs Local Agents on Your Phone
Analisis Dampak AIGrok sedang menganalisis...
📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯6647 kata
Sekilas - MiniCPM5-1B mencetak rata-rata 42,57 di seluruh benchmark agentic dan reasoning, mengalahkan pesaing kelas 1B terbaik berikutnya yang meraih 35,61. - Model ini mendukung MCP dan native tool calling secara langsung, memungkinkan alur kerja agen lokal di perangkat keras konsumen tanpa konektivitas cloud. - Dalam pengujian kami, model menunjukkan kelancaran percakapan yang kuat tetapi menghasilkan respons chain-of-thought yang berhalusinasi dan gagal dalam jebakan logika dasar. MiniCPM5-1B, model satu miliar parameter dari OpenBMB, adalah rilis terbaru dalam seri on-device MiniCPM. Model ini mendukung native tool calling dan Model Context Protocol (MCP), muat dalam memori smartphone, dan unggul dalam benchmark dibandingkan setiap model open-source sebanding di kelas ukurannya. Model ini adalah rilis pertama dalam keluarga MiniCPM5, dirancang sejak awal untuk deployment lokal pada perangkat keras dengan sumber daya terbatas. Pada 1 miliar parameter, ukurannya kecil menurut standar mana pun saat ini. (Parameter adalah apa yang memberikan luasnya pengetahuan pada sebuah model AI, dengan jumlah yang lebih besar umumnya berarti lebih bertenaga.) Gemma 4 dari Google dimulai dari 2 miliar parameter efektif tetapi dapat berskala hingga 31 miliar. Llama 4 Scout menjalankan 17 miliar parameter aktif. MiniCPM5-1B tidak berpura-pura bersaing dengan itu. Tawarannya adalah melakukan lebih banyak dengan lebih sedikit. Bagaimana model ini dibangun Tulang punggung arsitekturnya berasal dari MiniCPM4, dirinci dalam laporan teknis dari tim OpenBMB di THUNLP, Tsinghua University, dan ModelBest. Inovasi intinya adalah InfLLM v2, mekanisme attention yang dapat dilatih yang memproses setiap token terhadap kurang dari 5% token di sekitarnya selama inferensi konteks panjang—memangkas komputasi secara substansial tanpa penurunan akurasi yang berarti. ("Token" adalah unit dasar informasi yang ditangani oleh model AI.) Di sisi data, tim membangun UltraClean, pipeline penyaringan yang membawa model ke performa kompetitif menggunakan 8 triliun token pelatihan, dibandingkan dengan 36 triliun yang dikonsumsi Qwen 3. Post-training menggunakan reinforcement learning yang dikombinasikan dengan teknik distilasi yang efisien (menggunakan model yang lebih besar sebagai panduan untuk yang lebih kecil), meningkatkan skor benchmark pada matematika, kode, dan instruction-following sebanyak 16 poin sambil memangkas respons dengan panjang berlebihan sebesar 29 poin persentase. Jendela konteks berada di 128K token—kira-kira 96.000 kata teks berkelanjutan dalam satu lintasan. Untuk model 1 miliar parameter, itu adalah angka yang berarti. Memori persisten di seluruh sesi roleplay yang panjang, ringkasan PDF lengkap, atau konteks agen yang tidak ter-reset di tengah tugas semuanya berada dalam jangkauan. Mengapa agen yang bodoh mungkin sudah cukup Kami mengujinya dan mengonfirmasi MiniCPM5-1B mendukung MCP dan tool calls. Itu menempatkannya pada daftar yang sangat pendek dari model di bawah 2 miliar parameter yang mampu melakukan alur kerja agentic yang sesungguhnya tanpa infrastruktur cloud. Meskipun demikian, agar ini berfungsi, pengguna perlu menyiapkan konfigurasi tambahan, yang semuanya tercantum dalam repo Github model tersebut. Skenario praktisnya: agen lokal di iPhone yang dapat melakukan query kalender, mencari database lokal, atau memanggil server MCP riset web—sepenuhnya offline. Seperti yang telah kami bahas, menjalankan AI lokal sudah lebih mudah diakses daripada yang disadari kebanyakan orang, dan perlombaan on-device telah berakselerasi. Model yang dirancang untuk berjalan di ponsel tanpa backend cloud menjadi kategori produk yang sesungguhnya, bukan keingintahuan penelitian. Anda tidak memerlukan OpenAI untuk memeriksa kalender Anda jika agen lokal dapat mengambilnya begitu saja dan memberi tahu Anda apa yang ada di jadwal Anda hari ini. Untuk tugas agentic ringan dan konteks percakapan yang diperluas, MiniCPM5-1B kompetitif. Namun, meskipun OpenBMB mungkin tidak memikirkannya, gaya cerewet model ini menjadikannya kandidat yang bagus untuk roleplay lokal—128K konteks berarti sebuah cerita dapat berkembang melintasi puluhan, jika bukan ratusan pertukaran tanpa model kehilangan benang merahnya. Agen kecil yang membaca catatan, meringkas dokumen, dan menjawab pertanyaan tentangnya berada dengan nyaman dalam jangkauannya, terutama ketika dipasangkan dengan server riset MCP untuk menutupi kesenjangan pengetahuan. Persaingan pada skala ini mencakup Qwen3-0.6B dan Qwen3.5-0.8B dari Alibaba, serta LFM2.5-1.2B-Thinking dari Liquid AI. Benchmark kemampuan milik OpenBMB sendiri membandingkan keempatnya di seluruh pengetahuan umum, pengetahuan domain, coding, instruction-following, penalaran matematika, penalaran logika, dan tugas agentic. MiniCPM5-1B memimpin di ketujuh kategori tersebut, dengan margin yang paling menonjol pada performa agentic dan pengetahuan umum. Pengujian Cepat Kami menjalankan tiga evaluasi cepat. Yang pertama adalah jebakan logika klasik: "Tolong bertindak sebagai pengacara dan legislator ahli. Apakah sah secara hukum bagi seorang pria untuk menikahi saudara perempuan dari jandanya menurut sistem hukum yang berlaku di Falkland Islands?" Jawaban yang benar sudah jelas—seorang pria yang memiliki janda berarti sudah meninggal, dan orang mati tidak menandatangani sertifikat pernikahan. MiniCPM5-1B menghasilkan rincian terperinci tentang hukum pernikahan Falkland Islands dan melewatkan jebakan tersebut sepenuhnya, memperlakukannya sebagai pertanyaan yurisdiksi yang lugas. "Yang krusial, Anda harus mengidentifikasi status pernikahan yang sebenarnya di Falkland Islands. Ini adalah masalah fakta yang harus ditentukan oleh otoritas lokal atau melalui proses hukum," jawab model setelah penalaran yang panjang. Pengujian kedua kami meminta pilihan A/B yang tegas. Model tidak memilih keduanya, malah berkelit menjadi jawaban dua sisi. Ini adalah mode kegagalan yang dikenal di seluruh model kecil di bawah tekanan percakapan. MiniCPM5-1B tidak terkecuali. Kami meminta model untuk memberi tahu kami industri mana yang akan mendominasi ekonomi pada tahun 2100: Crypto atau AI? Alih-alih bernalar tentang pertanyaan tersebut sama sekali, pemikiran internal model mulai menganalisis investasi cryptocurrency dan AI sebagai sinergis dari awal. Sejujurnya, tidak satu pun dari ini yang mengejutkan untuk model 1B. Kemampuan agentic adalah cerita yang sebenarnya di sini. Pasangkan MiniCPM5-1B dengan server MCP untuk riset web dan kecenderungannya untuk berhalusinasi pada pertanyaan faktual yang tidak jelas akan hilang, atau setidaknya berkurang banyak. Kami meminta model harga bitcoin saat ini dan tiga rekomendasi saham, dan tool berhasil dipanggil, serta rekomendasinya (Amazon, Microsoft dan Nvidia) masuk akal. Kesimpulan Sebuah agen yang cerewet, dapat di-deploy secara lokal yang dapat memanggil tools, menahan 128K konteks, dan berjalan sepenuhnya on-device adalah produk yang lebih menarik daripada model tanya-jawab yang berdiri sendiri yang bersaing dengan GPT-4. Hanya saja, jangan membatalkan langganan AI Anda karenanya. Ketahui apa yang sedang Anda hadapi: Pengetahuannya buruk dibandingkan dengan model besar, ia akan melakukan coding dengan buruk (sekali lagi, dibandingkan dengan model yang lebih besar) dan tidak akan mendekati AGI, jika itu yang Anda cari. MiniCPM5-1B tersedia sekarang di Hugging Face di bawah lisensi Apache 2.0, kompatibel dengan vLLM, SGLang, dan inferensi Transformers standar.
Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)
🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset5 berita
💡 Saat ini menggunakan pencocokan kata kunci + aset (MVP) · Akan ditingkatkan ke pencarian semantik embedding di masa mendatang
Informasi mentah
ID:3da418d5d0
Sumber:Decrypt
Diterbitkan:2026-05-26 19:59:20
Kategori:Umum · Kategori ekspor neutral
Aset:Tidak ditentukan
Voting komunitas:+0 /0 · ⭐ 0 Penting · 💬 0 Komentar