Daftar beritaAI Frankenstein ini menggabungkan Claude Opus, GLM, dan Qwen—serta mengungguli model-model papan atas
Decrypt2026-04-21 16:55:23

AI Frankenstein ini menggabungkan Claude Opus, GLM, dan Qwen—serta mengungguli model-model papan atas

ORIGINALThis Frankenstein AI Merges Claude Opus, GLM and Qwen—And Outperforms Top Models
Analisis Dampak AIGrok sedang menganalisis...
📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯4382 kata
Singkatnya - Insinyur AI Kyle Hessling menggabungkan dua finetune distilasi Claude Opus 4.6 dan GLM-5.1 milik Jackrong menjadi satu "frankenmerge". - "Heal fine-tune" pasca-penggabungan diperlukan untuk memperbaiki output kode yang kacau akibat batas lapisan antara dua model yang dilatih secara independen. - Model ini melakukan penalaran berlebihan pada beberapa tugas, tetapi itu adalah masalah yang dapat dipecahkan. Anda mengira Qwopus keren karena menggabungkan Qwen dan Opus? Nah, Kyle Hessling, seorang insinyur AI dengan banyak pengetahuan dan waktu luang, baru saja mengambil resep itu dan memasukkan GLM—salah satu model penalaran terbaik yang ada—ke dalam campuran tersebut. Hasilnya adalah frankenmerge 18 miliar parameter yang muat di GPU murah dan mengungguli model 35B terbaru milik Alibaba. Bagi mereka yang tidak tahu, parameter adalah nilai numerik yang dimasukkan ke dalam jaringan saraf selama pelatihan, seperti tombol yang dapat disesuaikan oleh jaringan saraf — semakin banyak parameternya, semakin banyak pengetahuan dan kompleksitas yang dapat ditangani oleh model, dan semakin banyak memori yang dibutuhkannya untuk berjalan. Hessling, seorang insinyur infrastruktur AI, menumpuk dua finetune Qwen3.5 milik Jackrong satu sama lain: lapisan 0 hingga 31 dari Qwopus 3.5-9B-v3.5, yang menyuling gaya penalaran Claude 4.6 Opus ke dalam Qwen sebagai model dasar, dan lapisan 32 hingga 63 dari Qwen 3.5-9B-GLM5.1-Distill-v1, yang dilatih pada data penalaran dari model guru GLM-5.1 milik z.AI di atas basis Qwen yang sama. Hipotesisnya: Berikan model perencanaan terstruktur gaya Opus di paruh pertama penalaran dan perancah dekomposisi masalah GLM di paruh kedua—total 64 lapisan, dalam satu model. Teknik ini disebut passthrough frankenmerge—tanpa pencampuran, tanpa perataan bobot, hanya penumpukan lapisan mentah. Hessling harus menulis skrip penggabungannya sendiri dari awal karena alat yang ada tidak mendukung arsitektur perhatian linear/penuh hibrida Qwen 3.5. Model yang dihasilkan lulus 40 dari 44 tes kemampuan, mengalahkan Qwen 3.6-35B-A3B MoE milik Alibaba—yang membutuhkan 22 GB VRAM—sambil berjalan hanya pada 9,2 GB dalam kuantisasi Q4_K_M. NVIDIA RTX 3060 menanganinya dengan baik… secara teoritis. Hessling menjelaskan bahwa membuat model ini tidak mudah. Penggabungan mentah dulu sering menghasilkan kode yang kacau. Namun meski begitu, model tes yang ia publikasikan menjadi viral di kalangan penggemar. Perbaikan akhir Hessling adalah "heal fine-tune"—pada dasarnya QLoRA (sedikit kode yang disematkan ke dalam model seperti apendiks dan sangat mengondisikan output akhir) yang menargetkan semua perhatian dan proyeksi. Kami mencobanya, dan meskipun gagasan memiliki Qwen, Claude Opus, dan GLM 5.1 yang berjalan secara lokal di perangkat kentang kami sangat menggoda, kenyataannya kami menemukan bahwa model tersebut sangat pandai menalar sesuatu sehingga akhirnya berpikir berlebihan. Saat diuji pada MacBook M1 yang menjalankan versi kuantisasi MLX (model yang dioptimalkan untuk berjalan di Mac). Saat diminta untuk membuat game tes kami yang biasa, rantai penalaran berjalan begitu lama hingga mencapai batas token dan memberi kami potongan penalaran yang panjang tanpa hasil yang berfungsi dalam interaksi zero shot. Itu adalah penghambat penggunaan sehari-hari bagi siapa pun yang ingin menjalankan ini secara lokal pada perangkat keras konsumen untuk aplikasi serius apa pun. Kami mencoba sedikit lebih lunak dan segalanya masih menantang. Perintah sederhana "tulis game Snake" memakan waktu lebih dari 40 menit dalam penalaran... banyak sekali. Anda dapat melihat hasilnya di repositori Github kami. Ini adalah ketegangan yang diketahui dalam silsilah Qwopus: finetune v2 milik Jackrong dibuat untuk mengatasi kecenderungan Qwen 3.5 terhadap loop internal yang repetitif dan "berpikir lebih ekonomis." Menumpuk 64 lapisan dari dua distilasi penalaran tampaknya memperkuat perilaku tersebut pada perintah tertentu. Itu adalah masalah yang dapat dipecahkan, dan komunitas open-source kemungkinan akan menyelesaikannya. Yang penting di sini adalah pola yang lebih luas: pengembang pseudonim menerbitkan finetune khusus dengan panduan pelatihan lengkap, penggemar lain
Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)
🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset5 berita
💡 Saat ini menggunakan pencocokan kata kunci + aset (MVP) · Akan ditingkatkan ke pencarian semantik embedding di masa mendatang
Informasi mentah
ID:5fc24f8608
Sumber:Decrypt
Diterbitkan:2026-04-21 16:55:23
Kategori:Umum · Kategori ekspor neutral
Aset:Tidak ditentukan
Voting komunitas:+0 /0 · ⭐ 0 Penting · 💬 0 Komentar