Model AI Hy3 baru Tencent adalah LLM Tiongkok paling efisien yang tidak dibicarakan siapa pun

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯4978 kata

Singkatnya - Hy3 preview adalah model Mixture-of-Experts dengan 295 miliar parameter total dan hanya 21 miliar parameter aktif, sehingga lebih murah untuk dijalankan dibandingkan sebagian besar pesaing dengan kemampuan serupa. - Pada SWE-bench Verified—tolok ukur pengodean yang menguji perbaikan bug GitHub yang nyata—skornya melonjak dari 53% (Hy2) menjadi 74,4%, peningkatan 40% dibandingkan generasi sebelumnya. - Model ini sudah tersedia di seluruh ekosistem aplikasi Tencent termasuk Yuanbao, QQ, dan Tencent Docs, dengan akses API di Tencent Cloud mulai dari sekitar $0,18 per satu juta token input. Tencent diam-diam merilis model AI paling mumpuni mereka pada hari Kamis, dan angka tolok ukurnya sulit untuk diabaikan. Hy3 preview, model pertama perusahaan setelah perombakan infrastruktur penuh, menjadi sumber terbuka (open-source) hari ini di GitHub, Hugging Face, dan ModelScope. Model ini juga tersedia di situs web resmi Tencent Cloud dengan paket berbayar. Hy3 memiliki total 295 miliar parameter (ukuran potensi keluasan pengetahuan model) tetapi hanya 21 miliar yang aktif pada waktu tertentu. Itulah keunggulan arsitektur Mixture-of-Experts—model mengarahkan setiap kueri ke subset khusus dari sub-jaringan "ahli"-nya alih-alih menjalankan semuanya sekaligus. Lebih sedikit komputasi, biaya lebih rendah, dengan kualitas output yang kurang lebih sama. Model ini juga mendukung hingga 256.000 token konteks, yang cukup untuk menampung novel lengkap dalam satu prompt. Model ini dibangun untuk menyeimbangkan tiga hal yang menurut Tencent tidak lagi dikorbankan satu sama lain: keluasan kemampuan, evaluasi jujur, dan efisiensi biaya. Produk unggulan mereka sebelumnya, Hy2, memiliki lebih dari 400 miliar parameter. Tencent secara eksplisit menarik diri dari pendekatan tersebut, dengan alasan bahwa 295 miliar adalah titik optimal di mana penalaran matang sepenuhnya namun biaya penambahan parameter lebih lanjut tidak lagi memberikan hasil yang sepadan. Ini juga tidak berarti model tersebut lebih buruk. Model dengan pelatihan yang lebih baik dan parameter lebih rendah sering kali mengungguli model generalis yang lebih besar. Dalam hal pengodean, peningkatannya sangat dramatis. SWE-bench Verified adalah tolok ukur yang menguji apakah sebuah model benar-benar dapat memperbaiki bug nyata dari repositori GitHub—bukan masalah mainan, melainkan kode produksi. Hy2 mencetak skor 53,0%. Hy3 preview mencetak skor 74,4%. Itu adalah lompatan 40% dalam satu generasi, menempatkannya di kisaran Claude Opus 4.6 (80,8%) dan di atas GLM-5 (77,8%) serta Kimi-K2.5 (76,8%). Terminal-Bench 2.0, yang mengukur eksekusi tugas otonom di lingkungan baris perintah nyata, naik dari 23,2% menjadi 54,4%—juga lompatan yang sangat besar. Namun, model ini bisa menjadi pilihan yang sangat menarik bagi orang-orang yang membangun dengan agen. Agen memiliki serangkaian instruksi yang sangat kompleks yang melibatkan memori, keterampilan, dan panggilan alat. Mereka biasanya melewatkan sesuatu, yang dapat merusak alur kerja atau menghasilkan hasil yang buruk. Itulah sebabnya kemampuan agen menjadi semakin penting bagi pengembang AI karena bidang ini menjadi hal yang paling banyak dibicarakan di industri. Itulah juga alasan mengapa model ini segera disediakan di Openclaw. Agen pencarian dan penjelajahan—di mana model harus mengambil, memfilter, dan menyintesis informasi dari web terbuka tanpa panduan manusia—juga meningkat tajam. Pada BrowseComp, tolok ukur yang melacak tugas riset web yang kompleks, Hy3 preview mencapai 67,1% (naik dari 28,7% pada Hy2). Pada WideSearch, model ini mencapai 70,2%, mengungguli GLM-5 dan Kimi-K2.5 tetapi tertinggal dari 77,2% milik Claude Opus 4.6. Dalam hal penalaran, model ini mengungguli setiap pesaing Tiongkok dalam ujian kualifikasi PhD matematika Universitas Tsinghua (Musim Semi 2026), dengan skor rata-rata 88,4 dari tiga kali percobaan (avg@3). Itu adalah ujian dunia nyata, bukan kumpulan data yang dikurasi—jenis evaluasi yang menurut Tencent diprioritaskan untuk menghindari manipulasi tolok ukur. Model ini juga mencetak skor 87,8 pada CHSBO 2025 (Olimpiade biologi sekolah menengah nasional Tiongkok), tertinggi di antara model

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-04-22

MiMo 2.5 Pro AI baru Xiaomi dapat melihat, mendengar, dan bertindak—semuanya dalam satu model

Tingkat kemiripan 180%關鍵字 new/one/model

2026-04-20

Alibaba Merilis Qwen 3.6 Max Preview—Model Paling Kuat Mereka Sejauh Ini

Tingkat kemiripan 130%關鍵字 most/model

2026-04-18

Model AI baru OpenAI, Rosalind, dapat memangkas waktu penemuan obat hingga bertahun-tahun. Anda mungkin tidak bisa menggunakannya

Tingkat kemiripan 130%關鍵字 new/model

2026-04-17