Model AI Ernie 5.1 resmi diluncurkan: parameter dipangkas menjadi sepertiga dari 5.0, biaya pra-pelatihan hanya menghabiskan 6%

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯1250 kata

Baidu Wenxin 5.1 resmi diluncurkan, pengguna dapat mencobanya di situs resmi Wenxin Yiyan, sementara perusahaan dan pengembang dapat memanggil API melalui platform Qianfan. Wenxin 5.1 dilatih berdasarkan Wenxin 5.0 yang dirilis Januari tahun ini, dengan total parameter yang dipangkas menjadi sekitar sepertiga dari 5.0, parameter aktif sekitar setengahnya, dan biaya komputasi pra-pelatihan hanya 6% dari model dengan skala yang sama. Teknologi intinya adalah kerangka kerja pelatihan elastis Once-for-All yang diusulkan oleh Baidu. (Latar belakang: DeepSeek mengumpulkan 7,35 miliar USD dalam putaran pendanaan pertama untuk melampaui Alibaba: Liang Wenfeng mengeluarkan 40% dana pribadi, hanya menginginkan uang dengan "syarat paling sedikit") (Tambahan latar belakang: Anthropic menghabiskan 200 miliar USD selama lima tahun untuk Google Cloud, dua startup AI tersebut menyerap setengah dari pesanan empat raksasa cloud besar) - Baidu Wenxin 5.1 resmi diluncurkan, total parameter dipangkas menjadi sepertiga dari 5.0, parameter aktif sekitar setengahnya - Biaya komputasi pra-pelatihan hanya 6% dari model dengan skala yang sama, teknologi inti adalah kerangka kerja pelatihan elastis Once-for-All - Wenxin 5.0 menghasilkan matriks sub-model melalui satu kali pra-pelatihan, 5.1 mengekstrak struktur optimal darinya dan langsung mewarisi pengetahuannya Baidu Wenxin 5.1 resmi diluncurkan. Pengguna dapat langsung mencobanya di situs resmi Wenxin Yiyan, sementara perusahaan dan pengembang dapat memanggil API melalui platform Qianfan. Wenxin 5.1 dilatih berdasarkan Wenxin 5.0 yang dirilis Januari tahun ini, dengan nilai jual utama berupa kompresi volume model dan biaya pelatihan yang signifikan. Versi 5.1 naik ke posisi keempat di papan peringkat pencarian Arena. Inti dari kompresi biaya berasal dari kerangka kerja pelatihan elastis Once-for-All yang diusulkan oleh Baidu. Pendekatan tradisional mengharuskan pra-pelatihan terpisah untuk model dengan skala berbeda, di mana setiap ukuran model merupakan investasi komputasi independen; semakin banyak versi skala, semakin besar pemborosan akibat pelatihan berulang. Pendekatan Wenxin 5.0 berbeda: ia hanya melakukan satu kali pra-pelatihan, mengoptimalkan sejumlah besar sub-model dengan ukuran berbeda secara bersamaan melalui teknologi pengambilan sampel dinamis, membentuk sebuah "matriks sub-model". Wenxin 5.1 adalah struktur optimal yang diekstrak dari matriks ini. Ia langsung mewarisi semua pengetahuan yang terakumulasi oleh 5.0 selama tahap pra-pelatihan, sehingga menghemat komputasi yang diperlukan untuk pelatihan dari nol. Angka "biaya pra-pelatihan 6%" perlu dijelaskan bahwa Baidu tidak menemukan metode pelatihan yang lebih murah pada skala yang sama, melainkan Wenxin 5.1 benar-benar melewati proses pra-pelatihan dari nol. Biaya pelatihannya terutama dihabiskan untuk menyaring struktur optimal dari matriks sub-model 5.0, serta tahap penyetelan (fine-tuning) dan penyelarasan (alignment) berikutnya. Dibandingkan dengan praktik rekan industri yang melatih setiap skala model secara independen, arsitektur "latih sekali, hasilkan banyak" ini memiliki keunggulan struktural dalam biaya marjinal. Logika ini berbeda dengan jalur pelatihan berbiaya rendah yang diumumkan DeepSeek awal tahun ini. DeepSeek V3 menekankan pada penekanan biaya dengan menggunakan lebih sedikit GPU dan implementasi teknik yang lebih efisien dalam satu kali pelatihan; sementara Once-for-All milik Baidu memperluas output dari satu kali pelatihan dari "satu model" menjadi "seluruh keluarga model". Apa perbedaan antara Wenxin 5.1 dan Wenxin 5.0? Wenxin 5.1 dilatih berdasarkan 5.0, dengan total parameter dipangkas menjadi sepertiga dari 5.0 dan parameter aktif sekitar setengahnya. Ia mengekstrak struktur optimal dari matriks sub-model Once-for-All 5.0, mewarisi semua pengetahuan namun dengan inferensi yang lebih cepat dan biaya yang lebih rendah. Apa itu kerangka kerja pelatihan elastis Once-for-All? Metode pelatihan yang diusulkan oleh Baidu. Hanya melakukan satu kali pra-pelatihan, mengoptimalkan sub-model dengan ukuran berbeda secara bersamaan melalui pengambilan sampel dinamis untuk membentuk matriks model. Model baru diekstrak dari matriks tersebut, menghemat komputasi pelatihan dari awal, dan biaya marjinal berkurang secara

Status data✓ Teks lengkap telah diambilBaca artikel asli (動區 BlockTempo)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset0 berita

Tidak ada peristiwa serupa yang ditemukan (memerlukan lebih banyak sampel data atau pencarian embedding, saat ini menggunakan pencocokan kata kunci MVP)

Informasi mentah

ID:58436348cf

Sumber:動區 BlockTempo

Diterbitkan:2026-05-09 08:23:48

Kategori:zh_news · Kategori ekspor zh

Aset:Tidak ditentukan

Voting komunitas:+0 / −0 · ⭐ 0 Penting · 💬 0 Komentar