Nvidia merilis Nemotron 3 Super, model AI terbuka 120B yang dibangun untuk beban kerja agentic

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯4419 kata

Nvidia telah merilis Nemotron 3 Super, sebuah model hibrida terbuka dengan total 120 miliar parameter yang dirancang untuk memangkas biaya komputasi dalam menjalankan agen kecerdasan buatan (AI) dalam skala besar. Nvidia Merilis Nemotron 3 Super, Model AI Terbuka 120B yang Dibangun untuk Beban Kerja Agen Poin Utama: - Nvidia merilis Nemotron 3 Super, model MoE terbuka dengan 120B parameter yang hanya mengaktifkan 12,7B parameter per forward pass. - Nemotron 3 Super memberikan throughput hingga 7,5x lebih besar dibandingkan Qwen3.5-122B-A10B dalam beban kerja agen pada pengaturan 8k-in/64k-out. - Model ini sepenuhnya terbuka di bawah Nvidia Nemotron Open Model License, dengan checkpoint dan data pelatihan tersedia di Hugging Face. Nvidia Meluncurkan Nemotron 3 Super Dengan Peningkatan Throughput 7,5x Dibandingkan Qwen3.5-122B Model terbaru Nvidia ini hanya mengaktifkan 12,7 miliar parameter per forward pass menggunakan arsitektur Mixture-of-Experts (MoE), yang berarti sebagian besar bobotnya tetap tidak aktif selama inferensi. Pilihan desain tersebut secara langsung menargetkan dua masalah yang dihadapi pengembang saat menerapkan agen AI multi-langkah: biaya tambahan dari rantai penalaran yang panjang dan penggunaan token yang membengkak hingga 15 kali lipat dalam pipeline multi-agen. Nemotron 3 Super adalah model kedua dalam keluarga Nemotron 3 Nvidia, setelah Nemotron 3 Nano dari Desember 2025. Nvidia mengumumkan rilis ini sekitar 10 Maret 2026. Model ini menggunakan tulang punggung hibrida Mamba-Transformer di 88 lapisan. Blok Mamba-2 menangani urutan panjang dengan efisiensi waktu linear, sementara lapisan atensi Transformer menjaga recall yang presisi. Kombinasi tersebut memberikan model dukungan bawaan untuk jendela konteks hingga satu juta token tanpa penalti memori yang biasanya ada pada desain pure-attention. Nvidia juga menyematkan sistem perutean LatentMoE yang mengompresi embedding token ke dalam ruang low-rank sebelum mengirimkannya ke 512 pakar per lapisan, mengaktifkan 22 pakar sekaligus. Perusahaan menyatakan bahwa ini memungkinkan jumlah pakar sekitar empat kali lebih banyak dengan biaya inferensi yang sama dibandingkan pendekatan MoE standar, serta memungkinkan spesialisasi tugas yang lebih halus, seperti memisahkan logika Python dari penanganan SQL di tingkat pakar. Lapisan Multi-Token Prediction, yang menggunakan dua head dengan bobot bersama, mempercepat pembuatan chain-of-thought dan memungkinkan speculative decoding bawaan. Pada tugas terstruktur, Nvidia melaporkan kecepatan pembuatan hingga tiga kali lebih cepat. Model ini telah dilatih sebelumnya pada 25 triliun token melalui dua fase. Fase pertama menggunakan 20 triliun token data luas. Fase kedua menggunakan lima triliun token berkualitas tinggi yang disetel untuk kinerja benchmark. Fase ekstensi akhir pada 51 miliar token memperluas konteks bawaan hingga satu juta token. Pasca-pelatihan mencakup fine-tuning terawasi pada sekitar tujuh juta sampel dan pembelajaran penguatan (reinforcement learning) di 21 lingkungan dengan lebih dari 1,2 juta rollout. Dalam benchmark, Nemotron 3 Super mencetak skor 83,73 pada MMLU-Pro, 90,21 pada AIME25, dan 60,47 pada SWE-Bench menggunakan OpenHands. Pada PinchBench, model ini mencapai 85,6 persen, skor tertinggi yang dilaporkan di antara model terbuka di kelasnya. Pada evaluasi konteks panjang, model ini mencetak skor 91,64 pada RULER 1M. Dibandingkan dengan GPT-OSS-120B, Nemotron 3 Super memberikan throughput 2,2 kali lipat pada input 8k dan output 64k. Terhadap Qwen3.5-122B-A10B, angka tersebut mencapai 7,5 kali lipat. Nvidia juga melaporkan throughput lebih dari lima kali lipat dan akurasi hingga dua kali lipat dibandingkan generasi Nemotron Super sebelumnya. Nvidia melatih model ini secara end-to-end dalam format floating-point empat-bit NVFP4, yang dioptimalkan untuk GPU Blackwell. Pada perangkat keras B200, Nvidia menyatakan inferensi berjalan hingga empat kali lebih cepat dibandingkan FP8 pada H100 tanpa kehilangan akurasi yang dilaporkan. Checkpoint FP8 dan NVFP4 yang terkuantisasi mempertahankan 99,8 persen atau lebih dari akurasi pres

Status data✓ Teks lengkap telah diambilBaca artikel asli (Bitcoin.com)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset1 berita

2026-04-28

NVIDIA meluncurkan model bahasa multimodal open-source terbaru "Nemotron 3 Nano Omni"! Mampu memproses video, audio, gambar, dan teks, serta dirancang khusus untuk aplikasi Agent.

Tingkat kemiripan 130%關鍵字 nemotron/nvidia

💡 Saat ini menggunakan pencocokan kata kunci + aset (MVP) · Akan ditingkatkan ke pencarian semantik embedding di masa mendatang

Informasi mentah

ID:5e28767a39

Sumber:Bitcoin.com

Diterbitkan:2026-04-20 02:30:44

Kategori:Umum · Kategori ekspor neutral

Aset:Tidak ditentukan

Voting komunitas:+0 / −0 · ⭐ 0 Penting · 💬 0 Komentar