Daftar beritaNVIDIA meluncurkan model bahasa multimodal open-source terbaru "Nemotron 3 Nano Omni"! Mampu memproses video, audio, gambar, dan teks, serta dirancang khusus untuk aplikasi Agent.
動區 BlockTempo2026-04-28 16:49:33

NVIDIA meluncurkan model bahasa multimodal open-source terbaru "Nemotron 3 Nano Omni"! Mampu memproses video, audio, gambar, dan teks, serta dirancang khusus untuk aplikasi Agent.

ORIGINALNVIDIA 推出全新開源多模態大模型「Nemotron 3 Nano Omni」!影音圖文通吃,專攻 Agent 應用
Analisis Dampak AIGrok sedang menganalisis...
📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯1639 kata
NVIDIA kembali meluncurkan gebrakan baru! Hari ini (28), mereka mengumumkan peluncuran model AI multimodal open-source terbaru, "Nemotron 3 Nano Omni". Model ini memecahkan masalah ketergantungan AI tradisional pada rangkaian model yang terfragmentasi, dan mampu memproses video, audio, gambar, serta teks secara efisien dan terpadu dalam "satu model tunggal". NVIDIA juga dengan berani mengumumkan "open-source sepenuhnya", tidak hanya merilis bobot (weights) di Hugging Face, tetapi juga mempublikasikan dataset pelatihan dan resep (recipes) secara lengkap, guna menyerang pasar infrastruktur dasar untuk Agentic AI. (Konteks sebelumnya: Berita Terkini: NVIDIA mencetak rekor tertinggi sepanjang masa dalam perdagangan intraday "menembus 212,6 USD"! Nilai pasar mencapai 5,17 triliun USD, kembali menjadi yang pertama di dunia) (Latar belakang tambahan: Jensen Huang mengirim surat kepada seluruh karyawan untuk merangkul OpenAI Codex: Lebih dari 10.000 karyawan NVIDIA telah menggunakannya, GPT-5.5 berjalan di atas GB200) Perkembangan AI Agents sedang mengalami perombakan arsitektur, dan penggerak revolusi ini tidak lain adalah penguasa daya komputasi, NVIDIA. Pada tanggal 28, NVIDIA secara resmi memperkenalkan anggota terbaru dari keluarga Nemotron 3, yaitu "Nemotron 3 Nano Omni". Sesuai dengan namanya "Omni (all-encompassing/multimodal)", ini adalah senjata ampuh yang sangat efisien, terbuka, dan mampu memproses video, audio, gambar, serta teks secara terpadu dalam satu model tunggal, yang dirancang khusus untuk generasi berikutnya dari Agentic AI. Di masa lalu, ketika perusahaan ingin mengembangkan AI agent yang bisa memahami dokumen, mendengarkan suara, dan menonton video, mereka sering kali harus bergantung pada "rantai model yang terfragmentasi" — yaitu menggabungkan model visual, model audio, dan model teks yang berdiri sendiri secara paksa. Pendekatan ini tidak hanya menyebabkan kompleksitas koordinasi yang sangat tinggi dan biaya inferensi yang mahal, tetapi yang lebih fatal adalah "konteks" lintas modal mudah hilang atau menghasilkan halusinasi selama proses transmisi. Kelahiran Nemotron 3 Nano Omni bertujuan untuk memusatkan proses pemrosesan yang rumit ini ke dalam "satu model terbuka yang efisien". Sebagai sub-agent persepsi multimodal dalam sistem, model ini memungkinkan AI untuk memproses input multimodal secara mulus dalam satu "loop persepsi-tindakan", yang secara signifikan meningkatkan konvergensi dan mengurangi biaya perusahaan. Dalam optimalisasi perangkat keras dan arsitektur dasar, NVIDIA menunjukkan kekuatan dominannya: - Arsitektur Hybrid MoE: Model ini memiliki total 30 miliar (30B) parameter dan mengadopsi arsitektur Mixture of Experts (MoE), sehingga "parameter aktif" saat inferensi aktual hanya sekitar 3 miliar (3B), yang menyeimbangkan kinerja tingkat atas dengan efisiensi komputasi yang ekstrem. Lapisan dasarnya dengan cerdik menggabungkan keunggulan ganda dari Mamba (fokus pada urutan dan efisiensi memori) dan Transformer (fokus pada inferensi presisi). - Keunggulan Performa: Dalam berbagai benchmark (seperti MMLongbench-Doc, WorldSense, dll.), Nano Omni menunjukkan kekuatan yang memimpin di antara para pesaingnya. Dibandingkan dengan model multimodal terbuka lainnya, pada ambang interaktivitas yang sama, kapasitas sistem untuk "inferensi video" meningkat hingga 9,2 kali lipat, dan kemampuan inferensi multi-dokumen meningkat 7,4 kali lipat. - Diciptakan untuk Blackwell: Model ini mendukung penuh GPU Blackwell terbaru dari NVIDIA dan teknologi kuantisasi NVFP4, serta mendukung jendela konteks super panjang hingga 262K, yang dirancang khusus untuk pemrosesan video berdurasi panjang tingkat perusahaan dan inferensi dokumen yang kompleks. Hal yang paling menggembirakan bagi komunitas pengembang adalah filosofi "Open by Design" yang diusung NVIDIA kali ini. Berbeda dengan banyak "pseudo open-source" yang hanya merilis bobot, NVIDIA kali ini secara langsung mempublikasikan bobot model Nemotron 3 Nano Omni, dataset pelatihan yang masif (termasuk data sintetis yang dihasilkan melalui NeMo Data Designer), serta "resep fine-tuning" bernilai tinggi (seperti SFT, Reinforcement Learning RL, LoRA, GRPO, dll.) secara lengkap. Saat ini, model tersebut sudah dapat diunduh di platform Hugging Face dan diluncurkan secara sinkron di layanan mikro NVIDIA NIM. Dalam pengumumannya, NVIDIA menekankan bahwa terobosan ini bukan hanya untuk mengejar skor benchmark, tetapi merupakan peningkatan substans
Status data✓ Teks lengkap telah diambilBaca artikel asli (動區 BlockTempo)
🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita
💡 Saat ini menggunakan pencocokan kata kunci + aset (MVP) · Akan ditingkatkan ke pencarian semantik embedding di masa mendatang
Informasi mentah
ID:688586f5e5
Sumber:動區 BlockTempo
Diterbitkan:2026-04-28 16:49:33
Kategori:zh_news · Kategori ekspor zh
Aset:Tidak ditentukan
Voting komunitas:+0 /0 · ⭐ 0 Penting · 💬 0 Komentar
NVIDIA meluncurkan model bahasa multimodal open-source terbaru "Nemotron 3 Nano Omni"! Mampu memproses video, audio, gambar, dan teks, serta dirancang khusus untuk aplikasi Agent. | Feel.Trading