ニュース一覧NVIDIA が新しいオープンソースのマルチモーダル大規模言語モデル「Nemotron 3 Nano Omni」を発表!動画・音声・画像・テキストに対応し、Agent アプリケーションに特化
動區 BlockTempo2026-04-28 16:49:33

NVIDIA が新しいオープンソースのマルチモーダル大規模言語モデル「Nemotron 3 Nano Omni」を発表!動画・音声・画像・テキストに対応し、Agent アプリケーションに特化

ORIGINALNVIDIA 推出全新開源多模態大模型「Nemotron 3 Nano Omni」!影音圖文通吃,專攻 Agent 應用
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯1639 文字
NVIDIAが新たな一手を打った!本日(28日)、新型オープンソース・マルチモーダル大規模モデル「Nemotron 3 Nano Omni」のリリースを発表した。このモデルは、従来のAIが複数の断片化されたモデルの連結に依存していたという課題を打破し、「単一モデル」内で動画、音声、画像、テキストを効率的かつ統合的に処理できる。さらにNVIDIAは「完全オープンソース化」を宣言し、Hugging Faceでのウェイト公開にとどまらず、トレーニングデータセットやレシピまで全て公開し、Agentic AIの基盤インフラ市場へ本格的に参入する。 (前回のニュース:速報》NVIDIAの株価が史上最高値を更新し「212.6ドルを突破」!時価総額5.17兆ドルで世界首位に返り咲き) (背景補足:Jensen Huangが全社員に向けたメールでOpenAI Codexの導入を表明:1万人以上のNVIDIA従業員がすでに活用しており、GPT-5.5はGB200上で稼働中) AI Agentsの発展はアーキテクチャの大きな転換期を迎えており、この変革を推進しているのは演算能力の覇者NVIDIAである。 NVIDIAは28日、Nemotron 3ファミリーの最新メンバー「Nemotron 3 Nano Omni」を正式に発表した。その名の通り「Omni(全能/マルチモーダル)」であるこのモデルは、極めて効率的かつオープンであり、単一モデル内で動画、音声、画像、テキストを統合処理できる強力な武器として、次世代のAgentic AIのために構築された。 これまで、文書を理解し、音声を聴き取り、動画を認識できるAI Agentを開発しようとする企業は、往々にして「断片化されたモデルチェーン」に依存せざるを得なかった。つまり、個別の視覚モデル、音声モデル、テキストモデルを無理やり繋ぎ合わせていたのである。 このような手法は、調整の複雑さを極限まで高め、推論コストを増大させるだけでなく、致命的なことに、モーダル間での「コンテキスト」が伝達過程で失われたり、ハルシネーション(幻覚)を引き起こしたりしやすかった。Nemotron 3 Nano Omniの誕生は、こうした煩雑な処理プロセスを「単一の効率的なオープンモデル」に集約するためにある。システム内のマルチモーダル知覚サブエージェントとして、AIが単一の「知覚-行動ループ」内でマルチモーダル入力をシームレスに処理することを可能にし、収束性を大幅に改善し、企業のコストを削減する。 ハードウェアと基盤アーキテクチャの最適化において、NVIDIAはその支配的な実力を示した: - Hybrid MoE アーキテクチャ:同モデルは総パラメータ数300億(30B)を誇り、混合エキスパート(MoE)アーキテクチャを採用することで、実際の推論時の「アクティブパラメータ」を約30億(3B)に抑え、最高レベルの性能と極限の演算効率を両立させた。基盤にはMamba(シーケンスとメモリ効率に特化)とTransformer(精密な推論に特化)の二重の利点が巧みに組み合わされている。 - 圧倒的な性能:複数のベンチマーク(MMLongbench-Doc、WorldSenseなど)において、Nano Omniは群を抜く実力を示した。他のオープンなマルチモーダルモデルと比較して、同じインタラクティブ性の閾値において、「動画推論」のシステム容量は最大9.2倍、マルチドキュメント推論能力は7.4倍向上した。 - Blackwellのために:同モデルはNVIDIAの最新のBlackwell GPUおよびNVFP4量子化技術を完全にサポートし、最大262Kの超長コンテキストウィンドウに対応しており、企業向けの長時間動画処理や複雑な文書推論に最適化されている。 開発者コミュニティを最も熱狂させているのは、NVIDIAが今回掲げた「Open by Design(オープン設計)」という理念である。 ウェイトを公開するだけの「偽オープンソース」とは異なり、NVIDIAは今回、Nemotron 3 Nano Omniのモデルウェイト、膨大なトレーニングデータセット(NeMo Data Designerを通じて生成された合成データを含む)、そして高価値な「微調整レシピ(SFT、強化学習RL、LoRA、GRPOなど)」のすべてを公開した。現在、同モデルはHugging Faceプラットフォームからダウンロード可能であり、NVIDIA NIMマイクロサービスでも同時に利用開始されている。 NVIDIAは発表の中で、このブレイクスルーは単にベンチマークのスコアを稼ぐため
データステータス✓ 全文抽出済み原文を読む(動區 BlockTempo)
🔍過去の類似イベント· キーワード + 銘柄照合6 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:688586f5e5
ソース:動區 BlockTempo
公開:2026-04-28 16:49:33
カテゴリ:zh_news · エクスポートカテゴリ zh
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント
NVIDIA が新しいオープンソースのマルチモーダル大規模言語モデル「Nemotron 3 Nano Omni」を発表!動画・音声・画像・テキストに対応し、Agent アプリケーションに特化 | Feel.Trading