ニュース一覧ElevenLabs、Stability AI が新しい AI 音楽モデルをリリース—Suno に追いつけるか?
Decrypt2026-05-27 19:33:13 警戒

ElevenLabs、Stability AI が新しい AI 音楽モデルをリリース—Suno に追いつけるか?

ORIGINALElevenLabs, Stability AI Drop New AI Music Models—Can They Catch Suno?
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯5719 文字
要約 - ElevenLabsがMusic v2をリリース。曲の途中でジャンルを切り替えたり、セクションごとに楽曲を構築したり、特定のパートをインペインティング(修正)したりすることが可能。 - Stability AIがStable Audio 3.0をリリース。4つのモデルファミリーで構成され、うち3つはオープンウェイトで提供。ライセンスデータで学習されており、最大6分20秒の楽曲生成が可能。 - 両社ともライセンスされた学習データを強調しているが、時価総額24.5億ドル、約1億人のユーザーを抱えるSunoが依然として最も利用されているプラットフォームである。 今週、AI音楽分野で2つの重要なアップデートがあったが、いずれもSunoによるものではなかった。 2月に5億ドルのSeries D調達を経て時価総額110億ドルに達した、ポーランド発の音声AI企業ElevenLabsは、Music v2をローンチした。Stable Diffusionで知られるStability AIは、オープンウェイトで6分を超える楽曲生成が可能な4つのモデルファミリー、Stable Audio 3.0を公開した。 背景には、2024年にRecording Industry Association of AmericaがSunoとUdioに対して起こした著作権訴訟があり、これにより「ライセンスデータで学習済み」というフレーズがAI音楽の発表において最も重要なものとなった。ElevenLabsとStabilityの両社は、生成した出力に問題が生じないよう、この点を強くアピールしている。 Music v2:オペラからヘヴィメタルまで、途切れることのない1曲 Music v2はElevenLabsにとって2つ目の音楽モデルであり、最初のモデルから約10ヶ月を経ての登場となる。核心的な売りは、負荷がかかっても維持される一貫性だ。ElevenLabsによると、1つのトラックの中でオペラからヘヴィメタルへ切り替えて戻したり、高速なラップを維持したり、非音楽的な効果音を埋め込んだりしても、楽曲が破綻することはないという。 生成オーディオはプロンプトが複雑になると破綻しやすいため、特に長い楽曲においてこの点は注目に値する。 インペインティング機能も実用的になった。特定のセクションを選択して再生成し、それ以外はそのまま維持できる。また、ユーザーはイントロ、ヴァース、コーラスといったセクションごとに曲を構築でき、モデルは各クリップを独立した生成物としてではなく、全体の一貫性を保ちながら処理する。多言語サポートも向上しているが、ElevenLabsは詳細を公表していない。 このモデルは、クリエイター向けのElevenMusic、開発者向けのElevenAPI、ブランド向けのElevenCreativeという3つのプラットフォームを支えている。ElevenMusicとElevenCreativeでは現在利用可能で、APIアクセスは営業チームを通じた早期エントリーとなっている。 ElevenLabsはまた、ElevenAPIのMusic v1およびv2の価格を最大50%、ElevenCreativeのセルフサービスプランを最大40%値下げした。同社は2026年4月に年間経常収益(ARR)5億ドルを達成した。音楽部門はその一部に過ぎないが、4月に消費者向けアプリとしてローンチされたElevenMusicは、Sunoのユーザーベースを直接狙ったものだ。 Stable Audio 3.0:オープンウェイト、オンデバイス、そして長尺化 Stable Audio 2.0は最大3分までで、2024年のローンチ時点で既にSunoに遅れをとっていた。Stable Audio 3.0は4つのモデルで構成される:Small SFX(オンデバイス用効果音)、Small(オンデバイス用フル楽曲)、Medium(最大6:20、より強力なハードウェア向け)、Large(API専用)。4つのうち3つはHugging Faceでオープンウェイトとして公開されている。 Smallモデルはそれぞれ4億5900万パラメータで動作し、GPUは不要だ(パラメータはAIモデルの容量を測る指標)。Mediumは14億パラメータで、H200 GPU上で約1.31秒で6分20秒の出力を生成する。27億パラメータのLargeは、収益が100万ドルを超える組織向けのAPI専用モデルである。秒単位の生成粒度により、近似値ではなく、要求した通りの正確な長さのトラックが得られる。 ComfyUIでのローカルセットアップもサポートされている。 アーキテクチャも刷新された。StabilityがSAMEと呼ぶセマンティック・アコースティック・オートエンコーダーを採用し、長尺の出力でもメロディの一貫性を保つよう設計されている。LoRAファインチューニングもサポートされており、アーティストは自身のカタログに合わせてモデルを適応させることができる。インペインティング機能も搭載されており
データステータス✓ 全文抽出済み原文を読む(Decrypt)
🔍過去の類似イベント· キーワード + 銘柄照合6 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:e953f81c65
ソース:Decrypt
公開:2026-05-27 19:33:13
カテゴリ:bearish · エクスポートカテゴリ bearish
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント