ElevenLabs, Stability AI, 새로운 AI 음악 모델 출시—Suno를 따라잡을 수 있을까?

📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯5719 자

요약 - ElevenLabs는 트랙 중간에 장르를 전환하고, 섹션별로 곡을 구성하며, 특정 부분을 인페인팅(inpainting)할 수 있는 Music v2를 출시했습니다. - Stability AI는 라이선스 데이터를 학습하고 최대 6분 20초 길이의 트랙을 생성하며, 3개 변형 모델에 대해 오픈 웨이트(open weights)를 제공하는 4개 모델 제품군인 Stable Audio 3.0을 공개했습니다. - 두 출시 모두 라이선스 학습 데이터를 강조하고 있지만, 24억 5천만 달러의 기업 가치와 약 1억 명의 사용자를 보유한 Suno가 여전히 가장 많은 사람들이 먼저 찾는 플랫폼입니다. 이번 주에 두 가지 중요한 AI 음악 업데이트가 있었지만, 둘 다 Suno에서 나온 것은 아닙니다. 2월 Series D 투자 유치 후 5억 달러를 조달하며 110억 달러의 기업 가치를 기록한 폴란드 기반의 음성 AI 기업 ElevenLabs가 Music v2를 출시했습니다. Stable Diffusion의 개발사인 Stability AI는 오픈 웨이트를 제공하고 6분이 넘는 트랙을 생성하는 4개 모델 제품군인 Stable Audio 3.0을 선보였습니다. 이러한 배경에는 2024년 Recording Industry Association of America가 Suno와 Udio를 상대로 제기한 저작권 소송이 있으며, 이로 인해 "라이선스 데이터로 학습됨"이라는 문구가 모든 AI 음악 발표에서 가장 중요한 표현이 되었습니다. ElevenLabs와 Stability 모두 이 점을 강력하게 내세우며 사용자가 생성한 결과물에 문제가 없도록 보장하고 있습니다. Music v2: 오페라에서 헤비메탈까지, 끊김 없는 하나의 트랙 Music v2는 ElevenLabs의 두 번째 음악 모델로, 첫 번째 모델 이후 약 10개월 만에 출시되었습니다. 핵심은 압박 속에서도 유지되는 일관성입니다. ElevenLabs에 따르면, 단일 트랙이 오페라에서 헤비메탈로 전환했다가 다시 돌아오고, 빠른 랩을 소화하며, 음악적이지 않은 음향 효과를 삽입해도 전체적인 구성이 무너지지 않습니다. 생성형 오디오는 프롬프트가 복잡해지면 무너지는 경향이 있기 때문에, 특히 긴 곡에서 이러한 일관성은 주목할 가치가 있습니다. 인페인팅 기능은 이제 실제로 유용해졌습니다. 특정 섹션을 선택하여 재생성하고 나머지 부분은 그대로 유지할 수 있습니다. 또한 사용자는 각 클립을 독립적인 생성물로 처리하는 대신, 모델이 전체적인 연속성을 유지하면서 인트로, 벌스, 코러스 등 섹션별로 곡을 구성할 수 있습니다. 다국어 지원도 개선되었지만, ElevenLabs는 구체적인 내용은 공개하지 않았습니다. 이 모델은 크리에이터를 위한 ElevenMusic, 개발자를 위한 ElevenAPI, 브랜드를 위한 ElevenCreative 등 세 가지 플랫폼을 지원합니다. 현재 ElevenMusic과 ElevenCreative에서 사용할 수 있으며, API 액세스는 영업 팀을 통한 초기 단계로 제공됩니다. ElevenLabs는 또한 ElevenAPI의 Music v1 및 v2 가격을 최대 50%, ElevenCreative 셀프 서비스 가격을 최대 40% 인하했습니다. 이 회사는 2026년 4월 연간 반복 매출(ARR) 5억 달러를 달성했습니다. 음악 분야는 여전히 그중 작은 비중을 차지하지만, 4월 소비자 앱으로 출시된 ElevenMusic은 Suno의 사용자 기반을 직접 겨냥하고 있습니다. Stable Audio 3.0: 오픈 웨이트, 온디바이스, 더 길어진 재생 시간 Stable Audio 2.0은 최대 3분까지 지원했으며 2024년 출시 당시 이미 Suno에 뒤처져 있었습니다. Stable Audio 3.0은 Small SFX(온디바이스 음향 효과), Small(온디바이스 전체 음악 구성), Medium(최대 6:20, 더 강력한 하드웨어 필요), Large(API 전용) 등 4개 모델로 구성됩니다. 이 중 3개 모델은 Hugging Face에서 오픈 웨이트로 제공됩니다. Small 모델은 각각 4억 5,900만 개의 파라미터로 작동하며 GPU가 필요 없습니다. (파라미터는 AI 모델의 용량을 측정하는 단위입니다.) Medium 모델은 14억 개의 파라미터를 사용하며 H200 GPU에서 약 1.31초 만에 6분 20초 분량의 결과물을 생성합니다. 27억 개의 파라미터를 가진 Large 모델은 매출 100

데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)

🔍과거 유사 사건· 키워드 + 종목 매칭6 건

2026-05-29

Ripple의 Fed 마스터 계정 승인이 새로운 XRP 강세장을 촉발할 수 있을까? AI 모델은 $80도 가능하다고 말한다

유사도 130%關鍵字 new/can

2026-05-29

연구 결과에 따르면 AI 모델들은 대부분의 경우 기본적인 사실에 대해 의견을 일치시키지 못한다

유사도 130%關鍵字 models/can

2026-05-29

도지코인(DOGE)이 한숨 돌릴 틈이 없다—Bears가 계속 휘두르고 있다

유사도 130%關鍵字 catch/can

2026-05-26