Danh sách tinElevenLabs, Stability AI ra mắt các mô hình AI âm nhạc mới—Liệu chúng có thể bắt kịp Suno?
Decrypt2026-05-27 19:33:13 Cảnh báo

ElevenLabs, Stability AI ra mắt các mô hình AI âm nhạc mới—Liệu chúng có thể bắt kịp Suno?

ORIGINALElevenLabs, Stability AI Drop New AI Music Models—Can They Catch Suno?
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯5719 từ
Tóm tắt - ElevenLabs đã ra mắt Music v2, có khả năng chuyển đổi thể loại nhạc giữa bài, xây dựng bài hát theo từng phần và inpainting các đoạn cụ thể. - Stability AI đã phát hành Stable Audio 3.0, một dòng gồm bốn mô hình với trọng số mở cho ba biến thể, được huấn luyện trên dữ liệu có bản quyền, tạo ra các bản nhạc dài tới sáu phút hai mươi giây. - Cả hai bản phát hành đều dựa nhiều vào dữ liệu huấn luyện có bản quyền—nhưng Suno, với định giá 2,45 tỷ USD và khoảng 100 triệu người dùng, vẫn là nền tảng mà hầu hết mọi người tìm đến đầu tiên. Hai bản cập nhật âm nhạc AI quan trọng đã xuất hiện trong tuần này, và không bản nào đến từ Suno. ElevenLabs, công ty AI giọng nói có trụ sở tại Ba Lan với định giá 11 tỷ USD sau vòng gọi vốn Series D trị giá 500 triệu USD vào tháng 2, đã ra mắt Music v2. Stability AI—những người đứng sau Stable Diffusion—đã tung ra Stable Audio 3.0, một dòng gồm bốn mô hình với trọng số mở và các bản nhạc kéo dài hơn sáu phút. Bối cảnh là các vụ kiện bản quyền của Recording Industry Association of America từ năm 2024 chống lại Suno và Udio, điều này đã biến cụm từ "được huấn luyện trên dữ liệu có bản quyền" trở thành cụm từ quan trọng nhất trong bất kỳ thông báo nào về âm nhạc AI. Cả ElevenLabs và Stability đều đang dựa rất nhiều vào điều đó, đảm bảo rằng bạn sẽ không gặp vấn đề với các sản phẩm đầu ra mà bạn tạo ra. Music v2: Một bản nhạc, từ opera đến heavy metal, không bị gián đoạn Music v2 là mô hình âm nhạc thứ hai của ElevenLabs, ra mắt khoảng 10 tháng sau mô hình đầu tiên. Điểm nhấn cốt lõi là sự mạch lạc dưới áp lực. Theo ElevenLabs, một bản nhạc duy nhất có thể chuyển từ opera sang heavy metal và ngược lại, giữ được sự liên kết thông qua các đoạn rap nhanh và chèn các hiệu ứng âm thanh phi âm nhạc—tất cả mà không làm hỏng bố cục bài hát. Âm thanh tạo ra bởi AI thường có xu hướng bị hỏng khi các câu lệnh trở nên phức tạp, vì vậy đây là điều đáng chú ý, đặc biệt là trong các tác phẩm dài hơn. Inpainting hiện đã thực sự hữu ích: chọn một phần, tạo lại phần đó, giữ nguyên mọi thứ khác. Người dùng cũng có thể xây dựng bài hát theo từng phần—intro, verse, chorus—với mô hình duy trì tính liên tục trong suốt quá trình thay vì coi mỗi clip là một bản tạo độc lập. Hỗ trợ đa ngôn ngữ cũng đã được cải thiện, mặc dù ElevenLabs không công bố thông tin chi tiết. Mô hình này cung cấp sức mạnh cho ba nền tảng: ElevenMusic cho người sáng tạo, ElevenAPI cho nhà phát triển và ElevenCreative cho các thương hiệu. Nó hiện đã hoạt động trên ElevenMusic và ElevenCreative; quyền truy cập API đang ở giai đoạn đầu thông qua đội ngũ kinh doanh. ElevenLabs cũng đã cắt giảm giá Music v1 và v2 tới 50% cho ElevenAPI và tới 40% cho ElevenCreative tự phục vụ. Công ty đã đạt doanh thu định kỳ hàng năm 500 triệu USD vào tháng 4 năm 2026. Âm nhạc vẫn chỉ là một phần nhỏ trong đó—nhưng ElevenMusic, ra mắt như một ứng dụng tiêu dùng vào tháng 4, là một đòn trực diện vào cơ sở người dùng của Suno. Stable Audio 3.0: Trọng số mở, chạy trên thiết bị, thực sự dài hơn Stable Audio 2.0 đạt giới hạn ba phút và đã tụt hậu so với Suno khi ra mắt vào năm 2024. Stable Audio 3.0 cung cấp bốn mô hình: Small SFX (hiệu ứng âm thanh trên thiết bị), Small (sáng tác nhạc đầy đủ trên thiết bị), Medium (lên đến 6:20, phần cứng mạnh hơn) và Large (chỉ dành cho API). Ba trong số bốn mô hình có trọng số mở trên Hugging Face. Các mô hình Small chạy ở mức 459 triệu tham số mỗi mô hình—không cần GPU. (Tham số là thước đo năng lực của một mô hình AI). Medium đạt 1,4 tỷ tham số và tạo ra đầu ra 6:20 trong khoảng 1,31 giây trên GPU H200. Large, với 2,7 tỷ tham số, chỉ dành cho API cho
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:e953f81c65
Nguồn:Decrypt
Đăng:2026-05-27 19:33:13
Danh mục:bearish · Danh mục xuất bearish
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận