Danh sách tinThích giọng nói của Tesla? xAI chính thức mở API giọng nói Grok, TTS có giá 4,2 USD mỗi triệu ký tự, tỷ lệ nhận diện vượt qua ElevenLabs
動區 BlockTempo2026-04-19 03:39:41

Thích giọng nói của Tesla? xAI chính thức mở API giọng nói Grok, TTS có giá 4,2 USD mỗi triệu ký tự, tỷ lệ nhận diện vượt qua ElevenLabs

ORIGINAL喜歡特斯拉聲音?xAI 正式開放 Grok 語音 API,TTS 每百萬字元 4.2 美元、辨識率擊敗 ElevenLabs
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯1397 từ
xAI tuần này chính thức ra mắt API chuyển đổi giọng nói thành văn bản (STT) và văn bản thành giọng nói (TTS) độc lập của Grok, bộ công nghệ này đã được vận hành thực tế trong Grok Voice, xe Tesla và hệ thống chăm sóc khách hàng Starlink. Định giá STT là $0,10 mỗi giờ cho xử lý theo lô và $0,20 mỗi giờ cho phát trực tuyến, hỗ trợ hơn 25 ngôn ngữ. (Tóm tắt trước đó: Grok 4.3 beta mở cho người dùng đăng ký Heavy! Musk: Phiên bản flagship thực sự sẽ hoàn thành huấn luyện sơ bộ sau 5 ngày) (Bổ sung bối cảnh: Google ra mắt Gemini 3.1 Flash TTS: Thẻ âm thanh giúp lồng tiếng AI sống động hơn, hỗ trợ 70+ ngôn ngữ, trải nghiệm miễn phí trên Google AI Studio) Ngày 17, xAI chính thức thông báo ra mắt API STT và TTS độc lập của Grok, cho phép các nhà phát triển bên ngoài trực tiếp gọi bộ cơ sở hạ tầng giọng nói vốn đã vận hành trong các sản phẩm của xAI. Một bộ công nghệ giọng nói giúp xe Tesla biết nói và giúp dịch vụ khách hàng Starlink phản hồi người dùng, nay đã được mở ra thông qua API. Theo giải thích chính thức, Grok STT API cung cấp hai chế độ truy cập: xử lý theo lô thông qua REST API và phát trực tuyến thời gian thực độ trễ thấp thông qua WebSocket API. Về định giá, xử lý theo lô là $0,10 mỗi giờ, phát trực tuyến là $0,20 mỗi giờ, phía chính thức cho biết so với các đối thủ cạnh tranh chính như ElevenLabs và Deepgram, định giá có lợi thế đáng kể. Về tính năng, Grok STT hỗ trợ hơn 25 ngôn ngữ, có dấu thời gian cấp từ, phân biệt người nói (speaker diarization), cũng như âm thanh đa kênh và chuẩn hóa văn bản ngược thông minh. Phù hợp cho các kịch bản doanh nghiệp cần độ chính xác cao như ghi chép cuộc họp, hồ sơ pháp lý và y tế, nhật ký cuộc gọi dịch vụ khách hàng. Trong các bài kiểm tra chuẩn về nhận dạng thực thể, Grok STT đã thể hiện ưu thế. Khi nhận dạng các thực thể quan trọng như tên, số tài khoản, ngày tháng trong các cuộc gọi điện thoại, tỷ lệ lỗi của Grok STT là 5,0%, trong khi ElevenLabs là 12,0%, Deepgram là 13,5% và AssemblyAI lên tới 21,3%. Grok TTS API cung cấp năm tùy chọn giọng nói với phong cách riêng biệt: Ara (giọng nữ, ấm áp thân thiện), Eve (giọng nữ, hoạt bát tích cực), Leo (giọng nam, uy quyền mạnh mẽ), Rex (giọng nam, tự tin rõ ràng), Sal (trung tính, trôi chảy cân bằng). API tự động phát hiện ngôn ngữ đầu vào, hỗ trợ gốc hơn 20 ngôn ngữ và kiểm soát phát âm thông qua mã ngôn ngữ BCP-47. Các định dạng đầu ra âm thanh bao gồm MP3, WAV, PCM (Linear16), G.711 μ-law và G.711 A-law, hai định dạng sau là các định dạng codec điện thoại phổ biến trong hệ thống điện thoại, cho thấy sự bố trí của xAI đối với việc tích hợp ngành viễn thông. Tính năng đặc biệt của TTS API là "thẻ giọng nói", nhà phát triển có thể nhúng các lệnh vào văn bản để kiểm soát tinh vi các khoảng dừng, tiếng cười, tiếng thì thầm, nhấn giọng, tốc độ nói và cao độ, giúp giọng nói tổng hợp gần gũi hơn với cách diễn đạt tự nhiên của con người. Định giá là $4,20 cho mỗi triệu ký tự. xAI nhấn mạnh rằng hai API này không phải là công nghệ mới được phát triển mà là cùng một cơ sở hạ tầng đã được thực thi trong Grok Voice, tương tác giọng nói trên xe Tesla và hệ thống hỗ trợ khách hàng Starlink. Bộ cơ sở hạ tầng này lần đầu tiên xuất hiện dưới dạng Grok Voice Agent API vào cuối năm 2025, khi đó cung cấp khả năng đại lý hội thoại giọng nói thời gian thực và xếp hạng nhất trong bài kiểm tra chuẩn Big Bench Audio, thời gian phản hồi âm thanh đầu tiên dưới 1 giây, nhanh gấp khoảng 5 lần so với các đối thủ cạnh tranh gần nhất. Các điểm cuối STT và TTS độc lập được ra mắt lần này tương đương với việc tách rời và mở ra các thành phần riêng lẻ của đường ống giọng nói tích hợp này, cho phép các nhà phát
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (動區 BlockTempo)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:f3ce4b6237
Nguồn:動區 BlockTempo
Đăng:2026-04-19 03:39:41
Danh mục:zh_news · Danh mục xuất zh
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận