Daftar beritaSuka suara Tesla? xAI resmi membuka API suara Grok, TTS seharga $4,2 per juta karakter, tingkat pengenalan mengalahkan ElevenLabs
動區 BlockTempo2026-04-19 03:39:41

Suka suara Tesla? xAI resmi membuka API suara Grok, TTS seharga $4,2 per juta karakter, tingkat pengenalan mengalahkan ElevenLabs

ORIGINAL喜歡特斯拉聲音?xAI 正式開放 Grok 語音 API,TTS 每百萬字元 4.2 美元、辨識率擊敗 ElevenLabs
Analisis Dampak AIGrok sedang menganalisis...
📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯1397 kata
xAI minggu ini resmi meluncurkan API Speech-to-Text (STT) dan Text-to-Speech (TTS) Grok yang berdiri sendiri. Tumpukan teknologi ini telah beroperasi secara nyata di Grok Voice, kendaraan Tesla, dan sistem layanan pelanggan Starlink. Harga STT ditetapkan sebesar $0,10 per jam untuk batch dan $0,20 per jam untuk streaming, dengan dukungan lebih dari 25 bahasa. (Pratinjau: Grok 4.3 beta dibuka untuk pelanggan Heavy! Musk: Pelatihan awal versi flagship yang sesungguhnya akan selesai dalam 5 hari) (Latar belakang: Google meluncurkan Gemini 3.1 Flash TTS: Tag audio membuat sulih suara AI lebih hidup, mendukung 70+ bahasa, tersedia gratis di Google AI Studio) xAI pada tanggal 17 resmi mengumumkan peluncuran API STT dan TTS Grok yang berdiri sendiri, memungkinkan pengembang eksternal untuk memanggil infrastruktur suara yang telah beroperasi di produk-produk xAI secara langsung. Satu set teknologi suara yang membuat kendaraan Tesla dapat berbicara dan sistem layanan pelanggan Starlink merespons pengguna, kini telah dibuka untuk publik melalui API. Menurut penjelasan resmi, Grok STT API menyediakan dua mode akses: pemrosesan batch melalui REST API, dan streaming real-time latensi rendah melalui WebSocket API. Dari sisi harga, pemrosesan batch adalah $0,10 per jam dan streaming $0,20 per jam. Pihak resmi menyatakan bahwa dibandingkan dengan pesaing utama seperti ElevenLabs dan Deepgram, harga ini memiliki keunggulan yang signifikan. Dari sisi fitur, Grok STT mendukung lebih dari 25 bahasa, dilengkapi dengan stempel waktu tingkat kata, speaker diarization, serta audio multi-saluran dan normalisasi teks terbalik yang cerdas. Teknologi ini cocok untuk skenario perusahaan yang membutuhkan akurasi tinggi seperti transkripsi rapat, catatan hukum dan medis, serta log panggilan layanan pelanggan. Dalam tolok ukur pengenalan entitas, Grok STT menunjukkan keunggulan. Saat mengenali entitas kunci seperti nama, nomor akun, dan tanggal dalam panggilan telepon, tingkat kesalahan Grok STT adalah 5,0%, sementara ElevenLabs 12,0%, Deepgram 13,5%, dan AssemblyAI mencapai 21,3%. Grok TTS API menyediakan lima pilihan suara dengan gaya berbeda: Ara (wanita, hangat dan ramah), Eve (wanita, lincah dan positif), Leo (pria, otoritatif dan kuat), Rex (pria, percaya diri dan jelas), dan Sal (netral, lancar dan seimbang). API secara otomatis mendeteksi bahasa input, mendukung lebih dari 20 bahasa secara native, dan mengontrol pelafalan melalui kode bahasa BCP-47. Format output audio mencakup MP3, WAV, PCM (Linear16), G.711 μ-law, dan G.711 A-law. Dua format terakhir adalah format codec telepon yang umum digunakan dalam sistem telepon, yang menunjukkan tata letak xAI untuk integrasi industri telekomunikasi. Fitur unggulan dari TTS API adalah "tag suara", di mana pengembang dapat menyematkan perintah dalam teks untuk mengontrol jeda, tawa, bisikan, penekanan nada, kecepatan bicara, dan tinggi nada secara mendetail, sehingga suara sintetis lebih mendekati ekspresi alami manusia. Harga ditetapkan sebesar $4,20 per satu juta karakter. xAI menekankan bahwa kedua API ini bukanlah teknologi yang baru dikembangkan, melainkan infrastruktur yang sama yang telah beroperasi di Grok Voice, interaksi suara kendaraan Tesla, dan sistem dukungan pelanggan Starlink. Infrastruktur ini pertama kali muncul pada akhir tahun 2025 dalam bentuk Grok Voice Agent API, yang saat itu menyediakan kemampuan agen percakapan suara real-time dan menempati peringkat pertama dalam tolok ukur Big Bench Audio, dengan waktu respons audio pertama di bawah 1 detik, sekitar 5 kali lebih cepat dari pesaing terdekat. Peluncuran endpoint STT dan TTS yang berdiri sendiri ini berarti memecah komponen individu dari saluran suara terintegrasi ini untuk dibuka, sehingga pengembang dapat mengombinasikannya sesuai kebutuhan.
Status data✓ Teks lengkap telah diambilBaca artikel asli (動區 BlockTempo)
🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita
💡 Saat ini menggunakan pencocokan kata kunci + aset (MVP) · Akan ditingkatkan ke pencarian semantik embedding di masa mendatang
Informasi mentah
ID:f3ce4b6237
Sumber:動區 BlockTempo
Diterbitkan:2026-04-19 03:39:41
Kategori:zh_news · Kategori ekspor zh
Aset:Tidak ditentukan
Voting komunitas:+0 /0 · ⭐ 0 Penting · 💬 0 Komentar
Suka suara Tesla? xAI resmi membuka API suara Grok, TTS seharga $4,2 per juta karakter, tingkat pengenalan mengalahkan ElevenLabs | Feel.Trading