要聞列表喜歡特斯拉聲音?xAI 正式開放 Grok 語音 API,TTS 每百萬字元 4.2 美元、辨識率擊敗 ElevenLabs
動區 BlockTempo2026-04-19 03:39:41

喜歡特斯拉聲音?xAI 正式開放 Grok 語音 API,TTS 每百萬字元 4.2 美元、辨識率擊敗 ElevenLabs

AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取1397 字
xAI 本週正式推出獨立的 Grok 語音轉文字(STT)與文字轉語音(TTS)API,這套技術棧已在 Grok Voice、特斯拉車輛與 Starlink 客服系統中實際運行。STT 定價為批次每小時 $0.10、串流每小時 $0.20,支援 25 種以上語言。 (前情提要:Grok 4.3 beta 開放 Heavy 訂閱用戶!馬斯克:真正旗艦版本初訓 5 天後完成) (背景補充:Google 上線 Gemini 3.1 Flash TTS:音訊標籤讓 AI 配音更生動、支援 70+ 語言,Google AI Studio 免費體驗) xAI 17 日正式宣布推出獨立的 Grok 語音轉文字(STT)與文字轉語音(TTS)API,讓外部開發者得以直接呼叫這套已在 xAI 旗下產品中運作的語音基礎設施。 一套讓特斯拉車輛開口說話、讓 Starlink 客服回應使用者的語音技術,現在透過 API 對外開放了。根據官方說明,Grok STT API 提供兩種接入模式:透過 REST API 進行批次處理,以及透過 WebSocket API 進行低延遲即時串流。定價方面,批次處理為每小時 $0.10、串流為每小時 $0.20,官方表示相較 ElevenLabs 和 Deepgram 等主流競爭對手,定價具備顯著優勢。 功能面,Grok STT 支援 25 種以上語言,具備詞級時間戳、說話者區分(speaker diarization),以及多聲道音訊和智慧反向文字規範化。適合會議轉錄、法律與醫療記錄、客服通話日誌等需要高精確度的企業場景。 在實體識別基準測試中,Grok STT 展現出優勢。在電話通話中辨識姓名、帳號、日期等關鍵實體時,Grok STT 的錯誤率為 5.0%,而 ElevenLabs 為 12.0%、Deepgram 為 13.5%、AssemblyAI 則高達 21.3%。 Grok TTS API 提供五種各具風格的語音選項:Ara(女聲,溫暖親切)、Eve(女聲,活潑積極)、Leo(男聲,權威有力)、Rex(男聲,自信清晰)、Sal(中性,流暢均衡)。 API 自動偵測輸入語言,原生支援 20 種以上語言,並透過 BCP-47 語言程式碼控制發音。 音訊輸出格式涵蓋 MP3、WAV、PCM(Linear16)、G.711 μ-law 以及 G.711 A-law,後兩者為電話系統常見的電話編解碼格式,顯示 xAI 對電信業整合的布局。 TTS API 的特色功能是「語音標籤」,開發者可以在文字中內嵌指令,精細控制停頓、笑聲、耳語、語調強調、語速與音高,讓合成語音更貼近人類自然表達。定價為每百萬字元 $4.20。 xAI 強調,兩項 API 背後並非全新研發的技術,而是已在 Grok Voice、特斯拉車輛語音互動,以及 Starlink 客戶支援系統中實際執行的相同基礎設施。 這套基礎設施首先在 2025 年底以 Grok Voice Agent API 的形式亮相,當時提供即時語音對話代理能力,並在 Big Bench Audio 基準測試中排名第一,首次音訊回應時間低於 1 秒,約為最近競爭對手的 5 倍速度。 此次推出的 STT 和 TTS 獨立端點,等於將這套整合式語音管道的個別元件拆分開放,讓開發者可以依需求組合。
資料狀態✓ 已擷取全文閱讀原文(動區 BlockTempo)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:f3ce4b6237
來源:動區 BlockTempo
發佈:2026-04-19 03:39:41
分類:zh_news · 導出分類 zh
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言
喜歡特斯拉聲音?xAI 正式開放 Grok 語音 API,TTS 每百萬字元 4.2 美元、辨識率擊敗 ElevenLabs | Feel.Trading