ニュース一覧Teslaの音声がお好きですか?xAIがGrok音声APIを正式公開、TTSは100万文字あたり4.2ドルで、認識率はElevenLabsを上回る
動區 BlockTempo2026-04-19 03:39:41

Teslaの音声がお好きですか?xAIがGrok音声APIを正式公開、TTSは100万文字あたり4.2ドルで、認識率はElevenLabsを上回る

ORIGINAL喜歡特斯拉聲音?xAI 正式開放 Grok 語音 API,TTS 每百萬字元 4.2 美元、辨識率擊敗 ElevenLabs
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯1397 文字
xAIは今週、独立したGrokの音声認識(STT)および音声合成(TTS)APIを正式にリリースしました。この技術スタックは、すでにGrok Voice、Tesla車両、およびStarlinkのカスタマーサービスシステムで実際に運用されています。STTの価格はバッチ処理が1時間あたり$0.10、ストリーミングが1時間あたり$0.20で、25以上の言語をサポートしています。 (前回のあらすじ:Grok 4.3 betaがHeavyサブスクリプションユーザー向けに公開!Musk氏:真のフラッグシップバージョンの初期トレーニングが5日後に完了) (背景補足:GoogleがGemini 3.1 Flash TTSをリリース:オーディオタグでAIの吹き替えがより鮮明に、70以上の言語をサポート、Google AI Studioで無料体験可能) xAIは17日、独立したGrokの音声認識(STT)および音声合成(TTS)APIのリリースを正式に発表し、外部の開発者がxAIの製品群で稼働している音声インフラを直接呼び出せるようにしました。 Tesla車両に話しかけさせ、Starlinkのカスタマーサービスがユーザーに応答するための音声技術が、APIを通じて外部に開放されました。公式説明によると、Grok STT APIは2つの接続モードを提供します。REST APIによるバッチ処理と、WebSocket APIによる低遅延のリアルタイムストリーミングです。価格面では、バッチ処理が1時間あたり$0.10、ストリーミングが1時間あたり$0.20となっており、公式はElevenLabsやDeepgramといった主要な競合他社と比較して、価格設定に大きな優位性があると述べています。 機能面では、Grok STTは25以上の言語をサポートし、単語レベルのタイムスタンプ、話者分離(speaker diarization)、マルチチャンネルオーディオ、およびインテリジェントな逆テキスト正規化を備えています。会議の文字起こし、法律や医療の記録、カスタマーサービスの通話ログなど、高い精度が求められる企業向けシナリオに適しています。 エンティティ認識のベンチマークテストにおいて、Grok STTは優位性を示しました。電話通話における名前、アカウント番号、日付などの重要なエンティティを識別する際、Grok STTの誤り率は5.0%でしたが、ElevenLabsは12.0%、Deepgramは13.5%、AssemblyAIは21.3%に達しました。 Grok TTS APIは、それぞれ異なるスタイルの5つの音声オプションを提供します:Ara(女性、温かく親しみやすい)、Eve(女性、活発でポジティブ)、Leo(男性、権威があり力強い)、Rex(男性、自信に満ちて明瞭)、Sal(中性、流暢でバランスが取れている)。 APIは入力言語を自動検出し、20以上の言語をネイティブサポートしており、BCP-47言語コードを通じて発音を制御します。 オーディオ出力フォーマットはMP3、WAV、PCM(Linear16)、G.711 μ-law、およびG.711 A-lawを網羅しており、後者2つは電話システムで一般的なコーデックであることから、xAIの通信業界への統合に向けた布石がうかがえます。 TTS APIの特筆すべき機能は「音声タグ」です。開発者はテキスト内にコマンドを埋め込むことで、休止、笑い声、ささやき、イントネーションの強調、話速、ピッチを細かく制御し、合成音声をより人間に近い自然な表現に近づけることができます。価格は100万文字あたり$4.20です。 xAIは、これら2つのAPIが全く新しい技術ではなく、すでにGrok Voice、Tesla車両の音声対話、およびStarlinkのカスタマーサポートシステムで実際に運用されているものと同じインフラであることを強調しています。 このインフラは、2025年末にGrok Voice Agent APIとして初めて登場しました。当時はリアルタイムの音声対話エージェント機能を提供し、Big Bench Audioベンチマークテストで1位を獲得しました。最初の音声応答時間は1秒未満で、競合他社と比較して約5倍の速度を実現していました。 今回リリースされたSTTおよびTTSの独立したエンドポイントは、この統合された音声パイプラインの個々のコンポーネントを切り出して開放したものであり、開発者はニーズに応じて自由に組み合わせることが可能です。
データステータス✓ 全文抽出済み原文を読む(動區 BlockTempo)
🔍過去の類似イベント· キーワード + 銘柄照合6 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:f3ce4b6237
ソース:動區 BlockTempo
公開:2026-04-19 03:39:41
カテゴリ:zh_news · エクスポートカテゴリ zh
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント