뉴스 목록테슬라의 목소리가 마음에 드시나요? xAI가 Grok 음성 API를 공식 출시했습니다. TTS는 100만 자당 4.2달러이며, 인식률은 ElevenLabs를 능가합니다.
動區 BlockTempo2026-04-19 03:39:41

테슬라의 목소리가 마음에 드시나요? xAI가 Grok 음성 API를 공식 출시했습니다. TTS는 100만 자당 4.2달러이며, 인식률은 ElevenLabs를 능가합니다.

ORIGINAL喜歡特斯拉聲音?xAI 正式開放 Grok 語音 API,TTS 每百萬字元 4.2 美元、辨識率擊敗 ElevenLabs
AI 영향 분석Grok 분석 중...
📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯1397 자
xAI는 이번 주 독립형 Grok 음성 인식(STT) 및 음성 합성(TTS) API를 공식 출시했습니다. 이 기술 스택은 이미 Grok Voice, 테슬라 차량 및 Starlink 고객 서비스 시스템에서 실제로 운영되고 있습니다. STT 가격은 배치 처리 시 시간당 $0.10, 스트리밍 시 시간당 $0.20이며, 25개 이상의 언어를 지원합니다. (이전 기사: Grok 4.3 beta, Heavy 구독자에게 공개! 머스크: 진정한 플래그십 버전 초기 훈련 5일 후 완료) (배경 보충: Google, Gemini 3.1 Flash TTS 출시: 오디오 태그로 AI 더빙을 더욱 생생하게, 70개 이상 언어 지원, Google AI Studio에서 무료 체험 가능) xAI는 17일 독립형 Grok STT 및 TTS API 출시를 공식 발표하며, 외부 개발자들이 xAI 제품군에서 이미 운영 중인 음성 인프라를 직접 호출할 수 있도록 했습니다. 테슬라 차량이 말을 하고, Starlink 고객 서비스가 사용자의 음성에 응답하게 만드는 이 음성 기술이 이제 API를 통해 외부에 공개되었습니다. 공식 설명에 따르면, Grok STT API는 REST API를 통한 배치 처리와 WebSocket API를 통한 저지연 실시간 스트리밍 등 두 가지 접속 모드를 제공합니다. 가격은 배치 처리 시 시간당 $0.10, 스트리밍 시 시간당 $0.20로, 공식 측은 ElevenLabs 및 Deepgram 등 주요 경쟁사 대비 가격 경쟁력이 뛰어나다고 밝혔습니다. 기능 면에서 Grok STT는 25개 이상의 언어를 지원하며, 단어 단위 타임스탬프, 화자 분리(speaker diarization), 다채널 오디오 및 지능형 역텍스트 정규화 기능을 갖추고 있습니다. 회의 녹취, 법률 및 의료 기록, 고객 서비스 통화 로그 등 높은 정확도가 요구되는 기업 환경에 적합합니다. 실체 인식 벤치마크 테스트에서 Grok STT는 우위를 점했습니다. 전화 통화 중 이름, 계좌번호, 날짜 등 핵심 실체를 인식할 때 Grok STT의 오류율은 5.0%인 반면, ElevenLabs는 12.0%, Deepgram은 13.5%, AssemblyAI는 21.3%에 달했습니다. Grok TTS API는 Ara(여성, 따뜻하고 친절함), Eve(여성, 활기차고 적극적임), Leo(남성, 권위 있고 힘 있음), Rex(남성, 자신감 있고 명확함), Sal(중성, 유창하고 균형 잡힘) 등 다섯 가지 스타일의 음성 옵션을 제공합니다. API는 입력 언어를 자동으로 감지하며 20개 이상의 언어를 기본 지원하고, BCP-47 언어 코드를 통해 발음을 제어합니다. 오디오 출력 형식은 MP3, WAV, PCM(Linear16), G.711 μ-law 및 G.711 A-law를 포함하며, 후자 두 가지는 전화 시스템에서 흔히 사용되는 코덱으로 xAI가 통신 업계 통합을 염두에 두고 있음을 보여줍니다. TTS API의 특징적인 기능은 '음성 태그'로, 개발자가 텍스트 내에 명령어를 삽입하여 일시 정지, 웃음, 속삭임, 억양 강조, 말하기 속도 및 음높이를 세밀하게 제어함으로써 합성 음성을 인간의 자연스러운 표현에 더 가깝게 만들 수 있습니다. 가격은 100만 문자당 $4.20입니다. xAI는 두 API가 완전히 새로운 기술이 아니라 Grok Voice, 테슬라 차량 음성 인터랙션, Starlink 고객 지원 시스템에서 이미 실제로 실행 중인 동일한 인프라라고 강조했습니다. 이 인프라는 2025년 말 Grok Voice Agent API 형태로 처음 선보였으며, 당시 실시간 음성 대화 에이전트 기능을 제공했습니다. Big Bench Audio 벤치마크 테스트에서 1위를 차지했으며, 최초 오디오 응답 시간은 1초 미만으로 경쟁사 대비 약 5배 빠른 속도를 기록했습니다. 이번에 출시된 STT 및 TTS 독립 엔드포인트는 이 통합 음성 파이프라인의 개별 구성 요소를 분리하여 공개한 것으로, 개발자가 필요에 따라 조합하여 사용할 수 있습니다.
데이터 상태✓ 전체 내용 추출 완료원문 읽기 (動區 BlockTempo)
🔍과거 유사 사건· 키워드 + 종목 매칭6 건
💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정
원본 정보
ID:f3ce4b6237
출처:動區 BlockTempo
발행:2026-04-19 03:39:41
분류:zh_news · 도출된 분류 zh
종목:지정되지 않음
커뮤니티 투표:+0 /0 · ⭐ 0 중요 · 💬 0 댓글