뉴스 목록StepFun의 음성 AI는 모든 벤치마크에서 1위를 차지했다. 게다가 당신의 한숨까지 듣는다
Decrypt2026-05-26 14:29:44

StepFun의 음성 AI는 모든 벤치마크에서 1위를 차지했다. 게다가 당신의 한숨까지 듣는다

ORIGINALStepFun's Voice AI Topped Every Benchmark. It Also Hears Your Sighs
AI 영향 분석Grok 분석 중...
📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯3677 자
요약 - StepAudio 2.5 Realtime은 중국어와 영어로 페르소나를 완전히 커스터마이징할 수 있는 엔드투엔드 실시간 음성 모델이다. - StepFun은 2026년 4월에 테스트한 다섯 가지 음성 AI 벤치마크 전부에서 GPT Realtime 1.5와 Gemini Live를 제치고 1위를 차지했다고 주장한다. - 이 모델은 백만 단위 규모의 페르소나 데이터셋으로 학습되었고, 롤플레이 특화 RLHF로 튜닝되어 대부분의 음성 AI가 여전히 극복하지 못한 실패 모드, 즉 압박 속에서도 캐릭터를 유지하는 문제를 해결했다. 상하이에 본사를 둔 AI 연구소 StepFun이 이번 주 StepAudio 2.5 Realtime을 출시했다. 엔드투엔드 실시간 음성 모델로, 오디오가 입력되면 중간 텍스트 변환 없이 그대로 오디오로 출력된다. 중국어와 영어를 지원하며 벤치마크 기준으로 보면 꽤 우수해 보인다. 이 연구소는 훨씬 큰 시스템들을 능가하는 텍스트 LLM을 만든 것으로 가장 잘 알려져 있다. 1,960억 파라미터 모델인 Step 3.5 Flash는 올해 초 조 단위 파라미터 경쟁 모델들을 상대로 네 가지 추론 벤치마크에서 1위를 차지했다. (파라미터는 AI 모델에 지식의 폭을 부여하는 요소이며, 일반적으로 더 많을수록 더 나은 성능으로 이어진다.) 이번 음성 작업도 같은 전략을 따르며, 특히 더 긴 세션에서 롤플레이를 멋지게 만들고자 한다. 캐릭터 문제 AI 페르소나 시스템에는 특정한 실패 모드가 있다. 바로 OOC(out-of-character), 즉 캐릭터 이탈 행동이다. 모델이 적대적인 압박을 받으면 부여된 성격에서 벗어나는 현상이다. 이는 부끄러울 만큼 흔하며, 모든 AI 모델에 설계상 존재하는 결함이다. 상호작용이 길어질수록 모델들은 그저 내용을 잊어버린다. StepFun은 일반적인 품질이 아닌 페르소나 안정성에 특화하여 적용한 롤플레이 특화 RLHF, 즉 인간 피드백 기반 강화학습으로 이 문제를 해결했다고 밝혔다. 학습 데이터는 사람이 직접 작성한 1만 개 이상의 페르소나 시드에서 시작해 알고리즘적으로 백만 단위 규모의 피처 매트릭스로 확장된다. 핵심 아이디어는 이렇다. 학습 데이터에 충분한 다양성을 확보해 이상하고 긴 꼬리(long-tail)에 해당하는 대화에서도 모델이 캐릭터에서 벗어나지 않도록 하는 것이다. 기술적으로 더 흥미로운 주장은 준언어적 이해(paralinguistic comprehension)다. 모델이 응답을 구성하기 전에 음성 속도, 감정 톤, 연령 같은 비언어적 음향 단서를 오디오 자체에서 읽어낸다는 것이다. 준언어적 이해 벤치마크—감정과 발화 속도 같은 음향 특징 지각을 0~100점 척도로 측정하는 객관 테스트—에서 StepAudio는 82.18점을 기록했다. GPT Realtime 1.5는 80.46점, Gemini Live는 58.05점, DouBao Realtime은 16.09점을 받았다. 휴먼 평가 벤치마크—실제 사용자가 모바일 앱을 통해 모델과 대화하고 인간 평가자가 0~100점 척도로 채점하는 방식—에서 StepAudio는 80.41점을 기록했고, GPT Realtime 1.5는 68.01점, Gemini Live는 67.16점이었다. 동일한 0~100점 척도로 API를 통해 객관적으로 테스트한 일반 대화 품질은 86.36점으로, GPT의 81.60점을 앞섰다. 이는 StepFun 자체 벤치마크다. 어떻게 받아들이든 그건 자유다. 하지만 준언어적 이해와 음성 질의응답 세션에서의 격차는 무시하기 어려울 정도로 크다. StepFun에 관하여 StepFun은 2023년 4월에 Jiang Daxin이 설립했다. 그는 Microsoft에서 16년간 Bing, Cortana, Azure cognitive services 같은 프로젝트를 이끌었다. 중국의 이른바 'AI Tiger' 스타트업 중 하나로, 현재까지 약 17억 달러를 조달했다. OpenAI의 고급 음성 모드는 2024년 말에 출시되어 다른 모든 경쟁자들이 쫓아가는 기준점이 되었다. StepFun은 이제 이를 직접 벤치마킹 대상으로 삼아 승리를 주장하고 있다. 이번 출시에는 Xiao Yue라는 플래그십 AI 페르소나가 포함되었는데, StepFun은 이를 "영혼 수준의 동반자(soul-level companion)"로 설명하며, 소프트웨어에 질의하는 느낌이 아니라 친구와 문자하는 것 같은 느낌이 들도록 설계되었다고 밝혔다. 의견, 자주 쓰는 말투, 감정의 한계까지 완전히 설정할 수 있다. 개발자는 API를 통해 자체 페르소나를 구축할 수 있다. 전체 문서는 platform.stepfun.com에서 확인할 수 있으며, 모델은 현재 라이브 상태다.
데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)
🔍과거 유사 사건· 키워드 + 종목 매칭2 건
💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정
원본 정보
ID:e1b6f2d9fa
출처:Decrypt
발행:2026-05-26 14:29:44
분류:일반 · 도출된 분류 neutral
종목:지정되지 않음
커뮤니티 투표:+0 /0 · ⭐ 0 중요 · 💬 0 댓글