ニュース一覧StepFunの音声AIは、あらゆるベンチマークでトップに立った。さらに、あなたのため息さえも聞き取る
Decrypt2026-05-26 14:29:44

StepFunの音声AIは、あらゆるベンチマークでトップに立った。さらに、あなたのため息さえも聞き取る

ORIGINALStepFun's Voice AI Topped Every Benchmark. It Also Hears Your Sighs
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯3677 文字
概要 - StepAudio 2.5 Realtimeは、中国語と英語で完全にカスタマイズ可能なペルソナを備えた、エンドツーエンドのリアルタイム音声モデルである。 - StepFunは、2026年4月にテストされた5つの音声AIベンチマークすべてで首位を獲得し、GPT Realtime 1.5とGemini Liveを上回ったと主張している。 - このモデルは百万規模のペルソナデータセットで訓練され、ロールプレイ専用のRLHFで調整されており、ほとんどの音声AIが未だに克服できていない失敗モード——プレッシャー下でキャラクターを維持すること——を解決している。 上海拠点のAIラボStepFunは今週、StepAudio 2.5 Realtimeをリリースした。これはエンドツーエンドのリアルタイム音声モデルで、音声が入り、音声が出る——途中でテキスト変換は行わない。中国語と英語をサポートし、ベンチマークに基づくと、かなり優秀なようだ。 このラボは、はるかに大規模なシステムを上回る性能を発揮するテキストLLMの構築で最もよく知られている。1960億パラメータのモデルであるStep 3.5 Flashは、今年初め、4つの推論ベンチマークで兆単位のパラメータを持つライバルを抑えてトップに立った。(パラメータはAIモデルに知識の幅を与えるものであり、一般的にはより優れた性能につながる。) 音声分野の取り組みも同じ戦略に沿っており、特に長時間のセッションにおいて、ロールプレイをクールなものにしたいと考えている。 キャラクター問題 AIペルソナシステムには、特定の失敗モードがある——OOC、つまりキャラクター崩壊(out-of-character)動作のことで、敵対的なプレッシャー下でモデルが割り当てられた性格から逸脱する現象だ。これは恥ずかしいほど一般的で、すべてのAIモデルに設計上存在する欠陥である。インタラクションが増えるほど、ただ忘れていくのだ。 StepFunは、ロールプレイ専用のRLHF——一般的な品質だけでなく、ペルソナの安定性に特化して適用される人間のフィードバックからの強化学習——でこの問題を解決したと述べている。訓練データは1万を超える人間が作成したペルソナのシードから始まり、アルゴリズムによって百万規模の特徴マトリックスに拡張されている。 その狙いは、訓練データに十分な多様性を持たせることで、奇妙で稀な会話であってもモデルがキャラクターから外れないようにすることだ。 技術的により興味深い主張はパラ言語的理解力である——モデルは応答を組み立てる前に、音声自体から話す速度、感情のトーン、年齢といった非言語的な音響的手がかりを読み取る。 パラ言語的理解力ベンチマーク——感情や話速といった音響特徴の知覚を測定する0〜100で採点される客観的テスト——において、StepAudioは82.18を記録した。GPT Realtime 1.5は80.46、Gemini Liveは58.05、DouBao Realtimeは16.09だった。 人間による評価ベンチマーク——モバイルアプリ経由で実際のユーザーがモデルと会話し、人間の評価者が0〜100のスケールで採点する——では、StepAudioが80.41、GPT Realtime 1.5が68.01、Gemini Liveが67.16となった。同じ0〜100スケールでAPI経由で客観的にテストされた一般的な対話品質は、86.36となり、GPTの81.60を上回った。 これらはStepFun自身のベンチマークである。それをどう受け止めるかは読者次第だ。しかし、パラ言語と音声による質疑応答セッションでの差は、無視できないほど大きい。 StepFunの背景 StepFunは2023年4月に、Bing、Cortana、Azure認知サービスなどのプロジェクトを率いてMicrosoftで16年間過ごしたJiang Daxinによって設立された。中国のいわゆる「AIタイガー」スタートアップの一つであり、これまでに約17億ドルを調達している。 OpenAIの高度音声モードは2024年後半に開始され、他のすべての企業が追いかけるベンチマークを設定した。StepFunは現在、それに対して直接ベンチマークを行い——勝利を主張している。 今回のローンチには、Xiao Yueと呼ばれる旗艦AIペルソナが含まれており、StepFunはこれを、ソフトウェアにクエリを投げるのではなく友人にメッセージを送るような感覚を意図して設計された「魂レベルのコンパニオン」と説明している。意見、決まり文句、感情の限界——すべて設定可能だ。 開発者はAPIを介して独自のペルソナを構築できる。完全なドキュメントはplatform.stepfun.comにあり、モデルは現在稼働中である。
データステータス✓ 全文抽出済み原文を読む(Decrypt)
🔍過去の類似イベント· キーワード + 銘柄照合2 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:e1b6f2d9fa
ソース:Decrypt
公開:2026-05-26 14:29:44
カテゴリ:一般 · エクスポートカテゴリ neutral
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント