StepFun's Voice AI Topped Every Benchmark. It Also Hears Your Sighs

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯3677 字

简要概述 - StepAudio 2.5 Realtime 是一款端到端实时语音模型，在中文和英文中支持完全可定制的人物角色。 - StepFun 声称在 2026 年 4 月测试的全部五项语音 AI 基准测试中均位列第一，击败了 GPT Realtime 1.5 和 Gemini Live。 - 该模型基于百万级人物角色数据集训练，并通过针对角色扮演的 RLHF 进行调优，修复了大多数语音 AI 至今仍无法摆脱的一种失败模式：在压力下保持角色一致性。位于上海的 AI 实验室 StepFun 本周发布了 StepAudio 2.5 Realtime。这是一款端到端实时语音模型——音频输入，音频输出，中间没有文本转换。它支持中文和英文，根据基准测试结果来看，表现似乎相当不错。该实验室最为人熟知的是其打造的文本 LLM，其性能超越了规模大得多的系统。Step 3.5 Flash 是一款拥有 1960 亿参数的模型，今年早些时候在四项推理基准测试中击败了万亿参数级别的竞争对手，名列榜首。（参数赋予 AI 模型广博的知识，通常更多参数意味着更好的性能。）其语音方面的工作沿用了同样的策略，希望让角色扮演变得更酷，尤其是在较长的会话中。角色问题 AI 人物角色系统存在一个特定的失败模式：OOC，即"脱离角色"行为——模型在对抗性压力下偏离了分配给它的人格。这种情况尴尬地常见，是所有 AI 模型与生俱来的缺陷。你与它们交互越多，它们就越容易遗忘。 StepFun 表示其通过针对角色扮演的 RLHF（基于人类反馈的强化学习）解决了这个问题——这种强化学习专门针对人格稳定性，而不仅仅是通用质量。训练数据始于超过 10,000 个由人工撰写的人物角色种子，通过算法扩展为百万级的特征矩阵。其理念是：训练数据中具备足够的多样性，以至于即便是奇怪的、长尾的对话也无法让模型偏离角色。更具技术意义的一项声明是副语言理解能力——模型在生成回应之前，能从音频本身读取语速、情绪语调和年龄等非言语声学线索。在副语言理解基准测试中——这是一项客观测量声学特征感知能力（如情绪和语速）的测试，评分范围 0–100——StepAudio 得分 82.18。GPT Realtime 1.5 得分 80.46，Gemini Live 得分 58.05，DouBao Realtime 得分 16.09。人工评估基准测试——即真实用户通过移动应用与模型对话，由人工评分员按 0–100 分制评分——StepAudio 获得 80.41 分，而 GPT Realtime 1.5 为 68.01 分，Gemini Live 为 67.16 分。通用对话质量通过 API 以同样的 0–100 分制进行客观测试，StepAudio 得分 86.36，而 GPT 为 81.60。这些都是 StepFun 自己的基准测试，仅供参考。但在副语言以及口头问答环节上的差距足够大，难以被轻易忽视。 StepFun 的背景 StepFun 由 Jiang Daxin 于 2023 年 4 月创立，他曾在 Microsoft 工作 16 年，负责 Bing、Cortana 和 Azure cognitive services 等项目。它是中国所谓的"AI 六小虎"初创公司之一，迄今已融资约 17 亿美元。 OpenAI 的高级语音模式于 2024 年末推出，并树立了其他所有人都在追赶的标杆。StepFun 现在直接以其为基准——并宣称取得了胜利。此次发布包括一款名为 Xiao Yue 的旗舰 AI 人物角色，StepFun 将其描述为"灵魂级伴侣"，设计感觉像是在与朋友发短信，而不是在向软件发出查询。观点、口头禅、情感界限——全部可配置。开发者可以通过 API 构建自己的人物角色。完整文档位于 platform.stepfun.com，该模型现已上线。

数据状态✓ 已抓取全文阅读原文（Decrypt）

🔍历史类似事件· 关键词 + 标的比对1 则

2026-04-28

每一筆區塊鏈交易都是送給競爭對手的一份禮物

相似度 100%關鍵字 every/your

💡 目前用关键词 + 标的比对（MVP）· 之后会升级为 embedding 语义搜寻

原始信息

ID：e1b6f2d9fa

来源：Decrypt

发布：2026-05-26 14:29:44

分类：一般 · 导出分类 neutral

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言