StepFun's Voice AI đã đứng đầu mọi benchmark. Nó còn nghe được cả tiếng thở dài của bạn

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯3677 từ

Tóm tắt - StepAudio 2.5 Realtime là một mô hình giọng nói thời gian thực end-to-end với các persona có thể tùy chỉnh hoàn toàn bằng tiếng Trung và tiếng Anh. - StepFun tuyên bố đứng đầu trên cả năm bài kiểm tra benchmark voice AI được thử nghiệm vào tháng 4 năm 2026, đánh bại GPT Realtime 1.5 và Gemini Live. - Mô hình được huấn luyện trên một bộ dữ liệu persona quy mô hàng triệu và được tinh chỉnh bằng RLHF chuyên biệt cho roleplay nhằm khắc phục một lỗi mà hầu hết voice AI vẫn chưa thể giải quyết: duy trì nhân vật dưới áp lực. Phòng thí nghiệm AI có trụ sở tại Thượng Hải StepFun đã phát hành StepAudio 2.5 Realtime trong tuần này. Đây là một mô hình giọng nói thời gian thực end-to-end—âm thanh đi vào, âm thanh đi ra, không có chuyển đổi văn bản ở giữa. Nó hỗ trợ tiếng Trung và tiếng Anh, và dựa trên các benchmark, có vẻ khá tốt. Phòng thí nghiệm này nổi tiếng nhất với việc xây dựng các text LLM vượt trội hơn nhiều hệ thống lớn hơn. Step 3.5 Flash, một mô hình có 196 tỷ tham số, đã đứng đầu bốn benchmark suy luận đầu năm nay khi đối đầu với các đối thủ hàng nghìn tỷ tham số. (Tham số là yếu tố mang lại cho một mô hình AI bề rộng kiến thức của nó, và nói chung càng nhiều thì hiệu suất càng tốt.) Công việc về giọng nói cũng đi theo cùng một công thức, và muốn làm cho roleplay trở nên thú vị, đặc biệt trong các phiên dài hơn. Vấn đề về nhân vật Các hệ thống persona AI có một lỗi đặc thù: OOC, hay hành vi out-of-character—mô hình trôi dạt khỏi tính cách được giao dưới áp lực đối kháng. Điều này phổ biến một cách đáng xấu hổ, và là một khuyết điểm tồn tại trong tất cả các mô hình AI theo thiết kế. Chúng đơn giản là quên đi mọi thứ càng nhiều khi bạn tương tác với chúng. StepFun cho biết họ đã giải quyết vấn đề này bằng RLHF chuyên biệt cho roleplay—reinforcement learning from human feedback được áp dụng cụ thể cho sự ổn định của persona, không chỉ chất lượng chung. Dữ liệu huấn luyện bắt đầu từ hơn 10.000 hạt giống persona do con người viết, được mở rộng theo thuật toán thành một ma trận đặc trưng quy mô hàng triệu. Ý tưởng là: đủ sự đa dạng trong dữ liệu huấn luyện để ngay cả những cuộc trò chuyện kỳ lạ, long-tail cũng không làm mô hình lệch khỏi nhân vật của nó. Tuyên bố thú vị hơn về mặt kỹ thuật là khả năng hiểu paralinguistic—mô hình đọc các tín hiệu âm thanh phi ngôn ngữ như tốc độ giọng nói, giọng điệu cảm xúc, và tuổi tác từ chính âm thanh, trước khi nó hình thành một phản hồi. Trên benchmark hiểu paralinguistic—một bài kiểm tra khách quan đo lường nhận thức về đặc trưng âm thanh như cảm xúc và tốc độ nói, được chấm điểm từ 0–100—StepAudio đạt 82,18. GPT Realtime 1.5 đạt 80,46, Gemini Live đạt 58,05, và DouBao Realtime đạt 16,09. Benchmark đánh giá bởi con người—người dùng thực nói chuyện với mô hình qua ứng dụng di động, được chấm điểm bởi người đánh giá trên thang 0–100—đạt 80,41 cho StepAudio, so với 68,01 cho GPT Realtime 1.5 và 67,16 cho Gemini Live. Chất lượng đối thoại chung, được kiểm tra khách quan qua API trên cùng thang 0–100, đạt 86,36 so với 81,60 của GPT. Đây là những benchmark của chính StepFun. Hãy tự đánh giá điều đó. Nhưng khoảng cách về paralinguistics và các phiên hỏi đáp bằng giọng nói đủ lớn đến mức khó có thể bỏ qua. Bối cảnh StepFun StepFun được thành lập vào tháng 4 năm 2023 bởi Jiang Daxin, người đã có 16 năm tại Microsoft điều hành các dự án như Bing, Cortana, và Azure cognitive services. Đây là một trong những startup được gọi là AI Tiger của Trung Quốc và đã huy động được khoảng 1,7 tỷ USD cho đến nay. Chế độ giọng nói nâng cao của OpenAI ra mắt vào cuối năm 2024 và thiết lập tiêu chuẩn mà mọi người khác đang theo đuổi. StepFun hiện đang so sánh trực tiếp với nó—và tuyên bố chiến thắng. Lần ra mắt này bao gồm một persona AI hàng đầu có tên Xiao Yue, mà StepFun mô tả là một "người bạn đồng hành ở cấp độ tâm hồn" được thiết kế để cảm giác như đang nhắn tin với một người bạn, không phải truy vấn phần mềm. Quan điểm, câu cửa miệng, giới hạn cảm xúc—đều có thể tùy chỉnh hoàn toàn. Các nhà phát triển có thể xây dựng persona của riêng họ qua API. Tài liệu đầy đủ có tại platform.stepfun.com, và mô hình hiện đã có sẵn.

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản2 tin

2026-05-27

Benchmark mới của Huawei trao cho AI Agent vài tháng cuộc đời của bạn—Rồi quan sát chúng thất bại

Độ tương đồng 130%關鍵字 your/benchmark

2026-04-28

Mỗi giao dịch blockchain đều là một món quà dành cho đối thủ cạnh tranh của bạn

Độ tương đồng 100%關鍵字 every/your

💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding

Thông tin gốc

ID：e1b6f2d9fa

Nguồn：Decrypt

Đăng：2026-05-26 14:29:44

Danh mục：Chung · Danh mục xuất neutral

Tài sản：Chưa chỉ định

Bình chọn cộng đồng：+0 / −0 · ⭐ 0 quan trọng · 💬 0 bình luận