StepFun's Voice AI Mengungguli Setiap Benchmark. Ia Juga Mendengar Helaan Napas Anda

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯3677 kata

Secara singkat - StepAudio 2.5 Realtime adalah model ucapan real-time end-to-end dengan persona yang sepenuhnya dapat dikustomisasi dalam bahasa Mandarin dan Inggris. - StepFun mengklaim peringkat pertama di kelima benchmark voice AI yang diuji pada April 2026, mengalahkan GPT Realtime 1.5 dan Gemini Live. - Model ini dilatih pada dataset persona berskala jutaan dan disetel dengan RLHF khusus roleplay untuk memperbaiki mode kegagalan yang masih belum bisa diatasi oleh sebagian besar voice AI: tetap berada dalam karakter di bawah tekanan. Lab AI yang berbasis di Shanghai, StepFun, merilis StepAudio 2.5 Realtime minggu ini. Ini adalah model suara real-time end-to-end—audio masuk, audio keluar, tanpa konversi teks di tengah. Model ini mendukung bahasa Mandarin dan Inggris, dan berdasarkan benchmark, tampaknya cukup bagus. Lab ini paling dikenal karena membangun text LLM yang mengungguli sistem yang jauh lebih besar. Step 3.5 Flash, model dengan 196 miliar parameter, menempati posisi teratas di empat benchmark penalaran awal tahun ini melawan pesaing dengan triliunan parameter. (Parameter adalah apa yang memberi model AI luasnya pengetahuan, dan secara umum diterjemahkan menjadi kinerja yang lebih baik.) Pekerjaan suara mengikuti pola yang sama, dan ingin membuat roleplay menjadi keren, terutama dalam sesi yang lebih panjang. Masalah karakter Sistem persona AI memiliki mode kegagalan spesifik: OOC, atau perilaku out-of-character—model menyimpang dari kepribadian yang ditugaskan di bawah tekanan adversarial. Ini sangat umum dan memalukan, dan merupakan cacat yang ada di semua model AI secara desain. Mereka hanya melupakan hal-hal semakin banyak Anda berinteraksi dengan mereka. StepFun mengatakan mereka memecahkan ini dengan RLHF khusus roleplay—reinforcement learning from human feedback yang diterapkan secara khusus pada stabilitas persona, bukan hanya kualitas umum. Data pelatihan dimulai dari lebih dari 10.000 seed persona yang ditulis oleh manusia, diperluas secara algoritmik menjadi matriks fitur berskala jutaan. Idenya: variasi yang cukup dalam data pelatihan sehingga bahkan percakapan yang aneh dan long-tail tidak akan menjatuhkan model dari karakternya. Klaim yang lebih menarik secara teknis adalah pemahaman paralinguistik—model membaca isyarat akustik non-verbal seperti kecepatan vokal, nada emosional, dan usia dari audio itu sendiri, sebelum merumuskan respons. Pada benchmark pemahaman paralinguistik—uji objektif yang mengukur persepsi fitur akustik seperti emosi dan kecepatan bicara, dinilai 0–100—StepAudio mencapai 82,18. GPT Realtime 1.5 mendapat skor 80,46, Gemini Live mencapai 58,05, dan DouBao Realtime mencapai 16,09. Benchmark evaluasi manusia—pengguna nyata berbicara dengan model melalui aplikasi mobile, dinilai oleh penilai manusia pada skala 0–100—mencapai 80,41 untuk StepAudio, dibandingkan 68,01 untuk GPT Realtime 1.5 dan 67,16 untuk Gemini Live. Kualitas dialog umum, diuji secara objektif via API pada skala 0–100 yang sama, mencapai 86,36 dibandingkan 81,60 dari GPT. Ini adalah benchmark milik StepFun sendiri. Terserah Anda mau memaknainya bagaimana. Tetapi margin pada paralinguistik dan sesi tanya jawab lisan cukup besar sehingga sulit untuk diabaikan. Konteks StepFun StepFun didirikan pada April 2023 oleh Jiang Daxin, yang menghabiskan 16 tahun di Microsoft menjalankan proyek-proyek seperti Bing, Cortana, dan Azure cognitive services. Ini adalah salah satu yang disebut sebagai startup AI Tiger di China dan telah mengumpulkan dana sekitar $1,7 miliar hingga saat ini. Mode suara canggih dari OpenAI diluncurkan pada akhir 2024 dan menetapkan benchmark yang dikejar semua orang. StepFun sekarang melakukan benchmarking langsung melawannya—dan mengklaim kemenangan. Peluncuran ini mencakup persona AI andalan bernama Xiao Yue, yang oleh StepFun digambarkan sebagai "pendamping tingkat jiwa" yang dirancang agar terasa seperti mengirim pesan kepada teman, bukan melakukan kueri ke perangkat lunak. Opini, catchphrase, batas emosional—sepenuhnya dapat dikonfigurasi. Developer dapat membangun persona mereka sendiri melalui API. Dokumentasi lengkap ada di platform.stepfun.com, dan model ini sudah tersedia sekarang.

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset1 berita

2026-04-28

Setiap transaksi blockchain adalah hadiah untuk kompetitor Anda

Tingkat kemiripan 100%關鍵字 every/your

💡 Saat ini menggunakan pencocokan kata kunci + aset (MVP) · Akan ditingkatkan ke pencarian semantik embedding di masa mendatang

Informasi mentah

ID:e1b6f2d9fa

Sumber:Decrypt

Diterbitkan:2026-05-26 14:29:44

Kategori:Umum · Kategori ekspor neutral

Aset:Tidak ditentukan

Voting komunitas:+0 / −0 · ⭐ 0 Penting · 💬 0 Komentar