Mengalahkan GPT-5.4 dengan biaya 2 sen per kueri: Perplexity mengungkap resep pelatihan pasca (post-training) untuk Search Agent

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯1829 kata

Perplexity mengungkapkan alur kerja pasca-pelatihan (post-training) untuk Agent pencarian publik. Model yang berbasis pada Qwen3.5 open-source ini melampaui akurasi pencarian GPT-5.4, dengan biaya tugas yang setara hanya 2,0 sen, kurang dari seperempat biaya GPT-5.4. (Pratinjau: Perplexity Personal Computer diluncurkan: Membiarkan AI mengambil alih Mac lokal, biaya bulanan $200 dibuka untuk pengguna Max) (Latar belakang: Bisa digunakan meski tidak bisa coding? Perplexity Computer membiarkan AI langsung memberikan hasil untuk Anda dan menjalankan alur kerja secara otomatis) Bisakah model sumber (source model) mengalahkan model unggulan closed-source? Perplexity memberikan jawaban yang sulit diabaikan oleh industri melalui sebuah laporan teknis. Perusahaan yang memulai bisnisnya dari pencarian AI ini baru saja mengungkapkan metodologi pasca-pelatihan untuk Agent pencarian web mereka secara lengkap. Dasar dari seluruh alur kerja pelatihan ini adalah dua model open-source dari seri Alibaba Qwen: Qwen3.5-122B-A10B dan Qwen3.5-397B-A17B. Pilihan ini saja sudah menunjukkan bahwa Perplexity tidak berniat membayar untuk menggunakan GPT atau Claude sebagai tulang punggung, melainkan berangkat dari model open-source untuk mengukir kemampuan pencarian mereka sendiri. Pelatihan dibagi menjadi dua tahap. Tahap pertama adalah Supervised Fine-Tuning (SFT). Jika diterjemahkan, artinya memberikan "jawaban standar" dalam jumlah besar kepada model agar ia mempelajari aturan perilaku dasar: jawaban harus sesuai dengan instruksi, bahasa harus konsisten, dan format tidak boleh berantakan. Tahap ini tidak mengejar kecerdasan, melainkan keandalan—seperti membiasakan kebiasaan kerja karyawan baru sebelum melatih kemampuan penilaian mereka. Tahap kedua adalah Reinforcement Learning (RL) yang menggunakan algoritma GRPO. Model dibiarkan mencoba berulang kali dalam tugas nyata, dan setiap kali menyesuaikan strategi berdasarkan hasil baik atau buruknya. Keistimewaan GRPO adalah tidak memerlukan pelatihan "AI penilai" tambahan, melainkan langsung membandingkan output dari batch yang sama dan mengekstrak sinyal pembelajaran darinya. Hal ini membuat biaya pelatihan lebih rendah dan lebih mudah untuk diskalakan. Data pelatihan RL terdiri dari dua jalur. Jalur pertama adalah bank soal penalaran multi-lompatan (multi-hop) yang disintesis sendiri oleh Perplexity. Penjawab harus mencari fakta pertama, lalu mencari fakta berikutnya berdasarkan fakta tersebut, dan mengulanginya 2 hingga 4 kali untuk mendapatkan jawaban akhir. Jenis pertanyaan ini secara khusus melatih kemampuan "penalaran berantai" (chain-of-thought) model, membiarkannya belajar memperlakukan pencarian sebagai serangkaian langkah logis, bukan kueri kata kunci satu kali jalan. Jalur lainnya adalah data percakapan berbasis rubric, yang mengubah kebiasaan baik yang dibangun oleh SFT seperti "mengikuti format" dan "menjaga konsistensi bahasa" menjadi kondisi yang dapat dikuantifikasi dalam tahap reinforcement learning, guna mencegah model kehilangan disiplin dasar dalam proses "mengejar skor tinggi". Tantangan terbesar dalam pelatihan RL adalah bagaimana mendefinisikan "perilaku pencarian yang baik". Jika standar penilaian tidak ditetapkan dengan baik, model akan dengan mudah mempelajari respons yang terlihat lancar di permukaan tetapi sebenarnya salah. Persuasif dan akurasi adalah dua hal yang berbeda, namun sinyal pelatihan AI sering kali mencampuradukkan keduanya. Solusi Perplexity disebut gating aggregation. Logika intinya adalah: skor preferensi hanya akan dihitung dengan premis bahwa jawaban itu sendiri benar. Jika model menjawab salah, tidak peduli seberapa teratur outputnya terlihat, ia tidak akan mendapatkan poin tambahan. "Gerbang" ini menempatkan akurasi faktual di atas semua evaluasi preferensi, memastikan sinyal hadiah selalu terikat pada "apakah jawabannya benar", bukan "apakah cara bicaranya menyenangkan". Logika penalti efisiensi juga patut diperhatikan. Tolok ukur untuk menilai apakah suatu pencarian "terlalu banyak panggilan alat" (tool calls) bukanlah angka tetap, melainkan rata-rata penggunaan model lain yang menjawab dengan benar dalam batch yang sama. Sederhananya: jika teman sekelompok Anda menjawab dengan benar menggunakan tiga kali pencarian, dan Anda menjawab dengan benar menggunakan tujuh kali, Anda tetap akan dikurangi poin efisiensinya. Hasil evaluasi menggunakan FRAMES, tolok ukur pencarian multi-lompatan yang diakui industri, di mana desain soal mengharuskan penalaran lintas berbagai sumber dan melalui beberapa langkah untuk menjawab. Pada tolok ukur ini, Qwen3.5-397B-S

Status data✓ Teks lengkap telah diambilBaca artikel asli (動區 BlockTempo)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-04-23

PrimePiper：AI agent 交易的 prime broker，让 AI agent 安全地在全球交易市场交易

Tingkat kemiripan 120%關鍵字 agent同分類 zh

2026-04-23

Pengenalan fitur baru Claude Code /ultrareview: Tinjauan kode mendalam multi-agen berbasis cloud, gratis untuk waktu terbatas bagi pengguna Pro dan Max

Tingkat kemiripan 120%關鍵字 agent同分類 zh

2026-04-23

Sisi lain dari AI Agent: Penipu yang lebih sabar dan lebih personal

Tingkat kemiripan 120%關鍵字 agent同分類 zh

2026-04-23