Mỗi truy vấn 2 cent đánh bại GPT-5.4: Perplexity công bố công thức hậu huấn luyện cho Search Agent

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯1829 từ

Perplexity công khai quy trình hậu huấn luyện (post-training) cho Agent tìm kiếm, mô hình dựa trên mã nguồn mở Qwen3.5 vượt qua GPT-5.4 về độ chính xác tìm kiếm, với chi phí cho cùng một tác vụ chỉ là 2,0 cent, chưa bằng một phần tư so với GPT-5.4. (Tóm tắt trước: Perplexity Personal Computer đã ra mắt: Để AI tiếp quản máy Mac cục bộ, phí tháng 200 USD mở cho người dùng Max) (Bổ sung bối cảnh: Không biết lập trình vẫn dùng được? Perplexity Computer để AI trực tiếp bàn giao kết quả cho bạn, tự động chạy quy trình công việc) Mô hình nguồn có thể đánh bại mô hình flagship đóng hay không? Perplexity đã đưa ra một câu trả lời mà ngành công nghiệp khó có thể phớt lờ thông qua một báo cáo kỹ thuật. Công ty khởi nghiệp từ tìm kiếm AI này gần đây đã công khai toàn bộ phương pháp luận hậu huấn luyện cho Agent tìm kiếm web của mình. Nền tảng của toàn bộ quy trình huấn luyện là hai mô hình mã nguồn mở thuộc dòng Alibaba Qwen: Qwen3.5-122B-A10B và Qwen3.5-397B-A17B. Chỉ riêng lựa chọn này đã cho thấy Perplexity không có ý định trả phí để sử dụng GPT hoặc Claude làm xương sống, mà xuất phát từ các mô hình mã nguồn mở để tự xây dựng khả năng tìm kiếm. Huấn luyện chia làm hai giai đoạn. Giai đoạn đầu là tinh chỉnh có giám sát (SFT). Dịch ra là, trước tiên cung cấp cho mô hình một lượng lớn "đáp án chuẩn" để nó học các quy tắc hành vi cơ bản: trả lời phải tuân thủ chỉ dẫn, ngôn ngữ phải nhất quán, định dạng không được lộn xộn. Giai đoạn này không theo đuổi sự thông minh, chỉ theo đuổi sự tin cậy — giống như việc rèn thói quen làm việc cho nhân viên mới trước, rồi mới đến lượt huấn luyện khả năng phán đoán. Giai đoạn thứ hai là học tăng cường (RL), sử dụng thuật toán GRPO. Để mô hình thử nghiệm lặp đi lặp lại trong các tác vụ thực tế, mỗi lần điều chỉnh chiến lược dựa trên kết quả tốt hay xấu. Điểm đặc biệt của GRPO là không cần huấn luyện thêm một "AI giám khảo", mà trực tiếp so sánh các kết quả đầu ra trong cùng một lô với nhau để trích xuất tín hiệu học tập. Điều này giúp chi phí huấn luyện thấp hơn và dễ mở rộng quy mô hơn. Dữ liệu huấn luyện RL được cấu thành từ hai luồng. Một là ngân hàng câu hỏi suy luận đa bước do Perplexity tự tổng hợp. Người trả lời phải tìm kiếm sự thật đầu tiên, sau đó dựa vào sự thật đó để tìm kiếm sự thật tiếp theo, lặp lại 2 đến 4 lần mới có thể đưa ra đáp án cuối cùng. Loại câu hỏi này chuyên huấn luyện khả năng "suy luận chuỗi" của mô hình, giúp nó học cách coi tìm kiếm là một chuỗi các bước logic, thay vì truy vấn từ khóa một lần. Luồng thứ hai là dữ liệu đối thoại dựa trên tiêu chuẩn đánh giá (rubric), chuyển đổi các thói quen tốt được thiết lập từ SFT như "tuân thủ định dạng", "duy trì sự nhất quán ngôn ngữ" thành các điều kiện có thể định lượng trong giai đoạn học tăng cường, ngăn chặn mô hình đánh mất kỷ luật cơ bản trong quá trình "theo đuổi điểm số cao". Thách thức lớn nhất của huấn luyện RL là làm thế nào để định nghĩa "hành vi tìm kiếm tốt". Nếu tiêu chuẩn chấm điểm không tốt, mô hình rất dễ học cách đưa ra phản hồi trông có vẻ trôi chảy trên bề mặt nhưng thực tế lại sai. Thuyết phục và chính xác là hai việc khác nhau, nhưng tín hiệu huấn luyện của AI rất dễ trộn lẫn hai thứ này lại với nhau. Giải pháp của Perplexity được gọi là tổng hợp cổng (gated aggregation). Logic cốt lõi là: điểm ưu tiên chỉ được tính với điều kiện bản thân câu trả lời phải chính xác. Nếu mô hình trả lời sai, bất kể kết quả đầu ra trông có vẻ mạch lạc đến đâu, cũng không nhận được bất kỳ điểm cộng nào. "Cổng" này đặt độ chính xác thực tế lên trước mọi đánh giá ưu tiên, đảm bảo tín hiệu phần thưởng luôn gắn liền với việc "có trả lời đúng hay không", chứ không phải "cách nói chuyện có dễ nghe hay không". Logic về hình phạt hiệu quả cũng đáng chú ý. Tiêu chuẩn để đánh giá một lần tìm kiếm có "gọi công cụ

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (動區 BlockTempo)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin

2026-04-23

PrimePiper：AI agent 交易的 prime broker，讓 AI agent 安全地在全球交易市場交易

Độ tương đồng 120%關鍵字 agent同分類 zh

2026-04-23

Giới thiệu tính năng mới /ultrareview của Claude Code: Đánh giá mã nguồn chuyên sâu bằng đa agent trên đám mây, miễn phí trong thời gian giới hạn cho người dùng Pro và Max

Độ tương đồng 120%關鍵字 agent同分類 zh

2026-04-23

Mặt trái của AI Agent: Những kẻ lừa đảo kiên nhẫn và cá nhân hóa hơn

Độ tương đồng 120%關鍵字 agent同分類 zh

2026-04-23