DeepSeek-R1 產生幻覺的頻率比 V3 高出 4 倍，為 Crypto AI Agent Tokens 敲響了警鐘

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4126 từ

DeepSeek-R1, mô hình suy luận hàng đầu từ phòng thí nghiệm DeepSeek của Trung Quốc, có tỷ lệ ảo giác là 14,3% theo tiêu chuẩn HHEM 2.1 của Vectara. Con số này cao gần gấp bốn lần so với phiên bản tiền nhiệm không chuyên về suy luận là DeepSeek-V3, vốn đạt mức 3,9%. Khoảng cách này đặt ra những câu hỏi hóc búa cho lĩnh vực crypto. Một nhóm các token AI agent đang phát triển nhanh chóng hiện dựa vào các LLM kiểu suy luận để giao dịch tự động, đưa ra tín hiệu và thực thi trên chuỗi (on-chain). Dữ liệu của Vectara cho thấy R1 "quá nhiệt tình" với các thông tin sai lệch Vectara đã chạy cả hai mô hình DeepSeek thông qua HHEM 2.1, khung đánh giá ảo giác chuyên dụng của họ. Nhóm cũng đối chiếu kết quả bằng phương pháp FACTS của Google. R1 tạo ra nhiều tuyên bố sai lệch hoặc không có căn cứ hơn V3 trong mọi cấu hình thử nghiệm. Nguyên nhân không chỉ nằm ở độ sâu suy luận. Các nhà phân tích của Vectara nhận thấy R1 có xu hướng "quá nhiệt tình" (overhelp). Mô hình này bổ sung thêm thông tin không xuất hiện trong văn bản nguồn. Chi tiết được thêm vào đó có thể đúng về mặt thực tế nhưng vẫn được tính là ảo giác. Hành vi này lén lút đưa bối cảnh bịa đặt vào những câu trả lời vốn dĩ hợp lý. Vectara đã nêu trực tiếp phát hiện này trong một bài đăng công khai trên X. "DeepSeek-R1 cho thấy tỷ lệ ảo giác 14,3%, cao gần gấp 4 lần so với DeepSeek-V3," Vectara lưu ý trong một bài đăng. Mô hình này không chỉ riêng với DeepSeek. Các đơn vị theo dõi ngành ghi nhận sự đánh đổi tương tự trên các mô hình được đào tạo về suy luận từ các phòng thí nghiệm khác. Học tăng cường (reinforcement learning) giúp làm sắc bén chuỗi suy nghĩ (chain-of-thought) cũng đồng thời khuyến khích việc tạo nội dung táo bạo và tự tin hơn. Tại sao các token AI trong crypto lại đối mặt với sự đánh đổi này Thị trường crypto hiện có hàng trăm token AI agent, dẫn đầu là Virtuals Protocol (VIRTUAL), ai16z (AI16Z) và aixbt (AIXBT). Danh mục này đã ghi nhận mức tăng trưởng khoảng 39,4% trong khoảng thời gian 30 ngày gần đây. Riêng Virtuals đã vượt mốc 576 triệu USD vốn hóa thị trường. Hầu hết các agent này bao bọc một mô hình ngôn ngữ lớn trong các công cụ. Những công cụ đó cho phép agent đăng bài trên mạng xã hội, định tuyến giao dịch, đúc token hoặc tạo bình luận thị trường. Khi mô hình nền tảng bịa đặt một mức giá, một mối quan hệ đối tác hoặc một địa chỉ hợp đồng, hậu quả có thể xảy ra ngay trên chuỗi. Một phân tích của BeInCrypto về AIXBT cho thấy agent này đã quảng bá (shill) 416 token với lợi nhuận trung bình 19%. Tuy nhiên, cơ chế bề mặt tương tự cũng khiến những người theo dõi gặp rủi ro với các quyết định sai lầm khi mô hình thất bại. Bề mặt rủi ro mở rộng theo quyền tự chủ. Các agent chỉ đọc (read-only) tóm tắt tâm lý thị trường có mức độ rủi ro khác với các agent nắm giữ khóa kho bạc (treasury keys). Các mô hình suy luận đặc biệt hấp dẫn đối với các agent lập kế hoạch qua nhiều bước. Đó cũng là trường hợp sử dụng mà con số 14,3% của Vectara gây ảnh hưởng nặng nề nhất. Một sự thật bị ảo giác ngay từ đầu trong chuỗi suy nghĩ có thể lan truyền qua mọi hành động ở hạ nguồn. LeCun lập luận rằng vấn đề nằm ở kiến trúc Yann LeCun, nhà khoa học AI trưởng của Meta, từ lâu đã lập luận rằng các LLM tự hồi quy (autoregressive) không thể thoát hoàn toàn khỏi ảo giác. Theo quan điểm của ông, bản thân kiến trúc này thiếu bất kỳ mô hình thế giới thực tế nào. Học tăng cường trên chuỗi suy nghĩ có thể che đậy vấn đề trong các lĩnh vực hẹp như toán học và lập trình. Tuy nhiên, nguyên nhân gốc rễ vẫn còn đó. Các phòng thí nghiệm tiên phong khác không đồng ý. Họ chỉ ra sự tiến bộ ổn định về tỷ lệ ảo giác chuẩn thông qua tăng cường truy xuất (retrie

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (BeInCrypto)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin

2026-05-17

Ngân hàng lớn nhất Italy tăng hơn gấp đôi lượng nắm giữ tiền mã hoá lên 235 triệu USD trong Q1: Báo cáo

Độ tương đồng 180%關鍵字 crypto/than/more

2026-05-08

Crypto Biz: Wall Street muốn nhiều hơn là chỉ Bitcoin

Độ tương đồng 180%關鍵字 crypto/than/more

2026-04-23

Đạo luật CLARITY Act trở nên cấp bách hơn khi hơn 100 tổ chức tiền điện tử thúc giục Thượng viện hành động

Độ tương đồng 150%關鍵字 crypto/than/more

2026-04-23