Danh sách tinDeepSeek-R1 產生幻覺的頻率比 V3 高出 4 倍,為 Crypto AI Agent Tokens 敲響了警鐘
BeInCrypto2026-05-11 19:03:07

DeepSeek-R1 產生幻覺的頻率比 V3 高出 4 倍,為 Crypto AI Agent Tokens 敲響了警鐘

ORIGINALDeepSeek-R1 Hallucinates 4x More Than V3, Raising Red Flags for Crypto AI Agent Tokens
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4126 từ
DeepSeek-R1, mô hình suy luận hàng đầu từ phòng thí nghiệm DeepSeek của Trung Quốc, có tỷ lệ ảo giác là 14,3% theo tiêu chuẩn HHEM 2.1 của Vectara. Con số này cao gần gấp bốn lần so với phiên bản tiền nhiệm không chuyên về suy luận là DeepSeek-V3, vốn đạt mức 3,9%. Khoảng cách này đặt ra những câu hỏi hóc búa cho lĩnh vực crypto. Một nhóm các token AI agent đang phát triển nhanh chóng hiện dựa vào các LLM kiểu suy luận để giao dịch tự động, đưa ra tín hiệu và thực thi trên chuỗi (on-chain). Dữ liệu của Vectara cho thấy R1 "quá nhiệt tình" với các thông tin sai lệch Vectara đã chạy cả hai mô hình DeepSeek thông qua HHEM 2.1, khung đánh giá ảo giác chuyên dụng của họ. Nhóm cũng đối chiếu kết quả bằng phương pháp FACTS của Google. R1 tạo ra nhiều tuyên bố sai lệch hoặc không có căn cứ hơn V3 trong mọi cấu hình thử nghiệm. Nguyên nhân không chỉ nằm ở độ sâu suy luận. Các nhà phân tích của Vectara nhận thấy R1 có xu hướng "quá nhiệt tình" (overhelp). Mô hình này bổ sung thêm thông tin không xuất hiện trong văn bản nguồn. Chi tiết được thêm vào đó có thể đúng về mặt thực tế nhưng vẫn được tính là ảo giác. Hành vi này lén lút đưa bối cảnh bịa đặt vào những câu trả lời vốn dĩ hợp lý. Vectara đã nêu trực tiếp phát hiện này trong một bài đăng công khai trên X. "DeepSeek-R1 cho thấy tỷ lệ ảo giác 14,3%, cao gần gấp 4 lần so với DeepSeek-V3," Vectara lưu ý trong một bài đăng. Mô hình này không chỉ riêng với DeepSeek. Các đơn vị theo dõi ngành ghi nhận sự đánh đổi tương tự trên các mô hình được đào tạo về suy luận từ các phòng thí nghiệm khác. Học tăng cường (reinforcement learning) giúp làm sắc bén chuỗi suy nghĩ (chain-of-thought) cũng đồng thời khuyến khích việc tạo nội dung táo bạo và tự tin hơn. Tại sao các token AI trong crypto lại đối mặt với sự đánh đổi này Thị trường crypto hiện có hàng trăm token AI agent, dẫn đầu là Virtuals Protocol (VIRTUAL), ai16z (AI16Z) và aixbt (AIXBT). Danh mục này đã ghi nhận mức tăng trưởng khoảng 39,4% trong khoảng thời gian 30 ngày gần đây. Riêng Virtuals đã vượt mốc 576 triệu USD vốn hóa thị trường. Hầu hết các agent này bao bọc một mô hình ngôn ngữ lớn trong các công cụ. Những công cụ đó cho phép agent đăng bài trên mạng xã hội, định tuyến giao dịch, đúc token hoặc tạo bình luận thị trường. Khi mô hình nền tảng bịa đặt một mức giá, một mối quan hệ đối tác hoặc một địa chỉ hợp đồng, hậu quả có thể xảy ra ngay trên chuỗi. Một phân tích của BeInCrypto về AIXBT cho thấy agent này đã quảng bá (shill) 416 token với lợi nhuận trung bình 19%. Tuy nhiên, cơ chế bề mặt tương tự cũng khiến những người theo dõi gặp rủi ro với các quyết định sai lầm khi mô hình thất bại. Bề mặt rủi ro mở rộng theo quyền tự chủ. Các agent chỉ đọc (read-only) tóm tắt tâm lý thị trường có mức độ rủi ro khác với các agent nắm giữ khóa kho bạc (treasury keys). Các mô hình suy luận đặc biệt hấp dẫn đối với các agent lập kế hoạch qua nhiều bước. Đó cũng là trường hợp sử dụng mà con số 14,3% của Vectara gây ảnh hưởng nặng nề nhất. Một sự thật bị ảo giác ngay từ đầu trong chuỗi suy nghĩ có thể lan truyền qua mọi hành động ở hạ nguồn. LeCun lập luận rằng vấn đề nằm ở kiến trúc Yann LeCun, nhà khoa học AI trưởng của Meta, từ lâu đã lập luận rằng các LLM tự hồi quy (autoregressive) không thể thoát hoàn toàn khỏi ảo giác. Theo quan điểm của ông, bản thân kiến trúc này thiếu bất kỳ mô hình thế giới thực tế nào. Học tăng cường trên chuỗi suy nghĩ có thể che đậy vấn đề trong các lĩnh vực hẹp như toán học và lập trình. Tuy nhiên, nguyên nhân gốc rễ vẫn còn đó. Các phòng thí nghiệm tiên phong khác không đồng ý. Họ chỉ ra sự tiến bộ ổn định về tỷ lệ ảo giác chuẩn thông qua tăng cường truy xuất (retrie
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (BeInCrypto)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:c7213aac49
Nguồn:BeInCrypto
Đăng:2026-05-11 19:03:07
Danh mục:Chung · Danh mục xuất neutral
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận
DeepSeek-R1 產生幻覺的頻率比 V3 高出 4 倍,為 Crypto AI Agent Tokens 敲響了警鐘 | Feel.Trading