DeepSeek-R1 berhalusinasi 4x lebih banyak daripada V3, menimbulkan tanda bahaya bagi token AI Agent di sektor crypto

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯4126 kata

DeepSeek-R1, model penalaran unggulan dari laboratorium Tiongkok DeepSeek, mengalami halusinasi sebesar 14,3% menurut benchmark HHEM 2.1 dari Vectara. Angka tersebut hampir empat kali lebih tinggi dibandingkan pendahulunya yang non-penalaran, DeepSeek-V3, yang mencatatkan skor 3,9%. Kesenjangan ini menimbulkan pertanyaan sulit bagi sektor kripto. Kelas token AI agent yang berkembang pesat kini mengandalkan LLM bergaya penalaran untuk perdagangan otonom, sinyal, dan eksekusi on-chain. Data Vectara Menunjukkan R1 ‘Terlalu Membantu’ dengan Fakta Palsu Vectara menjalankan kedua model DeepSeek melalui HHEM 2.1, kerangka kerja evaluasi halusinasi khusus miliknya. Tim tersebut juga melakukan pemeriksaan silang hasil menggunakan metodologi FACTS dari Google. R1 menghasilkan lebih banyak pernyataan palsu atau tidak didukung dibandingkan V3 dalam setiap konfigurasi pengujian. Penyebabnya bukan sekadar kedalaman penalaran. Analis Vectara menemukan bahwa R1 cenderung “terlalu membantu” (overhelp). Model tersebut menambahkan informasi yang tidak muncul dalam teks sumber. Detail tambahan tersebut bisa saja benar secara faktual, namun tetap dihitung sebagai halusinasi. Perilaku ini menyisipkan konteks palsu ke dalam jawaban yang sebenarnya terdengar masuk akal. Vectara menyatakan temuan tersebut secara langsung dalam postingan publik di X. “DeepSeek-R1 menunjukkan tingkat halusinasi 14,3%, hampir 4x lebih tinggi daripada DeepSeek-V3,” catat Vectara dalam sebuah postingan. Pola ini tidak hanya terjadi pada DeepSeek. Pelacak industri mencatat trade-off yang sama pada model terlatih penalaran dari laboratorium lain. Reinforcement learning yang mempertajam chain-of-thought juga memberikan imbalan pada generasi yang lebih berani dan percaya diri. Mengapa Token AI Kripto Terjebak dalam Trade-Off Ini Pasar kripto kini menampung ratusan token AI agent, yang dipimpin oleh Virtuals Protocol (VIRTUAL), ai16z (AI16Z), dan aixbt (AIXBT). Kategori ini telah mencatatkan pertumbuhan sekitar 39,4% selama periode 30 hari terakhir. Virtuals saja telah melampaui kapitalisasi pasar sebesar $576 juta. Sebagian besar agen ini membungkus large language model dengan perangkat pendukung. Perangkat tersebut memungkinkan agen untuk memposting di media sosial, mengarahkan perdagangan, mencetak token, atau menghasilkan komentar pasar. Ketika model dasar mengarang tingkat harga, kemitraan, atau alamat kontrak, konsekuensinya bisa berdampak langsung on-chain. Satu analisis BeInCrypto terhadap AIXBT menunjukkan bahwa agen tersebut telah mempromosikan 416 token dengan rata-rata pengembalian 19%. Namun, mekanisme permukaan yang sama membuat pengikut terpapar pada keputusan buruk ketika model tersebut gagal. Permukaan risiko berskala dengan otonomi. Agen read-only yang merangkum sentimen memiliki taruhan yang berbeda dibandingkan agen yang memegang kunci perbendaharaan (treasury keys). Model penalaran sangat menarik bagi agen yang merencanakan berbagai langkah. Itu juga merupakan kasus penggunaan di mana angka 14,3% dari Vectara paling berdampak. Satu fakta yang berhalusinasi di awal chain of thought dapat merambat melalui setiap tindakan hilir. LeCun Berpendapat Masalahnya Ada pada Arsitektur Yann LeCun, kepala ilmuwan AI Meta, telah lama berpendapat bahwa LLM autoregresif tidak dapat sepenuhnya lepas dari halusinasi. Menurut pandangannya, arsitektur itu sendiri tidak memiliki model dunia yang berlandaskan (grounded). Reinforcement learning pada chain-of-thought dapat menutupi masalah tersebut dalam domain sempit seperti matematika dan pengkodean. Namun, akar penyebabnya tetap ada. Laboratorium perbatasan lainnya tidak setuju. Mereka menunjuk pada kemajuan stabil dalam tingkat halusinasi benchmark melalui retrieval augmentation, fine-tune pasca-pelatihan, dan model verifikator. Namun, laporan dari pengembang sering kali sejalan dengan data papan peringkat. Peneliti AI xlr8harder, yang menulis di X tentang sesi debugging dengan R1, merangkum pengalaman sehari-hari. “Deepseek R1 memiliki pemahaman yang tidak terintegrasi tentang jejak pemikirannya. … jadi ia secara default melakukan gaslighting kepada saya dengan halusinasi,” pernyataan mereka. Bagi pengembang agen kripto, pertanyaan praktisnya adalah manajemen risiko, bukan filosofi arsitektur. Desain yang mengarahkan setiap klaim model melalui langkah verifikasi mungkin akan lebih baik. Hal yang

Status data✓ Teks lengkap telah diambilBaca artikel asli (BeInCrypto)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-05-08

Crypto Biz: Wall Street menginginkan lebih dari sekadar Bitcoin

Tingkat kemiripan 180%關鍵字 more/crypto/than

2026-04-23

CLARITY Act mendapatkan urgensi baru seiring lebih dari 100 organisasi kripto mendesak tindakan Senat

Tingkat kemiripan 150%關鍵字 more/crypto/than

2026-04-23

Lebih dari 100 perusahaan kripto mendesak Senat untuk segera membahas RUU struktur pasar AS

Tingkat kemiripan 150%關鍵字 more/crypto/than

2026-05-11