Anthropic mengakui Claude "benar-benar menjadi bodoh": tiga kesalahan konfigurasi teknis, telah mereset semua kuota langganan sebagai kompensasi

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯1702 kata

Komunitas terus melaporkan bahwa performa Claude menurun. Pada tanggal 23, Anthropic merilis laporan post-mortem yang menyatakan bahwa akar masalahnya bukan pada model itu sendiri, melainkan pada kesalahan teknis di tiga lapisan produk, yang secara akumulatif membuat pengguna global merasakan penurunan kualitas yang signifikan. (Ringkasan sebelumnya: Valuasi terbaru Anthropic melonjak hingga "800 miliar USD", naik dua kali lipat dalam dua bulan, IPO paling cepat bulan Oktober) (Informasi latar belakang: Proyek open source badclaude yang mempercepat Claude code, menerima surat pemberitahuan pelanggaran hak cipta dari Anthropic) Apakah Anda juga merasa bahwa Claude baru-baru ini "menjadi bodoh"? Beberapa orang mengatakan penalarannya menjadi dangkal, beberapa mengatakan mulai muncul halusinasi, dan yang lain mengatakan konsumsi token menjadi lebih cepat namun kualitas menurun, bahkan muncul istilah baru AI shrinkflation. Meminjam konsep barang konsumsi di mana "porsi berkurang namun harga tetap sama", istilah ini menggambarkan fenomena penurunan kualitas output model secara diam-diam dengan biaya yang sama. Angka pengujian BridgeMind lebih lugas: Akurasi Claude Opus 4.6 turun dari 83,3% menjadi 68,3%, dan peringkatnya merosot dari posisi ke-2 ke posisi ke-10. Stella Laurenzo, Direktur Senior divisi AI AMD, menganalisis 6.852 catatan sesi Claude Code dan lebih dari 230.000 panggilan alat di GitHub, dan juga menemukan bahwa kedalaman penalaran model menurun secara signifikan, dengan kecenderungan memilih "perbaikan termudah" alih-alih "solusi yang benar". Menanggapi hal ini, Anthropic secara resmi merilis laporan post-mortem pada 23 April, mengakui bahwa masalah tersebut memang ada, namun menyatakan bahwa akar masalahnya bukan pada pelatihan model, melainkan pada konfigurasi teknis di tiga lapisan produk. Anthropic mengonfirmasi tiga perubahan lapisan produk independen yang secara akumulatif menyebabkan penurunan kualitas ini: Pertama, penurunan reasoning effort (4 Maret). Anthropic menurunkan default reasoning effort Claude Code dari "tinggi" menjadi "sedang". Yang disebut reasoning effort adalah konfigurasi seberapa dalam model "berpikir" sebelum menjawab setiap pertanyaan. Semakin tinggi pengaturannya, semakin lama waktu yang dihabiskan model untuk penalaran internal, namun antarmuka juga terlihat lebih seperti "macet". Untuk mengatasi masalah persepsi latensi UI, Anthropic memilih untuk menurunkan nilai default tanpa mengevaluasi dampaknya terhadap tugas-tugas kompleks secara memadai. Kedua, caching bug (26 Maret). Insinyur merancang logika optimasi agar model menghapus riwayat pemikiran lama setelah tidak aktif selama lebih dari satu jam untuk menghemat ruang cache. Namun, ada kesalahan kunci dalam implementasinya: tindakan penghapusan tidak dilakukan sekali setelah tidak aktif, melainkan terus dipicu dalam setiap putaran percakapan berikutnya. Hasilnya, model terus kehilangan "memori jangka pendek", menyebabkan kondisi lupa dan pengulangan yang terus-menerus dalam percakapan panjang. Ketiga, batasan redundansi system prompt (16 Maret). Anthropic menambahkan instruksi dalam system prompt latar belakang yang meminta model untuk memadatkan teks antar panggilan alat menjadi kurang dari 25 kata dan balasan akhir kurang dari 100 kata. Langkah yang awalnya digunakan untuk mengurangi output redundan Opus 4.7 ini justru secara tidak sengaja memengaruhi Opus 4.6, menyebabkan penurunan kualitas evaluasi kode sebesar 3%. Kesamaan dari ketiga perubahan ini adalah: semuanya terjadi di lapisan Harness (lingkungan eksekusi model, lapisan teknis yang membungkus model, menentukan system prompt, logika cache, dll.), bukan pada pelatihan model itu sendiri, namun cukup untuk membuat pengguna global merasakan kesenjangan yang nyata. Anthropic telah memperbaiki bug cache dalam versi v2.1.116 dan mengembalikan pengaturan reasoning effort serta batasan redundansi. Untuk mencegah terulangnya kejadian serupa, Anthropic mengumumkan empat langkah: Satu, lebih banyak karyawan internal akan menggunakan Claude Code yang sepenuhnya identik dengan versi publik. Dua, setiap perubahan system prompt akan menjalankan pengujian ablasi (ablation, mematikan satu variabel secara berurutan, menguji dampak independennya terhadap hasil). Tiga, menambahkan alat audit agar perubahan prompt lebih mudah dilacak. Empat, mereset kuota penggunaan semua pengguna berlangganan sebagai kompensasi. Alasan pengguna menamai penurunan ini sebagai "AI shrinkflation" adalah karena adanya dilema struktural: model adalah kotak hitam, pengguna biasa, bahkan pengembang profesional, tidak dapat membedakan antara "degradasi model itu sendiri" dan "kesalahan konfigurasi teknis". Keduanya memiliki dampak yang sama terhadap pengalaman pengguna, namun memiliki penyebab dan

Status data✓ Teks lengkap telah diambilBaca artikel asli (動區 BlockTempo)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-04-24

Claude kini dapat membantu Anda memesan Uber, memutar Spotify.. terhubung dengan delapan aplikasi sehari-hari, Anthropic sedang memainkan langkah besar

Tingkat kemiripan 170%關鍵字 claude/anthropic同分類 zh

2026-04-23

CEO OpenAI Sam Altman mengkritik Anthropic: Pemasaran ketakutan Claude Mythos hanya untuk memonopoli AI

Tingkat kemiripan 170%關鍵字 claude/anthropic同分類 zh

2026-04-22

Bloomberg melaporkan Claude Mythos telah mengalami akses tidak sah! Celah keamanan paling sulit dicegah bagi Anthropic selamanya adalah "manusia"

Tingkat kemiripan 170%關鍵字 claude/anthropic同分類 zh

2026-04-21