Daftar beritaAnthropic mengakui Claude "benar-benar menjadi bodoh": tiga kesalahan konfigurasi teknis, telah mereset semua kuota langganan sebagai kompensasi
動區 BlockTempo2026-04-24 01:41:06

Anthropic mengakui Claude "benar-benar menjadi bodoh": tiga kesalahan konfigurasi teknis, telah mereset semua kuota langganan sebagai kompensasi

ORIGINALAnthropic 承認 Claude「真的變笨」:三個工程配置失誤,已重置所有訂閱額度當補償
Analisis Dampak AIGrok sedang menganalisis...
📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯1702 kata
Komunitas terus melaporkan bahwa performa Claude menurun. Pada tanggal 23, Anthropic merilis laporan post-mortem yang menyatakan bahwa akar masalahnya bukan pada model itu sendiri, melainkan pada kesalahan teknis di tiga lapisan produk, yang secara akumulatif membuat pengguna global merasakan penurunan kualitas yang signifikan. (Ringkasan sebelumnya: Valuasi terbaru Anthropic melonjak hingga "800 miliar USD", naik dua kali lipat dalam dua bulan, IPO paling cepat bulan Oktober) (Informasi latar belakang: Proyek open source badclaude yang mempercepat Claude code, menerima surat pemberitahuan pelanggaran hak cipta dari Anthropic) Apakah Anda juga merasa bahwa Claude baru-baru ini "menjadi bodoh"? Beberapa orang mengatakan penalarannya menjadi dangkal, beberapa mengatakan mulai muncul halusinasi, dan yang lain mengatakan konsumsi token menjadi lebih cepat namun kualitas menurun, bahkan muncul istilah baru AI shrinkflation. Meminjam konsep barang konsumsi di mana "porsi berkurang namun harga tetap sama", istilah ini menggambarkan fenomena penurunan kualitas output model secara diam-diam dengan biaya yang sama. Angka pengujian BridgeMind lebih lugas: Akurasi Claude Opus 4.6 turun dari 83,3% menjadi 68,3%, dan peringkatnya merosot dari posisi ke-2 ke posisi ke-10. Stella Laurenzo, Direktur Senior divisi AI AMD, menganalisis 6.852 catatan sesi Claude Code dan lebih dari 230.000 panggilan alat di GitHub, dan juga menemukan bahwa kedalaman penalaran model menurun secara signifikan, dengan kecenderungan memilih "perbaikan termudah" alih-alih "solusi yang benar". Menanggapi hal ini, Anthropic secara resmi merilis laporan post-mortem pada 23 April, mengakui bahwa masalah tersebut memang ada, namun menyatakan bahwa akar masalahnya bukan pada pelatihan model, melainkan pada konfigurasi teknis di tiga lapisan produk. Anthropic mengonfirmasi tiga perubahan lapisan produk independen yang secara akumulatif menyebabkan penurunan kualitas ini: Pertama, penurunan reasoning effort (4 Maret). Anthropic menurunkan default reasoning effort Claude Code dari "tinggi" menjadi "sedang". Yang disebut reasoning effort adalah konfigurasi seberapa dalam model "berpikir" sebelum menjawab setiap pertanyaan. Semakin tinggi pengaturannya, semakin lama waktu yang dihabiskan model untuk penalaran internal, namun antarmuka juga terlihat lebih seperti "macet". Untuk mengatasi masalah persepsi latensi UI, Anthropic memilih untuk menurunkan nilai default tanpa mengevaluasi dampaknya terhadap tugas-tugas kompleks secara memadai. Kedua, caching bug (26 Maret). Insinyur merancang logika optimasi agar model menghapus riwayat pemikiran lama setelah tidak aktif selama lebih dari satu jam untuk menghemat ruang cache. Namun, ada kesalahan kunci dalam implementasinya: tindakan penghapusan tidak dilakukan sekali setelah tidak aktif, melainkan terus dipicu dalam setiap putaran percakapan berikutnya. Hasilnya, model terus kehilangan "memori jangka pendek", menyebabkan kondisi lupa dan pengulangan yang terus-menerus dalam percakapan panjang. Ketiga, batasan redundansi system prompt (16 Maret). Anthropic menambahkan instruksi dalam system prompt latar belakang yang meminta model untuk memadatkan teks antar panggilan alat menjadi kurang dari 25 kata dan balasan akhir kurang dari 100 kata. Langkah yang awalnya digunakan untuk mengurangi output redundan Opus 4.7 ini justru secara tidak sengaja memengaruhi Opus 4.6, menyebabkan penurunan kualitas evaluasi kode sebesar 3%. Kesamaan dari ketiga perubahan ini adalah: semuanya terjadi di lapisan Harness (lingkungan eksekusi model, lapisan teknis yang membungkus model, menentukan system prompt, logika cache, dll.), bukan pada pelatihan model itu sendiri, namun cukup untuk membuat pengguna global merasakan kesenjangan yang nyata. Anthropic telah memperbaiki bug cache dalam versi v2.1.116 dan mengembalikan pengaturan reasoning effort serta batasan redundansi. Untuk mencegah terulangnya kejadian serupa, Anthropic mengumumkan empat langkah: Satu, lebih banyak karyawan internal akan menggunakan Claude Code yang sepenuhnya identik dengan versi publik. Dua, setiap perubahan system prompt akan menjalankan pengujian ablasi (ablation, mematikan satu variabel secara berurutan, menguji dampak independennya terhadap hasil). Tiga, menambahkan alat audit agar perubahan prompt lebih mudah dilacak. Empat, mereset kuota penggunaan semua pengguna berlangganan sebagai kompensasi. Alasan pengguna menamai penurunan ini sebagai "AI shrinkflation" adalah karena adanya dilema struktural: model adalah kotak hitam, pengguna biasa, bahkan pengembang profesional, tidak dapat membedakan antara "degradasi model itu sendiri" dan "kesalahan konfigurasi teknis". Keduanya memiliki dampak yang sama terhadap pengalaman pengguna, namun memiliki penyebab dan
Status data✓ Teks lengkap telah diambilBaca artikel asli (動區 BlockTempo)
🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita
💡 Saat ini menggunakan pencocokan kata kunci + aset (MVP) · Akan ditingkatkan ke pencarian semantik embedding di masa mendatang
Informasi mentah
ID:221c38dd8d
Sumber:動區 BlockTempo
Diterbitkan:2026-04-24 01:41:06
Kategori:zh_news · Kategori ekspor zh
Aset:Tidak ditentukan
Voting komunitas:+0 /0 · ⭐ 0 Penting · 💬 0 Komentar
Anthropic mengakui Claude "benar-benar menjadi bodoh": tiga kesalahan konfigurasi teknis, telah mereset semua kuota langganan sebagai kompensasi | Feel.Trading