Claude Code meluncurkan perintah /goals baru: memisahkan eksekusi dan evaluasi, mencegah AI agent bermalas-malasan atau berbohong

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯1351 kata

Anthropic meluncurkan perintah /goals untuk Claude Code, memisahkan eksekusi tugas dan penilaian penyelesaian ke dalam dua model independen, karena membiarkan AI yang sama menilai pekerjaannya sendiri adalah desain yang cacat secara arsitektural. (Konteks sebelumnya: Claude Code mengumumkan peningkatan batas penggunaan Token mingguan sebesar 50%! Anthropic merebut ekosistem pengembang selama dua bulan) (Latar belakang tambahan: Fitur eksekusi otomatis Claude Code, Routines, telah diluncurkan: mendukung tiga jenis pemicu yaitu penjadwalan, API, dan event GitHub) Anda mungkin pernah mengalami situasi ini: AI menyelesaikan desain kode dan merespons bahwa tugas telah selesai. Namun, beberapa hari kemudian Anda baru menyadari bahwa beberapa modul sama sekali tidak dikompilasi. Ini bukan karena kemampuan model yang kurang, melainkan model itu sendiri memutuskan bahwa ia "sudah selesai", padahal kenyataannya belum. Untuk memperbaiki situasi ini, Anthropic minggu ini meluncurkan perintah /goals baru untuk Claude Code. Logikanya sangat langsung: model yang menjalankan tugas dan model yang menilai apakah tugas selesai harus menjadi dua peran yang berbeda. Model yang sama tidak bisa memainkan kedua peran tersebut secara bersamaan, karena ia akan selalu menjadi juri terburuk dalam menilai pekerjaannya sendiri. How do you keep Claude working until the job is done? Claude Code helps with this in a few ways, including one we shipped recently: /goal. pic.twitter.com/QtVPmwoKct — ClaudeDevs (@ClaudeDevs) May 13, 2026 Pekerjaan agen pengkodean AI adalah sebuah siklus: membaca file, menjalankan perintah, memodifikasi kode, lalu menilai apakah tugas selesai. Masalahnya terletak pada langkah terakhir ini. Konteks yang terakumulasi selama eksekusi: langkah-langkah yang telah selesai, metode yang telah dicoba, kesalahan yang dilalui... membuat model memiliki bias terhadap kemajuannya sendiri. Ia cenderung menyamakan "saya telah melakukan banyak hal" dengan "saya sudah selesai". Masalah ini sangat mahal di lingkungan perusahaan: migrasi kode atau perbaikan pengujian yang berhenti sebelum tahap akhir sering kali baru ditemukan beberapa hari kemudian. Saat ini industri juga memiliki beberapa solusi. OpenAI membiarkan model agen memutuskan sendiri kapan harus berhenti, dan mengizinkan pengembang untuk menghubungkan evaluator eksternal secara mandiri. Google ADK mendukung penilaian independen melalui LoopAgent, dan LangGraph juga mendukung pola serupa, namun solusi-solusi ini memiliki kesamaan: node kritik (critic node) dan logika penghentian perlu dirancang sendiri oleh pengembang, platform tidak menyediakan default. Desain inti dari /goals adalah secara resmi memisahkan "eksekusi" dan "evaluasi" menjadi dua peran. Pengembang memasukkan kondisi target, misalnya: /goal Semua pengujian di bawah direktori test/auth lulus, dan hasil pemeriksaan lint bersih Setiap kali agen mencoba mengakhiri pekerjaan, model evaluasi mengambil alih untuk melakukan verifikasi. Model evaluasi secara default menggunakan Claude Haiku (model yang lebih ringan dari Anthropic). Alasan memilih model kecil sangat sederhana: evaluator hanya perlu membuat penilaian biner, kondisi terpenuhi atau tidak terpenuhi, tidak memerlukan kemampuan penalaran model besar. Ketika kondisi tidak terpenuhi, agen terus menjalankan tugas; ketika kondisi terpenuhi, model evaluasi mencatat hasil ke dalam riwayat percakapan dan menghapus target. Seluruh proses diselesaikan di dalam Claude Code, tanpa memerlukan platform observabilitas pihak ketiga tambahan atau sistem log kustom. Dokumen Anthropic menunjukkan bahwa kondisi target yang efektif biasanya memerlukan tiga elemen: kondisi akhir yang terukur (hasil pengujian, kode keluar build, jumlah file tertentu); metode verifikasi yang jelas (misalnya "kode keluar npm test adalah 0"); dan batasan yang tidak boleh diubah selama proses (misalnya "tidak boleh memodifikasi file pengujian lain").

Status data✓ Teks lengkap telah diambilBaca artikel asli (動區 BlockTempo)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-05-28

Anthropic meluncurkan model terbaru Claude Opus 4.8! Claude Code secara bersamaan menambahkan "Dynamic Workflows", satu orang bisa setara dengan tim pengembang seratus orang

Tingkat kemiripan 170%關鍵字 code/claude同分類 zh

2026-05-26

Setelah Claude Code membuat Uber menghabiskan anggaran tahunan dalam dua bulan, COO terus terang: Konsumsi Token dan output yang berguna tidak memiliki korelasi proporsional

Tingkat kemiripan 170%關鍵字 code/claude同分類 zh

2026-05-24

Perusahaan saya yang beranggotakan 30 orang semuanya menggunakan Claude Code AI, hasilnya "manusia justru harus melakukan lebih banyak pekerjaan daripada sebelumnya"

Tingkat kemiripan 170%關鍵字 code/claude同分類 zh

2026-05-24