Cara membuat AI menulis kode lebih lambat, tetapi lebih akurat: Review PR multi-model, menekan probabilitas Bug seminimal mungkin

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯1534 kata

Mantan insinyur senior Microsoft Nolan Lawson menggunakan tiga model Claude, Codex, dan Cursor Bugbot untuk meninjau PR secara sinkron, dengan validasi silang menekan tingkat false positive hingga mendekati nol. (Berita sebelumnya: Claude Code mengumumkan peningkatan batas penggunaan Token mingguan sebesar 50%! Selama dua bulan Anthropic merebut ekosistem developer) (Latar belakang tambahan: Stripe meluncurkan uji pembayaran otomatis penuh AI Agent: mendukung pembayaran USDC di rantai Base melalui x402) Kita tahu bahwa keunggulan AI coding adalah "menghasilkan kode dalam jumlah besar dengan cepat", tetapi akurasinya masih diragukan. Mantan insinyur senior Microsoft dan Salesforce, Nolan Lawson, baru-baru ini mencatat di blognya tentang alur kerja baru: ia menggunakan beberapa model bahasa besar untuk meninjau setiap pull request (permintaan penggabungan kode, secara sederhana adalah setiap kali kode baru dikirim ke proyek) secara sinkron, dengan tujuan validasi silang untuk menemukan bug yang nyata, bukan menghasilkan lebih banyak kode dengan cepat. Alur kerja ini tidak meningkatkan jumlah output kodenya, tetapi kualitas kodenya meningkat secara signifikan. Program Glasswing yang diluncurkan Anthropic tahun ini (pembaruan publik dari sistem Mythos) memberikan dasar data yang langsung mendukung logika ini. Sistem ini memungkinkan LLM agents untuk memindai kode open source nyata dalam skala besar. Hasilnya: setelah memindai lebih dari 1.000 proyek open source, sistem memperkirakan menemukan 6.202 kerentanan dengan tingkat keparahan tinggi atau kritis, dengan total 23.019 kerentanan (termasuk tingkat keparahan rendah). Di antaranya, dari 1.752 kerentanan yang divalidasi satu per satu oleh perusahaan keamanan independen, 90,6% dikonfirmasi sebagai masalah nyata, dan 62,4% termasuk dalam tingkat keparahan tinggi atau kritis. Angka-angka ini menunjukkan pergeseran fundamental: menemukan bug bukan lagi hambatan, validasi dan perbaikanlah yang menjadi hambatan. Anthropic dengan jelas menulis dalam laporan penelitiannya: "Kemajuan keamanan perangkat lunak, yang dulunya dibatasi oleh kecepatan menemukan kerentanan, kini dibatasi oleh kecepatan validasi, pengungkapan, dan perbaikan." Dengan kata lain, AI telah memindahkan hambatan masalah dari "penemuan" ke "kapasitas penanganan". Pendekatan inti Lawson adalah menjalankan beberapa model dari vendor berbeda secara bersamaan untuk meninjau PR, daripada bergantung pada satu model. Kombinasi alatnya meliputi Claude code, Codex dari OpenAI, dan Cursor Bugbot, ketiganya secara sinkron melakukan peninjauan yang sepenuhnya independen pada pull request yang sama, kemudian mengumpulkan semua hasilnya, dan mengurutkan output berdasarkan empat tingkat keparahan: critical (kritis), high (tinggi), medium (sedang), low (rendah). Desain validasi silang multi-model ini memiliki karakteristik kunci: satu model rentan terhadap false positive, tetapi ketika beberapa model dari data pelatihan dan arsitektur yang berbeda secara bersamaan menunjuk ke masalah yang sama, tingkat false positive akan turun drastis sementara cakupannya meningkat. Dalam kata-kata Lawson sendiri: "Tingkat false positive mendekati nol, dan cakupan bug yang ditemukan sangat tinggi." Alur pengambilan keputusannya cukup jelas. Semua masalah critical dan high harus diperbaiki terlebih dahulu; medium dan low harus dievaluasi secara individual berdasarkan rasio "biaya perbaikan" dan "dampak nyata", yang tidak cukup berharga langsung dilewati, tidak membuang sumber daya pengembangan; jika sebuah PR memiliki terlalu banyak masalah critical, seluruhnya langsung dibatalkan dan dikerjakan ulang, daripada terus menambal di atas dasar yang bermasalah secara fundamental. Setelah menggunakan alur kerja ini, hasil aktual Lawson adalah: jumlah output kode (baris) tidak meningkat, bahkan sering menggali bug lama yang ada, dipaksa untuk menulis unit tests (uji unit, secara sederhana adalah uji otomatis yang memverifikasi setiap fungsi kecil secara terpisah), waktu untuk memperbaiki masalah lama sering kali jauh lebih banyak daripada mendorong fitur baru. Ini bukan hasil yang ia harapkan, tetapi dari sudut pandang lain, ini adalah sinyal bahwa kesehatan dasar kode sedang diperkuat secara sistematis. Lawson menyebut cara kerja ini sebagai "vibe coding yang lebih berkualitas", hati-hati, metodologis, dan berorientasi pada kualitas. Popularitas alat pengembangan biasanya menempatkan "kecepatan" di depan sebagai daya tarik utama, tetapi masalah yang sebenarnya ingin dipecahkan oleh para insinyur tidak pernah hanya kecepatan. Setiap baris kode memiliki biaya pemeliharaannya, memiliki probabilitas masalahnya. Menggunakan AI untuk menulis program lebih lambat, tetapi membuat setiap baris kode bertahan lebih lama dan memiliki probabilitas masalah yang lebih rendah.

Status data✓ Teks lengkap telah diambilBaca artikel asli (動區 BlockTempo)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset1 berita

2026-05-15

Raindrop Workshop menggunakan Codex untuk membantu AI Agent Anda secara otomatis menemukan bug dan memperbaikinya (gratis dan open source)

Tingkat kemiripan 120%關鍵字 bug同分類 zh

💡 Saat ini menggunakan pencocokan kata kunci + aset (MVP) · Akan ditingkatkan ke pencarian semantik embedding di masa mendatang

Informasi mentah

ID:f2feed2ef3

Sumber:動區 BlockTempo

Diterbitkan:2026-05-26 03:34:37

Kategori:zh_news · Kategori ekspor zh

Aset:Tidak ditentukan

Voting komunitas:+0 / −0 · ⭐ 0 Penting · 💬 0 Komentar