Danh sách tinCách làm cho AI viết code chậm hơn nhưng chính xác hơn: Review PR đa mô hình, giảm thiểu xác suất Bug xuống mức thấp nhất
動區 BlockTempo2026-05-26 03:34:37

Cách làm cho AI viết code chậm hơn nhưng chính xác hơn: Review PR đa mô hình, giảm thiểu xác suất Bug xuống mức thấp nhất

ORIGINAL如何讓 AI 程式寫得更慢,但更正確:多模型 PR 審查,讓 Bug 機率壓到最低
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯1534 từ
Cựu kỹ sư cấp cao của Microsoft, Nolan Lawson, sử dụng đồng thời ba mô hình Claude, Codex, Cursor Bugbot để review PR, xác minh chéo đã đẩy tỷ lệ báo động giả xuống gần như bằng không. (Bối cảnh trước: Claude Code công bố giới hạn sử dụng Token hàng tuần tăng 50%! Trong vòng hai tháng, Anthropic giành lấy hệ sinh thái nhà phát triển) (Bổ sung bối cảnh: Stripe khởi động thử nghiệm thanh toán tự động hoàn toàn bằng AI Agent: hỗ trợ thanh toán USDC trên chuỗi Base thông qua x402) Chúng ta đều biết ưu điểm của AI coding là "sản xuất nhanh chóng một lượng lớn mã nguồn", nhưng độ chính xác thì vẫn còn phải xem xét. Cựu kỹ sư cấp cao của Microsoft và Salesforce, Nolan Lawson, gần đây đã ghi lại trên blog một quy trình làm việc mới: anh sử dụng nhiều mô hình ngôn ngữ lớn để review đồng bộ từng pull request (yêu cầu hợp nhất mã, nói đơn giản là mỗi lần đưa mã mới vào dự án), mục đích là xác minh chéo để tìm ra bug thật sự, chứ không phải sản xuất nhanh hơn nhiều mã hơn. Quy trình này khiến sản lượng mã của anh không tăng lên, nhưng chất lượng mã được cải thiện rõ rệt. Kế hoạch Glasswing mà Anthropic khởi động trong năm nay (bản cập nhật công khai của hệ thống Mythos) đã cung cấp cơ sở dữ liệu trực tiếp cho logic này. Hệ thống này cho phép LLM agents quét quy mô lớn các mã nguồn mở thực tế. Kết quả là: sau khi quét hơn 1.000 dự án mã nguồn mở, hệ thống ước tính phát hiện 6.202 lỗ hổng nghiêm trọng cao hoặc cực kỳ nghiêm trọng, tổng cộng 23.019 lỗ hổng (bao gồm cả mức độ nghiêm trọng thấp). Trong số đó, trong 1.752 lỗ hổng được các công ty an ninh mạng độc lập xác minh từng cái một, 90,6% được xác nhận là vấn đề thực sự, 62,4% thuộc cấp độ nghiêm trọng cao hoặc cực kỳ nghiêm trọng. Những con số này cho thấy một sự chuyển dịch căn bản: tìm bug không còn là nút thắt, xác minh và vá lỗi mới là. Anthropic đã viết rõ trong báo cáo nghiên cứu: "Tiến bộ của bảo mật phần mềm, từng bị giới hạn bởi tốc độ tìm lỗ hổng, giờ đây bị giới hạn bởi tốc độ xác minh, công bố và vá lỗi." Nói cách khác, AI đã đẩy nút thắt của vấn đề từ "phát hiện" sang "năng lực xử lý". Cách làm cốt lõi của Lawson là cho nhiều mô hình từ các nhà cung cấp khác nhau chạy review PR đồng thời, thay vì dựa vào một mô hình duy nhất. Bộ công cụ của anh bao gồm Claude code, Codex của OpenAI, và Cursor Bugbot, cả ba đồng thời thực hiện review hoàn toàn độc lập trên cùng một pull request, sau đó tổng hợp tất cả kết quả, sắp xếp đầu ra theo bốn cấp độ nghiêm trọng critical (nguy cấp), high (cao), medium (trung bình), low (thấp). Thiết kế xác minh chéo đa mô hình này có một đặc tính then chốt: một mô hình đơn lẻ dễ báo động giả, nhưng khi nhiều mô hình từ các dữ liệu huấn luyện và kiến trúc khác nhau cùng chỉ ra một vấn đề, tỷ lệ báo động giả sẽ giảm đáng kể, đồng thời phạm vi bao phủ tăng lên. Theo lời của chính Lawson: "Tỷ lệ báo động giả gần như bằng không, phạm vi bao phủ bug được tìm thấy rất cao." Quy trình ra quyết định của anh khá rõ ràng. Tất cả các vấn đề critical và high phải được sửa trước; medium và low cần được đánh giá riêng tỷ lệ giữa "chi phí sửa chữa" và "tác động thực tế", những vấn đề không đủ đáng giá thì bỏ qua trực tiếp, không lãng phí tài nguyên phát triển; nếu một PR có quá nhiều vấn đề critical, toàn bộ sẽ bị loại bỏ và làm lại, thay vì tiếp tục vá víu trên một nền tảng có vấn đề căn bản. Sau khi áp dụng quy trình này, kết quả thực tế của Lawson là: sản lượng mã (số dòng) không tăng lên, ngược lại thường xuyên đào ra những bug cũ tồn tại từ trước, buộc anh phải viết unit tests (kiểm thử đơn vị, nói đơn giản là kiểm thử tự động xác minh riêng từng chức năng nhỏ), thời gian sửa các vấn đề cũ thường nhiều hơn nhiều so với thúc đẩy các tính năng mới. Đây không phải là kết quả anh mong đợi, nhưng nhìn từ một góc độ khác, đây là tín hiệu cho thấy sức khỏe nền tảng của mã đang được củng cố một cách có hệ thống. Lawson gọi cách làm việc này là "vibe coding có chất lượng hơn", thận trọng, có phương pháp luận, lấy chất lượng làm định hướng. Sự phổ biến của các công cụ phát triển thường đặt "tốc độ" lên hàng đầu trong các điểm bán hàng, nhưng vấn đề mà các kỹ sư thực sự cần giải quyết, chưa bao giờ chỉ là tốc độ. Mỗi dòng mã đều có chi phí bảo trì của nó, đều có xác suất xảy ra vấn đề của nó. Dùng AI để viết mã chậm hơn, nhưng làm cho mỗi dòng mã tồn tại lâu hơn, xác suất xảy ra vấn đề thấp hơn.
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (動區 BlockTempo)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản1 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:f2feed2ef3
Nguồn:動區 BlockTempo
Đăng:2026-05-26 03:34:37
Danh mục:zh_news · Danh mục xuất zh
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận