如何让 AI 程序写得更慢，但更正确：多模型 PR 审查，让 Bug 概率压到最低

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯1534 字

前微软资深工程师 Nolan Lawson 用 Claude、Codex、Cursor Bugbot 三个模型同步审查 PR，交叉验证将误报率压到接近零。（前情提要：Claude Code 宣布每周 Token 使用上限增加 50%！为期两个月 Anthropic 抢占开发者生态）（背景补充：Stripe 启动 AI Agent 全自动支付测试：透过 x402 支援 Base 链 USDC 付款）我们知道 AI coding 的优势是「快速产出大量程式码」，但是正确度就有待商榷。前微软、Salesforce 资深工程师 Nolan Lawson 最近在部落格记录了一套新的工作流程：他用多个大型语言模型同步审查每一个 pull request（程式码合并请求，简单来说就是每一次把新程式码送进专案的动作），目的是交叉验证找出真实的 bug，而不是快速输出更多程式码。这套流程让他的程式码产出量没有增加，但程式码品质明显改善。 Anthropic 今年启动的 Glasswing 计画（Mythos 系统的公开更新）提供了这套逻辑直接的资料基础。这套系统让 LLM agents 大规模扫描真实的开源程式码。结果是：在扫描超过 1,000 个开源专案后，系统估算发现 6,202 个高严重性或关键性漏洞，总计 23,019 个漏洞（含低严重性）。其中，由独立资安公司逐一验证的 1,752 个漏洞里，90.6% 被确认为真实问题，62.4% 属于高严重性或关键性等级。这些数字说明了一个根本转变：找 bug 不再是瓶颈，验证和修补才是。 Anthropic 在研究报告中明确写道：「软体安全的进展，曾经受限于找漏洞的速度，现在受限于验证、揭露、修补的速度。」换句话说，AI 已经把问题的瓶颈从「发现」推进到了「处理能力」。 Lawson 的核心做法，是让多个不同厂商的模型同时跑 PR 审查，而不是依赖单一模型。他的工具组合包括 Claude code、OpenAI 的 Codex，以及 Cursor Bugbot，三者同步对同一个 pull request 进行完全独立的审查，再汇整所有结果，按照 critical（关键）、high（高）、medium（中）、low（低）四个严重性等级排列输出。这个多模型交叉验证的设计有一个关键特性：单一模型容易误报，但多个来自不同训练资料和架构的模型同时指向同一个问题，误报率就会大幅降低，覆盖率同时提升。用 Lawson 自己的说法：「误报率接近零，找到的 bug 覆盖率很高。」他的决策流程相当明确。所有 critical 和 high 的问题必须先修；medium 和 low 则要个别评估「修复成本」和「实际影响」的比例，不够值得的直接跳过，不浪费开发资源；如果一个 PR 的 critical 问题太多，整个直接放弃重做，而不是在有根本问题的基础上持续打补丁。用了这套流程之后，Lawson 的实际结果是：程式码输出量（行数）没有增加，反而常常挖出既有的旧 bug，被迫去写 unit tests（单元测试，简单来说就是针对每一个小功能单独验证的自动化测试），修旧问题的时间往往远多于推进新功能。这不是他预期的结果，但从另一个角度看，这是程式码基础健康度正在被系统性补强的讯号。 Lawson 把这种工作方式称为「更有质感的 vibe coding」，谨慎、有方法论、以品质为导向。开发工具的普及通常把「速度」放在卖点最前面，但工程师真正要解决的问题，从来不只是速度。每一行程式码都有它的维护成本，都有它出问题的机率。用 AI 把程式写得更慢，但让每一行程式码存活更久、出问题的机率更低。

数据状态✓ 已抓取全文阅读原文（動區 BlockTempo）

🔍历史类似事件· 关键词 + 标的比对1 则

2026-05-15

Raindrop Workshop 用 Codex 帮你的 AI Agent 自动找 bug 并修复（免费开源）

相似度 120%關鍵字 bug同分類 zh

💡 目前用关键词 + 标的比对（MVP）· 之后会升级为 embedding 语义搜寻

原始信息

ID：f2feed2ef3

来源：動區 BlockTempo

发布：2026-05-26 03:34:37

分类：zh_news · 导出分类 zh

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言