要闻列表如何让 AI 程序写得更慢,但更正确:多模型 PR 审查,让 Bug 概率压到最低
動區 BlockTempo2026-05-26 03:34:37

如何让 AI 程序写得更慢,但更正确:多模型 PR 审查,让 Bug 概率压到最低

ORIGINAL如何讓 AI 程式寫得更慢,但更正確:多模型 PR 審查,讓 Bug 機率壓到最低
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯1534 字
前微软资深工程师 Nolan Lawson 用 Claude、Codex、Cursor Bugbot 三个模型同步审查 PR,交叉验证将误报率压到接近零。 (前情提要:Claude Code 宣布每周 Token 使用上限增加 50%!为期两个月 Anthropic 抢占开发者生态) (背景补充:Stripe 启动 AI Agent 全自动支付测试:透过 x402 支援 Base 链 USDC 付款) 我们知道 AI coding 的优势是「快速产出大量程式码」,但是正确度就有待商榷。前微软、Salesforce 资深工程师 Nolan Lawson 最近在部落格记录了一套新的工作流程:他用多个大型语言模型同步审查每一个 pull request(程式码合并请求,简单来说就是每一次把新程式码送进专案的动作),目的是交叉验证找出真实的 bug,而不是快速输出更多程式码。 这套流程让他的程式码产出量没有增加,但程式码品质明显改善。 Anthropic 今年启动的 Glasswing 计画(Mythos 系统的公开更新)提供了这套逻辑直接的资料基础。 这套系统让 LLM agents 大规模扫描真实的开源程式码。结果是:在扫描超过 1,000 个开源专案后,系统估算发现 6,202 个高严重性或关键性漏洞,总计 23,019 个漏洞(含低严重性)。其中,由独立资安公司逐一验证的 1,752 个漏洞里,90.6% 被确认为真实问题,62.4% 属于高严重性或关键性等级。 这些数字说明了一个根本转变:找 bug 不再是瓶颈,验证和修补才是。 Anthropic 在研究报告中明确写道:「软体安全的进展,曾经受限于找漏洞的速度,现在受限于验证、揭露、修补的速度。」换句话说,AI 已经把问题的瓶颈从「发现」推进到了「处理能力」。 Lawson 的核心做法,是让多个不同厂商的模型同时跑 PR 审查,而不是依赖单一模型。 他的工具组合包括 Claude code、OpenAI 的 Codex,以及 Cursor Bugbot,三者同步对同一个 pull request 进行完全独立的审查,再汇整所有结果,按照 critical(关键)、high(高)、medium(中)、low(低)四个严重性等级排列输出。 这个多模型交叉验证的设计有一个关键特性:单一模型容易误报,但多个来自不同训练资料和架构的模型同时指向同一个问题,误报率就会大幅降低,覆盖率同时提升。用 Lawson 自己的说法:「误报率接近零,找到的 bug 覆盖率很高。」 他的决策流程相当明确。所有 critical 和 high 的问题必须先修;medium 和 low 则要个别评估「修复成本」和「实际影响」的比例,不够值得的直接跳过,不浪费开发资源;如果一个 PR 的 critical 问题太多,整个直接放弃重做,而不是在有根本问题的基础上持续打补丁。 用了这套流程之后,Lawson 的实际结果是:程式码输出量(行数)没有增加,反而常常挖出既有的旧 bug,被迫去写 unit tests(单元测试,简单来说就是针对每一个小功能单独验证的自动化测试),修旧问题的时间往往远多于推进新功能。 这不是他预期的结果,但从另一个角度看,这是程式码基础健康度正在被系统性补强的讯号。 Lawson 把这种工作方式称为「更有质感的 vibe coding」,谨慎、有方法论、以品质为导向。 开发工具的普及通常把「速度」放在卖点最前面,但工程师真正要解决的问题,从来不只是速度。每一行程式码都有它的维护成本,都有它出问题的机率。用 AI 把程式写得更慢,但让每一行程式码存活更久、出问题的机率更低。
数据状态✓ 已抓取全文阅读原文(動區 BlockTempo)
🔍历史类似事件· 关键词 + 标的比对1 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:f2feed2ef3
来源:動區 BlockTempo
发布:2026-05-26 03:34:37
分类:zh_news · 导出分类 zh
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言