AI가 코드를 더 느리게, 그러나 더 정확하게 작성하도록 만드는 방법: 멀티 모델 PR 리뷰로 버그 확률을 최소화하기

📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯1534 자

전 Microsoft 시니어 엔지니어 Nolan Lawson은 Claude, Codex, Cursor Bugbot 세 가지 모델을 동시에 사용해 PR을 검토하고, 교차 검증을 통해 오탐률을 거의 0에 가깝게 낮췄다. (전편 요약: Claude Code, 주간 Token 사용 상한 50% 증가 발표! 2개월간 Anthropic이 개발자 생태계 선점에 나서) (배경 보충: Stripe, AI Agent 완전 자동화 결제 테스트 시작: x402를 통해 Base 체인 USDC 결제 지원) 우리는 AI coding의 장점이 "대량의 코드를 빠르게 생성"하는 것이라는 점은 알고 있지만, 정확도에 대해서는 여전히 논의의 여지가 있다. 전 Microsoft, Salesforce 시니어 엔지니어 Nolan Lawson은 최근 자신의 블로그에 새로운 워크플로우를 기록했다: 그는 여러 대형 언어 모델을 동시에 사용해 각 pull request(코드 병합 요청, 간단히 말해 새로운 코드를 프로젝트에 투입하는 모든 작업)를 검토하는데, 그 목적은 더 많은 코드를 빠르게 산출하는 것이 아니라 교차 검증을 통해 진짜 bug를 찾아내는 데 있다. 이 프로세스를 통해 그의 코드 산출량은 늘지 않았지만, 코드 품질은 눈에 띄게 개선되었다. Anthropic이 올해 시작한 Glasswing 프로젝트(Mythos 시스템의 공개 업데이트)는 이러한 논리에 직접적인 데이터 기반을 제공했다. 이 시스템은 LLM agents가 실제 오픈소스 코드를 대규모로 스캔하도록 한다. 그 결과: 1,000개가 넘는 오픈소스 프로젝트를 스캔한 후, 시스템은 6,202개의 고심각도 또는 치명적 취약점을 발견한 것으로 추정했으며, 총 23,019개의 취약점(저심각도 포함)을 찾아냈다. 그중 독립 보안 회사가 일일이 검증한 1,752개의 취약점 중 90.6%가 실제 문제로 확인되었고, 62.4%가 고심각도 또는 치명적 등급에 해당했다. 이 수치는 근본적인 전환을 보여준다: bug를 찾는 것은 더 이상 병목이 아니며, 검증과 패치가 병목이 된 것이다. Anthropic은 연구 보고서에서 명확히 밝혔다: "소프트웨어 보안의 진보는 한때 취약점을 찾는 속도에 의해 제한되었지만, 이제는 검증, 공개, 패치의 속도에 의해 제한된다." 다시 말해, AI는 문제의 병목을 "발견"에서 "처리 능력"으로 이동시켰다. Lawson의 핵심 접근 방식은 단일 모델에 의존하지 않고, 서로 다른 여러 벤더의 모델이 동시에 PR 검토를 수행하도록 하는 것이다. 그의 도구 조합에는 Claude code, OpenAI의 Codex, 그리고 Cursor Bugbot이 포함되며, 이 셋이 동일한 pull request에 대해 완전히 독립적으로 검토를 진행한 뒤, 모든 결과를 종합해 critical(치명적), high(높음), medium(중간), low(낮음) 네 가지 심각도 등급에 따라 정렬해 출력한다. 이 다중 모델 교차 검증 설계에는 핵심적인 특성이 하나 있다: 단일 모델은 오탐을 일으키기 쉽지만, 서로 다른 학습 데이터와 아키텍처를 가진 여러 모델이 동시에 동일한 문제를 지목하면 오탐률은 크게 낮아지고 동시에 커버리지는 향상된다. Lawson 본인의 표현을 빌리자면: "오탐률은 0에 가깝고, 발견한 bug의 커버리지는 매우 높다." 그의 의사결정 프로세스는 상당히 명확하다. 모든 critical과 high 문제는 반드시 먼저 수정해야 하며; medium과 low는 "수정 비용"과 "실제 영향"의 비율을 개별적으로 평가해 충분히 가치 있지 않으면 바로 건너뛰어 개발 리소스를 낭비하지 않는다; 만약 어떤 PR에 critical 문제가 너무 많다면, 근본적인 문제가 있는 기반 위에서 계속 패치를 덧붙이는 대신 통째로 포기하고 다시 만든다. 이 프로세스를 도입한 후 Lawson의 실제 결과는 다음과 같다: 코드 산출량(라인 수)은 증가하지 않았고, 오히려 종종 기존의 오래된 bug를 파헤쳐 unit tests(단위 테스트, 간단히 말해 각 작은 기능에 대해 개별적으로 검증하는 자동화 테스트)를 작성해야 했으며, 오래된 문제를 수정하는 데 들이는 시간이 새로운 기능을 추진하는 시간보다 훨씬 많을 때가 많았다. 이는 그가 예상했던 결과는 아니었지만, 다른 각도에서 보면 이는 코드베이스의 건강도가 시스템적으로 보강되고 있다는 신호이다. Lawson은 이러한 작업 방식을 "더 질감 있는 vibe coding"이라고 부르며, 신중하고, 방법론적이며, 품질 지향적이라고 설명한다. 개발 도구의 보급은 보통 "속도"를 가장 앞세운 셀링 포인트로 삼지만, 엔지니어가 실제로 해결해야 하는 문제는 결코 속도만이 아니다. 모든 코드 한 줄에는 유지보수 비용이 있고, 문제가 발생할 확률이 있다. AI를 사용해 코드를 더 느리게 쓰되, 각 줄의 코드가 더 오래 살아남고, 문제가 발생할 확률은 더 낮아지게 한다.

데이터 상태✓ 전체 내용 추출 완료원문 읽기 (動區 BlockTempo)

🔍과거 유사 사건· 키워드 + 종목 매칭1 건

2026-05-15

Raindrop Workshop가 Codex로 당신의 AI Agent의 버그를 자동으로 찾아 수정해 드립니다 (무료 오픈소스)

유사도 120%關鍵字 bug同分類 zh

💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정

원본 정보

ID:f2feed2ef3

출처:動區 BlockTempo

발행:2026-05-26 03:34:37

분류:zh_news · 도출된 분류 zh

종목:지정되지 않음

커뮤니티 투표:+0 / −0 · ⭐ 0 중요 · 💬 0 댓글