왜 AI 애플리케이션 회사들은 모두 자체적으로 모델을 훈련시키기 시작했을까? 당신의 사용자 데이터, 그것이 바로 당신의 해자다

장기 주기 에이전트 루프를 핵심 제품으로 삼는 기업들이 체계적으로 대형 연구소 모델에서 벗어나, 자체 훈련 전용 모델로 전환하고 있다. 본 글은 Baseten 공동 창업자 Charlie O'Neill의 글에서 출발하여 동구(動區)가 편역·정리한 것이다. (이전 내용: Cursor가 Kimi K2.5로 모델을 훈련한 사실이 발각! 트윗 삭제, 공식 입장 급선회) (배경 보충: Cursor 기업가치 두 배 상승하여 500억 달러, 새로운 20억 달러 라운드 투자 유치 예정) 지난 5년간 내가 매일 해온 일은 범용 LLM을 가져와 특정 작업을 수행하도록 가르치는 것이었다. 처음에는 GPT-2에게 모듈러 덧셈을 가르쳤고, 지금은 조 단위 파라미터 이상의 모델에게 때로는 몇 시간이 걸리는 작업을 수행하도록 가르치고 있다. 2024년은 "래퍼 계층(wrapper layer)"의 해였다. Cursor가 가장 전형적인 예다. 대형 연구소의 모델을 감싸 GitHub Copilot을 뛰어넘어 AI 보조 코딩의 최우선 선택지가 되었다. 2025년, Cursor는 Composer를 출시했다. 기반은 오픈소스 Kimi지만, 마법은 전적으로 내부에서 사후 훈련(post-training)된 모델에서 비롯된다. 그들이 이렇게 한 것은 API 비용을 절약하기 위해서가 아니라, 시장이 아직 완전히 가격에 반영하지 못한 한 가지 사실을 명확히 깨달았기 때문이다. Cursor 안에서 좋은 코드를 만들어내기 위한 reward signal은 오직 Cursor 내부에만 존재하며, 다른 어디에도 없다. Cursor는 단지 가장 눈에 띄는 사례일 뿐, 이것은 App 계층 전반에서 점점 더 일관된 전략으로 자리잡았다. 사용자에 밀착하여 모델이 언제 진정으로 효과적인지 이해한 다음, 더 나은 모델과 제품을 훈련시켜 플라이휠을 돌린다. 이 패턴은 반복적으로 나타나고 있으며, 더 이상 우연일 수 없다. 긴 흐름의 agentic loop를 제품으로 가진 모든 기업이 대형 연구소를 떠나, 자체 상호작용 데이터로 훈련된 모델로 전환하고 있다. Decagon, Abridge, OpenEvidence, Hippocratic, Intercom, Chroma, Pinterest, Cognition, Lovable, Notion, Harvey, Gamma, World Labs 등 최첨단 기업들이 모두 오픈소스 가중치 위에서 자체 모델을 훈련하고 있다. Baseten에서 우리는 이 물결을 탄 기업들이 핵심 agent를 훈련하도록 도와, 그들이 최첨단 API에서 전문화된 모델로 옮겨가도록 지원하고 있다. 흔한 반론은 이렇다. "일반화는 결국 전문화를 이길 것이다. 즉, 사전 훈련의 규모가 승리할 것이니, 다음 기반 모델을 기다리면 된다." 이 주장은 컴퓨팅 자원을 고정된 목표에 투입할 때는 성립한다. 그러나 대부분의 목표는 고정되어 있지 않다. "이 사용자의 repo에서 좋은 코드 자동 완성을 하라" 또는 "이 의사의 환자군에 대해 좋은 임상 기록을 작성하라" 같은 것들은 모두 움직이는 목표다. 정확성은 제품 반복을 통해 비로소 발견된다. 정적인 코퍼스에 대해 아무리 많은 next-token prediction을 수행해도 그것을 만들어낼 수 없다. 오직 결과를 대상으로 한 RL(수락 vs. 거절된 자동완성, 실제 워크플로우에서 성공 vs. 실패한 agent 궤적)만이 그것을 만들어낼 수 있다. 그리고 그러한 결과는 오직 제품이 실행되는 곳에만 존재한다. 이것이 전문화가 일반화를 이기는 축이며, 최첨단에서 여전히 남아 있는 공간의 축이다. 지난 한 해 동안, 동일한 능력 예산에서 전문화된 오픈소스 모델은 in-distribution agentic 작업에서 최첨단 모델과 안정적으로 동등하거나 능가하는 성능을 보였다. 작업의 흐름이 길고 도구 사용에 의존할수록 그 격차는 커진다. 방향은 최첨단과 일치하지만 메커니즘은 다르다. 우리는 약 한 자릿수 더 나은 단위 경제성에 근접하고 있다. 그 이유는 조직 구조에 있다. 최첨단 연구소의 조직 방식은 "하나의 모델로 다수의 고객에게 서비스하는 것"이다. 전문화는 그 반대를 요구한다. "세분화된 고객을 위해 다수의 모델을 구축하고, 추론 스택 및 고객의 데이터 루프와 공동 설계하라." 연구소가 사전 훈련에 능숙해지도록 만드는 특성들(중앙집중식 훈련 운영, 단일 모델 서비스 경제성, 연구실형 조직 구조)과 전문화 비즈니스가 성공하기 위해 필요한 특성들 사이에는 능동적인 긴장 관계가 존재한다. Fine-tuning API는 부차적 사업일 수밖에 없는데, 그것이 부차적 사업이 되어야만 하기 때문이다. 증거: OpenAI는 방금 그들의 fine-tuning API를 폐기했다. 전문화를 1급 비즈니스로 취급한다는 것은, 사전 훈련 규모가 현실 세계 가치의 핵심 제약이 아니라는 점을 인정하는 것이며, 이는 그들의 자본 구조 전체가 기반하고 있는 명제다. 그들은 도메인 전문가를 고용할 수 있지만 소용이 없다. OpenEvidence나 Abridge를 훌륭하게 만드는 98%는 의학 지식이 아니라, 그들이 제품 안에 구축한 피드백 루프이기 때문이다. 이 물결을 탄 기업들은 모두 명확히 깨달았다. 소프트웨어 비용이 붕괴된 이후, 유일하게 살아남을 수 있는 해자(moat)는 누구도 볼 수 없는 신호로 훈련된 모델을 보유하는 것이다. - 모든 사용자 session이 훈련 데이터를 생성한다 - 모든 훈련 운영이 더 나은 모델을 산출한다 - 더 나은 모델이 더 많은 사용자와 더 많은 데이터를 끌어들인다 플라이휠은 제품 루프 안에서 돈다. 그리고 대형 연구소는, 그 규모가 아무리 크더라도, 이 루프의 바깥에 있다. 모든 제품은 "무엇이 좋은가"에 대한 극도로 세밀한 기준을 가지고 있다. 기업들이 현재 관심을 두는 것은 모델 UX다. 이는 훈련 단계에서 결정되며, prompt로는 제거할 수 없다(예: 도구 호출이나 검색 깊이의 정도, 도구 호출의 병렬성 등). App 계층 기업들이 현재 던지는 질문은 더 이상 "우리는 AI를 어떻게 사용할 것인가?"가 아니다. 대신: "우리는 어떻게 상품화에 저항하고, 고객에게 더 나은 결과를 제공할 것인가?" 답은: 당신이 매일 서비스하는 대상에 대한 고유한 이해를 바탕으로, 전문화된 모델을 훈련하라. 대형 연구소는 할 수 없지만, 당신은 할 수 있다.