Tại sao các công ty ứng dụng AI đều bắt đầu tự huấn luyện mô hình? Dữ liệu người dùng của bạn chính là hào nước phòng thủ của bạn

Mọi công ty lấy vòng lặp agent chu kỳ dài làm sản phẩm cốt lõi đều đang một cách có hệ thống rời bỏ các mô hình của các phòng thí nghiệm lớn để chuyển sang tự huấn luyện mô hình riêng. Bài viết này có nguồn từ bài của Charlie O'Neill — đồng sáng lập Baseten, do động khu (動區) biên dịch và tổng hợp. (Tóm tắt trước đó: Cursor bị bắt quả tang dùng Kimi K2.5 để huấn luyện mô hình! Xóa tweet, lập trường chính thức xoay chuyển gấp) (Bổ sung bối cảnh: Định giá Cursor tăng gấp đôi lên 50 tỷ USD, đón vòng gọi vốn mới 2 tỷ USD) Năm năm qua, việc tôi làm mỗi ngày là lấy một LLM đa dụng và dạy nó làm những việc cụ thể. Ban đầu là dạy GPT-2 làm phép cộng modular; còn bây giờ là dạy các mô hình từ nghìn tỷ tham số trở lên thực hiện những tác vụ có khi mất hàng giờ mới hoàn tất. Năm 2024 là năm của "tầng bao bọc" (wrapper layer). Cursor là ví dụ điển hình nhất: nó bao bọc mô hình của các phòng thí nghiệm lớn, vượt qua GitHub Copilot để trở thành lựa chọn hàng đầu cho lập trình hỗ trợ bởi AI. Năm 2025, Cursor ra mắt Composer. Nền tảng bên dưới là Kimi mã nguồn mở, nhưng phép màu đến từ một mô hình được hậu huấn luyện (post-training) hoàn toàn nội bộ. Họ làm vậy không phải để tiết kiệm phí API, mà vì họ đã nhìn thấu một điều mà thị trường chưa định giá đầy đủ: Reward signal để làm tốt code trong Cursor chỉ tồn tại bên trong Cursor, không nơi nào khác. Cursor chỉ là ví dụ nổi bật nhất, điều này đã trở thành chiến lược ngày càng nhất quán của toàn bộ tầng App: tiếp cận sát người dùng, hiểu khi nào mô hình thực sự hiệu quả, sau đó huấn luyện ra mô hình và sản phẩm tốt hơn, khiến bánh đà quay tròn. Mô hình này lặp đi lặp lại, không thể chỉ là sự trùng hợp. Bất kỳ công ty nào có sản phẩm là một agentic loop quy trình dài đều đang rời bỏ các phòng thí nghiệm lớn, chuyển sang huấn luyện mô hình bằng dữ liệu tương tác của chính mình. Các công ty tiên phong như Decagon, Abridge, OpenEvidence, Hippocratic, Intercom, Chroma, Pinterest, Cognition, Lovable, Notion, Harvey, Gamma, World Labs, v.v., tất cả đều đang huấn luyện mô hình của riêng họ trên nền các trọng số mã nguồn mở. Tại Baseten, chúng tôi hỗ trợ làn sóng công ty này huấn luyện các agent cốt lõi, giúp họ chuyển từ các API tiên phong sang các mô hình chuyên biệt hóa. Phản biện thường gặp là: "Tổng quát hóa rồi cũng sẽ thắng chuyên biệt hóa, tức là quy mô tiền huấn luyện sẽ thắng, cứ chờ mô hình nền tảng tiếp theo là được." Lập luận này đúng khi bạn dùng sức tính toán để chống lại một mục tiêu cố định. Nhưng phần lớn mục tiêu không cố định. "Làm tốt việc bổ sung code trong repo của người dùng này" hay "viết một bản ghi lâm sàng tốt cho nhóm bệnh nhân của vị bác sĩ này" — đó đều là những mục tiêu di động. Tính đúng đắn được phát hiện thông qua việc lặp lại sản phẩm. Bao nhiêu next-token prediction trên một kho ngữ liệu tĩnh cũng không tạo ra được nó. Chỉ có RL nhắm vào kết quả (các bổ sung được chấp nhận vs. bị từ chối, các quỹ đạo agent thành công vs. thất bại trong quy trình làm việc thực tế) mới có thể tạo ra nó. Và những kết quả đó chỉ tồn tại ở nơi sản phẩm vận hành. Đây là trục mà chuyên biệt hóa thắng tổng quát hóa, cũng là trục mà phía tiên phong vẫn còn không gian dư. Năm qua, dưới cùng ngân sách năng lực, các mô hình mã nguồn mở chuyên biệt hóa đã có thể bền vững sánh ngang thậm chí vượt mô hình tiên phong trong các tác vụ agentic in-distribution; quy trình tác vụ càng dài, càng phụ thuộc vào việc sử dụng công cụ, khoảng cách này càng lớn. Hướng đi nhất quán với phía tiên phong, nhưng cơ chế khác. Chúng ta đang đạt được hiệu quả kinh tế đơn vị tốt hơn gần một bậc. Nguyên nhân là cấu trúc tổ chức. Cách tổ chức của các phòng thí nghiệm tiên phong là "dùng một mô hình phục vụ nhiều khách hàng". Còn chuyên biệt hóa đòi hỏi điều ngược lại: "xây nhiều mô hình cho các phân khúc khách hàng, cùng thiết kế với inference stack và vòng dữ liệu của khách hàng." Những đặc tính khiến các phòng thí nghiệm xuất sắc trong tiền huấn luyện (huấn luyện tập trung, kinh tế phục vụ một mô hình duy nhất, cấu trúc tổ chức kiểu phòng nghiên cứu), tồn tại một sức căng tích cực với những đặc tính cần thiết để một doanh nghiệp chuyên biệt hóa thành công. Fine-tuning API chỉ là mảng phụ, vì nó buộc phải là mảng phụ. Bằng chứng: OpenAI vừa khai tử fine-tuning API của họ. Coi chuyên biệt hóa là mảng kinh doanh hạng nhất đồng nghĩa với việc thừa nhận quy mô tiền huấn luyện không phải là giới hạn then chốt của giá trị thực tế, mà đây chính là luận điểm mà toàn bộ cấu trúc vốn của họ dựa vào. Họ có thể thuê chuyên gia lĩnh vực, nhưng vô ích, bởi 98% điều khiến OpenEvidence hay Abridge xuất sắc không phải là kiến thức y học, mà là vòng lặp phản hồi họ xây dựng trong sản phẩm. Làn sóng công ty này đều đã nhìn thấu: sau khi chi phí phần mềm sụp đổ, hào duy nhất có thể sống sót là sở hữu một mô hình được huấn luyện bằng tín hiệu không ai khác thấy được. - Mỗi session người dùng đều đang tạo ra dữ liệu huấn luyện - Mỗi lần huấn luyện đều có thể cho ra mô hình tốt hơn - Mô hình tốt hơn thu hút nhiều người dùng và dữ liệu hơn Bánh đà quay tròn bên trong vòng lặp sản phẩm, còn các phòng thí nghiệm lớn, dù quy mô lớn đến đâu, đều ở bên ngoài vòng lặp này. Mỗi sản phẩm đều có một tiêu chuẩn cực kỳ tinh tế về "thế nào là tốt". Điều các công ty quan tâm bây giờ là UX của mô hình — được quyết định lúc huấn luyện, không thể loại bỏ bằng prompt (ví dụ, mức độ gọi công cụ hay độ sâu tìm kiếm, tính song song khi gọi công cụ, v.v.). Các công ty tầng App giờ không còn hỏi "Chúng ta dùng AI như thế nào?" Mà là: "Chúng ta chống lại sự hàng hóa hóa, mang lại kết quả tốt hơn cho khách hàng bằng cách nào?" Câu trả lời là: dựa trên hiểu biết độc đáo về đối tượng bạn phục vụ mỗi ngày, huấn luyện mô hình chuyên biệt hóa. Các phòng thí nghiệm lớn không làm được, nhưng bạn thì có thể.