Mengapa perusahaan aplikasi AI semuanya mulai melatih model sendiri? Data pengguna Anda, itulah parit pertahanan Anda

Setiap perusahaan yang produk intinya adalah long-horizon agentic loop secara sistematis sedang meninggalkan model dari lab besar dan beralih ke model khusus yang dilatih sendiri. Artikel ini berasal dari tulisan Charlie O'Neill, co-founder Baseten, dikompilasi dan disusun oleh BlockTempo. (Ringkasan sebelumnya: Cursor ketahuan melatih model menggunakan Kimi K2.5! Menghapus tweet, pernyataan resmi berbalik arah) (Latar belakang tambahan: Valuasi Cursor melonjak dua kali lipat menembus 50 miliar dolar AS, menyambut putaran pendanaan baru sebesar 2 miliar dolar) Selama lima tahun terakhir, yang saya lakukan setiap hari adalah mengambil sebuah LLM umum dan mengajarinya melakukan hal-hal spesifik. Awalnya mengajari GPT-2 melakukan modular addition; sekarang mengajari model dengan triliunan parameter ke atas untuk menjalankan tugas yang terkadang membutuhkan berjam-jam untuk diselesaikan. Tahun 2024 adalah tahun "lapisan pembungkus" (wrapper). Cursor adalah contoh paling khas: ia membungkus model dari lab besar, melampaui GitHub Copilot, dan menjadi pilihan utama untuk AI-assisted programming. Pada 2025, Cursor meluncurkan Composer. Fondasi dasarnya adalah Kimi yang open source, tetapi keajaibannya berasal dari sebuah model yang post-training-nya sepenuhnya dilakukan secara internal. Mereka melakukan ini bukan untuk menghemat biaya API, melainkan karena mereka telah memahami dengan jelas satu hal yang belum sepenuhnya dihargai oleh pasar: Reward signal untuk menulis kode yang baik di dalam Cursor hanya ada di dalam Cursor, tidak di tempat lain. Cursor hanyalah contoh yang paling mencolok, hal ini telah menjadi strategi yang semakin konsisten di seluruh lapisan App: dekat dengan pengguna, memahami kapan model benar-benar efektif, lalu melatih model dan produk yang lebih baik, sehingga flywheel berputar. Pola ini muncul berulang kali, tidak mungkin hanya kebetulan. Setiap perusahaan yang produknya adalah long-horizon agentic loop sedang meninggalkan lab besar dan beralih ke model yang dilatih dengan data interaksi mereka sendiri. Decagon, Abridge, OpenEvidence, Hippocratic, Intercom, Chroma, Pinterest, Cognition, Lovable, Notion, Harvey, Gamma, World Labs, dan perusahaan frontier lainnya, semuanya melatih model mereka sendiri di atas open-weight. Di Baseten, kami membantu gelombang perusahaan ini melatih agent inti mereka, sehingga mereka berpindah dari frontier API ke model terspesialisasi. Sanggahan yang umum adalah: "Generalisasi pada akhirnya akan mengalahkan spesialisasi, artinya skala pre-training akan menang, tinggal tunggu foundation model berikutnya saja." Argumen ini berlaku ketika Anda menggunakan compute untuk melawan target yang tetap. Tapi sebagian besar target tidak tetap. "Melakukan code completion dengan baik di dalam repo pengguna ini" atau "menulis catatan klinis yang baik untuk populasi pasien dokter ini", semuanya adalah moving target. Correctness baru ditemukan melalui iterasi produk. Sebanyak apa pun next-token prediction dilakukan pada korpus statis, hal itu tidak akan menghasilkannya. Hanya RL terhadap outcome (completion yang diterima vs. ditolak, trajectory agent yang berhasil vs. gagal dalam real workflow) yang dapat menghasilkannya. Dan outcome tersebut hanya ada di tempat produk berjalan. Inilah sumbu di mana spesialisasi mengalahkan generalisasi, dan juga sumbu di mana frontier masih memiliki ruang tersisa. Selama setahun terakhir, dengan anggaran kemampuan yang sama, model open-source yang terspesialisasi sudah dapat secara konsisten menyamai atau bahkan melampaui kinerja model frontier pada in-distribution agentic tasks; semakin panjang alur tugas dan semakin bergantung pada tool use, kesenjangan ini semakin besar. Arahnya sejalan dengan frontier, tetapi mekanismenya berbeda. Kita sedang memperoleh unit economics yang hampir satu orde besaran lebih baik. Alasannya adalah struktur organisasi. Frontier lab terorganisasi dengan cara "satu model melayani banyak pelanggan." Spesialisasi menuntut hal yang sebaliknya: "membangun banyak model untuk segmen pelanggan, dirancang bersama dengan inference stack dan data loop pelanggan." Karakteristik yang membuat lab unggul dalam pre-training (centralized training run, single model serving economics, struktur organisasi gaya laboratorium riset), berada dalam tegangan aktif dengan karakteristik yang diperlukan agar bisnis spesialisasi berhasil. Fine-tuning API hanyalah bisnis sampingan, karena memang harus menjadi bisnis sampingan. Bukti: OpenAI baru saja men-deprecate fine-tuning API mereka. Memperlakukan spesialisasi sebagai bisnis utama berarti mengakui bahwa skala pre-training bukanlah constraint kunci untuk nilai dunia nyata, dan ini justru menjadi tesis yang menjadi landasan seluruh struktur kapital mereka. Mereka bisa merekrut domain expert, tetapi tidak akan membantu, karena 98% yang membuat OpenEvidence atau Abridge unggul bukanlah pengetahuan medis, melainkan feedback loop yang mereka bangun di dalam produk mereka. Gelombang perusahaan ini sudah memahami dengan jelas: setelah biaya perangkat lunak runtuh, satu-satunya moat yang dapat bertahan adalah memiliki model yang dilatih dengan sinyal yang tidak dapat dilihat oleh siapa pun. - Setiap session pengguna menghasilkan training data - Setiap training run dapat menghasilkan model yang lebih baik - Model yang lebih baik menarik lebih banyak pengguna dan lebih banyak data Flywheel berputar di dalam product loop, dan lab besar, seberapa besar pun ukurannya, berada di luar loop ini. Setiap produk memiliki standar yang sangat halus tentang "apa itu baik." Yang dipedulikan perusahaan sekarang adalah model UX—ini ditentukan saat training, dan tidak dapat dihilangkan melalui prompt (misalnya, tingkat tool calling atau search depth, paralelisme tool calling, dll). Pertanyaan yang diajukan perusahaan di lapisan App sekarang bukan lagi "Bagaimana kita menggunakan AI?" Melainkan: "Bagaimana kita melawan komoditisasi dan memberikan hasil yang lebih baik untuk pelanggan?" Jawabannya adalah: melatih model terspesialisasi berdasarkan pemahaman unik tentang siapa yang Anda layani setiap hari. Lab besar tidak dapat melakukannya, tetapi Anda bisa.