Di Balik 90% Proyek AI Gagal: Utang Prompt, Utang Retrieval, dan Utang Evaluasi Sedang Menggerogoti Deployment Perusahaan

Pada 2025, sebanyak 42% perusahaan membatalkan banyak proyek AI mereka, jauh melampaui 17% tahun sebelumnya. Masalahnya bukan karena model kurang kuat, melainkan karena sejenis utang teknis baru sedang menumpuk diam-diam dalam infrastruktur AI perusahaan: utang prompt, utang retrieval, dan utang evaluasi. (Latar belakang: Apa itu Harness Engineering? Membongkar 7 modul rekayasa utama agar AI Agent benar-benar dapat diterapkan (AI Driving Engineering)) (Konteks tambahan: GPT-5.5 Instant dibuka untuk semua pengguna, OpenAI mengajari Anda cara menulis Prompt yang lebih cerdas dan efisien) Data menunjukkan bahwa kegagalan AI bukanlah fenomena yang terjadi secara kebetulan, melainkan masalah sistemik. Riset MIT pada tahun yang sama mengungkapkan bahwa 95% proyek percontohan AI tidak pernah benar-benar masuk ke lingkungan produksi atau menghasilkan nilai bisnis yang dapat diukur. 2%, inilah persentase perusahaan yang menghentikan banyak proyek AI pada 2025, yang jumlahnya tepat satu setengah kali lipat dari tahun sebelumnya. Menurut S&P Global Market Intelligence, kegagalan-kegagalan ini biasanya dikaitkan dengan kemampuan model yang tidak memadai, kualitas data yang buruk, atau ROI yang sulit dijelaskan. Namun, Vikram, kepala Cota Capital, berpendapat bahwa penyebab sebenarnya lebih tersembunyi: sejenis utang teknis bentuk baru sedang menumpuk diam-diam di lapisan prompt, lapisan ketergantungan model, dan lapisan evaluasi sistem AI — sama sekali berbeda dari utang kode tradisional, namun sama-sama mematikan. Utang teknis tradisional berada dalam basis kode, di mana Bug dapat direproduksi, diuji, dan diperbaiki. Karakteristik utang AI sangat berbeda: ia bersifat terdistribusi, tersebar di berbagai lapisan prompt, API model, jalur data, dan infrastruktur. Ia bersifat intermiten, karena sistem AI pada dasarnya bersifat probabilistik — input yang sama tidak menjamin output yang sama; ia juga hampir tidak terlihat, karena sistem "tampak" beroperasi normal, hingga pada suatu momen krusial keseluruhan sistem runtuh. Utang Prompt (Prompt Debt) adalah yang paling kasatmata di antara ketiganya. Ia mencakup penyesuaian sementara yang tidak terdokumentasi, perubahan prompt tanpa kontrol versi, serta "prompt stuffing" yang menjejalkan sejumlah besar informasi latar belakang yang tidak relevan ke dalam prompt, dengan harapan model dapat memahami lebih banyak. Hasilnya, prompt berubah menjadi sejenis kode informal tanpa tipe, tanpa pengujian, dan tanpa manajemen versi. Setiap penyesuaian kecil dilakukan pada sistem yang buram, dan seiring waktu, kerapuhan sistem pun tumbuh secara eksponensial. Utang Ketergantungan Model (Model Dependency Debt) berasal dari ketergantungan tinggi perusahaan pada API model fondasi eksternal. Logika aplikasi dibangun di atas pemanggilan model eksternal, namun pembaruan model-model ini berada di luar kendali perusahaan. Ketika penyedia model secara diam-diam meningkatkan versi, prompt yang telah disetel dengan cermat untuk versi lama mungkin langsung gagal, atau perilaku output mengalami pergeseran yang sulit diprediksi. Reproduksibilitas pun hilang sejak saat itu. Utang Retrieval (Retrieval Debt) muncul dalam arsitektur RAG yang diadopsi oleh sebagian besar penerapan AI perusahaan. Masalahnya, gudang data tersebut sering kali penuh dengan data yang berantakan, file duplikat, dan informasi yang sudah lama kedaluwarsa. Oleh karena itu, jawaban yang dikembalikan AI secara teknis pernah benar, hanya saja sekarang sudah tidak berlaku lagi. Hal ini lebih sulit dideteksi daripada halusinasi, karena terlihat sepenuhnya masuk akal dan bahkan dapat lolos dari peninjauan oleh penguji biasa. Utang Evaluasi (Evaluation Debt) adalah yang paling sering diremehkan di antara empat jenis utang AI baru. Sebagian besar tolok ukur AI yang ada saat ini berfokus pada hasil evaluasi yang sempit dan bersifat snapshot, tidak mampu mencerminkan kinerja sebenarnya setelah penerapan. Sebagian besar perusahaan tidak memiliki standar pengujian yang konsisten, dataset acuan, maupun mekanisme pemantauan real-time terhadap model yang telah diterapkan. Dibandingkan dengan alur CI/CD (Continuous Integration/Continuous Delivery) yang sudah matang dalam pengembangan perangkat lunak tradisional, bidang penerapan AI hingga kini belum memiliki mekanisme setara "Prompt Continuous Integration". Secara sederhana: ketika seorang insinyur menggabungkan sepotong kode, pengujian otomatis akan memberi tahu di mana terjadi kerusakan; tetapi setelah sebuah prompt dimodifikasi, tidak ada sistem yang dapat memberikan peringatan real-time. Akibatnya, CIO dan CTO kekurangan visibilitas terhadap kinerja aktual model, dan tidak dapat melacak apakah performanya sedang memburuk. Keempat utang bentuk baru ini bertumpuk di atas utang teknis kode yang sudah ada, mempercepat akumulasi gabungan. Lebih parahnya, kepemilikan sistem AI itu sendiri bersifat terdistribusi: tim rekayasa, produk, data, dan bisnis masing-masing memiliki bagian sistem yang berbeda, sehingga ketika terjadi kesalahan, tanggung jawab sering kali tidak jelas. Model yang lebih kuat tidak akan menyelesaikan masalah ini. Argumen Vikram langsung: tingkat kegagalan yang tinggi tidak ada hubungannya dengan akurasi model, akarnya terletak pada kekurangan dalam desain sistem, kontrol integrasi, dan budaya organisasi. Secara konkret, prompt harus diperlakukan sebagai kode, dimasukkan ke dalam kontrol versi, dilengkapi dengan dokumentasi, dan diuji secara ketat untuk semua konfigurasi yang memungkinkan sebelum maupun sesudah penerapan. Mekanisme evaluasi perlu disematkan ke seluruh tumpukan infrastruktur AI, membangun jalur evaluasi berkelanjutan yang mencakup metrik teknis maupun metrik bisnis, serta terintegrasi dengan sistem observabilitas AI untuk memantau kualitas output, tingkat kegagalan, pergeseran model, dan pergeseran data. Selain itu, semua hasil AI seharusnya secara default mencakup penjelasan yang dapat dipertanggungjawabkan: sumber data, model yang digunakan, langkah-langkah yang dijalankan, semua harus jelas dan dapat dilacak, memastikan keterauditan, serta dapat dikoreksi dengan cepat ketika terjadi kesalahan sistemik. Hal ini menuntut—seperti halnya investasi perusahaan di masa lalu dalam penguatan keamanan siber atau modernisasi cloud—dibentuknya rencana penghapusan utang AI yang jelas dengan anggaran khusus, dan didorong langsung oleh pemimpin di tingkat CXO. Setelah membahas sekian banyak, saya yakin Anda kini dapat memahami: 95% kegagalan itu mungkin bukan karena AI tidak cukup pintar. Melainkan karena cara membangun sistem AI masih berhenti pada anggapan bahwa ia adalah pemanggilan API kotak hitam, bukan sebagai sistem kompleks yang perlu diperlakukan sebagai rekayasa yang serius. Utang teknis tidak pernah hilang dengan sendirinya, ia hanya akan dilunasi sekaligus dengan suku bunga yang lebih tinggi di suatu titik di masa depan.