Đằng sau 90% dự án AI thất bại: nợ prompt, nợ truy xuất, nợ đánh giá đang kéo lùi triển khai doanh nghiệp

Năm 2025 có 42% doanh nghiệp đã hủy bỏ nhiều dự án AI, vượt xa con số 17% của năm trước. Vấn đề không nằm ở việc mô hình chưa đủ mạnh, mà ở chỗ một loại nợ kỹ thuật mới đang âm thầm tích tụ trong hạ tầng AI của doanh nghiệp: nợ prompt, nợ truy xuất, nợ đánh giá. (Tóm tắt trước: Harness Engineering là gì? Phân tích 7 mô-đun kỹ thuật cốt lõi giúp AI Agent thực sự triển khai được (Kỹ thuật điều khiển AI)) (Bổ sung bối cảnh: GPT-5.5 Instant mở rộng cho toàn bộ người dùng, OpenAI hướng dẫn bạn cách viết Prompt thông minh và hiệu quả hơn) Dữ liệu cho thấy, thất bại của AI không phải là hiện tượng ngẫu nhiên, mà là vấn đề mang tính hệ thống. Nghiên cứu của MIT cùng năm chỉ ra rằng, 95% các dự án thí điểm AI chưa bao giờ thực sự đi vào sản xuất hoặc tạo ra giá trị kinh doanh có thể định lượng được. 42%, đây là tỷ lệ doanh nghiệp đã dừng nhiều dự án AI trong năm 2025, gấp đôi rưỡi so với năm trước. Theo S&P Global Market Intelligence, những thất bại này thường bị quy cho năng lực mô hình không đủ, chất lượng dữ liệu kém, hoặc khó giải thích ROI. Nhưng Vikram, giám đốc của Cota Capital, cho rằng nguyên nhân thực sự kín đáo hơn: một dạng nợ kỹ thuật mới đang âm thầm tích tụ trong tầng prompt, tầng phụ thuộc mô hình và tầng đánh giá của các hệ thống AI, hoàn toàn khác với nợ mã nguồn truyền thống, nhưng cũng nguy hiểm không kém. Nợ kỹ thuật truyền thống tồn tại trong codebase, Bug có thể tái hiện, có thể kiểm thử, có thể sửa chữa. Đặc tính của nợ AI hoàn toàn khác: nó mang tính phân tán, trải rộng trong các tầng prompt, model API, đường ống dữ liệu và hạ tầng. Nó mang tính gián đoạn, vì hệ thống AI vốn có bản chất xác suất, cùng một đầu vào không đảm bảo cho cùng một đầu ra; nó cũng gần như vô hình, vì hệ thống "trông có vẻ" đang vận hành bình thường, cho đến khi tại một thời điểm then chốt, toàn bộ sụp đổ. Nợ Prompt (Prompt Debt) là loại dễ thấy nhất trong ba loại. Đó là những điều chỉnh tạm thời không có tài liệu ghi chép, những thay đổi prompt không có quản lý phiên bản, và "nhồi prompt" — nhồi nhét lượng lớn thông tin nền không liên quan vào prompt để cố gắng giúp mô hình hiểu nhiều hơn. Kết quả là, prompt trở thành một dạng mã nguồn phi chính thức không có kiểu dữ liệu, không có kiểm thử, không có quản lý phiên bản. Mỗi lần tinh chỉnh đều được thực hiện trên một hệ thống không minh bạch, tích lũy lâu dài, tính dễ vỡ của hệ thống cũng tăng theo cấp số nhân. Nợ Phụ Thuộc Mô Hình (Model Dependency Debt) bắt nguồn từ sự phụ thuộc cao của doanh nghiệp vào các API mô hình nền tảng bên ngoài. Logic của ứng dụng được xây dựng trên cơ sở gọi các mô hình bên ngoài, nhưng việc cập nhật các mô hình này không nằm trong tầm kiểm soát của doanh nghiệp. Khi nhà cung cấp mô hình âm thầm nâng cấp phiên bản, các prompt được tinh chỉnh tỉ mỉ cho phiên bản cũ có thể đột ngột mất hiệu lực, hoặc hành vi đầu ra xuất hiện độ trôi khó dự đoán. Khả năng tái hiện từ đó biến mất. Nợ Truy Xuất (Retrieval Debt) xuất hiện trong kiến trúc RAG mà phần lớn các triển khai AI doanh nghiệp đang sử dụng. Vấn đề ở chỗ, các kho dữ liệu đó thường chất đầy dữ liệu lộn xộn, file trùng lặp và thông tin đã lỗi thời từ lâu. Câu trả lời AI trả về vì thế, về mặt kỹ thuật từng đúng, chỉ là bây giờ không còn áp dụng được nữa. Điều này còn khó nhận ra hơn ảo giác (hallucination), vì nó trông hoàn toàn hợp lý, thậm chí có thể qua mặt được người kiểm thử thông thường. Nợ Đánh Giá (Evaluation Debt) là loại dễ bị đánh giá thấp nhất trong bốn loại nợ AI kiểu mới. Hầu hết các bài kiểm thử chuẩn AI hiện có đều tập trung vào kết quả đánh giá phạm vi hẹp, tại một thời điểm, không thể phản ánh hiệu suất thực tế sau khi triển khai. Tuyệt đại đa số doanh nghiệp thiếu tiêu chuẩn kiểm thử nhất quán, tập dữ liệu chuẩn, cũng như cơ chế giám sát thời gian thực đối với mô hình đã triển khai. So với quy trình CI/CD (tích hợp liên tục / chuyển giao liên tục) đã trưởng thành từ lâu trong phát triển phần mềm truyền thống, lĩnh vực triển khai AI đến nay vẫn chưa có cơ chế "tích hợp liên tục prompt" tương đương. Nói một cách dễ hiểu: khi kỹ sư merge một đoạn code, sẽ có kiểm thử tự động báo cho bạn biết chỗ nào bị hỏng; nhưng khi một prompt bị sửa đổi, không có hệ thống nào có thể cảnh báo theo thời gian thực. Kết quả là, CIO và CTO thiếu khả năng nhìn thấy hiệu suất thực tế của mô hình, cũng không thể theo dõi hiệu năng có đang xấu đi hay không. Bốn loại nợ kiểu mới này chồng chất lên nợ kỹ thuật mã nguồn vốn có, đẩy nhanh sự tích lũy phức hợp. Tệ hơn nữa, quyền sở hữu của hệ thống AI vốn dĩ đã bị phân tán: các nhóm kỹ thuật, sản phẩm, dữ liệu và kinh doanh mỗi nhóm sở hữu các phần khác nhau của hệ thống, một khi có sự cố, việc quy trách nhiệm thường không rõ ràng. Mô hình mạnh hơn sẽ không giải quyết được vấn đề này. Luận điểm của Vikram rất thẳng thắn: tỷ lệ thất bại cao không liên quan đến độ chính xác của mô hình, nguồn gốc nằm ở thiết kế hệ thống, kiểm soát tích hợp và sự thiếu hụt văn hóa tổ chức. Cụ thể, prompt phải được đối xử như mã nguồn, được đưa vào quản lý phiên bản, bổ sung tài liệu mô tả, và được kiểm thử nghiêm ngặt trước và sau khi triển khai cho tất cả các cấu hình có thể. Cơ chế đánh giá cần được nhúng vào toàn bộ ngăn xếp hạ tầng AI, xây dựng đường ống đánh giá liên tục, đồng thời bao quát cả chỉ số kỹ thuật lẫn chỉ số kinh doanh, và tích hợp hệ thống quan sát AI (AI observability), giám sát chất lượng đầu ra, tỷ lệ thất bại, độ trôi mô hình và độ trôi dữ liệu. Ngoài ra, mọi kết quả AI đều nên mặc định bao gồm phần giải thích khả năng diễn giải, nguồn dữ liệu, mô hình được sử dụng, các bước đã thực thi, phải rõ ràng có thể truy vết, đảm bảo có thể kiểm toán, và có thể nhanh chóng khắc phục khi xảy ra lỗi mang tính hệ thống. Điều này đòi hỏi, giống như cách doanh nghiệp trước đây đầu tư vào tăng cường an ninh mạng hay hiện đại hóa đám mây, phải thiết lập kế hoạch xóa nợ AI rõ ràng cùng ngân sách chuyên biệt, và do lãnh đạo cấp CXO trực tiếp dẫn dắt. Nói nhiều như vậy, tin rằng bây giờ bạn có thể hiểu: 95% thất bại, có thể không phải vì AI không đủ thông minh. Mà là vì cách xây dựng hệ thống AI vẫn dừng lại ở việc coi nó như một lời gọi API hộp đen, chứ không phải một hệ thống phức tạp cần được xử lý kỹ thuật một cách nghiêm túc. Nợ kỹ thuật chưa bao giờ tự nhiên biến mất, chỉ sẽ được trả gộp một lần với lãi suất cao hơn vào một thời điểm nào đó trong tương lai.