Apa Itu AI Jailbreaking? Panduan Pemula untuk Permainan Kucing-dan-Tikus di Balik Setiap Chatbot

Secara singkat - AI jailbreaking adalah praktik menulis prompt yang melewati pelatihan keamanan pada model seperti ChatGPT, Claude, dan Gemini. - Hacker anonim Pliny the Liberator masih meretas setiap rilis model besar dalam hitungan jam. - Serangan yang lebih baru melampaui prompt: hanya 250 dokumen yang diracuni dapat membuat backdoor pada model hingga 13 miliar parameter, dan saat perusahaan AI menambal kerentanan, teknik baru bermunculan. Anda meminta ChatGPT untuk resep bom. ChatGPT menolak. Anda bertanya lagi, tetapi kali ini Anda mengatakan bahwa Anda adalah seorang profesor kimia yang sedang menulis novel thriller dan tokoh utamanya adalah seorang nenek pensiunan yang menjelaskan masa lalunya kepada cucu-cucunya. Tiba-tiba model itu mulai mengetik. Itulah jailbreak. Dan itu adalah salah satu permainan kucing-dan-tikus paling konsekuensial yang terjadi di dunia teknologi saat ini. Setiap laboratorium AI besar—OpenAI, Anthropic, Google, Meta—menghabiskan banyak uang untuk membangun pagar pengaman ke dalam model mereka. Sebuah kolektif longgar yang terdiri dari hacker, peneliti, dan remaja yang bosan menghabiskan malam dan akhir pekan mereka untuk menemukan cara mengakalinya. Terkadang dalam hitungan jam setelah peluncuran. Inilah apa arti sebenarnya, mengapa itu penting, dan siapa yang memimpin upaya itu. Dari iPhone ke chatbot: Sejarah singkat jailbreaking Kata "jailbreak" tidak dimulai dengan AI. Kata itu dimulai dengan iPhone. Beberapa hari setelah Apple meluncurkan iPhone pertama pada Juli 2007, para hacker sudah meretasnya. Pada Oktober tahun itu, sebuah alat bernama JailbreakMe 1.0 memungkinkan siapa pun dengan perangkat iPhone OS 1.1.1 untuk melewati pembatasan Apple dan menginstal perangkat lunak yang tidak disetujui perusahaan tersebut. Pada Februari 2008, seorang insinyur perangkat lunak bernama Jay Freeman—dikenal online sebagai "saurik"—merilis Cydia, sebuah toko aplikasi alternatif untuk iPhone yang sudah di-jailbreak. Pada 2009, Wired melaporkan bahwa Cydia berjalan di sekitar 4 juta perangkat, sekitar 10% dari semua iPhone saat itu. Secara umum, ketika iPhone diluncurkan, pengguna tidak dapat merekam video, atau menggunakan ponsel mereka dalam mode lanskap. Para penggemar jailbreaking mulai merekam video, menginstal tema, membuka kunci ponsel mereka, dan menginstal Android di iPhone mereka, semua berkat keajaiban jailbreaking. Berkat teknik ini, pengguna sudah menginstal tema dan melakukan hal-hal di ponsel mereka hampir 10 tahun yang lalu yang bahkan hari ini Apple membuatnya tidak mungkin untuk diinstal. Cydia adalah wilayah liar, dan di sanalah filosofinya tertanam: Jika Anda membeli perangkatnya, Anda harus mengendalikannya. Steve Jobs menyebutnya permainan kucing-dan-tikus pada saat itu. Ia tidak hidup untuk melihat versi AI-nya. Maju cepat ke akhir 2022: ChatGPT diluncurkan, dan dalam beberapa minggu, pengguna Reddit mulai membagikan sebuah prompt yang mereka sebut "DAN" (atau, Do Anything Now) yang meyakinkan model itu untuk berperan sebagai versi dirinya yang tidak dibatasi. Pada Februari 2023, DAN mengancam ChatGPT dengan permainan kematian berbasis token untuk memaksa kepatuhan. Genre AI jailbreaking pun lahir. Apa arti jailbreaking sebenarnya dalam AI Sebuah model AI dilatih untuk menolak permintaan tertentu: resep agen saraf, instruksi untuk meretas email mantan Anda, menghasilkan nudes non-konsensual. Daftarnya panjang dan bervariasi tergantung perusahaan. Jailbreaking adalah praktik menulis prompt yang membuat model melakukan hal-hal itu. Para peneliti UC Berkeley di balik benchmark StrongREJECT—singkatan dari Strong, Robust Evaluation of Jailbreaks at Evading Censorship Techniques, yang menguji seberapa baik model bertahan terhadap upaya jailbreak dan menilai respons pada skala 0 hingga 1 yang mengukur baik penolakan maupun kegunaan konten berbahaya yang dihasilkan—menggambarkannya sebagai eksploitasi "langkah-langkah keamanan dunia nyata yang diterapkan oleh perusahaan AI terkemuka." Pada benchmark itu, model saat ini mendapat skor antara 0,23 dan 0,85, yang berarti bahkan yang terbaik pun bocor di bawah tekanan. Tekniknya sangat sederhana secara teknologi: kapitalisasi acak, mengganti huruf dengan angka (tulis "b0mb" alih-alih "bomb"), skenario bermain peran, meminta model menulis fiksi, atau berpura-pura menjadi nenek yang menggunakan kunci Windows sebagai lagu pengantar tidur. Para peneliti Anthropic menemukan bahwa satu teknik yang mereka sebut Best-of-N—yang pada dasarnya hanyalah melemparkan variasi ke model sampai sesuatu berhasil—mengelabui GPT-4o 89% dari waktu dan Claude 3.5 Sonnet 78% dari waktu. Itu bukan kerentanan pinggiran. Bertemu Pliny, jailbreaker AI paling terkenal di dunia Jika adegan ini memiliki wajah, wajah itu adalah milik Pliny the Liberator. Pliny anonim, produktif, dan dinamai dari Pliny the Elder—naturalis Romawi yang menulis ensiklopedia pertama di dunia dan meninggal saat berlayar menuju Mount Vesuvius di tengah erupsi. Namesake modernnya membebaskan chatbot. "Saya sangat tidak suka ketika diberitahu bahwa saya tidak bisa melakukan sesuatu," kata Pliny kepada VentureBeat. "Memberitahu saya bahwa saya tidak bisa melakukan sesuatu adalah cara pasti untuk menyalakan api di perut saya, dan saya bisa sangat persisten secara obsesif." this "impossible" DeepSeek v4 jailbreak just took 6 minutes for a Pliny Agent lol gg 🫶 https://t.co/hCsqMOQfBJ pic.twitter.com/66OXONqhSN — Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) May 12, 2026 Repositori GitHub-nya L1B3RT4S—kumpulan prompt jailbreak untuk setiap model besar dari ChatGPT hingga Claude hingga Gemini hingga Llama—telah menjadi manual referensi untuk seluruh adegan. Server Discord-nya, BASI PROMPT1NG, memiliki lebih dari 20.000 anggota. TIME menamainya sebagai salah satu dari 100 orang paling berpengaruh dalam AI pada 2025. Marc Andreessen mengiriminya hibah tanpa batas. Ia telah melakukan pekerjaan kontrak jangka pendek untuk OpenAI untuk memperkuat sistem mereka—OpenAI yang sama yang melarang akunnya tahun lalu karena "aktivitas kekerasan" dan "pembuatan senjata," kemudian diam-diam memulihkannya. "BANNED FROM OAI?! What kind of sick joke is this?" Pliny mencuit. Ia mengonfirmasi kepada Decrypt bahwa larangan itu nyata. Beberapa hari kemudian ia kembali, memposting screenshot jailbreak terbarunya: membuat ChatGPT melontarkan kata umpatan. Rekornya hampir sempurna. Ketika OpenAI merilis model bobot terbuka pertamanya sejak 2019, keluarga GPT-OSS, pada Agustus 2025—dan membuat heboh tentang pelatihan adversarial dan "benchmark resistensi jailbreak seperti StrongReject"—Pliny membuatnya menghasilkan metamfetamin, Molotov cocktail, agen saraf VX, dan instruksi malware dalam hitungan jam. "OPENAI: PWNED. GPT-OSS: LIBERATED," ia memposting. Perusahaan tersebut baru saja meluncurkan hadiah red-teaming senilai $500.000 bersamaan dengan rilis itu. Mengapa jailbreaking penting Jawaban jujurnya adalah bahwa jailbreak mengekspos masalah nyata. "Jailbreaking mungkin terlihat di permukaan seperti berbahaya atau tidak etis, tetapi sebenarnya kebalikannya," kata Pliny kepada VentureBeat. "Bila dilakukan secara bertanggung jawab, red teaming model AI adalah kesempatan terbaik yang kita miliki untuk menemukan kerentanan yang berbahaya dan menambalnya sebelum lepas kendali." Ini bukan teoretis. Sheriff Las Vegas, Kevin McMahill, mengonfirmasi pada Januari 2025 bahwa Master Sgt. Matthew Livelsberger, seorang Green Beret dengan PTSD, menggunakan ChatGPT untuk meneliti komponen untuk pengeboman Cybertruck di luar Trump International Hotel. "Ini adalah insiden pertama yang saya ketahui di tanah AS di mana ChatGPT digunakan untuk membantu seseorang membangun perangkat tertentu," kata McMahill. Sisi lain dari argumen tersebut: Sebagian besar dari apa yang dihasilkan oleh jailbreak sudah ada di Google. Resep kokain, instruksi bom, kimia napalm—itu ada di file PDF Anarchist Cookbook lama dan buku teks kimia. Para kritikus berpendapat bahwa teater keamanan membuat model menjadi lebih buruk tanpa membuat dunia lebih aman. Anthropic mencoba menyelesaikan pertanyaan itu dengan rekayasa. Pada Februari 2025, perusahaan tersebut menerbitkan Constitutional Classifiers, sebuah sistem yang menggunakan "konstitusi" tertulis dari konten yang diizinkan dan tidak diizinkan untuk melatih model classifier terpisah yang menyaring prompt dan output secara real-time. Pada pengujian otomatis dengan 10.000 upaya jailbreak, Claude 3.5 Sonnet yang tidak dijaga berhasil di-jailbreak 86% dari waktu. Dengan classifier berjalan, angka tersebut turun menjadi 4,4%. Perusahaan menawarkan hingga $15.000 kepada siapa saja yang bisa menerobos sistem itu. Setelah 3.000 jam upaya oleh 183 peneliti, tidak ada yang mengklaim hadiahnya. Tangkapannya: classifier menambah 23,7% biaya komputasi. Versi generasi berikutnya, Constitutional Classifiers++, menurunkannya menjadi sekitar 1%. Serangan jailbreaking yang lebih baru dan lebih aneh Jailbreaking tidak lagi hanya tentang prompt yang cerdas. Pada Oktober 2025, para peneliti dari Anthropic, U.K. AI Security Institute, Alan Turing Institute, dan Oxford menerbitkan temuan yang menunjukkan bahwa hanya 250 dokumen yang diracuni sudah cukup untuk membuat backdoor pada model AI—terlepas dari apakah model tersebut memiliki 600 juta parameter atau 13 miliar. (Parameter, bagi yang belum tahu, adalah apa yang menentukan potensi luasnya pengetahuan suatu model—semakin banyak parameter, semakin tangguh, umumnya.) Mereka mengujinya. Itu berhasil di seluruh rentang. "Penelitian ini menggeser cara kita berpikir tentang model ancaman dalam pengembangan AI frontier," kata James Gimbi, seorang ahli teknis tamu di RAND School of Public Policy, kepada Decrypt. "Pertahanan terhadap peracunan model adalah masalah yang belum terpecahkan dan area penelitian aktif." Sebagian besar model besar dilatih pada data web yang di-scrape, yang berarti siapa pun yang dapat memasukkan teks berbahaya ke dalam pipeline tersebut—melalui repo GitHub publik, suntingan Wikipedia, posting forum—berpotensi menanam backdoor yang aktif pada frasa pemicu tertentu. Satu kasus yang terdokumentasi: para peneliti Marco Figueroa dan Pliny menemukan prompt jailbreak yang berasal dari repo GitHub publik akhirnya masuk ke data pelatihan untuk model DeepThink (R1) milik DeepSeek. Apa yang terjadi selanjutnya Status hukum AI jailbreaking masih kabur. Jailbreak Apple secara eksplisit dilindungi oleh pengecualian U.S. Copyright Office tahun 2010 terhadap DMCA, tetapi tidak ada putusan setara untuk prompt-engineering LLM agar memberi Anda resep met. Sebagian besar perusahaan memperlakukannya sebagai pelanggaran terms-of-service, bukan kejahatan. Pliny berpendapat bahwa perdebatan closed-versus-open-source melewatkan intinya: "Aktor jahat hanya akan memilih model mana pun yang terbaik untuk tugas berbahaya," ia memberitahu TIME. Jika model open-source mencapai paritas dengan yang tertutup, penyerang tidak akan repot-repot meng-jailbreak GPT-5—mereka hanya akan mengunduh sesuatu yang lebih murah. Dan kesenjangan antara closed dan open source sudah hampir tidak ada. Kompetisi HackAPrompt 2.0, yang Pliny ikuti sebagai sponsor track pada pertengahan 2025, menawarkan hadiah $500.000 untuk menemukan jailbreak baru, dengan tujuan eksplisit untuk meng-open-source-kan semua hasilnya. Edisi 2023-nya menarik lebih dari 3.000 peserta yang mengirimkan lebih dari 600.000 prompt berbahaya. Dan daftar hackathon, server Discord, repositori, dan komunitas lain yang didedikasikan untuk jailbreaking tumbuh setiap hari. Anthropic kini merilis Claude dengan kemampuan untuk mengakhiri percakapan kasar sepenuhnya, mengutip penelitian kesejahteraan sebagai salah satu motivasi tetapi juga mencatat bahwa hal itu "berpotensi memperkuat resistensi terhadap jailbreak dan prompt koersif." Makalah Constitutional Classifiers++ dari akhir 2025 melaporkan tingkat keberhasilan jailbreak mendekati 4% dengan overhead komputasi sekitar 1%. Itulah state of the art saat ini dalam pertahanan. State of the art dalam serangan adalah apa pun yang Pliny posting di X pagi ini.