"Legal Detective" mengumumkan open source basis data vektor RAG hukum Taiwan, putusan 30 tahun dapat dicari menggunakan bahasa sehari-hari

Halaman penggemar AI hukum Taiwan "Legal Detective" mengumumkan open source untuk alat pencarian semantik hukum Taiwan "TW Legal RAG", yang menyusun dan melakukan vektorisasi terhadap sekitar 22 juta putusan pengadilan Taiwan. Pengguna dapat mencari putusan menggunakan bahasa sehari-hari dan mengemas hasilnya ke dalam format yang dapat dibaca langsung oleh AI apa pun (ChatGPT, Claude, Gemini, atau model lokal). Alat ini memiliki fitur verifikasi kutipan bawaan yang dapat memeriksa apakah nomor putusan dalam jawaban AI benar-benar ada. (Konteks sebelumnya: 6 poin utama dengar pendapat undang-undang khusus kripto Taiwan "Virtual Asset Services Act": Operator tanpa izin yang terlibat penipuan akan dikenakan hukuman lebih berat!) (Latar belakang tambahan: Far Eastern International Bank dan Kantor Kejaksaan Tinggi menandatangani MOU: 95% arus dana kripto di seluruh Taiwan dimasukkan ke dalam kerangka investigasi anti-pencucian uang dan anti-penipuan) Ringkasan Poin Utama - "Legal Detective" membuka sumber (open source) TW Legal RAG, mencakup sekitar 22 juta putusan pengadilan Taiwan, dapat digunakan dengan `pip install twlegalrag`. - Arsitektur menggunakan mode "BYO-AI" (Bring Your Own AI): alat itu sendiri tidak memanggil LLM, melainkan melakukan pencarian semantik dan mengemasnya menjadi Bundle untuk dibaca oleh AI apa pun. - Fitur verifikasi kutipan bawaan dapat memeriksa apakah nomor putusan dalam jawaban AI benar-benar ada dalam hasil pencarian, guna mencegah halusinasi. "Legal Detective" hari ini (27) mengumumkan di Facebook bahwa "TW Legal RAG" (alat pencarian semantik RAG hukum Taiwan), yang dikembangkan selama setengah tahun, telah resmi dirilis secara open source dengan lisensi MIT. Alat ini menyusun dan melakukan vektorisasi terhadap sekitar 22 juta putusan pengadilan Taiwan, membangun sistem pencarian semantik yang dirancang khusus untuk bidang hukum. Siapa pun dapat menginstalnya langsung melalui `pip install twlegalrag`. RAG (Retrieval-Augmented Generation) adalah arsitektur teknologi utama saat ini untuk mengatasi masalah "halusinasi" pada Large Language Model (LLM). Artinya, sebelum model menghasilkan jawaban, ia terlebih dahulu mengambil fakta relevan dari basis pengetahuan eksternal untuk memastikan output didukung oleh data aktual. Hal ini sangat krusial di bidang hukum, karena LLM yang mengarang yurisprudensi yang tidak ada telah berulang kali memicu kontroversi praktis, termasuk kasus terkenal di mana seorang pengacara AS dikutip oleh pengadilan karena menggunakan yurisprudensi fiktif dari ChatGPT. Pengembang menyatakan bahwa ia menghabiskan ribuan jam untuk mengoptimalkan pipeline pencarian, dengan biaya yang mungkin mendekati satu juta dolar Taiwan baru, dan kini merilisnya secara gratis dengan lisensi MIT. 22 Juta Putusan, Arsitektur BYO-AI, Verifikasi Kutipan Arsitektur teknis TW Legal RAG berbeda dari kebanyakan alat AI hukum: alat ini tidak memanggil LLM apa pun, melainkan mengadopsi desain "BYO-AI" (Bring Your Own AI). Pengguna mengirimkan permintaan pencarian semantik melalui alat CLI ke backend (infrastruktur TLR milik Legal Detective, endpoint di tlr.dr-lawbot.com). Setelah sistem mengembalikan putusan yang relevan, alat tersebut mengemas hasilnya menjadi Bundle terstruktur yang dapat langsung diberikan kepada ChatGPT, Claude, Gemini, atau model lokal apa pun. Ini berarti pengguna tidak perlu menerapkan model embedding atau indeks vektor secara lokal. Ketergantungan alat ini sangat ringan, hanya memerlukan tiga paket Python: `httpx`, `typer`, dan `rich`. Alat ini menyediakan empat perintah inti: - `search`: melakukan pencarian semantik pada 22 juta putusan menggunakan bahasa alami. - `pack`: mengemas hasil pencarian menjadi Bundle yang dapat dibaca AI, termasuk kutipan putusan dan aturan verifikasi. - `check`: verifikasi kutipan tingkat Bundle, mengonfirmasi apakah nomor putusan yang dikutip dalam jawaban AI ada dalam hasil pencarian. - `health`: pemeriksaan status layanan. Fitur verifikasi kutipan adalah keunggulan utama alat ini. Fitur ini menggunakan pencocokan ekspresi reguler murni (tidak bergantung pada LLM) untuk memeriksa apakah nomor putusan dalam konten yang dihasilkan AI benar-benar ada dalam Bundle. Namun, pengembang juga dengan jelas menandai batasannya: validator tidak dapat menilai apakah konten kutipan benar, tidak dapat mendeteksi kesalahan penalaran, dan tidak dapat mengidentifikasi halusinasi berbasis penulisan ulang semantik; fitur ini hanya dapat mengonfirmasi keberadaan nomor putusan. Menurut postingan "Legal Detective", ini adalah proyek yang diselesaikan secara mandiri oleh satu orang.