“法律侦探”宣布开源台湾法律RAG向量库，30年判决能用口语搜索

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯2073 字

台灣法律 AI 粉專「法律偵探」宣布開源「TW Legal RAG」台灣法律語義檢索工具，將約 2,200 萬筆台灣判決裁判結構化並向量化，使用者可用日常口語搜尋判決，並將結果打包成任何 AI（ChatGPT、Claude、Gemini 或本地模型）可直接讀取的格式。工具內建引用驗證功能，可檢查 AI 回覆中的判決字號是否真實存在。（前情提要：台灣加密專法《虛擬資產服務法》公聽會6大重點：無照業者若涉詐騙加重處理！）（背景補充：遠東商銀、高檢署簽訂MOU：全台95%加密金流納入反洗、反詐偵查架構）重點摘要 - 「法律偵探」開源 TW Legal RAG，涵蓋約 2,200 萬筆台灣判決裁判， pip install twlegalrag 即可使用 - 架構為「自帶 AI」模式：工具本身不呼叫 LLM，語義搜尋後打包成 Bundle 供任意 AI 讀取 - 內建引用驗證功能，可檢查 AI 回覆中的判決字號是否真實存在於檢索結果中，防堵幻覺「法律偵探」今日（27）在 Facebook 宣布，歷時半年開發的「TW Legal RAG」（台灣法律 RAG 語義檢索工具）正式開源上線，以 MIT 授權發布。這套工具將約 2,200 萬筆台灣判決裁判結構化並向量化，建構出一個專為法律領域設計的語義檢索系統，任何人都可以透過 pip install twlegalrag 直接安裝使用。 RAG（Retrieval-Augmented Generation，檢索增強生成）是目前解決大型語言模型（LLM）「幻覺」問題的主流技術架構，意思是在模型生成回覆前，先從外部知識庫檢索相關事實，確保輸出有實際資料支撐。這在法律領域尤其關鍵，因為 LLM 編造不存在的判例已多次引發實務爭議，包括美國律師引用 ChatGPT 虛構判例被法院裁罰的知名案例。開發者自述，他花費了上千小時最佳化檢索管線，成本可能接近百萬元新台幣，現在以 MIT 授權免費開源。 2,200 萬筆判決、自帶 AI 架構、引用驗證 TW Legal RAG 的技術架構與多數法律 AI 工具不同：它本身不呼叫任何 LLM，而是採取「自帶 AI」（BYO-AI）的設計。使用者透過 CLI 工具對後端（Legal Detective 的 TLR 基礎設施，端點為 tlr.dr-lawbot.com ）發出語義搜尋請求，系統回傳相關判決後，工具將結果打包成一個結構化的 Bundle，可以直接餵給 ChatGPT、Claude、Gemini 或任何本地模型使用。這意味著使用者不需要在本地部署嵌入模型或向量索引，整個工具的依賴很輕量，僅需 httpx 、typer 、rich 三個 Python 套件。工具提供四個核心指令： search ：用自然語言對 2,200 萬筆判決進行語義檢索pack ：將檢索結果打包成 AI 可讀的 Bundle，含判決摘錄與驗證規則check ：Bundle 層級的引用驗證，確認 AI 回覆中引述的判決字號是否存在於檢索結果中health ：服務狀態檢查引用驗證功能是這套工具的一大亮點，它透過純正規表示式比對（不依賴 LLM），檢查 AI 生成內容中的判決字號是否真實存在於 Bundle 中。不過開發者也明確標示限制：驗證器無法判斷引述內容是否正確、無法偵測推理錯誤，也無法識別語義改寫式的幻覺，僅能確認字號的存在性。根據「法律偵探」的貼文，這是一人獨力完成的專案，開發者在半年內投入上千小時最佳化檢索管線，估算成本可能接近百萬元新台幣。為什麼選擇免費開源？「法律偵探」在貼文中表示，許多使用者私訊詢問是否收費，他坦言投入了大量資源，但最終仍選擇以 MIT 授權免費開源。部分原因是看到台灣政府目前正在推動各機關主動建置知識 LLM 服務，他希望透過開源為這個

数据状态✓ 已抓取全文阅读原文（動區 BlockTempo）

🔍历史类似事件· 关键词 + 标的比对0 则

找不到相似事件（需要更多数据样本或 embedding 搜寻，目前为 MVP 关键词比对）

原始信息

ID：1cbe5f8835

来源：動區 BlockTempo

发布：2026-05-28 09:42:36

分类：zh_news · 导出分类 zh

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言