要闻列表“法律侦探”宣布开源台湾法律RAG向量库,30年判决能用口语搜索
動區 BlockTempo2026-05-28 09:42:36

“法律侦探”宣布开源台湾法律RAG向量库,30年判决能用口语搜索

ORIGINAL「法律偵探」宣布開源台灣法律RAG向量庫,30年判決能用口語搜尋
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯2073 字
台灣法律 AI 粉專「法律偵探」宣布開源「TW Legal RAG」台灣法律語義檢索工具,將約 2,200 萬筆台灣判決裁判結構化並向量化,使用者可用日常口語搜尋判決,並將結果打包成任何 AI(ChatGPT、Claude、Gemini 或本地模型)可直接讀取的格式。工具內建引用驗證功能,可檢查 AI 回覆中的判決字號是否真實存在。 (前情提要:台灣加密專法《虛擬資產服務法》公聽會6大重點:無照業者若涉詐騙加重處理!) (背景補充:遠東商銀、高檢署簽訂MOU:全台95%加密金流納入反洗、反詐偵查架構) 重點摘要 - 「法律偵探」開源 TW Legal RAG,涵蓋約 2,200 萬筆台灣判決裁判, pip install twlegalrag 即可使用 - 架構為「自帶 AI」模式:工具本身不呼叫 LLM,語義搜尋後打包成 Bundle 供任意 AI 讀取 - 內建引用驗證功能,可檢查 AI 回覆中的判決字號是否真實存在於檢索結果中,防堵幻覺 「法律偵探」今日(27)在 Facebook 宣布,歷時半年開發的「TW Legal RAG」(台灣法律 RAG 語義檢索工具)正式開源上線,以 MIT 授權發布。這套工具將約 2,200 萬筆台灣判決裁判結構化並向量化,建構出一個專為法律領域設計的語義檢索系統,任何人都可以透過 pip install twlegalrag 直接安裝使用。 RAG(Retrieval-Augmented Generation,檢索增強生成)是目前解決大型語言模型(LLM)「幻覺」問題的主流技術架構,意思是在模型生成回覆前,先從外部知識庫檢索相關事實,確保輸出有實際資料支撐。這在法律領域尤其關鍵,因為 LLM 編造不存在的判例已多次引發實務爭議,包括美國律師引用 ChatGPT 虛構判例被法院裁罰的知名案例。 開發者自述,他花費了上千小時最佳化檢索管線,成本可能接近百萬元新台幣,現在以 MIT 授權免費開源。 2,200 萬筆判決、自帶 AI 架構、引用驗證 TW Legal RAG 的技術架構與多數法律 AI 工具不同:它本身不呼叫任何 LLM,而是採取「自帶 AI」(BYO-AI)的設計。使用者透過 CLI 工具對後端(Legal Detective 的 TLR 基礎設施,端點為 tlr.dr-lawbot.com )發出語義搜尋請求,系統回傳相關判決後,工具將結果打包成一個結構化的 Bundle,可以直接餵給 ChatGPT、Claude、Gemini 或任何本地模型使用。 這意味著使用者不需要在本地部署嵌入模型或向量索引,整個工具的依賴很輕量,僅需 httpx 、typer 、rich 三個 Python 套件。 工具提供四個核心指令: search :用自然語言對 2,200 萬筆判決進行語義檢索pack :將檢索結果打包成 AI 可讀的 Bundle,含判決摘錄與驗證規則check :Bundle 層級的引用驗證,確認 AI 回覆中引述的判決字號是否存在於檢索結果中health :服務狀態檢查 引用驗證功能是這套工具的一大亮點,它透過純正規表示式比對(不依賴 LLM),檢查 AI 生成內容中的判決字號是否真實存在於 Bundle 中。不過開發者也明確標示限制:驗證器無法判斷引述內容是否正確、無法偵測推理錯誤,也無法識別語義改寫式的幻覺,僅能確認字號的存在性。 根據「法律偵探」的貼文,這是一人獨力完成的專案,開發者在半年內投入上千小時最佳化檢索管線,估算成本可能接近百萬元新台幣。 為什麼選擇免費開源? 「法律偵探」在貼文中表示,許多使用者私訊詢問是否收費,他坦言投入了大量資源,但最終仍選擇以 MIT 授權免費開源。部分原因是看到台灣政府目前正在推動各機關主動建置知識 LLM 服務,他希望透過開源為這個
数据状态✓ 已抓取全文阅读原文(動區 BlockTempo)
🔍历史类似事件· 关键词 + 标的比对0 则
找不到相似事件(需要更多数据样本或 embedding 搜寻,目前为 MVP 关键词比对)
原始信息
ID:1cbe5f8835
来源:動區 BlockTempo
发布:2026-05-28 09:42:36
分类:zh_news · 导出分类 zh
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言