「法律偵探」が台湾の法律RAGベクトルデータベースのオープンソース化を発表、30年分の判決文を口語で検索可能に

台湾の法律AIファンページ「法律偵探」は、台湾法律セマンティック検索ツール「TW Legal RAG」をオープンソース化すると発表した。約2,200万件の台湾の判決・裁定を構造化・ベクトル化し、ユーザーは日常的な話し言葉で判決を検索でき、結果を任意のAI（ChatGPT、Claude、Gemini、またはローカルモデル）が直接読み取れる形式にパッケージ化できる。ツールには引用検証機能が組み込まれており、AIの返答に含まれる判決番号が実際に存在するかをチェックできる。（前回までのあらすじ：台湾の暗号資産専門法《虛擬資產服務法》公聴会の6大ポイント：無免許業者が詐欺に関与した場合は加重処理！）（背景補足：遠東商銀、高検署とMOU締結：台湾全土の95%の暗号資産フローをマネロン・詐欺防止捜査の枠組みに組み込む）要点まとめ - 「法律偵探」がTW Legal RAGをオープンソース化、約2,200万件の台湾判決・裁定をカバーし、 pip install twlegalrag で利用可能 - アーキテクチャは「BYO-AI」モード：ツール自体はLLMを呼び出さず、セマンティック検索後にBundleにパッケージ化して任意のAIに読み込ませる - 引用検証機能を内蔵、AIの返答に含まれる判決番号が検索結果に実際に存在するかをチェックし、ハルシネーションを防止「法律偵探」は本日（27日）、Facebookで半年間かけて開発した「TW Legal RAG」（台湾法律RAGセマンティック検索ツール）が正式にオープンソース化され、MITライセンスでリリースされたと発表した。このツールは約2,200万件の台湾の判決・裁定を構造化・ベクトル化し、法律分野専用に設計されたセマンティック検索システムを構築するもので、誰でもpip install twlegalrag で直接インストールして利用できる。 RAG（Retrieval-Augmented Generation、検索拡張生成）は、大規模言語モデル（LLM）の「ハルシネーション」問題を解決するための主流の技術アーキテクチャであり、モデルが回答を生成する前に外部の知識ベースから関連事実を検索し、出力に実際のデータの裏付けがあることを保証するものである。これは法律分野で特に重要であり、LLMが存在しない判例をでっち上げる事例が実務上たびたび議論を呼んでいる。米国の弁護士がChatGPTが捏造した判例を引用し裁判所から制裁を受けた有名な事例も含まれる。開発者によると、検索パイプラインの最適化に数千時間を費やし、コストは新台湾ドルで約100万元に近いと見込まれるが、現在MITライセンスで無料オープンソース化している。 2,200万件の判決、BYO-AIアーキテクチャ、引用検証 TW Legal RAGの技術アーキテクチャは、ほとんどの法律AIツールとは異なる。ツール自体はいかなるLLMも呼び出さず、「BYO-AI」（Bring Your Own AI）の設計を採用している。ユーザーはCLIツールを通じてバックエンド（Legal DetectiveのTLRインフラ、エンドポイントはtlr.dr-lawbot.com ）にセマンティック検索リクエストを送信し、システムが関連判決を返した後、ツールが結果を構造化されたBundleにパッケージ化し、ChatGPT、Claude、Geminiまたは任意のローカルモデルに直接渡すことができる。これはユーザーがローカルに埋め込みモデルやベクトルインデックスを展開する必要がないことを意味し、ツール全体の依存関係は軽量で、httpx 、typer 、rich の3つのPythonパッケージのみを必要とする。ツールは4つのコアコマンドを提供する： search ：自然言語で2,200万件の判決をセマンティック検索pack ：検索結果をAIが読み取れるBundleにパッケージ化、判決の抜粋と検証ルールを含むcheck ：Bundleレベルの引用検証、AIの返答に引用された判決番号が検索結果に存在するかを確認health ：サービス状態チェック引用検証機能はこのツールの大きな目玉であり、純粋な正規表現マッチング（LLMに依存しない）を通じて、AIが生成したコンテンツ内の判決番号がBundleに実際に存在するかをチェックする。ただし開発者は制限事項も明示している：検証器は引用内容が正確かを判断できず、推論エラーを検出できず、セマンティックな書き換え型のハルシネーションも識別できない。番号の存在性のみを確認できる。「法律偵探」の投稿によれば、これは一人で完成させたプロジェクトであり、開発者は半年で数千時間を投入して検索パイプラインを最適化し、コストは新台湾ドルで約100万元に近いと推算される。なぜ無料オープンソースを選んだのか？「法律偵探」は投稿で、多くのユーザーから有料かどうか問い合わせのメッセージを受け取ったと述べ、大量のリソースを投入したことを認めながらも、最終的にMITライセンスで無料オープンソース化を選択した。一部の理由は、台湾政府が現在各機関に対し知識LLMサービスの主体的構築を推進しているのを目にし、オープンソースを通じてこの方向性に貢献したいと考えたことにある。 TW Legal RAGのオープンソース化は、台湾の法律テック・エコシステムにとって実質的な意義を持つ。現在、台湾の法律AI分野には複数の商用化された製品（Lawbot AI、法律人LawPlayerなど）が存在するが、2,200万件の判決をカバーし、セマンティック検索可能で、引用検証を内蔵したオープンソースツールは依然として希少である。開発者や新興チームはこのツールを直接利用して自身のアプリケーションに統合でき、ゼロから法律知識ベースを構築する必要がない。注目すべきは、TW Legal RAGがユーザーのクエリ記録をサーバー側で検索分析のために保存するが、モデルの訓練には使用しないと明言している点である。現在の実際の使用体験については、司法関連の従事者からのフィードバックがまだ必要である。よくある質問 TW Legal RAGはどう使う？ pip install twlegalrag でインストール後、CLIコマンドsearch で自然言語を使って判決を検索し、pack でAIが読み取れる形式にパッケージ化し、ChatGPTやClaudeなど任意のLLMに渡して使用する。 TW Legal RAGの引用検証はAIのハルシネーションを防げる？引用検証はAIの返答内の判決番号が検索結果に存在するかを確認できるが、引用内容が正確かを判断したり、セマンティックな書き換え型のハルシネーションを検出したりすることはできず、番号レベルの存在性検証のみが可能である。