「法律偵探」宣布開源台灣法律RAG向量庫，30年判決能用口語搜尋

대만 법률 AI 팬페이지 「法律偵探」(법률탐정)이 「TW Legal RAG」 대만 법률 시맨틱 검색 도구를 오픈소스로 공개한다고 발표했다. 약 2,200만 건의 대만 판결을 구조화 및 벡터화하여, 사용자는 일상적인 구어로 판결을 검색할 수 있으며, 결과를 모든 AI(ChatGPT, Claude, Gemini 또는 로컬 모델)가 직접 읽을 수 있는 형식으로 패키징할 수 있다. 이 도구는 인용 검증 기능을 내장하여, AI 응답 속 판결 번호가 실제로 존재하는지 확인할 수 있다. (관련 배경: 대만 암호화폐 전문법 《虛擬資產服務法》(가상자산서비스법) 공청회 6대 핵심: 무허가 업자가 사기 연루 시 가중 처벌!) (배경 보충: 遠東商銀(원동상업은행), 高檢署(고등검찰청) MOU 체결: 대만 전체 95%의 암호화폐 자금흐름을 자금세탁 방지·사기 방지 수사 체계에 편입) 핵심 요약 - 「法律偵探」이 TW Legal RAG를 오픈소스로 공개, 약 2,200만 건의 대만 판결을 포괄하며, `pip install twlegalrag`로 사용 가능 - 아키텍처는 「BYO-AI(Bring Your Own AI)」 방식: 도구 자체는 LLM을 호출하지 않으며, 시맨틱 검색 후 Bundle로 패키징하여 임의의 AI가 읽을 수 있도록 제공 - 인용 검증 기능 내장, AI 응답 속 판결 번호가 검색 결과에 실제로 존재하는지 확인하여 환각 차단 「法律偵探」은 오늘(27일) Facebook에서 반년에 걸쳐 개발한 「TW Legal RAG」(대만 법률 RAG 시맨틱 검색 도구)가 정식으로 오픈소스 공개되었으며, MIT 라이선스로 배포된다고 발표했다. 이 도구는 약 2,200만 건의 대만 판결을 구조화 및 벡터화하여, 법률 분야 전용으로 설계된 시맨틱 검색 시스템을 구축했으며, 누구나 `pip install twlegalrag`로 직접 설치하여 사용할 수 있다. RAG(Retrieval-Augmented Generation, 검색 증강 생성)는 현재 대형 언어 모델(LLM)의 「환각」 문제를 해결하는 주류 기술 아키텍처로, 모델이 응답을 생성하기 전에 외부 지식베이스에서 관련 사실을 먼저 검색하여 출력에 실제 데이터 근거가 있도록 보장하는 것을 의미한다. 이는 법률 분야에서 특히 중요한데, LLM이 존재하지 않는 판례를 지어내는 사례가 실무상 여러 차례 논란을 일으켰으며, 그중에는 미국 변호사가 ChatGPT가 허위로 생성한 판례를 인용했다가 법원으로부터 제재를 받은 유명한 사건도 포함된다. 개발자 본인의 설명에 따르면, 그는 수천 시간을 들여 검색 파이프라인을 최적화했고, 비용은 약 100만 신타이완달러에 가까울 수 있으며, 현재 MIT 라이선스로 무료 오픈소스 공개한다. 2,200만 건의 판결, BYO-AI 아키텍처, 인용 검증 TW Legal RAG의 기술 아키텍처는 대부분의 법률 AI 도구와 다르다: 자체적으로 어떠한 LLM도 호출하지 않고, 「BYO-AI(Bring Your Own AI, 자체 AI 지참)」 설계를 채택한다. 사용자는 CLI 도구를 통해 백엔드(Legal Detective의 TLR 인프라, 엔드포인트는 `tlr.dr-lawbot.com`)에 시맨틱 검색 요청을 보내고, 시스템이 관련 판결을 반환한 후, 도구가 결과를 구조화된 Bundle로 패키징하여 ChatGPT, Claude, Gemini 또는 임의의 로컬 모델에 직접 입력할 수 있도록 한다. 이는 사용자가 로컬에 임베딩 모델이나 벡터 인덱스를 배포할 필요가 없으며, 도구 전체의 의존성이 매우 가볍고, `httpx`, `typer`, `rich` 3개의 Python 패키지만 필요함을 의미한다. 도구는 네 가지 핵심 명령을 제공한다: - `search`: 자연어로 2,200만 건의 판결에 대해 시맨틱 검색 수행 - `pack`: 검색 결과를 AI가 읽을 수 있는 Bundle로 패키징, 판결 발췌 및 검증 규칙 포함 - `check`: Bundle 수준의 인용 검증, AI 응답에 인용된 판결 번호가 검색 결과에 존재하는지 확인 - `health`: 서비스 상태 점검 인용 검증 기능은 이 도구의 주요 강점으로, 순수 정규 표현식 매칭(LLM에 의존하지 않음)을 통해 AI 생성 콘텐츠 속 판결 번호가 Bundle에 실제로 존재하는지 확인한다. 다만 개발자는 한계도 명확히 밝혔다: 검증기는 인용 내용이 정확한지 판단할 수 없고, 추론 오류를 감지할 수 없으며, 시맨틱 재구성형 환각도 식별할 수 없으며, 단지 판결 번호의 존재성만 확인할 수 있다. 「法律偵探」의 게시물에 따르면, 이는 1인이 단독으로 완성한 프로젝트로, 개발자는 반년 내에 수천 시간을 투입하여 검색 파이프라인을 최적화했으며, 비용은 약 100만 신타이완달러에 가까울 것으로 추산된다. 왜 무료 오픈소스를 선택했나? 「法律偵探」은 게시물에서 많은 사용자가 비공개 메시지로 유료화 여부를 문의했다고 밝히며, 막대한 자원을 투입했음을 솔직히 인정했지만, 결국 MIT 라이선스로 무료 오픈소스 공개를 선택했다고 말했다. 그 이유 중 일부는 대만 정부가 현재 각 기관이 자체적으로 지식 LLM 서비스를 구축하도록 추진하고 있는 것을 보고, 오픈소스를 통해 이 방향에 기여하고자 했기 때문이다. TW Legal RAG의 오픈소스 공개는 대만 법률 기술 생태계에 실질적인 의미가 있다. 현재 대만 법률 AI 분야에는 이미 여러 상용화 제품(Lawbot AI, 法律人 LawPlayer 등)이 존재하지만, 2,200만 건의 판결을 포괄하고, 시맨틱 검색이 가능하며, 인용 검증 기능을 내장한 오픈소스 도구는 여전히 희소하다. 개발자나 스타트업 팀은 이 도구를 자신의 애플리케이션에 직접 통합할 수 있으며, 법률 지식베이스를 처음부터 구축할 필요가 없다. 주목할 점은, TW Legal RAG가 사용자의 검색 기록을 서버 측에서 검색 분석에 사용하기 위해 기록하지만, 모델 학습에는 사용하지 않는다고 선언한 것이다. 현재 실제 사용 경험에 대해서는 사법 관련 종사자의 피드백이 더 필요하다. 자주 묻는 질문 TW Legal RAG는 어떻게 사용하나? `pip install twlegalrag`를 실행하여 설치한 후, CLI 명령 `search`로 자연어로 판결을 검색하고, `pack`으로 AI가 읽을 수 있는 형식으로 패키징한 다음, ChatGPT나 Claude 등 임의의 LLM에 입력하여 사용한다. TW Legal RAG의 인용 검증은 AI 환각을 방지할 수 있나? 인용 검증은 AI 응답 속 판결 번호가 검색 결과에 존재하는지 확인할 수 있지만, 인용 내용이 정확한지 판단하거나 시맨틱 재구성형 환각을 감지할 수는 없으며, 단지 판결 번호 수준의 존재성 검증만 수행할 수 있다.