OpenAI は、ChatGPT が読み取る前にシークレット情報を削除するツールをオープンソース化しました

📄原文全文· trafilatura により自動抽出Gemini 翻譯5157 文字

要約 - OpenAIはGitHubおよびHugging Faceにて、Apache 2.0ライセンスでPrivacy Filterを公開した。 - 15億パラメータのこのモデルはローカル環境で動作し、名前、住所、パスワードなどをマスキングする。 - 標準的なPII-Masking-300kベンチマークにおいて、導入直後の状態で96%のF1スコアを達成している。毎日、何百万人もの人々がChatGPTに本来入力すべきではない情報を貼り付けている。確定申告書、医療記録、クライアント名が含まれる業務メール、恥ずかしい症状、来週更新すると誓ったAPI keyなどだ。 OpenAIは、チャットボットがそれらを見る前にすべてをクリーンアップする無料ツールを公開した。それはPrivacy Filterと呼ばれ、今週Apache 2.0ライセンスでリリースされた。つまり、誰でもダウンロード、使用、改変が可能であり、これを基盤とした製品の販売もできる。このモデルはHugging FaceとGitHubで公開されており、15億パラメータ（モデルの知識の広さを測る指標）を持ち、一般的なノートPCで動作するほど軽量である。これはプライバシーのためのスペルチェックだと考えると分かりやすい。テキストの塊を入力すると、機密情報が[PRIVATE_PERSON]や[ACCOUNT_NUMBER]といった汎用的なプレースホルダーに置き換えられた同じテキストが返ってくる。かつてDonald Trump政権が黒塗りペンを使って機密を隠そうとした際、Jeffrey Epstein関連文書の一部が復元されてしまったことを覚えているだろうか。もし彼らがこのモデルを使っていれば、そのような問題は起きなかったはずだ。 OpenAIのPrivacy Filterが実際に行うこと Privacy Filterは、名前、住所、メールアドレス、電話番号、URL、日付、口座番号、そしてパスワードやAPI keyなどの秘密情報という8つの個人情報カテゴリをスキャンする。テキスト全体を一度に読み込み、機密部分をタグ付けしてマスキングや墨消しを行う。 OpenAIの発表にある実際の例を見てみよう。以下のようなメールを貼り付けたと仮定する。「本日はお会いできてよかったです。（...）参考までに、プロジェクトファイルは4829-1037-5581に記載されています。何か変更があれば、[email protected]まで返信するか、+1 (415) 555-0124までお電話ください。」 Privacy Filterは以下のように返す。「本日はお会いできてよかったです（...）参考までに、プロジェクトファイルは[ACCOUNT_NUMBER]に記載されています。何か変更があれば、[PRIVATE_EMAIL]まで返信するか、[PRIVATE_PHONE]までお電話ください。」黒塗りやマーカーで隠すのではなく、実際のテキストを書き換えるのである。電話番号やメールアドレスを検知しようとするツールはすでに数多く存在する。それらは「3桁の数字、ハイフン、3桁の数字」といったパターンを探すことで機能する。明らかな情報にはそれで十分だが、文脈に依存する情報になると途端に機能しなくなる。「Annie」は個人の名前か、それともブランド名か？「123 Main Street」は個人の自宅か、それとも店舗の住所か？パターンマッチングでは判別できない。Privacy Filterなら、周囲の文章を実際に読み取るため、判別が可能である。このモデルは、こうしたニュアンスの検出にかなり長けているようだ。OpenAIの報告によると、PII-Masking-300kデータセットを用いた標準的なベンチマークにおいて、導入直後の状態で96%のスコアを記録し、同テストの修正版では97.43%に達した。言い換えれば、96%の確率で個人情報を正常に検出できるということだ。プライバシーを意識する人間としての仕事は、残りの4%をケアすることである。「ローカルで動作する」ことの重要性プライバシーに関心の高い人々は、これを良いことだと捉えるだろう。OpenAIはモデルを小型化し、個人のマシンで動作するほど強力にした。つまり、テキストがクリーンアップのためにコンピュータの外へ出ることはない。これが重要なのは、現在ほとんどの企業が採用している代替手段が、安全だと主張するクラウドサービスに生データを送信し、そのサービスを信頼するというものだからだ。その仕組みは、必ずしも長期的に安全とは限らない。また、無料かつオープンソースであるため、研究者は法的リスクを心配することなく、調査、改善、利用ができる。データはノートPC上でサニタイズされ、スクラブ（洗浄）されたバージョンだけが外部へ送信される。小規模ビジネスを運営している場合、顧客の名前

データステータス✓ 全文抽出済み原文を読む（Decrypt）

🔍過去の類似イベント· キーワード + 銘柄照合6 件

2026-04-30

OpenAI、ChatGPT ユーザー向けに高度なアカウントセキュリティ機能を展開

類似度 170%關鍵字 chatgpt/openai同分類 hot

2026-04-30

OpenAIがChatGPTがGoblinsについて話し続けるのをやめなかった理由をようやく説明

類似度 130%關鍵字 chatgpt/openai

2026-04-29

Google と Microsoft が AI トレードの健在を証明した一方で、OpenAI は冷や汗をかいている

類似度 130%關鍵字 just/openai

2026-04-29