ニュース一覧OpenAI は、ChatGPT が読み取る前にシークレット情報を削除するツールをオープンソース化しました
Decrypt2026-04-22 15:56:25 ホット

OpenAI は、ChatGPT が読み取る前にシークレット情報を削除するツールをオープンソース化しました

ORIGINALOpenAI Just Open-Sourced a Tool That Scrubs Your Secrets Before ChatGPT Ever Sees Them
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯5157 文字
要約 - OpenAIはGitHubおよびHugging Faceにて、Apache 2.0ライセンスでPrivacy Filterを公開した。 - 15億パラメータのこのモデルはローカル環境で動作し、名前、住所、パスワードなどをマスキングする。 - 標準的なPII-Masking-300kベンチマークにおいて、導入直後の状態で96%のF1スコアを達成している。 毎日、何百万人もの人々がChatGPTに本来入力すべきではない情報を貼り付けている。確定申告書、医療記録、クライアント名が含まれる業務メール、恥ずかしい症状、来週更新すると誓ったAPI keyなどだ。 OpenAIは、チャットボットがそれらを見る前にすべてをクリーンアップする無料ツールを公開した。 それはPrivacy Filterと呼ばれ、今週Apache 2.0ライセンスでリリースされた。つまり、誰でもダウンロード、使用、改変が可能であり、これを基盤とした製品の販売もできる。このモデルはHugging FaceとGitHubで公開されており、15億パラメータ(モデルの知識の広さを測る指標)を持ち、一般的なノートPCで動作するほど軽量である。 これはプライバシーのためのスペルチェックだと考えると分かりやすい。テキストの塊を入力すると、機密情報が[PRIVATE_PERSON]や[ACCOUNT_NUMBER]といった汎用的なプレースホルダーに置き換えられた同じテキストが返ってくる。 かつてDonald Trump政権が黒塗りペンを使って機密を隠そうとした際、Jeffrey Epstein関連文書の一部が復元されてしまったことを覚えているだろうか。もし彼らがこのモデルを使っていれば、そのような問題は起きなかったはずだ。 OpenAIのPrivacy Filterが実際に行うこと Privacy Filterは、名前、住所、メールアドレス、電話番号、URL、日付、口座番号、そしてパスワードやAPI keyなどの秘密情報という8つの個人情報カテゴリをスキャンする。テキスト全体を一度に読み込み、機密部分をタグ付けしてマスキングや墨消しを行う。 OpenAIの発表にある実際の例を見てみよう。以下のようなメールを貼り付けたと仮定する。 「本日はお会いできてよかったです。(...)参考までに、プロジェクトファイルは4829-1037-5581に記載されています。何か変更があれば、[email protected]まで返信するか、+1 (415) 555-0124までお電話ください。」 Privacy Filterは以下のように返す。 「本日はお会いできてよかったです(...)参考までに、プロジェクトファイルは[ACCOUNT_NUMBER]に記載されています。何か変更があれば、[PRIVATE_EMAIL]まで返信するか、[PRIVATE_PHONE]までお電話ください。」 黒塗りやマーカーで隠すのではなく、実際のテキストを書き換えるのである。 電話番号やメールアドレスを検知しようとするツールはすでに数多く存在する。それらは「3桁の数字、ハイフン、3桁の数字」といったパターンを探すことで機能する。明らかな情報にはそれで十分だが、文脈に依存する情報になると途端に機能しなくなる。 「Annie」は個人の名前か、それともブランド名か?「123 Main Street」は個人の自宅か、それとも店舗の住所か?パターンマッチングでは判別できない。Privacy Filterなら、周囲の文章を実際に読み取るため、判別が可能である。 このモデルは、こうしたニュアンスの検出にかなり長けているようだ。OpenAIの報告によると、PII-Masking-300kデータセットを用いた標準的なベンチマークにおいて、導入直後の状態で96%のスコアを記録し、同テストの修正版では97.43%に達した。 言い換えれば、96%の確率で個人情報を正常に検出できるということだ。プライバシーを意識する人間としての仕事は、残りの4%をケアすることである。 「ローカルで動作する」ことの重要性 プライバシーに関心の高い人々は、これを良いことだと捉えるだろう。OpenAIはモデルを小型化し、個人のマシンで動作するほど強力にした。つまり、テキストがクリーンアップのためにコンピュータの外へ出ることはない。 これが重要なのは、現在ほとんどの企業が採用している代替手段が、安全だと主張するクラウドサービスに生データを送信し、そのサービスを信頼するというものだからだ。その仕組みは、必ずしも長期的に安全とは限らない。 また、無料かつオープンソースであるため、研究者は法的リスクを心配することなく、調査、改善、利用ができる。 データはノートPC上でサニタイズされ、スクラブ(洗浄)されたバージョンだけが外部へ送信される。小規模ビジネスを運営している場合、顧客の名前
データステータス✓ 全文抽出済み原文を読む(Decrypt)
🔍過去の類似イベント· キーワード + 銘柄照合6 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:58aabe8edb
ソース:Decrypt
公開:2026-04-22 15:56:25
カテゴリ:hot · エクスポートカテゴリ hot
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 1 重要 · 💬 0 コメント
OpenAI は、ChatGPT が読み取る前にシークレット情報を削除するツールをオープンソース化しました | Feel.Trading