OpenAI 剛剛開源了一款工具，能在 ChatGPT 讀取資料前先清除其中的機密資訊

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯5157 字

簡述 - OpenAI 在 GitHub 和 Hugging Face 上以 Apache 2.0 授權釋出 Privacy Filter。 - 這個擁有 15 億參數的模型可在本地端執行，能遮蔽姓名、地址和密碼。 - 在標準 PII-Masking-300k 基準測試中，開箱即用便達到 96% F1 分數。每天有數百萬人把他們其實不該貼的內容貼進 ChatGPT。報稅資料。病歷。含有客戶姓名的工作信件。那個怪異的疹子。那個他們發誓下週就要更換的 API key。 OpenAI 剛剛釋出了一款免費工具，能在 chatbot 看到之前就把這些內容全部清理乾淨。它叫做 Privacy Filter，本週在 Apache 2.0 授權下推出，意味著任何人都可以下載、使用、修改它，並販售以它為基礎打造的產品。這個模型存放在 Hugging Face 和 GitHub 上，擁有 15 億參數（衡量模型潛在知識廣度的指標），體積夠小，可以在一般筆電上執行。可以把它想成拼字檢查，但針對的是隱私。你餵給它一段文字，它會回傳同樣的文字，但所有敏感部分都被換成 [PRIVATE_PERSON] 或 [ACCOUNT_NUMBER] 之類的通用佔位符。還記得有人能還原 Jeffrey Epstein 檔案中被遮蔽的部分嗎？因為 Donald Trump 政府只是用黑色麥克筆試圖隱藏那些祕密。如果他們當時用了這個模型，就不會有那個問題。 OpenAI 的 Privacy Filter 實際做什麼 Privacy Filter 會掃描八種類別的個人資訊：姓名、地址、電子郵件、電話號碼、URL、日期、帳號，以及密碼和 API key 等機密。它會一次性讀完整段文字，然後標記敏感部分以便遮蔽或編輯。以下是 OpenAI 公告中的真實範例。你貼進一封信件，內容寫著：「再次感謝今天稍早的會面。(...) 供您參考，專案檔案編號為 4829-1037-5581。如果您那邊有任何變動，歡迎回信至 [email protected] 或來電 +1 (415) 555-0124。」 Privacy Filter 會回傳：「再次感謝今天稍早的會面 (...) 供您參考，專案檔案編號為 [ACCOUNT_NUMBER]。如果您那邊有任何變動，歡迎回信至 [PRIVATE_EMAIL] 或來電 [PRIVATE_PHONE]。」它不是用黑框和麥克筆處理，而是直接改變實際文字。許多工具早已嘗試捕捉電話號碼和電子郵件地址。它們的運作方式是尋找特定模式，例如「三位數字、破折號、三位數字」。對於明顯的內容來說沒問題，但一旦事情變得依賴上下文，就立刻失效了。「Annie」是個人姓名還是品牌？「123 Main Street」是某人的住家還是店面的營業地址？模式比對無法判斷。Privacy Filter 可以，因為它實際讀取了周遭的句子。這個模型似乎相當擅長偵測這些細微差別。OpenAI 表示其模型在使用 PII-Masking-300k 資料集的標準基準測試中開箱即得 96% 分數，而修正版的同一測試讓它達到 97.43%。換句話說，它有 96% 的時間能成功偵測出私人資訊。作為一個重視隱私的人，你的工作就是處理另外那 4%。「在本地執行」這部分才是重點注重隱私的人可能會把這視為好事：OpenAI 打造了一個夠小、夠強大、能在你自己機器上執行的模型，意味著你的文字永遠不會離開你的電腦就能被清理乾淨。這很重要，因為替代方案——也就是大多數公司目前使用的方式——是把你的原始資料送到某個聲稱安全的雲端服務，然後信任它們。這種安排並不總是能經得起時間考驗。它同時也是免費且開源的，因此研究人員可以調查它、改進它、使用它，而不必擔心法律後果。資料在你的筆電上被淨化，只有清理過的版本會傳到其他地方。如果你經營小型企業，這意味著你可以使用 AI 來摘要客戶郵件，而不必把客戶姓名交給第三方。自由接案的律師可以把案件筆記輸入 chatbot 而不洩漏委託人資料。醫生可以草擬病患轉介信而不洩漏病患身分。開發者可以用 AI 除錯，而不必把自己的 API key 直接貼到提示中——這顯然是一個沒人公開談論的成年禮。對一般人來說，使用情境更平凡也更常見。你想請 ChatGPT 改寫那封寫給房東的憤怒郵件，但你不太喜歡把住家地址交給 OpenAI 的想法。Privacy Filter 一步就能解決這個問題。在本地端執行開源 AI 模型過去是擁有遊戲 GPU 的玩家才會做的事情。現在不再是了。像 LM Studio 這樣的工具現在讓這件事大概和安裝 Spotify 一樣簡單。它不是什麼 OpenAI 對其侷限性直言不諱。該公司警告 Privacy Filter「不是匿名化工具、不是合規認證，也不是政策審查的替代品」。翻譯一下：別把它當成醫院、律師事務所或銀行裡的唯一防線。它可能會漏掉不尋常的識別資訊，可能會過度遮蔽短句，並且在不同語言間表現參差不齊。它是堆疊中的一個工具，不是合規檢查表上的勾選項目。畢竟，96% 的準確率並不是 100% 的準確率。

資料狀態✓ 已擷取全文閱讀原文（Decrypt）

🔍歷史類似事件· 關鍵字 + 標的比對6 則

2026-04-30

OpenAI 為 ChatGPT 用戶推出進階帳號安全功能

相似度 170%關鍵字 chatgpt/openai同分類 hot

2026-04-30

OpenAI 終於解釋了為什麼 ChatGPT 一直談論 Goblins

相似度 130%關鍵字 chatgpt/openai

2026-04-29

Google 和 Microsoft 剛證明了 AI 交易依然火熱——而 OpenAI 卻正備感壓力

相似度 130%關鍵字 just/openai

2026-04-29

OpenAI 因未在 Tumbler Ridge 大規模槍擊案前向警方發出警告而遭起訴

相似度 130%關鍵字 before/openai

2026-04-29

ChatGPT 廣告全解剖：對話即標籤、情境投放、30 天追蹤 Cookie，OpenAI 最知道你在想什麼

相似度 130%關鍵字 chatgpt/openai

2026-04-29

ChatGPT 廣告機制解剖：對話即標籤、四重加密 Token、商家 SDK 回傳，OpenAI 廣告棧已成形

相似度 130%關鍵字 chatgpt/openai

💡 目前用關鍵字 + 標的比對（MVP）· 之後會升級為 embedding 語意搜尋

原始資訊

ID：58aabe8edb

來源：Decrypt

發佈：2026-04-22 15:56:25

分類：hot · 導出分類 hot

標的：未指定

社群投票：+0 / −0 · ⭐ 1 重要 · 💬 0 留言