要聞列表OpenAI 剛剛開源了一款工具,能在 ChatGPT 讀取資料前先清除其中的機密資訊
Decrypt2026-04-22 15:56:25 熱門

OpenAI 剛剛開源了一款工具,能在 ChatGPT 讀取資料前先清除其中的機密資訊

ORIGINALOpenAI Just Open-Sourced a Tool That Scrubs Your Secrets Before ChatGPT Ever Sees Them
AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯5157 字
簡述 - OpenAI 在 GitHub 和 Hugging Face 上以 Apache 2.0 授權釋出 Privacy Filter。 - 這個擁有 15 億參數的模型可在本地端執行,能遮蔽姓名、地址和密碼。 - 在標準 PII-Masking-300k 基準測試中,開箱即用便達到 96% F1 分數。 每天有數百萬人把他們其實不該貼的內容貼進 ChatGPT。報稅資料。病歷。含有客戶姓名的工作信件。那個怪異的疹子。那個他們發誓下週就要更換的 API key。 OpenAI 剛剛釋出了一款免費工具,能在 chatbot 看到之前就把這些內容全部清理乾淨。 它叫做 Privacy Filter,本週在 Apache 2.0 授權下推出,意味著任何人都可以下載、使用、修改它,並販售以它為基礎打造的產品。這個模型存放在 Hugging Face 和 GitHub 上,擁有 15 億參數(衡量模型潛在知識廣度的指標),體積夠小,可以在一般筆電上執行。 可以把它想成拼字檢查,但針對的是隱私。你餵給它一段文字,它會回傳同樣的文字,但所有敏感部分都被換成 [PRIVATE_PERSON] 或 [ACCOUNT_NUMBER] 之類的通用佔位符。 還記得有人能還原 Jeffrey Epstein 檔案中被遮蔽的部分嗎?因為 Donald Trump 政府只是用黑色麥克筆試圖隱藏那些祕密。如果他們當時用了這個模型,就不會有那個問題。 OpenAI 的 Privacy Filter 實際做什麼 Privacy Filter 會掃描八種類別的個人資訊:姓名、地址、電子郵件、電話號碼、URL、日期、帳號,以及密碼和 API key 等機密。它會一次性讀完整段文字,然後標記敏感部分以便遮蔽或編輯。 以下是 OpenAI 公告中的真實範例。你貼進一封信件,內容寫著: 「再次感謝今天稍早的會面。(...) 供您參考,專案檔案編號為 4829-1037-5581。如果您那邊有任何變動,歡迎回信至 [email protected] 或來電 +1 (415) 555-0124。」 Privacy Filter 會回傳: 「再次感謝今天稍早的會面 (...) 供您參考,專案檔案編號為 [ACCOUNT_NUMBER]。如果您那邊有任何變動,歡迎回信至 [PRIVATE_EMAIL] 或來電 [PRIVATE_PHONE]。」 它不是用黑框和麥克筆處理,而是直接改變實際文字。 許多工具早已嘗試捕捉電話號碼和電子郵件地址。它們的運作方式是尋找特定模式,例如「三位數字、破折號、三位數字」。對於明顯的內容來說沒問題,但一旦事情變得依賴上下文,就立刻失效了。 「Annie」是個人姓名還是品牌?「123 Main Street」是某人的住家還是店面的營業地址?模式比對無法判斷。Privacy Filter 可以,因為它實際讀取了周遭的句子。 這個模型似乎相當擅長偵測這些細微差別。OpenAI 表示其模型在使用 PII-Masking-300k 資料集的標準基準測試中開箱即得 96% 分數,而修正版的同一測試讓它達到 97.43%。 換句話說,它有 96% 的時間能成功偵測出私人資訊。作為一個重視隱私的人,你的工作就是處理另外那 4%。 「在本地執行」這部分才是重點 注重隱私的人可能會把這視為好事:OpenAI 打造了一個夠小、夠強大、能在你自己機器上執行的模型,意味著你的文字永遠不會離開你的電腦就能被清理乾淨。 這很重要,因為替代方案——也就是大多數公司目前使用的方式——是把你的原始資料送到某個聲稱安全的雲端服務,然後信任它們。這種安排並不總是能經得起時間考驗。 它同時也是免費且開源的,因此研究人員可以調查它、改進它、使用它,而不必擔心法律後果。 資料在你的筆電上被淨化,只有清理過的版本會傳到其他地方。如果你經營小型企業,這意味著你可以使用 AI 來摘要客戶郵件,而不必把客戶姓名交給第三方。自由接案的律師可以把案件筆記輸入 chatbot 而不洩漏委託人資料。醫生可以草擬病患轉介信而不洩漏病患身分。開發者可以用 AI 除錯,而不必把自己的 API key 直接貼到提示中——這顯然是一個沒人公開談論的成年禮。 對一般人來說,使用情境更平凡也更常見。你想請 ChatGPT 改寫那封寫給房東的憤怒郵件,但你不太喜歡把住家地址交給 OpenAI 的想法。Privacy Filter 一步就能解決這個問題。 在本地端執行開源 AI 模型過去是擁有遊戲 GPU 的玩家才會做的事情。現在不再是了。像 LM Studio 這樣的工具現在讓這件事大概和安裝 Spotify 一樣簡單。 它不是什麼 OpenAI 對其侷限性直言不諱。該公司警告 Privacy Filter「不是匿名化工具、不是合規認證,也不是政策審查的替代品」。 翻譯一下:別把它當成醫院、律師事務所或銀行裡的唯一防線。它可能會漏掉不尋常的識別資訊,可能會過度遮蔽短句,並且在不同語言間表現參差不齊。它是堆疊中的一個工具,不是合規檢查表上的勾選項目。畢竟,96% 的準確率並不是 100% 的準確率。
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:58aabe8edb
來源:Decrypt
發佈:2026-04-22 15:56:25
分類:hot · 導出分類 hot
標的:未指定
社群投票:+0 /0 · ⭐ 1 重要 · 💬 0 留言