要闻列表OpenAI 刚刚开源了一款工具,能在 ChatGPT 接触到你的秘密之前将其抹除
Decrypt2026-04-22 15:56:25 热门

OpenAI 刚刚开源了一款工具,能在 ChatGPT 接触到你的秘密之前将其抹除

ORIGINALOpenAI Just Open-Sourced a Tool That Scrubs Your Secrets Before ChatGPT Ever Sees Them
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯5157 字
简述 - OpenAI 在 GitHub 和 Hugging Face 上以 Apache 2.0 协议发布了 Privacy Filter。 - 该 15 亿参数模型可在本地运行,并能对姓名、地址和密码进行掩码处理。 - 在标准的 PII-Masking-300k 基准测试中,该模型开箱即用,F1 分数达到 96%。 每天都有数百万人将本不该粘贴的内容输入到 ChatGPT 中。纳税申报表、医疗记录、带有客户姓名的工作邮件、那种奇怪的皮疹,还有他们发誓下周会轮换的 API key。 OpenAI 刚刚发布了一款免费工具,可以在聊天机器人看到这些内容之前将其全部清理干净。 它被称为 Privacy Filter,本周以 Apache 2.0 协议发布,这意味着任何人都可以下载、使用、修改它,并基于它构建产品进行销售。该模型托管在 Hugging Face 和 GitHub 上,拥有 15 亿参数(衡量模型潜在知识广度的指标),且体积足够小,可以在普通笔记本电脑上运行。 可以把它想象成拼写检查器,只不过是针对隐私的。你输入一段文本,它会返回同样的文本,并将所有敏感部分替换为 [PRIVATE_PERSON] 或 [ACCOUNT_NUMBER] 等通用占位符。 还记得人们曾设法还原 Jeffrey Epstein 文件中被涂黑的部分,因为 Donald Trump 政府只是简单地用黑色记号笔试图隐藏这些秘密吗?如果他们使用了这个模型,那将不会是个问题。 OpenAI 的 Privacy Filter 实际上做了什么 Privacy Filter 会扫描八类个人信息:姓名、地址、电子邮件、电话号码、URL、日期、账号以及密码和 API key 等机密信息。它会一次性读取全文,然后标记敏感部分,以便进行掩码或脱敏处理。 以下是 OpenAI 公告中的一个真实示例。你粘贴了一封邮件,内容如下: “再次感谢今天早些时候的会面。(...) 作为参考,项目文件列在 4829-1037-5581 下。如果你们那边有任何变动,请随时回复 [email protected] 或致电 +1 (415) 555-0124。” Privacy Filter 返回的结果是: “再次感谢今天早些时候的会面 (...) 作为参考,项目文件列在 [ACCOUNT_NUMBER] 下。如果你们那边有任何变动,请随时回复 [PRIVATE_EMAIL] 或致电 [PRIVATE_PHONE]。” 它不是通过黑盒和记号笔来处理,而是直接修改了实际文本。 许多工具已经尝试捕获电话号码和电子邮件地址。它们的工作原理是寻找模式,例如“三位数字、连字符、三位数字”。这对于显而易见的内容还可以,但一旦涉及上下文相关的内容,就会失效。 “Annie”是私人姓名还是品牌?“123 Main Street”是某人的家还是店面的商业地址?模式匹配无法分辨。Privacy Filter 可以,因为它实际上阅读了周围的句子。 该模型在检测这些细微差别方面似乎相当出色。OpenAI 报告称,其模型在 PII-Masking-300k 数据集的标准基准测试中开箱即用得分 96%,使用该测试的修正版本后得分提升至 97.43%。 换句话说,它在 96% 的情况下能成功检测到私人信息。作为一名有隐私意识的人,你的工作就是处理剩下的 4%。 “本地运行”是核心所在 隐私极客可能会认为这是一件好事:OpenAI 制作了一个足够小且功能强大的模型,可以在你的机器上运行,这意味着你的文本永远不会离开你的电脑去进行清理。 这一点很重要,因为大多数公司目前使用的替代方案是将原始数据发送到声称安全但需要信任的云服务中。这种安排并不总是经得起时间考验。 它也是免费且开源的,因此研究人员可以对其进行研究、改进和使用,而无需担心法律后果。 数据在你的笔记本电脑上被清洗,只有脱敏后的版本才会发送到其他地方。如果你经营一家小企业,这意味着你可以使用 AI 来总结客户邮件,而无需将客户姓名交给第三方。自由职业律师可以将案件记录输入聊天机器人,而不会泄露客户信息。医生可以在不泄露患者身份的情况下起草患者转诊单。开发人员可以使用 AI 调试代码,而无需将自己的 API key 直接粘贴到提示词中——这显然是一个没人谈论的“成人礼”。 对于普通人来说,用例更平凡也更常见。你想让 ChatGPT 重写那封发给房东的愤怒邮件,但你不想把家庭
数据状态✓ 已抓取全文阅读原文(Decrypt)
🔍历史类似事件· 关键词 + 标的比对6 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:58aabe8edb
来源:Decrypt
发布:2026-04-22 15:56:25
分类:hot · 导出分类 hot
标的:未指定
社群投票:+0 /0 · ⭐ 1 重要 · 💬 0 留言