隐私扫描器 — 检测并涂黑文本中的个人信息
粘贴文本并点击扫描,姓名、邮箱、电话、地址、账号会被就地高亮。脱敏后的版本可以一键复制,适合在粘贴给 ChatGPT、Claude、Gemini 之前先做一次清理。全程在浏览器内运行。
端上 AI
模型和文本都不会离开浏览器
10 类 PII
姓名、邮箱、电话、地址、ID 等
隐私优先
无需注册、无需上传、不追踪内容
点击扫描,即可高亮文本中的所有个人信息。AI 在你的设备上运行。
关于隐私扫描器 — 检测并涂黑文本中的个人信息
如果你曾在准备把客户邮件、合同草稿或 Slack 导出内容粘贴给 ChatGPT 时停顿了一下,心想「等等,这真的能离开我的电脑吗?」 — 这个工具就是为那一刻而生的。隐私扫描器会读入任意文本块,把找到的所有个人信息(姓名、邮箱、电话、地址、日期、账号、证件号、URL、组织名,以及密码、API 密钥这类机密信息)全部高亮,并一键生成可以粘贴给你喜欢的 LLM 的脱敏版本。检测模型和你的文本都只留在你的设备上 — 无需上传、无需注册,也不会有任何关于扫描内容的日志。
底层使用的是 OpenAI 的开源模型 privacy-filter(基于 XLM-RoBERTa,针对多语言个人信息检测做了微调),通过 transformers.js 运行,可用时由 WebGPU 加速,否则回退到 WebAssembly。首次扫描会从 Hugging Face 的 CDN 下载 q4 量化版模型(只下载一次,之后走缓存),后续扫描即可瞬时启动。模型支持多语言,因此除了英语外,在中文、日语、西班牙语、葡萄牙语、德语、法语等多种语言上也都能工作。
脱敏模式有三种。「遮蔽」会把每个实体替换为 [REDACTED] — 适合作为最安全的默认选项,前提是后续仍由人工复核一次。「标签」会把值替换为对应的类型 — [PERSON]、[EMAIL]、[PHONE] — 便于让 LLM 理解 prompt 的结构。「删除」会把整个实体直接抹掉,适合短片段、追求最干净输出的场景。挑一个匹配场景的模式,然后复制脱敏后的文本或下载为 .txt 即可。
隐私扫描器是「干脆直接粘贴到 ChatGPT」的免费替代方案。对极其敏感的内容,它无法取代认真的人工审阅 — 任何个人信息模型都不是百分之百完美,只有首字母的姓名、不完整的地址、不常见格式的证件号都可能漏检。把它当作一秒钟过一遍明显个人信息的一道前置过滤,发送之前再亲自看一眼。如果是包含敏感信息的 PDF,请使用 PDF 涂黑工具,它使用同一个检测引擎,但会把检测结果作为黑色矩形覆盖上去,并在保存时把对应页面光栅化,这样原始文字不仅在视觉上被遮住,实际也被真正抹掉。
隐私扫描器 — 检测并涂黑文本中的个人信息 — 常见问题
和直接粘贴到 ChatGPT 相比有什么区别?
如果你把敏感文本粘贴给 ChatGPT、Claude、Gemini 这类云端 LLM,文本就会离开你的设备,被发送到第三方服务器;根据套餐和设置,有时还可能被用于训练。隐私扫描器把检测模型完整运行在你的浏览器里。文本不会离开你的设备,没有注册、没有账号,我们也没有任何服务器可以记录你扫描过什么。在把 prompt 发出去之前先做清理,正是这个工具存在的意义。
能检测出哪些类型的个人信息?
个人姓名(PERSON)、邮箱(EMAIL)、电话号码(PHONE)、地址(ADDRESS)、日期(DATE)、IBAN 或信用卡这类账号(ACCOUNT)、护照与驾照等身份证件号(ID)、URL、组织名(ORG),以及密码、API 密钥等机密字符串(SECRET)。底层模型是 OpenAI 的 privacy-filter,正是为这一用途专门训练的。其设计偏向高召回率,所以请逐一确认高亮的位置,再复制最适合你用途的脱敏版本。
在英语以外的语言上也能工作吗?
可以。privacy-filter 模型是多语言的(基于 XLM-RoBERTa),能在多种语言下识别个人信息。质量在拉丁字母语言上最高(英语、西班牙语、葡萄牙语、德语、法语、意大利语、荷兰语),在屈折较多或非拉丁字母语言上会稍弱一些。中文、日语、阿拉伯语也能工作,但召回率较为保守。如果在非英语文档上扫描时发现有遗漏,可以切换脱敏模式(「标签」最为安全)再人工复核一遍。
真的私密吗?
真的。模型只从 Hugging Face 的公开 CDN 下载一次,然后由浏览器缓存。之后的所有扫描都在你的设备上完成,文本和检测结果不会被发送到 FormatFuse、OpenAI、Google 或任何服务器。扫描时打开浏览器的网络面板就能验证:首次模型下载之后,完全没有出站请求。能记录你文本的服务器,根本就不存在。
脱敏后的文本应该怎么用?
挑一个匹配场景的模式。「遮蔽」会把每个实体替换为 [REDACTED],是最安全的默认选项,适合后续由人工复核。「标签」会替换为 [PERSON]、[EMAIL] 等,适合需要让 LLM 理解 prompt 结构的场景。「删除」会把整个实体直接抹掉。发送前请务必再通读一遍 — 没有模型是完美的,而且上下文(比如「[REDACTED] 这张工单对应的客户负责人」)有时仍会间接泄露信息。
为什么首次扫描比较慢?
首次使用时会下载 privacy-filter 模型(q4 量化版,约 290MB,由 Hugging Face 的 CDN 提供)。下载完成后浏览器会缓存,之后扫描即可瞬时启动(几千字的文本通常不到 1 秒)。如果网络较慢,扫描按钮上会显示下载进度百分比。下载在你和 Hugging Face 的 CDN 之间直接完成,FormatFuse 完全看不到这个请求。
可以扫描的字数有上限吗?
每次扫描上限 50,000 字符。这个限制主要是为了避免极长输入把浏览器卡死。对于邮件、工单、合同条款、聊天导出、代码注释、CSV 行等大多数场景,这个余量已经相当充裕。更长的文档可以拆段,依次扫描。我们没有任何每日上限、注册要求或使用次数限制 — 工具运行在你的设备上,我们也没有需要分摊的成本。
PDF 和其他文档怎么办?
PDF 请使用 PDF 涂黑工具。它在你的设备上运行同一套 privacy-filter 引擎,但会把检测结果作为黑色矩形覆盖上去,并在保存时把对应页面光栅化,这样原始文字不仅在视觉上被遮住,实际也被真正抹掉。含文字的图片可以先用图片转文字(OCR)工具提取出文本,再粘贴到这里。Word 文档和 .txt 直接复制粘贴到上方的文本框即可。
和直接粘贴到 ChatGPT 相比有什么区别?
如果你把敏感文本粘贴给 ChatGPT、Claude、Gemini 这类云端 LLM,文本就会离开你的设备,被发送到第三方服务器;根据套餐和设置,有时还可能被用于训练。隐私扫描器把检测模型完整运行在你的浏览器里。文本不会离开你的设备,没有注册、没有账号,我们也没有任何服务器可以记录你扫描过什么。在把 prompt 发出去之前先做清理,正是这个工具存在的意义。
能检测出哪些类型的个人信息?
个人姓名(PERSON)、邮箱(EMAIL)、电话号码(PHONE)、地址(ADDRESS)、日期(DATE)、IBAN 或信用卡这类账号(ACCOUNT)、护照与驾照等身份证件号(ID)、URL、组织名(ORG),以及密码、API 密钥等机密字符串(SECRET)。底层模型是 OpenAI 的 privacy-filter,正是为这一用途专门训练的。其设计偏向高召回率,所以请逐一确认高亮的位置,再复制最适合你用途的脱敏版本。
在英语以外的语言上也能工作吗?
可以。privacy-filter 模型是多语言的(基于 XLM-RoBERTa),能在多种语言下识别个人信息。质量在拉丁字母语言上最高(英语、西班牙语、葡萄牙语、德语、法语、意大利语、荷兰语),在屈折较多或非拉丁字母语言上会稍弱一些。中文、日语、阿拉伯语也能工作,但召回率较为保守。如果在非英语文档上扫描时发现有遗漏,可以切换脱敏模式(「标签」最为安全)再人工复核一遍。
真的私密吗?
真的。模型只从 Hugging Face 的公开 CDN 下载一次,然后由浏览器缓存。之后的所有扫描都在你的设备上完成,文本和检测结果不会被发送到 FormatFuse、OpenAI、Google 或任何服务器。扫描时打开浏览器的网络面板就能验证:首次模型下载之后,完全没有出站请求。能记录你文本的服务器,根本就不存在。
脱敏后的文本应该怎么用?
挑一个匹配场景的模式。「遮蔽」会把每个实体替换为 [REDACTED],是最安全的默认选项,适合后续由人工复核。「标签」会替换为 [PERSON]、[EMAIL] 等,适合需要让 LLM 理解 prompt 结构的场景。「删除」会把整个实体直接抹掉。发送前请务必再通读一遍 — 没有模型是完美的,而且上下文(比如「[REDACTED] 这张工单对应的客户负责人」)有时仍会间接泄露信息。
为什么首次扫描比较慢?
首次使用时会下载 privacy-filter 模型(q4 量化版,约 290MB,由 Hugging Face 的 CDN 提供)。下载完成后浏览器会缓存,之后扫描即可瞬时启动(几千字的文本通常不到 1 秒)。如果网络较慢,扫描按钮上会显示下载进度百分比。下载在你和 Hugging Face 的 CDN 之间直接完成,FormatFuse 完全看不到这个请求。
可以扫描的字数有上限吗?
每次扫描上限 50,000 字符。这个限制主要是为了避免极长输入把浏览器卡死。对于邮件、工单、合同条款、聊天导出、代码注释、CSV 行等大多数场景,这个余量已经相当充裕。更长的文档可以拆段,依次扫描。我们没有任何每日上限、注册要求或使用次数限制 — 工具运行在你的设备上,我们也没有需要分摊的成本。
PDF 和其他文档怎么办?
PDF 请使用 PDF 涂黑工具。它在你的设备上运行同一套 privacy-filter 引擎,但会把检测结果作为黑色矩形覆盖上去,并在保存时把对应页面光栅化,这样原始文字不仅在视觉上被遮住,实际也被真正抹掉。含文字的图片可以先用图片转文字(OCR)工具提取出文本,再粘贴到这里。Word 文档和 .txt 直接复制粘贴到上方的文本框即可。

