Question 1

和直接粘贴到 ChatGPT 相比有什么区别?

Accepted Answer

如果你把敏感文本粘贴给 ChatGPT、Claude、Gemini 这类云端 LLM,文本就会离开你的设备,被发送到第三方服务器;根据套餐和设置,有时还可能被用于训练。隐私扫描器把检测模型完整运行在你的浏览器里。文本不会离开你的设备,没有注册、没有账号,我们也没有任何服务器可以记录你扫描过什么。在把 prompt 发出去之前先做清理,正是这个工具存在的意义。

Question 2

能检测出哪些类型的个人信息?

Accepted Answer

个人姓名(PERSON)、邮箱(EMAIL)、电话号码(PHONE)、地址(ADDRESS)、日期(DATE)、IBAN 或信用卡这类账号(ACCOUNT)、护照与驾照等身份证件号(ID)、URL、组织名(ORG),以及密码、API 密钥等机密字符串(SECRET)。底层模型是 OpenAI 的 privacy-filter,正是为这一用途专门训练的。其设计偏向高召回率,所以请逐一确认高亮的位置,再复制最适合你用途的脱敏版本。

Question 3

在英语以外的语言上也能工作吗?

Accepted Answer

可以。privacy-filter 模型是多语言的(基于 XLM-RoBERTa),能在多种语言下识别个人信息。质量在拉丁字母语言上最高(英语、西班牙语、葡萄牙语、德语、法语、意大利语、荷兰语),在屈折较多或非拉丁字母语言上会稍弱一些。中文、日语、阿拉伯语也能工作,但召回率较为保守。如果在非英语文档上扫描时发现有遗漏,可以切换脱敏模式(「标签」最为安全)再人工复核一遍。

Question 4

真的私密吗?

Accepted Answer

真的。模型只从 Hugging Face 的公开 CDN 下载一次,然后由浏览器缓存。之后的所有扫描都在你的设备上完成,文本和检测结果不会被发送到 FormatFuse、OpenAI、Google 或任何服务器。扫描时打开浏览器的网络面板就能验证:首次模型下载之后,完全没有出站请求。能记录你文本的服务器,根本就不存在。

Question 5

脱敏后的文本应该怎么用?

Accepted Answer

挑一个匹配场景的模式。「遮蔽」会把每个实体替换为 [REDACTED],是最安全的默认选项,适合后续由人工复核。「标签」会替换为 [PERSON]、[EMAIL] 等,适合需要让 LLM 理解 prompt 结构的场景。「删除」会把整个实体直接抹掉。发送前请务必再通读一遍 — 没有模型是完美的,而且上下文(比如「[REDACTED] 这张工单对应的客户负责人」)有时仍会间接泄露信息。

Question 6

为什么首次扫描比较慢?

Accepted Answer

首次使用时会下载 privacy-filter 模型(q4 量化版,约 290MB,由 Hugging Face 的 CDN 提供)。下载完成后浏览器会缓存,之后扫描即可瞬时启动(几千字的文本通常不到 1 秒)。如果网络较慢,扫描按钮上会显示下载进度百分比。下载在你和 Hugging Face 的 CDN 之间直接完成,FormatFuse 完全看不到这个请求。

Question 7

可以扫描的字数有上限吗?

Accepted Answer

每次扫描上限 50,000 字符。这个限制主要是为了避免极长输入把浏览器卡死。对于邮件、工单、合同条款、聊天导出、代码注释、CSV 行等大多数场景,这个余量已经相当充裕。更长的文档可以拆段,依次扫描。我们没有任何每日上限、注册要求或使用次数限制 — 工具运行在你的设备上,我们也没有需要分摊的成本。

Question 8

PDF 和其他文档怎么办?

Accepted Answer

PDF 请使用 PDF 涂黑工具。它在你的设备上运行同一套 privacy-filter 引擎,但会把检测结果作为黑色矩形覆盖上去,并在保存时把对应页面光栅化,这样原始文字不仅在视觉上被遮住,实际也被真正抹掉。含文字的图片可以先用图片转文字(OCR)工具提取出文本,再粘贴到这里。Word 文档和 .txt 直接复制粘贴到上方的文本框即可。

隐私扫描器 — 检测并涂黑文本中的个人信息

关于隐私扫描器 — 检测并涂黑文本中的个人信息

相关工具

试试 RayLabs 的其他应用

Snap a photo. Get a calendar event.