拖放图片到此处

JPG、PNG、WebP、BMP、HEIC,单张最大 100MB

图片在本地处理,不会离开此浏览器。

在上方添加一张或多张图片开始使用。先选择语言以获得最准确的结果。

从图片中提取文字 — 也就是 OCR(光学文字识别) — 是把印刷文字的像素转换成可选中、可复制字符的最快方式。报销时从纸质收据上抠出金额、把一摞名片上的联系方式数字化、从教科书照片中把引用复制到学习笔记里、把会议后的白板拍照转写成文字、从没有文字层的扫描 PDF 中找回文字内容 — 这些场景 OCR 都能搞定。FormatFuse 把整个流水线放在你的设备本地运行,所以即使是带个人地址的收据、医疗记录或敏感合同也能保持私密。

大多数免费 OCR 工具会把图片上传到服务器,在云端处理,再把提取出的文字返回给你。这种方式很方便,但意味着你扔进工具里的每一张照片 — 包括私人的、敏感的 — 都被放在了别人的基础设施上。FormatFuse 使用基于 tesseract.js(把 OCR 引擎 Tesseract 移植到 WebAssembly)的方案,把一切都放在浏览器标签页内完成。网络通信只有首次下载 OCR 引擎和你选择的语言模型文件这一次,之后的识别处理完全离线进行,没有任何数据离开你的设备。

FormatFuse 默认支持 8 种使用广泛的语言 — 英语、西班牙语、法语、德语、简体中文、日语、印地语、阿拉伯语 — 你可以在运行 OCR 前用下拉框切换。对于明亮、高对比度的印刷文字(300 DPI 以上),识别精度最高:书页、打字文档、收据、菜单、截图等。手写体、模糊照片、光线昏暗、弯曲表面或装饰字体的结果会差一些 — Tesseract 是一个通用的印刷文字引擎,不是专门用于手写的模型。为了获得最佳效果,请把文字部分裁剪出来、让相机正对页面、保持光线均匀。

图片转文字(OCR) — 常见问题

图片会上传到服务器吗?

不会。所有 OCR 处理都通过 WebAssembly 在浏览器内完成。网络通信只有首次下载 OCR 引擎和所选语言模型这一次,两者都由 FormatFuse 提供,之后被浏览器缓存。你可以在浏览器的网络面板里验证 — 首次加载之后,对新图片运行 OCR 不会产生任何外发请求。

能识别手写文字吗?

不太可靠。Tesseract 是用印刷文字训练的,所以工整的印刷体大写字母有时能识别出来,但草书、随手写的笔记、装饰性手写体效果都不好。手写内容用专门的模型会比通用 OCR 好得多。请把手写识别的结果当作初稿,需要手动校对。

图片需要达到什么质量才能识别好?

目标是 300 DPI 以上、对焦清晰、光线均匀、文字与背景对比度好。避免倾斜角度、阴影、反光以及过强的 JPG 压缩。如果文字在画面中占比很小,请在上传前先把文字部分裁剪出来。截图和扫描文档通常比用手机拍摄的纸质文档照片表现更好。

哪种语言识别效果最好?

英语拥有最大的训练语料库,识别结果最稳定。其他拉丁字母语言(西班牙语、法语、德语)也表现强劲。中文、日语、印地语和阿拉伯语在明亮的印刷文字上识别效果不错,但更容易受到分辨率和噪点的影响。如果文档中混合多种语言,请选择出现最多的那一种 — 本工具不支持单次多语言 OCR。

为什么第一次运行很慢?

在某种语言上第一次运行 OCR 时,浏览器会下载 Tesseract 引擎(大约 3MB)以及该语言的训练数据(根据语言不同,大约 2~15MB)。这个下载每种语言只发生一次,之后被浏览器缓存,所以后续运行会立即开始。切换到新语言会再下载一次该语言的数据,然后也会被缓存。

支持哪些图片格式?

JPG、PNG、WebP、BMP 和 HEIC 全部支持。iPhone 的 HEIC 文件会在运行 OCR 前在浏览器内解码。对于扫描 PDF,请先用 PDF 转 JPG 或 PDF 转 PNG 工具把页面转换为图片,然后对图片运行 OCR。