文本提取

PDF 提取文本

瞬间从 PDF 文档中提取纯文本。免费、隐私保护、完全在浏览器内运行。

100% 私密

你的 PDF 不会离开设备

即时提取

无需等待或服务器处理

清晰文本输出

保留阅读顺序和段落

Input

拖放 PDF 到此处或点击选择

Supports PDF files up to 100MB

Extracted Text

Upload a PDF file to extract text

关于PDF 提取文本

从 PDF 中提取文本,是想在原文档之外复用合同、报告、文章、表单内容时的常规任务:粘贴到邮件、引用到论文、转到文本编辑器、做翻译、加入搜索索引等等。FormatFuse 基于 PDF.js 在浏览器里直接完成提取 — PDF 不会上传到服务器,文本几秒钟就显示在你眼前。

本工具适用于带真实文本图层的 PDF:Word、Google 文档、LaTeX、浏览器导出等数字生成的文档,或者已经做过 OCR 的扫描件。对于完全是图片的扫描 PDF(纸质页面拍照、没做 OCR 的旧扫描),工具会检测到没有文本图层并提示。这种情况下需要先做 OCR — 离线工具和在线服务都行,但在线 OCR 通常会把文件上传给识别引擎。

一个小技巧:从 PDF 阅读器里手动复制粘贴时如果出现乱码或错位符号,这个工具往往能给出干净得多的结果。很多 PDF 嵌入了奇怪映射的字体,会把浏览器剪贴板搞坏,但 PDF.js 能正确解码。如果想保留标题、列表、结构而不仅仅是纯文本,请用 Markdown 转换器;如果只想要文字用于检索、引用或翻译,纯文本提取更直接。

相关工具

PDF 转 Markdown

将 PDF 转为保留结构的 Markdown

PDF 转 JPG

将 PDF 页面转为高画质的 JPG 图片

PDF 合并

把多份 PDF 合并为一个文档

试试 RayLabs 的其他应用

Lumical · iOS app

Snap a photo. Get a calendar event.

Point your camera at any meeting invite, poster, or handwritten schedule. Lumical reads it and creates the event automatically — no typing.

PDF 提取文本 — 常见问题

PDF 文本提取是怎么工作的?

工具基于 PDF.js 读取 PDF 内嵌的文本图层。它会保留阅读顺序、段落分隔和页面结构,把所有文本内容提取出来。整个过程在你的浏览器里完成 — 文件不会上传到服务器。

扫描 PDF 也能提取文本吗?

本工具适用于带文本图层的 PDF(数字生成的文档或者已经做过 OCR 的扫描)。如果是没有 OCR 的纯图片扫描 PDF,处理时会有提示。这种情况下需要先做 OCR,生成文本图层后再提取。

为什么有些 PDF 没法直接复制?

原因有几种:有些 PDF 设置了复制保护;有些使用了不映射到标准字符的自定义字体;还有的 PDF 把文字以图片形式嵌入。这个工具能自动处理字体编码问题,即便手动复制粘贴失败,也能从带文本图层的 PDF 里提取出来。

文件大小有限制吗?

所有处理都在浏览器里完成,限制取决于你设备的内存。大多数设备能处理 100MB 左右的 PDF 而不出问题。几百页的超大 PDF 处理可能需要几秒。

提取出来的文本是什么格式?

是 UTF-8 编码的纯文本,保留段落分隔。可以复制到剪贴板或下载为 .txt 文件。如果想保留标题、列表、格式这类结构,请试试 PDF 转 Markdown 工具。

PDF 文本提取是怎么工作的?

工具基于 PDF.js 读取 PDF 内嵌的文本图层。它会保留阅读顺序、段落分隔和页面结构,把所有文本内容提取出来。整个过程在你的浏览器里完成 — 文件不会上传到服务器。

扫描 PDF 也能提取文本吗?

本工具适用于带文本图层的 PDF(数字生成的文档或者已经做过 OCR 的扫描)。如果是没有 OCR 的纯图片扫描 PDF,处理时会有提示。这种情况下需要先做 OCR,生成文本图层后再提取。

为什么有些 PDF 没法直接复制?

原因有几种:有些 PDF 设置了复制保护;有些使用了不映射到标准字符的自定义字体;还有的 PDF 把文字以图片形式嵌入。这个工具能自动处理字体编码问题,即便手动复制粘贴失败,也能从带文本图层的 PDF 里提取出来。

文件大小有限制吗?

所有处理都在浏览器里完成,限制取决于你设备的内存。大多数设备能处理 100MB 左右的 PDF 而不出问题。几百页的超大 PDF 处理可能需要几秒。

提取出来的文本是什么格式?

是 UTF-8 编码的纯文本,保留段落分隔。可以复制到剪贴板或下载为 .txt 文件。如果想保留标题、列表、格式这类结构,请试试 PDF 转 Markdown 工具。