Text Extraction

PDFからテキスト抽出

PDFドキュメントからプレーンテキストを瞬時に抽出します。無料・プライベート・完全にブラウザ内で動作。

Input

PDFをここにドロップ またはクリックして選択

Supports PDF files up to 100MB

PDFからテキスト抽出 — よくあるご質問

PDFのテキスト抽出はどのように動きますか?

本ツールはPDF.jsを使ってPDFに埋め込まれたテキストレイヤーを読み取ります。読み順、段落区切り、ページ構造を保持してすべてのテキスト内容を抽出します。すべての処理はあなたのブラウザ内で行われ — ファイルはサーバーに一切アップロードされません。

スキャンしたPDFからテキストを抽出できますか?

本ツールはテキストレイヤーのあるPDF(デジタルで作成されたドキュメント、またはOCR処理済みのスキャン)で動作します。OCR未処理の画像のみのスキャンPDFの場合、処理を試みた際に通知します。その場合は先にOCRをかけてテキストレイヤーを生成する必要があります。

PDFから直接コピーできないのはなぜですか?

コピー保護のあるPDF、標準文字に対応していないカスタムフォントを使うPDF、または画像として埋め込まれたテキストを含むPDFがあるためです。本ツールは、手動のコピー&ペーストがうまく動かない場合でも、フォントエンコーディングの問題を自動処理してテキストレイヤーのあるPDFからテキストを抽出できます。

ファイルサイズに制限はありますか?

すべての処理がブラウザ内で行われるため、制限はお使いのデバイスのメモリに依存します。ほとんどのデバイスは100MB程度までのPDFを問題なく扱えます。数百ページの非常に大きなPDFは処理に数秒かかる場合があります。

抽出されたテキストはどんな形式で受け取れますか?

抽出されたテキストはUTF-8のプレーンテキストで、段落区切りが保持されます。クリップボードにコピーするか、.txtファイルとしてダウンロードできます。見出し・リスト・書式を含む構造を保持したい場合は、PDF→Markdownツールをお試しください。