画像をここにドロップ

JPG・PNG・WebP・BMP・HEIC 各100MBまで

画像はローカルで処理され、このブラウザの外に出ることはありません。

上部に画像を1枚以上追加して開始します。最も精度の高い結果のため、まず言語を選択してください。

画像から文字起こし(OCR)

写真、スクリーンショット、スキャン文書からブラウザ内でテキストを抽出します。無料、無制限、完全にプライベート — 画像がデバイスから外に出ることはありません。

画像からの文字起こし — 光学文字認識、OCRとも呼ばれる — は、印刷されたテキストのピクセルを選択・コピー可能な文字に変換します。経費精算のために紙のレシートから金額を抜き出す、名刺の山にある連絡先情報をデジタル化する、教科書の写真から引用を学習ノートに取り出す、会議後のホワイトボードのスナップショットを書き起こす、テキストレイヤーがないスキャン済みPDFから文字を取り戻す — そんなときに最も速い手段です。FormatFuseはパイプライン全体をデバイス上で実行するため、個人住所が載ったレシートや、医療メモ、機密性のある契約書であってもプライベートに保たれます。

ほとんどの無料OCRツールは画像をサーバーにアップロードし、クラウドで処理して、抽出されたテキストを返します。便利な仕組みですが、ツールに通したすべての写真 — 個人的・機密性のあるものも含めて — が他人のインフラに置かれることになります。FormatFuseはWebAssemblyに移植されたOCRエンジンTesseractをベースとするtesseract.jsを使い、すべてをブラウザのタブ内で実行します。ネットワーク通信は、OCRエンジンと選択した言語のモデルファイルを最初の1回だけダウンロードするのみで、その後の認識処理はオフラインで行われ、何もデバイスから外に出ません。

FormatFuseは広く使われている8言語に標準対応しています — 英語、スペイン語、フランス語、ドイツ語、簡体字中国語、日本語、ヒンディー語、アラビア語 — OCR実行前にドロップダウンで言語を切り替えられます。精度は、明るく高コントラストな印刷テキスト(300 DPI以上)で最も高く発揮されます:書籍のページ、タイプ打ちの文書、レシート、メニュー、スクリーンショットなどです。手書き文字、ぼやけた写真、暗い場所、湾曲した面、装飾フォントの結果はばらつきます — Tesseractは汎用の印刷テキスト用エンジンであり、手書き専用モデルではありません。最良の結果のために、文字部分にトリミングし、ページに対してカメラを正対させ、均一な明るさで撮影してください。

画像から文字起こし(OCR) — よくあるご質問

画像はサーバーにアップロードされますか?

いいえ。OCR処理はすべてブラウザ内でWebAssemblyを使って行われます。ネットワーク通信は、OCRエンジンと選択した言語モデルの最初の1回ダウンロードのみで、いずれもFormatFuseから配信され、その後はブラウザがキャッシュします。ブラウザのネットワークタブで確認できます — 初回ロードのあとは、新しい画像でOCRを実行しても外向きの通信は発生しません。

手書き文字は読み取れますか?

確実には読み取れません。Tesseractは印刷テキストで学習されているため、丁寧なブロック体大文字なら時々動作することもありますが、筆記体、急いで書かれたメモ、装飾的な手書きでは結果が悪くなります。手書きコンテンツには、汎用OCRよりも専用モデルの方がはるかに良い性能を発揮します。手書きの出力は手動修正が必要な下書きとして扱ってください。

良い結果のためにはどれくらいの画質が必要ですか?

300 DPI以上、ピントが鮮明、光が均一、テキストと背景のコントラストが良好であることを目指してください。斜めの角度、影、グレア、強いJPG圧縮は避けてください。フレーム内でテキストが小さい場合は、アップロード前にテキスト部分にトリミングしてください。スクリーンショットやスキャンしたページは、文書をスマートフォンで撮影した写真より良好に動作するのが一般的です。

どの言語が最も良く動作しますか?

英語は最大の学習コーパスを持っているため、最も安定した結果が得られます。他のラテン文字言語(スペイン語、フランス語、ドイツ語)も強力です。中国語、日本語、ヒンディー語、アラビア語は、明るく印刷されたテキストでは良く動作しますが、解像度やノイズの影響を受けやすくなります。文書に複数の言語が混在する場合は、最も多く現れるものを選んでください — 1パスでの多言語OCRは本ツールでは対応していません。

初回実行が遅いのはなぜですか?

ある言語で初めてOCRを実行すると、ブラウザがTesseractエンジン(およそ3 MB)と言語固有の学習データ(言語によって2〜15 MB)をダウンロードします。このダウンロードは言語ごとに1回だけ行われ、ブラウザがキャッシュするため、その後の実行は即座に開始します。新しい言語に切り替えるとその言語のデータのために再度ダウンロードが発生し、その言語もキャッシュされます。

どの画像形式が使えますか?

JPG、PNG、WebP、BMP、HEICすべてに対応しています。iPhoneのHEICファイルはOCR実行前にブラウザ内でデコードされます。スキャンPDFについては、まずPDFをJPGまたはPDFをPNGツールでページを画像に変換し、その画像でOCRを実行してください。