Bilder hier ablegen
JPG, PNG, WebP, BMP, HEIC bis zu 100 MB pro Datei
Fügen Sie oben ein oder mehrere Bilder hinzu, um zu starten. Wählen Sie zuerst die Sprache für die genauesten Ergebnisse.
Über Bild-zu-Text-OCR
Die Umwandlung von Bild zu Text — auch optische Zeichenerkennung oder OCR genannt — verwandelt die Pixel eines gedruckten Textes in markierbare und kopierbare Zeichen. Es ist der schnellste Weg, Beträge eines Papierbelegs in eine Spesenabrechnung zu übernehmen, Kontaktdaten von einem Stapel Visitenkarten zu digitalisieren, Zitate aus einem Lehrbuchfoto in Ihre Notizen zu übernehmen, ein Whiteboard-Foto nach einem Meeting abzuschreiben oder Text aus einem gescannten PDF ohne Textebene zurückzugewinnen. FormatFuse führt die gesamte Kette auf Ihrem Gerät aus, sodass selbst Belege mit Privatadressen, ärztliche Notizen oder vertrauliche Verträge privat bleiben.
Die meisten kostenlosen OCR-Werkzeuge laden Ihre Bilder auf einen Server, verarbeiten sie in der Cloud und senden den extrahierten Text zurück. Dieses Modell ist bequem, bedeutet aber, dass jedes Foto, das Sie durch das Werkzeug schicken — einschließlich persönlicher oder sensibler Inhalte — auf fremder Infrastruktur landet. FormatFuse setzt auf tesseract.js, einen WebAssembly-Port der Tesseract-OCR-Engine, der vollständig im Browser-Tab läuft. Die einzige Netzwerkaktivität ist ein einmaliger Download der OCR-Engine und des gewählten Sprachmodells; danach erfolgt die Erkennung offline und nichts verlässt Ihr Gerät.
FormatFuse unterstützt von Haus aus acht weit verbreitete Sprachen — Englisch, Spanisch, Französisch, Deutsch, Chinesisch (vereinfacht), Japanisch, Hindi und Arabisch — und Sie können die Sprache vor dem OCR-Lauf in einem Dropdown wechseln. Die Genauigkeit ist am höchsten bei klar gedrucktem, kontrastreichem Text mit 300 dpi oder mehr: Buchseiten, getippte Dokumente, Belege, Briefe und Screenshots. Ergebnisse mit Handschrift, unscharfen Fotos, schwachem Licht, gewölbten Oberflächen und stilisierten Schriften sind hingegen unzuverlässig — Tesseract ist eine generische Engine für gedruckten Text, kein Handschriftmodell. Für die besten Ergebnisse beschneiden Sie das Bild auf den Textbereich, halten die Kamera parallel zur Seite und fotografieren bei gleichmäßigem Licht.
Bild-zu-Text-OCR
Extrahieren Sie Text aus Fotos, Screenshots und gescannten Dokumenten direkt im Browser. Kostenlos, unbegrenzt und vollständig privat — Ihre Bilder verlassen Ihr Gerät nie.
Die Umwandlung von Bild zu Text — auch optische Zeichenerkennung oder OCR genannt — verwandelt die Pixel eines gedruckten Textes in markierbare und kopierbare Zeichen. Es ist der schnellste Weg, Beträge eines Papierbelegs in eine Spesenabrechnung zu übernehmen, Kontaktdaten von einem Stapel Visitenkarten zu digitalisieren, Zitate aus einem Lehrbuchfoto in Ihre Notizen zu übernehmen, ein Whiteboard-Foto nach einem Meeting abzuschreiben oder Text aus einem gescannten PDF ohne Textebene zurückzugewinnen. FormatFuse führt die gesamte Kette auf Ihrem Gerät aus, sodass selbst Belege mit Privatadressen, ärztliche Notizen oder vertrauliche Verträge privat bleiben.
Die meisten kostenlosen OCR-Werkzeuge laden Ihre Bilder auf einen Server, verarbeiten sie in der Cloud und senden den extrahierten Text zurück. Dieses Modell ist bequem, bedeutet aber, dass jedes Foto, das Sie durch das Werkzeug schicken — einschließlich persönlicher oder sensibler Inhalte — auf fremder Infrastruktur landet. FormatFuse setzt auf tesseract.js, einen WebAssembly-Port der Tesseract-OCR-Engine, der vollständig im Browser-Tab läuft. Die einzige Netzwerkaktivität ist ein einmaliger Download der OCR-Engine und des gewählten Sprachmodells; danach erfolgt die Erkennung offline und nichts verlässt Ihr Gerät.
FormatFuse unterstützt von Haus aus acht weit verbreitete Sprachen — Englisch, Spanisch, Französisch, Deutsch, Chinesisch (vereinfacht), Japanisch, Hindi und Arabisch — und Sie können die Sprache vor dem OCR-Lauf in einem Dropdown wechseln. Die Genauigkeit ist am höchsten bei klar gedrucktem, kontrastreichem Text mit 300 dpi oder mehr: Buchseiten, getippte Dokumente, Belege, Briefe und Screenshots. Ergebnisse mit Handschrift, unscharfen Fotos, schwachem Licht, gewölbten Oberflächen und stilisierten Schriften sind hingegen unzuverlässig — Tesseract ist eine generische Engine für gedruckten Text, kein Handschriftmodell. Für die besten Ergebnisse beschneiden Sie das Bild auf den Textbereich, halten die Kamera parallel zur Seite und fotografieren bei gleichmäßigem Licht.
Bild-zu-Text-OCR — Häufig gestellte Fragen
Werden meine Bilder auf einen Server hochgeladen?
Nein. Die gesamte OCR-Verarbeitung läuft im Browser über WebAssembly. Die einzige Netzwerkanfrage ist ein einmaliger Download der OCR-Engine und des gewählten Sprachmodells — beides wird von FormatFuse bereitgestellt und anschließend von Ihrem Browser zwischengespeichert. Sie können das im Netzwerk-Tab Ihres Browsers prüfen: Nach dem ersten Laden erzeugt die OCR-Auswertung eines neuen Bildes keinen ausgehenden Datenverkehr.
Kann das Werkzeug Handschrift lesen?
Nicht zuverlässig. Tesseract ist auf Druckschrift trainiert — gut geformte, einzelne Druckbuchstaben funktionieren manchmal, doch Schreibschrift, hastig hingeworfene Notizen oder stilisierte Handschrift liefern schwache Ergebnisse. Für handgeschriebene Inhalte erzielen spezialisierte Modelle deutlich bessere Resultate als generisches OCR. Behandeln Sie jede Handschrift-Ausgabe als Entwurf, der manuell korrigiert werden muss.
Welche Bildqualität brauche ich für gute Ergebnisse?
Streben Sie 300 dpi oder mehr an, mit scharfer Schärfe, gleichmäßigem Licht und gutem Kontrast zwischen Text und Hintergrund. Vermeiden Sie schräge Winkel, Schatten, Spiegelungen und aggressive JPG-Kompression. Wenn der Text nur einen kleinen Teil des Bildes einnimmt, schneiden Sie vor dem Hochladen auf den Textbereich zu. Screenshots und gescannte Dokumente liefern in der Regel bessere Ergebnisse als Handyfotos eines Dokuments.
Welche Sprachen funktionieren am besten?
Englisch liefert die beständigsten Ergebnisse, weil es das größte Trainingskorpus hat. Andere Sprachen mit lateinischer Schrift (Spanisch, Französisch, Deutsch) sind ebenfalls solide. Chinesisch, Japanisch, Hindi und Arabisch funktionieren mit klar gedrucktem Text gut, reagieren aber empfindlicher auf Auflösung und Bildrauschen. Wenn Ihr Dokument Sprachen mischt, wählen Sie die häufigere — mehrsprachiges OCR in einem einzigen Durchgang ist in diesem Werkzeug nicht vorgesehen.
Warum ist der erste Lauf langsam?
Beim ersten OCR-Lauf in einer Sprache lädt Ihr Browser die Tesseract-Engine (etwa 3 MB) und die sprachspezifischen Trainingsdaten (je nach Sprache 2 bis 15 MB). Dieser Download fällt einmal pro Sprache an, wird vom Browser zwischengespeichert und sorgt dafür, dass jeder weitere Lauf sofort startet. Der Wechsel zu einer neuen Sprache löst einen weiteren Download für deren Daten aus, die anschließend ebenfalls im Cache liegen.
Welche Bildformate kann ich verwenden?
JPG, PNG, WebP, BMP und HEIC werden unterstützt. iPhone-HEIC-Dateien werden vor der OCR-Auswertung im Browser dekodiert. Für gescannte PDFs wandeln Sie die Seiten zunächst mit unseren Werkzeugen PDF zu JPG oder PDF zu PNG in Bilder um und führen dann das OCR über die Bilder aus.
Werden meine Bilder auf einen Server hochgeladen?
Nein. Die gesamte OCR-Verarbeitung läuft im Browser über WebAssembly. Die einzige Netzwerkanfrage ist ein einmaliger Download der OCR-Engine und des gewählten Sprachmodells — beides wird von FormatFuse bereitgestellt und anschließend von Ihrem Browser zwischengespeichert. Sie können das im Netzwerk-Tab Ihres Browsers prüfen: Nach dem ersten Laden erzeugt die OCR-Auswertung eines neuen Bildes keinen ausgehenden Datenverkehr.
Kann das Werkzeug Handschrift lesen?
Nicht zuverlässig. Tesseract ist auf Druckschrift trainiert — gut geformte, einzelne Druckbuchstaben funktionieren manchmal, doch Schreibschrift, hastig hingeworfene Notizen oder stilisierte Handschrift liefern schwache Ergebnisse. Für handgeschriebene Inhalte erzielen spezialisierte Modelle deutlich bessere Resultate als generisches OCR. Behandeln Sie jede Handschrift-Ausgabe als Entwurf, der manuell korrigiert werden muss.
Welche Bildqualität brauche ich für gute Ergebnisse?
Streben Sie 300 dpi oder mehr an, mit scharfer Schärfe, gleichmäßigem Licht und gutem Kontrast zwischen Text und Hintergrund. Vermeiden Sie schräge Winkel, Schatten, Spiegelungen und aggressive JPG-Kompression. Wenn der Text nur einen kleinen Teil des Bildes einnimmt, schneiden Sie vor dem Hochladen auf den Textbereich zu. Screenshots und gescannte Dokumente liefern in der Regel bessere Ergebnisse als Handyfotos eines Dokuments.
Welche Sprachen funktionieren am besten?
Englisch liefert die beständigsten Ergebnisse, weil es das größte Trainingskorpus hat. Andere Sprachen mit lateinischer Schrift (Spanisch, Französisch, Deutsch) sind ebenfalls solide. Chinesisch, Japanisch, Hindi und Arabisch funktionieren mit klar gedrucktem Text gut, reagieren aber empfindlicher auf Auflösung und Bildrauschen. Wenn Ihr Dokument Sprachen mischt, wählen Sie die häufigere — mehrsprachiges OCR in einem einzigen Durchgang ist in diesem Werkzeug nicht vorgesehen.
Warum ist der erste Lauf langsam?
Beim ersten OCR-Lauf in einer Sprache lädt Ihr Browser die Tesseract-Engine (etwa 3 MB) und die sprachspezifischen Trainingsdaten (je nach Sprache 2 bis 15 MB). Dieser Download fällt einmal pro Sprache an, wird vom Browser zwischengespeichert und sorgt dafür, dass jeder weitere Lauf sofort startet. Der Wechsel zu einer neuen Sprache löst einen weiteren Download für deren Daten aus, die anschließend ebenfalls im Cache liegen.
Welche Bildformate kann ich verwenden?
JPG, PNG, WebP, BMP und HEIC werden unterstützt. iPhone-HEIC-Dateien werden vor der OCR-Auswertung im Browser dekodiert. Für gescannte PDFs wandeln Sie die Seiten zunächst mit unseren Werkzeugen PDF zu JPG oder PDF zu PNG in Bilder um und führen dann das OCR über die Bilder aus.