Kostenloser PII-Scanner

Datenschutz-Scanner — Personenbezogene Daten in beliebigem Text finden & schwärzen

Fügen Sie beliebigen Text ein, klicken Sie auf Scannen und sehen Sie jeden Namen, jede E-Mail, Telefonnummer, Adresse und Kontonummer sofort markiert. Kopieren Sie eine geschwärzte Fassung — perfekt, um einen Prompt vor ChatGPT, Claude oder Gemini zu bereinigen. Läuft zu 100 % im Browser.

Ihr Text0 / 50.000
Erkannte personenbezogene Daten

Klicken Sie auf Scannen, um jedes personenbezogene Datum in Ihrem Text zu markieren. Die KI läuft auf Ihrem Gerät.

Über Datenschutz-Scanner — Personenbezogene Daten in beliebigem Text finden & schwärzen

Wenn Sie schon einmal kurz davor waren, eine Kunden-E-Mail, einen Vertragsentwurf oder einen Slack-Export in ChatGPT zu kopieren und sich gefragt haben „Moment — sollte das wirklich meinen Rechner verlassen?“, dann ist diese Funktion genau für diesen Moment gemacht. Der Datenschutz-Scanner liest jeden Textblock, markiert jeden personenbezogenen Treffer (Namen, E-Mail-Adressen, Telefonnummern, Postanschriften, Daten, Kontonummern, Ausweisnummern, URLs, Organisationen und geheimnisartige Strings) und gibt Ihnen mit einem Klick eine bereinigte Version, die Sie in das LLM Ihrer Wahl einfügen können. Das Erkennungsmodell und Ihr Text bleiben dabei auf Ihrem Gerät — kein Upload, keine Anmeldung, kein Log darüber, was Sie gescannt haben.

Im Hintergrund läuft das offene privacy-filter-Modell von OpenAI — ein mehrsprachiger XLM-RoBERTa-Fine-Tune, der gezielt für die PII-Erkennung trainiert wurde — über transformers.js, mit WebGPU-Beschleunigung wo möglich und WebAssembly als Fallback. Der erste Scan lädt das q4-quantisierte Modell vom Hugging-Face-CDN herunter (einmalig, anschließend gecacht); jeder weitere Scan startet sofort. Da das Modell mehrsprachig ist, funktioniert es auf Deutsch, Englisch, Spanisch, Portugiesisch, Französisch, Japanisch und vielen weiteren Sprachen.

Drei Schwärzungsmodi decken die häufigsten Folgeschritte ab. „Maskieren“ ersetzt jeden Treffer durch [REDACTED] — die sicherste Voreinstellung, wenn eine Person den Text noch einmal sichten soll. „Beschriften“ ersetzt den Wert durch seine Kategorie — [PERSON], [EMAIL], [PHONE] — was die Struktur erhält, sodass ein LLM den Aufbau des Prompts weiterhin versteht. „Entfernen“ löscht den Treffer komplett, sinnvoll für kurze Snippets, die so sauber wie möglich aussehen sollen. Wählen Sie den passenden Modus und kopieren Sie den bereinigten Text oder laden Sie ihn als .txt herunter.

Der Datenschutz-Scanner ist die kostenfreie Alternative zu „ich kopier’s einfach in ChatGPT“. Er ersetzt keine sorgfältige manuelle Prüfung bei besonders sensiblen Inhalten — kein PII-Modell ist perfekt, und Grenzfälle (nur Initialen als Name, Teil-Adressen, ungewöhnliche ID-Formate) können durchrutschen. Nutzen Sie ihn als ersten Filter, der das Offensichtliche in Sekunden erfasst, und lesen Sie vor dem Absenden noch einmal Korrektur. Für PDFs mit sensiblen Inhalten verwendet unser Werkzeug PDF schwärzen denselben Motor, wendet die Treffer aber als schwarze Rechtecke an und rasterisiert die betroffenen Seiten beim Speichern — der zugrunde liegende Text wird tatsächlich entfernt, nicht nur visuell überdeckt.

Datenschutz-Scanner — Personenbezogene Daten in beliebigem Text finden & schwärzen — Häufig gestellte Fragen

Wie unterscheidet sich das vom Einfügen in ChatGPT?

Wenn Sie sensiblen Text in ChatGPT, Claude, Gemini oder ein anderes Cloud-LLM einfügen, verlässt dieser Text Ihr Gerät und landet auf einem fremden Server — je nach Tarif und Einstellungen ggf. sogar zum Training. Der Datenschutz-Scanner führt das Erkennungsmodell vollständig in Ihrem Browser aus. Der Text verlässt Ihr Gerät nicht, es gibt keine Anmeldung und keinen Account, und kein Server hat eine Aufzeichnung dessen, was Sie gescannt haben. Der Sinn des Werkzeugs besteht genau darin, den Prompt vor dem Absenden zu bereinigen.

Welche Arten von personenbezogenen Daten werden erkannt?

Personennamen (PERSON), E-Mail-Adressen (EMAIL), Telefonnummern (PHONE), Postanschriften (ADDRESS), Datumsangaben (DATE), Kontonummern wie IBAN oder Kreditkartennummern (ACCOUNT), Ausweisnummern wie Personalausweis oder Reisepass (ID), URLs, Organisationsnamen (ORG) sowie geheimnisartige Muster wie Passwörter oder API-Schlüssel (SECRET). Das zugrunde liegende Modell ist OpenAIs privacy-filter, eigens für diese Aufgabe trainiert — es ist auf Recall optimiert, prüfen Sie also die Markierungen und übernehmen Sie die Variante, die zu Ihrem Folgeschritt passt.

Funktioniert es auch in anderen Sprachen als Englisch?

Ja. Das privacy-filter-Modell ist mehrsprachig (auf Basis von XLM-RoBERTa) und erkennt PII in vielen Sprachen. Die Qualität ist bei lateinschriftlichen Sprachen am besten — Deutsch, Englisch, Spanisch, Portugiesisch, Französisch, Italienisch, Niederländisch — und schwächer bei stark flektierenden oder nicht-lateinischen Schriften. Japanisch, Chinesisch und Arabisch funktionieren, aber mit geringerer Trefferquote. Wenn das Modell in einem nicht-englischen Dokument etwas übersieht, greifen Sie auf den Modus „Beschriften“ zurück und prüfen Sie manuell.

Ist der Scan wirklich privat?

Ja. Das Modell wird einmalig vom öffentlichen Hugging-Face-CDN heruntergeladen und in Ihrem Browser zwischengespeichert. Ab diesem Punkt läuft jeder Scan vollständig auf Ihrem Gerät — kein Text und kein Ergebnis werden an FormatFuse, OpenAI, Google oder einen anderen Server gesendet. Sie können das in der Netzwerk-Registerkarte Ihres Browsers überprüfen: Nach dem ersten Modell-Download gibt es keine ausgehenden Anfragen mehr. Wir betreiben keinen Server, der Ihren Text protokollieren könnte.

Was mache ich mit dem geschwärzten Text?

Wählen Sie den Modus, der zum Folgeschritt passt. „Maskieren“ ersetzt jeden Treffer durch [REDACTED] — die sicherste Standardeinstellung, wenn eine Person das Ergebnis prüft. „Beschriften“ setzt [PERSON], [EMAIL] usw. ein, ideal wenn ein LLM die Struktur des Prompts weiter verstehen soll. „Entfernen“ löscht den Wert komplett. Lesen Sie vor dem Absenden noch einmal aufmerksam — kein Modell ist perfekt, und manchmal verraten Kontextangaben („der Kunde aus Ticket [REDACTED]“) indirekt zu viel.

Warum ist der erste Scan langsam?

Beim ersten Aufruf lädt das Werkzeug das privacy-filter-Modell — etwa 290 MB bei q4-Quantisierung, ausgeliefert vom Hugging-Face-CDN. Ihr Browser legt es danach in den Cache, sodass jeder weitere Scan praktisch sofort startet (in der Regel deutlich unter einer Sekunde für einige tausend Zeichen). Bei langsamem Netz zeigt der Scan-Button den Download-Fortschritt in Prozent. Der Download läuft direkt zwischen Ihnen und dem Hugging-Face-CDN — FormatFuse sieht die Anfrage nicht.

Gibt es ein Limit, wie viel ich scannen kann?

Pro Scan gilt ein Limit von 50.000 Zeichen — vor allem, damit sehr lange Eingaben den Browser nicht blockieren. Für die meisten Anwendungsfälle — E-Mails, Support-Tickets, Vertragsklauseln, Chat-Exporte, Code-Kommentare, CSV-Zeilen — reicht das mehr als aus. Längere Dokumente teilen Sie auf und scannen sie schrittweise. Es gibt kein Tageslimit, keine Anmeldung und keine Nutzungsobergrenze — das Werkzeug läuft auf Ihrem Gerät, also haben wir keine Kosten, die wir weitergeben müssten.

Was ist mit PDFs und anderen Dokumenten?

Für PDFs nutzen Sie unser Werkzeug PDF schwärzen — es verwendet denselben privacy-filter-Motor auf Ihrem Gerät, wendet die Treffer aber als schwarze Schwärzungs-Rechtecke an und rasterisiert die betroffenen Seiten beim Speichern, sodass der zugrunde liegende Text tatsächlich gelöscht wird (nicht nur visuell überdeckt). Für Bilder mit Text nutzen Sie unser Bild-zu-Text (OCR) Tool, um den Text zu extrahieren, und fügen ihn hier ein. Word-Dokumente und .txt-Dateien kopieren Sie einfach in das Textfeld oben.