無料PIIスキャナー

プライバシースキャナー — テキスト中の個人情報を検出して黒塗り

テキストを貼り付けてスキャンを押すと、氏名・メールアドレス・電話番号・住所・口座番号がその場でハイライトされます。黒塗り版をコピーできるので、ChatGPT・Claude・Geminiに貼る前のクリーニングに最適です。すべてブラウザ内で動作します。

入力テキスト0 / 50,000
検出された個人情報

スキャンを押すと、テキスト中のすべての個人情報をハイライトします。AIは端末内で動作します。

プライバシースキャナー — テキスト中の個人情報を検出して黒塗りについて

顧客のメール、契約書のドラフト、Slackのエクスポートを ChatGPT に貼り付けようとした瞬間、「ちょっと待って、これって本当に自分のPCの外に出していいの?」と立ち止まったことがあるなら、このツールはまさにその瞬間のために作られました。プライバシースキャナーは任意のテキストブロックを読み込み、見つかった個人情報(氏名・メールアドレス・電話番号・住所・日付・口座番号・ID・URL・組織名・パスワードや APIキーといった機密情報)をすべてハイライトし、お好みのLLMに貼り付けられるクリーニング済みのバージョンをワンクリックで生成します。検出モデルとあなたのテキストはどちらも端末内に留まります — アップロードも会員登録もなく、スキャンした内容のログも残りません。

内部では、OpenAI のオープンソースモデル privacy-filter(多言語に対応した XLM-RoBERTa の個人情報検出向けファインチューン)を transformers.js 経由で実行します。利用可能な場合は WebGPU で高速化し、それ以外では WebAssembly にフォールバックします。初回のスキャン時には Hugging Face の CDN から q4 量子化モデルをダウンロードしますが(一度きり、その後はキャッシュ)、以降のスキャンは即座に開始されます。モデルは多言語対応なので、英語だけでなく日本語・スペイン語・ポルトガル語・ドイツ語・フランス語など多くの言語で動作します。

黒塗りモードは3種類あります。「マスク」は各エンティティを [REDACTED] に置き換えます — 後で人間が確認することを前提にした、最も安全な既定値です。「ラベル」は値をその種別 — [PERSON]、[EMAIL]、[PHONE] — に置き換えます。LLM側にプロンプトの構造を理解させたい場合に便利です。「削除」はエンティティを丸ごと取り除きます。短い断片で最もすっきりした出力が欲しいときに向きます。用途に合うモードを選び、クリーンなテキストをコピーするか .txt としてダウンロードしてください。

プライバシースキャナーは「とりあえずChatGPTに貼っちゃおう」に対する無料の代替案です。極めて機密性の高い内容については、丁寧な手動レビューの代わりにはなりません — どの個人情報モデルも完璧ではなく、イニシャルだけの氏名・部分的な住所・珍しい形式のIDなどはすり抜ける可能性があります。明らかな個人情報を一秒で拾う一次フィルタとして使い、送信前にもう一度目を通してください。機密情報を含む PDF には、同じ検出エンジンを使った PDF黒塗り ツールをお使いください。検出結果を黒い四角形として適用し、保存時に該当ページをラスタライズするので、元のテキストは視覚的に隠されるだけでなく実際に消えます。

プライバシースキャナー — テキスト中の個人情報を検出して黒塗り — よくあるご質問

ChatGPT に直接貼り付けるのと何が違うのですか?

ChatGPT・Claude・Gemini などのクラウドLLMに機密テキストを貼り付けると、そのテキストはあなたの端末を離れ、第三者のサーバーに送信されます。料金プランや設定によっては、学習用に保持されることもあります。プライバシースキャナーは検出モデルを完全にブラウザ内で実行します。テキストは端末から外に出ず、登録もアカウントもなく、何をスキャンしたかをサーバーに記録することもできません。プロンプトを送る前にきれいにすることが、このツールの目的そのものです。

どのような種類の個人情報を検出できますか?

個人の氏名(PERSON)、メールアドレス(EMAIL)、電話番号(PHONE)、住所(ADDRESS)、日付(DATE)、IBAN やクレジットカードのような口座番号(ACCOUNT)、パスポートや免許証などの本人確認番号(ID)、URL、組織名(ORG)、パスワードや APIキーなどの機密文字列(SECRET)です。ベースとなるモデルは OpenAI の privacy-filter で、この用途に向けて専用に学習されています。検出(リコール)を優先する設計なので、ハイライトされた箇所を確認し、用途に合うクリーニング済みのバージョンをコピーしてください。

英語以外の言語でも動作しますか?

はい。privacy-filter モデルは多言語対応(XLM-RoBERTa ベース)で、多くの言語で個人情報を識別します。品質はラテン文字の言語で最も高く(英語・スペイン語・ポルトガル語・ドイツ語・フランス語・イタリア語・オランダ語)、屈折の多い言語や非ラテン文字の言語ではやや弱くなります。日本語・中国語・アラビア語でも動作しますが、リコールは控えめです。英語以外の文書をスキャンしてモデルが見落とした場合は、黒塗りモード(「ラベル」が最も安全)に切り替えて手動で確認してください。

本当にプライベートですか?

はい。モデルは Hugging Face の公開 CDN から1回だけダウンロードされ、ブラウザでキャッシュされます。それ以降のスキャンはすべて端末内で実行され、テキストや検出結果が FormatFuse・OpenAI・Google などのサーバーに送信されることはありません。スキャン中にブラウザのネットワークタブを開けば、初回のモデルダウンロード後は外向きのリクエストがゼロであることを確認できます。あなたのテキストを記録できるサーバーがそもそも存在しません。

黒塗りされたテキストはどのように使えばよいですか?

用途に合うモードを選んでください。「マスク」は各エンティティを [REDACTED] に置き換える、人間がレビューする前提の最も安全な既定値です。「ラベル」は [PERSON]・[EMAIL] などに置き換えるので、LLMがプロンプトの構造を理解する必要がある場合に最適です。「削除」はエンティティを丸ごと取り除きます。送信前には必ずもう一度通読してください — どのモデルも完璧ではなく、文脈(「[REDACTED] のチケットの担当顧客」など)から間接的に情報が漏れることがあります。

なぜ初回のスキャンは時間がかかるのですか?

初回利用時に privacy-filter モデルをダウンロードします(q4 量子化で約 290MB、Hugging Face の CDN から配信)。ダウンロード後はブラウザがキャッシュするため、以降のスキャンは即座に開始されます(数千文字のテキストなら通常1秒未満)。回線が遅い場合はスキャンボタンに進捗のパーセンテージが表示されます。ダウンロードはあなたと Hugging Face の CDN の間で直接行われ、FormatFuse はリクエストを見ません。

スキャンできる量に制限はありますか?

1回のスキャンあたり 50,000 文字までという上限を設けています。これは主に、極端に長い入力でブラウザがフリーズしないようにするためです。メール・サポートチケット・契約条項・チャットのエクスポート・コードのコメント・CSV の行など、多くの用途では十分な余裕があります。それより長い文書は分割して順番にスキャンしてください。1日あたりの上限・登録・利用回数の上限はいずれもありません — ツールは端末内で動くので、転嫁すべきコストもありません。

PDF やその他のドキュメントは?

PDF には PDF黒塗り ツールをお使いください。同じ privacy-filter エンジンを端末内で実行しますが、検出結果を黒い四角形として適用し、保存時に該当ページをラスタライズするので、元のテキストは視覚的に隠されるだけでなく実際に削除されます。テキストを含む画像には 画像からテキスト(OCR)ツールでテキストを抽出してからここに貼り付けてください。Word 文書や .txt は、上のテキストエリアにそのまま貼り付けてください。