Question 1

ChatGPT に直接貼り付けるのと何が違うのですか？

Accepted Answer

ChatGPT・Claude・Gemini などのクラウドLLMに機密テキストを貼り付けると、そのテキストはあなたの端末を離れ、第三者のサーバーに送信されます。料金プランや設定によっては、学習用に保持されることもあります。プライバシースキャナーは検出モデルを完全にブラウザ内で実行します。テキストは端末から外に出ず、登録もアカウントもなく、何をスキャンしたかをサーバーに記録することもできません。プロンプトを送る前にきれいにすることが、このツールの目的そのものです。

Question 2

どのような種類の個人情報を検出できますか？

Accepted Answer

個人の氏名（PERSON）、メールアドレス（EMAIL）、電話番号（PHONE）、住所（ADDRESS）、日付（DATE）、IBAN やクレジットカードのような口座番号（ACCOUNT）、パスポートや免許証などの本人確認番号（ID）、URL、組織名（ORG）、パスワードや APIキーなどの機密文字列（SECRET）です。ベースとなるモデルは OpenAI の privacy-filter で、この用途に向けて専用に学習されています。検出（リコール）を優先する設計なので、ハイライトされた箇所を確認し、用途に合うクリーニング済みのバージョンをコピーしてください。

Question 3

英語以外の言語でも動作しますか？

Accepted Answer

はい。privacy-filter モデルは多言語対応（XLM-RoBERTa ベース）で、多くの言語で個人情報を識別します。品質はラテン文字の言語で最も高く（英語・スペイン語・ポルトガル語・ドイツ語・フランス語・イタリア語・オランダ語）、屈折の多い言語や非ラテン文字の言語ではやや弱くなります。日本語・中国語・アラビア語でも動作しますが、リコールは控えめです。英語以外の文書をスキャンしてモデルが見落とした場合は、黒塗りモード（「ラベル」が最も安全）に切り替えて手動で確認してください。

Question 4

本当にプライベートですか？

Accepted Answer

はい。モデルは Hugging Face の公開 CDN から1回だけダウンロードされ、ブラウザでキャッシュされます。それ以降のスキャンはすべて端末内で実行され、テキストや検出結果が FormatFuse・OpenAI・Google などのサーバーに送信されることはありません。スキャン中にブラウザのネットワークタブを開けば、初回のモデルダウンロード後は外向きのリクエストがゼロであることを確認できます。あなたのテキストを記録できるサーバーがそもそも存在しません。

Question 5

黒塗りされたテキストはどのように使えばよいですか？

Accepted Answer

用途に合うモードを選んでください。「マスク」は各エンティティを [REDACTED] に置き換える、人間がレビューする前提の最も安全な既定値です。「ラベル」は [PERSON]・[EMAIL] などに置き換えるので、LLMがプロンプトの構造を理解する必要がある場合に最適です。「削除」はエンティティを丸ごと取り除きます。送信前には必ずもう一度通読してください — どのモデルも完璧ではなく、文脈（「[REDACTED] のチケットの担当顧客」など）から間接的に情報が漏れることがあります。

Question 6

なぜ初回のスキャンは時間がかかるのですか？

Accepted Answer

初回利用時に privacy-filter モデルをダウンロードします（q4 量子化で約 290MB、Hugging Face の CDN から配信）。ダウンロード後はブラウザがキャッシュするため、以降のスキャンは即座に開始されます（数千文字のテキストなら通常1秒未満）。回線が遅い場合はスキャンボタンに進捗のパーセンテージが表示されます。ダウンロードはあなたと Hugging Face の CDN の間で直接行われ、FormatFuse はリクエストを見ません。

Question 7

スキャンできる量に制限はありますか？

Accepted Answer

1回のスキャンあたり 50,000 文字までという上限を設けています。これは主に、極端に長い入力でブラウザがフリーズしないようにするためです。メール・サポートチケット・契約条項・チャットのエクスポート・コードのコメント・CSV の行など、多くの用途では十分な余裕があります。それより長い文書は分割して順番にスキャンしてください。1日あたりの上限・登録・利用回数の上限はいずれもありません — ツールは端末内で動くので、転嫁すべきコストもありません。

Question 8

PDF やその他のドキュメントは？

Accepted Answer

PDF には PDF黒塗り ツールをお使いください。同じ privacy-filter エンジンを端末内で実行しますが、検出結果を黒い四角形として適用し、保存時に該当ページをラスタライズするので、元のテキストは視覚的に隠されるだけでなく実際に削除されます。テキストを含む画像には 画像からテキスト（OCR）ツールでテキストを抽出してからここに貼り付けてください。Word 文書や .txt は、上のテキストエリアにそのまま貼り付けてください。

プライバシースキャナー — テキスト中の個人情報を検出して黒塗り