PDF OCR — 高解像度でレンダリングして高精度テキスト化(ブラウザ内)

操作方法

  1. PDFを選択PDFを選択(ローカル .pdf)。
  2. 言語を選ぶ日本語 (jpn) / 英語 (eng) / 日本語+英語 (jpn+eng)
  3. DPIを設定150 / 200 / 300(高いほど精度↑・処理時間/メモリ↑)。
  4. ページ範囲(任意)1-3,7 のように1始まり・カンマ区切り・両端含む。空欄=全ページ。
  5. OCR開始OCR開始をクリック。進捗は上部ログに表示。
  6. 結果保存TXT保存pdf-ocr.txt をダウンロード(ページ番号付きプレーンテキスト)。

成果物(得られるもの)

  • 指定ページのテキスト抽出結果(.txt)
  • 各ページのレンダリング画像プレビュー先頭800文字の抜粋
  • ログ(総ページ数/対象ページ数/進行状況/完了通知)

注意点

  • 完全クライアントサイド:PDFはアップロードされません。
  • 外部ライブラリ依存:CDNから pdf.js 3.11.174tesseract.js 5.0.4 を読み込みます。オフラインやCSPでCDN禁止の場合は動きません。
  • 精度のコツ
    • DPIは200–300推奨、原稿が小さい/細字/写真埋め込みなら300
    • 画質が悪い/傾き/余白が多いと誤認識が増えます(事前にスキャン品質を改善)。
  • 日本語レイアウト:縦書きやルビ、段組はレイアウトを保持しません(行順や改行が乱れる場合あり)。
  • 未対応/制約
    • パスワード保護PDFは未対応(パスワード入力UIなし)。
    • 画像・数式・図表は文字化されません(画像中の文字はOCR対象)。
    • 長大/高解像度PDFはブラウザメモリで失敗することがあります(範囲分割がおすすめ)。
  • ランタイム初回遅延:言語モデルの初回読み込みで時間がかかる場合があります(ブラウザキャッシュ後は短縮)。
  • Shadow DOM隔離:ページ側のCSS/JSはウィジェット内部に干渉しません。

コメント

タイトルとURLをコピーしました