操作方法
- PDFを選択:
PDFを選択(ローカル .pdf)。 - 言語を選ぶ:
日本語 (jpn)/英語 (eng)/日本語+英語 (jpn+eng)。 - DPIを設定:
150 / 200 / 300(高いほど精度↑・処理時間/メモリ↑)。 - ページ範囲(任意):
1-3,7のように1始まり・カンマ区切り・両端含む。空欄=全ページ。 - OCR開始:OCR開始をクリック。進捗は上部ログに表示。
- 結果保存:TXT保存で
pdf-ocr.txtをダウンロード(ページ番号付きプレーンテキスト)。
成果物(得られるもの)
- 指定ページのテキスト抽出結果(.txt)
- 各ページのレンダリング画像プレビュー+先頭800文字の抜粋
- ログ(総ページ数/対象ページ数/進行状況/完了通知)
注意点
- 完全クライアントサイド:PDFはアップロードされません。
- 外部ライブラリ依存:CDNから
pdf.js 3.11.174とtesseract.js 5.0.4を読み込みます。オフラインやCSPでCDN禁止の場合は動きません。 - 精度のコツ:
- DPIは200–300推奨、原稿が小さい/細字/写真埋め込みなら300。
- 画質が悪い/傾き/余白が多いと誤認識が増えます(事前にスキャン品質を改善)。
- 日本語レイアウト:縦書きやルビ、段組はレイアウトを保持しません(行順や改行が乱れる場合あり)。
- 未対応/制約:
- パスワード保護PDFは未対応(パスワード入力UIなし)。
- 画像・数式・図表は文字化されません(画像中の文字はOCR対象)。
- 長大/高解像度PDFはブラウザメモリで失敗することがあります(範囲分割がおすすめ)。
- ランタイム初回遅延:言語モデルの初回読み込みで時間がかかる場合があります(ブラウザキャッシュ後は短縮)。
- Shadow DOM隔離:ページ側のCSS/JSはウィジェット内部に干渉しません。


コメント