PDFテキスト抽出 — ページ別に文字を取り出してTXT保存

操作方法

  1. PDF選択PDFを選択からローカルのPDFを指定。
  2. ページ見出しの付与(任意)ページヘッダー付与にチェックすると、各ページ先頭に[Page n]を挿入。
  3. 抽出&保存抽出して保存をクリック → 解析後、自動でTXTダウンロード(元ファイル名+.txt)。
  4. プレビュー確認:下部「プレビュー」に先頭数百文字が表示されます。

成果物(得られるもの)

  • **プレーンテキスト(UTF-8)**の*.txt
  • 先頭プレビュー(数百文字)
  • ログ表示(進行状況・完了メッセージ)

注意点

  • テキスト層のみ:PDF内部のテキストレイヤから抽出します。スキャン画像のみのPDFは文字が出ません(その場合はOCRツールを使用)。
  • レイアウト:段組・表・脚注・改行位置・ハイフン分割等は保持されません(内部テキスト順で抽出し、語間はスペースで結合)。
  • パスワードPDF:非対応(パスワード入力UIなし)。
  • 大容量PDF:ページ数・埋め込みが多い場合、ブラウザメモリで失敗することがあります(分割推奨)。
  • CDN依存pdf.js 3.11.174をCDNから読み込み。オフライン/CSPでCDN禁止環境では動作しません。
  • 安全性完全クライアントサイド処理。ファイルはアップロードされません。

コメント

タイトルとURLをコピーしました