操作方法
- PDF選択:
PDFを選択からローカルのPDFを指定。 - ページ見出しの付与(任意):
ページヘッダー付与にチェックすると、各ページ先頭に[Page n]を挿入。 - 抽出&保存:抽出して保存をクリック → 解析後、自動でTXTダウンロード(元ファイル名+
.txt)。 - プレビュー確認:下部「プレビュー」に先頭数百文字が表示されます。
成果物(得られるもの)
- **プレーンテキスト(UTF-8)**の
*.txt - 先頭プレビュー(数百文字)
- ログ表示(進行状況・完了メッセージ)
注意点
- テキスト層のみ:PDF内部のテキストレイヤから抽出します。スキャン画像のみのPDFは文字が出ません(その場合はOCRツールを使用)。
- レイアウト:段組・表・脚注・改行位置・ハイフン分割等は保持されません(内部テキスト順で抽出し、語間はスペースで結合)。
- パスワードPDF:非対応(パスワード入力UIなし)。
- 大容量PDF:ページ数・埋め込みが多い場合、ブラウザメモリで失敗することがあります(分割推奨)。
- CDN依存:
pdf.js 3.11.174をCDNから読み込み。オフライン/CSPでCDN禁止環境では動作しません。 - 安全性:完全クライアントサイド処理。ファイルはアップロードされません。


コメント