2009年10月27日火曜日

PDFからテキストを抽出する

PDFファイルで,テキストの抽出ができないものがあります.
xdoc2txtを使うと,テキストの抽出ができない設定のPDFファイルからも,テキストの抽出が可能となります.
http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html
フリーソフトのxdoc2txtをダウンロードして解凍します.また同サイトよりcryptlib.dllもダウンロードして解凍します.
展開したフォルダにPDFファイルを置きます.
コマンドプロンプトを開き,展開したフォルダに移動します.
xdoc2txt -n xxx.pdf > xxx.txt
のようにコマンド実行すれば,抽出されたテキストが,xxx.txtに格納されます.
当然ながら,暗号化されたPDFファイルは,テキストの抽出ができません.