ATMELのAT-Tiny26,ATmega,R8Cなどのワンチップマイコン,C言語,JAVAなどのプログラミング言語の入門のためのページです.サンプルプログラムを中心に紹介します.他にもLinixや数学ソフトなどの紹介も行います.

このブログを検索

あなたは 番目のお客様です.

2009年10月27日火曜日

PDFからテキストを抽出する

PDFファイルで,テキストの抽出ができないものがあります.
xdoc2txtを使うと,テキストの抽出ができない設定のPDFファイルからも,テキストの抽出が可能となります.
http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html
フリーソフトのxdoc2txtをダウンロードして解凍します.また同サイトよりcryptlib.dllもダウンロードして解凍します.
展開したフォルダにPDFファイルを置きます.
コマンドプロンプトを開き,展開したフォルダに移動します.
xdoc2txt -n xxx.pdf > xxx.txt
のようにコマンド実行すれば,抽出されたテキストが,xxx.txtに格納されます.
当然ながら,暗号化されたPDFファイルは,テキストの抽出ができません.