業務システムで使える。PDFファイルからテキストや画像を抜き出せる「PDF::Reader」
PDF::ReaderはPDFファイルの操作を行うRubyライブラリ。
PDF::ReaderはRuby製のオープンソース・ソフトウェア。PDFというドキュメントフォーマットはビジネスの場において数多く使われている。WebサービスもPDFによる帳票出力やエクスポートをサポートしているものが多い。
画像の抜き出し処理
閲覧や印刷する分には申し分ないフォーマットなのだが、システムに取り込んで加工しようと思うととたんに面倒なフォーマットになる。そのためのライブラリ(PDFtoHTMLなど)もあるが、もっとシステムから扱いやすくしてくれそうなのがPDF::Readerだ。
PDF::ReaderはRubygemsを使ってインストールするライブラリだ。機能は数多くあるが、例えばメタデータを抜き出したり、テキスト情報を取り出す、画像だけを取り出す、ページを数えるといったPDF操作を行えるライブラリになっている。
メタ情報
コマンドでPDFファイルを変換し、それを解析する方法でも良いが、PDF::Readerを使えばより細かく制御できるようになるはずだ。PDF内の数値を取り出したり、別フォーマットに変換すると言った時に使えるだろう。ビジネスの場において特に使えそうだ。
MOONGIFTはこう見る
PDFにおいていつも問題になるのが日本語だ。PDF::Readerも標準そのままでは日本の取り扱いが怪しいのでご注意いただきたい。とは言えRubyであってコードも見られるので修正して対応させるという選択肢も考えられるだろう。
業務システムなどで数十枚のPDFの数値データを入力し直して帳票を作成すると言ったフローは良く存在する。そんな面倒なことはせず、PDF::Readerを使って数値データを取り出せれば業務はすぐに完了する。PDFの再利用性を考える上で見逃せないライブラリと言えるだろう。