PDFをテキスト/画像に変換したり必要な情報を取り出す「Docsplit」 // MOONGIFT Archived

DocsplitはRuby製のオープンソース・ソフトウェア（LGPL）です。

PDFはどのコンピュータで見ても変わらないこと、編集が容易でないことがメリットに挙げられますが、そのデータの再利用性が悪いのが欠点です。そこでDocsplitを使って必要なデータを取り出してみましょう。

[![](http://images.moongift.jp/2013/08/Screenshot 2013-08-13 21.02.03_thumb.1376399305.png)](http://images.moongift.jp/2013/08/Screenshot 2013-08-13 21.02.03.1376399305.png)
textオプションでテキストを取り出せます。

[![](http://images.moongift.jp/2013/08/Screenshot 2013-08-13 21.01.46_thumb.1376399309.png)](http://images.moongift.jp/2013/08/Screenshot 2013-08-13 21.01.46.1376399309.png)
とある文章でトライした場合。日本語の取り出しはうまくいかないようです…。

[![](http://images.moongift.jp/2013/08/Screenshot 2013-08-13 21.05.31_thumb.1376399312.png)](http://images.moongift.jp/2013/08/Screenshot 2013-08-13 21.05.31.1376399312.png)
imagesオプションではPDF自体を画像化します。

[![](http://images.moongift.jp/2013/08/Screenshot 2013-08-13 21.06.42_thumb.1376399315.png)](http://images.moongift.jp/2013/08/Screenshot 2013-08-13 21.06.42.1376399315.png)
こんな感じです。この場合日本語も画像になっています。

Docsplitではその他、任意の文書をPDFにしたり、指定ページだけを処理したりすることもできます。またPDFのタイトルや執筆者情報を抜き出すことも可能です。PDFを色々と操作したい時に便利そうです。

MOONGIFTはこう見る

PDFがよく使われるのは業務システム絡みで、相手企業からの請求書やレポートがPDFで配信されたりします。この場合、数値をシステムに取り込みたい場合に手入力ではとても時間を要します。そこで変換できるライブラリが活躍します。

PDFからテキストはもちろん、HTMLへの変換も便利です。日本語は常に問題になりますので、日本語を抜き出すのはお勧めしません。数値を抜き出す程度であれば問題なく行えるはずで、それによって業務効率化は大幅に進むでしょう。

Doc⚡split

documentcloud/docsplit