請求書がPDFで送られてくる、Webサイトからダウンロードする仕組みになっているというのはよくあるケースです。そこに書かれた数字をシステムに取り込むために手で入力したりしていないでしょうか。筆者は以前同様のケースで独自に解析して数字をデータベースに取り込むツールを作っていました。 PDFに書かれたデータを取り込んでCSVなどに変換してくれるのがiguviumです。これで業務が大幅に効率化する可能性があるでしょう。

iguviumの使い方

一例。テキストと重なってしまっているケースがありますね。

別な例。ある程度うまくいっていそうな…いなさそうな。

iguviumはRubyのライブラリとして使うことも、CLIでデータを取り出すこともできます。元のPDFファイルによりますが、全く問題なく完璧にうまくいく可能性は低いかも知れません。それでもPDFtoHTMLなどに比べて精度が高ければ、後は正規表現なりでどうにかなりそうです。

iguviumはRuby製のオープンソース・ソフトウェア(MIT License)です。

adworse/iguvium: Ruby gem for extracting tables from PDF as a structured info