請求書などの帳票と自社システムを連携したいと考えることはよくあります。その際には送付されてくるPDFから情報を読み取って、データベースに入れたりします。しかし、PDFを解析するのは大変です。 そこで使ってみたいのがCamelotです。PDFからテーブル情報とデータを抜き出してくれるソフトウェアです。

Camelotの使い方

実行例です。CSVやHTML、そしてExcel出力もできます。

日本語も問題ありません。

CamelotはPythonから利用でき、CLIも用意されています。簡易的にはCLIでHTMLを出力するだけでも良いでしょうし、より自動化を進める際にはライブラリとして使えば良いでしょう。活躍の場が広そうなソフトウェアです。

CamelotはPython製のオープンソース・ソフトウェア(MIT License)です。

atlanhq/camelot: Camelot: PDF Table Extraction for Humans