科学系論文/出版物の解析に特化「LA-PDFText」
LA-PDFTextは科学系出版物のPDFを解析してテキストを抽出するソフトウェアです。
PDFは色々な出版物に対して使われています。今回は特に科学的な出版物のために使われているPDFのテキスト読み取るためのソフトウェア、LA-PDFTextを紹介します。
サンプルとして幾つかのPDFがダウンロードできますが、段組みが使われていたり、複雑なレイアウトのものが多いようです。さらに解析に際してブロックの分類のためのルールを独自に作ることもできます。大量の論文などから情報を抜き出すのに良さそうです。
LA-PDFTextはWindows/Mac OSX/Linux用のオープンソース・ソフトウェア(GPL v3)です。
MOONGIFTはこう見る
学術の分野においてオープンソース・ソフトウェアは積極的に利用、開発されています。どこの研究所においても潤沢な資金がある訳ではなく、研究に費用がかかる分ソフトウェア面では節約する傾向があります。しかし逆に開発も盛んに行われている印象があります。
ビジネスや一般ユーザが使うようなソフトウェアも良いですが、研究者向けのオープンソース開発もまた楽しそうです。その心が分かっている人たちであればフィードバックも適切に行われるかも知れません。大学時代を思い出してあれば良かったソフトウェアを作ってみるなんてのはいかがでしょう。