ubuntuでpdfから画像を抽出する方法「pdfimages」

コンピュータ

手持ちのスキャナの保存形式がPDFファイルだったりするのでそこから画像ファイルを抽出したい。
Windowsだとグラフィカルなユーザーインターフェイスを備えたソフトが星の数ほどありますが、バッチ処理向きの作業ですのでコマンドラインで実行可能なソフトを探してみました。

コマンド名はpdfimagesです。Ubuntuでインストールしていない状態でコマンドを実行すると、親切にインストールするパッケージ名を教えてくれます。そちらの指示に従いapt install パッケージ名でインストールしてあげます。

pdf内の画像を調べる

pdfimages -list pdfファイル名

複合機(DocuCenter-V C6676)でスキャンしたpdfファイルを調べてみました。

DocuCenter-V C6676 白黒 200dpi

page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1   0 image 1654   2340 gray   1   1   ccitt no    23     0  201   200  49.5K 10%

DocuCenter-V C6676 グレースケール 200dpi

page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1   0 image 1654  2340   gray 1    8   jpeg no     23     0  201   200  395K 10%

DocuCenter-V C6676 カラー 200dpi

page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1   0 image 1654  2340   rgb   3    8  jpeg no     23     0  201   200   436K 3.8%

encは白黒がccittでグレースケールとカラーがjpegといった感じです。
カラーがpngだったら良かったのですが、まぁこんなもんでしょう。

ScanSnap s1500 カラー 200dpi

page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1     0 image    1133  1659  rgb     3   8  jpeg   no         5  0   200   200  267K 4.9%
   2     1 image    1133  1654  rgb     3   8  jpeg   no         8  0   200   201  205K 3.7%

こちらが自分が所有しているスキャナになります。結構ガタが来ているのでそろそろ新しいのが欲しい物欲にかられます。



現行のスキャナと裁断機で10万円コースになります。なかなか高額ではありますが、このクラスの製品は、消耗パーツの交換が出来たり裁断機の刃を研いだりできますので、一度購入すると結構長持ちします。
とは言え、最近はスキャンの頻度も減ってきていますので、カッターで裁断しコンビニの複合機でこと足りそうな感じです。
ScanSnap s1500の消耗パーツもまだ入手できるようなのでもうしばらく頑張ってもらおうと思います。

pngファイルで出力する

pdfimages -png “pdfファイル名” “出力先のディレクトリ”

抽出さえできてしまえば画像ファイルの加工はほかのソフトで行うことが出来ます。
あれこれ多機能なソフトよりこのような単機能なソフトが個人的には好みです。

コメント