我需要从服务器上的PDF文件中提取所有图像。我不想要PDF页面,只想要原始尺寸和分辨率的图像。
如何使用Perl,PHP或任何其他基于UNIX的应用程序(我将使用PHP的exec函数调用它)来做到这一点?
pdfimages就是这样做的。它是poppler- utils和xpdf-utils软件包的一部分。
从联机帮助页:
Pdfimages将可移植文档格式(PDF)文件中的图像另存为可移植Pixmap(PPM),可移植位图(PBM)或JPEG文件。 Pdfimages读取PDF文件,扫描一页或多页PDF文件,并为每个图像image-root- nnn.xxx写入一个PPM,PBM或JPEG文件,其中nnn是图像编号,xxx是图像类型(.ppm,.pbm,.jpg)。 注意:pdfimages从PDF文件中提取原始图像数据,而无需执行任何其他转换。PDF内容流所做的任何旋转,剪切,颜色反转等操作都将被忽略。
Pdfimages将可移植文档格式(PDF)文件中的图像另存为可移植Pixmap(PPM),可移植位图(PBM)或JPEG文件。
Pdfimages读取PDF文件,扫描一页或多页PDF文件,并为每个图像image-root- nnn.xxx写入一个PPM,PBM或JPEG文件,其中nnn是图像编号,xxx是图像类型(.ppm,.pbm,.jpg)。
注意:pdfimages从PDF文件中提取原始图像数据,而无需执行任何其他转换。PDF内容流所做的任何旋转,剪切,颜色反转等操作都将被忽略。