Python获取pdf文件表格怎么做?Python如何获取pdf所有表格
罗西汉
优草派
python基本上能够来完成对任意类型文件的所有操作,而对于pdf文件的处理也是可以通过不同模块来实现的。而这篇文章主要来介绍的内容就是,怎么通过pdfplumber这个第三方库模块来完成,一个pdf文件中所有表格数据的获取,感兴趣和想学习的话就往下看看。
一、安装pdfplumber
win+r组合快捷键打开运行窗口之后输入cmd并回车即可进入到命令行窗口,在该窗口里面只需要调用pip工具以及install命令就能完成任意模块和库的下载安装操作,命令如下所示:
pip install pdfplumber
二、代码编写
模块安装完成之后新建py文件作为脚本来编写代码,使用pycharm等集成开发工具或者编辑器将其打开之后先使用import关键字导入模块,然后用这个模块里面的open()方法才可以将pdf文件打开并且执行后续的读写等操作。
因为要获取的是整个pdf文件之中所有的表格数据,那么就需要创建for循环迭代结构,而迭代的对象则是range()函数通过pdf文件页码总数生成出来的数字序列。在每次迭代之中都需要用切片方式来指定页面并返回对象,然后再调用extract_tables()方法就可以将该页码内所有的表格都取出了。
这个表格取出来之后会以多维数组形式返回,那么调用print()函数就可以直接将其输出。因为是有多个表格存在,所以在输出时还需要去将其换行或者隔开才可以,详细代码示例如下所示:
import pdfplumber pdf = pdfplumber.open("example.pdf") for x in range(len(pdf.pages)): page01 = pdf.pages[x] table2 = page01.extract_tables() print(table2)
以上就是关于“Python获取pdf文件表格怎么做?Python如何获取pdf所有表格”的全部内容了,希望对你有所帮助。
【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。