优草派 > Python

Python获取pdf文件表格怎么做?Python如何获取pdf所有表格

罗西汉         优草派

python基本上能够来完成对任意类型文件的所有操作,而对于pdf文件的处理也是可以通过不同模块来实现的。而这篇文章主要来介绍的内容就是,怎么通过pdfplumber这个第三方库模块来完成,一个pdf文件中所有表格数据的获取,感兴趣和想学习的话就往下看看。

Python获取pdf文件表格怎么做?Python如何获取pdf所有表格

一、安装pdfplumber

win+r组合快捷键打开运行窗口之后输入cmd并回车即可进入到命令行窗口,在该窗口里面只需要调用pip工具以及install命令就能完成任意模块和库的下载安装操作,命令如下所示:

pip install pdfplumber

二、代码编写

模块安装完成之后新建py文件作为脚本来编写代码,使用pycharm等集成开发工具或者编辑器将其打开之后先使用import关键字导入模块,然后用这个模块里面的open()方法才可以将pdf文件打开并且执行后续的读写等操作。

因为要获取的是整个pdf文件之中所有的表格数据,那么就需要创建for循环迭代结构,而迭代的对象则是range()函数通过pdf文件页码总数生成出来的数字序列。在每次迭代之中都需要用切片方式来指定页面并返回对象,然后再调用extract_tables()方法就可以将该页码内所有的表格都取出了。

这个表格取出来之后会以多维数组形式返回,那么调用print()函数就可以直接将其输出。因为是有多个表格存在,所以在输出时还需要去将其换行或者隔开才可以,详细代码示例如下所示:

import pdfplumber
pdf = pdfplumber.open("example.pdf")
for x in range(len(pdf.pages)):
  page01 = pdf.pages[x]
  table2 = page01.extract_tables()
  print(table2)

以上就是关于“Python获取pdf文件表格怎么做?Python如何获取pdf所有表格”的全部内容了,希望对你有所帮助。

  • 微信好友

  • 朋友圈

  • 新浪微博

  • QQ空间

  • 复制链接

取消
5天短视频训练营
新手入门剪辑课程,零基础也能学
分享变现渠道,助你兼职赚钱
限时特惠:0元
立即抢
新手剪辑课程 (精心挑选,简单易学)
第一课
新手如何学剪辑视频? 开始学习
第二课
短视频剪辑培训班速成是真的吗? 开始学习
第三课
不需要付费的视频剪辑软件有哪些? 开始学习
第四课
手机剪辑app哪个好? 开始学习
第五课
如何做短视频剪辑赚钱? 开始学习
第六课
视频剪辑接单网站APP有哪些? 开始学习
第七课
哪里可以学短视频运营? 开始学习
第八课
做短视频运营需要会什么? 开始学习
【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。

客服热线:0731-85127885

湘ICP备19005950号-1  

工商营业执照信息

违法和不良信息举报

举报电话:0731-85127885 举报邮箱:tousu@csai.cn

优草派  版权所有 © 2024