优草派 > Python

Python如何批量提取PDF表格数据转为Excel?Python怎么将PDF表格保存为Excel文件

罗西汉         优草派

在之前的文章之中小编已经给大家介绍过了python将pdf文件之中表格取出来的方法,但是表格数据取出来之后如果不保存在程序关闭之后就会被销毁。所以下面会来详细介绍一下,python如何批量提取PDF表格数据并转为Excel文件保存的方法,一起往下看看吧。

Python如何批量提取PDF表格数据转为Excel?Python怎么将PDF表格保存为Excel文件

1.因为是要批量提取pdf文件,所以需要导入的模块为os、glob、pdfplumber这三个,其中glob模块的作用则是能够用来实现指定pdf文件的查找操作。模块导入文件之后定义一个变量,此变量需要接收字符串类型的文件路径,该文件路径需要有多个pdf文件存在,代码如下:

import os
import glob
import pdfplumber
import pandas as pd
path = r'/Users/wangwangyuqing/Desktop/pdf'

2.然后使用创建for循环结构,此循环迭代遍历的对象就是通过join()方法加上文件路径和pdf后缀,找到的该文件路径内所有pdf文件。然后用这个文件路径去调用提取表格并转为Excel文件的函数,代码如下:

for f in glob.glob(os.path.join(path, "*.pdf")):
  res = save_pdf_to_excel(f)

3.然后就是整个程序的关键核心代码了,定义函数并接收pdf文件路径作为参数。函数之中首先调用open()方法将pdf文件打开,然后获取到它所有的页码,再循环这个页码对象并且调用extract方法来获取这些页码之中的表格数据。

表格数据获取到之后使用pandas第三方库将其转为表格格式的Dataframe类型对象,然后去调用to_excle()方法就可以将这个表格数据保存到Excel之中了,详细代码示例如下所示:

def save_pdf_to_excel(path):
  pdf = pdfplumber.open(path)
  pages = pdf.pages
  tables = []
  for each in pages:
    table = each.extract_table()
    tables.extend(table)
  data = pd.DataFrame(tables[1:], columns=tables[0])
  file_name = path.split('/')[-1].split('.')[0] + '.xlsx'
  data.to_excel("/Useop/data/{}".format(file_name), index=False)

以上就是关于“Python如何批量提取PDF表格数据转为Excel?Python怎么将PDF表格保存为Excel文件”的全部内容了,希望对你有所帮助。

  • 微信好友

  • 朋友圈

  • 新浪微博

  • QQ空间

  • 复制链接

取消
5天短视频训练营
新手入门剪辑课程,零基础也能学
分享变现渠道,助你兼职赚钱
限时特惠:0元
立即抢
新手剪辑课程 (精心挑选,简单易学)
第一课
新手如何学剪辑视频? 开始学习
第二课
短视频剪辑培训班速成是真的吗? 开始学习
第三课
不需要付费的视频剪辑软件有哪些? 开始学习
第四课
手机剪辑app哪个好? 开始学习
第五课
如何做短视频剪辑赚钱? 开始学习
第六课
视频剪辑接单网站APP有哪些? 开始学习
第七课
哪里可以学短视频运营? 开始学习
第八课
做短视频运营需要会什么? 开始学习
【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。

客服热线:0731-85127885

湘ICP备19005950号-1  

工商营业执照信息

违法和不良信息举报

举报电话:0731-85127885 举报邮箱:tousu@csai.cn

优草派  版权所有 © 2024