脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - python用pdfplumber提取pdf表格数据并保存到excel文件中

python用pdfplumber提取pdf表格数据并保存到excel文件中

2022-07-22 17:56一位代码 Python

在实际研究中我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报、发行上市公告等,下面这篇文章主要给大家介绍了关于利用python提取pdf表格数据并保存到excel文件中的相关资料,需要的朋友可以参考

pdfplumber操作pdf文件

python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者、创建时间、修改时间…)及表格、文本、图片等信息,基本可以满足较为简单的格式转换功能。

一、pdfplumber安装及导入

跟其他包一样,支持使用pip安装,安装命令:

pip install pdfplumber

python用pdfplumber提取pdf表格数据并保存到excel文件中

安装成功后,可直接用import导入,导入命令:

import pdfplumber

二、pdfplumber基础使用

1、基础知识

(1)pdfplumber有2个基础类

PDF和Page,PDF用来处理整个文档,Page用来处理整个页面。

用法简介
pdfplumber.PDF.metadata,获取pdf基础信息,返回字典格式,包含作者、创建时间等。 .pages,返回pdfplumber.Page实例的列表,每一个实例包含pdf每一页的信息
pdfplumber.Pagepdfplumber核心功能,对PDF的大部分操作都是基于这个类,包括提取文本、表格等

(2)pdfplumber读取pdf文件方式

pdfplumber.open(‘文件路径’),返回pdfplumber.PDF类的实例。

如果pdf有密码,加入password参数:

pdfplumber.open(‘文件路径’,password=‘密码’)

2、获取pdf基础信息

读取pdf文件,并输出pdf文件的基础信息

import pdfplumber
# 打开pdf文件,有密码加入password参数
pdf_info =pdfplumber.open(r"test.pdf")
meta_data = pdf_info.metadata  # pdf的基础信息
page_con = len(pdf_info.pages)  # 获取pdf的总页数
print("pdf文件的基础信息:
", meta_data)
print("pdf共%s页" % page_con)

python用pdfplumber提取pdf表格数据并保存到excel文件中

3、pdfplumber提取表格数据

提取表格数据主要用到extract_tables()和extract_table()两种方法,这两种提取方式各有不同。

用以下pdf文档,作为演示文档。

python用pdfplumber提取pdf表格数据并保存到excel文件中

(1)extract_tables()方法

输出文档所有表格,返回一个嵌套列表,其结构层次为table-row-cell。如:

#extract_tables()用法
with pdfplumber.open(r"test.pdf") as pdf_info:  # 打开pdf文件
    page_one = pdf_info.pages[0]  # 选择第一页
    page_one_table =page_one.extract_tables()  # 获取pdf文档第一页的所有表格数据
    for row in page_one_table:
       print("第一页的表格数据:", row)

python用pdfplumber提取pdf表格数据并保存到excel文件中
(2)、extact_table()方法

不会返回文档的所有表格,仅返回行数最多的表格数据,如存在多个行数相等的表格,则默认输出顶部表格数据。返回的数据结构层次为row-cell,表格的每一行都为一个单独的列表,列表中的元素即为原表格的各个单元格的数据。如:

# extract_table()用法
with pdfplumber.open(r"test.pdf") as pdf_info:  # 打开pdf文件
    page_one = pdf_info.pages[0]  # 选择第一页
    page_one_table = page_one.extract_table()
    for row in page_one_table:
        print(row)

python用pdfplumber提取pdf表格数据并保存到excel文件中

三、提取pdf表格数据并保存到excel中

完整版,提取pdf表格数据并保存到excel中

import pdfplumber
from openpyxl import Workbook

class PDF(object):
    def __init__(self, file_path):
        self.pdf_path = file_path
        # 读取pdf文件
        try:
            self.pdf_info = pdfplumber.open(self.pdf_path)
            print("读取文件完成!")
        except Exception as e:
            print("读取文件失败:", e)

    # 打印pdf的基本信息、返回字典,作者、创建时间、修改时间/总页数
    def get_pdf(self):
        pdf_info = self.pdf_info.metadata
        pdf_page = len(self.pdf_info.pages)
        print("pdf共%s页" % pdf_page)
        print("pdf文件基本信息:
", pdf_info)
        self.close_pdf()

    # 提取表格数据,并保存到excel中
    def get_table(self):
        wb = Workbook()  # 实例化一个工作簿对象
        ws = wb.active  # 获取第一个sheet
        con = 0
        try:
            # 获取每一页的表格中的文字,返回table、row、cell格式:[[[row1],[row2]]]
            for page in self.pdf_info.pages:
                for table in page.extract_tables():
                    for row in table:
                        # 对每个单元格的字符进行简单清洗处理
                        row_list = [cell.replace("
", " ") if cell else "" for cell in row]
                        ws.append(row_list)  # 写入数据
                con += 1
                print("---------------分割线,第%s页---------------" % con)
        except Exception as e:
            print("报错:", e)
        finally:
            wb.save("".join(self.pdf_path.split("")[:-1]) + "pdf_excel.xlsx")
            print("写入完成!")
            self.close_pdf()

    # 关闭文件
    def close_pdf(self):
        self.pdf_info.close()

if __name__ == "__main__":
    file_path = input("请输入pdf文件路径:")
    pdf_info = PDF(file_path)
    # pdf_info.get_pdf() # 打印pdf基础信息
    # 提取pdf表格数据并保存到excel中,文件保存到跟pdf同一文件路径下
    pdf_info.get_table()

总结

到此这篇关于python用pdfplumber提取pdf表格数据并保存到excel文件中的文章就介绍到这了,更多相关python提取pdf数据保存excel内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文地址:https://blog.csdn.net/LHJCSDNYL/article/details/124207996

延伸 · 阅读

精彩推荐
  • PythonPython中字典和JSON互转操作实例

    Python中字典和JSON互转操作实例

    这篇文章主要介绍了Python中字典和JSON互转操作实例,本文给出了Dict转JSON、读取JSON并转为Dict示例,需要的朋友可以参考下 ...

    脚本之家10612020-05-19
  • Pythonpython使用列表的最佳方案

    python使用列表的最佳方案

    这篇文章主要介绍了python使用列表的最佳方式,帮助大家更好的理解和学习python,感兴趣的朋友可以了解下...

    TalkPython5122020-08-13
  • PythonDjango中模板的继承及引用实现

    Django中模板的继承及引用实现

    Django模版引擎中最强大也是最复杂的部分就是模版继承了,页面的代码很多,随随便便就是几百行代码,但是每个页面之中都有相同的元素。本文主要介绍...

    孤寒者4922021-12-25
  • Python对pytorch中x = x.view(x.size(0), -1) 的理解说明

    对pytorch中x = x.view(x.size(0), -1) 的理解说明

    这篇文章主要介绍了对pytorch中x = x.view(x.size(0), -1) 的理解说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    包子爱跑步6392021-09-13
  • PythonPython 数据结构之十大经典排序算法一文通关

    Python 数据结构之十大经典排序算法一文通关

    排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序...

    苡~10742022-01-25
  • Python对python模块中多个类的用法详解

    对python模块中多个类的用法详解

    今天小编就为大家分享一篇对python模块中多个类的用法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    小妖精Fsky4012021-05-14
  • Python《Python学习手册》学习总结

    《Python学习手册》学习总结

    本篇文章是读者朋友在学习了《Python学习手册》这本书以后,总结出的学习心得,值得大家参考学习。...

    Cyberspace4542021-01-05
  • Pythonpython实现的简单抽奖系统实例

    python实现的简单抽奖系统实例

    这篇文章主要介绍了python实现的简单抽奖系统,涉及Python随机数及文件操作的相关技巧,需要的朋友可以参考下...

    小小的我16912020-07-05