Python PDF解析入门：用Free Spire.PDF提取文本、表格与元数据

脚本专家 · 发表于 2026-6-11 09:00:01

在日常办公和数据处理中，PDF文档的编程式读取是一个常见需求。借助Python第三方库Free Spire.PDF for Python，我们可以自动化提取PDF中的文本、图片、表格以及文档元数据，从而支撑文档解析、数据采集等场景。本文将从环境准备开始，逐步演示该库的核心用法，并说明免费版本的限制（每次最多处理10页）。

一、环境准备与基本工作流

首先通过pip安装免费库：

pip install Spire.Pdf.Free

复制代码

安装后在代码中导入所需模块：

from spire.pdf import *
from spire.pdf.common import *

复制代码

该库的基本工作流程如下：
1. 创建PdfDocument对象；
2. 调用LoadFromFile()加载PDF文件；
3. 通过Pages集合访问每一页；
4. 使用对应的提取器（如PdfTextExtractor、PdfImageHelper）提取内容；
5. 处理完毕后调用Close()释放资源。

二、读取PDF基本信息（页数、页面尺寸）

提取具体内容前，通常需要先了解文档的元数据。以下代码演示如何获取总页数以及每页的尺寸：

from spire.pdf import PdfDocument
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")
page_count = pdf.Pages.Count
print(f"总页数: {page_count}")
for i in range(page_count):
page = pdf.Pages.get_Item(i)
width = page.Size.Width
height = page.Size.Height
print(f"第 {i+1} 页尺寸: {width} x {height}")
pdf.Close()

复制代码

输出示例：

总页数: 5
第 1 页尺寸: 595.0 x 842.0
第 2 页尺寸: 595.0 x 842.0

复制代码

三、提取PDF中的文本

文本提取是最常见的操作，PdfTextExtractor类提供了逐页提取的方法。我们可以指定起始页和结束页，并利用PdfTextExtractOptions控制提取参数（如是否保留空白布局）。注意免费版最多提取前10页：

from spire.pdf import *
def extract_text_from_pdf(pdf_path, start_page=1, end_page=None):
pdf = PdfDocument()
pdf.LoadFromFile(pdf_path)
total_pages = pdf.Pages.Count
if end_page is None or end_page > total_pages:
end_page = total_pages
end_page = min(end_page, 10) # 免费版限制
for i in range(start_page - 1, end_page):
page = pdf.Pages.get_Item(i)
extractor = PdfTextExtractor(page)
options = PdfTextExtractOptions()
options.IsExtractAllText = True # 提取全部文本，忽略表格/图片区域
text = extractor.ExtractText(options)
print(f"--- 第 {i+1} 页文本 ---")
print(text)
pdf.Close()
extract_text_from_pdf("sample.pdf", end_page=2)

复制代码

需要特别说明：如果PDF中的文字是扫描图片（无文本层），则无法直接提取，需要借助OCR技术，而该库不提供OCR功能。

四、提取PDF中的图片

图片提取通过PdfImageHelper完成。该库会将每张图片保存为PNG格式，并可指定输出目录。同样受限于免费版的前10页：

import os
from spire.pdf import *
def extract_images_from_pdf(pdf_path, output_dir="images"):
if not os.path.exists(output_dir):
os.makedirs(output_dir)
pdf = PdfDocument()
pdf.LoadFromFile(pdf_path)
page_limit = min(pdf.Pages.Count, 10)
image_helper = PdfImageHelper()
for page_index in range(page_limit):
page = pdf.Pages.get_Item(page_index)
images_info = image_helper.GetImagesInfo(page)
for i, img_info in enumerate(images_info):
img_info.Image.Save(f"{output_dir}/page_{page_index}_img_{i}.png")
print(f"已保存: page_{page_index}_img_{i}.png")
pdf.Close()
print(f"图片提取完成，共处理 {page_limit} 页，图片保存在 {output_dir} 目录下")
extract_images_from_pdf("sample.pdf")

复制代码

五、提取PDF中的表格

表格提取稍微复杂一些，该库没有提供直接导出CSV/Excel的方法，但可以通过PdfTableExtractor获取表格结构数据，然后手动解析。注意，PdfTableExtractor只能识别有明确边框和结构的表格，对于扫描表格或复杂排版可能失败：

from spire.pdf import *
def extract_tables_from_pdf(pdf_path):
pdf = PdfDocument()
pdf.LoadFromFile(pdf_path)
page_limit = min(pdf.Pages.Count, 10)
extractor = PdfTableExtractor(pdf)
for i in range(page_limit):
page = pdf.Pages.get_Item(i)
tables = extractor.ExtractTable(i)
if tables:
print(f"第 {i+1} 页发现 {len(tables)} 个表格")
for t_idx, table in enumerate(tables):
print(f" 表格 {t_idx+1}:")
rows = table.GetRowCount()
cols = table.GetColumnCount()
print(f" 行数: {rows}, 列数: {cols}")
if rows > 0:
header = [table.GetText(0, c) for c in range(cols)]
print(f" 表头: {header}")
for r in range(min(rows, 4)):
row_data = [table.GetText(r, c) for c in range(cols)]
print(f" 第{r+1}行: {row_data}")
else:
print(f"第 {i+1} 页未发现表格")
pdf.Close()
extract_tables_from_pdf("sample.pdf")

复制代码

六、总结

通过上述方法，我们可以用Python实现对PDF文档的全面读取，涵盖基本信息、文本、图片和表格数据获取。这些能力为文档自动化处理、数据采集和内容分析提供了基础支撑。实际使用时需注意免费版10页的限制，若需处理完整文档可考虑付费版本或类似开源方案。根据具体需求选择合适的提取方式，即可高效完成PDF的编程式解析任务。

热心网友5 · 发表于 2026-6-11 09:10:00

很实用的入门教程，感谢分享！尤其注意到免费版10页的限制和表格提取的适用条件，这些细节对实际选型很有帮助。请问如果PDF是扫描件，除了使用其他OCR库，这个库本身有没有办法识别带文本层的图片型PDF？另外提取表格时，对于没有明显边框的表格，您有没有尝试过其他辅助提取的方法？

热心网友2 · 发表于 2026-6-21 09:00:01

感谢楼主分享这么详细的教程！我之前试过一些PDF解析库，有的安装麻烦，有的免费版限制太多。Free Spire.PDF这个库看起来比较轻量，而且文本、图片、表格都能处理，对于日常小规模任务应该够用了。有个小问题想请教：提取表格时，它只支持有明确边框的表格吗？如果表格是无线框但内容对齐的，比如发票或报表，有没有办法解析？另外，免费版10页限制是每次加载文件都算一次，还是全局累计？再次感谢，收藏了，以后有需要就按这个流程来试。

热心网友3 · 发表于 2026-6-21 11:20:00

感谢分享，这篇教程很实用，代码示例也很清晰。正好最近在处理一批PDF报表，打算试试提取表格数据。有个小问题想请教：免费版除了每次最多处理10页之外，还有没有其他功能限制？比如对PDF文件大小或加密文档的支持？另外，表格提取如果失败，有没有什么推荐的兜底方案（比如结合pdfplumber或tabula-py）？感谢！

Python PDF解析入门：用Free Spire.PDF提取文本、表格与元数据

Re: Python PDF解析入门：用Free Spire.PDF提取文本、表格与元数据

Re: Python PDF解析入门：用Free Spire.PDF提取文本、表格与元数据

Re: Python PDF解析入门：用Free Spire.PDF提取文本、表格与元数据

指导单位

旗下站点

联系我们