在日常文档处理中,PDF 是一种常见格式,而通过 Python 批量提取 PDF 中的文本、图片和表格数据,可以大幅提升自动化效率。本文基于 Free Spire.PDF for Python 库(免费版限制每次最多处理 10 页),演示如何实现 PDF 的基本信息读取、文本提取、图片导出以及表格解析。
## 环境准备
首先通过 pip 安装依赖库:- pip install Spire.Pdf.Free
复制代码 安装后在脚本中导入核心模块:- from spire.pdf import *
- from spire.pdf.common import *
复制代码 注意:免费版对处理的 PDF 页数有限制(每次最多 10 页),以下示例均在此限制下运行。
## 基本工作流程
使用该库读取 PDF 的一般步骤为:
1. 创建 PdfDocument 对象。
2. 调用 LoadFromFile() 方法加载 PDF 文件。
3. 通过 Pages 集合访问每一页。
4. 使用对应的提取器(PdfTextExtractor、PdfImageHelper、PdfTableExtractor)提取内容。
5. 关闭文档释放资源。
## 读取 PDF 基本信息(页数、页面尺寸)
在提取具体内容前,先获取文档元数据,有助于了解文档结构。- from spire.pdf import PdfDocument
- pdf = PdfDocument()
- pdf.LoadFromFile("sample.pdf")
- page_count = pdf.Pages.Count
- print(f"总页数: {page_count}")
- for i in range(page_count):
- page = pdf.Pages.get_Item(i)
- width = page.Size.Width
- height = page.Size.Height
- print(f"第 {i+1} 页尺寸: {width} x {height}")
- pdf.Close()
复制代码 输出示例中,A4 尺寸的页面宽高约为 595 x 842 点。
## 提取 PDF 中的文本
利用 PdfTextExtractor 逐页提取文本,可控制是否保留空白布局。注意:如果 PDF 中文字是扫描图片(无文本层),则无法直接提取,需借助 OCR 技术。- from spire.pdf import *
- def extract_text_from_pdf(pdf_path, start_page=1, end_page=None):
- pdf = PdfDocument()
- pdf.LoadFromFile(pdf_path)
- total_pages = pdf.Pages.Count
- if end_page is None or end_page > total_pages:
- end_page = total_pages
- # 免费版限制最多处理前10页
- end_page = min(end_page, 10)
- for i in range(start_page - 1, end_page):
- page = pdf.Pages.get_Item(i)
- extractor = PdfTextExtractor(page)
- options = PdfTextExtractOptions()
- options.IsExtractAllText = True # 提取全部文本(忽略表格/图片区域)
- text = extractor.ExtractText(options)
- print(f"--- 第 {i+1} 页文本 ---")
- print(text)
- print("\n")
- pdf.Close()
- extract_text_from_pdf("sample.pdf", end_page=2)
复制代码
## 提取 PDF 中的图片
使用 PdfImageHelper 获取页面中的图片资源,并保存为 PNG 文件。- import os
- from spire.pdf import *
- def extract_images_from_pdf(pdf_path, output_dir="images"):
- if not os.path.exists(output_dir):
- os.makedirs(output_dir)
- pdf = PdfDocument()
- pdf.LoadFromFile(pdf_path)
- page_limit = min(pdf.Pages.Count, 10)
- image_helper = PdfImageHelper()
- for page_index in range(page_limit):
- page = pdf.Pages.get_Item(page_index)
- images_info = image_helper.GetImagesInfo(page)
- for i, img_info in enumerate(images_info):
- img_info.Image.Save(f"{output_dir}/page_{page_index}_img_{i}.png")
- print(f"已保存: page_{page_index}_img_{i}.png")
- pdf.Close()
- print(f"图片提取完成,共处理 {page_limit} 页,保存在 {output_dir} 目录下")
- extract_images_from_pdf("sample.pdf")
复制代码 注意:Save() 方法会根据文件名后缀自动确定格式,推荐使用 .png。
## 提取 PDF 中的表格
该库没有直接导出表格为 CSV/Excel 的方法,但可通过 PdfTableExtractor 获取表格结构,再手动解析数据。注意此方法只能识别有明确边框和结构的表格,对扫描表格或复杂排版失效。- from spire.pdf import *
- def extract_tables_from_pdf(pdf_path):
- pdf = PdfDocument()
- pdf.LoadFromFile(pdf_path)
- page_limit = min(pdf.Pages.Count, 10)
- extractor = PdfTableExtractor(pdf)
- for i in range(page_limit):
- page = pdf.Pages.get_Item(i)
- tables = extractor.ExtractTable(i)
- if tables:
- print(f"第 {i+1} 页发现 {len(tables)} 个表格")
- for t_idx, table in enumerate(tables):
- print(f" 表格 {t_idx+1}:")
- rows = table.GetRowCount()
- cols = table.GetColumnCount()
- print(f" 行数: {rows}, 列数: {cols}")
- if rows > 0:
- header = [table.GetText(0, c) for c in range(cols)]
- print(f" 表头: {header}")
- for r in range(min(rows, 4)):
- row_data = [table.GetText(r, c) for c in range(cols)]
- print(f" 第{r+1}行: {row_data}")
- else:
- print(f"第 {i+1} 页未发现表格")
- pdf.Close()
- extract_tables_from_pdf("sample.pdf")
复制代码
## 注意事项
- 免费版每次只能处理 PDF 前 10 页,超出部分将被忽略。
- 文本提取依赖 PDF 内嵌的文本层,扫描件需配合 OCR 工具。
- 表格提取仅适用于有清晰边框的表格结构。
- 图片保存为 PNG 格式,无压缩损失。
掌握以上方法后,可轻松实现 PDF 文档的自动化数据提取,为文档分析、批量内容采集等场景提供基础支撑。实际使用时可根据需求选择合适的提取策略,并注意免费版的页数限制。 |