在日常办公和数据处理中,PDF文档的编程式读取是一个常见需求。借助Python第三方库Free Spire.PDF for Python,我们可以自动化提取PDF中的文本、图片、表格以及文档元数据,从而支撑文档解析、数据采集等场景。本文将从环境准备开始,逐步演示该库的核心用法,并说明免费版本的限制(每次最多处理10页)。
一、环境准备与基本工作流
首先通过pip安装免费库:- pip install Spire.Pdf.Free
复制代码 安装后在代码中导入所需模块:- from spire.pdf import *
- from spire.pdf.common import *
复制代码 该库的基本工作流程如下:
1. 创建PdfDocument对象;
2. 调用LoadFromFile()加载PDF文件;
3. 通过Pages集合访问每一页;
4. 使用对应的提取器(如PdfTextExtractor、PdfImageHelper)提取内容;
5. 处理完毕后调用Close()释放资源。
二、读取PDF基本信息(页数、页面尺寸)
提取具体内容前,通常需要先了解文档的元数据。以下代码演示如何获取总页数以及每页的尺寸:- from spire.pdf import PdfDocument
- pdf = PdfDocument()
- pdf.LoadFromFile("sample.pdf")
- page_count = pdf.Pages.Count
- print(f"总页数: {page_count}")
- for i in range(page_count):
- page = pdf.Pages.get_Item(i)
- width = page.Size.Width
- height = page.Size.Height
- print(f"第 {i+1} 页尺寸: {width} x {height}")
- pdf.Close()
复制代码 输出示例:- 总页数: 5
- 第 1 页尺寸: 595.0 x 842.0
- 第 2 页尺寸: 595.0 x 842.0
复制代码
三、提取PDF中的文本
文本提取是最常见的操作,PdfTextExtractor类提供了逐页提取的方法。我们可以指定起始页和结束页,并利用PdfTextExtractOptions控制提取参数(如是否保留空白布局)。注意免费版最多提取前10页:- from spire.pdf import *
- def extract_text_from_pdf(pdf_path, start_page=1, end_page=None):
- pdf = PdfDocument()
- pdf.LoadFromFile(pdf_path)
- total_pages = pdf.Pages.Count
- if end_page is None or end_page > total_pages:
- end_page = total_pages
- end_page = min(end_page, 10) # 免费版限制
- for i in range(start_page - 1, end_page):
- page = pdf.Pages.get_Item(i)
- extractor = PdfTextExtractor(page)
- options = PdfTextExtractOptions()
- options.IsExtractAllText = True # 提取全部文本,忽略表格/图片区域
- text = extractor.ExtractText(options)
- print(f"--- 第 {i+1} 页文本 ---")
- print(text)
- pdf.Close()
- extract_text_from_pdf("sample.pdf", end_page=2)
复制代码 需要特别说明:如果PDF中的文字是扫描图片(无文本层),则无法直接提取,需要借助OCR技术,而该库不提供OCR功能。
四、提取PDF中的图片
图片提取通过PdfImageHelper完成。该库会将每张图片保存为PNG格式,并可指定输出目录。同样受限于免费版的前10页:- import os
- from spire.pdf import *
- def extract_images_from_pdf(pdf_path, output_dir="images"):
- if not os.path.exists(output_dir):
- os.makedirs(output_dir)
- pdf = PdfDocument()
- pdf.LoadFromFile(pdf_path)
- page_limit = min(pdf.Pages.Count, 10)
- image_helper = PdfImageHelper()
- for page_index in range(page_limit):
- page = pdf.Pages.get_Item(page_index)
- images_info = image_helper.GetImagesInfo(page)
- for i, img_info in enumerate(images_info):
- img_info.Image.Save(f"{output_dir}/page_{page_index}_img_{i}.png")
- print(f"已保存: page_{page_index}_img_{i}.png")
- pdf.Close()
- print(f"图片提取完成,共处理 {page_limit} 页,图片保存在 {output_dir} 目录下")
- extract_images_from_pdf("sample.pdf")
复制代码
五、提取PDF中的表格
表格提取稍微复杂一些,该库没有提供直接导出CSV/Excel的方法,但可以通过PdfTableExtractor获取表格结构数据,然后手动解析。注意,PdfTableExtractor只能识别有明确边框和结构的表格,对于扫描表格或复杂排版可能失败:- from spire.pdf import *
- def extract_tables_from_pdf(pdf_path):
- pdf = PdfDocument()
- pdf.LoadFromFile(pdf_path)
- page_limit = min(pdf.Pages.Count, 10)
- extractor = PdfTableExtractor(pdf)
- for i in range(page_limit):
- page = pdf.Pages.get_Item(i)
- tables = extractor.ExtractTable(i)
- if tables:
- print(f"第 {i+1} 页发现 {len(tables)} 个表格")
- for t_idx, table in enumerate(tables):
- print(f" 表格 {t_idx+1}:")
- rows = table.GetRowCount()
- cols = table.GetColumnCount()
- print(f" 行数: {rows}, 列数: {cols}")
- if rows > 0:
- header = [table.GetText(0, c) for c in range(cols)]
- print(f" 表头: {header}")
- for r in range(min(rows, 4)):
- row_data = [table.GetText(r, c) for c in range(cols)]
- print(f" 第{r+1}行: {row_data}")
- else:
- print(f"第 {i+1} 页未发现表格")
- pdf.Close()
- extract_tables_from_pdf("sample.pdf")
复制代码
六、总结
通过上述方法,我们可以用Python实现对PDF文档的全面读取,涵盖基本信息、文本、图片和表格数据获取。这些能力为文档自动化处理、数据采集和内容分析提供了基础支撑。实际使用时需注意免费版10页的限制,若需处理完整文档可考虑付费版本或类似开源方案。根据具体需求选择合适的提取方式,即可高效完成PDF的编程式解析任务。 |