制作钓鱼网站,seo优化课程,织梦 网站迁移,怎么判断一个网站做的好一、 前言
本文利用python将pdf转换为word方法#xff0c;需要用到两个第三方模块#xff0c;分别是#xff1a; #xff08;1#xff09;pdfplumber#xff0c;用来解析pdf文档#xff0c;包括pdf的基本信息#xff08;作者、创建时间、修改时间…#xff09;及表格…一、 前言
本文利用python将pdf转换为word方法需要用到两个第三方模块分别是 1pdfplumber用来解析pdf文档包括pdf的基本信息作者、创建时间、修改时间…及表格、文本、图片等信息基本可以满足较为简单的格式转换功能。 2python-docx可用来创建、修改word文档.docx提供全套的word操作是较为常用的一个操作word的python库。 以上两者都可以使用pip命令直接安装具体命令如下
pip install pdfplumberpip install python-docx二、pdf转换为word方法详解
以下代码块实现提取pdf文件内容并保存word中。 复制并运行代码输入需要转换的pdf文档详细路径回车即可。
import pdfplumber
from docx import Document# 新建一个word用来保存pdf内容
def get_newword(file_path):doc Document()doc.save(file_pathr\res.docx)# 提取pdf中的所有文本,并保存到word中
def get_con(file_path):tem_path \\.join(file_path.split(\\)[:-1])# 新建一个wordget_newword(tem_path)doc Document(tem_pathr\res.docx)with pdfplumber.open(file_path) as pdf:for i, page in enumerate(pdf.pages): # 默认取pdf中所有存在页con page.extract_text()doc.add_paragraph(con)print(-----------分割线,第%d页----------- % (int(i) 1))doc.save(tem_pathr\res.docx)print(保存成功第%d页 % (int(i) 1))if __name__ __main__:# 输入文件路径全称如E:\pytest\pdfp\data\test.pdfprint(r文件路径示例E:\pytest\pdfp\data\test.pdf)file_path input(请输入需要转化的pdf文件路径)get_con(file_path)一上述代码释义、说明
1pdfplumber提取pdf文本内容方法 方法extract_text()返回一个字符串其中包含页面中的所有文本。如果只想提取页面的一部分文本可以将提取的区域作为参数传递给extract_text() 方法。 需要注意的是 extract_text()方法提取的是pdf页面中的所有文本内容包括表格中的文本但是不会保留表格的格式只是纯文本内容。且不会保存pdf中的图片。 2python-docx基础用法 上述代码主要使用了写入段落的方法
add_paragraph(text’’,styleNone)text段落内容style设置样式。
三、总结
本文仅是简单实现将pdf文本内容保存到word文档中对图片和格式未做任何处理。如果仅需要pdf中的文字内容不想去一一复制算是一个免费简单的小工具可供参考。
-end-