电商网站 案例,教师兼职做网站,网站建设最低多少钱,上海公司注册信息查询网使用PyMuPDF#xff08;即fitz#xff09;读取PDF中的text时#xff0c;会把页码也读进来。所以#xff0c;有时候就需要让程序忽略页眉和页脚#xff0c;或者直接删除页眉和页脚。
根据fitz的文档#xff1a;Page - PyMuPDF 1.24.0 documentation
get_text的clip参数可…使用PyMuPDF即fitz读取PDF中的text时会把页码也读进来。所以有时候就需要让程序忽略页眉和页脚或者直接删除页眉和页脚。
根据fitz的文档Page - PyMuPDF 1.24.0 documentation
get_text的clip参数可以指定要读取文字的区域于是大致代码如下
doc fitz.open(fname)
page doc[0]
rect page.rect
clip 50 # 假设页眉和页脚的高度都是50
crop fitz.Rect(0, clip, rect.width, rect.height-clip)
text page.get_text(clipcrop)