重庆最便宜的网站建设公司,全国十大跨境电商排名,做好中心网站建设工作,小程序推广文案版面分析#xff1a;如何得到标题、如何的得到段落#xff08;正确的段落#xff09;、如何得到表格、如何得到图片#xff0c;图和得到图片上的文字#xff1f; 还有细节问题#xff1a;双栏和多栏的问题、公式问题 扫描件#xff1a;扫描件本质上是图片#xff0c;如… 版面分析如何得到标题、如何的得到段落正确的段落、如何得到表格、如何得到图片图和得到图片上的文字 还有细节问题双栏和多栏的问题、公式问题 扫描件扫描件本质上是图片如何从图片中解析得到文件。 本篇文章探索的是非扫描件PDF中获取表格的思路。 挑选了可以解析PDF中表格的组件进行了测试。主要测试了 pdfplumber 和 camelot 整体的感受是网上看啥组件都好实际测啥组件都不行。效果好的不开源收费开源的效果不好。测试下来发现把组件融合起来还是能不花钱解决问题的都是麻烦折腾一些。 pdfplumber 实际测试情况解析表格的能力比较差它把三列的表格解析成了很多列。 安装 pip install pdfplumber 可运行代码 # 导入pdfplumber
import pdfplumber# 读取pdf文件保存为pdf实例
pdf pdfplumber.open(D:\\angus\\py\\困难pdf节选西藏奇正2022.pdf) # 访问第二页
first_page pdf.pages[2]# 自动读取表格信息返回列表
table first_page.extract_table()print(table) 实际PDF中的表格 解析后的结果可以看到都是错误的。因为它解析出来九列。 camelot camelot可以正确的识别表格的列问题是把正文当做了表格。不过camelot的定位就是表格识别。 tips1这里camelot是可以传入表格的坐标的可以配合其它的python组件获取到表格位置然后只解析表格。camelot最佳的用途就是解析表格。也只能解析表格所以可以把要解析的表格部分单独给camelot。 tips2这里也可以考虑把解析后为一列的表格去掉表格为一列好像没有什么意义。虽然粗暴但是没有太大问题。 安装 pip install camelot-py[cv] 可运行代码 import camelot
import pandas as pddef extract_table_data(pdf_path):tables camelot.read_pdf(pdf_path, flavorstream, pagesall)return tables# 用法示例
pdf_path D:\\angus\\py\\困难pdf节选西藏奇正2022.pdf
table_data extract_table_data(pdf_path)
for idx, table in enumerate(table_data):print(fTable {idx1}:)print(table.df)print(fNumber of columns: {len(table.df.columns)})print()python pdf2table-v2.py 效果正确解析了表格的列但是把正文也当做了表格。 原始表格如下表格解析没有问题。 最开始的想法是把这些解析为一列的表格通过LLM去分析段落。这并不是一个好主意 我把数据给通义千问它表示目前没有这项能力 prompt如下 以下是一个文件的内容请帮我分析提取真正的标题、正文
要求1只需要根据内容判断是否可以是标题。不要额外生成任何内容
要求2其中正文要给我划分好段落
内容如下
{0 西藏奇正藏药股份有限公司 2022 年年度报告全文
1 管理层负责按照企业会计准则的规定编制财务报表使其实现公允反映并设计、执行
2 和维护必要的内部控制以使财务报表不存在由于舞弊或错误导致的重大错报。
3 在编制财务报表时管理层负责评估奇正藏药的持续经营能力披露与持续经营相关的
4 事项如适用并运用持续经营假设除非管理层计划清算奇正藏药、停止营运或别无其
5 他现实的选择。
6 奇正藏药治理层以下简称“治理层”负责监督奇正藏药的财务报告过程。
7 六、注册会计师对财务报表审计的责任
8 我们的目标是对财务报表整体是否不存在由于舞弊或错误导致的重大错报获取合理保证
9 并出具包含审计意见的审计报告。合理保证是高水平的保证但并不能保证按照审计准则执
10 行的审计在某一重大错报存在时总能发现。错报可能由于舞弊或错误所导致如果合理预期
11 错报单独或汇总起来可能影响财务报表使用者依据财务报表作出的经济决策则通常认为错
12 报是重大的。
13 在按照审计准则执行审计的过程中我们运用了职业判断并保持了职业怀疑。同时
14 我们也执行以下工作
15 一识别和评估由于舞弊或错误导致的财务报表重大错报风险设计和实施审计程序
16 以应对这些风险并获取充分、适当的审计证据作为发表审计意见的基础。由于舞弊可能
17 涉及串通、伪造、故意遗漏、虚假陈述或凌驾于内部控制之上未能发现由于舞弊导致的重
18 大错报的风险高于未能发现由于错误导致的重大错报的风险。
19 二了解与审计相关的内部控制以设计恰当的审计程序。
20 三评价管理层选用会计政策的恰当性和作出会计估计及相关披露的合理性。
21 四对管理层使用持续经营假设的恰当性得出结论。同时根据获取的审计证据就
22 可能导致对奇正藏药持续经营能力产生重大疑虑的事项或情况是否存在重大不确定性得出结
23 论。如果我们得出结论认为存在重大不确定性审计准则要求我们在审计报告中提请报表使
24 用者注意财务报表中的相关披露如果披露不充分我们应当发表非无保留意见。我们的结
25 论基于截至审计报告日可获得的信息。然而未来的事项或情况可能导致奇正藏药不能持续
26 经营。
27 五评价财务报表的总体列报、结构和内容并评价财务报表是否公允反映相关交易
28 和事项。
29 六就奇正藏药中实体或业务活动的财务信息获取充分、适当的审计证据以对财务
30 报表发表意见。我们负责指导、监督和执行集团审计。我们对审计意见承担全部责任。
31 我们与治理层就计划的审计范围、时间安排和重大审计发现等事项进行沟通包括沟通
32 我们在审计中识别出的值得关注的内部控制缺陷。
33 我们还就已遵守与独立性相关的职业道德要求向治理层提供声明并与治理层沟通可能}m模 通义千问回答这活儿干不了 我再问chatGPT 首先给出了我正确的标题内容但是段落还不是很OK。但是似乎离得不远了之所以内容没有正确的分段落。