CN111027297A

CN111027297A - 一种对图像型pdf财务数据关键表格信息的处理方法

Info

Publication number: CN111027297A
Application number: CN201911336180.XA
Authority: CN
Inventors: 计璐; 杨胜
Original assignee: Hainan Gangao Information Industry Co ltd
Current assignee: Hainan Gangao Information Industry Co ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-04-17

Abstract

本发明涉及文档处理领域，特别是涉及一种对图像型PDF财务数据关键表格信息的处理方法。在云化服务器上加载PDF财务数据表识别***，用户上传需要处理获得财务数据的PDF文档，***采用OCR光学图像识别字符接口、表格版面分析算法及深度学习算法将关键财务数据提取出来；***将提取结果数据序列化，以结构化形式输出为JSON格式数据，调用数据库接口，将PDF中所有表格信息入库；引入财务表格识别性能评测***，对已经提取的数据进行量化评价，根据量化结果实时调整***对财务数据表图像处理参数调整，以此优化***识别效率。通过使用本方法能够准确、快速对图像型的财务单据数据进行解析提取，增加财务数据入库的数据来源渠道。

Description

一种对图像型PDF财务数据关键表格信息的处理方法

技术领域

本发明涉及数据处理领域及图像处理领域，尤其涉及一种对图像型财务数据表格信息的处理方法。

背景技术

PDF全称为Portable Document Format，译为可移植文档格式，是一种常用的电子文件格式。在多类型操作***具有较高的通用性和兼容性，可保证文件传输过程中数据信息不被修改或不因为编码类型导致发生变化，因此PDF被作为一种文件信息传递的主流形式。PDF文件中包含有大量的数据信息，尤其在财务数据处理领域，承载大量的关键数据表格信息。但由于PDF文件的封闭性，常用的处理数据方法只能对照图像将内容输入到数据库，低效且容易出错。因此需要提供一种能够自动识别PDF表格，并能满足财务业务处理需要，解决现阶段数据快速增长和***处理速度急需提高的问题，因此本发明实现了一种识别财务表格图像的解决方案，高效并准确提取PDF中财务数据表关键信息。

发明内容

针对于PDF中具有较多且复杂的企业财务信息，业务处理要求不仅要把表格撷取出来，还要根据实际的业务需求对表格进行分析，并且能够快速、准确识别处理文件中的表格、文字、图片等内容，本发明实施例的一个目的旨在提供一种对图像型PDF财务数据关键表格信息的处理方法，其处理效果较为高效准确，并能在大量处理后***可进行迭代优化，提高自身识别率和准确率。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例提供一种对图像型PDF财务数据关键表格信息的处理方法，所述方法包括：

步骤一：加载PDF财务数据表识别***，该***运行加载在云化服务器上，多用户可异地多进程登录并行使用，用户上传需要解析的PDF文件后，等待***处理完毕即可获得该PDF文件中所需要的财务表格数据，云化***的实现可更好地满足用户提高使用效率的需求。

步骤二：扫描PDF文件并提取表格页，对用户上传的PDF文件全量扫描，调用***中的通用OCR(光学字符识别)接口，初步识别里面表格内容中的财务信息关键字和所需数据表头文本，提取表格所在PDF页，初步完成筛选所需要处理的PDF页；

步骤三：对图像表格进行特征分析，对表格进行跨页合并；财务数据表具有深度较大，跨页的特征，需要建立跨页表格合并分析***，实施表格版面跨页合并分析算法，将分布在不同PDF页上的数据表进行合并；基于相连两页PDF中的两个表格的明显特征，列举不可能为跨页表格的特征，使用特征快速过滤不可能是跨页的表格；过滤后剩余的表格，根据综合表格属性判断表格是否是跨页表格；此处本发明提供一种加权特征阈值比较法，综合前期***进行的大数据标注，满足大数据中所收敛的公式进行对跨页表格的合并。

步骤四：对图像文件进行预处理；待处理的PDF表格图像由于原始图像的自身像素噪声较大或文件传输过程中失真，对后续表格信息识别和处理造成一定干扰，需要尽可能排除阴影和失真像素等原因造成的影响；本发明使用图像噪声去除、二值法、倾斜校正等方法对表格图像信息进行预处理；对图像进行灰度化，灰度化图像使用中值滤波器，进行滤波排除墨点和边缘像素；处理后的图像进行二值法凸显区分前景像素和背景像素，适合处理白底黑字的表格；同时为解决图像中表格线存在倾斜的缺陷，对前景象素点进行Hough变换，对表格线进行倾斜校正。

步骤五：利用深度学习的图像处理模型对财务表格进行几何分析，提取连通域并切割；模型识别表格线，并根据表格线排布，对图像进行几何分析，提取连通域并切割，包括：提取线段坐标，合并线段，识别框线；分割的目的是对表格信息进行细分，区域块位置坐标进行提取，单元格行高和列宽数值提取，数据表信息字号大小及字符坐标获取。

步骤六：对步骤五中分割的各个区域块，使用OCR接口对切割的财务表格进行提取财务特征字符；对字符图像提取多维的特征用于后面的特征匹配模式识别算法。将当前字符提取的特征向量与特征模板库进行模板粗分类和模板细匹配，识别出字符的算法，提取财务数据，并根据财务表格逻辑关系对数据结果进行校正。

步骤七：对恢复数据进行版面恢复，并将表格的图像向量和字符数据实现序列化，以结构化形式输出为JSON格式数据；根据步骤五，得到每个单元格的坐标和每个字符的坐标，接下来将步骤六提取得到的字符数据按照坐标填写到对应表格即可恢复原来的图像数据表；自定义数据结构，使用JSON输出页面中所有财务表格关键信息。

步骤八：对JSON格式数据调用数据库接口，并将所有财务表格信息入库存储，提供用户下载接口，用户可下载该PDF中包含的全量财务表格数据信息；

步骤九：根据最终数据库中的财务数据建立数据集，建立评价PDF识别财务数据表格性能的***；表格识别***的效率以及准确率高低，要量化评价。表格结构识别过程，可看成是对单元格的检测，我们关注检测的precision(准确率)和recall(召回率)指标，根据指标实时调整***中跨页合并于表格几何分析参数，使***处于迭代优化中，趋向于提高***识别准确率。

附图说明

图1是本发明实施例架构示意图；

图2是本发明实施例流程示意图；

图3是本发明跨页合并表格算法流程示意图；

图4是本发明实施例深度学习模型算法流程示意图；

图5是本发明实施例深度学习处理结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例PDF文件提取图表数据信息方法可以应用于财务数据处理领域。

本发明所描述的方法承载在服务器上，在云化服务器上加载PDF财务数据表识别***，所需处理图表信息的用户可登录服务器进行对***的使用，服务器承载的方式可支持多用户异地多进程登录并行使用，用户上传需要解析的PDF后，等待***处理完毕后，即可获取***返回该PDF文件中所需要的财务表格数据，该实施例架构可最大化地提高该***的使用效率。具体可见附图1本发明实施例架构示意图所示；

本发明具体流程图可见图2是本发明实施例流程示意图；

本发明中需要扫描PDF文件并提取表格页，具体实施方式：对用户上传的PDF文件全量扫描，调用***中的通用OCR(光学字符识别)接口，初步识别里面表格内容中的财务信息关键字和所需数据表头文本。

具体实施方式：若识别关键字如：资产负债表、利润分配表、现金流量表、权益变动表等关键字识别为表格标题；识别如：资产，注释，期末余额，期初余额作为表头关键字；识别如：货币资金，交易性金融资产等财务指标关键字；若出现上述关键字特征匹配条件，提取财务关键字所在PDF页，初步完成筛选所需要处理的PDF页；上述实施步骤完成初步筛选可简化后面图像识别的工作量。

本发明对图像表格进行特征分析，财务数据表具有深度较大，跨页的特征，需要对表格进行跨页合并具体实施方式：利用深度学习图像处理模型，初步识别关键特征，实施跨页分析合并算法。

根据综合表格属性判断表格是否是跨页表格；此处本发明提供一种加权特征阈值比较法：

基于两张PDF页中的两个表格的明显特征，列举不可能跨页表格的特征：

(1)前后两页的表格线方向未保持一致性，分别为纵向和横向；

(2)前后表格的边线类型不一致，两表格不同有线表格或同为无线表格；

(3)前后两表处于不合理的位置，即前一张表格的底部位置未处在页面的下方20％的区域位置，后一表格的顶部位置未处在后一页面有效区域的上方40％的区域位置；

(4)判断前一表格的底部是否其余非表格内容，或者判断后一表格的顶部是否有非表格内容，如果存在则两表格不是跨页表格。

(5)如果前一页面以表格结束、后一页面以表格开始，同时前一表格的末行的列数和后一表格的首行列数不相等则两表格不是跨页表格；

使用非合并表格特征快速过滤不可能是跨页的表格；过滤后剩余的表格，如果不满足非跨页表格所有特征，则两格表格的特征属性根据重要程度进行加权，记为wi，设定一个认为表格可进行合并处理的阈值，记为θ，则判断两表格为跨页表格，必须满足以下公式：θ<Пwi；具体实施方法如下：

列举需要合并表格的特征：

权重判断标准如下：

(1)如果两个表格中其中存在相似关键字一个或以上，则权重记为0.3；

(2)如果两表格的列数相同，则权重记为0.6；

(3)如果两表格的宽度相同，则权重记为0.6；

(4)如果两表格前表最后一行和后表第一行，纯文字单元格、数字单元格对应，则权重记为0.6；

(5)如果两表格有相同的表头，则权重记为0.8；

(6)如果后一表格不存在表头，则权重记为0.5；

(7)如果前后表格对应的前后不存在内容，则权重记为0.5。

计算满足以上公式：θ<Пwi，则两相连跨页表格为合并表格。

综合前期***进行的大数据标注设置初始阈值，该阈值满足大数据中所收敛的公式进行对跨页表格的合并的实施。实施跨页合并分析算法，将分布在不同PDF页上的数据表进行合并，上述实施步骤提高表格数据识别的准确率，以免对相连数据进行误拆分操作。具体可见图3是本发明跨页合并表格算法流程示意图。

本发明对图像文件进行预处理，其具体实施方式：本发明使用图像噪声去除、二值法、倾斜校正对表格图像信息进行预处理；

图像噪声去除的具体实施方式：

先对图像进行灰度化处理，由于字符的颜色不是字符识别关心的，故可以把彩色输入图像转换为灰度图像以节省空间和简化处理；

灰度处理本发明建议了以下公式:Y＝0.309R+0.609G+0.082B；其中R、G、B、Y分别为红、绿、蓝、灰度值；根据公式处理表格图像后得到灰度图。

经灰度化图像使用中值滤波器，进行滤波排除墨点和边缘像素，其具体实施方式：

对每个非边缘像素，以其相邻中像素的灰度中位数代替其灰度，由此去除图像中的孤立点。中值滤波对细节保持较好，处理后的图像进行二值法凸显区分前景像素和背景像素，适合处理白底黑字的表格

同时为解决图像中表格线存在倾斜的缺陷，需要对表格线进行倾斜校准，其具体实施方式如下：利用现有的数学模型，对前景象素点进行Hough变换，Hough变换的主要思想为寻找局部密度较大的点以估计倾斜角，对表格线进行倾斜校正。

通过以上预处理方法，可消除原始图像表格失真，阴影墨点和噪声的消除，同时表格线进行倾斜校正后，有利于后续的几何分析和单元格切割，上述步骤实施目的在于以免对后续表格的信息识别和处理造成干扰。

本发明对财务表格进行几何分析，提取连通域并切割，其具体实施方式：本方法采用深度学习图像处理模型旨在对图像的每个像素赋予标签。本发明分割的目的是对表格线部分进行标注，分割类别是4类：横向的表格线，竖向的表格线，横向的不可见线，竖向的不可见线，因线和线之间有交点，交点处的像素是同属多条线的，每个像素可能同时属于多种类别。

为了提取上述各种线所在的像素，提取线段坐标，合并线段，识别框线，本发明采用深度学习图像表格分割的方式。目前较常用的深度学习图像分割模型有DeepLab系列，fcn，Unet，SegNet等，经过实验对比，由于表格图像语义较为简单、结构较为固定，本发明选择收敛速度最快的Unet。

Unet模型中包含up-conv的操作，该操作属于auto encoder的架构，可达到全连接自变码器可以添加或去除噪音的目的。这个CNN的自变码器学了局部特征然后压缩，再解压缩，最后获得边界识别能力,是最为适合处理表格的深度学习图像处理模型。Unet方法先全局观察，大致判断表格框线目标区域位置，然后进一步考虑细节的信息，把分割做得更精确。Unet模型结构示意图，具体可见图4是本发明实施例深度学习模型算法流程示意图。

同时由于各类像素数量不平衡，本发明的损失函数采用加权交叉熵。训练数据采用人工标注+仿真生成结合。示例图为深度学习模型识别框线和分割结果，具体可见图5是本发明实施例深度学习处理结果示意图。

本发明利用深度学习模型分割图形表格后。从模型分析结果中，表格信息进行细分，区域块位置进行标注，分析获得所有单元格起始行，结束行，起始列和结束列坐标，以及行高和列宽数值以及单元格内信息的字号大小。上述实施步骤，将表格拆分单元格，后续步骤可并发进行对各个子单元格操作，可提高后续财务关键信息字符识别的效率。

本发明将图表分割多个区域块后，将各个区域块分别使用OCR接口对切割的财务表格进行提取财务特征字符；其具体实施方式：

OCR接口返回每个子区域块中每个字符的坐标，对字符图像提取多维的特征用于后面的特征匹配模式识别算法。将当前字符提取的特征向量与特征模板库进行模板粗分类和模板细匹配，识别出字符的算法。对于字段中存在失真的字符未能准确提取的情况，结合财务表格的逻辑关系，使用字典关键词匹配的方法，提高失真字符识别的准确率。上述实施步骤最终返回每个字符信息及字符坐标。

本发明对恢复数据进行版面恢复，其具体实施方式：本发明进行表格图形几何分析、连通域分析和表格分割后，可得到各个单元格坐标；各个单元格中的字符图像进行OCR字符识别后得到每个单元格中的字符的信息和每个字符的坐标，接下来将提取得到的字符数据按照坐标填写到对应表格即可恢复原来的图像数据表。

本发明对恢复版面后将数据实现序列化，以结构化形式输出为JSON格式数据，其具体实施方式：自定义数据结构，使用JSON输出页面中所有表格。并返回一个嵌套列表，其结构层次为table→row→cell。此时，页面上的整个表格被放入一个大列表中，原表格中的各行组成该大列表中的各个子列表。

本发明对JSON格式数据调用数据库接口，其具体实施方式：调用jsonToExcel函数，将所有财务表格信息数据转换为excel数据入库存储，同时***提供用户下载接口，下载数据库中的财务信息。

本发明建立评价PDF识别财务数据表格***，并根据量化结果实时调整***中合并表格算法和深度学习分割表格算法的参数；其具体实施方式：根据最终数据库中的财务数据建立数据集，建立评价PDF识别财务数据表格***；表格识别***的效率以及准确率高低，要量化评价。表格结构识别过程，可看成是对单元格的检测，本发明关注检测的precision(准确率)和recall(召回率)指标，precision指标反映了重建结果中，单元格真实存在的数目，单元格错置的数目；recall指标反映重建结果中表格单元格遗漏的数目；根据关键指标实时调整***中跨页合并表格算法和深度学习分割表格算法的参数，上述实施步骤可使***处于迭代优化中，趋向于提高识别准确率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种图像型PDF财务数据关键表格信息的处理方法，其特征在于，所述方法包括：

S1、云化服务器中加载PDF财务数据表信息识别***

S2、OCR接口初步扫描识别PDF中财务关键字并提取所需表格页；

S3、对表格图像进行特征分析，对跨页表格进行合并；

S4、对表格图像文件进行预处理；

S5、对财务表格图像进行几何分析，提取连通域并切割；

S6、对切割的财务表格进行提取财务特征字符，提取财务数据，并根据财务表格逻辑关系对数据进行校正；

S7、对所恢复财务数据进行版面恢复，并实现数据序列化，将数据以结构化形式输出为JSON格式数据；

S8、对JSON格式数据调用数据库接口，将所有财务表格信息数据存入数据库；

S9、根据最终数据库中的财务数据建立数据集，构建PDF识别财务数据表格性能评价***，根据量化评价结果迭代优化S3-S6的算法参数。

2.根据权利要求1所述的方法，采用云化服务器加载PDF财务数据***，其特征在于，多用户可异地多进程地使用该***上传PDF文件和处理财务表格信息，达到提高该***使用效率的目的。

3.根据权利要求1所述的方法，OCR接口扫描PDF文件并提取表格页，其特征在于，所述方法包括：

PDF文件全量页扫描，OCR接口初步识别里面表格内容中的所需的财务信息关键字和所需数据表头文本，提取表格所在PDF页。

4.根据权利要求1所述的方法，对图像表格进行特征分析，表格跨页合并分析，其特征在于，所述方法包括：

财务数据表具有深度较大，跨页的特征，需要建立跨页表格合并分析***，实施跨页合并分析算法，将分布在不同PDF页上的数据表识别是否具有分离或合并的特征，并根据特征进行处理。

5.根据权利要求1所述的方法，对图像文件进行预处理，其特征在于，所述方法包括：待处理的PDF表格图像，由于原始图像的自身瑕疵或文件传输过程中产生的失真，为满足后续步骤处理的需要，需要采用图像处理算法排除这些瑕疵或失真像素的影像。

6.根据权利要求5所述的方法，其特征在于，使用图像二值法、噪声去除、倾斜校正对等方法表格图像信息进行预处理。

7.根据权利要求1所述的方法，对财务表格进行几何分析，其特征在于，采用深度学习算法Unet，根据表格线排布，对图像进行几何分析，提取连通域并切割，包括：提取线段坐标，合并线段，识别框线，分割表格图像为各个子单元格；同时获取识别表格的所有单元格坐标，并提取行高，列宽，数据字号大小。

8.根据权利要求1所述的方法，其特征在于，对切割的财务表格进行提取财务特征字符，以关键指标对财务数据进行分类，对提取的图像特征进行匹配模式识别，提取财务数据，并根据财务表格逻辑关系对数据结果进行校正。

9.根据权利要求1所述的方法，其特征在于，对所提取的关键数据进行版面恢复，根据权利要求7所获得的表格图像向量信息以及权利要求8中获得的单元格中的字符信息进行版面恢复。

10.根据权利要求1所述的方法，将数据转化为JSON数据格式，其特征在于，将权利要求9中的版面恢复数据，实现序列化，以结构化形式输出为JSON格式数据；所述方法包括：对JSON格式的财务数据信息，使用数据库接口，将表格数据存入数据库，在数据库中体现全量财务数据信息进行处理；根据最终数据库中的财务数据建立数据集，分析精确率与召回率建立评价PDF识别财务数据表格***，量化评价后进行参数，迭代调整优化财务数据识别***。