CN112016481B

CN112016481B - 基于ocr的财务报表信息检测和识别方法

Info

Publication number: CN112016481B
Application number: CN202010898577.4A
Authority: CN
Inventors: 李振; 鲁宾宾; 刘挺; 刘昊霖; 翟昶; 陈远琴; 母丹; 王子祎
Original assignee: Minsheng Science And Technology Co ltd
Current assignee: Minsheng Science And Technology Co ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2024-05-10
Anticipated expiration: 2040-08-31
Also published as: CN112016481A

Abstract

本发明涉及财务数据分析技术领域，提供了一种基于OCR的财务报表信息检测和识别方法，包括：对财务报表图像进行图像预处理、财务报表非表格区域信息提取、财务报表表格区域信息提取、文本检测、文本识别、格式化输出、配平校验。本发明首先区分是正常的表格、三线表、无线表；针对不同制表方式，采用不同的区域定位方法快速完成财务要素定位；用文字检测识别方法完成各要素的识别；针对数字混淆、小数点错漏问题，根据会计准则设置科目间配平规则，如OCR结果通过配平校验，才认为输出了正确的识别结果；本发明能大幅提高财务报表处理效率，能确保财务报表表格区域提取的准确性和通用性以及财务报表领域文本识别准确性，具有推广应用价值。

Description

基于OCR的财务报表信息检测和识别方法

技术领域

本发明涉及财务数据分析技术领域，特别涉及一种基于OCR的财务报表信息检测和识别方法。

背景技术

银行、税务、审计等机构存在大量基于财务报表的数据分析工作。按照财务报表种类的不同，每个财务报表至少有30-200个字段需要录入。手工处理效率低、易出错，与人工手工录入相比，财报OCR技术可直接从财报影像中提取科目、金额等重要数据，帮助银行、税务、审计等提高工作效率，构建自动化的信审***。

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。OCR传统上是指对输入扫描的文档图形进行分析和处理，检测并识别出图像中的文字信息，一般包含了文字检测(Text Detection)和文字识别(Text Recognition)两部分。

实际操作中，由于财务报表制表方式多样以及OCR识别出现容易数字混淆、小数点错漏等问题，市场上存在的财务报表OCR识别***无法输出精确度很高的识别结果。

发明内容

本申请解决的技术问题：

由于财务报表的格式多样复杂，表格区域与非表格区域互相交叠，目前，仍没有一种有效的方法将财务报表里的所有内容进行检测识别并格式化输出。

财务报表制表OCR识别出现容易数字混淆、小数点错漏等问题，市场上存在的财务报表OCR识别***无法输出精确度很高的识别结果。

本申请的整体技术思路：

本发明通过分析财务报表的样式特点，提出了3种主流样式的财务报表分析提取方法，将财务报表的表格和非表格信息分别进行检测和识别，最终将不同区域的内容进行格式化输出。

针对制表多样的问题，首先通过判断图片上的最长的横线两端是否与竖线有交点，区分是正常的表格、三线表、无线表；针对不同的制表方式，采用不同的区域定位方法快速完成财务要素的定位；然后用文字检测识别方法完成各要素的识别。

针对数字混淆、小数点错漏的问题，根据会计准则，设置科目间的配平规则，如OCR结果通过配平校验，才认为输出了正确的识别结果；否则，会继续进行OCR识别，调整识别结果。

本发明采用如下技术方案：

一种基于OCR的财务报表信息检测和识别方法，包括如下步骤：

S1、识别财务报表图像的非表格区域，提取非表格区域信息；

S2、对财务报表图像的表格区域进行细分识别，得到所有的数据单元格，按照所述数据单元格进行子图切分；

S3、对步骤S2中切分出的子图进行文本检测，识别出子图中的文本区域；

S4、对经步骤S3文本识别后的文本区域进行文本识别；

S5、将表格区域和非表格区域的文本识别内容进行排版整合，以结构化的方式输出财务报表信息。

进一步的，在步骤S1之前，对财务报表图像进行图像预处理，所述图像预处理具体为：

S0.1对输入的财务报表图像进行二值化处理：设置阈值，根据每个像素点的色值将其转化为纯白色或者纯黑色，将文本图像转化成噪声点较少的(较为纯净)白底黑字图像；

S0.2对经步骤S0.1处理后的图像进行形态学处理，消除单个字周围毛刺，减少单个字内的空白，使得每个字符成为紧凑的字团；所述形态学处理包括腐蚀、膨胀。

进一步的，所述方法还包括：

S6、根据会计准则设置科目间的配平规则，对步骤S5中输出的财务报表信息进行配平校验，若OCR结果通过配平校验，则输出的为正确识别结果；否则，继续进行OCR识别，调整识别结果。

进一步的，步骤S1中，提取非表格区域信息的具体步骤包括：

S1.1在财务报表图像的水平方向上进行投影，得到图像高度像素数条水平方向的黑色像素累加值，做分布图，并找出累加值接近最大值的多条水平线位置；

S1.2选择最上方的一条水平线为分割非表格区域和表格区域的起始基准线；

S1.3在所述起始基准线上方截取紧邻的一行文字行，在所述终止基准线下方截取紧邻的一行文字行，对文字行进行文本检测和文本识别，得到文字行的内容；

S1.4将识别出的所述起始基准线上方文字行的内容与收集的财务报表术语词数据库的条目进行比对，若不在所述数据库中，则所述起始基准线即为分割表格区域和非表格区域的起始水平线；若在所述数据库中，则起始水平线位置由所述起始基准线位置减去该文字行的高度得到；同样，将识别出的所述终止基准线下方文字行的内容与收集的财务报表术语词数据库的条目进行比对，若不在所述数据库中，则所述终止基准线即为分割表格区域和非表格区域的终止水平线；若在所述数据库中，则终止水平线位置由所述终止基准线位置加上该文字行的高度得到；

S1.5所述起始水平线和终止水平线之间的区域为表格区域，所述表格区域外为非表格区域。

进一步的，步骤S2中，根据不同的财务报表类别，对财务报表图像的表格区域进行对应细分识别及信息提取；

S2.1有横线有竖线的表格区域信息提取：

使用直线段检测算法LSD将表格中的所有直线段检测出来，利用检测出的线段确定表格的基本结构以及每个单元格的区域范围；所述基本结构为表格的行数及列数；

S2.2无横线有竖线的表格区域信息提取：

S2.2.1对表格区域进行水平投影，得到图像高度像素数条水平方向的黑色像素累加值，并做分布图；波谷位置处像素累加值接近0的地方所代表的水平位置即要找的水平表格分割线；

S2.2.2对表格区域进行垂直投影，得到图像宽度像素数条垂直方向的黑色像素累加值，找出累加值接近最大值的多条垂线位置，即要找的垂直表格分割线；

S2.2.3根据水平表格分割线和垂直表格分割线，对表格区域进行数据单元格切分，每2条相邻的水平表格分割线和垂直表格分割线切分出一个数据单元格，得到表格区域每一个数据单元格的四个角坐标并根据坐标切分出对应图片中的数据单元格区域子图；

S2.3无横线无竖线的表格区域信息提取：

S2.3.1对表格区域进行水平投影，得到图像高度像素数条水平方向的黑色像素累加值，并做分布图；波谷位置处像素累加值接近0的地方所代表的水平位置即要找的水平表格分割线；

S2.3.2对表格区域进行垂直投影，得到图像宽度像素数条垂直方向的黑色像素累加值，并做分布图。波谷位置处像素累加值接近0的地方所代表的垂直位置即要找垂直表格分割线；

S2.3.3根据水平表格分割线和垂直表格分割线，对表格区域进行数据单元格切分，每2条相邻的水平表格分割线和垂直表格分割线切分出一个数据单元格，得到表格区域每一个数据单元格的四个角坐标并根据坐标切分出对应图片中的数据单元格区域子图。

进一步的，步骤S3中，使用文本检测模型对切分出的子图进行文本检测，定位具体的文本区域，获得文本区域相应的坐标并切分出精确的文本区域子图。

进一步的，所述文本检测模型采用CRAFT(Character-Region Awareness ForText detection基于字符区域感知的文本检测)模型。

进一步的，步骤S4中，文本识别采用DenseNet(Densely ConnectedConvolutional Networks密集连接卷积网络)模型生成财务报表领域特殊训练样本并训练模型，对步骤S3中切分出的每一个精确的文本区域子图进行文字内容识别；所述财务报表领域特殊训练样本包含中文、英文、数字、特殊符号。

进一步的，步骤S5中，根据步骤S2中获得的数据单元格的位置结果，及步骤S4中获得的文本识别结果，将财务报表表格内容按照行列坐标写入格式化文件中作为最终识别结果。

本发明还提供了一种实现上述的基于OCR的财务报表信息检测和识别方法的计算机程序。一种信息数据处理终端及存储上述计算机程序的计算机可读存储介质。

本发明的有益效果为：本发明方法能大幅提高财务报表处理的效率，能确保财务报表表格区域提取的准确性和通用性以及财务报表领域文本识别的准确性，具有推广应用价值。

附图说明

图1所示为本发明实施例一种基于OCR的财务报表信息检测和识别方法的流程示意图。

具体实施方式

下文将结合具体附图详细描述本发明具体实施例。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。

本发明利用图像预处理技术减少噪声并提升图像中有效信息的对比度；对非表格区域进行提取，再使用3种针对主流财务报表表格样式的方法进行表格区域提取，并将表格区域进行细分识别，按照单元格进行子图切分，然后对切分出的非表格区域子图和每一个切分出的表格单元格子图使用文字检测模型进行文本检测，识别出所有切割子图中的文本区域，再使用文本识别模型对所有检测出的文本区域进行文本识别，最后将表格区域和非表格区域识别得到的内容进行排版整合，以结构化的方式输出财务报表信息。

财务报表信息检测和识别，主要通过如下机制来确保财务报表表格区域提取的准确性和通用性以及财务报表领域文本识别的准确性。

a)有横线有竖线的表格区域信息提取机制

b)无横线有竖线的表格区域信息提取机制

c)无横线无竖线的表格区域信息提取机制

d)财务报表领域文本识别机制

如图1所示，本发明实施例一种基于OCR的财务报表信息检测和识别方法，包括如下步骤：

S0、对财务报表图像进行图像预处理，图像预处理的目的在于减少噪声并提升图像中有效信息的对比度。

优选的，具体方法为：

S0.1对输入的财务报表图像进行二值化处理：设置阈值，根据每个像素点的色值将其转化为纯白色或者纯黑色，将文本图像转化成较为纯净的噪声点较少的白底黑字图像，为形态学处理做准备；

S0.2对经步骤S0.1处理后的图像进行形态学处理，消除单个字周围毛刺，减少单个字内的空白，使得每个字符尽量成为紧凑的字团；所述形态学处理包括腐蚀、膨胀。

优选的，具体方法为：

S1.1在财务报表图像的水平方向上进行投影，得到图像高度像素数条水平方向的黑色像素累加值，做分布图，并找出累加值接近最大值的多条水平线位置(图像有宽和高，水平长度为宽，垂直长度为高。每个图片有分辨率属性，计为w*h，例如1080*576。图像高度像素数条水平方向指按照高度h水平拆分为h行(每行高度为1)，例如576条水平像素行。分布图就是这h条水平方向的像素行的黑色像素个数的累加值的分布。每一条水平方向像素行有w个像素(黑色或白色)，例如1080个像素。对每一条水平方向的像素行累加黑色像素的个数(取值范围0～w)，则可以画出h条水平方向上每一条的黑色像素累加值的分布图)；

S1.3在所述起始基准线上方截取紧邻的一行文字行(分布图波峰周围值较大的位置为文字行)，在所述终止基准线下方截取紧邻的一行文字行，对文字行进行文本检测和文本识别(文本检测和识别同步骤S3、S4)，得到文字行的内容；

优选的，根据不同的财务报表类别，对财务报表图像的表格区域进行对应细分识别及信息提取；

S2.1有横线有竖线的表格区域信息提取：

使用直线段检测算法LSD将表格中的所有直线段检测出来，利用检测出的线段确定表格的基本结构(行数和列数)以及每个单元格的区域范围；

S2.2无横线有竖线的表格区域信息提取：

S2.2.1对表格区域进行水平投影，得到图像高度像素数条水平方向的黑色像素累加值，并做分布图；波谷位置处像素累加值接近0的地方所代表的水平位置即要找的水平表格分割线(波峰周围值较大的位置为文字行)；

S2.2.2对表格区域进行垂直投影，得到图像宽度像素数条垂直方向的黑色像素累加值，找出累加值接近最大值的多条垂线位置，即要找的垂直表格分割线(垂直投影，按照宽度w垂直拆分为w列(每列宽度为1)。所以得到的分布图是w*h分辨率的宽度w条(也就是图像宽度像素数条)。每一条垂直方向像素列有h个像素(黑色或白色)，例如576个像素。对每一条垂直方向的像素列累加黑色像素的个数(取值范围0～h)，则可以画出w条垂直方向上每一条的黑色像素累加值的分布图)；

S2.3无横线无竖线的表格区域信息提取：

S2.3.1对表格区域进行水平投影，得到图像高度像素数条水平方向的黑色像素累加值，并做分布图；波谷位置处像素累加值接近0的地方所代表的水平位置即要找的水平表格分割线(波峰周围值较大的位置为文字列)；

优选的，具体方法为：使用文本检测模型对切分出的子图进行文本检测，定位具体的文本区域，获得文本区域相应的坐标并切分出精确的文本区域子图。

进一步优选，文本检测模型采用CRAFT模型。

S4、对经步骤S3文本识别后的文本区域进行文本识别；

优选的，文本识别采用DenseNet模型生成财务报表领域特殊训练样本(含中文、英文、数字、特殊符号)并训练模型，对步骤S3中切分出的每一个精确的文本区域子图进行文字内容识别；

优选的，根据步骤S2中获得的数据单元格的位置结果，及步骤S4中获得的文本识别结果，将财务报表表格内容按照行列坐标写入格式化文件(如excel等)中作为最终识别结果。

作为一个具体实施例，本发明的流程如图1所示。

本发明首先区分是正常的表格、三线表、无线表(也可以扩展到更多的财务报表格式)；然后针对不同的制表方式，采用不同的区域定位方法快速完成财务要素的定位；然后用文字检测识别方法完成各要素的识别；针对数字混淆、小数点错漏的问题，根据会计准则，设置科目间的配平规则，如OCR结果通过配平校验，才认为输出了正确的识别结果；本发明方法能大幅提高财务报表处理的效率，能确保财务报表表格区域提取的准确性和通用性以及财务报表领域文本识别的准确性，具有推广应用价值。

本文虽然已经给出了本发明的几个实施例，但是本领域的技术人员应当理解，在不脱离本发明精神的情况下，可以对本文的实施例进行改变。上述实施例只是示例性的，不应以本文的实施例作为本发明权利范围的限定。

Claims

1.一种基于OCR的财务报表信息检测和识别方法，其特征在于，所述方法包括如下步骤：

S4、对经步骤S3文本识别后的文本区域进行文本识别；

S5、将表格区域和非表格区域的文本识别内容进行排版整合，以结构化的方式输出财务报表信息；

步骤S1中，提取非表格区域信息的具体步骤包括：

S1.2选择最上方的一条水平线和最下方的一条水平线分别为分割非表格区域和表格区域的起始基准线和终止基准线；

S1.5所述起始水平线和终止水平线之间的区域为表格区域，所述表格区域外为非表格区域；

步骤S2中，根据不同的财务报表类别，对财务报表图像的表格区域进行对应细分识别及信息提取，具体包括：

S2.1有横线有竖线的表格区域信息提取：

S2.2无横线有竖线的表格区域信息提取：

S2.3无横线无竖线的表格区域信息提取：

S2.3.2对表格区域进行垂直投影，得到图像宽度像素数条垂直方向的黑色像素累加值，并做分布图，波谷位置处像素累加值接近0的地方所代表的垂直位置即要找垂直表格分割线；

2.如权利要求1所述的基于OCR的财务报表信息检测和识别方法，其特征在于，在步骤S1之前，对财务报表图像进行图像预处理，所述图像预处理具体为：

S0.1对输入的财务报表图像进行二值化处理：设置阈值，根据每个像素点的色值将其转化为纯白色或者纯黑色，将文本图像转化成噪声点较少的白底黑字图像；

3.如权利要求1所述的基于OCR的财务报表信息检测和识别方法，其特征在于，所述方法还包括：

4.如权利要求1所述的基于OCR的财务报表信息检测和识别方法，其特征在于，步骤S3中，使用文本检测模型对切分出的子图进行文本检测，定位具体的文本区域，获得文本区域相应的坐标并切分出精确的文本区域子图。

5.如权利要求4所述的基于OCR的财务报表信息检测和识别方法，其特征在于，所述文本检测模型采用CRAFT模型。

6.如权利要求1所述的基于OCR的财务报表信息检测和识别方法，其特征在于，步骤S4中，文本识别采用DenseNet模型生成财务报表领域特殊训练样本并训练模型，对步骤S3中切分出的每一个精确的文本区域子图进行文字内容识别；所述财务报表领域特殊训练样本包含中文、英文、数字、特殊符号。

7.如权利要求1所述的基于OCR的财务报表信息检测和识别方法，其特征在于，步骤S5中，根据步骤S2中获得的数据单元格的位置结果，及步骤S4中获得的文本识别结果，将财务报表表格内容按照行列坐标写入格式化文件中作为最终识别结果。

8.一种实现如权利要求1-7任一项所述的基于OCR的财务报表信息检测和识别方法的信息数据处理终端。

9.一种实现如权利要求1-7任一项所述的基于OCR的财务报表信息检测和识别方法的计算机可读存储介质。