CN112016481B - 基于ocr的财务报表信息检测和识别方法 - Google Patents
基于ocr的财务报表信息检测和识别方法 Download PDFInfo
- Publication number
- CN112016481B CN112016481B CN202010898577.4A CN202010898577A CN112016481B CN 112016481 B CN112016481 B CN 112016481B CN 202010898577 A CN202010898577 A CN 202010898577A CN 112016481 B CN112016481 B CN 112016481B
- Authority
- CN
- China
- Prior art keywords
- text
- line
- financial statement
- horizontal
- table area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000009966 trimming Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims description 19
- 230000000877 morphologic effect Effects 0.000 claims description 7
- 238000005260 corrosion Methods 0.000 claims description 3
- 230000007797 corrosion Effects 0.000 claims description 3
- 230000008961 swelling Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000012795 verification Methods 0.000 abstract description 3
- 238000012015 optical character recognition Methods 0.000 description 21
- 230000007246 mechanism Effects 0.000 description 5
- 238000012550 audit Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本发明涉及财务数据分析技术领域,提供了一种基于OCR的财务报表信息检测和识别方法,包括:对财务报表图像进行图像预处理、财务报表非表格区域信息提取、财务报表表格区域信息提取、文本检测、文本识别、格式化输出、配平校验。本发明首先区分是正常的表格、三线表、无线表;针对不同制表方式,采用不同的区域定位方法快速完成财务要素定位;用文字检测识别方法完成各要素的识别;针对数字混淆、小数点错漏问题,根据会计准则设置科目间配平规则,如OCR结果通过配平校验,才认为输出了正确的识别结果;本发明能大幅提高财务报表处理效率,能确保财务报表表格区域提取的准确性和通用性以及财务报表领域文本识别准确性,具有推广应用价值。
Description
技术领域
本发明涉及财务数据分析技术领域,特别涉及一种基于OCR的财务报表信息检测和识别方法。
背景技术
银行、税务、审计等机构存在大量基于财务报表的数据分析工作。按照财务报表种类的不同,每个财务报表至少有30-200个字段需要录入。手工处理效率低、易出错,与人工手工录入相比,财报OCR技术可直接从财报影像中提取科目、金额等重要数据,帮助银行、税务、审计等提高工作效率,构建自动化的信审***。
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR传统上是指对输入扫描的文档图形进行分析和处理,检测并识别出图像中的文字信息,一般包含了文字检测(Text Detection)和文字识别(Text Recognition)两部分。
实际操作中,由于财务报表制表方式多样以及OCR识别出现容易数字混淆、小数点错漏等问题,市场上存在的财务报表OCR识别***无法输出精确度很高的识别结果。
发明内容
本申请解决的技术问题:
由于财务报表的格式多样复杂,表格区域与非表格区域互相交叠,目前,仍没有一种有效的方法将财务报表里的所有内容进行检测识别并格式化输出。
财务报表制表OCR识别出现容易数字混淆、小数点错漏等问题,市场上存在的财务报表OCR识别***无法输出精确度很高的识别结果。
本申请的整体技术思路:
本发明通过分析财务报表的样式特点,提出了3种主流样式的财务报表分析提取方法,将财务报表的表格和非表格信息分别进行检测和识别,最终将不同区域的内容进行格式化输出。
针对制表多样的问题,首先通过判断图片上的最长的横线两端是否与竖线有交点,区分是正常的表格、三线表、无线表;针对不同的制表方式,采用不同的区域定位方法快速完成财务要素的定位;然后用文字检测识别方法完成各要素的识别。
针对数字混淆、小数点错漏的问题,根据会计准则,设置科目间的配平规则,如OCR结果通过配平校验,才认为输出了正确的识别结果;否则,会继续进行OCR识别,调整识别结果。
本发明采用如下技术方案:
一种基于OCR的财务报表信息检测和识别方法,包括如下步骤:
S1、识别财务报表图像的非表格区域,提取非表格区域信息;
S2、对财务报表图像的表格区域进行细分识别,得到所有的数据单元格,按照所述数据单元格进行子图切分;
S3、对步骤S2中切分出的子图进行文本检测,识别出子图中的文本区域;
S4、对经步骤S3文本识别后的文本区域进行文本识别;
S5、将表格区域和非表格区域的文本识别内容进行排版整合,以结构化的方式输出财务报表信息。
进一步的,在步骤S1之前,对财务报表图像进行图像预处理,所述图像预处理具体为:
S0.1对输入的财务报表图像进行二值化处理:设置阈值,根据每个像素点的色值将其转化为纯白色或者纯黑色,将文本图像转化成噪声点较少的(较为纯净)白底黑字图像;
S0.2对经步骤S0.1处理后的图像进行形态学处理,消除单个字周围毛刺,减少单个字内的空白,使得每个字符成为紧凑的字团;所述形态学处理包括腐蚀、膨胀。
进一步的,所述方法还包括:
S6、根据会计准则设置科目间的配平规则,对步骤S5中输出的财务报表信息进行配平校验,若OCR结果通过配平校验,则输出的为正确识别结果;否则,继续进行OCR识别,调整识别结果。
进一步的,步骤S1中,提取非表格区域信息的具体步骤包括:
S1.1在财务报表图像的水平方向上进行投影,得到图像高度像素数条水平方向的黑色像素累加值,做分布图,并找出累加值接近最大值的多条水平线位置;
S1.2选择最上方的一条水平线为分割非表格区域和表格区域的起始基准线;
S1.3在所述起始基准线上方截取紧邻的一行文字行,在所述终止基准线下方截取紧邻的一行文字行,对文字行进行文本检测和文本识别,得到文字行的内容;
S1.4将识别出的所述起始基准线上方文字行的内容与收集的财务报表术语词数据库的条目进行比对,若不在所述数据库中,则所述起始基准线即为分割表格区域和非表格区域的起始水平线;若在所述数据库中,则起始水平线位置由所述起始基准线位置减去该文字行的高度得到;同样,将识别出的所述终止基准线下方文字行的内容与收集的财务报表术语词数据库的条目进行比对,若不在所述数据库中,则所述终止基准线即为分割表格区域和非表格区域的终止水平线;若在所述数据库中,则终止水平线位置由所述终止基准线位置加上该文字行的高度得到;
S1.5所述起始水平线和终止水平线之间的区域为表格区域,所述表格区域外为非表格区域。
进一步的,步骤S2中,根据不同的财务报表类别,对财务报表图像的表格区域进行对应细分识别及信息提取;
S2.1有横线有竖线的表格区域信息提取:
使用直线段检测算法LSD将表格中的所有直线段检测出来,利用检测出的线段确定表格的基本结构以及每个单元格的区域范围;所述基本结构为表格的行数及列数;
S2.2无横线有竖线的表格区域信息提取:
S2.2.1对表格区域进行水平投影,得到图像高度像素数条水平方向的黑色像素累加值,并做分布图;波谷位置处像素累加值接近0的地方所代表的水平位置即要找的水平表格分割线;
S2.2.2对表格区域进行垂直投影,得到图像宽度像素数条垂直方向的黑色像素累加值,找出累加值接近最大值的多条垂线位置,即要找的垂直表格分割线;
S2.2.3根据水平表格分割线和垂直表格分割线,对表格区域进行数据单元格切分,每2条相邻的水平表格分割线和垂直表格分割线切分出一个数据单元格,得到表格区域每一个数据单元格的四个角坐标并根据坐标切分出对应图片中的数据单元格区域子图;
S2.3无横线无竖线的表格区域信息提取:
S2.3.1对表格区域进行水平投影,得到图像高度像素数条水平方向的黑色像素累加值,并做分布图;波谷位置处像素累加值接近0的地方所代表的水平位置即要找的水平表格分割线;
S2.3.2对表格区域进行垂直投影,得到图像宽度像素数条垂直方向的黑色像素累加值,并做分布图。波谷位置处像素累加值接近0的地方所代表的垂直位置即要找垂直表格分割线;
S2.3.3根据水平表格分割线和垂直表格分割线,对表格区域进行数据单元格切分,每2条相邻的水平表格分割线和垂直表格分割线切分出一个数据单元格,得到表格区域每一个数据单元格的四个角坐标并根据坐标切分出对应图片中的数据单元格区域子图。
进一步的,步骤S3中,使用文本检测模型对切分出的子图进行文本检测,定位具体的文本区域,获得文本区域相应的坐标并切分出精确的文本区域子图。
进一步的,所述文本检测模型采用CRAFT(Character-Region Awareness ForText detection基于字符区域感知的文本检测)模型。
进一步的,步骤S4中,文本识别采用DenseNet(Densely ConnectedConvolutional Networks密集连接卷积网络)模型生成财务报表领域特殊训练样本并训练模型,对步骤S3中切分出的每一个精确的文本区域子图进行文字内容识别;所述财务报表领域特殊训练样本包含中文、英文、数字、特殊符号。
进一步的,步骤S5中,根据步骤S2中获得的数据单元格的位置结果,及步骤S4中获得的文本识别结果,将财务报表表格内容按照行列坐标写入格式化文件中作为最终识别结果。
本发明还提供了一种实现上述的基于OCR的财务报表信息检测和识别方法的计算机程序。一种信息数据处理终端及存储上述计算机程序的计算机可读存储介质。
本发明的有益效果为:本发明方法能大幅提高财务报表处理的效率,能确保财务报表表格区域提取的准确性和通用性以及财务报表领域文本识别的准确性,具有推广应用价值。
附图说明
图1所示为本发明实施例一种基于OCR的财务报表信息检测和识别方法的流程示意图。
具体实施方式
下文将结合具体附图详细描述本发明具体实施例。应当注意的是,下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。
本发明利用图像预处理技术减少噪声并提升图像中有效信息的对比度;对非表格区域进行提取,再使用3种针对主流财务报表表格样式的方法进行表格区域提取,并将表格区域进行细分识别,按照单元格进行子图切分,然后对切分出的非表格区域子图和每一个切分出的表格单元格子图使用文字检测模型进行文本检测,识别出所有切割子图中的文本区域,再使用文本识别模型对所有检测出的文本区域进行文本识别,最后将表格区域和非表格区域识别得到的内容进行排版整合,以结构化的方式输出财务报表信息。
财务报表信息检测和识别,主要通过如下机制来确保财务报表表格区域提取的准确性和通用性以及财务报表领域文本识别的准确性。
a)有横线有竖线的表格区域信息提取机制
b)无横线有竖线的表格区域信息提取机制
c)无横线无竖线的表格区域信息提取机制
d)财务报表领域文本识别机制
如图1所示,本发明实施例一种基于OCR的财务报表信息检测和识别方法,包括如下步骤:
S0、对财务报表图像进行图像预处理,图像预处理的目的在于减少噪声并提升图像中有效信息的对比度。
优选的,具体方法为:
S0.1对输入的财务报表图像进行二值化处理:设置阈值,根据每个像素点的色值将其转化为纯白色或者纯黑色,将文本图像转化成较为纯净的噪声点较少的白底黑字图像,为形态学处理做准备;
S0.2对经步骤S0.1处理后的图像进行形态学处理,消除单个字周围毛刺,减少单个字内的空白,使得每个字符尽量成为紧凑的字团;所述形态学处理包括腐蚀、膨胀。
S1、识别财务报表图像的非表格区域,提取非表格区域信息;
优选的,具体方法为:
S1.1在财务报表图像的水平方向上进行投影,得到图像高度像素数条水平方向的黑色像素累加值,做分布图,并找出累加值接近最大值的多条水平线位置(图像有宽和高,水平长度为宽,垂直长度为高。每个图片有分辨率属性,计为w*h,例如1080*576。图像高度像素数条水平方向指按照高度h水平拆分为h行(每行高度为1),例如576条水平像素行。分布图就是这h条水平方向的像素行的黑色像素个数的累加值的分布。每一条水平方向像素行有w个像素(黑色或白色),例如1080个像素。对每一条水平方向的像素行累加黑色像素的个数(取值范围0~w),则可以画出h条水平方向上每一条的黑色像素累加值的分布图);
S1.2选择最上方的一条水平线为分割非表格区域和表格区域的起始基准线;
S1.3在所述起始基准线上方截取紧邻的一行文字行(分布图波峰周围值较大的位置为文字行),在所述终止基准线下方截取紧邻的一行文字行,对文字行进行文本检测和文本识别(文本检测和识别同步骤S3、S4),得到文字行的内容;
S1.4将识别出的所述起始基准线上方文字行的内容与收集的财务报表术语词数据库的条目进行比对,若不在所述数据库中,则所述起始基准线即为分割表格区域和非表格区域的起始水平线;若在所述数据库中,则起始水平线位置由所述起始基准线位置减去该文字行的高度得到;同样,将识别出的所述终止基准线下方文字行的内容与收集的财务报表术语词数据库的条目进行比对,若不在所述数据库中,则所述终止基准线即为分割表格区域和非表格区域的终止水平线;若在所述数据库中,则终止水平线位置由所述终止基准线位置加上该文字行的高度得到;
S1.5所述起始水平线和终止水平线之间的区域为表格区域,所述表格区域外为非表格区域。
S2、对财务报表图像的表格区域进行细分识别,得到所有的数据单元格,按照所述数据单元格进行子图切分;
优选的,根据不同的财务报表类别,对财务报表图像的表格区域进行对应细分识别及信息提取;
S2.1有横线有竖线的表格区域信息提取:
使用直线段检测算法LSD将表格中的所有直线段检测出来,利用检测出的线段确定表格的基本结构(行数和列数)以及每个单元格的区域范围;
S2.2无横线有竖线的表格区域信息提取:
S2.2.1对表格区域进行水平投影,得到图像高度像素数条水平方向的黑色像素累加值,并做分布图;波谷位置处像素累加值接近0的地方所代表的水平位置即要找的水平表格分割线(波峰周围值较大的位置为文字行);
S2.2.2对表格区域进行垂直投影,得到图像宽度像素数条垂直方向的黑色像素累加值,找出累加值接近最大值的多条垂线位置,即要找的垂直表格分割线(垂直投影,按照宽度w垂直拆分为w列(每列宽度为1)。所以得到的分布图是w*h分辨率的宽度w条(也就是图像宽度像素数条)。每一条垂直方向像素列有h个像素(黑色或白色),例如576个像素。对每一条垂直方向的像素列累加黑色像素的个数(取值范围0~h),则可以画出w条垂直方向上每一条的黑色像素累加值的分布图);
S2.2.3根据水平表格分割线和垂直表格分割线,对表格区域进行数据单元格切分,每2条相邻的水平表格分割线和垂直表格分割线切分出一个数据单元格,得到表格区域每一个数据单元格的四个角坐标并根据坐标切分出对应图片中的数据单元格区域子图;
S2.3无横线无竖线的表格区域信息提取:
S2.3.1对表格区域进行水平投影,得到图像高度像素数条水平方向的黑色像素累加值,并做分布图;波谷位置处像素累加值接近0的地方所代表的水平位置即要找的水平表格分割线(波峰周围值较大的位置为文字列);
S2.3.2对表格区域进行垂直投影,得到图像宽度像素数条垂直方向的黑色像素累加值,并做分布图。波谷位置处像素累加值接近0的地方所代表的垂直位置即要找垂直表格分割线;
S2.3.3根据水平表格分割线和垂直表格分割线,对表格区域进行数据单元格切分,每2条相邻的水平表格分割线和垂直表格分割线切分出一个数据单元格,得到表格区域每一个数据单元格的四个角坐标并根据坐标切分出对应图片中的数据单元格区域子图。
S3、对步骤S2中切分出的子图进行文本检测,识别出子图中的文本区域;
优选的,具体方法为:使用文本检测模型对切分出的子图进行文本检测,定位具体的文本区域,获得文本区域相应的坐标并切分出精确的文本区域子图。
进一步优选,文本检测模型采用CRAFT模型。
S4、对经步骤S3文本识别后的文本区域进行文本识别;
优选的,文本识别采用DenseNet模型生成财务报表领域特殊训练样本(含中文、英文、数字、特殊符号)并训练模型,对步骤S3中切分出的每一个精确的文本区域子图进行文字内容识别;
S5、将表格区域和非表格区域的文本识别内容进行排版整合,以结构化的方式输出财务报表信息。
优选的,根据步骤S2中获得的数据单元格的位置结果,及步骤S4中获得的文本识别结果,将财务报表表格内容按照行列坐标写入格式化文件(如excel等)中作为最终识别结果。
S6、根据会计准则设置科目间的配平规则,对步骤S5中输出的财务报表信息进行配平校验,若OCR结果通过配平校验,则输出的为正确识别结果;否则,继续进行OCR识别,调整识别结果。
作为一个具体实施例,本发明的流程如图1所示。
本发明首先区分是正常的表格、三线表、无线表(也可以扩展到更多的财务报表格式);然后针对不同的制表方式,采用不同的区域定位方法快速完成财务要素的定位;然后用文字检测识别方法完成各要素的识别;针对数字混淆、小数点错漏的问题,根据会计准则,设置科目间的配平规则,如OCR结果通过配平校验,才认为输出了正确的识别结果;本发明方法能大幅提高财务报表处理的效率,能确保财务报表表格区域提取的准确性和通用性以及财务报表领域文本识别的准确性,具有推广应用价值。
本文虽然已经给出了本发明的几个实施例,但是本领域的技术人员应当理解,在不脱离本发明精神的情况下,可以对本文的实施例进行改变。上述实施例只是示例性的,不应以本文的实施例作为本发明权利范围的限定。
Claims (9)
1.一种基于OCR的财务报表信息检测和识别方法,其特征在于,所述方法包括如下步骤:
S1、识别财务报表图像的非表格区域,提取非表格区域信息;
S2、对财务报表图像的表格区域进行细分识别,得到所有的数据单元格,按照所述数据单元格进行子图切分;
S3、对步骤S2中切分出的子图进行文本检测,识别出子图中的文本区域;
S4、对经步骤S3文本识别后的文本区域进行文本识别;
S5、将表格区域和非表格区域的文本识别内容进行排版整合,以结构化的方式输出财务报表信息;
步骤S1中,提取非表格区域信息的具体步骤包括:
S1.1在财务报表图像的水平方向上进行投影,得到图像高度像素数条水平方向的黑色像素累加值,做分布图,并找出累加值接近最大值的多条水平线位置;
S1.2选择最上方的一条水平线和最下方的一条水平线分别为分割非表格区域和表格区域的起始基准线和终止基准线;
S1.3在所述起始基准线上方截取紧邻的一行文字行,在所述终止基准线下方截取紧邻的一行文字行,对文字行进行文本检测和文本识别,得到文字行的内容;
S1.4将识别出的所述起始基准线上方文字行的内容与收集的财务报表术语词数据库的条目进行比对,若不在所述数据库中,则所述起始基准线即为分割表格区域和非表格区域的起始水平线;若在所述数据库中,则起始水平线位置由所述起始基准线位置减去该文字行的高度得到;同样,将识别出的所述终止基准线下方文字行的内容与收集的财务报表术语词数据库的条目进行比对,若不在所述数据库中,则所述终止基准线即为分割表格区域和非表格区域的终止水平线;若在所述数据库中,则终止水平线位置由所述终止基准线位置加上该文字行的高度得到;
S1.5所述起始水平线和终止水平线之间的区域为表格区域,所述表格区域外为非表格区域;
步骤S2中,根据不同的财务报表类别,对财务报表图像的表格区域进行对应细分识别及信息提取,具体包括:
S2.1有横线有竖线的表格区域信息提取:
使用直线段检测算法LSD将表格中的所有直线段检测出来,利用检测出的线段确定表格的基本结构以及每个单元格的区域范围;所述基本结构为表格的行数及列数;
S2.2无横线有竖线的表格区域信息提取:
S2.2.1对表格区域进行水平投影,得到图像高度像素数条水平方向的黑色像素累加值,并做分布图;波谷位置处像素累加值接近0的地方所代表的水平位置即要找的水平表格分割线;
S2.2.2对表格区域进行垂直投影,得到图像宽度像素数条垂直方向的黑色像素累加值,找出累加值接近最大值的多条垂线位置,即要找的垂直表格分割线;
S2.2.3根据水平表格分割线和垂直表格分割线,对表格区域进行数据单元格切分,每2条相邻的水平表格分割线和垂直表格分割线切分出一个数据单元格,得到表格区域每一个数据单元格的四个角坐标并根据坐标切分出对应图片中的数据单元格区域子图;
S2.3无横线无竖线的表格区域信息提取:
S2.3.1对表格区域进行水平投影,得到图像高度像素数条水平方向的黑色像素累加值,并做分布图;波谷位置处像素累加值接近0的地方所代表的水平位置即要找的水平表格分割线;
S2.3.2对表格区域进行垂直投影,得到图像宽度像素数条垂直方向的黑色像素累加值,并做分布图,波谷位置处像素累加值接近0的地方所代表的垂直位置即要找垂直表格分割线;
S2.3.3根据水平表格分割线和垂直表格分割线,对表格区域进行数据单元格切分,每2条相邻的水平表格分割线和垂直表格分割线切分出一个数据单元格,得到表格区域每一个数据单元格的四个角坐标并根据坐标切分出对应图片中的数据单元格区域子图。
2.如权利要求1所述的基于OCR的财务报表信息检测和识别方法,其特征在于,在步骤S1之前,对财务报表图像进行图像预处理,所述图像预处理具体为:
S0.1对输入的财务报表图像进行二值化处理:设置阈值,根据每个像素点的色值将其转化为纯白色或者纯黑色,将文本图像转化成噪声点较少的白底黑字图像;
S0.2对经步骤S0.1处理后的图像进行形态学处理,消除单个字周围毛刺,减少单个字内的空白,使得每个字符成为紧凑的字团;所述形态学处理包括腐蚀、膨胀。
3.如权利要求1所述的基于OCR的财务报表信息检测和识别方法,其特征在于,所述方法还包括:
S6、根据会计准则设置科目间的配平规则,对步骤S5中输出的财务报表信息进行配平校验,若OCR结果通过配平校验,则输出的为正确识别结果;否则,继续进行OCR识别,调整识别结果。
4.如权利要求1所述的基于OCR的财务报表信息检测和识别方法,其特征在于,步骤S3中,使用文本检测模型对切分出的子图进行文本检测,定位具体的文本区域,获得文本区域相应的坐标并切分出精确的文本区域子图。
5.如权利要求4所述的基于OCR的财务报表信息检测和识别方法,其特征在于,所述文本检测模型采用CRAFT模型。
6.如权利要求1所述的基于OCR的财务报表信息检测和识别方法,其特征在于,步骤S4中,文本识别采用DenseNet模型生成财务报表领域特殊训练样本并训练模型,对步骤S3中切分出的每一个精确的文本区域子图进行文字内容识别;所述财务报表领域特殊训练样本包含中文、英文、数字、特殊符号。
7.如权利要求1所述的基于OCR的财务报表信息检测和识别方法,其特征在于,步骤S5中,根据步骤S2中获得的数据单元格的位置结果,及步骤S4中获得的文本识别结果,将财务报表表格内容按照行列坐标写入格式化文件中作为最终识别结果。
8.一种实现如权利要求1-7任一项所述的基于OCR的财务报表信息检测和识别方法的信息数据处理终端。
9.一种实现如权利要求1-7任一项所述的基于OCR的财务报表信息检测和识别方法的计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010898577.4A CN112016481B (zh) | 2020-08-31 | 2020-08-31 | 基于ocr的财务报表信息检测和识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010898577.4A CN112016481B (zh) | 2020-08-31 | 2020-08-31 | 基于ocr的财务报表信息检测和识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016481A CN112016481A (zh) | 2020-12-01 |
CN112016481B true CN112016481B (zh) | 2024-05-10 |
Family
ID=73503171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010898577.4A Active CN112016481B (zh) | 2020-08-31 | 2020-08-31 | 基于ocr的财务报表信息检测和识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016481B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668571A (zh) * | 2020-12-08 | 2021-04-16 | 安徽经邦软件技术有限公司 | 一种基于人工智能ocr技术的财务报表识别*** |
CN112861865B (zh) * | 2021-01-29 | 2024-03-29 | 国网内蒙古东部电力有限公司 | 一种基于ocr技术的辅助审计方法 |
CN114299528B (zh) * | 2021-12-27 | 2024-03-22 | 万达信息股份有限公司 | 一种针对扫描文档的信息提取和结构化方法 |
CN116168409B (zh) * | 2023-04-20 | 2023-07-21 | 广东聚智诚科技有限公司 | 一种应用于标准、专利分析报告自动生成*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866849A (zh) * | 2015-04-30 | 2015-08-26 | 天津大学 | 一种基于移动终端的食品营养成分标签识别方法 |
CN109934181A (zh) * | 2019-03-18 | 2019-06-25 | 北京海益同展信息科技有限公司 | 文本识别方法、装置、设备和计算机可读介质 |
CN110210400A (zh) * | 2019-06-03 | 2019-09-06 | 上海眼控科技股份有限公司 | 一种表格文件检测方法及设备 |
CN110781898A (zh) * | 2019-10-21 | 2020-02-11 | 南京大学 | 一种中文ocr后处理的无监督学习方法 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及*** |
CN111310682A (zh) * | 2020-02-24 | 2020-06-19 | 民生科技有限责任公司 | 一种文本文件表格的通用检测分析及识别方法 |
CN111539415A (zh) * | 2020-04-26 | 2020-08-14 | 梁华智能科技(上海)有限公司 | 一种ocr图像识别的图像处理方法及*** |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5280425B2 (ja) * | 2010-11-12 | 2013-09-04 | シャープ株式会社 | 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体 |
US9235755B2 (en) * | 2013-08-15 | 2016-01-12 | Konica Minolta Laboratory U.S.A., Inc. | Removal of underlines and table lines in document images while preserving intersecting character strokes |
US10366469B2 (en) * | 2016-06-28 | 2019-07-30 | Abbyy Production Llc | Method and system that efficiently prepares text images for optical-character recognition |
-
2020
- 2020-08-31 CN CN202010898577.4A patent/CN112016481B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866849A (zh) * | 2015-04-30 | 2015-08-26 | 天津大学 | 一种基于移动终端的食品营养成分标签识别方法 |
CN109934181A (zh) * | 2019-03-18 | 2019-06-25 | 北京海益同展信息科技有限公司 | 文本识别方法、装置、设备和计算机可读介质 |
CN110210400A (zh) * | 2019-06-03 | 2019-09-06 | 上海眼控科技股份有限公司 | 一种表格文件检测方法及设备 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
CN110781898A (zh) * | 2019-10-21 | 2020-02-11 | 南京大学 | 一种中文ocr后处理的无监督学习方法 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及*** |
CN111310682A (zh) * | 2020-02-24 | 2020-06-19 | 民生科技有限责任公司 | 一种文本文件表格的通用检测分析及识别方法 |
CN111539415A (zh) * | 2020-04-26 | 2020-08-14 | 梁华智能科技(上海)有限公司 | 一种ocr图像识别的图像处理方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN112016481A (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016481B (zh) | 基于ocr的财务报表信息检测和识别方法 | |
CN109241894B (zh) | 一种基于表格定位和深度学习的票据内容识别***和方法 | |
CN110929580A (zh) | 一种基于ocr的财务报表信息快速提取方法及*** | |
CN105654072A (zh) | 一种低分辨率医疗票据图像的文字自动提取和识别***与方法 | |
CN1175699A (zh) | 光学扫描表单识别及更正方法 | |
CN110619326B (zh) | 一种基于扫描的英语试卷作文检测识别***及方法 | |
CN113537227B (zh) | 一种结构化文本识别方法及*** | |
CN111507351B (zh) | 一种古籍文档数字化的方法 | |
CN111178290A (zh) | 一种签名验证方法和装置 | |
CN113569863B (zh) | 一种单据稽查的方法、***、电子设备及存储介质 | |
JP3228938B2 (ja) | 分布マップを用いる画像の分類方法及び装置 | |
CN112560850A (zh) | 基于自定义模板的身份证信息自动提取和真伪校验方法 | |
CN108734849B (zh) | 一种自动化***验真方法及*** | |
CN115240213A (zh) | 表格图像识别方法、装置、电子设备及存储介质 | |
CN115909375A (zh) | 一种基于智能识别的报表分析方法 | |
Colter et al. | Tablext: A combined neural network and heuristic based table extractor | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
Ayesh et al. | A robust line segmentation algorithm for Arabic printed text with diacritics | |
CN111340032A (zh) | 一种基于金融领域应用场景的字符识别方法 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN114998905A (zh) | 一种复杂结构化文档内容的校验方法、装置与设备 | |
CN114529932A (zh) | 一种征信报告识别方法 | |
CN116343237A (zh) | 基于深度学习和知识图谱的票据识别方法 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
CN111291535B (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |