CN111814598A

CN111814598A - 一种基于深度学习框架的财务报表自动识别方法

Info

Publication number: CN111814598A
Application number: CN202010571056.8A
Authority: CN
Inventors: 杨玉东; 张丽影; 任昊; 刘春影; 杨茜
Original assignee: Jilin Tong Lian Credit Service Co ltd
Current assignee: Jilin Tong Lian Credit Service Co ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-10-23

Abstract

一种基于深度学***状态；OCR文本自动识别：采用基于深度学习网络的图像识别模型依次识别财务报表图像中的文本所在位置和具体内容，提取出整张表格的信息；基于图像形态学检测表格线，并提取单元格位置坐标；生成Excel文件。本发明能够自动识别财务报表中的文本位置、文本内容以及报表中的表格线，最终输出与原财务报表图像逻辑结构和文本内容相一致的Excel文件，以达到降低财务报表识别成本、提高识别工作效率和准确率的目的。

Description

一种基于深度学习框架的财务报表自动识别方法

技术领域

本发明涉及计算机视觉识别技术领域，具体涉及一种基于深度学习框架的财务报表自动识别方法。

背景技术

随着社会经济的快速发展，企业的发展规模不断扩大，导致其融资需求随之增加，而财务报表数据能够直接、客观地反映企业的经营能力、盈利能力、偿债能力以及成长能力，在企业向银行递交融资申请时，被作为重要的资格审核依据。因此，促使银行对财务报表的识别需求也越来越大。目前，现有的财务报表识别主要是通过人工方式进行，人工识别方法所耗时间成本、人力成本均相对较高，效率低下，且人工识别的长时间重复性操作容易造成疲劳，进而引发误差、疏忽、漏项等问题，致使财务报表识别结果的准确率偏低。

如何准确、高效地识别财务报表，同时避免人工识别成本过高、易疲劳、易疏忽等弊端，是目前亟待解决的技术问题。

发明内容

为解决目前人工识别财务报表存在的成本过高、易疲劳、易疏忽、效率低、准确率低的问题，本发明提出一种基于深度学习框架的财务报表自动识别方法，其能够自动识别财务报表中的文本位置、文本内容以及报表中的表格线，最终输出与原财务报表图像逻辑结构和文本内容相一致的Excel文件，以达到降低财务报表识别成本、提高识别工作效率和准确率的目的。

本发明为解决技术问题所采用的技术方案如下：

本发明的一种基于深度学习框架的财务报表自动识别方法，包括以下步骤：

S1、接收财务报表图像；

S2、基于霍夫直线法对财务报表图像进行图像校正，调整表格至水平状态；

S3、OCR文本自动识别：采用基于深度学习网络的图像识别模型依次识别财务报表图像中的文本所在位置和具体内容，提取出整张表格的信息；

S4、基于图像形态学检测表格线，并提取单元格位置坐标；

S5、生成并输出Excel文件。

进一步的，步骤S1具体包括以下步骤：

S11、准备财务报表文件；

S12、使用Python工具中的OpenCV2算法库接收财务报表图像，并统一转化为png格式文件。

进一步的，步骤S2具体包括以下步骤：

S21、准备训练集数据；

S22、基于霍夫直线法，使用Python工具中的OpenCV2算法库获取财务报表图像中倾斜角度小于45度的直线；

S23、根据获取的直线斜率，计算出平均斜率；

S24、根据平均斜率对财务报表图像进行校正，调整表格至水平状态；

S25、基于测试集数据检验有效校正率，有效校正率为99.6％。

进一步的，步骤S3具体包括以下步骤：

S31、准备训练集数据；

S32、获取不同位置、不同噪声下的单元格图像；

S33、使用Python工具中的TensorFlow和Keras算法库，基于CTPN深度学习网络对文本所在区域进行定位，采用区域坐标的方式标记出单元格图像文本的所在位置，坐标采用五级标识进行定位；

S34、使用Python工具中的TensorFlow和Keras算法库，基于训练集数据建立CRNN神经网络模型，进行中英文及数字的识别，获取相应坐标区域内的文本内容；

S35、基于测试集数据对上述CRNN神经网络模型识别结果进行评估，识别准确率为99.5％。

进一步的，步骤S33中，所述五级标识为角度、横坐标、纵坐标、宽度和高度。

进一步的，步骤S4具体包括以下步骤：

S41、准备训练集数据；

S42、对财务报表图像进行二值化处理，将财务报表图像的灰度值根据阈值进行0，1处理；

S43、使用Python工具中的OpenCV2算法库，构造横、竖两种腐蚀核，对二值图像进行过滤，横向腐蚀核处理得到表格的横线，竖向腐蚀核处理得到表格的竖线，并以矩阵形式进行标记；

S44、对每个像素点所对应的矩阵[r,g,b]进行归一化处理，并分别进行横向矩阵投影处理和纵向矩阵投影处理；

S45、根据得到的行和列，定位财务报表图像中每个单元格的位置，同时，根据生成的行和列与文字所对应的位置与大小进行匹配，若字的位置穿过了某条行，则去除该条行对应的表格线，将相邻两个横向单元格合并为一个单元格；若字的位置穿过了某条列，则去除该条列对应的表格线，将相邻两个纵向单元格合并为一个单元格；

S46、基于测试集数据检验模型识别结果准确率，准确率为99.7％。

进一步的，步骤S5具体包括以下步骤：

S51、根据得到的表格位置信息，使用Python工具的xlwt算法库生成对应的空白Excel文件；

S52、根据已识别的文本位置、文本内容将对应坐标区域内的文本内容填入单元格，并输出Excel文件。

本发明的有益效果是：

1、数据内容详细：能够获得企业财务报表中的全部详细数据。

2、识别结果准确度高：与人工识别相比，其准确度相对较高。其一，计算机自动识别不受工作环境、连续重复作业的影响，有效避免了人工操作易疲劳、易疏忽的弊端，与此同时，在OCR文本识别过程中采用了CTPN算法和CRNN算法，均进一步提高了识别结果的准确度。

3、无需设置模板：在本发明中，不需要用户提前准备识别模板，计算机程序可通过自动分析匹配达到精准识别的目的，还原出一个逻辑结构和原财务报表图像一致的表格。

4、识别工作效率高：本发明识别一页报表平均耗时0.02秒，整个财务报表的识别以及输出Excel文件的处理过程全部由计算机程序自动完成，替代了繁重的人工录入工作，节约了相关人员的工作时间，大大缩减了人力成本，提高整体工作效率。

5、新技术的运用：本发明运用了大数据和深度学***。

附图说明

图1为本发明的一种基于深度学习框架的财务报表自动识别方法的流程图。

图2为财务报表图像示意图。

图3为文本位置定位结果示意图。

图4为单元格识别结果矩阵示意图。图4(a)为所有表格线的横坐标投影，图4(b)为所有表格线的纵坐标投影。

具体实施方式

本发明的一种基于深度学***状态；OCR文本识别包括对财务报表图像中文字所在区域的定位和中英文及数字识别，分别用于检测校正后财务报表图像中的文本位置和识别单元格图像中的文本内容，实现对整张报表信息的提取功能；单元格识别，用于识别财务报表中的表格线，并以矩阵的形式进行标记；最终，依据上述过程识别出的文本位置坐标、文本内容以及表格线位置信息，实现自动生成并输出所述财务报表图像的Excel文件的目标。

如图1所示，本发明的一种基于深度学习框架的财务报表自动识别方法，主要包括以下步骤：

步骤一、接收财务报表图像，具体包括以下步骤：

S11、准备财务报表文件，支持输入pdf、png以及jpg等格式文件，如图2所示；

S12、使用Python工具中的OpenCV2算法库接收财务报表图像，并统一转化为png格式文件，以便进一步处理。

步骤二、基于霍夫直线法对财务报表图像进行图像校正，调整财务报表图像中的表格至水平状态，具体包括以下步骤：

S21、准备训练集数据；

S22、基于霍夫直线法，使用Python工具中OpenCV2算法库获取财务报表图像中倾斜角度小于45度的直线；

S23、根据获取的直线斜率，计算平均斜率；

S24、根据得到的平均斜率对财务报表图像进行校正，调整表格至水平状态；

S25、基于测试集数据检验有效校正率，有效校正率为99.6％。

通过对财务报表图像中的表格进行校正能够有效地避免因表格线扭曲或者倾斜带来的误检影响，提高表格线检测的准确率，进而提高报表识别结果的准确性，并且该方法对有噪声干扰的图像表现出相当好的稳定性和鲁棒性。

步骤三、OCR文本自动识别：采用基于深度学习网络的图像识别模型依次识别财务报表图像中的文本所在位置和具体内容，提取出整张表格的有用信息，具体包括以下步骤：

S31、准备训练集数据；

S32、获取不同位置、不同噪声下的单元格图像；

S33、使用Python工具中的TensorFlow和Keras算法库，基于CTPN深度学习网络对文本所在区域进行定位，采用区域坐标的方式标记出单元格图像文本的所在位置，坐标采用五级标识(角度，横坐标，纵坐标，宽度，高度)进行定位；文本位置定位结果如图3所示，根据上述五级标识坐标，用黑色图块标记出文本所在区域。

其中，CTPN网络提出了Vertical anchor的概念，同时，将LSTM引入到了网络里面，与CNN无缝对接，发挥LSTM的记忆作用，根据前后的anchor序列来提取文本相互之间的关系特征，大大提升了文本行检测的准确度和效率。

除此之外，本发明采用了CRNN算法进行中英文及数字的识别，将CNN与LSTM进行结合，既提取了鲁棒特征，又通过序列识别避免了传统算法中难度极高的单字符切分与单字符识别的问题，同时序列化识别也嵌入时序依赖，进一步提高了文本识别的准确性和效率。

步骤四、基于图像形态学检测表格线，并提取单元格位置坐标，具体包括以下步骤：

S41、准备训练集数据；

S44、对每个像素点所对应的矩阵[r,g,b]进行归一化处理，0为黑色，1为白色，并分别进行横向矩阵投影处理和纵向矩阵投影处理；

单元格识别结果矩阵如图4所示。图4(a)为所有表格线的横坐标投影，图4(b)为所有表格线的纵坐标投影。其中，图4(a)中的X轴取值为表格宽度，Y轴取值方法为：图3中相同X轴值像素点基于S44步骤得到的归一化值相加之和；图4(b)中的X轴取值为表格高度，Y轴取值方法为：图3中相同Y轴值像素点基于S44步骤得到的归一化值相加之和。

步骤五、生成并输出Excel文件，具体包括以下步骤：

1、在本次实验中，识别一页财务报表平均耗时0.02秒，识别速度快、效率高。

2、在本次实验中，实现了自动识别并生成与原财务报表图像逻辑结构及内容相一致的Excel文件的目的，财务报表的整体平均识别准确率高达98.8％，识别结果准确度高。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习框架的财务报表自动识别方法，其特征在于，包括以下步骤：

S1、接收财务报表图像；

S4、基于图像形态学检测表格线，并提取单元格位置坐标；

S5、生成并输出Excel文件。

2.根据权利要求1所述的一种基于深度学习框架的财务报表自动识别方法，其特征在于，步骤S1具体包括以下步骤：

S11、准备财务报表文件；

3.根据权利要求2所述的一种基于深度学习框架的财务报表自动识别方法，其特征在于，步骤S2具体包括以下步骤：

S21、准备训练集数据；

S23、根据获取的直线斜率，计算出平均斜率；

S25、基于测试集数据检验有效校正率，有效校正率为99.6％。

4.根据权利要求3所述的一种基于深度学习框架的财务报表自动识别方法，其特征在于，步骤S3具体包括以下步骤：

S31、准备训练集数据；

S32、获取不同位置、不同噪声下的单元格图像；

5.根据权利要求4所述的一种基于深度学习框架的财务报表自动识别方法，其特征在于，步骤S33中，所述五级标识为角度、横坐标、纵坐标、宽度和高度。

6.根据权利要求4所述的一种基于深度学习框架的财务报表自动识别方法，其特征在于，步骤S4具体包括以下步骤：

S41、准备训练集数据；

7.根据权利要求6所述的一种基于深度学习框架的财务报表自动识别方法，其特征在于，步骤S5具体包括以下步骤：