CN111881880A

CN111881880A - 一种基于新型网络的票据文本识别方法

Info

Publication number: CN111881880A
Application number: CN202010792740.9A
Authority: CN
Inventors: 陈俊霞; 严京旗; 周审章; 卞志强; 张成栋
Original assignee: Jingpu Shanghai Artificial Intelligence Technology Co Ltd
Current assignee: Jingpu Shanghai Artificial Intelligence Technology Co Ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-11-03

Abstract

本发明涉及计算机视觉领域文本识别技术，尤其为一种基于新型网络的票据文本识别方法，其具体步骤如下：步骤110，获取票据的图像数据；步骤120，文本识别数据集的创建；使用文本检测模块得到的文本行图像数据，对文本行图像数据进行录入和质检,将文本标签写入到txt或者文本行图像名中，按照一定比例将数据分成训练集，测试集和验证集；本发明通过设计与常用的文本识别方法相比，本发明借助深度学习中特征提取及图像矫正算法，其泛化性更强，鲁棒性更优，能有效地应对恶劣情况如票据的畸变、透视、打印体墨迹断裂及脏污等情况，通过在不同层级添加BN层，从而使识别的精确度更高。

Description

一种基于新型网络的票据文本识别方法

技术领域

本发明涉及计算机视觉领域文本识别技术，具体设计一种票据文本识别的方法，应用场景为医疗票据的文本识别。

背景技术

OCR识别技术已经成为将纸质文档转换为电子文档的主要手段，该技术能大大便利人们的信息录入工作，将检测模块得到的文本行图像数据归一化到固定高度之后，需要使用通用文字识别技术，将图像对应的文本内容识别出来目前文本行图像数据由于受光照、几何变换、背景、字体、风格、分辨率等的影响，形状纹理尺寸变化多端，对识别工作提出了挑战，因此不能有效地应对恶劣情况如票据的畸变、透视、打印体墨迹断裂及脏污等情况，同时使用时识别的精确度低。

综上所述，本发明通过设计一种票据文本识别的方法来解决存在的问题。

发明内容

本发明的目的在于提供一种基于新型网络的票据文本识别方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于新型网络的票据文本识别方法，其具体步骤如下：

步骤110，获取票据的图像数据；

步骤120，文本识别数据集的创建；使用文本检测模块得到的文本行图像数据，对文本行图像数据进行录入和质检,将文本标签写入到txt或者文本行图像名中，按照一定比例将数据分成训练集，测试集和验证集；

步骤130，构建神经网络模型结构；在步骤120之后，添加了STN网络结构,矫正网络自适应地将输入图像中的文本进行矫正并转换成一个新的图像，以resnet为基础特征提取网络，修改resnet34的模型结构，添加多个BN层。每层卷积层之后都添加了BN层进行归一化处理；

步骤140，模型训练；在步骤130之后，为加速模型初期训练速度,采用Adadelta优化器，按设定的间隔调整学习率，使用验证集上的损失函数作为调整学习率等参数的指标；

步骤150，模型部署及预测推理；导出模型，载入模型和测试数据，进行测试分析，将精度最高的模型部署到实际场景中进行票据的文本识别；

进一步的，所述步骤110获取图像数据的方法为以下五种方法之一：

方法1是用智能手机拍摄得到的图像；

方法2是用扫描仪得到的图像；

方法3是用数码或单反相机拍摄得到的图像；

方法4是打开一个预先存在的包含图像数据的文件夹，批处理该文件夹内所有的图像文件；

方法5是打开一个预先存在的图像文件，读取该文件中的图像数据。

进一步的，所述步骤120文本识别数据集的创建,包括如下步骤：

步骤210，使用文本检测模块得到的文本行图像数据；对文本行图像数据进行录入和质检,将文本标签写入到txt或者文本行图像的名称中；

进一步的，所述步骤130构建神经网络模型结构，具体包括如下步骤：

步骤310，添加了STN网络结构,矫正网络自适应地将输入图像中的文本进行矫正并转换成一个新的图像；

步骤320，以resnet为基础特征提取模块，修改resnet34的模型结构，添加多个BN层，每层卷积层之后都添加了BN层进行归一化处理。

进一步的，所述步骤140模型训练，具体包括如下步骤：

步骤410，使用Adadelta,不用依赖于全局学习率，加速模型初期训练速度；

步骤420，学习率设置方式，按设定的间隔调整学习率；

步骤430，使用验证集上的损失函数作为调整学习率等参数的指标。

进一步的，所述步骤150预测推理及模型部署，具体包括如下步骤：

步骤510，加载训练出来的模型文件和测试图片，开始进行前向传输，得到测试结果；

步骤520，将精度最高的模型部署到实际场景中进行票据文本识别。

与现有技术相比，本发明的有益效果是：

1、本发明中，通过设计与常用的文本识别方法相比，本发明借助深度学习中特征提取及图像矫正算法，其泛化性更强，鲁棒性更优，能有效地应对恶劣情况如票据的畸变、透视、打印体墨迹断裂及脏污等情况。

2、本发明中，通过在不同层级添加BN层，从而使识别的精确度更高。

附图说明

图1为一种票据文本识别方法的总体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例,基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：

如图1所示，本发明为一种医疗票据识别的方法，所述方法包括如下步骤：

步骤110，获取票据的图像数据；

步骤120，文本识别数据集的创建；使用文本检测模块得到的文本行图像数据，按照一定比例将数据集分割为训练集、测试集、验证集；

步骤130，构建神经网络模型结构；添加了STN网络结构,矫正网络自适应地将输入图像中的文本进行矫正并转换成一个新的图像，以resnet为基础特征提取模块，修改resnet34的模型结构，添加多个BN层，每层卷积层之后都添加了BN层进行归一化处理；

步骤140，模型训练；开始执行训练，进行迭代计算，并记录日志，可视化分析；

步骤150，模型部署及预测推理；导出模型，载入模型和测试数据，进行测试分析，将精度最高的模型部署到实际场景中进行票据文本识别；

进一步，步骤110获取图像数据的方法可以为以下五种方法之一：

方法1是用智能手机拍摄得到的图像；

方法2是用扫描仪得到的图像；

方法3是用数码或单反相机拍摄得到的图像；

步骤120、文本识别数据集创建；步骤120文本识别数据集创建具体包括如下步骤：

步骤210，使用文本检测模块得到的文本行图像数据；

步骤220，按照0.6：0.2：0.2的比例划分数据集，分别对应训练集、验证集、测试集；

步骤130、构建神经网络模型结构，具体包括如下步骤：

步骤320，以resnet为基础特征提取模块，修改resnet34的模型结构，添加多个BN层。每层卷积层之后都添加了BN层进行归一化处理；

步骤140、模型训练；具体包括如下步骤：

步骤420，学习率设置方式,按设定的间隔调整学习率；

步骤430，使用验证集上的损失函数作为调整学习率等参数的指标；

步骤150、预测推理及模型部署；具体包括如下步骤：

步骤520，分析识别结果是否正确，生成测试报告。选取收敛效果最好的模型部署到实际场景中进行票据文本识别。

具体实施案例：

实施例1：

例如，在一般的计算机上，对扫描得到的全国各省市的医疗门(急)诊收费票据进行处理。经过步骤110获得影像的图像数据后，经过步骤120建立训练和验证数据集，步骤130，构建神经网络模型结构，步骤140，模型训练，步骤150，模型部署及预测推理。根据识别结果，结构化输出到excel或json文件中。

实施例2：

例如，在一般的计算机上，对扫描得到的身份证进行处理，使用本发明所述的方法。经过步骤110获得影像的图像数据后，经过步骤120建立训练和验证数据集，步骤130，构建神经网络模型结构，步骤140，模型训练，步骤150，模型部署及预测推理。根据识别结果，结构化输出到excel或json文件中。

实施例3：

例如，在一般的计算机上，对扫描得到的银行单据进行处理，使用本发明所述的方法。经过步骤110获得影像的图像数据后，经过步骤120建立训练和验证数据集，步骤130，构建神经网络模型结构，步骤140，模型训练，步骤150，模型部署及预测推理。根据识别结果，结构化输出到excel或json文件中。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于新型网络的票据文本识别方法，其具体步骤如下：

步骤110，获取票据的图像数据；

步骤150，模型部署及预测推理；导出模型，载入模型和测试数据，进行测试分析，将精度最高的模型部署到实际场景中进行票据的文本识别。

2.根据权利要求1所述的一种基于新型网络的票据文本识别方法，其特征在于：所述步骤110获取图像数据的方法为以下五种方法之一：

方法1是用智能手机拍摄得到的图像；

方法2是用扫描仪得到的图像；

方法3是用数码或单反相机拍摄得到的图像；

3.根据权利要求1或2所述的一种基于新型网络的票据文本识别方法，其特征在于：所述步骤120文本识别数据集的创建,包括如下步骤：

步骤210，使用文本检测模块得到的文本行图像数据；对文本行图像数据进行录入和质检,将文本标签写入到txt或者文本行图像的名称中。

4.根据权利要求1所述的一种基于新型网络的票据文本识别方法，其特征在于：所述步骤130构建神经网络模型结构，具体包括如下步骤：

5.根据权利要求1所述的一种基于新型网络的票据文本识别方法，其特征在于：所述步骤140模型训练，具体包括如下步骤：

步骤420，学习率设置方式，按设定的间隔调整学习率；

6.根据权利要求1所述的一种基于新型网络的票据文本识别方法，其特征在于：所述步骤150预测推理及模型部署，具体包括如下步骤：