CN111881880A - 一种基于新型网络的票据文本识别方法 - Google Patents
一种基于新型网络的票据文本识别方法 Download PDFInfo
- Publication number
- CN111881880A CN111881880A CN202010792740.9A CN202010792740A CN111881880A CN 111881880 A CN111881880 A CN 111881880A CN 202010792740 A CN202010792740 A CN 202010792740A CN 111881880 A CN111881880 A CN 111881880A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- bill
- image data
- text recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000012795 verification Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000012372 quality testing Methods 0.000 claims abstract description 5
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 238000010923 batch production Methods 0.000 claims description 3
- 230000011514 reflex Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000003702 image correction Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉领域文本识别技术,尤其为一种基于新型网络的票据文本识别方法,其具体步骤如下:步骤110,获取票据的图像数据;步骤120,文本识别数据集的创建;使用文本检测模块得到的文本行图像数据,对文本行图像数据进行录入和质检,将文本标签写入到txt或者文本行图像名中,按照一定比例将数据分成训练集,测试集和验证集;本发明通过设计与常用的文本识别方法相比,本发明借助深度学习中特征提取及图像矫正算法,其泛化性更强,鲁棒性更优,能有效地应对恶劣情况如票据的畸变、透视、打印体墨迹断裂及脏污等情况,通过在不同层级添加BN层,从而使识别的精确度更高。
Description
技术领域
本发明涉及计算机视觉领域文本识别技术,具体设计一种票据文本识别的方法,应用场景为医疗票据的文本识别。
背景技术
OCR识别技术已经成为将纸质文档转换为电子文档的主要手段,该技术能大大便利人们的信息录入工作,将检测模块得到的文本行图像数据归一化到固定高度之后,需要使用通用文字识别技术,将图像对应的文本内容识别出来目前文本行图像数据由于受光照、几何变换、背景、字体、风格、分辨率等的影响,形状纹理尺寸变化多端,对识别工作提出了挑战,因此不能有效地应对恶劣情况如票据的畸变、透视、打印体墨迹断裂及脏污等情况,同时使用时识别的精确度低。
综上所述,本发明通过设计一种票据文本识别的方法来解决存在的问题。
发明内容
本发明的目的在于提供一种基于新型网络的票据文本识别方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于新型网络的票据文本识别方法,其具体步骤如下:
步骤110,获取票据的图像数据;
步骤120,文本识别数据集的创建;使用文本检测模块得到的文本行图像数据,对文本行图像数据进行录入和质检,将文本标签写入到txt或者文本行图像名中,按照一定比例将数据分成训练集,测试集和验证集;
步骤130,构建神经网络模型结构;在步骤120之后,添加了STN网络结构,矫正网络自适应地将输入图像中的文本进行矫正并转换成一个新的图像,以resnet为基础特征提取网络,修改resnet34的模型结构,添加多个BN层。每层卷积层之后都添加了BN层进行归一化处理;
步骤140,模型训练;在步骤130之后,为加速模型初期训练速度,采用Adadelta优化器,按设定的间隔调整学习率,使用验证集上的损失函数作为调整学习率等参数的指标;
步骤150,模型部署及预测推理;导出模型,载入模型和测试数据,进行测试分析,将精度最高的模型部署到实际场景中进行票据的文本识别;
进一步的,所述步骤110获取图像数据的方法为以下五种方法之一:
方法1是用智能手机拍摄得到的图像;
方法2是用扫描仪得到的图像;
方法3是用数码或单反相机拍摄得到的图像;
方法4是打开一个预先存在的包含图像数据的文件夹,批处理该文件夹内所有的图像文件;
方法5是打开一个预先存在的图像文件,读取该文件中的图像数据。
进一步的,所述步骤120文本识别数据集的创建,包括如下步骤:
步骤210,使用文本检测模块得到的文本行图像数据;对文本行图像数据进行录入和质检,将文本标签写入到txt或者文本行图像的名称中;
进一步的,所述步骤130构建神经网络模型结构,具体包括如下步骤:
步骤310,添加了STN网络结构,矫正网络自适应地将输入图像中的文本进行矫正并转换成一个新的图像;
步骤320,以resnet为基础特征提取模块,修改resnet34的模型结构,添加多个BN层,每层卷积层之后都添加了BN层进行归一化处理。
进一步的,所述步骤140模型训练,具体包括如下步骤:
步骤410,使用Adadelta,不用依赖于全局学习率,加速模型初期训练速度;
步骤420,学习率设置方式,按设定的间隔调整学习率;
步骤430,使用验证集上的损失函数作为调整学习率等参数的指标。
进一步的,所述步骤150预测推理及模型部署,具体包括如下步骤:
步骤510,加载训练出来的模型文件和测试图片,开始进行前向传输,得到测试结果;
步骤520,将精度最高的模型部署到实际场景中进行票据文本识别。
与现有技术相比,本发明的有益效果是:
1、本发明中,通过设计与常用的文本识别方法相比,本发明借助深度学习中特征提取及图像矫正算法,其泛化性更强,鲁棒性更优,能有效地应对恶劣情况如票据的畸变、透视、打印体墨迹断裂及脏污等情况。
2、本发明中,通过在不同层级添加BN层,从而使识别的精确度更高。
附图说明
图1为一种票据文本识别方法的总体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:
如图1所示,本发明为一种医疗票据识别的方法,所述方法包括如下步骤:
步骤110,获取票据的图像数据;
步骤120,文本识别数据集的创建;使用文本检测模块得到的文本行图像数据,按照一定比例将数据集分割为训练集、测试集、验证集;
步骤130,构建神经网络模型结构;添加了STN网络结构,矫正网络自适应地将输入图像中的文本进行矫正并转换成一个新的图像,以resnet为基础特征提取模块,修改resnet34的模型结构,添加多个BN层,每层卷积层之后都添加了BN层进行归一化处理;
步骤140,模型训练;开始执行训练,进行迭代计算,并记录日志,可视化分析;
步骤150,模型部署及预测推理;导出模型,载入模型和测试数据,进行测试分析,将精度最高的模型部署到实际场景中进行票据文本识别;
进一步,步骤110获取图像数据的方法可以为以下五种方法之一:
方法1是用智能手机拍摄得到的图像;
方法2是用扫描仪得到的图像;
方法3是用数码或单反相机拍摄得到的图像;
方法4是打开一个预先存在的包含图像数据的文件夹,批处理该文件夹内所有的图像文件;
方法5是打开一个预先存在的图像文件,读取该文件中的图像数据。
步骤120、文本识别数据集创建;步骤120文本识别数据集创建具体包括如下步骤:
步骤210,使用文本检测模块得到的文本行图像数据;
步骤220,按照0.6:0.2:0.2的比例划分数据集,分别对应训练集、验证集、测试集;
步骤130、构建神经网络模型结构,具体包括如下步骤:
步骤310,添加了STN网络结构,矫正网络自适应地将输入图像中的文本进行矫正并转换成一个新的图像;
步骤320,以resnet为基础特征提取模块,修改resnet34的模型结构,添加多个BN层。每层卷积层之后都添加了BN层进行归一化处理;
步骤140、模型训练;具体包括如下步骤:
步骤410,使用Adadelta,不用依赖于全局学习率,加速模型初期训练速度;
步骤420,学习率设置方式,按设定的间隔调整学习率;
步骤430,使用验证集上的损失函数作为调整学习率等参数的指标;
步骤150、预测推理及模型部署;具体包括如下步骤:
步骤510,加载训练出来的模型文件和测试图片,开始进行前向传输,得到测试结果;
步骤520,分析识别结果是否正确,生成测试报告。选取收敛效果最好的模型部署到实际场景中进行票据文本识别。
具体实施案例:
实施例1:
例如,在一般的计算机上,对扫描得到的全国各省市的医疗门(急)诊收费票据进行处理。经过步骤110获得影像的图像数据后,经过步骤120建立训练和验证数据集,步骤130,构建神经网络模型结构,步骤140,模型训练,步骤150,模型部署及预测推理。根据识别结果,结构化输出到excel或json文件中。
实施例2:
例如,在一般的计算机上,对扫描得到的身份证进行处理,使用本发明所述的方法。经过步骤110获得影像的图像数据后,经过步骤120建立训练和验证数据集,步骤130,构建神经网络模型结构,步骤140,模型训练,步骤150,模型部署及预测推理。根据识别结果,结构化输出到excel或json文件中。
实施例3:
例如,在一般的计算机上,对扫描得到的银行单据进行处理,使用本发明所述的方法。经过步骤110获得影像的图像数据后,经过步骤120建立训练和验证数据集,步骤130,构建神经网络模型结构,步骤140,模型训练,步骤150,模型部署及预测推理。根据识别结果,结构化输出到excel或json文件中。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于新型网络的票据文本识别方法,其具体步骤如下:
步骤110,获取票据的图像数据;
步骤120,文本识别数据集的创建;使用文本检测模块得到的文本行图像数据,对文本行图像数据进行录入和质检,将文本标签写入到txt或者文本行图像名中,按照一定比例将数据分成训练集,测试集和验证集;
步骤130,构建神经网络模型结构;在步骤120之后,添加了STN网络结构,矫正网络自适应地将输入图像中的文本进行矫正并转换成一个新的图像,以resnet为基础特征提取网络,修改resnet34的模型结构,添加多个BN层。每层卷积层之后都添加了BN层进行归一化处理;
步骤140,模型训练;在步骤130之后,为加速模型初期训练速度,采用Adadelta优化器,按设定的间隔调整学习率,使用验证集上的损失函数作为调整学习率等参数的指标;
步骤150,模型部署及预测推理;导出模型,载入模型和测试数据,进行测试分析,将精度最高的模型部署到实际场景中进行票据的文本识别。
2.根据权利要求1所述的一种基于新型网络的票据文本识别方法,其特征在于:所述步骤110获取图像数据的方法为以下五种方法之一:
方法1是用智能手机拍摄得到的图像;
方法2是用扫描仪得到的图像;
方法3是用数码或单反相机拍摄得到的图像;
方法4是打开一个预先存在的包含图像数据的文件夹,批处理该文件夹内所有的图像文件;
方法5是打开一个预先存在的图像文件,读取该文件中的图像数据。
3.根据权利要求1或2所述的一种基于新型网络的票据文本识别方法,其特征在于:所述步骤120文本识别数据集的创建,包括如下步骤:
步骤210,使用文本检测模块得到的文本行图像数据;对文本行图像数据进行录入和质检,将文本标签写入到txt或者文本行图像的名称中。
4.根据权利要求1所述的一种基于新型网络的票据文本识别方法,其特征在于:所述步骤130构建神经网络模型结构,具体包括如下步骤:
步骤310,添加了STN网络结构,矫正网络自适应地将输入图像中的文本进行矫正并转换成一个新的图像;
步骤320,以resnet为基础特征提取模块,修改resnet34的模型结构,添加多个BN层,每层卷积层之后都添加了BN层进行归一化处理。
5.根据权利要求1所述的一种基于新型网络的票据文本识别方法,其特征在于:所述步骤140模型训练,具体包括如下步骤:
步骤410,使用Adadelta,不用依赖于全局学习率,加速模型初期训练速度;
步骤420,学习率设置方式,按设定的间隔调整学习率;
步骤430,使用验证集上的损失函数作为调整学习率等参数的指标。
6.根据权利要求1所述的一种基于新型网络的票据文本识别方法,其特征在于:所述步骤150预测推理及模型部署,具体包括如下步骤:
步骤510,加载训练出来的模型文件和测试图片,开始进行前向传输,得到测试结果;
步骤520,将精度最高的模型部署到实际场景中进行票据文本识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010792740.9A CN111881880A (zh) | 2020-08-10 | 2020-08-10 | 一种基于新型网络的票据文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010792740.9A CN111881880A (zh) | 2020-08-10 | 2020-08-10 | 一种基于新型网络的票据文本识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111881880A true CN111881880A (zh) | 2020-11-03 |
Family
ID=73211112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010792740.9A Pending CN111881880A (zh) | 2020-08-10 | 2020-08-10 | 一种基于新型网络的票据文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881880A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114663437A (zh) * | 2022-05-25 | 2022-06-24 | 苏州中科行智智能科技有限公司 | 一种深度学习模型部署方法、设备及介质 |
CN115019327A (zh) * | 2022-06-28 | 2022-09-06 | 珠海金智维信息科技有限公司 | 基于碎片票据分词和Transformer网络的碎片票据识别方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796143A (zh) * | 2019-10-31 | 2020-02-14 | 天津大学 | 一种基于人机协同的场景文本识别方法 |
CN110807455A (zh) * | 2019-09-19 | 2020-02-18 | 平安科技(深圳)有限公司 | 基于深度学习的票据检测方法、装置、设备及存储介质 |
WO2020062299A1 (zh) * | 2018-09-30 | 2020-04-02 | 华为技术有限公司 | 一种神经网络处理器、数据处理方法及相关设备 |
CN111340034A (zh) * | 2020-03-23 | 2020-06-26 | 深圳智能思创科技有限公司 | 一种针对自然场景的文本检测与识别方法及*** |
AU2020101229A4 (en) * | 2020-07-02 | 2020-08-06 | South China University Of Technology | A Text Line Recognition Method in Chinese Scenes Based on Residual Convolutional and Recurrent Neural Networks |
-
2020
- 2020-08-10 CN CN202010792740.9A patent/CN111881880A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020062299A1 (zh) * | 2018-09-30 | 2020-04-02 | 华为技术有限公司 | 一种神经网络处理器、数据处理方法及相关设备 |
CN110807455A (zh) * | 2019-09-19 | 2020-02-18 | 平安科技(深圳)有限公司 | 基于深度学习的票据检测方法、装置、设备及存储介质 |
CN110796143A (zh) * | 2019-10-31 | 2020-02-14 | 天津大学 | 一种基于人机协同的场景文本识别方法 |
CN111340034A (zh) * | 2020-03-23 | 2020-06-26 | 深圳智能思创科技有限公司 | 一种针对自然场景的文本检测与识别方法及*** |
AU2020101229A4 (en) * | 2020-07-02 | 2020-08-06 | South China University Of Technology | A Text Line Recognition Method in Chinese Scenes Based on Residual Convolutional and Recurrent Neural Networks |
Non-Patent Citations (1)
Title |
---|
CHRISTIAN BARTZ等: "STN-OCR: a single neural network for text detection and text recognition", ARXIV:1707.08831[CS.CV], pages 1 - 9 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114663437A (zh) * | 2022-05-25 | 2022-06-24 | 苏州中科行智智能科技有限公司 | 一种深度学习模型部署方法、设备及介质 |
CN115019327A (zh) * | 2022-06-28 | 2022-09-06 | 珠海金智维信息科技有限公司 | 基于碎片票据分词和Transformer网络的碎片票据识别方法及*** |
CN115019327B (zh) * | 2022-06-28 | 2024-03-08 | 珠海金智维信息科技有限公司 | 基于碎片票据分词和Transformer网络的碎片票据识别方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298338B (zh) | 一种文档图像分类方法及装置 | |
CN109543690B (zh) | 用于提取信息的方法和装置 | |
WO2021027336A1 (zh) | 基于***和签名的身份验证方法、装置和计算机设备 | |
CN108717545B (zh) | 一种基于手机拍照的票据识别方法及*** | |
US11087125B2 (en) | Document authenticity determination | |
US8326041B2 (en) | Machine character recognition verification | |
US20200134382A1 (en) | Neural network training utilizing specialized loss functions | |
WO2021042505A1 (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN112052852A (zh) | 一种基于深度学习的手写气象档案资料的字符识别方法 | |
CN113901952A (zh) | 一种基于深度学习的印刷体与手写体分开文字识别方法 | |
CN111881880A (zh) | 一种基于新型网络的票据文本识别方法 | |
CN113592735A (zh) | 文本页面图像还原方法及***、电子设备和计算机可读介质 | |
Jha et al. | Automation of cheque transaction using deep learning and optical character recognition | |
CN113111880A (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN116343237A (zh) | 基于深度学习和知识图谱的票据识别方法 | |
CN111414889A (zh) | 基于文字识别的财务报表识别方法及装置 | |
Shi et al. | An invoice recognition system using deep learning | |
US11715288B2 (en) | Optical character recognition using specialized confidence functions | |
US20220398399A1 (en) | Optical character recognition systems and methods for personal data extraction | |
CN115170414A (zh) | 一种基于知识蒸馏的单幅图像去雨方法及*** | |
CN114332898A (zh) | 连线试题的自动批改方法、装置及存储介质 | |
Ajao et al. | Yoruba handwriting word recognition quality evaluation of preprocessing attributes using information theory approach | |
CN113688834A (zh) | 车票识别方法、车票识别***及计算机可读存储介质 | |
Rani et al. | Quality assessment model for handwritten photo document images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |