CN114842478A - 文本区域的识别方法、装置、设备及存储介质 - Google Patents
文本区域的识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114842478A CN114842478A CN202210424725.8A CN202210424725A CN114842478A CN 114842478 A CN114842478 A CN 114842478A CN 202210424725 A CN202210424725 A CN 202210424725A CN 114842478 A CN114842478 A CN 114842478A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- preset
- processed
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000001514 detection method Methods 0.000 claims abstract description 59
- 230000011218 segmentation Effects 0.000 claims abstract description 56
- 230000007246 mechanism Effects 0.000 claims abstract description 27
- 238000012015 optical character recognition Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 82
- 108091006146 Channels Proteins 0.000 claims description 44
- 230000004913 activation Effects 0.000 claims description 31
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000003709 image segmentation Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000003287 optical effect Effects 0.000 claims description 8
- 238000013518 transcription Methods 0.000 claims description 7
- 230000035897 transcription Effects 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 230000001788 irregular Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 102100032202 Cornulin Human genes 0.000 description 3
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 3
- 238000005202 decontamination Methods 0.000 description 3
- 230000003588 decontaminative effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本发明涉及人工智能技术领域,应用于智慧政务领域中,提供一种文本区域的识别方法、装置、设备及存储介质,用于提高业务票据关键文本区域的识别准确率。文本区域的识别方法包括:对待处理的业务票据图像进行区域分割并进行方向调整得到预处理后的业务票据图像;通过基于注意力机制的图像分类网络对预处理后的业务票据图像进行文本分布类型分类得到目标文本分布类型信息;通过预置的文本检测网络基于目标文本分布类型信息,对预处理后的业务票据图像进行文本框检测得到目标文本框;通过预置的基于端到端的文本识别网络对目标文本框进行光学字符识别得到文本区域识别信息。此外,本发明还涉及区块链技术,待处理的业务票据图像可存储于区块链中。
Description
技术领域
本发明涉及人工智能的图像检测领域,尤其涉及一种文本区域的识别方法、装置、设备及存储介质。
背景技术
随着计算机视觉等技术的飞速发展,深度学习被越来越多的领域所应用。但与其他场景的文本识别相比,业务票据图像的布局是固定的,其文本分布是非常重要的先验信息。充分利用这些信息可以使业务票据文本识别的精度远远高于其他非规则场景文本识别,因此,利用深度学习进行业务票据图像的识别技术也一直在不断发展。然而,它们都有一些共同的问题:只支持几种类型的业务票据,其泛化程度及其有限;由于实验数据采集方法不足,不支持复杂场景或场景变化后准确度不高。因而,导致了其识别的复杂性,从而导致了业务票据关键文本区域的识别准确率较低。
发明内容
本发明提供一种文本区域的识别方法、装置、设备及存储介质,用于提高业务票据关键文本区域的识别准确率。
本发明第一方面提供了一种文本区域的识别方法,包括:
获取待处理的业务票据图像,对所述待处理的业务票据图像进行区域分割并进行方向调整,得到预处理后的业务票据图像;
通过预置的基于注意力机制的图像分类网络,对所述预处理后的业务票据图像进行文本分布类型分类,得到目标文本分布类型信息;
通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行文本框检测,得到目标文本框;
通过预置的基于端到端的文本识别网络,对所述目标文本框进行光学字符识别,得到文本区域识别信息。
可选的,在本发明第一方面的第一种实现方式中,所述通过预置的基于注意力机制的图像分类网络,对所述预处理后的业务票据图像进行文本分布类型分类,得到目标文本分布类型信息,包括:
通过预置的基于注意力机制的图像分类网络,对所述预处理后的业务票据图像进行矩阵向量的卷积处理,得到卷积处理后的图像特征;
基于所述卷积处理后的图像特征获取通道激活值,并基于所述通道激活值,对所述卷积处理后的图像特征进行原始特征的重标定,得到文本分布类型;
基于所述文本分布类型确定文本分布的位置信息,得到目标文本分布类型信息。
可选的,在本发明第一方面的第二种实现方式中,所述通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行文本框检测,得到目标文本框,包括:
通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行特征图提取,得到业务票据特征图;
对所述业务票据特征图分别进行概率图预测和阈值图预测,得到概率图和阈值图;
基于所述概率图和所述阈值图计算近似二值图,并对所述近似二值图进行旋转矫正,得到目标文本框。
可选的,在本发明第一方面的第三种实现方式中,所述通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行特征图提取,得到业务票据特征图,包括:
通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行特征提取,得到文本分布图像特征;
对所述文本分布图像特征进行上采样融合,得到融合图像特征;
对所述融合图像特征进行连接处理,得到业务票据特征图。
可选的,在本发明第一方面的第四种实现方式中,所述通过预置的基于端到端的文本识别网络,对所述目标文本框进行光学字符识别,得到文本区域识别信息,包括:
通过预置的基于端到端的文本识别网络,对所述目标文本框进行卷积处理,得到文本特征图;
对所述文本特征图进行文字序列特征提取,得到文字序列;
对所述文字序列进行字符转录,得到文本区域识别信息。
可选的,在本发明第一方面的第五种实现方式中,所述获取待处理的业务票据图像,对所述待处理的业务票据图像进行区域分割并进行方向调整,得到预处理后的业务票据图像,包括:
获取待处理的业务票据图像,基于预置的图像分割算法,对所述待处理的业务票据图像进行图像区域分割,得到分割后的图像;
通过预置的计算机视觉软件库,基于预设的图像处理函数,对所述分割后的图像进行图像处理,得到处理后的初始图像;
对所述处理后的初始图像进行像素值判别并进行图像删除,得到处理后的候选图像;
对所述处理后的候选图像进行方向旋转,得到预处理后的业务票据图像。
可选的,在本发明第一方面的第六种实现方式中,所述获取待处理的业务票据图像,基于预置的图像分割算法,对所述待处理的业务票据图像进行图像区域分割,得到分割后的图像,包括:
获取待处理的业务票据图像,基于预置的最大类间方差算法,确定阈值;
通过预设的阈值分割算法,基于所述阈值对所述待处理的业务票据图像进行图像二值化分割,得到分割后的图像。
本发明第二方面提供了一种文本区域的识别装置,包括:
分割调整模块,用于获取待处理的业务票据图像,对所述待处理的业务票据图像进行区域分割并进行方向调整,得到预处理后的业务票据图像;
分类模块,用于通过预置的基于注意力机制的图像分类网络,对所述预处理后的业务票据图像进行文本分布类型分类,得到目标文本分布类型信息;
检测模块,用于通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行文本框检测,得到目标文本框;
识别模块,用于通过预置的基于端到端的文本识别网络,对所述目标文本框进行光学字符识别,得到文本区域识别信息。
可选的,在本发明第二方面的第一种实现方式中,所述分类模块包括:
卷积处理单元,用于通过预置的基于注意力机制的图像分类网络,对所述预处理后的业务票据图像进行矩阵向量的卷积处理,得到卷积处理后的图像特征;
重标定单元,用于基于所述卷积处理后的图像特征获取通道激活值,并基于所述通道激活值,对所述卷积处理后的图像特征进行原始特征的重标定,得到文本分布类型;
确定单元,用于基于所述文本分布类型确定文本分布的位置信息,得到目标文本分布类型信息。
可选的,在本发明第二方面的第二种实现方式中,所述检测模块包括:
提取单元,用于通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行特征图提取,得到业务票据特征图;
预测单元,用于对所述业务票据特征图分别进行概率图预测和阈值图预测,得到概率图和阈值图;
计算矫正单元,用于基于所述概率图和所述阈值图计算近似二值图,并对所述近似二值图进行旋转矫正,得到目标文本框。
可选的,在本发明第二方面的第三种实现方式中,所述提取单元具体用于:
通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行特征提取,得到文本分布图像特征;
对所述文本分布图像特征进行上采样融合,得到融合图像特征;
对所述融合图像特征进行连接处理,得到业务票据特征图。
可选的,在本发明第二方面的第四种实现方式中,所述识别模块具体用于:
通过预置的基于端到端的文本识别网络,对所述目标文本框进行卷积处理,得到文本特征图;
对所述文本特征图进行文字序列特征提取,得到文字序列;
对所述文字序列进行字符转录,得到文本区域识别信息。
可选的,在本发明第二方面的第五种实现方式中,所述分割调整模块包括:
分割单元,用于获取待处理的业务票据图像,基于预置的图像分割算法,对所述待处理的业务票据图像进行图像区域分割,得到分割后的图像;
图像处理单元,用于通过预置的计算机视觉软件库,基于预设的图像处理函数,对所述分割后的图像进行图像处理,得到处理后的初始图像;
删除单元,用于对所述处理后的初始图像进行像素值判别并进行图像删除,得到处理后的候选图像;
旋转单元,用于对所述处理后的候选图像进行方向旋转,得到预处理后的业务票据图像。
可选的,在本发明第二方面的第六种实现方式中,所述分割单元具体用于:
获取待处理的业务票据图像,基于预置的最大类间方差算法,确定阈值;
通过预设的阈值分割算法,基于所述阈值对所述待处理的业务票据图像进行图像二值化分割,得到分割后的图像。
本发明第三方面提供了一种文本区域的识别设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述文本区域的识别设备执行上述的文本区域的识别方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的文本区域的识别方法。
本发明提供的技术方案中,获取待处理的业务票据图像,对所述待处理的业务票据图像进行区域分割并进行方向调整,得到预处理后的业务票据图像;通过预置的基于注意力机制的图像分类网络,对所述预处理后的业务票据图像进行文本分布类型分类,得到目标文本分布类型信息;通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行文本框检测,得到目标文本框;通过预置的基于端到端的文本识别网络,对所述目标文本框进行光学字符识别,得到文本区域识别信息。本发明实施例中,通过待处理的业务票据图像的区域分割、基于注意力机制的图像分类网络的文本分布类型分类、文本检测网络的文本框检测以及基于端到端的文本识别网络的光学字符识别,实现了复杂背景下或场景变化后的业务票据文字及识别,以及不定常文本的读取,降低了对种类繁多的业务票据文本框识别的复杂性,其泛化程度较高,进而提高了业务票据关键文本区域的识别准确率。
附图说明
图1为本发明实施例中文本区域的识别方法的一个实施例示意图;
图2为本发明实施例中文本区域的识别方法的另一个实施例示意图;
图3为本发明实施例中文本区域的识别装置的一个实施例示意图;
图4为本发明实施例中文本区域的识别装置的另一个实施例示意图;
图5为本发明实施例中文本区域的识别设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种文本区域的识别方法、装置、设备及存储介质,提高了业务票据关键文本区域的识别准确率。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
由于业务票据种类繁多,导致了其识别的复杂性,此外,原始图片的质量参差不齐,在实际的识别过程中会存在磨损、畸形、皱纹、字符重叠、倾斜、遮挡、不均匀的照明以及复杂的背景等等问题,导致业务票据关键文本区域的识别准确率较低,因此,本发明提供一种文本区域的识别方法,以提高业务票据关键文本区域的识别准确率。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中文本区域的识别方法的一个实施例包括:
101、获取待处理的业务票据图像,对待处理的业务票据图像进行区域分割并进行方向调整,得到预处理后的业务票据图像。
可以理解的是,本发明的执行主体可以为文本区域的识别装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,待处理的业务票据图像的数量可为一张或一张以上,即本发明提供一种文本区域的识别方法能够对一张待处理的业务票据图像进行文本区域识别,也可对一张以上待处理的业务票据图像进行并列的文本区域识别。
其中,在一种可行的实现方式中,待处理的业务票据图像的数量为一张以上时,待处理的业务票据图像可包括一张以上的不同业务票据类型的票据图像,也可包括一张以上的相同业务票据类型的票据图像。
服务器通过接收移动终端发送的或识别***上传的原始业务票据图像后,对原始业务票据图像进行图像预处理,得到待处理的业务票据图像。
在一种可行的实现方式中,服务器通过接收移动终端发送的或识别***上传的原始业务票据图像后,对原始业务票据图像进行权限验证以及安全性检测,以确保原始业务票据图像的安全性,得到初始检测后的业务票据图像;调用预置的票据对比模板(该票据对比模板可为所有业务票据类型分别对应的模板,也可为设定的统一的一个规范化、标准化模板),基于预设对比需求,与初始检测后的业务票据图像进行对比分析,得到审核后的业务票据图像,其中,预设对比需求包括图像是否存在磨损,图像是否完整、图像字符是否重叠、倾斜、遮挡等;对审核后的业务票据图像进行图像预处理,得到待处理的业务票据图像,其中,图像预处理的实现方式可为现有的图像预处理的各技术手段,也可为设定的图像预处理的技术手段。
在一种可行的实现方式中,服务器获得待处理的业务票据图像后,匹配待处理的业务票据图像对应的目标票据区域模板;基于预置的区域识别算法和预置票据区域模板,对待处理的业务票据图像进行待识别的区域识别和区域分割,得到待识别区域图像,并按照预设的区域图像方向对待识别区域图像进行检测,以获取与预设的区域图像方向不同的待识别区域图像,从而得到待调整区域图像;按照预设的区域图像方向对待调整区域图像进行方向调整,得到预处理后的业务票据图像。
需要说明的是,在一种可行的实现方式中,服务器可调用预置的计算机视觉软件库OpenCV,基于预设的threshold()函数对待处理的业务票据图像进行二值化,以实现对待处理的业务票据图像的区域分割。
102、通过预置的基于注意力机制的图像分类网络,对预处理后的业务票据图像进行文本分布类型分类,得到目标文本分布类型信息。
服务器调用预置的基于注意力机制的图像分类网络,对预处理后的业务票据图像进行文本分布特征的提取,基于文本分布特征确定业务票据的类型,并基于业务票据的类型确定文本分布的位置信息,以实现对预处理后的业务票据图像的文本分布类型分类,从而得到目标文本分布类型信息。其中,基于注意力机制的图像分类网络的具体网络结构在此不做限定。
通过基于注意力机制的图像分类网络进行文本分布类型分类,能够忽略无关信息而关注重点信息,从而提高了文本分布类型分类的准确性,提高了目标文本分布类型信息的质量。
103、通过预置的文本检测网络,基于目标文本分布类型信息,对预处理后的业务票据图像进行文本框检测,得到目标文本框。
服务器调用预置的文本检测网络,基于目标文本分布类型信息,对预处理后的业务票据图像进行特征图提取,得到特征图,对特征图进行文本框识别和提取,从而得到目标文本框,其中,具体的,对特征图进行文本框识别和提取的实现方式,可为对特征图进行文本框特征提取并进行似二值图或者概率图输出,从而得到目标文本框。其中,本发明文本区域的识别方法中的文本检测网络的结构不做限定。
104、通过预置的基于端到端的文本识别网络,对目标文本框进行光学字符识别,得到文本区域识别信息。
服务器调用预置的基于端到端的文本识别网络,对所述目标文本框进行特征图提取,得到文本特征图,对文本特征图进行文本序列特征提取,得到文本序列特征,对文本序列特征进行字符识别和字符转换,得到文本区域识别信息。其中,本发明文本区域的识别方法中的基于端到端的文本识别网络的结构不做限定。
需要说明的是,本发明提供的文本区域的识别方法可运用于智慧政务领域中的政务***的业务票据图像的文本区域的识别。
本发明实施例中,通过待处理的业务票据图像的区域分割、基于注意力机制的图像分类网络的文本分布类型分类、文本检测网络的文本框检测以及基于端到端的文本识别网络的光学字符识别,实现了复杂背景下或场景变化后的业务票据文字及识别,以及不定常文本的读取,降低了对种类繁多的业务票据文本框识别的复杂性,其泛化程度较高,进而提高了业务票据关键文本区域的识别准确率。本方案可应用于智慧政务领域中,从而推动智慧城市的建设。
请参阅图2,本发明实施例中文本区域的识别方法的另一个实施例包括:
201、获取待处理的业务票据图像,对待处理的业务票据图像进行区域分割并进行方向调整,得到预处理后的业务票据图像。
具体的,服务器获取待处理的业务票据图像,基于预置的图像分割算法,对待处理的业务票据图像进行图像区域分割,得到分割后的图像;通过预置的计算机视觉软件库,基于预设的图像处理函数,对分割后的图像进行图像处理,得到处理后的初始图像;对处理后的初始图像进行像素值判别并进行图像删除,得到处理后的候选图像;对处理后的候选图像进行方向旋转,得到预处理后的业务票据图像。
服务器获取待处理的业务票据图像后,基于预置的图像分割算法,对待处理的业务票据图像进行图像区域分割,得到分割后的图像,其中,本发明实施例中的图像分割算法优选为阈值分割算法。具体的,服务器获取待处理的业务票据图像,基于预置的最大类间方差算法,确定阈值;通过预设的阈值分割算法,基于阈值对待处理的业务票据图像进行图像二值化分割,得到分割后的图像。服务器通过预置的最大类间方差算法,按照图像的灰度特性将待处理的业务票据图像分为前景和背景,通过前景和背景确定区域分割的阈值,使得类间方差最大的分割意味着错分概率最小;阈值确定后,将阈值与像素点的灰度值逐个进行比较,分割的结果直接给出图像区域,即通过预设的阈值分割算法,基于阈值对待处理的业务票据图像进行图像二值化分割,得到分割后的图像,其中,阈值分割算法具体如下:T表示阈值,f(i,j)表示待处理的业务票据图像,g(i,j)表示分割后的图像,g(i,j)=1表示业务票据(前景)的图像元素,g(i,j)=0表示背景的图像元素。通过基于阈值对待处理的业务票据图像进行图像二值化分割,提高了待处理的业务票据图像区域分割的准确性,以及便于后续对待处理的业务票据图像的文本区域的识别。
服务器调用预置的计算机视觉软件库OpenCV,基于预设的图像处理函数,对分割后的图像进行图像处理,得到处理后的初始图像,具体的,基于inpaint()函数进行去污处理,基于floodFill()函数进行去黑/白边处理,基于cvtColor()函数进行自动灰度化处理,基于colorFilter()函数)进行颜色过滤处理,基于resize()函数进行图像大小调整,其中,上述的去污处理、去黑/白边处理、自动灰度化处理、颜色过滤处理和图像大小调整可按照预设的处理时序进行处理,例如,先进行去污处理,然后进行去黑/白边处理,然后进行自动灰度化处理,再然后进行颜色过滤处理,最后图像大小调整;也可并列进行处理,例如,并行处理去污处理、去黑/白边处理、自动灰度化处理、颜色过滤处理和图像大小调整。
服务器获取处理后的初始图像的像素值,通过判断处理后的初始图像的像素值是否为预设的空白像素值,以判断处理后的初始图像是否为空白,若是,则将对应的处理后的初始图像删除,若否,则不进行处理,从而实现对处理后的初始图像的像素值判别并进行图像删除,得到处理后的候选图像;检测处理后的候选图像的方向是否为预设方向,若否,则调用计算机视觉软件库OpenCV,基于rotate()函数,对处理后的候选图像进行方向旋转,得到预处理后的业务票据图像,若是,则将对应的处理后的候选图像确定为预处理后的业务票据图像。
通过获取待处理的业务票据图像,基于预置的图像分割算法,对待处理的业务票据图像进行图像区域分割,得到分割后的图像;通过预置的计算机视觉软件库,基于预设的图像处理函数,对分割后的图像进行图像处理,得到处理后的初始图像;对处理后的初始图像进行像素值判别并进行图像删除,得到处理后的候选图像;对处理后的候选图像进行方向旋转,得到预处理后的业务票据图像,统一了并保证了预处理后的业务票据图像的质量,便于后续对预处理后的业务票据图像的文本区域的识别。
202、通过预置的基于注意力机制的图像分类网络,对预处理后的业务票据图像进行矩阵向量的卷积处理,得到卷积处理后的图像特征。
优选的,本发明实施例中基于注意力机制的图像分类网络为(Squeeze-and-Excitation Networks,SENet),SENet能够通过学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征,从而解决现有存在的问题:一般卷积神经网络(Convolutional Neural Networks,CNN)的每个通道学习到的滤波器都对局部感受野进行操作,因此每个特征图都无法利用其它特征图的上下文信息,而且网络较低的层次上其感受野尺寸都是很小的,这样情况就会更严重。SENet主要包括压缩(或者解压)Squeeze和激励Excitation两个操作,可以适用于任何映射。
服务器通过预置的基于注意力机制的图像分类网络,对预处理后的业务票据图像进行矩阵向量转换,得到矩阵向量;调用预置的卷积运算函数,对矩阵向量进行运算,从而得到卷积处理后的图像特征,其中,卷积运算函数具体如下:经过卷积操作后原始输入的矩阵维度发生了变化,其输出(即卷积处理后的图像特征用向量)为U∈H*W*C,用向量表示为U=[u1,u2,…,uC],卷积核为V=[v1,v2,…,vC],vC表示第C个卷积核,X表示矩阵向量,用向量表示为X∈H'*W'*C',X=[x1,x2,…,xC'],H'*W'*C'为矩阵向量,H'、W'表示预处理后的业务票据图像的原始数据矩阵维度,C'表示其特征通道数,*表示卷积操作,表示一个s通道的2D卷积核,xs表示当前通道的输入值。
203、基于卷积处理后的图像特征获取通道激活值,并基于通道激活值,对卷积处理后的图像特征进行原始特征的重标定,得到文本分布类型。
服务器基于卷积处理后的图像特征获取通道激活值的执行过程包括:对卷积处理后的图像特征进行全局平均池化,以实现压缩Squeeze操作,从而得到通道特征,压缩Squeeze操作将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,它代表着在特征通道上响应的全局分布;对通道特征进行降维处理并进行激活函数处理,以实现激活Excitation操作,从而得到通道激活值。
具体的,服务器对卷积处理后的图像特征进行全局平均池化,得到通道特征包括:通过预设的通道的统计信息的计算公式,对卷积处理后的图像特征进行全局平均池化,得到通道特征,其中,通道的统计信息的计算公式具体如下:其中,zC表示基于通道的统计信息,在形式上是由U通过其空间维度H*W收缩而成,池化之后的维度为1*1*C,即通道特征,Fsq表示压缩Squeeze操作,uC表示卷积处理后的图像特征,H、W表示空间维度。
服务器对通道特征进行降维处理并进行激活函数处理,得到通道激活值,包括:通过预置的激活值的计算公式,基于通道特征计算通道激活值,其中,具体的激活值的计算公式如下:S表示通道激活值,Fex表示激活Excitation操作,z表示通道特征,W表示前述数据矩阵的宽度,σ表示sigmoid操作,即g表示sigmoid形式的门选择机制。需要说明的是,同时为了降低模型复杂度以及提升泛化能力,这里采用包含两个全连接层(FC)的结构,其中第一个FC层起到降维的作用,降维系数为r是个超参数,然后采用ReLU激活函数,即f(x)=max(0,x)。因此拆分的两个子矩阵最后的FC层恢复原始的维度。
服务器将通道激活值和卷积处理后的图像特征的原始特征进行相乘,以实现原始特征的重标定,得到标定值,基于标定值确定文本分布类型,即SENet将学习到的各个通道的激活值(sigmoid激活,值0~1,即通道激活值)乘以U上的原始特征,完成在通道维度上的对原始特征的重标定Fscale操作,得到原始特征在C通道上的标定值。具体的,可通过预设的标定值计算公式,对通道激活值和卷积处理后的图像特征进行运算,得到原始特征在C通道上的标定值,基于标定值确定文本分布类型,其中,标定值计算公式具体如下:表示原始特征在C通道上的标定值,Fscale表示通道维度上的对原始特征的重标定操作,uC表示卷积处理后的图像特征,SC表示通道激活值。可将标定值确定为文本分布类型,也可通过标定值匹配对应的文本分布类型。通过基于卷积处理后的图像特征获取通道激活值,并基于通道激活值,对卷积处理后的图像特征进行原始特征的重标定,得到文本分布类型,提高了文本分布类型识别的效率和准确性。
204、基于文本分布类型确定文本分布的位置信息,得到目标文本分布类型信息。
服务器通过SENet的压缩Squeeze操作和激活Excitation操作,获得文本分布类型后,可通过文本分布类型从预置数据库中进行检索匹配,得到文本分布类型对应的业务票据的文本分布的位置信息,从而得到目标文本分布类型信息,目标文本分布类型信息即为文本分布的位置信息。
205、通过预置的文本检测网络,基于目标文本分布类型信息,对预处理后的业务票据图像进行文本框检测,得到目标文本框。
具体的,服务器通过预置的文本检测网络,基于目标文本分布类型信息,对预处理后的业务票据图像进行特征图提取,得到业务票据特征图;对业务票据特征图分别进行概率图预测和阈值图预测,得到概率图和阈值图;基于概率图和阈值图计算近似二值图,并对近似二值图进行旋转矫正,得到目标文本框。
优选的,本发明实施例中的文本检测网络为(Differentiable BinarizationNet,DBNet),DBNet可以在分割网络中执行二值化过程,可以自适应地设置二值化阈值,不仅简化了后处理,而且提高了文本检测的性能。
服务器调用DBNet基于目标文本分布类型信息,对预处理后的业务票据图像进行特征图提取,得到业务票据特征图,具体的,服务器通过预置的文本检测网络,基于目标文本分布类型信息,对预处理后的业务票据图像进行特征提取,得到文本分布图像特征;对文本分布图像特征进行上采样融合,得到融合图像特征;对融合图像特征进行连接处理concat,得到业务票据特征图。
服务器通过业务票据特征图预测出概率图,并基于业务票据特征图预测出阈值图,基于概率图和阈值图计算近似二值图,从而得到初始文本框。服务器调用预置的文本方向分类器,对初始文本框进行方向检测,得到待旋转的文本框,其中,文本方向分类器主要用于图片非0度的场景下,在这种场景下需要对图片里检测到的文本行(即待旋转的文本框)进行一个转正的操作;对待旋转的文本框进行仿射变换(旋转矫正),得到旋转后的文本框;通过文本方向分类器,按照预设的角度对旋转后的文本框进行文字角度的分类,得到目标文本框,其中,预设的角度包括0度、45度、90度、180度和270度。
通过预置的文本检测网络,基于目标文本分布类型信息,对预处理后的业务票据图像进行特征图提取,对业务票据特征图分别进行概率图预测和阈值图预测,基于概率图和阈值图计算近似二值图,并对近似二值图进行旋转矫正,保证了目标文本框的规范性和质量,便于后面基于端到端的文本识别网络的文字识别,提高了业务票据关键文本区域的识别的便捷性和准确性。
206、通过预置的基于端到端的文本识别网络,对目标文本框进行光学字符识别,得到文本区域识别信息。
具体的,服务器通过预置的基于端到端的文本识别网络,对目标文本框进行卷积处理,得到文本特征图;对文本特征图进行文字序列特征提取,得到文字序列;对文字序列进行字符转录,得到文本区域识别信息。
优选的,本发明实施例中的基于端到端的文本识别网络为(ConvolutionalRecurrent Neural Network,CRNN),CRNN包括卷积层、循环网络层和转录层,其中,卷积层为一个普通的卷积神经网络(Convolutional Neural Network,CNN),用于提取输入图像的特征图feature maps,循环网络层为一个深层双向长短期记忆(Long short-term memory,LSTM)网络。
服务器调用卷积层,对目标文本框进行卷积处理,得到文本特征图;调用循环网络层,对文本特征图进行文字序列特征提取,得到文字序列;调用转录层,对文字序列进行归一化指数softmax处理,输出对应的字符,从而得到文本区域识别信息。其中,文本区域识别信息包括业务票据各文本分布的位置信息对应的文本,也可理解为文本区域识别信息的相关票据细节信息,例如,票据的编号、日期、最后付款金额,以及买卖方信息和票据的相关描述等。
通过CRNN对目标文本框进行光学字符识别,提高了业务票据关键文本区域识别的适应性、精度和效率,提高了业务票据关键文本区域的识别准确率。
需要说明的是,本发明提供的文本区域的识别方法可运用于智慧政务领域中的政务***的业务票据图像的文本区域的识别。
本发明实施例中,通过待处理的业务票据图像的区域分割、基于注意力机制的图像分类网络的文本分布类型分类、文本检测网络的文本框检测以及基于端到端的文本识别网络的光学字符识别,实现了复杂背景下或场景变化后的业务票据文字及识别,以及不定常文本的读取,降低了对种类繁多的业务票据文本框识别的复杂性,其泛化程度较高,进而提高了业务票据关键文本区域的识别准确率。本方案可应用于智慧政务领域中,从而推动智慧城市的建设。
上面对本发明实施例中文本区域的识别方法进行了描述,下面对本发明实施例中文本区域的识别装置进行描述,请参阅图3,本发明实施例中文本区域的识别装置一个实施例包括:
分割调整模块301,用于获取待处理的业务票据图像,对待处理的业务票据图像进行区域分割并进行方向调整,得到预处理后的业务票据图像;
分类模块302,用于通过预置的基于注意力机制的图像分类网络,对预处理后的业务票据图像进行文本分布类型分类,得到目标文本分布类型信息;
检测模块303,用于通过预置的文本检测网络,基于目标文本分布类型信息,对预处理后的业务票据图像进行文本框检测,得到目标文本框;
识别模块304,用于通过预置的基于端到端的文本识别网络,对目标文本框进行光学字符识别,得到文本区域识别信息。
上述文本区域的识别装置中各个模块的功能实现与上述文本区域的识别方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,通过待处理的业务票据图像的区域分割、基于注意力机制的图像分类网络的文本分布类型分类、文本检测网络的文本框检测以及基于端到端的文本识别网络的光学字符识别,实现了复杂背景下或场景变化后的业务票据文字及识别,以及不定常文本的读取,降低了对种类繁多的业务票据文本框识别的复杂性,其泛化程度较高,进而提高了业务票据关键文本区域的识别准确率。本方案可应用于智慧政务领域中,从而推动智慧城市的建设。
请参阅图4,本发明实施例中文本区域的识别装置的另一个实施例包括:
分割调整模块301,用于获取待处理的业务票据图像,对待处理的业务票据图像进行区域分割并进行方向调整,得到预处理后的业务票据图像;
分类模块302,用于通过预置的基于注意力机制的图像分类网络,对预处理后的业务票据图像进行文本分布类型分类,得到目标文本分布类型信息;
其中,分类模块302具体包括:
卷积处理单元3021,用于通过预置的基于注意力机制的图像分类网络,对预处理后的业务票据图像进行矩阵向量的卷积处理,得到卷积处理后的图像特征;
重标定单元3022,用于基于卷积处理后的图像特征获取通道激活值,并基于通道激活值,对卷积处理后的图像特征进行原始特征的重标定,得到文本分布类型;
确定单元3023,用于基于文本分布类型确定文本分布的位置信息,得到目标文本分布类型信息;
检测模块303,用于通过预置的文本检测网络,基于目标文本分布类型信息,对预处理后的业务票据图像进行文本框检测,得到目标文本框;
识别模块304,用于通过预置的基于端到端的文本识别网络,对目标文本框进行光学字符识别,得到文本区域识别信息。
可选的,检测模块303包括:
提取单元3031,用于通过预置的文本检测网络,基于目标文本分布类型信息,对预处理后的业务票据图像进行特征图提取,得到业务票据特征图;
预测单元3032,用于对业务票据特征图分别进行概率图预测和阈值图预测,得到概率图和阈值图;
计算矫正单元3033,用于基于概率图和阈值图计算近似二值图,并对近似二值图进行旋转矫正,得到目标文本框。
可选的,提取单元3031还可以具体用于:
通过预置的文本检测网络,基于目标文本分布类型信息,对预处理后的业务票据图像进行特征提取,得到文本分布图像特征;
对文本分布图像特征进行上采样融合,得到融合图像特征;
对融合图像特征进行连接处理,得到业务票据特征图。
可选的,识别模块304还可以具体用于:
通过预置的基于端到端的文本识别网络,对目标文本框进行卷积处理,得到文本特征图;
对文本特征图进行文字序列特征提取,得到文字序列;
对文字序列进行字符转录,得到文本区域识别信息。
可选的,分割调整模块301包括:
分割单元3011,用于获取待处理的业务票据图像,基于预置的图像分割算法,对待处理的业务票据图像进行图像区域分割,得到分割后的图像;
图像处理单元3012,用于通过预置的计算机视觉软件库,基于预设的图像处理函数,对分割后的图像进行图像处理,得到处理后的初始图像;
删除单元3013,用于对处理后的初始图像进行像素值判别并进行图像删除,得到处理后的候选图像;
旋转单元3014,用于对处理后的候选图像进行方向旋转,得到预处理后的业务票据图像。
可选的,分割单元3011还可以具体用于:
获取待处理的业务票据图像,基于预置的最大类间方差算法,确定阈值;
通过预设的阈值分割算法,基于阈值对待处理的业务票据图像进行图像二值化分割,得到分割后的图像。
上述文本区域的识别装置中各模块和各单元的功能实现与上述文本区域的识别方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,通过待处理的业务票据图像的区域分割、基于注意力机制的图像分类网络的文本分布类型分类、文本检测网络的文本框检测以及基于端到端的文本识别网络的光学字符识别,实现了复杂背景下或场景变化后的业务票据文字及识别,以及不定常文本的读取,降低了对种类繁多的业务票据文本框识别的复杂性,其泛化程度较高,进而提高了业务票据关键文本区域的识别准确率。本方案可应用于智慧政务领域中,从而推动智慧城市的建设。
上面图3和图4从模块化功能实体的角度对本发明实施例中的文本区域的识别装置进行详细描述,下面从硬件处理的角度对本发明实施例中文本区域的识别设备进行详细描述。
图5是本发明实施例提供的一种文本区域的识别设备的结构示意图,该文本区域的识别设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对文本区域的识别设备500中的一系列计算机程序操作。更进一步地,处理器510可以设置为与存储介质530通信,在文本区域的识别设备500上执行存储介质530中的一系列计算机程序操作。
文本区域的识别设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作***531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的文本区域的识别设备结构并不构成对文本区域的识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种文本区域的识别设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述文本区域的识别设备执行上述文本区域的识别方法中的步骤。本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行文本区域的识别方法的步骤。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本区域的识别方法,其特征在于,所述文本区域的识别方法包括:
获取待处理的业务票据图像,对所述待处理的业务票据图像进行区域分割并进行方向调整,得到预处理后的业务票据图像;
通过预置的基于注意力机制的图像分类网络,对所述预处理后的业务票据图像进行文本分布类型分类,得到目标文本分布类型信息;
通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行文本框检测,得到目标文本框;
通过预置的基于端到端的文本识别网络,对所述目标文本框进行光学字符识别,得到文本区域识别信息。
2.根据权利要求1所述的文本区域的识别方法,其特征在于,所述通过预置的基于注意力机制的图像分类网络,对所述预处理后的业务票据图像进行文本分布类型分类,得到目标文本分布类型信息,包括:
通过预置的基于注意力机制的图像分类网络,对所述预处理后的业务票据图像进行矩阵向量的卷积处理,得到卷积处理后的图像特征;
基于所述卷积处理后的图像特征获取通道激活值,并基于所述通道激活值,对所述卷积处理后的图像特征进行原始特征的重标定,得到文本分布类型;
基于所述文本分布类型确定文本分布的位置信息,得到目标文本分布类型信息。
3.根据权利要求1所述的文本区域的识别方法,其特征在于,所述通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行文本框检测,得到目标文本框,包括:
通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行特征图提取,得到业务票据特征图;
对所述业务票据特征图分别进行概率图预测和阈值图预测,得到概率图和阈值图;
基于所述概率图和所述阈值图计算近似二值图,并对所述近似二值图进行旋转矫正,得到目标文本框。
4.根据权利要求3所述的文本区域的识别方法,其特征在于,所述通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行特征图提取,得到业务票据特征图,包括:
通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行特征提取,得到文本分布图像特征;
对所述文本分布图像特征进行上采样融合,得到融合图像特征;
对所述融合图像特征进行连接处理,得到业务票据特征图。
5.根据权利要求1所述的文本区域的识别方法,其特征在于,所述通过预置的基于端到端的文本识别网络,对所述目标文本框进行光学字符识别,得到文本区域识别信息,包括:
通过预置的基于端到端的文本识别网络,对所述目标文本框进行卷积处理,得到文本特征图;
对所述文本特征图进行文字序列特征提取,得到文字序列;
对所述文字序列进行字符转录,得到文本区域识别信息。
6.根据权利要求1-5中任一项所述的文本区域的识别方法,其特征在于,所述获取待处理的业务票据图像,对所述待处理的业务票据图像进行区域分割并进行方向调整,得到预处理后的业务票据图像,包括:
获取待处理的业务票据图像,基于预置的图像分割算法,对所述待处理的业务票据图像进行图像区域分割,得到分割后的图像;
通过预置的计算机视觉软件库,基于预设的图像处理函数,对所述分割后的图像进行图像处理,得到处理后的初始图像;
对所述处理后的初始图像进行像素值判别并进行图像删除,得到处理后的候选图像;
对所述处理后的候选图像进行方向旋转,得到预处理后的业务票据图像。
7.根据权利要求6所述的文本区域的识别方法,其特征在于,所述获取待处理的业务票据图像,基于预置的图像分割算法,对所述待处理的业务票据图像进行图像区域分割,得到分割后的图像,包括:
获取待处理的业务票据图像,基于预置的最大类间方差算法,确定阈值;
通过预设的阈值分割算法,基于所述阈值对所述待处理的业务票据图像进行图像二值化分割,得到分割后的图像。
8.一种文本区域的识别装置,其特征在于,所述文本区域的识别装置包括:
分割调整模块,用于获取待处理的业务票据图像,对所述待处理的业务票据图像进行区域分割并进行方向调整,得到预处理后的业务票据图像;
分类模块,用于通过预置的基于注意力机制的图像分类网络,对所述预处理后的业务票据图像进行文本分布类型分类,得到目标文本分布类型信息;
检测模块,用于通过预置的文本检测网络,基于所述目标文本分布类型信息,对所述预处理后的业务票据图像进行文本框检测,得到目标文本框;
识别模块,用于通过预置的基于端到端的文本识别网络,对所述目标文本框进行光学字符识别,得到文本区域识别信息。
9.一种文本区域的识别设备,其特征在于,所述文本区域的识别设备包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;
所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述文本区域的识别设备执行如权利要求1-7中任意一项所述的文本区域的识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述文本区域的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210424725.8A CN114842478A (zh) | 2022-04-22 | 2022-04-22 | 文本区域的识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210424725.8A CN114842478A (zh) | 2022-04-22 | 2022-04-22 | 文本区域的识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842478A true CN114842478A (zh) | 2022-08-02 |
Family
ID=82566739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210424725.8A Pending CN114842478A (zh) | 2022-04-22 | 2022-04-22 | 文本区域的识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842478A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092087A (zh) * | 2023-04-10 | 2023-05-09 | 上海蜜度信息技术有限公司 | Ocr识别方法、***、存储介质及电子设备 |
CN117373030A (zh) * | 2023-06-19 | 2024-01-09 | 上海简答数据科技有限公司 | 一种基于ocr的用户材料识别方法、***、装置及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214385A (zh) * | 2018-08-15 | 2019-01-15 | 腾讯科技(深圳)有限公司 | 数据采集方法、数据采集装置及存储介质 |
CN111931664A (zh) * | 2020-08-12 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 混贴票据图像的处理方法、装置、计算机设备及存储介质 |
CN113011249A (zh) * | 2021-01-29 | 2021-06-22 | 招商银行股份有限公司 | 票据审核方法、装置、设备及存储介质 |
CN113705733A (zh) * | 2021-09-29 | 2021-11-26 | 平安医疗健康管理股份有限公司 | 医疗票据图像处理方法及装置、电子设备、存储介质 |
-
2022
- 2022-04-22 CN CN202210424725.8A patent/CN114842478A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214385A (zh) * | 2018-08-15 | 2019-01-15 | 腾讯科技(深圳)有限公司 | 数据采集方法、数据采集装置及存储介质 |
CN111931664A (zh) * | 2020-08-12 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 混贴票据图像的处理方法、装置、计算机设备及存储介质 |
CN113011249A (zh) * | 2021-01-29 | 2021-06-22 | 招商银行股份有限公司 | 票据审核方法、装置、设备及存储介质 |
CN113705733A (zh) * | 2021-09-29 | 2021-11-26 | 平安医疗健康管理股份有限公司 | 医疗票据图像处理方法及装置、电子设备、存储介质 |
Non-Patent Citations (1)
Title |
---|
钟跃崎: "《人工智能技术原理与应用》", vol. 1, 30 September 2020, 东华大学出版社, pages: 198 - 200 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092087A (zh) * | 2023-04-10 | 2023-05-09 | 上海蜜度信息技术有限公司 | Ocr识别方法、***、存储介质及电子设备 |
CN116092087B (zh) * | 2023-04-10 | 2023-08-08 | 上海蜜度信息技术有限公司 | Ocr识别方法、***、存储介质及电子设备 |
CN117373030A (zh) * | 2023-06-19 | 2024-01-09 | 上海简答数据科技有限公司 | 一种基于ocr的用户材料识别方法、***、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830855B (zh) | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 | |
CN112686812B (zh) | 银行卡倾斜矫正检测方法、装置、可读存储介质和终端 | |
CN110569721A (zh) | 识别模型训练方法、图像识别方法、装置、设备及介质 | |
Tokuda et al. | Computer generated images vs. digital photographs: A synergetic feature and classifier combination approach | |
WO2019089578A1 (en) | Font identification from imagery | |
CN110569878A (zh) | 一种基于卷积神经网络的照片背景相似度聚类方法及计算机 | |
CN111461039B (zh) | 基于多尺度特征融合的地标识别方法 | |
CN113255659B (zh) | 一种基于MSAFF-Yolov3的车牌校正检测识别方法 | |
CN111353491B (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
CN112418278A (zh) | 一种多类物体检测方法、终端设备及存储介质 | |
Zhang et al. | Road recognition from remote sensing imagery using incremental learning | |
CN114842478A (zh) | 文本区域的识别方法、装置、设备及存储介质 | |
CN113361495A (zh) | 人脸图像相似度的计算方法、装置、设备及存储介质 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN112686248B (zh) | 证件增减类别检测方法、装置、可读存储介质和终端 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
Giveki | Scale-space multi-view bag of words for scene categorization | |
CN115775226B (zh) | 基于Transformer的医学图像分类方法 | |
CN112036520A (zh) | 基于深度学习的大熊猫年龄识别方法、装置及存储介质 | |
CN113688821A (zh) | 一种基于深度学习的ocr文字识别方法 | |
CN113673562A (zh) | 一种特征增强的方法、目标分割方法、装置和存储介质 | |
CN114758340A (zh) | 物流地址智能识别方法、装置、设备及存储介质 | |
CN114781548A (zh) | 图像场景分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |