CN114429636B - 图像扫描识别方法、装置及电子设备 - Google Patents
图像扫描识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114429636B CN114429636B CN202210353468.3A CN202210353468A CN114429636B CN 114429636 B CN114429636 B CN 114429636B CN 202210353468 A CN202210353468 A CN 202210353468A CN 114429636 B CN114429636 B CN 114429636B
- Authority
- CN
- China
- Prior art keywords
- picture
- local picture
- spliced
- current frame
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000001514 detection method Methods 0.000 claims abstract description 189
- 230000008569 process Effects 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims description 33
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 13
- 238000013138 pruning Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 10
- 125000004122 cyclic group Chemical group 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 23
- 238000005070 sampling Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 244000141353 Prunus domestica Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图像扫描识别方法、装置及电子设备,该方法包括:对于当前次迭代,根据掩码区域,与下一帧局部图片进行图像块匹配后进行图像拼接同时更新下次迭代需要的掩码区域;最初掩码区域是基于对初始帧局部图片进行文本检测的结果获取的;对于拼接后的整体图片,若满足预设条件,则进行文本检测,并在文本检测结果满足预设识别条件的情况下,对拼接图片进行文本识别;继续执行下一次迭代,直到扫描笔停止扫描;根据每次迭代过程中得到的拼接图片的文本识别结果,获取扫描笔的图像扫描结果。本发明实现在计算资源和存储资源受限的低配置设备上达到良好实时性的同时,提高了图像拼接和识别的效率和精度。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种图像扫描识别方法、装置及电子设备。
背景技术
随着互联网技术的发展,即时图像扫描设备(如电子扫描笔)已经成为中小学生、甚至大学生们在学习过程中不可缺少的一部分;即时扫描设备主要包含图像拼接、文本检测以及识别技术。
其中,图像拼接技术是即时扫描设备中采集的多张图像,主要是数张有重叠部分的图像(即,在时间间隔比较小,视角变化不大,同一个传感器获得的图像)拼成一副无缝的全景图片或者高分辨率图像的技术。
图像拼接技术主要包含三个部分:特征点提取与匹配、图像配准、图像融合,其中特征点提取主要采用SIFT(Scale-invariant feature transform,尺度不变特征变换)、SURF (Speeded Up Robust Features,加速稳健特征)或者是定向天眼和ORB(OrientedFAST and Rotated BRIEF, 定向快速旋转)算子等来实现,图像配准阶段需要对拼接图片的左边矩阵计算逆变换,在即时图像配准场景下,随着拼接的图片尺寸越来越长,需要计算的矩阵越来越大,计算量越来越大,硬件性能的需求越来越高。
但是,即时扫描设备普遍硬件配置较低,如时扫描设备较为常见的配置为:芯片为RK3326和主频为1.5G的硬件配置。而这种低配置的嵌入式设备,由于其硬件性能受限,随着拼接的图片尺寸越来越长,很容易造成设备性能超限,进而无法实时准确地输出扫描结果。
发明内容
本发明提供一种图像扫描识别方法、装置及电子设备,用以解决现有技术中低配置的嵌入式设备的硬件性能受限,在拼接的图片尺寸过长的情况下,无法实时准确地输出扫描结果的缺陷,实现在低配置的嵌入式设备上,实时准确地输出图像扫描结果。
本发明提供一种图像扫描识别方法,包括:
采集扫描笔扫描的当前帧局部图片,并获取所述当前帧局部图片的掩码区域;
根据所述当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配后拼接,得到所述下一帧局部图片对应的拼接图片,并更新匹配所述下一帧局部图片的掩码区域;
在所述拼接图片满足预设检测条件的情况下,对所述拼接图片进行文本检测,在所述拼接图片的文本检测结果满足预设识别条件的情况下,对所述拼接图片进行文本识别;
将所述下一帧局部图片作为新的当前帧局部图片,继续执行图像块匹配、图片拼接、掩码区域更新、文本检测和文本识别的步骤,直到所述扫描笔停止扫描;
根据每次迭代过程中得到的拼接图片的文本识别结果,获取所述扫描笔的图像扫描的识别结果。
根据本发明提供的一种图像扫描识别方法,所述获取所述当前帧局部图片的掩码区域,包括:
在所述当前帧为起始帧的情况下,对所述当前帧局部图片进行文本检测;
在所述当前帧局部图片的文本检测结果中包含文本检测框的情况下,根据所述当前帧局部图片的文本检测框,获取所述当前帧局部图片的掩码区域;
在所述当前帧为中间帧的情况下,根据所述当前帧局部图片与上一帧局部图片的匹配区域,获取所述当前帧局部图片的掩码区域。
根据本发明提供的一种图像扫描识别方法,所述在所述当前帧为中间帧的情况下,根据所述当前帧局部图片与上一帧局部图片的匹配区域,获取所述当前帧局部图片的掩码区域,包括:
在所述当前帧为中间帧,且所述上一帧局部图片中存在掩码区域的情况下,确定目标图像块的位置是否位于所述当前帧局部图片的右边界;其中,所述目标图像块为所述当前帧局部图片中与上一帧局部图片的掩码区域最匹配的图像块;
在所述目标图像块的位置位于所述当前帧局部图片的右边界的情况下,将所述上一帧局部图片的掩码区域,作为所述当前帧局部图片的掩码区域;
在所述目标图像块的位置不位于所述当前帧局部图片的右边界的情况下,对所述上一帧局部图片的掩码区域进行更新,将更新后的掩码区域作为所述当前帧局部图片的掩码区域。
根据本发明提供的一种图像扫描识别方法,所述根据所述当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配后拼接,得到所述下一帧局部图片对应的拼接图片,包括:
根据所述当前帧局部图片的掩码区域,对所述下一帧局部图片进行图像块匹配,并获取所述下一帧局部图片中与所述当前帧局部图片的掩码区域最匹配的图像块;
在所述下一帧局部图片中最匹配的图像块位于所述下一帧局部图片的右边界的情况下,不进行图片拼接;
在所述下一帧局部图片中最匹配的图像块不位于所述下一帧局部图片的右边界的情况下,根据所述最匹配的图像块,获取所述下一帧局部图片中的待拼接区域;
将所述待拼接区域与所述当前帧局部图片对应的拼接图片进行拼接,得到所述下一帧局部图片对应的拼接图片。
根据本发明提供的一种图像扫描识别方法,所述对所述拼接图片进行文本检测,包括:
将所述拼接图片输入文本检测模型中,得到所述拼接图片的文本检测结果;
其中,所述文本检测模型基于样本图片和所述样本图片的文本检测结果训练获取;
所述文本检测模型基于轻量级神经网络构建生成,包括主干网络和头网络;
所述主干网络,用于对所述拼接图片进行不同尺度的特征提取,得到所述拼接图片的多个不同尺度的第一特征图;
所述头网络,用于对所述多个不同尺度的第一特征图进行融合和学习,得到所述拼接图片的文本检测结果。
根据本发明提供的一种图像扫描识别方法,所述文本检测模型基于如下步骤进行训练获取:
基于所述样本图片和样本图片的文本检测结果对所述文本检测模型进行迭代训练,并在训练过程中基于模型剪枝算法或模型压缩算法对所述文本检测模型进行剪枝,直到满足预设终止训练条件;
其中,所述文本检测模型在训练过程中所采用的学习率包括余弦学习率机制或预热学习率机制。
根据本发明提供的一种图像扫描识别方法,所述对所述拼接图片进行文本识别,包括:
将所述拼接图片输入文本识别模型中,得到所述拼接图片的文本识别结果;
其中,所述文本识别模型基于样本图片和所述样本图片的文本识别结果进行训练获取;
所述文本识别模型基于卷积神经网络、循环神经网络和分类网络构建生成;
所述卷积神经网络,用于对所述拼接图片进行特征提取,得到所述拼接图片的第二特征图;
所述循环神经网络,用于对所述第二特征图进行学习,得到所述拼接图片的类别概率分布;
所述分类网络,用于对所述类别概率分布进行转换,得到所述拼接图片的文本识别结果。
根据本发明提供的一种图像扫描识别方法,所述根据每次迭代过程中得到的拼接图片的文本识别结果,获取所述扫描笔的图像扫描的识别结果,包括:
对每次迭代过程中得到的拼接图片的文本识别结果进行校验;
根据检验结果,获取所述扫描笔的图像扫描的最终识别结果。
本发明还提供一种图像扫描识别装置,包括:
获取模块,用于采集扫描笔扫描的当前帧局部图片,并获取所述当前帧局部图片的掩码区域;
拼接模块,用于根据所述当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配后拼接,得到所述下一帧局部图片对应的拼接图片,并更新匹配所述下一帧局部图片的掩码区域;
检测识别模块,用于在所述拼接图片满足预设检测条件的情况下,对所述拼接图片进行文本检测,在所述拼接图片的文本检测结果满足预设识别条件的情况下,对所述拼接图片进行文本识别;
迭代模块,用于将所述下一帧局部图片作为新的当前帧局部图片,继续执行图像块匹配、图片拼接、掩码区域更新、文本检测和文本识别的步骤,直到所述扫描笔停止扫描;
输出模块,用于根据每次迭代过程中得到的拼接图片的文本识别结果,获取所述扫描笔的图像扫描的识别结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图像扫描识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像扫描识别方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像扫描识别方法。
本发明提供的图像扫描识别方法、装置及电子设备,一方面通过实时获取当前帧局部图片的掩码区域,尺寸不会扩大,从第一帧扫描可以计算得到。每次迭代过程中只需要将上一帧更新得到的掩码区域与当前帧局部图片中的图像块进行模板匹配,即可快速准确地进行图像匹配和图像拼接,进而实时准确地输出图像扫描结果,并且有效降低图片扫描的计算量,进而有效降低对嵌入设备的计算性能需求,可在低配置的嵌入式设备上实现较高的实时性和准确性;另一方面,满足预设检测条件的情况下,用于对所述拼接图片进行文本检测,仅在拼接图片满足预设识别条件的情况下,才会对拼接图片进行识别,不仅可避免对每一帧局部图片进行检测识别带来的冗余计算量,进一步降低扫描过程中的计算量,还可以在扫描结束时,实时准确地输出扫描识别结果,且为了防止边扫描边识别出现错误,还可对拼接的整体图片进行检测识别,以对扫描识别结果进行校验。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的图像扫描识别方法的流程示意图之一;
图2是本发明提供的图像扫描识别方法中文本检测网络的结构示意图;
图3是本发明提供的图像扫描识别方法中文本检测网络中主干网络的结构示意图;
图4是本发明提供的图像扫描识别方法中主干网络的bneck模块的结构示意图;
图5是本发明提供的图像扫描识别方法中文本识别的结构示意图;
图6是本发明提供的图像扫描识别方法的流程示意图之二;
图7是本发明提供的图像扫描识别装置的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图和实施例,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本实施例中的术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
随着互联网技术的发展,扫描技术也随之应用而生,如印刷字体的OCR(OpticalCharacter Recognition,光学字符识别)技术现在已经相当成熟。腾讯Tim办公软件手机版自带图像文本提取功能;Microsoft Office lens工具也具备扫描功能。虽然,上述扫描技术可以对打印字体识别进行准确识别。但是,在即时扫描设备中,如何能实时扫描完一段文字,即时输出扫描的结果,尤其是即时扫描设备普遍硬件配置较低,如芯片为RK3326,主频只有1.5G的硬件配置,是目前业界亟待解决的问题。
针对上述问题,本实施例提出一种图像扫描识别方法,如图1所示,该图像扫描识别方法包括:
步骤101,采集扫描笔扫描的当前帧局部图片,并获取所述当前帧局部图片的掩码区域;
其中,局部图片可以是包含各种类型的文本信息的待扫描图片的部分图片,如待扫描图片为包含生物领域和医学领域等其他领域文本信息的图片。
当前帧局部图片可以是初始扫描的初始帧局部图片,也可以是中间扫描的中间帧局部图片等,本实施例对此不做具体地限定。
可选地,在扫描笔开始对目标图片进行扫描时,启动摄像头对扫描笔扫描的局部图片进行采集;局部图片包括无文本的局部图片、某一段或一个文字的1/3、1/2部分的图片等,本实施例对此不作具体地限定。
在获取到当前帧局部图片后,若当前帧局部图片为初始扫描的初始帧局部图片,则可以根据当前帧局部图片中的文本检测框,确定当前帧局部图片的掩码区域;若当前帧局部图片为中间扫描的中间帧局部图片,且上一帧局部图片存在掩码区域,则可以根据当前帧局部图片中与上一帧局部图片的掩码区域计算最佳匹配的图像块,确定当前帧局部图片的掩码区域;本实施例对掩码区域的具体获取方式不做具体地限定。
其中,掩码区域即为当前帧局部图片中有效文本所在的区域。因此,通过当前帧局部图片的掩码区域可快速准确地实现图片匹配和图片拼接。
步骤102,根据所述当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配后拼接,得到所述下一帧局部图片对应的拼接图片,并更新匹配所述下一帧局部图片的掩码区域。
可选地,在确定所述当前帧局部图片的掩码区域之后,根据当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配,得到下一帧局部图片中与当前帧局部图片的掩码区域最匹配的图像块;
其中,图像块匹配的方式包括标准平方差匹配和最小加权平方差匹配等,本实施例对此不作具体地限定。
然后,根据最匹配的图像块,确定是否进行图片拼接;在需要进行图片拼接时,根据最匹配的图像块,对当前帧局部图片对应的拼接图片和下一帧局部图片进行拼接,得到下一帧图片对应的拼接图片,并同步更新下一帧局部图片的掩码区域。
本实施例通过掩码区域,对下一帧局部图片进行图像块匹配和拼接,在每次匹配和拼接的过程中,只需要将当前帧局部图片的掩码区域与下一帧局部图片中的各图像块进行简单的模板匹配,即可实现对图像匹配和图像拼接,有效缓解经典的图像拼接算法中,随着拼接图像尺寸的增大,,需要对拼接图片的左边矩阵进行逆变换的计算量变大,导致低配置的嵌入式设备无法满足大量计算的问题,可实时准确地对图片进行匹配和拼接,进而实时准确地输出图像扫描结果。
步骤103,在所述拼接图片满足预设检测条件的情况下,对所述拼接图片进行文本检测,在所述拼接图片的文本检测结果满足预设识别条件的情况下,对所述拼接图片进行文本识别;
其中,预设检测条件包括拼接图片的长度是否满足预设值或者是否满足预设帧间隔,如每间隔45个像素对拼接好的图片检测一次,本实例对此不作具体地限定。
预设识别条件包括拼接图片中存在新增文本或拼接过程中出现的匹配阈值小于预设值等,本实施例对此不作具体地限定。
可选地,在获取到拼接图片后,确定拼接图片是否满足预设检测条件,在满足预设检测条件的情况下,对拼接图片进行文本检测,在根据文本检测结果确定,拼接图片满足预设识别条件的情况下,对拼接图片进行文本识别;
若不满足预设检测条件或预设识别条件的情况下,则不对拼接图片进行文本检测进而也不执行文本识别操作。
由于部分相邻帧之间存在较高的重合度,而这些重合度较高的相邻帧对整个图片拼接和图像识别没有实质贡献,反而会带来冗余的计算量。因此,针对这种情况下,在拼接图片不满足预设检测条件,或根据文本检测结果确定拼接图片中不存在新增文本,即拼接前后图片的文本内容重合度较高的情况下,不对拼接图片进行文本识别,避免对每一帧局部图片进行识别,可有效提高图像识别的效率。相比于对每一帧局部图片进行匹配识别,速度至少能提升3到4倍。
步骤104,将所述下一帧局部图片作为新的当前帧局部图片,继续执行图像块匹配、图片拼接、掩码区域更新、文本检测和文本识别的步骤,直到所述扫描笔停止扫描;
可选地,在当前次迭代完成的情况下,继续进行下一次迭代,具体将下一帧局部图片作为新的当前帧局部图片,继续执行上述图像块匹配、图片拼接、掩码区域更新、文本检测和文本识别的步骤,直到扫描笔停止扫描任务,以最后得到完整拼接的图片。
其中,每一局部图片中仅包含目标图片中某一段或某一个文字的部分区域,如,部分局部图片包括“多生”文字所在区域的部分区域(如仅包含“生”所在区域的1/2区域),部分局部图片也包含“多生”文字所在区域的部分区域(如仅包含“生”所在区域的3/4区域),将这两部局部图片进行组合,即可得到包含“多生”文字的完整区域。
步骤105,根据每次迭代过程中得到的拼接图片的文本识别结果,获取所述扫描笔的图像扫描的识别结果。
可选地,在获取到每次迭代过程中得到的拼接图片的文本识别结果后,可以直接将每次迭代过程中得到的拼接图片的文本识别结果作为扫描笔的图像扫描结果,也可以对每次迭代过程中得到的拼接图片的文本识别结果进行校验后作为扫描笔的图像扫描结果,本实施例对此不作具体地限定。
在扫描笔停止扫描时,可实时输出图像扫描结果,具有边扫描边输出的实时性能。
本实施例中一方面通过实时获取当前帧局部图片的掩码区域,不论拼接图片的尺寸是否增大,每次迭代过程中只需要将上一帧更新得到的掩码区域与当前帧局部图片中的图像块进行模板匹配,即可快速准确地进行图像匹配和图像拼接,进而实时准确地输出图像扫描结果,并且有效降低图片扫描的计算量,进而有效降低对嵌入设备的计算性能需求,可在低配置的嵌入式设备上实现较高的实时性和准确性;另一方面,满足预设检测条件的情况下,用于对所述拼接图片进行文本检测,仅在拼接图片满足预设识别条件的情况下,才会对拼接图片进行检测识别,不仅可避免对每一帧局部图片进行识别带来的冗余计算量,进一降低扫描过程中的计算量,还可以在扫描结束时,实时准确地输出扫描识别结果,且为了防止边扫描边识别出现错误,还可对拼接的整体图片进行检测识别,以对扫描识别结果进行校验。
在上述实施例的基础上,本实施例中所述所述获取所述当前帧局部图片的掩码区域,包括:在所述当前帧为起始帧的情况下,对所述当前帧局部图片进行文本检测;在所述当前帧局部图片的文本检测结果中包含文本检测框的情况下,根据所述当前帧局部图片的文本检测框,获取所述当前帧局部图片的掩码区域;在所述当前帧为中间帧的情况下,根据所述当前帧局部图片与上一帧局部图片的匹配区域,获取所述当前帧局部图片的掩码区域。
可选地,步骤101中获取当前帧局部图片的掩码区域的步骤具体包括:
其中,由于当前帧局部图片可能是初始扫描的起始图片,也可能是中间扫描的图片,无法获知当前帧局部图片的上一帧局部图片的掩码区域是否存在。
例如,当前帧局部图片为扫描笔开始扫描的第一帧局部图片时,其上一帧局部图片不存在,则上一帧局部图片的掩码区域自然也就不存在;当前帧局部图片为第二帧局部图片的情况下,若其上一帧局部图片的掩码区域不存在,则无法根据上一帧局部图片的掩码区域更新获取当前帧局部图片。
因此,需要先判断当前帧是否为起始帧或中间帧,在当前帧为起始帧的情况下,启动文本检测,对当前帧局部图片进行文本检测,并确定当前帧局部图片的文本检测结果中是否包含文本检测框,在当前帧局部图片的文本检测结果中包含文本检测框的情况下,表明当前帧局部图片中包含文本信息,可根据文本检测框确定当前帧局部图片的掩码区域;
在当前帧局部图片的文本检测结果中不包含文本检测框的情况下,不进行拼接操作,并继续对下一帧局部图片进行文本检测,直到找到存在检测框的局部图片后,才开始进行后续的扫描识别步骤,如掩码区域获取、图像块匹配、图片拼接、文本检测和文本识别等步骤。
在当前帧为中间帧的情况下,判断上一帧局部图片中是否包含掩码区域;若判断上一帧局部图片中不包含掩码区域的情况下,则表明当前帧局部图片之前的多帧局部图片中均不存在包含文本信息的有效区域;
此时,需要对当前帧局部图片进行文本检测,并确定当前帧局部图片的文本检测结果中是否包含文本检测框,在当前帧局部图片的文本检测结果中包含文本检测框的情况下,表明当前帧局部图片中包含文本信息,可根据文本检测框确定当前帧局部图片的掩码区域。
具体根据文本检测框确定当前帧局部图片的掩码区域的方法包括,将文本检测框所在的部分区域或全部区域作为当前帧局部图片的掩码区域,与下一帧局部图片进行图像块匹配。
在当前帧局部图片的文本检测结果中不包含文本检测框的情况下,继续对下一帧局部图片进行文本检测,直到找到存在检测框的局部图片后,才开始进行后续的扫描识别步骤,如掩码区域获取、图像块匹配、图片拼接、文本检测和文本识别等步骤。
在上一帧局部图片中包含掩码区域的情况下,根据当前帧局部图片与上一帧局部图片的匹配区域,获取当前帧局部图片的掩码区域。
本实施例在当前帧图片的上一帧局部图片中不包含掩码区域的情况下,只有在检测到当前帧图片中存在文本检测框的情况下,才执行后续的扫描识别步骤,有效避免对不包含文本信息的无效局部图片进行扫描识别带来的冗余计算开销和时间开销,有效提高整体图片拼接的效率,以在快速实现局部图片拼接的同时,保证拼接得到的全景图像的准确率高,并且能提升图像拼接的效率,即能实时地扫描输入停止,扫描结果即时输出,或者是边扫描边输出这样的性能。
在上述实施例的基础上,本实施例中所述在所述当前帧为中间帧的情况下,根据所述当前帧局部图片与上一帧局部图片的匹配区域,获取所述当前帧局部图片的掩码区域,包括:在所述当前帧为中间帧,且所述上一帧局部图片中存在掩码区域的情况下,确定目标图像块的位置是否位于所述当前帧局部图片的右边界;其中,所述目标图像块为所述当前帧局部图片中与上一帧局部图片的掩码区域最匹配的图像块;在所述目标图像块的位置位于所述当前帧局部图片的右边界的情况下,将所述上一帧局部图片的掩码区域,作为所述当前帧局部图片的掩码区域;在所述目标图像块的位置不位于所述当前帧局部图片的右边界的情况下,对所述上一帧局部图片的掩码区域进行更新,将更新后的掩码区域作为所述当前帧局部图片的掩码区域。
其中,目标图像块为当前帧局部图片中与上一帧局部图片的掩码区域的匹配程度最高的图像块。可选地,在当前帧局部图片的上一帧局部图片中存在掩码区域的情况下,需要获取当前帧局部图片中与上一帧局部图片中的掩码区域最匹配的目标图像块;
并确定目标图像块的位置是否位于当前帧局部图片的右边界,若目标图像块位于当前帧局部图片的右边界,则表明当前帧局部图片与上一帧局部图片的重叠度较高,可直接将上一帧局部图片的掩码区域,作为当前帧局部图片的掩码区域,不对掩码区域进行更新;
若目标图像块不位于当前帧局部图片的右边界,则当前帧局部图片与上一帧局部图片存在一定的区别,若继续采用上一帧局部图片的掩码区域进行图片匹配和拼接,则很难准确获取准确的匹配精度和拼接精度,进而影响扫描识别效果。
针对上述问题,需要根据目标图像块,对上一帧局部图片的掩码区域进行更新,以获取当前帧局部图片的掩码区域,具体可以将目标图像块所在的部分或全部区域作为当前帧局部图片的掩码区域,以对当前拼接任务所需的掩码区域进行实时更新,提高图像匹配和拼接的准确性。
本实施例在当前帧局部图片的上一帧局部图片中包含掩码区域的情况下,根据当前帧局部图片的目标图像块的位置,以实时获取当前帧局部图片的掩码区域,进而使得图像匹配和拼接的准确性更高。
在上述各实施例的基础上,本实施例中所述根据所述当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配后拼接,得到所述下一帧局部图片对应的拼接图片,包括:根据所述当前帧局部图片的掩码区域,对所述下一帧局部图片进行图像块匹配,并获取所述下一帧局部图片中与所述当前帧局部图片的掩码区域最匹配的图像块;在所述下一帧局部图片中最匹配的图像块位于所述下一帧局部图片的右边界的情况下,不进行图片拼接;在所述下一帧局部图片中最匹配的图像块不位于所述下一帧局部图片的右边界的情况下,根据所述最匹配的图像块,获取所述下一帧局部图片中的待拼接区域;将所述待拼接区域与所述当前帧局部图片对应的拼接图片进行拼接,得到所述下一帧局部图片对应的拼接图片。
可选地,步骤102中的图像块匹配和拼接的步骤具体包括,在获取到当前帧局部图片的掩码区域后,基于掩码区域,对下一帧局部图片进行图像块匹配,获取下一帧局部图片中最匹配的图像块;
确定最匹配的图像块在下一帧局部图片中的位置,在最匹配的图像块位于下一帧局部图片的右边界的情况下,表明当前帧局部图片与下一帧局部图片的重叠度较高,则下一帧局部图片为冗余图片,不会对整体拼接结果以及识别结果造成影响,因此可忽略下一帧局部图片,不进行图片拼接。
在最匹配的图像块不位于下一帧局部图片的右边界,则当前帧局部图片与上一帧局部图片存在一定的区别,即对整体拼接结果以及识别结果有较大的影响;可根据最匹配的图像块,确定下一帧局部图片中的待拼接区域,具体将最匹配的图像块所在区域右边所有的区域作为待拼接区域,并将待拼接区域拼接到当前帧局部图片对应的拼接图片的后面,得到下一帧局部图片对应的拼接图片。
由于扫描速度会根据不同人的扫描情况而定,输入的局部图片有可能几帧之间及其相似,或者是虽然有一直有扫描图片进来,但是扫描图片完全不同;而当部分相邻帧局部图片之间的重叠度较高时,这些重叠度较高的相邻帧局部图片互为冗余,若对每一帧进行拼接,则会造成拼接图片冗余度较高,文本检测和文本识别过程中需要大量的冗余计算成本,不仅计算效率低,且扫描识别结果中存在大量冗余,导致扫描识别结果不准确的问题;而本实施例根据下一帧局部图片中最匹配的图像块的位置,确定是否对图片进行拼接,若存在实际对整体的拼接好的图没有贡献的局部图片,则一直等待,直到有新的数据进来再进行匹配与拼接,以避免冗余图片的拼接和扫描识别,有效提高拼接和识别的效率以及准确性,并且可大大减少扫描过程中的计算量。
在上述实施例的基础上,本实施例中所述对所述拼接图片进行文本检测,包括:将所述拼接图片输入文本检测模型中,得到所述拼接图片的文本检测结果;其中,所述文本检测模型基于样本图片和所述样本图片的文本检测结果训练获取;所述文本检测模型基于轻量级神经网络构建生成,包括主干网络和头网络;所述主干网络,用于对所述拼接图片进行不同尺度的特征提取,得到所述拼接图片的多个不同尺度的第一特征图;所述头网络,用于对所述多个不同尺度的第一特征图进行融合和学习,得到所述拼接图片的文本检测结果。
其中,文本检测网络基于轻量级神经网络构建生成,如可微分二值网络(Differentiable Binarization,DBnet)等,本实施例对此不作具体地限定。
如图2所示,文本检测网络包括主干网络和头网络(Head网络);
其中,主干网络的网络结构采用轻量级网络结构,如ResNet18(Residual NeuralNetwork,残差网络)、MobileNet系列或者是ShuffleNet系列等,本实施例对此不做具体地限定。
其中,MobileNet为专注于移动端或者嵌入式设备中的轻量级CNN网络;ShuffleNet利用分组逐点卷积和通道重排两种新的运算方法,专门为计算能力非常有限的移动设备而设计的。
以下以主干网络的网络结构采用MobileNetV3(small)为例进行展开说明。
如图3所示,MobileNetV3-small的网络结构依次为:卷积层、多个bneck(瓶颈)模块、卷积层、池化层(Pooling)层和全连接层。
如图4所示,bneck模块包含卷积层、归一化层、非线性层、卷积层、归一化层、非线性层、卷积层、归一化层、SE(Squeeze and Excitation,压缩和提取)层等。
主干网络用于对输入的拼接图片进行不同尺度的特征提取,即对拼接图片进行下采样,并得到拼接图片的多个不同尺度的第一特征图,如将原始拼接图片进行特征提取,得到的多个不同尺度的特征图的尺度分别为原始拼接图片的1/2、1/4、1/8、1/16和1/32等,本实施例对此不做具体地限定。
Head网络中包含多个上采样层,用于对主干网络输出的多个不同尺度的第一特征图进行上采样;
上采样层的上采样比例可以根据实际需求进行设置,如比例为原始图像的8倍、4倍和2倍等;
其中,任一上采样层的下一层输入由该上采样层输出的特征图和将该上采样层所属的上采样模块对应的下采样模块输出的特征图输入金字塔池化层后输出的特征图融合获取,所述上采样模块与下采样模块预先一一对应。
Head网络还包括融合模块,用于将多个上采样层输出的特征图进行融合,得到融合的特征图;
具体融合方式为,对多个上采样层输出的特征图进行卷积和/或上采样之后,以对多个上采样层输出的特征图进行整型,得到相同尺度的特征图后,再将多个特征图进行融合。其中,卷积核的大小可以根据实际需求进行设置,如卷积核convolution为3*3。
Head网络还包括检测层,用于对融合的特征图进行概率图预测和阈值图预测,并通过概率图预测结果和阈值图预测结果,得到拼接图片的文本检测结果。
需要说明的是,为了进一步简化模型的结果,在对文本检测模型进行训练的过程中,还需要对文本检测模型进行剪枝。
文本检测模型还可适用于扫描过程中其他需要文本检测的场景中,如局部图片的文本检测场景中,可以快速准确地得到局部图片的文本检测框。
综上,与传统的DBnet相比,本实施例中的文本检测模型使用了更轻量级的网络结构、更轻量级的主干网络和Head网络,并减少了压缩和激活(Squeeze-and-Excitation,SE)模块的使用,以及在训练过程中同步对文本检测模型进行剪枝,可实现在有效减少文本检测模型计算所需的内存空间的同时,可快速准确地输出文本检测结果。
在上述实施例的基础上,本实施例中所述文本检测模型基于如下步骤进行训练获取:基于所述样本图片和样本图片的文本检测结果对所述文本检测模型进行迭代训练,并在训练过程中基于模型剪枝算法或模型压缩算法对所述文本检测模型进行剪枝,直到满足预设终止训练条件;其中,所述文本检测模型在训练过程中所采用的学习率包括余弦学习率机制或预热学习率机制。
可选地,文本检测模型的训练步骤具体包括:首先,获取样本图片和样本图片的文本检测结果;
然后,基于样本图片和样本图片的文本检测结果,构建概率图、二值图标签以及阈值图的标签;
然后,对输入的样本图片进行前向计算,并结合样本图片的概率图、二值图标签以及阈值图的标签计算文本检测模型的损失函数值和梯度,根据文本识别模型的损失函数值和梯度,采用余弦学习率机制或预热学习率机制对文本识别模型进行优化训练;并在优化训练过程中,基于模型剪枝算法或模型压缩算法同步对文本检测模型进行剪枝,直到满足预设终止训练条件,以得到可对输入图片进行准确的文本检测的文本检测模型。
其中,模型剪枝算法可以是几何中值滤波器剪枝等,本实施对此不作具体地限定。预设终止训练条件包括达到最大迭代次数或模型收敛等,本实施例对此不作具体地限定。
在需要对图片进行文本检测的场景下,只需输入拼接图片,即可快速准确地得到图片的文本检测结果。
本实施例通过在训练过程中,对文本检测模型进行剪枝和压缩,可在确保文本检测模型的检测精度的同时,可有效降低文本检测模型的规模,进而降低文本检测模型检测所需的内存,可使得实际使用的文本检测模型计算所需内存大小仅需1.4M,在3288芯片上的前向运行时间缩减至10ms。
在上述各实施例的基础上,本实施例中所述对所述拼接图片进行文本识别,包括:将所述拼接图片输入文本识别模型中,得到所述拼接图片的文本识别结果;其中,所述文本识别模型基于样本图片和所述样本图片的文本识别结果进行训练获取;所述文本识别模型基于卷积神经网络、循环神经网络和分类网络构建生成;所述卷积神经网络,用于对所述拼接图片进行特征提取,得到所述拼接图片的第二特征图;所述循环神经网络,用于对所述第二特征图进行学习,得到所述拼接图片的类别概率分布;所述分类网络,用于对所述类别概率分布进行转换,得到所述拼接图片的文本识别结果。
其中,文本识别模型可识别的语言类型包括但不限于中文、英文、韩语以及日语;其中,可识别的中文数量以及英文数量可以根据实际需求进行设置,如可识别6622个中文汉字,63个含有字母和数字的字符,其中包含英文字符,如A-Z或者是a-z,以及操作符+、-、x和÷等。
如图5所示,文本识别模型可以是基于卷积递归神经网络(ConvolutionalRecurrent Neural Network,CRNN)构建生成,主要包括卷积神经网络(ConvolutionalNeural Networks,CNN)、循环神经网络(Recurrent Neural Network)和分类网络;
其中,卷积神经网络、循环神经网络和分类网络的结构及参数,如网络的类型、层数、初始参数等具体可以根据实际需求进行设置。
例如,卷积神经网络的类型为深度卷积神经网络,用于对输入图像进行特征提取,得到第二特征图;
卷积神经网络的一种示例性的结构为,依次由卷积层、最大池化层、卷积层、最大池化层、卷积层、卷积层、最大池化层、卷积层、归一化层、卷积层、归一化层,最大池化层、卷积层,特征序列映射层。
循环神经网络的类型为深度双向循环神经网络,用于对第二特征图进行预测学习,得到拼接图片的类别概率分布;
卷积神经网络的一种示例性的结构为由2个深度双向循环神经网络构成。
分类网络的类型为连接时序分类网络(Connectionist TemporalClassification,CTC),使用CTC损失,可将从循环神经网络中获取的拼接图片的类别概率分布转换成最终的标签序列,以得到拼接图片的文本识别结果。
可选地,在使用文本识别模型对拼接图片进行文本识别之前,需要对文本识别模型进行训练,具体训练步骤包括:首先获取样本图片和样本图片的文本识别结果;
其中,样本图片和样本图片的文本识别结果可以是预先标注的文本图片,也可以是直接从开源的文本识别数据集中下载获取等,本实施例对此不作具体地限定。
其中,开源的文本识别数据集包括但不限于LSVT、RCTW-17、MTWI、2018HE、CCPD2019等公共数据集。
然后,对样本图片进行前向计算,并结合样本图片的真实文本识别结果计算文本识别模型的损失函数值和梯度,根据文本识别模型的损失函数值和梯度对文本识别模型进行优化,得到可对输入图片进行准确的文本识别的文本识别模型。
在需要对拼接图片进行文本识别的场景下,只需输入拼接图片,即可快速准确地得到拼接图片的文本识别结果,可使得实际使用的文本识别模型计算所需内存大小仅需1.6M。
需要说明的是,本实施例中的文本识别模型还可用于其他需要文本识别的场景中,如校验过程中的文本识别。
本实施例中采用基于卷积递归神经网络构建生成文本识别模型,可快速准确地得到拼接图片的文本识别结果。
在上述实施例的基础上,本实施例中根据每次迭代过程中得到的拼接图片的文本识别结果,获取所述扫描笔的图像扫描的识别结果,包括:对每次迭代过程中得到的拼接图片的文本识别结果进行校验;根据检验结果,获取所述扫描笔的图像扫描的最终识别结果。
可选地,为了进一步提高图像扫描结果的准确性,需要对扫描笔每次迭代过程中得到的拼接图片的文本识别结果进行矫正,以得到更加准确可靠的图像扫描结果。
其中,校正过程具体包括对每次迭代过程中局部图片拼接形成的全局图片重新进行掩码区域选取、图像块匹配,图像拼接、文本检测、文本识别、文本矫正、文本去重等步骤后,获取最终的图像扫描结果。
具体对实时拼接的全局图片进行文本检测,获取全局图片的文本检测框;需要说明的是,在扫描过程中对局部图片进行拼接时,需要对局部图片进行筛选,因此,全局图片中一定存在检测框。
然后,根据检测框确定全局图片的掩码区域;对于全局图片中满足要求的新拼接好的图像块,计算全局图片的掩码区域与各新拼接好的图像块之间的匹配距离,根据所述匹配距离进行图片拼接和掩码区域的更新,直到所有的新拼接好的图像块均遍历完成,得到最终的全局图片;
对最终的全局图片进行文本检测后进行文本识别,并根据文本识别对所有局部图片形成的拼接图片的文本识别结果进行校验,以根据校验结果对拼接图片的文本识别结果进行校正和去重,得到最终图像扫描结果。
需要说明的是,该校验过程对实时性要求不高。
本实施例中通过对全局拼接图片进行再次检测、拼接和识别,以对局部图片形成的拼接图片的文本识别结果进行校验,不仅可以满足实时的性能要求,还可以使识别精度达到最好的性能。
如图6所示,为本实施中图像扫描识别方法的完整流程示意图,主要包括如下步骤:
步骤1:获取局部图片序列;
步骤2:基于局部图片序列,进行图像整体实时拼接,整体图像文本检测和文本识别,具体包括如下步骤:
步骤21,获取当前帧的掩码区域;
步骤22,基于掩码区域,对下一帧局部图片进行图像块匹配;
步骤23,基于匹配结果,进行图片拼接;具体在下一帧局部图片中最匹配的图像块所在区域之后存在待拼接区域的情况下,将其贴到拼接好的当前帧拼接图片对应的整体图像后面;在不存在的情况下,继续执行下一次迭代,直到扫描笔停止扫描;
步骤24,对拼接图片进行长文本检测;
步骤25,对拼接图片进行长文本识别;
步骤3:对步骤2中得到的拼接图片的文本识别结果进行校验,具体包括如下步骤:
步骤31,对实时获取的拼接图片进行文本检测;
步骤32,对新加入的拼图数据判断是否满足拼接条件,如果满足拼接条件,则进行图像拼接,以及文本识别;
重复步骤32的过程,并对步骤2中的文本识别结果进行去重和校正,以得到最后的识别结果。
综上,本实例中的图像扫描识别方法可实现的有益效果包括:(1)能在低配置低功耗的硬件设备达到实时的性能,并且满足精度性能的要求;(2)根据使用场景,训练得到一个超轻量级的文本检测分类器和轻量级的文本识别器,其中,文本检测分类器模型大小仅为1.4M,文本识别的大小仅为1.6M;(3)使用全局文本识别和实时文本识别相结合的方法,从而不仅能满足实时的性能要求、识别精度也能达到当前最好的性能。
下面对本发明提供的图像扫描识别装置进行描述,下文描述的图像扫描识别装置与上文描述的图像扫描识别方法可相互对应参照。
如图7所示,本实施例提供一种图像扫描识别装置,包括获取模块701、拼接模块702、检测识别模块703、迭代模块704和输出模块705,其中:
获取模块701,用于采集扫描笔扫描的当前帧局部图片,并获取所述当前帧局部图片的掩码区域;
拼接模块702,用于根据所述当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配后拼接,得到所述下一帧局部图片对应的拼接图片,并更新匹配所述下一帧局部图片的掩码区域;
检测识别模块703,用于在所述拼接图片满足预设检测条件的情况下,对所述拼接图片进行文本检测,在所述拼接图片的文本检测结果满足预设识别条件的情况下,对所述拼接图片进行文本识别;
迭代模块704,用于将所述下一帧局部图片作为新的当前帧局部图片,继续执行图像块匹配、图片拼接、掩码区域更新、文本检测和文本识别的步骤,直到所述扫描笔停止扫描;
输出模块705,用于根据每次迭代过程中得到的拼接图片的文本识别结果,获取所述扫描笔的图像扫描的识别结果。
本实施例中一方面通过实时获取当前帧局部图片的掩码区域,不论拼接图片的尺寸是否增大,每次迭代过程中只需要将上一帧更新得到的掩码区域与当前帧局部图片中的图像块进行模板匹配,即可快速准确地进行图像匹配和图像拼接,进而实时准确地输出图像扫描结果,并且有效降低图片扫描的计算量,进而有效降低对嵌入设备的计算性能需求,可在低配置的嵌入式设备上实现较高的实时性和准确性;另一方面,满足预设检测条件的情况下,用于对所述拼接图片进行文本检测,仅在拼接图片满足预设识别条件的情况下,才会对拼接图片进行检测识别,不仅可避免对每一帧局部图片进行识别带来的冗余计算量,进一降低扫描过程中的计算量,还可以在扫描结束时,实时准确地输出扫描识别结果,且为了防止边扫描边识别出现错误,还可对拼接的整体图片进行检测识别,以对扫描识别结果进行校验。
在上述实施例的基础上,本实施例中的获取模块,具体用于:在所述当前帧为起始帧的情况下,对所述当前帧局部图片进行文本检测;在所述当前帧局部图片的文本检测结果中包含文本检测框的情况下,根据所述当前帧局部图片的文本检测框,获取所述当前帧局部图片的掩码区域;在所述当前帧为中间帧的情况下,根据所述当前帧局部图片与上一帧局部图片的匹配区域,获取所述当前帧局部图片的掩码区域。
在上述实施例的基础上,本实施例中的获取模块,具体用于:在所述当前帧为中间帧,且所述上一帧局部图片中存在掩码区域的情况下,确定目标图像块的位置是否位于所述当前帧局部图片的右边界;其中,所述目标图像块为所述当前帧局部图片中与上一帧局部图片的掩码区域最匹配的图像块;在所述目标图像块的位置位于所述当前帧局部图片的右边界的情况下,将所述上一帧局部图片的掩码区域,作为所述当前帧局部图片的掩码区域;在所述目标图像块的位置不位于所述当前帧局部图片的右边界的情况下,对所述上一帧局部图片的掩码区域进行更新,将更新后的掩码区域作为所述当前帧局部图片的掩码区域。
在上述各实施例的基础上,本实施例中的拼接模块,具体用于:根据所述当前帧局部图片的掩码区域,对所述下一帧局部图片进行图像块匹配,并获取所述下一帧局部图片中与所述当前帧局部图片的掩码区域最匹配的图像块;在所述下一帧局部图片中最匹配的图像块位于所述下一帧局部图片的右边界的情况下,不进行图片拼接;在所述下一帧局部图片中最匹配的图像块不位于所述下一帧局部图片的右边界的情况下,根据所述最匹配的图像块,获取所述下一帧局部图片中的待拼接区域;将所述待拼接区域与所述当前帧局部图片对应的拼接图片进行拼接,得到所述下一帧局部图片对应的拼接图片。
在上述各实施例的基础上,本实施例中的检测模块,具体用于:将所述拼接图片输入文本检测模型中,得到所述拼接图片的文本检测结果;其中,所述文本检测模型基于样本图片和所述样本图片的文本检测结果训练获取;所述文本检测模型基于轻量级神经网络构建生成,包括主干网络和头网络;所述主干网络,用于对所述拼接图片进行不同尺度的特征提取,得到所述拼接图片的多个不同尺度的第一特征图;所述头网络,用于对所述多个不同尺度的第一特征图进行融合和学习,得到所述拼接图片的文本检测结果。
在上述实施例的基础上,本实施例中还包括训练模块,具体用于:基于所述样本图片和样本图片的文本检测结果对所述文本检测模型进行迭代训练,并在训练过程中基于模型剪枝算法或模型压缩算法对所述文本检测模型进行剪枝,直到满足预设终止训练条件;其中,所述文本检测模型在训练过程中所采用的学习率包括余弦学习率机制或预热学习率机制。
在上述各实施例的基础上,本实施例中的识别模块,具体用于:将所述拼接图片输入文本识别模型中,得到所述拼接图片的文本识别结果;其中,所述文本识别模型基于样本图片和所述样本图片的文本识别结果进行训练获取;所述文本识别模型基于卷积神经网络、循环神经网络和分类网络构建生成;所述卷积神经网络,用于对所述拼接图片进行特征提取,得到所述拼接图片的第二特征图;所述循环神经网络,用于对所述第二特征图进行学习,得到所述拼接图片的类别概率分布;所述分类网络,用于对所述类别概率分布进行转换,得到所述拼接图片的文本识别结果。
在上述各实施例的基础上,本实施例中的输出模块,具体用于:对每次迭代过程中得到的拼接图片的文本识别结果进行校验;根据检验结果,获取所述扫描笔的图像扫描的最终识别结果。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的图像扫描识别装置的具体工作过程及有关说明,可以参考前述图像扫描识别方法实施例中的对应过程,在此不再赘述。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)801、通信接口(Communications Interface)802、存储器(memory)803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信。处理器801可以调用存储器803中的逻辑指令,以执行图像扫描识别方法,该方法包括:采集扫描笔扫描的当前帧局部图片,并获取所述当前帧局部图片的掩码区域;根据所述当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配后拼接,得到所述下一帧局部图片对应的拼接图片,并更新匹配所述下一帧局部图片的掩码区域;在所述拼接图片满足预设检测条件的情况下,对所述拼接图片进行文本检测,在所述拼接图片的文本检测结果满足预设识别条件的情况下,对所述拼接图片进行文本识别;将所述下一帧局部图片作为新的当前帧局部图片,继续执行图像块匹配、图片拼接、掩码区域更新、文本检测和文本识别的步骤,直到所述扫描笔停止扫描;根据每次迭代过程中得到的拼接图片的文本识别结果,获取所述扫描笔的图像扫描的识别结果。
此外,上述的存储器803中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的图像扫描识别方法,该方法包括:采集扫描笔扫描的当前帧局部图片,并获取所述当前帧局部图片的掩码区域;根据所述当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配后拼接,得到所述下一帧局部图片对应的拼接图片,并更新匹配所述下一帧局部图片的掩码区域;在所述拼接图片满足预设检测条件的情况下,对所述拼接图片进行文本检测,在所述拼接图片的文本检测结果满足预设识别条件的情况下,对所述拼接图片进行文本识别;将所述下一帧局部图片作为新的当前帧局部图片,继续执行图像块匹配、图片拼接、掩码区域更新、文本检测和文本识别的步骤,直到所述扫描笔停止扫描;根据每次迭代过程中得到的拼接图片的文本识别结果,获取所述扫描笔的图像扫描的识别结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的图像扫描识别方法,该方法包括:采集扫描笔扫描的当前帧局部图片,并获取所述当前帧局部图片的掩码区域;根据所述当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配后拼接,得到所述下一帧局部图片对应的拼接图片,并更新匹配所述下一帧局部图片的掩码区域;在所述拼接图片满足预设检测条件的情况下,对所述拼接图片进行文本检测,在所述拼接图片的文本检测结果满足预设识别条件的情况下,对所述拼接图片进行文本识别;将所述下一帧局部图片作为新的当前帧局部图片,继续执行图像块匹配、图片拼接、掩码区域更新、文本检测和文本识别的步骤,直到所述扫描笔停止扫描;根据每次迭代过程中得到的拼接图片的文本识别结果,获取所述扫描笔的图像扫描的识别结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种图像扫描识别方法,其特征在于,包括:
采集扫描笔扫描的当前帧局部图片,并获取所述当前帧局部图片的掩码区域;
根据所述当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配后拼接,得到所述下一帧局部图片对应的拼接图片,并更新匹配所述下一帧局部图片的掩码区域;
在所述拼接图片满足预设检测条件的情况下,对所述拼接图片进行文本检测,在所述拼接图片的文本检测结果满足预设识别条件的情况下,对所述拼接图片进行文本识别;
将所述下一帧局部图片作为新的当前帧局部图片,继续执行图像块匹配、图片拼接、掩码区域更新、文本检测和文本识别的步骤,直到所述扫描笔停止扫描;
根据每次迭代过程中得到的拼接图片的文本识别结果,获取所述扫描笔的图像扫描的识别结果;
所述根据所述当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配后拼接,得到所述下一帧局部图片对应的拼接图片,包括:
根据所述当前帧局部图片的掩码区域,对所述下一帧局部图片进行图像块匹配,并获取所述下一帧局部图片中与所述当前帧局部图片的掩码区域最匹配的图像块;
在所述下一帧局部图片中最匹配的图像块位于所述下一帧局部图片的右边界的情况下,不进行图片拼接;
在所述下一帧局部图片中最匹配的图像块不位于所述下一帧局部图片的右边界的情况下,根据所述最匹配的图像块,获取所述下一帧局部图片中的待拼接区域;
将所述待拼接区域与所述当前帧局部图片对应的拼接图片进行拼接,得到所述下一帧局部图片对应的拼接图片。
2.根据权利要求1所述的图像扫描识别方法,其特征在于,所述获取所述当前帧局部图片的掩码区域,包括:
在所述当前帧为起始帧的情况下,对所述当前帧局部图片进行文本检测;
在所述当前帧局部图片的文本检测结果中包含文本检测框的情况下,根据所述当前帧局部图片的文本检测框,获取所述当前帧局部图片的掩码区域;
在所述当前帧为中间帧的情况下,根据所述当前帧局部图片与上一帧局部图片的匹配区域,获取所述当前帧局部图片的掩码区域。
3.根据权利要求2所述的图像扫描识别方法,其特征在于,所述在所述当前帧为中间帧的情况下,根据所述当前帧局部图片与上一帧局部图片的匹配区域,获取所述当前帧局部图片的掩码区域,包括:
在所述当前帧为中间帧,且所述上一帧局部图片中存在掩码区域的情况下,确定目标图像块的位置是否位于所述当前帧局部图片的右边界;其中,所述目标图像块为所述当前帧局部图片中与上一帧局部图片的掩码区域最匹配的图像块;
在所述目标图像块的位置位于所述当前帧局部图片的右边界的情况下,将所述上一帧局部图片的掩码区域,作为所述当前帧局部图片的掩码区域;
在所述目标图像块的位置不位于所述当前帧局部图片的右边界的情况下,对所述上一帧局部图片的掩码区域进行更新,将更新后的掩码区域作为所述当前帧局部图片的掩码区域。
4.根据权利要求1-3任一所述的图像扫描识别方法,其特征在于,所述对所述拼接图片进行文本检测,包括:
将所述拼接图片输入文本检测模型中,得到所述拼接图片的文本检测结果;
其中,所述文本检测模型基于样本图片和所述样本图片的文本检测结果训练获取;
所述文本检测模型基于轻量级神经网络构建生成,包括主干网络和头网络;
所述主干网络,用于对所述拼接图片进行不同尺度的特征提取,得到所述拼接图片的多个不同尺度的第一特征图;
所述头网络,用于对所述多个不同尺度的第一特征图进行融合和学习,得到所述拼接图片的文本检测结果。
5.根据权利要求4所述的图像扫描识别方法,其特征在于,所述文本检测模型基于如下步骤进行训练获取:
基于所述样本图片和样本图片的文本检测结果对所述文本检测模型进行迭代训练,并在训练过程中基于模型剪枝算法或模型压缩算法对所述文本检测模型进行剪枝,直到满足预设终止训练条件;
其中,所述文本检测模型在训练过程中所采用的学习率包括余弦学习率机制或预热学习率机制。
6.根据权利要求1-3任一所述的图像扫描识别方法,其特征在于,所述对所述拼接图片进行文本识别,包括:
将所述拼接图片输入文本识别模型中,得到所述拼接图片的文本识别结果;
其中,所述文本识别模型基于样本图片和所述样本图片的文本识别结果进行训练获取;
所述文本识别模型基于卷积神经网络、循环神经网络和分类网络构建生成;
所述卷积神经网络,用于对所述拼接图片进行特征提取,得到所述拼接图片的第二特征图;
所述循环神经网络,用于对所述第二特征图进行学习,得到所述拼接图片的类别概率分布;
所述分类网络,用于对所述类别概率分布进行转换,得到所述拼接图片的文本识别结果。
7.根据权利要求1-3任一所述的图像扫描识别方法,其特征在于,所述根据每次迭代过程中得到的拼接图片的文本识别结果,获取所述扫描笔的图像扫描的识别结果,包括:
对每次迭代过程中得到的拼接图片的文本识别结果进行校验;
根据检验结果,获取所述扫描笔的图像扫描的最终识别结果。
8.一种图像扫描识别装置,其特征在于,包括:
获取模块,用于采集扫描笔扫描的当前帧局部图片,并获取所述当前帧局部图片的掩码区域;
拼接模块,用于根据所述当前帧局部图片的掩码区域,对下一帧局部图片进行图像块匹配后拼接,得到所述下一帧局部图片对应的拼接图片,并更新匹配所述下一帧局部图片的掩码区域;
检测识别模块,用于在所述拼接图片满足预设检测条件的情况下,对所述拼接图片进行文本检测,在所述拼接图片的文本检测结果满足预设识别条件的情况下,对所述拼接图片进行文本识别;
迭代模块,用于将所述下一帧局部图片作为新的当前帧局部图片,继续执行图像块匹配、图片拼接、掩码区域更新、文本检测和文本识别的步骤,直到所述扫描笔停止扫描;
输出模块,用于根据每次迭代过程中得到的拼接图片的文本识别结果,获取所述扫描笔的图像扫描的识别结果;
所述拼接模块,具体用于:
根据所述当前帧局部图片的掩码区域,对所述下一帧局部图片进行图像块匹配,并获取所述下一帧局部图片中与所述当前帧局部图片的掩码区域最匹配的图像块;
在所述下一帧局部图片中最匹配的图像块位于所述下一帧局部图片的右边界的情况下,不进行图片拼接;
在所述下一帧局部图片中最匹配的图像块不位于所述下一帧局部图片的右边界的情况下,根据所述最匹配的图像块,获取所述下一帧局部图片中的待拼接区域;
将所述待拼接区域与所述当前帧局部图片对应的拼接图片进行拼接,得到所述下一帧局部图片对应的拼接图片。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述图像扫描识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210353468.3A CN114429636B (zh) | 2022-04-06 | 2022-04-06 | 图像扫描识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210353468.3A CN114429636B (zh) | 2022-04-06 | 2022-04-06 | 图像扫描识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114429636A CN114429636A (zh) | 2022-05-03 |
CN114429636B true CN114429636B (zh) | 2022-07-12 |
Family
ID=81314378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210353468.3A Active CN114429636B (zh) | 2022-04-06 | 2022-04-06 | 图像扫描识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114429636B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114973294B (zh) * | 2022-07-28 | 2022-10-21 | 平安科技(深圳)有限公司 | 基于图文匹配方法、装置、设备及存储介质 |
CN117711001B (zh) * | 2024-02-04 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101827264A (zh) * | 2009-03-06 | 2010-09-08 | 刘永 | 分层式自适应的视频帧采样方法 |
CN102222222A (zh) * | 2011-05-27 | 2011-10-19 | 汉王科技股份有限公司 | 跳帧扫描识别装置和方法 |
CN109035145A (zh) * | 2018-08-02 | 2018-12-18 | 广州市鑫广飞信息科技有限公司 | 基于视频帧匹配信息的视频图像自适应拼接方法及装置 |
CN111950463A (zh) * | 2020-08-13 | 2020-11-17 | 安徽淘云科技有限公司 | 扫描方法、装置、扫描笔和存储介质 |
CN112383671A (zh) * | 2020-11-03 | 2021-02-19 | 安徽淘云科技有限公司 | 扫描方法、装置、扫描笔和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10348976B2 (en) * | 2015-06-16 | 2019-07-09 | Hitachi Kokusai Electric Inc. | Imaging device and image processing method for expanding contrast of image by using grayscale histogram of image data |
-
2022
- 2022-04-06 CN CN202210353468.3A patent/CN114429636B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101827264A (zh) * | 2009-03-06 | 2010-09-08 | 刘永 | 分层式自适应的视频帧采样方法 |
CN102222222A (zh) * | 2011-05-27 | 2011-10-19 | 汉王科技股份有限公司 | 跳帧扫描识别装置和方法 |
CN109035145A (zh) * | 2018-08-02 | 2018-12-18 | 广州市鑫广飞信息科技有限公司 | 基于视频帧匹配信息的视频图像自适应拼接方法及装置 |
CN111950463A (zh) * | 2020-08-13 | 2020-11-17 | 安徽淘云科技有限公司 | 扫描方法、装置、扫描笔和存储介质 |
CN112383671A (zh) * | 2020-11-03 | 2021-02-19 | 安徽淘云科技有限公司 | 扫描方法、装置、扫描笔和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114429636A (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647829A (zh) | 一种票据的文本识别方法及*** | |
CN114429636B (zh) | 图像扫描识别方法、装置及电子设备 | |
CN110490081B (zh) | 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法 | |
CN110659647A (zh) | ***图像识别方法及装置、智能***识别设备和存储介质 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN109740515B (zh) | 一种评阅方法及装置 | |
CN112070649B (zh) | 一种去除特定字符串水印的方法及*** | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN112686219B (zh) | 手写文本识别方法及计算机存储介质 | |
CN112434690A (zh) | 动态解析文本图像特征现象的元素自动捕获理解方法、***及存储介质 | |
CN113221869B (zh) | 医疗***结构化信息提取方法、装置设备及存储介质 | |
CN114038004A (zh) | 一种证件信息提取方法、装置、设备及存储介质 | |
CN113221718A (zh) | 公式识别方法、装置、存储介质和电子设备 | |
CN113255668B (zh) | 文本识别方法、装置、电子设备、存储介质 | |
CN114758341A (zh) | 一种智能化合同图像识别与合同要素抽取方法及装置 | |
CN112686263B (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN113592807A (zh) | 一种训练方法、图像质量确定方法及装置、电子设备 | |
CN113297986A (zh) | 手写字符识别方法、装置、介质及电子设备 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN111414889A (zh) | 基于文字识别的财务报表识别方法及装置 | |
CN114399782B (zh) | 文本图像处理方法、装置、设备、存储介质及程序产品 | |
CN111738248B (zh) | 字符识别方法、字符译码模型的训练方法及电子设备 | |
CN115063826A (zh) | 一种基于深度学习的移动端驾驶证识别方法和*** | |
CN112733670A (zh) | 指纹特征提取方法、装置、电子设备及存储介质 | |
CN110909737A (zh) | 图片文字识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240618 Address after: 200-19, 2nd Floor, Building B, Wanghai Building, No.10 West Third Ring Middle Road, Haidian District, Beijing, 100036 Patentee after: Zhongke Zidong Taichu (Beijing) Technology Co.,Ltd. Country or region after: China Address before: 100190 No. 95 East Zhongguancun Road, Beijing, Haidian District Patentee before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES Country or region before: China |