CN118053172A - 一种票据微缩文字检测方法、***及介质 - Google Patents
一种票据微缩文字检测方法、***及介质 Download PDFInfo
- Publication number
- CN118053172A CN118053172A CN202410447119.7A CN202410447119A CN118053172A CN 118053172 A CN118053172 A CN 118053172A CN 202410447119 A CN202410447119 A CN 202410447119A CN 118053172 A CN118053172 A CN 118053172A
- Authority
- CN
- China
- Prior art keywords
- module
- text
- miniature
- bill
- micro
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000001514 detection method Methods 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 30
- 238000010606 normalization Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 241000282320 Panthera leo Species 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 11
- 238000003379 elimination reaction Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 101100441251 Arabidopsis thaliana CSP2 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种票据微缩文字检测方法、***及介质,其中方法包括:获取待检测图像并进行剪裁得到多个子图;将子图进行缩放输入微缩文字检测模型进行预测;其中,所述微缩文字检测模型是基于对票据影像中的所有印刷的微缩文字进行标注得到数据集,进而输入改进后的YOLOv5模型中进行训练得到的;将子图的预测结果进行去冗余处理后转换回原始图像坐标,得到输入原始图像的微缩文字的检测坐标位置。所述方法能够针对微缩文字在整个票据图像中占比非常小,不易检测的问题,实现准确、快速地检测到票据图像中的微缩文字。
Description
技术领域
本发明涉及金融防伪技术领域,尤其涉及一种票据微缩文字检测方法、***、介质及终端。
背景技术
金融票据在市场上的广泛使用,为了防止票据被不法分子伪造,票据在印刷过程中,加入了大量防伪措施,比如荧光油墨印刷进行防伪,微缩文字防伪等。微缩文字印刷在票据上作为一种防伪工艺,用肉眼几乎是不可见的,需要放大镜放大才能够清楚看见,从而可以达到防伪的目的。
微缩文字防伪作为金融票据重要的防伪组成要素之一,金融机构在回收票据过程中,通过判断扫描的票据是否存在微缩文字特征,是作为票据鉴伪点之一。由于微缩文字过于细小,目前针对微缩文字检测尚没有一种有效准确的方法,目前对票据微缩文字的核验都是需要人工进行处理,比较费时费力。
由此,亟需一种专业化、自动化的据微缩文字检测方法。
发明内容
为了解决背景技术中的问题,本发明提供了一种票据微缩文字检测方法、***、介质及终端,其中方法能够有效识别票据中微缩文字的有无,快速、准确地鉴别票据的真伪。
第一方面,本发明提供了一种票据微缩文字检测方法,包括:
S1:获取待检测图像并进行剪裁得到多个子图;
S2:将子图进行缩放输入微缩文字检测模型进行预测;其中,所述微缩文字检测模型是基于对票据影像中的所有印刷的微缩文字进行标注得到数据集,进而输入改进后的YOLOv5模型中进行训练得到的;
S3:将子图的预测结果进行去冗余处理后转换回原始图像坐标,得到输入原始图像的微缩文字的检测坐标位置。
进一步地,所述剪裁采用切片辅助超推理算法,通过设置切片图像的大小、重叠率,将原始图像切割成多个切片图像。
进一步地,所述微缩文字检测模型的预测过程为:
S21:骨干网络模块对输入的子图进行低层图像特征进行提取,并输出给颈部网络模块;
S22:基于骨干网络输入的低层图像特征,颈部网络模块进行上采样,并与输入的高层图像特征进行融合后送入Swin Transformer模块,得到整合的微缩文字数据特征;其中Swin Transformer单元集成了归一化注意力模块,对处理输入序列数据特征过程中的特征信息进行权重调整;
S23:根据得到整合的微缩文字数据特征,头部网络模块通过检测头,对输入图片进行微缩文字检测,输出微缩文字的类型及位置信息;
更进一步地,所述归一化注意力模块包括通道注意力子模块和空间注意力子模块;其中,在通道注意力子模块中,采用批量归一化中的缩放因子:
上式中,为批归一化处理的输出;为批归一化处理的输入;为对
输入数据进行批归一化处理;为可训练的尺度仿射变换参数;为小批量Batch的均值;为避免分母为0而加入的极小值常量;为小批量Batch的方差;为可训练的位移仿
射变换参数;
通道注意力子模块的输出为:
式中为权重;为通道i对应的缩放因子;为通道j对应的缩放因
子;为通道注意力模块输出特征值;为输入特征;
空间注意力子模块的输出为:
式中为权重;为通道i对应的缩放因子;为通道j对应的缩
放因子;为空间注意力输出特征值;为输入特征;
进一步地,微缩文字检测模型的损失函数为:
式中,为损失函数;x为输入NAM注意力模块的输入特征;为网络函
数;为网络损失函数;y为输出NAM注意力模块的输出特征;W为网络权重;为L1范数
惩罚函数;为平衡和的惩罚。
进一步地,模型训练过程中采用Lion优化器进行参数更新,更新参数的过程为
其中,为一阶动量;、均为衰减率;为时间步t时的梯度;为时间步t
时的一阶动量;为时间步t-1时的一阶动量;为当前时刻下降的梯度;为当前时
刻更新的参数;为解耦权重衰减参数。
进一步地,去冗余处理采用非极大值抑制处理,具体过程为:
S31:将检测框按原始得分进行排序,并选出原始得分最高的检测框作为候选框;
S32:将当前待检测框和候选框的交并比与第一阈值进行比较:
若当前待检测框和候选框的交并比小于第一阈值,则当前待检测框的得分即为原始得分;
若当前待检测框和候选框的交并比大于或等于第一阈值,且小于或等于第二阈值,则重新计算当前待检测框的得分;
若当前待检测框和候选框的交并比大于第二阈值,则将当前待检测框的得分归零。
更进一步地,所述S32中重新计算当前待检测框的得分的过程为:将当前待检测框的原始得分与其对应的权值相乘;其中,权值的计算公式为
其中,表示当前检测框的权值;为当前检测框;M为候选框;为当
前检测框与候选框M的交并比。
第二方面,本发明提供了一种票据微缩文字检测***,包括:
预处理模块:用于获取待检测图像并进行剪裁得到多个子图;
预测模块:用于将子图进行缩放输入微缩文字检测模型进行预测;其中,所述微缩文字检测模型是基于对票据影像中的所有印刷的微缩文字进行标注得到数据集,进而输入改进后的YOLOv5模型中进行训练得到的;
后处理模块:用于将子图的预测结果进行去冗余处理后转换回原始图像坐标,得到输入原始图像的微缩文字的检测坐标位置。
第三方面,本发明提供了一种计算机可读存储介质,存储了计算机程序,所述计算机程序被处理器调用时以执行如上所述票据微缩文字检测方法的步骤。
有益效果
本发明提出了一种票据微缩文字检测方法、***及介质,其中方法能够针对微缩文字在整个票据图像中占比非常小,不易检测的问题,将待检测图片进行裁剪切片,得到多个子图;进而将子图进行缩放输入微缩文字检测模型进行预测,将子图的预测结果进行去冗余处理后转换回原始图像坐标,得到输入原始图像的微缩文字的检测坐标位置,能够准确、快速地检测到票据图像中的微缩文字。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种票据微缩文字检测方法的流程图;
图2是本发明实施例提供的改进的YOLOv5模型网络结构图;
图3是本发明实施例提供的检测微缩文字检测效果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
实施例1
如图1所示,本发明提供了一种票据微缩文字检测方法,包括:
S1:获取待检测图像并进行剪裁得到多个子图。
具体地,所述剪裁采用切片辅助超推理 (Slicing Aided Hyper Inference,SAHI)算法,通过设置切片图像的大小、重叠率,将原始图像切割成多个切片图像。具体实施时,待检测图像获取的方式可根据实际需求获取,不对其进行限定,本实施中采用1200DPI的扫描传感器CIS扫描票据的影像,进而进行裁剪。
S2:将子图进行缩放输入微缩文字检测模型进行预测;其中,所述微缩文字检测模型是基于对票据影像中的所有印刷的微缩文字进行标注得到数据集,进而输入改进后的YOLOv5模型中进行训练得到的。
具体地,所述微缩文字检测是通过对获取的票据影像中的微缩文字数据集中所有印刷的微缩文字进行标注得到标注后的数据集,进而将标注后的数据集输入改进后的YOLOv5模型中进行训练得到的。具体实施时,待检测图像获取的方式可根据实际需求获取,不对其进行限定,本实施中采用1200DPI的扫描传感器CIS扫描票据的影像,对扫描影像的微缩文字进行标注,获取微缩文字的位置信息。在对票据微缩文字进行标注时,有些微缩文字由多个单词组成,例如XX银行的票据微缩文字为“BANK OF XX”,为了后序更准确对微缩文字进行检测,可根据需求将微型文字进行分割,本实施例中,将微缩文字分割成成三个独立的标签:分别为“BANK”、“OF”、“XX”三个独立的标签进行标注。
具体地,所述微缩文字检测模型的预测过程为:
骨干网络模块对输入的子图进行低层图像特征进行提取,并输出给颈部网络模块;
基于骨干网络输入的低层图像特征,颈部网络模块进行上采样,并与输入的高层图像特征进行融合后送入Swin Transformer模块,得到整合的微缩文字数据特征;其中Swin Transformer单元集成了归一化注意力模块,对处理输入序列数据特征过程中的特征信息进行权重调整;
根据得到整合的微缩文字数据特征,头部网络模块通过检测头,对输入图片进行微缩文字检测,输出微缩文字的类型及位置信息;
更具体地,本实施例中改进后的YOLOv5模型包括:骨干网络模块、颈部网络模块、头部网络模块;
所述骨干网络用于提取输入图像中的低层图像特征,并输出给颈部网络模块。骨干网络的类型可根据实际需求进行选取,不对其进行限定。本实施例中,整个改进的YoloV5模型中使用CSPDarkNet53作为骨干网络,用来提取图像中的特征,CSPDarkNet53是一种高效的网络结构,其在保持网络的准确性同时,能够有效地减少参数数量和计算量。具体实施时,骨干网络中Conv模块由卷积,Batch Normalization和SiLu激活层组成,C3模块由3个标准卷积层以及多个Bottleneck模块组成,主要用来对残差特征进行学习,SPP模块主要用来对局部特征和全局特征的featherMap级别的融合。整个骨干网络主要用来提取输入图像中的特征。
所述颈部网络模块对输入的低层图像特征通过上采样与输入的高层的特征进行融合,通过归一化注意力模块NAM,在处理输入序列数据特征中,对有用的特征信息给予更高的权重,并且抑制不太显示的信息权重,从而使模型更多地关注重要的信息。用于捕获全局信息和丰富的上下文信息。如图2中SwinT模块17所示,改进的YOLOv5模型中的neck颈部网络,使用swin transformer模块代替原来的CSP2结构,输出到head头部网络模块中的4个检测头。swin transformer模块可以捕获全局信息和丰富的上下文信息,它的每个Transformer encoder block包含2个子层:第1子层为多头注意力块,其引入了多个注意力头,将输入信息分成多份,每个注意力头都能够独立地学习并关注不同的语义信息,从而可以提供更多的信息,增加模型的表达能力,进而提升模型的性能;第2子层为前馈神经网络,用于对每个位置的向量进行非线性变换,从而引入更多的非线性能力,提高模型的表达能力。SwinT模块中每个子层之间使用残差连接,用来降低模型复杂度以减少过拟合,并且可以防止梯度消失。
如图2中的NAM模块,在改进的YOLOv5模型中的颈部网络模型中集成了归一化注意力单元,使得Transformer encoder block增加了捕获不同局部信息的能力,它还可以利用自注意力机制来挖掘特征表征潜能,改进前的YOLOv5模型相比,transformer predictionheads能够增加了捕获不同局部信息的能力,它还可以利用自注意力机制来挖掘特征表征潜能,能在效地增加微缩文字的检测效果。归一化注意力单元包括通道注意力子模块和空间注意力子模块。
更具体地,所述归一化注意力模块包括通道注意力子模块和空间注意力子模块;其中,在通道注意力子模块中,采用批量归一化中的缩放因子:
上式中,为批归一化处理的输出;/>为批归一化处理的输入;/>为对输入数据进行批归一化处理;/>为可训练的尺度仿射变换参数;/>为小批量Batch的均值;为避免分母为0而加入的极小值常量;/>为小批量Batch的方差;/>为可训练的位移仿射变换参数;
通道注意力子模块的输出为:
式中为权重;/>为通道i对应的缩放因子;/>为通道j对应的缩放因子;/>为通道注意力模块输出特征值;/>为输入特征;
空间注意力子模块的输出为:
式中为权重;/>为通道i对应的缩放因子;/>为通道j对应的缩放因子;/>为空间注意力输出特征值;/>为输入特征;
进一步地,微缩文字检测模型的损失函数为:
式中,为损失函数;x为输入NAM注意力模块的输入特征;为网络函
数;为网络损失函数;y为输出NAM注意力模块的输出特征;W为网络权重;为L1范
数惩罚函数;为平衡和的惩罚。归一化注意力模块在对输入序列数据处理中,
给予有用信息更高的权重,为了抑制不重要的特征,在损失函数中加入了一个正则化项,抑
制不太显著的信息权重,从而使模型更集中地关注重要的信息。
进一步地,模型训练过程中采用Lion优化器进行参数更新,更新参数的过程为
其中,为一阶动量;、均为衰减率;为时间步t时的梯度;为时间步t
时的一阶动量;为时间步t-1时的一阶动量;为当前时刻下降的梯度;为当前时刻
更新的参数;为解耦权重衰减参数
使用了Lion优化器来更新训练模型中的参数,能够使模型中的参数向梯度下降的方向进行更新,相比主流优化器AdamW,该优化器参数更少,且没有AdamW更新过程中计算量最大的除法和开根号运算,具有内存高效、运行速度更快的特点。
所述头部结构模块包括4个检测头,用于精准的检测票据上微缩文字。改进后的头部结构是在原有的头部结构新增加一个检测头;本实施例中,新增的检测头大小为20×20。通过增加一个检测头来提高对微缩文字的特征提取能力,本实施例中采用了1200DPI扫描的高清票据影像,所以网络模型输入图像大小为1280×1280,对应4个检测头的尺寸大小分别为160×160、80×80、40×40、20×20,通过增加一个新尺寸的检测头,提高对微缩文字的检测精度。多一个head头部结构更利于检测不同大小的微缩文字,提高检测效果。
具体地,去冗余处理采用非极大值抑制处理,具体过程为:
S31:将检测框按原始得分进行排序,并选出原始得分最高的检测框作为候选框;
S32:将当前待检测框和候选框的交并比与第一阈值进行比较:
若当前待检测框和候选框的交并比小于第一阈值,则当前待检测框的得分即为原始得分;
若当前待检测框和候选框的交并比大于或等于第一阈值,且小于或等于第二阈值,则重新计算当前待检测框的得分;
若当前待检测框和候选框的交并比大于第二阈值,则将当前待检测框的得分归零。
更具体地,所述S32中重新计算当前待检测框的得分的过程为:将当前待检测框的原始得分与其对应的权值相乘;其中,权值的计算公式为
其中,表示当前检测框的权值;为当前检测框;M为候选框;为当
前检测框与候选框M的交并比。
为了更准确对输入图像中的微缩文字进行检测,对待检测图像使用SAHI算法进行剪裁成多个子图并进行缩放处理,然后将所有的子图输入到优化的YOLOv5模型进行检测,可以得到每个子图的检测结果。在这个过程中,因为子图进行剪裁并进行缩放处理,所以子图的检测结果位置必须经过映射到原始输入图片上去,另外子图是在原始图像设置了重叠比参数,所以所有子图的检测结果在映射到原始输入图片上去后,检测框须重新进行非极大值抑制NMS算法进行合并处理。
具体实施时,使用改进的Soft-NMS对预测框进行后处理,即进行去冗余处理。soft-NMS具体方法为:
其中,为该检测框的原始得分,M为得分最高的候选框,为待检测框,为当前检测框和M的交并比,为第一预设阈值。优化后的soft-NMS将检
测框按得分进行排序,以第一预设阈值范围采用权值惩罚策略:对于当前得分最高的框
M,给每一个待检测框一个相应的权值,该权值的大小与和M的成反比,每一
个待检测框的最后得分由权值和原始得分的乘积决定,由此,大大降低目标在高度重叠时
被漏检的概率。其次,根据第二预设阈值,删除部分与M的过大的待检测框,
当过大时,M与为同一目标的可能性非常大,会加大目标被重复检测的概率,
由此,待检测框的的得分的计算公式为:
式中,为该检测框的原始得分,M为得分最高的候选框,/>为待检测框,为当前检测框/>和M的交并比,/>为第一预设阈值;/>为第二预设阈值。
如图3所示,所述方法能够针对微缩文字在整个票据图像中占比非常小,不易检测的问题,将待检测图片进行裁剪切片,得到多个子图;进而将子图进行缩放输入微缩文字检测模型进行预测,将子图的预测结果进行去冗余处理后转换回原始图像坐标,得到输入原始图像的微缩文字的检测坐标位置,能够准确、快速地检测到票据图像中的微缩文字。
实施例2
本实施例提供了一种票据微缩文字检测***,包括:
预处理模块:用于获取待检测图像并进行剪裁得到多个子图;
预测模块:用于将子图进行缩放输入微缩文字检测模型进行预测;其中,所述微缩文字检测模型是基于对票据影像中的所有印刷的微缩文字进行标注得到数据集,进而输入改进后的YOLOv5模型中进行训练得到的;
后处理模块:用于将子图的预测结果进行去冗余处理后转换回原始图像坐标,得到输入原始图像的微缩文字的检测坐标位置
实施例3
本实施例提供了一种计算机可读存储介质,存储了计算机程序,所述计算机程序被处理器调用时以执行如上所述票据微缩文字检测方法的步骤。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
所述可读存储介质为计算机可读存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种票据微缩文字检测方法,其特征在于,包括:
S1:获取待检测图像并进行剪裁得到多个子图;
S2:将子图进行缩放输入微缩文字检测模型进行预测;其中,所述微缩文字检测模型是基于对票据影像中的所有印刷的微缩文字进行标注得到数据集,进而输入改进后的YOLOv5模型中进行训练得到的;
S3:将子图的预测结果进行去冗余处理后转换回原始图像坐标,得到输入原始图像的微缩文字的检测坐标位置。
2.根据权利要求1所述的票据微缩文字检测方法,其特征在于,所述剪裁采用切片辅助超推理算法,通过设置切片图像的大小、重叠率,将原始图像切割成多个切片图像。
3.根据权利要求1所述的票据微缩文字检测方法,其特征在于,所述微缩文字检测模型的预测过程为:
S21:骨干网络模块对输入的子图进行低层图像特征进行提取,并输出给颈部网络模块;
S22:基于骨干网络输入的低层图像特征,颈部网络模块进行上采样,并与输入的高层图像特征进行融合后送入Swin Transformer模块,得到整合的微缩文字数据特征;其中Swin Transformer单元集成了归一化注意力模块,对处理输入序列数据特征过程中的特征信息进行权重调整;
S23:根据得到整合的微缩文字数据特征,头部网络模块通过检测头,对输入图片进行微缩文字检测,输出微缩文字的类型及位置信息。
4.根据权利要求3所述的票据微缩文字检测方法,其特征在于,所述归一化注意力模块包括通道注意力子模块和空间注意力子模块;其中,在通道注意力子模块中,采用批量归一化中的缩放因子:
;
上式中,为批归一化处理的输出;/>为批归一化处理的输入;/>为对输入数据进行批归一化处理;/>为可训练的尺度仿射变换参数;/>为小批量Batch的均值;/>为避免分母为0而加入的极小值常量;/>为小批量Batch的方差;/>为可训练的位移仿射变换参数;
通道注意力子模块的输出为:
;
式中为权重;/>为通道i对应的变换参数;/>为通道j对应的变换参数;/>为通道注意力模块输出特征值;/>为输入特征;
空间注意力子模块的输出为:
;
式中为权重;/>为通道i对应的缩放因子;/>为通道j对应的缩放因子;/>为空间注意力输出特征值;/>为输入特征。
5.根据权利要求1所述的票据微缩文字检测方法,其特征在于,微缩文字检测模型的损失函数为:
;
式中,为损失函数;x为输入NAM注意力模块的输入特征;/>为网络函数;/>为网络损失函数;y为输出NAM注意力模块的输出特征;W为网络权重;/>为L1范数惩罚函数;/>为平衡/>和/>的惩罚。
6.根据权利要求1所述的票据微缩文字检测方法,其特征在于,模型训练过程中采用Lion优化器进行参数更新,更新参数的过程为
;
其中,为一阶动量;/>、/>均为衰减率;/>为时间步t时的梯度;/>为时间步t时的一阶动量;/>为时间步t-1时的一阶动量;/>为当前时刻下降的梯度;/>为当前时刻更新的参数;/>为解耦权重衰减参数。
7.根据权利要求1所述的票据微缩文字检测方法,其特征在于,去冗余处理采用非极大值抑制处理,具体过程为:
S31:将检测框按原始得分进行排序,并选出原始得分最高的检测框作为候选框;
S32:将当前待检测框和候选框的交并比与第一阈值进行比较:
若当前待检测框和候选框的交并比小于第一阈值,则当前待检测框的得分即为原始得分;
若当前待检测框和候选框的交并比大于或等于第一阈值,且小于或等于第二阈值,则重新计算当前待检测框的得分;
若当前待检测框和候选框的交并比大于第二阈值,则将当前待检测框的得分归零。
8.根据权利要求7所述的票据微缩文字检测方法,其特征在于,所述S32中重新计算当前待检测框的得分的过程为:将当前待检测框的原始得分与其对应的权值相乘;其中,权值的计算公式为
;
其中,表示当前检测框的权值;/>为当前检测框;M为候选框;/>为当前检测框/>与候选框M的交并比。
9.一种票据微缩文字检测***,其特征在于,包括:
预处理模块:用于获取待检测图像并进行剪裁得到多个子图;
预测模块:用于将子图进行缩放输入微缩文字检测模型进行预测;其中,所述微缩文字检测模型是基于对票据影像中的所有印刷的微缩文字进行标注得到数据集,进而输入改进后的YOLOv5模型中进行训练得到的;
后处理模块:用于将子图的预测结果进行去冗余处理后转换回原始图像坐标,得到输入原始图像的微缩文字的检测坐标位置。
10.一种计算机可读存储介质,其特征在于:存储了计算机程序,所述计算机程序被处理器调用时以执行:权利要求1-8任一项所述票据微缩文字检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410447119.7A CN118053172A (zh) | 2024-04-15 | 2024-04-15 | 一种票据微缩文字检测方法、***及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410447119.7A CN118053172A (zh) | 2024-04-15 | 2024-04-15 | 一种票据微缩文字检测方法、***及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118053172A true CN118053172A (zh) | 2024-05-17 |
Family
ID=91054089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410447119.7A Pending CN118053172A (zh) | 2024-04-15 | 2024-04-15 | 一种票据微缩文字检测方法、***及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118053172A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557778A (zh) * | 2016-06-17 | 2017-04-05 | 北京市商汤科技开发有限公司 | 通用物体检测方法和装置、数据处理装置和终端设备 |
CN111310758A (zh) * | 2020-02-13 | 2020-06-19 | 上海眼控科技股份有限公司 | 文本检测方法、装置、计算机设备和存储介质 |
US20210117691A1 (en) * | 2017-05-05 | 2021-04-22 | Google Llc | Summarizing video content |
CN113903036A (zh) * | 2021-11-10 | 2022-01-07 | 北京百度网讯科技有限公司 | 一种文本识别方法、装置、电子设备、介质及产品 |
CN115187941A (zh) * | 2022-06-20 | 2022-10-14 | 中国电信股份有限公司 | 目标检测定位方法、***、设备及存储介质 |
CN115588109A (zh) * | 2022-09-26 | 2023-01-10 | 苏州大学 | 一种图像模板匹配方法、装置、设备及应用 |
CN116188944A (zh) * | 2023-03-06 | 2023-05-30 | 重庆理工大学 | 一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法 |
CN117611807A (zh) * | 2023-05-19 | 2024-02-27 | 江苏拓邮信息智能技术研究院有限公司 | 一种基于改进的YOLOv5x的大尺度图像矿石检测方法 |
CN117789216A (zh) * | 2023-12-15 | 2024-03-29 | 南京先维信息技术有限公司 | 自然场景下的图像文字识别方法、***与计算机存储介质 |
-
2024
- 2024-04-15 CN CN202410447119.7A patent/CN118053172A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557778A (zh) * | 2016-06-17 | 2017-04-05 | 北京市商汤科技开发有限公司 | 通用物体检测方法和装置、数据处理装置和终端设备 |
US20210117691A1 (en) * | 2017-05-05 | 2021-04-22 | Google Llc | Summarizing video content |
CN111310758A (zh) * | 2020-02-13 | 2020-06-19 | 上海眼控科技股份有限公司 | 文本检测方法、装置、计算机设备和存储介质 |
CN113903036A (zh) * | 2021-11-10 | 2022-01-07 | 北京百度网讯科技有限公司 | 一种文本识别方法、装置、电子设备、介质及产品 |
CN115187941A (zh) * | 2022-06-20 | 2022-10-14 | 中国电信股份有限公司 | 目标检测定位方法、***、设备及存储介质 |
CN115588109A (zh) * | 2022-09-26 | 2023-01-10 | 苏州大学 | 一种图像模板匹配方法、装置、设备及应用 |
CN116188944A (zh) * | 2023-03-06 | 2023-05-30 | 重庆理工大学 | 一种基于Swin-Transformer和多尺度特征融合的红外弱小目标检测方法 |
CN117611807A (zh) * | 2023-05-19 | 2024-02-27 | 江苏拓邮信息智能技术研究院有限公司 | 一种基于改进的YOLOv5x的大尺度图像矿石检测方法 |
CN117789216A (zh) * | 2023-12-15 | 2024-03-29 | 南京先维信息技术有限公司 | 自然场景下的图像文字识别方法、***与计算机存储介质 |
Non-Patent Citations (3)
Title |
---|
HANG GONG ET AL.: "Swin-Transformer-Enabled YOLOv5 with Attention Mechanism for Small Object Detection on Satellite Images", 《REMOTE SENSING》, 15 June 2022 (2022-06-15), pages 1 - 17 * |
XIANGNING CHEN ET AL.: "Symbolic Discovery of Optimization Algorithms", 《ARXIV.ORG》, 13 February 2023 (2023-02-13), pages 1 - 29 * |
董洪义: "《深度学习之PyTorch物体检测实战》", 31 January 2020, 机械工业出版社, pages: 209 - 213 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726657B (zh) | 一种深度学习场景文本序列识别方法 | |
CN112507777A (zh) | 一种基于深度学习的光学遥感图像舰船检测与分割方法 | |
CN112818951B (zh) | 一种票证识别的方法 | |
CN112070649B (zh) | 一种去除特定字符串水印的方法及*** | |
CN111353491B (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
CN112907598A (zh) | 一种基于注意力cnn文档证件类图像篡改检测方法 | |
CN112464845B (zh) | 票据识别方法、设备及计算机存储介质 | |
CN105825211A (zh) | 名片识别方法、装置及*** | |
Liu et al. | A multi-stream convolutional neural network for micro-expression recognition using optical flow and evm | |
CN116912604B (zh) | 模型训练方法、图像识别方法、装置以及计算机存储介质 | |
CN114419428A (zh) | 一种目标检测方法、目标检测装置和计算机可读存储介质 | |
CN111079749B (zh) | 一种带姿态校正的端到端商品价签文字识别方法和*** | |
CN118053172A (zh) | 一种票据微缩文字检测方法、***及介质 | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
CN115797843A (zh) | 一种基于深度学习运动训练视频分类***及方法 | |
US12046067B2 (en) | Optical character recognition systems and methods for personal data extraction | |
CN115376149A (zh) | 一种报销***识别方法 | |
CN114511702A (zh) | 一种基于多尺度分权注意力的遥感图像分割方法和*** | |
CN112906508A (zh) | 一种基于卷积神经网络的面部活体检测方法 | |
CN113014914A (zh) | 一种基于神经网络的单人换脸短视频的识别方法和*** | |
CN112395929A (zh) | 一种基于红外图像lbp直方图特征的人脸活体检测方法 | |
CN116503721B (zh) | 身份证篡改检测方法、装置、设备及存储介质 | |
CN116259050B (zh) | 灌装桶标签文字定位识别方法、装置、设备及检测方法 | |
CN116958981B (zh) | 一种文字识别方法及装置 | |
Una et al. | Classification technique for face-spoof detection in artificial neural networks using concepts of machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |