CN115205839A - 基于yolov5的自然场景文本检测与识别方法 - Google Patents

基于yolov5的自然场景文本检测与识别方法 Download PDF

Info

Publication number
CN115205839A
CN115205839A CN202210785742.4A CN202210785742A CN115205839A CN 115205839 A CN115205839 A CN 115205839A CN 202210785742 A CN202210785742 A CN 202210785742A CN 115205839 A CN115205839 A CN 115205839A
Authority
CN
China
Prior art keywords
text
conv
formula
features
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210785742.4A
Other languages
English (en)
Inventor
柯逍
卢恺翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202210785742.4A priority Critical patent/CN115205839A/zh
Publication of CN115205839A publication Critical patent/CN115205839A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提出一种基于YOLOV5的自然场景文本检测与识别方法,包括:步骤S1:获取自然场景文本图像数据集,将对应标签转换为YOLOV5所需要的格式;步骤S2:用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信息;利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合;在跨层连接中加入形变卷积,使得网络能够更好地处理特征图尺度的变化;步骤S3:利用Kmeans算法聚合过的锚框拟合真实文本框的长宽比,并预测锚框与真实框的偏差;利用长卷积处理特征,让锚框的长宽比更贴合真实文本框;步骤S4:利用双向LSTM和注意力机制对齐文本特征并预测文本序列;其能够实现利用深度学习完成对自然场景文本进行检测和识别,且轻量级足以实现在移动端部署。

Description

基于YOLOV5的自然场景文本检测与识别方法
技术领域
本发明涉及计算机视觉理解技术领域,尤其是基于YOLOV5的自然场景文本检测与识别方法。
背景技术
近年来人工智能技术飞快发展,利用深度学习来处理我们生活中的一些自然场景文本,即自然场景文本检测与识别成为了热门技术。自然场景文本检测与识别是计算机视觉和人工智能领域中非常重要的研究领域,它主要研究机器能否正确地理解图片,从而完成对图片中目标的检测和识别。
发明内容
本发明提出基于YOLOV5的自然场景文本检测与识别方法,本发明能够实现利用深度学习完成对自然场景文本进行检测和识别,且该方法的轻量级足以实现在移动端部署。
本发明具体采用以下技术方案:
一种基于YOLOV5的自然场景文本检测与识别方法,包括以下步骤;
步骤S1:获取自然场景文本图像数据集,将对应标签转换为对应YOLOV5的格式;
步骤S2:采用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信息;利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合;在跨层连接中加入形变卷积,使得网络能够更好地处理特征图尺度的变化;
步骤S3:利用Kmeans算法聚合过的锚框拟合真实文本框的长宽比,并预测锚框与真实框的偏差;利用长卷积处理特征,使锚框的长宽比更贴合真实文本框;
步骤S4:利用双向LSTM和注意力机制对齐文本特征并预测文本序列。
进一步地,步骤S1具体包括以下步骤;
步骤S11:获取公开自然场景文字数据集;
步骤S12:将数据集中的标签格式全部转换为YOLOV5所需要的格式;
步骤S13:将数据集中的文本区域中对应的文字也记录到json文件中,以方便后续识别。进一步地,步骤S2具体包括以下步骤;
步骤S21:将图像按批次输入到由多个Conv模块和多个BottleneckCSP模块组成的特征提取器中,其中Conv模块包含卷积核大小3×3的卷积层、批归一化层BN和SiLU激活函数;如公式一所示:
FConv_out=SiLU(BN(Conv3×3(FConv_in)))
公式一;
其中FConv_in是Conv模块的输入特征,Conv3×3是卷积核大小3×3的卷积层;
BottleneckCSP模块由Bottleneck加上CSP构成;Bottleneck将输入特征经过卷积核大小1×1的卷积层,再经过卷积核大小3×3的卷积层,再将输入特征与之相加;如公式二所示,其中FBottleneck是Bottleneck模块的输出,FBottleneck_in是Bottleneck模块的输入特征,Conv3×3是卷积核大小3×3的卷积层,Conv1×1是卷积核大小1×1的卷积层;
FBottleneck=FBottleneck_in+Conv3×3(Conv1×1(FBottleneck_in))
公式二;
CSP将原输入分成两个分支,分别进行卷积操作使得通道数减半,然后一个分支进行Bottleneck×N操作,其中N为自定义参数,然后Concat两个分支,使得BottlenneckCSP的输入与输出是一样的大小;如公式三所示:
FConcat=Concat(N×Bottleneck(Conv1×1(Fin_c/2_1)),Conv3×3(Fin_c/2_2))) 公式三;
其中FConcat是两个分支Concat的结果,Concat是特征拼接操作,Bottleneck指代公式二的运算,Fin_c/2_1和Fin_c/2_2代表输入特征的两个分支,通道数是原输入特征的一半;
再将FConcat经过批归一化层BN、LekyReLU激活函数和Conv1×1得到BottlenneckCSP的输出FBottleneckCSP,如公式四所示:
FBottleneckCSP=Conv1×1(LekyReLU(BN(FConcat)))
公式四;
步骤S22:将经过Conv模块和BottleneckCSP下采样32倍的特征输入到SPP空间金字塔池化层模块中,将不同尺寸的特征图进行最大池化操作,再池化后的特征拼接,作为特征提取器的输出;如公式五所示:
FSPP_out=DeformableConv(Concat(FSPP_in,MaxPooling13×13(FSPP_in),
MaxPooling9×9(FSPP_in),MaxPooling5×5(FSPP_in)))
公式五;
其中FSPP_in是SPP模块的输入特征,FSPP_out是SPP模块的输出,MaxPooling13×13,MaxPooling9×9,MaxPooling5×5分别代表采样核大小为13×13,9×9,5×5的最大池化层,DeformableConv为形变卷积模块。
进一步地,步骤S3具体包括以下步骤;
步骤S31:利用Kmeans算法拟合真实文本框的长宽比,将所有真实文本框的比例输入到Kmeans中,以聚类出多个锚框的长宽比;
步骤S32:利用特征提取器提取的特征对锚框与真实文本框的偏差进行预测;首先将特征经过1×7长卷积网络,用于提取适合长文本的语义特征;再将处理后的特征分为gridn×gridn个网格,gridn为自定义参数;网络将预测四个偏移量tx1,ty1,th1,tw1,计算方法如公式六、公式七、公式八、公式九所示:
tx1=log((bboxx2-cx3)/(1-(bboxx2-cx3))) 公式六;
ty1=log((bboxy2-cy3)/(1-(bboxy2-cy3))) 公式七;
th1=log(gth4/ph5) 公式八;
tw1=log(gtw4/pw5) 公式九;
其中bboxx2,bboxy2分别代表真实文本框的中心点横纵坐标;cx3,cy3代表真实文本框对应的网格的左上角横纵坐标;gth4,gtw4代表真实文本框的高和宽;ph5,pw5代表锚框的高和宽;网络通过预测这4个偏移量进而预测文本框的位置。
进一步地,步骤S4具体包括以下步骤;
步骤S41:利用分级注意力机制处理长语义特征,通过三个矩阵实现分级注意力机制,包括查询矩阵Q、键矩阵K和值矩阵V;并将预测的文本特征的词嵌入装进矩阵E中,并将矩阵E线性映射到查询矩阵Q、键矩阵K和值矩阵V中;将查询矩阵Q与键矩阵K相乘,来为特征图中的每个像素进分数评估;其中分数的高低代表了两个特征像素之间的关联程度是否紧密;然后将得到的分数除以键向量的维数dim的平方根,以求强化梯度的稳定性;再利用softmax函数使得所有单词的分数为正值并且它们的和为1;最后,将得到的LekyReLU分数与值矩阵V相乘,即得到注意力层的输出,这里表示为矩阵O;如公式十所示:
Figure BDA0003731277200000041
步骤S42:将O输入到双向LSTM中,将文本特征与文本对齐,预测出最终的文本结果。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的基于YOLOV5的自然场景文本检测与识别方法。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上所述的基于YOLOV5的自然场景文本检测与识别方法。
与现有技术相比,本发明及其优选方案具有以下有益效果:
1、构建的基于YOLOV5的自然场景文本检测与识别方法,相较于其他现有方法,它的模型非常轻量且推理速度快,能够实现在移动端部署。
2、数据集无需大量的标注文件,利用YOLOV5官方提供的预训练模型,能够训练出性能良好的文本检测模型。
3、分级注意力机制能够模仿人类观察事物时所引起的注意力集中现象,使之通过联系局部特征或者无视某些无用特征来理解图像与文本中隐藏的关系,并解决普通注意力不能关注长文本特征的问题。
4、利用数据扩充、数据增强和模型集成等方法能进一步优化我们检测与识别模型的性能,准确率能够进一步得到提升。
本发明针对传统视觉模型所含参数过大且无法理解图像深层语义信息等问题,提出了一种基于YOLOV5的方法,利用预训练模型的思想,有效解决了训练模型需要大量人工合成的虚假数据集问题,且由于其轻量化模型的思想,使得模型可以在移动端部署。
本发明利用了分级注意力机制,能够模仿人类观察事物时所引起的注意力集中现象,有效地提取了图像与文本内部的隐藏联系,减小了模型参数,并利用双向LSTM对齐文本特征和文本内容。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1是本发明实施例流程和工作原理示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供的基于YOLOV5的自然场景文本检测与识别方法,包括以下步骤;
步骤S1:获取自然场景文本图像数据集,将对应标签转换为YOLOV5所需要的格式;
步骤S2:用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信息;利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合;在跨层连接中加入形变卷积,使得网络能够更好地处理特征图尺度的变化;
步骤S3:利用Kmeans算法聚合过的锚框拟合真实文本框的长宽比,并预测锚框与真实框的偏差;利用长卷积处理特征,让锚框的长宽比更贴合真实文本框;
步骤S4:利用双向LSTM和注意力机制对齐文本特征并预测文本序列。
本实施例方案能够实现利用深度学习完成对自然场景文本进行检测和识别,且该方法的轻量级足以实现在移动端部署。
其中,步骤S1具体包括以下步骤;
步骤S11:获取公开自然场景文字数据集,如ICDAR2013、ICDAR2015、ICDAR2019、RCTW等;
步骤S12:将数据集中的标签格式全部转换为YOLOV5所需要的格式,即一张图片对应一份txt文件,txt文件中的每一行对应图像中的一个文本区域,每一行的格式为(cls,xcenter/textw,ycenter/texth,imgw/textw,imgh/texth);其中cls=0,代表该区域为正样本,xcenter为文本区域的中心点横坐标,ycenter为文本区域的中心点纵坐标,imgw和imgh分别代表图像的宽和长,textw和texth分别代表文本区域的宽和长。
步骤S13:将数据集中的文本区域中对应的文字也记录到json文件中,方便后续识别。json文件的格式为{‘xxxjpg’:{‘points’:[[文本区域1坐标],[文本区域2坐标],...]},{‘text’}:[[文本区域1文本],[文本区域2文本],...]}。
步骤S2具体包括以下步骤;
步骤S21:将图像按批次输入到由多个Conv模块和多个BottleneckCSP模块组成的特征提取器中,其中Conv模块包含卷积核大小3×3的卷积层、批归一化层BN和SiLU激活函数。由公式一所示:
Fconv_out=SiLU(BN(Conv3×3(FConv_in))) 公式一;
其中FConv_in是Conv模块的输入特征,Conv3×3是卷积核大小3×3的卷积层。
BottleneckCSP模块则是由Bottleneck加上CSP构成;Bottleneck将输入特征经过卷积核大小1×1的卷积层,再经过卷积核大小3×3的卷积层,再将输入特征与之相加。如公式二所示,其中FBottleneck是Bottleneck模块的输出,FBottleneck_in是Bottleneck模块的输入特征,Conv3×3是卷积核大小3×3的卷积层,Conv1×1是卷积核大小1×1的卷积层。
FBottleneck=FBottleneck_in+Conv3×3(Conv1×1(FBottleneck_in)) 公式二;
CSP将原输入分成两个分支,分别进行卷积操作使得通道数减半,然后一个分支进行Bottleneck×N操作,其中N为自定义参数,然后Concat两个分支,使得BottlenneckCSP的输入与输出是一样的大小,这样是为了让模型学习到更多的特征。如公式三所示:
FConcat=Concat(N×Bottleneck(Conv1×1(Fin_c/2_1)),Conv3×3(Fin_c/2_2))) 公式三;
其中FConcat是两个分支Concat的结果,Concat是特征拼接操作,Bottleneck代表公式二的运算,Fin_c/2_1和Fin_c/2_2代表输入特征的两个分支,通道数是原输入特征的一半。
再将FConcat经过批归一化层BN、LekyReLU激活函数和Conv1×1得到BottlenneckCSP的输出FBottleneckCSP,如公式四所示:
FBottleneckCSP=Conv1×1(LekyReLU(BN(FConcat))) 公式四;
步骤S22:将经过Conv模块和BottleneckCSP下采样32倍的特征输入到SPP空间金字塔池化层模块中,将不同尺寸的特征图进行最大池化操作,再池化后的特征拼接,作为特征提取器的输出。如公式五所示:
FSPP_out=DeformableConv(Concat(FSPP_in,MaxPooling13×13(FSPP_in)
MaxPooling9×9(FSPP_in),MaxPooling5×5(FSPP_in))) 公式五;
其中FSPP_in是SPP模块的输入特征,FSPP_out是SPP模块的输出,MaxPooling13×13,MaxPooling9×9,MaxPooling5×5分别代表采样核大小为13×13,9×9,5×5的最大池化层,DeformableConv为形变卷积模块。
步骤S3具体包括以下步骤;
步骤S31:利用Kmeans算法拟合真实文本框的长宽比,将所有真实文本框的比例输入到Kmeans中,Kmeans算法可以聚类出多个锚框的长宽比;
步骤S32:利用特征提取器提取的特征对锚框与真实文本框的偏差进行预测。首先将特征经过1×7长卷积网络,用于提取适合长文本的语义特征;再将处理后的特征分为gridn×gridn个网格,gridn为自定义参数;网络将预测四个偏移量tx1,ty1,th1,tw1,计算方法如公式六、公式七、公式八、公式九所示:
tx1=log((bboxx2-cx3)/(1-(bboxx2-cx3))) 公式六;
ty1=log((bboxy2-cy3)/(1-(bboxy2-cy3))) 公式七;
th1=log(gth4/ph5) 公式八;
tw1=log(gtw4/pw5) 公式九;
其中bboxx2,bboxy2分别代表真实文本框的中心点横纵坐标;cx3,cy3代表真实文本框对应的网格的左上角横纵坐标;gth4,gtw4代表真实文本框的高和宽;Ph5,pw5代表锚框的高和宽。网络通过预测这4个偏移量进而预测文本框的位置。
步骤S4具体包括以下步骤;
步骤S41:利用分级注意力机制处理长语义特征,通过三个矩阵实现分级注意力机制,包括查询矩阵Q、键矩阵K和值矩阵V;并将预测的文本特征的词嵌入装进矩阵E中,并将E线性映射到查询矩阵Q、键矩阵K和值矩阵V中;将查询矩阵Q与键矩阵K相乘,来为特征图中的每个像素进分数评估;其中分数的高低代表了两个特征像素之间的关联程度是否紧密;然后将得到的分数除以键向量的维数dim的平方根,以求强化梯度的稳定性;再利用softmax函数使得所有单词的分数为正值并且它们的和为1;最后,将得到的LekyReLU分数与值矩阵V相乘,即得到注意力层的输出,这里表示为矩阵O;如公式十所示:
Figure BDA0003731277200000081
步骤S42:将O输入到双向LSTM中,将文本特征与文本对齐,预测出最终的文本结果。
本实施例针传统视觉模型所含参数过大且无法有效理解图像深层语义信息等问题,提出了一种基于YOLOV5的方法,利用预训练模型的思想,有效解决了训练模型需要大量人工合成的虚假数据集问题,且由于其轻量化模型的思想,使得模型可以在移动端部署;本发明利用了分级注意力机制,能够模仿人类观察事物时所引起的注意力集中现象,有效地提取了图像与文本内部的隐藏联系,且解决了普通注意力不能关注长文本特征的问题,减小了模型参数,并利用双向LSTM对齐文本特征和文本内容。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程、以及流程图中的流程结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程图中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于YOLOV5的自然场景文本检测与识别方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

Claims (5)

1.一种基于YOLOV5的自然场景文本检测与识别方法,其特征在于,包括以下步骤;
步骤S1:获取自然场景文本图像数据集,将对应标签转换为对应YOLOV5的格式;
步骤S2:采用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信息;利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合;在跨层连接中加入形变卷积,使得网络能够更好地处理特征图尺度的变化;
步骤S3:利用Kmeans算法聚合过的锚框拟合真实文本框的长宽比,并预测锚框与真实框的偏差;利用长卷积处理特征,使锚框的长宽比更贴合真实文本框;
步骤S4:利用双向LSTM和注意力机制对齐文本特征并预测文本序列。
2.根据权利要求1所述的基于YOLOV5的自然场景文本检测与识别方法,其特征在于:步骤S1具体包括以下步骤;
步骤S11:获取公开自然场景文字数据集;
步骤S12:将数据集中的标签格式全部转换为YOLOV5所需要的格式;
步骤S13:将数据集中的文本区域中对应的文字也记录到json文件中,以方便后续识别。
3.根据权利要求1所述的基于YOLOV5的自然场景文本检测与识别方法,其特征在于:步骤S2具体包括以下步骤;
步骤S21:将图像按批次输入到由多个Conv模块和多个BottleneckCSP模块组成的特征提取器中,其中Conv模块包含卷积核大小3×3的卷积层、批归一化层BN和SiLU激活函数;如公式一所示:
FConv_out=SiLU(BN(Conv3×3(FConv_in))) 公式一;
其中FConv_in是Conv模块的输入特征,Conv3×3是卷积核大小3×3的卷积层;
BottleneckCSP模块由Bottleneck加上CSP构成;Bottleneck将输入特征经过卷积核大小1×1的卷积层,再经过卷积核大小3×3的卷积层,再将输入特征与之相加;如公式二所示,其中FBottleneck是Bottleneck模块的输出,FBottleneck_in是Bottleneck模块的输入特征,Conv3×3是卷积核大小3×3的卷积层,Conv1×1是卷积核大小1×1的卷积层;
FBottleneck=FBottleneck_in+Conv3×3(Conv1×1(FBottleneck_in)) 公式二;
CSP将原输入分成两个分支,分别进行卷积操作使得通道数减半,然后一个分支进行Bottleneck×N操作,其中N为自定义参数,然后Concat两个分支,使得BottlenneckCSP的输入与输出是一样的大小;如公式三所示:
FConcat=Concat(N×Bottleneck(Conv1×1(Fin_c/2_1)),Conv3×3(Fin_c/2_2))) 公式三;
其中FConcat是两个分支Concat的结果,Concat是特征拼接操作,Bottleneck指代公式二的运算,Fin_c/2_1和Fin_c/2_2代表输入特征的两个分支,通道数是原输入特征的一半;
再将FConcat经过批归一化层BN、LekyReLU激活函数和Conv1×1得到BottlenneckCSP的输出FBottleneckCSP,如公式四所示:
FBottleneckCSP=Conv1×1(LekyReLU(BN(FConcat))) 公式四;
步骤S22:将经过Conv模块和BottleneckCSP下采样32倍的特征输入到SPP空间金字塔池化层模块中,将不同尺寸的特征图进行最大池化操作,再池化后的特征拼接,作为特征提取器的输出;如公式五所示:
FSPP_out=DeformableConv(Concat(FSPP_in,MaxPooling13×13(FSPP_in),MaxPooling9×9(FSPP_in),MaxPooling5×5(FSPP_in))) 公式五;
其中FSPP_in是SPP模块的输入特征,FSPP_out是SPP模块的输出,MaxPooling13×13,MaxPooling9×9,MaxPooling5×5分别代表采样核大小为13×13,9×9,5×5的最大池化层,DeformableConv为形变卷积模块。
4.根据权利要求1所述的基于YOLOV5的自然场景文本检测与识别方法,其特征在于:步骤S3具体包括以下步骤;
步骤S31:利用Kmeans算法拟合真实文本框的长宽比,将所有真实文本框的比例输入到Kmeans中,以聚类出多个锚框的长宽比;
步骤S32:利用特征提取器提取的特征对锚框与真实文本框的偏差进行预测;首先将特征经过1×7长卷积网络,用于提取适合长文本的语义特征;再将处理后的特征分为gridn×gridn个网格,gridn为自定义参数;网络将预测四个偏移量tx1,ty1,th1,tw1,计算方法如公式六、公式七、公式八、公式九所示:
tx1=log((bboxx2-cx3)/(1-(bboxx2-cx3))) 公式六;
ty1=log((bboxy2-cy3)/(1-(bboxy2-cy3))) 公式七;
th1=log(gth4/ph5) 公式八;
tw1=log(gtw4/pw5) 公式九;
其中bboxx2,bboxy2分别代表真实文本框的中心点横纵坐标;cx3,cy3代表真实文本框对应的网格的左上角横纵坐标;gth4,gtw4代表真实文本框的高和宽;ph5,pw5代表锚框的高和宽;网络通过预测这4个偏移量进而预测文本框的位置。
5.根据权利要求1所述的基于YOLOV5的自然场景文本检测与识别方法,其特征在于:步骤S4具体包括以下步骤;
步骤S41:利用分级注意力机制处理长语义特征,通过三个矩阵实现分级注意力机制,包括查询矩阵Q、键矩阵K和值矩阵V;并将预测的文本特征的词嵌入装进矩阵E中,并将矩阵E线性映射到查询矩阵Q、键矩阵K和值矩阵V中;将查询矩阵Q与键矩阵K相乘,来为特征图中的每个像素进分数评估;其中分数的高低代表了两个特征像素之间的关联程度是否紧密;然后将得到的分数除以键向量的维数dim的平方根,以求强化梯度的稳定性;再利用softmax函数使得所有单词的分数为正值并且它们的和为1;最后,将得到的LekyReLU分数与值矩阵V相乘,即得到注意力层的输出,这里表示为矩阵O;如公式十所示:
Figure FDA0003731277190000031
步骤S42:将O输入到双向LSTM中,将文本特征与文本对齐,预测出最终的文本结果。
CN202210785742.4A 2022-07-05 2022-07-05 基于yolov5的自然场景文本检测与识别方法 Pending CN115205839A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210785742.4A CN115205839A (zh) 2022-07-05 2022-07-05 基于yolov5的自然场景文本检测与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210785742.4A CN115205839A (zh) 2022-07-05 2022-07-05 基于yolov5的自然场景文本检测与识别方法

Publications (1)

Publication Number Publication Date
CN115205839A true CN115205839A (zh) 2022-10-18

Family

ID=83578775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210785742.4A Pending CN115205839A (zh) 2022-07-05 2022-07-05 基于yolov5的自然场景文本检测与识别方法

Country Status (1)

Country Link
CN (1) CN115205839A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993963A (zh) * 2023-09-21 2023-11-03 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993963A (zh) * 2023-09-21 2023-11-03 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备及存储介质
CN116993963B (zh) * 2023-09-21 2024-01-05 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108805070A (zh) 一种基于嵌入式终端的深度学习行人检测方法
CN112580439A (zh) 小样本条件下的大幅面遥感图像舰船目标检测方法及***
CN110378222A (zh) 一种输电线路防震锤目标检测与缺陷识别方法及装置
CN109284767B (zh) 一种基于增广样本和多流层的行人检索方法
CN115222946B (zh) 一种单阶段实例图像分割方法、装置以及计算机设备
CN112257741B (zh) 一种基于复数神经网络的生成性对抗虚假图片的检测方法
CN111046928B (zh) 定位精准的单阶段实时通用目标检测器及方法
CN111368775A (zh) 一种基于局部上下文感知的复杂场景密集目标检测方法
CN110689000A (zh) 一种基于生成复杂环境下车牌样本的车辆车牌识别方法
CN113052057A (zh) 一种基于改进卷积神经网络的交通标志识别方法
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、***、设备及存储介质
CN113628297A (zh) 一种基于注意力机制和迁移学习的covid-19深度学习诊断***
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN115205839A (zh) 基于yolov5的自然场景文本检测与识别方法
CN113963333B (zh) 一种基于改进yolof模型的交通标志牌检测方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及***
CN115019132A (zh) 一种用于复杂背景船舶的多目标识别方法
CN112766381B (zh) 有限样本下属性引导的sar图像生成方法
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及***
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
Sharma et al. State of-the-Art Analysis of Multiple Object Detection Techniques using Deep Learning
CN112329830A (zh) 一种基于卷积神经网络和迁移学习的无源定位轨迹数据识别方法及***
Rao et al. Roads detection of aerial image with FCN-CRF model
CN115049901A (zh) 一种基于特征图加权注意力融合的小目标检测方法及设备
CN114694133A (zh) 一种基于图像处理与深度学习相结合的文本识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination