CN115205839A

CN115205839A - 基于yolov5的自然场景文本检测与识别方法

Info

Publication number: CN115205839A
Application number: CN202210785742.4A
Authority: CN
Inventors: 柯逍; 卢恺翔
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-10-18

Abstract

本发明提出一种基于YOLOV5的自然场景文本检测与识别方法，包括：步骤S1：获取自然场景文本图像数据集，将对应标签转换为YOLOV5所需要的格式；步骤S2：用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信息；利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合；在跨层连接中加入形变卷积，使得网络能够更好地处理特征图尺度的变化；步骤S3：利用Kmeans算法聚合过的锚框拟合真实文本框的长宽比，并预测锚框与真实框的偏差；利用长卷积处理特征，让锚框的长宽比更贴合真实文本框；步骤S4：利用双向LSTM和注意力机制对齐文本特征并预测文本序列；其能够实现利用深度学习完成对自然场景文本进行检测和识别，且轻量级足以实现在移动端部署。

Description

基于YOLOV5的自然场景文本检测与识别方法

技术领域

本发明涉及计算机视觉理解技术领域，尤其是基于YOLOV5的自然场景文本检测与识别方法。

背景技术

近年来人工智能技术飞快发展，利用深度学习来处理我们生活中的一些自然场景文本，即自然场景文本检测与识别成为了热门技术。自然场景文本检测与识别是计算机视觉和人工智能领域中非常重要的研究领域，它主要研究机器能否正确地理解图片，从而完成对图片中目标的检测和识别。

发明内容

本发明提出基于YOLOV5的自然场景文本检测与识别方法，本发明能够实现利用深度学习完成对自然场景文本进行检测和识别，且该方法的轻量级足以实现在移动端部署。

本发明具体采用以下技术方案：

一种基于YOLOV5的自然场景文本检测与识别方法，包括以下步骤；

步骤S1：获取自然场景文本图像数据集，将对应标签转换为对应YOLOV5的格式；

步骤S2：采用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信息；利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合；在跨层连接中加入形变卷积，使得网络能够更好地处理特征图尺度的变化；

步骤S3：利用Kmeans算法聚合过的锚框拟合真实文本框的长宽比，并预测锚框与真实框的偏差；利用长卷积处理特征，使锚框的长宽比更贴合真实文本框；

步骤S4：利用双向LSTM和注意力机制对齐文本特征并预测文本序列。

进一步地，步骤S1具体包括以下步骤；

步骤S11：获取公开自然场景文字数据集；

步骤S12：将数据集中的标签格式全部转换为YOLOV5所需要的格式；

步骤S13：将数据集中的文本区域中对应的文字也记录到json文件中，以方便后续识别。进一步地，步骤S2具体包括以下步骤；

步骤S21：将图像按批次输入到由多个Conv模块和多个BottleneckCSP模块组成的特征提取器中，其中Conv模块包含卷积核大小3×3的卷积层、批归一化层BN和SiLU激活函数；如公式一所示：

F_{Conv_out}＝SiLU(BN(Conv_3×3(F_{Conv_in})))

公式一；

其中F_{Conv_in}是Conv模块的输入特征，Conv_3×3是卷积核大小3×3的卷积层；

BottleneckCSP模块由Bottleneck加上CSP构成；Bottleneck将输入特征经过卷积核大小1×1的卷积层，再经过卷积核大小3×3的卷积层，再将输入特征与之相加；如公式二所示，其中F_Bottleneck是Bottleneck模块的输出，F_{Bottleneck_in}是Bottleneck模块的输入特征，Conv_3×3是卷积核大小3×3的卷积层，Conv_1×1是卷积核大小1×1的卷积层；

F_Bottleneck＝F_{Bottleneck_in}+Conv_3×3(Conv_1×1(F_{Bottleneck_in}))

公式二；

CSP将原输入分成两个分支，分别进行卷积操作使得通道数减半，然后一个分支进行Bottleneck×N操作，其中N为自定义参数，然后Concat两个分支，使得BottlenneckCSP的输入与输出是一样的大小；如公式三所示：

F_Concat＝Concat(N×Bottleneck(Conv_1×1(F_{in_c/2_1}))，Conv_3×3(F_{in_c/2_2}))) 公式三；

其中F_Concat是两个分支Concat的结果，Concat是特征拼接操作，Bottleneck指代公式二的运算，F_{in_c/2_1}和F_{in_c/2_2}代表输入特征的两个分支，通道数是原输入特征的一半；

再将F_Concat经过批归一化层BN、LekyReLU激活函数和Conv_1×1得到BottlenneckCSP的输出F_{BottleneckCSP}，如公式四所示：

F_{BottleneckCSP}＝Conv_1×1(LekyReLU(BN(F_Concat)))

公式四；

步骤S22：将经过Conv模块和BottleneckCSP下采样32倍的特征输入到SPP空间金字塔池化层模块中，将不同尺寸的特征图进行最大池化操作，再池化后的特征拼接，作为特征提取器的输出；如公式五所示：

F_{SPP_out}＝DeformableConv(Concat(F_{SPP_in}，MaxPooling_13×13(F_{SPP_in})，

MaxPooling_9×9(F_{SPP_in})，MaxPooling_5×5(F_{SPP_in})))

公式五；

其中F_{SPP_in}是SPP模块的输入特征，F_{SPP_out}是SPP模块的输出，MaxPooling_13×13，MaxPooling_9×9，MaxPooling_5×5分别代表采样核大小为13×13，9×9，5×5的最大池化层，DeformableConv为形变卷积模块。

进一步地，步骤S3具体包括以下步骤；

步骤S31：利用Kmeans算法拟合真实文本框的长宽比，将所有真实文本框的比例输入到Kmeans中，以聚类出多个锚框的长宽比；

步骤S32：利用特征提取器提取的特征对锚框与真实文本框的偏差进行预测；首先将特征经过1×7长卷积网络，用于提取适合长文本的语义特征；再将处理后的特征分为gridn×gridn个网格，gridn为自定义参数；网络将预测四个偏移量t_x1，t_y1，t_h1，t_w1，计算方法如公式六、公式七、公式八、公式九所示：

t_x1＝log((bbox_x2-c_x3)/(1-(bbox_x2-c_x3))) 公式六；

t_y1＝log((bbox_y2-c_y3)/(1-(bbox_y2-c_y3))) 公式七；

t_h1＝log(gt_h4/p_h5) 公式八；

t_w1＝log(gt_w4/p_w5) 公式九；

其中bbox_x2，bbox_y2分别代表真实文本框的中心点横纵坐标；c_x3，c_y3代表真实文本框对应的网格的左上角横纵坐标；gt_h4，gt_w4代表真实文本框的高和宽；p_h5，p_w5代表锚框的高和宽；网络通过预测这4个偏移量进而预测文本框的位置。

进一步地，步骤S4具体包括以下步骤；

步骤S41：利用分级注意力机制处理长语义特征，通过三个矩阵实现分级注意力机制，包括查询矩阵Q、键矩阵K和值矩阵V；并将预测的文本特征的词嵌入装进矩阵E中，并将矩阵E线性映射到查询矩阵Q、键矩阵K和值矩阵V中；将查询矩阵Q与键矩阵K相乘，来为特征图中的每个像素进分数评估；其中分数的高低代表了两个特征像素之间的关联程度是否紧密；然后将得到的分数除以键向量的维数dim的平方根，以求强化梯度的稳定性；再利用softmax函数使得所有单词的分数为正值并且它们的和为1；最后，将得到的LekyReLU分数与值矩阵V相乘，即得到注意力层的输出，这里表示为矩阵O；如公式十所示：

步骤S42：将O输入到双向LSTM中，将文本特征与文本对齐，预测出最终的文本结果。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上所述的基于YOLOV5的自然场景文本检测与识别方法。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上所述的基于YOLOV5的自然场景文本检测与识别方法。

与现有技术相比，本发明及其优选方案具有以下有益效果：

1、构建的基于YOLOV5的自然场景文本检测与识别方法，相较于其他现有方法，它的模型非常轻量且推理速度快，能够实现在移动端部署。

2、数据集无需大量的标注文件，利用YOLOV5官方提供的预训练模型，能够训练出性能良好的文本检测模型。

3、分级注意力机制能够模仿人类观察事物时所引起的注意力集中现象，使之通过联系局部特征或者无视某些无用特征来理解图像与文本中隐藏的关系，并解决普通注意力不能关注长文本特征的问题。

4、利用数据扩充、数据增强和模型集成等方法能进一步优化我们检测与识别模型的性能，准确率能够进一步得到提升。

本发明针对传统视觉模型所含参数过大且无法理解图像深层语义信息等问题，提出了一种基于YOLOV5的方法，利用预训练模型的思想，有效解决了训练模型需要大量人工合成的虚假数据集问题，且由于其轻量化模型的思想，使得模型可以在移动端部署。

本发明利用了分级注意力机制，能够模仿人类观察事物时所引起的注意力集中现象，有效地提取了图像与文本内部的隐藏联系，减小了模型参数，并利用双向LSTM对齐文本特征和文本内容。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1是本发明实施例流程和工作原理示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供的基于YOLOV5的自然场景文本检测与识别方法，包括以下步骤；

步骤S1：获取自然场景文本图像数据集，将对应标签转换为YOLOV5所需要的格式；

步骤S2：用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信息；利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合；在跨层连接中加入形变卷积，使得网络能够更好地处理特征图尺度的变化；

步骤S3：利用Kmeans算法聚合过的锚框拟合真实文本框的长宽比，并预测锚框与真实框的偏差；利用长卷积处理特征，让锚框的长宽比更贴合真实文本框；

本实施例方案能够实现利用深度学习完成对自然场景文本进行检测和识别，且该方法的轻量级足以实现在移动端部署。

其中，步骤S1具体包括以下步骤；

步骤S11：获取公开自然场景文字数据集，如ICDAR2013、ICDAR2015、ICDAR2019、RCTW等；

步骤S12：将数据集中的标签格式全部转换为YOLOV5所需要的格式，即一张图片对应一份txt文件，txt文件中的每一行对应图像中的一个文本区域，每一行的格式为(cls，x_center/textw，y_center/texth，imgw/textw，imgh/texth)；其中cls＝0，代表该区域为正样本，x_center为文本区域的中心点横坐标，y_center为文本区域的中心点纵坐标，imgw和imgh分别代表图像的宽和长，textw和texth分别代表文本区域的宽和长。

步骤S13：将数据集中的文本区域中对应的文字也记录到json文件中，方便后续识别。json文件的格式为{‘xxxjpg’：{‘points’：[[文本区域1坐标]，[文本区域2坐标]，...]}，{‘text’}：[[文本区域1文本]，[文本区域2文本]，...]}。

步骤S2具体包括以下步骤；

步骤S21：将图像按批次输入到由多个Conv模块和多个BottleneckCSP模块组成的特征提取器中，其中Conv模块包含卷积核大小3×3的卷积层、批归一化层BN和SiLU激活函数。由公式一所示：

F_{conv_out}＝SiLU(BN(Conv_3×3(F_{Conv_in}))) 公式一；

其中F_{Conv_in}是Conv模块的输入特征，Conv_3×3是卷积核大小3×3的卷积层。

BottleneckCSP模块则是由Bottleneck加上CSP构成；Bottleneck将输入特征经过卷积核大小1×1的卷积层，再经过卷积核大小3×3的卷积层，再将输入特征与之相加。如公式二所示，其中F_Bottleneck是Bottleneck模块的输出，F_{Bottleneck_in}是Bottleneck模块的输入特征，Conv_3×3是卷积核大小3×3的卷积层，Conv_1×1是卷积核大小1×1的卷积层。

F_Bottleneck＝F_{Bottleneck_in}+Conv_3×3(Conv_1×1(F_{Bottleneck_in})) 公式二；

CSP将原输入分成两个分支，分别进行卷积操作使得通道数减半，然后一个分支进行Bottleneck×N操作，其中N为自定义参数，然后Concat两个分支，使得BottlenneckCSP的输入与输出是一样的大小，这样是为了让模型学习到更多的特征。如公式三所示：

其中F_Concat是两个分支Concat的结果，Concat是特征拼接操作，Bottleneck代表公式二的运算，F_{in_c/2_1}和F_{in_c/2_2}代表输入特征的两个分支，通道数是原输入特征的一半。

F_{BottleneckCSP}＝Conv_1×1(LekyReLU(BN(F_Concat))) 公式四；

步骤S22：将经过Conv模块和BottleneckCSP下采样32倍的特征输入到SPP空间金字塔池化层模块中，将不同尺寸的特征图进行最大池化操作，再池化后的特征拼接，作为特征提取器的输出。如公式五所示：

F_{SPP_out}＝DeformableConv(Concat(F_{SPP_in}，MaxPooling_13×13(F_{SPP_in)}，

MaxPooling_9×9(F_{SPP_in})，MaxPooling_5×5(F_{SPP_in}))) 公式五；

步骤S3具体包括以下步骤；

步骤S31：利用Kmeans算法拟合真实文本框的长宽比，将所有真实文本框的比例输入到Kmeans中，Kmeans算法可以聚类出多个锚框的长宽比；

步骤S32：利用特征提取器提取的特征对锚框与真实文本框的偏差进行预测。首先将特征经过1×7长卷积网络，用于提取适合长文本的语义特征；再将处理后的特征分为gridn×gridn个网格，gridn为自定义参数；网络将预测四个偏移量t_x1，t_y1，t_h1，t_w1，计算方法如公式六、公式七、公式八、公式九所示：

t_x1＝log((bbox_x2-c_x3)/(1-(bbox_x2-c_x3))) 公式六；

t_y1＝log((bbox_y2-c_y3)/(1-(bbox_y2-c_y3))) 公式七；

t_h1＝log(gt_h4/p_h5) 公式八；

t_w1＝log(gt_w4/p_w5) 公式九；

其中bbox_x2，bbox_y2分别代表真实文本框的中心点横纵坐标；c_x3，c_y3代表真实文本框对应的网格的左上角横纵坐标；gt_h4，gt_w4代表真实文本框的高和宽；P_h5，p_w5代表锚框的高和宽。网络通过预测这4个偏移量进而预测文本框的位置。

步骤S4具体包括以下步骤；

步骤S41：利用分级注意力机制处理长语义特征，通过三个矩阵实现分级注意力机制，包括查询矩阵Q、键矩阵K和值矩阵V；并将预测的文本特征的词嵌入装进矩阵E中，并将E线性映射到查询矩阵Q、键矩阵K和值矩阵V中；将查询矩阵Q与键矩阵K相乘，来为特征图中的每个像素进分数评估；其中分数的高低代表了两个特征像素之间的关联程度是否紧密；然后将得到的分数除以键向量的维数dim的平方根，以求强化梯度的稳定性；再利用softmax函数使得所有单词的分数为正值并且它们的和为1；最后，将得到的LekyReLU分数与值矩阵V相乘，即得到注意力层的输出，这里表示为矩阵O；如公式十所示：

本实施例针传统视觉模型所含参数过大且无法有效理解图像深层语义信息等问题，提出了一种基于YOLOV5的方法，利用预训练模型的思想，有效解决了训练模型需要大量人工合成的虚假数据集问题，且由于其轻量化模型的思想，使得模型可以在移动端部署；本发明利用了分级注意力机制，能够模仿人类观察事物时所引起的注意力集中现象，有效地提取了图像与文本内部的隐藏联系，且解决了普通注意力不能关注长文本特征的问题，减小了模型参数，并利用双向LSTM对齐文本特征和文本内容。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程、以及流程图中的流程结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程图中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于YOLOV5的自然场景文本检测与识别方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种基于YOLOV5的自然场景文本检测与识别方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的基于YOLOV5的自然场景文本检测与识别方法，其特征在于：步骤S1具体包括以下步骤；

步骤S11：获取公开自然场景文字数据集；

步骤S13：将数据集中的文本区域中对应的文字也记录到json文件中，以方便后续识别。

3.根据权利要求1所述的基于YOLOV5的自然场景文本检测与识别方法，其特征在于：步骤S2具体包括以下步骤；

F_{Conv_out}＝SiLU(BN(Conv_3×3(F_{Conv_in}))) 公式一；

BottleneckCSP模块由Bottleneck加上CSP构成；Bottleneck将输入特征经过卷积核大小1×1的卷积层，再经过卷积核大小3×3的卷积层，再将输入特征与之相加；如公式二所示，其中F_Bottleneck是Bottleneck模块的输出，F_{Bottleneck_in}是Bottleneck模块的输入特征，Conv_3×3是卷积核大小3×3的卷积层,Conv_1×1是卷积核大小1×1的卷积层；

F_Concat＝Concat(N×Bottleneck(Conv_1×1(F_{in_c/2_1})),Conv_3×3(F_{in_c/2_2}))) 公式三；

F_{BottleneckCSP}＝Conv_1×1(LekyReLU(BN(F_Concat))) 公式四；

F_{SPP_out}＝DeformableConv(Concat(F_{SPP_in},MaxPooling_13×13(F_{SPP_in}),MaxPooling_9×9(F_{SPP_in}),MaxPooling_5×5(F_{SPP_in}))) 公式五；

4.根据权利要求1所述的基于YOLOV5的自然场景文本检测与识别方法，其特征在于：步骤S3具体包括以下步骤；

步骤S32：利用特征提取器提取的特征对锚框与真实文本框的偏差进行预测；首先将特征经过1×7长卷积网络，用于提取适合长文本的语义特征；再将处理后的特征分为gridn×gridn个网格，gridn为自定义参数；网络将预测四个偏移量t_x1,t_y1,t_h1,t_w1，计算方法如公式六、公式七、公式八、公式九所示：

t_x1＝log((bbox_x2-c_x3)/(1-(bbox_x2-c_x3))) 公式六；

t_y1＝log((bbox_y2-c_y3)/(1-(bbox_y2-c_y3))) 公式七；

t_h1＝log(gt_h4/p_h5) 公式八；

t_w1＝log(gt_w4/p_w5) 公式九；

5.根据权利要求1所述的基于YOLOV5的自然场景文本检测与识别方法，其特征在于：步骤S4具体包括以下步骤；