CN116266387A

CN116266387A - 基于重参数化残差结构和坐标注意力机制的yolov4的图像识别算法及***

Info

Publication number: CN116266387A
Application number: CN202111426910.2A
Authority: CN
Inventors: 王瑜; 毕玉; 闫善武
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2021-11-28
Filing date: 2021-11-28
Publication date: 2023-06-20

Abstract

本发明公开了一种基于重参数化残差结构和坐标注意力机制的YOLOV4的图像识别算法及***。其中，该算法包含以下的步骤：获取待识别图像集；运用Mosaic数据增强方式对输入训练图像集进行处理，利用K‑means++聚类算法计算得到训练图像集初始瞄框；根据基于重参数化残差结构和坐标注意力机制的YOLOV4模型和训练图像集、验证图像集进行模型训练，生成特征提取模型；将待识别图像集输入该模型，得到图像识别结果。该算法用提出的基于重参数化残差结构和坐标注意力机制的YOLOV4模型对图像进行目标识别，可以实现复杂背景下目标的分类与定位，模型鲁棒性好，从而可以有效地提高目标识别的准确性和快速性。

Description

基于重参数化残差结构和坐标注意力机制的YOLOV4的图像识别算法及***

技术领域

本发明涉及图像处理和模式识别领域，特别涉及一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法及***。

背景技术

目标识别在图像处理领域中占有重要的地位，其是对目标同时进行定位与分类。传统的目标识别算法包括V-J(Viola-Jones)检测算法，方向梯度直方图(Histogram ofOriented Gradient，HOG)检测算法和可变形部件模型(Deformable Parts Model，DPM)算法。V-J检测算法主要用于人脸检测，主要原理是通过对输入图像进行窗口滑动来搜索haar特征。HOG检测算法是通过提取梯度来构建对应的特征表，对图像每个网格构建直方图。DPM是深度学***衡效果。

以下对该系列算法进行简单的介绍：

2016年，Joseph Redmon等人提出了YOLO系列的第一代模型YOLOV1，该模型具体原理为，将输入的图片分为n×n个网格，每个网格预测x个候选框和物体的类别，该模型检测速度非常快，每秒可以处理45张图像，但是检测精度较差。在2017年，第二代模型YOLOV2在第一代模型的基础上，对主干网络添加了平均池化层和BN层，使模型收敛的更快，并且引入了瞄框机制，不直接预测坐标值，通过坐标的偏移量和置信度就可以相对准确的得到目标的定位。在2018年，通过对第二代模型YOLOV2进行改进，得到了模型YOLOV3，该模型选择了三种尺度大小不同的瞄框，以实现对大小不同目标的准确检测，并且在分类层选用多标签分类，可以对每种类型进行是与不是的判断，以达到更高的精度。在2020年，***的模型YOLOV4被推出，其主干网络选择 CSPDarknet53，添加了SPP模块以及FPN+PAN的特征融合结构，这样的改进不仅让该模型具有速度方面的优势，在检测精度方面对比其他模型也具有显著优势。但是该模型仍有需要改进的地方，以实现更好的预测效果。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法，该算法适用于复杂背景下的目标识别，并且在推理阶段速度有大幅提升。

本发明的另外一个目的在于提出一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别***。

为了达到上述的两个目的，本发明在第一个方面实施提出了一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法，包括了以下的步骤：输入待识别图像集；对输入的训练图像集进行数据增强，并利用K-means++ 聚类算法计算得到训练图像集的初始瞄框；获取重参数化残差结构和坐标注意力机制的YOLOV4模型，该模型基于YOLOV4，在特征提取阶段添加X、Y 两个方向的空间信息，可以提升模型的准确率，在复杂特征的提取阶段，添加了重参数化的残差结构，可以使模型推理速度提升；根据所述重参数化残差结构和坐标注意力机制的YOLOV4模型和所述训练图像集、验证图像集进行模型训练，以生成重参数化残差结构和坐标注意力机制的YOLOV4识别模型；根据所述待识别图像集通过重参数化残差结构和坐标注意力机制的YOLOV4 识别模型得到图像识别结果。

本发明实施例的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法，可以通过深度学习残差网络理论和基于深度学习的模型训练算法获得基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别模型，该模型不受待识别图像背景的复杂程度限制，鲁棒性更好，推理速度更快，从而可以有效提高目标识别的精准性和快速性。

另外，根据本发明上述实施例的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法还可以具有下述的附加技术特征：

第一步，在本发明中的一个实施例中，所述的YOLOV4模型包括输入端、主干网络、瓶颈网络和输出端。输入端将训练图像集进行数据增强，并根据 K-means++聚类算法计算得到训练图像集的初始瞄框。主干网络包括Darknet53 网络，Mish激活函数以及Leakyrelu激活函数。瓶颈网络包括SPP模块和 FPN+PAN的特征融合结构。输出端包括CIOU_Loss损失函数和CIOU_nms 预测框筛选方法。

第二步，在本发明中的一个实施例中，所述训练时运用的Rer包括第一个瓶颈模块1(Bottleneck1)与第一个1×1的卷积层进行Add操作，经过Mish 激活函数，并通过第一个瓶颈模块2(Bottleneck2)与第二个1×1的卷积层进行Add操作，最后通过Mish激活函数。其中，Add具体操作为将特征图在维度不变的条件下，进行特征图信息的叠加，使描述图像特征的信息增多。 Bottleneck1包括第一个3×3的卷积层与第一个1×1的卷积层进行Add操作。 Bottleneck2包括第一个3×3的卷积层，第一个1×1的卷积层和Identity进行 Add操作。所述模型在推理前对残差结构进行重参数化，将Bottleneck1和 Bottleneck2分别转换为3×3的卷积层，最后将Rer转换为两个串联的3×3 的卷积层，转换后的单路结构可以大幅加快推理速度。具体的重参数化融合过程包括将各卷积层与BN层进行融合，卷积层可表示为：

Conv(x)＝W(x)+b

其中x表示输入向量，Conv表示卷积操作，W表示权重向量，b表示偏置。

BN层可表示为：

其中x表示输入向量，BN表示批归一化操作，mean表示输入向量的平均值， var表示输入向量的方差，β、γ表示可学习参数。

将卷积层结果带入BN层中得到融合结果，可表示为：

其中x表示输入向量，Conv表示卷积操作，BN表示批归一化操作，β、γ表示可学***均值， var表示输入向量的方差。所述残差结构中的1×1的卷积层，扩充为一个3×3 的卷积层，将其数值放在3×3的卷积层的中心位置，其余位置进行0填充。所述融合操作是一个重参数化的过程，可以使模型推理速度大幅提升。

第三步，在本发明中的一个实施例中，所述坐标注意力机制包括X、Y两个空间方向上的平均池化，可表示为：

其中x为指定输入，d表示通道数，使用(H,1)，(1,W)的平均池化核分别沿着水平方向和竖直方向的每个通道进行编码，i表示高度上的每一个特征点， j表示宽度上的每一个特征点，z表示X、Y两方向进行平均池化后的输出。坐标注意力机制使该模型更好的对复杂背景下的目标进行识别，分别将输入特征图的两个空间方向上的位置信息和空间信息聚合，获得鲁棒性更好的模型。

第四步，在本发明的一个实施例中，输入端利用K-means++聚类算法对训练图像集初始瞄框进行设定，该算法对输入的图像集X＝{x₁，x₂，...，x_n}和簇的个数k，从图像集中任意的选择一个样本点作为初始的聚类中心c₁，对于图像集中的每一个样本点x_i，计算得出两者之间的最短距离D(x)。D(x)数值较大的点被选为新的聚类中心的概率较大，重复上述步骤得到k个聚类中心。

第五步，在本发明的一个实施例中，选用Leaky relu激活函数和Mish激活函数作为基准网络的激活函数，使用Dropblock正则化方法来缓解模型训练中出现的过拟合现象，具体操作是在特征图中随机的丢弃成块的特征点。

第六步，在本发明的一个实施例中，模型的瓶颈网络部分选用SPP结构，该结构同时对输入特征图进行第一个1×1的最大池化层、第一个5×5的最大池化层和第一个9×9的最大池化层并将三种不同最大池化核进行池化后的特征图与原特征图进行Concat操作，以获得不同范围内的特征图视野。同时在特征融合部分选用FPN+PAN的结构，FPN结构的具体操作是将特征图进行两次上采样，得到语义信息更为丰富的特征图，PAN结构的具体操作是对特征图进行两次下采样，得到位置信息更为丰富的特征图，经过FPN+PAN的特征融合结构得到了位置与语义信息都极为丰富的特征图。

第七步，在本发明的一个实施例中，输出端包括CIOU_Loss损失函数，可表示为：

其中IOU表示真实框与预测框的交并比，是衡量目标检测准确度的一个标准， b^p表示预测框的中心点，b^gt表示真实框的中心点，ρ²(b^p,b^gt)表示预测框与真实框的中心点的欧氏距离，c表示真实框与预测框的最小外接矩形的对角线距离，v可以表示两类框在长宽比方面对于损失函数的影响，w^gt表示真实框的宽度，h^gt表示真实框的高度，w^p表示预测框的宽度，h^p表示预测框的高度，最后还选用CIOU改进后的NMS对众多候选框进行筛选，CIOU考虑到候选框的长宽比对结果的影响，所以筛选结果更加准确。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法的流程示意图；

图2为根据本发明实施例的基于重参数化残差结构和坐标注意力机制的 YOLOV4图像识别算法的模型结构示意图以及模型中各个模块的具体结构解释；

图3为本发明实施例提供的一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法中残差网络结构进行重参数化的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于重参数化残差结构和坐标注意力机制的YOLOV4的图像识别算法，首先将参照上面附图中描述根据本发明实施例提出的重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法。

图1是本发明一个实施例的基于重参数化残差结构和坐标注意力机制的 YOLOV4图像识别算法流程图。

图1所示，基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法包括以下步骤：

在步骤S101中，输入待识别图像集。

选用背景环境较为复杂且需要检测的目标较多的图像集，该图像集对模型的目标识别效果进行评价。

在步骤S102中，对训练图像集进行数据增强，并利用K-means++聚类算法计算得到训练图像集初始瞄框。

可以理解为，将训练图像集进行裁剪、缩放、饱和度变换等方式处理，并采用Mosaic数据增强操作，其具体原理是：提取训练集中的一个批量(batch)，并从中随机的抽取四张图片进行剪裁，拼接成一张新图片，重复此操作批量大小(batch size)次，最终将batch size个Mosaic处理过后的图片输入模型，该操作可以有效提升网络的训练速度。利用K-means++聚类算法得到该训练图像集的初始瞄框，该算法对输入的图像集X＝{x₁，x₂，...，x_n}和簇的个数k，从图像集中任意的选择一个样本点作为初始的聚类中心c₁，对于图像集中的每一个样本点x_i，计算得出两者之间的最短距离D(x)。D(x)数值较大的点被选为新的聚类中心的概率较大，重复上述步骤得到k个聚类中心。

在步骤S103中，获取如图2所示重参数化残差结构和坐标注意力机制的 YOLOV4模型，其中，重参数化残差结构和坐标注意力机制的YOLOV4模型以YOLOV4为基础，将模型中的残差网络结构改进为重参数化的残差网络结构，并在模型中添加坐标注意力机制，进行X、Y两空间方向的特征聚合。

可以理解为，如图2所示，输入图像的尺寸是608*608*3，该模型包括第一个CBM模块，第一个坐标注意力机制，第一个Rer1模块，第一个Rer2模块，第一个Rer8模块，第二个Rer8模块，第一个CBL*4模块，第一个CBL*3 模块，第一个SPP模块，第二个CBL*3模块，第一个CBL模块，将所得特征图进行上卷积操作后和第二个Rer8模块处理后的特征图经过第二个CBL模块后进行Concat操作，第一个CBL*5模块，第三个CBL模块经过上卷积操作后，和第一个Rer8模块处理后的特征图经过第四个CBL模块后，进行Concat 操作，第二个CBL*5模块，第五个CBL模块，第一个Conv模块，得到第一个预测的特征图大小为76*76*255，将第二个CBL*5模块处理后的特征图通过第六个CBL模块，并将其与第一个CBL*5模块处理得到的特征图进行 Concat操作，第三个CBL*5模块，第七个CBL模块，第二个Conv模块，得到第二个预测的特征图大小为38*38*255，将第三个CBL*5模块处理后的特征图通过第八个CBL模块，并将其与第二个CBL*3模块处理后得到的特征图进行Concat操作，第四个CBL*5模块，第八个CBL模块，第三个Conv模块，得到第三个预测的特征图大小为19*19*255。其中CBM模块包括第一个卷积层，第一个BN层和第一个Mish激活函数。CBL模块包括第一个卷积层，第一个BN层和第一个Leakyrelu激活函数。SPP模块是将输入特征图同时进行第一个最大池化核为1×1的Max pool模块，第一最大池化核为5×5的Max pool模块，第一个最大池化核为9×9的Maxpool模块，并与未处理过的特征图进行Concat操作，第一个CBL模块。坐标注意力机制是将输入特征图同时进行第一个XAVGpool模块和第一个YAVG pool模块，后进行Concat操作，第一个Conv模块，第一个BN层，第一个Leaky relu激活函数，将上一步输出同时进行第二个Conv模块，第二个Leaky relu激活函数，和第三个Conv 模块，第三个Leaky relu激活函数，将第二个Leaky relu激活函数处理过后的特征图和第三个Leaky relu激活函数处理过后的特征图，与未处理过的特征图进行Add操作。RerX模块由X组图2所示的模块串联而成，所述训练时运用的Rer模块包括第一个Bottleneck1与第一个1×1卷积层进行Add操作，经过 Mish激活函数，并通过第一个Bottleneck2与第二个1×1的卷积层进行Add 操作，最后通过Mish激活函数。Bottleneck1包括第一个3×3的卷积层，第一个1×1的卷积层进行Add操作。Bottleneck2包括第一个3×3的卷积层，第一个1×1的卷积层和Identity进行Add操作。所述模型在推理前对残差结构进行重参数化，将Bottleneck1和Bottleneck2分别转换为3×3的卷积层，最后将Rer模块转换为两个串联的3×3的卷积层，转换后的单路结构可以大幅加快推理速度，具体的融合部分如图3所示包括将各卷积层与BN层进行融合，卷积层可表示为：

Conv(x)＝W(x)+b

BN层可表示为：

将卷积层结果带入BN层中得到融合结果，可表示为：

其中x表示输入向量，Conv表示卷积操作，BN表示批归一化操作，β、γ表示可学***均值， var表示输入向量的偏差。Bottleneck1如图3中A1所示有两个分支，包括第一个1×1的卷积层和第一个3×3的卷积层，将第一个1×1的卷积层扩充为3×3的卷积层，将其数值放在3×3卷积层的中间位置，其余部分进行0的填充，填充结果如图3中A2所示。最后将两个3×3的卷积层进行合并，成为一个3×3的卷积层，如图3中A3所示。Bottleneck2如图3中A4所示，其中 Identity并不会改变输入的数值，所以将其转换为一个3×3的卷积层，所述残差结构中的1×1的卷积层，扩充为一个3×3的卷积层，将其数值放在3×3的卷积层的中心位置，其余位置进行0填充，所述过程完成后如图3中A5所示，残差结构包括的三个分支都变成了一个3×3的卷积层，将上述三种分支的权重和偏置进行叠加，得到一个新的3×3的卷积层，如图3中的A6所示。Rer模块由两个类似Bottleneck1的结构串联而成，经过Bottleneck1相同的融合过程，得到第一个3×3的卷积层，经过第一个Mish激活函数，第二个3×3的卷积层，最后通过第二个Mish激活函数，所述融合操作是一个重参数化的过程，可以使模型推理速度大幅提升。

图2为基于重参数化残差结构和坐标注意力机制的YOLOV4模型结构图，在第一个CBL后添加了坐标注意力机制，所述坐标注意力机制包括X、Y两个空间方向上的平均池化，可表示为：

其中x为指定输入，d表示通道数，使用(H,1)，(1,W)的平均池化核分别沿着水平方向和竖直方向的每个通道进行编码，i表示高度上的每一个特征点，j表示宽度上的每一个特征点，z表示X、Y两方向进行平均池化后的输出。坐标注意力机制使该模型更好的对复杂背景下的目标进行识别，将输入特征图的两个空间方向上的位置信息和空间信息进行聚合，获得鲁棒性更好的模型。图2 中的瓶颈网络部分为FPN+PAN的特征融合结构，SPP模块增大了网络的感受野，将不同尺度的特征融合到一起，最终输出三个不同尺度的预测图。如图2所示，网络的输出端通过一个CBL和一个Conv进行特征图预测。输出端包括CIOU_Loss损失函数，可表示为：

其中IOU表示真实框与预测框的交并比，是衡量目标检测准确度的一个标准， b^p表示预测框的中心点，b^gt表示真实框的中心点，ρ²(b^p,b^gt)表示预测框与真实框的中心点的欧氏距离，c表示真实框与预测框的最小外接矩形的对角线距离。v可以表示两类框在长宽比方面对于损失函数的影响，w^gt表示真实框的宽度，h^gt表示真实框的高度，w^p表示预测框的宽度，h^p表示预测框的高度，最后还选用CIOU改进后的NMS对众多候选框进行筛选，CIOU考虑到候选框的长宽比对结果的影响，所以筛选结果更加准确，其具体操作过程为：

第一步，将众多候选框中置信度最高的一个作为样本，其他的候选框与样本计算CIOU，可表示为；

其中IOU表示真实框与预测框的交并比，是衡量目标检测准确度的一个标准， b^p表示预测框的中心点，b^gt表示真实框的中心点，ρ²(b^p,b^gt)表示预测框与真实框的中心点的欧氏距离，c表示真实框与预测框的最小外接矩形的对角线距离。v可以表示两类框在长宽比方面对于损失函数的影响。

第二步，计算得到的CIOU值大于设定的阈值时，候选框则被移除；

重复进行上述步骤，将预测得到的大量重复的框进行筛选，得到准确的预测结果，CIOU考虑到了框与框之间的重叠面积、中心点间距以及框的长宽比，所以可以得到更为准确的预测结果。

在步骤S104中，根据重参数化残差结构和坐标注意力机制的YOLOV4 模型和训练图像集、验证图像集进行模型训练，以生成识别模型。

可以理解为，首先采用LabelImg工具进行图像集的制作，根据K-means++ 聚类算法计算得到训练图像集初始瞄框。训练过程中使用Adam优化器，该优化器综合考量了梯度的一节矩估计和二阶矩估计。所述Adam优化器的具体操作步骤为：

第一步，设置学***滑常数β₁，β₂分别用于平滑m和v，可学习参数的初始值设置为θ₀，m₀＝0，v₀＝0，t＝0；

第二步，在没有停止训练的前提下，训练次数更新为t＝t+1；

第三步，计算梯度g_t；

第四步，累计梯度可表示为：

m_t＝β₂*v_t-1+(1-β₂)*(g_t)²

第五步，偏差纠正m可表示为：

第六步，偏差纠正v可表示为：

第七步，更新参数可表示为：

其中ε为一个较小的常数，避免分母为0的情况出现。

为了避免过拟合现象的出现，采用DropBlock正则化方法和类标签平滑，DropBlock正则化方法具体操作为：随机抽取特征图中的成块特征点，进行丢弃。类标签平滑的具体操作是，将模型预测目标的上限调整为一个小于1.0的数值，一定程度上减轻了模型对预测结果的记忆性，使模型不会过于自信。

在步骤S105中，将待识别图像集输入重参数化残差结构和坐标注意力机制的YOLOV4识别模型，得到图像识别结果。

可以理解为，训练结束后会生成权重文件，调用生成的权重文件，根据重参数化残差结构和坐标注意力机制的YOLOV4模型进行测试，所述训练模型可以对复杂背景下的目标快速且准确的识别。

需要说明的是，前述对基于重参数化残差结构和坐标注意力机制的 YOLOV4图像识别算法实施例的解释说明也适用于该实施例的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别***，此处不再赘述。

根据本发明实施例的重参数化残差结构和坐标注意力机制的YOLOV4的图像识别算法及***，可以实现端到端的识别任务，可以全自动地对图像进行识别，且不受待识别图像背景复杂程度的限制，适用性强，模型性能好，具有鲁棒性，使目标识别不但速度快，而且精度高。

本发明实施例算法包括的全部步骤是可以通过程序指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括算法实施例的步骤之一或其组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或算法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、***或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、***或设备取指令并执行指令的***)使用，或结合这些指令执行***、***或设备而使用。就本说明书而言， "计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、***或设备或结合这些指令执行***、***或设备而使用的***。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子***)，便携式计算机盘盒(磁***)，随机存取存储器 (RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤***，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或算法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。

本技术领域的普通技术人员可以理解实现上述实施例算法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括算法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法，其特征在于，包括：

输入待识别图像集；

对训练图像集进行数据增强，并利用K-means++聚类算法计算得到图像集初始瞄框；

获取重参数化残差结构和坐标注意力机制的YOLOV4模型；

根据重参数化残差结构和坐标注意力机制的YOLOV4模型和训练图像集、验证图像集进行模型训练，以生成识别模型；

将待识别图像集输入重参数化残差结构和坐标注意力机制的YOLOV4识别模型，得到图像识别结果。

2.根据权利要求1所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法，其特征在于，所述YOLOV4模型包括输入端、主干网络、瓶颈网络、输出端四个部分。输入端将训练图像集进行数据增强，并利用K-means++聚类算法对该训练图像集进行初始瞄框的设定。主干网络选用Darknet53网络，其可以提取图像集的特征。瓶颈网络包括特征金字塔网络(Feature Pyramid Networks，FPN)和金字塔自注意力网络(Pyramid AttentionNetwork，PAN)，这两种结构可以提取图像集的复杂特征。输出端包括卷积模块，最终预测得到目标的位置和类别。

3.根据权利要求1所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法，其特征在于，所述网络中重参数化的残差结构(Reparametric residual structure，Rer)在模型训练时采用具有分支的残差结构，将具有分支的残差结构进行重参数化后得到单路卷积模块，在推理过程中使用上述单路卷积模块。

所述训练时运用的Rer包括第一个瓶颈模块1(Bottleneck1)与第一个1×1的卷积层进行Add操作，经过Mish激活函数，并通过第一个瓶颈模块2(Bottleneck2)与第二个1×1的卷积层进行Add操作，最后通过Mish激活函数。其中Add操作的具体原理是，在特征图维度不变的条件下，进行特征图信息的叠加，使描述图像特征的信息增多。Bottleneck1包括第一个3×3的卷积层和第一个1×1的卷积层进行Add操作。Bottleneck2包括第一个3×3的卷积层，第一个1×1的卷积层和原本输入(Identity)进行Add操作。所述模型在推理前对残差结构进行重参数化，将Bottleneck1和Bottleneck2分别转换为3×3的卷积层，最后将Rer转换为两个串联的3×3的卷积层，转换后的单路结构可以大幅加快推理速度。

4.根据权利要求1所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法，其特征在于，所述加入的坐标注意力机制可以对X、Y两个空间方向的特征图进行聚合，其包括X、Y两个空间方向上的平均池化，可表示为：

其中x为指定输入，d表示通道数，使用(H,1)，(1,W)的平均池化核分别沿着水平方向和竖直方向的每个通道进行编码，i表示高度上的每一个特征点，j表示宽度上的每一个特征点，z表示X、Y两方向进行平均池化后的输出，坐标注意力机制可以提取到一个空间方向上的位置精度信息和另一个空间方向上的远程依赖关系。

5.根据权利要求2所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法，其特征在于，所述YOLOV4模型的输入端包括Mosaic数据增强，首先将任意四张图片进行裁剪、缩小、透明度变换等基本处理，后将处理后的四张图片拼接成为一张新图，该操作不仅可以加快模型的推理速度，还可以对训练图像集进行数据增强。使用Dropblock正则化方法来缓解模型训练中出现的过拟合现象，具体操作是在特征图中随机的丢弃成块的特征点。

6.根据权利要求2所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法，其特征在于，所述YOLOV4模型的主干网络选用Darknet53，基准网络中的激活函数选用Mish激活函数和Leaky relu激活函数。

7.根据权利要求2所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法，其特征在于，所述YOLOV4模型的瓶颈网络，选用金字塔池化层(Spatial PyramidPooling Layer，SPP)，其包括同时对输入特征图进行第一个1×1最大池化层、第一个5×5最大池化层、第一个9×9最大池化层并将三种不同最大池化核进行池化后的特征图与原特征图进行Concat操作，其中Concat操作的具体原理是，描述图像特征的通道数增加，但是每个通道的信息并不会增加，以获得不同范围内的特征图视野。该模型还选用FPN+PAN的结构，FPN为特征图经过两次上采样，得到语义信息更为丰富的特征图，PAN为特征图进行两次下采样，得到位置信息更为丰富的特征图，最终将语义信息与位置信息都丰富的两种特征图进行叠加，获得能充分表达特征图信息的输出。

8.根据权利要求2所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法，其特征在于，所述YOLOV4模型的输出端包括完全IOU损失函数(Complete-IOU_Loss，CIOU_Loss)，可表示为：

其中IOU表示真实框与预测框的交并比，是衡量目标检测准确度的一个标准，b^p表示预测框的中心点，b^gt表示真实框的中心点，ρ²(b^p,b^gt)表示预测框与真实框的中心点的欧氏距离，c表示真实框与预测框的最小外接矩形的对角线距离，v表示两类框在长宽比方面对于损失函数的影响，w^gt表示真实框的宽度，h^gt表示真实框的高度，w^p表示预测框的宽度，h^p表示预测框的高度，最后还选用完全IOU(Complete-IOU，CIOU)改进后的NMS对众多候选框进行筛选。

9.根据权利要求3所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法，其特征在于，所述将训练时的残差结构改进为推理时的单路结构具体过程为，Identity相当于一个1×1的卷积层，而1×1的卷积层相当于一个将数值放在卷积层中心，并将0填充到其余位置后的3×3的卷积层。

10.一种基于重参数化残差结构和坐标注意力机制的YOLOV4目标识别***，其特征在于，包括：

输入模块，用于输入待识别图像集，数据格式为VOC格式；

数据增强与聚类模块，用于将输入训练图像集进行数据增强，并根据K-means++聚类算法计算得到训练图像集的初始瞄框；

获取模块，用于获取基于重参数化残差结构和坐标注意力机制的YOLOV4目标识别模型；

训练模块，用于根据所述基于重参数化残差结构和坐标注意力机制的YOLOV4目标识别模型和所述训练图像集、验证图像集进行模型训练，以生成识别模型；

识别模块，用于根据所述待识别图像集通过所述基于重参数化残差结构和坐标注意力机制的YOLOV4目标识别模型得到图像识别结果。

11.根据权利要求10所述的基于重参数化结构和坐标注意力机制的YOLOV4目标识别算法***，其特征在于，所述网络中可重参数化的残差结构在模型训练时采用具有分支的残差结构，将具有分支的残差结构进行重参数化，得到单路卷积模块，在推理过程中使用上述单路卷积模块。

12.根据权利要求10所述的基于重参数化结构和坐标注意力机制的YOLOV4目标识别算法***，其特征在于，所述加入的坐标注意力机制可以对X、Y两个空间方向的特征图进行聚合，其包括X、Y两个空间方向上的平均池化，可表示为：

其中x为指定输入，d表示通道数，使用(H,1)，(1,W)的平均池化核分别沿着水平方向和竖直方向的每个通道进行编码，i表示高度上的每一个特征点，j表示宽度上的每一个特征点，z表示X、Y两方向进行平均池化后的输出。坐标注意力机制可以提取到一个空间方向上的位置精度信息和另一个空间方向上的远程依赖关系。

13.根据权利要求10所述的基于重参数化结构和坐标注意力机制的YOLOV4目标识别算法***，其特征在于，所述输出端包括CIOU_Loss损失函数，可表示为：

其中IOU表示真实框与预测框的交并比，是衡量目标检测准确度的一个标准，b^p表示预测框的中心点，b^gt表示真实框的中心点，ρ²(b^p,b^gt)表示预测框与真实框的中心点的欧氏距离，c表示真实框与预测框的最小外接矩形的对角线距离，v可以表示两类框在长宽比方面对于损失函数的影响，w^gt表示真实框的宽度，h^gt表示真实框的高度，w^p表示预测框的宽度，h^p表示预测框的高度，最后还选用CIOU改进后的NMS对众多候选框进行筛选。