CN114913438A

CN114913438A - 一种基于锚框最优聚类的YOLOv5园林异常目标识别方法

Info

Publication number: CN114913438A
Application number: CN202210313455.3A
Authority: CN
Inventors: 张晖; 李可欣; 赵海涛; 朱洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-08-16

Abstract

本发明公开了一种基于锚框最优聚类的YOLOv5园林异常目标识别方法，包括：采集园林垃圾样本图像，并对园林垃圾样本图像进行标注，构建园林垃圾图像数据集；利用改进的K‑means算法对园林垃圾图像数据集进行锚框聚类，得到最优的9个锚框；根据最优的9个锚框设置YOLOv5网络模型的锚框尺寸，并对YOLOv5网络模型进行训练，得到训练好的YOLOv5网络模型，利用训练好的YOLOv5网络模型实现园林垃圾识别。在智慧园林场景中，利用本发明的方法，可以将无人机拍摄的视频和图片信息中的粘连的垃圾精准的识别出来，提高了垃圾识别的召回率和准确率，大大减轻了园林中人力和物力的投入，减少了人工巡检的工作。

Description

一种基于锚框最优聚类的YOLOv5园林异常目标识别方法

技术领域

本发明涉及一种基于锚框最优聚类的YOLOv5园林异常目标识别方法，属于目标识别和计算机视觉领域。

背景技术

为了保证园林的环境，提高游客的游园体验，需要对园林进行养护管理。但现有的园林管理***中依靠于人力操作的环节过多。比如针对园林中的垃圾处理，一般由保洁人员对责任区域进行不间断的巡查，对垃圾进行清理，保证园林环境的整洁。但是由于园林的面积较大，要保证园林环境的时刻整洁需要投入大量的人力和物力，为了减少对人力和物力的浪费，现今大部分智慧园林都采用无人机对园林中的情况进行动态的监控，然后利用目标识别等算法对监控信息进行智能分析。随着深度学习在计算机视觉领域的飞速发展，目标识别技术作为计算机视觉领域的一部分也得到了突破性的发展。然而由于无人机采集的图片信息中，垃圾的尺寸与整张图片尺寸相比是非常小的，在标注时，手动标记的框与图片中真实目标之间有一定的差距，但是由于目标很小，此时仍然采用原始聚类方式(即距离由IOU进行计算)来聚类锚框，标注时较小的差距会对聚类的结果造成很大的影响，因此识别效果并不好。当锚框过大时会导致将粘连目标识别成一个目标，甚至尺寸相差较大的两个目标发生粘连时，尺寸较小的目标根本不会被识别出来，导致召回率和准确率都比较低。

综上所述，如何在现有技术上提出准确的识别园林中的小目标成为了目前业内人士所亟待解决的问题。

发明内容

本发明所要解决的技术问题是：提供一种基于锚框最优聚类的YOLOv5园林异常目标识别方法，解决了现有技术对园林中粘连的垃圾识别召回率和准确率低的问题。

本发明为解决上述技术问题采用以下技术方案：

一种基于锚框最优聚类的YOLOv5园林异常目标识别方法，包括如下步骤：

步骤1，采集园林垃圾样本图像，并对园林垃圾样本图像进行标注，构建园林垃圾图像数据集；

步骤2，利用改进的K-means算法对园林垃圾图像数据集进行锚框聚类，得到最优的9个锚框；

步骤3，根据最优的9个锚框设置YOLOv5网络模型的锚框尺寸，并对 YOLOv5网络模型进行训练，得到训练好的YOLOv5网络模型，利用训练好的 YOLOv5网络模型实现园林垃圾识别。

作为本发明的一种优选方案，所述步骤1中，在对园林垃圾样本图像进行标注前，对园林垃圾样本图像进行平移、旋转和滤波预处理，再通过LabelImg进行标注。

作为本发明的一种优选方案，所述步骤2的具体过程如下：

步骤2.1，对园林垃圾图像数据集中的每张图像进行去背景操作；

步骤2.2，对于去背景后的任意一张图像q_m，根据以下公式找到图像的第一个聚类中心：

其中，P表示去除背景后，图像中的所有像素点的个数；H_i表示第i个像素点p_i的色调分量值；

表示去背景操作前，对每张图像转换颜色空间后得到的图像中所有像素点的色调分量的平均值；

步骤2.3，找到下一个聚类中心，具体如下：

计算图像q_m中每个像素点p_i到目前已选出来的所有聚类中心的最短多维融合距离，计算公式如下：

其中，D(p_i)表示像素点p_i到目前已选出来所有的聚类中心的最短多维融合距离，D_k(p_i)表示像素点p_i到聚类中心c_k的多维融合距离，K表示目前已选出来的所有聚类中心个数；H_i、H_k分别表示像素点p_i的色调分量、聚类中心c_k的色调分量，(x_i,y_i)表示像素点p_i相对于整个图像的坐标，(x_k,y_k)表示聚类中心c_k相对于整个图像的坐标，整个图像以左上角为坐标原点，宽为x轴，长为y轴，一个像素为一个单位；

计算每个像素点p_i成为下一个聚类中心的概率，其概率用P(p_i)表示，计算公式如下：

按照概率的大小决定其概率范围的大小，并将所有的概率范围随机依次分布到0-1之间，在0-1范围内产生一个随机数，选取随机数所在的概率范围对应的像素点作为下一个聚类中心；

步骤2.4，根据基于聚类评价系数的迭代终止条件判断是否需要选取新的聚类中心，如果需要则重复步骤2.3；

定义聚类评价系数f，根据聚类评价系数来决定聚类中心的个数，聚类评价系数的公式如下：

其中，f(K)表示目前已选出K个聚类中心时的聚类评价系数；μ_K表示每个像素点p_i到当前已有聚类中心之间的最短多维融合距离的均值；

表示每个像素点p_i到当前已有聚类中心之间的最短多维融合距离的方差；

基于聚类评价系数的迭代终止条件分为以下三种情况：

情况1，按照步骤2.3的过程增加一个聚类中心，增加后的聚类中心个数为K+1，增加后的聚类评价系数为f(K+1)，增加后像素的聚合程度增加，说明增加后聚类效果更好，当增加的程度超过ε，即f(K)-f(K+1)≥ε时，需要继续增加，其中，ε为大于0的阈值；

情况2，按照步骤2.3的过程增加一个聚类中心，增加后的聚类中心个数为 K+1，增加后的聚类评价系数为f(K+1)，当增加后像素的聚合程度增加范围在 (0,ε)之间，即0＜f(K)-f(K+1)＜ε时，停止增加，最终的聚类中心个数为K+1；

情况3，按照步骤2.3的过程增加一个聚类中心，增加后的聚类中心个数为 K+1，增加后的聚类评价系数为f(K+1)，当f(K)-f(K+1)＜0时，停止增加，最终的聚类中心个数为K；

步骤2.5，找到所有的聚类中心后，计算图像中某像素点到各个聚类中心的多维融合距离，将该像素点分到最短多维融合距离所对应的聚类中心的类别中；

步骤2.6，对于新增加像素点的类别重新计算聚类中心，具体为：设园林垃圾图像数据集S中最大垃圾标记的尺寸为W_max、L_max，则其对角线长度为

新增加像素点的类别的聚类中心当前为c，若新增加的像素点到当前聚类中心c的欧氏距离大于R_max，则更新后的聚类中心仍为c，若新增加的像素点到当前聚类中心的欧氏距离小于R_max，则更新后的聚类中心为

分别为该类别中所有像素点横坐标与纵坐标的平均值，公式如下：

其中，N表示该类别当前像素点的个数，x_n、y_n分别为该类别中第n个像素点的横、纵坐标值；

步骤2.7，重复步骤2.5和2.6，直到聚类中心的位置不再发生变化；

步骤2.8，根据每个类别中所有像素点的坐标最值x_min、x_max、y_min、y_max，确定锚框的上下左右四个边界，得到锚框；

步骤2.9，对去背景后的数据集Q中每张图像进行步骤2.2到2.8操作，得到所有的锚框；

步骤2.10，根据基于0-1模型的多帧锚框最优选择，得到最优的9个锚框。

作为本发明的一种优选方案，所述步骤2.1的具体过程如下：

将园林垃圾图像数据集S＝{s₁,s₂,...,s_M}中每张图像s_m的RGB三个颜色分量转换成HSV三个颜色分量，得到转换颜色空间后的图像，计算每张转换颜色空间后的图像中所有像素点的色调分量的平均值

将转换颜色空间后的图像与掩膜进行运算得到感兴趣区域，即提取转换颜色空间后的图像中色调分量在

范围之外的像素点，得到去背景后的数据集Q＝{q₁,q₂,...,q_M}， m＝1,…,M，M为园林垃圾图像数据集中的图像数量。

作为本发明的一种优选方案，所述步骤2.10的具体过程如下：

将去背景后的数据集Q中所有图像得到的锚框排列成一个集合 E＝{E₁,E₂,...,E_T}，E_t表示第t个锚框，T表示所有锚框数量，以每个锚框为单位，以每个锚框的左上角为原点，向下为y轴，向右为x轴建立坐标系，得到框内所有聚类像素点的坐标；根据框内像素点的聚合度与锚框面积大小的均匀度建立 0-1模型求得要选择的最优锚框，0-1模型的公式如下：

其中，S_t表示第t个锚框的面积大小；a_t只有0、1两种取值；γ表示调节系数；d_t表示第t个锚框的框内所有聚类像素点到锚框中心点的距离，其公式如下式所示：

其中，(x_j,y_j)、(x_c,y_c)分别表示锚框内第j个像素点的坐标和锚框中心点的坐标；L_t和W_t表示第t个锚框的长和宽；L表示锚框内所有聚类像素点的个数。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明针对园林场景背景单一的特点，去除多余背景，减少迭代，提高聚类速度。

2、本发明提出最优聚类方法，聚类YOLOv5模型的锚框尺寸，提高垃圾识别的准确率和召回率。

3、本发明方法能够在智慧园林场景中将无人机拍摄的视频和图片信息中的垃圾精准的识别出来，大大减轻了园林中人力和物力的投入，减少了人工巡检的工作。

附图说明

图1是本发明基于锚框最优聚类的YOLOv5园林异常目标识别方法的流程图；

图2是YOLOv5-s网络结构图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明提出的基于锚框最优聚类的YOLOv5园林异常目标识别方法流程图如图1所示，具体过程如下：

步骤1、通过无人机采集园林垃圾样本图像，并对园林垃圾样本图像进行标注，构建园林垃圾图像数据集；

步骤1中还包括在对数据集标记前，对数据集中图像进行平移、旋转、滤波等预处理；然后通过LabelImag标记数据集。

步骤2、利用改进的K-means算法对园林垃圾数据集进行锚框聚类；具体如下：

(1)去除背景。在聚类之前首先对数据集中每张图片进行去除背景操作，将数据集S＝{s₁,s₂,...,s_M}中每个图片的RGB三个颜色分量转换成HSV三个颜色分量，然后计算每个图像中的所有像素点的色调分量(H)的平均值

数据集中图片的大小为W_p×L_p；将转换颜色空间后的图像与掩模进行运算得到感兴趣区域，提取图片中像素的H分量在

范围之外的像素点，得到处理后的数据集Q＝{q₁,q₂,...,q_M}；

(2)选取首个聚类中心。选取图片的第一个聚类中心点c₁，该聚类中心由以下公式计算得到：

其中，P表示去除背景后，图片中的所有像素点的个数；H_i表示第i个像素点的H分量值。

(3)找到下一个聚类中心。计算图片中每个像素点p_i到目前已经选出来的所有聚类中心的最短多维融合距离，计算公式如下：

其中，用D(p_i)表示图片中像素点p_i到目前已经选出来所有的聚类中心的最短多维融合距离，K表示现在已有的聚类中心点个数。D_k(p_i)表示像素点p_i到聚类中心c_k的多维融合距离，H_i，H_k分别表示像素点p_i的色调H分量、聚类中心 c_k的色调H分量，(x_i,y_i)，(x_k,y_k)分别表示像素点p_i相对于整个图像的坐标，聚类中心c_k相对于整个图像的坐标，整个图片以左上角为坐标原点，宽为x轴，长为y轴，一个像素为一个单位。

根据图片中所有像素点的最短多维融合距离计算每个像素点成为下个聚类中心的概率，其概率用P(p_i)表示，计算公式如下：

按照概率的大小决定概率范围的大小，并将其随机依次分布到0-1之间，然后在0-1范围内产生一个随机数，随机数落在哪个概率范围内，就选取该概率所对应的像素点作为新的聚类中心。

(4)根据基于聚类系数的迭代终止条件进行判断，是否需要选取新的聚类中心，则重复(3)，根据条件找到所有的聚类中心点，基于聚类系数的迭代终止条件如下：

定义一种聚类评价系数f，根据聚类评价系数来决定聚类中心的个数。聚类中心评价系数的公式如下：

其中，f(K)表示当有K个聚类中心时的聚类评价系数；μ_K表示每个像素点 p_i到当前已有聚类中心之间的最短多维融合距离的均值；

表示每个像素点p_i到当前已有聚类中心之间的最短多维融合距离的方差；当均值和方差越小的时候说明像素点的聚合度越高，聚类效果越好。

据聚类中心评价系数提出一种基于聚类系数的迭代终止条件，根据聚类的效果，确定聚类中心的个数。迭代终止条件分为以下三种情况：

1)按本发明提出的基于K-means的锚框最优聚类方法增加一个聚类中心，增加后的聚类中心个数为K+1，增加后像素的聚合程度增加，说明增加后聚类效果更好，当增加的程度超过ε时，说明需要继续迭代，其中，ε为大于0的阈值。

f(K)-f(K+1)≥ε

2)按本发明提出的基于K-means的锚框最优聚类方法增加一个聚类中心，增加后的聚类中心个数为K+1，增加后像素的聚合程度有增加但是增加的程度不大，即增加的范围在(0,ε)之间时，说明即使继续增加聚类中心，聚类效果也不会变化特别大。此时停止迭代，聚类中心个数为K+1。

0＜f(K)-f(K+1)＜ε

3)按本发明提出的基于K-means的锚框最优聚类方法增加一个聚类中心，增加后的聚类中心个数为K+1，增加后像素点的聚合程度反而减小，聚类的效果变差。则说明当有K个聚类中心时，像素点的聚合程度已经达到最好的效果。则在聚类中心为K个时停止迭代，聚类中心的个数为K。

f(K)-f(K+1)＜0

(5)找到所有的聚类中心后，计算图像中每个像素点到各个聚类中心的多维融合距离，将该像素点分到最短多维融合距离所对应的聚类中心的类别中。

(6)针对每个类别重新计算它的聚类中心。计算方法：设数据集S中最大垃圾标记的尺寸为W_max、L_max，则其对角线为

若当前分到该类聚类中心c的像素点到当前聚类中心的欧氏距离大于R_max，则更新后的聚类中心仍为c。若当前分到该类聚类中心c的像素点到当前聚类中心的欧氏距离小于R_max，则更新后的聚类中心为

分别为该类别当前像素点横坐标与纵坐标的平均值，公式如下：

其中，N表示某类别当前像素点的个数。

(7)重复(5)和(6)直到聚类中心的位置不再发生变化。

(8)根据每个类别中所有像素点的坐标最值x_min、x_max、y_min、y_max确定框的上下左右四个边界，得到锚框。

(9)对数据集Q中每张图片进行(2)到(8)操作，得到所有的锚框。

(10)根据基于0-1模型的多帧锚框最优选择，得到最优的9个锚框。基于 0-1模型的多帧锚框最优选择步骤如下：

每张图片中选取的锚框个数不同，在建立0-1模型之前先进行数据处理。首先把所有图片选取的锚框排列成一个集合E＝{E₁,E₂,...,E_T}，然后以每个锚框为单位，以每个锚框的左上角为原点，向下为y轴，向右为x轴建立坐标系，得到框内所有聚类像素点的坐标。根据框内像素点的聚合度与锚框面积大小的均匀度建立0-1模型求得要选择的最优锚框。0-1模型的公式如下：

其中，d_t表示第t个锚框的框内所有聚类像素点到锚框中心点的距离； (x_j,y_j)、(x_c,y_c)分别表示锚框内第i个像素点的坐标和锚框中心点坐标；L_t和W_t表示第t个锚框的长和宽；S_t表示第t个锚框的面积大小；γ表示调节系数；a_t只有0、1两种取值；L表示锚框内所有像素点。

步骤3、根据聚类结果设置YOLOv5模型的锚框尺寸，训练网络模型，进行园林垃圾识别。

设置YOLOv5网络模型的锚框尺寸，训练网络模型，YOLOv5有四种量级的网络结构，分别是YOLOv5-s、YOLOv5-m、YOLOv5-l和YOLOv5-x。YOLOv5-s 是四种结构中网络深度最浅且训练速度最快的网络，其他结构的网络层数依次增加。所以本发明选取YOLOv5-s进行训练，网络结构模型图如图2所示。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于锚框最优聚类的YOLOv5园林异常目标识别方法，其特征在于，包括如下步骤：

步骤3，根据最优的9个锚框设置YOLOv5网络模型的锚框尺寸，并对YOLOv5网络模型进行训练，得到训练好的YOLOv5网络模型，利用训练好的YOLOv5网络模型实现园林垃圾识别。

2.根据权利要求1所述的基于锚框最优聚类的YOLOv5园林异常目标识别方法，其特征在于，所述步骤1中，在对园林垃圾样本图像进行标注前，对园林垃圾样本图像进行平移、旋转和滤波预处理，再通过LabelImg进行标注。

3.根据权利要求1所述的基于锚框最优聚类的YOLOv5园林异常目标识别方法，其特征在于，所述步骤2的具体过程如下：

步骤2.3，找到下一个聚类中心，具体如下：

基于聚类评价系数的迭代终止条件分为以下三种情况：

情况2，按照步骤2.3的过程增加一个聚类中心，增加后的聚类中心个数为K+1，增加后的聚类评价系数为f(K+1)，当增加后像素的聚合程度增加范围在(0,ε)之间，即0＜f(K)-f(K+1)＜ε时，停止增加，最终的聚类中心个数为K+1；

情况3，按照步骤2.3的过程增加一个聚类中心，增加后的聚类中心个数为K+1，增加后的聚类评价系数为f(K+1)，当f(K)-f(K+1)＜0时，停止增加，最终的聚类中心个数为K；

4.根据权利要求3所述的基于锚框最优聚类的YOLOv5园林异常目标识别方法，其特征在于，所述步骤2.1的具体过程如下：

范围之外的像素点，得到去背景后的数据集Q＝{q₁,q₂,...,q_M}，m＝1,…,M，M为园林垃圾图像数据集中的图像数量。

5.根据权利要求3所述的基于锚框最优聚类的YOLOv5园林异常目标识别方法，其特征在于，所述步骤2.10的具体过程如下：

将去背景后的数据集Q中所有图像得到的锚框排列成一个集合E＝{E₁,E₂,...,E_T}，E_t表示第t个锚框，T表示所有锚框数量，以每个锚框为单位，以每个锚框的左上角为原点，向下为y轴，向右为x轴建立坐标系，得到框内所有聚类像素点的坐标；根据框内像素点的聚合度与锚框面积大小的均匀度建立0-1模型求得要选择的最优锚框，0-1模型的公式如下：