CN111985316B

CN111985316B - 一种用于道路智能清扫的路面垃圾感知方法

Info

Publication number: CN111985316B
Application number: CN202010662790.5A
Authority: CN
Inventors: 赵健成; 顾昕程; 林亚兰; 徐江; 高传宝
Original assignee: Shanghai Fujie Technology Co ltd
Current assignee: Shanghai Fujie Technology Co ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2023-09-19
Anticipated expiration: 2040-07-10
Also published as: CN111985316A

Abstract

本发明公开了一种用于道路智能清扫的路面垃圾感知方法，包括建立了并标注垃圾图像数据库；采用数据增强方法包括图像的几何变换，颜色变换；图像的随机缩放裁剪和排布；利用生成对抗网络扩充数据域；采用目标检测与密度估计联合感知，路面上存在的大垃圾和小垃圾进行定位和识别；通过目标检测得到垃圾的矩形框和标签后，将矩形框转为密度图的形式，并根据不同的标签赋值不同的密度权重；将以上转换得到的密度图与密度估计算法生成的密度图向结合得到最终的路面垃圾密度图像；计算出候选清扫点，输入路径规划模块。本发明基于上述得到的垃圾分布信息，输入路径规划模块，调整行驶路径，实现清扫车智能清扫，具有很高的实用价值。

Description

一种用于道路智能清扫的路面垃圾感知方法

技术领域

本发明涉及人工智能领域，尤其涉及一种用于道路智能清扫的路面垃圾感知方法。

背景技术

A:张鹏程.一种融合移动边缘计算和深度学习的城市街道垃圾检测和清洁度评估方法。采用Faster R-CNN目标检测网络实现对路面垃圾的检测。可检测的垃圾类别包括：废纸，塑料袋，塑料瓶，易拉罐等。但是对于树叶，树枝，烟头等密集小垃圾无法有效检测。且训练样本较少，仅采用321张垃圾图像作为训练数据集，无法使网络模型得到充分的学习。

B:Mohammad Saeed Rad.A Computer Vision System to Localize andClassify Wastes on the Streets。采用基于深度卷积的目标检测网络实现对路面小垃圾的检测和识别，包括树叶，烟头和树叶堆等。对稀疏的小目标有较好的效果，但是当目标高度重叠时无法有效感知。且算法对图像分辨率要求较高，当图像分辨率较低时无法有效的检测，而高分辨率图像会很大影响算法的实时性。同时为了消除相机的透视变换带来的目标尺度变化，摄像头安装时成像平面要求与地面平行，这也为垃圾检测工作带来了一定的复杂度。

由于小垃圾所占像信息较少，高度重叠后外观特征变化大，A,B所采用的常规目标检测模型无法对密集小垃圾有效的检测，且用于模型训练的垃圾数据较少，模型无法得到充分的学习，这也不利于路面垃圾的检测。

发明内容

1、本发明的目的

本发明为了提高小垃圾的检测准确率和有效性，而提出了一种用于道路智能清扫的路面垃圾感知方法。

2、本发明所采用的技术方案

本发明公开了一种用于道路智能清扫的路面垃圾感知方法，包括：

建立了并标注垃圾图像数据库；

采用数据增强方法包括图像的几何变换，颜色变换；图像的随机缩放裁剪和排布；利用生成对抗网络扩充数据域；

采用目标检测与密度估计联合感知，路面上存在的大垃圾和小垃圾进行定位和识别；

通过目标检测得到垃圾的矩形框和标签后，将矩形框转为密度图的形式，并根据不同的标签赋值不同的密度权重；将以上转换得到的密度图与密度估计算法生成的密度图向结合得到最终的路面垃圾密度图像；

计算出候选清扫点，输入路径规划模块。

优选的，对每张图像中的目标都做标注，有两种标注格式，一种是用于垃圾目标检测的矩形框标注格式；另一种是用于垃圾密度估计的点标注格式。

优选的，数据增强算法，

(1)几何变换上的增强方法，包括图像翻转，图像旋转，图像缩放等；

(2)颜色变换上的增强方法，包括添加噪声，颜色扰动，图像模糊；

(3)采用Mosaic数据增强方法，随机选取图片，进行随机缩放，裁剪和排布，最终拼接为1张图像；

(4)采用了基于GAN生成对抗网络的数据增强方法；包括一个生成器和一个判别器；生成器负责生成伪图像，而判别器负责鉴别图像真假；通过两者之间的博弈，使得双方的生成和鉴别能力不断提高。

优选的，建立路面分割神经网络的框架结构，采用的是yolact框架结构。

优选的，大垃圾的目标检测网络Yolov3框架；其采用darknet53作为特征提取网络。

优选的，垃圾目标检测网络模型的训练：

搭建好神经网络结构之后在数据集上对网络模型进行训练，采用迁移学习的方法对模型进行训练；先在COCO数据集上预训练通用目标检测模型，然后在垃圾数据集上进行微调，最终得到垃圾检测模型；通过将先前在通用数据集上学到的知识迁移到现在之上。

优选的，还采用了交叉验证的方式对模型进行训练，过程如下：

(1)假设现在有n张图片组成的训练数据集，将其等分为m份；

(2)每次取出1份数据作为验证集的唯一元素，而其他m-1份数据都作为训练集用于训练模型和调参；

(3)最终训练得到了m个模型，在每次训练过程中用验证集对每个模型进行评估，每次都能得到一个MSE，最终将所有得到的MSE取平均，得到该种模型的评分；

MSE具体计算公式如下：

(4)通过每种模型的评分高低，选择最优模型的超参数作为最终的超参数设置。

优选的，在训练过程中，采用DIOU_Loss作为垃圾检测网络的训练损失；其计算公式如下：

优选的，建立垃圾密度估计神经网络的框架结构：采用的是MCNN框架；池化层为2x2的最大池化，激活函数为ReLU；最后各列输出的结果合并到一起，并使用1x1的卷积核转换成最终的密度图像得到图像中密集小垃圾的密度图。

3、本发明所采用的有益效果

(1)本发明中建立了并标注了千张路面垃圾图像数据库。其中包含多种路面垃圾，如瓶子，食品包装袋，纸团，树叶，烟头，果皮等。为之后神经网络模型的训练提供了数据基础。

(2)本发明为了强化已有数据集，使模型在现有数据集中得到充分学习并减轻模型在训练过程中的过拟合程度。采用了多种数据增强方法。如：图像的几何变换，颜色变换；图像的随机缩放裁剪和排布；利用生成对抗网络扩充数据域等

(3)目前在该领域的相关工作中，往往采用目标检测网络试图对路面垃圾进行精确定位和识别，但是由于垃圾密集程度不定，尺度不定，以及相机透视变换和畸变带来的影响，目标检测网络往往无法对路面垃圾有效感知。本发明采用目标检测与密度估计联合感知的方案对路面上存在的大垃圾和小垃圾进行有效的定位和识别。经验证，该方案正确性好，实时性高，鲁棒性强。

(4)本发明通过目标检测得到垃圾的矩形框和标签后，将矩形框转为密度图的形式，并根据不同的标签赋值不同的密度权重；将以上转换得到的密度图与密度估计算法生成的密度图向结合得到最终的路面垃圾密度图像；该密度图像拥有丰富的路面垃圾位置分布信息。

(5)基于上述得到的垃圾分布信息，可以通过一定的策略计算出候选清扫点(比如取密度图的局部最大中心)，输入路径规划模块，调整行驶路径，实现清扫车智能清扫，具有很高的实用价值。

附图说明

图1为整体结构图；

图2为图像分割仿真图；

图3为yolact路面分割网络结构图；

图4为路面分割实例示意图；

图5为Yolov3网络结构图；

图6为垃圾密度估计实例示意图；

图7为目标检测矩形框转化为密度图；

图8为密度图融合结果仿真图；

图9为道路智能清扫的路面垃圾感知仿真图。

具体实施方式

下面结合本发明实例中的附图，对本发明实例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实例作进一步地详细描述。

实施例1

如图1，考虑到该领域现存数据集较少，本发明自行采集了垃圾检测数据集，其中包含1000张路面垃圾图像样本，本发明对每张图像中的目标都做了可靠的标注，有两种标注格式，一种是用于垃圾目标检测的矩形框标注格式(class，x，y，w，h)，其中第一个参数class代表标注内容的类别，第二个参数x代表归一化后目标中心点的x坐标，第三个参数y代表归一化后目标中心点的y坐标，第四个参数w代表归一化后的目标框宽度，第五个参数h代表归一化后的目标框高度。还有一种是用于垃圾密度估计的点标注格式(x，y)，其中第一个参数x表示目标中心点的x坐标，第二个参数y表示目标中心店的y坐标。点标注格式通过卷积运算可以生成密度图数据格式。

数据集增强

为了增强数据集，扩充数据集数量强化数据集分布，使模型得到更充分的学习并减轻过拟合程度，本发明采取了一系列数据增强算法。常见的有图像几何变换上的增强方法，如图像翻转，图像旋转，图像缩放等。也有图像颜色变换上的增强方法，如添加噪声，颜色扰动，图像模糊等。通过这类数据增强方法，很大程度上增加了数据集的规模，同时提高了训练模型的泛化能力。

除此以外本发明还采用了Mosaic数据增强方法，随机选取4张图片，进行随机缩放，裁剪和排布，最终拼接为1张图像。此类数据增强方法一方面可以扩充数据规模，另一方面可以提高模型对小目标的识别能力。同时由于生成样本的随机性，这种方法可以很大程度上减缓由于模型过度训练导致的过拟合。

最后本发明还采用了基于GAN生成对抗网络的数据增强方法。生成对抗网络是一种生成模型，主要结构包括一个生成器和一个判别器。生成器负责生成伪图像，而判别器负责鉴别图像真假。通过两者之间的博弈，使得双方的生成和鉴别能力不断提高。通过在特定数据集下训练这种网络，利用训练好的网络模型本发明可以生成高度逼近训练样本分布的新样本，以此达到扩充数据集，增强训练集分布特性的目的，同时由于数据集分布得到增强，数据集中存在的弱干扰因子被削弱，大大减小了模型训练过拟合的风险。

建立路面分割神经网络的框架结构

如图3所示，整个网络本发明采用的是yolact框架结构。首先使用ResNet101作为backbone，它有五个卷积模块,分别是conv1,...,conv5，这五个模块的输出分别对应图上的C1到C5。之后P3-P7是FPN网络。P5是由C5经过一个卷积层得到的；接着对P5进行一次双线性插值将其放大，与经过卷积的C4相加得到P4；同样的方法得到P3。此外，还对P5进行了卷积得到P6，对P6进行卷积得到P7。接下来是并行的操作，P3被送入Protonet，同时P3-P7被送入Prediction Head。Protonet结构由多个3x3卷积层、上采样层和一个1x1的卷积层组成，使用了Relu作为激活函数。与Protonet并行的PredictionHead首先是三个分支共享的3x3卷积层，然后是每一个分支有各自的3x3的卷积层。最后为了产生instance mask，本发明将mask coefficient作为系数，将prototype分支的结果进行线性组合。将线性组合后结果经过sigmoid函数产生最后的masks。通过前述的路面分割神经网络本发明可以得到图像中路面对应的mask，将mask覆盖在原图像后可以提取出图像的路面区域。

如图5所示，用于垃圾感知(大垃圾)的目标检测网络本发明采用的是Yolov3框架。其采用darknet53作为特征提取网络，包括从第0层到第74层，它由一系列的1x1和3x3的卷积层组成，每个卷积层后有一个BN层和一个Leaky-ReLU层，同时Darknet53也采用了残差连接。Darknet53之后的第75层到105层是yolo网络的特征交互层，分别在三个尺度进行边界框的预测，第一个尺度中，特征图经过了32倍的下采样，适合检测图像中尺寸较大的目标。第二个尺度中，特征图经过了16倍的下采样，具有中等大小的感受野，适合检测中等尺寸的目标。第三个尺度中，特征图经过了8倍的下采样，特征图分辨率较大，适合检测小尺寸的目标。通过在三个尺度下就行预测，输出最终的结果。

通过前述的目标检测神经网络本发明可以得到图像中相对较大的垃圾的边界框(boundingbox)和所属标签(label)。从而得到大垃圾的类别及分布信息。

垃圾目标检测网络模型的训练

搭建好神经网络结构之后本发明需要在数据集上对网络模型进行训练，在此，本发明采用迁移学习的方法对模型进行训练。迁移学习就是将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。其主要思想为：从相关领域中迁移标注数据或者知识结构，完成或改进目标领域或任务的学习效果。本发明先在COCO数据集上预训练通用目标检测模型，然后在垃圾数据集上进行微调，最终得到垃圾检测模型。通过这种方式，即缓解了样本数量不足的问题，还可以节省训练的时间，并且通过将先前在通用数据集上学到的“知识”迁移到现在所学之上，大大降低了模型训练难度，提高了模型的性能。

为了充分利用已有数据集，本发明还采用了交叉验证的方式对模型进行训练。通常情况下，本发明会把数据集分成两份，一份是训练数据集，一份使测试数据集，这种方法简单但是存在两个弊端：1.由于数据集的不同划分导致训练集和测试集数据分布之间的差异，最终的模型与参数的选取将极大程度受到分割方式的影响。2.该方法只使用了部分数据进行模型的训练。一般情况下，用于模型训练的数据量越大，训练出来的模型性能越高。但是由于测试集的存在，一部分数据没有用于模型的训练，因此会导致一定程度的性能损失。基于这两点弊端，本发明使用交叉验证的方法对模型进行训练。交叉验证过程如下：

(1)假设现在有n张图片组成的训练数据集，将其等分为m份；

(3)最终训练得到了m个模型，在每次训练过程中用验证集对每个模型进行评估，每次都能得到一个MSE，最终将所有得到的MSE取平均，得到该种模型的评分。

MSE具体计算公式如下：

(4)通过每种模型的评分高低，本发明可以选择最优模型的超参数作为最终的超参数设置。

通过这种交叉验证的训练方式，让数据集中每个图像样本都曾作为训练集和验证集，以此使的验证结果更稳定，更具代表性。

在训练过程中，本发明采用DIOU_Loss作为边界框损失函数，而不是常见的IOU损失。损失函数用来计算真实值与预测值之间的距离，通过最小化损失函数达到训练模型的目的。最常用的IOU损失则计算的是真实框与预测框的交并比。

其计算公式如下：

它存在两个问题：1、当预测框和目标框不相交时，IOU＝0，无法反应两个框距离的远近，此时损失函数不可导，IOU_Loss无法优化两个框不相交的情况。2、当两个预测框大小相同，两个IOU也相同，IOU_Loss无法区分两者相交情况的不同。

针对以上情况本发明采用更优的DIOU_Loss作为垃圾检测网络的训练损失。

其计算公式如下：

这种损失函数很好的解决了IOU_Loss存在的两种问题，同时也考虑了边界框中心点的距离信息。经过验证，在这种损失函数下，垃圾检测模型边界框回归性能有显著地提高。

建立垃圾密度估计神经网络的框架结构

用于垃圾感知(密集小垃圾)的密度估计网络本发明采用的是MCNN框架。MCNN是一种全卷积网络，其包含三列卷积神经网络，每列卷积核大小和数量各不相同，但网络结构基本一致。池化层为2x2的最大池化，激活函数为ReLU。另外为减少计算量，大卷积核对应的列对应的卷积核数量较少。最后各列输出的结果合并到一起，并使用1x1的卷积核转换成最终的密度图像。

通过前述的密度估计神经网络本发明可以得到图像中密集小垃圾的密度图。从而得到密集小垃圾的分布信息。如图7所示。

通过垃圾目标检测算法本发明可以得到部分垃圾的矩形边界框和类别标签。为了更好的计算清扫点，本发明将矩形边界框数据格式转换为密度图数据格式。根据垃圾不同的类别标签，赋值不同的密度权重。以矩形边界框中心点为密度中心，生成局部密度图，如图8所示。并将其与密度估计生成的密度图进行融合，得到最终的路面垃圾分布密度图，如图9所示。基于以上融合得到的路面垃圾密度图，本发明选取其局部最大值中心作为清扫车候选清扫点，实时调整清扫路径，实现智能清扫。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种用于道路智能清扫的路面垃圾感知方法，其特征在于包括：

建立了并标注垃圾图像数据库；

采用目标检测与密度估计联合感知，对路面上存在的大垃圾和小垃圾进行定位和识别；

其中大垃圾的目标检测网络是Yolov3框架；其采用darknet53作为特征提取网络；

用于密集小垃圾感知的密度估计神经网络的框架结构：采用的是MCNN框架，其包括三列卷积神经网络；池化层为2x2的最大池化，激活函数为ReLU；最后各列输出的结果合并到一起，并使用1x1的卷积核转换成最终的密度图像得到图像中密集小垃圾的密度图；

通过目标检测得到垃圾的矩形框和标签后，将矩形框转换为密度图的形式，并根据不同的标签赋值不同的密度权重；将以上转换得到的密度图与密度估计算法生成的密度图进行融合，得到最终的路面垃圾密度图像，使所述密度图像的局部最大值中心作为清扫车候选清扫点；

计算出候选清扫点，输入路径规划模块。

2.根据权利要求1所述的用于道路智能清扫的路面垃圾感知方法，其特征在于：对每张图像中的目标都做标注，有两种标注格式，一种是用于垃圾目标检测的矩形框标注格式；另一种是用于垃圾密度估计的点标注格式。

3.根据权利要求1所述的用于道路智能清扫的路面垃圾感知方法，其特征在于：数据增强算法，

(1)几何变换上的增强方法，包括图像翻转，图像旋转，图像缩放；

(4)采用了基于GAN生成对抗网络的数据增强方法；包括一个生成器和一个判别器；生成器负责生成伪图像，而判别器负责鉴别图像真假。

4.根据权利要求1所述的用于道路智能清扫的路面垃圾感知方法，其特征在于，建立路面分割神经网络的框架结构，采用的是yolact框架结构。

5.根据权利要求1所述的用于道路智能清扫的路面垃圾感知方法，其特征在于，垃圾目标检测网络模型的训练：

搭建好神经网络结构之后在数据集上对网络模型进行训练，采用迁移学习的方法对模型进行训练；先在COCO数据集上预训练通用目标检测模型，然后在垃圾数据集上进行微调，最终得到垃圾检测模型。

6.根据权利要求5所述的用于道路智能清扫的路面垃圾感知方法，其特征在于，还采用了交叉验证的方式对模型进行训练，过程如下：

(1)假设现在有n张图片组成的训练数据集，将其等分为m份；

MSE具体计算公式如下：

7.根据权利要求6所述的用于道路智能清扫的路面垃圾感知方法，其特征在于，在训练过程中，采用DIOU_Loss作为垃圾检测网络的训练损失；其计算公式如下：