CN115565072A

CN115565072A - 一种道路垃圾识别和定位方法、装置、电子设备及介质

Info

Publication number: CN115565072A
Application number: CN202211354345.8A
Authority: CN
Inventors: 吕振伟; ***; 刘超群; 曾春年; 陈廷样
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2023-01-03

Abstract

本发明涉及一种道路垃圾识别和定位方法、装置、电子设备及介质，包括：获取目标图像的RGB图像和深度图像，将RGB图像输入到训练好的实例分割模型中，通过训练好的实例分割模型输出目标垃圾的类别和掩膜图像；结合深度相机的内参数和所述目标图像的深度图像构建场景点云，用所述目标垃圾的掩膜图像将所述目标垃圾的点云从所述场景点云中分离出来；消除所述目标垃圾点云的干扰点，计算消除干扰点后的所述目标垃圾点云的三维定向边界框，获得所述目标垃圾的空间位置信息。本发明提高了垃圾分类和定位的精度。

Description

一种道路垃圾识别和定位方法、装置、电子设备及介质

技术领域

本发明涉及垃圾分类技术领域，尤其涉及一种道路垃圾识别和定位方法、装置、电子设备及介质。

背景技术

随着无人驾驶技术的发展，应用场景越来越多，无人驾驶清扫车集激光雷达、摄像头、超声波雷达等传感器于一体，实现自主作业。清扫车脱离人工操作，自主在路面上完成清扫、洒水、垃圾收集等工作。极大地提高了清洁效率、降低了人工成本，同时让清洁更智能。

目前垃圾分类处理中，在人工智能领域，一方面，通过深度神经网络模型对垃圾进行识别，仅获取垃圾类别或者在2D图像中的位置，这样的数据不能直接用于规划对垃圾的后续分拣和处理。另一方面，为了获取垃圾的三维空间位置，在Nvidia Xavier NX上部署具有实时检测性能的YOLOv4,结合Pixhawk2 autopilot控制无人飞行器(UAV)在低空飞行时从图像中定位垃圾，根据机载的(Here2 GPS/altimeter)传感器和相机成像模型把垃圾的坐标精确地转换到了global map中，从而能实现后续拾取的自动路径规划，但是该方法的核心点受限于YOLOv4的精度和实时性。

发明内容

有鉴于此，有必要提供一种道路垃圾识别和定位方法、装置、电子设备及介质，用以实现提高垃圾检测定位的精度和效率。

为了实现上述目的即提高垃圾检测定位的精度和效率，一方面，本发明提供了一种道路垃圾识别和定位方法，包括：

获取目标图像的RGB图像和深度图像，将RGB图像输入到训练完备的实例分割模型中，通过所述训练完毕的实例分割模型输出目标垃圾的类别和掩膜图像；

结合深度相机的内参数和所述目标图像的深度图像构建场景点云，用所述目标垃圾的掩膜图像将所述目标垃圾的点云从所述场景点云中分离出来；

消除所述目标垃圾点云的干扰点，计算消除干扰点后的所述目标垃圾点云的三维定向边界框，获得所述目标垃圾的空间位置信息。

在一些可能的实现方式中，通过深度相机获取目标图像的RGB图像和深度图像。

在一些可能的实现方式中，所述实例分隔模型为基于Yolact的实例分割模型；确定所述基于Yolact的实例分割模型，包括：

将Yolact的backbone和FPN转换为INT8精度，将Protonet和Prediction Head转换为FP16精度。

在一些可能的实现方式中，所述训练好的实例分割模型，包括：

建立垃圾样本数据集，所述垃圾样本数据集包括训练集、测试集和验证集；

将所述训练集输入至预先建立的初始神经网络模型中进行训练，得到过渡神经网络模型；

基于所述验证集对所述过渡神经网络模型进行验证并判断验证后的模型是否达到预测精度或者迭代次数，若未达到，则再次对所述过渡神经网络模型进行验证；若达到，则所述过渡神经网络模型为目标神经网络模型；

利用所述测试集对所述目标神经网络模型的预测性能进行测试，获得训练完备的实例分割模型。

在一些可能的实现方式中，结合深度相机的内参数和所述目标图像的深度图像构建场景点云，包括：

基于深度相机的内参数和所述目标图像的深度图像参数构建场景点云计算公式；

基于场景点云计算公式确定所述场景点云；

其中，所述场景点云计算公式为：

式中，其中P_i＝(X_i,Y_i,Z_i)表示场景点中的一个点，I_depth表示深度图像，f_x,f_y,u₀,v₀表示彩色相机的内参数，W,H分别是RGB图像的宽度和高度，P_i的颜色值即为在Icolor中(u+v*W)位置处的RGB值。

在一些可能的实现方式中，用所述目标垃圾的掩膜图像将所述目标垃圾的点云从所述场景点云中分离出来，包括：

将所述目标垃圾的掩膜图像与所述场景点云图像对齐处理，将所述目标垃圾的点云从所述场景点云中分离出来。

在一些可能的实现方式中，消除所述垃圾实例点云的干扰点，包括：基于点云DBSCAN聚类算法删除所述垃圾实例点云离群的干扰点。

另一方面，本发明还提供了一种道路垃圾识别和定位装置，包括：

信息获取单元，获取目标图像的RGB图像和深度图像，将RGB图像输入到训练完备的实例分割模型中，通过所述训练完毕的实例分割模型输出目标垃圾的类别和掩膜图像；

点云构建单元，结合深度相机的内参数和所述目标图像的深度图像构建场景点云，用所述目标垃圾的掩膜图像将所述目标垃圾的点云从所述场景点云中分离出来；

空间位置确定单元，消除所述目标垃圾点云的干扰点，计算消除干扰点后的所述目标垃圾点云的三维定向边界框，获得所述目标垃圾的空间位置信息。

另一方面，本发明还提供了一种电子设备，包括存储器和处理器，其中，所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以实现上述任意一种实现方式中所述的一种道路垃圾识别和定位方法中的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，其特征在于，用于存储计算机可读取的程序或指令，所述程序或指令被处理器执行时能够实现上述任意一种实现方式中所述的一种道路垃圾识别和定位方法中的步骤。

采用上述实施例的有益效果是：首先获取目标图像的RGB图像和深度图像，通过实例分割模型获得目标垃圾的类别和掩膜，然后结合深度相机参数和深度图像构建场景云，利用掩膜将目标垃圾的点云从场景云中分离出来，最后消除目标垃圾的干扰点，计算消除干扰点后的所述目标垃圾点云的三维定向边界框，获得所述目标垃圾的空间位置信息。本发明基于实例分割模型Yolact，将Yolact的backbone和FPN转换为INT8精度，将Protonet和Prediction Head转换为FP16精度，提高了垃圾分类和定位的精度。

附图说明

图1为本发明提供的一种道路垃圾识别和定位方法一实施例方法流程图；

图2为本发明提供的一种道路垃圾识别和定位的装置的一个实施例结构示意图；

图3为本发明提供的电子设备的一个实施例结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

图1为本发明提供的一种道路垃圾识别和定位方法的一个实施例流程示意图，如图1所示，一种道路垃圾识别和定位方法，包括：

S101、获取目标图像的RGB图像和深度图像，将RGB图像输入到训练完备的实例分割模型中，通过所述训练完毕的实例分割模型输出目标垃圾的类别和掩膜图像；

S102、结合深度相机的内参数和所述目标图像的深度图像构建场景点云，用所述目标垃圾的掩膜图像将所述目标垃圾的点云从所述场景点云中分离出来；

S103、消除所述目标垃圾点云的干扰点，计算消除干扰点后的所述目标垃圾点云的三维定向边界框，获得所述目标垃圾的空间位置信息。

与现有技术相比，本实施例提供的一种道路垃圾识别和定位方法。首先获取目标图像的RGB图像和深度图像，通过实例分割模型获得目标垃圾的类别和掩膜，然后结合深度相机参数和深度图像构建场景云，利用掩膜将目标垃圾的点云从场景云中分离出来，最后消除目标垃圾的干扰点，计算消除干扰点后的所述目标垃圾点云的三维定向边界框，获得所述目标垃圾的空间位置信息。本发明基于实例分割模型Yolact，将Yolact的backbone和FPN转换为INT8精度，将Protonet和Prediction Head转换为FP16精度，提高了垃圾分类和定位的精度。

需要说明的是：深度相机又称3D相机，通过深度相机获取到的数据，能准确知道图像中每个点离摄像头的距离，这样加上该点在2D图像中的坐标，就能获取图像中每个点的三维空间坐标，深度相机可以获取到图像的RGB图像和深度图像。在本发明的一些实施例中，通过深度相机获取目标图像的RGB图像和深度图像。

需要说明的是：Yolact实例分割模型它主要是通过两个并行的子网络来实现实例分割的：Prediction Head分支生成各个anchor的类别置信度、位置回归参数以及mask的掩码系数；Protonet分支生成一组原型mask。然后将原型mask和mask的掩码系数相乘，从而得到图片中每一个目标物体的mask。Yolact模型输入图像大小为550*550，采用的backbone为ResNet101，ResNet的卷积模块一共有5个从conv1,conv2_x到conv5_x，分别对应YOLACT模型中的C1，C2到C5。YOLACT和SSD一样采用了多尺度的特征图，从而可以检测到不同尺寸的物体，也就是在大的特征图上检测小的物体，在小的特征图上检测大的物体。

在本发明的一些实施例中，所述实例分隔模型为基于Yolact的实例分割模型；确定所述基于Yolact的实例分割模型，包括：

在本发明的一些具体实施例中，用改进后的基于Yolact的实例分割模型在JetsonAGX Xavier上测试MS COCO val2107数据集，在些许降低mAP的情况下帧率提高了21.3。

在本发明的一些实施例中，确定所述训练好的实例分割模型，包括：

在本发明的具体实施例中，计算设备的显存为11GB的RTX 2080Ti.，采用TACO数据集，TACO数据集中目前包含的1500张用手机拍摄的高清垃圾图像，每张图像都有实例分割的标注信息，按80％,15％,5％的比例分别随机划分到训练集，测试集和验证集。对TACO数据集中的1500张高清图像进行保持aspect-ratio缩放，把所有图像的width缩放为640,height按scale_ratio进行缩放，同时对图像中实例标记的segmentation points andbbox(x,y,w,h)也要进行缩放并更新json文件。另外按照TACO数据集定义的28个supercategories对垃圾进行分类，处理json文件中的定义的categories为28个超类别，同时改变每个实例标注的类别id号使其映射到对应的类别。

在本发明的一些实施例中，结合深度相机的内参数和所述目标图像的深度图像构建场景点云，包括：

基于场景点云计算公式确定所述场景点云；

其中，所述场景点云计算公式为：

在本发明的一些实施例中，用所述目标垃圾的掩膜图像将所述目标垃圾的点云从所述场景点云中分离出来，包括：

将所述目标垃圾的掩膜图像与所述场景点云图像对齐处理，将处于对齐状态下的目标垃圾的点云从所述场景点云中分离出来。

具体表达式为：

其中

是C个提取的垃圾点云

中的一个点云，其中c为深度网络识别出来的垃圾掩膜，所对应的图像中的像素。P_i为由YolactEdge所识别出的图像掩膜中的像素点所对应的点云点，W、H分别为图像像素的宽度和高度，u、v、c、i都为自然数。

为深度网络识别掩膜中的图像像素点。

需要说明的是：去除干扰点的方法可采用点云滤波，点云聚类和点云分割的方法。点云DBSCAN(Density-Based Spatial Clustering of Application with Noise)聚类算法通过寻找被低密度区域分离的高密度区域，并将高密度区域作为一个聚类“簇”。在DBSCAN(Density-Based Spatial Clustering of Application with Noise)算法中，聚类“簇”定义为：由密度可达关系导出的最大的密度连接样本的集合。

在本发明的一些实施例中，消除所述垃圾实例点云的干扰点，包括：基于点云DBSCAN聚类算法删除所述垃圾实例点云离群的干扰点。

在本发明的具体实施例中，选择三个不同场景下的图像和点云经过实例分隔模型预测掩膜后分割点云，基于点云DBSCAN(Density-Based Spatial Clustering ofApplication with Noise)聚类算法，首先调用Python中的dbscan函数，设置了eps(2,2.5,3,3.5,4,4.5,5)和min_points(10,20,30,40,50)的参数组合分别对3个场景下的垃圾实例的点云进行聚类：其次把得到的各个垃圾实例的点云簇按点的数量降序排序后再取第一个簇作为去除掉干扰点的垃圾实例的点云。

为了更好实施本发明实施例中的一种道路垃圾识别和定位方法，在一种道路垃圾识别和定位方法基础之上，对应的，本发明实施例还提供了一种道路垃圾识别和定位的装置，如图2所示，一种道路垃圾识别和定位的装置200包括：

信息获取单元201，获取目标图像的RGB图像和深度图像，将RGB图像输入到训练完备的实例分割模型中，通过所述训练完毕的实例分割模型输出目标垃圾的类别和掩膜图像；

点云构建单元202，结合深度相机的内参数和所述目标图像的深度图像构建场景点云，用所述目标垃圾的掩膜图像将所述目标垃圾的点云从所述场景点云中分离出来；

空间位置确定单元203，消除所述目标垃圾点云的干扰点，计算消除干扰点后的所述目标垃圾点云的三维定向边界框，获得所述目标垃圾的空间位置信息。

如图3所示，本发明还相应提供了一种电子设备300。该电子设备300包括处理器301、存储器302及显示器303。图3仅示出了电子设备300的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

存储器302在一些实施例中可以是电子设备300的内部存储单元，例如电子设备300的硬盘或内存。存储器302在另一些实施例中也可以是电子设备300的外部存储设备，例如电子设备300上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，存储器302还可既包括电子设备300的内部储存单元也包括外部存储设备。存储器302用于存储安装电子设备300的应用软件及各类数据。

处理器301在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)，微处理器或其他数据处理芯片，用于运行存储器302中存储的程序代码或处理数据，例如本发明中的一种道路垃圾识别和定位方法。

显示器303在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。显示器303用于显示在电子设备300的信息以及用于显示可视化的用户界面。电子设备300的部件301-303通过***总线相互通信。

在本发明的一些实施例中，当处理器301执行存储器302中的一种道路垃圾识别和定位的程序时，可实现以下步骤：

获取目标图像的RGB图像和深度图像，将RGB图像输入到训练好的实例分割模型中，通过训练好的实例分割模型输出目标垃圾的类别和掩膜图像；

应当理解的是：处理器301在执行存储器302中的一种道路垃圾识别和定位的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面相应方法实施例的描述。

进一步地，本发明实施例对提及的电子设备300的类型不做具体限定，电子设备300可以为手机、平板电脑、个人数字助理(personal digital assistant，PDA)、可穿戴设备、膝上型计算机(laptop)等便携式电子设备。便携式电子设备的示例性实施例包括但不限于搭载IOS、android、microsoft或者其他操作***的便携式电子设备。上述便携式电子设备也可以是其他便携式电子设备，诸如具有触敏表面(例如触控面板)的膝上型计算机(laptop)等。还应当理解的是，在本发明其他一些实施例中，电子设备300也可以不是便携式电子设备，而是具有触敏表面(例如触控面板)的台式计算机。

相应地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质用于存储计算机可读取的程序或指令，程序或指令被处理器执行时，能够实现上述各方法实施例提供的一种道路垃圾识别和定位方法中的步骤或功能。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种道路垃圾识别和定位方法，其特征在于，包括：

2.根据权利要求1所述的一种道路垃圾识别和定位方法，其特征在于，通过深度相机获取目标图像的RGB图像和深度图像。

3.根据权利要求1所述的一种道路垃圾识别和定位方法，其特征在于，所述实例分隔模型为基于Yolact的实例分割模型；确定所述基于Yolact的实例分割模型，包括：

4.根据权利要求1所述的一种道路垃圾识别和定位方法，其特征在于，确定所述训练好的实例分割模型，包括：

5.根据权利要求1所述的一种道路垃圾识别和定位方法，其特征在于，结合深度相机的内参数和所述目标图像的深度图像构建场景点云，包括：

基于场景点云计算公式确定所述场景点云；

其中，所述场景点云计算公式为：

6.根据权利要求1所述的一种道路垃圾识别和定位方法，其特征在于，用所述目标垃圾的掩膜图像将所述目标垃圾的点云从所述场景点云中分离出来，包括：

7.根据权利要求1所述的一种道路垃圾识别和定位方法，其特征在于，消除所述垃圾实例点云的干扰点，包括：

基于点云DBSCAN聚类算法删除所述垃圾实例点云离群的干扰点。

8.一种道路垃圾识别和定位装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以实现上述权利要求1至7中任意一项所述的一种道路垃圾识别和定位方法中的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机可读取的程序或指令，所述程序或指令被处理器执行时能够实现上述权利要求1至7中任意一项所述的一种道路垃圾识别和定位方法中的步骤。