CN113344844A

CN113344844A - 基于rgb-d多模图像信息的目标果实检测方法及***

Info

Publication number: CN113344844A
Application number: CN202110400462.2A
Authority: CN
Inventors: 孙美丽; 贾伟宽; 徐连城; 马晓慧; 张琦; 魏金梦
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-09-03

Abstract

本发明属于图像处理领域，提供了一种基于RGB‑D多模图像信息的目标果实检测方法及***。其中，该方法包括获取目标果实的深度图像和RGB图像；基于目标果实的深度图像及RGB图像分别预测深度流及RGB流；通过自适应深度蒸馏通道与注意力深度蒸馏通道将深度图像知识信息和定位信息传递到RGB流中，得到目标果实检测结果；其中，自适应蒸馏通道建立在深度流与RGB流之间，以使深度流与RGB流的预测结果误差损失最小；注意力深度蒸馏通道建立在扩张深度流和注意力映射之间，以使深度图像的定位信息在预测深度流与注意力映射之间保持一致；扩张深度流由最大池化深度流得到。

Description

基于RGB-D多模图像信息的目标果实检测方法及***

技术领域

本发明属于图像处理领域，尤其涉及一种基于RGB-D多模图像信息的目标果实检测方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

传统的目标果实检测是基于单一图像模式下对目标果实图像进行检测。而使用RGB-D多模图像进行目标检测，是在RGB图像信息基础上增加了目标果实的距离信息，对RGB图像信息起到补充作用，提高了彩色图像的识别与定位效果。特别是在复杂的果园环境中，使用RGB-D多模图像信息，可以提高目标果实的识别效率。其中，RGBD＝RGB+Depth Map，RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色***之一。在3D计算机图形中，Depth Map(深度图)是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。其中，Depth Map类似于灰度图像，只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的，因而像素点之间具有一对一的对应关系。

目前，针对RGB-D目标果实的检测方法，主要通过增加一个额外的网络来训练深度图像。这将大大增加模型的计算复杂度和内存的消耗。同时，深度图像容易受到光照的影响，深度图像的质量会直接影响目标检测的结果。发明人发现，深度图像的不稳定性会给图像带来错误信息，影响目标果实的检测效率。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于RGB-D多模图像信息的目标果实检测方法及***，其通过增加RGB图像场景的距离信息，提高目标果实检测的准确率，能够解决深度图像需增加额外的计算复杂度和内存消耗的问题，抑制深度图形信息不稳定性带来的不利影响。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于RGB-D多模图像信息的目标果实检测方法。

一种基于RGB-D多模图像信息的目标果实检测方法，其包括：

获取目标果实的深度图像和RGB图像；

基于目标果实的深度图像及RGB图像分别预测深度流及RGB流；

通过自适应深度蒸馏通道与注意力深度蒸馏通道将深度图像知识信息和定位信息传递到RGB流中，得到目标果实检测结果；

其中，自适应蒸馏通道建立在深度流与RGB流之间，以使深度流与RGB流的预测结果误差损失最小；注意力深度蒸馏通道建立在扩张深度流和注意力映射之间，以使深度图像的定位信息在预测深度流与注意力映射之间保持一致；扩张深度流由最大池化深度流得到。

本发明的第二个方面提供一种基于RGB-D多模图像信息的目标果实检测***。

一种基于RGB-D多模图像信息的目标果实检测***，其包括：

图像获取模块，其用于获取目标果实的深度图像和RGB图像；

流预测模块，其用于基于目标果实的深度图像及RGB图像分别预测深度流及RGB流；

信息传递模块，其用于通过自适应深度蒸馏通道与注意力深度蒸馏通道将深度图像知识信息和定位信息传递到RGB流中，得到目标果实检测结果；

其中，自适应蒸馏通道建立在深度流与RGB流之间，以使深度流与RGB流的预测结果误差损失最小；注意力深度蒸馏通道建立在扩张深度流和注意力映射之间，以使深度图像的定位信息在预测深度流与注意力映射之间保持一致；扩张深度流是由最大池化深度流获得。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于RGB-D多模图像信息的目标果实检测方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于RGB-D多模图像信息的目标果实检测方法中的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明提出了一种融合目标果实有效距离信息的检测方法，补充了单一RGB图像信息，同时，通过将深度图像信息融合至RGB图像，降低了RGB-D图像模型复杂度，通过在RGB-D图像上建立注意力深度蒸馏和自适应深度蒸馏通道，将深度图像有利信息传递到RGB图像，并抑制错误信息。在测试时，仅通过RGB图像即可得到检测结果。适用于农业机器人对检测目标的实时性要求。

(2)本发明通过将深度图像信息传递至RGB图像，不再建立额外的网络训练深度图像。在测试时仅通过单一图像信息即可获得较好的检测效果。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于RGB-D多模图像信息的目标果实检测方法流程图；

图2是本发明实施例的模型的整体流程图；

图3(a)是本发明实施例的在夜间LED光照条件下采集的目标果实RGB图像；

图3(b)是本发明实施例的在夜间LED光照条件下采集的目标果实深度图像；

图4是本发明实施例的RFB结构图；

图5是本发明实施例的解码器结构图；

图6是本发明实施例的Attention结构图；

图7是本发明实施例的目标果实检测结果图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1和图2所示，本实施例提供了一种基于RGB-D多模图像信息的目标果实检测方法，其具体包括如下步骤：

步骤S101：获取目标果实的深度图像和RGB图像。

具体地，在自然光环境下，使用镜头Kinect V2相机采集目标果实的RGB图像和深度图像。其中，RGB图像分辨率1920×1080，深度图像分辨率为512×424，输出格式为bmp。采集图像结果如图3(a)，图3(b)所示。

利用相机标定参数，将深度图像与RGB图像配准；标记数据集为CSV或XML格式。

步骤S102：基于目标果实的深度图像及RGB图像分别预测深度流及RGB流。

在本实施例中，基于目标果实的深度图像预测深度流的过程为：

提取深度图像的高层特征，并将其输入到感受野增强模块RFB中，再经过解码器实现特征融合操作，得到深度流。

具体地，针对深度图像，提取深度图像高层特征。以VGG-16模型为基本架构提取目标果实的高层特征,丢弃该模型的全连接层，选取第二、三和四层作为高层特征。例如，选取F₃、F₄和F₅作为深度图像的高层特征。将高层特征输入至RFB模块中，输出金字塔式的三层特征F_d2、F_d4和F_d5。其中，RFB模块是感受野增强模块，主要以Inception分支结构为框架，加入了扩张卷积来获取更多的感受野信息和高层特征的对比度。RFB结构如图4所示。

然后，将高层特征输入至解码器，如图5所示。具体来讲，将F_d3与F_d4和F_d5经上采样和卷积融合为

F_d4与F_d5经过上采样和卷积融合

将

和F_d5拼接起来。最后经过卷积和上采样获得深度图像的输出流S_Depth。同时，为减少深度流和注意力映射之间的误差，对深度流预测结果S_Depth进行扩张运算，该运算是通过最大池化操作实现。现定义扩张深度流为

最大池化运算如下所示：

在本实施例中，基于目标果实的RGB图像预测RGB流的过程为：

提取RGB图像的高层特征，并将其使用注意力机制提取注意力映射，将映射结果经解码器实现特征融合操作，得到RGB流。

具体地，采用VGG为基本构架提取RGB图像特征，同样选取F₃、F₄和F₅作为RGB图像的高层特征。将F₃、F₄和F₅分别输入到注意力模块，如图5所示，经过卷积运算，得到注意力模块特征映射

和

将注意力特征映射与高层特征F₃、F₄和F₅做乘积运算，得到注意力模块的输出结果

和

然后将该结果传递至解码器。将

和

经上采样和卷积融合为

和

经过上采样和卷积融合

将

和

拼接起来。最后经过卷积和上采样获得RGB图像的输出流S_RGB。

步骤S103：通过自适应深度蒸馏通道与注意力深度蒸馏通道将深度图像知识信息和定位信息传递到RGB流中，得到目标果实检测结果。

首先建立自适应深度蒸馏通道。建立自适应深度蒸馏通道。通过自适应深度蒸馏通道，将深度流传递到RGB流，然后通过计算深度流与RGB流的预测结果之间的损失函数，使深度图像有利的知识信息传递到RGB图像中误差最小。通过自适应因子

将有利的深度图像输入到RGB图像，降低不利深度信息对模型预测时的准确度的影响。其中，自适应因子

定义如下：

通过定义知识信息的损失Loss_adapt来衡量深度流S_Depth与S_RGB之间的差异。知识信息损失Loss_adapt表示为：

然后，建立注意力深度蒸馏通道。对深度图像的预测结果进行最大池化操作，获得扩张深度流，然后将扩张深度流传递到注意力特征映射，如图6所示，通过建立注意力映射与扩张深度流之间的损失函数，使深度信息损失最低。通过注意力蒸馏损失函数L_attention衡量注意力深度蒸馏通道中扩张深度流和注意力映射之间的损失。注意力蒸馏损失函数L_attention定义为：

通过上述两个损失函数可使目标果实深度图像信息最大化传递至RGB图像，以提高模型在RGB图像预测的准确性。目标果实检测结果图如图7所示。

实施例二

本实施例提供了一种基于RGB-D多模图像信息的目标果实检测***，其具体包括如下模块：

图像获取模块，其用于获取目标果实的深度图像和RGB图像；

其中，自适应蒸馏通道建立在深度流与RGB流之间，以使深度流与RGB流的预测结果误差损失最小；注意力深度蒸馏通道建立在扩张深度流和注意力映射之间，以使深度图像的定位信息在预测深度流与注意力映射之间保持一致；扩张深度流由最大池化运算得到。

此处需要说明的是，本实施例的基于RGB-D多模图像信息的目标果实检测***中的各个模块，与实施例一中的基于RGB-D多模图像信息的目标果实检测方法中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于RGB-D多模图像信息的目标果实检测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于RGB-D多模图像信息的目标果实检测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于RGB-D多模图像信息的目标果实检测方法，其特征在于，包括：

获取目标果实的深度图像和RGB图像；

基于目标果实的深度图像及RGB图像分别预测深度流及RGB流；

其中，自适应蒸馏通道建立在深度流与RGB流之间，以使深度流与RGB流的预测结果误差损失最小；注意力深度蒸馏通道建立在扩张深度流和注意力映射之间，以使深度图像的定位信息在预测深度流与注意力映射之间保持一致；扩张深度流由深度流最大池化操作得到。

2.如权利要求1所述的基于RGB-D多模图像信息的目标果实检测方法，其特征在于，基于目标果实的深度图像预测深度流的过程为：

3.如权利要求2所述的基于RGB-D多模图像信息的目标果实检测方法，其特征在于，采用VGG为基本构架，提取深度图像的高层特征。

4.如权利要求2所述的基于RGB-D多模图像信息的目标果实检测方法，其特征在于，感受野增强模块RFB以Inception分支结构为框架，加入扩张卷积来获取更多感受野信息和高层特征的对比度。

5.如权利要求2所述的基于RGB-D多模图像信息的目标果实检测方法，其特征在于，经过解码器实现特征融合操作的过程为：经过卷积和上采样获得深度图像的输出流，得到深度流。

6.如权利要求1所述的基于RGB-D多模图像信息的目标果实检测方法，其特征在于，基于目标果实的RGB图像预测RGB流的过程为：

7.如权利要求6所述的基于RGB-D多模图像信息的目标果实检测方法，其特征在于，采用VGG为基本构架，提取RGB图像的高层特征。

8.一种基于RGB-D多模图像信息的目标果实检测***，其特征在于，包括：

图像获取模块，其用于获取目标果实的深度图像和RGB图像；

其中，自适应蒸馏通道建立在深度流与RGB流之间，以使深度流与RGB流的预测结果误差损失最小；注意力深度蒸馏通道建立在扩张深度流和注意力映射之间，以使深度图像的定位信息在预测深度流与注意力映射之间保持一致；扩张深度流由最大池化操作得到。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于RGB-D多模图像信息的目标果实检测方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于RGB-D多模图像信息的目标果实检测方法中的步骤。