CN109271990A

CN109271990A - 一种针对rgb-d图像的语义分割方法及装置

Info

Publication number: CN109271990A
Application number: CN201811020264.8A
Authority: CN
Inventors: 焦继超; 邓中亮; 章程; 苑立彬; 王鑫; 吴奇; 莫耀凯
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2019-01-25

Abstract

本发明实施例提供了一种针对RGB‑D图像的语义分割方法及装置。所述方法包括：获得待语义分割的RGB‑D图像；将RGB‑D图像所包括的RGB图像和深度图像输入至预先训练的神经网络，得到RGB‑D图像对应的目标标识图像；其中，RGB图像输入至神经网络的分支网络组中的一个分支网络层，深度图像输入至分支网络组中的另一个分支网络层；神经网络包括：顺次连接的分支网络组、特征融合网络层和输出网络层，神经网络是根据样本RGB‑D图像、样本RGB‑D图像对应的样本标识图像训练得到，任一样本RGB‑D图像对应的样本标识图像为：该样本RGB‑D图像所包括的样本RGB图像对应的语义分割结果。应用本发明实施例，能够实现利用神经网络对RGB‑D图像进行有效的语义分割的目的。

Description

一种针对RGB-D图像的语义分割方法及装置

技术领域

本发明涉及图像处理领域，特别是涉及一种针对RGB-D图像的语义分割方法及装置。

背景技术

近年来，SLAM(Simultaneous Location And Mapping，即时定位与重建)***发展迅速，该***主要用于机器人自主定位与导航等领域。具体的，SLAM***利用RGB-D图像，进行特征提取和匹配等处理，实现构建三维地图和实时定位的目的。所谓的RGB-D图像是两幅图像：一个是RGB图像(具有红绿蓝三通道的图像)，另一个是深度图像(depth image)。其中，深度图像类似于灰度图像，它的每个像素值是传感器距离物体的实际距离，并且，通常RGB图像和深度图像的像素点是一一对应的。

为了提升构建的三维地图的可用性，研究人员基于语义分割技术提出了语义地图的概念，语义分割是指将图像中的内容进行像素级分割并且识别出物体的类别，语义地图即在构建的三维点云中分割和识别环境中的物体。

由于近年来深度学习在语义分割上取得的迅猛发展和良好效果，对于SLAM***，研究人员期望能够利用深度学习中的神经网络进行RGB-D图像的语义分割。

因此，针对上述需求，如何利用神经网络对RGB-D图像进行有效的语义分割，是个亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种针对RGB-D图像的语义分割方法及装置，以实现利用神经网络对RGB-D图像进行有效的语义分割的目的。具体技术方案如下：

第一方面，本发明实施例提供了一种针对RGB-D图像的语义分割方法，所述方法包括：

获得待语义分割的RGB-D图像，所述RGB-D图像包括：红绿蓝三通道RGB图像和所述RGB图像对应的深度图像；

将所述RGB-D图像所包括的RGB图像和深度图像输入至预先训练的神经网络，得到所述RGB-D图像对应的目标标识图像；其中，所述RGB图像输入至所述神经网络的分支网络组中的一个分支网络层，所述深度图像输入至所述分支网络组中的另一个分支网络层；其中，所述神经网络包括：顺次连接的所述分支网络组、特征融合网络层和输出网络层，所述分支网络组包括作为并列分支的两个分支网络层，每个分支网络层为对输入图像进行特征提取的特征提取层；所述神经网络是根据样本RGB-D图像、所述样本RGB-D图像对应的样本标识图像训练得到，所述样本RGB-D图像包括样本RGB图像和样本深度图像，任一样本RGB-D图像对应的样本标识图像为：该样本RGB-D图像所包括的样本RGB图像对应的语义分割结果。

可选的，每个分支网络层包括串行连接的三个卷积模块。

可选的，第一分支网络层中每个目标卷积模块的输入内容包括：该目标卷积模块的上一卷积模块的输出内容，以及第二分支网络层中与所述上一卷积模块位置对应的卷积模块的输出内容；

其中，所述第一分支网络层为所述RGB图像所在的分支网络层，所述第二分支网络层为所述深度图像所在的分支网络层，任一目标卷积模块为所述第一分支网络层中除第一个卷积模块以外的卷积模块。

可选的，所述特征融合网络层的特征融合方式，包括：

将所述两个分支网络层分别输出的特征图谱的通道对应串联的方式。

可选的，所述特征融合网络层和输出网络层通过特征选择网络层相连接；其中，所述特征选择网络层包括：顺次连接的池化子层、第一全连接子层和第二全连接子层；

所述池化子层用于：对所述特征融合网络层输出的融合后的特征图谱进行最大池化计算，得到最大池化的计算结果，并将所述计算结果作为第一组惩罚系数；

所述第一全连接子层用于：将所述第一组惩罚系数和所述第一全连接子层的神经元的权重进行计算，得到第一计算结果，并将所述第一计算结果作为第二组惩罚系数，利用sigmoid激活函数将所述第二组惩罚系数的数值归一化，得到第三组惩罚系数；

所述第二全连接子层用于：将所述第三组惩罚系数和所述第二全连接子层的神经元的权重进行计算，得到第二计算结果，并将所述第二计算结果作为第四组惩罚系数，利用sigmoid激活函数将所述第四组惩罚系数的数值归一化，得到第五组惩罚系数，利用所述第五组惩罚系数对所述融合后的特征图谱进行加权计算，得到第一特征图谱。

第二方面，本发明实施例提供了一种针对RGB-D图像的语义分割装置，所述装置包括：

获得模块，用于获得待语义分割的RGB-D图像，所述RGB-D图像包括：红绿蓝三通道RGB图像和所述RGB图像对应的深度图像；

计算模块，用于将所述RGB-D图像所包括的RGB图像和深度图像输入至预先训练的神经网络，得到所述RGB-D图像对应的目标标识图像；其中，所述RGB图像输入至所述神经网络的分支网络组中的一个分支网络层，所述深度图像输入至所述分支网络组中的另一个分支网络层；其中，所述神经网络包括：顺次连接的所述分支网络组、特征融合网络层和输出网络层，所述分支网络组包括作为并列分支的两个分支网络层，每个分支网络层为对输入图像进行特征提取的特征提取层；所述神经网络是根据样本RGB-D图像、所述样本RGB-D图像对应的样本标识图像训练得到，所述样本RGB-D图像包括样本RGB图像和样本深度图像，任一样本RGB-D图像对应的样本标识图像为：该样本RGB-D图像所包括的样本RGB图像对应的语义分割结果。

可选的，每个分支网络层包括串行连接的三个卷积模块。

可选的，所述特征融合网络层的特征融合方式，包括：

本发明实施例所提供的方案中，将所述RGB-D图像所包括的RGB图像和深度图像输入至预先训练的神经网络，得到所述RGB-D图像对应的目标标识图像，所述目标标识图像为：该RGB-D图像所包括的RGB图像对应的语义分割结果。因此，本发明实施例所提供的方案，能够实现利用神经网络对RGB-D图像进行有效的语义分割的目的。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所提供的一种针对RGB-D图像的语义分割方法的流程示意图；

图2为本发明实施例所提供的神经网络的结构示意图；

图3(a)为一张RGB图像对应的灰度图；图3(b)为图3(a)所示灰度图的RGB图像所对应的深度图像；图3(c)为对图3(a)的RGB图像和图3(b)的深度图像进行语义分割所得到的目标标识图像的灰度图；

图4为本发明实施例所提供的一种针对RGB-D图像的语义分割装置的结构示意图；

图5为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了实现对RGB-D图像进行有效的语义分割的目的，本发明实施例提供了一种针对RGB-D图像的语义分割方法、装置、电子设备及存储介质。

需要说明的是，本发明实施例所提供的一种针对RGB-D图像的语义分割方法的执行主体可以为一种针对RGB-D图像的语义分割装置，该针对RGB-D图像的语义分割装置可以运行于电子设备中。其中，该针对RGB-D图像的语义分割装置可以为一图像处理工具中的插件，或者独立于一图像处理工具之外的程序，当然并不局限于此。

下面，首先对本发明实施例所提供的一种针对RGB-D图像的语义分割方法进行介绍。

如图1所示，本发明实施例所提供的一种针对RGB-D图像的语义分割方法，可以包括如下步骤：

S101，获得待语义分割的RGB-D图像。

其中，所述RGB-D图像包括：RGB图像和所述RGB图像对应的深度图像。

在本发明实施例中，可以利用RGB-D相机拍摄获得所述RGB-D图像，比如，可以从所述RGB-D相机的拍摄模块，获得RGB-D相机实时拍摄的RGB-D图像，或者从预设位置获得RGB-D相机预先拍摄并存储的RGB-D图像等等，当然，本发明实施例中，获得待语义分割的RGB-D图像的方式不限于此。其中，所谓的RGB-D相机为现有技术中能够同时拍摄RGB图像和深度图像的相机。

S102，将所述RGB-D图像所包括的RGB图像和深度图像输入至预先训练的神经网络，得到所述RGB-D图像对应的目标标识图像。

参见图2所述，图2为本发明实施例所提供的神经网络的结构示意图；从功能的角度而言，所述神经网络包括：顺次连接的所述分支网络组、特征融合网络层120和输出网络层130，所述分支网络组包括作为并列分支的两个分支网络层110：每个分支网络层110为对输入图像进行特征提取的特征提取层。特征融合网络层120用于：对每个分支网络层110输出的特征图谱进行特征融合。输出网络层130为所述神经网络除所述分支网络组、特征融合网络层120之外的其余结构的统称，可以理解的是，所述输出网络层130可以包括多个网络子层。

需要说明的是，任一分支网络层与之后的特征融合网络层及输出网络层顺次连接可以构成FCN(Fully Convolutional Networks，全卷积网络)。该全卷积网络是2014年加州大学伯克利分校的Long等人提出的，该全卷积网络是目前语义分割领域广泛采用的一种网络结构。

所述神经网络是根据样本RGB-D图像、所述样本RGB-D图像对应的样本标识图像训练得到，所述样本RGB-D图像包括样本RGB图像和样本深度图像。为了布局清楚，关于所述神经网络的训练过程在后文中予以介绍。

如图2所示，在本发明实施例中，将所述RGB-D图像所包括的RGB图像和深度图像输入至预先训练的神经网络的过程可以包括：将所述RGB图像输入至所述神经网络的分支网络组中的一个分支网络层，将所述深度图像输入至所述分支网络组中的另一个分支网络层。

根据神经网络的工作原理，在本发明实施例中，所述神经网络输出的所述目标标识图像为该RGB-D图像所包括的RGB图像对应的语义分割结果。

在本发明实施例中，所述语义分割可以是：将所述RGB图像中不同类别的物体标注为不同的值，每一个值的物体用对应的颜色显示。因而，在所述目标标识图像中，不同类别的物体可以具有不同的颜色。

为了便于理解方案，结合附图说明RGB图像、深度图像和目标标识图像的图像效果差异。图3(a)给出了一张RGB图像对应的灰度图，图3(b)为该RGB图像对应的深度图像，图3(c)为利用本发明实施例所提供的方法对图3(a)所示灰度图的RGB图像和图3(b)所示深度图像进行语义分割，所得到的目标标识图像的灰度图。可以理解的是，未进行灰度转化的原有的目标标识图像中，不同类别的物体具有不同的颜色，因而可以直观地体现出语义分割结果。

以下对本发明实施例中的神经网络的训练过程予以简单介绍，训练过程可以包括以下步骤：

第一步，确定初始神经网络；

其中，所述初始神经网络包括：顺次连接的所述分支网络组、特征融合网络层和输出网络层，所述分支网络组包括作为并列分支的两个分支网络层，每个分支网络层为对输入图像进行特征提取的特征提取层。

需要说明的是，在本发明实施例中，所述初始神经网络中的初始权重可以为现有的已训练的权重。而作为一种优选的方式，在本发明实施例中，可以针对所述深度图像所在的分支网络层，预先训练对应的权重作为该分支网络层的初始权重，这样能够使得所述初始神经网络的权重的针对性更强，提高所述初始神经网络的训练效果。

第二步，获取样本RGB-D图像、所述样本RGB-D图像对应的样本标识图像；

在本发明实施例中，可以获取多个样本RGB-D图像、所述样本RGB-D图像对应的样本标识图像，以在后续提高初始神经网络的训练效果。比如在一次的训练过程中，可以获取8组样本RGB-D图像及8组所述样本RGB-D图像对应的样本标识图像等。

其中，所述样本RGB-D图像包括样本RGB图像和样本深度图像，任一样本RGB-D图像对应的样本标识图像为：该样本RGB-D图像所包括的样本RGB图像对应的语义分割结果。需要说明的是，所述样本标识图像可以是由人工标识的，当然并不局限于此。

第三步，利用样本RGB-D图像、所述样本RGB-D图像对应的样本标识图像，训练所述初始神经网络，得到所述神经网络。

在该步骤中，首先将所述样本RGB图像输入至所述初始神经网络的分支网络组中的一个分支网络层，将所述样本深度图像输入至所述分支网络组中的另一个分支网络层；将对应的样本标识图像作为真值；并进行以下步骤：

1)将所述样本RGB图像和所述样本深度图像通过所述初始神经网络的训练，获得训练结果。

2)将训练结果和对应的真值进行比较，得到输出结果；

3)根据输出结果计算所述初始神经网络的损失函数Loss的值；

4)根据所述Loss的值，调整初始神经网络的参数，并重新进行1)-3)步骤，直至所述Loss的值达到了一定的收敛条件，也就是所述Loss的值达到最小，这时，完成初始神经网络的训练，获得训练完成的神经网络。

需要说明的是，现有技术中已经存在一些利用神经网络对RGB-D图像进行语义分割的方法，目的多为提升RGB-D语义分割精度。比如一种现有技术的实现过程可以为：

将全卷积网络的输入通道数增加一维，然后将样本深度图像与样本RGB图像合并为四通道输入至全卷积网络进行训练，得到训练好的全卷积网络，并利用该训练好的全卷积网络，对输入的RGB图像和对应的深度图像，计算得到语义分割结果。可以理解的是，在神经网络训练过程中，神经网络的初始权重是非常重要的，该种现有技术中确定初始权重的方式是：重载大规模数据集(比如ImageNet)上预训练好的权重，但由于这些大数据集都是RGB数据集，输入通道均为三通道，对于增加的第四通道的深度图像，并没有专门适合深度图像的权重。通过实验数据可知，这种现有技术训练得到的全卷积网络，在RGB-D语义分割精度方面，提升并不明显。

为了重载RGB数据集上训练出来的权重，其他学者基于FCN，提出了另一种现有技术，实现过程可以为：使用S.Gupta提出的深度图像编码方法HHA，将深度图像转换为水平差异、对地高度以及表面法向量角度三个通道。然后将深度图像和RGB图像各自输入到一个全卷积网络，在全卷积网络的最后进行特征融合，融合方式是将两个全卷积网络的概率图相加，其中，所述概率图是全卷积网络输出的特征图谱经过激活函数得到的，最后，基于相加后的概率图得到最终的语义分割结果。实验结果表明，该现有技术对分割精度有一定提升。但是该现有技术存在两个缺点：a.HHA编码方法仅强调每个通道数据之间的互补信息，而忽略了各个通道的独立成分，具有一定局限性，且HHA编码后的三通道所表征的空间信息和RGB三通道表征的颜色纹理信息有本质区别。并且，在这种现有技术中，将特征图谱进行相加的融合方式，破坏了两种模态下全卷积网络各自提取出的特征，也就是说破坏了RGB图像和深度图像各自的特征。b.该现有技术需要进行大量的预处理工作，也就是进行HHA编码工作，导致消耗较多的计算资源，无法做到实时的语义分割。

在本发明实施例中，发明人通过研究，基于全卷积网络，构造出所述神经网络，并在实施过程中，将所述RGB图像输入所述神经网络的分支网络组中的第一分支网络层，可以理解的是，所述RGB图像是以三通道形式输入的；将所述深度图像输入至所述分支网络组中的第二分支网络层，所述深度图像是以一通道形式输入的；并且，在所述神经网络的训练过程中，为深度图像设置有对应的权值，因此，本发明实施例所提供的方案可以避免上述第一种现有技术中，由于不具有深度图像具有对应的权值，导致的RGB-D语义分割精度提升不明显的问题。

并且，发明人在研究过程中还发现，由RGB图像和深度图像所提取出的特征可以看出，两种特征图谱存在明显的互补关系，对特征图谱的直接求和会破坏这种互补关系，弱化两种模态下的独立特征。

因此，在本发明实施例中，可选的，所述特征融合网络层的融合方式为：将所述两个分支网络层分别输出的特征图谱的通道对应串联的方式。这样采用特征堆叠的方式可以保留所述RGB图像和所述深度图像各自的原始特征信息。由此可以看出，和第二种现有技术相比，本发明实施例所提供的方案不用进行HHA编码工作，且所采用的特征图谱的融合方式也不同，因此可以解决上述第二种现有技术中存在的问题。

本发明实施例所提供的方法，通过确定深度图像的特征在神经网络中的融合位置和融合方式，可以利用深度图像中的空间几何信息，辅助RGB图像实现端到端的语义分割，提升分割精度。

以下通过实验数据说明本发明实施例所提供的方案，相比于第一种现有技术和第二种现有技术的有益效果。参见表1，表1为本发明实施例与两种现有技术的实验结果的对比，通过表1可以看出，本发明实施例所提供的方案，像素精确度、平均像素精确度及交并比都高于两种现有技术，本领域技术人员可以理解的是，上述三种指标可以用于表征分割精度。因此，本发明实施例所提供的方案相比于两种现有技术，分割精度更高。

表1

可选的，在本发明实施例中，每个分支网络层包括串行连接的三个卷积模块。

根据所述全连接层的结构可知，每个卷积模块包括两层全连接子层和一层池化子层。

在本发明实施例中，每个分支网络层的模块的数量是经过发明人不断试验确定的。可以理解的是，每个分支网络层的模块的数量，关系到特征融合网络层在所述神经网络中的位置，也就是RGB图像和深度图像的特征图谱的融合位置。发明人在构建所述神经网络之前，确定所述融合位置的过程可以为：将RGB图像输入一个全卷积网络，将深度图像输入另一个全卷积网络，在全卷积网络的不同位置提取出两个全卷积网络的特征图谱进行对比分析。通过对比分析可以发现：在第三个卷积模块提取出的RGB图像的特征图谱和深度图像的特征图谱，这两个模态下的特征(RGB图像和深度图像的特征)仍然属于角点、边缘或平面等低级特征的范畴。

而从第五个卷积块提取出的RGB图像的特征图谱开始出现网络自主提取和组合的高级抽象特征，同时这时的RGB图像的特征图谱是局部激活的，说明高层网络中的RGB特征提取器只对符合某类特征规则的物体敏感，而不再对全局的点线面特征敏感。而相比之下，从第五个卷积块提取出的深度图像的特征图谱依然能看到明显的焦点边缘特征，这些特征仍属于低级特征的范畴。

经过对比分析可以得出结论：全卷积网络的高层网络不能有效提取深度图像的特征，并且由于池化层的存在，使得深度图像的特征图谱的分辨率降低，进一步导致深度图像的特征细节的丢失。因此，应该选择低层网络进行特征融合，保留深度图像的特征细节，同时避免更多不必要的卷积运算。

因此，在本发明实施例中，每个分支网络层可以包括串行连接的三个卷积模块，也就是说，确定全卷积网络的第三个卷积模块之后的位置，为所述融合位置。

当然，在本发明实施例中，每个分支网络层也可以包括两个或者四个卷积模块，这都是合理的，只是针对三个卷积模块来说，是一种对比后的优选方案，而对于其他卷积模块的数量，对RGB-D图像进行语义分割的效果，比如精度等，可能有所降低。

当然，如果本发明实施例中的全卷积网络替换为其他神经网络，可以选取该神经网络的中间位置作为特征融合网络层的位置，这样能够简便地确定相应的用于RGB-D图像的语义分割的神经网络的结构。

可选的，在本发明实施例中，第一分支网络层中每个目标卷积模块的输入内容包括：该目标卷积模块的上一卷积模块的输出内容，以及第二分支网络层中与所述上一卷积模块位置对应的卷积模块的输出内容；

可以理解的是，相比于图2所示的神经网络的结构，本发明实施例所提供的神经网络，能够将所述第二分支网络层中，每个目标卷积模块输出的特征图谱，与所述第一分支网络层中对应位置的目标卷积模块输出的特征图谱进行特征融合，能够最大限度的利用深度图像的特征，配合RGB图像的特征，实现对RGB-D图像进行有效的语义分割的目的。

可选的，在本发明实施例中，所述特征融合网络层和输出网络层通过特征选择网络层相连接；

可以理解的是，相比于图2所示的神经网络的结构，本发明实施例中的神经网络，在特征融合网络层和输出网络层之间，加入了特征选择网络层。也就是说，在本发明实施例中，发明人对现有的全卷积网络的结构进行了修改。其中，所述特征选择网络层包括：顺次连接的池化子层、第一全连接子层和第二全连接子层；每个全连接子层的神经元的数量等于融合后的特征图谱的通道数量。

需要说明的是，若所述RGB图像和所述深度图像的特征图谱的尺寸为H×W×C，其中，所述C为所述RGB图像和所述深度图像的特征图谱的通道数。可以理解的是，融合后的特征图谱的尺寸为H×W×2C。那么，对所述特征融合网络层输出的融合后的特征图谱进行最大池化计算的过程可以是，从每个通道的H×W中确定一个最大值，因此，得到的最大池化的计算结果是1×1×2C的数组。

可以理解的是，所述第一组惩罚系数是2C个数值，第一全连接子层有2C个神经元，每个神经元和第一组惩罚系数的每个数值都有对应的权重，得到的第一计算结果也是2C个数值，以下对得到第一计算结果的过程举例说明，比如：Y₁＝X₁*W₁₁+X₂*W₂₁+...+X_2C*W_2C1，其中X₁～X_2C是最大池化的计算结果，Y₁是第一计算结果的第一个数值，W₁₁～W_2C是最大池化的计算结果和第一全连接子层的第一个神经元之间的连线上对应的权重。第一计算结果的其他数值的计算过程，与第一计算结果的第一个数值的计算过程类似，在此不再赘述。

得到第一计算结果后，将所述第一计算结果作为第二组惩罚系数。并利用sigmoid激活函数将所述第二组惩罚系数的数值归一化至0～1之间，得到第三组惩罚系数。

所述第二全连接子层利用所述第五组惩罚系数对所述融合后的特征图谱进行加权计算之前的计算过程，和所述第一全连接子层的计算过程类似，在此不再赘述。

需要说明的是，所述神经网络在进行训练的时候，两个全连接子层的每个神经元和对应组的惩罚系数之间的权重W，通过学习一直在不断更新迭代，权重的改变影响第一计算结果和第二计算结果，继而sigmoid激活函数计算出来的值也会改变，因而在融合后的特征图谱上的加权系数也会不断变化，最后会影响最终的损失函数Loss的值。所述神经网络通过学习，权重W会慢慢具有自主选择性，使得加权系数对特征图谱加权之后，loss的值总是偏小的，这就说明加权系数实际上是将贡献较小的特征(2C中的某些通道)进行抑制，那么，可以理解为：由于无用特征被抑制，有用特征的作用被变相放大。因此，上述特征选择网络层的作用相当于一个奖惩机制，即对于精度提高有贡献的特征用高加权值予以奖励，而对于精度提高低贡献的特征用低加权值进行惩罚和抑制。那么，可以理解的是，特征选择网络层的加入，可以提高RGB-D图像的语义分割精度。

相应于上述方法实施例，本发明实施例还提供了一种针对RGB-D图像的语义分割装置，如图4所示，该装置包括：

获得模块401，用于获得待语义分割的RGB-D图像，所述RGB-D图像包括：红绿蓝三通道RGB图像和所述RGB图像对应的深度图像；

计算模块402，用于将所述RGB-D图像所包括的RGB图像和深度图像输入至预先训练的神经网络，得到所述RGB-D图像对应的目标标识图像；其中，所述RGB图像输入至所述神经网络的分支网络组中的一个分支网络层，所述深度图像输入至所述分支网络组中的另一个分支网络层；其中，所述神经网络包括：顺次连接的所述分支网络组、特征融合网络层和输出网络层，所述分支网络组包括作为并列分支的两个分支网络层，每个分支网络层为对输入图像进行特征提取的特征提取层；所述神经网络是根据样本RGB-D图像、所述样本RGB-D图像对应的样本标识图像训练得到，所述样本RGB-D图像包括样本RGB图像和样本深度图像，任一样本RGB-D图像对应的样本标识图像为：该样本RGB-D图像所包括的样本RGB图像对应的语义分割结果。

可选的，在本发明实施例中，所述特征融合网络层的特征融合方式，包括：

可选的，在本发明实施例中，所述特征融合网络层和输出网络层通过特征选择网络层相连接；其中，所述特征选择网络层包括：顺次连接的池化子层、第一全连接子层和第二全连接子层；

相应于上述方法实施例，本发明实施例还提供了一种电子设备，如图5所示，可以包括处理器501和存储器502，其中，

所述存储器502，用于存放计算机程序；

所述处理器501，用于执行所述存储器502上所存放的程序时，实现本发明实施例所提供的针对RGB-D图像的语义分割方法的步骤。

上述存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离于上述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

通过上述电子设备，能够实现：将所述RGB-D图像所包括的RGB图像和深度图像输入至预先训练的神经网络，得到所述RGB-D图像对应的目标标识图像，所述目标标识图像为：该RGB-D图像所包括的RGB图像对应的语义分割结果。因此，本发明实施例所提供的方案，能够实现利用神经网络对RGB-D图像进行有效的语义分割的目的。

另外，相应于上述实施例所提供的针对RGB-D图像的语义分割方法，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现本发明实施例所提供的针对RGB-D图像的语义分割方法的步骤。

上述计算机可读存储介质存储有在运行时执行本发明实施例所提供的针对RGB-D图像的语义分割方法的应用程序，因此能够实现：将所述RGB-D图像所包括的RGB图像和深度图像输入至预先训练的神经网络，得到所述RGB-D图像对应的目标标识图像，所述目标标识图像为：该RGB-D图像所包括的RGB图像对应的语义分割结果。因此，本发明实施例所提供的方案，能够实现利用神经网络对RGB-D图像进行有效的语义分割的目的。

对于电子设备以及计算机可读存储介质实施例而言，由于其所涉及的方法内容基本相似于前述的方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的可选实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种针对RGB-D图像的语义分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，每个分支网络层包括串行连接的三个卷积模块。

3.根据权利要求2所述的方法，其特征在于，第一分支网络层中每个目标卷积模块的输入内容包括：该目标卷积模块的上一卷积模块的输出内容，以及第二分支网络层中与所述上一卷积模块位置对应的卷积模块的输出内容；

4.根据权利要求1所述的方法，其特征在于，所述特征融合网络层的特征融合方式，包括：

5.根据权利要求1所述的方法，其特征在于，所述特征融合网络层和输出网络层通过特征选择网络层相连接；其中，所述特征选择网络层包括：顺次连接的池化子层、第一全连接子层和第二全连接子层；

6.一种针对RGB-D图像的语义分割装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，每个分支网络层包括串行连接的三个卷积模块。

8.根据权利要求7所述的装置，其特征在于，第一分支网络层中每个目标卷积模块的输入内容包括：该目标卷积模块的上一卷积模块的输出内容，以及第二分支网络层中与所述上一卷积模块位置对应的卷积模块的输出内容；

9.根据权利要求6所述的装置，其特征在于，所述特征融合网络层的特征融合方式，包括：

10.根据权利要求6所述的装置，其特征在于，所述特征融合网络层和输出网络层通过特征选择网络层相连接；其中，所述特征选择网络层包括：顺次连接的池化子层、第一全连接子层和第二全连接子层；