CN110782458B

CN110782458B - 一种非对称编码网络的物体图像3d语义预测分割方法

Info

Publication number: CN110782458B
Application number: CN201911012594.7A
Authority: CN
Inventors: 周武杰; 袁建中; 吕思嘉; 雷景生; 钱亚冠; 何成; 王海江
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2022-05-31
Anticipated expiration: 2039-10-23
Also published as: CN110782458A

Abstract

本发明公开了一种非对称编码网络的物体图像3D语义预测分割方法。选取RGB图像、深度图和对应的语义标签构成构成训练集，构建非对称编码网络的卷积神经网络，包括两个输入层、隐层和三个输出层，将训练集输入到卷积神经网络中进行训练，得到训练集中的每幅RGB图像对应的预测分割图像，计算训练集中的每幅RGB图像对应的预测分割图像与对应的真实深度图像之间的损失函数值，不断训练取值最小的损失函数值对应的权值矢量和偏置项；待预测的RGB图像和深度图像输入到训练好的深度可分卷积神经网络训练模型中，得到预测分割图像。本发明构建了非对称编码网络的网络结构，实现了物体图像3D语义预测分割，且分割结果精度高。

Description

一种非对称编码网络的物体图像3D语义预测分割方法

技术领域

本发明涉及一种语义分割技术，尤其是涉及一种非对称编码网络的物体图像3D语义预测分割方法。

背景技术

经济的腾飞促使了技术的蓬勃发展，人工智能响应着时代的需求应运而生，并不断改善着人们的生活质量。人工智能的各项技术也得到了越来越多人们的关注，计算机视觉任务作为人工智能的代表之一也日益得到了人们的重视，3D语义分割技术是基本的计算机视觉任务之一，它在视觉场景理解中显得越发的重要。

室内3D语义分割的目的是预测输入图像中每个像素的类别标签。它是计算机视觉的一个基本任务，可以作为许多实际应用的一部分，如自动驾驶、视频监控和虚拟现实。

深度学习和端到端训练框架被提出来之前，语义分割主要依靠传统方法提取的手工特征来生成最终分割结果。但是手工特征的精度很低使得该项技术没有得实质的进展，从而导致传统方法在语义分割的领域一直没有取得令人满意的结果。深度学习和端到端训练框架被提出后，立即在计算机视觉任务中的应用取得了巨大的成功。对于语义分割而言，深度学习给予了很大的帮助，其庞大数据量的训练方式和自主学习能力使得语义分割的分割结果精度不断地得到提升，从而实现其在实际需求中的应用与推广。

发明内容

为了解决背景技术中存在的问题，本发明提出了一种非对称编码网络的物体图像3D语义预测分割方法。

本发明所采用的技术方案是：

步骤1_1：选取I幅原始的RGB图像及其对应的深度图，结合各幅原始的RGB图像对应的语义标签一起构成构成训练集，将训练集中的第i幅原始的RGB图像记为{Lⁱ _RGB(p,q)}，将训练集中与{Lⁱ _RGB(p,q)}对应的深度图像记为

RGB图像对应的语义标签记为

其中，I为正整数，I≥700，如取I＝795，i为正整数，1≤i≤I，1≤p≤W，1≤q≤H，W表示{Lⁱ _RGB(p,q)}、

和

的宽度，H表示{Lⁱ _RGB(p,q)}、

和

的高度，W和H均能被2整除，Lⁱ _RGB(p,q)表示{Lⁱ _RGB(p,q)}中坐标位置为(p,q)的像素点的像素值，

表示

中坐标位置为(p,q)的像素点的像素值，

表示

中坐标位置为(p,q)的像素点的像素值；

所述的语义标签为图中物体的检测框和物体类别的标签。所述的物体通常为图像中不同类别的物体，例如可以为室内图像中的床、椅子、桌子等物体，但不限于此。

本发明的3D语义是指引入深度图后的语义分割。

步骤1_2：构建卷积神经网络：

卷积神经网络包括两个输入层、隐层和三个输出层，两个输入层连接到隐层的输入端，隐层的输出端连接三个输出层；

步骤1_3：将训练集中每幅RGB图像及其对应的深度图像，分别作为两个输入层的原始输入图像，输入到卷积神经网络中进行训练，得到训练集中的每幅RGB图像对应的预测分割图像，将RGB图像{Lⁱ _RGB(p,q)}对应的预测分割图像记为

其中，

表示

中坐标位置为(p,q)的像素点的像素值；

步骤1_4：计算训练集中的每幅RGB图像对应的预测分割图像

与对应的语义标签之间的损失函数值，预测分割图像

与

之间的损失函数值记为

采用交叉熵函数获得；

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到训练好的深度可分卷积神经网络训练模型，并共得到N×V个损失函数值；然后从N×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为最优权值矢量和最优偏置项并替换训练好的深度可分卷积神经网络训练模型中的权值矢量和偏置项，对应记为最优权值矢量W^best和最优偏置项b^best；其中V>1，在本实施例中取V＝2000；

步骤1_6：针对待预测的RGB图像{L_RGB(p',q')}及其对应的深度图像{L_depth(p',q')}，其中，1≤p'≤W'，1≤q'≤H'，W'表示{L_RGB(p',q')}和{L_depth(p',q')}的宽度，H'表示{L_RGB(p',q')}和{L_depth(p',q')}的高度，L_RGB(p',q')和L_depth(p',q')分别表示{L_RGB(p',q')}和{L_depth(p',q')}中坐标位置为(p',q')的像素点的像素值，将待预测的RGB图像{L_RGB(p',q')}及其对应的深度图像{L_depth(p',q')}输入到训练好的深度可分卷积神经网络训练模型中，并利用最优权值矢量W^best和最优偏置项b^best进行预测，得到待预测的RGB图像{L_RGB(p',q')}对应的预测分割图像{L_predction(p',q')}，其中，L_predction(p',q')表示{L_predction(p',q')}中坐标位置为(p',q')的像素点的像素值，从而实现语义预测分割。

所述的隐层包括8个卷积层、1个带孔(膨胀)卷积层、6个规范化层、6个激活层、1个ASPP网络块、2个自注意网络块、4个串联融合层、2个元素求和融合层、去除其中第5个最大池化层及其后面网络结构的VGG16网络和去除最后的平均池化层和全连接层后的ResNet34网络；即VGG16网络中第5个最大池化层及其后面网络删去，不采用；ResNet34网络位于网络最后的平均池化层和全连接层删去，不采用。具体实施的带孔(膨胀)卷积层的膨胀比为2。

VGG16网络内部包括依次连接的第零VGG16特征提取块layerd0、第一VGG16特征提取块layerd1、第二VGG16特征提取块layerd2、第三VGG16特征提取块layerd3、第四VGG16特征提取块layerd4；

ResNet34网络内部包括依次连接的卷积层、规范化层、激活层、最大池化层、第一ResNet34特征提取块layer1、第1个第二ResNet34特征提取块layer2、第1个第三ResNet34特征提取块layer3和第1个第四ResNet34特征提取块layer4。

深度图像

和RGB图像{Lⁱ _RGB(p,q)}分别作为两个输入层分别输入到VGG16网络和ResNet34网络，深度图像

输入到VGG16网络的第零VGG16特征提取块layerd0，RGB图像{Lⁱ _RGB(p,q)}输入到ResNet34网络的卷积层；VGG16网络的第一VGG16特征提取块layerd1和ResNet34网络的第一ResNet34特征提取块layer1的输出共同输入到第1个串联融合层，从第1个串联融合层的输出依次经过第1个卷积层、第1个规范化层、第1个激活层和第2个第二ResNet34特征提取块layer2后连接输入到第2个串联融合层。

VGG16网络的第二VGG16特征提取块layerd2和ResNet34网络的第1个第二ResNet34特征提取块layer2的输出共同输入到第2个串联融合层，从第2个串联融合层的输出依次经过第2个卷积层、第2个规范化层、第2个激活层和第2个第三ResNet34特征提取块layer3后连接输入到第3个串联融合层。

VGG16网络的第三VGG16特征提取块layerd3和ResNet34网络的第1个第三ResNet34特征提取块layer3的输出共同输入到第3个串联融合层，从第3个串联融合层的输出依次经过第3个卷积层、第3个规范化层、第3个激活层和第2个第四ResNet34特征提取块layer4后连接输入到第4个串联融合层；

VGG16网络的第四VGG16特征提取块layerd4和ResNet34网络的第1个第四ResNet34特征提取块layer4的输出共同输入到第4个串联融合层，从第4个串联融合层的输出依次经过第4个卷积层、第4个规范化层、第4个激活层、ASPP网络块和第1个双线性上采样层后连接输入到第1个元素求和融合层。

第2个第二ResNet34特征提取块layer2和ResNet34网络的第二ResNet34特征提取块layer2结构相同，即各个第二ResNet34特征提取块layer2结构相同；同理，各个第三ResNet34特征提取块layer3结构相同，各个第四ResNet34特征提取块layer4结构相同。

VGG16网络的第三VGG16特征提取块layerd3的输出经第1个自注意网络块后和ResNet34网络的第1个第三ResNet34特征提取块layer3的输出一起共同输入到第1个元素求和融合层，从第1个元素求和融合层的输出依次经过第2个双线性上采样层、第5个卷积层、第5个规范化层、第5个激活层后连接输入到第2个元素求和融合层，同时第1个元素求和融合层的输出经第5个卷积层连接到第1个输出层。

VGG16网络的第二VGG16特征提取块layerd2的输出经第2个自注意网络块后和ResNet34网络的第1个第二ResNet34特征提取块layer2的输出一起共同输入到第2个元素求和融合层，从第2个元素求和融合层的输出依次经过第3个双线性上采样层、第1个带孔(膨胀)卷积层、第6个规范化层、第6个激活层、第8个卷积层后连接输入到第3个输出层，同时第2个元素求和融合层的输出经第7个卷积层连接到第2个输出层。

第1个输出层、第2个输出层、第3个输出层分别输出尺寸为RGB图像十六分之一的预测分割图像、尺寸为RGB图像八分之一的预测分割图像和尺寸与RGB图像相同的预测分割图像。

所述的ASPP网络块由3个卷积层、3个带孔(膨胀)卷积层、1个自适应平均池化层、1个双线性上采样层、1个融合层组成；自适应平均池化层、第1个卷积层、1个双线性上采样层依次连接后和3个带孔(膨胀)卷积层并联，并联后的各个输出端连接到融合层，融合层输出连接到第3个卷积层；第4个激活层的输出作为ASPP网络块的输入分别输入到3个带孔(膨胀)卷积层和由自适应平均池化层、第1个卷积层、1个双线性上采样层依次连接构成的局部网络结构中，3个带孔(膨胀)卷积层和由自适应平均池化层、卷积层、双线性上采样层依次连接构成的局部网络结构的输出端均连接到融合层，融合层经第3个卷积层输出作为ASPP网络块的输出，输出到第1个双线性上采样层；

带孔(膨胀)卷积层具体为设置了膨胀比的常规卷积层，是通过设置膨胀比来扩大卷积层感受野的操作，自适应平均池化层是通过全局池化来获得一个权重值的操作，双线性上采样层是使用双线性插值的方法来成倍扩大特征图尺寸。

所述的自注意网络块主要包含1个自适应平均池化层、1个Sigmoid层、1个逐元素求积融合层、1个卷积层、1个规范化层和1个激活层；之前网络结构的输出作为自注意网络块的输入，输入到自适应平均池化层和逐元素求积融合层，自适应平均池化层的输出经Sigmoid层后也输入到逐元素求积融合层，逐元素求积融合层输出依次经卷积层、规范化层、激活层后输出作为自注意网络块的输出。

逐元素求积融合层是每个对应元素求积的处理操作。

将两个或三个连续的卷积层加一个最大池化层的结构作为一个网络块，并作为VGG16网络中的一个VGG16特征提取块，如图1中从layerd0到layerd4的五个网络块。并且VGG16网络中，使用一个卷积核大小为1×1、输入通道为1、输出通道为64的卷积层代替原始VGG16中的第一个卷积层，即替换掉第零VGG16特征提取块layerd0中的第一个卷积层。

对于2个输入层，第1个输入层是RGB图像输入层，其输入端接收一幅原始RGB输入图像；第2个输入层是深度图像输入层，其输入端接收一幅原始RGB图像对应的深度图像，2个输入层的输出端分别输出原始RGB图像和其对应的深度图像给隐层。

本发明在训练阶段，本发明搭建的基于RGB图和深度图的双输入卷积神经网络模型的RGB图像输入流使用ResNet34网络对RGB图像进行特征提取获得语义信息，同时深度图像输入流使用VGG16网络对深度图进行特征提取作为RGB图像输入流的辅助信息，使用交叉模态精馏流来集成和细化ResNet34网络中的语义信息和VGG16网络中的辅助信息，以提取更准确的特征信息。最后将三流输出特征信息融合在一起，并利用卷积层和ASPP网络块对融合特征进行优化。利用三个双向上采样层将优化后的特征图的空间分辨率恢复到原始RGB图像的大小。第二个和第三个双线性上采样层在前面都有一个元素求和融合层，以便分别将来自前一层的特征与来自Resnet 34网络中layer2和layer3的输出特征，以及来自VGG16网络中layerd2和layerd3的输出特征相融合。

VGG16网络较浅，VGG16网络的中间特征中可能存在更多的错误信息，如果特征被直接融合，整个神经网络的结果精度反而会降低。本发明使用了一个简单的自注意模块滤除VGG16网络中间特征中的误差信息，然后使用自注意模块的输出特征进行融合以起到积极的辅助作用。接着通过计算训练集中的RGB图像对应的预测分割图像与对应的语义标签图像之间的损失函数值，得到基于RGB图和深度图的双输入卷积神经网络训练模型及最优权值矢量；再将待测试的RGB图像及其对应的深度图像输入到卷积神经网络训练模型中，并利用最优权值矢量，预测得到对应的预测分割图像。

本发明提出的方法具体实施在NYU Depth V2数据集上实现了最先进的语义分割结果。

与现有技术相比，本发明的优点在于：

本发明提出了一种非对称输入流和跨模态精馏流的图像语义分割方法，本发明采用多监督方法进行网络训练，是利用简单高效的自注意模块来优化特征信息，实现了含有实体物体的图像中的物体预测和分割，对物体图像的分割结果精度高。

附图说明

图1为本发明方法的总体实现框图。

图2为自注意网络块的结构框图。

图3为ASPP网络块的结果框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于卷积神经网络的语义分割方法，其总体实现框图如图1所示，其包括以下步骤：

步骤1_1：选取I幅原始的RGB图像及其对应的深度图，结合每幅原始的RGB图像对应的语义标签一起构成构成训练集，将训练集中的第i幅原始的RGB图像记为{Lⁱ _RGB(p,q)}，将训练集中与{Lⁱ _RGB(p,q)}对应的深度图像记为

对应的语义标签记为

和

的宽度，H表示{Lⁱ _RGB(p,q)}、

和

表示

中坐标位置为(p,q)的像素点的像素值，

表示

中坐标位置为(p,q)的像素点的像素值。

步骤1_2：构建卷积神经网络：卷积神经网络包括2个输入层、隐层和3个输出层；隐层包括8个卷积层、1个带孔(膨胀)卷积层、6个规范化层、6个激活层、1个ASPP网络块、2个自注意网络块、4个串联融合层、2个元素求和融合层、排除第5个最大池化层后面结构的VGG16网络、不使用最后的平均池化层和全连接层的ResNet34网络。带孔(膨胀)卷积层的膨胀比为2。ASPP网络块由3个卷积层、3个带孔(膨胀)卷积层、1个自适应平均池化层、1个双线性上采样层、1个串联融合层组成。自注意网络块主要包含1个自适应平均池化层、1个Sigmoid层、1个逐元素求积融合层、1个卷积层、1个规范化层、1个激活层。将VGG16中两个或三个连续卷积层加一个最大池化层的结构作为一个网络块，如图1中从layerd0到layerd4的五个网络块，并且使用一个卷积核大小为1×1，输入通道为1，输出通道为64的卷积层代替原始VGG16中的第一个卷积层，即替换掉layerd0中的第一个卷积层。

对于2个输入层，第1个输入层是RGB图像输入层，其输入端接收一幅原始RGB输入图像；第2个输入层是深度图像输入层，其输入端接收一幅原始RGB图像对应的深度图像，2个输入层的输出端分别输出原始RGB图像和其对应的深度图像给隐层；其中，要求2个输入层的输入端接收的原始图像及其深度图像的宽度为W、高度为H。

对于隐层，除了第5个卷积层和第1个带孔卷积层的卷积核大小为3×3外，其他所有卷积层的卷积核大小都为1×1，并且所有的卷积步长都为1，注意，此处提及的卷积层不包含网络块、ResNet34网络和VGG16网络中的卷积层。第1个卷积层的输入通道为192，输出通道为64；第2个卷积层的输入通道为512，输出通道为128；第3个卷积层的输入通道为1024，输出通道为256；第4个卷积层的输入通道为1536，输出通道为512；第5个卷积层的输入通道为256，输出通道为128；第6个卷积层的输入通道为256，输出通道为40；第7个卷积层的输入通道为128，输出通道为40；第8个卷积层的输入通道为64，输出通道为40；第1个带孔卷积层的输入通道为128，输出通道为64。6个规范化层的参数均采用默认值。6个激活层的激活函数均采用ReLu。2个自注意网络块的卷积层的卷积核大小均为1×1，卷积步长都为1，规范化层的参数均采用默认值，激活层的激活函数均采用ReLu，第1个自注意网络块中卷积层的输入通道为512，输出通道为256，第2个自注意网络块中卷积层的输入通道为256，输出通道为128，自注意网络块的内部结构如图2所示。ASPP网络块中3个卷积层的卷积核大小均为1×1，卷积步长都为1；3个带孔卷积层的卷积核大小均为3×3，卷积步长都为1，膨胀比分别为6,12,18。除了第3个卷积层的输入通道为2569，输出通道为256外，其余2个卷积层和3个带孔卷积层的输入通道均为512，输出通道均为256。3个双线性上采样层的上采样因子分别为：2,2,8，ASPP网络块的内部结构如图3所示。对于ResNet34网络和VGG16网络，除了替换掉VGG16中第1个卷积层外其他结构和参数未做任何改变。

对于隐层，ResNet34网络的输入端接收RGB图像输入层的输出端输出的输入RGB图像，ResNet34网络中卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为G₀，其中，G₀中的每幅特征图的宽度为

高度为

ResNet34网络中规范化层的输入端接收G₀中的所有特征图，规范化层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为P₀，其中，P₀中的每幅特征图的宽度为

高度为

ResNet34网络中激活层的输入端接收P₀中的所有特征图，激活层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为A₀，其中，A₀中的每幅特征图的宽度为

高度为

ResNet34网络中最大池化层的输入端接收A₀中的所有特征图，最大池化层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为M₀，其中，M₀中的每幅特征图的宽度为

高度为

ResNet34网络中layer1的输入端接收M₀中的所有特征图，layer1的输出端输出64幅特征图，将输出的所有特征图构成的集合记为G₁，其中，G₁中的每幅特征图的宽度为

高度为

ResNet34网络中第1个layer2的输入端接收G₁中的所有特征图，第1个layer2的输出端输出128幅特征图，将输出的所有特征图构成的集合记为G₂，其中，G₂中的每幅特征图的宽度为

高度为

ResNet34网络中第1个layer3的输入端接收G₂中的所有特征图，第1个layer3的输出端输出256幅特征图，将输出的所有特征图构成的集合记为G₃，其中，G₃中的每幅特征图的宽度为

高度为

ResNet34网络中第1个layer4的输入端接收G₃中的所有特征图，第1个layer4的输出端输出512幅特征图，将输出的所有特征图构成的集合记为G₄，其中，G₄中的每幅特征图的宽度为

高度为

VGG16网络的输入端接收深度图像输入层的输出端输出的输入深度图像，VGG16网络中layerd0的输出端输出64幅特征图，将输出的所有特征图构成的集合记为D₀，其中，D₀中的每幅特征图的宽度为

高度为

VGG16网络中layerd1的输入端接收D₀中的所有特征图，layerd1的输出端输出128幅特征图，将输出的所有特征图构成的集合记为D₁，其中，D₁中的每幅特征图的宽度为

高度为

VGG16网络中layerd2的输入端接收D₁中的所有特征图，layerd1的输出端输出256幅特征图，将输出的所有特征图构成的集合记为D₂，其中，D₂中的每幅特征图的宽度为

高度为

VGG16网络中layerd3的输入端接收D₂中的所有特征图，layerd1的输出端输出512幅特征图，将输出的所有特征图构成的集合记为D₃，其中，D₃中的每幅特征图的宽度为

高度为

VGG16网络中layerd4的输入端接收D₃中的所有特征图，layerd1的输出端输出512幅特征图，将输出的所有特征图构成的集合记为D₄，其中，D₄中的每幅特征图的宽度为

高度为

第1个串联融合层的输入端接收G₁中的所有特征图和D₁中的所有特征图，串联融合层的输出端输出192幅特征图，将输出的所有特征图构成的集合记为C₁，其中，C₁中的每幅特征图的宽度为

高度为

第1个卷积层的输入端接收C₁中的所有特征图，第1个卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为Y₁，其中，Y₁中的每幅特征图的宽度为

高度为

第1个规范化层的输入端接收Y₁中的所有特征图，规范化层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为P₁，其中，P₁中的每幅特征图的宽度为

高度为

第1个激活层的输入端接收P₁中的所有特征图，激活层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为A₁，其中，A₁中的每幅特征图的宽度为

高度为

ResNet34网络中第2个layer2的输入端接收A₁中的所有特征图，第2个layer2的输出端输出128幅特征图，将输出的所有特征图构成的集合记为G′₂，其中，G'₂中的每幅特征图的宽度为

高度为

第2个串联融合层的输入端接收G₂中的所有特征图、G'₂中的所有特征图和D₂中的所有特征图，串联融合层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为C₂，其中，C₂中的每幅特征图的宽度为

高度为

第2个卷积层的输入端接收C₂中的所有特征图，第2个卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为Y₂，其中，Y₂中的每幅特征图的宽度为

高度为

第2个规范化层的输入端接收Y₂中的所有特征图，规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为P₂，其中，P₂中的每幅特征图的宽度为

高度为

第2个激活层的输入端接收P₂中的所有特征图，激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为A₂，其中，A₂中的每幅特征图的宽度为

高度为

ResNet34网络中第2个layer3的输入端接收A₂中的所有特征图，第2个layer3的输出端输出256幅特征图，将输出的所有特征图构成的集合记为G'₃，其中，G₃'中的每幅特征图的宽度为

高度为

第3个串联融合层的输入端接收G₃中的所有特征图、G'₃中的所有特征图和D₃中的所有特征图，串联融合层的输出端输出1024幅特征图，将输出的所有特征图构成的集合记为C₃，其中，C₃中的每幅特征图的宽度为

高度为

第3个卷积层的输入端接收C₃中的所有特征图，第3个卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为Y₃，其中，Y₃中的每幅特征图的宽度为

高度为

第3个规范化层的输入端接收Y₃中的所有特征图，规范化层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为P₃，其中，P₃中的每幅特征图的宽度为

高度为

第3个激活层的输入端接收P₃中的所有特征图，激活层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为A₃，其中，A₃中的每幅特征图的宽度为

高度为

ResNet34网络中第2个layer4的输入端接收A₃中的所有特征图，第2个layer4的输出端输出512幅特征图，将输出的所有特征图构成的集合记为G'₄，其中，G'₄中的每幅特征图的宽度为

高度为

第4个串联融合层的输入端接收G'₄中的所有特征图、G₄中的所有特征图和D₄中的所有特征图，串联融合层的输出端输出1536幅特征图，将输出的所有特征图构成的集合记为C₄，其中，C₄中的每幅特征图的宽度为

高度为

第4个卷积层的输入端接收C₄中的所有特征图，第4个卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为Y₄，其中，Y₄中的每幅特征图的宽度为

高度为

第4个规范化层的输入端接收Y₄中的所有特征图，规范化层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为P₄，其中，P₄中的每幅特征图的宽度为

高度为

第4个激活层的输入端接收P₄中的所有特征图，激活层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为A₄，其中，A₄中的每幅特征图的宽度为

高度为

ASPP的输入端接收A₄中的所有特征图，ASPP的输出端输出256幅特征图，将输出的所有特征图构成的集合记为S，其中，S中的每幅特征图的宽度为

高度为

第1个双线性上采样层的输入端接收S中的所有特征图，第1个双线性上采样层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为U₁，其中，U₁中的每幅特征图的宽度为

高度为

第1个自注意网络块的输入端接收D₃中的所有特征图，第1个自注意网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为D′₃，其中，D′₃中的每幅特征图的宽度为

高度为

第1个元素求和融合层的输入端接收G₃中的所有特征图、D′₃中的所有特征图和U₁中的所有特征图，第1个元素求和融合层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为T₁，其中，T₁中的每幅特征图的宽度为

高度为

第2个双线性上采样层的输入端接收T₁中的所有特征图，第2个双线性上采样层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为U₂，其中，U₂中的每幅特征图的宽度为

高度为

第5个卷积层的输入端接收U₂中的所有特征图，第5个卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为Y₅，其中，Y₅中的每幅特征图的宽度为

高度为

第5个规范化层的输入端接收Y₅中的所有特征图，规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为P₅，其中，P₅中的每幅特征图的宽度为

高度为

第5个激活层的输入端接收P₅中的所有特征图，激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为A₅，其中，A₅中的每幅特征图的宽度为

高度为

第2个自注意网络块的输入端接收D₂中的所有特征图，第2个自注意网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为D'₂，其中，D'₂中的每幅特征图的宽度为

高度为

第2个元素求和融合层的输入端接收G₂中的所有特征图、D'₂中的所有特征图和A₅中的所有特征图，第2个元素求和融合层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为T₂，其中，T₂中的每幅特征图的宽度为

高度为

第3个双线性上采样层的输入端接收T₂中的所有特征图，第3个双线性上采样层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为U₃，其中，U₃中的每幅特征图的宽度为W、高度为H；第1个带孔卷积层的输入端接收U₃中的所有特征图，第1个带孔卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为Y₆，其中，Y₆中的每幅特征图的宽度为W、高度为H；第6个规范化层的输入端接收Y₆中的所有特征图，规范化层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为P₆，其中，P₆中的每幅特征图的宽度为W、高度为H；第6个激活层的输入端接收P₆中的所有特征图，激活层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为A₆，其中，A₆中的每幅特征图的宽度为W、高度为H。

对于3个输出层，第6个卷积层的输入端接收T₁中的所有特征图，第6个卷积层的输出端输出40幅特征图，将输出的所有特征图构成的集合记为Y₆，其中，Y₆中的每幅特征图的宽度为

高度为

第1个输出层的输入端接收Y₆中的特征图，输出层的输出端输出40幅特征图，将输出的所有特征图构成的集合记为O₁，其中，O₁中的每幅特征图的宽度为

高度为

第7个卷积层的输入端接收T₂中的所有特征图，第7个卷积层的输出端输出40幅特征图，将输出的所有特征图构成的集合记为Y₇，其中，Y₇中的每幅特征图的宽度为

高度为

第2个输出层的输入端接收Y₇中的特征图，输出层的输出端输出40幅特征图，将输出的所有特征图构成的集合记为O₂，其中，O₂中的每幅特征图的宽度为

高度为

第8个卷积层的输入端接收A₆中的所有特征图，第8个卷积层的输出端输出40幅特征图，将输出的所有特征图构成的集合记为Y₈，其中，Y₈中的每幅特征图的宽度为W、高度为H；第3个输出层的输入端接收Y₈中的特征图，输出层的输出端输出40幅特征图，将输出的所有特征图构成的集合记为O₃，其中，O₃中的每幅特征图的宽度为W、高度为H。

步骤1_3：将训练集中每幅RGB图像及其对应的深度图像作为两个原始输入图像，输入到卷积神经网络中进行训练，得到训练集中的每幅RGB图像对应的预测分割图像，将{Lⁱ _RGB(p,q)}对应的预测分割图像记为

其中，

表示

中坐标位置为(p,q)的像素点的像素值。

步骤1_4：计算训练集中的每幅RGB图像对应的预测分割图像与对应的真实深度图像之间的损失函数值，将

与{Lⁱ _RGB(p,q)}之间的损失函数值记为

采用交叉熵函数获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到训练好的深度可分卷积神经网络训练模型，并共得到N×V个损失函数值；然后从N×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V>1，在本实施例中取V＝2000。

实施例的测试阶段过程的具体步骤为：

步骤2_1：令{L_RGB(p',q')}和{L_depth(p',q')}表示待预测的RGB图像及其对应的深度图像；其中，1≤p'≤W'，1≤q'≤H'，W'表示{L_RGB(p',q')}和{L_depth(p',q')}的宽度，H'表示{L_RGB(p',q')}和{L_depth(p',q')}的高度，L_RGB(p',q')和L_depth(p',q')分别表示{L_RGB(p',q')}和{L_depth(p',q')}中坐标位置为(p',q')的像素点的像素值。

步骤2_2：将{L_RGB(p',q')}和{L_depth(p',q')}输入到训练好的深度可分卷积神经网络训练模型中，并利用W^best和b^best进行预测，得到{L_RGB(p',q')}对应的预测分割图像，记为{L_predction(p',q')}；其中，L_predction(p',q')表示{L_predction(p',q')}中坐标位置为(p',q')的像素点的像素值。

为了验证本发明方法的可行性和有效性，对本发明方法进行实验。

在此，本发明方法中构成训练集的RGB图像和其对应的深度图像以及用于测试的RGB图像和其对应的深度图像均来自NYU Depth v2数据集。将测试数据集中的每幅RGB图像和其对应的深度图像输入到训练好的卷积神经网络模型中，再载入训练阶段得到的最优权重W^best，获得对应的预测分割图像。

在此，主要应用像素精度(pixel-acc)、平均精度(mean-acc)和平均交集(mean-iou)这三个关于像素精度和区域相交的性能指标来做评价。这三个指标的数值越高说明预测分割图像的精度越高。反映本发明方法的评价性能优劣指标的结果如表1所列。

表1利用本发明方法得到的预测分割图像与语义标签图像之间的对比评价指标

pixel-acc	mean-acc	mean-IoU
			73.5	59.6	46.1

从表1所列的数据可知，按本发明方法获得的预测分割图像与语义标签图像之间的差别很小，这说明了本发明方法的预测分割结果的精度很高，体现了本发明方法的可行性和有效性。

Claims

1.一种非对称编码网络的物体图像3D语义预测分割方法，其特征在于包括以下步骤：

步骤1_1：选取I幅原始的RGB图像及其对应的深度图，结合各幅原始的RGB图像对应的语义标签一起构成训练集，将训练集中的第i幅原始的RGB图像记为{Lⁱ _RGB(p,q)}，将训练集中与{Lⁱ _RGB(p,q)}对应的深度图像记为

RGB图像对应的语义标签记为

步骤1_2：构建卷积神经网络：卷积神经网络包括两个输入层、隐层和三个输出层，两个输入层连接到隐层的输入端，隐层的输出端连接三个输出层；

其中，

表示

中坐标位置为(p,q)的像素点的像素值；

步骤1_4：计算训练集中的每幅RGB图像对应的预测分割图像

与对应的语义标签之间的损失函数值，预测分割图像

与

之间的损失函数值记为

采用交叉熵函数获得；

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到训练好的深度可分卷积神经网络训练模型，并共得到I×V个损失函数值；然后从I×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为最优权值矢量和最优偏置项并替换训练好的深度可分卷积神经网络训练模型中的权值矢量和偏置项，对应记为最优权值矢量W^best和最优偏置项b^best；

步骤1_6：针对待预测的RGB图像{L_RGB(p',q')}及其对应的深度图像{L_depth(p',q')}，将待预测的RGB图像{L_RGB(p',q')}及其对应的深度图像{L_depth(p',q')}输入到训练好的深度可分卷积神经网络训练模型中，并利用最优权值矢量W^best和最优偏置项b^best进行预测，得到待预测的RGB图像{L_RGB(p',q')}对应的预测分割图像{L_predction(p',q')}，从而实现语义预测分割；

所述的隐层包括8个卷积层、1个带孔卷积层、6个规范化层、6个激活层、1个ASPP网络块、2个自注意网络块、4个串联融合层、2个元素求和融合层、去除其中第5个最大池化层及其后面网络结构的VGG16网络和去除最后的平均池化层和全连接层后的ResNet34网络；深度图像

和RGB图像

分别作为两个输入层分别输入到VGG16网络和ResNet34网络，深度图像

输入到VGG16网络的第零VGG16特征提取块layerd0，RGB图像{Lⁱ _RGB(p,q)}输入到ResNet34网络的卷积层，VGG16网络的第一VGG16特征提取块layerd1和ResNet34网络的第一ResNet34特征提取块layer1的输出共同输入到第1个串联融合层，从第1个串联融合层的输出依次经过第1个卷积层、第1个规范化层、第1个激活层和第2个第二ResNet34特征提取块layer2后连接输入到第2个串联融合层；VGG16网络的第二VGG16特征提取块layerd2和ResNet34网络的第1个第二ResNet34特征提取块layer2的输出共同输入到第2个串联融合层，从第2个串联融合层的输出依次经过第2个卷积层、第2个规范化层、第2个激活层和第2个第三ResNet34特征提取块layer3后连接输入到第3个串联融合层；VGG16网络的第三VGG16特征提取块layerd3和ResNet34网络的第1个第三ResNet34特征提取块layer3的输出共同输入到第3个串联融合层，从第3个串联融合层的输出依次经过第3个卷积层、第3个规范化层、第3个激活层和第2个第四ResNet34特征提取块layer4后连接输入到第4个串联融合层；VGG16网络的第四VGG16特征提取块layerd4和ResNet34网络的第1个第四ResNet34特征提取块layer4的输出共同输入到第4个串联融合层，从第4个串联融合层的输出依次经过第4个卷积层、第4个规范化层、第4个激活层、ASPP网络块和第1个双线性上采样层后连接输入到第1个元素求和融合层；VGG16网络的第三VGG16特征提取块layerd3的输出经第1个自注意网络块后和ResNet34网络的第1个第三ResNet34特征提取块layer3的输出一起共同输入到第1个元素求和融合层，从第1个元素求和融合层的输出依次经过第2个双线性上采样层、第5个卷积层、第5个规范化层、第5个激活层后连接输入到第2个元素求和融合层，同时第1个元素求和融合层的输出经第6个卷积层连接到第1个输出层；VGG16网络的第二VGG16特征提取块layerd2的输出经第2个自注意网络块后和ResNet34网络的第1个第二ResNet34特征提取块layer2的输出一起共同输入到第2个元素求和融合层，从第2个元素求和融合层的输出依次经过第3个双线性上采样层、第1个带孔卷积层、第6个规范化层、第6个激活层、第8个卷积层后连接输入到第3个输出层，同时第2个元素求和融合层的输出经第7个卷积层连接到第2个输出层。

2.根据权利要求1所述的一种非对称编码网络的物体图像3D语义预测分割方法，其特征在于：所述的ASPP网络块由3个卷积层、3个带孔卷积层、1个自适应平均池化层、1个双线性上采样层、1个融合层组成；自适应平均池化层、第1个卷积层、1个双线性上采样层依次连接后和3个带孔卷积层并联，并联后的各个输出端连接到融合层，融合层输出连接到第3个卷积层；第4个激活层的输出作为ASPP网络块的输入分别输入到3个带孔卷积层和由自适应平均池化层、第1个卷积层、1个双线性上采样层依次连接构成的局部网络结构中，3个带孔卷积层和由自适应平均池化层、卷积层、双线性上采样层依次连接构成的局部网络结构的输出端均连接到融合层，融合层经第3个卷积层输出作为ASPP网络块的输出，输出到第1个双线性上采样层。

3.根据权利要求1所述的一种非对称编码网络的物体图像3D语义预测分割方法，其特征在于：所述的自注意网络块包含1个自适应平均池化层、1个Sigmoid层、1个逐元素求积融合层、1个卷积层、1个规范化层和1个激活层；之前网络结构的输出作为自注意网络块的输入，输入到自适应平均池化层和逐元素求积融合层，自适应平均池化层的输出经Sigmoid层后也输入到逐元素求积融合层，逐元素求积融合层输出依次经卷积层、规范化层、激活层后输出作为自注意网络块的输出。

4.根据权利要求1所述的一种非对称编码网络的物体图像3D语义预测分割方法，其特征在于：将两个或三个连续的卷积层加一个最大池化层的结构作为一个网络块，并作为VGG16网络中的一个VGG16特征提取块，并且VGG16网络中，使用一个卷积核大小为1×1、输入通道为1、输出通道为64的卷积层代替原始VGG16中的第一个卷积层，即替换掉第零VGG16特征提取块layerd0中的第一个卷积层。

5.根据权利要求1所述的一种非对称编码网络的物体图像3D语义预测分割方法，其特征在于：对于2个输入层，第1个输入层是RGB图像输入层，其输入端接收一幅原始RGB输入图像；第2个输入层是深度图像输入层，其输入端接收一幅原始RGB图像对应的深度图像，2个输入层的输出端分别输出原始RGB图像和其对应的深度图像给隐层。