CN111160378A

CN111160378A - 基于单张图像的多任务增强的深度估计***

Info

Publication number: CN111160378A
Application number: CN201811316680.2A
Authority: CN
Inventors: 漆进; 胡顺达; 秦金泽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2020-05-15

Abstract

本发明的目的针对基于单张图像的深度估计误估计严重和数据不足，精度低等问题，提出了基于图像分割和图像深度估计双任务的深度学习模型的深度估计***。该***包括：对带深度信息的样本，带分割信息的样本，带深度和分割信息样本的预处理；构建双任务深度学习网络；交替训练，之后微调网络，完成训练。提高深度估计的精度。

Description

基于单张图像的多任务增强的深度估计***

技术领域

本发明涉及图像处理，深度学习，尤其涉及一种基于单张图像的多任务增强的深度估计***。

背景技术

随着计算机技术的显著发展，图像处理技术能够在越来越多的方面发挥作用。图片的深度信息估计是许多视觉任务的基础，例如三维重建，机器人感知领域，自动驾驶的距离等等方面。图像的深度信息估计的精度影响着视觉任务的精度。目前对深度信息的估计研究是从多个方入手的，有基于摄相头参数的图像深度估计，有基于深度摄像头的深度估计，有基于多目图像的深度估计，有基于连续图像序列的图像估计，更有基于单张的图像的深度估计。本文主要提出一种基于单张图片的深度估计。基于单张图像的深度估计有着其他方法不可忽视的优势。该方法需要的硬件设备简单，需要的图像少等优点。

但是该方法目前相对其他方法存在以下问题，精度低，深度估计难度大，数据需求大，误估计严重等问题。针对这些问题，本文公开一种基于分割和深度估计双任务的深度学习模型，能够有效数据不足问题和误估计严重问题，并改善精度低问题。由于单张图像的深度估计问题和分割问题有着相似的任务，并且图像中同一个物体在深度上属于同一个数量级上，所以将图像深度估计和图像分割结合起来，相互学习，公用特征，能够有效的增强误估计的问题。再者现有图像分割的数据大，能够弥补图像深度估计数据不足的问题，提升特征层的效果。因此基于分割和深度估计双任务的深度学习模型能够在单张图像的深度估计任务上取得更好的效果。

发明内容

本发明的目的针对单张图像的深度估计误估计严重和数据不足，精度低等问题，提出了基于图像分割和图像深度估计双任务的深度学习模型的深度估计***。

为了实现上述目的，本发明采用的技术方案是：

本发明公开了一种基于单张图像的多任务增强的深度估计***，具体的实现步骤如下：

(1)对带深度标签图片和带有分割标签的图片和带有深度标签和分割标签的图片，进行预处理，得到训练样本和验证样本。

(2)构建双任务模型，利用(1)中得到的训练样本，间隔着用带有深度标签的图片和带有分割标签的图片对网络进行训练，得到训练好的模型。

(3)利用带有深度标签和分割标签的数据对(2)训练得到的模型进行微调，得到最后的模型。

(4)对带有深度标签的测试图片按照(1)中的预处理方法，得到处理后的测试图片。

(5)利用(3)中训练好的网络，预测(4)中处理后的预测图片，得到预测结果。

所述步骤(1)中的对带深度信息和带分割信息的图片的预处理步骤如下：

(11)对样本库中带有分割标签的图片，进行左右翻转，一定比例的拉伸的数据增强，对所有图片都进行改变对比度，饱和度，光照的数据增强，和随机裁剪，得到数据增强后图片，将其按照一定比例分成训练样本和验证样本，样本大小是224×224。

(12)对带分割标签的图片的分割标签进行如(11)中的左右翻转和一定比例的拉伸，保持与图片的形变的一致，对所有被裁剪的图片的标签进行与图片一致的裁剪。

(13)用(12)中的数据增强后的带分割标签的图片和带深度信息的图片分别进行归一化，得到可训练样本和验证样本。

所述步骤(2)中的构建网络和训练的步骤如下：

(21)首先构建一个如图(1)的网络。其中网络使用四倍下采样残差网络模块提取特征(Residual Block)，之后特征依次通过卷积模块(convolution block)，池化层(pooling block)，直到特征图大小是原图的八分之一，再经过一个多尺度的模块(multiscale block)融合特征。之后和之前的卷积模块输出特征连接，进入二插值上采样模块(interpolation)和反卷积模块(deconvolution block),最后是一个卷积和二插值联合模块输出图像的分割预测和深度估计。

网络中的卷积模块和反卷积模块如图(2)是由许多不同尺寸的卷积模块堆叠而成，卷积模块和反卷积模块不同之处在于卷积层分别是卷积层和反卷积层。模块是先由一个3×3的卷积核，再分别将特征输出到带1×1卷积核的卷积层的通道，带3×3卷积核的卷积层和pool层的通道，带5×1卷积核的卷积层核带1×5的卷积核的卷积层的通道，带3×1卷积核的卷积层核带1×3的卷积核的卷积层的通道，最后由一个带3×3的卷积核卷积层融合特征。之后重复刚刚的多通道卷积。构建如图(2)的卷积模块。该模块中的卷积层都是卷积层加上批次标准化层(batch normlization)和指数线性单元层(Exponential LineraUnit)三种层堆叠的。

网络中的多尺度特征融合模块如图(3)所示。由四路不同尺度的特征提取通道组成。模块是先由一个3×3的卷积核，再分别进入到带1×1卷积核的卷积层，带1×3卷积核的卷积层和带3×1卷积核的卷积层的通道；带1×1卷积核的卷积层，带1×5卷积核的卷积层和带5×1卷积核的卷积层的通道；带1×1卷积核的卷积层，带3×3卷积核，12膨胀系数的膨胀卷积层，带1×1卷积核的卷积层的通道；带1×1卷积核的卷积层，带3×3卷积核，18膨胀系数的膨胀卷积层，带1×1卷积核的卷积层的通道。最后由一个带3×3的卷积核卷积层融合特征。该模块中的卷积层都是卷积层加上批次标准化层(batch normlization)和指数线性单元层(Exponential Linera Unit)三种层堆叠的。

网络中最后的卷积层和二插值上采样层如图(4)所示，特征图进入该模块时分别流向两个相似的通道，一个预测深度信息，一个预测分割信息。网络采用卷积层加二插值上采样层的堆叠。具体是卷积层，之后分别进入二倍上采样后卷积层，再二倍上采样和四倍上采样，融合后一个3×3卷积层输出。

(22)使用(21)中构建的网络训练(13)中得到的训练样本。使用批量梯度下降法训练网络。带分割信息的样本和带深度信息的样本分批次间隔输入模型中训练。

其中在预测分割时，使用交叉熵损失函数作为目标函数，其中损失函数如下：

上式中，所述x_k代表第k个样本预测正确的标签的预测概率，y_k代表第k个样本的的标签的one hot编码，即y_k＝1。

为了防止过拟合，在代价函数后再加上一个L2正则项，得到的代价函数如下：

其中在预测深度信息时，使用的差的平方和为损失函数。

上式中，所述x_k代表第k个像素的预测深度距离，y_k代表第k个像素的实际深度距离。

网络以以上的损失函数最小为目标，以(13)的验证样本的准确度为标准，得到预训练网络。

所述步骤(3)中的微调预训练网络得到最优模型的步骤如下：

(31)利用(13)中的带有深度信息和分割信息的双重标签的样本对(22)中训练得到网络进行微调，降低网络的学习率。以(13)中得到的验证样本的精度为标准，得到最后的模型。

所述步骤(4)中的对测试样本的预处理的具体步骤如下：

(41)将测试样本按照(13)的归一化方法归一化。

所述步骤(5)的对测试样本的预测具体步骤如下：

(51)将(41)中得到的预处理图片，输入到(31)中训练得到的模型，前向传播得到深度估计图。

附图说明

图1是网络模型

图2是卷积模块

图3是多尺度模块

图4是预测模块

具体实施方式

以下将结合附图所示的各实施方式对本发明进行详细描述

(6)对带深度标签图片和带有分割标签的图片和带有深度标签和分割标签的图片，进行预处理，得到训练样本和验证样本。

(7)构建双任务模型，利用(1)中得到的训练样本，间隔着用带有深度标签的图片和带有分割标签的图片对网络进行训练，得到训练好的模型。

(8)利用带有深度标签和分割标签的数据对(2)训练得到的模型进行微调，得到最后的模型。

(9)对带有深度标签的测试图片按照(1)中的预处理方法，得到处理后的测试图片。

(10)利用(3)中训练好的网络，预测(4)中处理后的预测图片，得到预测结果。

所述步骤(2)中的构建网络和训练的步骤如下：

其中在预测深度信息时，使用的差的平方和为损失函数。

所述步骤(3)中的微调预训练网络得到最优模型的步骤如下：

所述步骤(4)中的对测试样本的预处理的具体步骤如下：

(41)将测试样本按照(13)的归一化方法归一化。

所述步骤(5)的对测试样本的预测具体步骤如下：

Claims

1.一种基于单张图像的多任务增强的深度估计***，所述方法包括：

(1)对带深度标签图片和带有分割标签的图片和带有深度标签和分割标签的图片，进行预处理，得到训练样本和验证样本；

(2)构建双任务模型，利用(1)中得到的训练样本，间隔着用带有深度标签的图片和带有分割标签的图片对网络进行训练，得到训练好的模型；

(3)利用带有深度标签和分割标签的数据对(2)训练得到的模型进行微调，得到最后的模型；

(4)对带有深度标签的测试图片按照(1)中的预处理方法，得到处理后的测试图片；

2.根据权利要求1所述的方法，其特征在于，所述步骤(1)中具体包括：

(11)对样本库中带有分割标签的图片，进行左右翻转，一定比例的拉伸的数据增强，对所有图片都进行改变对比度，饱和度，光照的数据增强，和随机裁剪，得到数据增强后图片，将其按照一定比例分成训练样本和验证样本，样本大小是224×224；

(12)对带分割标签的图片的分割标签进行如(11)中的左右翻转和一定比例的拉伸，保持与图片的形变的一致，对所有被裁剪的图片的标签进行与图片一致的裁剪；

3.根据权利要求1所述的方法，其特征在于，所述步骤(2)中具体包括：

(21)首先构建一个如图(1)的网络,其中网络使用四倍下采样残差网络模块提取特征(Residual Block)，之后特征依次通过卷积模块(convolution block)，池化层(poolingblock)，直到特征图大小是原图的八分之一，再经过一个多尺度的模块(multiscaleblock)融合特征，之后和之前的卷积模块输出特征连接，进入二插值上采样模块(interpolation)和反卷积模块(deconvolution block),最后是一个卷积和二插值联合模块输出图像的分割预测和深度估计；

网络中的卷积模块和反卷积模块如图(2)是由许多不同尺寸的卷积模块堆叠而成，卷积模块和反卷积模块不同之处在于卷积层分别是卷积层和反卷积层，模块是先由一个3×3的卷积核，再分别将特征输出到带1×1卷积核的卷积层的通道，带3×3卷积核的卷积层和pool层的通道，带5×1卷积核的卷积层核带1×5的卷积核的卷积层的通道，带3×1卷积核的卷积层核带1×3的卷积核的卷积层的通道，最后由一个带3×3的卷积核卷积层融合特征，之后重复刚刚的多通道卷积，构建如图(2)的卷积模块，该模块中的卷积层都是卷积层加上批次标准化层(batch normlization)和指数线性单元层(Exponential Linera Unit)三种层堆叠的；

网络中的多尺度特征融合模块如图(3)所示，由四路不同尺度的特征提取通道组成，模块是先由一个3×3的卷积核，再分别进入到带1×1卷积核的卷积层，带1×3卷积核的卷积层和带3×1卷积核的卷积层的通道；带1×1卷积核的卷积层，带1×5卷积核的卷积层和带5×1卷积核的卷积层的通道；带1×1卷积核的卷积层，带3×3卷积核，12膨胀系数的膨胀卷积层，带1×1卷积核的卷积层的通道；带1×1卷积核的卷积层，带3×3卷积核，18膨胀系数的膨胀卷积层，带1×1卷积核的卷积层的通道，最后由一个带3×3的卷积核卷积层融合特征，该模块中的卷积层都是卷积层加上批次标准化层(batch normlization)和指数线性单元层(Exponential Linera Unit)三种层堆叠的；

网络中最后的卷积层和二插值上采样层如图(4)所示，特征图进入该模块时分别流向两个相似的通道，一个预测深度信息，一个预测分割信息，网络采用卷积层加二插值上采样层的堆叠，具体是卷积层，之后分别进入二倍上采样后卷积层，再二倍上采样和四倍上采样，融合后一个3×3卷积层输出；

(22)使用(21)中构建的网络训练(13)中得到的训练样本，使用批量梯度下降法训练网络，带分割信息的样本和带深度信息的样本分批次间隔输入模型中训练；

上式中，所述x_k代表第k个样本预测正确的标签的预测概率，y_k代表第k个样本的的标签的one hot编码，即y_k＝1；

其中在预测深度信息时，使用的差的平方和为损失函数；

上式中，所述x_k代表第k个像素的预测深度距离，y_k代表第k个像素的实际深度距离，

4.根据权利要求1所述的方法，其特征在于，所述步骤(3)中具体包括：

(31)利用(13)中的带有深度信息和分割信息的双重标签的样本对(22)中训练得到网络进行微调，降低网络的学习率，以(13)中得到的验证样本的精度为标准，得到最后的模型。

5.根据权利要求1所述的方法，其特征在于，所述步骤(4)中具体包括：

(41)将测试样本按照(13)的归一化方法归一化。

6.根据权利要求1所述的方法，其特征在于，所述步骤(5)中具体包括：