CN110335228B

CN110335228B - 一种图像视差的确定方法、装置及***

Info

Publication number: CN110335228B
Application number: CN201810276957.7A
Authority: CN
Inventors: 张奎; 熊江; 杨平; 谢迪
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2021-06-25
Anticipated expiration: 2038-03-30
Also published as: CN110335228A

Abstract

本发明实施例提供了一种图像视差的确定方法、装置及***，本实施例中利用无监督神经网络，确定多张图像间的视差，无监督神经网络利用损失函数进行训练，不需要真实视差作为监督，损失函数中包含一项或多项误差参数，训练过程中，误差参数逐渐变小，也就是确定视差的准确度变高，因此，应用本实施例确定的视差准确度较高。

Description

一种图像视差的确定方法、装置及***

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种图像视差的确定方法、装置及***。

背景技术

多目相机，可以同时采集同一场景的多张图像，增大了视角范围。多目相机中的双目相机还可以模拟人眼的双目视觉，提供较佳的视觉效果。通常情况下，需要计算多目相机所采集的多张图像之间的视差。

计算视差的方案一般包括：利用真实视差作为监督信息，以多目相机采集的多张图像作为输入，对神经网络进行训练，利用训练完成的神经网络，计算多目相机所采集的多张图像之间的视差。这种方案中，需要预先得到真实视差，但是获取真实视差的难度较大，一般获取到的真实视差准确度较低，导致计算得到的视差准确度较低。

发明内容

本发明实施例的目的在于提供一种图像视差的确定方法、装置及***，以提高视差准确度。

为达到上述目的，本发明实施例提供了一种图像视差的确定方法，包括：

获取多张待处理图像；

将所述多张待处理图像输入预先训练得到的无监督神经网络中；其中，所述无监督神经网络包括特征提取层、特征叠加层、特征编码层、视差恢复层；所述无监督神经网络为：利用预设损失函数对多组样本图像训练得到的，每组样本图像包括多张存在视差的图像，所述预设损失函数中包含一项或多项误差参数；

利用所述特征提取层，提取所述多张待处理图像的特征；

利用所述特征叠加层，将所述特征提取层提取到的特征进行叠加，得到叠加后的特征；

利用所述特征编码层，对所述叠加后的特征进行编码，得到编码后的特征；

利用所述视差恢复层，对所述编码后的特征进行反卷积运算，得到所述多张待处理图像的视差。

可选的，每张待处理图像的特征张量维度为W*H*3，其中，W为待处理图像的宽度，H为待处理图像的高度，3表示待处理图像的颜色通道数；

所述利用所述特征提取层，提取所述待处理图像的特征，可以包括：

针对每张待处理图像，利用所述特征提取层对该张待处理图像进行卷积，得到特征张量维度为

的特征，其中，F表示所述特征提取层的输出通道数，x表示第一预设下采样倍数。

可选的，所述多张待处理图像中包含N对待处理图像，所述N为正整数；所述利用所述特征叠加层，将所述特征提取层提取到的特征进行叠加，得到叠加后的特征，包括：

将每对待处理图像对应的两份特征张量维度为

的特征进行叠加，得到特征张量维度为

的叠加后的特征。

可选的，所述利用所述特征编码层，对所述叠加后的特征进行编码，得到编码后的特征，可以包括：

利用所述特征编码层，对所述特征张量维度为

的叠加后的特征进行编码，得到特征张量维度为

的编码后的特征，其中，所述C表示所述特征编码层的输出通道数，y表示第二预设下采样倍数，y大于x。

可选的，所述视差恢复层包括多个激活二维反卷积层；所述利用所述视差恢复层，对所述编码后的特征进行反卷积运算，得到所述多张待处理图像的视差，可以包括：

在每个激活二维反卷积层中，利用预设激活函数得到一个尺度下的视差。

可选的，所述预设损失函数为所述视差恢复层中得到的多个视差的损失值的和；所述损失值包含以下一项或多项误差参数：图像匹配误差参数、视差图平滑性误差参数、视差图左右一致性误差参数。

可选的，一个尺度下的视差的损失值＝图像匹配误差参数*第一权重+视差图平滑性误差*第二权重+视差图左右一致性误差参数*第三权重，所述第一权重、所述第一权重、所述第三权重为预先设定的。

可选的，在利用预设损失函数，对多组样本图像训练得到无监督神经网络之后，还可以包括：

确定所得到的无监督神经网络输出的视差中的异常区域；

针对所述异常区域，设定新的误差参数；

将所述新的误差参数添加至所述预设损失函数中，得到新的损失函数；

利用所述新的损失函数、以及所确定的异常区域，对所得到的无监督神经网络进行调整，得到调整后的无监督神经网络；

所述将所述多张待处理图像输入预先训练得到的无监督神经网络中，包括：

将所述多张待处理图像输入所述调整后的无监督神经网络中。

可选的，所述确定所得到的无监督神经网络输出的视差中的异常区域，可以包括：

确定所得到的无监督神经网络输出的视差中的异常区域、以及与所述异常区域位于同一平面的对照区域；

所述针对所述异常区域，设定新的误差参数，可以包括：

计算所述对照区域与所述异常区域的平面距离，作为新的误差参数。

可选的，所述获取多张待处理图像，可以包括：获取多目相机采集的多张图像，作为待处理图像；

在所述得到所述多张待处理图像的视差之后，还可以包括：

根据所得到的视差，计算所述多目相机的深度信息。

为达到上述目的，本发明实施例还提供了一种图像视差的确定装置，包括：

获取模块，用于获取多张待处理图像；

输入模块，用于将所述多张待处理图像输入预先训练得到的无监督神经网络中；其中，所述无监督神经网络包括特征提取层、特征叠加层、特征编码层、视差恢复层；所述无监督神经网络为：利用预设损失函数对多组样本图像训练得到的，每组样本图像包括多张存在视差的图像，所述预设损失函数中包含一项或多项误差参数；

提取模块，用于利用所述特征提取层，提取所述多张待处理图像的特征；

叠加模块，用于利用所述特征叠加层，将所述特征提取层提取到的特征进行叠加，得到叠加后的特征；

编码模块，用于利用所述特征编码层，对所述叠加后的特征进行编码，得到编码后的特征；

视差恢复模块，用于利用所述视差恢复层，对所述编码后的特征进行反卷积运算，得到所述多张待处理图像的视差。

所述提取模块，具体可以用于：针对每张待处理图像，利用所述特征提取层对该张待处理图像进行卷积，得到特征张量维度为

可选的，所述多张待处理图像中包含N对待处理图像，所述N为正整数；所述叠加模块，具体可以用于：

将每对待处理图像对应的两份特征张量维度为

的特征进行叠加，得到特征张量维度为

的叠加后的特征。

可选的，所述编码模块，具体可以用于：

利用所述特征编码层，对所述特征张量维度为

的叠加后的特征进行编码，得到特征张量维度为

可选的，所述视差恢复层包括多个激活二维反卷积层；所述视差恢复模块，具体可以用于：

可选的，所述装置还可以包括：

确定模块，用于确定所得到的无监督神经网络输出的视差中的异常区域；

设定模块，用于针对所述异常区域，设定新的误差参数；

添加模块，用于将所述新的误差参数添加至所述预设损失函数中，得到新的损失函数；

调整模块，用于利用所述新的损失函数、以及所确定的异常区域，对所得到的无监督神经网络进行调整，得到调整后的无监督神经网络；

所述输入模块，具体用于：将所述多张待处理图像输入所述调整后的无监督神经网络中。

可选的，所述确定模块，具体可以用于：确定所得到的无监督神经网络输出的视差中的异常区域、以及与所述异常区域位于同一平面的对照区域；

所述设定模块，具体可以用于：计算所述对照区域与所述异常区域的平面距离，作为新的误差参数。

可选的，所述获取模块，具体可以用于：

获取多目相机采集的多张图像，作为待处理图像；

所述装置还可以包括：

计算模块，用于根据所得到的视差，计算所述多目相机的深度信息。

为达到上述目的，本发明实施例还提供了一种电子设备，包括处理器和存储器，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一种图像视差的确定方法。

为达到上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种图像视差的确定方法。

为达到上述目的，本发明实施例还提供了一种图像视差的确定***，包括：多目相机和处理设备，其中，

所述多目相机，用于采集多张图像，将所述多张图像发送至所述处理设备；

所述处理设备，用于接收所述多张图像，作为多张待处理图像；将所述多张待处理图像输入预先训练得到的无监督神经网络中；其中，所述无监督神经网络包括特征提取层、特征叠加层、特征编码层、视差恢复层；所述无监督神经网络为：利用预设损失函数对多组样本图像训练得到的，每组样本图像包括多张存在视差的图像，所述预设损失函数中包含一项或多项误差参数；利用所述特征提取层，提取所述多张待处理图像的特征；利用所述特征叠加层，将所述特征提取层提取到的特征进行叠加，得到叠加后的特征；利用所述特征编码层，对所述叠加后的特征进行编码，得到编码后的特征；利用所述视差恢复层，对所述编码后的特征进行反卷积运算，得到所述多张待处理图像的视差。

应用本发明所示实施例，利用无监督神经网络，确定多张图像间的视差，无监督神经网络利用损失函数进行训练，不需要真实视差作为监督，损失函数中包含一项或多项误差参数，训练过程中，误差参数逐渐变小，也就是确定视差的准确度变高，因此，应用本方案确定的视差准确度较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像视差的确定方法的流程示意图；

图2为本发明实施例提供的一种无监督神经网络中的特征提取层的结构示意图；

图3为本发明实施例提供的一种无监督神经网络中的特征编码层和视差恢复层的结构示意图；

图4为本发明实施例提供的一种视差恢复层中的部分结构示意图；

图5为本发明实施例提供的一种视差异常场景的示意图；

图6为本发明实施例提供的一种图像视差的确定装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图；

图8为本发明实施例提供的一种图像视差的确定***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决上述技术问题，本发明实施例提供了一种图像视差的确定方法、装置及***。该方法及装置可以应用于具有图像处理功能的各种电子设备，比如手机、电脑等等，或者也可以应用于具有图像处理功能的相机，具体不做限定。

下面首先对本发明实施例提供的一种图像视差的确定方法进行详细说明。

图1为本发明实施例提供的一种图像视差的确定方法的流程示意图，包括：

S101：获取多张待处理图像。

待处理图像即为需要确定视差的多张图像。举例来说，可以获取多目相机采集的多张图像，作为待处理图像。本发明实施例的执行主体可以为该多目相机，也可以为与该多目相机通信连接的电子设备。

作为一种实施方式，该多目相机可以为双目相机，该双目相机可以为水平双目相机，也可以为垂直双目相机，也可以为针孔双目相机、鱼眼双目相机等等，或者，该多目相机也可以为三目或者三目以上的相机，具体不做限定。将双目相机采集的左图像和右图像作为待处理图像。

S102：将该多张待处理图像输入预先训练得到的无监督神经网络中，该无监督神经网络包括特征提取层、特征叠加层、特征编码层、视差恢复层。该无监督神经网络为：利用预设损失函数对多组样本图像训练得到的，每组样本图像包括多张存在视差的图像，该预设损失函数中包含一项或多项误差参数。

无监督神经网络的结构是预先设定的，无监督神经网络的网络参数是训练得到的。具体的，可以先利用Xavier参数初始化方法，对无监督神经网络的网络参数进行初始化；然后以多组样本图像作为输入，利用预设损失函数对无监督神经网络的网络参数进行训练，最终得到训练完成的无监督神经网络。其中，每组样本图像包括多张存在视差的图像，预设损失函数中包含一项或多项误差参数。训练过程即为损失函数逐渐变小的过程，也就是误差参数逐渐变小的过程，也就是输出的视差逐渐准确的过程。

如果该无监督神经网络仅用于确定双目相机所采集图像的视差，则每组样本图像可以包括两张图像，这两张图像可以为同一台双目相机采集的左图像和右图像。

举例来说，可以利用Adam参数优化方法对无监督神经网络进行训练，或者，也可以利用其他优化算法，具体不做限定。在训练过程中，初始学习率可以设置为10^-4；批处理量batch的大小与图像分辨率及显示显存相关，比如，应用NVIDIA TITAN X的显卡处理分辨率为640x480的图像时，单张显卡的batch可以为所使用的GPU(Graphics Processing Unit，图形处理器)的数量*8，或者，另一些场景中，batch也可以为GPU的数量。

假设获取到了4万组样本图像，假设训练次数设定为50次，可以在训练到第30次的时候将学习率缩小为初始学习率的二分之一，在训练到第40次的时候将学习率缩小为初始学习率的四分之一。本领域技术人员可以理解，当训练到接近最优值时，如果学习率较大，训练结果稳定性较差，因此，训练过程中缩小学习率，可以提高训练结果的稳定性。

下面以一组样本图像为例，介绍无监督神经网络的训练过程；假设该组样本图像为同一台双目相机采集的左图像和右图像，无监督神经网络的结构包括特征提取层、特征叠加层、特征编码层、视差恢复层：

步骤一、将左图像和右图像输入特征提取层，左图像和右图像的特征张量维度均为W*H*3，其中，W为待处理图像的宽度，H为待处理图像的高度，3表示待处理图像的颜色通道数，也就是RGB(Red，Green，Blue，红绿蓝)通道数。

在特征提取层中分别对左图像和右图像进行卷积，得到两份特征张量维度为

特征，其中，F表示所述特征提取层的输出通道数，x表示第一预设下采样倍数。

举例来说，特征提取层可以为一个5层的卷积神经网络，比如图2中所示，conv_f1-conv_f5即为该5个二维卷积层，⊕表示执行将两个输入相加并进行BN(BatchNormalization)和ELU(Exponential Linear Unit，指数线性单元)操作，进行BN和ELU操作也就是卷积层后跟随一个BN层和一个ELU层。为减少特征丢失的情况，图2中的第二个⊕可以不进行BN和ELU操作。

图2中，conv_f1可以为一个卷积核为5*5、步长为2的二维卷积层，通过这一层可以减小待处理图像的分辨率，也就是通过这一层对待处理图像进行下采样，这样可以减少占用内存及计算开销，并且能够增大特征提取时卷积核的感受野，进而更好地提取全局特征。具体的，第一下采样倍数x可以预先设定，比如，x可以为2，也就是将待处理图像的分辨率减少二分之一。为了与下面内容中的采样倍数相区分，这里将特征提取层中的采样倍数称为第一采样倍数x。

conv_f2-conv_f5这四个二维卷积层均可以为卷积核为3*3、步长为1的二维卷积层，而且conv_f2和conv_f4中之后均可以跟随一个BN(Batch Normalization，批规范化)层和一个ELU激活层。图2中5个二维卷积层的输出通道数相同，或者说，特征提取层中每层的输出通道数相同，记为F。F可以为32，或者也可以为其他，具体不做限定。

如果x为2，F为32，则特征提取层输出特征张量维度为

特征提取层对左图像和右图像都进行特征提取，得到两份特征，每份特征的特征张量维度都为

步骤二、将两份特征张量维度为

的特征输入特征叠加层，将该特征提取层提取到的特征进行叠加，得到叠加后的特征，叠加后的特征的特征张量维度为

如果x为2，F为32，则叠加后的特征的特征张量维度为

假设一组样本图像中有M张图像，这M张图像中包含N对双目图像(左图像和右图像)，M为大于1的正整数，N为正整数，则叠加后的特征的特征张量维度为

上述

为N＝1的情况。

步骤三、假设将特征张量维度为

的叠加后的特征输入特征编码层，利用特征编码层，对该叠加后的特征进行编码，得到特征张量维度为

举例来说，特征编码层可以为图3的上半部分，包含conv1-conv6，conv1-conv6的6个框中每个框都包含两个卷积核为3*3的二维卷积层，其中，conv1包含的两个二维卷积层步长均为1，conv2-conv6中每个框包含的两个二维卷积层中，第一个二维卷积层步长为1，第二个二维卷积层步长为2。特征编码层中每个二维卷积层之后均可以跟随一个BN(BatchNormalization，批规范化)层和一个ELU激活层。

通过这一层对叠加后的特征进行下采样，这样可以得到图像的全局特征。具体的，第二下采样倍数y可以预先设定，比如，图3中conv2-conv5都进行一次下采样，又由于特征提取层也进行了一次下采样，因此，y可以为2⁶＝64。为了与上面内容中的采样倍数相区分，这里将特征编码层中的采样倍数称为第二采样倍数y。

特征编码层中每层的输出通道数随着下采样次数的增加而增加，比如，图2中conv2-conv5都进行一次下采样，特征编码层的输入通道数64，输入的特征张量维度为

进行了5次下采样之后，特征编码层输出通道数为64*2⁵＝2048，输出的特征张量维度为为

步骤四、将编码后的特征输入视差恢复层，利用该视差恢复层，对该编码后的特征进行反卷积运算，得到所述多张待处理图像的视差。

举例来说，视差恢复层可以为图3的下半部分，包含upconv、upconv5-upconv1、conv。其中，upconv为一个卷积核为3×3、步长为2的二维反卷积层；upconv4和upconv5每个框中均包含两个卷积核为3×3的二维反卷积层，而且第一个二维反卷积层步长为1，第二个二维反卷积层步长为2；upconv3、upconv2、upconv1每个框的结构均可以如图4所示；图3中的conv为卷积核为3*3、步长为1的二维反卷积层，conv即为激活二维反卷积层，在conv中，可以利用sigmoid激活函数得到一个尺度下的视差，该视差可以为视差图。

图4中的conv与图3中的conv相同，均为激活二维反卷积层；另外，图4中的iconv1为卷积核为3*3、步长为1的二维反卷积层，iconv2为卷积核为3*3、步长为2的二维反卷积层。

图3中，upconv3-upconv1中每个框均包含一个conv，upconv1之后还有一个conv，也就是说视差恢复层中包含4个conv，可以得到4个视差图：disp1-disp4。这4个视差图是不同尺度下的视差图，这4个视差图的分辨率是不同的，其中，高分辨率的视差图可以更好的保留图像中的细节信息，低分辨率的视差图可以更好的恢复视差图的全局结构信息。

举例来说，图3中除最后一个卷积层外，其他卷积层之后都可以跟随一个BN层和一个ELU层。

步骤五、利用预设损失函数，计算这4张视差图的损失值的和，该损失函数可以包括三项误差参数：图像匹配误差参数、视差图平滑性误差参数、视差图左右一致性误差参数。其中一张视差图的损失值＝图像匹配误差参数*第一权重+视差图平滑性误差参数*第二权重+视差图左右一致性误差参数*第三权重，所述第一权重、所述第一权重、所述第三权重为预先设定的。

一张视差图的损失值可以为：

其中，L_n表示第n张视差图，上述例子中n可以1、2、3、4，w_im表示第一权重，w_ds表示第二权重，w_lr表示第三权重，举例来说，第一权重可以为1.0，第二权重可以为0.85，第三权重可以为1.0。

表示图像匹配误差参数，

表示视差图平滑性误差参数，

表示视差图左右一致性误差参数。

表示左图像匹配误差参数，

表示左图像匹配误差参数，

表示左图像的视差图平滑性误差参数，

表示右图像的视差图平滑性误差参数，

表示左图像的视差图左右一致性误差参数，

表示右图像的视差图左右一致性误差参数。

可以理解，如果一组样本图像包含三张图像，则上述预设损失函数的每个括号中包含三项，第一个括号中包含三张图像的匹配误差参数，第二个括号中包含三张图像的视差图平滑性误差参数，第三个括号中包含三张图像的视差图左右一致性误差参数。类似的，一组样本图像中的图像数量也可以为其他，不再一一列举。

假设一组样本图像中有M张图像，这M张图像中包含N对双目图像，则一张视差图的损失值可以为：

其中，

表示从N对双目图像中任选两对，D_ld,D_rd表示这任选的两对双目图像对应的视差图之间的差异的绝对值。即如果这两组双目图像的左视差图分别为D_l1,D_l2，则D_ld＝|D_l1-T₂₁D_l2|，其中T₂₁表示视差图D_l2到D_l1的变换参数，该变换参数可以通过标定获取。

假设一组样本图像包括一张左图像和一张右图像，作为一种实施方式，左图像匹配误差参数可以为：

其中，N表示左图像中所有像素点的数量，ij表示一个像素点的坐标，α表示左图像SSIM(structural similarity index，结构相似度)损失值和一阶图像差异损失值之间的权重；

表示左图像，

表示根据右图像与左图像的视差图生成的重建左图像，

表示左图像与该重建左图像的一阶颜色值差异。

根据右图像与左图像的视差图，生成重建左图像的过程可以如下式所示：

表示右图像，

表示视差值。视差值可以为浮点型数据，图像重建时可以使用双线性插值方法。

右图像匹配误差参数与左图像匹配误差参数的计算过程类似，不再赘述。

如上所述，一组样本图像中可以包含多张图像，假设一组样本图像中有M张图像，这M张图像包含K对双目图像，则该N对双目图像中的左视图的匹配误差参数均可以为：

该式可以理解为该K对双目图像中的左视图图像重建误差之和。

假设一组样本图像包括一张左图像和一张右图像，作为一种实施方式，左图像的视差图平滑性误差参数可以为：

其中，N表示左图像中所有像素点的数量，ij表示一个像素点的坐标，

表示水平二阶梯度，

表示垂直二阶梯度。

损失函数中设置视差图平滑性误差参数的目的在于，使得视差图尽量平滑，也就是视差图的梯度和尽量最小。但由于图像边缘部分的视差不连续性，也就是视差存在跳变，因此，这里的视差图平滑性误差参数对左图像和右图像的梯度做了加权。右图像的视差图平滑性误差参数与左图像的视差图平滑性误差参数的计算过程类似，不再赘述。

如上所述，一组样本图像中可以包含多张图像，假设一组样本图像中有M张图像，这M张图像包含K对双目图像，则该K对双目图像中的左视图的视差图平滑性误差参数均可以为：

假设一组样本图像包括一张左图像和一张右图像，作为一种实施方式，左图像的视差图左右一致性误差参数可以为：

表示左图像的视差图，

表示右图像的视差图。右图像的视差图左右一致性误差参数与左图像的视差图左右一致性误差参数的计算过程类似，不再赘述。

损失函数中设置视差图左右一致性误差参数的目的在于，使得无监督神经网络输出的左右图像的视差图尽量一致。如上所述，一组样本图像中可以包含多张图像，假设一组样本图像中有M张图像，这M张图像包含N对双目图像，则该K对双目图像中的左视图的视差图左右一致性误差参数均可以为：

可以对损失函数中的各项损失值求导，并利用Adam参数优化方法对无监督神经网络的网络参数进行迭代更新。训练过程中，损失函数的值越来越小。举例来说，可以设定训练次数，当达到训练次数的情况下，训练完成。然后，便可以利用训练完成的无监督神经网络对待处理图像进行处理。需要说明的是，无监督神经网络是在S101之前预先训练得到的。

S103：利用特征提取层，提取该多张待处理图像的特征。

通常情况下，一张RGB图像的特征张量维度为H×W×3，其中，W为待处理图像的宽度，H为待处理图像的高度，3表示待处理图像的RGB通道数；作为一种实施方式，S103可以包括：

举例来说，特征提取层可以为一个5层的卷积神经网络，比如图2中所示，conv_f1-conv_f5即为该5个二维卷积层，⊕表示执行将两个输入相加并进行BN(BatchNormalization)和ELU(Exponential Linear Unit，指数线性单元)操作，进行ELU操作也就是卷积层后跟随一个BN层和一个ELU层。为减少特征丢失的情况，图2中的第二个⊕可以不进行BN和ELU操作。

图2中，conv_f1可以为一个卷积核为5*5、步长为2的二维卷积层，通过这一层可以减小待处理图像的分辨率，也就是通过这一层对待处理图像进行下采样，这样可以减少占用内存及计算开销，并增大特征提取的感受野，进而更好地提取全局特征。具体的，第一下采样倍数x可以预先设定，比如，x可以为2，也就是将待处理图像的分辨率减少二分之一。为了与下面内容中的采样倍数相区分，这里将特征提取层中的采样倍数称为第一采样倍数x。

conv_f2-conv_f5这四个二维卷积层均可以为卷积核为3*3、步长为1的二维卷积层，而且conv_f2和conv_f4中之后均可以跟随一个BN(Batch Normalization，批规范化)层和一个ELU激活层。图2中5个二维卷积层的通道数相同，或者说，特征提取层中每层的输出通道数相同，记为F。F可以为32，或者也可以为其他，具体不做限定。

如果x为2，F为32，则特征提取层输出特征张量维度为

特征提取层对多张待处理图像都进行特征提取，得到多份特征，每份特征的特征张量维度都为

举例来说，提取到的多份特征可以为多张特征图像。

S103：利用特征叠加层，将该特征提取层提取到的特征进行叠加，得到叠加后的特征。

延续上述实施方式，得到多份特征张量维度为

的特征，假设多张待处理图像中包含N对待处理图像，所述N为正整数，则S103可以包括：将每对待处理图像对应的两份特征张量维度为

的特征进行叠加，得到特征张量维度为

的叠加后的特征。。

如果x为2，F为32，S101获取到的待处理图像为双目相机的左图像和右图像，也就是N为1，这种情况下，叠加后的特征的特征张量维度为

S104：利用特征编码层，对该叠加后的特征进行编码，得到编码后的特征。

特征编码也就是对特征进行融合。延续上述实施方式，得到特征张量维度为

的叠加后的特征，这种情况下，S104可以包括：利用所述特征编码层，对所述特征张量维度为

的叠加后的特征进行编码，得到特征张量维度为

通过这一层对叠加后的特征进行下采样，这样可以得到图像的全局特征。具体的，第二下采样倍数y可以预先设定，比如，图3中conv2-conv5都进行一次下采样，又由于特征提取层也进行了一次下采样，因此，y可以为2⁶＝64。为了与上面内容中的采样倍数相区分，这里将特征编码层中的采样倍数称为第二采样倍数x。

S106：利用视差恢复层，对该编码后的特征进行反卷积运算，得到所述多张待处理图像的视差。

作为一种实施方式，所述视差恢复层包括多个激活二维反卷积层；S106可以包括：在每个激活二维反卷积层中，利用预设激活函数得到一个尺度下的视差。

举例来说，视差恢复层可以为图3的下半部分，包含upconv、upconv5-upconv1、conv。其中，upconv为一个卷积核为3*3、步长为2的二维反卷积层；upconv4和upconv5每个框中均包含两个卷积核为3*3的二维反卷积层，而且第一个二维反卷积层步长为1，第二个二维反卷积层步长为2；upconv3、upconv2、upconv1每个框的结构均可以如图4所示；conv为卷积核为3*3、步长为1的二维反卷积层，conv即为激活二维反卷积层，在conv中，可以利用sigmoid激活函数得到一个尺度下的视差，该视差可以为视差图。

图4中的conv与图3中的conv相同，均为激活二维反卷积层；另外，iconv1为卷积核为3*3、步长为1的二维反卷积层，iconv2为卷积核为3*3、步长为2的二维反卷积层。图3中除最后一个卷积层外，其他卷积层之后都可以跟随一个BN层和一个ELU层。

图3中，upconv3-upconv1中每个框均包含一个conv，upconv1之后还有一个conv，也就是说视差恢复层中包含4个conv，可以得到4个视差图：disp1-disp4。这4个视差图的分辨率是不同的，其中，高分辨率的视差图可以更好的保留图像中的细节信息，低分辨率的视差图可以更好的恢复视差图的全局结构信息。

disp2-disp4这三个视差图都属于过程量，可以不作为无监督神经网络的输出，无监督神经网络可以仅输出disp1，disp1即为该多张待处理图像的视差，其中，每张图像对应一个尺度下的视差，或者说每张待处理图像对应一张视差图。

如上所述，S101中获取到的多张待处理图像可以为多目相机采集的多张图像，作为一种实施方式，在S106得到该多张待处理图像的视差之后，还可以根据得到的视差，计算该多目相机的深度信息。

具体的，可以利用如下算式，计算双目相机的深度信息：

其中，Z表示深度信息，B一般称为双目相机的基线(baseline)，f表示双目相机的焦距，d表示视差。可以理解，对于多目相机来说，可以将其作为多个双目相机，同样可以确定多目相机的深度信息。

应用本发明图1所示实施例，利用无监督神经网络，确定多张图像间的视差；第一方面，无监督神经网络利用损失函数进行训练，不需要真实视差作为监督，损失函数中包含一项或多项误差参数，训练过程中，误差参数逐渐变小，也就是确定视差的准确度变高，因此，应用本方案确定的视差准确度较高；第二方面，本实施例中的无监督神经网络为端到端的神经网络，该神经网络的输入为待处理图像，输出为该图像的视差，处理效率较高。

在一些场景中，由于环境因素的影响会造成视差错误。比如图5中所示，A区域与B区域都属于地面区域，但由于反光，A区域与B区域的视差差别较大，而且A区域的视差正常，B区域的视差异常。

针对这种情况，可以对训练完成的无监督神经网络的网络参数进行调整，以进一步提高确定视差的准确度。作为一种实施方式，可以在利用预设损失函数，对多组样本图像训练得到无监督神经网络之后，确定所得到的无监督神经网络输出的视差中的异常区域；针对所述异常区域，设定新的误差参数；将所述新的误差参数添加至所述预设损失函数中，得到新的损失函数；利用所述新的损失函数、以及所确定的异常区域，对所得到的无监督神经网络进行调整，得到调整后的无监督神经网络。

具体来说，可以确定所得到的无监督神经网络输出的视差中的异常区域、以及与所述异常区域位于同一平面的对照区域；计算所述对照区域与所述异常区域的平面距离，作为新的误差参数。

异常区域可以为图5中的B区域，异常区域的对照区域可以为图5中的A区域，A区域与B区域位于同一平面，而且A区域不是异常区域。A区域与B区域位于同一平面，因此，理论上来说，A区域与B区域的平面距离应该为0。举例来说，可以利用上述计算得到的深度信息，得到A区域像素点和B区域像素点的三维坐标值。根据A区域中各像素点的三维坐标值，可以确定A区域所在的平面。根据B区域中各像素点的三维坐标值，计算B区域各像素点到A区域所在的平面的距离均值，将该距离均值作为A区域与B区域的平面距离。由于存在误差，该距离均值并不为0。

将该距离均值添加至原损失函数中，得到新的损失函数，新的损失函数中设置该距离均值的目的在于，使得B区域与A区域的平面距离尽量小。新的损失函数仍为所述视差恢复层中得到的多个视差的损失值的和，其中一个尺度下的视差的损失值可以为四项误差参数的损失值的和，也就是＝图像匹配误差参数*第一权重+视差图平滑性误差*第二权重+视差图左右一致性误差参数*第三权重+该平面参数的差*第四权重。举例来说，第四权重可以为0.1。

这种情况下，S102即为：将所述多张待处理图像输入所述调整后的无监督神经网络中。

在本实施方式中，确定异常区域后，可以选择异常区域中的部分像素点进行处理。比如，可以选择1000组像素点作为标定数据，一组像素点包含一组样本图像中每张图像的一个像素点，一组像素点对应真实空间中的同一个点。

利用新的损失函数，对无监督神经网络进行调整的过程中，学习率可以不大于上述初始学习率，如果上述初始学习为10^-4，则调整过程中的学习率可以为5*10^-5，或者，也可以为其他，具体不做限定。另外，调整过程中的批处理量batch也可以设置的较小一些，比如4，训练次数也可以设置的较小一些，比如10-15次。本实施方式中的调整过程可以理解为弱监督的训练过程。

对于一些视差异常的场景来说，应用本实施方式，可以进一步提高确定视差的准确性。

与上述方法实施例相对应，本发明实施例还提供一种图像视差的确定装置，如图6所示，包括：

获取模块601，用于获取多张待处理图像；

输入模块602，用于将所述多张待处理图像输入预先训练得到的无监督神经网络中；其中，所述无监督神经网络包括特征提取层、特征叠加层、特征编码层、视差恢复层；所述无监督神经网络为：利用预设损失函数对多组样本图像训练得到的，每组样本图像包括多张存在视差的图像，所述预设损失函数中包含一项或多项误差参数；

提取模块603，用于利用所述特征提取层，提取所述多张待处理图像的特征；

叠加模块604，用于利用所述特征叠加层，将所述特征提取层提取到的特征进行叠加，得到叠加后的特征；

编码模块605，用于利用所述特征编码层，对所述叠加后的特征进行编码，得到编码后的特征；

视差恢复模块606，用于利用所述视差恢复层，对所述编码后的特征进行反卷积运算，得到所述多张待处理图像的视差。

作为一种实施方式，每张待处理图像的特征张量维度为W*H*3，其中，W为待处理图像的宽度，H为待处理图像的高度，3表示待处理图像的颜色通道数；

提取模块603，具体可以用于：针对每张待处理图像，利用所述特征提取层对该张待处理图像进行卷积，得到特征张量维度为

作为一种实施方式，所述多张待处理图像中包含N对待处理图像，所述N为正整数；叠加模块604，具体可以用于：

将每对待处理图像对应的两份特征张量维度为

的特征进行叠加，得到特征张量维度为

的叠加后的特征。

作为一种实施方式，编码模块605，具体可以用于：

利用所述特征编码层，对所述特征张量维度为

的叠加后的特征进行编码，得到特征张量维度为

作为一种实施方式，所述视差恢复层包括多个激活二维反卷积层；视差恢复模块606，具体可以用于：

作为一种实施方式，所述预设损失函数为所述视差恢复层中得到的多个视差的损失值的和；所述损失值包含以下一项或多项误差参数：图像匹配误差参数、视差图平滑性误差参数、视差图左右一致性误差参数。

作为一种实施方式，一个尺度下的视差的损失值＝图像匹配误差参数*第一权重+视差图平滑性误差*第二权重+视差图左右一致性误差参数*第三权重，所述第一权重、所述第一权重、所述第三权重为预先设定的。

作为一种实施方式，所述装置还可以包括：确定模块、设定模块、添加模块和调整模块(图中未示出)，其中，

设定模块，用于针对所述异常区域，设定新的误差参数；

输入模块602，具体可以用于：将所述多张待处理图像输入所述调整后的无监督神经网络中。

作为一种实施方式，所述确定模块，具体可以用于：确定所得到的无监督神经网络输出的视差中的异常区域、以及与所述异常区域位于同一平面的对照区域；

作为一种实施方式，获取模块601，具体可以用于：

获取多目相机采集的多张图像，作为待处理图像；

所述装置还可以包括：

计算模块(图中未示出)，用于根据所得到的视差，计算所述多目相机的深度信息。

应用本发明图6所示实施例，利用无监督神经网络，确定多张图像间的视差；第一方面，无监督神经网络利用损失函数进行训练，不需要真实视差作为监督，损失函数中包含一项或多项误差参数，训练过程中，误差参数逐渐变小，也就是确定视差的准确度变高，因此，应用本方案确定的视差准确度较高；第二方面，本实施例中的无监督神经网络为端到端的神经网络，该神经网络的输入为待处理图像，输出为该图像的视差，处理效率较高。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701和存储器702，

存储器702，用于存放计算机程序；

处理器701，用于执行存储器702上所存放的程序时，实现上述任一种图像视差的确定方法。

该电子设备可以为手机、电脑等设备，或者也可以为多目相机等设备，具体不作限定。

上述电子设备提到的存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种图像视差的确定方法。

本发明实施例还提供了一种图像视差的确定***，如图8所示，包括：多目相机和处理设备，其中，

该多目相机可以为双目相机，该双目相机可以为水平双目相机，也可以为垂直双目相机，也可以为针孔双目相机、鱼眼双目相机等等，具体不做限定。或者，该多目相机也可以为三目或者三目以上的相机。

该处理设备可以执行上述任一种图像视差的确定方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于图6所示的图像视差的确定装置实施例、图7的所示的电子设备实施例、图8所示的图像视差的确定***实施例、以及上述计算机可读存储介质实施例而言，由于其基本相似于图1-5所示的图像视差的确定方法实施例，所以描述的比较简单，相关之处参见图1-5所示的图像视差的确定方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像视差的确定方法，其特征在于，包括：

获取多张待处理图像；

将所述多张待处理图像输入调整后的无监督神经网络中；其中，所述无监督神经网络包括特征提取层、特征叠加层、特征编码层、视差恢复层；所述无监督神经网络为：利用预设损失函数对多组样本图像训练得到的，每组样本图像包括多张存在视差的图像，所述预设损失函数中包含一项或多项误差参数；所述调整后的无监督神经网络的确定方式为：确定预先训练得到的无监督神经网络输出的视差中的异常区域；针对所述异常区域，设定新的误差参数；将所述新的误差参数添加至所述预设损失函数中，得到新的损失函数；利用所述新的损失函数、以及所确定的异常区域，对预先训练得到的无监督神经网络进行调整，得到调整后的无监督神经网络；

利用所述特征提取层，提取所述多张待处理图像的特征；

2.根据权利要求1所述的方法，其特征在于，每张待处理图像的特征张量维度为W*H*3，其中，W为待处理图像的宽度，H为待处理图像的高度，3表示待处理图像的颜色通道数；

所述利用所述特征提取层，提取所述待处理图像的特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述多张待处理图像中包含N对待处理图像，所述N为正整数；所述利用所述特征叠加层，将所述特征提取层提取到的特征进行叠加，得到叠加后的特征，包括：

将每对待处理图像对应的两份特征张量维度为

的特征进行叠加，得到特征张量维度为

的叠加后的特征。

4.根据权利要求3所述的方法，其特征在于，所述利用所述特征编码层，对所述叠加后的特征进行编码，得到编码后的特征，包括：

利用所述特征编码层，对所述特征张量维度为

的叠加后的特征进行编码，得到特征张量维度为

5.根据权利要求1所述的方法，其特征在于，所述视差恢复层包括多个激活二维反卷积层；所述利用所述视差恢复层，对所述编码后的特征进行反卷积运算，得到所述多张待处理图像的视差，包括：

6.根据权利要求5所述的方法，其特征在于，所述预设损失函数为所述视差恢复层中得到的多个视差的损失值的和；所述损失值包含以下一项或多项误差参数：图像匹配误差参数、视差图平滑性误差参数、视差图左右一致性误差参数。

7.根据权利要求6所述的方法，其特征在于，一个尺度下的视差的损失值＝图像匹配误差参数*第一权重+视差图平滑性误差*第二权重+视差图左右一致性误差参数*第三权重，所述第一权重、所述第一权重、所述第三权重为预先设定的。

8.根据权利要求1所述的方法，其特征在于，确定所得到的无监督神经网络输出的视差中的异常区域，包括：

所述针对所述异常区域，设定新的误差参数，包括：

9.根据权利要求1所述的方法，其特征在于，所述获取多张待处理图像，包括：获取多目相机采集的多张图像，作为待处理图像；

在所述得到所述多张待处理图像的视差之后，还包括：

根据所得到的视差，计算所述多目相机的深度信息。

10.一种图像视差的确定装置，其特征在于，包括：

获取模块，用于获取多张待处理图像；

输入模块，用于将所述多张待处理图像输入调整后的无监督神经网络中；其中，所述无监督神经网络包括特征提取层、特征叠加层、特征编码层、视差恢复层；所述无监督神经网络为：利用预设损失函数对多组样本图像训练得到的，每组样本图像包括多张存在视差的图像，所述预设损失函数中包含一项或多项误差参数；

视差恢复模块，用于利用所述视差恢复层，对所述编码后的特征进行反卷积运算，得到所述多张待处理图像的视差；

确定模块，用于确定预先训练得到的无监督神经网络输出的视差中的异常区域；

设定模块，用于针对所述异常区域，设定新的误差参数；

调整模块，用于利用所述新的损失函数、以及所确定的异常区域，对预先训练得到的无监督神经网络进行调整，得到调整后的无监督神经网络。

11.根据权利要求10所述的装置，其特征在于，每张待处理图像的特征张量维度为W*H*3，其中，W为待处理图像的宽度，H为待处理图像的高度，3表示待处理图像的颜色通道数；

所述提取模块，具体用于：针对每张待处理图像，利用所述特征提取层对该张待处理图像进行卷积，得到特征张量维度为

12.根据权利要求11所述的装置，其特征在于，所述多张待处理图像中包含N对待处理图像，所述N为正整数；所述叠加模块，具体用于：

将每对待处理图像对应的两份特征张量维度为

的特征进行叠加，得到特征张量维度为

的叠加后的特征。

13.根据权利要求12所述的装置，其特征在于，所述编码模块，具体用于：

利用所述特征编码层，对所述特征张量维度为

的叠加后的特征进行编码，得到特征张量维度为

14.根据权利要求10所述的装置，其特征在于，所述视差恢复层包括多个激活二维反卷积层；所述视差恢复模块，具体用于：

15.根据权利要求14所述的装置，其特征在于，所述预设损失函数为所述视差恢复层中得到的多个视差的损失值的和；所述损失值包含以下一项或多项误差参数：图像匹配误差参数、视差图平滑性误差参数、视差图左右一致性误差参数。

16.根据权利要求15所述的装置，其特征在于，一个尺度下的视差的损失值＝图像匹配误差参数*第一权重+视差图平滑性误差*第二权重+视差图左右一致性误差参数*第三权重，所述第一权重、所述第一权重、所述第三权重为预先设定的。

17.根据权利要求10所述的装置，其特征在于，所述确定模块，具体用于：确定所得到的无监督神经网络输出的视差中的异常区域、以及与所述异常区域位于同一平面的对照区域；

所述设定模块，具体用于：计算所述对照区域与所述异常区域的平面距离，作为新的误差参数。

18.根据权利要求10所述的装置，其特征在于，所述获取模块，具体用于：

获取多目相机采集的多张图像，作为待处理图像；

所述装置还包括：

19.一种图像视差的确定***，其特征在于，包括：多目相机和处理设备，其中，

所述处理设备，用于接收所述多张图像，作为多张待处理图像；将所述多张待处理图像输入调整后的无监督神经网络中；其中，所述无监督神经网络包括特征提取层、特征叠加层、特征编码层、视差恢复层；所述无监督神经网络为：利用预设损失函数对多组样本图像训练得到的，每组样本图像包括多张存在视差的图像，所述预设损失函数中包含一项或多项误差参数；所述调整后的无监督神经网络的确定方式为：确定预先训练得到的无监督神经网络输出的视差中的异常区域；针对所述异常区域，设定新的误差参数；将所述新的误差参数添加至所述预设损失函数中，得到新的损失函数；利用所述新的损失函数、以及所确定的异常区域，对预先训练得到的无监督神经网络进行调整，得到调整后的无监督神经网络；利用所述特征提取层，提取所述多张待处理图像的特征；利用所述特征叠加层，将所述特征提取层提取到的特征进行叠加，得到叠加后的特征；利用所述特征编码层，对所述叠加后的特征进行编码，得到编码后的特征；利用所述视差恢复层，对所述编码后的特征进行反卷积运算，得到所述多张待处理图像的视差。