WO2021114870A1

WO2021114870A1 - 视差估计***、方法、电子设备及计算机可读存储介质

Info

Publication number: WO2021114870A1
Application number: PCT/CN2020/121824
Authority: WO
Inventors: 方舒; 周骥; 冯歆鹏
Original assignee: 上海肇观电子科技有限公司
Priority date: 2019-12-13
Filing date: 2020-10-19
Publication date: 2021-06-17
Also published as: EP3836083A1; US20210209782A1; KR20210076853A; JP6902811B2; KR102289239B1; US11158077B2; EP3836083B1; JP2021096850A; CN112991254A

Abstract

提供一种视差估计***、方法、电子设备及计算机可读存储介质。所述视差估计***包括：特征提取网络，被配置为对图像对中的各图像进行特征提取，并将提取到的图像特征输出给视差生成网络；以及所述视差生成网络，被配置为根据所述提取到的图像特征，进行级联的多级视差处理，得到多个尺寸依次增大的视差图，其中，所述多级视差处理中的第一级视差处理的输入包括多个具有与该级视差处理相对应的尺寸的图像特征；所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理的输入包括：一个或多个具有与该级视差处理相对应的尺寸的图像特征，以及上一级视差处理所生成的视差图。

Description

视差估计***、方法、电子设备及计算机可读存储介质

技术领域

本公开涉及计算机视觉技术领域，特别涉及一种视差估计***、方法、电子设备及计算机可读存储介质。

背景技术

相关技术中，可采用计算机视觉技术获取同一场景的两幅不同视角的图像中的各对相匹配的像素点之间的视差，得到视差图，并基于所述视差图得到所述场景的深度信息，其中，所述深度信息可用于三维重建、自动驾驶、障碍物检测等各种领域。示例的，采用计算机视觉技术获取视差的方法可以包括局部区域匹配方法、全局优化方法、半全局方法以及基于卷积神经网络的方法，等等。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

根据本公开的一个方面，提供一种视差估计***，包括：特征提取网络，被配置为对图像对中的各图像进行特征提取，并将提取到的图像特征输出给视差生成网络；以及所述视差生成网络，被配置为根据所述提取到的图像特征，进行级联的多级视差处理，得到多个尺寸依次增大的视差图，其中，所述多级视差处理中的第一级视差处理的输入包括多个具有与该级视差处理相对应的尺寸的图像特征；所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理的输入包括：一个或多个具有与该级视差处理相对应的尺寸的图像特征，以及上一级视差处理所生成的视差图。

根据本公开的另一个方面，提供一种视差估计方法，包括：对图像对中的各图像进行特征提取；以及根据提取到的图像特征，进行级联的多级视差处理，得到多个尺寸依次增大的视差图，其中，所述多级视差处理中的第一级视差处理的输入包括多个具有与该级视差处理相对应的尺寸的图像特征；所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理的输入包括：一个或多个具有与该级视差处理相对应的尺寸的图像特征，以及上一级视差处理所生成的视差图。

根据本公开的另一个方面，提供一种电子设备，包括：处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行本公开中所述的方法。

根据本公开的另一个方面，提供一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行本公开中所述的方法。

从下面结合附图描述的示例性实施例中，本公开的更多特征和优点将变得清晰。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1是示出根据本公开示例性实施例的视差估计***的结构框图；

图2是示出根据本公开示例性实施例的图像的基础结构特征的示意图；

图3是示出根据本公开示例性实施例的图像的语义特征的示意图；

图4是示出根据本公开示例性实施例的图像的边缘特征的示意图；

图5是示出根据本公开示例性实施例的视差估计***的一种可能的整体结构框图；

图6是示出根据本公开示例性实施例的视差估计***的另一种可能的整体结构框图；

图7A和图7B分别是示出根据本公开示例性实施例的网络训练时所基于的参考图像以及对应的真值视差图的示意图；

图8是示出根据本公开示例性实施例的采用训练后的视差估计***对图7A所示的参考图像进行级联的多级视差处理所得到的从右到左尺寸依次增大的多个视差图的示意图；

图9是示出根据本公开示例性实施例的视差估计方法的流程图；

图10是示出根据本公开示例性实施例的视差估计方法中的多级视差处理的流程图；

图11是示出能够应用于本公开示例性实施例的示例性计算设备的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

相关技术中，可采用计算机视觉技术获取同一场景的两幅不同视角的图像中的各对相匹配的像素点之间的视差，得到视差图，并基于所述视差图得到所述场景的深度信息，其中，所述深度信息可用于三维重建、自动驾驶、障碍物检测等各种领域。示例的，采用计算机视觉技术获取视差的方法可以包括局部区域匹配方法、全局优化方法、半全局方法以及基于卷积神经网络等神经网络的方法，等等。

局部区域匹配方法主要包括匹配代价计算、代价聚合、视差计算以及视差优化等步骤，具有较高的速度和较低的能耗，但是其算法效果与算法参数(例如匹配窗口的大小等)有关，较难满足复杂场景的需求。与局部区域匹配方法相比，全局优化方法具有更好的匹配精度，其对于平滑项作出了假设，并将视差计算这一立体匹配问题变成了一个能量优化问题，且大部分全局优化方法跳过了代价聚合步骤，通过考虑匹配代价和平滑项，针对全局的点提出了能量函数，并通过最小化能量函数，获得视差。但是，相比于局部区域匹配方法，全局优化方法的计算量更大，能耗更高。半全局方法可在一定程度上平衡匹配精度和运算速度，与全局算法对全局的点进行优化不同，它将每个点的能量函数分为多个方向的路径，只需对每条路径求值，然后将所有路径的值相加即可得到该点的能量，其中，各路径的求值可以采用动态规划的方式。不过，半全局方法相比于局部区域匹配方法，计算量以及能耗也均较高。基于CNN(Convolutional Neural Network，卷积神经网络)等神经网络的方法通过构建视差网络可以获得更大的感知域，在图像的无纹理区域有更好的视差预测能力。不过，其计算量与CNN等神经网络的参数以及图像大小有关，网络参数越复杂以及图像尺寸越大，内存消耗越大、运行速度也越低。

本公开提供了一种新的视差估计***，其可基于提取到的图像对中的各图像的图像特征，进行级联的多级视差处理，得到多个尺寸依次增大的视差图，其中，所述多级视差处理中的第一级视差处理的输入可包括多个具有与该级视差处理相对应的尺寸的图像特征；所述多级视差处理中的除第一级视差处理以外的每一级视差处理的输入可包括：一个或多个具有与该级视差处理相对应的尺寸的图像特征，以及上一级视差处理所生成的视差图。换言之，通过对提取到的图像特征进行级联的多级视差处理，其中，每一级视差处理的输入可包括具有与该级视差处理相对应的尺寸的图像特征，可一次性获得多个不同尺寸的视差图以供多个不同性能或不同精度要求的目标设备使用，从而可满足不同目标设备对精度与速度的要求，且还可提高视差估计***的灵活性以及适用性。以下将结合附图对本公开的视差估计***的示例性实施例进行进一步描述。

图1是示出根据本公开的示例性实施例的视差估计***的结构框图。如图1所示，所述视差估计***100例如可以包括：特征提取网络200，被配置为对图像对中的各图像进行特征提取，并将提取到的图像特征输出给视差生成网络300；以及所述视差生成网络300，被配置为根据所述提取到的图像特征，进行级联的多级视差处理，得到多个尺寸依次增大的视差图，其中，所述多级视差处理中的第一级视差处理的输入包括多个具有与该级视差处理相对应的尺寸的图像特征；所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理的输入包括：一个或多个具有与该级视差处理相对应的尺寸的图像特征，以及上一级视差处理所生成的视差图。

根据图1的结构框图所示的视差估计***，可基于提取到的图像对中的各图像的图像特征，进行级联的多级视差处理，得到多个尺寸依次增大的视差图，其中，每一级视差处理的输入可包括具有与该级视差处理相对应的尺寸的图像特征。由此，可一次性获得多个不同尺寸的视差图以供多个不同性能或不同精度要求的目标设备使用，从而可满足不同目标设备对精度与速度的要求，且还可提高视差估计***的灵活性以及适用性。

在本公开中，所述图像对可为通过多目摄像机采集到的针对同一场景的图像对。所述图像对中的各图像的尺寸一致，但对应的视角有所不同。当然，所述图像对也可为采用其它方式获取到的(如从其它第三方设备获取到的)满足要求的图像对。另外，所述图像对中的各图像可为灰度图像或彩色图像。

在本公开中，所述多目摄像机是指配置有两个、三个甚至更多个摄像头的能够进行静态或动态的图像拍摄的摄像机，其可通过所配置的多个摄像头来覆盖不同视角或范围的场景，以增强摄像机对场景中的物体的检测能力。以配置有两个摄像头(例如左、右摄像头)的双目摄像机为例，针对任一场景，所述双目摄像机可通过所配置的两个摄像头获取该场景的两幅尺寸一致但对应的拍摄视角不同的图像(例如左目图像以及右目图像)，其中，所述两幅图像构成的图像对可被用于确定该场景中的物体在所述两幅图像中的对应像素点之间的位移(例如水平位移)即视差，以便确定物体的距离等深度信息。

另外，在本公开中，视差估计***100与多目摄像机可相互独立。换言之，视差估计***100可通过所包含的特征提取网络200对多目摄像机采集到的针对同一场景的图像对中的各图像进行特征提取，并通过所包含的视差生成网络300对提取到的图像特征进行级联的多级视差处理，得到多个尺寸依次增大的视差图。作为替换方案，多目摄像机也可作为所述视差估计***100的一部分。换言之，所述视差估计***100除了可包括特征提取网络200以及视差生成网络300之外，还可包括所述多目摄像机。

根据一些实施例，所述视差估计***100的特征提取网络200所提取到的所述图像对中的各图像的图像特征至少可包括以下特征中的一种或多种：基础结构特征、语义特征、边缘特征、纹理特征、颜色特征、物体形状特征、或基于图像本身的特征。

图2以(a)、(b)和(c)三个图像(例如灰度图像，或者也可为彩色图像)示出了根据本公开示例性实施例的可能提取到的一种图像的基础结构特征的示意图，由图2可以看出，所述基础结构特征可以是指用于反映图像的各种细小的结构的特征。

图3以(a)、(b)、(c)以及(d)四个图像(例如灰度图像，或者也可为彩色图像)示出了根据本公开示例性实施例的可能提取到的一种图像的语义特征的示意图，由图3可以看出，所述语义特征可以是指能够区分图像中的不同对象或不同类别的对象的特征。另外，基于所述语义特征可提高图像的有歧义区域(例如大面积平坦区域)的视差确定的准确性。

图4以(a)、(b)两个图像(例如灰度图像，或者也可为彩色图像)示出了根据本公开示例性实施例的可能提取到的一种图像的边缘特征的示意图，由图4可以看出，所述边缘特征可以是指能够反映图像中的物体或区域的边界信息的特征。

此外，虽然未示出，所述纹理特征、颜色特征以及物体形状特征分别可以是指能够用于反映图像的纹理、颜色、以及图像所包含的物体的形状的特征。所述基于图像本身的特征可以是指所述图像本身，也可以是对所述图像本身进行一定系数或比率的上采样或降采样所得到的图像。所述上采样或降采样的系数或比率例如可为2、3或其它大于1的数值。

根据一些实施例，在本公开中，除了所述基于图像本身的特征之外，其它每种图像特征均可由对应的特征提取子网络对相应图像进行提取所得到，以提高图像特征提取的效率进而提高视差估计的效率。另外，为了提高视差估计的准确性，可至少从基础结构特征、语义特征以及边缘特征三个不同的维度对图像进行特征提取。

例如，根据一些实施例，如图5或图6所示，图5和图6示出了根据本公开示例性实施例的视差估计***100的可能的整体结构框图，所述特征提取网络200可包括多个分别用于提取图像的不同特征的特征提取子网络，所述多个特征提取子网络至少可包括用于提取图像的基础结构特征的基础结构特征子网络201、用于提取图像的语义特征的语义特征子网络202以及用于提取图像的边缘特征的边缘特征子网络203。

根据一些实施例，所述基础结构特征子网络201可采用VGG(very deep convolutional networks for large scale image recognition，用于大规模图像识别的超深卷积网络)或ResNet(Residual Network，残差网络)等任意的能够用于提取图像的基础结构特征的网络。所述语义特征子网络202可采用DeepLabV3+(encoder-decoder with atrous separable convolution for semantic image segmentation，用于语义图像分割的可分离卷积编码解码器)等任意的能够用于提取图像的语义特征的网络。所述边缘特征子网络203可采用HED(holistically-nested edge detection，整体嵌套边缘检测)网络等任意的能够用于提取图像的边缘特征的网络。根据一些实施方式，HED网络可采用VGG作为主干网络，且，当所述边缘特征子网络203采用HED网络时，所述基础结构特征子网络201可与所述边缘特征子网络203采用同一VGG网络，以达到简化所述特征提取网络的结构的效果。

根据一些实施例，所述特征提取网络200或者所述特征提取网络200所包括的各个特征提取子网络可以是基于训练样本集预先训练好的提取网络，这样，可提高图像特征提取的效率从而提高视差估计的效率。当然，根据实际需求，所述特征提取网络200或者所述特征提取网络200所包括的各个特征提取子网络也可以是基于训练样本集进行实时训练所得到的，或者还可以是基于更新后的训练样本集对预先训练好的提取网络进行实时或定时优化所得到的，以提高特征提取网络所提取特征的准确性。

根据一些实施例，所述特征提取网络200或者所述特征提取网络200所包括的各个特征提取子网络的训练过程可采用有监督训练或者无监督训练，可根据实际需求灵活选取。有监督训练通常是利用已有的训练样本(例如带有标签的数据)学习从输入到输出的映射，然后将这种映射关系应用到未知数据上，达到分类或回归的目的。有监督训练的算法例如可以包括逻辑回归算法，SVM(Support Vector Machine，支持向量机)算法，决策树算法等等。无监督训练与有监督训练的不同之处在于，无监督训练无需训练样本，而是直接对无标签的数据进行建模，找出其中的规律，其典型的算法例如可以包括聚类算法、随机森林(Random forests)算法等等。

根据一些实施例，如前所述，所述多级视差处理中的第一级视差处理的输入可包括多个具有与该级视差处理相对应的尺寸的图像特征；所述多级视差处理中的除第一级视差处理以外的每一级视差处理的输入可包括：一个或多个具有与该级视差处理相对应的尺寸的图像特征。以所述视差生成网络300所得到的所述多个视差图为N个尺寸依次增大的视差图为例，所述特征提取网络200所提取到的图像特征可包括N种尺寸的图像特征，N为不小于2的正整数。每一种尺寸的图像特征中的至少一部分可被用来帮助生成对应尺寸的视差图，以提高所述视差估计***所得到的所述多个视差图的准确性。根据一些实施例，所述N的取值可为4(如图5或图6所示)，当然，还可根据实际需求设置为2、3、5或其它等等。另外，N的取值并非越大越好，而是可在平衡目标设备的精度需求和视差估计***的速度的前提下，选取合适的数值。

在本公开中，各图像(包括所述图像对中的各图像以及视差图等)的尺寸可指的是各图像的单通道的尺寸，可由图像的高度和宽度表示，例如，可表示为H×W，其中，H表示图像的高度、W表示图像的宽度，且二者的单位可为像素。当然，这仅仅是示例，图像的尺寸也可以用其他能够反映图像的像素数量、数据量、存储量、或者清晰度等中的一种或多种参数表示。另外，需要注意的是，对于灰度图像而言，其通道数为1，而对于彩色图像，由于其可具有R、G、B三个颜色通道，因而其通道数可为3，即，彩色图像的实际大小可表示为H×W×3。另外，在本公开中，所述图像对中的各图像的尺寸(即未经降采样和/或上采样等处理的原始图像的尺寸)可根据例如用于采集所述图像对的多目摄像机的传感器的大小和像素数量等参数来确定。

在本公开中，与各级视差处理相对应的尺寸可以是指与各级视差处理所需得到的视差图的尺寸相一致的尺寸。另外，图像特征的尺寸可以是指图像特征本身所构成的图片的单通道的尺寸，或者，进行所需尺寸的图像特征的提取时所基于的被提取图像的尺寸，所述被提取图像可以是指所述图像对中的各图像本身，也可以是对各图像本身进行一定系数或比率的上采样或降采样所得到的图像。例如，以所述图像对中的图像的尺寸为H×W(可被称为全尺寸)为例，针对该图像所提取到的全尺寸的图像特征可以是对该图像本身进行特征提取所得到的图像特征；针对该图像所提取到的

尺寸(可被称为1/2尺寸)的图像特征可以是对该图像进行2倍的降采样得到1/2尺寸的图像，并对该1/2尺寸的图像进行特征提取所得到的图像特征。

根据一些实施例，所述多级视差处理中除第一级视差处理以外的每一级视差处理的输入除了可包括一个或多个具有与该级视差处理相对应的尺寸的图像特征之外，还可包括上一级视差处理所生成的视差图。换言之，可基于提取到的图像特征中的一个或多个具备对应尺寸的图像特征，对第一级视差处理生成的视差图进行逐级地优化处理得到对应尺寸的视差图。由此，后续得到的视差图的精度可以逐次提高，而无需针对每个精度从头开始计算视差图，这样，可提高多个视差图的整体生成效率。

根据一些实施例，所述特征提取网络200所提取到的所述N种尺寸的图像特征中的最小尺寸的图像特征例如可以包括所述图像对中的第一图像的至少一种图像特征以及第二图像的至少一种图像特征，所述N种尺寸的图像特征中的每一种非最小尺寸的图像特征例如可以包括所述图像对中的所述第一图像的至少一种图像特征和/或所述第二图像的至少一种图像特征。

例如，如图5或图6所示，所述特征提取网络200所提取到的所述N种尺寸的图像特征中的最小尺寸的图像特征可以包括所述图像对中的第一图像(例如左目图像)的基础结构特征、语义特征、边缘特征以及所述图像对中的第二图像(例如右目图像)的基础结构特征。所述特征提取网络200所提取到的所述N种尺寸的图像特征中的各非最小尺寸的图像特征可以包括所述图像对中的第一图像的边缘特征或基于所述第一图像本身的特征。

根据一些实施例，所述特征提取网络200所提取到的每个图像的每种图像特征可具备一种或多种尺寸，所述多种尺寸的尺寸数量可小于或等于N。例如，如图5或图6所示，所述N的取值可为4，所述特征提取网络200所提取到的所述第一图像的边缘特征以及基于所述第一图像本身的特征可以分别具备两种尺寸，所提取到的所述第一图像的基础结构特征以及语义特征可以分别具备一种尺寸，所提取到的所述第二图像的基础结构特征可以具备一种尺寸。另外，图5或图6仅是一种示例，所述特征提取网络200所提取到的每个图像的每种图像特征除了可具备示出的一种或两种尺寸之外，还可以具备更多种尺寸。例如，以所述N的取值为4为例，所述特征提取网络200所提取到的所述第一图像的边缘特征还可以具备三种或四种尺寸，对此不作限制。

根据一些实施例，所述特征提取网络200在提取到所述图像对中的各图像的图像特征之后，可将其存储(例如缓存)在存储设备或存储介质中，以供后续读出并使用。另外，所述特征提取网络200在对所述图像对中的各图像进行图像特征提取之前，还可对所述图像对中的图像进行极线校正，使得所述图像对中的图像仅在一个方向(例如水平方向或垂直方向)存在视差。由此，图像的视差搜索范围可仅限于一个方向，从而提高后续特征提取以及视差生成的效率。作为替换方案，所述图像对中的图像的极线校正操作也可由多目摄像机或其它第三方设备执行。例如，多目摄像机采集到所述图像对后，可对所述图像对中的图像进行极线校正，并将极线校正后的图像对发送给所述视差估计***。或者，多目摄像机采集到所述图像对后，可将其发送给其它第三方设备，由所述其它第三方设备对所述图像对中的图像进行极线校正并将极线校正后的图像对发送给所述视差估计***。

根据一些实施例，所述视差生成网络300所得到的所述多个视差图中的具备最大尺寸的视差图可与所述图像对中的各图像的尺寸(即各图像的原始尺寸)相一致。从而，通过级联的多级视差处理可至少得到一对应的尺寸与所述图像对中的各图像的尺寸相一致的精度相对较高的视差图以及具备其它精度的视差图，在提高视差估计***的灵活性和可适用性的基础上，可更好地满足高性能的目标设备对于视差估计***所生成的视差图的精度的要求。作为替换方案，所述多个视差图中的各视差图的尺寸也可均小于所述图像对中的各图像的尺寸。

根据一些实施例，所述多个视差图中的任意两个相邻视差图中的后一个视差图的高度和宽度可分别为前一个视差图的高度和宽度的2倍。示例的，以所述多个视差图为4个，且所述多个视差图中的最后一个视差图的尺寸为H×W(可与所述图像对中的各图像的尺寸一致)为例，排在其之前的所述多个视差图中的其它各视差图的尺寸可依次为

(若H×W可被称为全尺寸，则

可被称为1/2尺寸)，

(可被称为1/4尺寸)，以及

(可被称为1/8尺寸)。换言之，在本公开中，以数值2作为相邻视差图的高度和宽度的缩放步长(或者说是相邻视差图的上采样或降采样的系数或比率)。作为替换方案，所述多个视差图中的任意两个相邻视差图中的后一个视差图的高度和宽度还可分别为前一个视差图的高度和宽度的3倍、4倍或其它大于1的正整数倍数，可以根据实际所需的精度来选取合适的数值。

根据一些实施例，如前所述，所述特征提取网络200所提取到的图像特征可包括N种尺寸的图像特征，所述N为不小于2的正整数。相应地，所述视差生成网络可被配置为，在所述多级视差处理的第一级视差处理中，根据所述N种尺寸的图像特征中的最小尺寸的图像特征的至少一部分，生成具备所述最小尺寸的初始视差图；以及在所述多级视差处理的后续每一级视差处理中，根据所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，生成具备所述对应尺寸的优化视差图，其中，所述多个视差图至少可包括各个优化视差图。

根据一些实施例，所述多级视差处理可包括N+1级视差处理。所述视差生成网络可被配置为，在除第一级视差处理以外的N级视差处理中，按照尺寸从小到大的顺序，依次基于所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，得到N个尺寸依次增大的优化视差图，并将所述N个优化视差图作为所述多个视差图，其中，所述N个优化视差图的尺寸分别与所述N种尺寸对应。

例如，如图5所示，所述多级视差处理可包括4+1级视差处理。所述提取到的图像特征可包括4种尺寸的图像特征，其中，图5以提取到的所述4种尺寸的图像特征分别为1/8尺寸

1/4尺寸

1/2尺寸

以及全尺寸(H×W，所述全尺寸可以是指与所述图像对中的原始图像的尺寸相一致的尺寸)为例进行示意说明。所述视差生成网络可被配置为，在所述多级视差处理的第一级视差处理中，根据所述4种尺寸的图像特征中的最小尺寸(即1/8尺寸)的图像特征的至少一部分(例如提取到的第一图像的1/8尺寸的基础结构特征、1/8尺寸的语义特征、1/8尺寸的边缘特征以及第二图像的1/8尺寸的基础结构特征的部分或全部)，生成具备所述最小尺寸(即1/8尺寸)的初始视差图。在除第一级视差处理以外的4级视差处理中，按照尺寸从小到大的顺序，依次基于所述4种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分(例如，依次基于提取到的第一图像的1/8尺寸的边缘特征的部分或全部、提取到的第一图像的1/4尺寸的边缘特征的部分或全部、提取到的1/2尺寸的基于第一图像本身的特征、以及提取到的全尺寸的基于第一图像本身的特征)，对上一级视差处理所生成的视差图进行视差优化处理，得到4个尺寸依次增大的优化视差图(例如，得到具备1/8尺寸的优化视差图、具备1/4尺寸的优化视差图、具备1/2尺寸的优化视差图以及具备全尺寸的优化视差图)，并将所述4个优化视差图作为所述多个视差图。

通过上述描述可知，在该实施例中，所述视差估计***100所得到的所述多个视差图可以不包括所述多级视差处理中的第一级视差处理所生成的初始视差图，而是包括对所述第一级视差处理所生成的初始视差图进行逐次优化后的各优化视差图，由此，可提高所述视差估计***所得到的所述多个视差图的精度。

根据另一些实施例，所述多级视差处理可包括N级视差处理。所述视差生成网络可被配置为，在除第一级视差处理以外的N-1级视差处理中，按照尺寸从小到大的顺序，依次基于所述N种尺寸的图像特征中的N-1种非最小尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，得到N-1个尺寸依次增大的优化视差图，并将所述初始视差图和所述N-1个优化视差图作为所述多个视差图，其中，所述初始视差图和所述N-1个优化视差图的尺寸分别与所述N种尺寸对应。

例如，如图6所示，所述多级视差处理可包括4级视差处理。所述提取到的图像特征可包括4种尺寸的图像特征，其中，图6以提取到的所述4种尺寸的图像特征分别为1/8尺寸

1/4尺寸

1/2尺寸

以及全尺寸(H×W，所述全尺寸可以是指与所述图像对中的各图像的尺寸相一致的尺寸)为例进行示意说明。所述视差生成网络可被配置为，在所述多级视差处理的第一级视差处理中，根据所述4种尺寸的图像特征中的最小尺寸(即1/8尺寸)的图像特征的至少一部分(例如提取到的第一图像的1/8尺寸的基础结构特征、1/8尺寸的语义特征、1/8尺寸的边缘特征以及第二图像的1/8尺寸的基础结构特征的部分或全部)，生成具备所述最小尺寸(即1/8尺寸)的初始视差图。在除第一级视差处理以外的其它3级视差处理中，按照尺寸从小到大的顺序，依次基于其它3种非最小尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分(例如，依次基于提取到的第一图像的1/4尺寸的边缘特征的部分或全部、提取到的1/2尺寸的基于第一图像本身的特征、以及提取到的全尺寸的基于第一图像本身的特征)，对上一级视差处理所生成的视差图进行视差优化处理，得到3个尺寸依次增大的优化视差图(例如，得到具备1/4尺寸的优化视差图、具备1/2尺寸的优化视差图以及具备全尺寸的优化视差图)，并将所述初始视差图以及所述3个优化视差图作为所述多个视差图。

通过上述描述可知，在该实施例中，所述视差估计***100所得到的所述多个视差图还可以包含所述多级视差处理中的第一级视差处理所生成的初始视差图，以提高所述视差估计***的处理效率。

根据一些实施例，所述视差生成网络300可被配置为，在所述多级视差处理中的除第一级视差处理以外的每一级视差处理中，基于具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行残差(residual)计算处理，得到具备所述对应尺寸的残差图，并将具备所述对应尺寸的残差图和所述上一级视差处理所生成的视差图进行组合以得到具备所述对应尺寸的优化视差图。

例如，以图5所示，在除第一级视差处理以外的其它4级视差处理的对应1/8尺寸的视差处理中，可基于提取到的第一图像的1/8尺寸的边缘特征的部分或全部，以及上一级视差处理所生成的初始视差图(1/8尺寸)计算得到1/8尺寸的第一残差图，并将所述第一残差图与所述初始视差图进行组合(例如相加)得到1/8尺寸的第一优化视差图作为该级视差处理的输出。在下一级对应1/4尺寸的视差处理中，可基于提取到的第一图像的1/4尺寸的边缘特征的部分或全部，以及上一级视差处理所生成的第一优化视差图(1/8尺寸)计算得到1/4尺寸的第二残差图，并将所述第二残差图与所述第一优化视差图进行组合(例如，将所述第二残差图与所述第一优化视差图的1/4尺寸的上采样版本进行相加)得到1/4尺寸的第二优化视差图作为该级视差处理的输出，等等。更具体的示例将在后文讨论。

根据一些实施例，所述视差生成网络300还可被配置为，在所述多级视差处理中的除第一级视差处理以外的每一级视差处理中，在对上一级视差处理所生成的视差图进行视差优化处理之前，响应于所述上一级视差处理所生成的视差图的尺寸小于本级视差处理对应的尺寸，将所述上一级视差处理所生成的视差图上采样为与本级视差处理相对应的尺寸。所述上采样所采用的算法例如可以包括最邻近插值算法、双线性插值算法、解卷积算法，等等。这样，每一级视差优化处理所针对的视差图均可以是具备与该级视差处理相对应的尺寸的视差图。

示例的，如图5所示，在除第一级视差处理以外的其它4级视差处理的对应1/8尺寸的视差处理中，由于上一级视差处理所生成的初始视差图的尺寸不小于本级视差处理，因而可直接基于提取到的第一图像的1/8尺寸的边缘特征的部分或全部，对上一级视差处理所生成的初始视差图进行视差优化处理得到1/8尺寸的第一优化视差图。在下一级对应1/4尺寸的视差处理中，则可首先将上一级视差处理所生成的1/8尺寸的第一优化视差图上采样为与本级视差处理相对应的1/4尺寸，之后，可基于提取到的第一图像的1/4尺寸的边缘特征的部分或全部，对上采样后的1/4尺寸的第一优化视差图进行视差优化处理得到1/4尺寸的第二优化视差图。例如，如前所述，在该下一级对应1/4尺寸的视差处理中，可基于提取到的第一图像的1/4尺寸的边缘特征的部分或全部，以及上采样后的1/4尺寸的第一优化视差图计算得到1/4尺寸的残差图，并将所述1/4尺寸的残差图与所述上采样后的1/4尺寸的第一优化视差图进行相加得到1/4尺寸的第二优化视差图，等等。

根据一些实施例，生成不同优化视差图所基于的图像特征可以为相同种类的图像特征或不同种类的图像特征；和/或，生成不同优化视差图所基于的图像特征可以为所述图像对中的相同图像或不同图像的图像特征。例如，以图5所示，生成前两个不同的优化视差图所基于的图像特征可以为所述图像对中的相同图像(例如第一图像)的相同种类的图像特征(例如边缘特征)；生成中间两个不同的优化视差图所基于的图像特征可以为相同图像(例如第一图像)的不同种类的图像特征(例如，一个为第一图像的边缘特征、另一个为第一图像的基于图像本身的特征)，等等。由此，通过灵活地选取各级视差优化所基于的图像特征，可进一步提高视差估计***的灵活性以及可适用性。

根据一些实施例，生成各优化视差图所基于的图像特征例如可以包括所述图像对中的至少一个图像的边缘特征，和/或，基于所述图像对中的至少一个图像的图像本身的特征。

示例的，以图5所示，在所述多个视差处理中的除第一级视差处理以外的前两级对应的尺寸相对较小的视差优化处理中，可基于第一图像的边缘特征生成对应尺寸的优化视差图；在后两级对应的尺寸相对较大的视差优化处理中，可使用基于第一图像本身的特征来代替边缘特征对上一级视差处理生成的视差图进行视差优化处理，以降低大尺寸的图像特征提取所需的计算量，提高视差估计***的处理效率。当然，图5仅是一种示例，对于每一视差优化处理而言，生成对应的优化视差图所基于的图像特征除了可为边缘特征或基于图像本身的特征之外，还可以为二者的结合，或者还可以为其它提取到的一个或多个图像特征的组合，等等。

根据一些实施例，基于所述图像对中的至少一个图像的图像本身的特征例如可以包括所述至少一个图像的图像本身，或者根据所需生成的优化视差图的尺寸对所述至少一个图像的图像本身进行降采样所得到的图像。所述降采样的过程例如可以为：对于一幅尺寸为H×W的图像而言，若采用的降采样系数或比率为K，则可在所述图像原图中的每行每列中每隔K个点选取一个点组成一幅图像。所述降采样系数或比率如前所述可为2、3或其它大于1的数值。当然，这仅仅是示例，降采样也可以采用其它方式来实现，例如K个点取平均。

以图5所示，在所述多个视差处理中的后两级对应1/2尺寸以及全尺寸的视差优化处理中，可分别使用基于降采样系数2对第一图像本身进行降采样所得到的1/2尺寸的第一图像、以及第一图像本身来代替对应尺寸的边缘特征对上一级视差处理生成的视差图进行视差优化处理，以降低大尺寸的图像特征提取所需的计算量，提高视差估计***的处理效率。

根据一些实施例，如图5或图6所示，所述视差生成网络300可包括初始视差生成子网络301以及至少一个视差优化子网络302，所述初始视差生成子网络301以及所述至少一个视差优化子网络302中的各视差优化子网络302依次级联，所述初始视差生成子网络301被配置为进行第一级视差处理，所述至少一个视差优化子网络302被配置为进行除第一级视差处理以外的各级视差处理。

结合前述实施例可知，所述视差估计***100的图像特征提取、以及多级视差处理中的每一级视差处理均可由对应的子网络实现。

示例的，以下将以图5为例，对包括多个特征提取子网络(例如基础结构特征子网络201、语义特征子网络202以及边缘特征子网络203)、初始视差生成子网络301以及多个(例如四个)视差优化子网络302的视差估计***100的整体工作过程进行示意说明。

如图5可知，针对输入至所述视差估计***100的图像对中的第一图像I1以及第二图像I2(尺寸分别可为H×W)，所述视差估计***100可基于其所包括的特征提取网络200中的多个特征提取子网络对其进行后续多级视差处理所需尺寸的图像特征的提取。例如，可基于基础结构特征子网络201提取第一图像I1的1/8尺寸

的基础结构特征以及第二图像I2的1/8尺寸的基础结构特征，基于语义特征子网络202提取第一图像I1的1/8尺寸的语义特征，基于边缘特征子网络203提取第一图像I1的1/8尺寸的边缘特征以及1/4尺寸

的边缘特征。另外，除了以上图像特征之外，所述视差估计***100的特征提取网络200还可以提取1/2尺寸

的基于第一图像I1本身的特征、以及全尺寸(H×W)的基于第一图像I1本身的特征，即第一图像I1本身。

所述第一图像I1的1/8尺寸的基础结构特征、第二图像I2的1/8尺寸的基础结构特征、第一图像I1的1/8尺寸的语义特征以及第一图像I1的1/8尺寸的边缘特征可由对应的特征提取子网络输出至初始视差生成子网络301以进行第一级视差处理，得到具备1/8尺寸的初始视差图dispS1。之后，与所述初始视差生成子网络301依次级联的四个视差优化子网络302可分别基于特征提取网络200提取到的具备对应尺寸的图像特征对所述1/8尺寸的初始视差图dispS1依次进行不同级别的视差优化处理，以得到多个尺寸依次增大的优化视差图。

例如，第一个视差优化子网络可根据来自边缘特征子网络203的第一图像I1的1/8尺寸的边缘特征(部分或全部)，对初始视差生成子网络301输出的1/8尺寸的初始视差图dispS1进行视差优化处理，得到1/8尺寸的第一优化视差图dispS1_refine。根据一些实施例，第一个视差优化子网络可基于第一图像I1的1/8尺寸的边缘特征(部分或全部)以及1/8尺寸的初始视差图dispS1计算得到1/8尺寸的第一残差图，并将1/8尺寸的第一残差图和1/8尺寸的初始视差图dispS1进行相加操作，得到1/8尺寸的第一优化视差图dispS1_refine。

第二个视差优化子网络可根据来自边缘特征子网络203的第一图像I1的1/4尺寸的边缘特征(部分或全部)，对第一个视差优化子网络输出的1/8尺寸的第一优化视差图dispS1_refine进行视差优化处理，得到1/4尺寸的第二优化视差图dispS2_refine。根据一些实施例，第二个视差优化子网络可将第一个视差优化子网络输出的1/8尺寸的第一优化视差图上采样为与本级视差处理相对应的1/4尺寸，之后，基于第一图像I1的1/4尺寸的边缘特征(部分或全部)以及上采样后的1/4尺寸的第一优化视差图计算得到1/4尺寸的第二残差图，并将1/4尺寸的第二残差图和上采样后的1/4尺寸的第一优化视差图进行相加操作，得到1/4尺寸的第二优化视差图dispS2_refine。

第三个视差优化子网络可根据特征提取网络200提取到的1/2尺寸的基于第一图像I1本身的特征(部分或全部)，对第二个视差优化子网络输出的1/4尺寸的第二优化视差图dispS2_refine进行视差优化处理，得到1/2尺寸的第三优化视差图dispS3_refine。根据一些实施例，第三个视差优化子网络可将第二个视差优化子网络输出的1/4尺寸的第二优化视差图上采样为与本级视差处理相对应的1/2尺寸，之后，基于1/2尺寸的基于第一图像本身的特征(部分或全部)以及上采样后的1/2尺寸的第二优化视差图计算得到1/2尺寸的第三残差图，并将1/2尺寸的第三残差图和上采样后的1/2尺寸的第二优化视差图进行相加操作，得到1/2尺寸的第三优化视差图dispS3_refine。

第四个视差优化子网络可根据特征提取网络200提取到的全尺寸的基于第一图像I1本身的特征(部分或全部)，对第三个视差优化子网络输出的1/2尺寸的第三优化视差图dispS3_refine进行视差优化处理，得到全尺寸的第四优化视差图dispS4_refine。根据一些实施例，第四个视差优化子网络可将第三个视差优化子网络输出的1/2尺寸的第三优化视差图上采样为与本级视差处理相对应的全尺寸，之后，基于全尺寸的基于第一图像本身的特征(部分或全部)以及上采样后的全尺寸的第三优化视差图计算得到全尺寸的第四残差图，并将全尺寸的第四残差图和上采样后的全尺寸的第三优化视差图进行相加操作，得到全尺寸的第四优化视差图dispS4_refine。需要说明的是，在本例子中，第三个和第四个视差优化子网络使用的是基于第一图像本身的特征来进行视差优化处理以减小计算量，然而，它们中的一者或两者也可以使用第一图像的边缘特征或其它特征。同理，如果需要进一步减小计算量，第一个和/或第二个视差优化子网络也可以使用基于第一图像本身的特征来代替提取出的边缘特征等等。

所述1/8尺寸的第一优化视差图dispS1_refine、1/4尺寸的第二优化视差图dispS2_refine、1/2尺寸的第三优化视差图dispS3_refine以及全尺寸的第四优化视差图 dispS4_refine即可作为图5所示的视差估计***100所得到的多个尺寸依次增大的视差图。

另外，图6所示的视差估计***100的整体工作过程与图5所示的视差估计***100的整体工作过程类似，区别仅在于初始视差生成子网络301生成的初始视差图的尺寸小于第一个视差优化子网络所生成的优化视差图的尺寸、以及可将初始视差生成子网络301生成的初始视差图作为视差估计***100所得到的多个尺寸依次增大的视差图中的一个，因而不再赘述。

根据一些实施例，所述初始视差生成子网络301以及所述至少一个视差优化子网络302中的每一视差优化子网络302可以为2DCNN(二维深度卷积神经网络)或3DCNN(三维深度卷积神经网络)等任意的能够实现相应的视差处理功能的卷积神经网络。采用卷积神经网络作为视差处理子网络，可获得较大的感知域，从而可提高视差估计***所得到的视差图的精度。

根据一些实施例，对于所述初始视差生成子网络301而言，若其采用2DCNN结构获取视差，则所述初始视差生成子网络301可包括第一数量个(例如5个，当然还可根据实际需求灵活选取相应数值)依次级联的卷积层(convolution layer)。各卷积层的卷积方式例如可采用深度可分离卷积(depthwise separable convolution)等。

示例的，以下将通过表1对一种可应用于图5所示的视差估计***的、包括5个依次级联的卷积层(例如表1中的conv1-conv5)的2DCNN结构的初始视差生成子网络301进行示意说明。作为示例，该子网络采用了MobileNetV2网络架构。

表1：初始视差生成子网络301的一种可能的2DCNN网络结构的相关描述

结合表1和图5可知，corr1d层可用于对图5中的特征提取网络200提取到的第一图像的1/8尺寸的基础结构特征以及第二图像的1/8尺寸的基础结构特征进行相关操作。semanS1_conv层可用于基于3×3的卷积核对提取到的第一图像的1/8尺寸的语义特征进行卷积处理。edgeS1_conv层可用于基于3×3的卷积核对提取到的第一图像的1/8尺寸的边缘特征进行卷积处理。concat层可用于对corr1d、semanS1_conv以及edgeS1_conv输出的特征进行合并处理。

此外，conv1-conv5层中涉及到的MB_conv操作指的是MobileNetV2中的深度可分离卷积(depthwise separable convolution)操作，MB_conv_res操作指的是MobileNetV2中的残差深度可分离卷积(residual depthwise separable convolution)操作。换言之，conv1层、conv2层与conv4层分别可用于对上一层输出的特征进行深度可分离卷积操作，conv3层与conv5层分别可用于对上一层输出的特征进行残差深度可分离卷积操作。另外，dispS1层可用于对上一层输出的特征进行soft argmin计算，得到对应尺寸(即1/8尺寸)的初始视差图dispS1。

需要注意的是，表1中提及的H与W可分别表示输入视差估计***100的图像对中的图像的高度与宽度，D可表示图像的最大视差范围，三者单位均可为像素，其中，D的取值可与用于采集所述图像对的多目摄像机中的各摄像头的焦距和/或各摄像头之间的间距有关。另外，采用2DCNN结构的初始视差生成子网络301的卷积层的数量可以是根据concat层所得到的特征的数量而定的。例如，若concat层所得到的特征的数量较多，则还可以增加所述初始视差生成子网络301所包含的卷积层的数量。

作为替换方案，所述初始视差生成子网络301还可以采用3DCNN结构获取视差，采用3DCNN结构的所述初始视差生成子网络301可包括第二数量个(例如7个，当然还可根据实际需求灵活选取相应数值)依次级联的卷积层。

示例的，以下将通过表2对一种可应用于图5所示的视差估计***的、包括7个依次级联的卷积层(例如表2中的conv1-conv7)的3DCNN结构的初始视差生成子网络301进行示意说明。

表2：初始视差生成子网络301的一种可能的3DCNN网络结构的相关描述

结合表2和图5可知，edgeS1_conv层可用于基于3×3的卷积核对提取到的第一图像的1/8尺寸的边缘特征进行卷积处理。semanS3_conv层可用于基于3×3的卷积核对提取到的第一图像的1/8尺寸的语义特征进行卷积处理。concat层可用于对featS1、semanS1_conv以及edgeS1_conv输出的特征进行合并处理，其中，虽然表2中未示出，featS1可以是指提取到的第一图像的1/8尺寸的基础结构特征以及第二图像的1/8尺寸的基础结构特征。

此外，cost层可用于对concat层输出的特征进行平移操作。conv1层至conv7层可分别用于基于3×3×3的卷积核对上一层输出的特征进行卷积操作，其中，conv2层、conv4层以及conv6层可相当于是3DCNN网络的残差模块，还可分别用于对上一层输出的特征进行卷积操作之后，将卷积结果与上一层输出的结果进行相加处理。dispS1层可用于对上一层输出的特征进行soft argmin计算，得到对应尺寸(即1/8尺寸)的初始视差图dispS1。

与表1类似，表2中提及的H与W可分别表示输入视差估计***100的图像对中的图像的高度与宽度。另外，F可表示特征的通道数，1F表示通道数为F，3F表示通道数为3×F，等等。此外，采用3DCNN结构的初始视差生成子网络301的卷积层的数量也可以根据concat层所得到的特征的数量而定。例如，若concat层所得到的特征的数量较多，则还可以增加所述初始视差生成子网络301所包含的卷积层的数量。

根据一些实施例，所述至少一个视差优化子网络302中的每一视差优化子网络302所包括的卷积层的数量可小于所述初始视差生成子网络301所包括的卷积层的数量。例如，以每一视差优化子网络302采用2DCNN结构为例，每一视差优化子网络302所包括的卷积层的数量可为3个，当然，也可根据实际需求设置为其它数值。另外，参见前述实施例有关描述，每一视差优化子网络302还可采用3DCNN结构，对此不做限制。

以下将通过表3至表6对可适用于图5所示的视差估计***的多个视差优化子网络302的结构进行示意说明，其中，表3至表6依次对图5所示的视差估计***的第一至第四个视差优化子网络的可能的2DCNN网络结构进行了相应描述。

表3：第一个视差优化子网络的一种可能的2DCNN网络结构的相关描述

与前述表1等类似，edgeS1_conv层可用于基于3×3的卷积核对提取到的第一图像的1/8尺寸的边缘特征进行卷积处理。concat层可用于对上一级视差处理(即初始视差生成处理)生成的1/8尺寸的初始视差图dispS1，以及edgeS1_conv输出的特征进行合并处理。

此外，conv1层与conv3层分别可用于对上一层输出的特征进行深度可分离卷积操作，conv2层可用于对上一层输出的特征进行残差深度可分离卷积操作。另外，dispS1_refine层可用于对上一层conv3输出的特征，以及上一级视差处理生成的1/8尺寸的初始视差图dispS1进行叠加运算，得到对应尺寸(即1/8尺寸)的第一优化视差图dispS1_refine。

表4：第二个视差优化子网络的一种可能的2DCNN网络结构的相关描述

由表4以及图5可知，dispS1_up层可用于对上一级视差处理(即第一级视差优化处理)生成的1/8尺寸的第一优化视差图dispS1_refine进行上采样处理，得到1/4尺寸的优化视差图dispS1_up。edgeS2_conv层可用于基于3×3的卷积核对提取到的第一图像的1/4尺寸的边缘特征进行卷积处理。concat层可用于对上采样处理后的1/4尺寸的优化视差图dispS1_up以及edgeS2_conv输出的特征进行合并处理。

此外，conv1层与conv3层分别可用于对上一层输出的特征进行深度可分离卷积操作，conv2层可用于对上一层输出的特征进行残差深度可分离卷积操作。另外，dispS2_refine层可用于对上一层conv3输出的特征以及上采样处理后的1/4尺寸的优化视差图dispS1_up进行叠加运算，得到对应尺寸(即1/4尺寸)的第二优化视差图dispS2_refine。

表5：第三个视差优化子网络的一种可能的2DCNN网络结构的相关描述

由表5以及图5可知，dispS2_up层可用于对上一级视差处理(即第二级视差优化处理)生成的1/4尺寸的第二优化视差图dispS2_refine进行上采样处理，得到1/2尺寸的优化视差图dispS2_up。imgS3层可用于对第一图像本身进行降采样处理，得到1/2尺寸的基于第一图像本身的特征，其中，表5中的I1表示第一图像。concat层可用于对上采样处理后的1/2尺寸的优化视差图dispS2_up以及imgS3输出的特征进行合并处理。

此外，conv1层、conv2层与conv3层分别可用于对上一层输出的特征进行卷积操作，dispS3_refine层可用于对上一层conv3输出的特征以及上采样处理后的1/2尺寸的优化视差图dispS2_up进行叠加运算，得到对应尺寸(即1/2尺寸)的第三优化视差图dispS3_refine。

表6：第四个视差优化子网络的一种可能的2DCNN网络结构的相关描述

由表6以及图5可知，dispS3_up层可用于对上一级视差处理(即第三级视差优化处理)生成的1/2尺寸的第三优化视差图dispS3_refine进行上采样处理，得到全尺寸的优化视差图dispS3_up。concat层可用于对上采样处理后的全尺寸的优化视差图dispS3_up以及第一图像本身进行合并处理，其中，表6中的I1表示第一图像。

此外，conv1层、conv2层与conv3层分别可用于对上一层输出的特征进行卷积操作，dispS4_refine层可用于对上一层conv3输出的特征以及上采样处理后的全尺寸的优化视差图dispS3_up进行叠加运算，得到对应尺寸(即全尺寸)的第四优化视差图dispS4_refine。

需要注意的是，与前述实施例类似，表3至表6中提及的H与W可分别表示输入视差估计***100的图像对中的图像的高度与宽度。另外，采用2DCNN结构的各视差优化子网络302的卷积层的数量也可以是根据concat层所得到的特征的数量而定的。例如，若concat层所得到的特征的数量较多，则还可以增加各视差优化子网络302所包含的卷积层的数量。

根据一些实施例，所述初始视差生成子网络301以及所述至少一个视差优化子网络302中的每一子网络可以是基于训练样本集预先训练好的网络，这样，可提高视差处理的效率。当然，根据实际需求，所述初始视差生成子网络301以及所述至少一个视差优化子网络302中的每一子网络也可以是基于训练样本集进行实时训练所得到的，或者还可以是基于更新后的训练样本集对预先训练好的网络进行实时或定时优化所得到的，以提高视差生成的准确性。

根据一些实施例，所述初始视差生成子网络301以及所述至少一个视差优化子网络302中的每一子网络的训练过程也可采用有监督训练或者无监督训练，可根据实际需求灵活选取。有监督训练和无监督训练的介绍可参考前述有关实施例中的相关描述，此处不再赘述。

根据一些实施例，所述初始视差生成子网络301以及所述至少一个视差优化子网络302中的每一子网络还可被配置为计算损失函数，所述损失函数可用于表示所述子网络生成的视差图中的视差与对应的真实视差之间的误差。这样，通过计算损失函数，可明确视差估计***生成的各个视差图的精确度。另外，还可基于损失函数对相应***进行优化。

根据一些实施例，以所述初始视差生成子网络301以及所述至少一个视差优化子网络302中的每一子网络采用有监督训练为例，每一视差处理子网络或每一级视差处理输出的损失函数可定义为L _n＝f(Disp ^GTn-Disp ^Sn)+g(Disp ^Sn)。n的取值为1至N(对应图5所示的视差估计***)，或0至N(对应图6所示的视差估计***)。函数f表示预测的视差(Disp ^Sn)与真实视差(Disp ^GTn)的差异，g表示视差连续性约束。

g(x)＝|x _x|+|x _y|。另外，还可考虑边缘特征作为损失函数的正则项，对此不作限制。相应地，所述视差估计***100的最终的损失函数可为各视差处理子网络或各级视差处理输出的损失函数之和。

根据另一些实施例，若所述初始视差生成子网络301以及所述至少一个视差优化子网络302中的每一子网络采用无监督训练，则可通过对图像进行重构、计算重构误差得到各视差处理子网络或各级视差处理的损失函数。例如，以计算其中一级视差处理子网络的损失函数为例，所计算得到的损失函数可表示为

其中，warpI ₁＝warp(I ₂,Disp ₁)，warp函数表示根据该级视差处理子网络计算出的视差将第二图像I2重构为一张I1图像。

以下将以所述初始视差生成子网络301以及所述至少一个视差优化子网络302中的每一子网络采用有监督训练，训练集使用Scene Flow(场景流)，且视差估计***的结构如图5所示为例，结合图7A、图7B以及图8对训练所基于的参考图像、对应的真值视差图、以及将训练后的参数应用在Middlebury数据集图片上测试得到的结果进行示意说明。

图7A和图7B分别示出了根据本公开示例性实施例的网络训练时所基于的参考图像以及对应的真值视差图(ground truth)的示意图，图8示出了根据本公开示例性实施例的采用训练后的视差估计***对图7A所示的参考图像进行级联的多级视差处理所得到的从右到左尺寸依次增大的多个视差图的示意图(即将训练后的参数应用在Middlebury数据集图片上测试得到的结果)。由上述附图可知，所得到的多个视差图的尺寸可依次增大，精度可依次增高，且最大尺寸的视差图的精度接近真值视差图。此外，尽管图7A、图7B以及图8分别以灰度图像的方式对参考图像、真值视差图以及生成的多个视差图进行了示意，可以理解的是，当图7A所示的参考图像为彩色图像时，图7B以及图8所示出的各视差图也可为相应的彩色图像。

根据一些实施例，所述视差生成网络300还可被配置为根据目标设备的性能，从所述多个视差图中选取其尺寸与所述目标设备的性能相匹配的视差图作为提供给所述目标设备的视差图。例如，若所述目标设备的性能较高，和/或其所需的视差图的精度较高，则可从所述多个视差图中选取尺寸较大的视差图提供给所述目标设备。另外，所述目标设备也可根据自身性能，从所述视差估计***所得到的所述多个视差图中主动获取其所需的视差图，对此不作限制。

此外，尽管未示出，所述视差估计***所得到的所述多个视差图还可被提供给相应的目标设备进行进一步处理，例如提供给相应的目标设备以便所述目标设备基于所述视差图计算得到深度图，并进而得到场景的深度信息，以应用于三维重建、自动驾驶、障碍物检测等各种应用场景。

以上已经结合图1～图8描述了根据本公开的视差估计的示例性***。下面将结合图9、图10以及图11对本公开的视差估计的示例性方法、示例性电子设备的示例性实施例进行进一步描述。需要注意的是，前文中参照图1～图8描述的各种定义、实施例、实施方式和例子等也均可适用于之后描述的示例性实施例或与其进行组合。

根据一些实施例，图9示出了根据本公开的示例性实施例的视差估计方法的流程图。如图9所示，本公开的视差估计方法可包括以下步骤：对图像对中的各图像进行特征提取(步骤S901)；以及根据提取到的图像特征，进行级联的多级视差处理，得到多个尺寸依次增大的视差图(步骤S902)，其中，所述多级视差处理中的第一级视差处理的输入包括多个具有与该级视差处理相对应的尺寸的图像特征；所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理的输入包括：一个或多个具有与该级视差处理相对应的尺寸的图像特征，以及上一级视差处理所生成的视差图。

根据一些实施例，所述图像对可为通过多目摄像机采集到的针对同一场景的图像对。所述图像对中的各图像的尺寸一致，但对应的视角有所不同。另外，所述图像对中的各图像可为灰度图像或彩色图像。

根据一些实施例，所提取到的所述图像对中的各图像的图像特征至少可包括以下特征中的一种或多种：基础结构特征、语义特征、边缘特征、纹理特征、颜色特征、物体形状特征、或基于图像本身的特征。例如，所提取到的所述图像对中的第一图像(例如左目图像)的图像特征可包括基础结构特征、语义特征以及边缘特征，所提取到的所述图像对中的第二图像(例如右目图像)的图像特征可包括基础结构特征。或者，所提取到的所述图像对中的第一图像以及第二图像的图像特征均可包括基础结构特征、语义特征以及边缘特征，等等。

根据一些实施例，所述多个视差图中的具备最大尺寸的视差图可与所述图像对中的各图像的尺寸相一致，当然，所述多个视差图中的各视差图的尺寸也可均小于所述图像对中的各图像的尺寸。另外，所述多个视差图中的任意两个相邻视差图中的后一个视差图的高度和宽度可分别为前一个视差图的高度和宽度的2倍，当然，也可根据实际所需的精度设置为分别为前一个视差图的高度和宽度的3倍、4倍或其它大于1的正整数倍数等。示例的，以所述多个视差图为4个，且所述多个视差图中的最后一个视差图的尺寸为H×W(可与所述图像对中的各图像的尺寸一致)为例，排在其之前的所述多个视差图中的其它各视差图的尺寸可依次为

(若H×W可被称为全尺寸，则

可被称为1/2尺寸)，

(可被称为1/4尺寸)，以及

(可被称为1/8尺寸)。

根据一些实施例，所述提取到的图像特征可包括N种尺寸的图像特征，所述N为不小于2的正整数。相应地，如图10所示(图10示出了根据本公开的示例性实施例的视差估计方法中的多级视差处理的流程图)，根据提取到的图像特征，进行级联的多级视差处理，得到多个尺寸依次增大的视差图，可包括以下步骤。

步骤S1001：在所述多级视差处理的第一级视差处理中，根据所述N种尺寸的图像特征中的最小尺寸的图像特征的至少一部分，生成具备所述最小尺寸的初始视差图。

示例的，以提取到的所述N种尺寸的图像特征包括1/8尺寸、1/4尺寸、1/2尺寸以及全尺寸四种尺寸的图像特征为例为例，在所述多级视差处理的第一级视差处理中，可根据所述四种尺寸的图像特征中的最小尺寸(即1/8尺寸)的图像特征的至少一部分，生成具备所述最小尺寸(即1/8尺寸)的初始视差图。

另外，如前述表1和表2所示，可将相应的具备对应尺寸的图像特征进行视差平移叠加，使用3DCNN来获取初始视差图，或者，计算平移后的具备对应尺寸的图像特征的差异，使用2DCNN来获取初始视差图。

步骤S1002：在所述多级视差处理的后续每一级视差处理中，根据所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，生成具备所述对应尺寸的优化视差图，其中，所述多个视差图至少包括各个优化视差图。

根据一些实施例，所述多级视差处理可包括N+1级视差处理。相应地，所述在所述多级视差处理的后续每一级视差处理中，根据所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，生成具备所述对应尺寸的优化视差图，其中，所述多个视差图至少包括各个优化视差图，可包括：

在除第一级视差处理以外的N级视差处理中，按照尺寸从小到大的顺序，依次基于所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，得到N个尺寸依次增大的优化视差图，并将所述N个优化视差图作为所述多个视差图，其中所述N个优化视差图的尺寸分别与所述N种尺寸对应。

示例的，以提取到的所述N种尺寸的图像特征包括1/8尺寸、1/4尺寸、1/2尺寸以及全尺寸4种尺寸的图像特征，且，所述多级视差处理可包括4+1级视差处理为例，在除第一级视差处理以外的4级视差处理中，可按照尺寸从小到大的顺序，依次基于所述4种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，得到4个尺寸依次增大的优化视差图(例如，得到具备1/8尺寸的优化视差图、具备1/4尺寸的优化视差图、具备1/2尺寸的优化视差图以及具备全尺寸的优化视差图)，并将所述4个优化视差图作为所述多个视差图。

根据另一些实施例，所述多级视差处理可包括N级视差处理。相应地，所述在所述多级视差处理的后续每一级视差处理中，根据所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，生成具备所述对应尺寸的优化视差图，其中，所述多个视差图至少包括各个优化视差图，可包括：

在除第一级视差处理以外的N-1级视差处理中，按照尺寸从小到大的顺序，依次基于所述N种尺寸的图像特征中的N-1种非最小尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，得到N-1个尺寸依次增大的优化视差图，并将所述初始视差图和所述N-1个优化视差图作为所述多个视差图，其中所述初始视差图和所述N-1个优化视差图的尺寸分别与所述N种尺寸对应。

示例的，以提取到的所述N种尺寸的图像特征包括1/8尺寸、1/4尺寸、1/2尺寸以及全尺寸4种尺寸的图像特征，且所述多级视差处理可包括4级视差处理为例，在除第一级视差处理以外的其它3级视差处理中，可按照尺寸从小到大的顺序，依次基于其它3种非最小尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，得到3个尺寸依次增大的优化视差图(例如，得到具备1/4尺寸的优化视差图、具备1/2尺寸的优化视差图以及具备全尺寸的优化视差图)，并将所述初始视差图以及所述3个优化视差图作为所述多个视差图。

由此，所得到的所述多个视差图可以包含或不包含所述多级视差处理中的第一级视差处理所生成的初始视差图，以提高视差生成的灵活性。

根据一些实施例，在所述多级视差处理的后续每一级视差处理中，根据所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，生成具备所述对应尺寸的优化视差图，可包括：

在所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理中，基于具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行残差计算处理，得到具备所述对应尺寸的残差图，并将具备所述对应尺寸的残差图和所述上一级视差处理所生成的视差图进行组合以得到具备所述对应尺寸的优化视差图。

例如，以提取到的所述N种尺寸的图像特征包括1/8尺寸、1/4尺寸、1/2尺寸以及全尺寸4种尺寸的图像特征，且，所述多级视差处理可包括4+1级视差处理为例，在除第一级视差处理以外的其它4级视差处理的对应1/8尺寸的视差处理中(即对应1/8尺寸的视差优化处理中)，可基于提取到的1/8尺寸的图像特征的部分或全部，以及上一级视差处理所生成的初始视差图计算得到1/8尺寸的第一残差图，并基于所述第一残差图以及所述初始视差图计算得到1/8尺寸的第一优化视差图。在下一级对应1/4尺寸的视差优化处理中，可基于提取到的1/4尺寸的图像特征的部分或全部，以及上一级视差处理所生成的第一优化视差图计算得到1/4尺寸的第二残差图，并基于所述第二残差图以及所述第一优化视差图计算得到1/4尺寸的第二优化视差图，等等。

根据一些实施例，在所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理中，在对上一级视差处理所生成的视差图进行视差优化处理之前，所述方法还可包括：响应于所述上一级视差处理所生成的视差图的尺寸小于本级视差处理对应的尺寸，将所述上一级视差处理所生成的视差图上采样为与本级视差处理相对应的尺寸。

例如，仍以提取到的所述N种尺寸的图像特征包括1/8尺寸、1/4尺寸、1/2尺寸以及全尺寸4种尺寸的图像特征，且，所述多级视差处理可包括4+1级视差处理为例，在除第一级视差处理以外的其它4级视差处理的对应1/4尺寸的视差处理中(即对应1/4尺寸的视差优化处理中)，可将上一级视差处理所生成的1/8尺寸的第一优化视差图上采样为与本级视差处理相对应的1/4尺寸，之后，可基于提取到的1/4尺寸的图像特征的部分或全部，对上采样后的1/4尺寸的第一优化视差图进行视差优化处理得到1/4尺寸的第二优化视差图。

根据一些实施例，所述N种尺寸的图像特征中的最小尺寸的图像特征例如可以包括所述图像对中的第一图像的至少一种图像特征以及第二图像的至少一种图像特征。例如，所述N种尺寸的图像特征中的最小尺寸的图像特征可以包括所述图像对中的第一图像(例如左目图像)的基础结构特征、语义特征、边缘特征以及所述图像对中的第二图像(例如右目图像)的基础结构特征。

所述N种尺寸的图像特征中的每一种非最小尺寸的图像特征例如可以包括所述图像对中的所述第一图像的至少一种图像特征和/或所述第二图像的至少一种图像特征。例如，所述N种尺寸的图像特征中的各非最小尺寸的图像特征可以包括所述图像对中的第一图像的边缘特征或基于所述第一图像本身的特征。

另外，参见前述***实施例，生成不同优化视差图所基于的图像特征可以为相同种类的图像特征或不同种类的图像特征；和/或，生成不同优化视差图所基于的图像特征可以为所述图像对中的相同图像或不同图像的图像特征。

生成各优化视差图所基于的图像特征例如可以包括所述图像对中的至少一个图像的边缘特征，和/或，基于所述图像对中的至少一个图像的图像本身的特征。所述基于所述图像对中的至少一个图像的图像本身的特征例如可以包括所述至少一个图像的图像本身，或者根据所需生成的优化视差图的尺寸对所述至少一个图像的图像本身进行降采样所得到的图像。

根据一些实施例，所述视差估计方法还可包括：计算所述多级视差处理中的每一级视差处理的损失函数，所述损失函数可用于表示该级视差处理所生成的视差图中的视差与对应的真实视差之间的误差。这样，通过计算损失函数，可明确所生成的各个视差图的精确度，还可基于损失函数对视差估计方法进行优化。

根据一些实施例，所述视差估计方法还可包括：根据目标设备的性能，从所述多个视差图中选取其尺寸与所述目标设备的性能相匹配的视差图作为提供给所述目标设备的视差图。例如，若所述目标设备的性能较高，和/或其所需的视差图的精度较高，则可从所述多个视差图中选取尺寸较大的视差图提供给所述目标设备。另外，所述目标设备也可根据自身性能，从所述视差估计***所得到的所述多个视差图中主动获取其所需的视差图。

此外，所述视差估计方法还可包括：在对所述图像对中的各图像进行图像特征提取之前，对所述图像对中的图像进行极线校正，使得所述图像对中的图像仅在一个方向(例如水平方向)存在视差。由此，图像的视差搜索范围可仅限于一个方向，从而提高后续特征提取以及视差生成的效率。

本公开的一个方面可包括一种电子设备，该电子设备可包括处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行前述任何方法。

本公开的一个方面可包括存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行前述任何方法。

参照图11，现将描述计算设备2000，其是可以应用于本公开的各方面的硬件设备的示例。计算设备2000可以是被配置为执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、智能电话、车载计算机或其任何组合。上述电子设备可以全部或至少部分地由计算设备2000或类似设备或***实现。

计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如，计算设备2000可以包括总线2002、一个或多个处理器2004、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2006可以是能向计算设备2000输入信息的任何类型的设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备2008可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备2000还可以包括存储设备2010或者与存储设备2010连接，存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。存储设备2010可以从接口拆卸。存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或***，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算设备2000还可以包括工作存储器2014，其可以是可以存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器2014中，包括但不限于操作***2016、一个或多个应用(即应用程序)2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用2018中，并且上述视差估计***100的特征提取网络200以及视差生成网络300可以通过由处理器2004读取和执行一个或多个应用2018的指令来实现。更具体地，另前述视差估计***100的特征提取网络200可以例如通过处理器2004执行具有执行步骤S901的指令的应用2018而实现。此外，前述视差估计***100的视差生成网络300可以例如通过处理器2004执行具有执行步骤S902的指令的应用2018而实现，等等。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备2010)中，并且在执行时可以被存入工作存储器2014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现特定元件。例如，所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

还应该理解，前述方法可以通过服务器-客户端模式来实现。例如，客户端可以接收用户输入的数据并将所述数据发送到服务器。客户端也可以接收用户输入的数据，进行前述方法中的一部分处理，并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据，并且执行前述方法或前述方法中的另一部分，并将执行结果返回给客户端。客户端可以从服务器接收到方法的执行结果，并例如可以通过输出设备呈现给用户。

还应该理解，计算设备2000的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算设备2000的其他组件也可以类似地分布。这样，计算设备2000可以被解释为在多个位置执行处理的分布式计算***。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、***和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

一种视差估计***，包括：

特征提取网络，被配置为对图像对中的各图像进行特征提取，并将提取到的图像特征输出给视差生成网络；以及

所述视差生成网络，被配置为根据所述提取到的图像特征，进行级联的多级视差处理，得到多个尺寸依次增大的视差图，

其中，所述多级视差处理中的第一级视差处理的输入包括多个具有与该级视差处理相对应的尺寸的图像特征；所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理的输入包括：一个或多个具有与该级视差处理相对应的尺寸的图像特征，以及上一级视差处理所生成的视差图。
如权利要求1所述的视差估计***，其中，所提取到的所述图像对中的各图像的图像特征至少包括以下特征中的一种或多种：

基础结构特征、语义特征、边缘特征、纹理特征、颜色特征、物体形状特征、或基于图像本身的特征。
如权利要求2所述的视差估计***，其中，所述特征提取网络包括多个分别用于提取图像的不同特征的特征提取子网络；所述多个特征提取子网络至少包括基础结构特征子网络、语义特征子网络以及边缘特征子网络。
如权利要求1所述的视差估计***，其中，所述多个视差图中的具备最大尺寸的视差图与所述图像对中的各图像的尺寸相一致。
如权利要求1所述的视差估计***，其中，

所述提取到的图像特征包括N种尺寸的图像特征，所述N为不小于2的正整数；

所述视差生成网络被配置为，在所述多级视差处理的所述第一级视差处理中，根据所述N种尺寸的图像特征中的最小尺寸的图像特征的至少一部分，生成具备所述最小尺寸的初始视差图；以及

在所述多级视差处理的后续每一级视差处理中，根据所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，生成具备所述对应尺寸的优化视差图；

其中，所述多个视差图至少包括各个优化视差图。
如权利要求5所述的视差估计***，其中，

所述多级视差处理包括N+1级视差处理；

所述视差生成网络被配置为，在除第一级视差处理以外的N级视差处理中，按照尺寸从小到大的顺序，依次基于所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，得到N个尺寸依次增大的优化视差图，并将所述N个优化视差图作为所述多个视差图，其中所述N个优化视差图的尺寸分别与所述N种尺寸对应。
如权利要求5所述的视差估计***，其中，

所述多级视差处理包括N级视差处理；

所述视差生成网络被配置为，在除第一级视差处理以外的N-1级视差处理中，按照尺寸从小到大的顺序，依次基于所述N种尺寸的图像特征中的N-1种非最小尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，得到N-1个尺寸依次增大的优化视差图，并将所述初始视差图和所述N-1个优化视差图作为所述多个视差图，其中所述初始视差图和所述N-1个优化视差图的尺寸分别与所述N种尺寸对应。
如权利要求5-7中任一项所述的视差估计***，其中，

所述视差生成网络被配置为，在所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理中，基于具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行残差计算处理，得到具备所述对应尺寸的残差图，并将具备所述对应尺寸的残差图和所述上一级视差处理所生成的视差图进行组合以得到具备所述对应尺寸的优化视差图。
如权利要求5-7中任一项所述的视差估计***，其中，

所述视差生成网络被配置为，在所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理中，在对上一级视差处理所生成的视差图进行视差优化处理之前，响应于所述上一级视差处理所生成的视差图的尺寸小于本级视差处理对应的尺寸，将所述上一级视差处理所生成的视差图上采样为与本级视差处理相对应的尺寸。
如权利要求5-7中任一项所述的视差估计***，其中，所述N种尺寸的图像特征中的最小尺寸的图像特征包括所述图像对中的第一图像的至少一种图像特征以及第二图像的至少一种图像特征，所述N种尺寸的图像特征中的每一种非最小尺寸的图像特征包括所述图像对中的所述第一图像的至少一种图像特征和/或所述第二图像的至少一种图像特征。
如权利要求5-7中任一项所述的视差估计***，其中，生成不同优化视差图所基于的图像特征为相同种类的图像特征或不同种类的图像特征；和/或，

生成不同优化视差图所基于的图像特征为所述图像对中的相同图像或不同图像的图像特征。
如权利要求5-7中任一项所述的视差估计***，其中，生成各优化视差图所基于的图像特征包括所述图像对中的至少一个图像的边缘特征，和/或，基于所述图像对中的至少一个图像的图像本身的特征。
如权利要求12所述的视差估计***，其中，基于所述图像对中的至少一个图像的图像本身的特征包括所述至少一个图像的图像本身，或者根据所需生成的优化视差图的尺寸对所述至少一个图像的图像本身进行降采样所得到的图像。
如权利要求1所述的视差估计***，其中，所述视差生成网络包括初始视差生成子网络以及至少一个视差优化子网络，所述初始视差生成子网络以及所述至少一个视差优化子网络中的各视差优化子网络依次级联，所述初始视差生成子网络被配置为进行所述第一级视差处理，所述至少一个视差优化子网络被配置为进行除所述第一级视差处理以外的各级视差处理。
如权利要求14所述的视差估计***，其中，

所述初始视差生成子网络以及所述至少一个视差优化子网络中的每一视差优化子网络为二维深度卷积神经网络2DCNN或三维深度卷积神经网络3DCNN。
如权利要求15所述的视差估计***，其中，所述至少一个视差优化子网络中的每一视差优化子网络所包括的卷积层的数量小于所述初始视差生成子网络所包括的卷积层的数量。
如权利要求14所述的视差估计***，其中，所述初始视差生成子网络以及所述至少一个视差优化子网络中的每一子网络被配置为计算损失函数，所述损失函数表示所述子网络生成的视差图中的视差与对应的真实视差之间的误差。
如权利要求1所述的视差估计***，其中，

所述视差生成网络被配置为根据目标设备的性能，从所述多个视差图中选取其尺寸与所述目标设备的性能相匹配的视差图作为提供给所述目标设备的视差图。
如权利要求1所述的视差估计***，其中，所述图像对为通过多目摄像机采集到的针对同一场景的图像对。
一种视差估计方法，包括：

对图像对中的各图像进行特征提取；以及

根据提取到的图像特征，进行级联的多级视差处理，得到多个尺寸依次增大的视差图，

其中，所述多级视差处理中的第一级视差处理的输入包括多个具有与该级视差处理相对应的尺寸的图像特征；所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理的输入包括：一个或多个具有与该级视差处理相对应的尺寸的图像特征，以及上一级视差处理所生成的视差图。
如权利要求20所述的视差估计方法，其中，所提取到的所述图像对中的各图像的图像特征至少包括以下特征中的一种或多种：

基础结构特征、语义特征、边缘特征、纹理特征、颜色特征、物体形状特征、或基于图像本身的特征。
如权利要求20所述的视差估计方法，其中，所述多个视差图中的具备最大尺寸的视差图与所述图像对中的各图像的尺寸相一致。
如权利要求20所述的视差估计方法，其中，

所述提取到的图像特征包括N种尺寸的图像特征，所述N为不小于2的正整数；

所述根据提取到的图像特征，进行级联的多级视差处理，得到多个尺寸依次增大的视差图，包括：

在所述多级视差处理的所述第一级视差处理中，根据所述N种尺寸的图像特征中的最小尺寸的图像特征的至少一部分，生成具备所述最小尺寸的初始视差图；以及

在所述多级视差处理的后续每一级视差处理中，根据所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，生成具备所述对应尺寸的优化视差图；

其中，所述多个视差图至少包括各个优化视差图。
如权利要求23所述的视差估计方法，其中，

所述多级视差处理包括N+1级视差处理；

所述在所述多级视差处理的后续每一级视差处理中，根据所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，生成具备所述对应尺寸的优化视差图，其中，所述多个视差图至少包括各个优化视差图，包括：

在除第一级视差处理以外的N级视差处理中，按照尺寸从小到大的顺序，依次基于所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，得到N个尺寸依次增大的优化视差图，并将所述N个优化视差图作为所述多个视差图，其中所述N个优化视差图的尺寸分别与所述N种尺寸对应。
如权利要求23所述的视差估计方法，其中，

所述多级视差处理包括N级视差处理；

所述在所述多级视差处理的后续每一级视差处理中，根据所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，生成具备所述对应尺寸的优化视差图，其中，所述多个视差图至少包括各个优化视差图，包括：

在除第一级视差处理以外的N-1级视差处理中，按照尺寸从小到大的顺序，依次基于所述N种尺寸的图像特征中的N-1种非最小尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，得到N-1个尺寸依次增大的优化视差图，并将所述初始视差图和所述N-1个优化视差图作为所述多个视差图，其中所述初始视差图和所述N-1个优化视差图的尺寸分别与所述N种尺寸对应。
如权利要求23-25中任一项所述的视差估计方法，其中，

在所述多级视差处理的后续每一级视差处理中，根据所述N种尺寸的图像特征中的具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行视差优化处理，生成具备所述对应尺寸的优化视差图，包括：

在所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理中，基于具备对应尺寸的图像特征的至少一部分，对上一级视差处理所生成的视差图进行残差计算处理，得到具备所述对应尺寸的残差图，并将具备所述对应尺寸的残差图和所述上一级视差处理所生成的视差图进行组合以得到具备所述对应尺寸的优化视差图。
如权利要求23-25中任一项所述的视差估计方法，其中，在所述多级视差处理中的除所述第一级视差处理以外的每一级视差处理中，在对上一级视差处理所生成的视差图进行视差优化处理之前，所述方法还包括：

响应于所述上一级视差处理所生成的视差图的尺寸小于本级视差处理对应的尺寸，将所述上一级视差处理所生成的视差图上采样为与本级视差处理相对应的尺寸。
如权利要求23-25中任一项所述的视差估计方法，其中，所述N种尺寸的图像特征中的最小尺寸的图像特征包括所述图像对中的第一图像的至少一种图像特征以及第二图像的至少一种图像特征，所述N种尺寸的图像特征中的每一种非最小尺寸的图像特征包括所述图像对中的所述第一图像的至少一种图像特征和/或所述第二图像的至少一种图像特征。
如权利要求23-25中任一项所述的视差估计方法，其中，生成不同优化视差图所基于的图像特征为相同种类的图像特征或不同种类的图像特征；和/或，

生成不同优化视差图所基于的图像特征为所述图像对中的相同图像或不同图像的图像特征。
如权利要求23-25中任一项所述的视差估计方法，其中，生成各优化视差图所基于的图像特征包括所述图像对中的至少一个图像的边缘特征，和/或，基于所述图像对中的至少一个图像的图像本身的特征。
如权利要求30所述的视差估计方法，其中，基于所述图像对中的至少一个图像的图像本身的特征包括所述至少一个图像的图像本身，或者根据所需生成的优化视差图的尺寸对所述至少一个图像的图像本身进行降采样所得到的图像。
如权利要求20所述的视差估计方法，还包括：

计算所述多级视差处理中的每一级视差处理的损失函数，所述损失函数表示该级视差处理所生成的视差图中的视差与对应的真实视差之间的误差。
如权利要求20所述的视差估计方法，还包括：

根据目标设备的性能，从所述多个视差图中选取其尺寸与所述目标设备的性能相匹配的视差图作为提供给所述目标设备的视差图。
如权利要求20所述的视差估计方法，其中，所述图像对为通过多目摄像机采集到的针对同一场景的图像对。
一种电子设备，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求20-34中任一项所述的方法。
一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据权利要求20-34中任一项所述的方法。