CN115984093A

CN115984093A - 基于红外图像的深度估计方法、电子设备以及存储介质

Info

Publication number: CN115984093A
Application number: CN202211397790.2A
Authority: CN
Inventors: 刘伟舟; 胡晨; 周舒畅
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-04-18

Abstract

本申请实施例提供一种基于红外图像的深度估计方法、电子设备以及存储介质。该方法包括：获取待处理红外图像；将待处理红外图像输入目标深度估计模型，获得对应的第一深度估计结果，第一深度估计结果是与待处理红外图像中的每个像素的深度相关的信息；基于第一深度估计结果，确定待处理红外图像所对应的第一深度信息；其中，目标深度估计模型利用合成红外训练数据训练获得，合成红外训练数据包括合成红外图像和标注深度信息，合成红外图像基于标注RGB图像生成，标注深度信息是标注RGB图像所对应的深度信息。目标深度估计模型由于利用合成红外图像训练获得，因此可用的训练数据较为充足，获得的目标深度估计模型性能也较为鲁棒。

Description

基于红外图像的深度估计方法、电子设备以及存储介质

技术领域

本申请涉及图像处理技术领域，更具体地涉及一种基于红外图像的深度估计方法、电子设备、存储介质及计算机程序产品。

背景技术

在很多技术领域，诸如自动驾驶中，需要获取应用场景的三维信息。为此，通常需要采用传感器采集场景信息。目前，常用且经济的获取应用场景的三维信息的传感器就是单目摄像头，然而基于单目摄像头所获取的二维图像难以直接有效地获取应用场景的三维结构信息，因此就需要通过对二维图像进行深度估计来获取应用场景的三维信息。目前主要是通过可见光图像(即RGB图像)进行深度估计，进而获取应用场景的三维信息。但是，在夜晚等低照场景下，一般的RGB摄像头采集到的图像中的场景信息缺失明显。而红外摄像头可以在夜晚场景采集到丰富的场景信息，因此，基于红外图像进行深度估计对于低照场景下的三维信息获取具有重要价值。

在单目深度估计领域，由于强大的特征学习能力，深度神经网络可通过大量数据的训练，在缺少三维信息的情况下对图像深度进行很好的预测。然而，在红外深度领域带有深度标注的数据集非常稀缺，这导致需要大规模数据训练的深度神经网络在红外深度估计领域没有较好应用。

发明内容

考虑到上述问题而提出了本申请。本申请提供了一种基于红外图像的深度估计方法、电子设备、存储介质及计算机程序产品。

根据本申请一方面，提供了一种基于红外图像的深度估计方法，包括：获取待处理红外图像；将待处理红外图像输入目标深度估计模型，获得对应的第一深度估计结果，第一深度估计结果是与待处理红外图像中的每个像素的深度相关的信息；将第一深度估计结果确定为待处理红外图像所对应的第一深度信息，或者，基于第一深度估计结果，确定第一深度信息；其中，目标深度估计模型利用合成红外训练数据训练获得，合成红外训练数据包括合成红外图像和标注深度信息，合成红外图像基于标注RGB图像生成，标注深度信息是标注RGB图像所对应的深度信息。

示例性地，合成红外图像通过以下方式生成：获取标注RGB图像；将标注RGB图像输入风格迁移网络，获得合成红外图像。

示例性地，风格迁移网络通过以下方式训练获得：将样本RGB图像和第一样本红外图像输入风格迁移网络，获得与样本RGB图像相对应的第一预测RGB图像和第一预测红外图像以及与第一样本红外图像相对应的第二预测RGB图像和第二预测红外图像；将第一预测RGB图像作为正样本输入第一判别网络，获得第一判别结果；将第二预测RGB图像作为负样本输入第一判别网络，获得第二判别结果；将第一预测红外图像作为负样本输入第一判别网络，获得第三判别结果；将第二预测红外图像作为正样本输入第一判别网络，获得第四判别结果；基于第一判别结果、第二判别结果、第三判别结果和第四判别结果，计算第一预测损失；基于第一预测损失对风格迁移网络和第一判别网络进行对抗训练。

示例性地，将样本RGB图像和第一样本红外图像输入风格迁移网络，获得与样本RGB图像相对应的第一预测RGB图像和第一预测红外图像以及与第一样本红外图像相对应的第二预测RGB图像和第二预测红外图像，包括：通过风格迁移网络执行以下操作：对样本RGB图像进行第一编码操作，获得第一编码特征；对第一样本红外图像进行第二编码操作，获得第二编码特征；将第一编码特征和第二编码特征合并在一起，获得合并特征；对合并特征进行第一解码操作，获得第一预测RGB图像和第二预测RGB图像；对合并特征进行第二解码操作，获得第一预测红外图像和第二预测红外图像。

示例性地，目标深度估计模型通过以下第一训练操作训练获得：获取合成红外图像和标注深度信息；将合成红外图像输入目标深度估计模型，获得对应的第一预测估计结果，第一预测估计结果是与合成红外图像中的每个像素的深度相关的信息；基于第一预测估计结果，确定合成红外图像所对应的第一预测深度信息；基于标注深度信息和第一预测深度信息计算第二预测损失；基于第二预测损失对目标深度估计模型中的参数进行优化；或者，目标深度估计模型通过以下第二训练操作训练获得：获取第二样本红外图像和第三样本红外图像；利用待迁移深度估计模型的权重对目标深度估计模型的权重进行初始化，其中，待迁移深度估计模型和目标深度估计模型的网络结构相同，待迁移深度估计模型基于合成红外训练数据进行训练获得；将第二样本红外图像输入待迁移深度估计模型，获得对应的第二预测估计结果，第二预测估计结果是与第二样本红外图像中的每个像素的深度相关的信息；基于第二预测估计结果，确定第二样本红外图像所对应的第二预测深度信息；将第三样本红外图像输入目标深度估计模型，获得对应的第三预测估计结果，第三预测估计结果是与第三样本红外图像中的每个像素的深度相关的信息；基于第三预测估计结果，确定第三样本红外图像所对应的第三预测深度信息；将第二预测深度信息作为正样本输入第二判别网络，获得第五判别结果；将第三预测深度信息作为负样本输入第二判别网络，获得第六判别结果；至少基于第五判别结果和第六判别结果，计算第三预测损失；基于第三预测损失对目标深度估计模型和第二判别网络进行对抗训练。

示例性地，待迁移深度估计模型和目标深度估计模型各自包括依次连接的特征提取模块和深度预测模块，将第二样本红外图像输入待迁移深度估计模型，获得对应的第二预测估计结果包括：将第二样本红外图像输入待迁移深度估计模型，获得待迁移深度估计模型的特征提取模块输出的第一红外特征以及待迁移深度估计模型的深度预测模块输出的第二预测估计结果；将第三样本红外图像输入目标深度估计模型，获得对应的第三预测估计结果包括：将第三样本红外图像输入目标深度估计模型，获得目标深度估计模型的特征提取模块输出的第二红外特征以及目标深度估计模型的深度预测模块输出的第三预测估计结果；在至少基于第五判别结果和第六判别结果，计算第三预测损失之前，第二训练操作还包括：将第一红外特征作为正样本输入第二判别网络，获得第七判别结果；将第二红外特征作为负样本输入第二判别网络，获得第八判别结果；至少基于第五判别结果和第六判别结果，计算第三预测损失包括：基于第五判别结果、第六判别结果、第七判别结果和第八判别结果计算第三预测损失；其中，在基于第三预测损失对目标深度估计模型和第二判别网络进行对抗训练的过程中，对目标深度估计模型中的目标参数进行优化，并且目标深度估计模型中除目标参数以外的剩余参数固定，目标参数是目标深度估计模型的特征提取模块中的至少部分参数。

示例性地，在基于标注深度信息和第一预测深度信息计算第二预测损失之前，第一训练操作还包括：将合成红外图像输入图像分割网络，获得图像分割结果；基于图像分割结果确定有效区域和无效区域；基于标注深度信息和第一预测深度信息计算第二预测损失包括：对于有效区域中的任一像素，将标注深度信息中与该像素对应的深度值作为目标值，将第一预测深度信息中与该像素相对应的深度值作为预测值，计算第一损失；对于无效区域中的任一像素，将特定深度值作为目标值，将第一预测深度信息中与该像素相对应的深度值作为预测值，计算第二损失，其中，特定深度值所对应的视差值为0；基于第一损失和第二损失计算第二预测损失。

示例性地，方法还包括：获取待处理RGB图像，待处理RGB图像和待处理红外图像针对同一目标场景采集；将待处理RGB图像与待处理红外图像进行空间对齐；将对齐后的待处理RGB图像转换为红外图像，获得转换红外图像；将转换红外图像或新红外图像输入目标深度估计模型，获得对应的第二深度估计结果，其中，新红外图像基于转换红外图像生成，第二深度估计结果是与待处理RGB图像中的每个像素的深度相关的信息；基于第二深度估计结果，确定待处理RGB图像所对应的第二深度信息；将第一深度信息与第二深度信息按像素进行融合，获得第一综合深度信息。

示例性地，方法还包括：从待处理红外图像中提取一个或多个图像块，一个或多个图像块与一种或多种不同尺度一一对应，每个图像块包含待处理红外图像的中心点；对于一个或多个图像块中的每个图像块，将该图像块输入目标深度估计模型，获得对应的子深度估计结果，子深度估计结果是与该图像块中的每个像素的深度相关的信息；基于子深度估计结果确定该子图块所对应的子深度信息；将第一深度信息与一个或多个图像块所对应的子深度信息按像素进行融合，获得第二综合深度信息。

根据本申请另一方面，提供了一种电子设备，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述的基于红外图像的深度估计方法。

根据本申请另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，其中，所述程序指令在运行时用于执行上述的基于红外图像的深度估计方法。

根据本申请另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，其中，所述计算机程序在运行时用于执行上述的基于红外图像的深度估计方法。

根据本申请实施例的基于红外图像的深度估计方法、电子设备、存储介质及计算机程序产品，其采用的目标深度估计模型可以利用合成红外图像训练获得，该合成红外图像基于带标注的RGB图像生成。由于对于单目RGB图像来说，有大量的带有深度标注的公开数据集可以获取，因此基于RGB图像生成合成红外图像的方案有助于快速生成大规模的带标注的合成红外数据集，这对于红外深度估计模型的训练具有重要的应用价值。根据本申请实施例的基于红外图像的深度估计方法中采用的目标深度估计模型由于利用上述合成红外图像训练获得，因此可用的训练数据较为充足，目标深度估计模型的性能也较为鲁棒。因此，基于该目标深度估计模型进行深度估计的精度也较高。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本申请实施例的基于红外图像的深度估计方法和装置的示例电子设备的示意性框图；

图2示出了根据本申请一个实施例的基于红外图像的深度估计方法的示意性流程图；

图3示出根据本申请一个实施例的风格迁移网络的示意性框图；

图4示出根据本申请一个实施例的目标深度估计模型的训练示意图；

图5示出根据本申请一个实施例的基于红外图像的深度估计装置的示意性框图；以及

图6示出根据本申请一个实施例的电子设备的示意性框图。

具体实施方式

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及测试***的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、图像处理、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了测试，例如城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

为了使得本申请的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本申请的保护范围之内。

本申请实施例提供了一种基于红外图像的深度估计方法、电子设备、存储介质及计算机程序产品。根据本申请实施例的基于红外图像的深度估计方法，其采用的目标深度估计模型可以利用合成红外图像训练获得，该合成红外图像基于带标注的RGB图像生成。根据本申请实施例的基于红外图像的深度估计方法可以应用于任何需要进行深度估计的技术领域，包括但不限于：机器人导航与定位、自动驾驶、SLAM等等。

首先，参照图1来描述用于实现根据本申请实施例的基于红外图像的深度估计方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104。可选地，电子设备100还可以包括输入装置106、输出装置108、以及图像拍摄装置110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、微处理器中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图像处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本申请实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种测试程序和各种数据，例如所述测试程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。可选地，所述输入装置106和所述输出装置108可以集成在一起，采用同一交互装置(例如触摸屏)实现。

所述图像拍摄装置110可以采集图像，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像拍摄装置110可以是单独的相机或移动终端中的摄像头等。应当理解，图像拍摄装置110仅是示例，电子设备100可以不包括图像拍摄装置110。在这种情况下，可以利用其他具有图像采集能力的器件采集图像，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本申请实施例的基于红外图像的深度估计方法和装置的示例电子设备可以在诸如个人计算机、终端设备、考勤机、面板机、相机或远程服务器等的设备上实现。其中，终端设备包括但不限于：平板电脑、手机、PDA(Personal DigitalAssistant，个人数字助理)、可触屏一体机、可穿戴设备等。

下面，将参考图2描述根据本申请实施例的基于红外图像的深度估计方法。图2示出根据本申请一个实施例的基于红外图像的深度估计方法200的示意性流程图。如图2所示，基于红外图像的深度估计方法200包括步骤S210、S220和S230。

步骤S210，获取待处理红外图像。

待处理红外图像是采用红外图像采集装置采集的图像。示例性地，待处理红外图像可以是任意类型的包含目标场景在内的图像。目标场景可以包含任意物体，所述物体可以包括但不限于：行人、动物、车辆、风景、建筑物等。待处理红外图像可以是静态图像，也可以是动态视频中的任一视频帧。待处理红外图像可以是图像采集装置(例如单独的相机或移动终端中的摄像头等)采集到的原始图像，也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。

待处理红外图像可以由外部设备(例如云端服务器)发送到电子设备100以由电子设备100的处理器102进行处理，还可以由电子设备100包括的图像采集装置110(例如摄像头)采集并传送到处理器102进行处理，还可以由电子设备100包括的存储装置104存储并传送到处理器102进行处理。

步骤S220，将待处理红外图像输入目标深度估计模型，获得对应的第一深度估计结果，第一深度估计结果是与待处理红外图像中的每个像素的深度相关的信息，其中，目标深度估计模型利用合成红外训练数据训练获得，合成红外训练数据包括合成红外图像和标注深度信息，合成红外图像基于标注RGB图像生成，标注深度信息是标注RGB图像所对应的深度信息。

需注意，本文所述的“第一”、“第二”、“第三”等术语仅用于区分目的，并不表示顺序或其他特殊含义。

示例性地，目标深度估计模型可以采用任意能够实现深度估计的算法模型实现，例如采用神经网络模型实现。在一个实施例中，目标深度估计模型可以是U-Net网络模型或者任意基于Transformer结构的网络模型，例如，神经窗口全连接条件随机场(NeuralWindow Fully-connected CRFs，NeW CRFs)网络模型。将获取的待处理红外图像输入目标深度估计模型，可以获得对应的第一深度估计结果。

第一深度估计结果是与待处理红外图像中的每个像素的深度相关的信息。例如，第一深度估计结果可以是待处理红外图像所对应的深度信息或视差信息。深度信息可以包括待处理红外图像中各个像素所对应的深度值，视差信息可以包括待处理红外图像中各个像素所对应的视差值。即，深度信息可以是与待处理图像大小相同的深度图像。深度图像上的任一像素的像素值用于表示待处理图像上的同一位置处的像素所对应的深度值。类似地，视差信息可以是与待处理图像大小相同的视差图像。视差图像上的任一像素的像素值用于表示待处理图像上的同一位置处的像素所对应的视差值。

目标深度估计模型可以直接或间接地利用合成红外训练数据训练获得。在一个示例中，可以将合成红外训练数据直接作为目标深度估计模型的训练数据，通过例如传统的模型训练方式(例如下述第一训练操作)对目标深度估计模型进行训练。在另一个示例中，可以将合成红外训练数据作为另一深度估计模型(可以称为待迁移深度估计模型)的训练数据，并通过例如传统的模型训练方式(例如下述第一训练操作)对待迁移深度估计模型进行训练。随后，可以进一步通过下述域迁移算法，利用待迁移深度估计模型对目标深度估计模型进行训练。

步骤S230，将第一深度估计结果确定为待处理红外图像所对应的第一深度信息，或者，基于第一深度估计结果，确定第一深度信息。

示例性地，如果获得的第一深度估计结果是深度信息，则可以将第一深度估计结果直接确定为待处理红外图像所对应的第一深度信息。如果获得的第一深度估计结果是视差信息，则可以对待处理红外图像中各个像素所对应的视差值取倒数后所获得的数值作为各像素所对应的深度值，以获得第一深度信息。

根据上述基于红外图像的深度估计方法，其采用的目标深度估计模型可以利用合成红外图像训练获得，该合成红外图像基于带标注的RGB图像生成。由于对于单目RGB图像来说，有大量的带有深度标注的公开数据集可以获取，因此基于RGB图像生成合成红外图像的方案有助于快速生成大规模的带标注的合成红外数据集，这对于红外深度估计模型的训练具有重要的应用价值。根据本申请实施例的基于红外图像的深度估计方法中采用的目标深度估计模型由于利用上述合成红外图像训练获得，因此可用的训练数据较为充足，目标深度估计模型的性能也较为鲁棒。因此，基于该目标深度估计模型进行深度估计的精度也较高。

示例性地，根据本申请实施例的基于红外图像的深度估计方法可以在具有存储器和处理器的设备、装置或者***中实现。

根据本申请实施例的基于红外图像的深度估计方法可以部署在图像采集端处，例如，可以部署在具有图像采集功能的个人终端或服务器端处。

替代地，根据本申请实施例的基于红外图像的深度估计方法还可以分布地部署在服务器端(或云端)和客户端处。例如，可以在客户端采集待处理红外图像，客户端将待处理红外图像传送给服务器端(或云端)，由服务器端(或云端)对待处理红外图像的深度信息进行估计。

在一个实施例中，风格迁移网络可以具有任意可以实现风格迁移的网络结构。例如，风格迁移网络可以是无监督图像至图像翻译网络(Unsupervised Image-to-ImageTranslation Networks,UNIT)。示例性而非限制性地，可以基于Driving Stereo或大型自动驾驶领域数据集(KITTI)数据集获取标注RGB图像。Driving Stereo和KITI数据集都带有深度标注数据(本文称为标注深度信息)。当然，也可以将任意其他合适的RGB图像作为标注RGB图像来生成红外图像。将标注RGB图像输入风格迁移网络，可以获得迁移后的红外图像，即合成红外图像。

根据上述技术方案，通过风格迁移网络自动基于RGB图像生成用于训练目标深度估计模型的合成红外图像，这种方案可以非常方便地生成大量红外数据集。

样本RGB图像和第一样本红外图像可以包含同一目标场景，也可以包含不同的目标场景。也就是说，样本RGB图像和第一样本红外图像所包含的图像内容可以一致，也可以不一致。

在一个实施例中，样本RGB图像的获取方式与步骤S210类似，为了简洁，在此不再赘述。将样本RGB图像输入风格迁移网络，可以获得第一预测RGB图像和第一预测红外图像。同理地，将第一样本红外图像输入风格迁移网络，可以获得第二预测RGB图像和第二预测红外图像。随后，可以通过判别网络判断风格迁移网络所生成的每个图像的真假(Ture/False)。这种训练方式是一种生成对抗网络(Generative Adversarial Network)训练方式。风格迁移网络可以视为GAN中的生成器G，第一判别网络可以视为GAN中的判别器D。其中，对于正样本，判别网络需要将其尽量判别为真，而对于负样本，判别网络需要将其尽量判别为假。风格迁移网络作为生成器G，则需要使其生成的负样本尽量被判别为真，即使得基于样本RGB图像生成的第一预测红外图像尽量被判别为真，并使基于样本红外图像生成的第二预测RGB图像尽量被判别为真。

第一判别网络可以采用单个判别器实现，也可以采用多个判别器实现。在一个示例中，第一判别网络可以包括第一判别器和第二判别器。第一判别器和第二判别器可以分别用于判断RGB图像和红外图像的真假。例如，可以将第一预测RGB图像和第二预测RGB图像分别输入第一判别器，获得各自对应的第一判别结果和第二判别结果。第一判别结果和第二判别结果可以用0～1之间的数值表示。此外，还可以将第一预测红外图像和第二预测红外图像分别输入第二判别器，获得各自对应的第三判别结果和第四判别结果。第三判别结果和第四判别结果也可以用0～1之间的数值表示。

随后，可以基于以上四种判别结果计算第一预测损失。例如，可以将第一判别结果、第二判别结果、第三判别结果和第四判别结果代入GAN的最大最小损失函数中进行计算，获得第一预测损失。基于第一预测损失，可以对风格迁移网络和第一判别网络进行对抗训练。对抗训练中，可以通过反向传播与梯度下降算法对风格迁移网络中的参数和第一判别网络中的参数进行优化。可以理解，对抗训练过程中，第一判别网络和风格迁移网络中的参数可以交替地进行优化。本领域技术人员可以理解GAN的这种训练方式，本文不做赘述。

示例性地，可以使用Driving Stereo和KITTI数据集来训练风格迁移网络。例如，可以将Driving Stereo中的至少部分RGB图像和/或KITTI数据集中的至少部分RGB图像作为样本RGB图像参与风格迁移网络的训练。比较可取的是，同时获取Driving Stereo中的至少部分RGB图像和KITTI数据集中的至少部分RGB图像作为样本RGB图像进行训练。DrivingStereo是自然场景下的RGB图像，可以较好地代表实际场景从而使得训练获得的风格迁移网络能够有较高的泛化性。但是Driving Stereo对应的深度图像较为稀疏，无法有效地训练稠密深度图像的生成。KITTI拥有稠密的深度图像，但其RGB图像为虚拟图像，与实际场景有较大的区别从而泛化性差。因此，将这两个数据集进行联合训练可以保证风格迁移网络泛化性高的同时具有稠密的深度图像。

根据上述技术方案，通过样本RGB图像和第一样本红外图像训练风格迁移网络，风格迁移网络可以预测与样本RGB图像对应的RGB图像和红外图像以及与第一样本红外图像对应的RGB图像和红外图像，并通过训练使基于样本RGB图像生成的预测红外图像的表现接近样本红外图像的表现，并使基于样本红外图像生成的预测RGB图像的表现接近样本RGB图像的表现。这种训练方式可以使得风格迁移网络学习一种针对RGB图像和红外图像的具有共性的隐式表达，使得无论输入RGB图像还是红外图像，风格迁移网络都可以基于其预测获得所需的另一种图像。

图3示出了根据本申请一个实施例的风格迁移网络的示意图。如图3所示，风格迁移网络可以包括编码模块、特征合并模块和解码模块。

首先，可以将样本RGB图像x₁输入编码模块E₁，通过编码模块E₁的第一编码操作可以获得第一编码特征。同理，可以将第一样本红外图像x₂输入编码模块E₂。通过编码模块E₂的第二编码操作可以获得第二编码特征。将第一编码特征和第二编码特征输入特征合并模块，可以将两个特征进行合并，进而获得合并特征z。特征合并可以是将两个特征的通道合并在一起。将合并特征输入解码模块G₁，经过第一解码操作可以获得第一预测RGB图像

和第二预测RGB图像

将合并特征输入解码模块G₂，经过第二解码操作可以获得获得第一预测红外图像

和第二预测红外图像

随后，可以将第一预测RGB图像和第二预测RGB图像分别输入第一判别器D₁，并将第一预测红外图像和第二预测红外图像分别输入第二判别器D₂，获得各自对应的第一判别结果R₁、第二判别结果R₂、第三判别结果R₃和第四判别结果R₄，并计算损失进行优化。

根据上述技术方案，样本RGB图像和第一样本红外图像输入到风格迁移网络后可以通过编码和合并，获得能够用于同时表示RGB图像和红外图像的共享特征空间，方便实现RGB图像和红外图像彼此之间的风格迁移。

如上所述，目标深度估计模型可以直接或间接地利用合成红外训练数据训练获得。在训练之前，目标深度估计模型具有初始参数(包括权重和偏置等)，通过对目标深度估计模型进行训练，可以优化模型中的参数。

在一个示例中，目标深度估计模型可以采用传统的模型训练方式(称为第一训练操作)训练，训练获得的深度估计模型就可以直接用于深度估计，例如将其当作目标深度估计模型执行上述步骤S220。目标深度估计模型可以采用包含上述合成红外图像的合成红外数据集进行训练，并应用于任意待处理红外图像的深度估计。这种训练方式简单方便，效率比较高。

在一个示例中，目标深度估计模型可以采用无监督域迁移算法进行训练。域可以理解为采集环境。采集环境可以包括以下环境信息中的一种或多种：采集用的图像采集装置；采集所针对的场景；采集时间等。可以根据需要定义一种或多种预定环境信息，当这些预定环境信息存在不同时，即认为采集环境不同。不同的域对应着不同的采集环境，也对应着不同的数据集。在基于某一采集环境下的数据集(例如由摄像头A采集的红外图像)训练好某一深度估计模型之后，如果将其直接应用于针对另一采集环境下的待处理红外图像(例如由摄像头B采集的红外图像)的深度估计，容易造成性能降低。合成红外数据集可以视为一个域，某一真实采集环境(目标采集环境)下的红外图像可以视为另一个域，这样，在基于合成红外数据集训练好某一深度估计模型(本文称为待迁移深度估计模型)之后，如果将其直接用作目标深度估计模型进行真实采集场景下的深度估计，也会造成性能降低。为了解决这一问题，本申请实施例提供一种自适应更新模型参数的域迁移算法，其能够在面对不同采集环境的情况下都实现准确的红外深度估计效果。采用无监督域迁移算法训练的深度估计模型即为目标深度估计模型。具体地，可以将任意红外图像(例如上述合成红外图像)作为第二样本红外图像，将目标采集环境下的真实红外图像作为第三样本图像，进行下述的第二训练操作，以便提高目标深度估计模型在真实红外图像上的预测性能。在将合成红外图像作为第二样本红外图像的情况下，第二样本红外图像与第一训练操作中所采用的合成红外图像可以相同，也可以不同。此外，第二样本红外图像和第三样本红外图像可以包含同一目标场景，也可以包含不同的目标场景。也就是说，第二样本红外图像和第三样本红外图像所包含的图像内容可以一致，也可以不一致。上述训练方式能够自适应更新深度估计模型的参数，使其能够在针对不同采集环境的情况下都可以实现较好的红外图像的深度估计效果。

下面描述目标深度估计模型的第一训练操作和第二训练操作的示例性实现方式。

第一训练操作可以包括：获取合成红外图像和标注深度信息；将合成红外图像输入目标深度估计模型，获得对应的第一预测估计结果，第一预测估计结果是与合成红外图像中的每个像素的深度相关的信息；基于第一预测估计结果，确定合成红外图像所对应的第一预测深度信息；基于标注深度信息和第一预测深度信息计算第二预测损失；基于第二预测损失对目标深度估计模型中的参数进行优化。

示例性地，将合成红外图像输入目标深度估计模型所获得的第一预测估计结果可以是合成红外图像所对应的深度信息或视差信息。深度信息和视差信息的含义已在上文描述，此处不赘述。

示例性地，对于第一预测估计结果是合成红外图像所对应的深度信息的情况，可以将该第一预测估计结果直接作为合成红外图像所对应的第一预测深度信息。对于第一预测估计结果是合成红外图像所对应的视差信息的情况，可以对各个视差值取倒数。取倒数后所获得的结果可以作为合成红外图像所对应的第一预测深度信息。

可以基于标注深度信息和第一预测深度信息计算第一预测损失。示例性地，可以将标注深度信息作为目标值，将第一预测深度信息作为预测值，将二者代入目标损失函数内计算损失值，将获得的损失值作为第一预测损失。目标损失函数可以根据需要设定为任意合适类型的损失函数，例如常规单目深度估计算法中采用的损失函数。示例性地，基于第一预测损失，通过反向传播与梯度下降算法可以对目标深度估计模型中的全部或部分参数进行优化。上述优化可以迭代进行，直至目标深度估计模型的损失收敛为止。本领域技术人员可以理解损失收敛的含义，本文不赘述。

在一个示例中，目标深度估计模型是U-Net。在获取包含一个或多个合成红外图像的数据集后，U-Net可根据该数据集进行训练。U-Net的编码器以合成红外图像为输入，提取特征生成低维图像编码，再通过解码器对图像编码不断上采样生成预测视差图像(即第一预测估计结果)，其中解码器的最后一层为Sigmoid函数，使得输出视差值位于0至1的区间内且不能为0。对于预测视差图像的每个像素，取像素值的倒数获得预测的深度值，从而获得预测深度图像(即第一预测深度信息)，用于对U-Net进行优化。由于目标深度估计模型的输入为单目图像而缺少尺度信息，可以以SILog函数作为尺度无关损失函数来计算标注深度信息和第一预测深度信息的误差，其中SILog函数的计算方法如公式：

其中，

为第一预测深度信息中与第i个像素相对应的深度值，

为标注深度信息中与第i个像素相对应的深度值，n是合成红外图像中像素的总数目。

第二训练操作可以包括：获取第二样本红外图像和第三样本红外图像；利用待迁移深度估计模型的权重对目标深度估计模型的权重进行初始化，其中，待迁移深度估计模型和目标深度估计模型的网络结构相同，待迁移深度估计模型基于合成红外训练数据进行训练获得；将第二样本红外图像输入待迁移深度估计模型，获得对应的第二预测估计结果，第二预测估计结果是与第二样本红外图像中的每个像素的深度相关的信息；基于第二预测估计结果，确定第二样本红外图像所对应的第二预测深度信息；将第三样本红外图像输入目标深度估计模型，获得对应的第三预测估计结果，第三预测估计结果是与第三样本红外图像中的每个像素的深度相关的信息；基于第三预测估计结果，确定第三样本红外图像所对应的第三预测深度信息；将第二预测深度信息作为正样本输入第二判别网络，获得第五判别结果；将第三预测深度信息作为负样本输入第二判别网络，获得第六判别结果；至少基于第五判别结果和第六判别结果，计算第三预测损失；基于第三预测损失对目标深度估计模型和第二判别网络进行对抗训练。

在一个示例中，获取第二样本红外图像和/或第三样本红外图像的方式与步骤S210类似，前文已经做了详细的描述，为了简洁，在此不再赘述。在另一个示例中，第二样本红外图像和/或第三样本红外图像可以是基于RGB图像生成的合成红外图像，生成方式可以参考上文描述。

示例性地，可以将待迁移深度估计模型的权重赋值到目标深度估计模型的对应位置，以对目标深度估计模型的权重进行初始化。

第二预测估计结果和第三预测估计结果与上述第一预测估计结果的含义、表现形式以及获得方式类似，第二预测深度信息和第三预测深度信息与上述第一预测深度信息的含义、表现形式以及获得方式类似，前文已经进行了详细描述，为了简洁，在此不再赘述。

第二训练操作是一种GAN训练方式，目标深度估计模型可以视作GAN中的生成器G，第二判别网络可以视作GAN中的判别器D。通过待迁移深度估计模型预测获得的第二预测深度信息作为正样本，而通过目标深度估计模型预测获得的第三预测深度信息作为负样本。对于正样本，第二判别网络需要将其尽量判别为真，而对于负样本，第二判别网络需要将其尽量判别为假。目标深度估计模型作为生成器G，则需要使其对应的负样本尽量被判别为真，即使得第三预测深度信息尽量被判别为真。通过目标深度估计模型和第二判别网络之间的对抗训练，可以使得目标深度估计模型在新域(例如真实红外图像)上的预测性能接近待迁移深度估计模型在初始域(例如合成红外图像)上的表现。

第二判别网络可以采用单个判别器实现，也可以采用多个判别器实现。示例性地，第二判别网络可以包括第三判别器。第三判别器可以用于判断第二预测深度信息和第三预测深度信息的真假。示例性地，第二判别网络还可以包括第四判别器。第四判别器可以用于判断下述第一红外特征和第二红外特征的真假。示例性地，第五判别结果和第六判别结果可以分别用0～1之间的数值表示。

在一个示例中，可以仅基于第五判别结果和第六判别结果计算第三预测损失。例如，可以将第五判别结果和第六判别结果代入GAN的最大最小损失函数中进行计算，获得第三预测损失。在另一个示例中，可以进一步基于其他信息与第五判别结果和第六判别结果结合来确定第三预测损失。这种结合方式的一种示例性方案可以参见下文描述。

基于第三预测损失，可以对目标深度估计模型和第二判别网络进行对抗训练。对抗训练中，可以通过反向传播与梯度下降算法对目标深度估计模型中的参数和第二判别网络中的参数进行优化。其中，优化可以是针对目标深度估计模型中的全部或部分参数进行优化。

示例性地，待迁移深度估计模型和目标深度估计模型各自包括依次连接的特征提取模块和深度预测模块，将第二样本红外图像输入待迁移深度估计模型，获得对应的第二预测估计结果可以包括：将第二样本红外图像输入待迁移深度估计模型，获得待迁移深度估计模型的特征提取模块输出的第一红外特征以及待迁移深度估计模型的深度预测模块输出的第二预测估计结果；将第三样本红外图像输入目标深度估计模型，获得对应的第三预测估计结果可以包括：将第三样本红外图像输入目标深度估计模型，获得目标深度估计模型的特征提取模块输出的第二红外特征以及目标深度估计模型的深度预测模块输出的第三预测估计结果；在至少基于第五判别结果和第六判别结果，计算第三预测损失之前，第二训练操作还可以包括：将第一红外特征作为正样本输入第二判别网络，获得第七判别结果；将第二红外特征作为负样本输入第二判别网络，获得第八判别结果；至少基于第五判别结果和第六判别结果，计算第三预测损失包括：基于第五判别结果、第六判别结果、第七判别结果和第八判别结果计算第三预测损失；其中，在基于第三预测损失对目标深度估计模型和第二判别网络进行对抗训练的过程中，对目标深度估计模型中的目标参数进行优化，并且目标深度估计模型中除目标参数以外的剩余参数固定，目标参数是目标深度估计模型的特征提取模块中的至少部分参数。

图4示出了根据本申请一个实施例的目标深度估计模型的训练示意图。如图4所示，待迁移深度估计模型可以包括特征提取模块M_s和深度预测模块T，目标深度估计模型可以包括特征提取模块M_t和深度预测模块T。待迁移深度估计模型的特征提取模块M_s和目标深度估计模型的特征提取模块M_t中均可以包括卷积层Conv、池化层Pool以及多个残差模块Res-2block、Res-3block、Res-4block和Res-5block。待迁移深度估计模型的特征提取模块M_s和目标深度估计模型的特征提取模块M_t的网络结构是相同的，只是其中的参数大小可能不同。在目标深度估计模型训练前，可以将特征提取模块M_s的参数赋值给特征提取模块M_t。可选地，待迁移深度估计模型的深度预测模块和目标深度估计模型的深度预测模块可以是完全相同的深度预测模块T，即二者共享参数。示例性地，深度预测模块T可以包括卷积层Conv、上映射层Up-project layers等。需注意，图4所示的待迁移深度估计模型和目标深度估计模型的具体网络结构均是示例而非对本申请的限制，例如待迁移深度估计模型和目标深度估计模型中包含的卷积层、池化层、残差模块的数目均可以是任意的，层与模块的排列次序也可以是任意的，并且可以可选地包含其他网络层。

在一个实施例中，可以将第二样本红外图像X_s输入待迁移深度估计模型M_s，获得待迁移深度估计模型的特征提取模块M_s输出的第一红外特征L_s(即中间特征)以及深度预测模块T输出的第二预测估计结果，基于第二预测估计结果可以确定第二预测深度信息。第一红外特征L_s可以是任意类型的特征，其可以根据深度估计模型的设计而定。例如，如果第二样本红外图像是建筑图像，第一红外特征L_s可以是建筑的边缘轮廓特征。

同理地，将第三样本红外图像X_t输入目标深度估计模型，可以获得目标深度估计模型的特征提取模块M_t输出的第二红外特征L_t(即中间特征)以及深度预测模块T输出的第三预测估计结果，基于第三预测估计结果可以确定第三预测深度信息。第二红外特征L_t可以是与第一红外特征L_s类型一致的特征。

基于第二预测信息和第三预测信息可以一一对应地计算第五判别结果R₅和第六判别结果R₆，这可以参考上文描述理解。此外，针对目标深度估计模型的训练还可以包括以下步骤。将第一红外特征L_s和第二红外特征L_t分别输入第四判别器，获得第七判别结果R₇和第八判别结果R₈。第七判别结果和第八判别结果也可以用0～1之间的数值表示。可以将第五判别结果、第六判别结果、第七判别结果和第八判别结果代入GAN的最大最小损失函数中进行计算，获得第三预测损失。基于第三预测损失，可以进行对抗训练。对抗训练过程中，可以通过反向传播与梯度下降算法，对目标深度估计模型的特征提取模块M_t中的全部或部分参数进行优化。如果是针对目标深度估计模型的特征提取模块M_t中的部分参数进行优化，那其余参数固定不变。在一个示例中，可以将深度预测模块T的参数固定，针对目标深度估计模型中的特征提取模块M_t中的全部参数进行优化。在另一个示例中，可以将深度预测模块T以及特征提取模块M_t中的部分模块中的参数固定，针对目标深度估计模型中的剩余参数进行优化。上述特征提取模块M_t中的部分模块可以是特征提取模块M_t中的最深层模块，例如Res-5block。可以理解，特征提取模块M_t中，沿数据传输方向，越靠前的模块越浅层，越靠后的模块越深层。考虑到深层的特征一般是与任务相关的(task-specific)，且迁移性更低，因此可以使用最深层的模块来进行Ms分支和Mt分支的输出对齐。

根据上述技术方案，通过第五判别结果、第六判别结果、第七判别结果和第八判别结果计算第三预测损失，进而更新目标深度估计模型中的目标参数。这样可以综合多个判别结果计算预测损失，该损失计算更精确。基于该预测损失对目标深度估计模型进行优化，可以提高目标深度估计模型的性能。

在一个示例中，在计算第二预测损失时，可以针对图像上的所有像素统一采用相同的损失函数进行损失计算。在另一个示例中，在计算第二预测损失时，可以对图像划分有效区域和无效区域，针对两种区域分别采用不同的损失函数进行损失计算。

例如，可以将合成红外图像输入图像分割网络进而获得图像分割结果。图像分割网络可以是任意的能够实现图像分割的网络，例如U-Net网络、基于编码器-解码器的息肉分割网络(HarDNet-MSEG)等。针对合成红外图像，可以根据需求确定有效区域和无效区域。对于区域的划分可以是任意的。例如，一张风景图像中，可以将天空区域确定为无效区域，除天空区域之外的区域确定为有效区域。基于图像分割结果，可以确定合成红外图像的有效区域和无效区域。

基于前文所获取的标注深度信息，将标注深度信息中与有效区域对应的像素的深度值确定为目标值。基于前文所获取的第一预测深度信息，将第一预测深度信息中与有效区域对应的像素的深度值确定为预测值。示例性而非限制性地，根据目标值和预测值，可以通过上述SILog函数：

计算第一损失。其中，

为第一预测深度信息中与有效区域中的第i个像素相对应的深度值，

为标注深度信息中与有效区域中的第i个像素相对应的深度值，n是有效区域中像素的总数目。

对于无效区域中的任一个像素，可以将特定深度值确定为目标值。例如，可以将视差值等于0所对应的深度值作为目标值。将第一预测深度信息中与无效区域中的像素对应的深度值作为预测值。示例性而非限制性地，根据无效区域所对应的预测值和目标值，可以通过L1Loss损失函数：

计算第二损失。其中，y_i表示与无效区域中的第i个像素相对应的深度值，y_i等于特定深度值，

表示第一预测深度信息中与无效区域中的第i个像素相对应的深度值，n是无效区域中像素的总数目。示例性地，可以通过对第一损失和第二损失进行加权求和的方式计算第二预测损失。

根据上述技术方案，可以对合成红外图像进行图像分割进而获得合成红外图像中的有效区域和无效区域。主要针对有效区域对目标深度估计模型进行训练，而通过将特定深度值设定为所对应的视差值为0的方式控制无效区域尽量不参与目标深度估计模型的训练。这样可以减少目标深度估计模型的训练量，提高目标深度估计模型的训练效率，并且可以提高目标深度估计模型的预测性能。

示例性地，方法200还可以包括：获取待处理RGB图像，待处理RGB图像和待处理红外图像针对同一目标场景采集；将待处理RGB图像与待处理红外图像进行空间对齐；将对齐后的待处理RGB图像转换为红外图像，获得转换红外图像；将转换红外图像或新红外图像输入目标深度估计模型，获得对应的第二深度估计结果，其中，新红外图像基于转换红外图像生成，第二深度估计结果是与待处理RGB图像中的每个像素的深度相关的信息；基于第二深度估计结果，确定待处理RGB图像所对应的第二深度信息；将第一深度信息与第二深度信息按像素进行融合，获得第一综合深度信息。

示例性地，待处理RGB图像的获取方式与步骤S210中待处理红外图像的获取方式类似，前文已经做了详细描述，为了简洁，在此不再赘述。此外，待处理RGB图像和待处理红外图像为在同一目标场景下采集获得的。同时，待处理RGB图像和待处理红外图像的大小一致。如果目标场景是静态场景，那采集两种图像时可以同时采集，也可以在一定的时间间隔内采集。如果目标场景是动态场景，那采集两种图像最好可以同时采集。

获取待处理RGB图像与待处理红外图像之后，可以可选地将二者进行空间对齐。由于RGB摄像头和红外摄像头的布置位置有所差异，且由于待处理RGB图像与待处理红外图像可能不是完全同时采集，因此待处理RGB图像与待处理红外图像所包含的图像信息在空间上可能未对齐。因此，可以将获取的待处理RGB图像和待处理红外图像进行空间对齐。也就是说，使待处理RGB图像和待处理红外图像同一位置的像素所对应的内容相同。

随后，可以将对齐后的待处理RGB图像转换为红外图像，获得转换红外图像。示例性地，可以利用前文所述的风格迁移网络将对齐后的待处理RGB图像转换为红外图像，进而获得转换红外图像。

在一个示例中，可以直接将转换红外图像输入目标深度估计模型获得第二深度估计结果。在另一个示例中，可以先对转换红外图像进行一定处理获得新红外图像，将新红外图像输入目标深度估计模型获得第二深度估计结果。示例性地，可以对转换红外图像进行水平翻转(flip)，进而获得新红外图像。需注意的是，如果对转换红外图像进行了水平翻转，后续对深度信息也需要相应地翻转回来。对转换红外图像进行翻转处理，这有助于提升深度估计方法的鲁棒性。

与第一深度估计结果类似地，第二深度估计结果可以是深度信息或视差信息。基于第一深度估计结果确定第一深度信息的方式与上述基于第二深度估计结果确定第二深度信息的方式类似，不再赘述。

示例性地，可以将第一深度信息与第二深度信息按像素进行融合，例如将第一深度信息与第二深度信息对应的同一像素处的深度值进行加权平均，获得第一综合深度信息。可以将第一综合深度信息确定为目标场景的深度信息。

根据上述技术方案，将与待处理红外图像同一场景下采集的待处理RGB图像转换为红外图像，并利用目标深度估计模型对转换红外图像或新红外图像进行处理获得第二深度估计结果。随后，将根据第二深度估计结果获取的第二深度信息和第一深度信息融合获得第一综合深度信息。与单模态预测相比，这种多模态融合方案预测获得的深度信息更加准确。即，这种多模态融合方案能够提升深度估计方法的鲁棒性。

在一个实施例中，针对所获取的待处理红外图像，可以从中提取一个或多个图像块。每个图像块的形状及大小可以是任意的。优选地，图像块的形状可以是矩形。在待处理红外图像中，不同图像块可以与不同尺度相对应，且每个图像块可以包含该待处理红外图像的中心点在内。例如，对于每个图像块，其可以是以待处理红外图像的中心点为中心的矩形图像区域。任意两个不同的图像块可以是宽度不同和/或高度不同的图像区域。

对于一个或多个图像块中的每个图像块，可以将该图像块输入前文所述的目标深度估计模型，进而可以获得该图像块所对应的子深度估计结果。基于子深度估计结果，可以利用与步骤S230类似的方式，确定该图像块所对应的子深度信息。随后，可以将一个或多个图像块所对应的子深度信息与第一深度信息按像素进行融合，例如将一个或多个图像块所对应的子深度信息与第一深度信息中对应的同一像素处的深度值进行加权平均。加权平均后所获得的结果可以作为第二综合深度信息。第二综合深度信息可以作为目标场景的深度信息。

对于诸如自动驾驶的任务来说，与图像上的其他区域相比，图像的中心区域处的深度信息的准确性会更重要。根据上述技术方案，针对待处理红外图像的中心区域提取一个或多个图像块并计算其子深度估计结果。基于子深度估计结果，获得对应的子深度信息并将其与第一深度信息融合获得第二综合深度信息。这种方案属于多尺度融合方案，其可以提高对待处理图像的中心区域处的深度信息的预测准确性，能更好地适用于诸如自动驾驶的领域。

上述多尺度融合与多模态融合可以择一实现，也可以在同一实施例中实现。例如，一个或多个图像块所对应的子深度信息、第一深度信息和第二深度信息可以融合在一起，获得第三综合深度信息作为目标场景的深度信息。

上文主要以U-Net网络模型为例描述本文的深度估计模型，然而，如上所述，深度估计模型也可以实现为NeW CRFs。Transformer结构在全局特征的提取上具有较大的优势，使用NeW CRFs网络可以提升深度估计模型的特征提取能力与深度预测的细粒度，其中条件随机场(CRF)可以通过对网络预测的粗略深度图像进行后处理来提升深度图像的细节丰富度。

示例性地，考虑到在一次训练所选取的样本数(Batchsize)较小时，目标深度估计模型的训练，尤其是Transformer模型的训练存在不稳定情况，因此，可以增加梯度***(Gradient Clip)操作，用以提升目标深度估计模型训练的稳定性。此外，还可以利用指数移动平均(Exponential Moving Average)方法对模型权重进行滑动平均操作，进而避免小批梯度下降(Mini-batch Gradient Decent)对目标深度估计模型参数的更新所带来的抖动，可以提升训练好的目标深度估计模型在应用场景下的泛化性。

示例性地，对于目标深度估计模型，可以采用基于浮点自蒸馏的低比特量化模型的量化感知训练(Quantification Aware Training，QAT)方法进行训练。例如，可以进行4比特权重4比特特征(4weight4feature)的低比特模型训练，使用浮点的目标深度估计模型进行蒸馏训练来提升目标深度估计模型的精度。测试阶段则可以使用低比特的目标深度估计模型进行部署，以优化模型的运行效率。

根据本申请另一方面，提供一种基于红外图像的深度估计装置。图5示出了根据本申请一个实施例的基于红外图像的深度估计装置500的示意性框图。

如图5所示，根据本申请实施例的基于红外图像的深度估计装置500包括获取模块510、输入模块520和确定模块530。各个模块可分别执行上文中图2描述的基于红外图像的深度估计方法的各个步骤。以下仅对该基于红外图像的深度估计装置500的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块510用于获取待处理红外图像。获取模块510可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

输入模块520用于将待处理红外图像输入目标深度估计模型，获得对应的第一深度估计结果，第一深度估计结果是与待处理红外图像中的每个像素的深度相关的信息，其中，目标深度估计模型利用合成红外训练数据训练获得，合成红外训练数据包括合成红外图像和标注深度信息，合成红外图像基于标注RGB图像生成，标注深度信息是标注RGB图像所对应的深度信息。输入模块520可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

确定模块530用于将第一深度估计结果确定为待处理红外图像所对应的第一深度信息，或者，基于第一深度估计结果，确定第一深度信息。确定模块530可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

图6示出了根据本申请一个实施例的电子设备600的示意性框图。电子设备600包括存储器610和处理器620。

存储器610存储用于实现根据本申请实施例的基于红外图像的深度估计方法200中的相应步骤的计算机程序指令。

处理器620用于运行存储器610中存储的计算机程序指令，以执行根据本申请实施例的基于红外图像的深度估计方法200的相应步骤。

示例性地，电子设备600还可以包括图像采集装置630。图像采集装置630用于采集待处理红外图像。图像采集装置630是可选的，电子设备600也可以不包括图像采集装置630。此时处理器620可以通过其他方式获取待处理红外图像，例如从外部设备或从存储器610中获取待处理红外图像。

此外，根据本申请实施例，还提供了一种存储介质，在存储介质上存储了程序指令，在程序指令被计算机或处理器运行时用于执行本申请实施例的基于红外图像的深度估计方法200的相应步骤，并且用于实现根据本申请实施例的基于红外图像的深度估计装置500中的相应模块。存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本申请实施例的基于红外图像的深度估计装置的各个功能模块，并和/或者可以执行根据本申请实施例的基于红外图像的深度估计方法。

此外，根据本申请实施例，还提供了一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序在运行时用于执行上述基于红外图像的深度估计方法200。

根据本申请实施例的电子设备中的各模块可以通过根据本申请实施例的实施基于红外图像的深度估计的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本申请实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

此外，根据本申请实施例，还提供了一种计算机程序，该计算机程序在运行时用于执行上述基于红外图像的深度估计方法200。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定测试和设计约束条件。专业技术人员可以对每个特定的测试来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个申请方面中的一个或多个，在对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本申请的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的基于红外图像的深度估计装置中的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上，仅为本申请的具体实施方式或对具体实施方式的说明，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于红外图像的深度估计方法，包括：

获取待处理红外图像；

将所述待处理红外图像输入目标深度估计模型，获得对应的第一深度估计结果，所述第一深度估计结果是与所述待处理红外图像中的每个像素的深度相关的信息；

将所述第一深度估计结果确定为所述待处理红外图像所对应的第一深度信息，或者，基于所述第一深度估计结果，确定所述第一深度信息；

其中，所述目标深度估计模型利用合成红外训练数据训练获得，所述合成红外训练数据包括合成红外图像和标注深度信息，所述合成红外图像基于标注RGB图像生成，所述标注深度信息是所述标注RGB图像所对应的深度信息。

2.如权利要求1所述的方法，其中，所述合成红外图像通过以下方式生成：

获取所述标注RGB图像；

将所述标注RGB图像输入风格迁移网络，获得所述合成红外图像。

3.如权利要求2所述的方法，其中，所述风格迁移网络通过以下方式训练获得：

将样本RGB图像和第一样本红外图像输入所述风格迁移网络，获得与所述样本RGB图像相对应的第一预测RGB图像和第一预测红外图像以及与所述第一样本红外图像相对应的第二预测RGB图像和第二预测红外图像；

将所述第一预测RGB图像作为正样本输入第一判别网络，获得第一判别结果；

将所述第二预测RGB图像作为负样本输入所述第一判别网络，获得第二判别结果；

将所述第一预测红外图像作为负样本输入所述第一判别网络，获得第三判别结果；

将所述第二预测红外图像作为正样本输入所述第一判别网络，获得第四判别结果；

基于所述第一判别结果、所述第二判别结果、所述第三判别结果和所述第四判别结果，计算第一预测损失；

基于所述第一预测损失对所述风格迁移网络和所述第一判别网络进行对抗训练。

4.如权利要求3所述的方法，其中，所述将样本RGB图像和第一样本红外图像输入所述风格迁移网络，获得与所述样本RGB图像相对应的第一预测RGB图像和第一预测红外图像以及与所述第一样本红外图像相对应的第二预测RGB图像和第二预测红外图像，包括：

通过所述风格迁移网络执行以下操作：

对所述样本RGB图像进行第一编码操作，获得第一编码特征；

对所述第一样本红外图像进行第二编码操作，获得第二编码特征；

将所述第一编码特征和所述第二编码特征合并在一起，获得合并特征；

对所述合并特征进行第一解码操作，获得所述第一预测RGB图像和所述第二预测RGB图像；

对所述合并特征进行第二解码操作，获得所述第一预测红外图像和所述第二预测红外图像。

5.如权利要求1-4任一项所述的方法，其中，

所述目标深度估计模型通过以下第一训练操作训练获得：

获取所述合成红外图像和所述标注深度信息；

将所述合成红外图像输入所述目标深度估计模型，获得对应的第一预测估计结果，所述第一预测估计结果是与所述合成红外图像中的每个像素的深度相关的信息；

基于所述第一预测估计结果，确定所述合成红外图像所对应的第一预测深度信息；

基于所述标注深度信息和所述第一预测深度信息计算第二预测损失；

基于所述第二预测损失对所述目标深度估计模型中的参数进行优化；

或者，

所述目标深度估计模型通过以下第二训练操作训练获得：

获取第二样本红外图像和第三样本红外图像；

利用待迁移深度估计模型的权重对所述目标深度估计模型的权重进行初始化，其中，所述待迁移深度估计模型和所述目标深度估计模型的网络结构相同，所述待迁移深度估计模型基于所述合成红外训练数据进行训练获得；

将所述第二样本红外图像输入所述待迁移深度估计模型，获得对应的第二预测估计结果，所述第二预测估计结果是与所述第二样本红外图像中的每个像素的深度相关的信息；

基于所述第二预测估计结果，确定所述第二样本红外图像所对应的第二预测深度信息；

将所述第三样本红外图像输入所述目标深度估计模型，获得对应的第三预测估计结果，所述第三预测估计结果是与所述第三样本红外图像中的每个像素的深度相关的信息；

基于所述第三预测估计结果，确定所述第三样本红外图像所对应的第三预测深度信息；

将所述第二预测深度信息作为正样本输入第二判别网络，获得第五判别结果；

将所述第三预测深度信息作为负样本输入所述第二判别网络，获得第六判别结果；

至少基于所述第五判别结果和所述第六判别结果，计算第三预测损失；

基于所述第三预测损失对所述目标深度估计模型和所述第二判别网络进行对抗训练。

6.如权利要求5所述的方法，其中，所述待迁移深度估计模型和所述目标深度估计模型各自包括依次连接的特征提取模块和深度预测模块，

所述将所述第二样本红外图像输入所述待迁移深度估计模型，获得对应的第二预测估计结果包括：

将所述第二样本红外图像输入所述待迁移深度估计模型，获得所述待迁移深度估计模型的特征提取模块输出的第一红外特征以及所述待迁移深度估计模型的深度预测模块输出的所述第二预测估计结果；

所述将所述第三样本红外图像输入所述目标深度估计模型，获得对应的第三预测估计结果包括：

将所述第三样本红外图像输入所述目标深度估计模型，获得所述目标深度估计模型的特征提取模块输出的第二红外特征以及所述目标深度估计模型的深度预测模块输出的所述第三预测估计结果；

在所述至少基于所述第五判别结果和所述第六判别结果，计算第三预测损失之前，所述第二训练操作还包括：

将所述第一红外特征作为正样本输入所述第二判别网络，获得第七判别结果；

将所述第二红外特征作为负样本输入所述第二判别网络，获得第八判别结果；

所述至少基于所述第五判别结果和所述第六判别结果，计算第三预测损失包括：

基于所述第五判别结果、所述第六判别结果、所述第七判别结果和所述第八判别结果计算所述第三预测损失；

其中，在所述基于所述第三预测损失对所述目标深度估计模型和所述第二判别网络进行对抗训练的过程中，对所述目标深度估计模型中的目标参数进行优化，并且所述目标深度估计模型中除所述目标参数以外的剩余参数固定，所述目标参数是所述目标深度估计模型的特征提取模块中的至少部分参数。

7.如权利要求5所述的方法，其中，

在所述基于所述标注深度信息和所述第一预测深度信息计算第二预测损失之前，所述第一训练操作还包括：

将所述合成红外图像输入图像分割网络，获得图像分割结果；

基于所述图像分割结果确定有效区域和无效区域；

所述基于所述标注深度信息和所述第一预测深度信息计算第二预测损失包括：

对于所述有效区域中的任一像素，将所述标注深度信息中与该像素对应的深度值作为目标值，将所述第一预测深度信息中与该像素相对应的深度值作为预测值，计算第一损失；

对于所述无效区域中的任一像素，将特定深度值作为目标值，将所述第一预测深度信息中与该像素相对应的深度值作为预测值，计算第二损失，其中，所述特定深度值所对应的视差值为0；

基于所述第一损失和所述第二损失计算所述第二预测损失。

8.如权利要求1-4任一项所述的方法，其中，所述方法还包括：

获取待处理RGB图像，所述待处理RGB图像和所述待处理红外图像针对同一目标场景采集；

将所述待处理RGB图像与所述待处理红外图像进行空间对齐；

将对齐后的待处理RGB图像转换为红外图像，获得转换红外图像；

将转换红外图像或新红外图像输入所述目标深度估计模型，获得对应的第二深度估计结果，其中，所述新红外图像基于所述转换红外图像生成，所述第二深度估计结果是与所述待处理RGB图像中的每个像素的深度相关的信息；

基于所述第二深度估计结果，确定所述待处理RGB图像所对应的第二深度信息；

将所述第一深度信息与所述第二深度信息按像素进行融合，获得第一综合深度信息。

9.如权利要求1-4任一项所述的方法，其中，所述方法还包括：

从所述待处理红外图像中提取一个或多个图像块，所述一个或多个图像块与一种或多种不同尺度一一对应，每个图像块包含所述待处理红外图像的中心点；

对于所述一个或多个图像块中的每个图像块，

将该图像块输入所述目标深度估计模型，获得对应的子深度估计结果，所述子深度估计结果是与该图像块中的每个像素的深度相关的信息；

基于所述子深度估计结果确定该子图块所对应的子深度信息；

将所述第一深度信息与所述一个或多个图像块所对应的子深度信息按像素进行融合，获得第二综合深度信息。

10.一种电子设备，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至9任一项所述的基于红外图像的深度估计方法。

11.一种存储介质，在所述存储介质上存储了程序指令，其中，所述程序指令在运行时用于执行如权利要求1至9任一项所述的基于红外图像的深度估计方法。

12.一种计算机程序产品，所述计算机程序产品包括计算机程序，其中，所述计算机程序在运行时用于执行如权利要求1至9任一项所述的基于红外图像的深度估计方法。