CN113743517A

CN113743517A - 模型训练方法、图像深度预测方法及装置、设备、介质

Info

Publication number: CN113743517A
Application number: CN202111052247.4A
Authority: CN
Inventors: 尹康
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-03

Abstract

本公开实施例是关于一种模型训练方法、图像深度预测方法及装置、电子设备、存储介质，涉及计算机技术领域，该模型训练方法包括：获取参考图像对应的训练标签，并获取所述参考图像的辅助信息；利用辅助编码器对所述参考图像以及所述辅助信息进行特征提取确定辅助预测结果，并基于实际编码器对所述参考图像进行特征提取确定实际预测结果；根据所述辅助预测结果、所述实际预测结果以及所述训练标签对所述辅助编码器以及所述实际编码器进行交替训练，并对解码器进行训练获取深度估计模型。本公开的技术方案能够提高模型训练效率。

Description

模型训练方法、图像深度预测方法及装置、设备、介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种模型训练方法、模型训练装置、图像深度预测方法、图像深度预测装置、电子设备以及计算机可读存储介质。

背景技术

深度估计在自动驾驶、增强现实等领域中均有广泛应用。为了避免使用专业设备采集深度数据的高成本，相关技术中，采用传统方法估计的深度作为卷积神经网络的训练目标来进行深度估计。

上述方式中，由于单目深度估计任务的不稳定性，相关的模型训练过程耗时较长，训练效率较低，并且可能导致训练不收敛。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种模型训练方法、图像深度预测方法及装置、电子设备、存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的模型训练效率较低的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种模型训练方法，包括：获取参考图像对应的训练标签，并获取所述参考图像的辅助信息；利用辅助编码器对所述参考图像以及所述辅助信息进行特征提取确定辅助预测结果，并基于实际编码器对所述参考图像进行特征提取确定实际预测结果；根据所述辅助预测结果、所述实际预测结果以及所述训练标签对所述辅助编码器以及所述实际编码器进行交替训练，并对解码器进行训练获取深度估计模型。

根据本公开的一个方面，提供一种图像深度预测方法，包括：将待处理图像输入至深度估计模型中的实际编码器获取实际特征；根据所述深度估计模型中的解码器对所述实际特征进行解码预测，确定所述待处理图像的预测深度；其中，所述深度估计模型中的实际编码器和所述解码器根据上述任意一项所述的模型训练方法训练得到。

根据本公开的一个方面，提供一种模型训练装置，包括：辅助信息获取模块，用于获取参考图像对应的训练标签，并获取所述参考图像的辅助信息；特征提取模块，用于利用辅助编码器对所述参考图像以及所述辅助信息进行特征提取确定辅助预测结果，并基于实际编码器对所述参考图像进行特征提取确定实际预测结果；交替训练模块，用于根据所述辅助预测结果、所述实际预测结果以及所述训练标签对所述辅助编码器以及所述实际编码器进行交替训练，并对解码器进行训练获取深度估计模型。

根据本公开的一个方面，提供一种图像深度预测装置，包括：特征获取模块，用于将待处理图像输入至深度估计模型中的实际编码器获取实际特征；深度估计模块，用于根据所述深度估计模型中的解码器对所述实际特征进行解码预测，确定所述待处理图像的预测深度；其中，所述深度估计模型中的实际编码器和所述解码器根据上述任意一项所述的模型训练方法训练得到。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的模型训练方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的模型训练方法。

本公开实施例中提供的模型训练方法、模型训练装置、图像深度预测方法、图像深度预测装置、电子设备以及计算机可读存储介质中，一方面，在训练过程中，加入了辅助信息作为引导信息，并根据辅助信息来训练辅助编码器，进而根据辅助编码器引导实训练实际编码器，避免了需要训练技巧的局限性，降低了模型训练的难度，提高了模型训练的稳定性。另一方面，在训练时交替训练辅助编码器和实际编码器，根据与实际编码器结构相似的辅助训练器引导训练实际编码器，促使实际编码器学习到辅助信息的特征提取模式，增强了实际编码器的特征提取能力，提高了实际编码器的训练效率，并且能够保证模型有效收敛，提高模型性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的模型训练方法或图像深度预测方法的应用场景的示意图。

图2示出了适于用来实现本公开实施例的电子设备的结构示意图。

图3示意性示出本公开实施例中一种模型训练方法的示意图。

图4示意性示出本公开实施例中编码器的处理过程的示意图。

图5示意性示出本公开实施例中模型训练的流程示意图。

图6示意性示出本公开实施例中获取深度估计模型的示意图。

图7示意性示出本公开实施例中一种图像深度预测方法的流程示意图。

图8示意性示出本公开实施例中一种模型训练装置的框图。

图9示意性示出本公开实施例中图像深度预测装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

相关技术中，深度估计可以通过以下方法完成：对某一场景或者某一对象拍摄一组照片，选取其中一张为目标帧，其它为参考帧。首先通过相机姿态估计算法从多张照片中还原相机参数，再利用三维重建或者关键点匹配等方法从参考帧信息出推测目标帧的深度谱。该类传统方法的优势是精度较高，但是一般耗时较长，且对拍摄对象、拍摄数量、拍摄设备均有要求，很难通用。

随着以卷积神经网络模型为代表的深度学习类算法的日渐成熟，业界已经有大量的基于卷积神经网络模型的深度估计算法。该类算法一般在输入图像后，利用卷积等操作直接拟合深度值，整体上简单、高效。但是，想要卷积神经网络模型具有较好的性能，必须预先采集大量的训练数据，即已知深度的图像集合。目前，构建该类训练集的方法一般有两类，一是直接使用激光雷达等专用设备同时获取原始图像与对应深度，二是预先用传统方法预测出大量图像的深度值，再让卷积神经网络模型来拟合传统方法的结果。但是，使用专用设备采集深度代价较高，训练深度估计卷积神经网络模型难度也较高。

为了解决上述技术问题，本公开实施例中提供了一种模型训练方法，可以应用于光影效果等需要高精度深度估计的场景。

图1示出了可以应用本公开实施例的模型训练方法及装置或图像深度预测方法及装置的应用场景的示意图。

该模型训练方法可以应用于对图像进行深度估计的模型的训练场景中。参考图1中所示，具体可以应用于使用客户端101对客户端上接收到的目标对象102进行深度估计的过程中。其中，客户端可以是各种类型的具有计算功能的设备，例如可以为智能手机、平板电脑、台式计算机、车载设备、可穿戴设备等等。目标对象102可以为各种场景中的任意类型的图像，可以为拍摄得到的图像，也可以为从网络或者其它终端获取的图像，且对图像的类型不作限定。客户端101可以利用目标图像的深度谱数据作为训练目标，同时在训练过程中加入辅助信息作为引导信息，对实际编码器以及辅助编码器进行交替训练，同时更新解码器的模型参数，提升实际编码器和解码器的训练速度。当客户端101检测到需要进行深度估计的待处理对象103时，可以使用训练好的深度估计模型来确定待处理对象103的深度值。

需要说明的是，本公开实施例所提供的模型训练方法以及图像深度预测方法可以完全由客户端来执行。相应地，模型训练装置和图像深度预测装置可设置于客户端中。

图2示出了适于用来实现本公开示例性实施方式的电子设备的示意图。本公开的第一终端或第二终端可以被配置为如图2所示电子设备的形式，然而，需要说明的是，图2示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本公开的电子设备至少包括处理器和存储器，存储器用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得处理器可以实现本公开示例性实施方式的方法。

具体的，如图2所示，电子设备200可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber IdentificationModule，SIM)卡接口295等。其中传感器模块280可以包括深度传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器及骨传导传感器等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-etwork Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。另外，处理器210中还可以设置存储器，用于存储指令和数据。

USB接口230是符合USB标准规范的接口，具体可以是MiniUSB接口，MicroUSB接口，USBTypeC接口等。USB接口230可以用于连接充电器为电子设备200充电，也可以用于电子设备200与***设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备等。

充电管理模块240用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。电源管理模块241用于连接电池242、充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入，为处理器210、内部存储器221、显示屏290、摄像模组291和无线通信模块260等供电。

电子设备200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。

移动通信模块250可以提供应用在电子设备200上的包括2G/3G/4G/5G等无线通信的解决方案。

无线通信模块260可以提供应用在电子设备200上的包括无线局域网(WirelessLocal Area Networks，WLAN)(如无线保真(Wireless Fidelity，Wi-Fi)网络)、蓝牙(Bluetooth，BT)、全球导航卫星***(Global Navigation Satellite System，GNSS)、调频(Frequency Modulation，FM)、近距离无线通信技术(Near Field Communication，NFC)、红外技术(Infrared，IR)等无线通信的解决方案。

电子设备200通过GPU、显示屏290及应用处理器等实现显示功能。GPU为图像虚化的微处理器，连接显示屏290和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

电子设备200可以通过ISP、摄像模组291、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。在一些实施例中，电子设备200可以包括1个或N个摄像模组291，N为大于1的正整数，若电子设备200包括N个摄像头，N个摄像头中有一个是主摄像头，其他可以为副摄像头，例如长焦摄像头。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。

电子设备200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。

音频模块270用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。在一些实施例中，音频模块270可以设置于处理器210中，或将音频模块270的部分功能模块设置于处理器210中。

扬声器271，用于将音频电信号转换为声音信号。电子设备200可以通过扬声器271收听音乐，或收听免提通话。受话器272，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备200接听电话或语音信息时，可以通过将受话器272靠近人耳接听语音。麦克风273，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风273发声，将声音信号输入到麦克风273。电子设备200可以设置至少一个麦克风273。耳机接口274用于连接有线耳机。

针对电子设备200包括的传感器，深度传感器用于获取景物的深度信息。压力传感器用于感受压力信号，可以将压力信号转换成电信号。陀螺仪传感器可以用于确定电子设备200的运动姿态。气压传感器用于测量气压。磁传感器包括霍尔传感器。电子设备200可以利用磁传感器检测翻盖皮套的开合。加速度传感器可检测电子设备200在各个方向上(一般为三轴)加速度的大小。距离传感器用于测量距离。接近光传感器可以包括例如发光二极管(LED)和光检测器，例如光电二极管。指纹传感器用于采集指纹。温度传感器用于检测温度。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏290提供与触摸操作相关的视觉输出。环境光传感器用于感知环境光亮度。骨传导传感器可以获取振动信号。

按键294包括开机键，音量键等。按键294可以是机械按键。也可以是触摸式按键。马达293可以产生振动提示。马达293可以用于来电振动提示，也可以用于触摸振动反馈。指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口295用于连接SIM卡。电子设备200通过SIM卡和网络交互，实现通话以及数据通信等功能。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

接下来，参考附图对本公开实施例中的模型训练方法进行详细说明。

在步骤S310中，获取参考图像对应的训练标签，并获取所述参考图像的辅助信息。

本公开实施例中，参考图像指的是用于训练模型的图像。训练标签指的是参考图像的真实标签。此处可以通过colmap、MVS、SFM等算法获得训练标签。

为了简化流程，可以在获取视频后抽帧确定目标帧，并估计目标帧深度来获取大量的图像-深度谱对作为训练数据，进一步根据训练数据来确定参考图像的训练标签。需要说明的是，为了提高准确性，采集的视频应当保证画面清晰、黑边较少，具体要求取决于选取的传统算法的适用范围，本公开对此不作限定。

首先可以获取训练数据，并从训练数据中获取参考图像对应的训练标签。训练数据指的是训练集，其中包括多个图像-深度谱数据对。可以从训练集包括的图像-深度谱数据对中选择一对图像-深度谱数据对，具体可以进行随机选择或者是按照选择标准进行选择。选择出来的图像-深度谱数据对可以记作I和D，并且可以对该图像-深度谱数据对进行数据增强处理。具体地，可以通过随机裁剪或随机翻转的方式进行数据增强。通过对图像进行数据增强，能够增加训练的数据量，提高模型的泛化能力；增加噪声数据，提升模型的鲁棒性。训练标签指的是训练过程中需要拟合的标签，具体可以用获取的图像-深度谱数据中的深度谱数据来表示。其中，深度谱数据用于表示图像的深度值。

辅助信息为用于引导模型训练的特征信息。本公开实施例中，训练时可以获取原始图像对应的多个特征信息，将多个特征信息处理为与原始图像相同尺寸的特征谱形式，进而将多个特征信息作为训练引导来训练模型。辅助信息可以包括但不限于光流、分割谱等等。光流指的是画面移动过程中，图像上每个像素在各个方向上的位移量。当辅助信息为光流时，可以根据原始视频中参考图像的相邻帧和参考图像来确定光流。相邻帧可以为参考图像的上一帧或下一帧图像。分割谱经过图像分割方法对图像进行分割而生成，不同图像分割方法得到的分割谱可能不同。

在步骤S320中，利用辅助编码器对所述参考图像以及所述辅助信息进行特征提取确定辅助预测结果，并基于实际编码器对所述参考图像进行特征提取确定实际预测结果。

本公开实施例中，深度估计模型的结构属于常规的编码器-解码器结构。其中，编码器负责从输入的参考图像中提取图像特征，且图像特征可以为特征谱的形式。编码器的结构可以为多个级联的卷积层和下采样层。解码器负责从图像特征中预测深度值，解码器的结构一般是多个级联的卷积层和上采样层。需要说明的是，本公开实施例中的深度估计模型包括两个编码器，即实际编码器和辅助编码器。其中，辅助编码器用于引导训练实际编码器。实际编码器用于对图像进行处理。参考图4中所示，实际编码器即编码器1的结构与常规编码器一致。辅助编码器即编码器2的第一层是级联层，负责接收多个输入并将它们在通道维度上级联，其余部分与常规编码器一致。本公开实施例中，通过对编码器的参数进行设置，使得辅助编码器输出的特征谱的尺寸与实际编码器输出的特征谱的尺寸完全一致。其中，对编码器的参数进行设置指的是将编码器的卷积参数设置为相同参数，使编码器的其他模块的结构和参数相同。具体地，假设两个编码器的第一个计算模块都是卷积层，将它们的参数例如输出通道、卷积核尺寸、卷积步长等设置为相同值，将输入通道数设置为与各自的实际输入相同。例如编码器1的实际输入可能是3，则将编码器1的输入通道数设置为3；编码器2的实际输入可能是10，则将编码器2的输入通道数设置为10。并且保持两个编码器的其它模块的结构和参数完全相同。如此一来，可以使得辅助编码器输出的特征谱的尺寸与实际编码器输出的特征谱的尺寸完全一致。

在上述深度估计模型的结构的基础上，可以将所述参考图像以及所述辅助信息输入至辅助编码器进行特征提取获取辅助特征谱，并对所述辅助特征谱进行解码以进行深度预测得到所述辅助预测结果。参考图4中所示，可以将参考图像以及辅助信息同时输入至辅助编码器进行特征提取，得到辅助特征谱F2。具体地，可以对参考图像以及辅助信息进行级联得到一个级联结果，该级联结果属于参考图像和辅助信息形成的整体，进一步通过辅助编码器对级联结果反复进行卷积以及下采样等操作，以得到辅助特征谱。

进一步地，可以将辅助特征谱输入至解码器，以通过解码器对辅助特征谱进行深度值预测，获取辅助预测深度谱作为辅助预测结果，辅助预测结果可以用P2来表示。

与此同时，参考图4中所示，可以将参考图像输入至实际编码器即编码器1进行特征提取，得到实际特征谱F1。具体地，可以通过实际编码器对参考图像进行卷积处理以及下采样处理，得到实际特征谱F1。进一步地，可以将实际特征谱F1输入至解码器，以通过解码器对实际特征谱进行深度值预测，获取实际预测深度谱作为实际预测结果，实际预测结果可以用P1来表示。需要说明的是，辅助特征谱的尺寸与实际特征谱的尺寸一致。

在步骤S330中，根据所述辅助预测结果、所述实际预测结果以及所述训练标签对所述辅助编码器以及实际编码器进行交替训练，并对解码器进行训练获取深度估计模型。

本公开实施例中，可以根据两个编码器对应的预测结果以及参考图像的训练标签来对两个编码器进行交替训练。交替训练指的是对辅助编码器进行训练，并在辅助编码器的引导作用下对实际编码器进行训练，即结合辅助编码器对应的辅助特征来对实际编码器进行训练。

图5中示意性示出了模型训练的流程图，参考图5中所示，主要包括以下步骤：

在步骤S510中，基于所述辅助预测结果以及训练标签计算辅助损失函数，并通过所述辅助损失函数对所述辅助编码器的模型参数以及所述解码器的模型参数进行调整，以训练所述辅助编码器和所述解码器。

本步骤中，可以按照公式(1)，计算辅助预测结果P2和深度谱数据D之间的对数损失。其中，D代表深度谱数据，P代表辅助预测结果。

loss₁＝||log(D)-log(P)||₂ 公式(1)

辅助损失函数可以为对数L2损失函数。在计算出辅助预测结果P2和深度谱数据D之间的辅助损失函数后，可以根据辅助损失函数来调整辅助编码器的模型参数以及解码器的模型参数。具体可以将辅助损失函数最小作为训练目标，反传辅助损失函数对辅助编码器的模型参数以及解码器的模型参数进行调整，直至达到训练目标时结束辅助编码器的训练过程。在结束训练后，得到训练好的辅助编码器以及参考解码器，该参考解码器可以称为中间解码器，参考解码器的模型参数可以为首次训练参数。

在步骤S520中，结合所述实际预测结果、训练标签以及辅助特征计算实际损失函数，并通过所述实际损失函数对所述实际编码器的模型参数以及所述解码器的模型参数进行调整，以训练所述实际编码器和所述解码器。

本步骤中，实际损失函数可以由实际预测结果、深度谱数据、辅助特征以及实际特征共同决定。具体地，首先根据所述实际预测结果和所述训练标签确定第一损失函数，可以参考公式(1)计算。其中，D代表深度谱数据，P代表实际预测结果。

进一步，可以根据所述辅助特征和所述实际特征计算第二损失函数，例如公式(2)所示。其中，F1表示辅助特征，F2表示实际特征。

loss₂＝||F₁-F₂||₂ 公式(2)

接下来，将所述第一损失函数和所述第二损失函数进行合并，得到所述实际损失函数。具体可以计算第一损失函数和第二损失函数进行加权和，并将加权和作为实际损失函数，具体根据公式(3)来计算：

loss＝loss₁+αloss₂ 公式(3)

实际损失函数也可以为对数L2损失。在计算出实际预测结果P1对应的实际损失函数后，可以根据实际损失函数来调整实际编码器的模型参数以及解码器的模型参数。具体可以将实际损失函数最小作为训练目标，反传实际损失函数对实际编码器的模型参数以及解码器的模型参数进行调整，直至达到训练目标时结束实际编码器的训练过程。

需要说明的是，辅助编码器和实际编码器是交替训练完成的，即不仅训练辅助编码器，还会根据辅助编码器计算得到的辅助特征来训练实际编码器。

在结束实际编码器的训练后，得到训练好的实际编码器，并且根据实际损失函数对参考解码器的参数进行了更新，从而得到训练好的解码器，该训练好的解码器的参数可以为最终参数。

在步骤S530中，忽略所述训练好的辅助编码器，并根据训练好的实际编码器以及训练好的解码器确定所述深度估计模型。

本步骤中，在实际编码器和辅助编码器均训练完成之后，可以忽略训练好的辅助编码器，而只是根据训练好的实际编码器以及训练好的解码器来生成深度估计模型。由于辅助编码器具有辅助信息，因此可以更快收敛，但是由于辅助编码器需要的辅助信息在实际应用时不可得或者获取成本高，因此辅助编码器不能直接使用，即辅助编码器在使用阶段不发挥任何作用，因此可以忽略辅助编码器。此处的忽略训练好的辅助编码器可以为删除训练好的辅助编码器。也就是说，训练完成后，只需保留实际编码器和解码器，辅助编码器可以直接舍弃。基于此，辅助编码器在深度估计模型中仅用于模型训练过程，只是作为引导作用，从中间输出和最终预测两方面对实际编码器即编码器1进行约束，从而加快实际编码器的收敛，提高实际编码器的训练效率。

解码器在训练辅助编码器以及训练实际编码器的过程中均进行了参数更新，因此解码器的参数可以根据两个编码器共同决定，解码器的训练过程可以为：根据辅助损失函数对解码器的模型参数进行更新，得到参数为训练参数的参考解码器，进一步根据实际损失函数对参考解码器的模型参数进行再次更新，得到参数为最终参数的训练好的解码器。通过辅助损失函数以及实际损失函数的训练过程来确定解码器，能够提高解码器的精准度。

本公开实施例中，通过提供与实际编码器结构相似的辅助编码器，并且在训练过程中获取若干辅助信息的方法引导实际编码器的训练，能够加快网络收敛，并且促使常规编码器学习到辅助信息的特征提取模式，增强编码器的特征提取能力，能够解决常规方法中模型训练速度慢以及训练难度大的问题，提升模型性能，提高模型训练效率。

参考图6中所示，将参考图像601和辅助信息602输入至辅助编码器603进行特征提取获得辅助特征604，将辅助特征输入解码器605获得辅助预测深度谱606。根据辅助预测深度和深度谱数据607计算辅助损失函数608。将辅助损失函数反传至辅助编码器进行训练，得到训练好的辅助编码器和解码器。

将参考图像601输入至实际编码器611进行特征提取获得实际特征612，将实际特征输入解码器605获得实际预测深度谱613。根据实际预测深度谱和深度谱数据607、辅助特征以及实际特征计算实际损失函数614。将实际损失函数反向传输至实际编码器进行训练，得到训练好的实际编码器和解码器。根据训练好的实际编码器611和训练好的解码器605生成深度估计模型600。

本公开实施例中，还提供了一种图像深度预测方法，参考图7中所示，主要包括以下步骤：

在步骤S710中，将待处理图像输入至深度估计模型中的实际编码器获取实际特征；

在步骤S720中，根据所述深度估计模型中的解码器对所述实际特征进行解码预测，确定所述待处理图像的预测深度；其中，所述深度估计模型中的实际编码器和所述解码器根据上述任意一项所述的模型训练方法训练得到。

本公开实施例中，待处理图像可以为任何类型的图像，具体可以为待预测深度的图像。深度估计模型指的是对待处理图像进行深度估计的模型，其可以为任意类型的能够进行预测估计的模型，例如可以为编码器-解码器形式。在实际使用过程中，深度估计模型可以只包括一个实际编码器，该实际编码器指的是深度估计模型中用于对图像进行特征提取的编码器。除此之外深度估计模型还可以包括一个解码器。解码器用于对实际编码器输出的结果进行解码，以进行深度估计，从而得到对应的深度估计结果。

本公开实施例中，深度估计指的是单目深度估计。其任务目标为：输入一张待估计深度图像，输出一张与其同尺寸的单通道深度谱，深度谱上每一点的取值代表输入图片中对应像素点的深度值，该深度值可以有明确的物理量纲或者只代表相对远近。

基于此，实际应用时，只需将待处理图像输入实际编码器进行卷积和下采样操作从而进行特征提取，得到对应的实际特征，即实际特征谱；进一步将实际编码器得到的实际特征谱输入解码器进行解码预测，输出即为待处理图像的预测深度。

通过训练好的深度估计模型中的实际编码器和解码器对待处理图像进行特征提取和深度估计，整个过程简单、高效，而不需其它辅助信息或设备，简化了对图像进行深度估计的操作步骤，提高了深度估计的效率，并且避免了需要借助其他设备的局限性。

本公开实施例中提供了一种模型训练装置，参考图8中所示，该模型训练装置800可以包括：

辅助信息获取模块801，用于获取参考图像对应的训练标签，并获取所述参考图像的辅助信息；

特征提取模块802，用于利用辅助编码器对所述参考图像以及所述辅助信息进行特征提取确定辅助预测结果，并基于实际编码器对所述参考图像进行特征提取确定实际预测结果；

交替训练模块803，用于根据所述辅助预测结果、所述实际预测结果以及所述训练标签对所述辅助编码器以及所述实际编码器进行交替训练，并对解码器进行训练获取深度估计模型。

在本公开的一种示例性实施例中，特征提取模块包括：辅助特征提取模块，用于将所述参考图像以及所述辅助信息输入至辅助编码器进行特征提取获取辅助特征谱，并对所述辅助特征谱进行解码以进行深度预测得到所述辅助预测结果；实际特征提取模块，用于将所述参考图像输入至实际编码器进行特征提取获取实际特征谱，并对所述实际特征谱进行解码得到所述实际预测结果。

在本公开的一种示例性实施例中，交替训练模块包括：辅助训练模块，用于基于所述辅助预测结果以及训练标签计算辅助损失函数，并通过所述辅助损失函数对所述辅助编码器的模型参数以及解码器的模型参数进行调整，以训练所述辅助编码器和所述解码器；实际训练模块，用于结合所述实际预测结果、训练标签以及辅助特征计算实际损失函数，并通过所述实际损失函数对所述实际编码器的模型参数以及所述解码器的模型参数进行调整，训练所述实际编码器和所述解码器；模型组合模块，用于忽略训练好的辅助编码器，并根据训练好的实际编码器以及训练好的解码器确定所述深度估计模型。

在本公开的一种示例性实施例中，实际训练模块被配置为：根据所述实际预测结果和所述训练标签确定第一损失函数；根据所述辅助特征和所述实际特征计算第二损失函数；将所述第一损失函数和所述第二损失函数进行合并，得到所述实际损失函数。

在本公开的一种示例性实施例中，所述辅助编码器对应的辅助特征谱与所述实际编码器对应的实际特征谱的尺寸相同。

需要说明的是，上述模型训练装置中各模块的具体细节已经在对应的模型训练方法中进行了详细描述，因此此处不再赘述。

本公开实施例中还提供了一种图像深度预测装置，参考图9中所示，该图像深度预测装置900可以包括：

特征获取模块901，用于将待处理图像输入至深度估计模型中的实际编码器获取实际特征；

深度估计模块902，用于根据所述深度估计模型中的解码器对所述实际特征进行解码预测，确定所述待处理图像的预测深度；其中，所述深度估计模型中的实际编码器和所述解码器根据上述任意一项所述的模型训练方法训练得到。

需要说明的是，上述深度预测装置中各模块的具体细节已经在对应的深度预测方法中进行了详细描述，因此此处不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种模型训练方法，其特征在于，包括：

获取参考图像对应的训练标签，并获取所述参考图像的辅助信息；

利用辅助编码器对所述参考图像以及所述辅助信息进行特征提取确定辅助预测结果，并基于实际编码器对所述参考图像进行特征提取确定实际预测结果；

根据所述辅助预测结果、所述实际预测结果以及所述训练标签对所述辅助编码器以及所述实际编码器进行交替训练，并对解码器进行训练获取深度估计模型。

2.根据权利要求1所述的模型训练方法，其特征在于，所述利用辅助编码器对所述参考图像以及所述辅助信息进行特征提取确定辅助预测结果，并基于实际编码器对所述参考图像进行特征提取确定实际预测结果，包括：

将所述参考图像以及所述辅助信息输入至辅助编码器进行特征提取获取辅助特征谱，并对所述辅助特征谱进行解码以进行深度预测得到所述辅助预测结果；

将所述参考图像输入至实际编码器进行特征提取获取实际特征谱，并对所述实际特征谱进行解码得到所述实际预测结果。

3.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述辅助预测结果、所述实际预测结果以及所述训练标签对所述辅助编码器以及所述实际编码器进行交替训练，并对解码器进行训练获取深度估计模型，包括：

基于所述辅助预测结果以及训练标签计算辅助损失函数，并通过所述辅助损失函数对所述辅助编码器的模型参数以及解码器的模型参数进行调整，以训练所述辅助编码器和所述解码器；

结合所述实际预测结果、训练标签以及辅助特征计算实际损失函数，并通过所述实际损失函数对所述实际编码器的模型参数以及所述解码器的模型参数进行调整，训练所述实际编码器和所述解码器；

忽略训练好的辅助编码器，并根据训练好的实际编码器以及训练好的解码器确定所述深度估计模型。

4.根据权利要求3所述的模型训练方法，其特征在于，所述结合所述实际预测结果、训练标签以及辅助特征计算实际损失函数，包括：

根据所述实际预测结果和所述训练标签确定第一损失函数；

根据所述辅助特征和所述实际特征计算第二损失函数；

将所述第一损失函数和所述第二损失函数进行合并，得到所述实际损失函数。

5.根据权利要求2所述的模型训练方法，其特征在于，所述辅助编码器对应的辅助特征谱与所述实际编码器对应的实际特征谱的尺寸相同。

6.一种图像深度预测方法，其特征在于，包括：

将待处理图像输入至深度估计模型中的实际编码器获取实际特征；

根据所述深度估计模型中的解码器对所述实际特征进行解码预测，确定所述待处理图像的预测深度；其中，所述深度估计模型中的实际编码器和所述解码器根据权利要求1-5中任意一项所述的模型训练方法训练得到。

7.一种模型训练装置，其特征在于，包括：

辅助信息获取模块，用于获取参考图像对应的训练标签，并获取所述参考图像的辅助信息；

特征提取模块，用于利用辅助编码器对所述参考图像以及所述辅助信息进行特征提取确定辅助预测结果，并基于实际编码器对所述参考图像进行特征提取确定实际预测结果；

交替训练模块，用于根据所述辅助预测结果、所述实际预测结果以及所述训练标签对所述辅助编码器以及所述实际编码器进行交替训练，并对解码器进行训练获取深度估计模型。

8.一种图像深度预测装置，其特征在于，包括：

特征获取模块，用于将待处理图像输入至深度估计模型中的实际编码器获取实际特征；

深度估计模块，用于根据所述深度估计模型中的解码器对所述实际特征进行解码预测，确定所述待处理图像的预测深度；其中，所述深度估计模型中的实际编码器和所述解码器根据权利要求1-5中任意一项所述的模型训练方法训练得到。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-5任意一项所述的模型训练方法或权利要求6所述的图像深度预测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任意一项所述的模型训练方法或权利要求6所述的图像深度预测方法。