CN117268345A

CN117268345A - 一种高实时性单目深度估计测量方法、装置及电子设备

Info

Publication number: CN117268345A
Application number: CN202311547348.8A
Authority: CN
Inventors: 尤政; 浦一雯; 纪兴龙; 戴宇翔; 史慧宇; 丁皓伦; 韩毓; 邢飞; 鲁文帅
Original assignee: Qiyuan Laboratory
Current assignee: Qiyuan Laboratory
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2023-12-22
Anticipated expiration: 2043-11-20
Also published as: CN117268345B

Abstract

本发明提出的一种高实时性单目深度估计测量方法、装置及电子设备，属于测量技术领域，应用于微纳量级无人机***中，所采用的方案是获取包含深度信息的图像，作为模型训练集；将所述模型训练集送入基础模型进行训练，获得训练模型；将所述训练模型进行压缩，获得压缩后的轻量模型；对所述轻量模型进行评估，评估合格后作为所述单目深度估计方法进行部署。本发明实施例的技术方案，模型小，计算结果准确，利用包含深度信息的图像，通过训练后的模型对图像的判读，有效的预估测量出图像中每个像素点与无人机摄像头所在平面的距离，为无人***的路径规划等应用提供有力的支持与保障。

Description

一种高实时性单目深度估计测量方法、装置及电子设备

技术领域

本发明涉及测量技术领域，尤其涉及一种高实时性单目深度估计测量方法、装置及电子设备。

背景技术

在微纳无人***、智能穿戴***等端侧智能设备上，由于轻量、便携等设计要求，内置芯片通常质量小、功耗低，仅能支持低分辨率单目相机，因此，这些设备难以使用深度相机、双目相机等传感器获取所处环境的深度信息。

深度信息可为无人***的路径规划等应用提供有力的支持，若想在微纳无人***设备上获取深度信息，最佳选择为充分利用单目相机捕捉的图像做信息提取，即可以简单的理解为，通过对图像的判读，来预估测量出图像中每个像素点与摄像头所在平面的距离。

单目深度估计算法可利用一张或者唯一视角下的RGB图像，估计图像中每个像素与拍摄源平面的距离，因此，它可以增强微纳无人***中单目相机的功能，通过算法手段获取物体的绝对深度，进而基于深度信息开展导航、自动驾驶和场景识别等任务。

然而现有单目深度估计模型相对微纳无人***环境参数和计算量过大，模型部署困难，而微纳无人***平台内置芯片质量小、功耗低，仅能支持低分辨率，导致现有单目深度估计模型无法应用在微纳无人***平台。

因此，如何在微纳无人***平台中应用单目深度估计算法，通过对图像的判读，预估测量出图像的绝对深度信息，利用深度信息为无人***的路径规划等应用提供有力的支持，是一个需要解决的技术问题。

发明内容

本发明的目的是提供一种高实时性单目深度估计测量方法、装置、电子设备及计算机存储介质，为解决现有技术中当前的单目深度估计算法无法在微纳无人***平台中应用的问题。

为解决上述技术问题，第一方面，根据一些实施例，本发明提供了一种高实时性单目深度估计测量方法，应用于微纳量级无人机***中，包括：

获取包含深度信息的图像，作为模型训练集；

将所述模型训练集送入基础模型进行训练，获得训练模型；

将所述训练模型进行压缩，获得压缩后的轻量模型；

对所述轻量模型进行评估，评估合格后作为所述单目深度估计方法进行部署；

其中，评估合格指标，包括所述图像中每个像素点与摄像头所在平面的距离与所述单目深度估计测量距离之间的置信度和误差。

在一些实施例中，所述包含深度信息的图像，是经过预处理的图像。

在一些实施例中，对图像的预处理，具体包括：

对获取到的包含深度信息的图像进行深度数据补全，使得所述深度数据的图像中不包含无效的深度数据；

将所述补全后的深度数据和对应RGB进行数据增强，获得增强后的图像。

在一些实施例中，在获得增强后的图像之后，在获取包含深度信息的图像之前，还包括：

将数据增强后的数据集进行混合，作为所述模型训练集。

在一些实施例中，所述将所述补全后的深度数据和对应RGB进行数据增强，具体包括：

所述数据增强方法，包括翻转、颜色通道变化、变换图像尺寸和CutDepth。

在一些实施例中，所述CutDepth的数据增强方法，根据如下公式计算得到：

其中，(l,u)为截取深度图左上顶点，w为截取深度图宽，h为截取深度图高，W和H为原始深度图的宽高，a、b、c、d为随机的[0-1]的超参，用于决定截取深度图的位置和大小，p是确定w和h最大值的超参，取值范围为[0-1]，p取值为0.75。

在一些实施例中，所述将所述模型训练集送入基础模型进行训练，获得训练模型，包括：

所述基础模型的结构包括编码器和解码器结合的U型结构，输入为RGB图像；

所述编码器为MobileNetV2网络，采用迁移学习的方式加载ImageNet数据集上预训练MobileNetV2模型对图像进行特征提取；

所述解码器采用1x1卷积层和双线性插值，对编码器1/32分辨率的特征图上采样至1/16分辨率，与对应位置的编码器特征拼接。使用同结构的解码器对拼接后的特征图上采样至1/8分辨率，与对应位置的编码器特征拼接。使用同结构的解码器对拼接后的特征图上采样至1/4分辨率，与对应位置的编码器特征拼接，最后得到1/4分辨率的融合特征；

对所述1/4分辨率融合特征使用3x3卷积层和1x1卷积层组合结构，对融合特征进一步细化，得到1/4分辨率预测深度图；

使用所述双线性插值将所述1/4分辨率预测深度图上采样到原始分辨率，得到密集的深度图。

在一些实施例中，在所述将所述训练模型进行压缩，获得压缩后的轻量模型之前，还包括：

设计轻量模型；

将所述训练好的基础模型作为教师模型，将所述轻量模型作为学生模型，根据预设的单目深度估计蒸馏方法，对所述轻量模型进行蒸馏，获得蒸馏后的轻量模型；

利用量化感知训练对所述蒸馏后的轻量模型进行量化。

在一些实施例中，对所述轻量模型进行蒸馏，具体包括：

所述轻量模型采用与所述基础模型的相同的构建模型，所述轻量模型的解码器结构与所述基础模型解码器结构相同，所述轻量模型的解码器的通道数小于所述基础模型的解码器的通道数；

其中，所述轻量模型的编码器结构为MobileNetV2-0.35（0.35深度系数的MobileNetV2模型）,采用迁移学习方法，加载ImageNet上预训练的所述MobileNetV2-0.35模型，用于提取图像特征。

在一些实施例中，所述预设的单目深度估计蒸馏方法，包括：

确定所述教师模型与真值的损失比所述学生模型与真值的损失大时，使用所述真值监督所述学生模型，否则采用所述教师模型与真值共同监督所述学生模型。

在一些实施例中，所述预设的单目深度估计蒸馏方法所采用的损失函数，具体包括：

其中为学生模型预测的深度值，/>为教师模型预测的深度值，y为来自训练集中的真值，m的取值为0.01，/>的取值为0.1。

在一些实施例中，所述利用量化感知训练对所述蒸馏后的轻量模型进行量化，具体包括：

对所述蒸馏后的轻量模型进行量化感知训练，导出pytorch形式模型；

所述pytorch形式模型转为ONNX形式模型后，再转为TensorFlow形式的Pb模型；

将所述Pb模型通过静态量化得到Tflite形式模型。

第二方面，本发明实施例，还提供了一种高实时性单目深度估计装置，包括：

生成模块，用于获取包含深度信息的图像，作为模型训练集，将所述模型训练集送入基础模型进行训练，获得训练模型，将所述训练模型进行压缩，获得压缩后的轻量模型；

评估模块：用于对所述轻量模型进行评估；

部署模块，用于将所述评估模块评估合格后的轻量模型作为所述单目深度估计方法进行部署。

第三方面，本发明实施例，还提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器用于存储所述处理器可执行的程序，所述处理器用于读取所述存储器中的程序并执行上述如第一方面任一项所述方法的步骤。

本发明的上述技术方案至少具有如下有益的技术效果：本发明实施例的技术方案，利用具有深度信息的图像对模型进行训练，获得所需的模型后，对模型再次进行压缩，获得轻量模型，并对轻量模型进行评估，确认轻量模型评估合格后作为单目深度估计方法进行部署，本发明实施例的技术方案，使模型在缩小的同时具有良好的泛化性，平衡了模型大小和精度的问题，可以有效的运行在微纳无人***平台中，即使微纳无人***平台内置芯片质量小、功耗低，仅能支持低分辨率的图像，也能良好的有效运行，并能为纳无人***平台提供对应图像的深度信息。

本申请所现有的高实时性单目深度估计算法，利用包含深度信息的图像，通过训练后的模型对图像的判读，有效的预估测量出图像中每个像素点与摄像头所在平面的距离，为无人***的路径规划等应用提供有力的支持与保障。本发明的实施例的技术方案，首次设计了新颖的适合单目深度估计任务的蒸馏算法，极大弥补了模型压缩后的精度损失，在NYU Depth v2室内数据集上，RMSE和分别达到0.538和78.8％，预测值和真实值之间的误差小，置信度高。本发明提出的高实时性单目深度估计方法，可实现高性能实时计算，轻量模型的准确度高，计算快速，不消耗过多的算力，满足了微纳无人***功耗低、计算量小的要求，且，轻量模型也不占用过多的存储空间，即使是低分辨率单目相机也可以有效的获得对应目标的深度信息，本申请实施例的技术方案，在并行超低功耗资源平台上处理224*224分辨率RGB图像仅耗时35ms，已成功部署在微纳无人***，部署模型参数量为0.487MParams，计算量为0.088GFLOPs，模型小，计算结果准确，有效的解决了现有单目深度估计算法计算量大，依赖于高性能计算平台的问题，本申请的高实时性单目深度估计方法，可利用深度信息，为无人***的路径规划等应用提供有力的支持与保障。本申请实施例的技术方案，已成功部署在微纳无人***，相比现有的单目深度估计算法，计算量大幅下降；且，平衡了模型的大小和精度，具有高实时性。

附图说明

为了更清楚地说明本发明实施例或传统技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例所提供的一种高实时性单目深度估计测量方法流程示意图。

图2是本发明一个实施例所提供的一种基础模型结构图。

图3是本发明一个实施例所提供的一种模型压缩流程图。

图4是本发明一个实施例所提供的一种轻量模型结构图。

图5是本发明一个实施例所提供的一种高实时性单目深度估计装置示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征；各个实施例之间的技术方案可以相互结合，以本领域普通技术人员能够实现为基础。

本申请实施例中当提及A和/或B时均表示，A、B，以及，A和B三种情况。

需要注意的是，本申请中所提及的先后顺序的序号，在实际的具体实现过程中，并不代表一定要严格按着先后顺序号来执行，是为了区分每个步骤，防止产生混淆。

微纳无人***平台内置芯片质量小、功耗低，仅能支持低分辨率单目相机。现有单目深度估计模型相对微纳无人***环境参数和计算量过大，导致现有单目深度估计模型无法应用在微纳无人***平台，进行实时推理。因此急需设计轻量化的高精度单目深度估计模型来完成微纳无人***平台的部署，实时更新环境深度，以满足后端应用需求。

目前有一些算法在一定程度上降低了单目深度估计模型的计算量。FastDepth结合深度可分离卷积模型和Netadapt剪枝策略，对单目深度估计模型进行压缩，降低模型复杂度。GuidedDepth提出轻量引导上采样块(GUB)构建模型解码器, 对特征表示和深度图重建进行上采样，实现具有细粒度细节的高分辨率结果。GYDepth缩小输入尺寸，用逐深度卷积替换深度可分离卷积进一步缩小模型体积，并结合中间层蒸馏方法，提高模型精度。LiteDepth设计1x1与3x3的混合卷积来代替逐深度卷积，结合随机选择裁剪区域的大小和位置数据增强方法和设计损失函数提高模型精度。虽然这些单目深度估计模型可以在移动端实时计算，但是仍然无法在微纳无人***平台进行部署，因此还需要对单目深度估计模型做进一步的研究和模型轻量化设计。

模型压缩较主流的三种方法分别是剪枝、知识蒸馏和量化。模型剪枝主要分为结构剪枝和非结构剪枝，其目的是减少模型计算量和参数量，降低模型冗余程度。由于非结构剪枝对硬件要求比较苛刻，因此结构剪枝使用普遍。知识蒸馏可在一定程度上提高模型的精度，在图像分类领域和目标检测领域应用广泛，但目前应用在单目深度估计领域的蒸馏方法较少，且蒸馏效果极微。因此设计一种适合单目深度估计任务的蒸馏方法是非常必要的。模型量化分为静态量化、动态量化和量化感知训练，可有效降低模型计算强度和内存消耗，推理时对硬件友好。

针对前述的技术问题，本发明的目的是针对当前单目深度估计算法模型参数和计算量大、缺少高效的轻量化方法、模型难以在微纳无人***部署等问题，提出一种微纳无人***的高实时性单目深度估计算法。该算法已成功部署在微纳无人***，相比现有的单目深度估计算法，计算量大幅下降；平衡了模型的大小和精度，具有高实时性。

本发明提出的微纳无人***高实时性单目深度估计方法，主要包含两个阶段，第一阶段为模型设计阶段，设计一个高效的单目深度估计模型结构作为基础模型，使用混合训练数据进行模型训练，获得相应的数据模型。第二阶段为模型压缩阶段，设计一个具有基础模型五分之一大小的模型作为轻量模型，并提出适用于单目深度估计任务的蒸馏方法对轻量模型进行蒸馏，最后使用量化感知训练对轻量模型进行量化。

基于上述发明构思，为实现上述内容，微纳无人***的高实时性单目深度估计测量算法具体步骤如下：

一种高实时性单目深度估计测量方法，应用于微纳量级无人机***中，包括：

获取包含深度信息的图像，作为模型训练集；

将所述模型训练集送入基础模型进行训练，获得训练模型；

将所述训练模型进行压缩，获得压缩后的轻量模型；

对所述轻量模型进行评估，评估合格后作为所述单目深度估计方法进行部署。

以下通过具体实施例进行说明，如图1所示。

S101：获取包含深度信息的图像，作为模型训练集；

获取包含深度信息的图像的方式，此处并不限定，可以直接使用RGB-D公开数据集，也可以使用深度相机拍摄RGB和对应的深度图像。本发明使用公开数据集，对公开数据集进行深度补全，再通过翻转、颜色通道变换、变换图像尺寸和CutDepth等方式对公开数据集进行数据增强，数据增强后进行数据混合，获得模型训练集。

S102：将模型训练集送入基础模型进行训练，获得训练模型；

获得训练集后，将模型训练集送入基础模型进行训练，经过多次训练，确认达到预设的状态后，得到训练好的模型。

获得训练模型的过程，可以与神经网络训练模型的过程相同，本领域的技术人员，可以根据实际需要进行自行调整，此处不进行限定。

S103：将训练模型进行压缩，获得压缩后的轻量模型；

将训练好的模型进行压缩，比如可以设计同结构的轻量模型，再设计合理的蒸馏方法，对轻量模型进行蒸馏，最后对轻量模型进行量化，获得压缩后的轻量模型。

S104：对轻量模型进行评估，评估合格后作为单目深度估计方法进行部署。

其中，评估合格指标，包括图像中每个像素点与摄像头所在平面的距离与单目深度估计测量距离间的置信度和误差。

压缩后的轻量模型会存在一定的损失，是否能达到训练模型精度及要求，需要对轻量模型进行评估。若轻量模型评估后达不到要求，需要继续训练轻量模型，或者重新调整轻量模型，直至达到评估合格的标准，确认评估合格后作为单目深度估计方法进行部署。

图像中每个像素点与摄像头所在平面的距离与所述单目深度估计测量距离之间的置信度，即为δ₁,用来确定预测值和真实值之间的可信度，可信度越大越好。图像中每个像素点与摄像头所在平面的距离与所述单目深度估计测量距离之间的误差，可以理解为RMSE，即为均方根误差，用来确定预测值和真实值之间的误差，误差越小越好。当预测值与真实值的可信度高于一定数值且误差小于一定数值时，认为当前轻量模型是合格的。

本发明实施例的技术方案，利用具有深度信息的图像对模型进行训练，获得所需的模型后，对模型再次进行压缩，获得轻量模型，并对轻量模型进行评估，确认轻量模型评估合格后作为单目深度估计方法进行部署，本发明实施例的技术方案，使模型在缩小的同时具有良好的泛化性，平衡了模型大小和精度的问题，可以有效的运行在微纳无人***平台中，即使微纳无人***平台内置芯片质量小、功耗低，仅能支持低分辨率的图像，也能良好的有效运行，并能为纳无人***平台提供对应图像的深度信息。

本申请所现有的高实时性单目深度估计算法，利用包含深度信息的图像，通过训练后的模型对图像的判读，有效的预估测量出图像中每个像素点与摄像头所在平面的距离，为无人***的路径规划等应用提供有力的支持与保障。本发明的实施例的技术方案，首次设计了新颖的适合单目深度估计任务的蒸馏算法，极大弥补了模型压缩后的精度损失，在NYU Depth v2室内数据集上，RMSE和分别达到0.538和78.8％，预测值和真实值之间的误差小，置信度高。本发明提出的高实时性单目深度估计方法，可实现高性能实时计算，轻量模型的准确度高，计算快速，不消耗过多的算力，满足了微纳无人***功耗低、计算量小的要求，且，轻量模型也不占用过多的存储空间，即使是低分辨率单目相机也可以有效的获得对应目标的深度信息，本申请实施例的技术方案，在并行超低功耗资源平台上处理224*224分辨率RGB图像仅耗时35ms，部署模型参数量为0.487MParams，计算量为0.088GFLOPs，模型小，计算结果准确，有效的解决了现有单目深度估计算法计算量大，依赖于高性能计算平台的问题，本申请的高实时性单目深度估计方法，可利用深度信息，为无人***的路径规划等应用提供有力的支持与保障。

本申请实施例的技术方案，已成功部署在微纳无人***，相比现有的单目深度估计算法，计算量大幅下降；且，平衡了模型的大小和精度，具有高实时性。

可选的，在一些实施例中，包含深度信息的图像，是经过预处理的图像。

可选的，在一些实施例中，对图像的预处理，具体包括：

对获取到的包含深度信息的图像进行深度数据补全，使得深度数据的图像中不包含无效的深度数据；

将补全后的深度数据和对应RGB进行数据增强，获得增强后的图像。

可选的，在一些实施例中，在获得增强后的图像之后，在获取包含深度信息的图像之前，还包括：

将数据增强后的数据集进行混合，作为模型训练集。

可选的，在一些实施例中，将补全后的深度数据和对应RGB进行数据增强，具体包括：

数据增强方法，包括翻转、颜色通道变化、变换图像尺寸和CutDepth。

可选的，在一些实施例中，CutDepth的数据增强方法，根据如下公式计算得到：

以下通过实施例进行详细的说明。

实施例1：当获取到图像后，图像中的深度数据，可能会存在一部分的无效数据，在获取图像后，可以利用NYU Depth V2工具包对NYU Depth V2、Taskonomy和ScanNet深度数据进行深度补全。

对图像的深度进行补全，该过程可以理解为对图像的预处理，即对获取到的包含深度信息的图像进行深度数据补全，使得深度数据的图像中不包含无效的深度数据；将补全后的深度数据和对应RGB进行数据增强，获得增强后的图像。这样获得的图像帧的深度信息更准确，拟合效果好。

将补全后的深度数据和对应RGB进行数据增强，包括翻转、颜色通道变化、变换图像尺寸和CutDepth等方法。CutDepth是一种针对单目深度估计研究的数据增强方法。该方法随机裁剪部分深度图，将裁剪的深度图按一定概率粘贴到输入图像上，在不破坏边缘特征的情况下扩展了变化数据，可以简单理解为，CutDepth，是将部分深度值粘贴到训练期间的RGB上，扩展变化数据而不破坏边缘特征，以达到数据增强的目的。其中CutDepth数据增强方法可表示为：

其中(l,u)为截取深度图左上顶点，w为截取深度图宽，h为截取深度图高，W和H为原始深度图的宽高。a、b、c、d为随机的[0-1]的超参，决定截取深度图的位置和大小。p是确定w和h最大值的超参，取值范围为[0-1]。在本发明中，p取值为0.75。

将数据增强后的数据集进行混合，作为模型训练集。再将训练集送入设计的基础模型进行训练，得到训练模型。

可选的，在一些实施例中，将模型训练集送入基础模型进行训练，获得训练模型，包括：

基础模型的结构包括编码器和解码器结合的U型结构，输入为RGB图像；

编码器为MobileNetV2网络，采用迁移学习的方式加载ImageNet数据集上预训练MobileNetV2模型对图像进行特征提取；

解码器采用1x1卷积层和双线性插值，对编码器1/32分辨率的特征图上采样至1/16分辨率，与对应位置的编码器特征拼接。使用同结构的解码器对拼接后的特征图上采样至1/8分辨率，与对应位置的编码器特征拼接。使用同结构的解码器对拼接后的特征图上采样至1/4分辨率，与对应位置的编码器特征拼接，最后得到1/4分辨率的融合特征。

对1/4分辨率融合特征使用3x3卷积层和1x1卷积层组合结构，对融合特征进一步细化，得到1/4分辨率预测深度图；

使用双线性插值将1/4分辨率预测深度图上采样到原始分辨率，得到密集的深度图。

即，基础模型结构为编码器和解码器的U型结构。模型输入为RGB图像，编码器为MobileNetV2网络。采用迁移学习的方式加载ImageNet数据集上预训练的MobileNetV2模型对1/32、1/16、1/8、1/4图像分辨率做特征提取。解码器采用1x1卷积层和双线性插值，对编码器1/32分辨率的特征图上采样至1/16分辨率，与对应位置的编码器特征拼接，得到1/16分辨率的融合特征。使用同结构的解码器对融合后的特征图上采样至1/8分辨率，与对应位置的编码器特征拼接，得到1/8分辨率的融合特征。使用同结构的解码器对融合后的特征图上采样至1/4分辨率，与对应位置的编码器特征拼接，得到1/4分辨率的融合特征。这样的网络结构使解码器在进行上采样时能够获得更多的信息。之后结合3x3和1x1卷积对融合后的1/4分辨率的特征图进行计算。最后采用双线性插值放大回原图分辨率，得到密集的深度图。

为更进一步的说明，以下通过具体实施例进行展示，如图2所示。

实施例2：基础模型结构如图2所示。

整体结构为编码器和解码器结合的U型结构，输入为224x224分辨率的RGB图像。编码器为MobileNetV2网络，采用迁移学习的方式加载ImageNet数据集上预训练MobileNetV2模型对1/32、1/16、1/8、1/4原图分辨率进行特征提取，分别得到1280x7x7、96x14x14、32x28x28和24x56x56特征图。解码器采用1x1卷积层和双线性插值对编码器1/32分辨率的特征图上采样至1/16分辨率，与对应位置的编码器特征拼接融合，得到1/16分辨率的融合特征，即，160x14x14特征图。之后使用同结构的解码器对融合后的特征图上采样至1/8分辨率，与对应位置的编码器特征拼接融合，得到1/8分辨率的融合特征，即，64x28x28特征图。再使用同结构的解码器对融合后的特征图上采样至1/4分辨率，与对应位置的编码器特征拼接融合，得到1/4分辨率融合特征，即，48x56x56特征图。使用3x3卷积层，对融合后的1/4分辨率特征图，即，48x56x56特征图进行细化，得到24x56x56特征图，进而使用1x1卷积层调整维度，得到1x56x56特征图。最后使用双线性插值将1x56x56特征图转化为1x224x224的密集深度图输出。

可选的，作为其中一种实施例，在将训练模型进行压缩，获得压缩后的轻量模型之前，还包括：

设计轻量模型；

将训练好的基础模型作为教师模型，将轻量模型作为学生模型，根据预设的单目深度估计蒸馏方法，对轻量模型进行蒸馏，获得蒸馏后的轻量模型；

利用量化感知训练对蒸馏后的轻量模型进行量化。

以下通过具体实施例进行说明。

实施例3：模型压缩流程如图3所示，具体为：

S301:设计轻量模型。

设计轻量模型，减少模型参数量和计算量。

S302:知识蒸馏。将实施例1中训练好的基础模型作为教师模型，将轻量模型作为学生模型。设计适合单目深度估计蒸馏方法，对前述模型进行蒸馏。

S303：量化。

利用量化感知训练对蒸馏后的轻量模型进行量化，为后续轻量模型的评估提供相关的数据依据。

可选的，作为其中一种实施例，对轻量模型进行蒸馏，具体包括：

轻量模型采用与基础模型的相同的构建模型，轻量模型的解码器结构与基础模型解码器结构相同，轻量模型的解码器的通道数小于基础模型的解码器的通道数；

其中，轻量模型的编码器结构为MobileNetV2-0.35 （0.35深度系数的MobileNetV2模型）,采用迁移学习方法，加载ImageNet上预训练的MobileNetV2-0.35模型，用于提取图像特征。

以下通过具体实施例进行说明，如图4所示。

设计的轻量模型结构与基础模型结构相似，采用编码器和解码器的U型结构，以RGB图像作为输入。

轻量模型的解码器结构与基础模型的解码器结构二者是相同的，编码器为MobileNetV2-0.35网络。采用迁移学习的方式加载ImageNet数据集上预训练的MobileNetV2-0.35模型进行特征提取。解码器结构与上述实施例2中的基础模型解码器结构相同，但为适配编码器通道数对相应解码器通道数做修改。

为更进一步的说明，以下通过具体实施例进行展示，轻量模型结构如图4所示。

整体结构为编码器和解码器结合的U型结构，输入为224x224分辨率的RGB图像。编码器为MobileNetV2-0.35网络，采用迁移学习的方式加载ImageNet数据集上预训练MobileNetV2-0.35模型（0.35深度系数的MobileNetV2模型）对1/32、1/16、1/8、1/4原图分辨率进行特征提取，分别得到1280x7x7、32x14x14、16x28x28和8x56x56特征图，解码器采用1x1卷积层和双线性插值对编码器1/32分辨率的特征图上采样至1/16分辨率，与对应位置的编码器特征拼接融合，得到1/16分辨率的融合特征，即，96x14x14特征图。使用同结构的解码器对融合后的特征图上采样至1/8分辨率，与对应位置的编码器特征拼接融合，得到1/8分辨率的融合特征，即，48x28x28特征图。使用同结构的解码器对融合后的特征图上采样至1/4分辨率，与对应位置的编码器特征拼接融合，得到1/4分辨率融合特征，即，24x56x56特征图。再使用3x3卷积层，对融合后的1/4分辨率的特征图，即，24x56x56特征图进行细化，继而使用1x1卷积层调整维度，得到1x56x56特征图。最后使用双线性插值将1x56x56特征图转化为1x224x224的密集深度图输出。

可选的，作为其中一种实施例，预设的单目深度估计蒸馏方法，包括：

确定教师模型与真值的损失比学生模型与真值的损失大时，使用真值监督学生模型，否则采用教师模型与真值共同监督学生模型。

可选的，作为其中一种实施例，预设的单目深度估计蒸馏方法所采用的损失函数，具体包括：

以下通过实施例进行说明。

实施例5：本实施例对实施例3中出现的适合单目深度估计蒸馏算法进行具体的解释说明。

提出的蒸馏方法主要以真值作为监督。当学生模型与真值的损失比教师模型与真值的损失大时，以教师模型作为监督的一部分，和真值共同监督学生模型。反之，当学生模型与真值的损失比教师模型与真值的损失小时，只以真值作为监督，即，确定教师模型与真值的损失比学生模型与真值的损失大时，使用真值监督学生模型，否则采用教师模型与真值共同监督学生模型。

提出的蒸馏方法的主要思想为：回归是无界的，虽然教师模型精度高，但也会出现回归出错的情况，如果以回归的教师模型为唯一监督，会使学生模型和真值之间的误差更大。因此蒸馏时主要以真值作为监督。当学生模型与真值的损失比教师模型与真值的损失大时，说明学生当前无法达到教师模型效果，则令教师模型和真值共同监督学生模型。反之，当学生模型与真值的损失比教师模型与真值的损失小时，说明学生已经比教师模型的效果好，则取消教师模型监督角色，只以真值作为监督。前述在算法上可表示为:

其中为学生模型预测的深度值，/>为教师模型预测的深度值，y为真值，m设为0.01，/>设置为0.1。蒸馏损失函数为L1Loss。

可选的，作为其中一种实施例，利用量化感知训练对蒸馏后的轻量模型进行量化，具体包括：

对蒸馏后的轻量模型进行量化感知训练，导出pytorch形式模型；

pytorch形式模型转为ONNX形式模型后，再转为TensorFlow形式的Pb模型；

将Pb模型通过静态量化得到Tflite形式模型。

实施例6：本实施例对实施例3中出现的模型量化过程进行具体的解释说明。

模型量化过程具体为，首先蒸馏后的轻量模型进行量化感知训练，导出pytorch形式模型（Float32），再转为ONNX形式模型（Float32），进而转为TensorFlow形式的Pb模型（Float32），最后通过静态量化得到Tflite形式模型（Int8）。

本发明实施例的模型，其大小和推理速度均符合微纳无人***的部署要求，可以良好的运行在微纳无人机***中。

本发明实施例的技术方案经过实验验证可行, 采用NYU Depth V2测试集对本单目深度估计模型进行测试，RMSE和δ₁分别达到了0.538和78.8％。

本发明在并行超低功耗资源平台上处理224*224分辨率RGB图像仅耗时35ms，已成功部署在微纳无人***，部署模型参数量为0.487MParams，计算量为0.088GFLOPs 。

可选的，本发明实施例，还提供一种高实时性单目深度估计装置500，如图5所示，包括：

生成模块501，用于获取包含深度信息的图像，作为模型训练集，将模型训练集送入基础模型进行训练，获得训练模型，将训练模型进行压缩，获得压缩后的轻量模型；

评估模块502，用于对轻量模型进行评估；

部署模块503，用于将评估模块评估合格后的轻量模型作为单目深度估计方法进行部署。

可选的，本发明实施例还提供一种电子设备，该电子设备包括处理器和存储器，所述存储器用于存储所述处理器可执行的程序，所述处理器用于读取所述存储器中的程序并执行上述实施例所述方法的步骤

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种高实时性单目深度估计测量方法，应用于微纳量级无人机***中，其特征在于，包括：

获取包含深度信息的图像，作为模型训练集；

将所述模型训练集送入基础模型进行训练，获得训练模型；

将所述训练模型进行压缩，获得压缩后的轻量模型；

2.根据权利要求1所述的方法，其特征在于，所述包含深度信息的图像，是经过预处理的图像。

3.根据权利要求2所述的方法，其特征在于，对图像的预处理，具体包括：

4.根据权利要求3所述的方法，其特征在于，在获得增强后的图像之后，在获取包含深度信息的图像之前，还包括：

将数据增强后的数据集进行混合，作为所述模型训练集。

5.根据权利要求3所述的方法，其特征在于，所述将所述补全后的深度数据和对应RGB进行数据增强，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述CutDepth的数据增强方法，根据如下公式计算得到：

；

7.根据权利要求1所述的方法，其特征在于，所述将所述模型训练集送入基础模型进行训练，获得训练模型，包括：

所述解码器采用1x1卷积层和双线性插值，对编码器1/32分辨率的特征图上采样至1/16分辨率，与对应位置的编码器特征拼接；使用同结构的解码器对拼接后的特征图上采样至1/8分辨率，与对应位置的编码器特征拼接；使用同结构的解码器对拼接后的特征图上采样至1/4分辨率，与对应位置的编码器特征拼接，最后得到1/4分辨率的融合特征；

8.根据权利要求1所述的方法，其特征在于，在所述将所述训练模型进行压缩，获得压缩后的轻量模型之前，还包括：

设计轻量模型；

利用量化感知训练对所述蒸馏后的轻量模型进行量化。

9.根据权利要求8所述的方法，其特征在于，对所述轻量模型进行蒸馏，具体包括：

10.根据权利要求8所述的方法，其特征在于，所述预设的单目深度估计蒸馏方法，包括：

11.根据权利要求8所述的方法，其特征在于，所述预设的单目深度估计蒸馏方法所采用的损失函数，具体包括：

；

12.根据权利要求8所述的方法，其特征在于，所述利用量化感知训练对所述蒸馏后的轻量模型进行量化，具体包括：

将所述Pb模型通过静态量化得到Tflite形式模型。

13.一种高实时性单目深度估计装置，其特征在于，包括：

评估模块，用于对所述轻量模型进行评估；

14.一种电子设备，其特征在于，该电子设备包括处理器和存储器，所述存储器用于存储所述处理器可执行的程序，所述处理器用于读取所述存储器中的程序并执行权利要求1-12任一所述方法的步骤。