CN115309301A

CN115309301A - 基于深度学习的Android手机端侧AR交互***

Info

Publication number: CN115309301A
Application number: CN202210541388.0A
Authority: CN
Inventors: 戴玉超; 朱睿杰; 项末初; 卢馨悦; 徐智鸿
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-11-08

Abstract

本发明公开了基于深度学习的Android手机端侧AR交互***，包括一部带有摄像头的手机，手机摄像头采集原始彩色图像数据，通过对相机API的调用，实时处理图像流，并利用Pytorch Mobile深度学习框架训练高效的、鲁棒的轻量化深度估计神经网络模型，在手机端侧利用手机的有限算力，运行神经网络推理，生成与原始图像数据对应的预测深度图。结合原始图像和预测的深度图，利用ARCore Depth Lab的AR交互功能和Unity开发示例实现不依赖于Depth API的Android手机端侧AR交互***。

Description

基于深度学习的Android手机端侧AR交互***

技术领域

本发明涉及三维场景感知领域，具体为基于深度学习的Android手机端侧AR交互***。

背景技术

近年来，随着深度学习和神经网络技术的迅速发展，计算机视觉领域的相关应用得到了突飞猛进的进展。与此同时，人们对于视觉相关手机应用的娱乐化需求也越来越高。人们不再满足于与简单的二维图像中的场景进行互动，开始希望可以与立体的三维场景进行更深层次的交互。在实现与三维场景交互的过程中，深度估计作为三维感知的关键一环，起到至关重要的作用。传统的相机设备在拍摄图像和视频时，只能获得有限的2D图像信息，缺失了真实三维世界中的深度信息，而采用雷达、RGBD相机等测距设备又存在着成本高昂、体积较大等缺点。除此之外，目前精度较高的单目深度估计算法普遍依赖于高性能的算力环境，在非理想的实验环境下难以取得较好的深度估计效果，不能够良好的部署到移动端，暴露出了其推广应用的局限性。因此，一个不依赖于高性能算力环境和测距设备并可以直接部署到移动端上来实现实时3D场景交互功能的交互***将会有很大的应用前景。

现有的二维视频特效技术如Tik Tok等短视频编辑器上的特效技术对视频二次创作的效果存在着一定的局限性。例如，当用户欲对视频进行特定场景的特效加持(如下雪)时，传统的二维视频技术只能将静态的二维图片与人物拼接在一起，这对于视频的效果是生硬且不利的。本发明可以根据深度估计的结果直接构造3D场景，并加入模拟的特效，可以更好的体现视频中环境的深度层次变化，使得视频更真实、生动和形象，提高视频的观影感受。

本发明就是为了在手机端的有限算力条件下，利用轻量化的单目深度估计网络，在手机端侧的AR场景中实时计算场景深度，最大程度还原真实场景。在此基础上，利用Unity等渲染引擎制作特效，本发明可实现真实环境下通过设置虚拟物体来达成人与环境的交互效果。

发明内容

本发明的目的在于运用更成熟的算法训练模型能从简单的2D视频输入中得到更加准确的深度信息，解决单目相机***下的深度估计问题，并欲解决传统方法下单目深度估计在精度和效率上的缺陷，提出鲁棒性好、精度高、效率快的轻量化单目深度估计网络，突破目前高精度单目深度估计算法对于高性能的算例环境的依赖，并着眼于实际应用，探索该方法应用在手机端侧AR、VR场景中的可能性。除满足娱乐需求外，在未来的自动驾驶、智能医疗、军事作战中都有广泛应用前景。

为实现上述目的，本发明提供如下技术方案：从获取的单目图像中实时估计稠密深度图，利用深度学习模型计算得到图像中每个像素点的深度信息，最后基于该深度信息的辅助，利用Unity软件制作三维特效以实现虚拟物体在精确位置的生成和人机交互，以面向AR/VR的实际应用场景。本发明通过安卓开发，结合Pytorch mobile框架，将算法部署到手机移动端侧，实现在手机端侧的实时交互。

具体来说：

a)获取训练/测试数据：采用开源数据集例如NYU-Depth V2进行大规模网络训练，采用Kinect DK相机在室内拍摄视频，并自动生成深度图作为监督信息，利用单目相机所拍摄视频作为输入测试样例；

b)设计单目深度估计算法：采用AR Core框架构建应用，使用AR Core返回的参数作为相机参数的初始值，结合网络调整相应参数得到相机位姿，作为帧间深度估计的几何约束的基础。利用预训练的轻量化网络EfficientNet做深度预测的主干网络，在此基础上对网络的损失函数加以设计，并在数据集上进行训练；

c)评价单目深度估计算法：通过训练数据集真实深度值作为模型的监督信号，对比模型的预测结果，构建模型最小化损失函数，同时保留其在约束较少的部分提供合理的正则化的能力，得到准确的深度信息达到交互效果；

d)部署算法于端侧：使用Unity作为开发的辅助工具，在完成神经网络的深度信息推断之后，将信息导入Unity模块中，通过算法重建场景，使用unity软件添加特效，利用Pytorch Mobile部署到手机移动端。

优选的，手机***为Android***且版本为Android 8及以上。

优选的，移动端侧芯片为高通Snapdragon 865及以上型号，可使用CPU或者GPU完成神经网络推理，实现高帧率的运行。

优选的，所述在手机端侧部署的轻量化深度估计模型，在服务器端训练完毕后通过torchscript从PyTorch代码创建可序列化和可优化模型的方法，进行模型的转换和模型的优化，转换后的模型为包括模型权重和模型解释器的.ptl格式，同时经过PytorchMobile模块的模型优化，优化后的模型平均推理速度比优化前提升60％。

优选的，轻量化深度估计模型在手机端侧部署的轻量化深度估计方法，实现步骤为：

S1.1：在服务器上训练模型，采用深度数据集训练模型权重；

S1.2：通过Pytorch Mobile转换模型，保存模型推理器

S1.3：通过Java编程，在Android Studio软件上将模型推理器

导入进ARCore模块；

S1.4：调用手机相机API，获取图像流I＝{I₁,I₂,…,I_n}并提取当前帧I_n作为RGB图像的输入I_RGB；

S1.5：在手机端侧运行模型推理器

输出预测的深度图

S1.6：将预测的深度图I_Depth添加进数据流中，实现模块的封装。

优选的，所述的轻量化深度估计神经网络模型算法，具体步骤为：

S2.1：在手机端侧预测深度图的轻量化深度估计模型，其输入为相机拍摄的彩色RGB图像(图像格式为YUV420)和相机的位姿参数(需要利用Google的ARCore框架中返回的相机位姿参数作为相机参数的初始值)，输出为RAW格式的预测深度图像和预测的置信度图像；

S2.2：所述深度估计神经网络模型为单目深度估计模型，模型完成单次推理不依赖于前后图像帧或多张图像的信息，输入单张图像即可完成单次深度估计；

S2.3：所述深度估计神经网络模型为轻量化网络模型，部署到手机端的模型推理器小于150M，支持在高通Snapdragon 865及以上的手机平台上实现FPS为30帧每秒的深度图预测。

S2.4：以EfficientNet作为深度预测算法编码器的主干网络，输入图像I_RGB，通过EfficientNet在不同的分辨率(二分之一、四分之一、八分之一、十六分之一)上提取特征构建图像特征金字塔{S_1/2,S_1/4,S_1/8,S_1/16}，本发明中该模型主干网络可被类似的轻量化模型(如MobileNet)所替换；

S2.5：采用多尺度融合的结构作为深度预测算法的解码器，如图3所示，解码器模块接收当前分辨率下的特征分支和上层分辨率下的特征分支，上层分辨率的特征通过一个残差卷积模块与当前分辨率的特征拼接融合。该残差卷积模块由两个Relu激活层和两个卷积核大小为3x3的卷积模块交叉串联组合而成。将融合后的特征输入进具有相同结构的残差卷积模块，通过一个重采样模块和一个卷积核大小为1x1的卷积模块，输出当前分支的特征；

S2.6：使用多尺度损失作为神经网络模型的损失函数，其计算公式为：

其中公式分别计算了预测深度和数据集中的真实深度在x轴和y轴方向的梯度差分，并在不同尺度分辨率下相加融合。

S2.7：为了使模型有更好的鲁棒性和不同数据集上的泛化能力，模型使用了仿射不变深度预测，即d^*＝ds+μ。其中s、μ为仿射变换中的尺度和偏移，通过全局最小二乘法求得预测深度和真实深度之间的仿射变换参数。

S2.8：在NyuDepthv2、KITTI、ScanNet、ETH3D等多个公开深度数据集上训练模型，使模型学习足够多的数据先验，提升模型的泛化能力。

优选的，所述利用ARCore Depth Lab的AR交互功能和Unity实现AR交互功能的步骤为：

S3.1:在完成神经网络的深度信息预测之后，用生成的深度预测图替换ARCore调用depth API返回的深度图像，并在Unity中调用ARCore；

S3.2：使用unity提供的渲染引擎，通过深度图生成场景的网格信息，渲染出代表深度信息的伪彩色图；

S3.3：使用ARCore depth lab的部分功能，利用其unity场景的特效组件，将相应的特效添加到深度场景上。

与现有技术相比，本发明的有益效果是：

1、本发明将算法直接部署到手机端侧利用手机算力进行神经网络推理，避免了现有的单目深度估计方法对于大型服务器算力资源的严重依赖。现有深度估计网络通常在精度和效率上难以兼顾，精度较高的方法往往需要经过长时间的模型推理过程，同时其模型结构通常较为复杂。与现有的大型深度学习网络不同，本发明提出的方法在精度和效率上取得了有效的均衡。本发明采用了一种轻量化网络结构模型实现逐帧的单目深度估计网络推理，网络的模型结构较为简单，既降低了训练网络时所消耗的算力，同时又便于运行网络推断和进行端侧部署；

2、实现了在Android平台进行深度估计端侧应用的开发，与现有的在手机平台运行神经网络推理的框架不同，现有的方法通常使用Pytorch在服务器端训练模型，得到参数收敛后的模型之后，再将模型转换为ONNX格式，转换到Tensorflow框架上运行，利用Tensorflow lite模块完成移动设备端侧的模型推理，而本发明不依赖于Tensorflow框架，利用Pytorch Mobile直接转换模型，在移动设备端利用Pytorch框架直接运行模型推理，本方法更加方便快捷，避免了在不同的深度学习框架切换运行模型；

3、本发明所提出的深度估计方法免除了对于depth API的依赖，depth API是Android平台手机***提供的接口(仅部分高端手机型号支持)，与现有的软件如depthlab不同，本发明中的深度信息是从RGB图像中通过深度学习模型推理得到，无需额外的硬件设备(如激光雷达、毫米波雷达等深度传感器)采集深度信息，并利用unity作为三维特效开发工具实现AR/VR的交互功能，具有较强的实际应用价值；

4、本发明在Pytorch Mobile的框架上进行了深度估计网络的推理，该框架提供了一个端到端的工作流程，简化了移动设备端侧的从研究到生产环境的流程，同时也对该框架进行了保护。本发明采用清晰的结构框架，便于后续对各部分内容进行更改和升级操作。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明***模型流程图；

图2为本发明***深度估计结果示例图；

图3为本发明***算法模型图；

图4为本发明***AR交互示例图。

具体实施方式

为进一步了解本发明的内容，使本发明的目的、技术方案及优点更加清晰明了，以下结合附图和实施例对本发明进行详细说明。应当理解的是，此处仅是对本发明进行解释而并非限定。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例

请参阅图1，本发明提供一种技术方案：基于深度学习的Android手机端侧AR交互***，包括一部带有摄像头的手机，通过对相机API的调用实现用手机来采集原始彩色图像数据，获取相机参数与位姿等，提取相机帧，实时处理图像流。服务器端侧利用PytorchMobile深度学习框架训练高效的、鲁棒的轻量化深度估计神经网络模型，训练完毕后通过torchscript从PyTorch代码创建可序列化和可优化模型的方法，进行模型的转换和模型的优化，处理模型并保存为为包括模型权重和模型解释器的.ptl格式。轻量化深度估计模型通过Java语言和Android Studio软件，将借助torchscript转换的模型文件导入进ARCore模块，在手机端侧运行推理，并用推理预测得到的深度图替换Depth API接口，实现数据流的输入输出。在手机端侧利用手机的有限算力，运行神经网络推理，生成与原始图像数据对应的预测深度图。在完成神经网络的深度信息预测之后，用生成的深度预测图替换ARCore调用depth API返回的深度图像，并在Unity中调用ARCore。先使用unity提供的渲染引擎，通过深度图生成场景的网格信息，渲染出代表深度信息的伪色彩图；接下来使用ARCore-depth-lab的部分功能，利用其unity场景的特效组件，将相应的特效添加到深度场景上。结合原始图像和预测的深度图，利用ARCore Depth Lab的AR交互功能和Unity开发示例实现不依赖于Depth API的Android手机端侧AR交互***。

请参阅图2，为利用本网络结构模型所测试的深度图效果。图2表示的是本发明引入的深度估计框架和轻量化深度估计网络模型对室内场景进行深度图构造的效果图，图中第一行和第三行是输入的RGB图像，第二行和第四行是采用本发明的网络所预测的对应深度图。在采用了多尺度融合的解码框架后，可以看到模型预测图的细节部分估计的较为准确，在有限的算力下恢复出场景的大部分三维信息。

请参阅图3，为本发明的采用的深度估计网络模型结构示意图。该网络模型采用EfficientNet作为编码器的主干网络提取图像特征，并通过在不同分辨率下构建图像金字塔，采用多尺度融合的解码器融合图像特征，最后通过一个残差卷积模块，解码预测图像对应的深度图。其中，残差卷积模块由一个Relu激活层、一个卷积核大小为3x3的卷积模块、一个Relu激活层、一个卷积核大小为3x3的卷积模块依次排列串联组成；多尺度融合模块接收当前特征分支和上一特征分支的特征图，并对上一特征分支通过残差卷积模块后的特征与当前分支的特征进行融合，然后依次连接一个相同结构的残差卷积模块、重采样模块、卷积核大小为1x1的卷积模块输出解码的特征。

请参阅图4，为利用本发明的技术方案在Android手机移动端实测的AR交互效果图。在运行深度图渲染后，模型能在短时间内完成场景的渲染，生成相应的伪彩色图。根据深度估计的结果，可以在手机端对准相应的物体，完成虚拟物体的放置。移动手机，该虚拟物体会随着场景做出相应的移动，实现三维信息的交互。

以上公开的本发明优选实施例仅用以说明本发明的技术方案而非限制。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于深度学习的Android手机端侧AR交互***，其特征在于：

首先，通过对相机API的调用实现用手机来采集原始彩色图像数据，利用PytorchMobile深度学习框架训练出的高效的、鲁棒的轻量化深度估计神经网络模型，在手机端侧利用手机的有限算力，运行神经网络推理，实时处理图像流，然后生成与原始图像数据对应的预测深度图。最后结合原始图像和预测的深度图，利用ARCore Depth Lab的AR交互功能和Unity实现AR交互功能。

2.根据权利要求1所述的基于深度学习的Android手机端侧AR交互***，其特征在于：所述手机***为Android***且版本为Android 8及其以上。

3.根据权利要求1所述的基于深度学习的Android手机端侧AR交互***，其特征在于：所述手机可使用CPU或者GPU完成神经网络推理，推荐使用高性能的芯片(如高通Snapdragon 865等)以实现高帧率的运行。

4.根据权利要求1所述的基于深度学习的Android手机端侧AR交互***，其特征在于：所述在手机端侧部署的轻量化深度估计模型，在服务器端训练完毕后通过torchscript从PyTorch代码创建可序列化和可优化模型的方法，进行模型的转换和模型的优化，保存的模型后缀为.ptl格式，模型文件信息包括模型权重和模型的解释器；

5.根据权利要求1所述的基于深度学习的Android手机端侧AR交互***，其特征在于：所述在手机端侧部署的轻量化深度估计方法，其实现步骤为：

S1.1：在服务器上训练模型，采用深度数据集训练模型权重；

S1.2：通过Pytorch Mobile转换模型，保存模型推理器

S1.3：通过Java编程，在Android Studio软件上将模型推理器

导入进ARCore模块；

S1.5：在手机端侧运行模型推理器

输出预测的深度图

S1.6：将预测的深度图I_Depth添加进数据流中，实现模块的封装；

6.根据权利要求1所述的基于深度学习的Android手机端侧AR交互***，其特征在于：所述轻量化深度估计神经网络模型算法，具体包括：

7.根据权利要求1所述的基于深度学习的Android手机端侧AR交互***，其特征在于：所述利用ARCore Depth Lab的AR交互功能和Unity实现AR交互功能的步骤为：