CN114758076A

CN114758076A - 一种用于建立三维模型的深度学习模型的训练方法及装置

Info

Publication number: CN114758076A
Application number: CN202210430966.3A
Authority: CN
Inventors: 张健
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-15

Abstract

本公开提供了一种用于建立三维模型的深度学***滑性损失；根据成像损失、模型一致性损失、运动平滑性损失调整深度学习模型的参数。本公开实现了对建立三维模型的深度学习模型的训练。

Description

一种用于建立三维模型的深度学习模型的训练方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉技术领域。

背景技术

随着人工智能的飞速发展，智能设备、智能应用等层出不穷，其中，具备高度个性化、智能化的三维交互设备、应用成为热门的研究之一。目前的三维交互常采用手势、人体姿态等交互方案实现设备、应用等与用户之间的交互，故而对于三维交互而言，对人手、人体等对象进行三维模型的实时重建和稳定跟踪是增强交互方案的可玩性、交互性等的关键。

发明内容

本公开提供了一种用于建立三维模型的深度学习模型的训练方法及装置。

根据本公开的一方面，提供了一种用于建立三维模型的深度学习模型的训练方法，包括：

获取第一样本图像数据及第二样本图像数据，其中，所述第一样本图像数据及所述第二样本图像数据中均包括样本对象；

将所述第一样本图像数据及所述第二样本图像数据输入深度学习模型中，得到所述样本对象的预测纹理和光照参数、预测对象模型化参数及预测相机坐标系变换参数，其中，所述预测对象模型化参数表示所述样本对象的形状、位置、尺度，所述预测相机坐标系变换参数表示第一相机坐标系与第二相机坐标系之间的坐标系变换参数，所述第一相机坐标系为相机采集所述第一样本图像数据时的相机坐标系，所述第二相机坐标系为相机采集所述第二样本图像数据时的相机坐标系；

根据所述预测纹理和光照参数，计算得到成像损失；

根据所述预测对象模型化参数，计算得到模型一致性损失；

根据所述预测相机坐标系变换参数，计算得到运动平滑性损失；

根据所述成像损失、所述模型一致性损失、所述运动平滑性损失调整所述深度学习模型的参数。

根据本公开的另一方面，提供了一种三维模型建立方法，包括：

获取第一图像数据，其中，所述第一图像数据中包括待构建三维模型的目标对象；

将所述第一图像数据输入到预先训练的深度学习模型中，基于所述深度学习模型中的特征提取网络，得到第一图像特征，其中，所述深度学习模型通过用于建立三维模型的深度学习模型的训练方法训练得到；

将所述第一图像特征输入到所述深度学习模型的纹理和光照预测网络中，确定所述目标对象的预测纹理和光照参数；

将所述第一图像特征输入到所述深度学习模型的模型化参数预测网络中，确定所述目标对象的预测对象模型化参数，其中，所述对象模型化参数表示所述目标对象的形状、位置、尺度；

基于所述纹理和光照参数及所述对象模型化参数，建立所述目标对象的三维模型。

根据本公开的又一方面，提供了一种用于建立三维模型的深度学习模型的训练装置，包括：

数据获取模块，用于获取第一样本图像数据及第二样本图像数据，其中，所述第一样本图像数据及所述第二样本图像数据中均包括样本对象；

参数获取模块，用于将所述第一样本图像数据及所述第二样本图像数据输入深度学习模型中，得到所述样本对象的预测纹理和光照参数、预测对象模型化参数及预测相机坐标系变换参数，其中，所述预测对象模型化参数表示所述样本对象的形状、位置、尺度，所述预测相机坐标系变换参数表示第一相机坐标系与第二相机坐标系之间的坐标系变换参数，所述第一相机坐标系为相机采集所述第一样本图像数据时的相机坐标系，所述第二相机坐标系为相机采集所述第二样本图像数据时的相机坐标系；

第一损失计算模块，用于根据所述预测纹理和光照参数，计算得到成像损失；

第二损失计算模块，用于根据所述预测对象模型化参数，计算得到模型一致性损失；

第三损失计算模块，用于根据所述预测相机坐标系变换参数，计算得到运动平滑性损失；

参数调整模块，用于根据所述成像损失、所述模型一致性损失、所述运动平滑性损失调整所述深度学习模型的参数。

根据本公开的又一方面，提供了一种三维模型建立装置，包括：

图像数据获取模块，用于获取第一图像数据，其中，所述第一图像数据中包括待构建三维模型的目标对象；

参数确定模块，用于将所述第一图像数据输入到预先训练的深度学习模型中，基于所述深度学习模型中的特征提取网络，得到第一图像特征，其中，所述深度学习模型通过用于建立三维模型的深度学习模型的训练装置训练得到；将所述第一图像特征输入到所述深度学习模型的纹理和光照预测网络中，确定所述目标对象的预测纹理和光照参数；将所述第一图像特征输入到所述深度学习模型的模型化参数预测网络中，确定所述目标对象的预测对象模型化参数，其中，所述对象模型化参数表示所述目标对象的形状、位置、尺度；

模型建立模块，用于基于所述纹理和光照参数及所述对象模型化参数，建立所述目标对象的三维模型。

本公开提供的获取第一样本图像数据及第二样本图像数据，其中，所述第一样本图像数据及所述第二样本图像数据中均包括样本对象；将所述第一样本图像数据及所述第二样本图像数据输入深度学***滑性损失；根据所述成像损失、所述模型一致性损失、所述运动平滑性损失调整所述深度学习模型的参数，从而实现了对用于建立三维模型的深度学习模型的训练。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开提供的一种用于建立三维模型的深度学习模型的训练方法的流程示意图；

图2是本公开提供的步骤S12的一种可能的实施方式；

图3是本公开提供的步骤S14的一种可能的实施方式；

图4是本公开提供的步骤S15的一种可能的实施方式；

图5是本公开提供的步骤S13的一种可能的实施方式；

图6是本公开提供的一种三维模型建立方法的流程示意图；

图7是本公开提供的一种用于建立三维模型的深度学习模型的训练装置的结构示意图；

图8是本公开提供的一种三维模型建立装置的结构示意图；

图9是用来实现本公开实施例的用于建立三维模型的深度学习模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

现有技术中，常基于深度学习技术建立三维模型，一种方式是通过特殊硬件设备采集所建模的对象(例如人手、人体)的RGB-D(RGB-Depth Map，深度图像)数据进行三维模型的建立(三维建模)；另一种方案则是基于所建模的对象的RGB(具有三个颜色通道的图像)数据和三维监督数据进行三维模型的建立。但这两种方案都存在一定的问题，其一依靠特殊硬件设备获得的深度数据进行三维建模，特殊设备往往价格不菲，不利于建模方案的普遍应用，这给实际应用此技术带来极大的不便。其二基于RGB图像数据的三维建模，无法考虑到对象在运动时的特点以及三维监督数据的获取难度，故而不仅会导致实际应用时三维建模结果存在运动抖动问题，还由于无法快速简便获取不同场景的三维监督数据而无法大规模应用在普适场景。

为了解决上述问题中的至少一项，本公开提供了一种用于建立三维模型的深度学习模型的训练方法，包括：

根据所述预测纹理和光照参数，计算得到成像损失；

根据所述预测对象模型化参数，计算得到模型一致性损失；

由上可见，本公开提供的用于建立三维模型的深度学***滑性损失，以此调整深度学习模型的参数，使得深度学习模型逐渐满足需求，实现更加准确地建立三维模型，与现有技术相比，既不需要使用难以大规模应用的特殊设备，也不需要采集难以获取的三维监督数据，为建立三维模型的大规模落地带来了可行性，提高了建立三维模型的普适性。

下面通过具体实施例对本公开提供的用于建立三维模型的深度学习模型的训练方法进行详细说明。

本公开实施例的方法应用于智能终端，可以通过智能终端实施，在实际使用过程中，该智能终端可以是电脑、手机等。

参见图1，图1为本公开提供的一种用于建立三维模型的深度学习模型的训练方法的流程示意图，包括：

步骤S11：获取第一样本图像数据及第二样本图像数据。

其中，所述第一样本图像数据及所述第二样本图像数据中均包括样本对象。

样本对象为需要建立三维模型的目标对象，例如，在对人手进行三维模型的建立时，样本对象为人手；在对人体进行三维模型的建立时，样本对象为人体。

第一样本图像数据和第二样本图像数据则均为用于训练建立三维模型的深度学习模型的已知的图像数据，其中均包括样本对象，且样本对象的信息也是已知的，例如样本对象的尺度、姿态等信息，用于作为用于建立三维模型的深度学习模型的训练结果的对比参照数据。

一个例子中，第一样本图像数据及第二样本图像数据是在一个包括样本对象的连续的样本视频数据中所截取连续的两帧图像数据，其各自对应的时刻是连续的。

步骤S12：将所述第一样本图像数据及所述第二样本图像数据输入深度学习模型中，得到所述样本对象的预测纹理和光照参数、预测对象模型化参数及预测相机坐标系变换参数。

其中，所述预测对象模型化参数表示所述样本对象的形状、位置、尺度，所述预测相机坐标系变换参数表示第一相机坐标系与第二相机坐标系之间的坐标系变换参数，所述第一相机坐标系为相机采集所述第一样本图像数据时的相机坐标系，所述第二相机坐标系为相机采集所述第二样本图像数据时的相机坐标系。

可以理解的是，样本对象中不同的位置可以具有不同的特征，例如样本对象的各处具有不同的纹理特征以及不同的光照信息等。针对样本对象的不同位置标记多个关键点，综合各关键点的特征即可表示样本对象所具有的复杂特征。

一个例子中，样本对象的关键点的数量以及关键点的选取均可以根据需求来确定，例如，当样本对象为人手时，可以对人手所具有的多个关节标记为多个关键点，综合多个关节对应的关键点的特征来表示人手所具有的复杂特征；也可以根据对建立人手的三维模型的实际需求选取多个具有不同特征的定点(例如，778个)作为关键点，综合各关键点的特征来表示人手所具有的复杂特征。

上述预测纹理和光照参数表示所预测的样本对象的纹理特征和光照信息。一个例子中，所预测的样本对象的纹理特征为上述样本对象的各关键点的RGB信息，可以表示为C＝{c_i∈R³|1≤i≤n}，C为预测的纹理特征，R为各关键点的RGB信息，i为各关键点，n则为关键点的总个数；光照信息则包括样本对象所受到的环境光照和方向光照，具体的，可以包括所受到的环境光密度、环境光颜色、方向光密度、方向光颜色、光方向等，此时光照信息可以表示为

其中l^a表示环境光密度，

表示环境光颜色，l^d表示方向光密度，

表示方向光颜色，n^d表示光方向。

上述预测对象模型化参数表示样本对象的形状、位置、尺度，用于表示样本对象的姿态、形状等，预测相机坐标系变换参数则表示第一相机坐标系与第二相机坐标系之间的坐标系变换参数，用于估计样本对象在相机坐标系中的尺度、旋转和平移等。一个例子中，第一样本图像数据及第二样本图像数据是在一个包括样本对象的连续的样本视频数据中所截取连续的两帧图像数据，则第一相机坐标系为相机采集第一样本图像数据的第一时刻下的相机坐标系，第二相机坐标系为相机采集第二样本图像数据的第二时刻下的相机坐标系。具体的，采集样本图像数据的相机可以为单目相机。

步骤S13：根据所述预测纹理和光照参数，计算得到成像损失。

根据预测纹理和光照参数所表示的样本对象的预测纹理特征和光照信息计算成像损失，即根据所预测的样本对象的纹理特征和光照信息所表示的样本对象所具有的特征，得到所预测的样本对象与样本图像数据中的真实的样本对象之间的成像差异。

步骤S14：根据所述预测对象模型化参数，计算得到模型一致性损失。

根据预测对象模型化参数表示样本对象的形状、位置、尺度计算模型一致性损失，即根据所预测的样本对象的形状、位置、尺度，得到所预测的样本对象与样本图像数据中的真实的样本对象之间的形状、位置、尺度的差异，具体的，所预测的样本对象为样本对象的三维模型，而样本图像数据为二维图像数据，则所得到的模型一致性损失为二维-三维之间的一致性损失，表示根据二维图像数据预测的三维模型与原二维图像数据之间形状、位置、尺度的差异。

步骤S15：根据所述预测相机坐标系变换参数，计算得到运动平滑性损失。

可以理解的是，采集样本图像数据的相机和样本对象都是存在运动情况的，尤其当第一样本图像数据及第二样本图像数据是在一个包括样本对象的连续的样本视频数据中所截取连续的两帧图像数据时，样本对象在第一样本图像数据和第二样本图像数据中可以具有运动的连贯性，则根据预测相机坐标系变换参数所表示的第一相机坐标系与第二相机坐标系之间的坐标系变换参数计算运动平滑性损失，用于提高所预测的样本对象在运动情况下的平滑性。

步骤S16：根据所述成像损失、所述模型一致性损失、所述运动平滑性损失调整所述深度学习模型的参数。

根据计算得到的成像损失、模型一致性损失、运动平滑性损失调整深度学***滑性。

本公开的一个实施例中，所述深度学习模型包括特征提取网络、纹理和光照预测网络、模型化参数预测网络、坐标系变换参数预测网络；

在一种可能的实现方式中，如图2所示，上述深度学习模型包括特征提取网络、纹理和光照预测网络、模型化参数预测网络、坐标系变换参数预测网络；

上述步骤S12将所述第一样本图像数据及所述第二样本图像数据输入深度学习模型中，得到所述样本对象的预测纹理和光照参数、预测对象模型化参数及预测相机坐标系变换参数，包括：

步骤S21：将所述第一样本图像数据及所述第二样本图像数据输入到所述特征提取网络中，得到第一图像特征及第二图像特征；

步骤S22：将所述第一图像特征及第二图像特征输入到所述纹理和光照预测网络中，得到所述样本对象的预测纹理和光照参数；

步骤S23：将所述第一图像特征及第二图像特征输入到所述模型化参数预测网络中，得到所述样本对象的预测对象模型化参数；

步骤S24：将所述第一图像特征及第二图像特征输入到所述坐标系变换参数预测网络中，得到所述预测相机坐标系变换参数。

在利用第一样本图像数据及第二样本图像数据，得到样本对象的预测纹理和光照参数、预测对象模型化参数及预测相机坐标系变换参数时，首先将第一样本图像数据及第二样本图像数据输入到预先设定的特征提取网络中，提取第一样本图像数据的第一图像特征，以及第二样本图像数据的第二图像特征，基于所得到的图像特征分别输入到预先设定的纹理和光照预测网络、模型化参数预测网络、坐标系变换参数预测网络中，分别得到样本对象的预测纹理和光照参数、预测对象模型化参数、预测相机坐标系变换参数。

上述特征提取网络、纹理和光照预测网络、模型化参数预测网络、坐标系变换参数预测网络均为根据实际需求而预先设定的网络，一个例子中，特征提取网络可以为Resnet(一种残差网络)、EfficientNet(一种卷积神经网络)等编码网络。纹理和光照预测网络、模型化参数预测网络、坐标系变换参数预测网络可以采用解码器+分类器的结构，还可以采用解码器+池化层+归一化层的结构，具体可以根据实际情况自定义设置。

一个例子中，当样本对象为人手时，上述模型化参数预测网络可以为MANO参数化模型(一种手部姿态参数估计模型)，则预测对象模型化参数为MANO人手参数。

由上可见，本公开提供的用于建立三维模型的深度学习模型的训练方法，利用均包括样本对象的第一样本图像数据及第二样本图像数据，分别输入到纹理和光照预测网络、模型化参数预测网络、坐标系变换参数预测网络，预测得到所需的三组参数，从而能够根据样本图像数据中的信息，稳定、快速地预测得到三维建模所需的参数，进而高效率地完成三维建模。

在一种可能的实现方式中，如图3所示，上述步骤S14根据所述预测对象模型化参数，计算得到模型一致性损失，包括：

步骤S31：基于所述预测对象模型化参数，在原图像数据的方向上进行二维投影，得到的二维投影关键点数据。

其中，所述原图像数据包括第一样本图像数据及第二样本图像数据的至少一种。

在得到预测对象模型化参数之后，可以基于此得到样本对象的三维模型，该三维模型为三维立体的样本对象，其具有多个方向上的平面。而第一样本图像数据和第二样本图像数据中的样本对象则为样本对象在一个方向上的二维平面。此时，对该三维模型在原图像数据方向上进行投影，即对三维立体的样本对象在第一样本图像数据和/或第二样本图像数据中的二维平面的方向上进行投影，并且对投影后的样本对象的各个位置选取多个关键点，得到二维投影关键点数据。

例如，当第一样本图像数据和/或第二样本图像数据中的样本对象为样本对象在俯视方向上的俯视图时，对三维立体的样本对象进行的俯视方向上的投影，将样本对象的俯视图中的各个位置作为多个关键点，得到二维投影关键点数据。

步骤S32：获取所述原图像数据中样本对象的二维关键点数据，得到真值二维关键点数据。

在得到二维投影关键点数据后，在第一样本图像数据和/或第二样本图像数据中，选取样本对象与二维投影关键点对应的各个关键点的数据，得到真值二维关键点数据。

步骤S33：根据所述真值二维关键点数据及所述二维投影关键点数据的差异，计算得到模型一致性损失。

上文提到，预测对象模型化参数用于表示样本对象的形状、位置、尺度，则样本对象的二维投影关键点数据可以表示所预测的样本对象的三维模型的形状、位置、尺度，真值二维关键点数据则为第一样本图像数据和/或第二样本图像数据中的样本对象的真实的形状、位置、尺度。

对比真值二维关键点数据及二维投影关键点数据的差异，即对比所预测的样本对象的形状、位置、尺度与真实的样本对象的形状、位置、尺度，所计算得到模型一致性损失表示原图像数据中二维的样本对象和预测得到的三维的样本对象的形状、位置、尺度之间的差异。

本公开的一个实施例中，按照以下公式，得到模型一致性损失：

其中，E_con为所述模型一致性损失，

为二维投影关键点数据中的第i个二维投影关键点的坐标，

为所述真值二维关键点数据中的第i个真值关键点的坐标，

表示对第i个二维投影关键点的坐标与第i个真值关键点的坐标计算L1平滑损失，k表示所述真值二维关键点数据中真值关键点的总个数。

基于模型一致性损失，可以调整特征提取网络、模型化参数预测网络中至少一个网络的参数。

由上可见，本公开提供的用于建立三维模型的深度学习模型的训练方法，利用样本对象的二维投影关键点与样本对象的真值二维关键点进行差异对比，使得模型一致性损失能够基于样本对象的多个关键点来计算得到，从而更加准确地得到模型一致性损失，表示原图像数据中二维的样本对象和预测得到的三维的样本对象之间的形状、位置、尺度的差异，进而调整模型参数，提高模型的准确度。

在一种可能的实现方式中，如图4所示，上述步骤S15根据所述预测相机坐标系变换参数，计算得到运动平滑性损失，包括：

步骤S41：基于所述预测对象模型化参数，确定所述样本对象的各关键点在所述第一相机坐标系中的第一三维坐标，以及确定所述样本对象的各关键点在所述第二相机坐标系中的第二三维坐标。

上文提到，第一相机坐标系为相机采集第一样本图像数据的第一时刻下的相机坐标系，则第一三维坐标为样本对象的各关键点在第一样本图像数据中的坐标；第二相机坐标系为相机采集第二样本图像数据的第二时刻下的相机坐标系，则第二三维坐标为样本对象的各关键点在第二样本图像数据中的坐标。

步骤S42：根据所述预测相机坐标系变换参数，将所述第一三维坐标转换到所述第二相机坐标系中，得到第三三维坐标。

预测相机坐标系变换参数为第一相机坐标系和第二相机坐标系之间的坐标系变换参数，则基于此可以将样本对象在第一相机坐标系中的第一三维坐标转换到第二相机坐标系中，得到与第一三维坐标对应的第三三维坐标。

步骤S43：根据所述第二三维坐标与所述第三三维坐标的差异，计算得到运动平滑性损失。

由上文可知，第二三维坐标与第三三维坐标在同一个相机坐标系即第二相机坐标系中，则可以直接计算第二三维坐标与第三三维坐标的位置差异，来得到样本对象在第一样本图像数据和第二样本图像数据中的位置差异，由于采集样本图像数据的相机和样本对象都是具有运动性的，则能够得到所预测的样本对象的运动平滑性损失。

本公开的一个实施例中，按照以下公式，得到所述运动平滑性损失：

其中，E_smooth为所述运动平滑性损失，

为所述样本对象的第i个关键点的第三三维坐标，

为所述样本对象的第i个关键点的第二三维坐标，

表示对第i个关键点的第三三维坐标与第i个关键点的第二三维坐标计算L1平滑损失(一种平滑损失函数)，k表示所述样本对象的关键点的总个数。

基于运动平滑性损失，可以调整特征提取网络、模型化参数预测网络、坐标系变换参数预测网络中至少一个网络的参数。

由上可见，本公开提供的用于建立三维模型的深度学***滑性损失能够基于样本图像在第一样本图像数据和第二样本图像数据中的位置差异而得到，从而更加准确地得到样本对象的运动平滑性损失，进而调整模型参数，提高模型的准确度。

在一种可能的实现方式中，如图5所示，上述步骤S13根据所述预测纹理和光照参数，计算得到成像损失，包括：

步骤S51：基于所述预测纹理和光照参数、所述预测对象模型化参数，渲染得到原图像数据的重构图像数据。

根据预测对象模型化参数，可以得到目标对象各关键点的位置，然后结合预测纹理和光照参数进行渲染，从而可以得到原图像数据的重构图像数据。

步骤S52：基于所述原图像数据及所述重构图像数据的差异，计算得到成像损失。

上述重构图像数据为样本对象的三维图像数据，根据所得到的样本对象的三维图像数据，与原图像数据中的样本对象的二维图像数据进行对比，所得到的差异即为所预测的样本对象的成像损失。

上述渲染得到重构图像数据可以基于任意三维渲染方式得到重构图像数据。

本公开的一个实施例中，根据所述原图像数据及所述重构图像数据，按照以下公式，得到成像损失：

其中，E_pixel表示所述成像损失，S^re表示所述重构图像数据中关键点集合，I_u,v表示所述原始图像数据中坐标为(u，v)的关键点的像素值，

表示所述重构图像数据中坐标为(u，v)的关键点的像素值，Z表示归一化参数，表示得到各关键点的像素值差异之后做平均运算。

基于成像损失，可以调整特征提取网络、纹理和光照预测网络、模型化参数预测网络中至少一个网络的参数。

由上可见，本公开提供的用于建立三维模型的深度学习模型的训练方法，在考虑到图像数据的纹理和光照的同时，基于原图像数据中样本对象的二维图像数据及重构图像数据中样本对象的三维图像数据之间的差异，来计算得到成像损失，使得重构图像数据更加准确地还原原图像数据，并且得到更加准确的成像损失，基于此调整模型参数，进一步提高模型的准确度。

参见图6，图6为本公开提供的一种三维模型建立方法的流程示意图，包括：

步骤S61：获取第一图像数据。

其中，所述第一图像数据中包括待构建三维模型的目标对象；

步骤S62：将所述第一图像数据输入到预先训练的深度学习模型中，基于所述深度学习模型中的特征提取网络，得到第一图像特征；

其中，所述深度学习模型通过上述任一用于建立三维模型的深度学习模型的训练装置训练得到。

步骤S63：将所述第一图像特征输入到所述深度学习模型的纹理和光照预测网络中，确定所述目标对象的预测纹理和光照参数；

步骤S64：将所述第一图像特征输入到所述深度学习模型的模型化参数预测网络中，确定所述目标对象的预测对象模型化参数。

其中，所述对象模型化参数表示所述目标对象的形状、位置、尺度。

步骤S65：基于所述纹理和光照参数及所述对象模型化参数，建立所述目标对象的三维模型。

上述第一图像数据为包括待构建三维模型的目标对象的图像数据，具体的，可以是一个包括目标对象的连续的视频数据中的两帧连续的图像数据。将第一图像数据输入到预先训练的深度学习模型中，则能够确定表示目标对象的纹理特征、光照信息的纹理和光照参数，以及表示目标对象的形状、位置、尺度的对象模型化参数，基于此建立目标对象的三维模型，得到三维立体的目标对象。

本公开的一个实施例中，所述深度学习模型为去除坐标系变换参数预测网络的深度学习模型。

坐标系变换参数预测网络用于在深度学***滑性损失，在深度学习模型训练完毕后，去除深度学习模型中的坐标系变换参数预测网络，利用去除坐标系变换参数预测网络之后的深度学习模型建立目标对象的三维模型。

得到的三维模型可以用于目标对象的识别、匹配、对象重建、姿态检测、二维图像生成等场景。一个例子中，若第一图像数据为一张包括人手的图像，待构建三维模型的目标对象为人手。将这张图像输入到预先训练的深度学习模型中，然后基于深度学习模型中的特征提取网络，得到人手的图像特征。再将人手的图像特征输入到深度学习模型的纹理和光照预测网络中，确定人手的预测纹理和光照参数；再将人手的图像特征输入到深度学习模型的模型化参数预测网络中，确定人手的预测对象模型化参数，对象模型化参数即表示人手的形状、位置、尺度。最后基于得到纹理和光照参数及对象模型化参数，建立人手的三维模型，所得到的人手的三维模型可以用于估计人的手部姿态等。

由上可见，本公开提供的三维模型建立方法，利用第一图像数据输入到预先训练的深度学习模型，确定纹理和光照参数及对象模型化参数，建立目标对象的三维模型，根据第一图像数据即可建立样本对象的三维模型，实现了高效率、低成本、普适性高的三维模型的建立。

参见图7，图7为本公开提供的一种用于建立三维模型的深度学习模型的训练装置的结构示意图，包括：

数据获取模块701，用于获取第一样本图像数据及第二样本图像数据，其中，所述第一样本图像数据及所述第二样本图像数据中均包括样本对象；

参数获取模块702，用于将所述第一样本图像数据及所述第二样本图像数据输入深度学习模型中，得到所述样本对象的预测纹理和光照参数、预测对象模型化参数及预测相机坐标系变换参数，其中，所述预测对象模型化参数表示所述样本对象的形状、位置、尺度，所述预测相机坐标系变换参数表示第一相机坐标系与第二相机坐标系之间的坐标系变换参数，所述第一相机坐标系为相机采集所述第一样本图像数据时的相机坐标系，所述第二相机坐标系为相机采集所述第二样本图像数据时的相机坐标系；

第一损失计算模块703，用于根据所述预测纹理和光照参数，计算得到成像损失；

第二损失计算模块704，用于根据所述预测对象模型化参数，计算得到模型一致性损失；

第三损失计算模块705，用于根据所述预测相机坐标系变换参数，计算得到运动平滑性损失；

参数调整模块706，用于根据所述成像损失、所述模型一致性损失、所述运动平滑性损失调整所述深度学习模型的参数。

本公开的一个实施例中，其中，所述深度学习模型包括特征提取网络、纹理和光照预测网络、模型化参数预测网络、坐标系变换参数预测网络；

所述参数获取模块706，具体用于：

将所述第一样本图像数据及所述第二样本图像数据输入到所述特征提取网络中，得到第一图像特征及第二图像特征；

将所述第一图像特征及第二图像特征输入到所述纹理和光照预测网络中，得到所述样本对象的预测纹理和光照参数；

将所述第一图像特征及第二图像特征输入到所述模型化参数预测网络中，得到所述样本对象的预测对象模型化参数；

将所述第一图像特征及第二图像特征输入到所述坐标系变换参数预测网络中，得到所述预测相机坐标系变换参数。

由上可见，本公开提供的用于建立三维模型的深度学习模型的训练装置，利用均包括样本对象的第一样本图像数据及第二样本图像数据，分别输入到纹理和光照预测网络、模型化参数预测网络、坐标系变换参数预测网络，预测得到所需的三组参数，从而能够根据样本图像数据中的信息，稳定、快速地预测得到三维建模所需的参数，进而高效率地完成三维建模。

本公开的一个实施例中，所述第二损失计算模块704，包括：

投影关键点获得子模块，用于基于所述预测对象模型化参数，在原图像数据的方向上进行二维投影，得到的二维投影关键点数据，其中，所述原图像数据包括第一样本图像数据及第二样本图像数据的至少一种；

真值关键点获得子模块，用于获取所述原图像数据中样本对象的二维关键点数据，得到真值二维关键点数据；

第二损失计算子模块，用于根据所述真值二维关键点数据及所述二维投影关键点数据的差异，计算得到模型一致性损失。

本公开的一个实施例中，所述第二损失计算子模块，具体用于：

按照以下公式，得到模型一致性损失：

其中，E_con为所述模型一致性损失，

为二维投影关键点数据中的第i个二维投影关键点的坐标，

为所述真值二维关键点数据中的第i个真值关键点的坐标，

由上可见，本公开提供的用于建立三维模型的深度学习模型的训练装置，利用样本对象的二维投影关键点与样本对象的真值二维关键点进行差异对比，使得模型一致性损失能够基于样本对象的多个关键点来计算得到，从而更加准确地得到模型一致性损失，表示原图像数据中二维的样本对象和预测得到的三维的样本对象之间的形状、位置、尺度的差异，进而调整模型参数，提高模型的准确度。

本公开的一个实施例中，所述第三损失计算模块705，包括：

三维坐标获得子模块，用于基于所述预测对象模型化参数，确定所述样本对象的各关键点在所述第一相机坐标系中的第一三维坐标，以及确定所述样本对象的各关键点在所述第二相机坐标系中的第二三维坐标；

三维坐标转换子模块，用于根据所述预测相机坐标系变换参数，将所述第一三维坐标转换到所述第二相机坐标系中，得到第三三维坐标；

第三损失计算子模块，用于根据所述第二三维坐标与所述第三三维坐标的差异，计算得到运动平滑性损失。

本公开的一个实施例中，所述第三损失计算子模块，具体用于：

按照以下公式，得到所述运动平滑性损失：

其中，E_smooth为所述运动平滑性损失，

为所述样本对象的第i个关键点的第三三维坐标，

为所述样本对象的第i个关键点的第二三维坐标，

表示对第i个关键点第三三维坐标与第i个关键点的第二三维坐标计算L1平滑损失，k表示所述样本对象的关键点的总个数。

本公开的一个实施例中，所述第一损失计算模块703，包括：

图像渲染子模块，用于基于所述预测纹理和光照参数、所述预测对象模型化参数，渲染得到原图像数据的重构图像数据，其中，所述原图像数据包括第一样本图像数据及第二样本图像数据的至少一种；

第一损失计算子模块，用于基于所述原图像数据及所述重构图像数据的差异，计算得到成像损失。

本公开的一个实施例中，所述第一损失计算子模块，具体用于：

根据所述原图像数据及所述重构图像数据，按照以下公式，得到成像损失：

其中，E_pixel表示所述成像损失，S^re表示所述重构图像数据中关键点集合，Z表示归一化参数，I_u,v表示所述原始图像数据中坐标为(u，v)的关键点的像素值，

表示所述重构图像数据中坐标为(u，v)的关键点的像素值。

由上可见，本公开提供的用于建立三维模型的深度学习模型的训练装置，在考虑到图像数据的纹理和光照的同时，基于原图像数据中样本对象的二维图像数据及重构图像数据中样本对象的三维图像数据之间的差异，来计算得到成像损失，使得重构图像数据更加准确地还原原图像数据，并且得到更加准确的成像损失，基于此调整模型参数，进一步提高模型的准确度。

参见图8，图8为本公开提供的一种三维模型建立装置的结构示意图，包括：

图像数据获取模块801，用于获取第一图像数据，其中，所述第一图像数据中包括待构建三维模型的目标对象；

参数确定模块802，用于将所述第一图像数据输入到预先训练的深度学习模型中，基于所述深度学习模型中的特征提取网络，得到第一图像特征，其中，所述深度学习模型通过上述任一用于建立三维模型的深度学习模型的训练装置训练得到；将所述第一图像特征输入到所述深度学习模型的纹理和光照预测网络中，确定所述目标对象的预测纹理和光照参数；将所述第一图像特征输入到所述深度学习模型的模型化参数预测网络中，确定所述目标对象的预测对象模型化参数，其中，所述对象模型化参数表示所述目标对象的形状、位置、尺度；

模型建立模块803，用于基于所述纹理和光照参数及所述对象模型化参数，建立所述目标对象的三维模型。

由上可见，本公开提供的三维模型建立装置，利用第一图像数据输入到预先训练的深度学习模型，确定纹理和光照参数及对象模型化参数，建立目标对象的三维模型，根据第一图像数据即可建立样本对象的三维模型，实现了高效率、低成本、普适性高的三维模型的建立。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

需要说明的是，本实施例中的人头模型并不是针对某一特定用户的人头模型，并不能反映出某一特定用户的个人信息。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如用于建立三维模型的深度学习模型的训练方法。例如，在一些实施例中，用于建立三维模型的深度学习模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的用于建立三维模型的深度学习模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行用于建立三维模型的深度学习模型的训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于建立三维模型的深度学习模型的训练方法，所述方法包括：

根据所述预测纹理和光照参数，计算得到成像损失；

根据所述预测对象模型化参数，计算得到模型一致性损失；

2.根据权利要求1所述的方法，其中，所述深度学习模型包括特征提取网络、纹理和光照预测网络、模型化参数预测网络、坐标系变换参数预测网络；

所述将所述第一样本图像数据及所述第二样本图像数据输入深度学习模型中，得到所述样本对象的预测纹理和光照参数、预测对象模型化参数及预测相机坐标系变换参数，包括：

3.根据权利要求1所述的方法，其中，所述根据所述预测对象模型化参数，计算得到模型一致性损失，包括：

基于所述预测对象模型化参数，在原图像数据的方向上进行二维投影，得到的二维投影关键点数据，其中，所述原图像数据包括第一样本图像数据及第二样本图像数据的至少一种；

获取所述原图像数据中样本对象的二维关键点数据，得到真值二维关键点数据；

根据所述真值二维关键点数据及所述二维投影关键点数据的差异，计算得到模型一致性损失。

4.根据权利要求3所述的方法，其中，所述根据所述真值二维关键点数据及所述二维投影关键点数据的差异，计算得到模型一致性损失，包括：

按照以下公式，得到模型一致性损失：

其中，E_con为所述模型一致性损失，

为二维投影关键点数据中的第i个二维投影关键点的坐标，

为所述真值二维关键点数据中的第i个真值关键点的坐标，

5.根据权利要求1所述的方法，其中，所述根据所述预测相机坐标系变换参数，计算得到运动平滑性损失，包括：

基于所述预测对象模型化参数，确定所述样本对象的各关键点在所述第一相机坐标系中的第一三维坐标，以及确定所述样本对象的各关键点在所述第二相机坐标系中的第二三维坐标；

根据所述预测相机坐标系变换参数，将所述第一三维坐标转换到所述第二相机坐标系中，得到第三三维坐标；

根据所述第二三维坐标与所述第三三维坐标的差异，计算得到运动平滑性损失。

6.根据权利要求5所述的方法，其中，所述根据所述第二三维坐标与所述第三三维坐标的差异，计算得到运动平滑性损失，包括：

按照以下公式，得到所述运动平滑性损失：

其中，E_smooth为所述运动平滑性损失，

为所述样本对象的第i个关键点的第三三维坐标，

为所述样本对象的第i个关键点的第二三维坐标，

表示对第i个关键点第三三维坐标与第i个关键点第二三维坐标计算L1平滑损失，k表示所述样本对象的关键点的总个数。

7.根据权利要求3所述的方法，其中，所述根据所述预测纹理和光照参数，计算得到成像损失，包括：

基于所述预测纹理和光照参数、所述预测对象模型化参数，渲染得到原图像数据的重构图像数据，其中，所述原图像数据包括第一样本图像数据及第二样本图像数据的至少一种；

基于所述原图像数据及所述重构图像数据的差异，计算得到成像损失。

8.根据权利要求7所述的方法，其中，所述基于所述原图像数据及所述重构图像数据的差异，计算得到成像损失，包括：

表示所述重构图像数据中坐标为(u，v)的关键点的像素值。

9.一种三维模型建立方法，包括：

将所述第一图像数据输入到预先训练的深度学习模型中，基于所述深度学习模型中的特征提取网络，得到第一图像特征，其中，所述深度学习模型通过权利要求1-8任一所述的方法训练得到；

10.根据权利要求9所述的方法，其中，所述深度学习模型为去除坐标系变换参数预测网络的深度学习模型。

11.一种用于建立三维模型的深度学习模型的训练装置，所述装置包括：

12.根据权利要求11所述的装置，其中，所述深度学习模型包括特征提取网络、纹理和光照预测网络、模型化参数预测网络、坐标系变换参数预测网络；

所述参数获取模块，具体用于：

13.根据权利要求11所述的装置，其中，所述第二损失计算模块，包括：

14.根据权利要求13所述的装置，其中，所述第二损失计算子模块，具体用于：

按照以下公式，得到模型一致性损失：

其中，E_con为所述模型一致性损失，

为二维投影关键点数据中的第i个投影关键点的坐标，

为所述真值二维关键点数据中的第i个真值关键点的坐标，

表示对第i个投影关键点的坐标与第i个真值关键点的坐标计算L1平滑损失，k表示所述真值二维关键点数据中真值关键点的总个数。

15.根据权利要求11所述的装置，其中，所述第三损失计算模块，包括：

16.根据权利要求15所述的装置，其中，所述第三损失计算子模块，具体用于：

按照以下公式，得到所述运动平滑性损失：

其中，E_smooth为所述运动平滑性损失，

为所述样本对象的第i个关键点第三三维坐标，

为所述样本对象的第i个关键点第二三维坐标，

17.根据权利要求13所述的装置，其中，所述第一损失计算模块，包括：

18.根据权利要求17所述的装置，其中，所述第一损失计算子模块，具体用于：

表示所述重构图像数据中坐标为(u，v)的关键点的像素值。

19.一种三维模型建立装置，包括：

参数确定模块，用于将所述第一图像数据输入到预先训练的深度学习模型中，基于所述深度学习模型中的特征提取网络，得到第一图像特征，其中，所述深度学习模型通过权利要求11-18任一所述的装置训练得到；将所述第一图像特征输入到所述深度学习模型的纹理和光照预测网络中，确定所述目标对象的预测纹理和光照参数；将所述第一图像特征输入到所述深度学习模型的模型化参数预测网络中，确定所述目标对象的预测对象模型化参数，其中，所述对象模型化参数表示所述目标对象的形状、位置、尺度；

20.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

21.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

22.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。