CN117994470B

CN117994470B - 一种多模态层次自适应的数字网格重建方法及装置

Info

Publication number: CN117994470B
Application number: CN202410410295.3A
Authority: CN
Inventors: 王宏升; 林峰
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2024-04-07
Filing date: 2024-04-07
Publication date: 2024-06-07
Anticipated expiration: 2044-04-07
Also published as: CN117994470A

Abstract

本说明书公开了一种多模态层次自适应的数字网格重建方法及装置，将待重建对象的目标模态的数据和目标文本输入特征增强模块，得到第一特征和第二特征，通过第一编码器和第二编码器以此得到第一目标特征和第二目标特征，进而，通过专家积模型将第一目标特征对应的第一正态分布和第二目标特征对应的第二正态分布融合，得到第三正态分布，根据第一正态分布、第二正态分布和第三正态分布，通过第一解码器和第二解码器得到第一数字网格属性和第二数字网格属性，进而以此重建得到待重建对象的三维数字网格。可见，通过上述方案，能够更好地利用不同模态的信息，增强整体的信息表征能力，从而提高三维网格重建任务的性能。

Description

一种多模态层次自适应的数字网格重建方法及装置

技术领域

本说明书涉及计算机技术领域，尤其涉及一种多模态层次自适应的数字网格重建方法及装置。

背景技术

近年来，数字人的三维数字网格重建技术得到了极大的发展，并且广泛应用于动画、游戏设计、电影制作、医学可视化、虚拟现实和增强现实等领域上。

传统的三维数字网格重建方案中，一般采用单模态数据进行三维网格的重建，如目标对象的多视角图像、或者点云、或者骨骼数据等。

但是，单模态数据包含的信息较少，无法提供更为准确的人体表面的结构。并且，单模态数据还可能受到噪声、遮挡等因素的影响，导致重建结果不准确或不完整。

基于此，本说明书提供了一种多模态层次自适应的数字网格重建方法。

发明内容

本说明书提供一种多模态层次自适应的数字网格重建方法及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种多模态层次自适应的数字网格重建方法，包括：

获取待重建对象的目标模态的数据，以及用于描述所述待重建对象的目标模态的数据的目标文本；所述目标模态的数据包括所述待重建对象的图像、点云、骨骼数据中的至少一种；

将所述目标模态的数据以及所述目标文本作为输入，输入到预先训练的特征增强模块，通过所述特征增强模块对齐所述目标模态的数据对应的特征和所述目标文本对应的特征，得到第一特征和第二特征；

根据所述第一特征和所述第二特征，通过第一编码器和第二编码器得到第一目标特征和第二目标特征；其中，所述第一目标特征侧重描述所述目标模态的数据，所述第二目标特征侧重描述所述目标文本；

根据所述第一目标特征得到第一正态分布，根据所述第二目标特征得到第二正态分布，并通过预先训练的专家积模型将所述第一正态分布和所述第二正态分布融合，得到第三正态分布；

根据所述第一正态分布、所述第三正态分布和第一解码器得到所述待重建对象的第一数字网格属性，并根据所述第二正态分布、所述第三正态分布和第二解码器得到所述待重建对象的第二数字网格属性；

根据所述第一数字网格属性和所述第二数字网格属性，重建得到所述待重建对象的三维数字网格。

本说明书提供了一种多模态层次自适应的数字网格重建装置，包括：

数据获取模块，用于获取待重建对象的目标模态的数据，以及用于描述所述待重建对象的目标模态的数据的目标文本；所述目标模态的数据包括所述待重建对象的图像、点云、骨骼数据中的至少一种；

特征增强模块，用于将所述目标模态的数据以及所述目标文本作为输入，输入到预先训练的特征增强模块，通过所述特征增强模块对齐所述目标模态的数据对应的特征和所述目标文本对应的特征，得到第一特征和第二特征；

目标特征确定模块，用于根据所述第一特征和所述第二特征，通过第一编码器和第二编码器得到第一目标特征和第二目标特征；其中，所述第一目标特征侧重描述所述目标模态的数据，所述第二目标特征侧重描述所述目标文本；

正态分布融合模块，用于根据所述第一目标特征得到第一正态分布，根据所述第二目标特征得到第二正态分布，并通过预先训练的专家积模型将所述第一正态分布和所述第二正态分布融合，得到第三正态分布；

数字网格属性确定模块，用于根据所述第一正态分布、所述第三正态分布和第一解码器得到所述待重建对象的第一数字网格属性，并根据所述第二正态分布、所述第三正态分布和第二解码器得到所述待重建对象的第二数字网格属性；

数字网格重建模块，用于根据所述第一数字网格属性和所述第二数字网格属性，重建得到所述待重建对象的三维数字网格。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多模态层次自适应的数字网格重建方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述多模态层次自适应的数字网格重建方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

本说明书提供的多模态层次自适应的数字网格重建方法中，将待重建对象的目标模态的数据和目标文本输入特征增强模块，得到第一特征和第二特征，通过第一编码器和第二编码器以此得到第一目标特征和第二目标特征，进而，通过专家积模型将第一目标特征对应的第一正态分布和第二目标特征对应的第二正态分布融合，得到第三正态分布，根据第一正态分布、第二正态分布和第三正态分布，通过第一解码器和第二解码器得到第一数字网格属性和第二数字网格属性，进而以此重建得到待重建对象的三维数字网格。可见，通过上述方案，能够更好地利用不同模态的信息，增强整体的信息表征能力，从而提高三维网格重建任务的性能。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种多模态层次自适应的数字网格重建方法的流程示意图；

图2为本说明书中一种多模态层次自适应的数字网格重建方法的流程示意图；

图3为本说明书中一种多模态层次自适应的数字网格重建方法的流程示意图；

图4为本说明书提供的一种多模态层次自适应的数字网格重建装置的示意图；

图5为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

另外，需要说明的是，本说明书中所有获取信号、信息或数据的动作都是在遵照所在地相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

需要说明的是，在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书提供的一种多模态层次自适应的数字网格重建方法的流程示意图。

S100：获取待重建对象的目标模态的数据，以及用于描述所述待重建对象的目标模态的数据的目标文本；所述目标模态的数据包括所述待重建对象的图像、点云、骨骼数据中的至少一种。

本说明书实施例中提供的一种多模态层次自适应的数字网格重建方法，该方法的执行过程可由用于数字网格重建的服务器等电子设备执行。另外，在执行该方法的过程中，所涉及到的训练完成的特征增强模块和专家积模型，执行前述模型的模型训练的电子设备和执行该方法的电子设备可以相同也可以不同，本说明书对此不做限定。

在人体计算机视觉中的三维网格重建任务中，单一模态的数据包含的信息较少，难以重建得到较为准确的三维网格。因此，本说明书中采用多模态数据执行三维网格重建任务。

具体的，待重建对象可以是人体对象或物体对象等可以进行三维网格重建的对象。目标模态的数据包括所述待重建对象的图像、点云、骨骼数据中的至少一种。其中，待重建对象的图像指的是通过图像采集设备（如相机）获得的待重建对象的RGB图像。待重建对象的点云是用于描述待重建对象表面上的点在三维空间中的三维坐标、颜色、强度或法线等三维数据结构。待重建对象的点云可通过深度相机采集深度图像转换得到，或激光雷达获取，本说明书对此不做限定。待重建对象的骨骼数据包括人体的关节位置和运动轨迹等信息，骨骼数据的采集方式可以运动摄像、光学捕捉***等现有的任意类型的采集方式，本说明书对此不做限定。

本说明书中，为了提升三维网格重建的准确性，采用基于多模态数据进行三维网格的重建的方式。在本说明书中采用的多模态数据中，一般都包括用于描述目标模态的数据的目标文本，也即文本模态的数据。至于多模态数据中的目标模态的数据，可以选择待重建对象的图像、点云、骨骼数据中的一种或多种。目标模态的数据的种类越多，提供的待重建对象的结构的信息越丰富，重建的三维网格的准确度越高，但势必增加多模态数据对齐的工作量和难度。因此，可根据具体的应用场景，灵活选用目标模态的数据，本说明书对实际采用的目标模态的数据的类型和数量不做限定。

S102：将所述目标模态的数据以及所述目标文本作为输入，输入到预先训练的特征增强模块，通过所述特征增强模块对齐所述目标模态的数据对应的特征和所述目标文本对应的特征，得到第一特征和第二特征。

具体的，多模态数据对齐指的是将来自不同模态的数据进行匹配和协调，以建立多模态数据之间的相关性和一致性，由于不同模态的数据包含了互补的信息视角，通过对齐多模态数据，可以将这些信息视角结合起来，提供更全面和多样化的待重建对象的表面结构的信息，从而增强本说明书中针对待重建对象的三维网格重建这一跨模态任务的性能。

在本说明书中，采用预先训练的特征增强模块分别从目标模态的数据以及目标文本中提取特征，并在特征空间中实现多模态对齐。因此，特征增强模块中至少包括用于提取目标文本的特征的文本编码器，以及用于提取目标模态的数据的特征的目标模态的编码器。特征增强模块在特征空间中进行多模态对齐的方式，可以是采用直接映射的方法将不同模态的特征映射到共享的特征空间中，以建立关联性的方式，还可以是利用有监督或无监督的学习方法，在多模态特征之间学习共享的特征表示，以实现多模态的特征的对齐，又或者是可以使用图模型的方案对不同模态的数据进行建模和联合推理，从实现特征对齐。

特征增强模块可以是基于训练样本和目标模态的训练数据，结合下游任务训练得到。

在本说明书中，特征增强模块可以基于目标模态的数据的特征和目标文本的特征进行对齐融合，得到的第一特征和第二特征，第一特征和第二特征可以是分别侧重描述不同模态的特征。

S104：根据所述第一特征和所述第二特征，通过第一编码器和第二编码器得到第一目标特征和第二目标特征；其中，所述第一目标特征侧重描述所述目标模态的数据，所述第二目标特征侧重描述所述目标文本。

将第一特征和第二特征输入到第一编码器，得到第一编码器输出的第一目标特征。将第一特征和第二特征输入第二编码器，得到第二编码器输出的第二目标特征。其中，第一目标特征侧重描述目标模态的数据，也即，在第一目标特征中，目标模态的数据对应的特征的占比较大，而目标文本对应的特征的占比较小。第二目标特征侧重描述目标文本，也即，在第二目标特征中，目标文本对应的特征的占比较大，而目标模态的数据对应的特征的占比较小。基于第一编码器和第二编码器得到侧重描述不同模态数据的第一目标特征和第二目标特征，能够有效的通过多层次的特征表征方案来对目标模态的数据和目标文本的多模态数据进行分层表征，实现细粒度的层次表达，便于后续三维网格重建时，构建出待重建对象更为精细和细节的三维网格。

S106：根据所述第一目标特征得到第一正态分布，根据所述第二目标特征得到第二正态分布，并通过预先训练的专家积模型将所述第一正态分布和所述第二正态分布融合，得到第三正态分布。

本说明书中，基于第一特征和第二特征最后得到待重建对象的第一数字网格属性和第二数字网格属性所采用的跨模态结构表征模块实际上是采用变分自编码器（Variational auto-encoder，VAE）的结构实现的。变分自编码器虽然是编码器-解码器的结构，但是通过编码器得到的code实际上是一个分布，从分布中采样然后输入到解码器中。

VAE通过概率编码器和解码器的框架来学习数据的潜在表示。在多模态学习中，希望捕获不同类型数据（如图像、文本等）之间的内在关系。为了做到这一点，可以借鉴VAE的思想，设立两种类型的空间：潜在空间和共享空间。其中，潜在空间是一个抽象的数学空间，它用于捕捉每种模态数据内部的独特特征。在这个空间中，每个数据点都有一个对应的潜在表示，这个表示是通过编码过程从原始数据中提取出来的，通常假设为高斯分布。私有潜在空间和共享潜在空间是用于捕获多模态数据中不同信息的两个部分。私有潜在空间包含特定模态的信息，而共享潜在空间则包含跨模态的共同信息。假设有一个多模态数据集，其中包括图像和文本。本说明书中，将这些数据分解为私有和共享的部分。在私有潜在空间中，每种模态都有独立的潜在变量。以目标模态的数据是待重建对象的图像为例，可以使用一个10维的私有潜在空间来捕获待重建对象的图像的特征。而对于目标文本，可以使用一个1维的私有潜在空间来捕获目标文本的嵌入表示。这些私有潜在变量专门用于捕获各自模态的特定信息。在共享潜在空间中有连续变量和离散变量。共享空间则是用来捕捉不同模态之间共有的、或者说是交互的特征。这个空间使得能够将不同模态的信息整合起来，寻找它们之间的联系。连续潜在变量用于捕获模态之间的共同变化因素，例如形状、颜色、比例、方向和位置等。而离散潜在变量则用于捕获从输入样本中提取的标签信息。

在本说明书中，编码器网络负责生成私有潜在空间的后验分布，也即，将第一编码器得到的第一目标特征转化为第一正态分布，将第二编码器得到的第二目标特征转化为第二正态分布，此时，第一正态分布依然侧重于描述目标模态的数据，第二正态分布仍然侧重于描述目标文本。

同时，编码器网络还负责生成共享潜在空间的后验分布，也即，将第一正态分布和第二正态分布进行融合得到第三正态分布。本说明书中，融合得到第三正态分布所采用的方式是专家积技术（Product of Experts，PoE），在多模态生成模型中，PoE用于估计共享连续潜在空间的联合分布的充分统计量。在本说明书中，共享的连续潜在空间中捕获了各个模态之间的共同变化因素。为了能够生成新的多模态数据样本，需要对这个连续潜在空间进行建模。专家积技术可以通过将多个子模型（或专家）组合起来，每个子模型负责生成潜在空间的一个子集。然后使用这些子模型生成的样本来估计整个连续潜在空间的分布。通过使用专家积技术，可以更好地捕捉到共享连续潜在空间中的变化因素，提高生成样本的多样性和质量。

基于此，本说明书中，将所述第一正态分布和所述第二正态分布输入到预先训练的专家积模型，通过所述专家积模型中多个子模型得到所述第一正态分布对应的条件概率分布，以及所述第二正态分布对应的条件概率分布。之后，基于所述第一正态分布对应的条件概率分布，与所述第二正态分布对应的条件概率分布的乘积，确定第三正态分布。

实际应用中，每个子模型（专家）被定义为输入空间上的一个概率模型。而目标文本和每种单独的目标模态的数据都是确定最终的数字网格属性所需要满足的约束条件，因此满足所有约束的数字网格属性即为满足每个约束集合的交集。假设每种约束的联合条件概率分布都服从高斯分布，就用单条件概率分布的乘积来表述交集的分布。在此条件下，为了使乘积分布在一个区域具有高密度，每个单独的分布需要在该区域具有高密度，从而满足每个约束。为此，本说明书中，通过预先训练的专家积模型中的多个子模型，分别得到第一正态分布对应的条件概率分布和第二正态分布对应的条件概率分布，之后，基于单条件概率分布的乘积来表述交集的分布的思想，将第一正态分布对应的条件概率分布和第二正态分布对应的条件概率分布进行乘积，得到第三正态分布，第三正态分布即为第一正态分布和第二正态分布的交集，因此，将第三正态分布作为第一正态分布和第二正态分布融合的结果。

对于每个模态（例如文本和图像），使用独立的变分自编码器来学习该模态的私有潜在空间表示。每个VAE都假设潜在空间遵循正态分布，并通过编码器网络将原始数据映射到这个潜在空间。除了私有潜在空间，还定义一个共享潜在空间，用于捕捉跨模态的共同特征。共享潜在空间也是通过正态分布来建模的，但其参数是由所有模态的编码器共同决定的。

具体地，每个独立模态的潜在空间是通过正态分布的假设进行建模，经过变分自编码器得到的分布存在于私有潜在空间，传统思路是直接传递给解码器进行逆映射。的方法是将多个编码器-解码器架构进行纵向叠加，使用多个变分自编码器来学习每个模态的独立表征。

在推理网络中，使用PoE方法来融合来自不同模态的信息。PoE的核心思想是将每个模态的后验分布视作一个“专家”，然后将这些专家的知识结合起来形成一个统一的联合后验分布q(z|x1,x2)。这可以通过取各个专家分布的乘积并归一化来实现，从而得到一个更为精确的跨模态联合分布，每个专家负责生成潜在空间的一个子集，然后使用这些专家生成的样本来估计整个连续潜在空间的分布。对于共享离散潜在空间，可以采用平均集合方法。

编码器网络除了生成私有和共享潜在空间的后验分布外，还可以提供目标标签的估计。这对于监督学习任务尤其重要，因为它允许模型利用标签信息来改善潜在空间的学习。

其中，对于连续潜在空间，PoE可以直接应用。对于离散潜在空间，可能需要采用其他集成方法，如平均或者投票机制，来整合不同模态的信息。

S108：根据所述第一正态分布、所述第三正态分布和第一解码器得到所述待重建对象的第一数字网格属性，并根据所述第二正态分布、所述第三正态分布和第二解码器得到所述待重建对象的第二数字网格属性。

本说明书中，解码器网络负责从融合后的潜在空间（包括私有和共享空间）重构原始多模态数据，以重建每个模态的原始数据，得到待重建对象的数字网格属性。从变分自编码器的共享潜在空间和私有潜在空间形成的正态分布中分别采样，然后进行交叉输入。如经过PoE之后的第三正态分布采样输出到私有潜在空间中，表示共享空间对私有空间施加的影响。

基于此，通过第一编码器结合私有潜在空间中的第一正态分布和共享潜在空间中的第三正态分布进行重构，得到待重建对象的第一数字网格属性。并且，通过第二编码器结合私有潜在空间中的第二正态分布和共享潜在空间中的第三正态分布进行重构，得到待重建对象的第二数字网格属性。

本说明书中，数字网格属性是用于重建和定义待重建对象的三维数字网格的重要信息，数字网格属性可以包括待重建对象的三维数字网格的位置信息、几何信息、表面特征、纹理信息等。其中，数字网格属性中的位置信息可以是三维数字网格每个顶点的坐标位置信息，用于确定每个顶点在三维空间中的位置。此外，还可以附加的属性信息，如法线（用于表征面的朝向）、颜色、纹理坐标等。数字网格属性中的几何信息可以包括三维数字网格的各顶点之间的连接关系，主要用于描述三维数字网格的拓扑结构。数字网格属性中的表面特征可以是由多个相连的边组成的面的信息，如待重建对象三维数字网格表面的朝向、纹理、材质（反射率、光滑度）等信息。

可以理解的是，由于得到第一正态分布所采用的第一目标特征就是侧重于描述目标模态的数据，因此，基于第一正态分布重构得到的第一数字网格属性也同样侧重于目标模态的数据。同样的，由于得到第二正态分布所采用的第二目标特征是侧重于描述目标文本，因此，基于第二正态分布重构得到的第二数字网格属性也同样侧重于目标文本。

S110：根据所述第一数字网格属性和所述第二数字网格属性，重建得到所述待重建对象的三维数字网格。

由于第一数字网格属性中包含的属性信息更贴合目标模态的数据，而第二数字网格属性中包含的属性信息更贴合目标文本，如果仅基于第一数字网格属性确定待重建对象的三维数字网格，则该三维数字网格更符合目标模态的数据所描述的待重建对象。同理，如果仅基于第二数字网格属性确定待重建对象的三维数字网格，则该三维数字网格更符合目标文本所描述的待重建对象。

由此，本说明书中，结合第一数字网格属性和第二数字网格属性，综合确定待重建对象的三维数字网格，使得重建得到的三维数字网格既符合目标模态的数据描述的待重建对象，也符合目标文本描述的待重建对象，从而更贴近于客观的待重建对象，提升待重建对象的三维数字网格的精确度。

本说明书中基于第一数字网格属性和第二数字网格属性重建得到待重建对象的三维数字网格的方式可以是现有的任意类型的三维数字网格重建方式，本说明书对此不做限定。

本说明提供的多模态层次自适应的数字网格重建方法中，将待重建对象的目标模态的数据和目标文本输入特征增强模块，得到第一特征和第二特征，通过第一编码器和第二编码器以此得到第一目标特征和第二目标特征，进而，通过专家积模型将第一目标特征对应的第一正态分布和第二目标特征对应的第二正态分布融合，得到第三正态分布，根据第一正态分布、第二正态分布和第三正态分布，通过第一解码器和第二解码器得到第一数字网格属性和第二数字网格属性，进而以此重建得到待重建对象的三维数字网格。可见，通过上述方案，能够更好地利用不同模态的信息，增强整体的信息表征能力，从而提高三维网格重建任务的性能。

在本说明书一个或多个实施例中，如图1所示步骤S102具体可通过下述实施方式实现，如图2所示：

S200：将所述目标模态的数据输入到所述特征增强模块中目标模态的编码器，得到所述目标模态的数据对应的初始特征。

S202：将所述目标模态的数据对应的初始特征输入到向量量化模块，得到所述目标模态的数据对应的离散化特征向量，作为所述目标模态的数据的目标特征。

向量量化本身是一种将连续变量离散化的技术，通过对输入信号进行采样、量化、编码等步骤，将连续的信号转换为离散的矢量表示。这种表示方法具有高效的数据压缩能力和信号处理的鲁棒性，它通过在高维空间中寻找划分边界，并将每个向量映射到与之最接近的划分边界的代表向量上来实现向量的压缩和表征。由于向量之间的相似性往往反映了它们代表的实际对象或概念之间的相似性，因此向量量化在图像、语音、视频等领域中有广泛应用。在图像领域，向量量化被广泛用于图像压缩、图像检索和图像分类等任务。在图像压缩中，向量量化通过使用代表向量来近似原始像素值，从而将图像压缩至更小的尺寸。在图像和分类中，向量量化可以用来将图像表示为代表向量的集合，并通过计算不同向量之间的距离来衡量图像之间的相似性。

针对目标模态的数据是待重建对象的图像，本说明书中通过 Transformer 编码器提取视觉特征，然后经过向量量化思想对连续变量进行离散化，通过在高维空间中寻找划分边界，并将每个向量映射到与之最接近的划分边界的代表向量上来实现向量的压缩和表征。同理，针对目标模态的数据是待重建对象的点云、骨骼数据等，也可以通过相应的目标模态的编码器得到目标模态的数据的初始特征，进而进行向量量化，得到目标模态的数据的目标特征。

向量量化(VQ)是一种用于减少数据维度的技术，它可以将高维空间中的向量映射到低维空间，从而减少数据存储和计算量。其主要步骤如下：

1、初始化聚类中心：首先从数据集中随机选择一些向量作为初始的聚类中心。

2、分配样本到聚类中心：对于每个样本向量，计算它与各个聚类中心的距离，将它分配给距离最近的聚类中心。

3、更新聚类中心：对于每个聚类，计算其包含的样本向量的均值作为新的聚类中心。

4、重复迭代：重复进行样本分配和聚类中心更新，直到聚类中心不再发生变化或者达到预设的迭代次数。

需要注意的是，如果目标模态的数据包括多种数据，则可以针对每种目标模态的数据，通过该种目标模态的编码器，得到该种目标模态的数据的初始特征，之后，将该种目标模态的数据的初始特征输入向量量化模块，得到该种目标模态的数据对应的离散化特征向量，将各种目标模态的数据的离散化特征向量进行融合，得到目标模态的数据的目标特征。

S204：将所述目标文本输入到所述特征增强模块中文本编码器中，得到所述目标文本对应的文本特征。

针对目标文本，可以基于文本编码器得到目标文本对应的文本特征，文本编码器可以是现有的任意类型的将文本数据转换为计算机可理解和处理的向量或矩阵表示的模型结构，如词袋模型、Word2Vec、Transformer、LSTM、BERT等，本说明书对此不做限定。

其中，文本特征还可以基于知识增强的方式得到，从而进一步提升文本特征的精度，具体的：

第一步：获取包含所述目标文本的知识图谱，所述知识图谱中各节点分别对应于各文本，所述各节点之间的边对应于所述各文本之间的关联关系。

第二步：获取所述目标文本的原始特征，以及获取所述目标文本对应的节点在所述知识图谱中各邻居节点的原始特征。

第三步：根据所述目标文本的原始特征、所述各邻居节点的原始特征，以及所述目标文本对应的节点与所述各邻居节点之间的关联关系，更新所述目标文本的原始特征，得到所述目标文本的文本特征。

针对目标文本，使用知识图谱构建词汇之间的语义关系，是因为文本之间的天然联系能够被知识图谱刻画，并运用到后续的多模态特征对齐过程中，在一定程度上避免模型出现归纳偏差问题。另外，通过知识图谱模型能够识别出常见词和偏僻词，在和目标模态的数据的目标特征进行对齐时能够同时考虑备选标签的出现频次，从而实现更加精准的预测结果。

S206：确定所述目标特征与所述文本特征之间的相似性，并基于确定出的相似性、所述目标特征和所述文本特征得到第一特征和第二特征。

由于目标模态的数据和目标文本不是相同模态的数据，将目标模态的数据的目标特征和目标文本的文本特征进行融合需要将二者进行对齐。为了实现跨模态的表达以及多模态对齐，本说明书中，确定第一特征和第二特征可以采用CLIP、ViLT等多模态对齐框架，将目标模态的数据和目标文本映射到一个共享的向量空间中，从而理解目标模态的数据和目标文本之间的语义关系。本说明书中对目标模态的数据和目标文本的对齐所采用的架构不做限定，可以是双塔模型也可以是单塔模型。

另外，还可以在融合目标特征和文本特征时结合二者之间相似性进行融合，使得融合得到的第一特征更倾向于描述目标模态的数据，而第二特征更倾向于描述目标文本。

本说明书中，层次自适应的多模态学习主要目标是从多个模态（例如图像、文本、点云等）中提取有意义的表示，并通过层次自适应的方式进行特征融合和知识传递。向量量化表达可以有效地减少特征维度，并且在多模态数据中实现特征的对齐和融合。此外，知识增强视角也是层次自适应的多模态学习的关键概念之一。它通过引入额外的监督信息或先验知识来改善多模态学习的性能。

其中，S102以及上述图2所示实施方式所采用的特征增强模块可基于下述实施方式预先训练得到，如图3所示：

S300：获取目标模态的多个训练数据，并获取分别用于描述所述多个训练数据的多个训练文本。

与前述S100类似，此处不做赘述。

S302：通过待训练的特征增强模块，确定所述多个训练数据的特征，以及所述多个训练文本的特征。

待训练的特征增强模块中包含待训练的目标模态的编码器和待训练的文本编码器，可以分别得到训练数据的特征和训练文本的特征。其中，待训练的目标模态的编码器可以是利用目标模态的其他数据预先训练过，也可以从未训练过，文本编码器同理，可以是基于其他领域的文本预先训练也可以是从未训练过，本说明书对此不做限定。

S304：确定所述目标模态的各个训练数据的特征与各个训练文本的特征之间的各特征相似度。

零样本学习中应用最广泛的中间语义表征属性。人造属性以类别属性矩阵的形式存在，其中每个元素都表明一个类是否有属性。相对属性捕获了语义关系，它度量了未见类的每个属性的相对强度。数据驱动属性是从视觉图像中自动发现的一种有区别的表示，但是，这是不可解释的。单词嵌入最近被引入作为属性的***式替换，目前可以有效地在大型文本语料库中进行训练。零样本特征辨别模型有两种方法，一种是学习每个属性的属性分类器，通过特征选择方法（如LASSO法）来提高分类器的鲁棒性；另一种是学习图像特征和属性之间的映射，包括将视觉特征映射到中间表征的空间、将中间表征映射到视觉特征的空间以及将视觉特征和中间表征映射到共同的潜在空间。近期研究还使用语义属性作为条件生成图像特征，并通过监督方式对生成的图像特征进行分类器训练。

在零样本学习中，视觉和语义域之间的关系通过学习嵌入空间中的语义向量和视觉特征相互作用来确定。学习这样的嵌入空间有三种方法，包括直接映射、模型参数传递和公共空间学习。直接映射学习从视觉特征到语义表示的映射，但受到视觉领域可变性和中心性问题的限制。模型参数传递在可视空间中传递未知类的模型参数，但忽略了看不见的类之间的关系。公共空间学习一个共享的表征空间，通过双向对齐知识进行知识转移，避免了直接映射和模型参数传递问题。

具体的，本说明书中，采用双塔模型架构的CLIP，以目标模态的数据为训练数据是图像为例，双塔即一个视觉Encoder建模图片信息，一个文本Encoder建模文本信息，图像和文本的特征向量可以预先计算和存储，模态交互是通过图像和文本特征向量的余弦相似度来处理。CLIP可以处理多模态检索任务，但无法处理复杂的分类任务。CLIP是从头训练它的文本编码器和图像编码器，同时使用线性投影将每个编码器的表征映射到多模态的嵌入空间。

本说明书中，确定各个训练数据的特征分别和各个训练文本的特征之间的相似度的方式，可以是现有的任意类型的特征相似度确定方式，如余弦相似度、欧式距离等。

对于目标模态的多个训练数据和多个训练文本而言，若以目标模态的各个训练数据的特征为I1，I2，……In，训练文本的特征为T1，T2，……Tn，其中，（Ij，Tj）属于正样本，即，训练文本的特征Tj对应的训练文本所描述的实际上是训练数据的特征Ij对应的目标模态的训练数据。由此，（Ij，Tk）均为负样本。

基于目标模态的多个训练数据的特征和多个训练文本的特征构建n×n的相似度矩阵如下所示：

S306：针对所述目标模态的每个训练数据，将所述各特征相似度中，该训练数据的特征与用于描述该训练数据的训练文本的特征之间特征相似度作为该训练数据的第一特征相似度。

如前所述，在上述n×n的相似度矩阵中，处于对角线上的是（Ij，Tj），其属于正样本，Ij对应目标模态的训练数据的特征， Tj对应描述该目标模态的训练数据的训练文本的特征。因此，（Ij，Tj）即为本步骤中确定出的训练数据的第一特征相似度。

S308：将所述各特征相似度中，除该训练数据的第一特征相似度之外的其他特征相似度，作为该训练数据的第二特征相似度。

如前所示，（Ij，Tj）为该训练数据的第一特征相似度，则除（Ij，Tj）外的其他特征相似度，实际上是上述n×n的相似度矩阵中，除（Ij，Tj）之外的其余（n2-n）个特征相似度均为该训练数据的第二特征相似度。

S310：以所述第一特征相似度的最大化、各第二特征相似度的最小化为训练目标，训练所述特征增强模块。

CLIP实现零样本分类的范式如下。在零样本分类任务中，模型使用预训练的知识来识别它从未明确见过的类别。第一步是根据任务的分类标签构建每个类别的描述文本：Aphoto of{label},然后将这些文本送入文本编码器得到对应的文本特征，如果类别数目为N,那么将得到N个文本特征；第二步是将要预测的图像送入图像编码器得到图像特征，然后与N个文本特征计算缩放的余弦相似度（和训练过程一致），然后选择相似度最大的文本对应的类别作为图像分类预测结果，进一步地，可以将这些相似度看成logits，送入softmax激活函数后可以到每个类别的预测概率。假设一个batch中共有N对<图像，文字>对，那么它们过完各自的Encoder后，就会分别产生目标模态的各个训练数据的特征为[I1，I2，……In]，训练文本的特征为[T1，T2，……Tn]。

这两组向量将会分别过一次多模态嵌入，还有一层参数Wt，文本向量需要先和Wt做矩阵相乘后，才能得到最终的文字向量。对视觉向量同理。Wt、Wi的作用是把文字、图片特征投影到多模态的特征空间中去。经过多模态Emebdding的处理，我们得到了最终的[T1，T2，……Tn]和[I1，I2，……In]。接下来，我们就能通过对比学习，找到图像和文字的相似关系。对于图中列出的N*N个格子，只需计算每个格子上对应的向量点积（余弦相似度）。由于对角线上的图片-文字对是真值，故希望对角线上的相似度可以最大，据此我们可设置交叉熵函数，来求得每个batch下的损失。

进一步的，在基于第一特征相似度和第二特征相似度训练特征增强模块时，还可以通过下述方案进一步提升训练性能，具体方案如下：

第一步：将该训练数据的第二特征相似度中，基于该训练数据的特征与所述多个训练文本的特征中除用于描述该训练数据的训练文本外的各训练文本的特征确定的特征相似度作为该训练数据的第三特征相似度。

如前所述，第三特征相似度在上述n×n的相似度矩阵中，实际上是每一行中除了对角线上的特征相似度之外的其他特征相似度，例如在第一行中，对于I1这一训练数据的特征而言，该训练数据的第三特征相似度实际上是[I1T2，I1T3，……I1Tn]。

第二步：根据该训练数据的第一特征相似度，与该训练数据的第三特征相似度之间的差异确定第一相似度损失。

第一相似度损失实际上是在上述按行计算损失，这个损失的意义是，对于目标模态的每个训练数据（以图像为例），希望找到与其最相似的训练文本。

第三步：将该训练数据的第二特征相似度中，基于用于描述该训练数据的训练文本的特征与所述目标模态的多个训练数据中除该训练数据的特征外的其他训练数据的特征确定的特征相似度作为该训练数据的第四特征相似度。

那么基于上述思想，还可以按列计算损失，也即，将上述n×n的相似度矩阵中，每一列中除了对角线上的特征相似度之外的其他特征相似度作为该训练数据的第四特征相似度，例如在第一列中，对于I1这一训练数据的特征而言，该训练数据的第四特征相似度实际上是[I2T1，I3T1，……InT1]。

第四步：根据该训练数据的第一特征相似度，与该训练数据的第四特征相似度之间的差异确定第二相似度损失。

第一相似度损失实际上是在上述按列计算损失，这个损失的意义是，对于每个训练文本，希望找到与其最相似的目标模态的训练数据。

第五步：根据所述第一相似度损失和所述第二相似度损失确定总损失，并以所述总损失的最大化为训练目标，训练所述特征增强模块。

之后，将第一相似度损失和第二相似度损失相加取平均（或加权平均）就可以得到总损失，以总损失的最大化为训练目标，在训练特征增强模块的过程中考虑了“目标模态的训练数据→训练文本”和“训练文本→目标模态的训练数据”的双向关系。

在本说明书一个或多个实施例中，前述专家积模型可基于下述方案训练得到，具体的：

第一步：获取训练样本对，所述训练样本对包括目标模态的训练数据和用于描述所述目标模态的训练数据的训练文本。

与前述S100和S300类似，此处不赘述。

第二步：对所述训练样本对中目标模态的训练数据的特征和训练文本的特征进行对齐，并根据所述第一编码器和所述第二编码器，得到第一训练特征和第二训练特征。

目标模态的训练数据的特征和训练文本的特征进行对齐的方式参照上述图1所示102，第一训练特征和第二训练特征参照上述图1所示步骤S104。

第三步：基于所述第一训练特征得到第一待优化分布，基于所述第二训练特征得到第二待优化分布。

第四步：通过待训练的专家积模型中多个子模型得到所述第一待优化分布对应的条件概率分布，以及所述第二待优化分布对应的条件概率分布，并基于所述第一待优化分布对应的条件概率分布，以及所述第二待优化分布对应的条件概率分布的乘积得到第三待优化分布。

第五步：根据所述第一训练特征和第二训练特征得到目标标签。

具体的，编码器网络负责生成私有和共享潜在空间的后验分布，并提供目标标签的估计。尤其是离散潜在变量则用于捕获从输入样本中提取的标签信息。

在训练过程中，如果目标标签对应的输入模态存在，就会计算目标标签损失。目标标签损失是通过计算目标标签与离散潜变量之间的二元交叉熵损失(BC)来衡量的。如果存在多个模态对应的样本以及目标标签，会利用各个推理网络的预测结果进行统计集成，以提高分类准确性。

第六步：根据第一待优化分布和所述目标标签之间的差异、所述第二待优化分布和所述目标标签之间的差异、所述第三待优化分布和所述目标标签之间的差异，确定第一损失。

第七步：根据所述第一待优化分布、所述第一待优化分布、所述第二待优化分布、第一编码器和第二编码器，得到所述训练样本对对应的预测数字网格。

第八步：获取所述训练样本对对应的标签数字网格，并根据所述训练样本对对应的预测数字网格和所述训练样本对对应的标签数字网格之间的差异，确定第二损失。

第九步：基于所述第一损失和所述第二损失，训练所述专家积模型。

本说明书中，基于向量量化的、CLIP指导文本进行视觉语义原型的多模态细粒度潜在表示空间模型应用到3D人体网格重建任务中。通过层次自适应的多模态学习方法，可以更好地利用不同模态的信息，提高三维人体网格重建任务的性能。这种方法可以使模型更具适应性和泛化能力，并且能够从多模态数据中获得更全面和准确的人体重建结果。该模型结合了图像、文本和语音等多种类型数据，并使用向量量化提取不同类型数据的特征向量进行编码和解码，该模型可以高效地处理多种类型的数据，并具有较好的表达效率。细粒度层次表征空间是指通过多层次的特征提取和表征来对图像、语音、视频等多模态信息进行分层表征的方法。在视觉领域中，细粒度层次表征空间主要用于解决细粒度分类问题。这种分类问题指的是具有相似外观和结构但细节差异较大的物体之间的分类问题，例如鸟类、花卉、车辆等。由于这些物体之间的差异很小，传统的计算机视觉方法往往难以区分它们。因此，细粒度层次表征空间通过提取这些物体的局部特征并将其组合成高层次的特征来实现更准确的分类。

以上为本说明书的一个或多个实施例提供的多模态层次自适应的数字网格重建方法，基于同样的思路，本说明书还提供了相应的多模态层次自适应的数字网格重建装置，如图4所示。

图4为本说明书提供的一种多模态层次自适应的数字网格重建装置示意图，具体包括：

数据获取模块400，用于获取待重建对象的目标模态的数据，以及用于描述所述待重建对象的目标模态的数据的目标文本；所述目标模态的数据包括所述待重建对象的图像、点云、骨骼数据中的至少一种；

特征增强模块402，用于将所述目标模态的数据以及所述目标文本作为输入，输入到预先训练的特征增强模块，通过所述特征增强模块对齐所述目标模态的数据对应的特征和所述目标文本对应的特征，得到第一特征和第二特征；

目标特征确定模块404，用于根据所述第一特征和所述第二特征，通过第一编码器和第二编码器得到第一目标特征和第二目标特征；其中，所述第一目标特征侧重描述所述目标模态的数据，所述第二目标特征侧重描述所述目标文本；

正态分布融合模块406，用于根据所述第一目标特征得到第一正态分布，根据所述第二目标特征得到第二正态分布，并通过预先训练的专家积模型将所述第一正态分布和所述第二正态分布融合，得到第三正态分布；

数字网格属性确定模块408，用于根据所述第一正态分布、所述第三正态分布和第一解码器得到所述待重建对象的第一数字网格属性，并根据所述第二正态分布、所述第三正态分布和第二解码器得到所述待重建对象的第二数字网格属性；

数字网格重建模块410，用于根据所述第一数字网格属性和所述第二数字网格属性，重建得到所述待重建对象的三维数字网格。

可选地，所述特征增强模块402具体用于，将所述目标模态的数据输入到所述特征增强模块中目标模态的编码器，得到所述目标模态的数据对应的初始特征；将所述目标模态的数据对应的初始特征输入到向量量化模块，得到所述目标模态的数据对应的离散化特征向量，作为所述目标模态的数据的目标特征；将所述目标文本输入到所述特征增强模块中文本编码器中，得到所述目标文本对应的文本特征；确定所述目标特征与所述文本特征之间的相似性，并基于确定出的相似性、所述目标特征和所述文本特征得到第一特征和第二特征。

可选地，所述特征增强模块402具体用于，获取包含所述目标文本的知识图谱，所述知识图谱中各节点分别对应于各文本，所述各节点之间的边对应于所述各文本之间的关联关系；获取所述目标文本的原始特征，以及获取所述目标文本对应的节点在所述知识图谱中各邻居节点的原始特征；根据所述目标文本的原始特征、所述各邻居节点的原始特征，以及所述目标文本对应的节点与所述各邻居节点之间的关联关系，更新所述目标文本的原始特征，得到所述目标文本的文本特征。

可选地，所述装置还包括：

第一训练模块412，具体用于获取目标模态的多个训练数据，并获取分别用于描述所述多个训练数据的多个训练文本；通过待训练的特征增强模块，确定所述多个训练数据的特征，以及所述多个训练文本的特征；确定所述目标模态的各个训练数据的特征与各个训练文本的特征之间的各特征相似度；针对所述目标模态的每个训练数据，将所述各特征相似度中，该训练数据的特征与用于描述该训练数据的训练文本的特征之间特征相似度作为该训练数据的第一特征相似度；将所述各特征相似度中，除该训练数据的第一特征相似度之外的其他特征相似度，作为该训练数据的第二特征相似度；以所述第一特征相似度的最大化、各第二特征相似度的最小化为训练目标，训练所述特征增强模块。

所述第一训练模块412，具体用于将该训练数据的第二特征相似度中，基于该训练数据的特征与所述多个训练文本的特征中除用于描述该训练数据的训练文本外的各训练文本的特征确定的特征相似度作为该训练数据的第三特征相似度；根据该训练数据的第一特征相似度，与该训练数据的第三特征相似度之间的差异确定第一相似度损失；将该训练数据的第二特征相似度中，基于用于描述该训练数据的训练文本的特征与所述目标模态的多个训练数据中除该训练数据的特征外的其他训练数据的特征确定的特征相似度作为该训练数据的第四特征相似度；根据该训练数据的第一特征相似度，与该训练数据的第四特征相似度之间的差异确定第二相似度损失；根据所述第一相似度损失和所述第二相似度损失确定总损失，并以所述总损失的最大化为训练目标，训练所述特征增强模块。

可选地，所述正态分布融合模块406具体用于将所述第一正态分布和所述第二正态分布输入到预先训练的专家积模型，通过所述专家积模型中多个子模型得到所述第一正态分布对应的条件概率分布，以及所述第二正态分布对应的条件概率分布；基于所述第一正态分布对应的条件概率分布，与所述第二正态分布对应的条件概率分布的乘积，确定第三正态分布。

可选地，所述装置还包括：

第二训练模块414，具体用于获取训练样本对，所述训练样本对包括目标模态的训练数据和用于描述所述目标模态的训练数据的训练文本；对所述训练样本对中目标模态的训练数据的特征和训练文本的特征进行对齐，并根据所述第一编码器和所述第二编码器，得到第一训练特征和第二训练特征；基于所述第一训练特征得到第一待优化分布，基于所述第二训练特征得到第二待优化分布；通过待训练的专家积模型中多个子模型得到所述第一待优化分布对应的条件概率分布，以及所述第二待优化分布对应的条件概率分布，并基于所述第一待优化分布对应的条件概率分布，以及所述第二待优化分布对应的条件概率分布的乘积得到第三待优化分布；根据所述第一训练特征和第二训练特征得到目标标签；根据第一待优化分布和所述目标标签之间的差异、所述第二待优化分布和所述目标标签之间的差异、所述第三待优化分布和所述目标标签之间的差异，确定第一损失；根据所述第一待优化分布、所述第一待优化分布、所述第二待优化分布、第一编码器和第二编码器，得到所述训练样本对对应的预测数字网格；获取所述训练样本对对应的标签数字网格，并根据所述训练样本对对应的预测数字网格和所述训练样本对对应的标签数字网格之间的差异，确定第二损失；基于所述第一损失和所述第二损失，训练所述专家积模型。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1所示的多模态层次自适应的数字网格重建方法。

本说明书还提供了图5所示的电子设备的示意结构图。如图5所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所示的多模态层次自适应的数字网格重建方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、***、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、***或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种多模态层次自适应的数字网格重建方法，其特征在于，包括：

根据所述第一数字网格属性和所述第二数字网格属性，重建得到所述待重建对象的三维数字网格；

所述根据所述第一特征和所述第二特征，通过第一编码器和第二编码器得到第一目标特征和第二目标特征，具体包括：

将所述第一特征和所述第二特征输入到第一编码器，得到所述第一编码器输出的第一目标特征；

将所述第一特征和所述第二特征输入到第二编码器，得到所述第二编码器输出的第二目标特征；

所述通过预先训练的专家积模型将所述第一正态分布和所述第二正态分布融合，得到第三正态分布，具体包括：

将所述第一正态分布和所述第二正态分布输入到预先训练的专家积模型，通过所述专家积模型中多个子模型得到所述第一正态分布对应的条件概率分布，以及所述第二正态分布对应的条件概率分布；

基于所述第一正态分布对应的条件概率分布，与所述第二正态分布对应的条件概率分布的乘积，确定第三正态分布。

2.如权利要求1所述的方法，其特征在于，通过所述特征增强模块对齐所述目标模态的数据对应的特征和所述目标文本对应的特征，得到第一特征和第二特征，具体包括：

将所述目标模态的数据输入到所述特征增强模块中目标模态的编码器，得到所述目标模态的数据对应的初始特征；

将所述目标模态的数据对应的初始特征输入到向量量化模块，得到所述目标模态的数据对应的离散化特征向量，作为所述目标模态的数据的目标特征；

将所述目标文本输入到所述特征增强模块中文本编码器中，得到所述目标文本对应的文本特征；

确定所述目标特征与所述文本特征之间的相似性，并基于确定出的相似性、所述目标特征和所述文本特征得到第一特征和第二特征。

3.如权利要求2所述的方法，其特征在于，确定所述目标文本的文本特征，具体包括：

获取包含所述目标文本的知识图谱，所述知识图谱中各节点分别对应于各文本，所述各节点之间的边对应于所述各文本之间的关联关系；

获取所述目标文本的原始特征，以及获取所述目标文本对应的节点在所述知识图谱中各邻居节点的原始特征；

根据所述目标文本的原始特征、所述各邻居节点的原始特征，以及所述目标文本对应的节点与所述各邻居节点之间的关联关系，更新所述目标文本的原始特征，得到所述目标文本的文本特征。

4.如权利要求1所述的方法，其特征在于，预先训练特征增强模块，具体包括：

获取目标模态的多个训练数据，并获取分别用于描述所述多个训练数据的多个训练文本；

通过待训练的特征增强模块，确定所述多个训练数据的特征，以及所述多个训练文本的特征；

确定所述目标模态的各个训练数据的特征与各个训练文本的特征之间的各特征相似度；

针对所述目标模态的每个训练数据，将所述各特征相似度中，该训练数据的特征与用于描述该训练数据的训练文本的特征之间特征相似度作为该训练数据的第一特征相似度；

将所述各特征相似度中，除该训练数据的第一特征相似度之外的其他特征相似度，作为该训练数据的第二特征相似度；

以所述第一特征相似度的最大化、各第二特征相似度的最小化为训练目标，训练所述特征增强模块。

5.如权利要求4所述的方法，其特征在于，以所述第一特征相似度的最大化、各第二特征相似度的最小化为训练目标，训练所述特征增强模块，具体包括：

将该训练数据的第二特征相似度中，基于该训练数据的特征与所述多个训练文本的特征中除用于描述该训练数据的训练文本外的各训练文本的特征确定的特征相似度作为该训练数据的第三特征相似度；

根据该训练数据的第一特征相似度，与该训练数据的第三特征相似度之间的差异确定第一相似度损失；

将该训练数据的第二特征相似度中，基于用于描述该训练数据的训练文本的特征与所述目标模态的多个训练数据中除该训练数据的特征外的其他训练数据的特征确定的特征相似度作为该训练数据的第四特征相似度；

根据该训练数据的第一特征相似度，与该训练数据的第四特征相似度之间的差异确定第二相似度损失；

根据所述第一相似度损失和所述第二相似度损失确定总损失，并以所述总损失的最大化为训练目标，训练所述特征增强模块。

6.如权利要求1所述的方法，其特征在于，预先训练专家积模型，具体包括：

获取训练样本对，所述训练样本对包括目标模态的训练数据和用于描述所述目标模态的训练数据的训练文本；

对所述训练样本对中目标模态的训练数据的特征和训练文本的特征进行对齐，并根据所述第一编码器和所述第二编码器，得到第一训练特征和第二训练特征；

基于所述第一训练特征得到第一待优化分布，基于所述第二训练特征得到第二待优化分布；

通过待训练的专家积模型中多个子模型得到所述第一待优化分布对应的条件概率分布，以及所述第二待优化分布对应的条件概率分布，并基于所述第一待优化分布对应的条件概率分布，以及所述第二待优化分布对应的条件概率分布的乘积得到第三待优化分布；

根据所述第一训练特征和第二训练特征得到目标标签；

根据第一待优化分布和所述目标标签之间的差异、所述第二待优化分布和所述目标标签之间的差异、所述第三待优化分布和所述目标标签之间的差异，确定第一损失；

根据所述第一待优化分布、所述第一待优化分布、所述第二待优化分布、第一编码器和第二编码器，得到所述训练样本对对应的预测数字网格；

获取所述训练样本对对应的标签数字网格，并根据所述训练样本对对应的预测数字网格和所述训练样本对对应的标签数字网格之间的差异，确定第二损失；

基于所述第一损失和所述第二损失，训练所述专家积模型。

7.一种多模态层次自适应的数字网格重建装置，其特征在于，包括：

数字网格重建模块，用于根据所述第一数字网格属性和所述第二数字网格属性，重建得到所述待重建对象的三维数字网格；

所述目标特征确定模块，具体用于将所述第一特征和所述第二特征输入到第一编码器，得到所述第一编码器输出的第一目标特征；将所述第一特征和所述第二特征输入到第二编码器，得到所述第二编码器输出的第二目标特征；

所述正态分布融合模块，具体用于将所述第一正态分布和所述第二正态分布输入到预先训练的专家积模型，通过所述专家积模型中多个子模型得到所述第一正态分布对应的条件概率分布，以及所述第二正态分布对应的条件概率分布；基于所述第一正态分布对应的条件概率分布，与所述第二正态分布对应的条件概率分布的乘积，确定第三正态分布。

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~6任一项所述的方法。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~6任一项所述的方法。