CN113538662B

CN113538662B - 一种基于rgb数据的单视角三维物体重建方法及装置

Info

Publication number: CN113538662B
Application number: CN202110765943.3A
Authority: CN
Inventors: 孔德慧; 高俊娜; 王少帆; 李敬华; 王立春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2024-04-09
Anticipated expiration: 2041-07-05
Also published as: CN113538662A

Abstract

一种基于RGB数据的单视角三维物体重建方法及装置，能够将对象三维重建任务转换成基底系数矩阵的生成问题，挖掘可见部分和遮挡部分形状之间的关系，从而得到具有精确细节信息的三维体素，提升了三维模型重建精度。方法包括：(1)建立从潜在特征到初始三维体素的生成模型，该潜在特征由基底和系数线性组合而成。令训练集中的样本张成形状空间，经编码‑解码后得到其形状潜空间，对其进行矩阵分解求得基底表示Θ；利用系数回归网络实现系数回归任务，将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y；则基底Θ和系数Y的线性组合实现基于图像的三维模型重建。(2)建模体素数据为切片数据，利用设计的切片Transformer对初始三维体素进行细化处理，实现基于图像的精细化三维模型重建。

Description

一种基于RGB数据的单视角三维物体重建方法及装置

技术领域

本发明涉及计算机视觉和模式识别的技术领域，尤其涉及一种基于RGB数据的单视角三维物体重建方法，以及基于RGB数据的单视角三维物体重建装置。

背景技术

基于计算机视觉技术的三维物体重建是科学研究和人类生活中的一个重要课题，在人机交互、增强/虚拟现实、医疗诊断、自动驾驶等领域有着非常广泛的应用。

基于计算机视觉技术的三维重建的主要目标之一是从视觉传感器获取的二维图像恢复对象的三维结构。目前基于RGB图像的三维物体重建方法主要分为传统方法和基于深度学习的方法。传统的三维重建方法是从几何角度出发解决重建问题。该类方法要求不同的视角捕获的多个图像之间具有匹配特征，且依赖手工提取的特征来恢复物体的三维形状。然而，由于外观变化或自遮挡现象，导致不同视点图像差异较大，因此使得建立精确的特征对应关系非常困难，重建模型常缺乏细节。此外，传统方法需根据几何外形如阴影、纹理、轮廓、光度立体等进行三维重建，对获取图像的环境要求较高，因此通常会设定一些约束条件以获得一致的重建结果。这些方法还通常需要使用精确校准的相机和高质量的视觉成像元件获取物体的图像，这无疑增加了模型重建的难度。

近年来，深度学***均形状先验以补充模型类别特征，但是平均形状先验会弱化一些个体实例特有的特征，且其常规处理方法并未考虑形状先验对视觉特征的补充策略。此外对应物体可见部分和遮挡部分的内在几何关联关系挖掘不够，也是目前该类方法的缺陷之一。这些局限性限制了精细化三维重建的实现。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种基于RGB数据的单视角三维物体重建方法，其能够将对象三维重建任务转换成基底系数矩阵的生成问题，挖掘可见部分和遮挡部分形状之间的关系，从而得到具有精确细节信息的三维体素，提升了三维模型重建精度。

本发明的技术方案是：这种基于RGB数据的单视角三维物体重建方法，包括以下步骤：

(1)建立从潜在特征到初始三维体素的生成模型，该潜在特征由基底和系数线性组合而成。令训练集中的样本张成形状空间，经编码-解码后得到其形状潜空间，对其进行矩阵分解求得基底表示Θ；利用系数回归网络实现系数回归任务，将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y；则基底Θ和系数Y的线性组合实现基于图像的三维模型重建。

(2)建模体素数据为切片数据，利用设计的切片Transformer对初始三维体素进行细化处理，实现基于图像的精细化三维模型重建。

本发明的潜空间基底可利用三维形状推导得到，同时构建回归网络以获得二维图像对应的潜空间表示系数，二者的组合实现了基于图像的三维模型重建，重建后的初始模型再通过三维体素切片构建Transformer，以挖掘可见部分与遮挡部分形状之间的依赖关系，从而得到具有精确细节信息的三维体素，提升了三维模型重建精度。

还提供了一种基于RGB数据的单视角三维物体重建装置，该装置包括：

三维重建模块，其建立从潜在特征到初始三维体素的生成模型，该潜在特征由基底和系数线性组合而成。令训练集中的样本张成形状空间，经编码-解码后得到其形状潜空间，对其进行矩阵分解求得基底表示Θ；利用系数回归网络实现系数回归任务，将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y；则基底Θ和系数Y的线性组合实现基于图像的三维模型重建。

三维体素细化模块，其根据建模体素数据为切片数据，利用设计的切片Transformer对初始三维体素进行细化处理，实现基于图像的精细化三维模型重建。

附图说明

图1示出了根据本发明的基于RGB数据的单视角三维物体重建装置的总体框架图。

图2示出了Transformer编码器的结构图。

图3示出了多头注意力的结构图。

图4示出了ShapeNet数据集上单视角重建结果。

具体实施方式

这种基于RGB数据的单视角三维物体重建方法，包括以下步骤：

优选地，所述步骤(1)包括以下分步骤：

(1.1)通过一个自编码器学习训练集中三维体素的潜在特征S，然后利用SVD来定义一组基底；

(1.2)用一个图像编码器提取输入图像的特征表示Z，对于每个物体类别，对该类别内所有实例的潜在嵌入进行聚类，并把聚类结果作为形状先验B；然后设计基于Transformer的网络去回归系数，其利用自注意力机制建模并融合图像视觉特征和先验信息以探索它们之间的关联关系，且提高特征的上下文依赖关系并学习复杂的语义抽象信息以得到更好的系数表示Y。

优选地，所述步骤(1.1)中，通过特征矩阵S的SVD计算得到基矩阵Θ_F×K，S_F×G＝U_F×F∑_F×GV_G×G，其中U_F×F和V_G×G是左奇异向量和右奇异向量，∑_F×G是奇异值的对角矩阵。

优选地，所述步骤(1.1)中，Θ_F×M是左奇异向量U_F×F的M列，对应于M个最大奇异值。

优选地，所述步骤(1.2)中，Transformer编码器用来建模并融合视觉图像特征和先验信息以得到系数表示，编码器包含L个相同块组成，每个块有两个子层；第一个子层是多头自注意机制，第二个子层是多层感知机网络，这两个子层的每一层都使用一个残差连接；自注意是Transformer的核心组件，它将特征映射的不同位置关联起来，自注意描述为一个映射函数，将查询矩阵Q，键矩阵K和值矩阵V映射到输出注意矩阵，都是矩阵，输出是由值的加权和计算得到的，其中分配给每个值得权重是通过相应的键和查询计算得到，在注意力操作中，使用比例因子/>进行适当的归一化，当较大的d导致点积在数量级上的增长时，防止极小的梯度，缩放点积注意力的输出表示为：

该部其中Q，K，和V是由嵌入特征通过W_Q，W_K，和/>的线性变换计算得到的：

Q＝ZW_Q,K＝ZW_K,V＝ZW_V (2)

多头自注意层MSA利用多个头对来自不同位置的表示子空间的信息进行联合建模，每个头平行地使用缩放点积注意力，多头自注意的输出将是h个注意头输出的拼接：

MSA(Q,K,V)＝Concat(H₁,H₂,...,H_h)W_out

H_i＝Attention(Q_i,K_i,V_i),i∈[1,...,h] (3)

给定嵌入特征则L层的特征Transfomer编码器结构表示为：

Z_l'＝MSA(LN(Z_l-1))+Z_l-1,l＝1,2,...L

Z_l＝MLP(LN(Z_l))+Z_l',l＝1,2,...L

Y＝LN(Z_L), (4)

其中LN(·)定义为层归一化操作，最后编码器输出就是求得的系数；将系数与基底相乘之后送入到解码器中进行解码，从而得到重建的初始三维体素V^coa。

优选地，所述步骤(1.2)中，

损失函数在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量，定义为：

其中N表示三维物体中体素的数量，V^coa和V^gt代表预测初始体素的占用率和相应的真实体素的占用率，损失越小，预测结果越接近真实体素。

优选地，所述步骤(2)中，

对于每一个三维体素，首先将其定义为V；然后定义为切片方向,表示沿着x-y坐标平面对三维体素切片，得到/>集合，其中集合里包含一个d_r×d_r的二维切片序列，序列长度为d_r；每个二维切片被转换为大小为D_l的特征向量，并把此特征向量作为每个切片特征，则切片特征矩阵T为d_r×D_l；将此特征矩阵送入Transformer编码器中，则L层的Transfomer编码器结构表示为：

T_l'＝MSA(LN(T_l-1))+T_l-1,l＝1,2,...L

T_l＝MLP(LN(T_l))+T_l',l＝1,2,...L

M＝LN(T_L), (6)

其中LN(·)定义为层归一化操作，Transformer编码器包含L个相同层，输出与编码器输入/>保持一样的大小，然后将优化后的切片拼接形成完整而准确的三维体素。

优选地，所述步骤(2)中，

损失函数包含细化重建损失，使预测的三维形状尽可能接近真实的三维形状，其损失函数L_Rrec被定义为：

其中N表示三维物体中体素的数量，V^ref和V^gt代表预测初始体素的占用率和相应的真实体素的占用率。

如图1所示，还提供了一种基于RGB数据的单视角三维物体重建装置，该装置包括：

以下更详细地说明本发明。

本发明解决的主要关键技术问题包括：从三维形状中推导得到基底矩阵以构建更好的潜在特征空间，构建系数回归网络从图像中回归系数表示，从而将对象三维重建任务转换成基底系数矩阵的生成问题；设计切片Transformer以挖掘可见部分和遮挡部分形状之间的关系，从而得到具有精确细节信息的三维体素。最终本发明提升了三维模型重建精度。

同一空间随基底的不同而有不同的表现形式(系数矩阵)，这些不同的表现形式，可以通过矩阵变换的形式来相互转化。基于这一原理可见，由于三维形状及其二维投影表示(图像)间的对应关系保证了他们所在空间的本质同一性，因此，二者可以在某个中间嵌入空间实现表示模型上的统一。针对这个中间空间，空间基底可利用三维形状推导得到；而各个形状的表示系数的获得则既可以从形状计算，也可以从其对应的图像经回归计算得到。基于此，本文提出了基于潜空间特征表示模型的形状重建方法，即令训练集中的样本张成形状空间，经编码-解码后得到其中间潜空间，再经矩阵分解得到基底表示Θ；测试集中的图像再经回归网络回归其对应形状的系数矩阵Y；二者的线性组合即实现了基于图像的三维模型重建。

本发明主要包括三个关键的技术点：1)建立从潜在特征到初始三维体素的生成模型，该潜在特征由形状潜空间经矩阵分解求得基底，2)并利用系数回归网络实现系数回归任务；3)建模体素数据为切片数据，利用设计的切片Transformer对初始三维体素进行细化处理。

1.基于潜空间特征表示模型的三维重建

该部分主要工作是从形状潜空间中学习基底表示，从先验知识和图像视觉特征中回归系数，然后将基底和系数相乘送入解码器中得到预测的初始三维形状。

1.1基底表示模块

该模块主要是学习形状潜空间中的一组基底表示，通过矩阵分解提取最相关的特征，在降低特征维度，简化网络输出的同时，减少了无关信息的干扰。具体地，首先我们通过一个自编码器学习训练集中三维体素的潜在特征S，然后利用SVD来定义一组基底。具体来说，通过特征矩阵S的SVD可以计算得到基矩阵Θ_F×K，即S_F×G＝U_F×F∑_F×GV_G×G，其中U_F×F和V_G×G是左奇异向量和右奇异向量，∑_F×G是奇异值的对角矩阵。更具体地，Θ_F×K是左奇异向量U_F×F的K列，对应于K个最大奇异值。

1.2系数表示模块

该模块主要是基于Transformer网络回归系数表示。具体地，用一个图像编码器提取输入图像的特征表示Z。此外，对于每个物体类别，对该类别内所有实例的潜在嵌入进行聚类，并把聚类结果作为形状先验B。然后设计基于Transformer的网络去回归系数，其利用自注意力机制建模并融合图像视觉特征和先验信息以探索它们之间的关联关系，且提高特征的上下文依赖关系并学习复杂的语义抽象信息以得到更好的系数表示Y。

Transformer编码器用来建模并融合视觉图像特征和先验信息以得到系数表示，其结构如图2所示。具体来说，编码器包含L个相同块组成，每个块有两个子层。第一个子层是多头自注意机制，第二个子层是多层感知机网络。这两个子层的每一层都使用一个残差连接。自注意是Transformer的核心组件，它将特征映射的不同位置关联起来。自注意可以描述为一个映射函数，将查询矩阵Q，键矩阵K和值矩阵V映射到输出注意矩阵，都是矩阵。输出是由值的加权和计算得到的，其中分配给每个值得权重是通过相应的键和查询计算得到。在注意力操作中，使用比例因子/>进行适当的归一化，当较大的d导致点积在数量级上的增长时，可以防止极小的梯度。因此，缩放点积注意力的输出可以表示为：

Q＝ZW_Q,K＝ZW_K,V＝ZW_V

多头自注意层(MSA)利用多个头对来自不同位置的表示子空间的信息进行联合建模。多头自注意的结构图如图3所示。每个头平行地使用缩放点积注意力。最后多头自注意的输出将是h个注意头输出的拼接：

MSA(Q,K,V)＝Concat(H₁,H₂,...,H_h)W_out

H_i＝Attention(Q_i,K_i,V_i),i∈[1,...,h]

给定嵌入特征则L层的特征Transfomer编码器结构可以表示为：

Z_l'＝MSA(LN(Z_l-1))+Z_l-1,l＝1,2,...L

Z_l＝MLP(LN(Z_l))+Z_l',l＝1,2,...L

Y＝LN(Z_L),

其中LN(·)定义为层归一化操作。最后编码器输出就是求得的系数。

将系数与基底相乘之后送入到解码器中进行解码，从而得到重建的初始三维体素V^coa。

该部分的损失函数在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量。更具体地，它可以被定义为：

其中N表示三维物体中体素的数量。V^coa和V^gt代表预测初始体素的占用率和相应的真实体素的占用率。损失越小，预测结果越接近真实体素。

2.三维体素细化模块

经过三维体素重建模块，得到初始化三维体素。三维对象具有局部连续性和内部关联性,这对于三维体素细化也是必不可少的指导信息。为了获取这些关系，设计了切片Transformer(S-Transformer)来精细化体素，主要操作是利用对称性将体素数据建模为二维切片序列，然后利用切片Transformer找到三维体素局部特征之间的关联关系，最后将捕捉到这种关系的优化切片拼接形成最终的三维体素。这种方法可以捕获更丰富的三维体素局部之间的依赖关系，探索细节信息，最终得到完整的合理的三维体素。

日常物体往往具有全局对称性，这一性质有利于恢复被遮挡或局部观察到的部分。本发明实验所用的公开数据集ShapeNet中的大多数模型也是呈对称性的，其x-y平面是对称面。对于每一个三维体素，首先将其定义为V；然后定义为切片方向,表示沿着x-y坐标平面对三维体素切片，得到/>集合，其中集合里包含一个d_r×d_r的二维切片序列，序列长度为d_r。每个二维切片被转换为大小为D_l的特征向量，并把此特征向量作为每个切片特征，则切片特征矩阵T为d_r×D_l。将此特征矩阵送入Transformer编码器中。则L层的Transfomer编码器结构可以表示为：

T_l'＝MSA(LN(T_l-1))+T_l-1,l＝1,2,...L

T_l＝MLP(LN(T_l))+T_l',l＝1,2,...L

M＝LN(T_L),

其中LN(·)定义为层归一化操作。Transformer编码器包含L个相同层，输出与编码器输入/>保持一样的大小。然后将优化后的切片拼接形成完整而准确的三维体素。

该部分的损失函数包含细化重建损失，使预测的三维形状尽可能接近真实的三维形状，其损失函数L_Rrec被定义为：

其中N表示三维物体中体素的数量。V^coa和V^gt代表预测细化体素的占用率和相应的真实体素的占用率。

本发明已经在公开数据集ShapeNet上得到验证，取得不错的实验效果。表1展示本发明在ShapeNet数据集上的单视角重建结果，可以看出，与其他方法相比，本方法已经达到了目前最好的效果。图4给出ShapeNet数据集上一些三维重建的主观效果，实验效果表明了在各类物体上，该算法都能取得较好的重建效果。

表1

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于RGB数据的单视角三维物体重建方法，其特征在于：该方法包括以下步骤：

(1)建立从潜在特征到初始三维体素的生成模型，该潜在特征由基底和系数线性组合而成；令训练集中的样本张成形状空间，经编码-解码后得到其形状潜空间，对其进行矩阵分解求得基底表示Θ；利用系数回归网络实现系数回归任务，将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y；则基底Θ和系数Y的线性组合实现基于图像的三维模型重建；

(2)建模体素数据为切片数据，利用设计的切片Transformer对初始三维体素进行细化处理，实现基于图像的精细化三维模型重建；

所述步骤(1)包括以下分步骤：

(1.2)用一个图像编码器提取输入图像的特征表示Z，对于每个物体类别，对该类别内所有实例的潜在嵌入进行聚类，并把聚类结果作为形状先验B；然后设计基于Transformer的网络去回归系数，其利用自注意力机制建模并融合图像视觉特征和先验信息以探索它们之间的关联关系，且提高特征的上下文依赖关系并学习复杂的语义抽象信息以得到更好的系数表示Y；

所述步骤(1.2)中，Transformer编码器用来建模并融合视觉图像特征和先验信息以得到系数表示，编码器包含L个相同块组成，每个块有两个子层；第一个子层是多头自注意机制，第二个子层是多层感知机网络，这两个子层的每一层都使用一个残差连接；自注意是Transformer的核心组件，它将特征映射的不同位置关联起来，自注意描述为一个映射函数，将查询矩阵Q，键矩阵K和值矩阵V映射到输出注意矩阵，都是矩阵，输出是由值的加权和计算得到的，其中分配给每个值得权重是通过相应的键和查询计算得到，在注意力操作中，使用比例因子/>进行适当的归一化，当d导致点积在数量级上的增长时，缩放点积注意力的输出表示为：

其中Q，K，和V是由嵌入特征通过W_Q，W_K，和/>的线性变换计算得到的：

Q＝ZW_Q,K＝ZW_K,V＝ZW_V (2)

MSA(Q,K,V)＝Concat(H₁,H₂,...,H_h)W_out

H_i＝Attention(Q_i,K_i,V_i),i∈[1,...,h] (3)

给定嵌入特征则L层的特征Transfomer编码器结构表示为：

Z'_l＝MSA(LN(Z_l-1))+Z_l-1,l＝1,2,...L

Z_l＝MLP(LN(Z_l))+Z_l',l＝1,2,...L

Y＝LN(Z_L), (4)

其中LN(·)定义为层归一化操作，最后编码器输出就是求得的系数；将系数与基底相乘之后送入到解码器中进行解码，从而得到重建的初始三维体素V^coa；

所述步骤(2)中，

T'_l＝MSA(LN(T_l-1))+T_l-1,l＝1,2,...L

T_l＝MLP(LN(T_l))+T_l',l＝1,2,...L

M＝LN(T_L), (6)

2.根据权利要求1所述的基于RGB数据的单视角三维物体重建方法，其特征在于：所述步骤(1.1)中，通过特征矩阵S的SVD计算得到基矩阵Θ_F×K，S_F×G＝U_F×F∑_F×GV_G×G，其中U_F×F和V_G×G是左奇异向量和右奇异向量，∑_F×G是奇异值的对角矩阵。

3.根据权利要求2所述的基于RGB数据的单视角三维物体重建方法，其特征在于：所述步骤(1.1)中，Θ_F×M是左奇异向量U_F×F的M列，对应于M个最大奇异值。

4.根据权利要求3所述的基于RGB数据的单视角三维物体重建方法，其特征在于：所述步骤(1.2)中，

5.根据权利要求4所述的基于RGB数据的单视角三维物体重建方法，其特征在于：所述步骤(2)中，

对于每一个三维体素，首先将其定义为X；然后定义为切片方向,表示沿着x-y坐标平面对三维体素切片，得到/>集合，其中集合里包含一个d_r×d_r的二维切片序列，序列长度为d_r；每个二维切片被转换为大小为D_l的特征向量，并把此特征向量作为每个切片特征，则切片特征矩阵T为d_r×D_l；将此特征矩阵送入Transformer编码器中，则L层的Transfomer编码器结构表示为：

T_l'＝MSA(LN(T_l-1))+T_l-1,l＝1,2,...L

T_l＝MLP(LN(T_l))+T_l',l＝1,2,...L

M＝LN(T_L), (6)

6.根据权利要求5所述的基于RGB数据的单视角三维物体重建方法，其特征在于：所述步骤(2)中，

7.一种基于RGB数据的单视角三维物体重建装置，其特征在于：其包括：

三维重建模块，其建立从潜在特征到初始三维体素的生成模型，该潜在特征由基底和系数线性组合而成；令训练集中的样本张成形状空间，经编码-解码后得到其形状潜空间，对其进行矩阵分解求得基底表示；利用系数回归网络实现系数回归任务，将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y；则基底Θ和系数Y的线性组合实现基于图像的三维模型重建；

三维体素细化模块，其根据建模体素数据为切片数据，利用设计的切片Transformer对初始三维体素进行细化处理，实现基于图像的精细化三维模型重建；

所述三维重建模块中，Transformer编码器用来建模并融合视觉图像特征和先验信息以得到系数表示，编码器包含L个相同块组成，每个块有两个子层；第一个子层是多头自注意机制，第二个子层是多层感知机网络，这两个子层的每一层都使用一个残差连接；自注意是Transformer的核心组件，它将特征映射的不同位置关联起来，自注意描述为一个映射函数，将查询矩阵Q，键矩阵K和值矩阵V映射到输出注意矩阵，都是矩阵，输出是由值的加权和计算得到的，其中分配给每个值得权重是通过相应的键和查询计算得到，在注意力操作中，使用比例因子/>进行适当的归一化，当d导致点积在数量级上的增长时，缩放点积注意力的输出表示为：

Q＝ZW_Q,K＝ZW_K,V＝ZW_V (2)

MSA(Q,K,V)＝Concat(H₁,H₂,...,H_h)W_out

H_i＝Attention(Q_i,K_i,V_i),i∈[1,...,h] (3)

给定嵌入特征则L层的特征Transfomer编码器结构表示为：

Z'_l＝MSA(LN(Z_l-1))+Z_l-1,l＝1,2,...L

Z_l＝MLP(LN(Z_l))+Z'_l,l＝1,2,...L

Y＝LN(Z_L), (4)

所述三维体素细化模块中，

T_l'＝MSA(LN(T_l-1))+T_l-1,l＝1,2,...L

T_l＝MLP(LN(T_l))+T_l',l＝1,2,...L

M＝LN(T_L), (6)