CN113538662B - 一种基于rgb数据的单视角三维物体重建方法及装置 - Google Patents
一种基于rgb数据的单视角三维物体重建方法及装置 Download PDFInfo
- Publication number
- CN113538662B CN113538662B CN202110765943.3A CN202110765943A CN113538662B CN 113538662 B CN113538662 B CN 113538662B CN 202110765943 A CN202110765943 A CN 202110765943A CN 113538662 B CN113538662 B CN 113538662B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- attention
- slice
- voxel
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 13
- 239000000758 substrate Substances 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 238000007670 refining Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000008358 core component Substances 0.000 claims description 3
- 239000000047 product Substances 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/08—Volume rendering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Image Generation (AREA)
Abstract
一种基于RGB数据的单视角三维物体重建方法及装置,能够将对象三维重建任务转换成基底系数矩阵的生成问题,挖掘可见部分和遮挡部分形状之间的关系,从而得到具有精确细节信息的三维体素,提升了三维模型重建精度。方法包括:(1)建立从潜在特征到初始三维体素的生成模型,该潜在特征由基底和系数线性组合而成。令训练集中的样本张成形状空间,经编码‑解码后得到其形状潜空间,对其进行矩阵分解求得基底表示Θ;利用系数回归网络实现系数回归任务,将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y;则基底Θ和系数Y的线性组合实现基于图像的三维模型重建。(2)建模体素数据为切片数据,利用设计的切片Transformer对初始三维体素进行细化处理,实现基于图像的精细化三维模型重建。
Description
技术领域
本发明涉及计算机视觉和模式识别的技术领域,尤其涉及一种基于RGB数据的单视角三维物体重建方法,以及基于RGB数据的单视角三维物体重建装置。
背景技术
基于计算机视觉技术的三维物体重建是科学研究和人类生活中的一个重要课题,在人机交互、增强/虚拟现实、医疗诊断、自动驾驶等领域有着非常广泛的应用。
基于计算机视觉技术的三维重建的主要目标之一是从视觉传感器获取的二维图像恢复对象的三维结构。目前基于RGB图像的三维物体重建方法主要分为传统方法和基于深度学习的方法。传统的三维重建方法是从几何角度出发解决重建问题。该类方法要求不同的视角捕获的多个图像之间具有匹配特征,且依赖手工提取的特征来恢复物体的三维形状。然而,由于外观变化或自遮挡现象,导致不同视点图像差异较大,因此使得建立精确的特征对应关系非常困难,重建模型常缺乏细节。此外,传统方法需根据几何外形如阴影、纹理、轮廓、光度立体等进行三维重建,对获取图像的环境要求较高,因此通常会设定一些约束条件以获得一致的重建结果。这些方法还通常需要使用精确校准的相机和高质量的视觉成像元件获取物体的图像,这无疑增加了模型重建的难度。
近年来,深度学***均形状先验以补充模型类别特征,但是平均形状先验会弱化一些个体实例特有的特征,且其常规处理方法并未考虑形状先验对视觉特征的补充策略。此外对应物体可见部分和遮挡部分的内在几何关联关系挖掘不够,也是目前该类方法的缺陷之一。这些局限性限制了精细化三维重建的实现。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于RGB数据的单视角三维物体重建方法,其能够将对象三维重建任务转换成基底系数矩阵的生成问题,挖掘可见部分和遮挡部分形状之间的关系,从而得到具有精确细节信息的三维体素,提升了三维模型重建精度。
本发明的技术方案是:这种基于RGB数据的单视角三维物体重建方法,包括以下步骤:
(1)建立从潜在特征到初始三维体素的生成模型,该潜在特征由基底和系数线性组合而成。令训练集中的样本张成形状空间,经编码-解码后得到其形状潜空间,对其进行矩阵分解求得基底表示Θ;利用系数回归网络实现系数回归任务,将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y;则基底Θ和系数Y的线性组合实现基于图像的三维模型重建。
(2)建模体素数据为切片数据,利用设计的切片Transformer对初始三维体素进行细化处理,实现基于图像的精细化三维模型重建。
本发明的潜空间基底可利用三维形状推导得到,同时构建回归网络以获得二维图像对应的潜空间表示系数,二者的组合实现了基于图像的三维模型重建,重建后的初始模型再通过三维体素切片构建Transformer,以挖掘可见部分与遮挡部分形状之间的依赖关系,从而得到具有精确细节信息的三维体素,提升了三维模型重建精度。
还提供了一种基于RGB数据的单视角三维物体重建装置,该装置包括:
三维重建模块,其建立从潜在特征到初始三维体素的生成模型,该潜在特征由基底和系数线性组合而成。令训练集中的样本张成形状空间,经编码-解码后得到其形状潜空间,对其进行矩阵分解求得基底表示Θ;利用系数回归网络实现系数回归任务,将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y;则基底Θ和系数Y的线性组合实现基于图像的三维模型重建。
三维体素细化模块,其根据建模体素数据为切片数据,利用设计的切片Transformer对初始三维体素进行细化处理,实现基于图像的精细化三维模型重建。
附图说明
图1示出了根据本发明的基于RGB数据的单视角三维物体重建装置的总体框架图。
图2示出了Transformer编码器的结构图。
图3示出了多头注意力的结构图。
图4示出了ShapeNet数据集上单视角重建结果。
具体实施方式
这种基于RGB数据的单视角三维物体重建方法,包括以下步骤:
(1)建立从潜在特征到初始三维体素的生成模型,该潜在特征由基底和系数线性组合而成。令训练集中的样本张成形状空间,经编码-解码后得到其形状潜空间,对其进行矩阵分解求得基底表示Θ;利用系数回归网络实现系数回归任务,将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y;则基底Θ和系数Y的线性组合实现基于图像的三维模型重建。
(2)建模体素数据为切片数据,利用设计的切片Transformer对初始三维体素进行细化处理,实现基于图像的精细化三维模型重建。
本发明的潜空间基底可利用三维形状推导得到,同时构建回归网络以获得二维图像对应的潜空间表示系数,二者的组合实现了基于图像的三维模型重建,重建后的初始模型再通过三维体素切片构建Transformer,以挖掘可见部分与遮挡部分形状之间的依赖关系,从而得到具有精确细节信息的三维体素,提升了三维模型重建精度。
优选地,所述步骤(1)包括以下分步骤:
(1.1)通过一个自编码器学习训练集中三维体素的潜在特征S,然后利用SVD来定义一组基底;
(1.2)用一个图像编码器提取输入图像的特征表示Z,对于每个物体类别,对该类别内所有实例的潜在嵌入进行聚类,并把聚类结果作为形状先验B;然后设计基于Transformer的网络去回归系数,其利用自注意力机制建模并融合图像视觉特征和先验信息以探索它们之间的关联关系,且提高特征的上下文依赖关系并学习复杂的语义抽象信息以得到更好的系数表示Y。
优选地,所述步骤(1.1)中,通过特征矩阵S的SVD计算得到基矩阵ΘF×K,SF×G=UF×F∑F×GVG×G,其中UF×F和VG×G是左奇异向量和右奇异向量,∑F×G是奇异值的对角矩阵。
优选地,所述步骤(1.1)中,ΘF×M是左奇异向量UF×F的M列,对应于M个最大奇异值。
优选地,所述步骤(1.2)中,Transformer编码器用来建模并融合视觉图像特征和先验信息以得到系数表示,编码器包含L个相同块组成,每个块有两个子层;第一个子层是多头自注意机制,第二个子层是多层感知机网络,这两个子层的每一层都使用一个残差连接;自注意是Transformer的核心组件,它将特征映射的不同位置关联起来,自注意描述为一个映射函数,将查询矩阵Q,键矩阵K和值矩阵V映射到输出注意矩阵,都是矩阵,输出是由值的加权和计算得到的,其中分配给每个值得权重是通过相应的键和查询计算得到,在注意力操作中,使用比例因子/>进行适当的归一化,当较大的d导致点积在数量级上的增长时,防止极小的梯度,缩放点积注意力的输出表示为:
该部其中Q,K,和V是由嵌入特征通过WQ,WK,和/>的线性变换计算得到的:
Q=ZWQ,K=ZWK,V=ZWV (2)
多头自注意层MSA利用多个头对来自不同位置的表示子空间的信息进行联合建模,每个头平行地使用缩放点积注意力,多头自注意的输出将是h个注意头输出的拼接:
MSA(Q,K,V)=Concat(H1,H2,...,Hh)Wout
Hi=Attention(Qi,Ki,Vi),i∈[1,...,h] (3)
给定嵌入特征则L层的特征Transfomer编码器结构表示为:
Zl'=MSA(LN(Zl-1))+Zl-1,l=1,2,...L
Zl=MLP(LN(Zl))+Zl',l=1,2,...L
Y=LN(ZL), (4)
其中LN(·)定义为层归一化操作,最后编码器输出就是求得的系数;将系数与基底相乘之后送入到解码器中进行解码,从而得到重建的初始三维体素Vcoa。
优选地,所述步骤(1.2)中,
损失函数在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量,定义为:
其中N表示三维物体中体素的数量,Vcoa和Vgt代表预测初始体素的占用率和相应的真实体素的占用率,损失越小,预测结果越接近真实体素。
优选地,所述步骤(2)中,
对于每一个三维体素,首先将其定义为V;然后定义为切片方向,表示沿着x-y坐标平面对三维体素切片,得到/>集合,其中集合里包含一个dr×dr的二维切片序列,序列长度为dr;每个二维切片被转换为大小为Dl的特征向量,并把此特征向量作为每个切片特征,则切片特征矩阵T为dr×Dl;将此特征矩阵送入Transformer编码器中,则L层的Transfomer编码器结构表示为:
Tl'=MSA(LN(Tl-1))+Tl-1,l=1,2,...L
Tl=MLP(LN(Tl))+Tl',l=1,2,...L
M=LN(TL), (6)
其中LN(·)定义为层归一化操作,Transformer编码器包含L个相同层,输出与编码器输入/>保持一样的大小,然后将优化后的切片拼接形成完整而准确的三维体素。
优选地,所述步骤(2)中,
损失函数包含细化重建损失,使预测的三维形状尽可能接近真实的三维形状,其损失函数LRrec被定义为:
其中N表示三维物体中体素的数量,Vref和Vgt代表预测初始体素的占用率和相应的真实体素的占用率。
如图1所示,还提供了一种基于RGB数据的单视角三维物体重建装置,该装置包括:
三维重建模块,其建立从潜在特征到初始三维体素的生成模型,该潜在特征由基底和系数线性组合而成。令训练集中的样本张成形状空间,经编码-解码后得到其形状潜空间,对其进行矩阵分解求得基底表示Θ;利用系数回归网络实现系数回归任务,将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y;则基底Θ和系数Y的线性组合实现基于图像的三维模型重建。
三维体素细化模块,其根据建模体素数据为切片数据,利用设计的切片Transformer对初始三维体素进行细化处理,实现基于图像的精细化三维模型重建。
以下更详细地说明本发明。
本发明解决的主要关键技术问题包括:从三维形状中推导得到基底矩阵以构建更好的潜在特征空间,构建系数回归网络从图像中回归系数表示,从而将对象三维重建任务转换成基底系数矩阵的生成问题;设计切片Transformer以挖掘可见部分和遮挡部分形状之间的关系,从而得到具有精确细节信息的三维体素。最终本发明提升了三维模型重建精度。
同一空间随基底的不同而有不同的表现形式(系数矩阵),这些不同的表现形式,可以通过矩阵变换的形式来相互转化。基于这一原理可见,由于三维形状及其二维投影表示(图像)间的对应关系保证了他们所在空间的本质同一性,因此,二者可以在某个中间嵌入空间实现表示模型上的统一。针对这个中间空间,空间基底可利用三维形状推导得到;而各个形状的表示系数的获得则既可以从形状计算,也可以从其对应的图像经回归计算得到。基于此,本文提出了基于潜空间特征表示模型的形状重建方法,即令训练集中的样本张成形状空间,经编码-解码后得到其中间潜空间,再经矩阵分解得到基底表示Θ;测试集中的图像再经回归网络回归其对应形状的系数矩阵Y;二者的线性组合即实现了基于图像的三维模型重建。
本发明主要包括三个关键的技术点:1)建立从潜在特征到初始三维体素的生成模型,该潜在特征由形状潜空间经矩阵分解求得基底,2)并利用系数回归网络实现系数回归任务;3)建模体素数据为切片数据,利用设计的切片Transformer对初始三维体素进行细化处理。
1.基于潜空间特征表示模型的三维重建
该部分主要工作是从形状潜空间中学习基底表示,从先验知识和图像视觉特征中回归系数,然后将基底和系数相乘送入解码器中得到预测的初始三维形状。
1.1基底表示模块
该模块主要是学习形状潜空间中的一组基底表示,通过矩阵分解提取最相关的特征,在降低特征维度,简化网络输出的同时,减少了无关信息的干扰。具体地,首先我们通过一个自编码器学习训练集中三维体素的潜在特征S,然后利用SVD来定义一组基底。具体来说,通过特征矩阵S的SVD可以计算得到基矩阵ΘF×K,即SF×G=UF×F∑F×GVG×G,其中UF×F和VG×G是左奇异向量和右奇异向量,∑F×G是奇异值的对角矩阵。更具体地,ΘF×K是左奇异向量UF×F的K列,对应于K个最大奇异值。
1.2系数表示模块
该模块主要是基于Transformer网络回归系数表示。具体地,用一个图像编码器提取输入图像的特征表示Z。此外,对于每个物体类别,对该类别内所有实例的潜在嵌入进行聚类,并把聚类结果作为形状先验B。然后设计基于Transformer的网络去回归系数,其利用自注意力机制建模并融合图像视觉特征和先验信息以探索它们之间的关联关系,且提高特征的上下文依赖关系并学习复杂的语义抽象信息以得到更好的系数表示Y。
Transformer编码器用来建模并融合视觉图像特征和先验信息以得到系数表示,其结构如图2所示。具体来说,编码器包含L个相同块组成,每个块有两个子层。第一个子层是多头自注意机制,第二个子层是多层感知机网络。这两个子层的每一层都使用一个残差连接。自注意是Transformer的核心组件,它将特征映射的不同位置关联起来。自注意可以描述为一个映射函数,将查询矩阵Q,键矩阵K和值矩阵V映射到输出注意矩阵,都是矩阵。输出是由值的加权和计算得到的,其中分配给每个值得权重是通过相应的键和查询计算得到。在注意力操作中,使用比例因子/>进行适当的归一化,当较大的d导致点积在数量级上的增长时,可以防止极小的梯度。因此,缩放点积注意力的输出可以表示为:
该部其中Q,K,和V是由嵌入特征通过WQ,WK,和/>的线性变换计算得到的:
Q=ZWQ,K=ZWK,V=ZWV
多头自注意层(MSA)利用多个头对来自不同位置的表示子空间的信息进行联合建模。多头自注意的结构图如图3所示。每个头平行地使用缩放点积注意力。最后多头自注意的输出将是h个注意头输出的拼接:
MSA(Q,K,V)=Concat(H1,H2,...,Hh)Wout
Hi=Attention(Qi,Ki,Vi),i∈[1,...,h]
给定嵌入特征则L层的特征Transfomer编码器结构可以表示为:
Zl'=MSA(LN(Zl-1))+Zl-1,l=1,2,...L
Zl=MLP(LN(Zl))+Zl',l=1,2,...L
Y=LN(ZL),
其中LN(·)定义为层归一化操作。最后编码器输出就是求得的系数。
将系数与基底相乘之后送入到解码器中进行解码,从而得到重建的初始三维体素Vcoa。
该部分的损失函数在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量。更具体地,它可以被定义为:
其中N表示三维物体中体素的数量。Vcoa和Vgt代表预测初始体素的占用率和相应的真实体素的占用率。损失越小,预测结果越接近真实体素。
2.三维体素细化模块
经过三维体素重建模块,得到初始化三维体素。三维对象具有局部连续性和内部关联性,这对于三维体素细化也是必不可少的指导信息。为了获取这些关系,设计了切片Transformer(S-Transformer)来精细化体素,主要操作是利用对称性将体素数据建模为二维切片序列,然后利用切片Transformer找到三维体素局部特征之间的关联关系,最后将捕捉到这种关系的优化切片拼接形成最终的三维体素。这种方法可以捕获更丰富的三维体素局部之间的依赖关系,探索细节信息,最终得到完整的合理的三维体素。
日常物体往往具有全局对称性,这一性质有利于恢复被遮挡或局部观察到的部分。本发明实验所用的公开数据集ShapeNet中的大多数模型也是呈对称性的,其x-y平面是对称面。对于每一个三维体素,首先将其定义为V;然后定义为切片方向,表示沿着x-y坐标平面对三维体素切片,得到/>集合,其中集合里包含一个dr×dr的二维切片序列,序列长度为dr。每个二维切片被转换为大小为Dl的特征向量,并把此特征向量作为每个切片特征,则切片特征矩阵T为dr×Dl。将此特征矩阵送入Transformer编码器中。则L层的Transfomer编码器结构可以表示为:
Tl'=MSA(LN(Tl-1))+Tl-1,l=1,2,...L
Tl=MLP(LN(Tl))+Tl',l=1,2,...L
M=LN(TL),
其中LN(·)定义为层归一化操作。Transformer编码器包含L个相同层,输出与编码器输入/>保持一样的大小。然后将优化后的切片拼接形成完整而准确的三维体素。
该部分的损失函数包含细化重建损失,使预测的三维形状尽可能接近真实的三维形状,其损失函数LRrec被定义为:
其中N表示三维物体中体素的数量。Vcoa和Vgt代表预测细化体素的占用率和相应的真实体素的占用率。
本发明已经在公开数据集ShapeNet上得到验证,取得不错的实验效果。表1展示本发明在ShapeNet数据集上的单视角重建结果,可以看出,与其他方法相比,本方法已经达到了目前最好的效果。图4给出ShapeNet数据集上一些三维重建的主观效果,实验效果表明了在各类物体上,该算法都能取得较好的重建效果。
表1
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (7)
1.一种基于RGB数据的单视角三维物体重建方法,其特征在于:该方法包括以下步骤:
(1)建立从潜在特征到初始三维体素的生成模型,该潜在特征由基底和系数线性组合而成;令训练集中的样本张成形状空间,经编码-解码后得到其形状潜空间,对其进行矩阵分解求得基底表示Θ;利用系数回归网络实现系数回归任务,将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y;则基底Θ和系数Y的线性组合实现基于图像的三维模型重建;
(2)建模体素数据为切片数据,利用设计的切片Transformer对初始三维体素进行细化处理,实现基于图像的精细化三维模型重建;
所述步骤(1)包括以下分步骤:
(1.1)通过一个自编码器学习训练集中三维体素的潜在特征S,然后利用SVD来定义一组基底;
(1.2)用一个图像编码器提取输入图像的特征表示Z,对于每个物体类别,对该类别内所有实例的潜在嵌入进行聚类,并把聚类结果作为形状先验B;然后设计基于Transformer的网络去回归系数,其利用自注意力机制建模并融合图像视觉特征和先验信息以探索它们之间的关联关系,且提高特征的上下文依赖关系并学习复杂的语义抽象信息以得到更好的系数表示Y;
所述步骤(1.2)中,Transformer编码器用来建模并融合视觉图像特征和先验信息以得到系数表示,编码器包含L个相同块组成,每个块有两个子层;第一个子层是多头自注意机制,第二个子层是多层感知机网络,这两个子层的每一层都使用一个残差连接;自注意是Transformer的核心组件,它将特征映射的不同位置关联起来,自注意描述为一个映射函数,将查询矩阵Q,键矩阵K和值矩阵V映射到输出注意矩阵,都是矩阵,输出是由值的加权和计算得到的,其中分配给每个值得权重是通过相应的键和查询计算得到,在注意力操作中,使用比例因子/>进行适当的归一化,当d导致点积在数量级上的增长时,缩放点积注意力的输出表示为:
其中Q,K,和V是由嵌入特征通过WQ,WK,和/>的线性变换计算得到的:
Q=ZWQ,K=ZWK,V=ZWV (2)
多头自注意层MSA利用多个头对来自不同位置的表示子空间的信息进行联合建模,每个头平行地使用缩放点积注意力,多头自注意的输出将是h个注意头输出的拼接:
MSA(Q,K,V)=Concat(H1,H2,...,Hh)Wout
Hi=Attention(Qi,Ki,Vi),i∈[1,...,h] (3)
给定嵌入特征则L层的特征Transfomer编码器结构表示为:
Z'l=MSA(LN(Zl-1))+Zl-1,l=1,2,...L
Zl=MLP(LN(Zl))+Zl',l=1,2,...L
Y=LN(ZL), (4)
其中LN(·)定义为层归一化操作,最后编码器输出就是求得的系数;将系数与基底相乘之后送入到解码器中进行解码,从而得到重建的初始三维体素Vcoa;
所述步骤(2)中,
对于每一个三维体素,首先将其定义为V;然后定义为切片方向,表示沿着x-y坐标平面对三维体素切片,得到/>集合,其中集合里包含一个dr×dr的二维切片序列,序列长度为dr;每个二维切片被转换为大小为Dl的特征向量,并把此特征向量作为每个切片特征,则切片特征矩阵T为dr×Dl;将此特征矩阵送入Transformer编码器中,则L层的Transfomer编码器结构表示为:
T'l=MSA(LN(Tl-1))+Tl-1,l=1,2,...L
Tl=MLP(LN(Tl))+Tl',l=1,2,...L
M=LN(TL), (6)
其中LN(·)定义为层归一化操作,Transformer编码器包含L个相同层,输出与编码器输入/>保持一样的大小,然后将优化后的切片拼接形成完整而准确的三维体素。
2.根据权利要求1所述的基于RGB数据的单视角三维物体重建方法,其特征在于:所述步骤(1.1)中,通过特征矩阵S的SVD计算得到基矩阵ΘF×K,SF×G=UF×F∑F×GVG×G,其中UF×F和VG×G是左奇异向量和右奇异向量,∑F×G是奇异值的对角矩阵。
3.根据权利要求2所述的基于RGB数据的单视角三维物体重建方法,其特征在于:所述步骤(1.1)中,ΘF×M是左奇异向量UF×F的M列,对应于M个最大奇异值。
4.根据权利要求3所述的基于RGB数据的单视角三维物体重建方法,其特征在于:所述步骤(1.2)中,
损失函数在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量,定义为:
其中N表示三维物体中体素的数量,Vcoa和Vgt代表预测初始体素的占用率和相应的真实体素的占用率,损失越小,预测结果越接近真实体素。
5.根据权利要求4所述的基于RGB数据的单视角三维物体重建方法,其特征在于:所述步骤(2)中,
对于每一个三维体素,首先将其定义为X;然后定义为切片方向,表示沿着x-y坐标平面对三维体素切片,得到/>集合,其中集合里包含一个dr×dr的二维切片序列,序列长度为dr;每个二维切片被转换为大小为Dl的特征向量,并把此特征向量作为每个切片特征,则切片特征矩阵T为dr×Dl;将此特征矩阵送入Transformer编码器中,则L层的Transfomer编码器结构表示为:
Tl'=MSA(LN(Tl-1))+Tl-1,l=1,2,...L
Tl=MLP(LN(Tl))+Tl',l=1,2,...L
M=LN(TL), (6)
其中LN(·)定义为层归一化操作,Transformer编码器包含L个相同层,输出与编码器输入/>保持一样的大小,然后将优化后的切片拼接形成完整而准确的三维体素。
6.根据权利要求5所述的基于RGB数据的单视角三维物体重建方法,其特征在于:所述步骤(2)中,
损失函数包含细化重建损失,使预测的三维形状尽可能接近真实的三维形状,其损失函数LRrec被定义为:
其中N表示三维物体中体素的数量,Vref和Vgt代表预测初始体素的占用率和相应的真实体素的占用率。
7.一种基于RGB数据的单视角三维物体重建装置,其特征在于:其包括:
三维重建模块,其建立从潜在特征到初始三维体素的生成模型,该潜在特征由基底和系数线性组合而成;令训练集中的样本张成形状空间,经编码-解码后得到其形状潜空间,对其进行矩阵分解求得基底表示;利用系数回归网络实现系数回归任务,将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y;则基底Θ和系数Y的线性组合实现基于图像的三维模型重建;
三维体素细化模块,其根据建模体素数据为切片数据,利用设计的切片Transformer对初始三维体素进行细化处理,实现基于图像的精细化三维模型重建;
所述三维重建模块中,Transformer编码器用来建模并融合视觉图像特征和先验信息以得到系数表示,编码器包含L个相同块组成,每个块有两个子层;第一个子层是多头自注意机制,第二个子层是多层感知机网络,这两个子层的每一层都使用一个残差连接;自注意是Transformer的核心组件,它将特征映射的不同位置关联起来,自注意描述为一个映射函数,将查询矩阵Q,键矩阵K和值矩阵V映射到输出注意矩阵,都是矩阵,输出是由值的加权和计算得到的,其中分配给每个值得权重是通过相应的键和查询计算得到,在注意力操作中,使用比例因子/>进行适当的归一化,当d导致点积在数量级上的增长时,缩放点积注意力的输出表示为:
其中Q,K,和V是由嵌入特征通过WQ,WK,和/>的线性变换计算得到的:
Q=ZWQ,K=ZWK,V=ZWV (2)
多头自注意层MSA利用多个头对来自不同位置的表示子空间的信息进行联合建模,每个头平行地使用缩放点积注意力,多头自注意的输出将是h个注意头输出的拼接:
MSA(Q,K,V)=Concat(H1,H2,...,Hh)Wout
Hi=Attention(Qi,Ki,Vi),i∈[1,...,h] (3)
给定嵌入特征则L层的特征Transfomer编码器结构表示为:
Z'l=MSA(LN(Zl-1))+Zl-1,l=1,2,...L
Zl=MLP(LN(Zl))+Z'l,l=1,2,...L
Y=LN(ZL), (4)
其中LN(·)定义为层归一化操作,最后编码器输出就是求得的系数;将系数与基底相乘之后送入到解码器中进行解码,从而得到重建的初始三维体素Vcoa;
所述三维体素细化模块中,
对于每一个三维体素,首先将其定义为V;然后定义为切片方向,表示沿着x-y坐标平面对三维体素切片,得到/>集合,其中集合里包含一个dr×dr的二维切片序列,序列长度为dr;每个二维切片被转换为大小为Dl的特征向量,并把此特征向量作为每个切片特征,则切片特征矩阵T为dr×Dl;将此特征矩阵送入Transformer编码器中,则L层的Transfomer编码器结构表示为:
Tl'=MSA(LN(Tl-1))+Tl-1,l=1,2,...L
Tl=MLP(LN(Tl))+Tl',l=1,2,...L
M=LN(TL), (6)
其中LN(·)定义为层归一化操作,Transformer编码器包含L个相同层,输出与编码器输入/>保持一样的大小,然后将优化后的切片拼接形成完整而准确的三维体素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110765943.3A CN113538662B (zh) | 2021-07-05 | 2021-07-05 | 一种基于rgb数据的单视角三维物体重建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110765943.3A CN113538662B (zh) | 2021-07-05 | 2021-07-05 | 一种基于rgb数据的单视角三维物体重建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113538662A CN113538662A (zh) | 2021-10-22 |
CN113538662B true CN113538662B (zh) | 2024-04-09 |
Family
ID=78097919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110765943.3A Active CN113538662B (zh) | 2021-07-05 | 2021-07-05 | 一种基于rgb数据的单视角三维物体重建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113538662B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114334068B (zh) * | 2021-11-15 | 2022-11-01 | 深圳市龙岗中心医院(深圳市龙岗中心医院集团、深圳市第九人民医院、深圳市龙岗中心医院针灸研究所) | 一种放射学报告生成方法、装置、终端及存储介质 |
CN114092673B (zh) * | 2021-11-23 | 2022-11-04 | 北京百度网讯科技有限公司 | 图像处理的方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020042720A1 (zh) * | 2018-08-28 | 2020-03-05 | 腾讯科技(深圳)有限公司 | 一种人体三维模型重建方法、装置和存储介质 |
CN112365581A (zh) * | 2020-11-17 | 2021-02-12 | 北京工业大学 | 一种基于rgb数据的单视角和多视角三维重建方法及装置 |
CN112634438A (zh) * | 2020-12-24 | 2021-04-09 | 北京工业大学 | 基于对抗网络的单帧深度图像三维模型重建方法及装置 |
-
2021
- 2021-07-05 CN CN202110765943.3A patent/CN113538662B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020042720A1 (zh) * | 2018-08-28 | 2020-03-05 | 腾讯科技(深圳)有限公司 | 一种人体三维模型重建方法、装置和存储介质 |
CN112365581A (zh) * | 2020-11-17 | 2021-02-12 | 北京工业大学 | 一种基于rgb数据的单视角和多视角三维重建方法及装置 |
CN112634438A (zh) * | 2020-12-24 | 2021-04-09 | 北京工业大学 | 基于对抗网络的单帧深度图像三维模型重建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113538662A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jam et al. | A comprehensive review of past and present image inpainting methods | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
Wang et al. | Hf-neus: Improved surface reconstruction using high-frequency details | |
CN110020989B (zh) | 一种基于深度学习的深度图像超分辨率重建方法 | |
Zhang et al. | End-to-end photo-sketch generation via fully convolutional representation learning | |
CN112288851B (zh) | 一种基于双支流网络的三维人脸建模方法 | |
CN113538662B (zh) | 一种基于rgb数据的单视角三维物体重建方法及装置 | |
CN112950775A (zh) | 一种基于自监督学习的三维人脸模型重建方法及*** | |
Kim et al. | Binocular fusion net: deep learning visual comfort assessment for stereoscopic 3D | |
Wang et al. | Laun improved stargan for facial emotion recognition | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及*** | |
Kang et al. | Competitive learning of facial fitting and synthesis using uv energy | |
Yuan et al. | Compositional scene representation learning via reconstruction: A survey | |
Hwang et al. | Lidar depth completion using color-embedded information via knowledge distillation | |
Alperovich et al. | Intrinsic light field decomposition and disparity estimation with deep encoder-decoder network | |
CN115484410A (zh) | 基于深度学习的事件相机视频重建方法 | |
CN115830241A (zh) | 一种基于神经网络的真实感三维人脸纹理重建方法 | |
Wu et al. | [Retracted] 3D Film Animation Image Acquisition and Feature Processing Based on the Latest Virtual Reconstruction Technology | |
Liu et al. | Facial-expression-aware emotional color transfer based on convolutional neural network | |
CN112686830B (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
CN114842384B (zh) | 一种面向6g的触觉模态信号重建方法 | |
Cao et al. | Autoencoder-Based Collaborative Attention GAN for Multi-Modal Image Synthesis | |
CN112489218B (zh) | 一种基于半监督学习的单视图三维重建***及其方法 | |
Khan et al. | Face recognition via multi-level 3D-GAN colorization | |
Miao et al. | Research on 3d reconstruction of furniture based on differentiable renderer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |