CN114758205A - 用于3d人体姿态估计的多视角特征融合方法及*** - Google Patents
用于3d人体姿态估计的多视角特征融合方法及*** Download PDFInfo
- Publication number
- CN114758205A CN114758205A CN202210460455.6A CN202210460455A CN114758205A CN 114758205 A CN114758205 A CN 114758205A CN 202210460455 A CN202210460455 A CN 202210460455A CN 114758205 A CN114758205 A CN 114758205A
- Authority
- CN
- China
- Prior art keywords
- view
- human body
- feature
- depth
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 17
- 230000036544 posture Effects 0.000 claims abstract description 67
- 230000007246 mechanism Effects 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000000007 visual effect Effects 0.000 claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000011426 transformation method Methods 0.000 claims description 4
- 230000003750 conditioning effect Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 abstract description 2
- 230000009466 transformation Effects 0.000 description 9
- 238000001994 activation Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000001757 thermogravimetry curve Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了用于3D人体姿态估计的多视角特征融合方法及***,该方法包括:获取需要姿态估计的不同视角的目标图像;将目标图像经过图像预处理后,输入到训练好的MVP‑att姿态估计模型中,输出3D人体姿态估计的结果;所述MVP‑att姿态估计模型通过以下步骤训练得到:通过编码器对多视角输入的多个目标图像分别进行采样,提取得到多个单视图的2D人体姿态表达的深度特征图;输入特征转换模块,实现多视图的深度特征图与相机姿态的解耦;使用基于混合注意力机制的多视角特征融合机制模块从解耦后的深度特征中自动选择有效深度特征,按照视角融合成统一的3D人体姿态表征。本发明能够将任意数量的多视图深度特征聚合成3D人体姿态表征。
Description
技术领域
本发明涉及3D人体姿态估计领域,尤其涉及一种基于混合注意力机制的用于3D人体姿态估计的多视角特征融合方法及***。
背景技术
多视角3D人体姿态估计是近年来伴随深度学习算法兴起的计算机视觉领域内研究的热点分支,其作为一种基础技术服务于影视动画制作、虚拟现实、医疗康复等广泛的下游应用。传统基于标记的光学式动作捕捉技术在3D人体姿态估计的问题上已经取得了优异的效果,但这种方案部署流程繁琐、场地要求苛刻,这极大的限制了3D人体姿态估计在虚拟现实、动作分析等低精度、高灵活性场景的进一步推广。
近年来,随着深度学习算法在计算机视觉领域大放异彩,基于深度学习的多视角3D人体姿态估计方法快速发展,取得了不错的效果。目前,主流的多视角3D人体姿态估计方法可以划分位两个步骤:1)利用深度神经网络构造2D人体姿态编码器,提取多视角下的2D人体姿态热度图;2)基于多视角2D人体姿态热度图,通过三角测量技术或深度神经网络估计3D人体姿态。这类技术方案面临的一个核心难点问题是:不同视角因为人***姿、前景环境等因素引起的局部遮挡。这会使得2D人体姿态编码器所提取的多视角热度图存在较大的偏差,从而严重影响后续3D人体姿态估计器的性能。
针对上述问题,已有研究者从多视角特征融合的角度提出了可行的解决方案,并取得了不错的效果。现有技术方案大体上可以分为两类:1)多视角2D热度图融合,这种方法将当前视图关节点热图任意位置的响应值与其在其他视图对应极线上的最大响应值融合;2)3D人体姿态表征学习,该方法将不同视图的人体姿态特征与相机姿态解耦,然后学习不同视图对应的统一3D人体姿态表征。方式1仅在推理出2D人体姿态后多次增强其热度图,实现优化单视角2D人体姿态的目标。这种方式在推理3D人体姿态时没有充分利用多视图的图像特征,其性能高度依赖于2D人体姿态估计器,同时这种处理方式也无法构造端到端的学习模型。方式2则存在如下两个重要缺陷:1)没有让模型选择有效特征进行融合;2)忽略了每个通道特征图局部空间的相关性。这些问题的存在,使得“局部遮挡”问题的解决方案有着更多的可能性,最终提出一种新的姿态估计方法,使得生成统一的3D人体姿态表征,得到3D人体姿态估计的最终结果。
发明内容
本发明提供了一种用于3D人体姿态估计的多视角特征融合方法及***,用以解决目前主流基于深度学的3D人体姿态估计技术方案中的“局部遮挡”的技术问题。
为解决上述技术问题,本发明提出的技术方案为:
一种用于3D人体姿态估计的多视角特征融合方法,包括以下步骤:
获取需要姿态估计的不同视角的目标图像;
将目标图像经过图像预处理后,输入到训练好的MVP-att(Multi-View PoseAttention多视角注意力机制姿态估计模型)姿态估计模型中,输出3D人体姿态估计的结果;
MVP-att姿态估计模型通过以下步骤训练得到:
通过编码器对多视角输入的多个目标图像分别进行采样,提取得到多个单视图的2D人体姿态表达的深度特征图;
采用特征转换模块,将相机投影矩阵条件作用于每个深度特征图的图像坐标,映射转换为世界坐标,实现多视图的深度特征图中的深度特征进行标准化以及与相机姿态的解耦;
使用基于混合注意力机制的多视角特征融合机制模块从解耦后的深度特征中自动选择有效深度特征,按照视角融合成统一的3D人体姿态表征。
优选地,MVP-att姿态估计模型的训练步骤,还包括:
将3D人体姿态表征输入到使用相机投影矩阵条件作用的特征转换模块,输出特征融合后各个视角的深度特征;
将特征融合后各个视角的深度特征输入到解码器中获得关节点二维热图;
使用可微直接线性变换方法将多视角的关节点二维热图映射到三维空间,生成表征人体关节点在三维空间位置的三维人体骨架。
优选地,自动选择有效深度特征,包括以下步骤:
先通过混合注意力机制建模解耦后的深度特征之间的相关性,然后深度学习每个通道的深度特征的注意力得分,自动在不同视角的深度特征集合中选择注意力得分符合要求的深度特征作为有效深度特征。
优选地,MVP-att姿态估计模型在训练过程中,通过最小化二维关节点的平均误差来监督模型的训练,损失函数如下:
优选地,MVP-att姿态估计模型在训练过程中,再通过以下损失函数公式微调多视角3D人体姿态估计模型:
优选地,基于混合注意力机制的多视角特征融合机制模块包括:级联的通道注意力机制单元和单通道局部注意力机制单元;用于对不同特征通道的注意力加权计算、同一特征通道不同局部的注意力加权计算,并依据计算得到的权值,完成对应的特征通道加权求和、同一特征通道局部加权求和,得到每个通道的深度特征的注意力得分。
优选地,单通道局部注意力机制单元,包括:低维嵌入全连接层、ReLU非线性激活层、维度恢复全连接层三个子结构,三者以级联的方式连接;低维嵌入全连接层的神经元数目小于或等于单通道局部注意力机制子模块输入的特征维度,维度恢复全连接层的神经元数目等于单通道局部注意力机制子模块输入的特征维度。
本发明还提供一种计算机***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的步骤。
本发明具有以下有益效果:
1、本发明的用于3D人体姿态估计的多视角特征融合方法,是一种基于混合注意力机制的多视角特征融合方法,在有效选择各视角2D特征热度图的同时,通过训练学习自动选择有效深度特征,并将其按视角融合成统一的3D人体姿态表征。具有自适应性、高灵活性的特点,能以特征融合的思路解决3D人体姿态估计技术方案中的“局部遮挡”问题,并且能够轻松嵌入到端到端学习的多视角3D人体姿态估计模型,运用到实际的动作捕捉以及姿态识别中,以得到人体相关的三维结构信息和位置信息。
2、在优选方案中,本发明用于3D人体姿态估计的多视角特征融合方法,通过神经网络模块学习通道特征图局部空间的相关性,并通过为每个通道特征图元素学习掩模的形式生成权重特征(注意力得分),关注每个特征图的局部相关性,以进一步通过特征图的局部相关性更好的解决“局部遮挡”问题,最终能应用到实际生活场景当中,进行实际场景的人体姿态估计。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的基于MVP-att的多视角3D人体姿态估计方法的学习模型示意图;
图2是本发明优选实施例的MVP-att多视角注意力机制模块的结构示意图;
图3是本发明优选实施例的基于MVP-att混合注意力机制的多视角特征融合方法的流程图;
图4是本发明优选实施例的3D人体姿态的预测结果示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例一:
在本实施例中,公开了一种基于混合注意力机制的多视角特征融合方法,如图1所示。
本实施例的基于混合注意力机制的多视角特征融合方法,步骤如下:
S1、获取需要姿态估计的不同视角的目标图像;
S2、将目标图像经过图像预处理后,输入到训练好的MVP-att姿态估计模型中,输出3D人体姿态估计的结果。
MVP-att姿态估计模型通过以下步骤训练得到:
S201、将需要姿态估计的目标图像进行预处理;
本实施例使用每个数据集提供的人体边界框来裁剪目标图像,重新对裁剪图像进行采样来便于虚拟相机指向裁剪中心,然后采用归一化处理,将其转换成256×256和384×384两种输入尺寸,并且随机旋转30度和标准化颜色来增强训练数据集,在整个实施过程中使用Adam优化器,同时将最大迭代次数设置为40。这里给定多个视角的输入图像i表示第i个视角,N表示视角总个数,每张图片的分辨率为384×384和256×256两种。
S202、如图1将上述输出作为输入进入到编码器中;
本实施例使用ResNet152作为主干网络,并且设置pretrained=True,这样可以使用Imagenet的与训练权重,来编码多视角图像的深度特征,将编码网络记为E,所有视角图像的特征编码器共享权重,而编码过程如下表示:
xk=E(Ik)
这里编码后生成的xk是2048×12×12的特征图,也是单视图的2D人体姿态表达。可以存储到多视图的深度特征集合中。
S4、将特征图输入到特征转换模块(FTL)中;
这里将图像或人体姿态的隐式表达从一个视图映射到另一个视图,其表示如下:
这里Pk表示的是第k个相机的投影矩阵,特征变换层可以将相机投影矩阵条件作用于深度特征图,以将多视图深度特征xi映射成统一的标准表达(世界坐标),来实现来实现多视图深度特征的标准化,以及跟相机姿态的解耦。
在前一个模块中所得到的多视图的深度特征集合中蕴含了3D人体姿态表示的信息,但需要是从这些不同视图提取深度特征进行转换,达到解耦相机姿态和深度特征的目的,上述得到信息中视点信息跟人体姿态信息还是会结合在一起,而不是与观察视角无关。关节点信息不应该包含在不同视角所提取的深度特征中,后续的多视角特征融合是完全需要解耦相机姿态和深度特征。因此,采用特征转换模块(FTL),相机投影矩阵条件作用与每个特征图的图像坐标,而后将其从图像坐标转换为世界坐标,来实现多视图深度特征的标准化。特征转换模块会将输入的特征图看作点集,通过特定的目标变换之后利用条件概念模型重塑原始维度,上述的特征转换方法可以使学习到的隐式特征空间保留转换前的数据结构,同时在实际应用中将学习到的特征表征和目标变换进行解耦。可使得模型专注于多视角信息融合,简化了多视角3D人体姿态估计模型的共同推理过程。
S5、将解耦后的单视图深度特征输入到多视角注意力机制模块中;
这一步中输入为:多视角特征集合D={x1,x2,...,xN},xi表示由2D姿态估计器提取到的第i个视角下的2D关节点热度图,N表示视角数,输出为:视角解耦同一的三维人体姿态表征y。
在一些实施方式中,基于混合注意力机制的多视角特征融合机制模块可包括:级联的通道注意力机制单元和单通道局部注意力机制单元;用于对不同特征通道的注意力加权计算、同一特征通道不同局部的注意力加权计算,并依据计算得到的权值,完成对应的特征通道加权求和、同一特征通道局部加权求和,得到每个通道的深度特征的注意力得分。优选地,单通道局部注意力机制单元,包括:低维嵌入全连接层、ReLU非线性激活层、维度恢复全连接层三个子结构,三者以级联的方式连接;低维嵌入全连接层的神经元数目小于或等于单通道局部注意力机制子模块输入的特征维度,维度恢复全连接层的神经元数目等于单通道局部注意力机制子模块输入的特征维度。实际实施时,混合注意力机制以通道注意力机制和单通道局部注意力机制级联的方式进行混合,可以是通道注意力机制、单通道局部注意力机制的顺次级联,也可以是单通道局部注意力机制、通道注意力机制的顺次级联,混合注意力机制的混合方式包含通道注意力机制和单通道局部注意力机制所有级联方式,包括残差学习所提及的残差连接。
参见图2,本实施例的基于混合注意力机制的多视角特征融合机制模块(以下简称多视角注意力机制模块)首先将解耦的单视图深度特征通过1×1卷积由2048个通道压缩为300个通道,然后将不同视角所提取的深度特征通过特征变换模块转换为共享的标准表达,完成特征转换后将所有视图的特征图连结在一起并且组合成待融合的深度特征集合,也就是上述的输入。然后使用SENet通道注意力模块让模型自动学***后的维度,是取决于编码器所生成的特征图尺寸。而如前所述,一种输入是384×384的图像,这种情况下,在经过编码器之后,所生成的特征图尺寸为12×12,所以D=144。在进入多视角注意力机制模块之后,各视图的深度特征图通过将特征转换模块后的输出标记为将集合中的所有深度特征连结在一起,而后通过SENet自适应的调整各个通道的特征响应值,该通道注意力机制模块训练全连接网络学***均池化)来压缩特征通道图,而后通过两个全连接层来建模通道的相关性,其生成地深度特征集合记作特征集合的每个元素输入共享函数F,其表示如下:
该函数的主要作用则是学习通道特征图的空间相关性,其输出是学习到的一组注意力激活利用softmax操作,对所学习到的注意力激活进行归一化,而后计算出一组注意力得分S={s1,s2,…,sn-1,sn},将第i个特征元素的注意力得分记为 其中si中的每个元素的计算如下公式表示:
mi=xi×si
在获得上述的权重特征集合之后,将其按视角融合,也就是将按照视角进行分组,将相同视角的权重特征分配到一组(学习的注意力得分可以看作掩膜),然后将N组特征图通过元素相加融合到一组特征图中,也就能够得到最终的3D人体姿态表达,其表示如下:
上述步骤,同时学习了多视图深度特征图通道之间的相关性和通道特征图局部空间的相关性,较目前使用的1×1卷积层减少了约76%的参数量。同事,赋予模型自动选择多视图有效深度特征进行融合的能力,能够将任意数量的多视图(视角数大于等于2)深度特征聚合成紧凑的3D人体姿态表征。
在一些实施方式中,得到3D人体姿态表达之后,还可以继续按照以下步骤得到三维人体骨架:
本实施例中,解码器D使用了三个反卷积层和一个1×1卷积,每个反卷积层包括反卷积操作、批量标准化和ReLU的非线性激活的操作,而每个反卷积核的尺寸是4×4,其步幅为2,最后加入一个1×1卷积层来生成所有k个视角的J个二维关节点热图。3D人体姿态隐式表达y的尺寸还原为y∈R300×12×12之后,将其输入到使用相机投影矩阵Pk条件作用的特征转换模块,再获得特征融合后各个视角的深度特征这里且将映射回2048个通道后记作 将vk输入到解码器D,获得关节点二位热图hk,并且在获得关节点热图hk之后,通过soft-argmax求解第k个视角的关节点二维坐标,就能够获得所有视图的2D人体姿态,并且为构造从多视图到3D人体姿态的端到端学习模型提供了便利。
S7、使用可微直接线性变换方法将多视角二维关节点映射到三维关节点。
获取了所有视图的2D人体姿态,就可以利用他们重建3D人体姿态,本发明中使用可微的高效直接线性变换算法来将多视角二维关节点映射到三维关节点,最终构造出一个更加轻量级的端到端多视角3D人体姿态估计模型。
S8、在实际应用过程中,训练数据集时为了使得模型在训练早期阶段更加稳定,可以利用损失函数来对模型进一步训练。
本实施例,为了使得模型在训练早期阶段更加稳定,使用最小化二维关节点的平均误差(MPJPE)来监督模型训练,以获得更加稳定的多视角2D人体姿态估计模型,损失函数如下:
以上步骤是构建和训练整个MVP-att姿态估计模型的过程。
实施例二:
对于构建好的基于混合注意力机制的多视角特征融合模型,在实际应用中的实例过程如图3,过程如下:
S1、获得原始图像的数据,然后对原始图像数据进行预处理,得到预处理之后的图像;
S2、对预处理之后的图像进行数据增强,获得增强后的图像;
S3、将预处理之后的图像作为输入输入到上述构建的模型之中得到预测的3D的人体姿态表征,图4则是该模型的可视化结果;
可以在图4中看到本发明预测的2D人体姿态与地面真值(ground truth)的对比效果,还有预测的3D人体姿态;
S4、将输出可视化显示在用户的手机或者电脑屏幕中。
实施例三:
本发明还提供一种计算机***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一实施例的步骤。
综上可知,本发明通过SENet学习多视图深度特征集合的通道相关性,采用神经网络模块学习通道特征图局部空间的相关性,通过为每个通道特征图元素学习掩模的形式生成权重特征,并将其按视角融合成统一的3D人体姿态表征,具有自适应性、高灵活性的特点。
本发明能够以特征融合的思路解决3D人体姿态估计技术方案中的“局部遮挡”问题的新方法,并且能够轻松嵌入到端到端学习的多视角3D人体姿态估计模型,运用到实际的动作捕捉以及姿态识别中,以得到人体相关的三维结构信息和位置信息。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种用于3D人体姿态估计的多视角特征融合方法,其特征在于,包括以下步骤:
获取需要姿态估计的不同视角的目标图像;
将目标图像经过图像预处理后,输入到训练好的MVP-att姿态估计模型中,输出3D人体姿态估计的结果;
所述MVP-att姿态估计模型通过以下步骤训练得到:
通过编码器对多视角输入的多个目标图像分别进行采样,提取得到多个单视图的2D人体姿态表达的深度特征图;
采用特征转换模块,将相机投影矩阵条件作用于每个深度特征图的图像坐标,映射转换为世界坐标,实现多视图的深度特征图中的深度特征进行标准化以及与相机姿态的解耦;
使用基于混合注意力机制的多视角特征融合机制模块从解耦后的深度特征中自动选择有效深度特征,按照视角融合成统一的3D人体姿态表征。
2.根据权利要求1所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,所述MVP-att姿态估计模型的训练步骤,还包括:
将3D人体姿态表征输入到使用相机投影矩阵条件作用的特征转换模块,输出特征融合后各个视角的深度特征;
将特征融合后各个视角的深度特征输入到解码器中获得关节点二维热图;
使用可微直接线性变换方法将多视角的关节点二维热图映射到三维空间,生成表征人体关节点在三维空间位置的三维人体骨架。
3.根据权利要求1所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,所述自动选择有效深度特征,包括以下步骤:
先通过混合注意力机制建模解耦后的深度特征之间的相关性,然后深度学习每个通道的深度特征的注意力得分,自动在不同视角的深度特征集合中选择注意力得分符合要求的深度特征作为有效深度特征。
6.根据权利要求1至5中任一项所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,所述基于混合注意力机制的多视角特征融合机制模块包括:级联的通道注意力机制单元和单通道局部注意力机制单元;用于对不同特征通道的注意力加权计算、同一特征通道不同局部的注意力加权计算,并依据计算得到的权值,完成对应的特征通道加权求和、同一特征通道局部加权求和,得到每个通道的深度特征的注意力得分。
7.根据权利要求6所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,
所述单通道局部注意力机制单元,包括:低维嵌入全连接层、ReLU非线性激活层、维度恢复全连接层三个子结构,三者以级联的方式连接;低维嵌入全连接层的神经元数目小于或等于单通道局部注意力机制子模块输入的特征维度,维度恢复全连接层的神经元数目等于单通道局部注意力机制子模块输入的特征维度。
8.一种计算机***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210460455.6A CN114758205A (zh) | 2022-04-24 | 2022-04-24 | 用于3d人体姿态估计的多视角特征融合方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210460455.6A CN114758205A (zh) | 2022-04-24 | 2022-04-24 | 用于3d人体姿态估计的多视角特征融合方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114758205A true CN114758205A (zh) | 2022-07-15 |
Family
ID=82333484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210460455.6A Pending CN114758205A (zh) | 2022-04-24 | 2022-04-24 | 用于3d人体姿态估计的多视角特征融合方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114758205A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035551A (zh) * | 2022-08-10 | 2022-09-09 | 武汉东信同邦信息技术有限公司 | 三维人体姿态估计方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881773A (zh) * | 2020-07-06 | 2020-11-03 | 武汉大学 | 一种基于位置偏移的事件相机人体姿态估计方法及*** |
WO2022036777A1 (zh) * | 2020-08-21 | 2022-02-24 | 暨南大学 | 基于卷积神经网络的人体动作姿态智能估计方法及装置 |
-
2022
- 2022-04-24 CN CN202210460455.6A patent/CN114758205A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881773A (zh) * | 2020-07-06 | 2020-11-03 | 武汉大学 | 一种基于位置偏移的事件相机人体姿态估计方法及*** |
WO2022036777A1 (zh) * | 2020-08-21 | 2022-02-24 | 暨南大学 | 基于卷积神经网络的人体动作姿态智能估计方法及装置 |
Non-Patent Citations (2)
Title |
---|
卢健;杨腾飞;赵博;王航英;罗毛欣;周嫣然;李哲: "基于深度学习的人体姿态估计方法综述", 《激光与光电子学进展》, 12 March 2021 (2021-03-12) * |
蔡轶珩;王雪艳;胡绍斌;刘嘉琦;: "基于多源图像弱监督学习的3D人体姿态估计", 北京航空航天大学学报, no. 12, 16 August 2019 (2019-08-16) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035551A (zh) * | 2022-08-10 | 2022-09-09 | 武汉东信同邦信息技术有限公司 | 三维人体姿态估计方法、装置、设备及存储介质 |
CN115035551B (zh) * | 2022-08-10 | 2022-12-02 | 武汉东信同邦信息技术有限公司 | 三维人体姿态估计方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110910486B (zh) | 室内场景光照估计模型、方法、装置、存储介质以及渲染方法 | |
CN109636831B (zh) | 一种估计三维人体姿态及手部信息的方法 | |
CN108876814B (zh) | 一种生成姿态流图像的方法 | |
CN111783582A (zh) | 一种基于深度学习的无监督单目深度估计算法 | |
CN113283525B (zh) | 一种基于深度学习的图像匹配方法 | |
CN110827295A (zh) | 基于体素模型与颜色信息耦合的三维语义分割方法 | |
CN112837215B (zh) | 一种基于生成对抗网络的图像形状变换方法 | |
CN110570522A (zh) | 一种多视图三维重建方法 | |
WO2021042774A1 (zh) | 图像恢复方法、图像恢复网络训练方法、装置和存储介质 | |
CN111062326A (zh) | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 | |
CN113051420B (zh) | 一种基于文本生成视频机器人视觉人机交互方法及*** | |
CN111402412A (zh) | 数据采集方法及装置、设备、存储介质 | |
Xu et al. | Layout-guided novel view synthesis from a single indoor panorama | |
CN112819951A (zh) | 一种基于深度图修复的带遮挡三维人体重建方法 | |
CN114973407A (zh) | 一种基于rgb-d的视频三维人体姿态估计方法 | |
CN114125269A (zh) | 一种基于深度学习的手机实时全景拍摄方法 | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
Feng et al. | Deep depth estimation on 360 images with a double quaternion loss | |
CN114758205A (zh) | 用于3d人体姿态估计的多视角特征融合方法及*** | |
CN117274501B (zh) | 一种可驱动数字人建模方法、装置、设备及介质 | |
Cong et al. | Multi-Projection Fusion and Refinement Network for Salient Object Detection in 360$^{\circ} $ Omnidirectional Image | |
WO2021057091A1 (zh) | 视点图像处理方法及相关设备 | |
Sumantri et al. | 360 panorama synthesis from a sparse set of images on a low-power device | |
Yin et al. | Novel view synthesis for large-scale scene using adversarial loss | |
CN116934972A (zh) | 一种基于双流网络的三维人体重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |