CN114758205A - 用于3d人体姿态估计的多视角特征融合方法及*** - Google Patents

用于3d人体姿态估计的多视角特征融合方法及*** Download PDF

Info

Publication number
CN114758205A
CN114758205A CN202210460455.6A CN202210460455A CN114758205A CN 114758205 A CN114758205 A CN 114758205A CN 202210460455 A CN202210460455 A CN 202210460455A CN 114758205 A CN114758205 A CN 114758205A
Authority
CN
China
Prior art keywords
view
human body
feature
depth
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210460455.6A
Other languages
English (en)
Inventor
肖德贵
魏钰麒
李健芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210460455.6A priority Critical patent/CN114758205A/zh
Publication of CN114758205A publication Critical patent/CN114758205A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了用于3D人体姿态估计的多视角特征融合方法及***,该方法包括:获取需要姿态估计的不同视角的目标图像;将目标图像经过图像预处理后,输入到训练好的MVP‑att姿态估计模型中,输出3D人体姿态估计的结果;所述MVP‑att姿态估计模型通过以下步骤训练得到:通过编码器对多视角输入的多个目标图像分别进行采样,提取得到多个单视图的2D人体姿态表达的深度特征图;输入特征转换模块,实现多视图的深度特征图与相机姿态的解耦;使用基于混合注意力机制的多视角特征融合机制模块从解耦后的深度特征中自动选择有效深度特征,按照视角融合成统一的3D人体姿态表征。本发明能够将任意数量的多视图深度特征聚合成3D人体姿态表征。

Description

用于3D人体姿态估计的多视角特征融合方法及***
技术领域
本发明涉及3D人体姿态估计领域,尤其涉及一种基于混合注意力机制的用于3D人体姿态估计的多视角特征融合方法及***。
背景技术
多视角3D人体姿态估计是近年来伴随深度学习算法兴起的计算机视觉领域内研究的热点分支,其作为一种基础技术服务于影视动画制作、虚拟现实、医疗康复等广泛的下游应用。传统基于标记的光学式动作捕捉技术在3D人体姿态估计的问题上已经取得了优异的效果,但这种方案部署流程繁琐、场地要求苛刻,这极大的限制了3D人体姿态估计在虚拟现实、动作分析等低精度、高灵活性场景的进一步推广。
近年来,随着深度学习算法在计算机视觉领域大放异彩,基于深度学习的多视角3D人体姿态估计方法快速发展,取得了不错的效果。目前,主流的多视角3D人体姿态估计方法可以划分位两个步骤:1)利用深度神经网络构造2D人体姿态编码器,提取多视角下的2D人体姿态热度图;2)基于多视角2D人体姿态热度图,通过三角测量技术或深度神经网络估计3D人体姿态。这类技术方案面临的一个核心难点问题是:不同视角因为人***姿、前景环境等因素引起的局部遮挡。这会使得2D人体姿态编码器所提取的多视角热度图存在较大的偏差,从而严重影响后续3D人体姿态估计器的性能。
针对上述问题,已有研究者从多视角特征融合的角度提出了可行的解决方案,并取得了不错的效果。现有技术方案大体上可以分为两类:1)多视角2D热度图融合,这种方法将当前视图关节点热图任意位置的响应值与其在其他视图对应极线上的最大响应值融合;2)3D人体姿态表征学习,该方法将不同视图的人体姿态特征与相机姿态解耦,然后学习不同视图对应的统一3D人体姿态表征。方式1仅在推理出2D人体姿态后多次增强其热度图,实现优化单视角2D人体姿态的目标。这种方式在推理3D人体姿态时没有充分利用多视图的图像特征,其性能高度依赖于2D人体姿态估计器,同时这种处理方式也无法构造端到端的学习模型。方式2则存在如下两个重要缺陷:1)没有让模型选择有效特征进行融合;2)忽略了每个通道特征图局部空间的相关性。这些问题的存在,使得“局部遮挡”问题的解决方案有着更多的可能性,最终提出一种新的姿态估计方法,使得生成统一的3D人体姿态表征,得到3D人体姿态估计的最终结果。
发明内容
本发明提供了一种用于3D人体姿态估计的多视角特征融合方法及***,用以解决目前主流基于深度学的3D人体姿态估计技术方案中的“局部遮挡”的技术问题。
为解决上述技术问题,本发明提出的技术方案为:
一种用于3D人体姿态估计的多视角特征融合方法,包括以下步骤:
获取需要姿态估计的不同视角的目标图像;
将目标图像经过图像预处理后,输入到训练好的MVP-att(Multi-View PoseAttention多视角注意力机制姿态估计模型)姿态估计模型中,输出3D人体姿态估计的结果;
MVP-att姿态估计模型通过以下步骤训练得到:
通过编码器对多视角输入的多个目标图像分别进行采样,提取得到多个单视图的2D人体姿态表达的深度特征图;
采用特征转换模块,将相机投影矩阵条件作用于每个深度特征图的图像坐标,映射转换为世界坐标,实现多视图的深度特征图中的深度特征进行标准化以及与相机姿态的解耦;
使用基于混合注意力机制的多视角特征融合机制模块从解耦后的深度特征中自动选择有效深度特征,按照视角融合成统一的3D人体姿态表征。
优选地,MVP-att姿态估计模型的训练步骤,还包括:
将3D人体姿态表征输入到使用相机投影矩阵条件作用的特征转换模块,输出特征融合后各个视角的深度特征;
将特征融合后各个视角的深度特征输入到解码器中获得关节点二维热图;
使用可微直接线性变换方法将多视角的关节点二维热图映射到三维空间,生成表征人体关节点在三维空间位置的三维人体骨架。
优选地,自动选择有效深度特征,包括以下步骤:
先通过混合注意力机制建模解耦后的深度特征之间的相关性,然后深度学习每个通道的深度特征的注意力得分,自动在不同视角的深度特征集合中选择注意力得分符合要求的深度特征作为有效深度特征。
优选地,MVP-att姿态估计模型在训练过程中,通过最小化二维关节点的平均误差来监督模型的训练,损失函数如下:
Figure BDA0003620322560000021
其中,
Figure BDA0003620322560000022
表示第k个视角的第j个关节的真实二维坐标;
Figure BDA0003620322560000023
是模型预测的第k个视角第j个关节的二维坐标。
优选地,MVP-att姿态估计模型在训练过程中,再通过以下损失函数公式微调多视角3D人体姿态估计模型:
Figure BDA0003620322560000031
其中,L3D-MPJPE是所有关节点的预测位置与地面真值位置的平均欧氏距离,其中
Figure BDA0003620322560000032
是世界坐标系下第j个关节点的真实三维坐标,pj为模型预测的第j个关节点的三维坐标。
优选地,基于混合注意力机制的多视角特征融合机制模块包括:级联的通道注意力机制单元和单通道局部注意力机制单元;用于对不同特征通道的注意力加权计算、同一特征通道不同局部的注意力加权计算,并依据计算得到的权值,完成对应的特征通道加权求和、同一特征通道局部加权求和,得到每个通道的深度特征的注意力得分。
优选地,单通道局部注意力机制单元,包括:低维嵌入全连接层、ReLU非线性激活层、维度恢复全连接层三个子结构,三者以级联的方式连接;低维嵌入全连接层的神经元数目小于或等于单通道局部注意力机制子模块输入的特征维度,维度恢复全连接层的神经元数目等于单通道局部注意力机制子模块输入的特征维度。
本发明还提供一种计算机***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的步骤。
本发明具有以下有益效果:
1、本发明的用于3D人体姿态估计的多视角特征融合方法,是一种基于混合注意力机制的多视角特征融合方法,在有效选择各视角2D特征热度图的同时,通过训练学习自动选择有效深度特征,并将其按视角融合成统一的3D人体姿态表征。具有自适应性、高灵活性的特点,能以特征融合的思路解决3D人体姿态估计技术方案中的“局部遮挡”问题,并且能够轻松嵌入到端到端学习的多视角3D人体姿态估计模型,运用到实际的动作捕捉以及姿态识别中,以得到人体相关的三维结构信息和位置信息。
2、在优选方案中,本发明用于3D人体姿态估计的多视角特征融合方法,通过神经网络模块学习通道特征图局部空间的相关性,并通过为每个通道特征图元素学习掩模的形式生成权重特征(注意力得分),关注每个特征图的局部相关性,以进一步通过特征图的局部相关性更好的解决“局部遮挡”问题,最终能应用到实际生活场景当中,进行实际场景的人体姿态估计。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的基于MVP-att的多视角3D人体姿态估计方法的学习模型示意图;
图2是本发明优选实施例的MVP-att多视角注意力机制模块的结构示意图;
图3是本发明优选实施例的基于MVP-att混合注意力机制的多视角特征融合方法的流程图;
图4是本发明优选实施例的3D人体姿态的预测结果示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例一:
在本实施例中,公开了一种基于混合注意力机制的多视角特征融合方法,如图1所示。
本实施例的主要目标就是获取3D人体姿态在绝对世界坐标下的位置,也就是人体姿态每个关节点的三维坐标集合
Figure BDA0003620322560000041
为每个关节点分配特定编号,将重建的关节点按照次序连接起来就会构成三维的人体骨架。
本实施例的基于混合注意力机制的多视角特征融合方法,步骤如下:
S1、获取需要姿态估计的不同视角的目标图像;
在具体实施时,可以通过摄像机等装置获取需要姿态估计的目标图像,在不同位置放置摄像机来获取不同视角的图像,本实施例中视角个数为N(N≥2),将输入的多视图记作
Figure BDA0003620322560000042
并且已知每个视角的投影矩阵为pi
S2、将目标图像经过图像预处理后,输入到训练好的MVP-att姿态估计模型中,输出3D人体姿态估计的结果。
MVP-att姿态估计模型通过以下步骤训练得到:
S201、将需要姿态估计的目标图像进行预处理;
本实施例使用每个数据集提供的人体边界框来裁剪目标图像,重新对裁剪图像进行采样来便于虚拟相机指向裁剪中心,然后采用归一化处理,将其转换成256×256和384×384两种输入尺寸,并且随机旋转30度和标准化颜色来增强训练数据集,在整个实施过程中使用Adam优化器,同时将最大迭代次数设置为40。这里给定多个视角的输入图像
Figure BDA0003620322560000043
i表示第i个视角,N表示视角总个数,每张图片的分辨率为384×384和256×256两种。
S202、如图1将上述输出作为输入进入到编码器中;
本实施例使用ResNet152作为主干网络,并且设置pretrained=True,这样可以使用Imagenet的与训练权重,来编码多视角图像的深度特征,将编码网络记为E,所有视角图像的特征编码器共享权重,而编码过程如下表示:
xk=E(Ik)
这里编码后生成的xk是2048×12×12的特征图,也是单视图的2D人体姿态表达。可以存储到多视图的深度特征集合中。
S4、将特征图输入到特征转换模块(FTL)中;
这里将图像或人体姿态的隐式表达从一个视图映射到另一个视图,其表示如下:
Figure BDA0003620322560000051
这里Pk表示的是第k个相机的投影矩阵,特征变换层可以将相机投影矩阵
Figure BDA0003620322560000052
条件作用于深度特征图,以将多视图深度特征xi映射成统一的标准表达(世界坐标),来实现来实现多视图深度特征的标准化,以及跟相机姿态的解耦。
在前一个模块中所得到的多视图的深度特征集合中蕴含了3D人体姿态表示的信息,但需要是从这些不同视图提取深度特征进行转换,达到解耦相机姿态和深度特征的目的,上述得到信息中视点信息跟人体姿态信息还是会结合在一起,而不是与观察视角无关。关节点信息不应该包含在不同视角所提取的深度特征中,后续的多视角特征融合是完全需要解耦相机姿态和深度特征。因此,采用特征转换模块(FTL),相机投影矩阵条件作用与每个特征图的图像坐标,而后将其从图像坐标转换为世界坐标,来实现多视图深度特征的标准化。特征转换模块会将输入的特征图看作点集,通过特定的目标变换之后利用条件概念模型重塑原始维度,上述的特征转换方法可以使学习到的隐式特征空间保留转换前的数据结构,同时在实际应用中将学习到的特征表征和目标变换进行解耦。可使得模型专注于多视角信息融合,简化了多视角3D人体姿态估计模型的共同推理过程。
S5、将解耦后的单视图深度特征输入到多视角注意力机制模块中;
这一步中输入为:多视角特征集合D={x1,x2,...,xN},xi表示由2D姿态估计器提取到的第i个视角下的2D关节点热度图,N表示视角数,输出为:视角解耦同一的三维人体姿态表征y。
在一些实施方式中,基于混合注意力机制的多视角特征融合机制模块可包括:级联的通道注意力机制单元和单通道局部注意力机制单元;用于对不同特征通道的注意力加权计算、同一特征通道不同局部的注意力加权计算,并依据计算得到的权值,完成对应的特征通道加权求和、同一特征通道局部加权求和,得到每个通道的深度特征的注意力得分。优选地,单通道局部注意力机制单元,包括:低维嵌入全连接层、ReLU非线性激活层、维度恢复全连接层三个子结构,三者以级联的方式连接;低维嵌入全连接层的神经元数目小于或等于单通道局部注意力机制子模块输入的特征维度,维度恢复全连接层的神经元数目等于单通道局部注意力机制子模块输入的特征维度。实际实施时,混合注意力机制以通道注意力机制和单通道局部注意力机制级联的方式进行混合,可以是通道注意力机制、单通道局部注意力机制的顺次级联,也可以是单通道局部注意力机制、通道注意力机制的顺次级联,混合注意力机制的混合方式包含通道注意力机制和单通道局部注意力机制所有级联方式,包括残差学习所提及的残差连接。
参见图2,本实施例的基于混合注意力机制的多视角特征融合机制模块(以下简称多视角注意力机制模块)首先将解耦的单视图深度特征通过1×1卷积由2048个通道压缩为300个通道,然后将不同视角所提取的深度特征通过特征变换模块转换为共享的标准表达,完成特征转换后将所有视图的特征图连结在一起并且组合成待融合的深度特征集合,也就是上述的输入。然后使用SENet通道注意力模块让模型自动学***后的维度,是取决于编码器所生成的特征图尺寸。而如前所述,一种输入是384×384的图像,这种情况下,在经过编码器之后,所生成的特征图尺寸为12×12,所以D=144。在进入多视角注意力机制模块之后,各视图的深度特征图通过将特征转换模块后的输出标记为
Figure BDA0003620322560000063
将集合中的所有深度特征连结在一起,而后通过SENet自适应的调整各个通道的特征响应值,该通道注意力机制模块训练全连接网络学***均池化)来压缩特征通道图,而后通过两个全连接层来建模通道的相关性,其生成地深度特征集合记作
Figure BDA0003620322560000064
特征集合
Figure BDA0003620322560000065
的每个元素输入共享函数F,其表示如下:
Figure BDA0003620322560000066
该函数的主要作用则是学习通道特征图的空间相关性,其输出是学习到的一组注意力激活
Figure BDA0003620322560000067
利用softmax操作,对所学习到的注意力激活进行归一化,而后计算出一组注意力得分S={s1,s2,…,sn-1,sn},将第i个特征元素的注意力得分记为
Figure BDA0003620322560000068
Figure BDA0003620322560000069
其中si中的每个元素的计算如下公式表示:
Figure BDA00036203225600000610
这里fi d和fj d分别是fi和fj的第d个特征图元素,而后将上述计算的注意力得分和待融合深度特征集合
Figure BDA0003620322560000071
按元素点乘来获得权重特征集合
Figure BDA0003620322560000072
其中mi的计算如下表示:
mi=xi×si
在获得上述的权重特征集合之后,将其按视角融合,也就是将
Figure BDA0003620322560000073
按照视角进行分组,将相同视角的权重特征分配到一组(学习的注意力得分可以看作掩膜),然后将N组特征图通过元素相加融合到一组特征图中,也就能够得到最终的3D人体姿态表达,其表示如下:
Figure BDA0003620322560000074
这里的
Figure BDA0003620322560000075
表示第k个视图深度特征集合的第i个权重特征,而yi则是y的第i个通道特征图。
上述步骤,同时学习了多视图深度特征图通道之间的相关性和通道特征图局部空间的相关性,较目前使用的1×1卷积层减少了约76%的参数量。同事,赋予模型自动选择多视图有效深度特征进行融合的能力,能够将任意数量的多视图(视角数大于等于2)深度特征聚合成紧凑的3D人体姿态表征。
在一些实施方式中,得到3D人体姿态表达之后,还可以继续按照以下步骤得到三维人体骨架:
S6、将得到的y尺寸还原为
Figure BDA0003620322560000076
之后,将其输入到使用相机投影矩阵Pk条件作用的特征转换模块,获得特征融合之后的各个视角的深度特征uk
Figure BDA0003620322560000077
将uk输入到解码器D中获得关节点二维热图hk
本实施例中,解码器D使用了三个反卷积层和一个1×1卷积,每个反卷积层包括反卷积操作、批量标准化和ReLU的非线性激活的操作,而每个反卷积核的尺寸是4×4,其步幅为2,最后加入一个1×1卷积层来生成所有k个视角的J个二维关节点热图。3D人体姿态隐式表达y的尺寸还原为y∈R300×12×12之后,将其输入到使用相机投影矩阵Pk条件作用的特征转换模块,再获得特征融合后各个视角的深度特征
Figure BDA0003620322560000078
这里
Figure BDA0003620322560000079
且将
Figure BDA00036203225600000710
映射回2048个通道后记作
Figure BDA00036203225600000711
Figure BDA00036203225600000712
将vk输入到解码器D,获得关节点二位热图hk,并且在获得关节点热图hk之后,通过soft-argmax求解第k个视角的关节点二维坐标,就能够获得所有视图的2D人体姿态,并且为构造从多视图到3D人体姿态的端到端学习模型提供了便利。
S7、使用可微直接线性变换方法将多视角二维关节点映射到三维关节点。
获取了所有视图的2D人体姿态,就可以利用他们重建3D人体姿态,本发明中使用可微的高效直接线性变换算法来将多视角二维关节点映射到三维关节点,最终构造出一个更加轻量级的端到端多视角3D人体姿态估计模型。
S8、在实际应用过程中,训练数据集时为了使得模型在训练早期阶段更加稳定,可以利用损失函数来对模型进一步训练。
本实施例,为了使得模型在训练早期阶段更加稳定,使用最小化二维关节点的平均误差(MPJPE)来监督模型训练,以获得更加稳定的多视角2D人体姿态估计模型,损失函数如下:
Figure BDA0003620322560000081
这里的
Figure BDA0003620322560000082
表示第k个视角的第j个关节的真实二维坐标,然后通过以下损失函数来微调多视角3D人体姿态估计模型:
Figure BDA0003620322560000083
在上述式子中
Figure BDA0003620322560000084
表示世界坐标系的第j个关节点的真实三维坐标
以上步骤是构建和训练整个MVP-att姿态估计模型的过程。
实施例二:
对于构建好的基于混合注意力机制的多视角特征融合模型,在实际应用中的实例过程如图3,过程如下:
S1、获得原始图像的数据,然后对原始图像数据进行预处理,得到预处理之后的图像;
S2、对预处理之后的图像进行数据增强,获得增强后的图像;
S3、将预处理之后的图像作为输入输入到上述构建的模型之中得到预测的3D的人体姿态表征,图4则是该模型的可视化结果;
可以在图4中看到本发明预测的2D人体姿态与地面真值(ground truth)的对比效果,还有预测的3D人体姿态;
S4、将输出可视化显示在用户的手机或者电脑屏幕中。
实施例三:
本发明还提供一种计算机***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一实施例的步骤。
综上可知,本发明通过SENet学习多视图深度特征集合的通道相关性,采用神经网络模块学习通道特征图局部空间的相关性,通过为每个通道特征图元素学习掩模的形式生成权重特征,并将其按视角融合成统一的3D人体姿态表征,具有自适应性、高灵活性的特点。
本发明能够以特征融合的思路解决3D人体姿态估计技术方案中的“局部遮挡”问题的新方法,并且能够轻松嵌入到端到端学习的多视角3D人体姿态估计模型,运用到实际的动作捕捉以及姿态识别中,以得到人体相关的三维结构信息和位置信息。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种用于3D人体姿态估计的多视角特征融合方法,其特征在于,包括以下步骤:
获取需要姿态估计的不同视角的目标图像;
将目标图像经过图像预处理后,输入到训练好的MVP-att姿态估计模型中,输出3D人体姿态估计的结果;
所述MVP-att姿态估计模型通过以下步骤训练得到:
通过编码器对多视角输入的多个目标图像分别进行采样,提取得到多个单视图的2D人体姿态表达的深度特征图;
采用特征转换模块,将相机投影矩阵条件作用于每个深度特征图的图像坐标,映射转换为世界坐标,实现多视图的深度特征图中的深度特征进行标准化以及与相机姿态的解耦;
使用基于混合注意力机制的多视角特征融合机制模块从解耦后的深度特征中自动选择有效深度特征,按照视角融合成统一的3D人体姿态表征。
2.根据权利要求1所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,所述MVP-att姿态估计模型的训练步骤,还包括:
将3D人体姿态表征输入到使用相机投影矩阵条件作用的特征转换模块,输出特征融合后各个视角的深度特征;
将特征融合后各个视角的深度特征输入到解码器中获得关节点二维热图;
使用可微直接线性变换方法将多视角的关节点二维热图映射到三维空间,生成表征人体关节点在三维空间位置的三维人体骨架。
3.根据权利要求1所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,所述自动选择有效深度特征,包括以下步骤:
先通过混合注意力机制建模解耦后的深度特征之间的相关性,然后深度学习每个通道的深度特征的注意力得分,自动在不同视角的深度特征集合中选择注意力得分符合要求的深度特征作为有效深度特征。
4.根据权利要求2所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,所述MVP-att姿态估计模型在训练过程中,通过最小化二维关节点的平均误差来监督模型的训练,损失函数如下:
Figure FDA0003620322550000011
其中,
Figure FDA0003620322550000012
表示第k个视角的第j个关节的真实二维坐标;
Figure FDA0003620322550000013
是模型预测的第k个视角第j个关节的二维坐标。
5.根据权利要求4所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,所述MVP-att姿态估计模型在训练过程中,再通过以下损失函数公式微调多视角3D人体姿态估计模型:
Figure FDA0003620322550000021
其中,L3D-MPJPE是所有关节点的预测位置与地面真值位置的平均欧氏距离,其中
Figure FDA0003620322550000022
是世界坐标系下第j个关节点的真实三维坐标,pj为模型预测的第j个关节点的三维坐标。
6.根据权利要求1至5中任一项所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,所述基于混合注意力机制的多视角特征融合机制模块包括:级联的通道注意力机制单元和单通道局部注意力机制单元;用于对不同特征通道的注意力加权计算、同一特征通道不同局部的注意力加权计算,并依据计算得到的权值,完成对应的特征通道加权求和、同一特征通道局部加权求和,得到每个通道的深度特征的注意力得分。
7.根据权利要求6所述的用于3D人体姿态估计的多视角特征融合方法,其特征在于,
所述单通道局部注意力机制单元,包括:低维嵌入全连接层、ReLU非线性激活层、维度恢复全连接层三个子结构,三者以级联的方式连接;低维嵌入全连接层的神经元数目小于或等于单通道局部注意力机制子模块输入的特征维度,维度恢复全连接层的神经元数目等于单通道局部注意力机制子模块输入的特征维度。
8.一种计算机***,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一所述方法的步骤。
CN202210460455.6A 2022-04-24 2022-04-24 用于3d人体姿态估计的多视角特征融合方法及*** Pending CN114758205A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210460455.6A CN114758205A (zh) 2022-04-24 2022-04-24 用于3d人体姿态估计的多视角特征融合方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210460455.6A CN114758205A (zh) 2022-04-24 2022-04-24 用于3d人体姿态估计的多视角特征融合方法及***

Publications (1)

Publication Number Publication Date
CN114758205A true CN114758205A (zh) 2022-07-15

Family

ID=82333484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210460455.6A Pending CN114758205A (zh) 2022-04-24 2022-04-24 用于3d人体姿态估计的多视角特征融合方法及***

Country Status (1)

Country Link
CN (1) CN114758205A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035551A (zh) * 2022-08-10 2022-09-09 武汉东信同邦信息技术有限公司 三维人体姿态估计方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881773A (zh) * 2020-07-06 2020-11-03 武汉大学 一种基于位置偏移的事件相机人体姿态估计方法及***
WO2022036777A1 (zh) * 2020-08-21 2022-02-24 暨南大学 基于卷积神经网络的人体动作姿态智能估计方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881773A (zh) * 2020-07-06 2020-11-03 武汉大学 一种基于位置偏移的事件相机人体姿态估计方法及***
WO2022036777A1 (zh) * 2020-08-21 2022-02-24 暨南大学 基于卷积神经网络的人体动作姿态智能估计方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
卢健;杨腾飞;赵博;王航英;罗毛欣;周嫣然;李哲: "基于深度学习的人体姿态估计方法综述", 《激光与光电子学进展》, 12 March 2021 (2021-03-12) *
蔡轶珩;王雪艳;胡绍斌;刘嘉琦;: "基于多源图像弱监督学习的3D人体姿态估计", 北京航空航天大学学报, no. 12, 16 August 2019 (2019-08-16) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035551A (zh) * 2022-08-10 2022-09-09 武汉东信同邦信息技术有限公司 三维人体姿态估计方法、装置、设备及存储介质
CN115035551B (zh) * 2022-08-10 2022-12-02 武汉东信同邦信息技术有限公司 三维人体姿态估计方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110910486B (zh) 室内场景光照估计模型、方法、装置、存储介质以及渲染方法
CN109636831B (zh) 一种估计三维人体姿态及手部信息的方法
CN108876814B (zh) 一种生成姿态流图像的方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN113283525B (zh) 一种基于深度学习的图像匹配方法
CN110827295A (zh) 基于体素模型与颜色信息耦合的三维语义分割方法
CN112837215B (zh) 一种基于生成对抗网络的图像形状变换方法
CN110570522A (zh) 一种多视图三维重建方法
WO2021042774A1 (zh) 图像恢复方法、图像恢复网络训练方法、装置和存储介质
CN111062326A (zh) 一种基于几何驱动的自监督人体3d姿态估计网络训练方法
CN113051420B (zh) 一种基于文本生成视频机器人视觉人机交互方法及***
CN111402412A (zh) 数据采集方法及装置、设备、存储介质
Xu et al. Layout-guided novel view synthesis from a single indoor panorama
CN112819951A (zh) 一种基于深度图修复的带遮挡三维人体重建方法
CN114973407A (zh) 一种基于rgb-d的视频三维人体姿态估计方法
CN114125269A (zh) 一种基于深度学习的手机实时全景拍摄方法
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
Feng et al. Deep depth estimation on 360 images with a double quaternion loss
CN114758205A (zh) 用于3d人体姿态估计的多视角特征融合方法及***
CN117274501B (zh) 一种可驱动数字人建模方法、装置、设备及介质
Cong et al. Multi-Projection Fusion and Refinement Network for Salient Object Detection in 360$^{\circ} $ Omnidirectional Image
WO2021057091A1 (zh) 视点图像处理方法及相关设备
Sumantri et al. 360 panorama synthesis from a sparse set of images on a low-power device
Yin et al. Novel view synthesis for large-scale scene using adversarial loss
CN116934972A (zh) 一种基于双流网络的三维人体重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination