CN116524121A - 一种单目视频三维人体重建方法、***、设备及介质 - Google Patents

一种单目视频三维人体重建方法、***、设备及介质 Download PDF

Info

Publication number
CN116524121A
CN116524121A CN202310456132.4A CN202310456132A CN116524121A CN 116524121 A CN116524121 A CN 116524121A CN 202310456132 A CN202310456132 A CN 202310456132A CN 116524121 A CN116524121 A CN 116524121A
Authority
CN
China
Prior art keywords
features
global
time domain
static
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310456132.4A
Other languages
English (en)
Inventor
王磊
贺诚
陈恭斌
郝晓阳
程俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202310456132.4A priority Critical patent/CN116524121A/zh
Publication of CN116524121A publication Critical patent/CN116524121A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例涉及图像处理技术领域,特别涉及一种单目视频三维人体重建方法、***、设备及介质,该方法包括:首先,基于残差神经网络,从输入视频中提取静态特征;然后,将静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征;接下来,基于特征融合网络,对时域特征与全局静态特征进行融合,得到融合特征;最后,基于融合特征和回归模块,输出三维人体模型。本申请提供的单目视频三维人体重建方法,能够实现主客观效果更好的单目视频三维人体重建,且能够同时对时间信息进行建模并提取全局静态信息。

Description

一种单目视频三维人体重建方法、***、设备及介质
技术领域
本申请实施例涉及图像处理技术领域,特别涉及一种单目视频三维人体重建方法、***、设备及介质。
背景技术
三维人体运动重建具有广泛的应用领域,包括虚拟现实、增强现实、人机交互等。准确、平滑地重建人体运动序列对于单目视频中的三维人体姿态和形状估计至关重要。然而,对视频使用基于图像的人体重建方法来实现平滑的结果是具有挑战性的。
传统方法依赖于复杂的三维扫描、或动作捕捉设备,代价昂贵。基于单目视频的重建方法具有成本低、易部署等优点。现有技术试图使用基于图像的方法,通过分别估计视频每帧上的3D人体姿势和形状,从视频中重建3D人体。这些方法尽管可以预测静态图像的合理输出,但由于缺乏对连续帧中人类运动的连续性建模,现有方法很难估计视频序列中时间上连贯和平滑的3D人体姿势和形状。
为了解决这个问题,有现有技术提出了一些方法来将基于单个图像的方法扩展到视频案例,这些方法主要依赖于递归神经网络(RNN)或卷积神经网络(CNN)来对时间信息(即人类运动的连续性)进行建模,以进行连贯预测。然而,目前存在的基于视频的方法利用递归神经网络或卷积神经网络来建模时间信息,或利用注意力机制来捕获全局人体相关信息,这些方法并没有同时考虑对时间信息进行建模和提取与人体相关的全局静态信息。
发明内容
本申请实施例提供一种单目视频三维人体重建方法、***、设备及介质,能够实现主客观效果更好的单目视频三维人体重建,而且能够同时对时间信息进行建模并提取全局静态信息。
为解决上述技术问题,第一方面,本申请实施例提供一种单目视频三维人体重建方法,包括以下步骤:首先,基于残差神经网络,从输入视频中提取静态特征;然后,将静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征;接下来,基于特征融合网络,对时域特征与全局静态特征进行融合,得到融合特征;最后,基于融合特征和回归模块,输出三维人体模型。
在一些示例性实施例中,基于残差神经网络,从输入视频中提取静态特征,包括:给定输入视频的序列基于残差神经网络以及所述序列,提取静态特征其中,/>
在一些示例性实施例中,将静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征,包括:将静态特征分别输入第一时域编码器、全局特征提取器、第二时域编码器、第三时域编码器,分别提取时域特征、全局静态特征;时域特征包括所有静态特征、过去静态特征以及将来静态特征。
在一些示例性实施例中,时域编码器为门控循环单元模型编码器;所述全局特征提取器为基于注意力机制的全局静态特征提取器。
在一些示例性实施例中,特征融合网络包括全连接层、激活函数层以及混合层;基于特征融合网络,对时域特征与全局静态特征进行融合,得到融合特征,包括:将时域特征与全局静态特征依次输入全连接层、激活函数层、混合层,输出分别与时域特征、全局静态特征对应的权重系数;将时域特征、全局静态特征与其对应的权重系数相乘,得到多个子特征;将多个子特征相加,得到融合特征。
在一些示例性实施例中,通过公式(1)对时域特征与全局静态特征进行融合,公式(1)如下所示:
finteg=apastfpast+aglobalfglobal+aallfall+afutureffuture (1)
其中,finteg为融合特征;fpast为过去静态特征;fglobal为全局静态特征;fall为所有静态特征;ffuture为将来静态特征;apast,aglobal,aall,afuture分别表示各特征的权重系数。
第二方面,本申请实施例还提供了一种单目视频三维人体重建***,包括:依次连接的静态特征提取模块、特征提取与编码模块、特征融合模块与三维人体模型输出模块;静态特征提取模块用于根据残差神经网络,从输入视频中提取静态特征;特征提取与编码模块用于将静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征;特征融合模块用于根据特征融合网络,对时域特征与全局静态特征进行融合,得到融合特征;三维人体模型输出模块用于根据融合特征和回归模块,输出三维人体模型。
在一些示例性实施例中,特征提取与编码模块包括三个时域编码器和一个全局特征提取器;时域编码器为门控循环单元模型编码器;全局特征提取器为基于注意力机制的全局静态特征提取器。
另外,本申请还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述单目视频三维人体重建方法、***、设备及介质。
另外,本申请还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述单目视频三维人体重建方法、***、设备及介质。
本申请实施例提供的技术方案至少具有以下优点:
本申请实施例提供一种单目视频三维人体重建方法、***、设备及介质,该方法包括以下步骤:首先,基于残差神经网络,从输入视频中提取静态特征;然后,将静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征;接下来,基于特征融合网络,对时域特征与全局静态特征进行融合,得到融合特征;最后,基于融合特征和回归模块,输出三维人体模型。
本申请针对现有技术中存在的没有关注不同视频帧之间人体的全局静态特征的技术问题,本申请提供一种单目视频三维人体重建方法,通过提出Mixformer网络模型,实现主客观效果更好的单目视频三维人体重建。本申请的Mixformer网络模型是一种基于混合Transformer的人体模型重建网络,本申请提供的方法可以同时对时间信息进行建模并提取全局静态信息,分别通过时域编码器、全局特征提取器以提取时域特征、全局静态特征,并对时域特征与全局静态特征进行特征融合后,输出三维人体模型。本申请提供的基于Mixformer网络模型的单目视频三维人体重建方法,在准确性方面明显优于现有技术,并在3DPW、MPI-INF-3HP和Human3.6M等基准数据集上实现了更好的平滑效果。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,除非有特别申明,附图中的图不构成比例限制。
图1为本申请一实施例提供的一种单目视频三维人体重建方法的流程示意图;
图2为本申请一实施例提供的一种单目视频三维人体重建方法的流程框架示意图;
图3为本申请一实施例提供的门控循环单元模型编码器的结构示意图;
图4为本申请一实施例提供的时域编码器与全局特征提取器的网络结构示意图;
图5为本申请另一实施例提供的特征融合网络结构示意图;
图6为本申请一实施例提供的一种单目视频三维人体重建***的结构示意图;
图7为本申请一实施例提供的方法对真实场景图像遮挡下的三维重建效果图;
图8为本申请一实施例提供的不同方法对室外视频的三维重建效果对比示意图;
图9为本申请一实施例提供的一种电子设备的结构示意图。
具体实施方式
由背景技术可知,现有技术使用基于图像的方法,尽管可以预测静态图像的合理输出,但由于缺乏对连续帧中人类运动的连续性建模,因此存在着很难估计视频序列中时间上连贯和平滑的3D人体姿势和形状的问题。
为了解决该问题,有现有技术提出了一些方法来将基于单个图像的方法扩展到视频案例,这些方法主要依赖于递归神经网络或卷积神经网络来对时间信息(即人类运动的连续性)进行建模,以进行连贯预测。有相关技术使用卷积编码器从单目2D图像中提取特征,然后回归SMPL(Skinned Multi-Person Linear)模型的3D网格参数,生成由形状和3D关节角度参数化的网格表示。SPIN(循环中的SMPL优化)基于回归和优化两种范式使用回归结果作为优化过程的初始值,优化结果为网络提供监督,以此将训练转为迭代优化程序。基于图神经网络(GNN)的方法对SMPL模型拓扑进行编码,并将网络提取的特征嵌入网格顶点,然后通过GNN层进行迭代优化。还有一相关技术利用了现有的大规模运动捕捉数据集(AMASS)以及未配对的2D关键点标注,基于对抗性学***滑的运动表示。两个阶段捕捉人体运动:一是捕捉粗略整体运动的一般人体运动估计步骤,另一个是添加特定于人的运动细节的残差估计步骤。还有相关技术基于MeshNet实现单目视频三维人体重建,MeshNet是一种图像到像素(线+像素)的预测网络,通过预测每个网格顶点坐标的一维热图上的每像素似然性,而不是直接回归参数。一维热图保留了输入图像中的空间关系,并对预测不确定性进行了建模。
然而,目前存在的基于视频的方法利用递归神经网络或卷积神经网络来建模时间信息,或利用注意力机制来捕获全局人体相关信息,这些方法并没有同时考虑对时间信息进行建模和提取与人体相关的全局静态信息。
为解决上述技术问题,本申请实施例提供一种单目视频三维人体重建方法,包括以下步骤:首先,基于残差神经网络,从输入视频中提取静态特征;然后,将静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征;接下来,基于特征融合网络,对时域特征与全局静态特征进行融合,得到融合特征;最后,基于融合特征和回归模块,输出三维人体模型。本申请通过提供一种单目视频三维人体重建方法,实现主客观效果更好的单目视频三维人体重建,且能够同时对时间信息进行建模并提取全局静态信息。
下面将结合附图对本申请的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。
参看图1,本申请实施例提供了一种单目视频三维人体重建方法、***、设备及介质,包括以下步骤:
步骤S1、基于残差神经网络,从输入视频中提取静态特征。
步骤S2、将静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征。
步骤S3、基于特征融合网络,对时域特征与全局静态特征进行融合,得到融合特征。
步骤S4、基于融合特征和回归模块,输出三维人体模型。
本申请提出一种基于Mixformer网络模型的单目视频三维人体重建方法,通过设计混合Transformer网络,其中时域特征编码器以门控循环单元(GRU)作为token,使其更有效的提取时域特征;全局特征提取器以原Transformer的注意力机制为token。此外,设计特征融合网络将过去时特征、将来时特征、全局静态特征以及时域特征融合;同时优化目标函数、以及该网络的细节结构。本申请的方法可以应用于其他相似任务,如三维姿态估计、三维生成等。实验证明本申请的方法在数据集和真实场景情况下都取得了良好的主客观性能。
参看图2,为本申请实施例提供的单目视频三维人体重建方法的整体流程示意图。本申请设计了MixFormerHMR方法,用于单目视频三维人体重建。具体来说,设计了一个时域编码器(GRUformer)来学习时域特征,以及一个用于全局静态特征的混合Transformer网络。为了整合全局静态特征和时间特征的优点,引入特征融合模块(整合模块)来融合互补信息。MixFormerHMR整体流程如图2所示,有三个主要阶段。(1)以门控循环单元GRU作为token混合器,设计GRUformer为时域编码器来学习时域特征;同时以Transformer用于学习全局特性。(2)特征融合网络通过学习自适应权重参数来进行多模态特征融合。(3)回归模块基于Groundtruth监督训练人体模型参数。
下面对本申请实施例提供的单目视频三维人体重建方法进行详细介绍。
在一些实施例中,步骤S1中基于残差神经网络,从输入视频中提取静态特征,包括:
步骤S101、给定输入视频的序列
步骤S102、基于残差神经网络以及所述序列,提取静态特征其中,
具体的,在步骤S1中,首先给定输入视频序列首先使用残差神经网络ResNet-50从输入视频中提取静态特征/>其中/>接下来,X输入时域编码器(GRUformer编码器)与全局特征提取器(Transformer特征提取器),分别提取时域特征与全局静态特征。GRUformer与Transformer模块如图3所示。本申请设计的GRUformer以GRU作为token混合器,可以对时域信息建模,并通过MLP多层感知器学习全局人体相关信息。
在一些实施例中,步骤S2中将静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征,包括:将静态特征分别输入第一时域编码器、全局特征提取器、第二时域编码器、第三时域编码器,分别提取时域特征、全局静态特征;时域特征包括所有静态特征、过去静态特征(过去时特征)以及将来静态特征(将来时特征)。
在一些实施例中,时域编码器为门控循环单元模型编码器GRUformer;所述全局特征提取器为基于注意力机制的全局静态特征提取器。
在MixFormerHMR整体架构中,如图2所示,本申请使用三个时域编码器GRUformer和一个全局特征提取器(Transformer Feature Extractor),分别用Gall,Gpast,Gfuture和Trans表示。当前帧定义为帧。时域编码器GRUformer和Transformer特征提取器的网格结构如图4所示。设计Gall的token混合器为双向GRU,以所有静态特征为输入,学习时域特征。Gall输出的第/>个时域特征为fall。Gpast和Gfuture的token混合器为单向GRU,Gpast的输入为/>Gfuture的输入是/>其中,Gpast和Gfuture的输出时域特征为fpast和ffuture。Trans用于提取全局静态特征,它的token混合器是多头注意力运算。Trans的输出是fglobal
在一些实施例中,步骤S4中的特征融合网络包括全连接层、激活函数层以及混合层;基于特征融合网络,对时域特征与全局静态特征进行融合,得到融合特征,包括:将时域特征与全局静态特征依次输入全连接层、激活函数层、混合层,输出分别与时域特征、全局静态特征对应的权重系数;将时域特征、全局静态特征与其对应的权重系数相乘,得到多个子特征;将多个子特征相加,得到融合特征。
特征融合网络如图5所示。首先通过全连接层将2048维转为256维,4个256维特征链接为1024维,再通过全连接层FC、激活函数Tanh、Softmax层输出权重系数。然后再与fpast,fglobal,fall,ffuture相乘,向量乘积再相加输出融合特征finteg
在一些实施例中,通过公式(1)对时域特征与全局静态特征进行融合,公式(1)如下所示:
finteg=apastfpast+aglobalfglobal+aallfall+afutureffuture (1)
其中,finteg为融合特征;fpast为过去静态特征;fglobal为全局静态特征;fall为所有静态特征;ffuture为将来静态特征;apast,aglobal,aall,afuture分别表示各特征的权重系数。
通过特征融合网络将过去时特征、将来时特征、全局静态特征以及时域特征融合之后,本申请同时对网络的代价函数进行优化,网络的代价函数定义如下:
L=LΘ3L2D4L3D
其中,X2D表示二维关键点位置,X3D表示三维关节位置,β和θ分别表示SMPL模型的形状和姿态参数;LΘ、L2D和L3D分别表示二维关键点损失、三维关节损失、形状与姿态损失。ω1、ω2、ω3和ω4是权重系数。通过对这些损失的加权求和得到总体代价函数。
参看图6,本申请实施例还提供了一种单目视频三维人体重建***,包括:依次连接的静态特征提取模块101、特征提取与编码模块102、特征融合模块103与三维人体模型输出模块104;静态特征提取模块101用于根据残差神经网络,从输入视频中提取静态特征;特征提取与编码模块102用于将静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征;特征融合模块103用于根据特征融合网络,对时域特征与全局静态特征进行融合,得到融合特征;三维人体模型输出模块104用于根据融合特征和回归模块,输出三维人体模型。
在一些实施例中,特征提取与编码模块102包括三个时域编码器1021和一个全局特征提取器1022;时域编码器1021为门控循环单元模型编码器(GRUformer);全局特征提取器1022为基于注意力机制的全局静态特征提取器(Transformer特征提取器)。
基于此,本申请实施例提供一种单目视频三维人体重建方法及***,一方面,通过Mixformer模型同时提取时域特征和全局静态特征;另一方面,基于Mixformer实现单目三维人体重建;另外,本申请的Mixformer模型与其他Transformer网络相比,以GRU作为token混合器设计了GRUformer,不仅降低了单目三维重建的关节误差(MPJPE),还降低了单目三维重建的Procrusters校正关节误差(PA-MPJPE)以及降低了重建三维模型顶点误差(PVE)。另外,本申请提供的单目视频三维人体重建方法及***具有更好的泛化能力,对真实场景遮挡情况依然有较好的效果。
为验证本申请所提出方法的有效性,本申请通过进行了大量实验。表1为不同方法对Human3.6M、MPI-INF-3DHP、3DPW数据集的关节误差与顶点误差对比。
表1不同方法对Human3.6M、MPI-INF-3DHP、3DPW数据集的关节误差与顶点误差对比
在表1中,各方法对Human3.6M、MPI-INF-3DHP、3DPW数据集的关节误差、顶点误差与加速度对比,所有方法都用了3DPW训练集进行训练而没有用Human3.6M的SMPL参数作为监督训练,最后一列frames输入帧一组的数量。
在不用3DPW数据集进行训练的情况下,实验结果如表2所示。
表2不同方法性能对比
需要说明的是,在表2中,所有方法都没有用3DPW训练。
在表1中,实验数据为平均每关节位置误差MPJPE、Procrusters校正MPJPE(PA-MPJPE)、平均顶点误差PVE(MPVPE)和加速度误差Accel。由表1的实验结果数据可以看出,本发明方法取得当前较优水平。从表1和表2的实验结果中,可以看出本申请提供的方法有效可行。
对本申请提供的方法的测试及对比实验的效果图如图7至图8所示。
图7示出了本申请提供的方法对真实场景图像三维重建的主观视觉效果;其中,第一行为输入视频帧,第二行为摄像机视角的三维重建结果,第三行为不同视角的结果。由图7中可以看出本发明方法可以有效重构三维人体姿态。
图8示出了不同方法对室外视频的三维重建效果对比结果。由图8中可以看出本申请的方法视觉效果较好。VIBE方法存在明显抖动情况,尤其是手部;而本申请提供的方法的三维重建结果更合理更平滑。
参考图9,本申请另一实施例提供了一种电子设备,包括:至少一个处理器110;以及,与至少一个处理器通信连接的存储器111;其中,存储器111存储有可被至少一个处理器110执行的指令,指令被至少一个处理器110执行,以使至少一个处理器110能够执行上述任一方法实施例。
其中,存储器111和处理器110采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器110和存储器111的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器110处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器110。
处理器110负责管理总线和通常的处理,还可以提供各种功能,包括定时,***接口,电压调节、电源管理以及其他控制功能。而存储器111可以被用于存储处理器110在执行操作时所使用的数据。
本申请另一实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
由以上技术方案,本申请实施例提供一种单目视频三维人体重建方法、***、设备及介质,该方法包括以下步骤:首先,基于残差神经网络,从输入视频中提取静态特征;然后,将静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征;接下来,基于特征融合网络,对时域特征与全局静态特征进行融合,得到融合特征;最后,基于融合特征和回归模块,输出三维人体模型。
本申请针对现有技术中存在的没有关注不同视频帧之间人体的全局静态特征的技术问题,本申请提供一种单目视频三维人体重建方法,通过提出Mixformer网络模型,实现主客观效果更好的单目视频三维人体重建。本申请提供的Mixformer网络模型是一种基于混合Transformer的人体模型重建网络,本申请提供的方法可以同时对时间信息进行建模并提取全局静态信息,分别通过时域编码器、全局特征提取器以提取时域特征、全局静态特征,并对时域特征与全局静态特征进行特征融合后,输出三维人体模型。本申请提供的基于Mixformer网络模型的单目视频三维人体重建方法,在准确性方面明显优于现有技术,并在3DPW、MPI-INF-3HP和Human3.6M等基准数据集上实现了更好的平滑效果。
本领域的普通技术人员可以理解,上述各实施方式是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各自更动与修改,因此本申请的保护范围应当以权利要求限定的范围为准。

Claims (10)

1.一种单目视频三维人体重建方法,其特征在于,包括:
基于残差神经网络,从输入视频中提取静态特征;
将所述静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征;
基于特征融合网络,对所述时域特征与所述全局静态特征进行融合,得到融合特征;
基于所述融合特征和回归模块,输出三维人体模型。
2.根据权利要求1所述的单目视频三维人体重建方法,其特征在于,所述基于残差神经网络,从输入视频中提取静态特征,包括:
给定输入视频的序列
基于残差神经网络以及所述序列,提取静态特征其中,/>
3.根据权利要求1所述的单目视频三维人体重建方法,其特征在于,将所述静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征,包括:
将所述静态特征分别输入第一时域编码器、全局特征提取器、第二时域编码器、第三时域编码器,分别提取时域特征、全局静态特征;所述时域特征包括所有静态特征、过去静态特征以及将来静态特征。
4.根据权利要求1所述的单目视频三维人体重建方法,其特征在于,所述时域编码器为门控循环单元模型编码器;所述全局特征提取器为基于注意力机制的全局静态特征提取器。
5.根据权利要求1所述的单目视频三维人体重建方法,其特征在于,所述特征融合网络包括全连接层、激活函数层以及混合层;
基于特征融合网络,对所述时域特征与所述全局静态特征进行融合,得到融合特征,包括:
将所述时域特征与所述全局静态特征依次输入全连接层、激活函数层、混合层,输出分别与所述时域特征、所述全局静态特征对应的权重系数;
将所述时域特征、所述全局静态特征与其对应的权重系数相乘,得到多个子特征;
将多个子特征相加,得到融合特征。
6.根据权利要求5所述的单目视频三维人体重建方法,其特征在于,通过公式(1)对所述时域特征与所述全局静态特征进行融合,所述公式(1)如下所示:
finteg=apastfpast+aglobalfglobal+aallfall+afutureffuture (1)
其中,finteg为融合特征;fpast为过去静态特征;fglobal为全局静态特征;fall为所有静态特征;ffuture为将来静态特征;apast,aglobal,aall,afuture分别表示各特征的权重系数。
7.一种单目视频三维人体重建***,其特征在于,包括:依次连接的静态特征提取模块、特征提取与编码模块、特征融合模块与三维人体模型输出模块;
所述静态特征提取模块用于根据残差神经网络,从输入视频中提取静态特征;
所述特征提取与编码模块用于将所述静态特征分别输入时域编码器、全局特征提取器,分别提取时域特征、全局静态特征;
所述特征融合模块用于根据特征融合网络,对所述时域特征与所述全局静态特征进行融合,得到融合特征;
所述三维人体模型输出模块用于根据所述融合特征和回归模块,输出三维人体模型。
8.根据权利要求6所述的单目视频三维人体重建***,其特征在于,所述特征提取与编码模块包括三个时域编码器和一个全局特征提取器;
所述时域编码器为门控循环单元模型编码器;所述全局特征提取器为基于注意力机制的全局静态特征提取器。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一所述的单目视频三维人体重建方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一所述的单目视频三维人体重建方法。
CN202310456132.4A 2023-04-18 2023-04-18 一种单目视频三维人体重建方法、***、设备及介质 Pending CN116524121A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310456132.4A CN116524121A (zh) 2023-04-18 2023-04-18 一种单目视频三维人体重建方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310456132.4A CN116524121A (zh) 2023-04-18 2023-04-18 一种单目视频三维人体重建方法、***、设备及介质

Publications (1)

Publication Number Publication Date
CN116524121A true CN116524121A (zh) 2023-08-01

Family

ID=87404086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310456132.4A Pending CN116524121A (zh) 2023-04-18 2023-04-18 一种单目视频三维人体重建方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN116524121A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993926A (zh) * 2023-09-26 2023-11-03 北京渲光科技有限公司 单视图人体三维重建方法
CN117726760A (zh) * 2024-02-07 2024-03-19 之江实验室 一种用于视频的三维人体重建模型的训练方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993926A (zh) * 2023-09-26 2023-11-03 北京渲光科技有限公司 单视图人体三维重建方法
CN116993926B (zh) * 2023-09-26 2024-01-16 北京渲光科技有限公司 单视图人体三维重建方法
CN117726760A (zh) * 2024-02-07 2024-03-19 之江实验室 一种用于视频的三维人体重建模型的训练方法及装置
CN117726760B (zh) * 2024-02-07 2024-05-07 之江实验室 一种用于视频的三维人体重建模型的训练方法及装置

Similar Documents

Publication Publication Date Title
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
CN116524121A (zh) 一种单目视频三维人体重建方法、***、设备及介质
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
CN112037310A (zh) 基于神经网络的游戏人物动作识别生成方法
CN113537393A (zh) 一种基于改进Transformer的黑暗场景三维人体姿态估计算法
CN112132770A (zh) 图像修复的方法、装置、计算机可读介质及电子设备
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及***
CN116188684A (zh) 基于视频序列的三维人体重建方法及相关设备
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
Li et al. Two‐stage single image dehazing network using swin‐transformer
CN115002379A (zh) 视频插帧方法、训练方法、装置、电子设备和存储介质
CN111738092A (zh) 一种基于深度学习的恢复被遮挡人体姿态序列方法
AU2022241513B2 (en) Transformer-based shape models
CN116486009A (zh) 单目三维人体重建方法、装置以及电子设备
Tang et al. A deep map transfer learning method for face recognition in an unrestricted smart city environment
Wang et al. Human motion data refinement unitizing structural sparsity and spatial-temporal information
CN110826502A (zh) 基于伪图像序列演化的三维姿态预测方法
Tang et al. Bilateral Propagation Network for Depth Completion
Schmeckpeper et al. Object-centric video prediction without annotation
Xu et al. PCformer: A parallel convolutional transformer network for 360 depth estimation
CN115908497A (zh) 一种基于人体拓扑感知网络的三维人体姿态估计方法及***
Gomes Graph-based network for dynamic point cloud prediction
CN114926594A (zh) 基于自监督时空运动先验的单视角遮挡人体运动重建方法
Zhong et al. Multimodal cooperative self‐attention network for action recognition
Huang et al. Flowformer: A transformer architecture and its masked cost volume autoencoding for optical flow

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination