CN111311732B - 3d人体网格获取方法及装置 - Google Patents

3d人体网格获取方法及装置 Download PDF

Info

Publication number
CN111311732B
CN111311732B CN202010085015.8A CN202010085015A CN111311732B CN 111311732 B CN111311732 B CN 111311732B CN 202010085015 A CN202010085015 A CN 202010085015A CN 111311732 B CN111311732 B CN 111311732B
Authority
CN
China
Prior art keywords
graph
human body
image
neural network
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010085015.8A
Other languages
English (en)
Other versions
CN111311732A (zh
Inventor
牛新
赵杨
窦勇
姜晶菲
李荣春
苏华友
乔鹏
潘衡岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010085015.8A priority Critical patent/CN111311732B/zh
Publication of CN111311732A publication Critical patent/CN111311732A/zh
Application granted granted Critical
Publication of CN111311732B publication Critical patent/CN111311732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4023Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种3D人体网格获取方法及装置,包括:获取视频中每帧图像的图像特征,并针对每帧图像,将该帧图像的图像特征输入已训练的U型图神经网络,以由所述U型图神经网络基于图像特征获得对应的人体3D网格参数;所述视频为包含人的视频;将每一人体3D网格参数按照图像帧的时序次序组合并输入到已训练的残差时序图网络中,以由所述残差时序图网络基于时序对每一人体3D网格参数进行优化,使得优化后的人体3D网格所表示的人体形状与图像中的人体形状相符。

Description

3D人体网格获取方法及装置
技术领域
本发明涉及图像处理技术领域,具体涉及一种3D人体网格获取方法及装置。
背景技术
恢复图像中的3D人体形状是计算机视觉中的基本任务,与仅恢复骨骼关节相比,形状恢复需要人体的细节,3D人体的恢复可以应用在机器人技术、3D动画、虚拟实际情况等多种应用程序中。
恢复图像中3D人体形状的方法包括:一种是参数方法,即通过获得图像对应的模型参数,并将模型参数输入预定义的人体模型(如SCAPE人体模型、SMPL(Skinned Multi-Person Linear Model,人体三维模型)模型等)中来拟合3D人体形状,而这些方法均采用人体模型参数作为回归目标,但模型参数是非连续的很难回归,同时数量有限的模型参数也限制了模型表达能力;另一种是非参数方法,例如体积重建位置、像素深度回归,可以更好地表达细节,但这样失去了语义信息,并且不容易与现有的模型接口相匹配。
为了利用这两种方法的优势,SMPL模型的顶点是一个不错的回归选择,在现有技术中有利用图神经网络回归SMPL顶点的位置,即回归出6890个顶点控制人体形状,但是现有技术是基于单帧图像恢复出的3D人体形状,其与图像中人体形状相差比较大。
发明内容
本发明的目的是针对上述现有技术的不足提出的一种3D人体网格获取方法及装置,该目的是通过以下技术方案实现的。
本发明的第一方面提出了一种3D人体网格获取方法,所述方法包括:
获取视频中每帧图像的图像特征,并针对每帧图像,将该帧图像的图像特征输入已训练的U型图神经网络,以由所述U型图神经网络基于图像特征获得对应的人体3D网格参数;所述视频为包含人的视频;将每一人体3D网格参数按照图像帧的时序次序组合并输入到已训练的残差时序图网络中,以由所述残差时序图网络基于时序对每一人体3D网格参数进行优化,得到优化后的每一人体3D网格参数。
本发明的第二方面提出了一种3D人体网格获取装置,所述装置包括:
特征获取模块,用于获取视频中每帧图像的图像特征;
图像模块,用于针对每帧图像,将该帧图像的图像特征输入已训练的U型图神经网络,以由所述U型图神经网络基于图像特征获得对应的人体3D网格参数;所述视频为包含人的视频;
视频模块,用于将每一人体3D网格参数按照图像帧的时序次序组合并输入到已训练的残差时序图网络中,以由所述残差时序图网络基于时序对每一人体3D网格参数进行优化,得到优化后的每一人体3D网格参数。
在本申请实施例中,在获取到视频中每帧图像的图像特征后,通过U型图神经网络处理每帧图像的图像特征,回归得到图像级别的人体3D网格参数,然后通过残差时序图网络基于各帧时序优化每一人体3D网格,使得优化后的人体3D网格所表示的人体形状与图像中的人体形状相符。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明根据一示例性实施例示出的一种3D人体网格获取方法的实施例流程图;
图2为本发明示出的一种U型图神经网络的结构图;
图3为本发明示出的一种3D人体网格获取总体结构图;
图4为本发明示出的一种U型图神经网络上采样和下采样对应的3D人体网格图;
图5为本发明示出的一种残差时序网络的感受野示意图;
图6为本发明根据一示例性实施例示出的一种3D人体网格获取装置的实施例流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
目前采用的图神经网络回归出的6890个SMPL顶点得到的3D人体形状与图像中人体形状相差较大。
为解决上述技术问题,发明人发现视频中不仅包含图像级别的信息,还包含动态的时序信息,这能够帮助减少人体形状的不确定性,基于此,本发明提出一种3D人体网格获取方法,充分利用图像级数据获取适当的中间结果之后,在继承中间结果基础上,根据视频中的时序信息对中间结果进行优化,从而实现视频中每帧图像中人体3D网格的恢复。
具体实现为:在获取到视频中每帧图像的图像特征后,针对每帧图像,将该帧图像的图像特征输入已训练的U型图神经网络,由U型图神经网络基于图像特征获得对应的人体3D网格参数,然后再将每一人体3D网格参数按照图像帧的时序次序组合并输入到已训练的残差时序图网络中,以由所述残差时序图网络基于时序对每一人体3D网格参数进行优化,从而使得优化后的每一人体3D网格与图像中的人体形状一致。
下面以具体实施例对本发明提出的3D人体网格获取方法进行详细阐述。
图1为本发明根据一示例性实施例示出的一种3D人体网格获取方法的实施例流程图,所述3D人体网格获取方法可以应用于电子设备(如PC机、终端等设备)上,如图1所示,所述3D人体网格获取方法包括如下步骤:
步骤101:获取视频中每帧图像的图像特征。
其中,所述视频为包含人的视频,即是以人为主的视频。
在步骤101中,可以将所述视频分解为单帧图像,并分别输入预设的人体检测***,以由所述人体检测***输出包含人体候选框的图像,将每帧图像包含的候选框进行尺度变换,使得人体在候选框中间位置,然后再分别将包含候选框的单帧图像输入已训练的特征提取网络,以由所述特征提取网络输出图像的图像特征。
示例性的,人体检测***可以采用神经网络模型实现,如R-CNN,人体检测***针对输入的每帧图像,将包含人的概率最高的一个候选框提取出来。
在一例子中,可以通过特征提取网络ResNet获得每帧图像初步的图像特征。
在本实施例中,可以将每帧图像包含的人体候选框尺度变换到固定尺寸,保证人体在候选框中间。
步骤102:针对每帧图像,将该帧图像的图像特征输入已训练的U型图神经网络,以由所述U型图神经网络基于图像特征获得对应的人体3D网格参数。
在本实施例中,U型结构的图神经网络用于实现图规模的缩小与恢复,即图规模从大到小,再从小恢复到大的结构,帮助扩大每个节点的感受野,并加深小规模图的网络深度,方便提取高层次的特征,另外,U型结构中相同规模的图对应的层次之间建立跳跃链接,促进实现高层次与低层次的特征融合。
其中,U型图神经网络由多个图神经网络模块堆叠而成,其网络结构包括输入模块、两个串联的第一预设规模的第一图神经网络模块、下采样模块、四个串联的第二预设规模的图神经网络模块、上采样模块、拼接模块、两个串联的第一预设规模的第二图神经网络模块、坐标回归器和相机坐标回归器。
基于上述U型图神经网络的结构,针对由U型图神经网络基于图像特征获得对应的人体3D网格参数的过程,输入模块将图像特征与第一预设规模的SMPL的模板网格中每个顶点的3D坐标进行拼接,获得每个顶点的初始特征并作为第一预设规模的图特征,将该图特征输入到两个串联的第一预设规模的第一图神经网络模块;两个串联的第一图神经网络模块对输入的图特征依次进行处理得到新的第一预设规模的图特征,并输入到下采样模块和拼接模块;下采样模块将新的第一预设规模的图特征转化为第二预设规模的图特征,并将第二预设规模的图特征输入到四个串联的第二预设规模的图神经网络模块;四个串联的第二预设规模的图神经网络模块对输入的图特征依次进行处理得到新的第二预设规模的图特征,并输入到上采样模块;上采样模块将新的第二预设规模的图特征恢复成第一预设规模的图特征,并输入到拼接模块;拼接模块将新的第一预设规模的图特征与恢复后的第一预设规模的图特征进行拼接,获得拼接后的第一预设规模的图特征并输入到两个串联的第一预设规模的第二图神经网络模块;两个串联的第二图神经网络模块对输入的图特征依次进行处理,得到最终的第一预设规模的图特征并输入到坐标回归器和相机坐标回归器;坐标回归器回归出图特征中每个顶点的3D坐标,相机坐标回归器回归出图特征对应的相机参数。
由此,每帧图像对应的人体3D网格参数包括对应的第一预设规模的图特征中每个顶点的3D坐标和相机参数。
在本实施例中,由于现有的SMPL模板网格的顶点数为6890个,数目较多,这会带来较重的计算负担,因此本发明使用聚类算法,对现有的SMPL模板网格的顶点进行聚类,将同一类的顶点进行合并,将模板网格的图规模缩小到第一预设规模,如缩小到原始的四分之一,即1723个顶点,从而输入模块得到的图特征包括的顶点特征数量与模板网格的顶点数量一致。然后再使用聚类算法获得再次缩小的第二预设规模的图,如缩小到四分之一,即431个顶点,同时,保存不同规模的图顶点之间的对应关系,即获得下述上采样模块和上采样模块所使用的上采样矩阵和下采样矩阵。
由此可见,第一预设规模大于第二预设规模。以6890规模、1723规模、431规模为例,6890规模的图用于可视化显示,1723规模的图用于模型的输入输出,431规模的图作为抽象图用于构建U型结构。
示例性的,U型图神经网络中的各个图神经网络模块结构相同,不同之处在于图的规模和模块中参数有区别,图的规模变小则模块的运算量减少。每个图神经网络模块继承的是ResBlock结构,即将ResBlock结构中的所有3*3卷积层替换为图卷积层,所有1*1卷积层替换为每个顶点的全连接层,所有BatchNorm层替换为GroupNorm层。
其中,图卷积层的数学公式为:
Figure BDA0002381728980000081
其中,x是输入的特征向量,w是已训练的参数矩阵,
Figure BDA0002381728980000082
是经过行优化正则化后的邻接矩阵。
需要说明的是,针对U型图神经网络的训练过程,获取训练样本集,所述训练样本集中每一训练样本均标注有标签,所述标签包括人体3D网格点坐标、3D关键点坐标、2D关键点坐标,或者只有2D关键点坐标,利用所述训练样本集中的每一训练样本训练已构建的U型图神经网络,直至收敛;
在本实施例中,所述U型图神经网络的损失函数包括三种:
1)基于3D网格点的损失函数:
Figure BDA0002381728980000091
其中,
Figure BDA0002381728980000092
表示标注的人体3D网格点坐标,/>
Figure BDA0002381728980000093
表示模型计算获得的人体3D网格点参数,N表示3D网格的顶点个数。
2)基于3D关键点的损失函数:
Figure BDA0002381728980000094
其中,J3D,t表示标注的人体3D关键点坐标,
Figure BDA0002381728980000095
表示模型计算得到的人体3D关键点坐标,M表示人体3D关键点的个数。
3)基于2D关键点的损失函数:
Figure BDA0002381728980000096
其中,J2D,t表示标注的人体2D关键点坐标,
Figure BDA0002381728980000097
表示模型计算得到的人体2D关键点坐标,M表示人体2D关键点的个数。
进一步地,U型图神经网络的损失函数为上述三种损失函数的线性组合,公式如下:
Figure BDA0002381728980000098
其中,
Figure BDA0002381728980000099
和/>
Figure BDA00023817289800000910
分别为预设系数。
其中,针对模型计算得到的人体3D关键点坐标和人体2D关键点坐标,指的是模型获得人体3D网格参数后,利用人体3D网格的顶点3D坐标乘以一个预先获得的回归矩阵,得到人体3D关键点坐标,然后再利用相机参数和得到的人体3D关键点坐标做相机变换,得到人体2D关键点坐标。
步骤103:将每一人体3D网格参数按照图像帧的时序次序组合并输入到已训练的残差时序图网络中,以由所述残差时序图网络基于时序对每一人体3D网格参数进行优化,得到优化后的每一人体3D网格参数。
在步骤103中,残差时序图网络基于时序获得每一人体3D网格参数对应的优化矩阵,并通过残差链接将每一人体3D网格参数与对应的优化矩阵进行相加,获得优化后的每一人体3D网格参数。
其中,残差时序图网络为小规模的残差时序图网络,其结构与上述所述的U型图神经网络包括的图神经网络模块结构相似,只是将其中的图卷积层替换为时序图神经网络层,单顶点全连接层替换为单帧单顶点的全连接层,其中的时序图神经网络层的公式为:
Figure BDA0002381728980000101
其中,C(·)表示二维卷积操作,
Figure BDA0002381728980000102
表示经过行优化正则化后的邻接矩阵,Xi,j∈RN×k表示输入的特征向量,Yi,j表示输出的特征向量。
需要说明的是,针对残差时序图网络的训练过程,获取包含人的训练视频,所述训练视频中每帧图像中的人体均标注有人体3D网格点坐标、3D关键点坐标、2D关键点坐标,利用所述训练视频训练已构建的残差时序图网络,直至收敛。
在本实施例中,所述残差时序图网络的损失函数包括二种:
1)基于3D网格点的损失函数:
Figure BDA0002381728980000111
其中,
Figure BDA0002381728980000112
表示标注的人体3D网格点坐标,/>
Figure BDA0002381728980000113
表示模型计算得到的人体3D网格点坐标,N表示人体3D网格的顶点个数,T表示图像在视频中的时序排序。
2)3D关键点的损失函数:
Figure BDA0002381728980000114
其中,J3D,t表示标注的人体3D关键点坐标,
Figure BDA0002381728980000115
表示模型计算得到的人体3D关键点坐标,M表示人体3D关键点的个数。
进一步地,残差时序图网络的损失函数为上述二种损失函数的线性组合,公式如下:
Figure BDA0002381728980000116
其中,
Figure BDA0002381728980000117
表示预设系数。
基于上述步骤101至步骤103的描述,通过U型图神经网络合并相邻点来成功缩小图的体积,放大图每个顶点的感受野,并将图神经网络加深以提取高级特征,并通过在相同大小的图中建立跳跃链接,帮助实现在不同层次之间的特征融合,从而更好地提升性能。
如图3所示的总体结构图,第一步,将包含人的视频(图3中示出包含3帧图像的一段视频)中每帧图像中以人为主体的候选框提取出来,组成新的以人为主的视频;第二步,利用ResNet网络提取以人为主的视频中每一图像帧的图像特征;第三步,将每一图像帧的图像特征输入U型图神经网络获得单帧对应的人体3D网格参数;第四步,将每帧对应的人体3D网格参数按照原始帧的时序次序组合输入到残差时序图网络,经过残差时序图网络获得经过时序优化的视频的人体3D网格参数。
如图4所示的U型图神经网络上采样和下采样对应的3D人体网格图,SMPL模板网格的顶点数为6890个,数目较多,会带来较重的计算负担。使用聚类算法,对SMPL模板网络的顶点进行聚类,并将同一类的点进行合并,将图规模缩小的原始的四分之一,即1723个顶点;使用相同方法获得再次缩小规模的图,即431个顶点。同时,保存不同规模的图顶点之间的对应关系,即上采样模块使用的上采样矩阵和下采样模块使用的下采样矩阵。6890规模的图用于可视化显示,1723规模的图用于模型输入输出,431规模的图作为抽象图用于构建U型网络。
如图5所示的残差时序图网络的感受野图,根据每帧内部的结构上和不同帧之间时序上的关系同时建图,让每个节点同时获得时序上和结构上相邻点的信息,从而获得更好的结果。图5中的曲线表示残差链接,箭头表示数据的流动方向,数据从左向右流动,虚线表示后一层特征在前一层特征的感受野。
图6为本发明根据一示例性实施例示出的一种3D人体网格获取装置的实施例流程图,所述3D人体网格获取装置可以应用于电子设备上,如图6所示,所述3D人体网格获取装置包括:
特征获取模块610,用于获取视频中每帧图像的图像特征;
图像模块620,用于针对每帧图像,将该帧图像的图像特征输入已训练的U型图神经网络,以由所述U型图神经网络基于图像特征获得对应的人体3D网格参数;所述视频为包含人的视频;
视频模块630,用于将每一人体3D网格参数按照图像帧的时序次序组合并输入到已训练的残差时序图网络中,以由所述残差时序图网络基于时序对每一人体3D网格参数进行优化,得到优化后的每一人体3D网格参数。
在一可选实现方式中,所述特征获取模块610,具体用于将所述视频分解为单帧图像,并分别输入预设的人体检测***,以由所述人体检测***输出包含人体候选框的图像;将每帧图像包含的候选框进行尺度变换,使得人体在候选框中间位置;分别将包含候选框的单帧图像输入已训练的特征提取网络,以由所述特征提取网络输出图像的图像特征。
在一可选实现方式中,所述图像模块620,具体用于在U型图神经网络基于图像特征获得对应的人体3D网格参数过程中,所述U型图神经网络中的输入模块将图像特征与第一预设规模的SMPL的模板网格中每个顶点的3D坐标进行拼接,获得每个顶点的初始特征并作为第一预设规模的图特征,将该图特征输入到U型图神经网络中两个串联的第一预设规模的第一图神经网络模块;两个串联的第一图神经网络模块对输入的图特征依次进行处理得到新的第一预设规模的图特征,并输入到U型图神经网络中下采样模块和拼接模块;下采样模块将新的第一预设规模的图特征转化为第二预设规模的图特征,并将第二预设规模的图特征输入到U型图神经网络中四个串联的第二预设规模的图神经网络模块;四个串联的第二预设规模的图神经网络模块对输入的图特征依次进行处理得到新的第二预设规模的图特征,并输入到U型图神经网络中上采样模块;上采样模块将新的第二预设规模的图特征恢复成第一预设规模的图特征,并输入到所述拼接模块;拼接模块将新的第一预设规模的图特征与恢复后的第一预设规模的图特征进行拼接,获得拼接后的第一预设规模的图特征并输入到U型图神经网络中两个串联的第一预设规模的第二图神经网络模块;两个串联的第二图神经网络模块对输入的图特征依次进行处理,得到最终的第一预设规模的图特征并输入到U型图神经网络中坐标回归器和相机坐标回归器;坐标回归器回归出图特征中每个顶点的3D坐标,相机坐标回归器回归出图特征对应的相机参数;将每个顶点的3D坐标和相机参数作为该帧图像对应的人体3D网格参数;其中,第一预设规模大于第二预设规模。
在一可选实现方式中,所述视频模块630,具体用于在残差时序图网络基于时序对每一人体3D网格参数进行优化,得到优化后的每一人体3D网格参数过程中,所述残差时序图网络基于时序获得每一人体3D网格参数对应的优化矩阵,并通过残差链接将每一人体3D网格参数与对应的优化矩阵进行相加,获得优化后的每一人体3D网格参数。
在一可选实现方式中,所述装置还包括(图6中未示出):
第一训练模块,用于获取训练样本集,所述训练样本集中每一训练样本均标注有标签,所述标签包括人体3D网格点坐标、3D关键点坐标、2D关键点坐标,或者只有2D关键点坐标;利用所述训练样本集中的每一训练样本训练已构建的U型图神经网络,直至收敛;其中,所述U型图神经网络的损失值由3D网格点损失、3D关键点损失以及2D关键点损失组成。
在一可选实现方式中,所述装置还包括(图6中未示出):
第二训练模块,用于获取包含人的训练视频,所述训练视频中每帧图像中的人体均标注有人体3D网格点坐标、3D关键点坐标、2D关键点坐标;利用所述训练视频训练已构建的残差时序图网络,直至收敛;其中,所述残差时序图网络的损失值由3D网格点损失、3D关键点损失组成。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.一种3D人体网格获取方法,其特征在于,所述方法包括:
获取视频中每帧图像的图像特征,并针对每帧图像,将该帧图像的图像特征输入已训练的U型图神经网络,以由所述U型图神经网络基于图像特征获得对应的人体3D网格参数;所述视频通过拍摄人体获得;
将每一人体3D网格参数按照图像帧的时序次序组合并输入到已训练的残差时序图网络中,以由所述残差时序图网络基于时序对每一人体3D网格参数进行优化,得到优化后的每一人体3D网格参数;
其中,获取视频中每帧图像的图像特征,包括:
将所述视频分解为单帧图像,并分别输入预设的人体检测***,以由所述人体检测***输出包含人体候选框的图像;将每帧图像包含的候选框进行尺度变换,使得人体在候选框中间位置;分别将包含候选框的单帧图像输入已训练的特征提取网络,以由所述特征提取网络输出图像的图像特征。
2.根据权利要求1所述的方法,其特征在于,所述U型图神经网络基于图像特征获得对应的人体3D网格参数,包括:
所述U型图神经网络中的输入模块将图像特征与第一预设规模的人体三维模型SMPL的模板网格中每个顶点的3D坐标进行拼接,获得每个顶点的初始特征并作为第一预设规模的图特征,将该图特征输入到U型图神经网络中两个串联的第一预设规模的第一图神经网络模块;
两个串联的第一图神经网络模块对输入的图特征依次进行处理得到新的第一预设规模的图特征,并输入到U型图神经网络中下采样模块和拼接模块;
下采样模块将新的第一预设规模的图特征转化为第二预设规模的图特征,并将第二预设规模的图特征输入到U型图神经网络中四个串联的第二预设规模的图神经网络模块;
四个串联的第二预设规模的图神经网络模块对输入的图特征依次进行处理得到新的第二预设规模的图特征,并输入到U型图神经网络中上采样模块;
上采样模块将新的第二预设规模的图特征恢复成第一预设规模的图特征,并输入到所述拼接模块;
拼接模块将新的第一预设规模的图特征与恢复后的第一预设规模的图特征进行拼接,获得拼接后的第一预设规模的图特征并输入到U型图神经网络中两个串联的第一预设规模的第二图神经网络模块;
两个串联的第二图神经网络模块对输入的图特征依次进行处理,得到最终的第一预设规模的图特征并输入到U型图神经网络中坐标回归器和相机坐标回归器;
坐标回归器回归出图特征中每个顶点的3D坐标,相机坐标回归器回归出图特征对应的相机参数;
将每个顶点的3D坐标和相机参数作为该帧图像对应的人体3D网格参数;
其中,第一预设规模大于第二预设规模。
3.根据权利要求1所述的方法,其特征在于,所述残差时序图网络基于时序对每一人体3D网格参数进行优化,得到优化后的每一人体3D网格参数,包括:
所述残差时序图网络基于时序获得每一人体3D网格参数对应的优化矩阵,并通过残差链接将每一人体3D网格参数与对应的优化矩阵进行相加,获得优化后的每一人体3D网格参数。
4.根据权利要求1所述的方法,其特征在于,针对U型图神经网络的训练过程包括:
获取训练样本集,所述训练样本集中每一训练样本均标注有标签,所述标签包括人体3D网格点坐标、3D关键点坐标、2D关键点坐标,或者只有2D关键点坐标;
利用所述训练样本集中的每一训练样本训练已构建的U型图神经网络,直至收敛;
其中,所述U型图神经网络的损失值由3D网格点损失、3D关键点损失以及2D关键点损失组成。
5.根据权利要求1所述的方法,其特征在于,针对残差时序图网络的训练过程包括:
获取包含人的训练视频,所述训练视频中每帧图像中的人体均标注有人体3D网格点坐标、3D关键点坐标、2D关键点坐标;
利用所述训练视频训练已构建的残差时序图网络,直至收敛;
其中,所述残差时序图网络的损失值由3D网格点损失、3D关键点损失组成。
6.一种3D人体网格获取装置,其特征在于,所述装置包括:
特征获取模块,用于获取视频中每帧图像的图像特征;
图像模块,用于针对每帧图像,将该帧图像的图像特征输入已训练的U型图神经网络,以由所述U型图神经网络基于图像特征获得对应的人体3D网格参数;所述视频通过拍摄人体获得;
视频模块,用于将每一人体3D网格参数按照图像帧的时序次序组合并输入到已训练的残差时序图网络中,以由所述残差时序图网络基于时序对每一人体3D网格参数进行优化,得到优化后的每一人体3D网格参数;
其中,所述特征获取模块,具体用于将所述视频分解为单帧图像,并分别输入预设的人体检测***,以由所述人体检测***输出包含人体候选框的图像;将每帧图像包含的候选框进行尺度变换,使得人体在候选框中间位置;分别将包含候选框的单帧图像输入已训练的特征提取网络,以由所述特征提取网络输出图像的图像特征。
7.根据权利要求6所述的装置,其特征在于,所述图像模块,具体用于在U型图神经网络基于图像特征获得对应的人体3D网格参数过程中,所述U型图神经网络中的输入模块将图像特征与第一预设规模的人体三维模型SMPL的模板网格中每个顶点的3D坐标进行拼接,获得每个顶点的初始特征并作为第一预设规模的图特征,将该图特征输入到U型图神经网络中两个串联的第一预设规模的第一图神经网络模块;两个串联的第一图神经网络模块对输入的图特征依次进行处理得到新的第一预设规模的图特征,并输入到U型图神经网络中下采样模块和拼接模块;下采样模块将新的第一预设规模的图特征转化为第二预设规模的图特征,并将第二预设规模的图特征输入到U型图神经网络中四个串联的第二预设规模的图神经网络模块;四个串联的第二预设规模的图神经网络模块对输入的图特征依次进行处理得到新的第二预设规模的图特征,并输入到U型图神经网络中上采样模块;上采样模块将新的第二预设规模的图特征恢复成第一预设规模的图特征,并输入到所述拼接模块;拼接模块将新的第一预设规模的图特征与恢复后的第一预设规模的图特征进行拼接,获得拼接后的第一预设规模的图特征并输入到U型图神经网络中两个串联的第一预设规模的第二图神经网络模块;两个串联的第二图神经网络模块对输入的图特征依次进行处理,得到最终的第一预设规模的图特征并输入到U型图神经网络中坐标回归器和相机坐标回归器;坐标回归器回归出图特征中每个顶点的3D坐标,相机坐标回归器回归出图特征对应的相机参数;将每个顶点的3D坐标和相机参数作为该帧图像对应的人体3D网格参数;其中,第一预设规模大于第二预设规模。
8.根据权利要求6所述的装置,其特征在于,所述视频模块,具体用于在残差时序图网络基于时序对每一人体3D网格参数进行优化,得到优化后的每一人体3D网格参数过程中,所述残差时序图网络基于时序获得每一人体3D网格参数对应的优化矩阵,并通过残差链接将每一人体3D网格参数与对应的优化矩阵进行相加,获得优化后的每一人体3D网格参数。
CN202010085015.8A 2020-04-26 2020-04-26 3d人体网格获取方法及装置 Active CN111311732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010085015.8A CN111311732B (zh) 2020-04-26 2020-04-26 3d人体网格获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010085015.8A CN111311732B (zh) 2020-04-26 2020-04-26 3d人体网格获取方法及装置

Publications (2)

Publication Number Publication Date
CN111311732A CN111311732A (zh) 2020-06-19
CN111311732B true CN111311732B (zh) 2023-06-20

Family

ID=71161682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010085015.8A Active CN111311732B (zh) 2020-04-26 2020-04-26 3d人体网格获取方法及装置

Country Status (1)

Country Link
CN (1) CN111311732B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767534B (zh) * 2020-12-31 2024-02-09 北京达佳互联信息技术有限公司 视频图像处理方法、装置、电子设备及存储介质
CN113011516A (zh) * 2021-03-30 2021-06-22 华南理工大学 基于图拓扑的三维网格模型分类方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271589A (zh) * 2007-03-22 2008-09-24 中国科学院计算技术研究所 一种三维人体模型关节中心提取方法
CN101833788A (zh) * 2010-05-18 2010-09-15 南京大学 一种采用手绘草图的三维人体建模方法
CN102982578A (zh) * 2012-10-31 2013-03-20 北京航空航天大学 单幅人物图像中着装人体三维模型估计方法
CN105006014A (zh) * 2015-02-12 2015-10-28 上海交通大学 虚拟衣物快速模拟试穿的实现方法及***

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611158A (zh) * 2016-11-14 2017-05-03 深圳奥比中光科技有限公司 人体3d特征信息的获取方法及设备
CN107392097B (zh) * 2017-06-15 2020-07-07 中山大学 一种单目彩***的三维人体关节点定位方法
CN108053480B (zh) * 2017-12-08 2021-03-19 东华大学 基于逆向工程技术的三维全尺度着装人体网格构建方法
CN108629801B (zh) * 2018-05-14 2020-11-24 华南理工大学 一种视频序列的三维人体模型姿态与形状重构方法
CN108985259B (zh) * 2018-08-03 2022-03-18 百度在线网络技术(北京)有限公司 人体动作识别方法和装置
CN109199603B (zh) * 2018-08-31 2020-11-03 浙江大学宁波理工学院 一种椎弓根螺钉最优置钉点的智能定位方法
CN109859306A (zh) * 2018-12-24 2019-06-07 青岛红创众投科技发展有限公司 一种基于机器学习的从照片中提取人体模型的方法
CN109919122A (zh) * 2019-03-18 2019-06-21 中国石油大学(华东) 一种基于3d人体关键点的时序行为检测方法
CN110059605A (zh) * 2019-04-10 2019-07-26 厦门美图之家科技有限公司 一种神经网络训练方法、计算设备及存储介质
CN110074788B (zh) * 2019-04-18 2020-03-17 梦多科技有限公司 一种基于机器学习的身体数据获取方法和装置
CN110399789B (zh) * 2019-06-14 2021-04-20 佳都新太科技股份有限公司 行人重识别方法、模型构建方法、装置、设备和存储介质
CN110276316B (zh) * 2019-06-26 2022-05-24 电子科技大学 一种基于深度学习的人体关键点检测方法
CN110619681B (zh) * 2019-07-05 2022-04-05 杭州同绘科技有限公司 一种基于欧拉场形变约束的人体几何重建方法
CN110428493B (zh) * 2019-07-12 2021-11-02 清华大学 基于网格形变的单图像人体三维重建方法及***
CN110363862B (zh) * 2019-07-15 2023-03-10 叠境数字科技(上海)有限公司 基于人体模板对齐的三维网格序列压缩方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271589A (zh) * 2007-03-22 2008-09-24 中国科学院计算技术研究所 一种三维人体模型关节中心提取方法
CN101833788A (zh) * 2010-05-18 2010-09-15 南京大学 一种采用手绘草图的三维人体建模方法
CN102982578A (zh) * 2012-10-31 2013-03-20 北京航空航天大学 单幅人物图像中着装人体三维模型估计方法
CN105006014A (zh) * 2015-02-12 2015-10-28 上海交通大学 虚拟衣物快速模拟试穿的实现方法及***

Also Published As

Publication number Publication date
CN111311732A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN110298361B (zh) 一种rgb-d图像的语义分割方法和***
CN110443842B (zh) 基于视角融合的深度图预测方法
CN109360171B (zh) 一种基于神经网络的视频图像实时去模糊方法
CN108647639B (zh) 实时人体骨骼关节点检测方法
CN112465718B (zh) 一种基于生成对抗网络的两阶段图像修复方法
CN113344806A (zh) 一种基于全局特征融合注意力网络的图像去雾方法与***
CN113205449B (zh) 表情迁移模型的训练方法及装置、表情迁移方法及装置
CN109389667B (zh) 一种基于深度学习的高效全局光照明绘制方法
CN113762147B (zh) 人脸表情迁移方法、装置、电子设备及存储介质
CN111241963B (zh) 基于交互建模的第一人称视角视频交互行为识别方法
CN113077545B (zh) 一种基于图卷积的从图像中重建着装人体模型的方法
CN111311732B (zh) 3d人体网格获取方法及装置
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
CN115345866B (zh) 一种遥感影像中建筑物提取方法、电子设备及存储介质
CN116258976A (zh) 一种分层次Transformer的高分辨率遥感图像语义分割方法及***
CN112509106A (zh) 文档图片展平方法、装置以及设备
CN114926734B (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN117475258A (zh) 虚拟试衣模型的训练方法、虚拟试衣方法及电子设备
CN117391938B (zh) 一种红外图像超分辨率重建方法、***、设备及终端
CN114638768A (zh) 一种基于动态关联学习网络的图像去雨方法、***及设备
CN111046738A (zh) 针对指静脉分割的轻量化u-net的精度提升方法
CN116342675B (zh) 一种实时单目深度估计方法、***、电子设备及存储介质
CN113079136A (zh) 动作捕捉方法、装置、电子设备和计算机可读存储介质
CN113379658A (zh) 一种无人机观测目标特征双光融合方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant