CN109271933B - 基于视频流进行三维人体姿态估计的方法 - Google Patents
基于视频流进行三维人体姿态估计的方法 Download PDFInfo
- Publication number
- CN109271933B CN109271933B CN201811080931.1A CN201811080931A CN109271933B CN 109271933 B CN109271933 B CN 109271933B CN 201811080931 A CN201811080931 A CN 201811080931A CN 109271933 B CN109271933 B CN 109271933B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- human body
- module
- joint point
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明所述基于视频流进行三维人体姿态估计的方法,基于深度学习的方法对视频流进行三维人体3D姿态估计,避免因二维视觉分析错误所导致的诸多缺陷,充分地利用视频帧间的时间关系,提高视频流3D姿态推断结果的准确性与实时性。包括有,视频第n(n≥2)帧,1)输入当前帧二维图像,采用浅层神经网络模块生成图像浅层图;2)第(n‑1)帧生成的人体二维关节点热力图、当前帧生成的图像浅层图,一并输入至LSTM模块以生成深层次特征图;3)当前帧生成的深层图像特征图输出至残差模块,生成当前帧的人体二维关节点热力图;4)当前帧的人体二维关节点热力图输出至三维关节点推断模块,进行二维至三维的空间映射;以上每帧生成的人体三维关节点热力图叠加,生成三维人体姿态估计的视频流。
Description
技术领域
本发明涉及针对二维图像视频流进行三维人体姿态估计的方法,属于虚拟现实技术领域。
背景技术
人体的3D姿态估计,是将人体的若干个关节(例如头部,肩部,肘部等)的3D位置精确地估算出来。由于失去了深度信息,从二维RGB视频流中估计人体的3D关节点的位置是计算机视觉领域的一个很大挑战。
随着深度神经网络(Deep Convolutional Networks)的发展,越来越多的技术创新聚焦于基于端到端的深度神经网络进行三维人体骨架检测。现有较为常见的三维人体姿态估计方法,主要有以下两种技术路线:
两段式3D关节点推断,如后附图1所示,该方法分成两个阶段,第一阶段,利用现有的二维关节点推断模型,精准地估计人体2D关节点的位置,一般用二维关节点热力图表示;第二阶段,利用上一阶段产生的2D关节点热力图和中间层特征图产生人体三维关节点的数学表达式。
端对端的3D关节点推断,如后附图2所示,该推断模型的输入为RGB图像,输出为人体3D数学表达式。
如上所述,现有三维人体姿态估计具有以下技术缺陷:A、一般直接输出人体关节点3D坐标,这对于网络来说是非常难学习的,因为特征空间到3D姿态空间的学习任务是一个高度非线性的学习任务,具有较高的非线性缺点;B、进行关节点3D推断时,神经网络的中间特征并未得到充分利用,难以将不同尺度、维度的特征信息结合起来,生成推断效果较差;C、基于视频流的3D姿态推断过程中,计算量增幅较大,从而使得最终的推断效果达不到实时性要求,实际应用效果较差;D、基于视频流的3D姿态推断过程中,并未利用每帧间的时空关系,从而无法解决关节点被遮挡及消失的问题。
有鉴于此,特提出本专利申请。
发明内容
本发明所述基于视频流进行三维人体姿态估计的方法,其目的在于解决上述现有技术存在的问题而基于深度学习的方法对视频流进行三维人体3D姿态估计,主要包括三维人体姿态模型生成、关节点的空间关系建立和视频帧间时间相关性捕捉,从而避免因二维视觉分析错误所导致的诸多缺陷,充分地利用视频帧间的时间关系,提高视频流3D姿态推断结果的准确性与实时性。
为实现上述发明目的,所述基于视频流进行三维人体姿态估计的方法,包括有以下实施步骤:
视频第一帧,1)输入当前帧二维图像,采用沙漏网络模块进行人体二维姿态的提取,生成第一帧的人体二维关节点热力图;2)将当前帧的人体二维关节点热力图输出至三维关节点推断模块,进行二维至三维的空间映射以生成人体三维关节点热力图;
视频第二帧,1)输入当前帧二维图像,采用浅层神经网络模块生成图像浅层图;2)第一帧生成的人体二维关节点热力图、当前帧生成的图像浅层图,一并输入至LSTM模块以生成深层次特征图;3)当前帧生成的深层图像特征图输出至残差模块,生成当前帧的人体二维关节点热力图;4)当前帧的人体二维关节点热力图输出至三维关节点推断模块,进行二维至三维的空间映射以生成人体三维关节点热力图;
视频第n(n≥2)帧,1)输入当前帧二维图像,采用浅层神经网络模块生成图像浅层图;2)第(n-1)帧生成的人体二维关节点热力图、当前帧生成的图像浅层图,一并输入至LSTM模块以生成深层次特征图;3)当前帧生成的深层图像特征图输出至残差模块,生成当前帧的人体二维关节点热力图;4)当前帧的人体二维关节点热力图输出至三维关节点推断模块,进行二维至三维的空间映射以生成人体三维关节点热力图;
以上每帧生成的人体三维关节点热力图叠加,生成三维人体姿态估计的视频流。如上所述,为充分地利用每帧间的时空关系,主要综合运用沙漏网络(HourglassNetwork)、浅层神经网络、LSTM(Long Short-Term Memory,长短期记忆)模块、残差模块和三维关节点推断模块进行三维人体姿态估计。其中,
沙漏模块,用以进行人体2D姿态提取以精确地预测、生成人体二维关节点的热力图;
浅层神经网络,用以输出单帧图像的特征图;
LSTM模块,以沙漏模块产生的人体2D关节点热力图和浅层神经网络产生的图像特征图为输入,生成当前帧的深层次特征图;
残差模块,以LSTM模块生成的当前帧深层图像特征图为输入,生成人体二维关节点;
三维关节点推断模块,利用沙漏模块提取的2D关节点和估计的深度进行2D到3D空间的映射,最终生成人体三维关节点坐标。
针对沙漏网络的进一步优化与补充方案是,一阶沙漏网络(Hourglass)包括以下并联的结构:
上半路具有M输入通道和N输出通道的若干个初级模块;
下半路具有串联的降采样1/2池化层、若干个初级模块、升采样最近邻插值模块;
n(n≥2)阶沙漏网络具有以下结构:
将(n-1)阶沙漏网络下半路的任一初级模块替换为(n-1)阶沙漏网络,其他的上、下半路结构与(n-1)阶沙漏网络相同。
具体地,上半路将M个通道的数据提取得到N通道的数据。在串联的若干个初级模块中,两个相邻的初级模块,后一个初级模块的输入通道数总是等于前一个初级模块的输出通道数。
下半路同样将M个通道的数据提取得到N通道的数据,不同的是在原本输入一半的尺寸上进行的,即串联有降采样1/2池化层、初级模块和升采样最近邻插值模块。
在n阶沙漏网络中,是将(n-1)阶沙漏网络(Hourglass)下半路中的初级模块替换为(n-1)阶沙漏网络,通过将该初级模块替换为一个新的沙漏网络,将n-1阶沙漏网络扩增为n阶沙漏网络。
综上内容,基于视频流进行三维人体姿态估计的方法具有以下优点:
1、充分利用视频帧间时间关系,提高了视频流3D姿态推断结果的准确性与实时性。
2、有效地降低了从“特征空间”到“3D姿态空间”学习任务的非线性程度,实现了一种科学的表示方法与学习方法。
3、实现了一种进行人体3D姿态估计的“端到端”的深度学习网络,进行人体关节点3D推断过程中避免了累积误差的产生。
4、实现最大化地利用神经网络的中间特征,将不同尺度、维度的特征结合起来,产生出最佳的推断效果。
5、直接减小了计算量,使得最终的推断效果达到实时性的要求,实用性较强。
附图说明
图1是现有技术中两段式估计方法示意图;
图2是现有技术中端对端估计方法示意图;
图3是本申请所述基于视频流进行三维人体姿态估计方法流程图;
图4是所述初级模块(Residual)的结构示意图;
图5是一阶沙漏模块的结构示意图;
图6是二阶沙漏模块的结构示意图;
图7是所述浅层神经网络的结构示意图;
图8是三维关节点推断模块流程图。
具体实施方式
下面结合附图和实施示例对本发明作进一步详细地描述。
实施例1,如图3所示,基于视频流进行三维人体姿态估计的方法如下:
视频第一帧,1)输入当前帧二维图像,采用沙漏网络模块进行人体二维姿态的提取,生成第一帧的人体二维关节点热力图;2)将当前帧的人体二维关节点热力图输出至三维关节点推断模块,进行二维至三维的空间映射以生成人体三维关节点热力图;
视频第二帧,1)输入当前帧二维图像,采用浅层神经网络模块生成图像浅层图;2)第一帧生成的人体二维关节点热力图、当前帧生成的图像浅层图,一并输入至LSTM模块以生成深层次特征图;3)当前帧生成的深层图像特征图输出至残差模块,生成当前帧的人体二维关节点热力图;4)当前帧的人体二维关节点热力图输出至三维关节点推断模块,进行二维至三维的空间映射以生成人体三维关节点热力图;
视频第三帧,1)输入当前帧二维图像,采用浅层神经网络模块生成图像浅层图;2)第2帧生成的人体二维关节点热力图、当前帧生成的图像浅层图,一并输入至残差模块以生成深层次特征图;3)当前帧生成的深层图像特征图输出至残差模块,生成当前帧的人体二维关节点热力图;4)当前帧的人体二维关节点热力图输出至三维关节点推断模块,进行二维至三维的空间映射以生成人体三维关节点热力图;
以上每帧生成的人体三维关节点热力图叠加,生成三维人体姿态估计的视频流。
在视频第一帧中,沙漏模块进行人体2D姿态提取,生成精确预测人体二维关节点的热力图耗时100ms;
在视频第二帧、第三帧中,浅层神经网络输出单帧图像的特征图,耗时为20ms/帧;LSTM模块,根据沙漏网络产生的人体2D关节点热力图和浅层神经网络产生的图像特征图,生成当前帧的深层次特征图,耗时10ms/帧;残差模块,其输入为LSTM模块产生的当前帧深层图像特征图,生成人体二维关节点,耗时10ms/帧;三维关节点推断模块,利用沙漏模块提取的2D关节点和估计的深度,进行2D至3D空间的映射,耗时10ms/帧;
即,视频第一帧的三维关节点推断需要120ms,对于其后每帧仅需要60ms,从而使得在保证三维人体姿态估计精度的同时,又可保证估计方法的实时效率。
在人体2D姿态估计当中,对于神经网络的输出结构进行迭代处理,在多个处理阶段产生预测。这些中间的预测结果,会逐渐完善以产生更加准确的估计结果。“沙漏模块”就是这种设计结构,其采用级联的方案多次预测结果,逐步修正结果。
本申请所述的“沙漏模块”,是由初级模块(Residual Module)组成。
如图4所示,所述的初级模块(Residual Module),是一个具有M通道的特征图,输出的是一个具有N通道的特征图。
第一行为卷积路,由三个核尺度不同的卷积层,圆角矩形表示为一个卷积操作,其中的文字写明了该卷积操作的参数,共分为3行,分别是输入特征的通道数,卷积核的尺寸以及输出特征的通道数;
第二行为跳级路,只包含一个核尺度为1的卷积层;跳级路的输入输出通道数相同,这一路为单位映射。
所有卷积层的步长为1,pading为0,不改变数据长和宽尺寸,只对数据深度(channel)进行变更。
上述初级模块(Residual Module),可由两个参数控制:输入深度M和输出深度N,实现对任意尺寸图像的操作。
初级模块(Residual Module),提取了较高层次的特征(卷积路),同时保留了原有层次的信息(跳级路),其可以看做是一个保尺寸的高级“卷积”层。
如图5所示,一阶沙漏模块的输入是M通道的特征图,输出是N通道的特征图。其上半路包含3个串联的初级模块(Residual),两个相邻的初级模块中,后一个初级模块的输入通道数总是等于前一个初级模块的输出通道数,以逐步提取更深层次特征。
下半路同样将M个通道的数据提取得到N通道的数据,不同的是在原本输入一半的尺寸上进行的。具有串联的降采样1/2池化层、5个初级模块、升采样最近邻插值模块。
具体地,上半路在原尺度进行,下半路经历了先降采样(带有/2字样的矩形)再升采样(带有*2的矩形)的过程。
其中,降采样模块使用最大池化,升采样模块使用最近邻插值。
一阶沙漏网络(Hourglass),通过将输入的M通道的特征图分成两路处理。其中一个支路,是在原始的尺度上进行;另外一路,是在一个较低尺度上进行,最后在各自的支路上处理完毕之后进行融合。使得神经网络具有较高的识别和表达能力,能够对不同尺度的特征信息进行较好的甄选,以便提取到影响最终结果的本质特征。
如图6所示,二阶沙漏网络(Hourglass),是一阶沙漏网络(Hourglass)的虚线框部分替换成一个一阶沙漏网络(输入通道256,输出通道N)。
即二阶沙漏网络(Hourglass),是将一阶沙漏网络(Hourglass)的下半路中的第4个初级模块替换为一阶沙漏网络(Hourglass)。
在二阶沙漏网络(Hourglass)中,下半路组成了两次降采样,再两次升采样的过程。
二阶沙漏网络(Hourglass),在降采样的支路上进行了最大相对于原始数据尺寸为1/4的降采样,相对于一阶沙漏网络(Hourglass)更加凸显了尺度信息的差异性。
为了进一步增加综合不同尺度的信息,本申请可采取n阶沙漏网络(Hourglass),即经历最多n次的降采样,而每次降采样之前,分出上半路保留原尺度信息;每次升采样之后,和上一个尺度的数据相加;两次降采样之间,使用三个初级模块提取特征;在两次相加之间,使用一个初级模块(Residual)提取特征。即n阶沙漏网络(Hourglass),可提取从原始尺度到1/2n尺度的中间特征。
n(n≥2)阶沙漏网络,是将(n-1)阶沙漏网络下半路的一个初级模块替换为(n-1)阶沙漏网络,其他的上、下半路结构与(n-1)阶沙漏网络相同。
对于n阶与(n-1)阶沙漏网络来说,下半路被替换的初级模块位置可以相同,也可以不相同。在本实施例中,n阶与(n-1)阶沙漏网络的下半路被替换的初级模块均是第4个。
如图7所示,所述浅层神经网络,是对单帧图像进行处理以提取图像特征。在本申请中,浅层神经网络采用VGG16去除最后的全连接层和Soft-max层。
所述的LSTM模块,是一种特定形式的RNN(Recurrent neural network,循环神经网络),而RNN是一系列能够处理序列数据的神经网络的总称。
在本申请中,利用LSMT模块来做帧与帧之间的衔接,输入为上一帧的热力图和当前帧的浅层神经网络输出特征,输出的是当前帧深层次特征。
如下述公式所示,
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
ft表示遗忘门,在LSTM模块中先决定会从细胞状态中丢弃什么信息,这个决定通过此遗忘门来完成。即该遗忘门会读取h_{t-1}和x_t,输出一个在0到1之间的数值给每个在细胞状态C_{t-1}中的数字;1表示“完全保留”,0表示“完全舍弃”。
it表示输入门,其确定什么样的新信息被存放在细胞状态中。包含有以下两部分,第一部分,sigmoid层称“输入门层”决定什么值将要被更新;第二部分,一个tanh层创建一个新的候选值向量,C_t,会被加入到状态中。
Ot表示输出门,Ct-1更新为Ct。将旧状态与ft相乘,丢弃掉确定需要丢弃的信息。接着加上it*Ct。即生成新的候选值,根据决定更新每个状态的程度进行变化。
所述的残差模块,是一种深度卷积网络,具有更易优化、能够通过增加相当的深度来提高准确率的特点。
本申请所述的残差模块,即对现有技术中通常使用的残差模块,去除其中的全连接层和Soft-max层,用其剩余模块来做特征组合的学习。
本申请所述的残差模块,其输入为LSTM模块根据前几帧补充的当前帧深层特征图,输出为人体二维关节点数学表达式,因此能够在保持沙漏模块精度的基础上提升整体估计方法的运行效率。
如图8所示,本申请所述的人体三维关节点推断模块,利用将沙漏模块产生的2D热力图以及浅层神经网络提取中间层图像特征作为输入,对关节点深度进行预测,其输出是一个P*1的向量,用来表示预测到的每个关节点深度信息,然后再将P*P的关节点热力图和P*1的关节点深度图组合形成三维人体姿态的数学表达式。
三维关节点推断,能够通过深度学习的方法而基于单张RGB图片获取深度信息。这种方法建立在大型的目标数据库基础上,如人脸数据库、场景数据库。首先,通过学习的方法,对数据库中的每个目标进行特征提取(包括亮度、深度、纹理、几何形状、相互位置);然后,对特征建立概率函数;最后,将重建目标与数据库中相似目标的相似程度表示为概率的大小,取概率最大的目标深度为重建目标深度,再结合纹理映射或插值方法进行三维重建。
本申请采用的三维关节点推断,即通过前几个模块提取的特征,经过深度学习模型预测出二维图片的人体关节点深度信息,结合前一阶段产生的人体二维关节点,产生人体三维关节点。
与现有技术不同的是,本申请所述基于视频流进行三维人体姿态估计的方法,使用深度学习方法对视频流进行人体3D姿态估计,该方法主要包括以下几部分:
1、三维人体姿态模型生成
采用沙漏模块、人体三维关节点推断模块,建立三维人体姿态估计模型。该模型分成两部分,第一部分为一个Generator网络,生成人体的三维姿态,第二部分是一个Discriminator网络,用来判断Generator生成的姿态优劣,通过两个网络相互作用,可以使得两个网络的性能相互提升,最终得到一个高精度的三维人体姿态。
2、关节点的空间关系建立
采用浅层神经网络、残差模块,通过空间关系的建立并优化上述三维人体姿态模型,用以学习关节点的空间配置信息。
可通过采用DropoutAutoencoder(DAE)组件基于去噪自动编码器,用于学习对噪声数据具有鲁棒性的表示,扩展架构以更明确地推断人类骨骼的空间配置。在输入层之后直接引入脱落层,其效果是从骨架中完全随机地移除关节,而不是简单地干扰它们的位置和角度。然后,恢复完整姿势的唯一方法是通过来自相邻关节的推断来重建缺失的关节角度信息。
3、视频帧间时间相关性捕捉
采用LSTM模块,用以学习视频每帧间的连续性,以此达到学习时间维度信息的目的。
通过多级卷积神经网络(CNN)能够实现关于单幅图像人体姿态估计。尽管在静态图像上具有优越的性能,但是这些模型在视频上的应用不仅是计算密集型的,而且还受到性能退化和轻弹的影响。
在本申请中,提出了一种新的循环网络来解决上述问题。将权重共享方案强加给多级CNN,其可以重写为递归神经网络(RNN),从而显著加快调用视频网络的速度。在视频每帧间采用长短期记忆(LSTM)单元,在每帧间强加几何一致性方面非常有效,可很好地处理视频中的输入质量下降,同时成功稳定顺序输出。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (3)
1.一种基于视频流进行三维人体姿态估计的方法,其特征在于:包括有以下实施步骤,
视频第一帧,1)输入当前帧二维图像,采用沙漏网络模块进行人体二维姿态的提取,生成第一帧的人体二维关节点热力图;2)将当前帧的人体二维关节点热力图输出至三维关节点推断模块,进行二维至三维的空间映射以生成人体三维关节点热力图;
视频第二帧,1)输入当前帧二维图像,采用浅层神经网络模块生成图像浅层图;2)第一帧生成的人体二维关节点热力图、当前帧生成的图像浅层图,一并输入至LSTM模块以生成深层次特征图;3)当前帧生成的深层图像特征图输出至残差模块,生成当前帧的人体二维关节点热力图;4)当前帧的人体二维关节点热力图输出至三维关节点推断模块,进行二维至三维的空间映射以生成人体三维关节点热力图;
视频第n帧,1)输入当前帧二维图像,采用浅层神经网络模块生成图像浅层图;2)第(n-1)帧生成的人体二维关节点热力图、当前帧生成的图像浅层图,一并输入至LSTM模块以生成深层次特征图;3)当前帧生成的深层图像特征图输出至残差模块,生成当前帧的人体二维关节点热力图;4)当前帧的人体二维关节点热力图输出至三维关节点推断模块,进行二维至三维的空间映射以生成人体三维关节点热力图;其中,n为3,4,5...的整数;
以上每帧生成的人体三维关节点热力图叠加,生成三维人体姿态估计的视频流。
2.根据权利要求1所述的基于视频流进行三维人体姿态估计的方法,其特征在于:
一阶沙漏网络包括以下并联的结构,
上半路具有M输入通道和N输出通道的若干个初级模块;
下半路具有串联的降采样1/2池化层、若干个初级模块、升采样最近邻插值模块;
n阶所述的沙漏网络,是将(n-1)阶沙漏网络下半路的任一初级模块替换为(n-1)阶沙漏网络。
3.根据权利要求2所述的基于视频流进行三维人体姿态估计的方法,其特征在于:所述的初级模块,具有M通道输入和N通道输出;
初级模块包括以下并联的结构,
第一行为卷积路,由三个核尺度不同的卷积层串联构成;
第二行为跳级路,包含一个核尺度为1、输入与输出通道数相同的卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811080931.1A CN109271933B (zh) | 2018-09-17 | 2018-09-17 | 基于视频流进行三维人体姿态估计的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811080931.1A CN109271933B (zh) | 2018-09-17 | 2018-09-17 | 基于视频流进行三维人体姿态估计的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109271933A CN109271933A (zh) | 2019-01-25 |
CN109271933B true CN109271933B (zh) | 2021-11-16 |
Family
ID=65189536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811080931.1A Active CN109271933B (zh) | 2018-09-17 | 2018-09-17 | 基于视频流进行三维人体姿态估计的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271933B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109821239B (zh) * | 2019-02-20 | 2024-05-28 | 网易(杭州)网络有限公司 | 体感游戏的实现方法、装置、设备及存储介质 |
CN109949368B (zh) * | 2019-03-14 | 2020-11-06 | 郑州大学 | 一种基于图像检索的人体三维姿态估计方法 |
CN110472532B (zh) * | 2019-07-30 | 2022-02-25 | 中国科学院深圳先进技术研究院 | 一种视频对象行为识别方法和装置 |
CN110427877B (zh) * | 2019-08-01 | 2022-10-25 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
CN110751039B (zh) * | 2019-09-18 | 2023-07-25 | 平安科技(深圳)有限公司 | 多视图3d人体姿态估计方法及相关装置 |
CN110619310B (zh) * | 2019-09-19 | 2023-01-20 | 北京达佳互联信息技术有限公司 | 一种人体骨骼关键点检测方法、装置、设备及介质 |
CN110826459B (zh) * | 2019-10-31 | 2022-09-30 | 上海交通大学 | 基于姿态估计的可迁移校园暴力行为视频识别方法 |
CN110991319B (zh) * | 2019-11-29 | 2021-10-19 | 广州市百果园信息技术有限公司 | 手部关键点检测方法、手势识别方法及相关装置 |
WO2021163103A1 (en) * | 2020-02-13 | 2021-08-19 | Northeastern University | Light-weight pose estimation network with multi-scale heatmap fusion |
CN111401230B (zh) * | 2020-03-13 | 2023-11-28 | 深圳市商汤科技有限公司 | 姿态估计方法及装置、电子设备和存储介质 |
CN111695457B (zh) * | 2020-05-28 | 2023-05-09 | 浙江工商大学 | 一种基于弱监督机制的人体姿态估计方法 |
CN111767847B (zh) * | 2020-06-29 | 2023-06-09 | 佛山市南海区广工大数控装备协同创新研究院 | 一种集成目标检测和关联的行人多目标跟踪方法 |
CN111898566B (zh) * | 2020-08-04 | 2023-02-03 | 成都井之丽科技有限公司 | 姿态估计方法、装置、电子设备和存储介质 |
US11380121B2 (en) | 2020-08-25 | 2022-07-05 | Sony Group Corporation | Full skeletal 3D pose recovery from monocular camera |
CN112215160B (zh) * | 2020-10-13 | 2023-11-24 | 厦门大学 | 一种利用长短期信息融合的视频三维人体姿态估计算法 |
CN112509123A (zh) * | 2020-12-09 | 2021-03-16 | 北京达佳互联信息技术有限公司 | 三维重建方法、装置、电子设备及存储介质 |
CN112767534B (zh) * | 2020-12-31 | 2024-02-09 | 北京达佳互联信息技术有限公司 | 视频图像处理方法、装置、电子设备及存储介质 |
CN113469136B (zh) * | 2021-07-28 | 2024-05-14 | 大连海事大学 | 基于改进lstm-vgg16深层神经网络结构识别轮机员工作监控方法 |
US20240146963A1 (en) * | 2022-10-17 | 2024-05-02 | Alibaba Damo (Hangzhou) Technology Co., Ltd. | Method and apparatus for talking face video compression |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392097A (zh) * | 2017-06-15 | 2017-11-24 | 中山大学 | 一种单目彩***的三维人体关节点定位方法 |
CN108197547A (zh) * | 2017-12-26 | 2018-06-22 | 深圳云天励飞技术有限公司 | 人脸姿态估计方法、装置、终端及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
-
2018
- 2018-09-17 CN CN201811080931.1A patent/CN109271933B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392097A (zh) * | 2017-06-15 | 2017-11-24 | 中山大学 | 一种单目彩***的三维人体关节点定位方法 |
CN108197547A (zh) * | 2017-12-26 | 2018-06-22 | 深圳云天励飞技术有限公司 | 人脸姿态估计方法、装置、终端及存储介质 |
Non-Patent Citations (2)
Title |
---|
LSTM Pose Machines;Yue Luo et al.;《https://arxiv.org/abs/1712.06316》;20180312;第1-9页 * |
基于深度学习的三维目标识别算法研究;李润顺;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180615;第2018年卷(第6期);第I138-1512页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109271933A (zh) | 2019-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271933B (zh) | 基于视频流进行三维人体姿态估计的方法 | |
Cheng et al. | Cspn++: Learning context and resource aware convolutional spatial propagation networks for depth completion | |
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
Wang et al. | Fadnet: A fast and accurate network for disparity estimation | |
Kong et al. | Fastflownet: A lightweight network for fast optical flow estimation | |
CN112132023A (zh) | 基于多尺度上下文增强网络的人群计数方法 | |
CN113034380A (zh) | 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置 | |
CN112734644A (zh) | 一种多个注意力结合光流的视频超分辨模型及方法 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN109903315B (zh) | 用于光流预测的方法、装置、设备以及可读存储介质 | |
CN114339409B (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN116030498A (zh) | 面向虚拟服装走秀的三维人体姿态估计方法 | |
CN113538402B (zh) | 一种基于密度估计的人群计数方法及*** | |
CN111738092B (zh) | 一种基于深度学习的恢复被遮挡人体姿态序列方法 | |
Ren et al. | A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 | |
CN111275751A (zh) | 一种无监督绝对尺度计算方法及*** | |
CN116402874A (zh) | 基于时序光学图像与激光雷达数据的航天器深度补全方法 | |
CN113962332B (zh) | 基于自优化融合反馈的显著目标识别方法 | |
Kong et al. | Progressive motion context refine network for efficient video frame interpolation | |
Zhuang et al. | Dimensional transformation mixer for ultra-high-definition industrial camera dehazing | |
Gao et al. | Edge Devices Friendly Self-Supervised Monocular Depth Estimation Via Knowledge Distillation | |
CN117275069B (zh) | 基于可学习向量与注意力机制的端到端头部姿态估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |