CN107392097B - 一种单目彩***的三维人体关节点定位方法 - Google Patents
一种单目彩***的三维人体关节点定位方法 Download PDFInfo
- Publication number
- CN107392097B CN107392097B CN201710453792.1A CN201710453792A CN107392097B CN 107392097 B CN107392097 B CN 107392097B CN 201710453792 A CN201710453792 A CN 201710453792A CN 107392097 B CN107392097 B CN 107392097B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- human body
- frame
- joint point
- body joint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 4
- 230000015654 memory Effects 0.000 claims description 107
- 238000000605 extraction Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 230000007787 long-term memory Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000010304 firing Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 10
- 238000010606 normalization Methods 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种单目彩***的三维人体关节点定位方法,包括以下步骤:S1、构建可配置的深度模型,并在该深度模型中引入时序信息;S2、采集训练样本,并利用训练样本学习出深度模型的参数;S3、利用S2中学习得到的参数对深度模型进行初始化,将需要进行三维人体关节点定位的单目彩***数据转化为连续多帧二维图像,输入深度模型以进行分析;针对每帧二维图像,输出其中人物的三维人体关节点坐标。本发明利用深度学习,构建深层次的卷积神经网络,来从大量的训练样本中自动学习出有效的时空特征,而不再依赖人工设计的先验条件和人体关节结构约束;通过学习出的有效特征,直接回归出人体的关节点位置。
Description
技术领域
本发明涉及三维人体姿态识别、计算机视觉、模式识别和人机交互领域,特别是基于卷积神经网络和长短时记忆网络的单目彩***的三维人体关节点定位方法。
背景技术
姿态估计是计算机视觉研究的一个重要领域,其主要任务是让计算机能够自动地感知场景中的人“在哪里”和判断人在“干什么”,它的应用包括智能监控、病人监护和一些涉及人机交互的***。人体姿势的目标是希望能够自动地从未知的视频中(例如,一段图像帧)中推测人体各个部分的姿态参数(例如,关节点坐标)。通过这些姿态参数可以在三维空间中重建人体的动作,为整个场景的语义理解奠定基础。
然而随着社会的进步,当前的二维姿态估计已经不能满足用户的需求,并且在普通的RGB图像或视频中估计姿态受光照、遮挡、环境因素影响大,难以做到鲁棒。而目前从单彩色图像序列中估计三维姿态不仅要面对估计二维姿态存在的挑战,还面临如何确保三维姿态的几何约束的问题。
现在对单目彩***中三维人物关节点定位主要存在以下难点:
1、人物外表变化大,相机视点不固定,外物或者自身遮挡导致的部分关节点不可见。
2、从几何角度来说三维姿态本身含有二义性。
现有的三维姿态识别方法多是依赖人工设计的先验条件和人体关节结构约束,但是这种方法评测内部各个模块,也不能根据具体情境进行扩展。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于卷积神经网络和长短时记忆网络的单目彩***的三维人体关节点定位方法,该方法可以有效地自动抽取复杂人物姿态的时空特征,提高姿势估计的准确率。
为实现上述目的,本发明采用以下技术方案:
一种单目彩***的三维人体关节点定位方法,包括以下步骤:
S1、构建可配置的深度模型,并在该深度模型中引入时序信息;
其中,所述深度模型包括互相串联的卷积神经网络和长短时记忆网络;
所述卷积神经网络用于对视频数据进行逐帧处理,提取二维图像中人物的二维人体关节点特征,并将二维图像中人物的二维人体关节点特征转化到三维人体关节点坐标相关的特征空间;
所述长短时记忆网络用于结合当前帧及其之前的连续多帧二维图像的特征信息,预测出当前帧二维图像的三维人体关节点坐标;
S2、采集训练样本,并利用训练样本学习出深度模型的参数;所述训练样本包括:被转换成连续多帧二维图像的视频数据、每帧二维图像对应的真实的二维人体关节点坐标和三维人体关节点坐标;其中,视频数据和二维人体关节点坐标用于供深度模型学习出构建卷积神经网络的参数,视频数据和三维人体关节点坐标用于供深度模型学习出构建长短时记忆网络的参数;
S3、利用S2中学习得到的参数对深度模型进行初始化,将需要进行三维人体关节点定位的单目彩***数据转化为连续多帧二维图像,输入深度模型以进行分析;针对每帧二维图像,输出其中人物的三维人体关节点坐标。
进一步地,所述卷积神经网络包括互相串联的二维特征抽取模块和特征转化模块;
所述二维特征抽取模块包括依次串联的多个二维卷积层和穿插连接于二维卷积层之间的多个降采样层,用于提取二维图像的人物相关特征;所述特征转化模块包括依次串联的多个二维卷积层和1个第一全连接层,用于将二维图像的人物特征转化到三维人体关节点坐标相关的特征空间,最终通过第一全连接层输出到长短时记忆网络;
所述长短时记忆网络包括互相串联的长短时记忆层和第二全连接层;所述长短时记忆层包括依次连接的多个长短时记忆单元,用于引入连续多帧二维图像的时序信息,将经卷积神经网络处理得到的当前帧及其之前的连续多帧二维图像的特征信息按照时序排列并记忆,以在预测当前帧二维图像的三维人体关节点坐标时提供参考;所述第二全连接层用于最终输出预测的当前帧二维图像的三维人体关节点坐标。
进一步地,在所述卷积神经网络中,每个二维卷积层后面连接一个矫正线性单元层;
所述二维卷积层用于对输入的图像或者特征图在二维空间上进行卷积运算,提取层次化特征;
所述降采样层使用没有重叠的max-pooling操作,用于提取形状和偏移不变的特征,同时减少特征图大小,提高计算效率;
所述矫正线性单元层采用非线性阀值函数,对输入信号进行只允许非负信号通过的变化。
进一步地,所述第一全连接层为隐藏层,是在二维卷积层的输出上建立的感知机模型;
具体地,所述特征转化模块中的二维卷积层用于大幅减小特征图的大小,第一全连接层用于将前面各层处理得到的二维关节点特征图串联成一个特征序列,该序列是从单目彩***中抽取到的特征,它的每一维元素都连向隐藏层的所有节点,输出人物三维关节点特征并进一步全连接到长短时记忆网络的输入;
所述第二全连接层为逻辑回归层,是整个深度模型的输出;
具体地,作为深度模型输出的第二全连接层的输出将长短时记忆层的输出映射到一个Kx3维的实数序列,其中K为人体关节点的数量;所述实数序列中每三个单元的输出为单目彩***中人物对应关节点的三维坐标。
进一步地,所述S2中,通过隐式网络结构反向传播算法来学习深度模型的参数,具体包括:
S201、采集训练样本;
S202、利用训练样本中的视频数据和二维人体关节点坐标,预学习出构建二维特征抽取模块的模型参数;
S203、初始化卷积神经网络和长短时记忆网络的模型参数,其中,二维特征抽取模块的模型参数采用S202中预学习得到的参数进行初始化,其余部分的模型参数随机初始化;
S204、将视频数据输入深度模型,采用前向传播算法,预测出三维人体关节点坐标;
S205、将训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标进行对比运算,采用后向传播算法,学习出S203中所述的其余部分的参数。
进一步地,所述S202具体包括以下步骤:
S2021、在二维特征抽取模块的后面接1x1的二维卷积层,以输出每个二维人体关节点的特征图;
S2022、随机初始化二维特征抽取模块的参数;
S2023、利用训练样本中转换成连续多帧二维图像的视频数据及每帧图像对应的二维人体关节点坐标,使用后向传播算法学习出构建二维特征抽取模块的模型参数;
预学习过程用的损失函数是预测的特征图和理想的置信图的欧氏距离,其定义如下:
进一步地,在S205中,具体包括:计算训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标的误差;采用时序反向传播算法求长短时记忆网络中各个参数的偏导数;根据长短时记忆网络传入的残差,通过反向传播算法求卷积神经网络中各个参数的偏导数;根据计算结果更新模型参数并重复迭代计算;
具体地,先求解训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标之间的损失函数J(ω),然后求得其对于参数ω的梯度,采用Adam算法更新ω,总的损失函数J(ω)定义为:
进一步地,在S2和S3中,将视频数据输入深度模型前,还需对每一帧二维图像添加记忆标记参数,以区分记忆帧和遗忘帧;记忆标记参数和视频数据一同作为深度模型的输入;
所述添加记忆标记参数的方法包括:当视频数据为多段不连续的视频数据时,每段视频数据的开头第一帧标记为遗忘帧;对于一段连续的视频数据,除视频数据的开头第一帧标记为遗忘帧外,按照时序,每间隔若干帧后,选取下一帧标记为遗忘帧;其余帧均标记为记忆帧;其中,两个相邻遗忘帧之间间隔的记忆帧数小于长短时记忆层中包含的长短时记忆单元个数;
在深度模型的长短时记忆层中,当当前处理的二维图像为遗忘帧时,长短时记忆单元对之前记忆的二维图像特征信息进行遗忘,此时,长短时记忆网络仅参考遗忘帧的特征信息进行三维人体关节点坐标的预测;当当前处理的二维图像为记忆帧时,长短时记忆单元对之前处理过的连续若干帧二维图像特征信息保持记忆并沿用,此时,长短时记忆网络同时参考当前帧和直到上一个遗忘帧(包括遗忘帧)之间的全部帧的特征信息进行三维人体关节点坐标的预测。
进一步地,每个长短时记忆单元包括1个输入门、1个输出门、1个忘记门和1个记忆元组;其中,忘记门用于控制记忆元组,对记忆元组记录的内容进行选择性遗忘。
进一步地,在S2和S3中,将视频数据输入深度模型前,还需对视频数据进行人物区域初步定位处理,所述人物区域初步定位处理包括:识别视频数据中每一帧二维图像的人物区域,使用矩形框将人物区域包围起来,形成人物矩形包围框;将人物矩形包围框外的图像信息去除,仅将人物矩形包围框内的图像输入深度模型。
与现有技术相比,本发明的有益效果是:
第一,本发明利用深度学习,构建深层次的卷积神经网络,来从大量的训练样本(这些训练样本包含了摄像机摆放的多种角度、摄像机与人的多种距离和人物自身的多种遮挡程度)中自动学习出有效的时空特征,而不再依赖人工设计的先验条件和人体关节结构约束;通过学习出的有效特征,直接回归出人体的关节点位置。
第二,本发明用一个模型同时强调了人体的二维空间关系、三维几何约束和时序连续性;通过获取身体各部分的长时间依赖关系来提高三维姿态估计的准确性,充分利用时空约束。并且本发明具有端对端训练的可微分结构,可以整体优化模型的各个模块。
本发明同时强调人体姿态的时空约束及时序的连续性,能抗遮挡、噪声等多种挑战,拥有很高的准确率。
附图说明
图1是本发明提供的一种单目彩***的三维人体关节点定位方法的流程示意图。
图2是本发明中深度模型中各层的分布图。
图3是本发明提供的一种单目彩***的三维人体关节点定位方法的数据流向图。
具体实施方式
下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。
如图1所示,本发明提供了一种单目彩***的三维人体关节点定位方法,其主要包括以下步骤:
S1、构建可配置的深度模型,并在该深度模型中引入时序信息;
S2、采集训练样本,并利用训练样本学习出深度模型的参数;
S3、利用S2中学习得到的参数对深度模型进行初始化,将需要进行三维人体关节点定位的单目彩***数据转化为图片流(即连续多帧二维图像),输入深度模型以进行分析;针对每帧二维图像,输出其中人物的三维人体关节点坐标。
本发明S1中提出了一个卷积神经网络和长短时记忆网络相结合的深度模型,以对单目彩***中的三维人体姿态关节点进行估计。下面将对本发明采用的深度模型的结构进行详细说明。
如图2所示,本发明中,所述深度模型包括互相串联的深层卷积神经网络和长短时记忆网络。所述卷积神经网络用于对视频数据进行逐帧处理,提取二维图像中人物的二维人体关节点特征,并将二维图像中人物的二维人体关节点特征转化到三维人体关节点坐标相关的特征空间;
所述长短时记忆网络用于结合当前帧及其之前的连续多帧二维图像的特征信息,预测出当前帧二维图像的三维人体关节点坐标。
具体地,所述卷积神经网络包括互相串联的二维特征抽取模块和和特征转化模块;其中,所述二维特征抽取模块包括依次串联的多个二维卷积层和穿插连接于二维卷积层之间的多个降采样层,用于提取二维图像的人物相关特征;所述特征转化模块包括依次串联的多个二维卷积层和1个第一全连接层,用于将二维图像的人物特征转化到三维人体关节点坐标相关的特征空间,最终通过第一全连接层输出到长短时记忆网络。
进一步地,在所述卷积神经网络中,每个二维卷积层后面连接一个矫正线性单元层。
在本发明实施例中,二维特征抽取模块中有17个二维卷积层和3个降采样层。所述特征转化模块则包括2个二维卷积层。
所述长短时记忆网络包括互相串联的长短时记忆层和第二全连接层;所述长短时记忆层包括依次连接的多个长短时记忆单元,用于引入连续多帧二维图像的时序信息,将经卷积神经网络处理得到的当前帧及其之前的连续多帧二维图像的特征信息按照时序排列并记忆,以在预测当前帧二维图像的三维人体关节点坐标时提供参考;所述第二全连接层用于最终输出预测的当前帧二维图像的三维人体关节点坐标。
深度模型中各层的具体分布如图3所示,其中,conv为二维卷积层,pool为降采样层,lstm为长短时记忆层,fc_1为第一全连接层,fc_2为第二全连接层,矫正线性单元层未在图2中示出。下面将逐一介绍:
二维卷积层:所述二维卷积层用于对输入的图像或者特征图在二维空间上进行卷积运算,提取层次化特征。具体地,假设输入图像的宽度和高度分别为w和h,三维卷积核的大小为w′×h′×m′,其中w′,h′,m′分别表示宽度,高度和通道数。卷积后可以获得一个特征图,其中位于特征图(x,y)位置处的值可以表示成:
其中p(x+i)(y+j)(s+k)表示输入的第(s+k)个通道在(x+I,y+j)位置的像素值,ωijk表示卷积核的参数,b表示跟与该特征图相关的偏置。故此我们可以得到一个特征图,每个特征图的大小为(w-w′+1,h-h′+1)。由于单个卷积核只能抽取一种类型的特征,因此我们在每层二维卷积层中引入了多个卷积核抽取多种不同的特征。
降采样层(又称为池化层):所述降采样层使用没有重叠的max-pooling(对邻域内特征点取最大)操作,用于提取形状和偏移不变的特征,同时减少特征图大小,提高计算效率。其中,max-pooling操作是指对特征图按照一定策略(选取最大值)进行降采样的过程,这是一种被广泛应用的有效过程,它能够提取出保持形状和偏移不变性的特征。对于一组特征图,max-pooling操作通过对它们降采样,得到同样数量的一组低分辨率特征图。并且本发明在a1×a2大小的特征图上应用2×2的max-pooling操作,抽取2×2不重叠区域上的最大值,得到大小为a1/2×a2/2的新特征图。
矫正线性单元层:所述矫正线性单元层采用简单的非线性阀值函数,对输入信号进行只允许非负信号通过的变化。矫正线性单元层是神经网络里的一个基本单元层,在所有的卷积单元层后面都会有这一个单元层的存在。假设g表示本层的输出,W表示本层边的权重,a表示本层输入,则我们有:
g=max(0,WTa);
实验证明在深层卷积神经网络中,使用校正线性单元可使网络的训练收敛速度比使用传统的激励函数更快。
长短时记忆层:所述长短时记忆层可以看做是一个包含T个长短时记忆单元的小网络,T是输入网络的连续帧数量。每个长短时记忆单元由输入门l,忘记门φ,输出门ω和记忆元组c四个节点组成,其中,忘记门用于控制记忆元组,对记忆元组记录的内容进行选择性遗忘。
前向传播时t时刻各节点的净输入包括t时刻的输入和t-1时刻的历史信息,具体公式如下:
输入门:
忘记门:
记忆元组:
输出门:
第一全连接层:所述第一全连接层为隐藏层,是在二维卷积层的输出上建立的感知机模型。具体地,为了将卷积神经网络与长短时记忆网络连接在一起,本发明引入了特征转化模块,再加上长短时记忆层的输入要求是一个序列,因此所述特征转化模块中的二维卷积层用于大幅减小特征图的大小,第一全连接层用于将前面各层处理得到的二维关节点特征图串联成一个特征序列,该序列是从单目彩***中抽取到的特征,它的每一维元素都连向隐藏层的所有节点,输出人物三维关节点特征并进一步全连接到长短时记忆网络的输入。
第二全连接层:所述第二全连接层为逻辑回归层,是整个深度模型的输出。具体地,作为深度模型输出的第二全连接层的输出将长短时记忆层的输出映射到一个Kx3维的实数序列,其中K为人体关节点的数量,每三个单元的输出为单目彩***中人物对应关节点的三维坐标。
下面将结合以上所述的深度模型结构,对本发明的S2和S3进行详细说明。
首先,需要重要声明的是,在S2和S3中,将视频数据输入深度模型前,还需对每一帧二维图像添加记忆标记参数,以区分记忆帧和遗忘帧;记忆标记参数和视频数据一同作为深度模型的输入;
所述添加记忆标记参数的方法包括:当视频数据为多段不连续的视频数据时,每段视频数据的开头第一帧标记为遗忘帧;对于一段连续的视频数据,除视频数据的开头第一帧标记为遗忘帧外,按照时序,每间隔若干帧后,选取下一帧标记为遗忘帧;其余帧均标记为记忆帧;其中,两个相邻遗忘帧之间间隔的记忆帧数小于长短时记忆层中包含的长短时记忆单元个数;
在深度模型的长短时记忆层中,当当前处理的二维图像(即当前帧)为遗忘帧时,长短时记忆单元对之前记忆的二维图像特征信息进行遗忘,此时,长短时记忆网络仅参考遗忘帧的特征信息进行三维人体关节点坐标的预测;当当前处理的二维图像为记忆帧时,长短时记忆单元对之前处理过的连续若干帧二维图像特征信息保持记忆并沿用,此时,长短时记忆网络同时参考当前帧和直到上一个遗忘帧(包括遗忘帧)之间的全部帧的特征信息进行三维人体关节点坐标的预测。以上定义的处理过程,也是本发明提供的深度模型中引入时序信息的一种具体体现。
在本实施例中,采用以下方式添加记忆标记参数:对于每个输入的二维图像,增加一维记忆标记参数si,si等于0或1;si=0表示当前帧为遗忘帧;si=1表示当前帧为记忆帧。对所有输入的视频数据定义新增的记忆标记参数为(S1,…,SM),所有输入的视频数据共包括M段视频,对应的该段视频的帧的数量为(t1,...,tM),其中当需要长短时记忆单元遗忘之前的内容时,将当前帧i的si设为零。
在S1和S2中,可以通过合理设置记忆标记参数,使长短时记忆层在检测到新视频的开始时清空之前的记忆,或者以固定的间隔清空之前的记忆。例如,需要每5帧清空一次记忆,则设置S=(0,1,1,1,1,0,1,…,0,1…),即每间隔4帧记忆帧设置1帧遗忘帧。
作为改进,在S2和S3中,将视频数据输入深度模型前,还需对视频数据进行人物区域初步定位处理,所述人物区域初步定位处理包括:识别视频数据中每一帧二维图像的人物区域,使用矩形框将人物区域包围起来,形成人物矩形包围框;将人物矩形包围框外的图像信息去除,仅将人物矩形包围框内的图像输入深度模型。通过人物区域初步定位处理,形成人物矩形包围框,能够预先去除二维图像中与人物信息无关的部分,大大降低深度模型的运算量,显著提高效率。
所述S2中,参数包括深度模型中各层的权重和偏置。在本发明实施例中,通过隐式网络结构反向传播算法来学习深度模型的参数,具体包括:
S201、采集训练样本;所述训练样本包括:被转换成连续多帧二维图像的视频数据、每帧二维图像对应的真实的二维人体关节点坐标和三维人体关节点坐标;其中,视频数据和二维人体关节点坐标用于供深度模型学习出构建卷积神经网络的参数,视频数据和三维人体关节点坐标用于供深度模型学习出构建长短时记忆网络的参数。
S202、利用训练样本中的视频数据和二维人体关节点坐标,预学习出构建二维特征抽取模块的模型参数;
S203、初始化卷积神经网络和长短时记忆网络的模型参数,其中,二维特征抽取模块的模型参数采用S202中预学习得到的参数进行初始化,其余部分的模型参数随机初始化;这一步中,利用S202中预学习的二维特征抽取模块的模型参数对二维特征抽取模块进行初始化,能够使深度模型获得较好的二维人物特征表达,降低S205中其余参数的学习运算难度;
S204、将视频数据输入深度模型,采用前向传播算法,预测出三维人体关节点坐标;
S205、将训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标进行对比运算,采用后向传播算法,学习出S203中所述的其余部分的参数。
具体地,所述S201中采集训练样本的方法包括以下步骤:
S2011、将彩色摄像头以及动作捕捉***校准到同一个世界坐标系中;
S2012、实验人员穿着带有动作捕捉***所需辅助标注的服装在场景中做各种动作,比如走路,谈话,坐着,躺着等;
S2013、利用三维几何关系以及彩色摄像机参数,把动作捕捉***采集到的三维动作点信息转换到图像平面中,以得到对应关节点在图像中的坐标,即二维人体关节点坐标;
S2014、将三维关节点数据转换到对应摄像机为原点的世界坐标系中,将转换后的三维关节点坐标、二维人体关节点坐标和彩色摄像头录制的彩***一起保存好。
进一步地,所述S202具体包括以下步骤:
S2021、在二维特征抽取模块的后面接1x1的二维卷积层,以输出每个二维人体关节点的特征图;
S2022、随机初始化二维特征抽取模块的参数;
S2023、利用训练样本中大量的人物二维姿势图片(即转换成连续多帧二维图像的视频数据及每帧图像对应的二维人体关节点坐标),使用后向传播算法学习出构建二维特征抽取模块的模型参数;
预学习过程用的损失函数是预测的特征图和理想的置信图的欧氏距离,其定义如下:
进一步地,在S205中,具体包括:计算训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标的误差;采用时序反向传播算法求长短时记忆网络中各个参数的偏导数;根据长短时记忆网络传入的残差,通过反向传播算法求卷积神经网络中各个参数的偏导数;根据计算结果更新模型参数并重复迭代计算。
具体地,先求解训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标之间的损失函数J(ω),然后求得其对于参数ω的梯度,采用Adam算法更新ω,总的损失函数J(ω)定义为:
其中,batchsize为输入深度模型的连续帧数目,K为关节点数目,为前向传播算法预测的三维人体关节点坐标,为训练样本中真实的三维人体关节点坐标。经试验证明深度模型中能够记住的连续帧的数目越多结果越好,即深度模型中的长短时记忆单元越多、视频数据中连续的记忆帧越多,预测的结果越稳定可靠。
在S205中,与传统的反向传播算法不同的是,第t(t<T)时刻,本层节点的残差有两个来源:一是上一层节点t时刻的残差进行加权,等价于前面的神经元的误差累积形成的残差,二是后一个时刻(t+1)隐层节点的残差进行加权。所以,层与层之间的交互也只是将上一层的t时刻残差传给下一层。计算梯度时,是平均T个时刻的残差,来更新梯度。因此实际训练中上一层网络只需要将1到T时刻的残差传递给下一层即可,表示长短时记忆网络要学习长度为T的序列。根据深度模型中输入门l,忘记门φ,输出门ω和记忆元组c的前述定义,S205中具体的时序反向传播过程如下:
输出门:
记忆单元:
忘记门:
输入门:
实际训练过程中将长短时记忆单元展开,采用链式的方法对各个参数求偏导,如此就可以与之前的卷积神经网络的反向传播接上,整个网络一起训练,要求卷积神经网络中二维卷积层的输入批次与长短时记忆网络的输入时间序列数相同,本发明中采用每五个连续视频帧更新一次梯度。
作为改进,在S2中,还可以对训练样本中真实的三维人体关节点坐标进行归一化处理,具体为:
对于含有N帧二维图像的视频数据,构造一个N×(K×3)的二维矩阵,K是关节点数目,这个矩阵的每一行代表一张二维图像对应的三维人体关节点坐标向量;计算这个矩阵的每一列的最大值Xmax以及最小值Xmin,然后对于每一帧二维图像中的三维人体关节点坐标分别进行如下运算:
其中X为归一化之前的三维人体关节点坐标,Y为进行归一化后的三维人体关节点坐标,这个操作可以把预测的坐标值的范围转换到[0,1]范围内,可以减小训练模型时的抖动。
对应地,由于在S2中进行了上述归一化操作,使得在S3中,训练好的深度模型预测出的三维人体关节点坐标也具备归一性;因此,需要对预测结果进行去归一化处理,得到的才是世界坐标系中实际的三维关节点坐标值。具体地,通过以下公式将预测的三维人体关节点坐标重新映射到原图像的世界坐标系,进行评估与可视化:
X=Y(Xmax-Xmin)+Xmin。
进一步地,本发明还可以通过以下方法对深度模型预测的结果进行评估:给定连续5帧二维图像(即连续5帧视频帧),输入训练好的深度模型中,可获得五张图像,分别对应的所有关节点的归一化后的三维坐标。通过上面的去归一化处理,将该坐标变换回原始图像上,即可得到连续五帧的所有关节点的原始坐标。评价标准如下:
其中,xpred是深度网络预测的关节点坐标,xgt是训练样本中真实的关节点坐标。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种单目彩***的三维人体关节点定位方法,其特征在于,包括以下步骤:
S1、构建可配置的深度模型,并在该深度模型中引入时序信息;
其中,所述深度模型包括互相串联的卷积神经网络和长短时记忆网络;
所述卷积神经网络用于对视频数据进行逐帧处理,提取二维图像中人物的二维人体关节点特征,并将二维图像中人物的二维人体关节点特征转化到三维人体关节点坐标相关的特征空间;
所述长短时记忆网络用于结合当前帧及其之前的连续多帧二维图像的特征信息,预测出当前帧二维图像的三维人体关节点坐标;
S2、采集训练样本,并利用训练样本学习出深度模型的参数;所述训练样本包括:被转换成连续多帧二维图像的视频数据、每帧二维图像对应的真实的二维人体关节点坐标和三维人体关节点坐标;其中,视频数据和二维人体关节点坐标用于供深度模型学习出构建卷积神经网络的参数,视频数据和三维人体关节点坐标用于供深度模型学习出构建长短时记忆网络的参数;
S3、利用S2中学习得到的参数对深度模型进行初始化,将需要进行三维人体关节点定位的单目彩***数据转化为连续多帧二维图像,输入深度模型以进行分析;针对每帧二维图像,输出其中人物的三维人体关节点坐标。
2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络包括互相串联的二维特征抽取模块和特征转化模块;
所述二维特征抽取模块包括依次串联的多个二维卷积层和穿插连接于二维卷积层之间的多个降采样层,用于提取二维图像的人物相关特征;所述特征转化模块包括依次串联的多个二维卷积层和1个第一全连接层,用于将二维图像的人物特征转化到三维人体关节点坐标相关的特征空间,最终通过第一全连接层输出到长短时记忆网络;
所述长短时记忆网络包括互相串联的长短时记忆层和第二全连接层;所述长短时记忆层包括依次连接的多个长短时记忆单元,用于引入连续多帧二维图像的时序信息,将经卷积神经网络处理得到的当前帧及其之前的连续多帧二维图像的特征信息按照时序排列并记忆,以在预测当前帧二维图像的三维人体关节点坐标时提供参考;所述第二全连接层用于最终输出预测的当前帧二维图像的三维人体关节点坐标。
3.根据权利要求2所述的方法,其特征在于,在所述卷积神经网络中,每个二维卷积层后面连接一个矫正线性单元层;
所述二维卷积层用于对输入的图像或者特征图在二维空间上进行卷积运算,提取层次化特征;
所述降采样层使用没有重叠的max-pooling操作,用于提取形状和偏移不变的特征,同时减少特征图大小,提高计算效率;
所述矫正线性单元层采用非线性阀值函数,对输入信号进行只允许非负信号通过的变化。
4.根据权利要求2所述的方法,其特征在于,所述第一全连接层为隐藏层,是在二维卷积层的输出上建立的感知机模型;
具体地,所述特征转化模块中的二维卷积层用于大幅减小特征图的大小,第一全连接层用于将前面各层处理得到的二维关节点特征图串联成一个特征序列,该序列是从单目彩***中抽取到的特征,它的每一维元素都连向隐藏层的所有节点,输出人物三维关节点特征并进一步全连接到长短时记忆网络的输入;
所述第二全连接层为逻辑回归层,是整个深度模型的输出;
具体地,作为深度模型输出的第二全连接层的输出将长短时记忆层的输出映射到一个Kx3维的实数序列,其中K为人体关节点的数量;所述实数序列中每三个单元的输出为单目彩***中人物对应关节点的三维坐标。
5.根据权利要求2所述的方法,其特征在于,所述S2中,通过隐式网络结构反向传播算法来学习深度模型的参数,具体包括:
S201、采集训练样本;
S202、利用训练样本中的视频数据和二维人体关节点坐标,预学习出构建二维特征抽取模块的模型参数;
S203、初始化卷积神经网络和长短时记忆网络的模型参数,其中,二维特征抽取模块的模型参数采用S202中预学习得到的参数进行初始化,其余部分的模型参数随机初始化;
S204、将视频数据输入深度模型,采用前向传播算法,预测出三维人体关节点坐标;
S205、将训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标进行对比运算,采用后向传播算法,学习出S203中所述的其余部分的参数。
7.根据权利要求5所述的方法,其特征在于,在S205中,具体包括:计算训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标的误差;采用时序反向传播算法求长短时记忆网络中各个参数的偏导数;根据长短时记忆网络传入的残差,通过反向传播算法求卷积神经网络中各个参数的偏导数;根据计算结果更新模型参数并重复迭代计算;
具体地,先求解训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标之间的损失函数J(ω),然后求得其对于参数ω的梯度,采用Adam算法更新ω,总的损失函数J(ω)定义为:
8.根据权利要求2所述的方法,其特征在于,在S2和S3中,将视频数据输入深度模型前,还需对每一帧二维图像添加记忆标记参数,以区分记忆帧和遗忘帧;记忆标记参数和视频数据一同作为深度模型的输入;
所述添加记忆标记参数的方法包括:当视频数据为多段不连续的视频数据时,每段视频数据的开头第一帧标记为遗忘帧;对于一段连续的视频数据,除视频数据的开头第一帧标记为遗忘帧外,按照时序,每间隔若干帧后,选取下一帧标记为遗忘帧;其余帧均标记为记忆帧;其中,两个相邻遗忘帧之间间隔的记忆帧数小于长短时记忆层中包含的长短时记忆单元个数;
在深度模型的长短时记忆层中,当当前处理的二维图像为遗忘帧时,长短时记忆单元对之前记忆的二维图像特征信息进行遗忘,此时,长短时记忆网络仅参考遗忘帧的特征信息进行三维人体关节点坐标的预测;当当前处理的二维图像为记忆帧时,长短时记忆单元对之前处理过的连续若干帧二维图像特征信息保持记忆并沿用,此时,长短时记忆网络同时参考当前帧和直到上一个遗忘帧之间的全部帧的特征信息进行三维人体关节点坐标的预测。
9.根据权利要求8所述的方法,其特征在于,每个长短时记忆单元包括1 个输入门、1个输出门、1个忘记门和1个记忆元组;其中,忘记门用于控制记忆元组,对记忆元组记录的内容进行选择性遗忘。
10.根据权利要求8所述的方法,其特征在于,在S2和S3中,将视频数据输入深度模型前,还需对视频数据进行人物区域初步定位处理,所述人物区域初步定位处理包括:识别视频数据中每一帧二维图像的人物区域,使用矩形框将人物区域包围起来,形成人物矩形包围框;将人物矩形包围框外的图像信息去除,仅将人物矩形包围框内的图像输入深度模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710453792.1A CN107392097B (zh) | 2017-06-15 | 2017-06-15 | 一种单目彩***的三维人体关节点定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710453792.1A CN107392097B (zh) | 2017-06-15 | 2017-06-15 | 一种单目彩***的三维人体关节点定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107392097A CN107392097A (zh) | 2017-11-24 |
CN107392097B true CN107392097B (zh) | 2020-07-07 |
Family
ID=60333053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710453792.1A Active CN107392097B (zh) | 2017-06-15 | 2017-06-15 | 一种单目彩***的三维人体关节点定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107392097B (zh) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019006591A1 (zh) * | 2017-07-03 | 2019-01-10 | 广州新节奏智能科技股份有限公司 | 一种单目深度视频的二维人体骨骼点定位方法 |
CN108875523B (zh) * | 2017-12-28 | 2021-02-26 | 北京旷视科技有限公司 | 人体关节点检测方法、装置、***和存储介质 |
CN108320297B (zh) * | 2018-03-09 | 2020-06-19 | 湖北工业大学 | 一种视频目标实时跟踪方法及*** |
CN110321754B (zh) * | 2018-03-28 | 2024-04-19 | 西安铭宇信息科技有限公司 | 一种基于计算机视觉的人体运动姿态纠正方法及*** |
CN108829232B (zh) * | 2018-04-26 | 2021-07-23 | 深圳市同维通信技术有限公司 | 基于深度学习的人体骨骼关节点三维坐标的获取方法 |
CN108647639B (zh) * | 2018-05-10 | 2020-07-28 | 电子科技大学 | 实时人体骨骼关节点检测方法 |
CN108717531B (zh) * | 2018-05-21 | 2021-06-08 | 西安电子科技大学 | 基于Faster R-CNN的人体姿态估计方法 |
CN108960078A (zh) * | 2018-06-12 | 2018-12-07 | 温州大学 | 一种基于单目视觉、从动作识别身份的方法 |
CN108921929A (zh) * | 2018-06-26 | 2018-11-30 | 开放智能机器(上海)有限公司 | 一种识别***及训练方法及单张单目图像的识别方法 |
CN109002163B (zh) * | 2018-07-10 | 2021-09-17 | 深圳大学 | 三维交互姿势采样方法、装置、计算机设备及存储介质 |
CN109376571B (zh) * | 2018-08-03 | 2022-04-08 | 西安电子科技大学 | 基于变形卷积的人体姿态估计方法 |
CN109145788B (zh) * | 2018-08-08 | 2020-07-07 | 北京云舶在线科技有限公司 | 基于视频的姿态数据捕捉方法和*** |
CN110895830A (zh) * | 2018-09-12 | 2020-03-20 | 珠海格力电器股份有限公司 | 3d图像的获取方法及装置 |
CN109271933B (zh) * | 2018-09-17 | 2021-11-16 | 北京航空航天大学青岛研究院 | 基于视频流进行三维人体姿态估计的方法 |
CN109461205A (zh) * | 2018-09-29 | 2019-03-12 | 北京航空航天大学 | 一种从烟花视频重建三维烟花的方法 |
CN109492755B (zh) * | 2018-11-07 | 2022-03-01 | 北京旷视科技有限公司 | 图像处理方法、图像处理装置和计算机可读存储介质 |
WO2020096403A1 (en) * | 2018-11-09 | 2020-05-14 | Samsung Electronics Co., Ltd. | Textured neural avatars |
CN109522850B (zh) * | 2018-11-22 | 2023-03-10 | 中山大学 | 一种基于小样本学习的动作相似度评估方法 |
CN109635925A (zh) * | 2018-11-30 | 2019-04-16 | 北京首钢自动化信息技术有限公司 | 一种运动员辅助训练数据获取方法、装置及电子设备 |
CN109712234B (zh) * | 2018-12-29 | 2023-04-07 | 北京卡路里信息技术有限公司 | 三维人体模型的生成方法、装置、设备和存储介质 |
CN110070605A (zh) * | 2019-03-28 | 2019-07-30 | 东南大学 | 一种实时人体无标记动作捕获方法 |
CN110070573B (zh) * | 2019-04-25 | 2021-07-06 | 北京卡路里信息技术有限公司 | 关节图确定方法、装置、设备和存储介质 |
CN110099020A (zh) * | 2019-05-23 | 2019-08-06 | 北京航空航天大学 | 一种无人机电磁信号管理和调制方式识别方法 |
CN110390386B (zh) * | 2019-06-28 | 2022-07-29 | 南京信息工程大学 | 基于输入变化微分的灵敏长短期记忆方法 |
CN110738717B (zh) * | 2019-10-16 | 2021-05-11 | 网易(杭州)网络有限公司 | 动作数据的修正方法、装置及电子设备 |
CN111210446B (zh) * | 2020-01-08 | 2022-07-29 | 中国科学技术大学 | 一种视频目标分割方法、装置和设备 |
CN111274901B (zh) * | 2020-01-15 | 2023-09-01 | 浙江大学 | 一种基于深度门控递归单元的手势深度图像连续检测方法 |
CN111223127B (zh) * | 2020-01-16 | 2023-04-07 | 华南师范大学 | 基于人体关节点的2d视频多人追踪方法、***、介质、设备 |
CN111260774B (zh) * | 2020-01-20 | 2023-06-23 | 北京百度网讯科技有限公司 | 生成3d关节点回归模型的方法和装置 |
CN111291718B (zh) * | 2020-02-28 | 2022-06-03 | 上海商汤智能科技有限公司 | 行为预测方法及装置、步态识别方法及装置 |
CN111311732B (zh) * | 2020-04-26 | 2023-06-20 | 中国人民解放军国防科技大学 | 3d人体网格获取方法及装置 |
CN111553968B (zh) * | 2020-05-11 | 2022-05-24 | 青岛联合创智科技有限公司 | 一种三维人体重构动画的方法 |
CN112132805B (zh) * | 2020-09-22 | 2024-02-09 | 深圳市人工智能与机器人研究院 | 一种基于人体特征的超声机器人状态归一化方法及*** |
CN112165684B (zh) * | 2020-09-28 | 2021-09-14 | 上海大学 | 基于联合视觉和无线信号特征的高精度室内定位方法 |
CN112215160B (zh) * | 2020-10-13 | 2023-11-24 | 厦门大学 | 一种利用长短期信息融合的视频三维人体姿态估计算法 |
CN112419388A (zh) * | 2020-11-24 | 2021-02-26 | 深圳市商汤科技有限公司 | 深度检测方法、装置、电子设备和计算机可读存储介质 |
CN113837314A (zh) * | 2021-10-09 | 2021-12-24 | 陕西科技大学 | 一种基于混合卷积神经网络的高光谱图像分类方法 |
CN113989928B (zh) * | 2021-10-27 | 2023-09-05 | 南京硅基智能科技有限公司 | 一种动作捕捉和重定向方法 |
TWI797916B (zh) * | 2021-12-27 | 2023-04-01 | 博晶醫電股份有限公司 | 人體偵測方法、人體偵測裝置及電腦可讀儲存媒體 |
CN115578513B (zh) * | 2022-09-30 | 2023-06-23 | 中国科学院半导体研究所 | 三维人体重建方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069423A (zh) * | 2015-07-29 | 2015-11-18 | 北京格灵深瞳信息技术有限公司 | 一种人体姿态检测方法及装置 |
CN105631861A (zh) * | 2015-12-21 | 2016-06-01 | 浙江大学 | 结合高度图从无标记单目图像中恢复三维人体姿态的方法 |
CN105787439A (zh) * | 2016-02-04 | 2016-07-20 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN105844239A (zh) * | 2016-03-23 | 2016-08-10 | 北京邮电大学 | 一种基于cnn和lstm的暴恐视频检测方法 |
CN106250707A (zh) * | 2016-08-12 | 2016-12-21 | 王双坤 | 一种基于深度学习算法处理头部结构像数据的方法 |
WO2017031088A1 (en) * | 2015-08-15 | 2017-02-23 | Salesforce.Com, Inc | Three-dimensional (3d) convolution with 3d batch normalization |
CN106650581A (zh) * | 2016-09-27 | 2017-05-10 | 腾讯科技(深圳)有限公司 | 一种人流量统计方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10909329B2 (en) * | 2015-05-21 | 2021-02-02 | Baidu Usa Llc | Multilingual image question answering |
-
2017
- 2017-06-15 CN CN201710453792.1A patent/CN107392097B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069423A (zh) * | 2015-07-29 | 2015-11-18 | 北京格灵深瞳信息技术有限公司 | 一种人体姿态检测方法及装置 |
WO2017031088A1 (en) * | 2015-08-15 | 2017-02-23 | Salesforce.Com, Inc | Three-dimensional (3d) convolution with 3d batch normalization |
CN105631861A (zh) * | 2015-12-21 | 2016-06-01 | 浙江大学 | 结合高度图从无标记单目图像中恢复三维人体姿态的方法 |
CN105787439A (zh) * | 2016-02-04 | 2016-07-20 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN105844239A (zh) * | 2016-03-23 | 2016-08-10 | 北京邮电大学 | 一种基于cnn和lstm的暴恐视频检测方法 |
CN106250707A (zh) * | 2016-08-12 | 2016-12-21 | 王双坤 | 一种基于深度学习算法处理头部结构像数据的方法 |
CN106650581A (zh) * | 2016-09-27 | 2017-05-10 | 腾讯科技(深圳)有限公司 | 一种人流量统计方法及装置 |
Non-Patent Citations (2)
Title |
---|
"3D CNNs与LSTMs在行为识别中的组合及其应用";秦阳等;《测控技术》;20170228;第36卷(第2期);全文 * |
"Beyond Frame-level CNN: Saliency-Aware 3-D CNN";Xuanhan Wang等;《IEEE SIGNAL PROCESSING LETTERS》;20170430;第24卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107392097A (zh) | 2017-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107392097B (zh) | 一种单目彩***的三维人体关节点定位方法 | |
CN107492121B (zh) | 一种单目深度视频的二维人体骨骼点定位方法 | |
CN112052886B (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN107423698B (zh) | 一种基于并联卷积神经网络的手势估计方法 | |
CN109376720B (zh) | 基于关节点时空简单循环网络和注意力机制的动作分类方法 | |
CN111339942B (zh) | 基于视点调整的图卷积循环网络骨骼动作识别方法及*** | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及*** | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN111814611B (zh) | 一种嵌入高阶信息的多尺度人脸年龄估计方法及*** | |
CN110503680A (zh) | 一种基于非监督的卷积神经网络单目场景深度估计方法 | |
CN111462191B (zh) | 一种基于深度学习的非局部滤波器无监督光流估计方法 | |
CN108182260B (zh) | 一种基于语义选择的多变量时间序列分类方法 | |
CN111368759B (zh) | 基于单目视觉的移动机器人语义地图构建*** | |
CN111199207B (zh) | 基于深度残差神经网络的二维多人体姿态估计方法 | |
CN113095254B (zh) | 一种人体部位关键点的定位方法及*** | |
CN111241963B (zh) | 基于交互建模的第一人称视角视频交互行为识别方法 | |
CN116524062B (zh) | 一种基于扩散模型的2d人体姿态估计方法 | |
CN109766790B (zh) | 一种基于自适应特征通道的行人检测方法 | |
CN115346207A (zh) | 一种基于实例结构相关性的二维图像中三维目标检测方法 | |
CN113378812A (zh) | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 | |
CN111340011A (zh) | 一种自适应时序移位神经网络时序行为识别方法及*** | |
CN110135435B (zh) | 一种基于广度学习***的显著性检测方法及装置 | |
CN116597136A (zh) | 一种半监督遥感图像语义分割方法与*** | |
Babu et al. | Subject independent human action recognition using spatio-depth information and meta-cognitive RBF network | |
CN116311345A (zh) | 一种基于Transformer的遮挡行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |