CN106909938B

CN106909938B - 基于深度学习网络的视角无关性行为识别方法

Info

Publication number: CN106909938B
Application number: CN201710082263.5A
Authority: CN
Inventors: 王传旭; 胡国锋; 刘继超; 杨建滨; 孙海峰; 崔雪红; 李辉; 刘云
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao Shengruida Technology Co ltd
Priority date: 2017-02-16
Filing date: 2017-02-16
Publication date: 2020-02-21
Anticipated expiration: 2037-02-16
Also published as: CN106909938A

Abstract

本发明提出一种基于深度学习网络的视角无关性行为识别方法，包括以下步骤：将某一视角下的视频帧图像录入，采用深度学习的方式进行底层特征提取和加工；对得到的底层特征进行建模，按时间顺序得到立方体模型；将所有视角的立方体模型转化为一个视角不变的柱体特征空间映射，后将其输入到分类器中进行训练，得到视频行为视角无关性分类器。本发明的技术方案采用深度学习网络对多视角下的人体行为进行分析，提升了分类模型的鲁棒性；尤其适合基于大数据进行训练、学习，能够很好地发挥出其的优点。

Description

基于深度学习网络的视角无关性行为识别方法

技术领域

本发明计算机视觉技术领域，特别是指一种基于深度学习网络的视角无关性行为识别方法。

背景技术

随着信息技术的飞速发展，计算机视觉伴随着VR、AR以及人工智能等概念的出现迎来了最好的发展时期，作为计算机视觉领域最重要的视频行为分析也越来越受到国内外学者的青睐。视频监控、人机交互、医疗看护、视频检索等一系列的领域中，视频行为分析占据了很大的比重。例如现在比较流行的无人驾驶汽车项目，视频行为分析非常具有挑战性。由于人体动作的复杂性和多样性的特点，再加上多个视角下人体自遮挡、多尺度以及视角旋转、平移等因素的影响，使得视频行为识别的难度非常大。如何能够精确地识别实际生活中多个角度下人体行为，并对人体行为进行分析，一直都是非常重要的研究课题，并且社会对行为分析的要求也越来越高。

传统的研究方法包含以下几种：

基于时空特征点：对提取到的视频帧图像提取其中的时空特征点，然后时空特征点建模、分析，最后进行分类。

基于人体骨架：通过算法或者深度相机提取到人体骨架信息，然后通过对骨架信息进行描述、建模，继而对视频行为分类。

基于时空特征点和骨架信息的行为分析方法，在传统单视角下或者单人模式下取得了显著地成果，但是针对现在像大街、机场、车站等行人流量比较大的地区或者人体遮挡、光照变化、视角变换等一系列复杂问题的出现，单纯的使用这两种分析方法在实际生活中效果往往达不到人们的要求，有时算法的鲁棒性也很差。

发明内容

为了解决以上现有技术存在的缺陷，本发明提出一种基于深度学习网络的视角无关性行为识别方法，采用深度学习网络对多视角下的人体行为进行分析，提升分类模型的鲁棒性；尤其深度学习网络适合基于大数据进行训练、学习，能够很好地发挥出其的优点。

本发明的技术方案是这样实现的：

一种基于深度学习网络的视角无关性行为识别方法，包括利用训练样本集获得分类器的训练过程及利用分类器识别测试样本的识别过程；

所述训练过程包括以下步骤：

S1)将某一视角下的视频帧图像Image 1到Image i按照时间顺序进行输入；

S2)对步骤S1)输入的图像采用CNN(Convolutional Neural Network，卷积神经网络)进行底层特征提取并对其进行池化，将池化后的底层特征采用STN(Spatial TransformNetworks，空间转换网络)进行强化；

S3)对步骤S2)强化后的特征图像(Feature Map)进行池化并输入RNN(RecurrentNeural Network，递归神经网络层)进行时间建模，获得时序关联的立方体模型；

S4)重复步骤S1)至S3)得到多个视角下同一个行为的空间立方体模型，将各视角的空间立方体模型转化为一个视角不变的柱体特征空间映射，并将其作为该类行为的训练样本输入到分类器中进行训练；

S5)重复以上各步骤，得到各种行为的视角无关性分类器；

所述识别过程包括以下步骤：

S6)录入某一视角下的视频帧图像，采用上述步骤S1)至S3)对其进行底层特征提取和建模，得到该视角下的空间立方体模型；

S7)将步骤S6)得到的空间立方体模型转化为一个视角不变的柱体特征空间映射，并将其输入到分类器中进行识别得到视频行为类别。

上述技术方案中，步骤S2)优选采用三层卷积操作来提取底层特征；步骤S2)和步骤S3)优选采用最大池化方法对特征图像进行降维操作。

上述技术方案中，步骤S3)得到的是同一个行为某一个视角下的空间立方体模型，反复操作步骤S1)至S3)得到多个视角下同一个行为的空间立方体模型。

本发明的技术方案中，优选采用LSTM网络(Long-Short Term Memory，简称LSTM)进行时间建模，因为深度学习网络的后向传播过程采用的是随机梯度下降法，采用LSTM中的特殊门操作，可以防止各层的梯度消失问题。

上述技术方案中，步骤S4)具体包括：

S41)重复操作步骤S1)至S3)，得到同一个行为各视角的空间立方体模型，并将其整合到以x，y，z为坐标轴的圆柱体空间中，圆柱体空间表示各视角下运动特征的轨迹描述；

S42)对步骤S41)得到的模型采用公式：

进行极坐标变换，得到角度不变的柱体空间映射。

上述技术方案中，还包括：S0)构建数据集，本发明优选采用IXMAS数据集。

与现有技术相比较，本发明的技术方案有以下不同：

1、使用CNN的方法对底层特征进行特征提取，得到全局的特征而不是传统方法所得到的关键点。

2、使用STN方法对得到的全局特征进行特征强化，而不是对得到的特征直接进行建模。

3、使用LSTM网络对经过强化以及降维操作以后的全局特征进行时间建模，加入重要的时间信息，使其具有时间关联性。

4、使用极坐标变换对同一个行为各视角的空间立方体模型进行坐标变换，得到角度不变的柱体空间映射，再由CNN完成训练和分类识别。

本发明的优点在于：使用CNN的方法得出的是全局高级特征，经过STN的特征强化，对实际生活中的视频具有很好的鲁棒性，然后使用RNN网络建立时间信息，最后经过极坐标变换对多视角中的不同特征进行融合，使用CNN对得到的角度不变的描述符进行训练与分类，而不用使用传统的骨架和关键点提取操作，全局特征得到的特征更全面；RNN网络获得帧间时间信息，使得行为描述地更加完整，适用性更强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明训练过程的流程示意图；

图2为本发明识别过程的流程示意图；

图3为一般人体行为识别流程示意图；

图4为简化的底层特征的提取与建模流程图；

图5为一般CNN的处理流程图；

图6为一般RNN简化结构图；

图7为LSTM框图；

图8为对各个视角进行融合分类的流程图；

图9为图8中的Motion History Volume经过极坐标变换以后的模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1及图2所示，本发明的基于深度学习网络的视角无关性行为识别方法，包括利用训练样本集获得分类器的训练过程及利用分类器识别测试样本的识别过程；

所述训练过程如图1所示，包括以下步骤：

S2)对步骤S1)输入的图像采用CNN进行底层特征提取并对其进行池化，将池化后的底层特征采用STN进行强化；

S3)对步骤S2)强化后的特征图像进行池化并输入RNN进行时间建模，获得时序关联的立方体模型；

S5)重复以上各步骤，得到各种行为的视角无关性分类器。

所述识别过程如图2所示，包括以下步骤：

上述技术方案中，步骤S4)具体包括：

S42)对步骤S41)得到的模型采用公式：

进行极坐标变换，得到角度不变的柱体空间映射。

上述技术方案中，还包括：S0)构建数据集。

本发明优选采用IXMAS数据集，数据集包含五个不同视角、12个人每人14个动作，每个动作重复三次。使用其中的11个人作为训练数据集，剩余的1人作为测试数据集。

具体的，例如要识别“跑步”这个行为，首先采集五种视角下12个人的跑步视频，其中11个人的跑步视频作为训练数据集，剩余1人作为验证数据集。首先将某一个人的一视角下的跑步视频帧图像按照上述步骤S1)至S3)进行操作，最终得到的是该视角下的“跑步”视频行为的时序关联的立方体模型，即在该视角下“跑步”行为的空间立方体模型；然后重复步骤S1)至S3)依次得到其他四种视角下“跑步”行为的空间立方体模型；将以上五种视角下“跑步”行为的空间立方体模型转化为一个视角不变的柱体特征空间映射，并将其作为这个人的“跑步”这种类别行为的训练样本，输入分类器训练；经过多次不同人的训练样本训练后，得到“跑步”行为的视角无关性分类器。同理，可以构建各种视频行为的视角无关性分类器。

当进行识别时，执行上述步骤S6)和S7)，首先将测试样本中的一个人的某一个视角下的视频帧图像按照上述步骤S1)至S3)进行操作，得到该视角下该行为的空间立方体模型，再经过极坐标变换转化为一个柱体特征空间映射，将其输入分类器中识别出行为类别。其他视角的识别过程与此同。

为了更好地理解和阐述本发明的技术方案，以下通过对上述技术方案涉及到的有关技术进行详细讲解和分析。

本发明的方法模型包含两个主要阶段，一是对底层特征提取、建模；第二是对各个视角进行融合、分类，主要的创新工作如下。

人体行为识别一般的流程如图3所示，该图中特征提取与特征表示阶段是行为识别的重点，这一阶段的结果将最终影响识别的精确度，以及算法的鲁棒性，本发明采用了深度学习的方法进行特征提取。

如图4所示为简化的底层特征提取与建模流程图。

本发明的技术方案中，采用的深度学***移、尺度变化、角度变化具有一定的鲁棒性，然后对特征图像(Feature Map)进行池化操作，这里采用的是最大池化方法，然后将经过池化操作的特征图像输入到RNN层中进行时间建模，最后得到带有帧间时间关联性的特征图像序列(Feature Maps Sequences)。

本发明的技术方案采用三层卷积操作来提取底层特征，然后通过最大池化方法对特征进行降维操作。将池化以后的特征图像输入到STN层中对特征进行强化操作，STN网络的功能是能够使得到的特征具有对平移、旋转和尺度变化具有鲁棒性。然后将STN输出的特征图像进行最大池化，再次进行降维处理，然后输入到RNN网络中使其置入时间信息，最后按时间顺序，将得到的Feature Maps组合成空间立方体。本发明中用到的RNN网络为LSTM网络，因为深度学习网络的后向传播过程采用的是随机梯度下降法，采用LSTM中的特殊门操作，可以防止各层的梯度消失问题。

上述技术方案中，CNN是近年来发展起来的发展起来、并引起重视的高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了CNN。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。

本发明的技术方案中就是使用特征映射层，提取视频帧图像中的全局底层特征，而后对底层特征进行更深层次的处理。

CNN的一般化处理流程如图5所示。

本发明的技术方案要使用的层就是在经过卷积以后得到的Feature Map，我们忽略后面的池化和全连接层。CNN得到的是单张图像的特征信息，而要处理的是视频信息，因此需要引入时间信息，所以单纯的使用CNN不能达到处理视频行为的要求。

上述技术方案中，RNN或者叫做循环神经网络是在前馈神经网络(Feed-forwardNeural Networks，简称FNNs)的基础上发展而来。不同于传统的FNNs，RNN引入了定向循环，能够处理那些输入之间前后关联的问题。RNN包含输入单元(Input units)，输入集标记为{x₀，x₁，…，x_t-1，x_t，x_t+1，…}，而输出单元(Output units)的输出集则被标记为{o₀，o₁，…，o_t-1，o_t，o_t+1，…}。RNN还包含隐含单元(Hidden units)，我们将其输出集标记为{s₀，s₁，…，s_t-1，s_t，S_t+1，…}，这些隐含单元完成了最为主要的工作。

如图6所示为一般的RNN简化结构，图6中，有一条单向流动的信息流是从输入单元到达隐含单元的，与此同时另一条单向流动的信息流从隐含单元到达输出单元。在某些情况下，RNN会打破后者的限制，引导信息从输出单元返回隐含单元，这些被称为“BackProjections”，并且隐含层的输入还包括上一隐含层的状态，即隐含层内的节点可以自连也可以互连。因此，在隐含层就实现了时间信息的连接，不需要再额外的考虑时间信息的问题。这也是RNN在处理视频行为特征时的一大优势。因此，一般带有时序信息的处理，在深度学习中都是交给RNN来处理。

在RNN的基础上又发展了一个新的处理时间信息的模型：长段时间记忆(Long-Short Term Memory，简称LSTM)。因为深度学习网络后向传播采用的随机梯度下降法，因此，RNN会出现一种梯度消失的问题，也就是后面时间的节点对于前面时间的节点感知力下降。所以LSTM引入一个核心元素就是Cell。LSTM的大致框图如图7所示。

图8所示为对各个视角进行融合分类的流程图。

按照图4的方法得到多个视角下同一个动作的空间立方体模型，然后将各视角的空间立方体模型整合到以x，y，z为坐标轴的圆柱体空间中，圆柱体空间表示各视角下运动特征的轨迹描述，然后使用数学方法进行极坐标变换，将之转化到r，θ，z坐标轴的空间中，公式如下所示：

然后得到角度不变的柱体空间映射(Invariant Cylinder Space Map)，最后将得到的柱体空间映射输入到分类器中，得到行为类别，这里使用CNN的方式进行分类，区别于SVM分类器，因为CNN最开始是用来分类使用的。图8中的Motion History Volume(运动历史柱)以及经过极坐标变换以后的模型如图9所示。

本发明的技术方案采用深度学习的方法提取到的底层信息比传统方法的时空特征点以及骨架信息更加高级并且骨棒性更好。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习网络的视角无关性行为识别方法，包括利用训练样本集获得分类器的训练过程及利用分类器识别测试样本的识别过程；其特征在于：

所述训练过程包括以下步骤：

S5)对其他不同类别的各种行为重复执行步骤S1)-S4)，得到各种行为对应的视角无关性分类器；

所述识别过程包括以下步骤：

S7)将步骤S6)得到的空间立方体模型转化为一个柱体特征空间映射，并将其输入到分类器中进行识别得到视频行为类别。

2.根据权利要求1所述的基于深度学习网络的视角无关性行为识别方法，其特征在于：

步骤S2)采用三层卷积操作来提取底层特征。

3.根据权利要求2所述的基于深度学习网络的视角无关性行为识别方法，其特征在于：

步骤S2)和步骤S3)采用最大池化方法对特征图像进行降维操作。

4.根据权利要求1所述的基于深度学习网络的视角无关性行为识别方法，其特征在于：

步骤S3)采用LSTM网络进行时间建模。

5.根据权利要求1所述的基于深度学习网络的视角无关性行为识别方法，其特征在于，步骤S4)具体包括：

S41)重复操作步骤S1)至S3)，得到同一个行为各视角的空间立方体模型，并将其整合到以x,y,z为坐标轴的圆柱体空间中，圆柱体空间表示各视角下运动特征的轨迹描述；

S42)对步骤S41)得到的模型采用公式：

进行极坐标变换，得到角度不变的柱体空间映射。

6.根据权利要求1所述的基于深度学习网络的视角无关性行为识别方法，其特征在于，还包括：

S0)构建数据集。