CN109726671A

CN109726671A - 从全局到类别特征表达学习的动作识别方法和***

Info

Publication number: CN109726671A
Application number: CN201811612590.8A
Authority: CN
Inventors: 王延峰; 赵培森; 张娅
Original assignee: Shanghai Jiaotong University
Current assignee: Suzhou Jiaochi Artificial Intelligence Research Institute Co.,Ltd.
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-05-07
Anticipated expiration: 2038-12-27
Also published as: CN109726671B

Abstract

本发明提供一种从全局到类别特征表达学习的动作识别方法和***，对输入的动作视频，使用深度神经网络学习动作数据的全局特征表达并提取特征；通过提取到的全局特征表达，使用特征通道稀疏度来获取类别间的相似度结构关系；对输入的每一类视频动作，使用全卷积深度神经网络学习其相应的类别掩膜；使用得到的类别间相似度结构关系来约束类别掩膜的相似程度；对输入的动作视频，使用深度神经网络学习动作数据的类别特定特征表达并提取相应特征；对提取的全局和类别特定特征进行融合，得到最终具有区分性表达的特征并完成动作的识别。能够对输入的动作视频提取从全局到类别特定的特征表达，进行复杂动作的识别。

Description

从全局到类别特征表达学习的动作识别方法和***

技术领域

本发明涉及计算机视觉技术领域，具体地，涉及一种从全局到类别特征表达学习的动作识别方法和***。

背景技术

近年来，随着计算机视觉的快速发展，现有的相应算法在图像的识别理解方面已经取得了很好的效果。而对于视频模态的数据来说，其相对于其他模态的数据承载着巨大的信息量，在数据的处理和识别的难度上都有着很大的挑战，视频动作行为的识别在计算机视觉的发展中占据重要的地位，如安防监控中异常行为监测，人机的肢体交互对话等。越来越多的具体应用推动着相关计算机视觉算法的不断发展，从而能够解决实际场景中遇到的各种难题。

现阶段的行为识别与理解有着很多的研究方向，如短视频分类任务，长视频动作的检测任务，视频检索任务等。但在处理视频数据时有着相同的技术难点与挑战。实际场景中视频的复杂场景变化往往会引入很多和具体任务本身不相关的噪声信息，图像信息就有着很多冗余信息的特点，在由多帧图像堆叠的视频数据中，其信噪比就显得尤其的低。所以对这种时空数据的特征学习与提取就成为了大家研究的热点与挑战。针对这种低信噪比的时空数据，现有的技术往往聚焦于视频特征本身的学习表达上，它们一般结合图像与运动信息来对动作视频进行特征表达，往往忽略了所需识别的动作类别本身的结构关系。

专利文献CN106845329A公开了一种基于深度卷积特征多通道金字塔池化的动作识别方法,该方法将单帧视频的表观特征和多帧的视频运动特征结合起来，使用空间金字塔的结构获取特征图在不同尺度下的局部信息，最终使用支持向量机进行特征分类。但是在学习特征表达的时候没有考虑到不同动作类别的类别结构关系。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种从全局到类别特征表达学习的动作识别方法和***。

根据本发明提供的一种从全局到类别特征表达学习的动作识别方法，包括：

全局特征提取步骤：对输入的动作视频，使用深度神经网络学习动作视频中的动作数据，提取得到全局特征表达；

类别结构关系获取步骤：通过提取到的全局特征表达，利用每个类别特征通道稀疏度之间的相似关系，获取各类别间的相似度结构关系；

类别特征掩膜获取步骤：对输入的每一类动作数据，使用全卷积深度神经网络学习所述动作数据对应的类别掩膜；

类别正则约束步骤：在学习类别掩膜的过程中，使用得到的各类别间的相似度结构关系对类别掩膜的相似程度进行约束；

类别特定特征提取步骤：对输入的动作视频，使用深度神经网络学习动作数据，提取类别特征，得到类别特征表达。

特征融合步骤：对提取的全局特征表达和类别特征表达进行融合，得到最终具有区分性的区别特征表达，以完成动作识别。

优选地，所述全局特征提取步骤中，全局特征表达的提取网络为2D和3D的组合卷积网络，在网络浅层使用2D卷积核，以节省计算和储存开销，在网络深层使用3D卷积核，以建模时间序列关系。

优选地所述类别结构关系获取步骤中，类别特征通道稀疏度为数值在0到1之间的向量，以刻画输入深度神经网络的动作数据在不同通道上的响应强度；统计每个类别下所有样本的平均类别特征通道稀疏度，通过类别间通道稀疏度的关系来获取类别间的相似度结构关系。

优选地所述类别结构关系获取步骤中，将全局特征表达定义为一个4维度的张量，所述4维度分别为C通道轴，T时间轴，H特征图高，W特征图宽；

对于每一个特征通道k，用下式计算对应通道的特征稀疏度：

Ξ^k＝1-Q^k

其中Ξ^k为对应通道k的通道相似度，Q^k为通道k所对应的特征图上非零特征的响应比例；将所有通道的特征稀疏度组合起来，得到一个特征稀疏度向量Ξ，以表达样本在不同通道下的响应程度；统计每个类别下所有样本稀疏度向量的均值，得到对应类别的平均通道稀疏度Ξ_c，下标c表示对应的类别；

使用距离度量函数来度量不同类别的通道稀疏度距离，得到两种类别的通道稀疏度，所用公式如下：

s_i，j＝1-dist(Ξ_i，Ξ_j)

其中s_i,j为类别i和j的通道相似度，dist(,)为归一化的距离度量函数，距离最近为0，最远为1；利用每类动作两两之间的通道相似度s_i,j得到通道稀疏度相似矩阵S＝[s_i,j],i，j＝1，2，…，M，其中M为动作类别数；

通过通道稀疏度相似矩阵S指导类别特征掩膜获取步骤以及类别正则约束步骤。

优选地，所述类别特征掩膜获取步骤中，在训练时，使用动作类别标签信息作为监督信息来训练全卷积神经网络，得到类别特征掩膜，特征掩膜是输入动作视频的动作类别在时空特征上所关注的区域；在测试时，对于每一个输入的动作数据使用学习到的特征掩膜，来筛选类别特定特征。

优选地，所述类别正则约束步骤中，

全卷积网络的参数为W_C×M，其中C为通道数，M为动作类别数，记ω_i为W_C×M参数矩阵中的第i列，表示第i类动作从通道特征维度到该类别的映射参数，定义参数类别相似度矩阵如下：

其中s(ω_i，ω_j)为第i类类别参数与第j类类别参数之间归一化的相似度函数，最相似为1，最不相似为0；

对通道稀疏度相似矩阵S设定阈值，将S进行二值化得到类别相似度矩阵CSM，在CSM中1表示对应的量类别为易混淆类别，0为不易混淆类别，根据CSM设定易混淆类别的筛选矩阵Mask，如下式：

Mask＝CSM-E

其中E为单位矩阵，将筛选矩阵Mask作用于参数类别相似度矩阵S_w，得到类别正则约束项，如下式：

w_regular＝S_w⊙Mask

其中w_regular为类别正则项，⊙为哈德马积，将类别正则项加入到损失函数中，在最小化损失函数的优化过程中，正则项可以约束易混淆类别之间的相似程度，将特征掩膜的解空间约束在一个相对有区分性的空间中。

优选地，所述类别特征掩膜获取步骤，具体如下：

对于从全局特征提取步骤得到的全局特征图张量N×C×T×H×W，其中N为批样本中的样本数，C为通道数，T为时间轴，H为特征图高，W为特征图宽，使用大小为1×1×1的3D卷积核进行全卷积操作得到特征图张量N×M×T×H×W，其中M为动作类别数，对所得特征图进行池化操作得到张量N×M，在训练过程中利用类别监督信息使用交叉熵损失函数训练全卷积网络的参数，得到每类动作类别的特征掩膜；在训练和测试阶段，对于任意一个输入的样本，通过全局特征提取步骤后可以得到一个类别的分类结果，利用CSM找到所分类别的其他易混淆类别，叠加其易混淆类别的特征掩膜，得到最终的特征掩膜。

优选地，所述类别特定特征提取步骤中，类别特定特征提取网络为2D和3D的组合卷积网络。在网络浅层使用2D卷积核，以节省计算和储存开销，在网络深层使用3D卷积核，以建模时间序列关系，利用所述特征掩膜进行筛选类别特定特征。

优选地，所述特征融合步骤中，特征融合步骤将全局特征与类别特定特征进行融合，利用全局特征与类别特定特征按照设定比例加权融合，作为最终的动作视频的特征表达，以识别动作。

根据本发明提供的一种从全局到类别特征表达学习的动作识别***，包括：

全局特征提取模块：对输入的动作视频，使用深度神经网络学习动作视频中的动作数据，提取得到全局特征表达；

类别结构关系获取模块：通过提取到的全局特征表达，利用每个类别特征通道稀疏度之间的相似关系，获取各类别间的相似度结构关系；

类别正则约束模块：在学习类别掩膜的过程中，使用得到的各类别间的相似度结构关系对类别掩膜的相似程度进行约束；

类别特定特征提取模块：对输入的动作视频，使用深度神经网络学习动作数据，提取类别特征，得到类别特征表达。

特征融合模块：对提取的全局特征表达和类别特征表达进行融合，得到最终具有区分性的区别特征表达，以完成动作识别。

与现有技术相比，本发明具有如下的有益效果：

本发明对输入的视频动作利用类别间的结构关系学习类别特征掩膜从而能够对输入的动作视频提取从全局到类别特定的特征表达，进行复杂动作的识别。

进一步的，本发明中类别特征掩膜获取模块能够学习到每种类别的动作所关注的时空特征区域，并利用这种类别特征掩膜来筛选出具有区分性的类别特定特征，融合了这种有区分性表达的特征后可以提升动作分类的准确度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的框架示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明是一种从全局到类别特定特征表达学习的复杂动作识别方法，利用类别间的结构关系与类别正则的约束学习类别特征掩膜，从而能够对输入的动作视频提取具有区分性的类别特定特征，融合全局特征与类别特定特征从而能够进行复杂动作的识别。

具体的，所述方法包括如下步骤：

全局特征提取步骤：对输入的动作视频，使用深度神经网络学习动作数据的全局特征表达并提取特征；

类别结构关系获取步骤：通过提取到的全局特征表达，利用每个类别特征通道稀疏度之间的相似关系来获取类别间的相似度结构关系；

类别特征掩膜获取步骤：对输入的每一类视频动作，使用全卷积深度神经网络学习其相应的类别掩膜；

类别正则约束步骤：在学习类别特征掩膜的过程中，使用得到的类别间相似度结构关系来约束类别掩膜的相似程度；

类别特定特征提取步骤：对输入的动作视频，使用深度神经网络学习动作数据的类别特定特征表达并提取相应特征。

特征融合步骤：对提取的全局和类别特定特征进行融合，得到最终具有区分性表达的特征并完成动作的识别。

对应于上述方法，本发明还提供一种从全局到类别特定特征表达学习的复杂动作识别***的实施例，包括：

全局特征提取模块：对输入的动作视频，使用深度神经网络学习动作数据的全局特征表达并提取特征；

类别结构关系获取模块：通过提取到的全局特征表达，利用每个类别特征通道稀疏度之间的相似关系来获取类别间的相似度结构关系；

类别特征掩膜获取模块：对输入的每一类视频动作，使用全卷积深度神经网络学习其相应的类别掩膜；

类别正则约束模块：在学习类别特征掩膜的过程中，使用得到的类别间相似度结构关系来约束类别掩膜的相似程度；

类别特定特征提取模块：对输入的动作视频，使用深度神经网络学习动作数据的类别特定特征表达并提取相应特征。

特征融合模块：对提取的全局和类别特定特征进行融合，得到最终具有区分性表达的特征并完成动作的识别。

上述从全局到类别特定特征表达学习的复杂动作识别***各个模块实现的技术特征可以与上述从全局到类别特定特征表达学习的复杂动作识别方法中对应步骤实现的技术特征相同。

以下对各个步骤和模块的具体实现进行详细的描述，以便理解本发明技术方案。

在本发明部分实施例中，所述全局特征提取步骤，其中：全局特征的提取网络为2D和3D的组合卷积网络。在网络浅层使用2D卷积核，能够节省计算和储存开销，在网络深层使用3D卷积核，能够建模时间序列关系。利用所述神经网络结构可以提取动作视频的全局特征。

在本发明部分实施例中，所述类别结构关系获取步骤，其中：类别通道稀疏度为数值在0到1之间的向量，用来刻画输入神经网络的视频动作数据在不同通道上的响应强度。统计每个类别下所有样本的平均通道稀疏度，通过类别间通道稀疏度的关系来获取类别间的相似度结构关系。

在本发明部分实施例中，所述类别特征掩膜获取步骤，其中：在训练时，使用动作类别标签信息作为监督信息来训练全卷积神经网络，得到类别特征掩膜。特征掩膜为对应输入视频的动作类别在时空特征上所关注的区域。在测试时，对于每一个输入的动作视频数据使用学习到的特征掩膜，来筛选类别特定特征。

在本发明部分实施例中，所述类别正则约束步骤，其中：在学习类别特征掩膜的过程中，使用得到的类别间相似度结构关系来约束类别掩膜的相似程度，从而使得每类类别的特征掩膜具有一定的区分性。

在本发明部分实施例中，所述类别特定特征提取步骤，其中：类别特定特征提取网络为2D和3D的组合卷积网络。在网络浅层使用2D卷积核，能够节省计算和储存开销，在网络深层使用3D卷积核，能够建模时间序列关系。利用权利要求7所述特征掩膜进行筛选类别特定特征。

在本发明部分实施例中，所述特征融合步骤，其中：特征融合步骤将全局特征与类别特定特征进行融合。利用全局特征的宏观表达能力与类别特定特征的区分性能力按照一定比例加权融合，作为最终的动作视频的特征表达用于复杂动作的识别任务。

具体地，全局特征提取模块、类别结构关系获取模块、类别特征掩膜获取模块、类别正则约束模块、类别特定特征提取模块和特征融合模块组成的复杂动作识别***网络框架如图1所示，整个***框架能够端到端地进行训练。

在如图1所示的实施例的***框架中，利用全局特征提取模块提取到的视频特征可以被看作是一个4维的张量，4个维度分别为C通道轴，T时间轴，H特征图高，W特征图宽。对于每一个特征图的通道k来说我们可以用下式计算对应通道的特征稀疏度：

Ξ^k＝1-Q^k

其中Ξ^k为对应通道k的通道相似度，Q^k为通道k所对应的特征图上非零特征响应的比例。将所有通道的特征稀疏度组合起来可以得到一个特征稀疏度向量Ξ，用来表达这一样本在不同通道下的响应程度。统计每个类别下所有样本稀疏度向量的均值，得到对应类别的平均通道稀疏度Ξ_c，下标c表示对应的类别。

使用距离度量函数来度量不同类别的通道稀疏度距离，从而进一步得到两种类别的通道稀疏度，所用公式如下：

s_i，j＝1-dist(Ξ_i，Ξ_j)

其中s_i，j为类别i和j的通道相似度，dist(,)为归一化的距离度量函数，距离最近为0最远为1。利用每类动作两两之间的通道相似度s_i,j可以得到通道稀疏度相似矩阵S＝[s_i,j],i,j＝1,2,…,M，其中M为动作类别数。

通过上述类别结构关系获取模块得到的通道稀疏度相似矩阵S可以指导类别特征掩膜获取模块以及类别正则约束模块。

如图1所示，类别特征掩膜获取模块中，全卷积网络的参数为W_C×M，其中C为通道数，M为动作类别数，记ω_i为W_C×M参数矩阵中的第i列，表示第i类动作从通道特征维度到该类别的映射参数。定义参数类别相似度矩阵如下：

其中s(ω_i，ω_j)为第i类类别参数与第j类类别参数之间归一化的相似度函数，最相似为1最不相似为0。

对通道稀疏度相似矩阵S设定阈值，将S进行二值化得到类别相似度矩阵CSM，在CSM中1表示对应的量类别为易混淆类别，0为不易混淆类别。根据CSM设定易混淆类别的筛选矩阵Mask，如下式：

Mask＝CSM-E

其中E为单位矩阵。将筛选矩阵Mask作用于参数类别相似度矩阵S_w，得到类别正则约束项，如下式：

w_regular＝S_w⊙Mask

其中w_regular为类别正则项，⊙为哈德马积。将类别正则项加入到损失函数中，在最小化损失函数的优化过程中，正则项可以约束易混淆类别之间的相似程度，将特征掩膜的解空间约束在一个相对有区分性的空间中。

对于从全局特征提取模块得到的全局特征图张量N×C×T×H×W，其中N为批样本中的样本数，C为通道数，T为时间轴，H为特征图高，W为特征图宽。使用大小为1×1×1的3D卷积核对其进行全卷积操作得到特征图张量N×M×T×H×W，其中M为动作类别数。对所得特征图进行池化操作得到张量N×M，在训练过程中利用类别监督信息使用交叉熵损失函数训练全卷积网络的参数，从而得到每类动作类别的特征掩膜。在训练和测试阶段，对于任意一个输入的样本，通过全局特征提取模块后可以得到一个类别的分类结果，利用类别相似度矩阵CSM找到所分类别的其他易混淆类别，叠加其易混淆类别的特征掩膜，得到最终的特征掩膜。

综上，本发明通过全局特征提取得到每类视频动作的特征，并根据这种特征信息获取到动作类别的结构关系。基于这种类别间的结构关系以及全卷积网络参数之间的相似度度量，从而设计一种类别正则项来约束学习类别特征掩膜，最终综合每类动作类别易混淆的其他类别来筛选出类别特定特征。此外通过融合全局特征与类别特定特征从而可以提升视频动作分类的准确度。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的***、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种从全局到类别特征表达学习的动作识别方法，其特征在于，包括：

2.根据权利要求1所述的从全局到类别特征表达学习的动作识别方法，其特征在于，所述全局特征提取步骤中，全局特征表达的提取网络为2D和3D的组合卷积网络，在网络浅层使用2D卷积核，以节省计算和储存开销，在网络深层使用3D卷积核，以建模时间序列关系。

3.根据权利要求1所述的从全局到类别特征表达学***均类别特征通道稀疏度，通过类别间通道稀疏度的关系来获取类别间的相似度结构关系。

4.根据权利要求3所述的从全局到类别特征表达学习的动作识别方法，其特征在于，所述类别结构关系获取步骤中，将全局特征表达定义为一个4维度的张量，所述4维度分别为C通道轴，T时间轴，H特征图高，W特征图宽；

对于每一个特征通道k，用下式计算对应通道的特征稀疏度：

Ξ^k＝1-Q^k

s_i，j＝1-dist(Ξ_i，Ξ_j)

其中s_i，j为类别i和j的通道相似度，dist(，)为归一化的距离度量函数，距离最近为0，最远为1；利用每类动作两两之间的通道相似度s_i，j得到通道稀疏度相似矩阵S＝[s_i，j]，i，j＝1，2，...，M，其中M为动作类别数；

5.根据权利要求1所述的从全局到类别特征表达学习的动作识别方法，其特征在于，所述类别特征掩膜获取步骤中，在训练时，使用动作类别标签信息作为监督信息来训练全卷积神经网络，得到类别特征掩膜，特征掩膜是输入动作视频的动作类别在时空特征上所关注的区域；在测试时，对于每一个输入的动作数据使用学习到的特征掩膜，来筛选类别特定特征。

6.根据权利要求1所述的从全局到类别特征表达学习的动作识别方法，其特征在于，所述类别正则约束步骤中，

Mask＝CSM-E

w_regular＝S_w⊙Mask

7.根据权利要求6所述的从全局到类别特征表达学习的动作识别方法，其特征在于，所述类别特征掩膜获取步骤中，对于从全局特征提取步骤得到的全局特征图张量N×C×T×H×W，其中N为批样本中的样本数，C为通道数，T为时间轴，H为特征图高，W为特征图宽，使用大小为1×1×1的3D卷积核进行全卷积操作得到特征图张量N×M×T×H×W，其中M为动作类别数，对所得特征图进行池化操作得到张量N×M，在训练过程中利用类别监督信息使用交叉熵损失函数训练全卷积网络的参数，得到每类动作类别的特征掩膜；在训练和测试阶段，对于任意一个输入的样本，通过全局特征提取步骤后可以得到一个类别的分类结果，利用CSM找到所分类别的其他易混淆类别，叠加其易混淆类别的特征掩膜，得到最终的特征掩膜。

8.根据权利要求1所述的从全局到类别特征表达学习的动作识别方法，其特征在于，所述类别特定特征提取步骤中，类别特定特征提取网络为2D和3D的组合卷积网络。在网络浅层使用2D卷积核，以节省计算和储存开销，在网络深层使用3D卷积核，以建模时间序列关系，利用所述特征掩膜进行筛选类别特定特征。

9.根据权利要求1所述的从全局到类别特征表达学习的动作识别方法，其特征在于，所述特征融合步骤中，特征融合步骤将全局特征与类别特定特征进行融合，利用全局特征与类别特定特征按照设定比例加权融合，作为最终的动作视频的特征表达，以识别动作。

10.一种从全局到类别特征表达学习的动作识别***，其特征在于，包括：