CN111401207B

CN111401207B - 基于mars深度特征提取与增强的人体动作识别方法

Info

Publication number: CN111401207B
Application number: CN202010166751.6A
Authority: CN
Inventors: 柯逍; 柯力
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2022-07-08
Anticipated expiration: 2040-03-11
Also published as: CN111401207A

Abstract

本发明涉及一种基于MARS深度特征提取与增强的人体动作识别方法，包括以下步骤：S1：从空间和时间两个维度构建基于深层神经网络的三维残差变换模型；S2：采用基于特征的损失和标准的交叉熵损失的线性组合来训练该模型；S3：采用去噪融合算法消除视频数据中的噪声；S4：采用图像旋转方法模拟摄像头的移动和旋转，以模拟实际真实场景中的人体动作识别场景；S5：通过马赛克遮挡算法处理人体动作识别真实场景中的遮挡；S6：使用目标伸缩变换方法提升真实场景中人体目标尺寸的多样性，以使模型不断学习新的数据集；S7：利用训练及优化后的三维残差变换模型进行人体动作识别。该方法有利于提高人体动作识别的准确率和鲁棒性。

Description

基于MARS深度特征提取与增强的人体动作识别方法

技术领域

本发明涉及模式识别与计算机视觉领域，特别是一种基于MARS深度特征提取与增强的人体动作识别方法。

背景技术

近几年，计算机视觉和机器学习的飞速发展，视频分析任务已经从推断当前的状态转变为预测未来状态。基于视频的人体动作识别和预测就是这样的任务，其中动作识别是基于完整的动作执行来推断人类动作的当前状态，动作预测基于不完整的动作执行来预测人类动作的未来状态。由于这两项任务在现实世界中***性地出现，例如智能安防视频监视、人机交互、虚拟现实和医疗监护等领域，因此成为热门的研究方向。

但是，基于深度特征提取的人体动作识别存在如下问题：1)在实际场景下，异常动作发生频率很低，数据收集和标注困难，即无论是常规动作还是异常动作都存在多样且复杂的特点，进而导致类别内的多样性较高和在真实场景下，特别在安防领域，基于深度学习的人体动作识别遇到了较大的挑战。2)在深度特征的提取上，传统的人体动作特征提取模型无法精确并且完整的提取特征信息。在复杂场景下，受到遮挡和摄像头角度等情况的影响，传统的特征提取模型能力弱，算法鲁棒性还需要提升。

发明内容

本发明的目的在于提供一种基于MARS深度特征提取与增强的人体动作识别方法，该方法有利于提高人体动作识别的准确率和鲁棒性。

为实现上述目的，本发明采用的技术方案是：一种基于MARS深度特征提取与增强的人体动作识别方法，包括以下步骤：

步骤S1：从空间和时间两个维度构建基于深层神经网络的三维残差变换模型；

步骤S2：采用基于特征的损失和标准的交叉熵损失的线性组合来训练所述三维残差变换模型；

步骤S3：采用基于峰值信噪比的去噪融合算法消除人体动作识别视频数据中的噪声，以提高模型的准确率和鲁棒性；

步骤S4：采用笛卡尔坐标系的图像旋转方法模拟摄像头的移动和旋转，以模拟在实际真实场景中的人体动作识别场景；

步骤S5：通过基于自学习的马赛克遮挡算法处理人体动作识别真实场景中的遮挡；

步骤S6：使用目标伸缩变换方法提升真实场景中人体目标尺寸的多样性，以使模型不断学习新的数据集，得到经过训练及优化后的三维残差变换模型；

步骤S7：利用训练及优化后的三维残差变换模型对待识别的视频数据进行人体动作识别。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：从RGB动作流和光流两个维度提升深度特征，构成空间和时间维度特征信息集特征，并遵循VGG/ResNets采用高度模块化构建基于深层神经网络的三维残差变换模型；该网络由一堆剩余块组成，该些剩余块具有相同的拓扑结构，且遵循两个规则：第一，如果生成相同大小的空间图，则该些块共享相同的超参数；第二，每次将空间网络下采样2倍时，块的宽度乘以2倍；

步骤S12：基于所述两个规则，构建一个模块，即相应地确定网络中的所有模块，完成空间和时间维度的模型构建。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：第一个由RGB流输入产生的模拟流特征的训练策略即为动作模拟RGB流，即MERS；采用一种紧靠MERS的最终完全连接层输出的损失来模拟之前流的输出；MERS的结构和输入与具有三维卷积的标准RGB流相似，但其目标是降低这些特征之间的均方的误差损失L_MERS：

L_MERS＝||fc_MERS-fc_Flow||²

其中，fc_MERS表示MERS的特征，fc_Flow表示光流的特征；在网络的倒数第二层应用这个损失函数以使最后一层的MERS没有训练；

步骤S22：利用具有交叉熵损失的光流分块对流进行训练以完成对动作进行分类，并冻结其权重；为了使用RGB帧模拟流特征，首先将均方的误差损失反向传播到除最后一层外的所有MERS层，然后分别训练最后一层具有交叉熵损失的MERS；

步骤S23：为了利用网络的外观信息增强这种训练，通过在整个网络中反向传播MSE和交叉熵损失的线性组合来训练网络，即使用以下损失函数L_MARS训练增强动作RGB流，即MARS：

其中，CrossEntropy

表示交叉熵的值，S_MARS表示类的预测分数，

是正确的分类标签，α是调节运动特征影响的标量权重，fc_MARS表示MARS的特征，fc_Flow表示光流的特征。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：采用领域平均法进行均值滤波，首先在图像上对目标像素给出一个模板，然后用模板中的全体像素的平均值来代替原图像的像素值，其计算公式如下：

其中，g(u,v)表示经过处理后图像在点(u,v)上的像素值，K表示该模板中包含当前像素在内的像素总个数，h(u,v)表示处理前图像下点(u,v)上的像素值；

步骤S32：采用高斯滤波消除高斯噪声，具体方法为：对整张图像进行加权平均，对于其中每一个像素点的值是从邻域内的其他像素值和其本身像素值通过加权平均计算得到；中值滤波采用一个5×5的模板，逐次将模板中心对应于图像的每个像素上，当前的像素值由模板图像覆盖的像素值提供；双边滤波采用加权平均的方法，用周边像素亮度值的加权平均代表某个像素值的大小；

步骤S33：采用峰值信噪比作为去噪算法评估的标准，其计算公式为：

其中，PSNR表示图像的峰值信噪比，f为输入的原始图像，

表示去噪后的图像，M和N分别表示图像的行数和列数，m和n表示参数；

步骤S34：利用上述几种去噪算法组成一个算法集合，记做T＝{t₁,t₂,···,t_l}，t_l表示第l种去噪算法；首先从待去噪的图像数据集中遍历选取一张图像，然后遍历去噪算法集合，之后用基于峰值信噪比的去噪评估标准选出一个对这张图像最好的去噪算法，假设该去噪算法为t₁，并记住计算得出的信噪比改善因子的值R；在此基础上，遍历排除掉t₁的去噪算法集合，如果遍历的其余去噪算法中得到R的值大于原来的，则更新R，否则不更新，如此循环，直到算法集合遍历完，则完成一张图像的去噪；最后，遍历整个待去噪的图像数据集。

进一步地，在笛卡尔坐标系中，假设点

与原点的距离为r，与横坐标轴形成的夹角为b；以顺时针旋转a度，旋转之后的坐标为

则可以得到如下公式：

图像经过旋转之后，相对于原图像，旋转之后的图像在长和宽都会发生变化；假设数据是已标注的识别的位置信息，则需要重新计算旋转之后的位置。

进一步地，所述步骤S5中，采用马赛克遮挡算法将一张图像分割成蜂窝状，并且采用正六边形的中心点像素值来填充整个正六变形；把画布分割成长和宽为

比例大小的矩阵，采用所有矩形的阵点坐标来进行索引，画布的左上角坐标为(0,0)，并把该坐标设为起始点，则得到画布的右下角坐标为(width,height)，其中，width表示画布的宽，height表示画布的长；基于小矩形四个点的坐标信息，即可类推出画布中所有点的坐标位置信息；当找到一个矩形框之后，只要判断它属于哪个六边形即可；使用找到的六边形的中心点像素来代替该点像素值；用这样的方法，遍历画布上的每一个点，即完成马赛克的效果；所述马赛克遮挡算法的具体实现方法为：首先获取原始视频的长度和宽度，接着通过该大小和相关比例自适应确定马赛克遮挡框的尺寸和数量；最后利用图像融合算法，将马赛克图像融入到原始图像中；在融合的位置，采用随机法选取法。

进一步地，所述步骤S6中，首先获取原始图像的长度L_o和宽度W_o，然后对L_o和W_o进行操作，操作方式为：长不变，宽伸缩n_o倍，当n_o大于1时，则为扩大，反之，为缩小；宽不变，长伸缩m_o倍，当m_o大于1时，则为扩大，反之，为缩小；长伸缩m_o倍，宽伸缩n_o倍，当m_o＝n_o时，则为放大或者缩小；

图经过伸缩变换算法处理之后，会使得要识别的目标被拉伸、收缩、放大或者缩小一定的倍数，其计算公式如下：

其中，s₁、s₂和s₃分别为X轴、Y轴和Z轴的缩放比例。

相较于现有技术，本发明具有以下有益效果：提供了一种基于MARS深度特征提取与增强的人体动作识别方法，该方法解决了传统动作识别模型存在特征提取能力弱和针对安防场景下存在异常动作发生频率低、数据收集和标注困难等问题，可以有效的提高人体动作识别的准确率和鲁棒性，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的方法实现流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明提供了一种基于MARS深度特征提取与增强的人体动作识别方法，如图1所示，包括以下步骤：

步骤S1：从空间和时间两个维度构建基于深层神经网络的三维残差变换模型。具体包括以下步骤：

步骤S11：从RGB动作流和光流两个维度提升深度特征，构成空间和时间维度特征信息集特征，并遵循VGG/ResNets采用高度模块化构建基于深层神经网络的三维残差变换模型；该网络由一堆剩余块组成，该些剩余块具有相同的拓扑结构，且遵循两个规则：第一，如果生成相同大小的空间图，则该些块共享相同的超参数；第二，每次将空间网络下采样2倍时，块的宽度乘以2倍；；第二条规则可确保计算复杂度，让其在浮点运算中，对于所有块而言大致相同。

步骤S12：基于所述两个规则，只需构建一个模块，即可相应地确定网络中的所有模块，完成空间和时间维度的模型构建。因此，这两个规则极大地缩小了设计空间；人工神经网络中最简单的神经元执行内积(加权总和)，这是由完全连接的卷积层完成的基本转换；内在网络可以看作是聚合转化的一种形式：

其中，D表示通道总数，参数i表示第i通道，x_i表示第i通道的输入向量，w_i是第i通道的过滤器权重；该操作(通常包括一些输出非线性)被称为神经元。

考虑使用更通用的函数代替基本变换w_ix_i，该函数本身也可以是网络；神经元网络是沿着新的维度扩展；因此，将汇总的转换表示为：

其中：C表示通道的输入向量，j表示第j通道，表示T_j(y)可以是任意函数，y表示输入向量；类似于简单的神经元，T_j应将y投射到(可选为低维)嵌入中，然后对其进行转换。

步骤S2：采用基于特征的损失和标准的交叉熵损失的线性组合来训练所述三维残差变换模型。体包括以下步骤：

步骤S21：第一个由RGB流输入产生的模拟流特征的训练策略即为动作模拟RGB流，即MERS(Motion Emulating RGB Stream)，是通过在特征级别使用一个损失函数来实现的，卷积神经网络的初始层代表低层的局部特征信息，而后面的层代表的是高层的全局特征；对于相关任务来说，这些特征具有高度的区分性；采用一种紧靠MERS的最终完全连接层输出的损失来模拟之前流的输出；MERS的结构和输入与具有三维卷积的标准RGB流相似，但其目标是降低这些特征之间的均方的误差损失L_MERS：

L_MERS＝||fc_MERS-fc_Flow||²

其中，fc_MERS表示MERS的特征，fc_Flow表示光流的特征；在网络的倒数第二层应用这个损失函数以使最后一层的MERS没有训练.

步骤S22：利用具有交叉熵损失的光流分块对流进行训练以完成对动作进行分类，并冻结其权重；为了使用RGB帧模拟流特征，首先将均方的误差损失反向传播到除最后一层外的所有MERS层，然后分别训练最后一层具有交叉熵损失的MERS。

其中，CrossEntropy

表示交叉熵的值，S_MARS表示类的预测分数，

是正确的分类标签，α是调节运动特征影响的标量权重，fc_MARS表示MARS的特征，fc_Flow表示光流的特征。较小的α值使MARS类似于标准RGB流，较大的α值使MARS更接近模拟流的MERS；使用这种组合损失可以确保模拟特征和流特征之间的差异导致交叉熵的降低，即更高的分类精度。

步骤S3：采用基于峰值信噪比的去噪融合算法消除人体动作识别视频数据中的噪声，以提高模型的准确率和鲁棒性。具体包括以下步骤：

其中，g(u,v)表示经过处理后图像在点(u,v)上的像素值，K表示该模板中包含当前像素在内的像素总个数，h(u,v)表示处理前图像下点(u,v)上的像素值。

步骤S32：采用高斯滤波消除高斯噪声，具体方法为：对整张图像进行加权平均，对于其中每一个像素点的值是从邻域内的其他像素值和其本身像素值通过加权平均计算得到；中值滤波采用一个5×5的模板，逐次将模板中心对应于图像的每个像素上，当前的像素值由模板图像覆盖的像素值提供；上述的几种的滤波都属于线性滤波器，而双边滤波是一种非线性滤波，其实现原理是采用加权平均的方法，用周边像素亮度值的加权平均代表某个像素值的大小。

其中，PSNR表示图像的峰值信噪比，f为输入的原始图像，

表示去噪后的图像，M和N分别表示图像的行数和列数，m和n表示参数。评估的指标则是峰值信噪比越大，说明去噪效果越好。

步骤S4：采用笛卡尔坐标系的图像旋转方法模拟摄像头的移动和旋转，以模拟在实际真实场景中的人体动作识别场景。

图像旋转是指以图像的某一点为中心进行旋转一定的角度得到一张全新的旋转图像的过程，图像旋转又分为笛卡尔坐标系和极坐标系旋转，因为笛卡尔坐标系在真实场景中应用较广，所以主要采用直角坐标系实现图像的旋转。

在笛卡尔坐标系中，假设点

则可以得到如下公式：

步骤S5：通过基于自学习的马赛克遮挡算法处理人体动作识别真实场景中的遮挡。

具体地，采用马赛克遮挡算法将一张图像分割成蜂窝状，并且采用正六边形的中心点像素值来填充整个正六变形；把画布分割成长和宽为

比例大小的矩阵，采用所有矩形的阵点坐标来进行索引，画布的左上角坐标为(0,0)，并把该坐标设为起始点，则得到画布的右下角坐标为(width,height)，其中，width表示画布的宽，height表示画布的长；基于小矩形四个点的坐标信息，即可类推出画布中所有点的坐标位置信息；当找到一个矩形框之后，只要判断它属于哪个六边形即可；使用找到的六边形的中心点像素来代替该点像素值；用这样的方法，遍历画布上的每一个点，即完成马赛克的效果；所述马赛克遮挡算法的具体实现方法为：首先获取原始视频的长度和宽度，接着通过该大小和相关比例自适应确定马赛克遮挡框的尺寸和数量；最后利用图像融合算法，将马赛克图像融入到原始图像中；在融合的位置，因为现实场景中遮挡的位置都具有不确定性，所以采用随机法选取法。

步骤S6：使用目标伸缩变换方法提升真实场景中人体目标尺寸的多样性，以使模型不断学习新的数据集，得到经过训练及优化后的三维残差变换模型。

具体地，首先获取原始图像的长度L_o和宽度W_o，然后对L_o和W_o进行操作，操作方式为：长不变，宽伸缩n_o倍，当n_o大于1时，则为扩大，反之，为缩小；宽不变，长伸缩m_o倍，当m_o大于1时，则为扩大，反之，为缩小；长伸缩m_o倍，宽伸缩n_o倍，当m_o＝n_o时，则为放大或者缩小；

其中，s₁、s₂和s₃分别为X轴、Y轴和Z轴的缩放比例。目标伸缩变换方法可以较好的模拟目标的尺寸变化，在安防场景下，是一种有效的增强算法。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于MARS深度特征提取与增强的人体动作识别方法，其特征在于，包括以下步骤：

步骤S3：采用基于峰值信噪比的去噪融合算法消除人体动作识别视频数据中的噪声；

步骤S7：利用训练及优化后的三维残差变换模型对待识别的视频数据进行人体动作识别；

所述步骤S1具体包括以下步骤：

步骤S12：基于所述两个规则，构建一个模块，即相应地确定网络中的所有模块，完成空间和时间维度的模型构建；

所述步骤S2具体包括以下步骤：

L_MERS＝||fc_MERS-fc_Flow||²

其中，

表示交叉熵的值，S_MARS表示类的预测分数，

2.根据权利要求1所述的基于MARS深度特征提取与增强的人体动作识别方法，其特征在于，所述步骤S3具体包括以下步骤：

其中，PSNR表示图像的峰值信噪比，f为输入的原始图像，

步骤S34：利用l种去噪算法组成一个算法集合，记做T＝{t₁,t₂,···,t_l}，t_l表示第l种去噪算法；首先从待去噪的图像数据集中遍历选取一张图像，然后遍历去噪算法集合，之后用基于峰值信噪比的去噪评估标准选出一个对这张图像最好的去噪算法，假设该去噪算法为t₁，并记住计算得出的信噪比改善因子的值R；在此基础上，遍历排除掉t₁的去噪算法集合，如果遍历的其余去噪算法中得到R的值大于原来的，则更新R，否则不更新，如此循环，直到算法集合遍历完，则完成一张图像的去噪；最后，遍历整个待去噪的图像数据集。

3.根据权利要求1所述的基于MARS深度特征提取与增强的人体动作识别方法，其特征在于，在笛卡尔坐标系中，假设点

则得到如下公式：

4.根据权利要求1所述的基于MARS深度特征提取与增强的人体动作识别方法，其特征在于，所述步骤S5中，采用马赛克遮挡算法将一张图像分割成蜂窝状，并且采用正六边形的中心点像素值来填充整个正六变形；把画布分割成长和宽为

比例大小的矩阵，采用所有矩形的阵点坐标来进行索引，画布的左上角坐标为(0,0)，并把该坐标设为起始点，则得到画布的右下角坐标为(width,height)，其中，width表示画布的宽，height表示画布的长；基于小矩形四个点的坐标信息，类推出画布中所有点的坐标位置信息；当找到一个矩形框之后，只要判断它属于哪个六边形；使用找到的六边形的中心点像素来代替该点像素值；用这样的方法，遍历画布上的每一个点，即完成马赛克的效果；所述马赛克遮挡算法的具体实现方法为：首先获取原始视频的长度和宽度，接着通过该大小和相关比例自适应确定马赛克遮挡框的尺寸和数量；最后利用图像融合算法，将马赛克图像融入到原始图像中；在融合的位置，采用随机法选取法。

5.根据权利要求1所述的基于MARS深度特征提取与增强的人体动作识别方法，其特征在于，所述步骤S6中，首先获取原始图像的长度L_o和宽度W_o，然后对L_o和W_o进行操作，操作方式为：长不变，宽伸缩n_o倍，当n_o大于1时，则为扩大，反之，为缩小；宽不变，长伸缩m_o倍，当m_o大于1时，则为扩大，反之，为缩小；长伸缩m_o倍，宽伸缩n_o倍，当m_o＝n_o时，则为放大或者缩小；

其中，s₁、s₂和s₃分别为X轴、Y轴和Z轴的缩放比例。