CN112215130B

CN112215130B - 一种基于2.5d/3d混合卷积模型的人体行为识别方法

Info

Publication number: CN112215130B
Application number: CN202011076560.7A
Authority: CN
Inventors: 车翔玖; 刘全乐; 郭帆; 梁郭; 艾欣; 赵孟雪
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2022-08-16
Anticipated expiration: 2040-10-10
Also published as: CN112215130A

Abstract

本发明公开了一种基于2.5D/3D混合卷积模型的人体行为识别方法，构建融合2.5D与3D卷积模块的卷积神经网络架构，并利用公开的人体行为识别数据集进行端到端的预训练，得到初始化网络模型，读取人体行为训练视频，对训练视频进行均等采样与数据增强，利用数据增强后的采样帧拼接构建2.5D图像，将其输入到经过预训练的网络架构进行模型训练，形成识别模型。读取测试集中的人体行为视频，对其进行采样与裁剪，输入到识别模型进行识别，端到端地判断其所属的行为类别。本发明根据2.5D、3D卷积模块可以针对视频帧序列进行有效的时间与空间建模的特点，构建并训练可以准确识别人体行为的神经网络架构。

Description

一种基于2.5D/3D混合卷积模型的人体行为识别方法

技术领域

本发明涉及人工智能与图像处理领域，特别涉及一种基于2.5D/3D混合卷积模型的人体行为识别方法。

背景技术

行为识别是指通过图像处理方面的方法识别视频中人体的动作类别，这一技术可以应用在智能安防、机器人智能陪护、智能教育等多种实际场景。因此，研究人体行为识别方法具有重要的现实意义。

在传统的人体行为识别方法中，通常采取手工定义特征模板，并采用传统图像处理方法提取视频帧中的特征，进而利用特征模板判别人体行为所属类别。

深度学***均结果作为此段视频中包含的人体行为类别。但是，此类方法不具备对人体行为的时间特征进行建模的能力，具有一定的局限性，识别准确率低。

发明内容

为了解决现有技术存在的上述问题，更好地对人体行为视频数据中的时间特征进行建模，本发明提出了一种基于2.5D/3D混合卷积模型的人体行为识别方法。该方法构建2.5D/3D混合的卷积神经网络模型，利用公开的人体行为数据进行预训练，并使用学习到的参数作为模型训练的初始化参数，减少了训练样本的需求量。利用经过采样与增强的视频帧构建2.5D图像，将其输入到混合卷积模型中进行端到端的训练，结合2.5D图像固有的时间特征与3D卷积核的时间学习能力，训练形成具备较强时空特征提取能力与人体行为识别能力的网络架构。

本发明的目的是通过以下技术方案实现的：

一种基于2.5D/3D混合卷积模型的人体行为识别方法，主要包括以下步骤：

步骤1，搭建2.5D/3D混合卷积神经网络模型；

步骤2，读取人体行为数据训练集中的视频数据；

步骤3，针对所述步骤2读取的视频数据进行时间采样与空间增强操作，并进行拼接，得到2.5D图像序列；

步骤4，将所述步骤3中得到的图像序列输入到已通过预训练的神经网络模型中，进行模型训练；

步骤5，读取测试数据集中的人体行为视频数据；

步骤6，将所述步骤5读取的视频数据进行采样、裁剪、拼接，得到2.5D图像序列；

步骤7，将所述步骤6得到的图像序列作为所述步骤4训练得到的模型的输入，得到测试视频中人体行为的所属类别。

进一步地，所述步骤1搭建的2.5D/3D混合卷积神经网络模型由2.5D卷积模块与3D卷积模块共同组成；

其中，2.5D卷积模块由常规2D卷积核针对6通道图片进行卷积操作，该2.5D卷积模块采用7×7卷积层和3×3池化层，以及随后的7个瓶颈残差块构建，最终输出为28×28大小的特征图，并设置每张图像卷积后的最终输出通道数为79，其卷积操作表示为：

式中：ReLU为激活函数，

为第s层第t个特征图中位置(i,j)的输出值，b为偏置量，m表示上一层卷积输出的特征图的数量，P为卷积核的高度，Q为卷积核的宽度，

为第s层第t个特征图对应上一层m个特征图在卷积核(p,q)位置上的权重，v为上一层特征图对应位置的值；

3D卷积模块的结构由8个3×3×3的3D卷积核，1个池化层，1个全连接层组成，其卷积操作表示为：

式中：ReLU为激活函数，

为第s层第t个特征图中位置(i,j,k)的输出值，b为偏置量，m表示上一层卷积输出的特征图的数量，P为卷积核的高度，Q为卷积核的宽度，R为卷积核的时间深度，

为第s层第t个特征图对应上一层m个特征图在卷积核(p,q,r)位置上的权重，v为上一层特征图对应位置的值。

进一步地，所述步骤3具体包括以下过程：

针对每段人体行为视频，首先进行视频帧的时间采样，先抽取第一帧，随后从剩余的帧中随机抽取8帧；

将采样得到的视频帧分别从四个角落以及图像中心进行裁剪，并将数据集增强扩充为原始数据的6倍，即5组视频帧采样序列；

针对裁剪、增强后的采样帧进行数据拼接，将上述各组第一帧的RGB通道直接复制，形成1张6通道图像，代表空间信息，剩下的8帧图像按时间顺序两两拼接，形成4张6通道图像，代表时间推理信息；由此每段视频对应的5组视频帧序列均包含5张6通道2.5D图像。

更进一步地，所述步骤4具体包括以下过程：

将所述步骤3得到的采样、增强的视频帧输入到已通过20BN-something-something Dataset V2数据集预训练完成的混合卷积模型的神经网络模型进行训练。

更进一步地，所述神经网络模型的预训练与训练过程中，均需按所述步骤3构建6通道图像，同时采用5张6通道图像并行输入的模式，输入到网络模型中进行特征提取与识别；在3D卷积模块阶段，将经过2.5D卷积模块输出的特征图变形构建为一组5×79通道特征图，并输入到3D模块进行训练；整个训练过程以端到端的形式进行。

本发明的优点在于，本发明提供的一种基于2.5D/3D混合卷积模型的人体行为识别方法，利用2.5D图像固有的时间属性以及3D卷积核的时间特征学习能力，更好地实现对人体行为特征的提取与识别。

附图说明

图1是本发明提供的一种基于2.5D/3D混合卷积模型的人体行为识别方法流程图。

具体实施方式

本发明的总体构思是，首先搭建2.5D/3D混合卷积神经网络模型，然后针对人体行为视频数据进行均等采样与数据增强，并利用采样与增强的视频帧构建2.5D图像，最后将构建的2.5D图像输入到经过预训练的混合卷积神经网络架构中进行模型训练，从而形成具备较强时空行为特征提取与识别能力的神经网络模型。

下面结合附图对本发明实施例提供的一种基于2.5D/3D混合卷积模型的人体行为识别方法进行详细描述。

参阅图1，本发明实施例提供的一种基于2.5D/3D混合卷积模型的人体行为识别方法，包括以下步骤：

步骤S101，搭建2.5D/3D混合卷积神经网络模型。

搭建的2.5D/3D混合卷积神经网络模型由2.5D卷积模块与3D卷积模块共同组成。其中，2.5D卷积模块由常规2D卷积核针对6通道图片进行卷积操作，从而达到为时间序列建模的目的，该2.5D卷积模块采用Resnet50网络头部的7×7卷积层和3×3池化层，以及随后的7个瓶颈残差块构建，最终输出为28×28大小的特征图，并设置每张图像卷积后的最终输出通道数为79，其卷积操作可以表示为：

式中：ReLU为激活函数，

3D卷积模块的结构由8个3×3×3的3D卷积核，1个池化层，1个全连接层组成，其卷积操作可以表示为：

式中：ReLU为激活函数，

步骤S102，读取训练集中的人体行为视频数据。

在本实施例中，训练集由3215段包含人体行为的短视频组成，视频的分辨率为1280×720，时长均为12秒左右，每段视频均进行了人体行为类别标注，共有50种类别。

步骤S103，对训练集中的视频数据进行采样、增强、拼接。

首先从时间维度进行帧采样，针对每段视频采样9帧，即抽取第一帧，并从剩余的帧中随机抽取8帧；

随后从空间维度进行数据增强，将采样得到的视频帧分别从四个角落以及图像中心进行裁剪，裁剪的长、宽比例均为原始图像的79％，随后调整大小至224×224，实现将数据集增强扩充为原始数据的6倍，即5组视频帧采样序列；

针对裁剪、增强后的采样帧进行数据拼接，将上述各组第一帧的RGB通道直接复制，形成1张6通道图像，代表空间信息，剩下的8帧图像按时间顺序两两拼接，形成4张6通道图像，代表时间推理信息，由此每段视频对应的5组视频帧序列均包含5张6通道2.5D图像。

步骤S104，利用步骤S103生成的图像序列针对步骤S101搭建的2.5D/3D混合卷积神经网络模型进行训练，得到识别模型。

在本实施例中，需要事先针对步骤S101搭建的2.5D/3D混合卷积神经网络模型进行预训练，模型预训练阶段采用的数据集为TwentyBN公司发布的20BN-something-something Dataset V2，数据集包括220,847段视频，主要内容为人体行为、人物交互等。预训练完成之后，利用S103生成的图像序列对模型进行进一步训练。

步骤S105，读取测试集中的人体行为视频数据。

在本实施例中，测试集由990段包含人体行为的短视频组成，视频的分辨率为1280×720，时长均为12秒左右。

步骤S106，对测试集中的数据进行采样与拼接。

在本实施例中，针对每段视频，首先从时间维度进行采样，即抽取第一帧，并从剩余的帧中随机抽取8帧。随后从每帧图像的中心向四条边进行裁剪，使裁剪之后图像的长、宽比例均为原始图像的79％，并调整大小至224×224。

针对经过采样与裁剪的视频帧进行拼接，将第一帧的RGB通道直接复制，形成1张6通道图像，代表空间信息，剩下的8帧图像按时间顺序两两拼接，形成4张6通道图像，代表时间推理信息，由此构成5张6通道2.5D图像。

步骤S107，将拼接的2.5D图像输入到步骤S104的模型中进行识别，得到视频中的人体行为所属类别。

虽然参考优选实施例对本发明进行描述，但所述实例仅用于对本发明进行详细阐述，并不构成本发明保护范围的限定，任何在本发明的精神以及原则内的修改，等同替换和改进等，均应包含在本发明的权利要求保护范围内。

Claims

1.一种基于2.5D/3D混合卷积模型的人体行为识别方法，其特征在于，包括以下步骤：

步骤1，搭建2.5D/3D混合卷积神经网络模型：

搭建的2.5D/3D混合卷积神经网络模型由2.5D卷积模块与3D卷积模块共同组成；

式中：ReLU为激活函数，

式中：ReLU为激活函数，

为第s层第t个特征图对应上一层m个特征图在卷积核(p,q,r)位置上的权重，v为上一层特征图对应位置的值；步骤2，读取人体行为数据训练集中的视频数据；

步骤3，针对所述步骤2读取的视频数据进行时间采样与空间增强操作，并进行拼接，得到2.5D图像序列；所述步骤3具体包括以下过程：

针对裁剪、增强后的采样帧进行数据拼接，将上述各组第一帧的RGB通道直接复制，形成1张6通道图像，代表空间信息，剩下的8帧图像按时间顺序两两拼接，形成4张6通道图像，代表时间推理信息；由此每段视频对应的5组视频帧序列均包含5张6通道2.5D图像；

步骤5，读取测试数据集中的人体行为视频数据；

针对每段视频，首先从时间维度进行采样，即抽取第一帧，并从剩余的帧中随机抽取8帧；随后从每帧图像的中心向四条边进行裁剪，使裁剪之后图像的长、宽比例均为原始图像的79％，并调整大小至224×224；

针对经过采样与裁剪的视频帧进行拼接，将第一帧的RGB通道直接复制，形成1张6通道图像，代表空间信息，剩下的8帧图像按时间顺序两两拼接，形成4张6通道图像，代表时间推理信息，由此构成5张6通道2.5D图像；

2.如权利要求1所述的一种基于2.5D/3D混合卷积模型的人体行为识别方法，其特征在于，所述步骤4具体包括以下过程：

将所述步骤3得到的采样、增强的视频帧输入到已通过20BN-something-somethingDataset V2数据集预训练完成的混合卷积模型的神经网络模型进行训练。

3.如权利要求2所述的一种基于2.5D/3D混合卷积模型的人体行为识别方法，其特征在于，所述神经网络模型的预训练与训练过程中，均需按所述步骤3构建6通道图像，同时采用5张6通道图像并行输入的模式，输入到网络模型中进行特征提取与识别；在3D卷积模块阶段，将经过2.5D卷积模块输出的特征图变形构建为一组5×79通道特征图，并输入到3D模块进行训练；整个训练过程以端到端的形式进行。