CN116580453A

CN116580453A - 一种基于空间和时序双通道融合模型的人体行为识别方法

Info

Publication number: CN116580453A
Application number: CN202310463831.1A
Authority: CN
Inventors: 王宇华; 焦培元; 徐悦竹; 刘世友
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-08-11

Abstract

本发明公开了一种基于空间和时序双通道融合模型的人体行为识别方法，构建融合ER3D模型和Space‑TimeTransformer模型的深度学习网络架构，并通过对公开人体行为识别数据集进行端到端的预训练，得到初始化网络，接着读取人体行为训练视频，对训练视频做固定间隔采样和数据增强，将数据增强后的视频帧送入经过预训练的网络架构进行训练，生成人体行为识别模型。在测试阶段，读取测试集中的人体行为视频，对其进行采样和裁剪后送入训练好的识别模型进行识别，整个过程实现端到端的检测视频中的人体行为。本发明根据ER3D模型和Space‑TimeTransformer模型可以分别对视频帧中包含的空间信息和时序信息有效建模的特点，从而构建并训练出一种可以准确识别人体行为的深度学习网络架构。

Description

一种基于空间和时序双通道融合模型的人体行为识别方法

技术领域

本发明属于行为识别技术领域，具体涉及一种基于空间和时序双通道融合模型的人体行为识别方法。

背景技术

人体行为识别旨在理解人类的行为，主要研究的是从视频图像中判断出目标处于何种行为，并为每个行为分配一个标签，例如常见的走、坐、躺、跑、跳等行为，在计算机视觉中是一个极具吸引力及挑战性的任务。人体行为识别作为一个新兴的前沿研究领域，涉及到模式识别，图像处理，目标检测，深度学习等多门学科，并且它可以广泛应用于许多领域，如：智能监控、信息检索、人机交互等等。

传统的方法采用手动对视频特征提取，然后对提取到的特征进行特征编码，使用相应的分类器进行分类，手工制作特性既耗时又费力，不适用于所有类型的数据集，且难以扩展和部署。随着深度学习的发展，人们尝试让计算机从视频中提取信息，基于深度学习的方法能够从原始数据中自动学习特征，然后将学习到的特征送入模型训练，从而实现对输入视频的高效分类和识别。

但在实际应用中仍然有很多的难点，首先就是行为识别姿态的多样性。每个人穿的衣服不同，不同的相机处于不同的视角拍到的角度也不同，而且每个人动作的时间跨度也不一样，拿物品的方式也不同，此外，遮挡也给行为识别带来了非常大的挑战。关键性行为的界限同样具有不确定性，比如擦嘴和喝水，这两个动作有很强的混淆作用，站在不同的角度会带来许多错误的判断。

发明内容

为了解决现有技术存在的上述问题，更好地对人体行为视频数据中的空间信息和时序信息进行建模，本发明提出了一种基于空间和时序双通道融合模型的人体行为识别方法。该方法构建融合ER3D模型和Space-Time Transformer模型的深度学习网络架构，利用公开数据集进行预训练，对训练视频做固定间隔采样和数据增强，将数据增强后的视频帧送入经过预训练的网络架构进行训练，生成人体行为识别模型。融合模型能够以较高的准确率对视频中的人体行为进行识别分类，且整个过程实现端到端的检测视频中的人体行为。

本发明所采用的具体技术方案如下：

一种基于空间和时序双通道融合模型的人体行为识别方法，主要包括以下步骤：

步骤1、搭建空间和时序双通道融合模型；

步骤2、读取人体行为数据训练集中的视频数据；

步骤3、针对所述步骤2读取的视频数据进行固定间隔采样与数据增强操作，得到视频帧序列；

步骤4、将所述步骤3中得到的视频帧序列输入到已通过预训练的空间和时序双通道融合模型中，进行模型训练；

步骤5、读取测试数据集中的人体行为视频数据；

步骤6、将所述步骤5读取的视频数据进行采样、裁剪，得到视频帧序列；

步骤7、将所述步骤6得到的5组视频帧序列依次作为所述步骤4训练完成后模型的输入，平均每次预测的结果得到测试视频中人体行为的所属类别。

进一步地，所述步骤1搭建的空间和时序双通道融合模型由ER3D模型和Space-Time Transformer模型共同组成；

其中，ER3D模型对传统的残差网络ResNet-52进行优化和改进，使用深度可分离卷积和反向瓶颈结构来减少模型的计算参数量，增加基础通道数和卷积核尺寸，同时减少了激活函数和归一化层的使用，接着把卷积核的尺寸从二维扩展到三维以适应视频数据。最后输出特征尺寸为1×768，损失函数选择了在多分类任务中经常使用的交叉熵损失函数，其表达式为：

式中N代表样本数量，C表示类别个数，表示第i个样本的标记值，当该样本属于类别c时为1，否则为0，/>表示模型将第i个样本预测为类别c的概率；

Space-Time Transformer模型采用Vision Transformer作为特征提取的主干网络，提出顺序分块和压缩分块两种视频帧分块方式，并使用多头注意力机制提取视频帧之间的时序动作特征。最后用于分类的特征向量尺寸为1×768，Space-Time Transformer模型中注意力机制的运算过程为：

式中Q、K、V这三个向量是由对输入序列特征编码后和三个参数可学习矩阵相乘得到的结果，l＝1,2,…,L表示编码器的个数，a＝1,2,…,A表示多头注意力机制中头的个数，D_h＝D/A表示多头注意力机制中每个头的维度，K_(0,0)和V_(0,0)被单独提出来是因为在经过线性映射生成序列中的第一个位置加上用于分类的Z_(0,0)只参与了一次注意力机制的点积运算。

进一步地，所述步骤3具体包括以下过程：

由于训练集中每段视频的时长不固定，因此需要先从每段视频中随机裁剪出16秒的连续视频片段，接着对16秒的视频片段以每0.5秒抽一帧的方式生成32张视频帧，然后对32张视频帧按照固定间隔d₁＝8和d₂＝4进行采样，采样后保留下的4张视频帧后续会送入SR3D模型，保留下的8张视频帧后续会送入Space-Time Transformer模型。

把固定间隔采样后保留的所有视频帧中的短边长度resize到[256,320]中的一个随机值，长边长度也按相同比例进行缩放，接着从中随机裁剪出尺寸为224×224的图片，为了做数据增广还会再对图片做水平翻转处理。

更进一步地，所述步骤4具体包括以下过程：

将所述步骤3得到经过采样和增强的视频帧输入到已通过UCF101数据集完成预训练的融合模型进行训练。

所述融合模型的预训练与训练过程中，该融合模型的两条通道分别使用ER3D空间特征提取模型和Space-Time Transformer时序特征提取模型，由于两个模型最后提取到用于分类的特征图尺寸相同，都为1×768，因此把两个特征图在经过全连接层前进行特征融合，融合后新的特征图尺寸为1×1536，包含了更全面的视频信息。

本发明的优点在于，本发明提供的一种基于空间和时序双通道融合模型的人体行为识别方法，在全连接层进行分类前将两个通道提取到视频帧的空间特征和时序特征进行融合，利用提取到不同特征之间的互补性，融合不同特征之间的优点，有效提高行为识别准确率。

附图说明

图1是本发明提供的ER3D模型结构图。

图2是本发明提供的Space-Time Transformer模型结构图。

图3是本发明提供的一种基于空间和时序双通道融合模型的结构图。

具体实施方式

下面结合附图和具体实施例对本发明提供的一种基于空间和时序双通道融合模型的人体行为识别方法进行详细说明。

参阅图3，本发明实施例提供的一种基于空间和时序双通道融合模型的人体行为识别方法，包括以下步骤：

步骤1、搭建空间和时序双通道融合模型。

搭建的空间和时序双通道融合模型由ER3D模型和Space-Time Transformer模型共同组成。其中，ER3D模型对传统的残差网络ResNet-52进行优化和改进，使用深度可分离卷积和反向瓶颈结构来减少模型的计算参数量，增加基础通道数和卷积核尺寸，同时减少了激活函数和归一化层的使用，接着把卷积核的尺寸从二维扩展到三维以适应视频数据。最后输出特征尺寸为1×768，损失函数选择了在多分类任务中经常使用的交叉熵损失函数，其表达式为：

步骤2、读取训练集中的人体行为视频数据。

在本实施例中，训练集由400段包含人体行为的短视频组成，视频的分辨率为1080×720，时长均为90秒左右，每段视频均进行了人体行为类别标注，共有20种类别。

步骤3、对训练集中的视频数据进行固定间隔采样与数据增强操作。

步骤4、利用步骤3生成的视频帧序列针对步骤1搭建的空间和时序双通道融合模型进行训练，得到识别模型。

在本实施例中，需要事先针对步骤1搭建的空间和时序双通道融合模型进行预训练，模型预训练阶段使用UCF101数据集，该数据集共有13320个视频片段，主要内容为人与物体交互、人与人交互和仅身体动作等。预训练完成后，利用步骤3生成的视频帧序列对模型进行进一步训练。

步骤5、读取测试集中的人体行为视频数据。

在本实施例中，训练集由100段包含人体行为的短视频组成，视频的分辨率为1080×720，时长均为90秒左右。

步骤6、对测试集中的数据进行采样与裁剪。

在本实施例中，针对每段视频，沿着时间轴均匀采样出5段16秒连续视频片段，接着对视频片段的剩余操作同步骤3。

视频帧的缩放过程同步骤3，接着使用中心裁剪的方式得到尺寸为224×224的图片。

步骤7、将步骤6得到的5组视频帧序列依次作为所述步骤4训练完成后模型的输入，平均每次预测的结果得到视频中人体行为的所属类别。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于空间和时序双通道融合模型的人体行为识别方法，其特征在于，包括以下步骤：

步骤1、搭建空间和时序双通道融合模型：

搭建的空间和时序双通道融合模型由ER3D模型和Space-Time Transformer模型共同组成：

ER3D模型对传统的残差网络ResNet-52进行优化和改进，使用深度可分离卷积和反向瓶颈结构来减少模型的计算参数量，增加基础通道数和卷积核尺寸，同时减少了激活函数和归一化层的使用，接着把卷积核的尺寸从二维扩展到三维以适应视频数据，最后输出特征尺寸为1×768，损失函数选择了在多分类任务中经常使用的交叉熵损失函数，其表达式为：

Space-Time Transformer模型采用Vision Transformer作为特征提取的主干网络，提出顺序分块和压缩分块两种视频帧分块方式，并使用多头注意力机制提取视频帧之间的时序动作特征，最后用于分类的特征向量尺寸为1×768，Space-Time Transformer模型中注意力机制的运算过程为：

式中Q、K、V这三个向量是由对输入序列特征编码后和三个参数可学习矩阵相乘得到的结果，l＝1,2,…,L表示编码器的个数，a＝1,2,…,A表示多头注意力机制中头的个数，D_h＝D/A表示多头注意力机制中每个头的维度，K_(0,0)和V_(0,0)被单独提出来是因为在经过线性映射生成序列中的第一个位置加上用于分类的Z_(0,0)只参与了一次注意力机制的点积运算；

步骤2、读取人体行为数据训练集中的视频数据；

步骤3、针对所述步骤2读取的视频数据进行固定间隔采样与数据增强操作，得到视频帧序列；所述步骤3具体包括以下过程：

由于训练集中每段视频的时长不固定，因此需要先从每段视频中随机裁剪出16秒的连续视频片段，接着对16秒的视频片段以每0.5秒抽一帧的方式生成32张视频帧，然后对32张视频帧按照固定间隔d₁＝8和d₂＝4进行采样，采样后保留下的4张视频帧后续会送入SR3D模型，保留下的8张视频帧后续会送入Space-Time Transformer模型；

把固定间隔采样后保留的所有视频帧中的短边长度resize到[256,320]中的一个随机值，长边长度也按相同比例进行缩放，接着从中随机裁剪出尺寸为224×224的图片，为了做数据增广还会再对图片做水平翻转处理；

步骤5、读取测试数据集中的人体行为视频数据；

步骤6、将所述步骤5读取的视频数据进行采样、裁剪，所述步骤6具体包括以下过程：

对测试数据集中的视频沿着时间轴均匀采样出5段16秒连续视频片段，对视频片段的剩余操作同步骤3；

视频帧的缩放过程同步骤3，接着使用中心裁剪的方式得到尺寸为224×224的图片；

2.如权利要求1所述的一种基于空间和时序双通道融合模型的人体行为识别方法，其特征在于，所述步骤4具体包括以下过程：

3.如权利要求2所述的一种基于空间和时序双通道融合模型的人体行为识别方法，其特征在于，所述融合模型的预训练与训练过程中，该融合模型的两条通道分别使用ER3D空间特征提取模型和Space-Time Transformer时序特征提取模型，由于两个模型最后提取到用于分类的特征图尺寸相同，都为1×768，因此把两个特征图在经过全连接层前进行特征融合，融合后新的特征图尺寸为1×1536，包含了更全面的视频信息。