CN115797827A

CN115797827A - 一种基于双流网络架构的ViT的人体行为识别方法

Info

Publication number: CN115797827A
Application number: CN202211446673.0A
Authority: CN
Inventors: 袁家斌; 邰爱兵; 查可可
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-03-14

Abstract

本发明公开了一种基于双流网络架构的ViT的人体行为识别方法，先对输入视频进行预处理，得到场景图像和稀疏采样后的图像，然后通过处理后的图像，计算出相对应图像的光流图像，然后分别建立空间特征提取网络和时序特征提取网络模型，分别将RGB图像与光流图像输入到网络模型中，训练得到人体行为分类结果，并将两个网络的结果进行加权和得到最终结果。通过上述方式，完成视频的人体行为识别，本发明能够充分利用动作的时序特征辅助图像识别行为动作的发生，通过ViT对时序特征处理的优势，将时序特征的融入，提高了行为识别的准确率。

Description

一种基于双流网络架构的ViT的人体行为识别方法

技术领域

本发明属于计算机视觉技术领域，特别设计一种基于双流网络架构下的ViT的人体行为识别方法。

背景技术

人类行为识别(har)是计算机视觉领域的一个重要课题，因为它在辅助生活、智能监控***、人机交互、计算机游戏和情感计算等领域有着广泛的应用。根据目标应用的不同，动作识别技术可以用来识别全身的行为，也可以用来识别部分身体的手势识别和面部识别。

基于视频的行为识别技术研究在近一段时间由于VisionTranformer架构在视觉领域的引入应用，引起了一阵研究的热潮。这正是由于视频行为识别技术的应该用场景的重要性与广泛性，使得人们对其研究的热度一直居高不下。但是不同于目标识别领域，行为识别除了需要分析目标的空间依赖关系，还需要分析目标在过去时间内的历史变化信息。例如，在监测老年人和儿童时，全身行为识别是必不可少的，而在人机交互中，手势识别***更为合适。由于背景杂乱、部分遮挡、尺度、视点、光线和外观的变化，从视频或图像序列中识别人体动作通常是一项具有挑战性的任务。此外，类内和类间差异很大,同样一个动作，不同人的表现可能有极大的差异，并且时间变化,人在执行动作时的速度变化很大，很难确定动作的起始点，从而在对视频提取特征表示动作时影响最大。

因此如何有效的从视频中获取人体的动作信息特征是提高行为识别算法的性能的重要技术基础。传统的行为识别技术都是先提取手工特征(HOG，HOF，DenseTrajectories等)，然后使用分类器进行分类。但是手工特征的局限性比较大，效果并没有很理想。深度学习方式的行为识别动作特征提取是通过特征提取网络去提取深层次的动作特征，然后进行识别处理。并没有对动作的时序特征进行利用。

发明内容

本发明提供了一种基于双流网络架构的ViT的人体识别方法，以解决现有技术中对动作时序特征融入人体行为识别方法，提高识别准确率的问题。

为了实现上述目的，本发明采用以下技术方案：

一种基于双流网络架构的ViT的人体行为识别方法，包括以下步骤：

步骤1：对输入视频进行预处理，将视频流数据转变为图像RGB帧以及TVL1光流图像；

步骤2：分别建立图像RGB帧和TVL1光流图像的特征提取模型；

步骤3：通过对RGB帧和TVL1光流图像的特征进行Softmax分类，并将多帧之间的结果进行加权和得到结果；

步骤4：输入对应视频数据，经过前面预处理之后的获取视频对应的RGB帧与对应光流图像，并输入已训练好的双流ViT模型中，得到分类结果。

进一步的，所述步骤1的具体步骤为：

步骤11：将视频通过工具抽取成为帧图像；

步骤12：利用TSN提出的稀疏采样方法对输入视频进行采样，将视频的帧集合平均分成N段，从每个视频段中随机抽取1帧，同时利用opencv对图像进行TVL1光流计算，得到对应的x，y光流图，并同样进行分段抽帧；

步骤13：将得到的图像进行裁剪成224×224，并同时做数据加强处理。

进一步的，所述步骤2的具体步骤为：

步骤21：选择使用Resnet50+ViT-B/16的复合网络识别模型，在ImageNet21K上的进行了预训练；

步骤22：光流网络与RGB图像网络两个分开训练，RGB图像网络主要获取视频动作的空间的特征，光流网络主要获取视频动作的时序特征。同时由于光流图片是单通道的数据，RGB图像是三通道的数据，所以光流网络的部分的前置卷积会更改为双通道适应光流图像的输入。

进一步的，所述步骤3的具体步骤为：

步骤31：给定一个视频V，结合步骤1中对视频数据的处理，将其平均分成K段，K个视频段记做{S₁,S₂,S₃,…,S_K}，每个视频的识别的结果R(T₁,T₂,T₃,…,T_K)表示为：

R(T₁,T₂,T₃,…,T_K)＝F(H(H(T₁,W),G(T₂,W),…,G(T_K,W)))

其中：(T₁,T₂,T₃,…,T_K)是一个片段序列，所述片段序列是从相应的S_K视频段中随机抽样的每个帧T_K；G(T_K,W)是代表参数为W的识别模型对T_K帧在所有类别中的识别结果；函数H是用来组合多个帧的输出结果，函数H选择了avg函数，求其在每个类别上的平均值，F函数是预测整个视频的结果的预测函数，本专利是用Softmax函数与分类交叉熵损失函数相结合训练模型，loss损失函数L(m,R)则表示为：

其中：C为动作的分类数量，i和j是其中的一个具体的类别，m_i为每一个视频对应的分类标签i，R_i和R_j是每一个视频在相应类别上的识别结果；

步骤32：给定一个视频V，结合步骤1中对视频数据的处理，将其平均分成K段，K个视频段记做{S₁,S₂,S₃,…,S_K}，每个视频的识别的结果R(T_x1,y1,T_x2,y2,T_x3,y3,…,T_xK,yK)表示为：

R(T_x1,y1,T_x2,y2,T_x3,y3,…,T_xK,yK)＝F(H(G(T_x1,y1,W),G(T_x2,y2,W),…,G(T_xK,yK,W)))

其中：(T_x1,y1,T_x2,y2,T_x3,y3,…,T_xK,yK)是一个片段序列，所述片段序列是从相应的S_K视频段中随机抽样的每个帧T_K对应的向x,y方向上的光流图像；G(T_xK,yK,W)是代表参数为W的识别模型对T_K帧x,y方向上的光流在所有类别中的识别结果；函数H是用来组合多个帧的输出结果，函数H选择了avg函数，求其在每个类别上的平均值，F函数是预测整个视频的结果的预测函数，本专利是用Softmax函数与分类交叉熵损失函数相结合训练模型，loss损失函数L(m,R)则表示为：

其中：C为动作的分类数量，i和j是其中的一个具体的类别，m_i为每一个视频对应的分类标签i，R_i和R_j是每一个视频在相应类别上的识别结果，

步骤33：将视频输入网络之后，分别获得到RGB网络与光流网络的各自的分类结果权值，最后将两个网络结果相结合的时候会将两个网络的结果进行加权结合，得到预测结果。

与现有技术相比，本发明具有以下有益效果：

本发明的基于双流网络架构的ViT的人体识别方法，先对输入视频进行预处理，得到场景图像和稀疏采样后的图像，然后通过处理后的图像，计算出相对应图像的光流图像，然后分别建立空间特征提取网络和时序特征提取网络模型，分别将RGB图像与光流图像输入到网络模型中，训练得到人体行为分类结果，并将两个网络的结果进行加权和得到最终结果。通过上述方式，完成视频的人体行为识别，本发明能够充分利用动作的时序特征辅助图像识别行为动作的发生，通过ViT对时序特征处理的优势，将时序特征的融入，提高了行为识别的准确率。

附图说明

图1为本发明的流程图；

图2为双流网络架构的ViT的人体行为识别网络模型图；

图3为双流网络架构的ViT网络结构图。

具体实施方式

下面结合实施例对本发明作更进一步的说明。

实施例1

如图1所示，一种基于双流网络架构的ViT的人体识别方法，包括以下步骤：

步骤2：分别建立图像RGB帧和TVL1光流图像的特征提取模型；

本实施例1中所述步骤1具体为：

将视频中所有图像划分为单张的图像帧，根据帧数进行平均分割成N个片段，从每个片段中随机抽取一帧，完成稀疏随机采样，在划分的图像帧上同时使用OpenCV去计算TVL1光流图像，同样使用随机抽样的方法，从每个段中随机抽取x,y方向的光流图像；

预处理后的图像均使用中心裁剪，将大小放缩为224×224。

本实施例1中所述步骤2具体为：

21、选择使用Resnet50+ViT-B/16的复合网络识别模型，在ImageNet21K上的进行了预训练

22、光流网络与RGB图像网络两个分开训练，RGB图像网络主要获取视频动作的空间的特征，光流网络主要获取视频动作的时序特征。

本实施例中所述步骤3具体为：

31、给定一个视频V，结合步骤一种对视频数据的处理，将其平均分成K段{S₁,S₂,S₃,…,S_K},每个视频的识别的结果可以表示为：

R(T₁,T₂,T₃,…,T_K)＝F(H(G(T₁,W),G(T₂,W),…,G(T_K,W)))

这里(T₁,T₂,T₃,…,T_k)是一个片段序列，是从相应的S_k视频段中随机抽样的每个帧T_k。G(T_k,W)是代表参数为W的识别模型对H帧在所有类别中的识别结果。函数T是用来组合多个帧的输出结果，本专利选择了avg函数，求其在每个类别上的平均值，F函数是预测整个视频的结果的预测函数，本专利是用来Softmax函数与分类交叉熵损失函数相结合训练模型，loss损失函数则表现为：

其中C为动作的分类数量，y_i为每一个视频对应的标签。

32、以上是图像RGB的过程，光流网络的识别的过程与之类似，最后将两个网络结果相结合的时候会将两个网络的结果进行加权结合，得到预测结果。

具体的讲：基于双流网络架构下的ViT的人体识别模型，采用的Resnet50与ViT-B/16的复合模型，本发明在模型中使用的Vision Transformer Hybrid的识别模型，不同于经典的Vision Transformer模型，是直接将图像映射成token进行输入提取特征后进行识别，在Hybrid模型中图像会先经过ResNet网络进行特征提取，并将提取后的特征进行展平，并经过Linear层映射成Transformer架构要求输入的Token大小的特征向量，即Hybrid模型中向Vision Transformer中输入的是Resnet网络提取的特征图。

网络中卷积使用的权重标准化卷积，并且将ResNet50中的Stage4中的3个Block块移入到了Stage3中。视频的多帧输入会使得输入的BatchSize变小，在BatchSize较小的情况BN层的归一化并不如Group Norm层起到的效果好，所以在Hrbrid模型中的Resnet网络使用了GN层去对单帧的多通道特征归一化处理，提高识别能力。同时为了模型的泛化能力，还在模型中加入了数据增加模块，通过是图像的上下翻转，左右翻转，提高模型的识别效果。

模型的训练过程与测试如图2所示，分别训练空间特征提取网络与时间特征提取网络，将每个视频所抽取的图像帧输入进入网络中，得到每一个帧的在所有行为分类中的分类结果，最后再将多帧结果进行的avg求平均，输入到Softmax选择器中，得到最后的分类结果。反向传播，随机梯度更新，最后得到收敛后的模型。

模型测试时，是同时将视频对应的图像帧与光流帧输入对应的空间特征提取网络与时间特征提取网络，将两个网络的结果在最后进行加权求和，将空间网络结果和时间网络结果进行1:1的相加之后再放入Softmax选择器中，最后得到预测结果。

本实施例1中所述步骤4具体为：

输入对应视频数据，经过前面预处理之后的获取视频对应的RGB帧与对应光流图像，并输入已训练好的双流ViT模型中，得到分类结果。

本发明是一种基于双流网络架构的ViT的人体行为识别方法，能够完成视频多任务的内容识别，充分利用动作的时序特征借助ViT模型对时序数据处理的优势辅助RGB空间特征完成行为识别任务，提高了行为识别准确率。

实施例2

一种基于双流网络架构的ViT的人体行为识别方法，其特征在于，包括以下步骤：

所述步骤1的具体步骤为：

步骤11：将视频通过工具抽取成为帧图像；

步骤2：分别建立图像RGB帧和TVL1光流图像的特征提取模型；

所述步骤2的具体步骤为：

所述步骤3的具体步骤为：

R(T₁,T₂,T₃,…,T_K)＝F(H(G(T₁,W),G(T₂,W),…,G(T_K,W)))

其中：(T₁,T₂,T₃,…,T_K)是一个片段序列，所述片段序列是从相应的S_K视频段中随机抽样的每个帧T_K；G(T_K,W)是代表参数为W的识别模型对T_K帧在所有类别中的识别结果；函数H是用来组合多个帧的输出结果，函数H选择了avg函数，求其在每个类别上的平均值，F函数是预测整个视频的结果的预测函数，本实施例2是用Softmax函数与分类交叉熵损失函数相结合训练模型，loss损失函数L(m,R)则表示为：

其中：(T_x1,y1,T_x2,y2,T_x3,y3,…,T_xK,yK)是一个片段序列，所述片段序列是从相应的S_K视频段中随机抽样的每个帧T_K对应的向x,y方向上的光流图像；G(T_xK,yK,W)是代表参数为W的识别模型对T_K帧x,y方向上的光流在所有类别中的识别结果；函数H是用来组合多个帧的输出结果，函数H选择了avg函数，求其在每个类别上的平均值，F函数是预测整个视频的结果的预测函数，本实施例2是用Softmax函数与分类交叉熵损失函数相结合训练模型，loss损失函数L(m,R)则表示为：

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于双流网络架构的ViT的人体行为识别方法，其特征在于，包括以下步骤：

步骤2：分别建立图像RGB帧和TVL1光流图像的特征提取模型；

2.根据权利要求1所述的基于双流网络架构的ViT的人体行为识别方法，其特征在于，所述步骤1的具体步骤为：

步骤11：将视频通过工具抽取成为帧图像；

3.根据权利要求1所述的基于双流网络架构的ViT的人体行为识别方法，其特征在于，所述步骤2的具体步骤为：

4.根据权利要求1所述的基于双流网络架构的ViT的人体行为识别方法，其特征在于，所述步骤3的具体步骤为：

步骤31：给定一个视频V，结合步骤1中对视频数据的处理，将其平均分成K段，K个视频段记做{S₁，S₂，S₃，...，S_K}，每个视频的识别的结果R(T₁，T₂，T₃，…，T_K)表示为：

R(T₁，T₂，T₃，…，T_K)＝F(H(G(T₁，W)，G(T₂，W)，…，G(T_K，W)))

其中：(T₁，T₂，T₃，...，T_K)是一个片段序列，所述片段序列是从相应的S_K视频段中随机抽样的每个帧T_K；G(T_K，W)是代表参数为W的识别模型对T_K帧在所有类别中的识别结果；函数H是用来组合多个帧的输出结果，函数H选择了avg函数，求其在每个类别上的平均值，F函数是预测整个视频的结果的预测函数，用Softmax函数与分类交叉熵损失函数相结合训练模型，loss损失函数L(m，R)则表示为：

步骤32：给定一个视频V，结合步骤1中对视频数据的处理，将其平均分成K段，K个视频段记做{S₁，S₂，S₃，...，S_K}，每个视频的识别的结果R(T_x1，y1，T_x2，y2，T_x3，y3，…，T_xK，yK)表示为：

R(T_x1，y1，T_x2，y2，T_x3，y3，…，T_xK，yK)＝F(H(G(T_x1，y1，W)，G(T_x2，y2，W)，…，G(T_xK，yK，W)))

其中：(T_x1，y1，T_x2，y2，T_x3，y3，…，T_xK，yK)是一个片段序列，所述片段序列是从相应的S_K视频段中随机抽样的每个帧T_K对应的向x，y方向上的光流图像；G(T_xK，yK，W)是代表参数为W的识别模型对T_K帧x，y方向上的光流在所有类别中的识别结果；函数H是用来组合多个帧的输出结果，函数H选择了avg函数，求其在每个类别上的平均值，F函数是预测整个视频的结果的预测函数，用Softmax函数与分类交叉熵损失函数相结合训练模型，loss损失函数L(m，R)则表示为：