CN108647591A

CN108647591A - 一种基于视觉-语义特征的视频中行为识别方法和***

Info

Publication number: CN108647591A
Application number: CN201810379626.6A
Authority: CN
Inventors: 李方敏; 尤天宇; 刘新华; 旷海兰; 张韬; 栾悉道; 阳超
Original assignee: Changsha University
Current assignee: Changsha University
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2018-10-12

Abstract

本发明公开了一种基于视觉‑语义特征的视频中行为识别方法，其首先利用三维卷积神经网络提取短期时空视觉特征，避免了使用光流或密集轨迹法带来的高计算复杂度；然后利用基于卷积神经网络的物体检测器提取人和物体的语义和空间位置信息，构造人‑物体空间位置特征并与时空视觉特征进行特征融合，利用额外的语义信息提高视频中交互行为的识别准确率；最后，在提取的具有通用性的短期时空视觉特征的基础上，通过循环神经网络提取特异性的长期行为特征提高行为识别准确率。本发明能够解决现有针对视频的行为识别方法中存在的计算复杂度高、行为识别准确率低、以及无法提取贯穿整个视频时间维度的长期行为特征的技术问题。

Description

一种基于视觉-语义特征的视频中行为识别方法和***

技术领域

本发明计算机视觉技术领域，更具体地，涉及一种基于视觉-语义特征的视频中行为识别方法和***。

背景技术

针对视频数据类型的行为识别问题已经成为计算机视觉领域的一个热门研究领域。目前针对视频中的行为识别，主要有3种方法：光流法、循环神经网络法、以及三维卷积神经网络法。

针对光流法而言，其行为识别的准确率较高，但是因为光流法的计算复杂度高，所以其无法实现计算的实时性；循环神经网络的输入数据主要包括两种：一是使用卷积神经网络提取的单帧图像的特征，这一特征缺少时间域关联信息，导致方法的识别准确率低；二是光流或密集轨迹信息，其与光流法一样，会导致方法的计算复杂度高；对于三维卷积神经网络而言，其输入数据是固定长度的图像序列片段，因此该方法只能够提取通用性的短期时空视觉特征，而不能提取贯穿整个视频时间维度的长期行为特征。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于视觉-语义特征的视频中行为识别方法和***，其目的在于，解决现有针对视频的行为识别方法中存在的计算复杂度高、行为识别准确率低、以及无法提取贯穿整个视频时间维度的长期行为特征的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于视觉-语义特征的视频中行为识别方法，包括以下步骤：

(1)从数据集获取图像序列，对该图像序列进行降采样处理，以得到降采样后的图像序列V＝{v_t},t∈0,1,…,T-1，并将降采样后的图像序列进行切片，以得到N个具有固定长度的图像序列片段，其中T表示图像序列的长度，N表示图像序列片段的数量。

(2)对N个具有固定长度的图像序列片段中的每幅图像进行缩放和裁剪处理，并将N个图像序列片段输入三维卷积神经网络中，以得到N个时空视觉特征向量。

(3)将步骤(1)中得到的每个图像序列片段中选取一幅图像，对该图像进行缩放和裁剪处理，将缩放并裁剪后的图像输入到物体检测器中，以得到物体种类的可信度和位置偏移量，并根据物体种类的可信度和位置偏移量构造人-物体空间位置特征向量。

(4)将步骤(2)中得到的时空视觉特征向量与步骤(3)中得到的人-物体空间位置特征向量进行特征融合。

(5)将步骤(4)特征融合后的特征向量输入循环神经网络，以得到长期行为特征。

(6)利用Softmax分类器对步骤(5)得到的长期行为特征进行分类，以生成对应于每一种行为种类的分类概率。

优选地，将图像序列进行切片具体是采用以下公式：

其中T_c是图像序列片段的帧步长，δ是图像序列片段中图像序列的帧长度，n∈0,1,…N-1，且有T_c＝8,δ＝16。

优选地，使用的三维卷积神经网络是C3D网络，使用的物理检测器是分辨率为300×300的单发多盒检测器。

优选地，其特征在于，将N个图像序列片段输入三维卷积神经网络中，以得到N个时空视觉特征向量的过程具体为，针对每个图像序列片段而言，首先将图像序列片段输入C3D网络，然后使用C3D网络中第五池化层的输出作为短期时空视觉特征，最后将该特征图规整为1个长度为8192的特征向量，其中第五池化层的输出矩阵大小为1×4×4×512。

优选地，步骤(3)具体为，首先，物理检测器根据输入的缩放并裁剪后的图像输出对应于多个边界框的多个输出向量，每个输出向量包括L个物体种类的可信度P＝{pl}、以及位置偏移量[x,y,w,h]，其中l∈0,1,…L-1，L表示物体种类的个数，p_l表示第l个物体种类的可信度；然后对所有边界框对应的输出向量进行合并，以得到多个检测物体的对应多个长度为5的空间位置特征向量[q,x/W_I,y/H_I,w/W_I,h/H_I]，其中q表示检测物体所属物体种类的可信度，x和y分别为检测物体的边界框的横纵坐标，w和h分别为检测物体的边界框的宽和高，W_I和H_I分别为缩放并裁剪后的图像的宽和高；最后，针对所有L个物体种类中的每个物体种类而言，利用其可信度最高的5个检测物体的空间位置特征向量构造一个长度为空间位置特征向量长度×L×5的特征向量。

优选地，步骤(5)中使用的循环神经网络是3层GRU网络，其是由一层全连接层和3层级联GRU层构成，全连接层有4096个神经元，GRU网络的前两层中GRU单元的神经元数量为4096，最后一层中GRU单元的神经元数量为256，前一层GRU单元的输出是后一层GRU单元的输入。

优选地，步骤(5)中使用的循环神经网络是组合GRU网络，其是由3层全连接层和一层GRU层构成，前两层全连接层中有4096个神经元，最后一层全连接层中有512个神经元，GRU层中GRU单元的神经元数量为512。

按照本发明的另一方面，提供了一种基于视觉-语义特征的视频中行为识别***，包括：

第一模块，用于从数据集获取图像序列，对该图像序列进行降采样处理，以得到降采样后的图像序列V＝{v_t},t∈0,1,…,T-1，并将降采样后的图像序列进行切片，以得到N个具有固定长度的图像序列片段，其中T表示图像序列的长度，N表示图像序列片段的数量。

第二模块，用于对N个具有固定长度的图像序列片段中的每幅图像进行缩放和裁剪处理，并将N个图像序列片段输入三维卷积神经网络中，以得到N个时空视觉特征向量。

第三模块，用于将第一模块中得到的每个图像序列片段中选取一幅图像，对该图像进行缩放和裁剪处理，将缩放并裁剪后的图像输入到物体检测器中，以得到物体种类的可信度和位置偏移量，并根据物体种类的可信度和位置偏移量构造人-物体空间位置特征向量。

第四模块，用于将第二模块中得到的时空视觉特征向量与第三模块中得到的人-物体空间位置特征向量进行特征融合。

第五模块，用于将第四模块特征融合后的特征向量输入循环神经网络，以得到长期行为特征。

第六模块，用于利用Softmax分类器对第五模块得到的长期行为特征进行分类，以生成对应于每一种行为种类的分类概率。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明的计算复杂度低，能够保证计算的实时性：由于本发明步骤(2)中使用了三维卷积神经网络提取短期行为特征，避免了使用使用光流法带来的高计算复杂度，实现了快速和高效率的行为识别。

(2)本发明的行为识别准确率高：由于本发明在步骤(3)中构造了人-物体空间位置特征向量，提高了视频中人和物体之间的交互行为的识别准确率。

(3)由于本发明在步骤(5)中使用改进的GRU网络结构基于短期行为特征提取长期行为特征，能够进一步提高识别准确率。

附图说明

图1是本发明方法的步骤(5)中使用的3层GRU网络的示意图。

图2是本发明方法的步骤(5)中使用的组合GRU网络的示意图。

图3是图1、图2中所示的GRU网络与传统单层GRU网络在行为识别准确率方面的比较示意图。

图4是本发明基于视觉-语义特征的视频中行为识别方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出了一种融合人-物体视觉关系的长-短期时空视觉模型(Long-ShortTerm Spatio-Temporal Visual Model with Human-Object Visual Relationship，本发明)，其首先利用三维卷积神经网络提取短期时空视觉特征，避免了使用光流或密集轨迹法带来的高计算复杂度；然后利用基于卷积神经网络的物体检测器提取人和物体的语义和空间位置信息，构造人-物体空间位置特征并与时空视觉特征进行特征融合，利用额外的语义信息提高视频中交互行为的识别准确率；最后，基于融合的短期特征，提出一种改进的循环神经网络提取长期行为特征，即在提取的具有通用性的短期时空视觉特征的基础上，通过循环神经网络提取特异性的长期行为特征提高行为识别的准确率。

如图4所示，本发明基于视觉-语义特征的视频中行为识别方法包括以下步骤：

(1)从数据集获取图像序列，对该图像序列进行降采样处理，以得到降采样后的图像序列V＝{v_t},t∈0,1,…,T-1，其中T表示图像序列的长度，并将降采样后的图像序列进行切片，以得到N个具有固定长度的图像序列片段，其中N表示图像序列片段的数量，具体为5到10之间的整数。

具体而言，本步骤中使用的数据集是从Youtube采集的UCF101行为识别数据集，降采样处理的间隔是5帧。

将图像序列进行切片具体是采用以下公式：

例如，对于长度为32的图像序列而言(即T＝32)，把图像序列切分为3个图像序列片段，每个图像序列片段包含16幅图像，相邻的两个图像序列片段有8幅图像重叠。

(2)对N个具有固定长度的图像序列片段中的每幅图像进行缩放和裁剪处理(例如，缩放并裁剪为112×112的分辨率大小，该分辨率取决于三维卷积神经网络的分辨率大小)，并将N个图像序列片段输入三维卷积神经网络中，以得到N个时空视觉特征向量。

输入三维卷积神经网络中的每个图像序列片段的维度是16×112×112×3。

在本步骤中，使用的三维卷积神经网络是C3D网络，用于提取图像序列片段的时空视觉特征。

本步骤具体为，针对每个图像序列片段而言，首先将图像序列片段输入C3D网络，然后使用C3D网络中第五池化(pool5)层的输出作为短期时空视觉特征(其中第五池化层的输出矩阵大小为1×4×4×512，即512个分辨率为4×4的特征图)，最后将该特征图规整为1个长度为8192的特征向量。

(3)将步骤(1)中得到的每个图像序列片段中选取一幅图像，对该图像进行缩放和裁剪处理(例如，缩放并裁剪为300×300的分辨率大小，该分辨率取决于后续物体检测器的分辨率大小)，将缩放并裁剪后的图像输入到物体检测器中，以得到物体种类的可信度和位置偏移量，并根据物体种类的可信度和位置偏移量构造人-物体空间位置特征向量。

具体而言，本步骤中使用的物理检测器是分辨率为300×300的单发多盒检测器(Single shot multibox detector，简称SSD300)。

本步骤具体为，首先，物理检测器根据输入的缩放并裁剪后的图像输出对应于多个边界框的多个输出向量，每个输出向量包括L个物体种类的可信度P＝{pl}、以及位置偏移量[x,y,w,h]，其中l∈0,1,…L-1，L表示物体种类的个数，p_l表示第l个物体种类的可信度；然后对所有边界框对应的输出向量进行合并(合并过程采用的是非极大值抑制(NonMaximum Suppression，简称NMS)算法)，以得到多个检测物体的对应多个长度为5的空间位置特征向量[q,x/W_I,y/H_I,w/W_I,h/H_I]，其中q表示检测物体所属物体种类的可信度，x和y分别为检测物体的边界框的横纵坐标，w和h分别为检测物体的边界框的宽和高，W_I和H_I分别为缩放并裁剪后的图像的宽和高；最后，针对所有L个物体种类中的每个物体种类而言，利用其可信度最高的5个检测物体的空间位置特征向量构造一个长度为空间位置特征向量长度×L×5的特征向量。由于本步骤中的SSD300能够检测201种物体种类，并且对于每一物体种类选取5个概率最高的物体的特征向量，所以L＝201，即得到长度为5025的特征向量。

具体而言，本步骤的特征融合过程就是将长度为8192的时空视觉特征和长度为5025的人-物体空间位置特征进行拼接，从而合并成为一个长度为13217的特征向量。

本步骤中使用的循环神经网络是门控循环单元(Gated Recurrent Unit，简称GRU)。

本发明提出了2种改进的GRU网络结构，其中外部的方块表示输入的特征向量。对于融合特征，输入的是特征融合后的长度为13217的特征向量。GRU网络随时间输入短期的时空视觉特征并在全部时间尺度下生成长期行为特征。

图1所示是一种3层GRU网络(3-Layer Stacked GRU，简称sGRU)，其是由一层全连接层(Fool connection layer，简称FC)和3层级联GRU层构成，全连接层有4096个神经元，GRU网络的前两层中GRU单元的神经元数量为4096，最后一层中GRU单元的神经元数量为256，前一层GRU单元的输出是后一层GRU单元的输入。本架构的目的是通过增加GRU网络深度，提高网络的学习能力。

经过上述sGRU网络输出后的长期行为特征向量长度是256。

图2所示是一种组合GRU网络(Composite GRU，简称cGRU)，其是由3层全连接层和一层GRU层构成，前两层全连接层中有4096个神经元，最后一层全连接层中有512个神经元，GRU层中GRU单元的神经元数量为512。本架构的目的是前两层全连接层可以对输入特征进行降维，而最后的GRU层能够学习到长期的行为特征。

经过上述cGRU网络输出后的长期行为特征向量长度是512。

本步骤最终得到的输出是概率向量：P_B＝{p_b}，其中b∈0,1,…B-1，B表示行为种类的数量，概率向量中的每一个元素表示对应于每一种行为种类的分类概率。

因为本发明所使用的UCF101数据集中有101个行为种类，所以B＝101，概率向量中最大的元素p_y对应的第y个行为种类即为最终识别的行为种类。

实验结果

测试使用数据集为UCF101行为识别数据集中的视频数据，UCF101数据集中的视频是从YouTube上采集的，共有101个行为种类，13320个视频片段，不仅具有行为种类的多样性，还有摄像机运动、物体姿态、物体大小、拍摄视角、背景和光照等方面的多样性。UCF101中的行为种类可以划分为5大类型：人-物体交互、肢体动作、人-人交互、演奏乐器和体育运动。

(1)识别准确率

识别准确率指的是对于测试集共3783个样本，方法识别正确的样本数占总样本数的比例。测试使用不同的模块组合方式的方法的准确率能够帮助分析各模块对方法性能的影响。各方法的准确率如下表1所示，其中斜体文字表示的方法使用了改进密集轨迹或光流信息。

可以看出，本发明方法相比LSTM复合模型法和C3D方法，准确率分别提高了8.2％和10.2％。相比于其他使用了光流或改进密集轨迹信息的方法，本发明方法仅使用深度神经网络对原始图像序列的特征进行提取，推理速度更快。事实上，改进密集轨迹是一种人工规则构造的特征，基于光流跟踪和图像的梯度直方图，而光流的运算消耗大量的计算资源和时间。2种使用不同的GRU网络结构的方法中，本发明方法取得了最好的性能，超过了使用改进密集轨迹信息的多跳特征堆栈(Multi-skip feature stacking)方法3.4％的准确率。

表1各方法在UCF101数据集上的准确率

(2)GRU网络对方法性能的影响

本节对使用sGRU网络、cGRU网络和单层GRU网络的方法进行实验，其中单层GRU网络用于基准测试，单层GRU网络包含512个神经元，特征向量直接输入GRU网络，是一种基础的循环神经网络结构。

各方法关于GRU网络的准确率对比如图3所示，使用cGRU网络使本发明方法相比使用sGRU网络的方法提高了3.7％的准确率，相比使用单层GRU网络的方法提高了5.5％的准确率。

使用单层GRU网络和sGRU网络的本发明方法在使用人-物体空间位置特征的情况下才达到了其它使用光流或改进密集轨迹信息的方法相近的准确率，说明使用单层GRU网络和sGRU网络提取的长期行为特征的表达能力较差。对于长度过大的特征向量，如特征融合后的长度为13217的特征向量，sGRU网络由于参数量过大，不仅推理和训练速度慢，而且容易造成过拟合。而单层GRU网络由于网络深度过浅，学习性能较差，容易造成欠拟合。cGRU网络使用全连接网络对特征进行降维，再使用GRU网络学习长期的行为特征，由于网络参数量少，不仅推理和训练速度更快，而且不易造成过拟合，准确率更高。

综上，cGRU网络较好地实现了在短期特征的基础上提取长期行为特征的功能。

(3)计算速率

本发明方法与其它4种基于UCF101数据集的行为识别方法的计算速率如下表2所示，测试使用一块K40Tesla GPU。因为光流算法的计算复杂度高，改进密集轨迹和双流网络(Two-stream networks)中使用的光流算法的GPU实现分别比C3D方法慢了91.4倍和274.6倍。因为本发明方法包含了人-物体空间特征提取模块和长期行为特征提取模块，含有额外的SSD300和cGRU网络，所以比单独的C3D网络慢了2.5倍，但是仍然远远快于使用改进密集轨迹和光流信息的方法，达到了125.2帧/秒，实现了计算的超实时性。

表2各方法的计算速率比较

人-物体空间位置特征提取模块使用了间隔为16的降采样，对于每个视频片段只需要提取一副图像的人-物体空间特征，所以计算时间分摊到了视频切片中每幅图像的计算时间上。经过独立测试，SSD300的计算速率17.8帧/秒，即56.18ms/帧，分摊后的计算时间为3.51ms/帧。而C3D网络每次对包含16帧图像的视频片段进行推理，计算速率是313.9帧/秒，即3.19ms/帧。理论上，人-物体空间位置提取模块的计算时间与空间视觉特征提取模块的计算时间相加为6.70ms/帧，即149.3帧/秒。而在实际测试中，本发明方法的计算速率是125.2帧/秒，这是因为方法在预处理和cGRU网络推理等过程中消耗了额外的计算时间，但是远小于SSD300和C3D网络推理的计算时间。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视觉-语义特征的视频中行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的视频中行为识别方法，其特征在于，将图像序列进行切片具体是采用以下公式：

3.根据权利要求1或2所述的视频中行为识别方法，其特征在于，使用的三维卷积神经网络是C3D网络，使用的物理检测器是分辨率为300×300的单发多盒检测器。

4.根据权利要求1至3中任意一项所述的视频中行为识别方法，其特征在于，将N个图像序列片段输入三维卷积神经网络中，以得到N个时空视觉特征向量的过程具体为，针对每个图像序列片段而言，首先将图像序列片段输入C3D网络，然后使用C3D网络中第五池化层的输出作为短期时空视觉特征，最后将该特征图规整为1个长度为8192的特征向量，其中第五池化层的输出矩阵大小为1×4×4×512。

5.根据权利要求4所述的视频中行为识别方法，其特征在于，步骤(3)具体为，首先，物理检测器根据输入的缩放并裁剪后的图像输出对应于多个边界框的多个输出向量，每个输出向量包括L个物体种类的可信度P＝{p_l}、以及位置偏移量[x,y,w,h]，其中l∈0,1,…L-1，L表示物体种类的个数，p_l表示第l个物体种类的可信度；然后对所有边界框对应的输出向量进行合并，以得到多个检测物体的对应多个长度为5的空间位置特征向量[q,x/W_I,y/H_I,w/W_I,h/H_I]，其中q表示检测物体所属物体种类的可信度，x和y分别为检测物体的边界框的横纵坐标，w和h分别为检测物体的边界框的宽和高，W_I和H_I分别为缩放并裁剪后的图像的宽和高；最后，针对所有L个物体种类中的每个物体种类而言，利用其可信度最高的5个检测物体的空间位置特征向量构造一个长度为空间位置特征向量长度×L×5的特征向量。

6.根据权利要求1所述的视频中行为识别方法，其特征在于，步骤(5)中使用的循环神经网络是3层GRU网络，其是由一层全连接层和3层级联GRU层构成，全连接层有4096个神经元，GRU网络的前两层中GRU单元的神经元数量为4096，最后一层中GRU单元的神经元数量为256，前一层GRU单元的输出是后一层GRU单元的输入。

7.根据权利要求1所述的视频中行为识别方法，其特征在于，步骤(5)中使用的循环神经网络是组合GRU网络，其是由3层全连接层和一层GRU层构成，前两层全连接层中有4096个神经元，最后一层全连接层中有512个神经元，GRU层中GRU单元的神经元数量为512。

8.一种基于视觉-语义特征的视频中行为识别***，其特征在于，包括：