CN105787458B

CN105787458B - 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法

Info

Publication number: CN105787458B
Application number: CN201610139450.8A
Authority: CN
Inventors: 高陈强; 吕静; 杜银和; 汪澜; 刘江
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2016-03-11
Filing date: 2016-03-11
Publication date: 2019-01-04
Anticipated expiration: 2036-03-11
Also published as: CN105787458A

Abstract

本发明涉及一种基于人工设计特征和深度学习特征自适应融合的红外行为识别方法，包括以下步骤：S1：通过人工设计特征模块，对原始视频进行改进的密集轨迹特征提取；S2：对提取到的人工设计特征进行特征编码；S3：通过CNN特征模块，对原始视频图像序列，利用一种变分光流算法提取光流信息，得到对应光流图像序列；S4：利用卷积神经网络，对步骤S3中得到的光流图序列提取CNN特征；S5：将数据集分为训练集和测试集；对训练集数据，通过权重优化网络学习权重，利用学习到的权重将CNN特征分类网络和人工设计特征分类网络的概率输出进行加权融合，通过对比识别结果得出最优权重，并将其应用于测试集数据分类。本方法创新了特征融合方式，提高了红外视频中行为识别的可靠性，对后续视频分析工作有重大意义。

Description

基于人工设计特征和深度学习特征自适应融合的红外行为识别方法

技术领域

本发明属于图像处理与计算机视觉技术领域，涉及一种基于人工设计特征和深度学习特征自适应融合的红外行为识别方法。

背景技术

近年来，图像和视频中的行为识别成为计算机视觉领域的一项重要任务，视频中的行为识别对视频监控、视频信息检索、人机交互等工作都有十分重要的意义。随着各种行为识别算法不断刷新各个公开数据集的识别准确率，视频中的行为识别任务取得了很大进步。但目前大部分的数据集都是基于可见光视频，基于红外视频的行为识别工作相对较少。

目前主流的行为识别算法主要涉及两种类型的描述子：人工设计特征描述子和通过深度学习得到的描述子。

人工设计特征和典型的局部描述子，例如时空兴趣点特征(Spatial-TemporalInterest Point，STIP)、方向梯度直方图(Histogram ofOriented Gradient，HOG)、光流方向直方图(Histogram ofOptical Flow，HOF)、密集轨迹特征(DenseTrajectory，DT)等，是基于图像的纹理信息、视觉形态和不同帧之间的运动信息等对不同的行为进行分类和识别；由于密集轨迹特征包含HOG，HOF，MBH(Motion Boundary History)等丰富的描述子信息，成为目前识别准确率较高的人工设计特征；随着计算机性能的提升，将卷积神经网络提取的CNN特征用作图像、视频中的行为识别成为近年来的热门研究方向，卷积神经网络实现了对图片信息的深层次挖掘，有效的提取具有判别性的信息，目前已经提出的3D卷积神经网络、深度卷积神经网络、双通道卷积神经网络等模型中，效果最好的是一个由时间信息通道和空间信息通道构成的双通道卷积神经网络，在各个比较有挑战性的数据集上都取得了较好的实验效果。

但是目前基于红外视频的行为识别研究工作相对较少，在视频监控工作中，若遇到雨、雾等能见度较低的恶劣天气或者夜间情况下，可见光视频监控就失去了意义。因此，红外视频行为识别有着很重要的实用价值，目前急需一种有效的红外视频行为识别算法。

发明内容

有鉴于此，本发明的目的在于提供一种基于人工设计特征和深度学习特征自适应融合的红外行为识别方法，该方法充分利用了红外图像的特点和优势，对人工设计特征进行改进，并通过两个分类网络和一个权重学习函数，将人工设计特征分类网络和深度学习特征分类网络的概率输出进行加权融合，有效提升了红外视频中行为识别的准确率。

为达到上述目的，本发明提供如下技术方案：

一种基于人工设计特征和深度学习特征自适应融合的红外行为识别方法，该方法包括以下步骤：

S1：通过人工设计特征模块，对原始视频进行改进的密集轨迹特征提取；

S2：对步骤S1中提取到的人工设计特征进行特征编码；

S3：通过CNN特征模块，对原始视频图像序列，利用一种变分光流算法提取光流信息，得到对应光流图像序列，作为卷积神经网络的输入；

S4：利用卷积神经网络，对步骤S3中得到的光流图序列提取CNN特征；

S5：将数据集分为训练集和测试集；对训练集数据，通过权重优化网络学习权重，利用学习到的权重将CNN特征分类网络和人工设计特征分类网络的概率输出进行加权融合，通过对比识别结果得出最优权重，并将其应用于测试集数据分类。

进一步，在步骤S1中，所述对原始视频提取改进后的人工设计特征，具体包括：首先对每一帧红外图像进行兴趣点密集采样，然后在连续图像序列之间追踪兴趣点，在得到的轨迹描述子中加入轨迹对应图片位置灰度值权重，将加权后的轨迹描述子作为改进的密集轨迹特征。

进一步，在步骤S2中，所述的对提取的改进后密集轨迹特征进行编码，编码采用以下方式进行：

1)：Bag-of-Words(BOW)

该特征编码方法包括两步步骤：

11)生成视觉词典：在训练集数据上提取特征，通过聚类算法对提取到的特征进行聚类；聚类中心可以看作是词典中的视觉词汇，所有视觉词汇形成一个视觉词典；

12)用词典中的词汇表示图像：图像中的每个特征都被映射到视觉词典的某个词上，然后统计每个视觉词在一张图像上的出现次数，即可将图像表示成一个维数固定的直方图向量；

2)：Fisher Vector(FV)

Fisher Vector编码是一种基于Fisher核原理的编码方式，首先利用训练样本通过最大似然估计的方法训练出高斯混合模型(GMM)，然后利用高斯混合模型对从样本中提取的原始特征(如Dense-Traj)进行建模，再利用生成的模型参数将样本的原始特征编码成便于学习和度量的Fisher向量；

3)：Vector ofLocallyAggregated Descriptors(VLAD)

VLAD编码首先对训练集上提取的特征进行聚类，得到码本，然后计算原始特征和码本中每个词的差距，并将这些差值进行累计，最后把所有词的累计差值进行拼接形成一个新的向量来表示图像。

进一步，在步骤S3中，所述的利用一种变分光流算法提取光流信息，得到对应光流图像序列，具体包括：

S31：在亮度不变假设、梯度恒定假设和连续时空平滑约束条件下，提出改进的能量泛函；

S32：根据能量函数推导出其对应的Euler-Lagrange方程，然后利用Gauss-Seidel或SOR方法求出光流矢量，得到对应光流图。

进一步，在步骤S4中，对得到的光流图像序列，利用卷积神经网络，提取全连接层的输出作为CNN特征；CNN采用多层网络结构，卷积层和抽样层交替出现，网络输出层为前馈网络全连接方式。

进一步，在步骤S5中，所述将数据集分为训练集和测试集；利用训练集数据通过自适应融合模块学习得到最优权重，并将最优权重应用到测试集数据进行分类，具体包括：

S51：利用训练集数据学习出最优权重：

自适应融合模块包括两个包含全连接层和softmax分类器层的分类网络和一个单节点逻辑函数；两个分类网络的输入分别是训练集数据的人工设计特征和CNN特征，两种特征输入到对应网络之后得到各自的概率输出P1和P2，同时利用单节点逻辑函数计算出对应的权重Q；最终根据指定权重对两个分类网络的概率输出进行加权融合，利用误差反向传播算法判断识别误差、更新梯度，判断并输出最优权重；

S52：将最优权重应用到测试集数据进行分类：

将测试集数据提取到的人工设计特征和CNN特征输入到对应分类网络，得到对应概率输出，利用S51中得到的最优权重加权融合两个分类网络的概率输出，得到测试集数据的识别结果。

本发明的有益效果在于：本发明所述方法突出了红外视频较可见光视频的优势，将传统人工设计特征和近来发展迅速的深度学习特征结合应用于行为识别任务，创新了特征融合方式，提高了红外视频中行为识别的可靠性，对后续视频分析工作有重大意义。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明的双通道红外行为识别算法示意图；

图2为改进的密集轨迹特征提取示意图；

图3为光流卷积神经网络特征提取示意图；

图4为自适应特征融合模型示意图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

在本发明中，人工设计特征模块，对原始视频进行改进后的密集轨迹特征提取，并对提取的特征进行编码；改进的密集轨迹特征是在原始密集轨迹的描述子中加入了灰度值权重信息，改进后的密集轨迹特征主要体现了视频图像序列的时空信息，突出了图片序列的前景运动信息；CNN特征模块，对原始红外视频图像序列利用一种变分光流算法提取光流信息，形成光流图像序列，将提取到的光流图作为卷积神经网络的输入，取卷积神经网络全连接层的特征作为视频CNN特征描述子；自适应融合模块首先将数据集分为训练集和测试集；对训练集数据，通过权重学习网络学习权重，利用学习到的权重将CNN特征分类网络和人工设计特征分类网络的概率输出进行加权融合，通过对比识别结果得出最优权重，并将最优权重应用于测试集数据分类。

图1为本发明的双通道红外行为识别算法示意图，如图所示，本发明所述方法具体包括以下步骤：

步骤S1：对原始视频提取改进后的密集轨迹特征，其具体流程图如图2所示：

S101:对原始视频每一帧红外图像进行兴趣点密集采样；

S102:在连续图像序列之间追踪兴趣点，连续两帧之间位移量很小和过大的像素点都被舍弃，最终得到可以表征动作的兴趣点轨迹；

S103:在得到的轨迹描述子中加入轨迹对应图片位置灰度值权重，将加权后的轨迹描述子作为改进的密集轨迹特征。

原始视频是分辨率为293×256的红外数据集，共12个动作类型，每个动作类型有50个视频样本。密集轨迹特征是目前图像分类识别任务中准确率较高的人工设计特征，但是大部分用于测试的数据集都是可见光数据集。由于红外图像可以反映出图像中各目标的红外热辐射，热辐射越强，灰度值越大，使得目标和背景之间有较明显的对比，基于红外图像这一特征，我们在原始密集轨迹特征的基础上加入了灰度值权重，使得灰度值高的轨迹拥有较大的权重，灰度值较小的轨迹分配较小的权重，改进了原始密集轨迹特征，突出了红外图像行为识别的优势。

步骤S2：对提取的人工设计特征进行Fisher Vector编码。

步骤S3：利用一种变分光流算法对原始视频图像序列提取光流信息，形成光流图像序列。该算法能量泛函的数据项由光亮度不变假设和梯度不变假设组成，加入不连续的时空平滑约束，有较好的连续和旋转不变性，计算速度快，精度高。

步骤S4：对步骤S3得到的光流图像序列的图片进行预处理，图片尺寸调整到分辨率为227×227，并将其作为卷积神经网络的输入，该卷积神经网络由五个卷积层和三个全连接层构成，最终取第二个卷积层的特征作为特征表达，流程图如图3所示。

卷积神经网络(ConvolutionalNeuralNet，CNN)是一种多层前馈网络，作为网络中间层的卷积层和抽样层交替出现，网络输出为前馈网络的全连接方式，输出层的维数为分类任务中的类别数。卷积神经网络能够直接从原始输入数据中自动学习相应特征，省去一般算法需要的特征设计过程，能够学习和发现更有效的特征。

步骤S5：训练集数据利用自适应融合模块学习出最优权重，并将其应用于测试集数据分类。自适应融合模型的示意图如图4所示：

S501：将数据集分为训练集和测试集；

S502：利用训练集样本数据学习出最优权重：自适应融合模型包括两个包含全连接层和softmax分类器层的分类网络和一个单节点逻辑函数；两个分类网络的输入分别是对训练集数据提取的人工设计特征和CNN特征，两种特征输入到对应网络之后得到各自的概率输出P1和P2，同时单节点逻辑函数计算对应的权重Q；最终根据指定权重对两个分类网络的概率输出进行加权融合，并利用误差反向传播算法判断识别误差、更新梯度，判断并输出最优权重；

S503：将最优权重应用到测试集数据进行分类：将测试集样本数据提取到的人工设计特征和CNN特征输入到对应分类网络，得到对应概率输出，利用最优权重比例加权融合两个分类网络的概率输出，得到测试集数据识别结果。

误差反向传播(Error Back propagation，BP)算法的主要目的是通过将输出误差反传，将误差分摊给各层所有单元，从而获得各层单元的误差信号，进而修正各单元的权值。BP算法的学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时，输入样本从输入层传入，经各隐层逐层处理后，传向输出层。若输出层的实际输出与期望的输出不符，则转入误差的反向传播阶段。误差反传是将输出误差以某种形式通过各隐层向输入层逐层反传，并将误差分摊给各层的所有单元，从而获得各层单元的误差信号，此误差信号即作为修正各个单元权值的依据。在本模块中，正是这种周而复始的权值不断调整的过程使得最终得到最优权重。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于人工设计特征和深度学习特征自适应融合的红外行为识别方法，其特征在于：该方法包括以下步骤：

S2：对步骤S1中提取到的人工设计特征进行特征编码；

2.根据权利要求1所述的基于人工设计特征和深度学习特征自适应融合的红外行为识别方法，其特征在于：在步骤S1中，所述对原始视频提取改进后的人工设计特征，具体包括：首先对每一帧红外图像进行兴趣点密集采样，然后在连续图像序列之间追踪兴趣点，在得到的轨迹描述子中加入轨迹对应图片位置灰度值权重，将加权后的轨迹描述子作为改进的密集轨迹特征。

3.根据权利要求1所述的基于人工设计特征和深度学习特征自适应融合的红外行为识别方法，其特征在于：在步骤S2中，所述的对提取的改进后密集轨迹特征进行编码，编码采用以下其中一种方式进行：

1)：Bag-of-Words(BOW)

该特征编码方法包括两步步骤：

2)：Fisher Vector(FV)

3)：Vector ofLocally Aggregated Descriptors(VLAD)

4.根据权利要求1所述的基于人工设计特征和深度学习特征自适应融合的红外行为识别方法，其特征在于：在步骤S3中，所述的利用一种变分光流算法提取光流信息，得到对应光流图像序列，具体包括：

5.根据权利要求1所述的基于人工设计特征和深度学习特征自适应融合的红外行为识别方法，其特征在于：在步骤S4中，对得到的光流图像序列，利用卷积神经网络，提取全连接层的输出作为CNN特征；CNN采用多层网络结构，卷积层和抽样层交替出现，网络输出层为前馈网络全连接方式。

6.根据权利要求1所述的基于人工设计特征和深度学习特征自适应融合的红外行为识别方法，其特征在于：在步骤S5中，所述将数据集分为训练集和测试集；利用训练集数据通过自适应融合模块学习得到最优权重，并将最优权重应用到测试集数据进行分类，具体包括：

S51：利用训练集数据学习出最优权重：

S52：将最优权重应用到测试集数据进行分类：