CN108509880A

CN108509880A - 一种视频人物行为语义识别方法

Info

Publication number: CN108509880A
Application number: CN201810236363.3A
Authority: CN
Inventors: 陈志�; 高翔; 岳文静; 杨天明; 陈璐; 掌静
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-09-07

Abstract

本发明公开了一种视频人物行为语义识别方法，该方法以识别视频中的人物行为语义与社交关系为目标，首先利用卷积神经网络并行地抽取每个视频场景中的人物身份、人物行为和上下文三个方面的中层语义特征，接着通过两层循环神经网络来融合这三个方面的语义信息，最后完成视频中人物行为语义的识别，该方法有效的弥补的了视频场景的底层特征与高层语义之间的鸿沟，提取了全方位的视频特征包括人物脸部特征、人物行为特征以及上下文特征，提高了语义识别的准确率。本发明通过建立底层特征和高层语义之间的中层特征解决了低层特征对真实场景下的复杂行为建模困难的问题，能够达到解决底层特征与高层语义之间的鸿沟的目的。

Description

一种视频人物行为语义识别方法

技术领域

本发明涉及机器学习，主要是通过底层特征到高层语义的转化方法来完成视频场景高层语义识别过程，属于深度学习、模式识别、视频信息处理等交叉技术应用领域。

背景技术

视频语义分析就是对视频中有序的帧图像进行语义分析。由于一段视频中可能包含多个场景，而这些场景又是由一组有序的帧图像组成。为了更好地分析视频语义，需要对视频进行预处理，包括把视频中的内容按某种方式进行镜头分割并场景化。首先，将通过镜头检测和寻找镜头转化的方法对视频进行分割。其次，将找出镜头中的关键帧集，并通过计算所有镜头的关键帧图像之间的相似度来进行聚类。然后，在视频场景化的基础上，研究视频中人物语义。

视频人物语义分析往往是以研究视频中的人物行为语义为中心，同时辅助视频中除人物以外的事物所构成的上下文环境对象的语义来提高分析人物语义信息的准确性。目前视频语义分析一般都是通过学习图像特征这种方法，图像的特征表示方法主要分为两类:低层特征和中层特征。低层特征是基于视频的像素经由各种变换而来的，没有语义含义。

发明内容

技术问题：本发明的目的是提供一种视频人物行为语义识别方法，主要解决了语义识别问题，是指怎样完成底层特征向高层语义的转化，达到解决底层特征与高层语义之间的鸿沟的目的。这里的底层特征向高层语义转化的方法具体描述如下：底层特征提取、中层特征融合、长短期记忆网络(LSTM)识别。首先，通过卷积神经网络(CNN)、采样与全连接操作来完成中层语义特征抽取与融合；然后，通过LSTM对融合的中层语义进行序列建模来完成语义的识别。

技术方案：本发明解决了中层特征语义提取问题，利用CNN完成人物、上下文以及动作的特征提取。

本发明解决了高层语义识别问题，主要是利用基于LSTM的语义序列模型来完成视频序列的人物语义识别。

本发明所述一种基于深度学习视频场景语义识别方法包括以下步骤：

步骤1)：对视频图像底层特征描述与提取，具体步骤如下：

步骤1.1)：人物身份底层特征描述与提取，通过对视频场景中人物的人脸进行检测和预处理来描述人物身份底层特征。其中人脸检测是基于局部二值直方图人脸检测器实现的，预处理是在检测之后需要对人脸图像进行灰度化、缩小和均衡化处理。

步骤1.2)：人物行为底层特征描述与提取，通过融合视频场景中人物图像序列的时空特征。所述时空特征是指通过原视频帧以及视频帧之间的光流图片获取的人物行为轨迹特征。

步骤1.3)：上下文底层特征描述与提取，通过提取从场景所发生的上下文环境和场景里面出现的一些物体的特征。

步骤2)：基于预训练的CNN的中层语义特征提取，具体步骤如下：

步骤2.1)：人物身份中层特征提取，在人物脸部数据集上完成卷积神经网络的训练。运用预先训练好的卷积神经网络结构的全连接层的特征向量作为人物身份中层特征。

步骤2.2)：人物行为中层特征提取，在两个卷积神经网络融合来识别视频中的人物行为。运用训练好的融合神经网络的全连接层的特征向量作为视频中人物行为中层特征。

步骤2.3)：上下文中层特征提取，将数据集ImageNet作为实验数据完成卷积神经网络的训练。运用预先训练好的卷积神经网络结构的全连接层的特征向量作为上下文中层特征。

步骤3)：基于LSTM的视频人物行为语义识别，具体步骤如下：

步骤3.1)：建立基于LSTM的视频人物行为语义识别模型，模型由两层LSTM组成，第一层LSTM用于接收视频语义特征序列并对其进行编码，第二层LSTM用第一层的编码结果作为输入并对其解码输出语义描述句子。

步骤3.2)：基于LSTM的语义序列识别，首先将基于CNN提取出来的人物身份、人物行为和上下文语义特征向量作为输入，通过第一层LSTM进行编码，得到一个固定长度的输出向量；接着把第一层的输出向量作为输入，通过第二层LSTM进行解码，得到对视频序列语义的描述语句。本节的第一层和第二层共用一个LSTM，这样可以在编码与解码阶段共享参数，减少训练的复杂度。

步骤4)：融合提取的人物身份特征、人物行为特征以及上下文特征，将融合后的特征输入到基于LSTM的视频语义识别模型中，进行视频语义识别。

作为本发明所述的一种基于深度学习视频场景语义识别方法进一步优化方案，步骤1.2)中所述时空特征为原视频帧以及视频帧之间的光流图片获取的人物行为轨迹特征。

作为本发明所述的一种基于深度学习视频场景语义识别方法进一步优化方案，步骤2.3)中卷积神经网络的训练是利用数据集ImageNet作为实验数据来完成。

作为本发明所述的一种基于深度学习视频场景语义识别方法进一步优化方案，步骤3.2)中所述的模型由两层LSTM组成，第一层和第二层共用一个LSTM，这样可以在编码与解码阶段共享参数，减少训练的复杂度。

有益效果：本发明提出的一种视频人物行为语义识别方法，是一种基于深度学习视频场景语义识别方法，其效果具体如下：

(1)本发明提供一种视频中层特征的方法，有效的弥补的了视频场景的底层特征与高层语义之间的鸿沟。

(2)本发明中所述的方法提取了全方位的视频特征包括人物脸部特征、人物行为特征以及上下文特征，提高了语义识别的准确率。

(3)本发明中所述基于LSTM的双层视频场景语义识别模型是一个端对端的模型，提高了长周期视频的语义识别的准确率。

附图说明

图1是视频场景语义提取方法的结构图。

图2是CNN-People架构提取特征图。

图3是D-CNNs-Activity架构提取特征图。

图4是CNN-Context架构提取特征。

具体实施方式

下面对本发明附图的某些实施例作更详细的描述。

根据附图1，本发明具体实施方式为：

1)视频图像底层特征描述与提取，具体步骤如下：

1.1)人物身份底层特征描述与提取，通过对视频场景中人物的人脸进行检测和预处理来描述人物身份底层特征。其中人脸检测是基于局部二值直方图(Local BinaryPatterns Histograms，LBPH)人脸检测器实现的，在检测之后对人脸图像进行灰度化、缩小和均衡化处理。经过上述预处理，利用LBPH人脸检测器得到人脸图像的二维特征向量，完成人物身份的底层特征描述与提取。运用OpenCV3提供的人脸检测接口来进行人脸检测与提取，抽取出视频场景中的人物语义输入

1.2)人物行为底层特征描述与提取，通过融合视频场景中人物图像序列的空间和时空特征。接着运用OpenCV3中goodFeaturesToTrack()函数，得到图像中的强边界作为跟踪的特征点。接着运用图像金字塔光流方法函数calcOpticalFlowPyrL()，对输入两幅连续的图像进行处理，在第一幅图像里选择一组特征点，输出为这组点在下一幅图像中的位置。再把得到的跟踪结果过滤一下，去掉不好特征点，将人物的动作轨迹标记出来，完成人物行为抽取出视频场景中的人物行为语义

1.3)上下文底层特征描述与提取，提取特征的目标是上下文环境和场景里面出现的一些物体。物体特征采用4,096-D DeCAF通用视觉特征，对于地点特征，采用多个预先训练好的上下文检测器来提取场景中的地点特征，组成一个集合作为提取的上下文特征表示，完成抽取出视频场景中的上下文语义

2)基于预训练的CNN的中层语义特征提取，具体步骤如下：

2.1)人物身份中层特征提取，在数据集Olivetti Faces上完成CNN-People的训练，CNN-People结构如图2所示。CNN-People模型有两个卷积与子采样层。全连接层相当于多层感知机中的隐含层。输出层即分类器，采用多类别的逻辑回归。总体上我们使用串联结构来组建CNN模型，上一层的输出接下一层的输入。用预先训练好的CNN-People，前向传播的fc7层的4096特征向量作为人物身份中层特征。

2.2)人物行为中层特征提取，双层卷积神经网络将两个卷积神经网络融合来识别视频中的人物行为。本节具体的是先分别对单帧图像和多帧的运动信息(光流)分别构建2个CNN网络，然后在分数层上对2种网络的输出作卷积融合。通过在数据集UCF101上前馈与反向传播来调优参数，完成双层卷积神经网络的训练。用训练好的D-CNNs-Activity网络，对视频场景中的图像进行训练，输出fc7全连接层的特征向量作为视频中人物行为中层特征。D-CNNs-Activity网络结构如图3所示。

2.3)上下文中层特征提取，选择数据集ImageNet作为实验数据，对于数据集中得到的图像我们通过13)节中介绍的方法进行预处理得到上下文的底层特征描述。接着使用手写字识别模型LeNet的网络来训练数据集ImageNet，将训练好的CNN-Context网络前向传播的fc7层的4096特征向量作为上下文中层特征。所述CNN-Context如图4所示。

3)基于LSTM的视频人物行为语义识别，具体步骤如下：

3.1)建立基于LSTM的语义序列建模，该模型由两层LSTM组成，第一层LSTM用于接收视频语义特征序列并对其进行编码，第二层LSTM用第一层的编码结果作为输入并对其解码输出语义描述句子。该模型主要分层两个阶段：编码阶段和解码阶段，如图4。

3.2)基于LSTM的语义序列识别，两层LSTM模型的每一层都有1000个隐型单元用于记录编码信息。在开始的几个时间点上，第一层的LSTM对两部分输入进行编码，第一部分是把经过CNN提取的人物身份、人物行为和上下文的中层语义特征作为输入，通过LSTM模块内部的四个交互过程进行计算而得到的隐含层输出信息Ht，第二部分是空填充的输入语义词语描述<pad>。在对第一层LSTM进行编码的时候没有损失。在当所有的视频序列的中层语义特征都输入完毕时，开始进行解码工作。第二层LSTM解码的时候也是两部分输入，一部分是第一层编码输出的隐含层信息Ht；由于没有了输入序列的中层语义特征，第二部分是空填充的输入语义词语描述<pad>。在编码的第一个时间点上，加入了一个<BOS>标志，用于标识开始解码工作。训练解码方法是根据前面的一个词汇输出描述和前一个时刻的隐含层输出信息Ht，最大化预测输出语句的对数似然。最终，根据第一层LSTM的隐含层的输出信息Zt作为条件，通过运用Softmax函数来计算每一个词汇在词汇集S上的分布，整个解码的训练过程中，LSTM根据结束标志<EOS>来动态结束训练，达到动态控制输出语义描述语句的长度。

4)融合提取的人物身份特征、人物行为特征以及上下文特征，将融合后的特征输入到基于LSTM的视频语义识别模型中，进行视频语义识别。在2层LSTM模型中，采用浅层融合技术来合成人物身份、人物行为、上下文特征。在解码阶段的每一个时间步长上，LSTM模型提供候选的词语集合。然后通过重新计算这些假设的评分，具体是按照一定的权重来累加人物身份、人物行为、上下文网络得到的评分，如公式P(y_t＝y′)＝α*P_p(y_t＝y′)+β*P_a(y_t＝y′)+γ*P_c(y_t＝y′)所示，其中y_t＝y'代表选取y'这个时间步长，P(y_t＝y')代表y'这个时间点的视频人物行为语义的概率评分，P_p(y_t＝y')代表在y'这个时间点的人物身份的概率评分，P_a(y_t＝y')代表在y'这个时间点的人物行为的概率评分，P_c(y_t＝y')代表在y'这个时间点的上下文的概率评分。其中α+β+γ＝1，以上三个参数初始值为1/3，并在数据集上，通过LSTM建模过程动态调谐。

Claims

1.一种视频人物行为语义识别方法，其特征在于，该方法是一种基于深度学习的视频场景语义识别方法，包括以下步骤：

步骤1)：对视频图像底层特征描述与提取：包括人物身份底层特征描述与提取，人物行为底层特征描述与提取，上下文底层特征描述与提取；

步骤2)：基于预训练的卷积神经网络CNN的中层语义特征提取：包括人物身份中层特征提取，人物行为中层特征提取，上下文中层特征提取；

步骤3)：基于长短期记忆网络LSTM的视频人物行为语义识别：包括建立基于LSTM的视频人物行为语义识别模型，基于LSTM的语义序列识别；

2.根据权利要求1所述的一种视频人物行为语义识别方法，其特征在于，在步骤1)中，对视频图像底层特征描述与提取具体步骤如下：

步骤1.1)：人物身份底层特征描述与提取：对视频场景中人物的人脸进行检测和预处理来描述人物身份底层特征；其中人脸检测是基于局部二值直方图人脸检测器实现的，预处理是在检测之后需要对人脸图像进行灰度化、缩小和均衡化处理；

步骤1.2)：人物行为底层特征描述与提取：融合视频场景中人物图像序列的时空特征；

步骤1.3)：上下文底层特征描述与提取：提取从场景所发生的上下文环境和场景里面出现的一些物体的特征。

3.根据权利要求2所述的一种视频人物行为语义识别方法，其特征在于，步骤1.2)中所述时空特征是指通过原视频帧以及视频帧之间的光流图片获取的人物行为轨迹特征。

4.根据权利要求1所述的一种视频人物行为语义识别方法，其特征在于，步骤2)中基于预训练的CNN的中层语义特征提取，具体步骤如下：

步骤2.1)：人物身份中层特征提取：在人物脸部数据集上完成卷积神经网络的训练，运用预先训练好的卷积神经网络结构的全连接层的特征向量作为人物身份中层特征；

步骤2.2)：人物行为中层特征提取：在两个卷积神经网络融合来识别视频中的人物行为，运用训练好的融合神经网络的全连接层的特征向量作为视频中人物行为中层特征；

步骤2.3)：上下文中层特征提取：运用预先训练好的卷积神经网络结构的全连接层的特征向量作为上下文中层特征。

5.根据权利要求4所述的一种视频人物行为语义识别方法，其特征在于，步骤2.3)中卷积神经网络的训练是利用数据集ImageNet作为实验数据来完成。

6.根据权利要求1所述的一种视频人物行为语义识别方法，其特征在于，步骤3)中基于LSTM的视频人物行为语义识别，具体步骤如下：

步骤3.1)：建立基于LSTM的视频人物行为语义识别模型，模型由两层LSTM组成，第一层LSTM用于接收视频语义特征序列并对其进行编码，第二层LSTM用第一层的编码结果作为输入并对其解码输出语义描述句子；

步骤3.2)：基于LSTM的语义序列识别，首先将基于CNN提取出来的人物身份、人物行为和上下文语义特征向量作为输入，通过第一层LSTM进行编码，得到一个固定长度的输出向量；接着把第一层的输出向量作为输入，通过第二层LSTM进行解码，得到对视频序列语义的描述语句。

7.根据权利要求6所述的一种视频人物行为语义识别方法，其特征在于，步骤3.2)中所述的模型由两层LSTM组成，第一层和第二层共用一个LSTM，这样可以在编码与解码阶段共享参数，减少训练的复杂度。