CN109815903B

CN109815903B - 一种基于自适应融合网络的视频情感分类方法

Info

Publication number: CN109815903B
Application number: CN201910069977.1A
Authority: CN
Inventors: 王瀚漓; 易云
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2020-10-02
Anticipated expiration: 2039-01-24
Also published as: CN109815903A

Abstract

本发明涉及一种基于自适应融合网络的视频情感分类方法，包括以下步骤：1)构建自适应融合网络模型；2)将输入的视频集人分为训练集和测试集，并获取视频集中每个视频的三个模态特征向量，所述的三个模态为RGB、光流和音频；3)对于训练集，分别将三个模态的特征向量输入自适应融合网络，并采用基于梯度的优化算法进行优化，得到训练好的自适应融合网络模型Model；4)对于测试集，将每个视频的特征向量输入训练好的网络模型Model，并预测视频情感进行分类。与现有技术相比，本发明具有视频情感识别准确率高、描述视频情感准确、数据输入健壮、鲁棒性好等优点。

Description

一种基于自适应融合网络的视频情感分类方法

技术领域

本发明涉及社交网络和多媒体技术领域，尤其是涉及一种基于自适应融合网络的视频情感分类方法。

背景技术

在过去的十年中，社交网络和多媒体技术取得巨大的成功，导致产生海量的视频，所以自动分析视频内容变得越来越重要。视频情感分析是视频内容分析领域一个活跃的研究课题。视频片段的情感可以被定义为当人们观看视频时产生情感的强度和类型。视频情感分析的目标是自动识别视频引发的情感。与其他视频内容分析技术一样，情感分析具有大量的应用场景，如：人机交互、基于情感的个性化内容传送等。

虽然近年来对情感分析的研究取得了令人瞩目的进展，但对电影所引发的情感分类仍然是一项具有挑战的任务，并且视频情感分析的实验结果较低。首先，由于认知偏差，环境影响等原因，难以获得可靠的标签。其次，视频低层特征与观众的情感反应之间的关系仍然没有得到很好的理解，而且该关系可能会随着观众或环境的不同而变化。因此，近年来MediaEval组织了针对情感分析的比赛。

一般而言，人们通过多种模态的信息来感知世界，如：视觉和声音等。当观看恐怖电影时，图像和声音让人感到恐惧。先前的研究使用多个视听特征，但是其中大多数使用经典的方案(如：前融合，后融合等)来组合多个特征，所以忽略多个模态之间的相关性。之前的场景和声音会影响目前的情感，因此多个模态的权重和时间输入的相关性对于分析视频情感非常重要。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种鲁棒性好、准确率高的基于自适应融合网络的视频情感分类方法。

为了解决这些问题，本发明设计一个自适应融合网络，它可以分别学习多个模态和时间输入的权重，具体而言，提出统计数据层来获得鲁棒的输入信息，提出时间自适应融合层来组合多个时间输入，提出多模自适应融合层来组合多个模态。选择从三个预训练卷积神经网络提取的三个特征作为自适应融合网络的输入，再将这些特征向量分别馈送到递归神经网络(Recurrent Neural Networks，RNN)细胞。由于人类从所有时间输入中感知情感，所以RNN细胞的所有输出被连接到一个共享参数的全连接层(Fully Connected，FC)。在优化该网络的过程中，使用基于梯度的优化算法分别学习时间输入和特征的自适应权重。

发明的目的可以通过以下技术方案来实现：

一种基于自适应融合网络的视频情感分类方法，用以对电影所引发的情感进行分类回归，包括以下步骤：

1)构建自适应融合网络模型，包括：依次设置的统计数据层、循环层、全连接层、时间自适应融合层、多模自适应融合层和损失函数层；

2)将输入的视频集分为训练集和测试集，并获取视频集中每个视频的三个模态特征向量，所述的三个模态为RGB、光流和音频；

3)对于训练集，分别将三个模态的特征向量输入自适应融合网络，并采用基于梯度的优化算法进行优化，得到训练好的自适应融合网络模型Model；

4)对于测试集，将每个视频的特征向量输入训练好的网络模型Model，并预测视频情感进行分类。

所述的步骤1)具体包括以下步骤：

1a)采用由RGB模态、光流模态和音频模态构成的序列表示给定的视频，记每个模态的序列为V＝{v₁，v₂，…，v_L}，将序列V分成T＝L/N个分段S_i＝{v_i，v_i+1，…，v_i+N}，计算时间序列上所有分段S_i的算术平均值E(S_i)和标准差D(S_i)，则在经过统计数据层后，序列V由X＝{x₁，…，x_T}表示，其中，L为序列V的长度，N为采样间隔，i∈[1，T]，x_i＝con(E(S_i)，D(S_i))为E(S_i)和D(S_i)的连接；

1b)给定模态m的输入序列

m∈[1，M]，M为模态总数，经过循环神经网络(Recurrent Neural Network，RNN)层和全连接(Fully Connected，FC)层后，输入序列X^m映射到全连接层的输出

其中，f为循环层函数，

为第m个模态的RNN隐藏状态，T为输入序列X^m的长度，W_h为映射隐藏状态H的权重矩阵，b为偏置项；在分类任务中，

是一个1×C的矩阵，C是数据集中情感类别的个数。在回归任务中，

是一个1×1的矩阵。然后，时间自适应融合层将

映射到该层的输出p^m，则有：

其中，e_t是第t个输出的自适应权重，⊙表示矩阵的数乘运算；

1c)以p^m作为输入，多模自适应融合层的输出p定义为：

其中，u^m是第m个模态的自适应权重。

所述的步骤2)中，获取RGB模态、光流模态和音频模态的特征向量具体包括以下步骤：

2a)提取视频的RGB图像，基于Inception-V3网络模型，在Kinetics数据集上训练模型M_RGB，以每一个视频的RGB图像作为输入，使用模型M_RGB获取RGB图像的特征向量；

2b)采用TV-L1光流算法，从视频的第二帧开始，计算每一帧的X和Y方向光流矩阵，以光流矩阵作为Inception-V3网络的输入，在Kinetics数据集上训练模型M_光流，以每一个视频的光流作为输入，采用模型M_光流获取光流的特征向量；

2c)提取视频的音频文件，基于VGGish网络模型，在AudioSet数据集上训练模型M_音频，以每一个视频的音频作为输入，采用模型M_音频获取所有音频文件的特征向量。

所述的步骤3)具体包括以下步骤：

3a)在网络初始化时，所有时间输出和所有模态具有相同的权重，则初始化时间权重e_t和多模态权重u^m均为1；

3b)针对分类问题，定义交叉熵损失函数L_CE(p，class)为：

其中，class为类索引，j∈[1，C]，C是数据集中情感类别的个数；

针对回归问题，定义均方误差损失函数L_MSE(p，y)为：

其中，y为当前样本的标签，B为批量大小；

3c)使用基于梯度的优化算法优化自适应融合网络，在训练集上训练完成后，得到训练好的自适应融合网络模型Model。

所述的步骤4)具体包括以下步骤：

4a)采用训练好的网络模型Model初始化自适应融合网络；

4b)针对测试集上的每一个视频，以该视频的RGB模态、光流模态和音频模态的特征向量作为输入；

4c)输出该视频引发的情感，在AIMT15数据集，对于Arousal域输出Passive、Neutral或Active，对于Valence域输出Negative、Neutral或Positive，在EIMT16数据集，输出Valence-Arousal域的坐标，Valence-Arousal域的坐标可以被转换为离散的情感类别(如：高兴、愤怒、悲伤等)。

与现有技术相比，本发明具有以下优点：

一、视频情感识别准确率高：本发明提出自适应融合网络来分别学习多个模态和时间输入的权重，这是第一次在视频情感分析领域学习上述自适应的权重，在两个公开的视频情感数据集上，本发明具有较高的视频情感识别准确率。

二、描述视频情感准确：本发明为了描述视频情感，从三个卷积神经网络中提取特征向量以表示音频、RGB和光流模态，包括：VGGish网络、以RGB为输入的Inception-V3网络和以光流为输入的Inception-V3网络。

三、数据输入健壮：本发明为了获得健壮的输入，提出统计数据层，通过引入该层，可以减少光流的噪声信号，同时将音频特征和视觉特征的向量进行组合，提出时间自适应融合层来组合多个时间输入，提出多模自适应融合层来组合多个模态。

附图说明

图1为本发明的原理框架示意图。

图2为本发明自适应融合网络模型图。

图3为情感类别和Valence-Arousal域的对应关系图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1和图2所示，本发明提供一种基于自适应融合网络的视频情感分类方法，用以实现电影、视频的情感分类，包括以下步骤：

步骤1：设计自适应融合网络模型，该网络模型包括：统计数据层、循环层、全连接层、时间自适应融合层、多模自适应融合层和损失函数层，具体为：

1b)给定模态m的输入序列

其中，f为循环层函数，

是一个1×1的矩阵。然后，时间自适应融合层将

映射到该层的输出p^m，则有：

其中，e_t是第t个输出的自适应权重，⊙表示矩阵的数乘运算。

1c)以p^m作为输入，多模自适应融合层的输出p定义为：

其中，u^m是第m个模态的自适应权重。

步骤2：将视频集划分成训练集和测试集，计算每一个视频三个模态(即RGB、光流和音频)的特征向量。具体为：

2a)从视频中提取RGB图像，基于Inception-V3网络模型，在Kinetics数据集上训练模型M_RGB。以每一个视频的RGB图像作为输入，使用M_RGB计算RGB图像的特征向量；

2b)使用TV-L1光流算法，从视频的第二帧开始，计算每一帧的X和Y方向光流矩阵。以光流矩阵作为Inception-V3网络的输入，在Kinetics数据集上训练模型M_光流。以每一个视频的光流作为输入，使用M_光流计算光流的特征向量；

2c)从视频中提取音频文件，基于VGGish网络模型，在AudioSet数据集上训练模型M_音频。以每一个视频的音频作为输入，使用M_音频来计算所有音频文件的特征向量。

步骤3：在训练集上，分别将三个模态的特征向量输入自适应融合网络，使用基于梯度的优化算法来优化该网络，得到训练好的网络模型Model。具体为：

3a)在网络初始化时，所有时间输出和所有模态具有相同的权重，所以初始化时间权重e_t和多模态权重u^m为1；

3b)针对分类问题，定义交叉熵损失函数如下

其中，class为类索引，j∈[1，C]，C是数据集中情感类别的个数。针对回归问题，定义均方误差损失函数如下：

其中，y是当前样本的标签，B是批量大小；

3c)使用基于梯度的优化算法来优化自适应融合网络。在训练集上训练完成后，得到训练好的网络模型Model。

步骤4：载入步骤3中训练好的网络模型Model，在测试集上，将每一个视频的特征向量输入该网络，预测视频所引发的情感。具体为：

4a)使用步骤3中训练好的网络模型Model初始化自适应融合网络；

4c)输出该视频引发的情感并进行分类，在AIMT15数据集，对于Arousal域输出Passive、Neutral或Active，对于Valence域输出Negative、Neutral或Positive。在EIMT16数据集，输出Valence-Arousal域的坐标。如图3所示，Valence-Arousal域的坐标可以被转换为离散的情感类别(如：高兴、愤怒、悲伤等)。

为了验证本发明的性能，设计了以下两组实验。

实验一：在MediaEval 2015 Affective Impact of Movies Task(AIMT15)数据集，与基准方法的比较。

AIMT15数据集是LIRIS-ACCEDE数据集的扩展，包括从199部电影中提取的10,900个短视频剪辑。这些视频剪辑分别被分为6,144个训练视频和4,756个测试视频。AIMT15数据集中存在两个域(即：Arousal和Valence)。对于每个域，所有电影被分成三类(即：Arousal域包括Passive、Neutral和Active，Valence域包括Negative、Neutral和Positive)。AIMT15的官方评估指标是准确率(ACCuracy，ACC)。

前融合和后融合是结合多个输入模态的常用技术，它们被许多***采用。在该实验中，前融合网络直接连接三个输入模态的特征向量，并将连接后的向量作为LSTM的输入，而后融合网络将三个输入模态的特征向量单独馈送给LSTM，然后组合这三个LSTM的输出。为了进行公平的比较，除融合方法外，所有评估都使用相同的实验设置。实验结果如表1所示。

表1在AIMT15上与基准方法进行比较

从表1的结果中可知，在AIMT15数据集上，本发明的识别准确率高于前融合网络和后融合网络。

实验二：在MediaEval 2016 Emotional Impact of Movies Task(EIMT16)数据集，与基准方法的比较。

EIMT16数据集包含从电影中提取的11,000个短视频剪辑，被分为9,800个训练视频和1,200个测试视频。EIMT16的官方评估指标是均方误差(Mean Squared Error，MSE)和Pearson相关系数(Pearson Correlation Coefficient，PCC)。为了进行公平的比较，除融合方法外，所有评估都使用相同的实验设置。实验结果如表2所示。

表2在EIMT16上与基准方法进行比较

从表2的结果中可知，在EIMT16数据集上，本发明的识别准确率高于前融合网络和后融合网络。

以上所述仅为本发明的优选实施例，并不用于限制本发明。本发明还包括由以上技术特征任意组合所组成的技术方案。

Claims

1.一种基于自适应融合网络的视频情感分类方法，用以对电影所引发的情感进行分类回归，其特征在于，包括以下步骤：

1)构建自适应融合网络模型，包括：依次设置的统计数据层、循环层、全连接层、时间自适应融合层、多模自适应融合层和损失函数层，具体包括以下步骤：

1a)采用由RGB模态、光流模态和音频模态构成的序列表示给定的视频，记每个模态的序列为V＝{v₁,v₂,…,v_L}，将序列V分成T＝L/N个分段S_i＝{v_i,v_i+1,…,v_i+N}，计算时间序列上所有分段S_i的算术平均值E(S_i)和标准差D(S_i)，则在经过统计数据层后，序列V由X＝{x₁,…,x_T}表示，其中，L为序列V的长度，N为采样间隔，i∈[1,T]，x_i＝con(E(S_i),D(S_i))为E(S_i)和D(S_i)的连接；

1b)给定模态m的输入序列