CN113254713A

CN113254713A - 基于视频内容生成情感曲线的多源情感计算***及方法

Info

Publication number: CN113254713A
Application number: CN202110533941.1A
Authority: CN
Inventors: 牛建伟; 杨森
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-08-13
Anticipated expiration: 2041-05-17
Also published as: CN113254713B

Abstract

本发明公开一种基于视频内容生成情感曲线的多源情感计算***及方法，涉及深度学***滑的情感曲线。本发明实现了在计算机上计算视频情感变化曲线的自动化方法和***，保留了观看者手工情感标注的特征，输出结果平滑自然，视觉效果更高，后续分析利用价值更大。

Description

基于视频内容生成情感曲线的多源情感计算***及方法

技术领域

本发明涉及深度学习技术、计算机视觉技术和视频处理技术，具体涉及一种基于视频内容生成情感曲线的多源情感计算***及方法，是一种视频内容到情感曲线的生成技术。

背景技术

本发明所涉及的视频特指时长在1分钟以上的长视频，其通常包含视频内容和对应的音频数据。情感曲线特指视频带给观看者的情感反馈随时间的变化。情感由效价(Valence)和唤起(Arousal)2维情感值组成。效价表示情感的积极消极程度，唤起表示情感的强烈程度。计算视频的情感曲线是一项视频到情感曲线的转换任务，其目的为将输入的视频转化为情感曲线。近年来，基于深度学习的视频内容理解取得了显著进展，最近的研究提出了一系列***的方法。例如，基于卷积神经网络(Convolutional Neural Network,CNN)方法；基于循环神经网络(Recurrent Neural Network,RNN)的方法。

然而，基于现有的技术，面向视频情感曲线的计算方法通常针对视频内容或音频内容进行计算，其难以利用综合的信息和特征，其生成的情感曲线变化与视频给观众带来的情感波动不符，无法直接作为视频的情感表示用于进一步处理。

发明内容

本发明的目的是提供一种基于二维和三维卷积神经网络，根据视频的视觉内容和听觉内容生成情感曲线的自动化方法和***，以解决现有技术由视频生成情感表示的各种性能的综合效果较差的问题。

本发明基于视频内容生成情感曲线的多源情感计算***，包括视频内容特征提取模块、音频内容特征提取模块、特征融合回归模块与长视频分割与处理模块。其中，视频内容特征提取模块用于从输入视频中提取视觉特征。音频内容特征提取模块用于计算输入视频的听觉特征。特征融合回归模块用于对视觉特征和听觉特征进行融合回归，并进行回归预测短视频对应的情感值。长视频分割与处理模块将输入的原始长视频分割成等长的短视频，再利用前述视频内容特征提取模块、音频内容特征提取模块和特征融合回归模块计算每个短视频的情感值，进行拼接组成整个长视频情感序列，然后对拼接后的长视频情感序列进行平滑化处理，得到原始输入视频的情感曲线。

针对上述基于视频内容生成情感曲线的多源情感计算***，其多源情感计算方法为：

步骤1：通过视频切割工具将长视频V切割成等长度的短视频片段。

步骤2：各个短视频片段中提取视频采样帧，然后使用三维残差网络从连续的视频采样帧中提取短视频内容的视觉特征Feature_visual。

步骤3：计算各个短视频片段中音频的梅尔频率倒谱系数，将音频的梅尔频率倒谱系数作为输入提取短视频的听觉特征Feature_auditory。

步骤4：对于每一个短视频片段，将提取的Feature_visual和Feature_auditory进行融合，合并成统一的输入向量Feature，然后输入到回归器中，进而得到每一个短视频片段的情感值。

步骤5：对由前述步骤2～4得到每个短视频片段的情感值进行拼接形成长视频片段V的情感序列，并进行平滑处理。

相对于现有技术，本发明方法和***的优点和积极效果在于：

1、本发明基于视频内容生成情感曲线的多源情感计算***及方法，通过不同模态的视频数据(视觉和听觉)计算视频的时空特征，再对两种模态的特征进行融合和回归训练，得到短视频的情感值。再对长视频进行自动分割和情感计算，得到情感序列。由于情感序列在时间上的不连续性，本发明利用三阶样条插值对该序列进行插值处理，输出得到的平滑的情感曲线。

2、本发明基于视频内容生成情感曲线的多源情感计算***及方法，在视频视觉特征提取网络的设计中，利用了三维深度卷积网络，以有效地提取与视频帧上下文相关的时空特征。

3、本发明一种基于视频内容生成情感曲线的多源情感计算***及方法，在视频听觉特征提取网络的设计中，提出了基于梅尔频率倒谱系数的预处理方法，以使得提取出的听觉特征更符合人耳的特点。

5、本发明基于视频内容生成情感曲线的多源情感计算***及方法，在训练网络参数时使用大规模的人工标注的视频情感数据集，生成的视频情感曲线更加接近人类观众的真实体验，有利于后续的视频分析的进一步处理和利用。

附图说明

图1为本发明方法基于视频内容生成情感曲线的多源情感计算***示意图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明基于视频内容生成情感曲线的多源情感计算***，如图1所示，功能模块包括：视频内容特征提取模块、音频内容特征提取模块、特征融合回归模块与长视频分割与处理模块。

所述视频内容特征提取模块从输入视频中提取视频采样帧，然后使用三维残差网络从连续的视频采样帧中提取视频内容的时空特征(视觉特征)，输入特征融合回归模块。

所述音频内容特征提取模块计算输入视频的音频信息，计算其梅尔频率倒谱系数(Mel Frequerncy Cepstrum Coefficient,MFCC)，然后输入深度残差网络提取音频特征(听觉特征)，输入特征融合回归模块。

所述特征融合回归模块针对视频内容特征提取模块提取出的视觉特征和音频内容提取模块提取出的听觉特征进行融合回归，利用全连接网络进行回归预测短视频对应的情感值。

所述长视频分割与处理模块将输入的原始长视频分割成等长短视频，再对前述视频内容特征提取模块、音频内容特征提取模块和特征融合回归模块计算的都的每个短视频的情感值，进行拼接组成整个长视频情感序列，然后使用三阶样条差值对拼接后的长视频情感序列进行平滑化处理，得到原始输入视频的情感曲线。

针对上述基于视频内容生成情感曲线的多源情感计算***，如图1所示，其多源情感计算方法为：

步骤1：通过视频切割工具(FFmpeg)将长视频V切割成等长度的短视频片段；本发明中设计将长视频V等分为8秒钟的短视频片段，多余的部分被忽略。

步骤2：获取各个短视频片段中代表视觉信息的时空特征Feature_visual。其中，视觉特征提取的方法不限，包括但不限于人工设计特征、卷积神经网络、循环神经网络、长短期记忆网络和注意力机制。

本发明实施实例中，先通过帧采样的方式，每4帧抽取一帧作为关键帧。由于视频连续动态变化的特点，传统的卷积神经网络只能处理单帧图像，无法有效利用连帧的上下文信息。因此本发明中Feature_visual的提取主要使用18层的三维深度残差网络(3DimensionResNet, R3D)，3维卷积神经网络可以处理空间和时间信息并将其通过网络向前传播，输入的张量z_i在这种情况下是4维的，大小为3×T×H×W，其中3是视频每帧的通道数，通常是RGB； T是一个视频片段中的帧数，H和W分别表示帧的高度和宽度。在本发明实施实例中，每帧图像的大小(高和宽)放缩成112。深度残差网络的感受野在输入张量上沿着空间(H高度和 W宽度)和时间(T帧数)移动，进行卷积操作再经过ReLU激活函数后，生成输出张量。本发明三维深度残差网络采用通用效果最好的R3D结构。第i个3D卷积块的输出如公式:

z_i＝z_i-1+F(z_i-1；θ_i)

其中，F(z_i-1；θ_i)实现了权重为θ_i的卷积操作和应用了ReLU函数，z_i-1表示上一个3D卷积块的输出，z_i表示第i个3D卷积块的输出。18个3D卷积块的输出经过时空池化层和一层全连接神经网络生成128维的代表视觉信息的特征Feature_visual。R3D是一种3维时空卷积网络，3D卷积块是其基础组成，具体实现技术可参考文献Du Tran,Heng Wang,LorenzoTorresani, Jamie Ray,Yann LeCun,Manohar Paluri:A Closer Look atSpatiotemporal Convolutions for Action Recognition.CVPR 2018:6450-6459。ReLU函数是一种神经网络激活函数，实现技术可参考文献Xavier Glorot,Antoine Bordes,Yoshua Bengio:Deep Sparse Rectifier Neural Networks. AISTATS 2011:315-323。

步骤3：获取各个短视频片段中代表听觉信息的特征Feature_auditory。先计算音频的梅尔频率倒谱系数，再将音频的梅尔频率倒谱系数作为输入提取听觉特征。其中，听觉特征提取的确定方法不限，包括但不限于人工设计特征、神经网络和其它机器学习方法。

本发明实施例中，为了减小输入大小和模型大小，使用正弦差值方法将音频信号的采样率降到2000赫兹。提取音频的梅尔频率倒谱系数的听觉特征Feature_auditory主要使用深度残差网络(ResNet)的原理。本发明训练了18层ResNet，采用在ImageNet上预训练好的参数，更改其第一层卷积网络的输入大小为2×64，以将适配自然图像的三颜色通道更改为适配声音双声道的二通道。然后使用视频情感分析数据集训练微调18层ResNet模型的参数，微调后模型得到新的参数，更加适合情感分析的任务。最后输出为128维的代表听觉信息的特征 Feature_auditory。ResNet是一种卷积神经网络，实现技术可参考文献：Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun:Deep Residual Learning for ImageRecognition.CVPR 2016:770- 778。

步骤4：如图1所示，对于每一个短视频片段，将获得的Feature_visual和Feature_auditory进行融合，合并成统一的输入向量Feature，然后输入到回归器中，进而得到每一个短视频片段的情感值。其中融合方法包括但不限于神经网络、支持向量机等机器学习方法和数据融合技术，回归器包括但不限于支持向量回归、神经网络等机器学习方法，情感值包括但不限于2 维效价-唤起情感，情感离散分类和其它视频情感表示。

本发明实施例中，128维的特征向量Feature_visual和128维的特征向量Feature_auditory首先被归一化处理，以统一两者的返回和分布。然后，归一化后的Feature_visual和Feature_auditory会被拼接成统一的256维输入特征向量Feature。特征向量输入到2层的全连接网络中，输入为 256维，第一层输出为64维；输出为2维向量，分别表示情感唤起值和情感效价值，即 [Arousal,Valence]。全连接网络采用ReLU激活函数。

步骤5:对由前述步骤2～4得到各个短视频片段的情感值进行拼接，形成长视频V的情感序列，并进行平滑处理；

通过步骤2～4的方法的都每个短视频的情感值，每个短视频的情感值均产生一个2维情感空间中的点。然后再采用常用的拼接方法，将这些离散的点连接成折线。该折线即表示长视频V的情感序列，每个情感序列是一个二维点序列。相比之前的技术，本发明中这种基于深度学习模型预测的情感序列保证了效价-唤起2维情感之间的独立性。再对这个情感序列做三阶样条插值，形成一条光滑的情感曲线，输出该曲线。

步骤6：采用插值算法将平滑后的情感序列作为情感曲线输出。

为了验证生成的情感曲线的有效性，本发明还提出一种定量的情感曲线验证方法。用生成的情感曲线和观看者标注计算而来的情感序列进行相关性分析，计算两者的斯皮尔曼等级相关系数(Spearman's Rank Correlation Coefficient，SRCC)来定量衡量情感曲线的有效性。计算方式如公式：

其中，d_i＝rg(X_i)-rg(Y_i)是2个序列的排名大小之差，n是序列的长度，X表示本发明计算出来的情感序列，X_i表示其中的第i个值。Y表示对应的观众标注的情感序列，Y_i表示其中第i个值。rg(X_i)表示X_i在X中的排名，即按大小排序后的位置。同理rg(Y_i)也是。2个序列分别是长视频分割和处理模块输出的情感(Valence和Arousal)序列和对应的观众标注的情感序列。

Claims

1.基于视频内容生成情感曲线的多源情感计算***，其特征在于：包括视频内容特征提取模块、音频内容特征提取模块、特征融合回归模块与长视频分割与处理模块；

所述视频内容特征提取模块用于从输入视频中提取视觉特征；

所述音频内容特征提取模块用于计算输入视频的听觉特征；

所述特征融合回归模块用于对视觉特征和听觉特征进行融合回归，并进行回归预测短视频对应的情感值。

所述长视频分割与处理模块将输入的原始长视频分割成等长的短视频，再对前述视频内容特征提取模块、音频内容特征提取模块和特征融合回归模块计算得到的每个短视频的情感值，进行拼接组成整个长视频情感序列，然后对拼接后的长视频情感序列进行平滑化处理，得到原始输入视频的情感曲线。

2.如权利要求1所述基于视频内容生成情感曲线的多源情感计算***，其特征在于：多源情感计算方法为：

步骤1：通过视频切割工具将长视频V切割成等长度的短视频片段；

步骤2：各个短视频片段中提取视频采样帧，然后使用三维残差网络从连续的视频采样帧中提取短视频内容的视觉特征Feature_visual；

步骤3：计算各个短视频片段中音频的梅尔频率倒谱系数，将音频的梅尔频率倒谱系数作为输入提取短视频的听觉特征Feature_auditory；

步骤4：对于每一个短视频片段，将提取的Feature_visual和Feature_auditory进行融合，合并成统一的输入向量Feature，然后输入到回归器中，进而得到每一个短视频片段的情感值；

步骤5：对由前述步骤2～4得到每个短视频片段的情感值进行拼接形成长视频片段V的情感序列，并进行平滑处理；

3.如权利要求2所述基于视频内容生成情感曲线的多源情感计算***，其特征在于：步骤2中，三维深度残差网络采用通用效果最好的R3D结构，每帧图像的大小放缩成112；深度残差网络的感受野在输入张量上沿着空间和时间移动，进行卷积操作再经过ReLU激活函数后，生成输出张量。

4.如权利要求2所述基于视频内容生成情感曲线的多源情感计算***，其特征在于：步骤3中，使用正弦差值方法将音频信号的采样率降到2000赫兹，训练18层深度残差网络，并采用在ImageNet上预训练好的参数，更改其第一层卷积网络的输入大小为2×64，以将适配自然图像的三颜色通道更改为适配声音双声道的二通道；然后使用视频情感分析数据集训练微调18层ResNet模型的参数，微调后模型得到新的参数，输出为128维的代表听觉信息的特征Feature_auditory。

5.如权利要求2所述基于视频内容生成情感曲线的多源情感计算***，其特征在于：步骤3中，本发明实施例中，128维的特征向量Feature_visual和128维的特征向量Feature_auditory首先被归一化处理，以统一两者的返回和分布。然后，归一化后的Feature_visual和Feature_auditory会被拼接成统一的256维输入特征向量Feature。特征向量输入到2层的全连接网络中，输入为256维，第一层输出为64维；输出为2维向量，分别表示情感唤起值和情感效价值，即[Arousal,Valence]。全连接网络采用ReLU激活函数。

6.如权利要求2所述基于视频内容生成情感曲线的多源情感计算***，其特征在于：将生成的情感曲线和观看者标注计算而来的情感序列进行相关性分析，计算两者的斯皮尔曼等级相关系数来定量衡量情感曲线的有效性。