CN109815903B - 一种基于自适应融合网络的视频情感分类方法 - Google Patents

一种基于自适应融合网络的视频情感分类方法 Download PDF

Info

Publication number
CN109815903B
CN109815903B CN201910069977.1A CN201910069977A CN109815903B CN 109815903 B CN109815903 B CN 109815903B CN 201910069977 A CN201910069977 A CN 201910069977A CN 109815903 B CN109815903 B CN 109815903B
Authority
CN
China
Prior art keywords
video
network
optical flow
layer
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910069977.1A
Other languages
English (en)
Other versions
CN109815903A (zh
Inventor
王瀚漓
易云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201910069977.1A priority Critical patent/CN109815903B/zh
Publication of CN109815903A publication Critical patent/CN109815903A/zh
Application granted granted Critical
Publication of CN109815903B publication Critical patent/CN109815903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种基于自适应融合网络的视频情感分类方法,包括以下步骤:1)构建自适应融合网络模型;2)将输入的视频集人分为训练集和测试集,并获取视频集中每个视频的三个模态特征向量,所述的三个模态为RGB、光流和音频;3)对于训练集,分别将三个模态的特征向量输入自适应融合网络,并采用基于梯度的优化算法进行优化,得到训练好的自适应融合网络模型Model;4)对于测试集,将每个视频的特征向量输入训练好的网络模型Model,并预测视频情感进行分类。与现有技术相比,本发明具有视频情感识别准确率高、描述视频情感准确、数据输入健壮、鲁棒性好等优点。

Description

一种基于自适应融合网络的视频情感分类方法
技术领域
本发明涉及社交网络和多媒体技术领域,尤其是涉及一种基于自适应融合网络的视频情感分类方法。
背景技术
在过去的十年中,社交网络和多媒体技术取得巨大的成功,导致产生海量的视频,所以自动分析视频内容变得越来越重要。视频情感分析是视频内容分析领域一个活跃的研究课题。视频片段的情感可以被定义为当人们观看视频时产生情感的强度和类型。视频情感分析的目标是自动识别视频引发的情感。与其他视频内容分析技术一样,情感分析具有大量的应用场景,如:人机交互、基于情感的个性化内容传送等。
虽然近年来对情感分析的研究取得了令人瞩目的进展,但对电影所引发的情感分类仍然是一项具有挑战的任务,并且视频情感分析的实验结果较低。首先,由于认知偏差,环境影响等原因,难以获得可靠的标签。其次,视频低层特征与观众的情感反应之间的关系仍然没有得到很好的理解,而且该关系可能会随着观众或环境的不同而变化。因此,近年来MediaEval组织了针对情感分析的比赛。
一般而言,人们通过多种模态的信息来感知世界,如:视觉和声音等。当观看恐怖电影时,图像和声音让人感到恐惧。先前的研究使用多个视听特征,但是其中大多数使用经典的方案(如:前融合,后融合等)来组合多个特征,所以忽略多个模态之间的相关性。之前的场景和声音会影响目前的情感,因此多个模态的权重和时间输入的相关性对于分析视频情感非常重要。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种鲁棒性好、准确率高的基于自适应融合网络的视频情感分类方法。
为了解决这些问题,本发明设计一个自适应融合网络,它可以分别学习多个模态和时间输入的权重,具体而言,提出统计数据层来获得鲁棒的输入信息,提出时间自适应融合层来组合多个时间输入,提出多模自适应融合层来组合多个模态。选择从三个预训练卷积神经网络提取的三个特征作为自适应融合网络的输入,再将这些特征向量分别馈送到递归神经网络(Recurrent Neural Networks,RNN)细胞。由于人类从所有时间输入中感知情感,所以RNN细胞的所有输出被连接到一个共享参数的全连接层(Fully Connected,FC)。在优化该网络的过程中,使用基于梯度的优化算法分别学习时间输入和特征的自适应权重。
发明的目的可以通过以下技术方案来实现:
一种基于自适应融合网络的视频情感分类方法,用以对电影所引发的情感进行分类回归,包括以下步骤:
1)构建自适应融合网络模型,包括:依次设置的统计数据层、循环层、全连接层、时间自适应融合层、多模自适应融合层和损失函数层;
2)将输入的视频集分为训练集和测试集,并获取视频集中每个视频的三个模态特征向量,所述的三个模态为RGB、光流和音频;
3)对于训练集,分别将三个模态的特征向量输入自适应融合网络,并采用基于梯度的优化算法进行优化,得到训练好的自适应融合网络模型Model;
4)对于测试集,将每个视频的特征向量输入训练好的网络模型Model,并预测视频情感进行分类。
所述的步骤1)具体包括以下步骤:
1a)采用由RGB模态、光流模态和音频模态构成的序列表示给定的视频,记每个模态的序列为V={v1,v2,…,vL},将序列V分成T=L/N个分段Si={vi,vi+1,…,vi+N},计算时间序列上所有分段Si的算术平均值E(Si)和标准差D(Si),则在经过统计数据层后,序列V由X={x1,…,xT}表示,其中,L为序列V的长度,N为采样间隔,i∈[1,T],xi=con(E(Si),D(Si))为E(Si)和D(Si)的连接;
1b)给定模态m的输入序列
Figure GDA0002547526230000021
m∈[1,M],M为模态总数,经过循环神经网络(Recurrent Neural Network,RNN)层和全连接(Fully Connected,FC)层后,输入序列Xm映射到全连接层的输出
Figure GDA0002547526230000022
Figure GDA0002547526230000023
Figure GDA0002547526230000024
其中,f为循环层函数,
Figure GDA0002547526230000031
为第m个模态的RNN隐藏状态,T为输入序列Xm的长度,Wh为映射隐藏状态H的权重矩阵,b为偏置项;在分类任务中,
Figure GDA0002547526230000032
是一个1×C的矩阵,C是数据集中情感类别的个数。在回归任务中,
Figure GDA0002547526230000033
是一个1×1的矩阵。然后,时间自适应融合层将
Figure GDA0002547526230000034
映射到该层的输出pm,则有:
Figure GDA0002547526230000035
其中,et是第t个输出的自适应权重,⊙表示矩阵的数乘运算;
1c)以pm作为输入,多模自适应融合层的输出p定义为:
Figure GDA0002547526230000036
其中,um是第m个模态的自适应权重。
所述的步骤2)中,获取RGB模态、光流模态和音频模态的特征向量具体包括以下步骤:
2a)提取视频的RGB图像,基于Inception-V3网络模型,在Kinetics数据集上训练模型MRGB,以每一个视频的RGB图像作为输入,使用模型MRGB获取RGB图像的特征向量;
2b)采用TV-L1光流算法,从视频的第二帧开始,计算每一帧的X和Y方向光流矩阵,以光流矩阵作为Inception-V3网络的输入,在Kinetics数据集上训练模型M光流,以每一个视频的光流作为输入,采用模型M光流获取光流的特征向量;
2c)提取视频的音频文件,基于VGGish网络模型,在AudioSet数据集上训练模型M音频,以每一个视频的音频作为输入,采用模型M音频获取所有音频文件的特征向量。
所述的步骤3)具体包括以下步骤:
3a)在网络初始化时,所有时间输出和所有模态具有相同的权重,则初始化时间权重et和多模态权重um均为1;
3b)针对分类问题,定义交叉熵损失函数LCE(p,class)为:
Figure GDA0002547526230000037
其中,class为类索引,j∈[1,C],C是数据集中情感类别的个数;
针对回归问题,定义均方误差损失函数LMSE(p,y)为:
Figure GDA0002547526230000041
其中,y为当前样本的标签,B为批量大小;
3c)使用基于梯度的优化算法优化自适应融合网络,在训练集上训练完成后,得到训练好的自适应融合网络模型Model。
所述的步骤4)具体包括以下步骤:
4a)采用训练好的网络模型Model初始化自适应融合网络;
4b)针对测试集上的每一个视频,以该视频的RGB模态、光流模态和音频模态的特征向量作为输入;
4c)输出该视频引发的情感,在AIMT15数据集,对于Arousal域输出Passive、Neutral或Active,对于Valence域输出Negative、Neutral或Positive,在EIMT16数据集,输出Valence-Arousal域的坐标,Valence-Arousal域的坐标可以被转换为离散的情感类别(如:高兴、愤怒、悲伤等)。
与现有技术相比,本发明具有以下优点:
一、视频情感识别准确率高:本发明提出自适应融合网络来分别学习多个模态和时间输入的权重,这是第一次在视频情感分析领域学习上述自适应的权重,在两个公开的视频情感数据集上,本发明具有较高的视频情感识别准确率。
二、描述视频情感准确:本发明为了描述视频情感,从三个卷积神经网络中提取特征向量以表示音频、RGB和光流模态,包括:VGGish网络、以RGB为输入的Inception-V3网络和以光流为输入的Inception-V3网络。
三、数据输入健壮:本发明为了获得健壮的输入,提出统计数据层,通过引入该层,可以减少光流的噪声信号,同时将音频特征和视觉特征的向量进行组合,提出时间自适应融合层来组合多个时间输入,提出多模自适应融合层来组合多个模态。
附图说明
图1为本发明的原理框架示意图。
图2为本发明自适应融合网络模型图。
图3为情感类别和Valence-Arousal域的对应关系图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1和图2所示,本发明提供一种基于自适应融合网络的视频情感分类方法,用以实现电影、视频的情感分类,包括以下步骤:
步骤1:设计自适应融合网络模型,该网络模型包括:统计数据层、循环层、全连接层、时间自适应融合层、多模自适应融合层和损失函数层,具体为:
1a)采用由RGB模态、光流模态和音频模态构成的序列表示给定的视频,记每个模态的序列为V={v1,v2,…,vL},将序列V分成T=L/N个分段Si={vi,vi+1,…,vi+N},计算时间序列上所有分段Si的算术平均值E(Si)和标准差D(Si),则在经过统计数据层后,序列V由X={x1,…,xT}表示,其中,L为序列V的长度,N为采样间隔,i∈[1,T],xi=con(E(Si),D(Si))为E(Si)和D(Si)的连接;
1b)给定模态m的输入序列
Figure GDA0002547526230000051
m∈[1,M],M为模态总数,经过循环神经网络(Recurrent Neural Network,RNN)层和全连接(Fully Connected,FC)层后,输入序列Xm映射到全连接层的输出
Figure GDA0002547526230000052
Figure GDA0002547526230000053
Figure GDA0002547526230000054
其中,f为循环层函数,
Figure GDA0002547526230000055
为第m个模态的RNN隐藏状态,T为输入序列Xm的长度,Wh为映射隐藏状态H的权重矩阵,b为偏置项;在分类任务中,
Figure GDA0002547526230000056
是一个1×C的矩阵,C是数据集中情感类别的个数。在回归任务中,
Figure GDA0002547526230000057
是一个1×1的矩阵。然后,时间自适应融合层将
Figure GDA0002547526230000058
映射到该层的输出pm,则有:
Figure GDA0002547526230000059
其中,et是第t个输出的自适应权重,⊙表示矩阵的数乘运算。
1c)以pm作为输入,多模自适应融合层的输出p定义为:
Figure GDA0002547526230000061
其中,um是第m个模态的自适应权重。
步骤2:将视频集划分成训练集和测试集,计算每一个视频三个模态(即RGB、光流和音频)的特征向量。具体为:
2a)从视频中提取RGB图像,基于Inception-V3网络模型,在Kinetics数据集上训练模型MRGB。以每一个视频的RGB图像作为输入,使用MRGB计算RGB图像的特征向量;
2b)使用TV-L1光流算法,从视频的第二帧开始,计算每一帧的X和Y方向光流矩阵。以光流矩阵作为Inception-V3网络的输入,在Kinetics数据集上训练模型M光流。以每一个视频的光流作为输入,使用M光流计算光流的特征向量;
2c)从视频中提取音频文件,基于VGGish网络模型,在AudioSet数据集上训练模型M音频。以每一个视频的音频作为输入,使用M音频来计算所有音频文件的特征向量。
步骤3:在训练集上,分别将三个模态的特征向量输入自适应融合网络,使用基于梯度的优化算法来优化该网络,得到训练好的网络模型Model。具体为:
3a)在网络初始化时,所有时间输出和所有模态具有相同的权重,所以初始化时间权重et和多模态权重um为1;
3b)针对分类问题,定义交叉熵损失函数如下
Figure GDA0002547526230000062
其中,class为类索引,j∈[1,C],C是数据集中情感类别的个数。针对回归问题,定义均方误差损失函数如下:
Figure GDA0002547526230000063
其中,y是当前样本的标签,B是批量大小;
3c)使用基于梯度的优化算法来优化自适应融合网络。在训练集上训练完成后,得到训练好的网络模型Model。
步骤4:载入步骤3中训练好的网络模型Model,在测试集上,将每一个视频的特征向量输入该网络,预测视频所引发的情感。具体为:
4a)使用步骤3中训练好的网络模型Model初始化自适应融合网络;
4b)针对测试集上的每一个视频,以该视频的RGB模态、光流模态和音频模态的特征向量作为输入;
4c)输出该视频引发的情感并进行分类,在AIMT15数据集,对于Arousal域输出Passive、Neutral或Active,对于Valence域输出Negative、Neutral或Positive。在EIMT16数据集,输出Valence-Arousal域的坐标。如图3所示,Valence-Arousal域的坐标可以被转换为离散的情感类别(如:高兴、愤怒、悲伤等)。
为了验证本发明的性能,设计了以下两组实验。
实验一:在MediaEval 2015 Affective Impact of Movies Task(AIMT15)数据集,与基准方法的比较。
AIMT15数据集是LIRIS-ACCEDE数据集的扩展,包括从199部电影中提取的10,900个短视频剪辑。这些视频剪辑分别被分为6,144个训练视频和4,756个测试视频。AIMT15数据集中存在两个域(即:Arousal和Valence)。对于每个域,所有电影被分成三类(即:Arousal域包括Passive、Neutral和Active,Valence域包括Negative、Neutral和Positive)。AIMT15的官方评估指标是准确率(ACCuracy,ACC)。
前融合和后融合是结合多个输入模态的常用技术,它们被许多***采用。在该实验中,前融合网络直接连接三个输入模态的特征向量,并将连接后的向量作为LSTM的输入,而后融合网络将三个输入模态的特征向量单独馈送给LSTM,然后组合这三个LSTM的输出。为了进行公平的比较,除融合方法外,所有评估都使用相同的实验设置。实验结果如表1所示。
表1在AIMT15上与基准方法进行比较
Figure GDA0002547526230000071
从表1的结果中可知,在AIMT15数据集上,本发明的识别准确率高于前融合网络和后融合网络。
实验二:在MediaEval 2016 Emotional Impact of Movies Task(EIMT16)数据集,与基准方法的比较。
EIMT16数据集包含从电影中提取的11,000个短视频剪辑,被分为9,800个训练视频和1,200个测试视频。EIMT16的官方评估指标是均方误差(Mean Squared Error,MSE)和Pearson相关系数(Pearson Correlation Coefficient,PCC)。为了进行公平的比较,除融合方法外,所有评估都使用相同的实验设置。实验结果如表2所示。
表2在EIMT16上与基准方法进行比较
Figure GDA0002547526230000081
从表2的结果中可知,在EIMT16数据集上,本发明的识别准确率高于前融合网络和后融合网络。
以上所述仅为本发明的优选实施例,并不用于限制本发明。本发明还包括由以上技术特征任意组合所组成的技术方案。

Claims (4)

1.一种基于自适应融合网络的视频情感分类方法,用以对电影所引发的情感进行分类回归,其特征在于,包括以下步骤:
1)构建自适应融合网络模型,包括:依次设置的统计数据层、循环层、全连接层、时间自适应融合层、多模自适应融合层和损失函数层,具体包括以下步骤:
1a)采用由RGB模态、光流模态和音频模态构成的序列表示给定的视频,记每个模态的序列为V={v1,v2,…,vL},将序列V分成T=L/N个分段Si={vi,vi+1,…,vi+N},计算时间序列上所有分段Si的算术平均值E(Si)和标准差D(Si),则在经过统计数据层后,序列V由X={x1,…,xT}表示,其中,L为序列V的长度,N为采样间隔,i∈[1,T],xi=con(E(Si),D(Si))为E(Si)和D(Si)的连接;
1b)给定模态m的输入序列
Figure FDA0002547526220000011
M为模态总数,经过循环神经网络层和全连接层后,输入序列Xm映射到全连接层的输出
Figure FDA0002547526220000012
Figure FDA0002547526220000013
Figure FDA0002547526220000014
其中,f为循环层函数,
Figure FDA0002547526220000015
为第m个模态的RNN隐藏状态,T为输入序列Xm的长度,Wh为映射隐藏状态H的权重矩阵,b为偏置项;
时间自适应融合层将
Figure FDA0002547526220000016
映射到该层的输出pm,则有:
Figure FDA0002547526220000017
其中,et是第t个输出的自适应权重,⊙表示矩阵的数乘运算;
1c)以pm作为输入,多模自适应融合层的输出p定义为:
Figure FDA0002547526220000018
其中,um是第m个模态的自适应权重;
2)将输入的视频集分为训练集和测试集,并获取视频集中每个视频的三个模态特征向量,所述的三个模态为RGB、光流和音频;
3)对于训练集,分别将三个模态的特征向量输入自适应融合网络,并采用基于梯度的优化算法进行优化,得到训练好的自适应融合网络模型Model;
4)对于测试集,将每个视频的特征向量输入训练好的网络模型Model,预测视频情感进行分类。
2.根据权利要求1所述的一种基于自适应融合网络的视频情感分类方法,其特征在于,所述的步骤2)中,获取RGB模态、光流模态和音频模态的特征向量具体包括以下步骤:
2a)提取视频的RGB图像,基于Inception-V3网络模型,在Kinetics数据集上训练模型MRGB,以每一个视频的RGB图像作为输入,使用模型MRGB获取RGB图像的特征向量;
2b)采用TV-L1光流算法,从视频的第二帧开始,计算每一帧的X和Y方向光流矩阵,以光流矩阵作为Inception-V3网络的输入,在Kinetics数据集上训练模型M光流,以每一个视频的光流作为输入,采用模型M光流获取光流的特征向量;
2c)提取视频的音频文件,基于VGGish网络模型,在AudioSet数据集上训练模型M音频,以每一个视频的音频作为输入,采用模型M音频获取所有音频文件的特征向量。
3.根据权利要求1所述的一种基于自适应融合网络的视频情感分类方法,其特征在于,所述的步骤3)具体包括以下步骤:
3a)在网络初始化时,所有时间输出和所有模态具有相同的权重,则初始化时间权重et和多模态权重um均为1;
3b)针对分类问题,定义交叉熵损失函数LCE(p,class)为:
Figure FDA0002547526220000021
其中,class为类索引,j∈[1,C],C是数据集中情感类别的个数;
针对回归问题,定义均方误差损失函数LMSE(p,y)为:
Figure FDA0002547526220000022
其中,y为当前样本的标签,B为批量大小;
3c)使用基于梯度的优化算法优化自适应融合网络,在训练集上训练完成后,得到训练好的自适应融合网络模型Model。
4.根据权利要求1所述的一种基于自适应融合网络的视频情感分类方法,其特征在于,所述的步骤4)具体包括以下步骤:
4a)采用训练好的网络模型Model初始化自适应融合网络;
4b)针对测试集上的每一个视频,以该视频的RGB模态、光流模态和音频模态的特征向量作为输入;
4c)输出该视频引发的情感。
CN201910069977.1A 2019-01-24 2019-01-24 一种基于自适应融合网络的视频情感分类方法 Active CN109815903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910069977.1A CN109815903B (zh) 2019-01-24 2019-01-24 一种基于自适应融合网络的视频情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910069977.1A CN109815903B (zh) 2019-01-24 2019-01-24 一种基于自适应融合网络的视频情感分类方法

Publications (2)

Publication Number Publication Date
CN109815903A CN109815903A (zh) 2019-05-28
CN109815903B true CN109815903B (zh) 2020-10-02

Family

ID=66603018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910069977.1A Active CN109815903B (zh) 2019-01-24 2019-01-24 一种基于自适应融合网络的视频情感分类方法

Country Status (1)

Country Link
CN (1) CN109815903B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263916B (zh) * 2019-05-31 2021-09-10 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110519653B (zh) * 2019-07-22 2021-09-03 同济大学 一种基于事实转移的情感嵌入视频描述方法
CN110399841B (zh) * 2019-07-26 2022-03-25 北京达佳互联信息技术有限公司 一种视频分类方法、装置及电子设备
CN110647804A (zh) * 2019-08-09 2020-01-03 中国传媒大学 一种暴力视频识别方法、计算机***和存储介质
CN110532911B (zh) * 2019-08-19 2021-11-26 南京邮电大学 协方差度量驱动小样本gif短视频情感识别方法及***
CN111242155A (zh) * 2019-10-08 2020-06-05 台州学院 一种基于多模深度学习的双模态情感识别方法
CN110826475B (zh) * 2019-11-01 2022-10-04 北京齐尔布莱特科技有限公司 一种检测近重复视频的方法、装置及计算设备
CN111143615B (zh) * 2019-12-12 2022-12-06 浙江大学 一种短视频情感类别的识别装置
CN111274440B (zh) * 2020-01-19 2022-03-25 浙江工商大学 一种基于视觉和音频内容相关度挖掘的视频推荐方法
CN111460223B (zh) * 2020-02-25 2023-04-18 天津大学 基于深度网络的多模态特征融合的短视频单标签分类方法
CN111507421A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种基于视频的情感识别方法及装置
CN112069884B (zh) * 2020-07-28 2024-03-12 中国传媒大学 一种暴力视频分类方法、***和存储介质
CN111914731B (zh) * 2020-07-28 2024-01-23 上海电力大学 一种基于自注意力机制的多模态lstm的视频动作预测方法
CN112487949B (zh) * 2020-11-27 2023-05-16 华中师范大学 一种基于多模态数据融合的学习者行为识别方法
CN113095428B (zh) * 2021-04-23 2023-09-19 西安交通大学 一种融合脑电和刺激源信息的视频情感分类方法及***
CN113420591B (zh) * 2021-05-13 2023-08-22 华东师范大学 基于情感的occ-pad-ocean联邦认知建模方法
CN113435496B (zh) * 2021-06-24 2022-09-02 湖南大学 一种基于注意力机制的自适应融合的多模态情感分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN105138991A (zh) * 2015-08-27 2015-12-09 山东工商学院 一种基于情感显著性特征融合的视频情感识别方法
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN108648746A (zh) * 2018-05-15 2018-10-12 南京航空航天大学 一种基于多模态特征融合的开放域视频自然语言描述生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN105138991A (zh) * 2015-08-27 2015-12-09 山东工商学院 一种基于情感显著性特征融合的视频情感识别方法
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN108648746A (zh) * 2018-05-15 2018-10-12 南京航空航天大学 一种基于多模态特征融合的开放域视频自然语言描述生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An audiovisual emotion recognition system;Minoru Sasaki等;《SPIE》;20080109;第1-6页 *
Convolutional neural networks and feature fusion for bimodal emotion recognition on the emotiW 2016 challenge;Jingjie Yan等;《2017 10th International Congress on Image and Signal Processing,BioMedical Engineering and Informatics (CISP-BMEI)》;20180227;第1-10页 *
Fusion of classifier predictions for audio-visual emotion recognition;Fatemeh Noroozi等;《2016 23rd International Conference on Pattern Recognition (ICPR)》;20170424;第1-8页 *
基于主角和卷积神经网络的视频情感内容分析方法研究;江政波;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170715(第07期);I138-898 *

Also Published As

Publication number Publication date
CN109815903A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN109815903B (zh) 一种基于自适应融合网络的视频情感分类方法
Muhammad et al. Cost-effective video summarization using deep CNN with hierarchical weighted fusion for IoT surveillance networks
CN109874053B (zh) 基于视频内容理解和用户动态兴趣的短视频推荐方法
CN111026914B (zh) 视频摘要模型的训练方法、视频摘要生成方法及装置
WO2020177673A1 (zh) 一种视频序列选择的方法、计算机设备及存储介质
CN111783620A (zh) 表情识别方法、装置、设备及存储介质
CN114419509B (zh) 一种多模态情感分析方法、装置及电子设备
Cai et al. Video based emotion recognition using CNN and BRNN
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
Wei et al. Cross-modal transmission strategy
Baddar et al. On-the-fly facial expression prediction using lstm encoded appearance-suppressed dynamics
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
Ashok Kumar et al. A transfer learning framework for traffic video using neuro-fuzzy approach
CN114201516A (zh) 一种用户画像构建的方法、信息推荐的方法以及相关装置
Yu et al. Hand gesture recognition based on attentive feature fusion
CN112101154B (zh) 视频分类方法、装置、计算机设备和存储介质
CN112347965A (zh) 一种基于时空图的视频关系检测方法和***
Elabora et al. Evaluating citizens’ sentiments in smart cities: A deep learning approach
Lv et al. Spatio-temporal attention model based on multi-view for social relation understanding
CN116958624A (zh) 指定材质的识别方法、装置、设备、介质及程序产品
CN115171014A (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
CN116932862A (zh) 冷启动对象推荐方法、装置、计算机设备和存储介质
CN112084371B (zh) 一种电影多标签分类方法、装置、电子设备以及存储介质
CN114647787A (zh) 一种基于多模态数据的用户个性化推荐方法
CN113704544A (zh) 一种视频分类方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant