CN111178389A - 基于多通道张量池化的多模态深度分层融合情感分析方法 - Google Patents

基于多通道张量池化的多模态深度分层融合情感分析方法 Download PDF

Info

Publication number
CN111178389A
CN111178389A CN201911244389.3A CN201911244389A CN111178389A CN 111178389 A CN111178389 A CN 111178389A CN 201911244389 A CN201911244389 A CN 201911244389A CN 111178389 A CN111178389 A CN 111178389A
Authority
CN
China
Prior art keywords
modal
tensor
data
order
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911244389.3A
Other languages
English (en)
Other versions
CN111178389B (zh
Inventor
唐佳佳
金宣妤
孔万增
张建海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201911244389.3A priority Critical patent/CN111178389B/zh
Publication of CN111178389A publication Critical patent/CN111178389A/zh
Application granted granted Critical
Publication of CN111178389B publication Critical patent/CN111178389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于多通道张量池化的多模态深度分层融合情感分析方法。基于注意力机制方法,可以对多模态数据设定相应权重,划分不同模态数据的重要程度,从而根据不同模态数据对任务的不同贡献程度,在融合部分放大贡献程度大的多模态数据在交互时的作用。而相对于单通道多项式张量池化模块,多通道多项式张量池化模块能够从细粒度层面获得鲁棒性高的局部高维度复杂非线***互信息。本发明在判定多模态数据重要程度基础上,能从细粒度层面刻画稳定的局部高维复杂动态交互信息,是对当前情感识别领域的多模态融合框架的有效补充。

Description

基于多通道张量池化的多模态深度分层融合情感分析方法
技术领域
本发明属于自然语言处理、视觉、语音交叉领域内的多模态情感识别领域,具体涉及一种基于注意力机制的多通道多项式张量池化技术,对多模态信息进行细粒度分层融合,从而判断被试情感状态的方法。
背景技术
如何有效的判断个体情感状态一直是目前的研究热点。例如商品网站可以根据消费者的面部表情、语音或者文本评价,分析判断消费者对某个特定商品的评价,从而得到消费者对商品的情感反馈(消极情感或者是积极情感)。
单模态数据例如面部表情、语音数据或者文本数据分别都可以用来进行情感状态识别,但是单模态数据并不足以完全表征某种情感状态,而多模态数据可以对情感识别任务按照多个角度进行信息补充(例如单从文本信息分析,可能只能进行模糊情感状态判别,但结合表情信息可以更进一步判定情感类型。例如个体可以满面笑容的说“你可真讨厌”,单从文本“你可真讨厌”可以判定个体当前的情感效价是消极的,但是结合个体的面部表情却得到截然相反的情感效价判定——积极情绪),同时多模态数据之间的交互信息可以作为多个模态数据所包含的共同特征模式,增强情感识别任务的鲁棒性。
当前的多模态数据融合方法一般是从粗粒度视角进行分析,并且一般只考虑双线性或者是三线性这两种简单的线性融合方法,只能获得多模态数据之间的低维简单交互信息。同时现有基于张量的线性融合方法,是对融合得到的张量数据进行整体分解,增加了存储负担以及计算复杂度(因为随着融合阶数的增加,所需存储容量将呈指数级增长趋势),使得无法进行更高阶更复杂的交互。同时现有多模态交互模型认为每个模态数据在交互时的重要程度是一样的,并未对多个模态数据赋予不同的权重信息,使得最终的任务精度有所偏差。
发明内容
本发明的目的是针对现有技术的不足,提出基于多通道张量池化的多模态深度分层融合情感分析方法。首先,对多模态数据附加一个注意力网络,对每个模态设置不同的权重信息,表征不同的重要程度(能够放大贡献程度大的模态数据在交互部分的作用)。其次,对通过注意力网络得到的多模态数据进行多通道张量池化表征(增强数据表征的稳定性)。最后,将多通道张量池化表征数据进行深度分层循环融合,得到的全局信息表征可进行情感任务判别。
本发明所采用的技术方案是:
步骤1、获取多模态信息数据
模态是信息的来源或者形式,而所述的多模态信息数据包括语音、视频、文字等可以记录人情绪信息的媒介数据。
步骤2、多模态信息数据预处理
为了使得每个模态信息数据的特征数据分布差异不要过大,采用长短期记忆(LSTM,Long Short-Term Memory)网络或者门控循环单元(GRU,Gated Recurrent)网络,分别提取每个模态信息数据各时刻的短期记忆向量作为该时刻的特征向量;
Figure BDA0002307123420000021
其中
Figure BDA0002307123420000022
代表第m个模态向量的第t个时刻对应的特征向量,即是LSTM网络第t个时刻的短期记忆向量,gout为LSTM网络的输出门,C(t)为LSTM网络的长时记忆单元,f为激活函数。
步骤3、多模态数据信息组织
将步骤2预处理后的各模态信息数据特征向量组织成伪二维矩阵G,第一个维度为时间维度,第二个维度为模态维度,矩阵中的每一个元素代表的是对应时刻模态的特征向量;
Figure BDA0002307123420000023
其中T表示数据时间维度的大小,M表示模态数;
步骤4、注意力机制设置
针对步骤3所得伪二维矩阵G,对所有时刻所有模态数据设置一个注意力网络,得到新的伪二维矩阵G1
Figure BDA0002307123420000024
其中
Figure BDA0002307123420000025
分别为各模态
Figure BDA0002307123420000026
第t个时刻的权重;
Figure BDA0002307123420000027
表示模乘。
步骤5、多模态信息的多通道高阶多项式张量池化操作
5.1初始化迭代次数k=1,时间维度大小T0=T;
5.2在大小为T0时间维度上,对伪二维矩阵Gk进行时间窗口内任意两模态所有特征向量拼接,得到新的特征向量zij;然后根据公式(4)对zij进行高阶(P阶)多项式融合操作得到P阶数据张量Zp
Figure BDA0002307123420000031
其中
Figure BDA0002307123420000032
表示张量积操作,i,j∈[1,M];
上述时间窗口长度为T1、步长为s;
再对Zp按照P阶张量的各维度进行C个单通道低秩张量池化操作,最终获得C个新的特征向量
Figure BDA0002307123420000033
其中特征向量
Figure BDA0002307123420000034
的第h个数据元素zh如下:
Figure BDA0002307123420000035
其中Wh为P阶张量权重,i1,…,ip为P阶张量每一个维度的下标;
对上述C个新的特征向量
Figure BDA0002307123420000036
进行最大池化,得到该时间窗口内两模态信息融合的局部特征向量
Figure BDA0002307123420000037
其中
Figure BDA0002307123420000038
的第h个数据元素z′h如下:
Figure BDA0002307123420000039
其中C为同一个时间窗口内的模态信息进行单通道张量池化操作的次数,即为多通道张量池化操作的通道数;Whc为第c个通道的P阶张量权重;
对伪二维矩阵Gk内所有模态特征向量均进行上述两模态融合操作得到若干个
Figure BDA00023071234200000310
最终构建大小为
Figure BDA00023071234200000311
的伪二维矩阵Gk+1
5.3判断是否满足k≥N,N为最大迭代次数,若是则输出当前伪二维矩阵Gk+1,反之则重置k=k+1,
Figure BDA00023071234200000312
并跳转至步骤5.2。
步骤6、多模态全局交互
对步骤(5)输出的伪二维矩阵Gk+1内所有特征向量拼接,得到新的特征向量z′;然后对z′进行高阶(P阶)多项式融合操作(如公式(4))得到P阶数据张量Z′p,,再对Z′p按照P阶张量的各维度进行多通道低秩张量池化操作(如公式(6)),最终得到全局特征向量z。
步骤7、多模态信息数据分类
将步骤(6)得到的全局交互向量z与事先的情绪类别标签进行对比,最终得到分类的结果。
所述的情绪类别标签为步骤(1)采集情绪模态信息数据时事先标记的情绪类别标签。
本发明的有益效果是:本发明结合基于注意力机制方法,对多模态数据设定相应权重划分不同模态数据的重要程度,从而根据不同模态数据对任务的贡献程度,在融合部分放大贡献程度大的模态数据进行交互;其次,采用多通道张量池化操作,克服了单通道张量池化存在的高维复杂交互不稳定的问题。本发明基于多模态数据的不同贡献程度进行迭代融合,并从细粒度层面刻画了鲁棒性强的稳定高维复杂动态交互信息,是对当前情感识别领域的多模态融合框架的有效补充。
附图说明
图1为本发明流程图;
图2为本发明多模态信息的多通道高阶多项式张量池化操作流程图;
图3为本发明分层融合框架图;
图4为注意力机制示意图;
图5为单通道多项式张量池化模块示意图;
图6为多通道多项式张量池化模块示意图。
具体实施方式
下面结合附图,对本发明方法做详细描述。
本发明基于多通道张量池化的多模态深度分层融合情感分析方法如图1所示:
步骤1、通过现有技术获取个体的文本、视频、音频三种模态信息数据
根据文本信息只能得到模糊的情感状态判定,即无法单从文本信息就能准确判定情感类型(例如消极情感或者是积极情感);根据视频中个体的面部表情,可以初步判定情感效价(积极还是消极);根据某段时间内声音的起伏状态(例如幅值大小),可以比较客观的判断情感激活程度。
步骤2、多模态信息数据预处理
为了使得每个模态信息数据的特征数据分布差异不要过大,采用长短期记忆(LSTM,Long Short-Term Memory)网络或者门控循环单元(GRU,Gated Recurrent)网络,分别提取每个模态信息数据各时刻的短期记忆向量作为该时刻的特征向量;
Figure BDA0002307123420000051
其中
Figure BDA0002307123420000052
代表第m个模态向量的第t个时刻对应的特征向量,即是LSTM网络第t个时刻的短期记忆向量,gout为LSTM网络的输出门,C(t)为LSTM网络的长时记忆单元,f为激活函数。
步骤3、多模态数据信息组织
将步骤2预处理后的各模态信息数据特征向量组织成伪二维矩阵G,第一个维度为时间维度(T=8),第二个维度为模态维度(M=3),矩阵中的每一个元素代表的是对应时刻模态的特征向量;
Figure BDA0002307123420000053
其中T表示数据时间维度的大小,M表示模态数;
步骤4、注意力机制设置
针对步骤3所得伪二维矩阵G,对所有时刻所有模态数据设置一个注意力网络,得到新的伪二维矩阵G1
Figure BDA0002307123420000054
其中
Figure BDA0002307123420000055
分别为各模态
Figure BDA0002307123420000056
第t个时刻的权重;
Figure BDA0002307123420000057
表示模乘。
Figure BDA0002307123420000058
分别为文本、视频、音频三个模态的特征向量。
步骤5、多模态信息的多通道高阶多项式张量池化操作:首先将时间窗口沿着模态维度进行扫描分别得到[视频模态,音频模态]、[文本模态,音频模态]以及[文本模态,视频模态],模态维度扫描结束再沿着时间维度进行扫描,从而第一层可以得到12个新的特征向量作为第二层伪二维矩阵G2的元素,再在第二层特征向量上进行两两模态信息数据融合,则在第二个层上可以得到6个新的特征向量作为第三层伪二维矩阵G3的元素,最后在第三层上使得时间窗口囊括当前层的所有节点进行融合,将最终得到的输出特征向量作为情感状态判定依据。
5.1初始化迭代次数k=1,时间维度大小T0=T;
5.2在大小为T0时间维度上,如图3对伪二维矩阵Gk进行时间窗口内任意两模态所有特征向量拼接,得到新的特征向量zij;然后根据公式(4)对zij进行高阶(P阶)多项式融合操作得到P阶数据张量Zp
Figure BDA0002307123420000061
其中
Figure BDA0002307123420000062
表示张量积操作,i,j∈[1,3];
上述时间窗口长度为T1、步长为s;T1=2(包含t1和t2时刻数据),s=2;
如图5传统一般都是对Zp按照P阶张量的各维度进行单通道低秩张量池化操作,最终每个时间窗口的输出为一个新的特征向量zij’,其中特征向量zij’的第h个数据元素zh如下:
Figure BDA0002307123420000063
其中Wh为P阶张量权重,i1,…,ip为P阶张量每一个维度的下标;
但是一次单通道高阶(P阶)多项式融合张量池化,虽然可以得到高维复杂交互信息,但可能存在模型不稳定的情况,因此为使得此方法鲁棒性更强,故本发明提出如图6的多次单通道高阶(P阶)多项式融合张量池化操作,具体是:
对Zp按照P阶张量的各维度进行C个单通道低秩张量池化操作,最终获得C个新的特征向量
Figure BDA0002307123420000064
其中特征向量
Figure BDA0002307123420000065
第h个数据元素zh如下:
Figure BDA0002307123420000066
其中Wh为P阶张量权重,i1,…,ip为P阶张量每一个维度的下标;
对上述C个新的特征向量
Figure BDA0002307123420000067
进行最大池化,得到该时间窗口内两模态信息融合的局部特征向量
Figure BDA0002307123420000068
其中
Figure BDA0002307123420000069
的第h个数据元素z′h如下:
Figure BDA00023071234200000610
公式(其中C为同一个时间窗口内的模态信息进行单通道张量池化操作的次数,即为多通道张量池化操作的通道数;Whc为第c个通道的P阶张量权重;
如图6所示,为本发明的多通道多项式张量池化模块示意图,相较于单通道多项式张量池化模块,多通道池化操作对拼接数据进行多次高阶(P阶)多项式融合操作,则得到多个P阶数据张量,最终一个时间窗口的输出多个新的特征向量,对于多个特征向量采取最大池化操作,即对多个特征向量的同一个下标指定的所有元素集合进行最大值求取操作,得到的最大值作为该下标指定的新元素,则最终多个特征向量沿着通道维度进行降维操作,对应只得到一个特征向量作为该时间窗口的输出,极大增加了鲁棒性同时减少随机性。
对伪二维矩阵Gk内所有模态特征向量均进行上述两模态融合操作得到若干个
Figure BDA0002307123420000071
最终构建大小为
Figure BDA0002307123420000072
的伪二维矩阵Gk+1
5.3判断是否满足k≥N,N为最大迭代次数(N=2),若是则输出当前伪二维矩阵Gk+1,反之则重置k=k+1,
Figure BDA0002307123420000073
并跳转至步骤5.2。
步骤6、多模态全局交互
对步骤(5)输出的伪二维矩阵Gk+1内所有特征向量拼接,得到新的特征向量z′;然后对z′进行高阶(P阶)多项式融合操作(如公式(4))得到P阶数据张量Z′p,再对Z′p按照P阶张量的各维度进行多通道低秩张量池化操作(如公式(6)),最终得到全局特征向量z。
步骤7、多模态信息数据分类
将步骤(6)得到的全局交互向量z与事先的情绪类别标签进行对比,最终得到分类的结果。
如表1所示,本发明与四种基础多模态融合方法同时在两个多模态情感数据库CMU-MOSI、IEMOCAP上进行情感状态判别任务,MAE为均方误差,CORR为皮尔逊相关系数,ACC-7为7分类精度,比较衡量判别任务的多个指标可知,本发明的结果大都优于基础模型,或者与基础模型结果相当。
表1.结果对比表
Figure BDA0002307123420000074
Figure BDA0002307123420000081

Claims (1)

1.基于多通道张量池化的多模态深度分层融合情感分析方法,其特征在于包括以下步骤:
步骤1、获取多模态信息数据
步骤2、多模态信息数据预处理
采用长短期记忆网络或者门控循环单元网络,分别提取每个模态信息数据各时刻的短期记忆向量作为该时刻的特征向量;
Figure FDA0002307123410000011
其中
Figure FDA0002307123410000012
代表第m个模态向量的第t个时刻对应的特征向量,即是LSTM网络第t个时刻的短期记忆向量,gout为LSTM网络的输出门,C(t)为LSTM网络的长时记忆单元,f为激活函数;
步骤3、多模态数据信息组织
将步骤2预处理后的各模态信息数据特征向量组织成伪二维矩阵G,第一个维度为时间维度,第二个维度为模态维度,矩阵中的每一个元素代表的是对应时刻模态的特征向量;
Figure FDA0002307123410000013
其中T表示数据时间维度的大小,M表示模态数;
步骤4、注意力机制设置
针对步骤3所得伪二维矩阵G,对所有时刻所有模态数据设置一个注意力网络,得到新的伪二维矩阵G1
Figure FDA0002307123410000014
其中t∈[1,T],
Figure FDA0002307123410000015
分别为各模态
Figure FDA0002307123410000016
第t个时刻的权重;
Figure FDA0002307123410000017
表示模乘;
步骤5、多模态信息的多通道高阶多项式张量池化操作
5.1初始化迭代次数k=1,时间维度大小T0=T;
5.2在大小为T0时间维度上,对伪二维矩阵Gk进行时间窗口内任意两模态所有特征向量拼接,得到新的特征向量zij;然后根据公式(4)对zij进行高阶(P阶)多项式融合操作得到P阶数据张量Zp
Figure FDA0002307123410000021
其中
Figure FDA0002307123410000022
表示张量积操作,i,j∈[1,M];
上述时间窗口长度为T1、步长为s;
再对Zp按照P阶张量的各维度进行C个单通道低秩张量池化操作,最终获得C个新的特征向量
Figure FDA0002307123410000023
其中特征向量
Figure FDA0002307123410000024
第h个数据元素zh如下:
Figure FDA0002307123410000025
其中Wh为P阶张量权重,i1,…,ip为P阶张量每一个维度的下标;
对上述C个新的特征向量
Figure FDA0002307123410000026
进行最大池化,得到该时间窗口内两模态信息融合的局部特征向量
Figure FDA0002307123410000027
其中
Figure FDA0002307123410000028
的第h个数据元素z′h如下:
Figure FDA0002307123410000029
其中C为同一个时间窗口内的模态信息进行单通道张量池化操作的次数,即为多通道张量池化操作的通道数;Whc为第c个通道的P阶张量权重;
对伪二维矩阵Gk内所有模态特征向量均进行上述两模态融合操作得到若干个
Figure FDA00023071234100000210
最终构建大小为
Figure FDA00023071234100000211
的伪二维矩阵Gk+1
5.3判断是否满足k≥N,N为最大迭代次数,若是则输出当前伪二维矩阵Gk+1,反之则重置k=k+1,
Figure FDA00023071234100000212
并跳转至步骤5.2;
步骤6、多模态全局交互
对步骤(5)输出的伪二维矩阵Gk+1内所有特征向量拼接,得到新的特征向量z′;然后对z′进行高阶多项式融合操作得到P阶数据张量Z′p,再对Z′p按照P阶张量的各维度进行多通道低秩张量池化操作,最终得到全局特征向量z;
步骤7、多模态信息数据分类
将步骤(6)得到的全局交互向量z与事先的情绪类别标签进行对比,最终得到分类的结果。
CN201911244389.3A 2019-12-06 2019-12-06 基于多通道张量池化的多模态深度分层融合情感分析方法 Active CN111178389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911244389.3A CN111178389B (zh) 2019-12-06 2019-12-06 基于多通道张量池化的多模态深度分层融合情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911244389.3A CN111178389B (zh) 2019-12-06 2019-12-06 基于多通道张量池化的多模态深度分层融合情感分析方法

Publications (2)

Publication Number Publication Date
CN111178389A true CN111178389A (zh) 2020-05-19
CN111178389B CN111178389B (zh) 2022-02-11

Family

ID=70655407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911244389.3A Active CN111178389B (zh) 2019-12-06 2019-12-06 基于多通道张量池化的多模态深度分层融合情感分析方法

Country Status (1)

Country Link
CN (1) CN111178389B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN111786979A (zh) * 2020-06-24 2020-10-16 杭州电子科技大学 一种基于多模态学习的电力攻击识别方法
CN112199504A (zh) * 2020-10-30 2021-01-08 福州大学 一种融合外部知识与交互注意力机制的视角级文本情感分类方法及***
CN112329604A (zh) * 2020-11-03 2021-02-05 浙江大学 一种基于多维度低秩分解的多模态情感分析方法
CN112329633A (zh) * 2020-11-05 2021-02-05 南开大学 基于张量分解的情感识别方法、装置、介质及电子设备
CN112597841A (zh) * 2020-12-14 2021-04-02 之江实验室 一种基于门机制多模态融合的情感分析方法
CN112612936A (zh) * 2020-12-28 2021-04-06 杭州电子科技大学 一种基于对偶转换网络的多模态情感分类方法
CN113064968A (zh) * 2021-04-06 2021-07-02 齐鲁工业大学 一种基于张量融合网络的社交媒体情感分析方法及***
CN113208593A (zh) * 2021-04-08 2021-08-06 杭州电子科技大学 基于相关性动态融合的多模态生理信号情绪分类方法
CN113469365A (zh) * 2021-06-30 2021-10-01 上海寒武纪信息科技有限公司 基于神经网络模型的推理和编译方法及其相关产品
CN114511494A (zh) * 2021-12-21 2022-05-17 北京医准智能科技有限公司 一种腺体密度等级确定方法、装置及计算机可读存储介质
CN116563751A (zh) * 2023-04-19 2023-08-08 湖北工业大学 一种基于注意力机制的多模态情感分析方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164302A1 (en) * 2007-12-20 2009-06-25 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for specifying a cohort-linked avatar attribute
CN109409296A (zh) * 2018-10-30 2019-03-01 河北工业大学 将人脸表情识别和语音情感识别融合的视频情感识别方法
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164302A1 (en) * 2007-12-20 2009-06-25 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for specifying a cohort-linked avatar attribute
CN109409296A (zh) * 2018-10-30 2019-03-01 河北工业大学 将人脸表情识别和语音情感识别融合的视频情感识别方法
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
V RAMU REDDY等: "EmoSense: Automatically Sensing Emotions From Speech By Multi-way Classification", 《IEEE》 *
吕光瑞: "基于多模态判别性嵌入空间的图像情感分析", 《北京邮电大学学报》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753549B (zh) * 2020-05-22 2023-07-21 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN111786979A (zh) * 2020-06-24 2020-10-16 杭州电子科技大学 一种基于多模态学习的电力攻击识别方法
CN111786979B (zh) * 2020-06-24 2022-07-22 杭州电子科技大学 一种基于多模态学习的电力攻击识别方法
CN112199504B (zh) * 2020-10-30 2022-06-03 福州大学 一种融合外部知识与交互注意力机制的视角级文本情感分类方法及***
CN112199504A (zh) * 2020-10-30 2021-01-08 福州大学 一种融合外部知识与交互注意力机制的视角级文本情感分类方法及***
CN112329604A (zh) * 2020-11-03 2021-02-05 浙江大学 一种基于多维度低秩分解的多模态情感分析方法
CN112329633A (zh) * 2020-11-05 2021-02-05 南开大学 基于张量分解的情感识别方法、装置、介质及电子设备
CN112329633B (zh) * 2020-11-05 2022-08-23 南开大学 基于张量分解的情感识别方法、装置、介质及电子设备
CN112597841B (zh) * 2020-12-14 2023-04-18 之江实验室 一种基于门机制多模态融合的情感分析方法
CN112597841A (zh) * 2020-12-14 2021-04-02 之江实验室 一种基于门机制多模态融合的情感分析方法
CN112612936B (zh) * 2020-12-28 2022-03-08 杭州电子科技大学 一种基于对偶转换网络的多模态情感分类方法
CN112612936A (zh) * 2020-12-28 2021-04-06 杭州电子科技大学 一种基于对偶转换网络的多模态情感分类方法
CN113064968A (zh) * 2021-04-06 2021-07-02 齐鲁工业大学 一种基于张量融合网络的社交媒体情感分析方法及***
CN113208593A (zh) * 2021-04-08 2021-08-06 杭州电子科技大学 基于相关性动态融合的多模态生理信号情绪分类方法
CN113469365A (zh) * 2021-06-30 2021-10-01 上海寒武纪信息科技有限公司 基于神经网络模型的推理和编译方法及其相关产品
CN113469365B (zh) * 2021-06-30 2024-03-19 上海寒武纪信息科技有限公司 基于神经网络模型的推理和编译方法及其相关产品
CN114511494A (zh) * 2021-12-21 2022-05-17 北京医准智能科技有限公司 一种腺体密度等级确定方法、装置及计算机可读存储介质
CN116563751A (zh) * 2023-04-19 2023-08-08 湖北工业大学 一种基于注意力机制的多模态情感分析方法及***
CN116563751B (zh) * 2023-04-19 2024-02-06 湖北工业大学 一种基于注意力机制的多模态情感分析方法及***

Also Published As

Publication number Publication date
CN111178389B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN111178389B (zh) 基于多通道张量池化的多模态深度分层融合情感分析方法
Surís et al. Cross-modal embeddings for video and audio retrieval
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及***
Dering et al. A convolutional neural network model for predicting a product's function, given its form
Zheng et al. An ensemble model for multi-level speech emotion recognition
CN109460737A (zh) 一种基于增强式残差神经网络的多模态语音情感识别方法
CN112560495A (zh) 一种基于情感分析的微博谣言检测方法
CN112699774A (zh) 视频中人物的情绪识别方法及装置、计算机设备及介质
CN112732921B (zh) 一种虚假用户评论检测方法及***
Pandey et al. Attention gated tensor neural network architectures for speech emotion recognition
CN110502757B (zh) 一种自然语言情感分析方法
CN102663432A (zh) 结合支持向量机二次识别的模糊核聚类语音情感识别方法
CN114443899A (zh) 视频分类方法、装置、设备及介质
Asali et al. Deepmsrf: A novel deep multimodal speaker recognition framework with feature selection
CN111985612A (zh) 一种提高视频文本描述准确性的编码器网络模型设计方法
CN115545093A (zh) 一种多模态数据的融合方法、***及存储介质
CN115168579A (zh) 一种基于多头注意力机制和二维卷积操作的文本分类方法
Sheng et al. LA-ESN: a novel method for time series classification
CN111160124A (zh) 一种基于知识重组的深度模型定制方法
CN114239575B (zh) 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备
Akalya devi et al. Multimodal emotion recognition framework using a decision-level fusion and feature-level fusion approach
Świetlicka et al. Graph neural networks for natural language processing in human-robot interaction
Zhuang Emotional analysis of sentences based on machine learning
Zheng et al. A two-channel speech emotion recognition model based on raw stacked waveform
Wan et al. Co-compressing and unifying deep cnn models for efficient human face and speaker recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant