CN110516696B - 一种基于语音和表情的自适应权重双模态融合情感识别方法 - Google Patents

一种基于语音和表情的自适应权重双模态融合情感识别方法 Download PDF

Info

Publication number
CN110516696B
CN110516696B CN201910632006.3A CN201910632006A CN110516696B CN 110516696 B CN110516696 B CN 110516696B CN 201910632006 A CN201910632006 A CN 201910632006A CN 110516696 B CN110516696 B CN 110516696B
Authority
CN
China
Prior art keywords
emotion
voice
expression
data
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910632006.3A
Other languages
English (en)
Other versions
CN110516696A (zh
Inventor
肖婧
黄永明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910632006.3A priority Critical patent/CN110516696B/zh
Publication of CN110516696A publication Critical patent/CN110516696A/zh
Application granted granted Critical
Publication of CN110516696B publication Critical patent/CN110516696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于语音和人脸表情的自适应权重双模态融合情感识别方法,包括以下步骤:获取情感语音和人脸表情数据,将情感数据与情感类别相对应,并选取训练样本集合测试样本集;对语音数据提取语音情感特征,对表情数据提取动态表情特征;分别基于语音情感特征和表情特征,采用基于半监督自动编码器的深度学习方法进行学习,通过softmax分类器得到分类结果和各类别输出概率;最后将两种单模态情感识别结果进行决策层融合,采用一种自适应加权的方法,得到最终的情感识别结果。本发明实针对个人不同模态情感特征表征能力的差异性,采取了自适应权重融合方法,具有更高的准确性和客观性。

Description

一种基于语音和表情的自适应权重双模态融合情感识别方法
技术领域
本发明涉及情感计算中的情感识别领域,具体涉及基于语音和人脸表情的自适应权重双模融合情感识别方法。
背景技术
近年来,在人工智能和机器人技术的发展下,传统的人机交互模式已经不能满足需求,新型的人机交互需要情感的交流,因此,情感识别成为了人机交互技术发展的关键,也成为了学界热点的研究课题。情感识别是涉及多学科的研究课题,通过使计算机理解并识别人类情感,进而预测和理解人类的行为趋势和心理状态,从而实现高效和谐的人机情感交互。
人的情绪有各种各样的表达方式,如语音、表情、姿态、文本等等,我们可以从中提取有效的信息,从而正确分析情绪。而表情和语音信息最为其中最为明显和最易分析的特征,得到了广泛的研究和应用。心理学家Mehrabian给出了一个公式:感情表露=7%的言辞+38%的声音+55%的面部表情,可见人的语音信息及人脸表情信息涵盖93%的情感信息,是人类交流信息中的核心。在情绪表达的过程中,面部形变会有效且直观地表达出内心的情感,是情感识别最为重要的特征信息之一,语音特征也同样能表达出丰富的情感。
由于近年来互联网的发展和各种社交媒体的层出不穷,人们的交流方式得到了很大的丰富,如视频,音频等,使得多模态情感识别成为可能。传统的单模态识别可能存在单一的情感特征不能很好地表征情感状态的问题,例如,人们在表达悲伤的感情时,面部表情可能没有较大的变化,但此时,从低沉和低缓的语音可以分辨出悲伤失落的感情。多模态识别使得不同模态的信息可以实现互补,为情感识别提供更多情感信息,提高情感识别的准确率。但目前,单模态情感识别研究较为成熟,针对多模态的情感识别方法还有待发展和完善。因此,多模态情感识别具有十分重要的实际应用意义。而作为最为显性的表情和语音特征,基于二者的双模情感识别具有重要的研究意义和实用价值。传统的加权方法忽略了个人差异性,因此,需要一种自适应权重的方法来进行权重分配。
发明内容
本发明的目的是提供一种基于语音和人脸表情的自适应权重双模融合情感识别方法,从而实现各模态信息的互补,并实现针对个人差异的自适应权重分配。
为此,本发明采用以下技术方案:
一种基于语音和人脸表情的自适应权重双模态融合的识别方法,其特征在于,所述方法包括以下步骤:
S1、获取情感语音和人脸表情数据,将情感数据与情感类别相对应,并选取训练样本集合测试样本集,
S2、对语音数据提取语音情感特征,对表情数据提取动态表情特征,首先自动提取表情峰值帧,获取表情开始到表情峰值的动态图像序列,后将非定长的图像序列归一化为定长的图像序列,作为动态表情特征,
S3、分别基于语音情感特征和表情特征,采用基于半监督自动编码器的深度学习方法进行学习,通过softmax分类器得到分类结果和各类别输出概率,
S4、将两种单模态情感识别结果进行决策层融合,采用一种自适应权重分配的方法,得到最终的情感识别结果。
进一步,上述所述步骤S2的具体步骤如下:
S2A.1:对于语音情感数据,将获得的语音样本段进行分帧处理,划分为多帧语音段,并对分帧后的语音段进行加窗处理,得到语音情感信号,
S2A.2:对于S2A.1获得的语音情感信号,在帧水平上,提取低水平特征提取,基音F0、短时能量、频率微扰振幅微扰、谐噪比以及Mel倒谱系数等,
S2A.3:对步骤一帧水平获得的低水平特征,在多帧组成的语音样本水平上进行统计,对其应用多个统计函数,最大值、最小值、平均值、标准差等,获得语音情感特征;
S2B.1:对于人脸表情数据,首先,将获取的人脸表情特征点三维坐标数据,进行坐标变化,将鼻尖作为中心点,利用SVD原理得到旋转矩阵,乘旋转矩阵进行旋转变化,以消除头部姿态变化的影响。
S2B.2:利用慢特征分析方法提取峰值表情帧,具体步骤如下:
1)将每个动态图像序列样本视为时间输入信号
2)将进行归一化,使得均差值为0,方差为1,
x(t)=[x1(t),x2(t),…,xI(t)]T
3)将输入信号进行非线性扩展扩展,将问题转化为线性SFA问题,
4)进行数据白化;
5)线性SFA方法求解。
S2B.3:得到表情起始帧到表情峰值帧的动态表情序列后,利用线性插值法非定长的动态特征进行归一化。
进一步,上述所述步骤S3的具体步骤如下:
S3.1:针对某一模态数据,输入无标签和有标签输入训练样本,经过自编码器编码,解码和softmax分类器输出分别产生重构数据和类别输出,
S3.2:计算无监督学习表示重构误差和有监督学习分类误差,
S3.3:构造优化目标函数,同时考虑重构误差和分类误差,
E(θ)=αEr+(1-α)Ec
S3.4:梯度下降法更新参数,直至目标函数收敛。
进一步,上述所述步骤S4的具体步骤如下:
S4.1:获取softmax分类器测试样本两种模态分别的各类输出概率,计算变量δk,δk可用来衡量该模态对情感表征的好坏,根据每个样本δk大小的不同实现权重的自适应分配,其中,J为***中类的个数,P是样本输出概率组成的向量。P={pj|j=1,…,J},pj为softmax分类器输出的属于各类别的概率,d表示两向量间的欧式距离。
S4.2:将δk根据下式映射到[0,1]之间,作为权值,其中,a和b为自选参数,根据具体情况确定。,
uk=1-1/[1+exp(-a(δk-b))];
S4.3:根据下式获得融合后的输出概率向量中Pfinal={pfinal_j|j=1,…,J},最大概率所属类别即为识别类别。pj_k为利用第k种模态进行单模态情感识别获得的第j种类别的概率输出,共K种模态。
相对于现有技术,本发明的有益效果如下:本发明基于语音和人脸表情的自适应权重双模融合的情感识别方法基于标准数据库取得了更为准确和高效的识别效果,针对个人不同模态情感特征表征能力的差异性,采取了自适应权重融合方法,具有更高的准确性和客观性,基于IEMOCAP情感库,取得了83%的识别率,相较于传统固定权重分配,取得了约3%的识别率提升。
附图说明
图1为本发明的识别方法总体流程示意图。
图2为本发明步骤S3的流程示意图。
图3为本发明自适应权重分配流程图。
具体实施方式
下面结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1:参见图1-图3,一种基于语音和人脸表情的自适应权重双模态融合的识别方法,所述方法包括以下步骤:
S1、获取情感语音和人脸表情数据,将情感数据与情感类别相对应,并选取训练样本集合测试样本集,
S2、对语音数据提取语音情感特征,对表情数据提取动态表情特征,首先自动提取表情峰值帧,获取表情开始到表情峰值的动态图像序列,后将非定长的图像序列归一化为定长的图像序列,作为动态表情特征,
S3、分别基于语音情感特征和表情特征,采用基于半监督自动编码器的深度学习方法进行学习,通过softmax分类器得到分类结果和各类别输出概率,
S4、将两种单模态情感识别结果进行决策层融合,采用一种自适应权重分配的方法,得到最终的情感识别结果。
进一步,上述所述步骤S2的具体步骤如下:
S2A.1:对于语音情感数据,将获得的语音样本段进行分帧处理,划分为多帧语音段,并对分帧后的语音段进行加窗处理,得到语音情感信号,
S2A.2:对于S2A.1获得的语音情感信号,在帧水平上,提取低水平特征提取,基音F0、短时能量、频率微扰振幅微扰、谐噪比以及Mel倒谱系数等,
S2A.3:对步骤一帧水平获得的低水平特征,在多帧组成的语音样本水平上进行统计,对其应用多个统计函数,最大值、最小值、平均值、标准差等,获得语音情感特征,
S2B.1:对于人脸表情数据,首先,将获取的人脸表情特征点三维坐标数据,进行坐标变化,将鼻尖作为中心点,利用SVD原理得到旋转矩阵,乘旋转矩阵进行旋转变化,以消除头部姿态变化的影响。
S2B.2:利用慢特征分析方法提取峰值表情帧,具体步骤如下:
1)将每个动态图像序列样本视为时间输入信号
2)将进行归一化,使得均差值为0,方差为1,
x(t)=[x1(t),x2(t),…,xI(t)]T
3)将输入信号进行非线性扩展扩展,将问题转化为线性SFA问题,
4)进行数据白化;
5)线性SFA方法求解。
S2B.3:得到表情起始帧到表情峰值帧的动态表情序列后,利用线性插值法非定长的动态特征进行归一化。
进一步,上述所述步骤S3的具体步骤如下:
S3.1:针对某一模态数据,输入无标签和有标签输入训练样本,经过自编码器编码,解码和softmax分类器输出分别产生重构数据和类别输出,
S3.2:计算无监督学习表示重构误差和有监督学习分类误差,
S3.3:构造优化目标函数,同时考虑重构误差和分类误差,
E(θ)=αEr+(1-α)Ec
S3.4:梯度下降法更新参数,直至目标函数收敛。
进一步,上述所述步骤S4的具体步骤如下:
S4.1:获取softmax分类器测试样本两种模态分别的各类输出概率,计算变量δk,δk可用来衡量该模态对情感表征的好坏,根据每个样本δk大小的不同实现权重的自适应分配,其中,J为***中类的个数。P是样本输出概率组成的向量。P={pj|j=1,…,J},pj为softmax分类器输出的属于各类别的概率,d表示两向量间的欧式距离。
S4.2:将δk根据下式映射到[0,1]之间,作为权值,其中,a和b为自选参数。
uk=1-1/[1+exp(-a(δk-b))];
S4.3:根据下式获得融合后的输出概率向量中Pfinal={pfinal_j|j=1,…,J},最大概率所属类别即为识别类别。pj_k为利用第k种模态进行单模态情感识别获得的第j种类别的概率输出,共K种模态。
应用实施例:参见图1-图3,本实例以IEMOCAP情感数据库为素材,仿真平台是MATLAB R2014a。
如图1所示,本发明基于语音和表情的自适应权重双模融合的情感识别方法主要包括以下步骤:
S1、获取情感语音和人脸表情数据,将情感数据与情感类别相对应,并选取训练样本集合测试样本集。选取中性、高兴、悲伤、愤怒四类情感类别。
S2、对语音数据提取语音情感特征。对表情数据提取动态表情特征,首先自动提取表情峰值帧,获取表情开始到表情峰值的动态图像序列,后将非定长的图像序列归一化为定长的图像序列,作为动态表情特征。对于语音特征的提取是利用开源的语音特征提取工具箱openSMILE提取了INTERSPEECH 2010Paralinguistic Challenge标准特征集,共1582维特征。对于人脸表情动态特征的提取。利用慢特征分析方法提取峰值表情帧。后设定阈值找到表情起始帧,得到表情起始帧到表情峰值帧的动态表情序列后,利用线性插值法非定长的动态特征进行归一化。
S3、分别基于语音情感特征和表情特征,采用基于半监督自动编码器的深度学习方法进行学习,通过softmax分类器得到分类结果和各类别输出概率。
S4、将两种单模态情感识别结果进行决策层融合,采用一种自适应权重分配的方法,得到最终的情感识别结果。
如图2所示,所述步骤S3半监督分类具体步骤为:
S3.1:针对某一模态数据,输入无标签和有标签输入训练样本。经过自编码器编码,解码和softmax分类器输出分别产生重构数据和类别输出。
S3.2:计算无监督学习表示重构误差和有监督学习分类误差。
S3.3:构造优化目标函数,同时考虑重构误差和分类误差。
E(θ)=αEr+(1-α)Ec
S3.4:梯度下降法更新参数,直至目标函数收敛。
如图3所示,所述步骤S4的具体步骤如下:
S4.1:获取softmax分类器测试样本两种模态分别的各类输出概率。计算变量δk,δk可用来衡量该模态对情感表征的好坏,根据每个样本δk大小的不同实现权重的自适应分配。其中,J为***中类的个数。P是样本输出概率组成的向量。P={pj|j=1,…,J},pj为softmax分类器输出的属于各类别的概率,d表示两向量间的欧式距离。
S4.2:将δk根据下式映射到[0,1]之间,作为权值。其中,a和b为自选参数。
uk=1-1/[1+exp(-a(δk-b))]
S4.3:根据下式获得融合后的输出概率向量中Pfinal={pfinal_j|j=1,…,J},最大概率所属类别即为识别类别,pj_k为利用第k种模态进行单模态情感识别获得的第j种类别的概率输出,共K种模态。
需要说明的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代,均属于本发明的保护范围。

Claims (4)

1.一种基于语音和人脸表情的自适应权重双模态融合情感识别方法,其特征在于,所述方法包括如下步骤:
S1、获取情感语音数据和人脸表情数据,将情感数据与情感类别相对应,并选取训练样本集合测试样本集;
S2、对语音数据提取语音情感特征,对表情数据提取动态表情特征,首先自动提取表情峰值帧,获取表情开始到表情峰值的动态图像序列,后将非定长的图像序列归一化为定长的图像序列,作为动态表情特征;
S3、分别基于语音情感特征和表情特征,采用基于半监督自动编码器的深度学习方法进行学习,通过softmax分类器得到分类结果和各类别输出概率;
S4、将两种单模态情感识别结果进行决策层融合,采用一种自适应权重分配的方法,得到最终的情感识别结果,
其中,步骤S4基于自适应权重的决策层融合步骤为:
S4.1:获取softmax分类器测试样本两种模态分别的各类输出概率,计算变量δk,δk可用来衡量该模态对情感表征的好坏,根据每个样本δk大小的不同实现权重的自适应分配,其中,J为***中类的个数,P是样本输出概率组成的向量,P={pj|j=1,…,J},pj为softmax分类器输出的属于各类别的概率,d表示两向量间的欧式距离;
S4.2:将δk根据下式映射到[0,1]之间,作为权值,其中,a和b为自选参数,
uk=1-1/[1+exp(-a(δk-b))];
S4.3:根据下式获得融合后的输出概率向量中Pfinal={pfinal_j|j=1,…,J},最大概率所属类别即为识别类别,pj_k为利用第k种模态进行单模态情感识别获得的第j种类别的概率输出,共K种模态;
2.根据权利要求1所述的基于语音和人脸表情的自适应权重双模态融合情感识别方法,其特征在于,所述步骤S2情感特征提取的具体步骤为:
S2A.1:对于语音情感数据,将获得的语音样本段进行分帧处理,划分为多帧语音段,并对分帧后的语音段进行加窗处理,得到语音情感信号,
S2A.2:对于S2A.1获得的语音情感信号,在帧水平上,提取低水平特征提取,基音F0、短时能量、频率微扰振幅微扰、谐噪比以及Mel倒谱系数等,
S2A.3:对步骤一帧水平获得的低水平特征,在多帧组成的语音样本水平上进行统计,对其应用多个统计函数,最大值、最小值、平均值、标准差等,获得语音情感特征;
S2B.1:对于人脸表情数据,首先,将获取的人脸表情特征点三维坐标数据,进行坐标变化,将鼻尖作为中心点,利用SVD原理得到旋转矩阵,乘旋转矩阵进行旋转变化,以消除头部姿态变化的影响,
S2B.2:利用慢特征分析方法提取峰值表情帧,
S2B.3:得到表情起始帧到表情峰值帧的动态表情序列后,利用线性插值法非定长的动态特征进行归一化。
3.根据权利要求1所述的基于语音和人脸表情的自适应权重双模态融合情感识别方法,其特征在于,所述步骤S3半监督学习的具体步骤为:
S3.1:针对某一模态数据,输入无标签和有标签输入训练样本,经过自编码器编码,解码和softmax分类器输出分别产生重构数据和类别输出,
S3.2:计算无监督学习表示重构误差Er和有监督学习分类误差Ec
S3.3:构造优化目标函数,同时考虑重构误差Er和分类误差Er
E(θ)=αEr+(1-α)Ec
S3.4:梯度下降法更新参数,直至目标函数收敛。
4.根据权利要求2所述的基于语音和人脸表情的自适应权重双模态融合情感识别方法,其特征在于,S2B.2:利用慢特征分析方法提取峰值表情帧,具体步骤如下:
1)将每个动态图像序列样本视为时间输入信号
2)将进行归一化,使得均差值为0,方差为1,
x(t)=[x1(t),x2(t),…,xI(t)]T
3)将输入信号进行非线性扩展扩展,将问题转化为线性SFA问题,4)进行数据白化;
5)线性SFA方法求解。
CN201910632006.3A 2019-07-12 2019-07-12 一种基于语音和表情的自适应权重双模态融合情感识别方法 Active CN110516696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910632006.3A CN110516696B (zh) 2019-07-12 2019-07-12 一种基于语音和表情的自适应权重双模态融合情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910632006.3A CN110516696B (zh) 2019-07-12 2019-07-12 一种基于语音和表情的自适应权重双模态融合情感识别方法

Publications (2)

Publication Number Publication Date
CN110516696A CN110516696A (zh) 2019-11-29
CN110516696B true CN110516696B (zh) 2023-07-25

Family

ID=68623425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910632006.3A Active CN110516696B (zh) 2019-07-12 2019-07-12 一种基于语音和表情的自适应权重双模态融合情感识别方法

Country Status (1)

Country Link
CN (1) CN110516696B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110677598B (zh) * 2019-09-18 2022-04-12 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质
CN111027215B (zh) * 2019-12-11 2024-02-20 中国人民解放军陆军工程大学 针对虚拟人的性格训练***及其方法
CN111401268B (zh) * 2020-03-19 2022-11-15 内蒙古工业大学 一种面向开放环境的多模态情感识别方法及装置
CN111460494B (zh) * 2020-03-24 2023-04-07 广州大学 面向多模态深度学习的隐私保护方法及***
CN112006697B (zh) * 2020-06-02 2022-11-01 东南大学 一种基于语音信号的梯度提升决策树抑郁程度识别***
CN112101096B (zh) * 2020-08-02 2023-09-22 华南理工大学 一种基于语音和微表情的多模态融合的***情绪感知方法
CN112401886B (zh) * 2020-10-22 2023-01-31 北京大学 情感识别的处理方法、装置、设备及存储介质
CN112418034A (zh) * 2020-11-12 2021-02-26 元梦人文智能国际有限公司 多模态情感识别方法、装置、电子设备和存储介质
CN112528835B (zh) * 2020-12-08 2023-07-04 北京百度网讯科技有限公司 表情预测模型的训练方法、识别方法、装置及电子设备
CN113076847B (zh) * 2021-03-29 2022-06-17 济南大学 一种多模态情感识别方法及***
CN113033450B (zh) * 2021-04-02 2022-06-24 山东大学 多模态连续情感识别方法、服务推理方法及***
CN113343860A (zh) * 2021-06-10 2021-09-03 南京工业大学 一种基于视频图像和语音的双模态融合情感识别方法
CN113780198B (zh) * 2021-09-15 2023-11-24 南京邮电大学 一种面向影像生成的多模态情感分类方法
CN114912502B (zh) * 2021-12-28 2024-03-29 天翼数字生活科技有限公司 一种基于表情与语音的双模态深度半监督情感分类方法
CN114626430B (zh) * 2021-12-30 2022-10-18 华院计算技术(上海)股份有限公司 情绪识别模型的训练方法、情绪识别方法、设备及介质
CN115240649B (zh) * 2022-07-19 2023-04-18 于振华 一种基于深度学习的语音识别方法和***
CN116561533B (zh) * 2023-07-05 2023-09-29 福建天晴数码有限公司 一种教育元宇宙中虚拟化身的情感演化方法及终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976809B (zh) * 2016-05-25 2019-12-17 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及***

Also Published As

Publication number Publication date
CN110516696A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110516696B (zh) 一种基于语音和表情的自适应权重双模态融合情感识别方法
Wani et al. A comprehensive review of speech emotion recognition systems
Jahangir et al. Deep learning approaches for speech emotion recognition: State of the art and research challenges
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
Bhat et al. Automatic assessment of sentence-level dysarthria intelligibility using BLSTM
He et al. Multimodal depression recognition with dynamic visual and audio cues
Huang et al. Natural language processing methods for acoustic and landmark event-based features in speech-based depression detection
CN103996155A (zh) 智能交互及心理慰藉机器人服务***
Samantaray et al. A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages
CN112006697A (zh) 一种基于语音信号的梯度提升决策树抑郁症识别方法
CN110147548A (zh) 基于双向门控循环单元网络和新型网络初始化的情感识别方法
CN113297383B (zh) 基于知识蒸馏的语音情感分类方法
Huang et al. Speech emotion recognition using convolutional neural network with audio word-based embedding
Swain et al. A DCRNN-based ensemble classifier for speech emotion recognition in Odia language
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和***
CN114898779A (zh) 融合多模态的语音情感识别方法及***
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别***
Ling An acoustic model for English speech recognition based on deep learning
Shah et al. Articulation constrained learning with application to speech emotion recognition
Zhao et al. [Retracted] Standardized Evaluation Method of Pronunciation Teaching Based on Deep Learning
Rangra et al. Emotional speech-based personality prediction using NPSO architecture in deep learning
Zhang et al. Emotion recognition in speech using multi-classification SVM
Cao et al. Emotion recognition from children speech signals using attention based time series deep learning
Yang [Retracted] Design of Service Robot Based on User Emotion Recognition and Environmental Monitoring
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant