CN116564355A - 一种基于自注意力机制融合的多模态情感识别方法、***、设备及介质 - Google Patents

一种基于自注意力机制融合的多模态情感识别方法、***、设备及介质 Download PDF

Info

Publication number
CN116564355A
CN116564355A CN202310617199.1A CN202310617199A CN116564355A CN 116564355 A CN116564355 A CN 116564355A CN 202310617199 A CN202310617199 A CN 202310617199A CN 116564355 A CN116564355 A CN 116564355A
Authority
CN
China
Prior art keywords
emotion
self
fusion
information
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310617199.1A
Other languages
English (en)
Inventor
张文博
翟博文
刘龙
张梦璇
姬红兵
李林
臧博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Huizhi Yizhi Information Technology Co ltd
Xidian University
Original Assignee
Shanxi Huizhi Yizhi Information Technology Co ltd
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Huizhi Yizhi Information Technology Co ltd, Xidian University filed Critical Shanxi Huizhi Yizhi Information Technology Co ltd
Priority to CN202310617199.1A priority Critical patent/CN116564355A/zh
Publication of CN116564355A publication Critical patent/CN116564355A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

一种基于自注意力机制融合的多模态情感识别方法、***、设备及介质,方法包括:数据预处理;特征提取;特征融合;训练模型;任务迁移;***、设备及介质:用于实现一种基于自注意力机制融合的多模态情感识别方法;本发明通过对比学习的方法来微调预训练模型,从而获得模态之间的相关性信息,并以自注意力机制进行特征融合,同时设计了三种不同的迁移函数,以此来适配不同的下游任务,在提升模型准确度的同时,提高了算法的迁移性和鲁棒性,使得模型的应用范围更广。

Description

一种基于自注意力机制融合的多模态情感识别方法、***、设 备及介质
技术领域
本发明涉及情感识别技术领域,特别涉及一种基于自注意力机制融合的多模态情感识别方法、***、设备及介质。
背景技术
作为人类语音和非语言交流的组成部分,情感是驱动人们行为和思想的关键因素。情感识别在客户服务、医疗保健、教育和汽车驾驶智能***上均有重大意义。自动情感识别不仅可以辅助医师进行诊疗,还可以提高线上教育的交互能力,同时,深度学习在提取高维度信息上的巨大优势使得基于深度学习的情感识别技术是当前的热点,拥有着巨大的发展空间,然而情感识别的因素具有多样性,如果仅仅考虑视觉信息或者语言信息来识别情感状态,会丢失大量相关性信息,使得情感识别的准确率不高,因此需要考量多方面的因素。但由于不同类别因素的数据差异很大,需要融合多类别的特征,在很大程度上增加了算法设计的难度,深度网络模型庞大的计算量对于算法的实际应用场景也有着诸多限制,而情感任务的多样性也对算法的迁移性提出了更高的要求。
名称为“类脑多模态情感识别网络、识别方法及情感机器人”,申请号为[CN202211092432.0]的专利申请,公开了一种类脑多模态情感识别网络、识别方法,该方法的具体步骤为:首先,提取视频表情特征和与视频相关的音频特征,拼接原始特征,然后输入双向长短期记忆网络后,拼接所有特征得到统一特征向量,并基于此进行情感分类识别。
名称为“基于加权特征融合的语音表情多模态情感识别方法”申请号为[CN202211392299.0]的专利申请,公开了一种基于加权特征融合的语音表情多模态情感识别方法,该方法中情感识别的步骤主要包括:首先提取语音关键帧和表情关键帧的信息进行对齐处理,并将提取到的特征进行加权处理并分配权重,然后,利用完成训练的残差网络提取语音MFCC特征中的语音高阶情感特征,并利用完成训练的3D-CNN神经网络提取表情关键帧中的表情高阶情感特征,最后将加权后的语音高阶情感特征和加权后的表情高阶情感特征输入到多层感知机MLP中进行加权特征融合并完成情感分类。
但是,现有技术存在以下问题:
(1)现有技术中,因多模态网络结构过大导致无法在寻常机器平台上得以应用;
(2)现有技术大多采用数据级以及决策级的融合方案,前者无法提取有效的相关性信息,后者则是丢失了太多的相关性信息,无法实现有效的特征融合;
(3)现有技术的多模态融合方案大多选择自定义权重分配各个模态,对于不同场景无法自适应分配权重;
(4)现有技术的多模态情感识别方案大多是根据数据集进行单一任务的识别,无法适配复杂的下游任务。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于自注意力机制融合的多模态情感识别方法、***、设备及介质,通过对比学习的方法来微调预训练模型,从而获得模态之间的相关性信息,并以自注意力机制进行特征融合,同时设计了三种不同的迁移函数,以此来适配不同的下游任务,在提升模型准确度的同时,提高了算法的迁移性和鲁棒性,使得模型的应用范围更广。
为了实现上述目的,本发明采取的技术方案如下:
一种基于自注意力机制融合的多模态情感识别方法,包括如下步骤:
步骤1,数据预处理:根据不同的迁移函数选择不同的时间序列,对多个模态的数据进行采样,并按照序列进行对齐,所述多个模态的数据包括文本数据中的文本信息、语音数据中的语音信息、视频数据中的姿态信息以及视频数据中的面部信息;
步骤2,特征提取:将步骤1预处理后的多个模态的数据分别输入对应的特征提取网络,进行特征提取,获取对应的特征向量;
步骤3,特征融合:采用自注意力机制模型对步骤2提取到的多个模态的特征向量赋予不同的权重,然后进行特征融合,得到归一化情感特征值;
步骤4,训练模型:利用对比学习机制对基于自注意力机制融合的多模态情感识别网络模型进行训练,重复步骤1-步骤4,优化提取到的特征向量,得到最优的基于自注意力机制融合的多模态情感识别网络模型;
步骤5,任务迁移:通过迁移模块对不同的下游任务进行迁移,根据绝对情感、相对情感和情感倾向三种不同的情感状态设置不同的迁移函数,以此来处理经过步骤4的基于自注意力机制融合的多模态情感识别网络模型训练后得到的归一化情感特征值,得到不同任务的情感值。
所述步骤2特征提取的具体过程为:
步骤2.1:从文本数据中提取文本情感信息的特征向量,具体包括:通过设定的时间序列裁剪文本片段;将文本片段的词向量进行嵌入得到对应位置信息的序列;将对应位置信息的序列输入特征提取网络中的BERT网络,得到文本情感信息的特征向量;
步骤2.2:从语音数据中提取语音情感信息的特征向量,具体包括:通过设定的时间序列提取语音片段;对每一个语音片段的语音数据进行傅里叶变换,得到一一对应的信号频谱;将得到的信号频谱通过Spec_transition得到梅尔倒谱;将得到的梅尔倒谱输入特征提取网络中的GRU网络,得到语音情感信息的特征向量;
步骤2.3:从视频数据中提取姿态情感信息的特征向量,具体包括:对视频数据按照设定的时间序列抽取图片帧;对获取的每张图片使用Alphapose网络进行骨架检测,获得每一张图片的人体姿态骨架信息;将人体姿态骨架信息进行向量化;利用卷积层对人体姿态骨架信息进行特征提取,得到姿态情感信息的特征向量;
步骤2.4:从视频数据中提取面部情感信息的特征向量,具体包括:对视频数据按照设定的时间序列抽取图片帧;对获取的每张图片使用YOLO网络架构进行人脸检测;获取每张图片的人脸坐标信息;利用得到的人脸坐标信息对图片进行裁剪,得到人脸图像块,并进行尺寸以及分辨率的标准化;将标准化后的人脸图像块输入OpenFace2库,得到面部情感信息的特征向量。
所述步骤3特征融合的具体过程为:
步骤3.1:将步骤2获取的文本情感信息的特征向量、语音情感信息的特征向量、姿态情感信息的特征向量和面部情感信息的特征向量进行向量拼接;
步骤3.2:通过自注意力机制来自适应控制模态信息的权重,再通过Concat函数进行拼接,得到融合文本、语音、视频的特征数据;
步骤3.3:将融合文本、语音、视频的特征数据输入全连接模块,输出归一化情感特征值。
所述步骤4训练模型的具体过程为:
步骤4.1:将步骤1中对齐的多个模态的数据划分为训练集与测试集;
步骤4.2:将步骤4.1中的训练集根据对齐的文本时间序列划分为不同的样本,在一个样本内的模态信息可以互相确立为正样本,对于不同样本之间的模态信息可以作为负样本,从而得到模型训练所需的正、负样本;
步骤4.3:将步骤4.2获得的正、负样本依次进行特征提取和特征融合,并将正、负样本间的对比关系作为损失函数的输入参数,调整各网络提取相关性信息的能力,重复步骤1-步骤4,对基于自注意力机制融合的多模态情感识别网络模型进行训练和优化,得到最优的基于自注意力机制融合的多模态情感识别网络模型。
所述步骤5任务迁移的具体过程为:
步骤5.1:根据连续以及离散的情感分类划分三种情感状态,包括绝对情感、相对情感和情感倾向;
步骤5.2:根据三种不同的情感状态设置不同的迁移函数,以此来处理经过步骤4训练后得到的归一化情感特征值;
步骤5.3:将步骤5.2的结果输入Relu和全连接层得到不同任务的情感值。
所述步骤3特征融合的过程中,通过自注意力机制来自适应控制模态信息权重的具体方法为:
利用自注意力机制调整矩阵参数来获取标注结果与输入向量之间的相关性,引导矩阵进行自适应的权重分配,得到的加权和即是情绪相关性的排序加权和,从而实现多个模态的权重分配,具体公式如下:
a'1,i=exp(a1,i)/∑jexp(a1,j)
式中,i表示第i个模态,j表示模态数,a1,i表示第i个模态所占的权重,a1,j表示第j个模态的权重。
所述步骤5中的迁移函数包括绝对情感迁移函数、相对情感迁移函数和情感倾向迁移函数,三种迁移函数可适配不同的下游任务;
所述绝对情感迁移函数为:
式中,ga表示中位数基值,w表示序列内样本个数,i表示第i个样本,vi表示样本的value值;
所述相对情感迁移函数为:
式中,ca表示中位影响变化值,w表示序列内样本个数,i表示第i个样本,vi表示样本的value值,vi-1表示上一个样本的value;
所述情感倾向迁移函数为:
式中,ta表示中位影响趋势值,w表示序列内样本个数,i表示第i个样本,vi表示样本的value值,vi-1表示上一个样本的value。
一种基于自注意力机制融合的多模态情感识别***,包括:
数据预处理模块:根据不同的迁移函数选择不同的时间序列,对多个模态的数据进行采样,并按照序列进行对齐;
特征提取模块:利用预训练模型对预处理后的多个模态的数据所包含的情感信息分别进行提取,获取对应的特征向量;
特征融合模块:采用自注意力机制模型将提取到的多个模态的特征向量进行特征融合,得到归一化情感特征值;
模型训练模块:将预处理后的多个模态的数据通过对比学习机制生成对应的正负样本,优化提取到的特征向量,将优化后的特征向量输入基于自注意力机制融合的多模态情感识别网络模型,依次进行特征提取和特征融合,进行模型训练,得到最优的基于自注意力机制融合的多模态情感识别网络模型;
任务迁移模块:根据三种不同的情感状态设置不同的迁移函数,以此来处理经过基于自注意力机制融合的多模态情感识别网络模型训练后得到的归一化情感特征值,输出情感二维值。
一种基于自注意力机制融合的多模态情感识别设备,包括:
存储器:用于存储实现所述的一种基于自注意力机制融合的多模态情感识别方法的计算机程序;
处理器:用于执行所述计算机程序时实现所述的一种基于自注意力机制融合的多模态情感识别方法。
一种计算机可读存储介质,包括:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现所述的一种基于自注意力机制融合的多模态情感识别方法。
相对于现有技术,本发明的有益效果在于:
1、本发明步骤1中,分别采集了文本数据、语音数据以及视频数据中的相关信息,充分考虑了相关数据中的文本信息、语音信息、语音信号、姿态信息以及面部信息,保证了数据来源的多元化。
2、本发明步骤3对多模态的特征向量进行了融合,提高了训练模型的准确度。
3、本发明步骤3中通过自注意力机制来自适应控制多模态信息的权重,实现了自适应的多个模态的信息融合,提高了模型的准确度和泛化性。
4、本发明步骤4中通过对比学习的方法来微调预训练模型,大大减少了模型的参数量以及模型的训练成本。
5、本发明步骤5中通过迁移模块对不同的下游任务进行迁移,提高了模型的鲁棒性。
综上所述,与现有技术相比,本发明充分考虑了文本信息、语音信息、语音信号、姿态信息以及面部信息,保证了数据来源的多元化;并采用了对预训练模型的特征级融合,大大降低了模型的参数量,提高了模型的处理速度,拓展了模型的应用场景;同时采用自注意力机制进行特征融合,结合了对比学习框架下不同的迁移函数,在提升模型准确度的同时,提高了算法的迁移性和鲁棒性,使得模型的应用范围更广。
附图说明
图1为本发明的方法流程图。
图2为本发明的整体架构图。
图3为本发明特征提取网络中BERT网络中的Transformer编码器架构图。
图4为本发明特征提取网络中的GRU网络架构图。
图5为本发明特征提取网络中的Alphapose网络架构图。
图6为本发明特征提取网络中的Yolo网络架构图。
图7为本发明的自注意力机制模型架构图。
图8为本发明的对比学习框架示意图。
图9为不同融合方式的横向对比结果图。
具体实施方式
下面结合附图和实施例详细说明本发明的技术方案。
参见图1,一种基于自注意力机制融合的多模态情感识别方法,包括如下步骤:
步骤1,数据预处理:根据不同的迁移函数选择不同的时间序列,对多个模态的数据进行采样,并按照序列进行对齐,所述多个模态的数据包括文本数据中的文本信息、语音数据中的语音信息、视频数据中的姿态信息以及视频数据中的面部信息;
步骤2,特征提取:将步骤1预处理后的多个模态的数据分别输入对应的特征提取网络,进行特征提取,获取对应的特征向量;
步骤3,特征融合:采用自注意力机制模型对步骤2提取到的多个模态的特征向量赋予不同的权重,然后进行特征融合,得到归一化情感特征值;
步骤4,训练模型:利用对比学习机制对基于自注意力机制融合的多模态情感识别网络模型进行训练,重复步骤1-步骤4,优化提取到的特征向量,得到最优的基于自注意力机制融合的多模态情感识别网络模型;
步骤5,任务迁移:通过迁移函数对不同的下游任务进行迁移,根据绝对情感、相对情感和情感倾向三种不同的情感状态设置不同的迁移函数,以此来处理经过步骤4的基于自注意力机制融合的多模态情感识别网络模型训练后得到的归一化情感特征值,得到不同任务的情感值。
参见图2,作为整体的算法框架,BERT网络模型为文本特征提取网络,GRU网络模型为语音特征提取网络,Alphapose网络模型为姿态特征提取网络,Yolo+Openface2网络模型为面部表情特征提取网络,通过注意力机制融合提取到特征向量,使用对比学习框架完成训练,经过迁移函数完成对下游任务的迁移。
具体为,选用的CMU_MOSEI数据集进行数据预处理,该数据集具有情感和情绪两个标签,情感从nagative到positive定义为[-3,3]七个阶段,情绪包含愤怒、开心、悲伤、惊讶、害怕和厌恶7个类别,对于文本、语音以及视频等几个模态以固定的频率进行捕获和对齐,形成计算序列,为后续训练做准备。在对数据进行预处理时,情绪根据标注分为7个类别,情感则是[-3,3]的一个倾向值,根据不同的迁移函数选择不同的时间序列对文本数据、语音数据以及视频数据分别进行采样,并按照序列进行对齐。
将上述对齐的数据按照7:3的比例划分为训练集与测试集。通过对多模态的网络进行500个epoch的训练,模型会逐渐回归到一个稳定的最优解,可以有效地提取到对应的四个情感相关特征,然后通过自注意力机制自适应赋予不同模态以不同的权重,实现特征级的有效融合。
参见图3、图4、图5和图6,所述步骤2特征提取的具体过程为:
步骤2.1:从文本数据中提取文本情感信息的特征向量,具体包括:通过设定的时间序列裁剪文本片段;将文本片段的词向量进行嵌入得到对应位置信息的序列;将对应位置信息的序列输入特征提取网络中的BERT网络,得到文本情感信息的特征向量;
步骤2.2:从语音数据中提取语音情感信息的特征向量,具体包括:通过设定的时间序列提取语音片段;对每一个语音片段的语音数据进行傅里叶变换,得到一一对应的信号频谱;将得到的信号频谱通过Spec_transition得到梅尔倒谱;将得到的梅尔倒谱输入特征提取网络中的GRU网络,得到语音情感信息的特征向量;
步骤2.3:从视频数据中提取姿态情感信息的特征向量,具体包括:对视频数据按照设定的时间序列抽取图片帧;对获取的每张图片使用Alphapose网络进行骨架检测,获得每一张图片的人体姿态骨架信息;将人体姿态骨架信息进行向量化;利用卷积层对人体姿态骨架信息进行特征提取,得到姿态情感信息的特征向量;
步骤2.4:从视频数据中提取面部情感信息的特征向量,具体包括:对视频数据按照设定的时间序列抽取图片帧;对获取的每张图片使用YOLO网络架构进行人脸检测;获取每张图片的人脸坐标信息;利用得到的人脸坐标信息对图片进行裁剪,得到人脸图像块,并进行尺寸以及分辨率的标准化;将标准化后的人脸图像块输入OpenFace2库,得到面部情感信息的特征向量。
步骤2.1中利用BERT网络提取文本情感信息的特征向量,具体为,BERT网络使用了多个Transformer编码器堆叠在一起,Transformer的编码器架构如图3所示,进行特征提取时,首先对input的所有词汇做指令嵌入,包括正常以及特殊词汇,然后通过段落嵌入区分两个句子,最后进行位置嵌入,相比于Transformer的正余弦函数,本发明使用的是随机初始化来更新模型参数,使用多头注意力机制以及残差网络提升模型提取能力。
步骤2.2中利用GRU网络提取语音情感信息的特征向量,如图4所示。具体为,相比于传统的LSTM模型,GRU网络的结构只有两个门,更新门以及重置门,其中,更新门zt通过如下公式筛选信息,使用权重矩阵Wz来控制t时刻新旧信息输入的保留程度:
zt=σ(Wz·[ht-1,xt])
式中,zt表示更新门,Wz表示权重矩阵,σ表示sigmoid损失函数,t表示当前时刻,t-1表示上一时刻,ht-1表示上一时刻的隐藏状态,xt表示输入序列在当前时刻的输入。
rt作为重置门也是用于筛选信息,通过如下公式使用权重矩阵Wr来控制t-1时刻每个位置输入信息的保留程度:
rt=σ(Wr·[ht-1,xt])
式中,rt表示重置门,Wr表示权重矩阵,σ表示sigmoid损失函数,t表示当前时刻,t-1表示上一时刻,ht-1表示上一时刻的隐藏状态,xt表示输入序列在当前时刻的输入。
通过这两个门的控制,GRU能够动态地平衡新旧信息的加入程度,并且相对于传统LSTM模型,GRU网络参数更少,只需要6个权重矩阵,同时可以根据如下公式进行记忆选择,筛选出重要的隐藏信息:
式中,表示候选的隐藏状态,W表示可训练的权重矩阵,rt表示重置门,ht-1表示上一时刻的隐藏状态,xt表示输入序列在当前时刻的输入,ht表示当前时刻的隐藏状态,zt表示重置门。
步骤2.3中利用Alphapose网络提取姿态情感信息的特征向量,Alphapose网络架构如图5所示。具体为,使用STN空间变换网络接受人体区域建议,经过SPPE后,将得到的姿势映射到原始人体提议图像中,其次,使用空间反变换器网络SDTN将估计的人体姿势重新映射回原始图像坐标,同时训练SPPE姿态估计网络,通过PGPG姿态引导区域框生成器进行数据增强,最终使用参数化非最大抑制(P-NMS)解决姿态的冗余检测问题,得到对应的姿态情感信息的特征向量,通过此操作,能够精确地定位人体区域并提取对应的姿态特征。
步骤2.4中利用YOLO网络提取面部情感信息的特征向量,具体为,首先,提取面部表情信息,当获取到经预处理对齐后的面部图片后,先将面部图像输入至Yolo网络中得到面部关键点的信息,然后,再调用Openface2模块进行情感信息分析,抑制无关信息,尽可能在保持情感相关性信息不被池化的前提下,最大化地提取情感相关信息。YOLO网络架构如图6所示,输入端通过Mosaic数据增强获得,然后经过自适应的图片缩放和灰度填充(114,114,114),将原始的640*640*3的图像输入到Focus模块中,在该模块中,每隔一个像素得到一个值,从而获得四张图片,相对于原先的RGB三通道,此时的数据变成了320*320*12的特征图。接下来,通过卷积层获得320*320*32的特征图,从而提升计算力,同时保持信息不丢失,在CSP模块中,数据分为两个分支,一个分支经过残差后进行卷积,另一个则直接进行卷积,两个分支经过正态分布后进行拼接,并循环多次,最终提取到面部情感信息的特征向量。
参见图7,所述步骤3特征融合的具体过程为:
步骤3.1:将步骤2获取的文本情感信息的特征向量、语音情感信息的特征向量、姿态情感信息的特征向量和面部情感信息的特征向量进行向量拼接;
步骤3.2:通过自注意力机制来自适应控制模态信息的权重,再通过Concat函数进行拼接,得到融合文本、语音、视频的特征数据;
步骤3.3:将融合文本、语音、视频的特征数据输入全连接模块,输出归一化情感特征值。
自注意力机制模型主要分为两个核心部分,目的在于利用经过训练的矩阵来计算输入向量之间的相关性。具体为:首先对于输入的向量通过不同的矩阵得到query矩阵和key矩阵,并计算q、k的内积,即衡量了两个向量之间的相关程度,根据相关性信息,通过下式得到注意力评分a':
a'1,i=exp(a1,i)/∑jexp(a1,j)
式中,i表示第i个模态,j表示模态数,a1,i表示第i个模态所占的权重,a1,j表示第j个模态的权重;
然后经过一个softmax层之后利用一个Wv矩阵来进行注意力评分,并从中提取信息,计算输入向量与Wv矩阵相乘后得到的向量加权和,得到自适应的权重值,从而实现多个模态的权重分配。
参见图8,所述步骤4训练模型的具体过程为:
步骤4.1:将步骤1中对齐的多个模态的数据划分为训练集与测试集;
步骤4.2:将步骤4.1中的训练集根据对齐的文本时间序列划分为不同的样本,在一个样本内的模态信息可以互相确立为正样本,对于不同样本之间的模态信息可以作为负样本,从而得到模型训练所需的正、负样本;
步骤4.3:将步骤4.2获得的正、负样本依次进行特征提取和特征融合,并将正、负样本间的对比关系作为InfoNCE损失函数的输入参数,调整各网络提取相关性信息的能力,重复步骤1-步骤4,对基于自注意力机制融合的多模态情感识别网络模型进行训练和优化,得到最优的基于自注意力机制融合的多模态情感识别网络模型。
具体为,首先将基于对比学习的训练过程分为两块:任务替换和目标函数,包含如下四个阶段:
(1)任务替换阶段:对于同一个序列的样本x,使用两种不同的任务方式生成两个样本,对于图片数据部分采用随机裁剪、随机颜色失真、高斯模糊等方式,使得/>成为一个正样本对;
(2)特征编码器阶段:即f(·),对于不同的数据可以选择不同的网络,上述的多个模态的数据对应的预训练网络即为特征编码器;
(3)多层感知机阶段:通过上述特征提取之后,再进入多层感知机,输出对应的特征zi和zj,根据下面的InfoNCE损失函数,进行回归;
(4)目标函数阶段:InfoNCE损失函数对zi和zj的损失定义如下:
式中,N表示一个batch的样本数,即对于一个batch的N个样本,通过数据增强得到N对正样本对,此时有2N个样本,负样本则是剩余的2(N-1)个样本,也就是负样本都基于这个batch的数据生成;zi表示样本xi的特征,zj表示样本xj的特征,zk表示从生成的2N个样本中提取到的特征,sim(zi,zk)表示余弦相似度的计算公式(sim(u,v)=uTv/||u||·||v||),1[k≠i],输入0或1,当k与i不相等时,输出结果为1,否则为0,τ为温度系数,用于控制训练的幅度。
然后根据InfoNCE损失函数进行损失回归,分子计算的是正样本对的距离,而负样本的距离则在分母中进行叠加,正样本对距离越近,与此同时,负样本距离变远,从而使得模态之间提取到的特征相关性得以提升,并根据此损失微调上述的特征提取函数,完成对整体多模态网络的特征提取训练。
所述步骤5任务迁移的具体过程为:
步骤5.1:根据连续以及离散的情感分类划分三种情感状态,包括绝对情感、相对情感和情感倾向;
步骤5.2:根据三种不同的情感状态设置不同的迁移函数,以此来处理经过步骤4训练后得到的归一化情感特征值;
步骤5.3:将步骤5.2的结果输入Relu和全连接层得到不同任务的情感值。
基于上述措施,本发明探索了三种不同的正/负样本选择迁移策略,需要注意的是,对于所有提出的对比性标记策略,使用相同的损失函数训练多模态模型,即上述的监督对比性损失函数InfoNCE,三种迁移策略如下:
(1)绝对情感:对比性情感通过匹配具有相似情感状态的窗口作为正面对和具有不同情感状态的窗口作为负面对来构建,为了定义情感状态的相似性,本发明将情感监督对比学习用于情感建模。具体而言,将情感状态二进制化为“高”和“低”,并将具有相同或不同状态的窗口分别视为相似或不相似。二进制化的标准是基于整个影响注释痕迹集的中位基真值ga和一个阈值e,当影响注释值大于ga加上阈值e时,一个时间窗口被标记为“高”,当影响注释值小于中位基真值ga减去阈值e时,则被标记为“低”。其中,阈值e是用来消除接近中位数的模糊影响注释值的窗口,这可能会降低模型的稳定性,从而影响学习到的特征的有效性,由此产生的预处理数据集不包括模棱两可的情感值,构成了所有三种标签策略的基础,ga如下公式所示,vi即为样本的value值:
式中,ga表示中位数基值,w表示序列内样本个数,i表示第i个样本,vi表示样本的value值;
(2)相对情感:通过选择中位数来对数据进行二进制化,最终可以得到一个平衡的数据集。此外,本发明通过根据情感变化进行相对测量的二值化程序,当影响注释值大于中位影响变化值ca加上阈值e时,选择将一个时间窗口标记为“变化”,当影响注释值小于中位影响变化值ca减去阈值e时,标记为“不变”:
式中,ca表示中位影响变化值,w表示序列内样本个数,i表示第i个样本,vi表示样本的value值,vi-1表示上一个样本的value;
(3)情感倾向:同样地,也可以使用情感倾向进行相对测量。当影响注释值大于中位影响趋势值ta时,将一个时间窗口分配到“上升趋势”类,否则被分配到“下降趋势”类,最后,选择使用标签来定义积极和消极的样本,并根据它们所属的类别进行匹配。这些对比标记策略可以帮助构建一个更加准确的情感建模。本发明把设定为整个影响趋势轨迹的中位数影响趋势值,使用标签来定义积极和消极的样本,基于它们所属的类别:一个类别匹配和一个类别不匹配分别定义积极和消极的样本对:
式中,ta表示中位影响趋势值,w表示序列内样本个数,i表示第i个样本,vi表示样本的value值,vi-1表示上一个样本的value。
综上所述,第一种策略和其他两种对比标记策略的主要区别在于,前者是直接的,因为“高”和“低”的数值是由影响注释痕迹的实际大小得出的;而另外两种策略则是间接的,因为“变化”和“趋势”都是高阶痕迹,表达的是平均绝对变化率和弯曲率。
参见图9,利用Ubuntu18.04操作***和VSCODE软件,对不同融合方式进行实验,具体的实验条件如表1所示:
表1实验条件
首先,进行了融合方式的横向对比实验,表1中batchsize为一次训练所选取的样本数目,dropout为正则化方法,dropout in为输入向量的随机丢弃的比例,dropout out为前向传播时丢弃的比例,由图9可以看出,决策级融合是效率最差的,数据级融合在效率上虽然有所提升,但是其最终的收敛结果仍然较差,而以自注意力机制进行特征级的融合方案对于本发明模型的检测精度来讲是最好的。
其次,进行多个模型的纵向对比实验,结果如表2所示,表中TFN、Multi-Net、ICCN、LMF分别为不同的融合网络,ACC-2为模型在不同情感类别上的表现,F1-2为多标签的准确率和召回率的平衡情况,CC为相关系数,可以看出,本发明的模型在参数量上远远小于TFN等大型融合网络。同时,得益于架构的更新,情感识别准确度也有一定提升,而相较于Multi-Net以及ICCN等在准确度上提升更为明显,面对较小的网络如LMF在情感识别准确度以及效率的提升方面十分显著。
表2实验结果
综上所述,本发明公开的一种基于自注意力机制融合的多模态情感识别方法,在视频、文本、语音三个模态的数据上进行情感特征的提取,通过对比学习的方法来微调预训练模型,从而获得模态之间的相关性信息,并以自注意力机制的优势进行特征融合。同时设计了三种不同的迁移函数,以此来适配不同的下游任务。本发明提出的多模态情感识别方法可以在模型参数量较小的情况下保证较高的准确度。
一种基于自注意力机制融合的多模态情感识别***,包括:
数据预处理模块:根据不同的迁移函数选择不同的时间序列,对多个模态的数据进行采样,并按照序列进行对齐,该模块对应步骤1;
特征提取模块:利用预训练模型对预处理后的多个模态的数据所包含的情感信息分别进行提取,获取对应的特征向量,该模块对应步骤2;
特征融合模块:采用自注意力机制模型将提取到的多个模态的特征向量进行特征融合,得到归一化情感特征值,该模块对应步骤3;
模型训练模块:将预处理后的多个模态的数据通过对比学习机制生成对应的正负样本,优化提取到的特征向量,将优化后的特征向量输入基于自注意力机制融合的多模态情感识别网络模型,依次进行特征提取和特征融合,进行模型训练,得到最优的基于自注意力机制融合的多模态情感识别网络模型,该模块对应步骤4;
任务迁移模块:根据三种不同的情感状态设置不同的迁移函数,以此来处理经过基于自注意力机制融合的多模态情感识别网络模型训练后得到的归一化情感特征值,输出情感二维值,该模块对应步骤5。
一种基于自注意力机制融合的多模态情感识别设备,包括:
存储器:用于存储实现所述的一种基于自注意力机制融合的多模态情感识别方法的计算机程序;
处理器:用于执行所述计算机程序时实现所述的一种基于自注意力机制融合的多模态情感识别方法。
一种计算机可读存储介质,包括:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现所述的一种基于自注意力机制融合的多模态情感识别方法。

Claims (10)

1.一种基于自注意力机制融合的多模态情感识别方法,其特征在于,包括如下步骤:
步骤1,数据预处理:根据不同的迁移函数选择不同的时间序列,对多个模态的数据进行采样,并按照序列进行对齐,所述多个模态的数据包括文本数据中的文本信息、语音数据中的语音信息、视频数据中的姿态信息以及视频数据中的面部信息;
步骤2,特征提取:将步骤1预处理后的多个模态的数据分别输入对应的特征提取网络,进行特征提取,获取对应的特征向量;
步骤3,特征融合:采用自注意力机制模型对步骤2提取到的多个模态的特征向量赋予不同的权重,然后进行特征融合,得到归一化情感特征值;
步骤4,训练模型:利用对比学习机制对基于自注意力机制融合的多模态情感识别网络模型进行训练,重复步骤1-步骤4,优化提取到的特征向量,得到最优的基于自注意力机制融合的多模态情感识别网络模型;
步骤5,任务迁移:通过迁移模块对不同的下游任务进行迁移,根据绝对情感、相对情感和情感倾向三种不同的情感状态设置不同的迁移函数,以此来处理经过步骤4的基于自注意力机制融合的多模态情感识别网络模型训练后得到的归一化情感特征值,得到不同任务的情感值。
2.根据权利要求1所述的一种基于自注意力机制融合的多模态情感识别方法,其特征在于,所述步骤2特征提取的具体过程为:
步骤2.1:从文本数据中提取文本情感信息的特征向量,具体包括:通过设定的时间序列裁剪文本片段;将文本片段的词向量进行嵌入得到对应位置信息的序列;将对应位置信息的序列输入特征提取网络中的BERT网络,得到文本情感信息的特征向量;
步骤2.2:从语音数据中提取语音情感信息的特征向量,具体包括:通过设定的时间序列提取语音片段;对每一个语音片段的语音数据进行傅里叶变换,得到一一对应的信号频谱;将得到的信号频谱通过Spec_transition得到梅尔倒谱;将得到的梅尔倒谱输入特征提取网络中的GRU网络,得到语音情感信息的特征向量;
步骤2.3:从视频数据中提取姿态情感信息的特征向量,具体包括:对视频数据按照设定的时间序列抽取图片帧;对获取的每张图片使用Alphapose网络进行骨架检测,获得每一张图片的人体姿态骨架信息;将人体姿态骨架信息进行向量化;利用卷积层对人体姿态骨架信息进行特征提取,得到姿态情感信息的特征向量;
步骤2.4:从视频数据中提取面部情感信息的特征向量,具体包括:对视频数据按照设定的时间序列抽取图片帧;对获取的每张图片使用YOLO网络架构进行人脸检测;获取每张图片的人脸坐标信息;利用得到的人脸坐标信息对图片进行裁剪,得到人脸图像块,并进行尺寸以及分辨率的标准化;将标准化后的人脸图像块输入OpenFace2库,得到面部情感信息的特征向量。
3.根据权利要求1所述的一种基于自注意力机制融合的多模态情感识别方法,其特征在于,所述步骤3特征融合的具体过程为:
步骤3.1:将步骤2获取的文本情感信息的特征向量、语音情感信息的特征向量、姿态情感信息的特征向量和面部情感信息的特征向量进行向量拼接;
步骤3.2:通过自注意力机制来自适应控制模态信息的权重,再通过Concat函数进行拼接,得到融合文本、语音、视频的特征数据;
步骤3.3:将融合文本、语音、视频的特征数据输入全连接模块,输出归一化情感特征值。
4.根据权利要求1所述的一种基于自注意力机制融合的多模态情感识别方法,其特征在于,所述步骤4训练模型的具体过程为:
步骤4.1:将步骤1中对齐的多个模态的数据划分为训练集与测试集;
步骤4.2:将步骤4.1中的训练集根据对齐的文本时间序列划分为不同的样本,在一个样本内的模态信息可以互相确立为正样本,对于不同样本之间的模态信息可以作为负样本,从而得到模型训练所需的正、负样本;
步骤4.3:将步骤4.2获得的正、负样本依次进行特征提取和特征融合,并将正、负样本间的对比关系作为损失函数的输入参数,调整各网络提取相关性信息的能力,重复步骤1-步骤4,对基于自注意力机制融合的多模态情感识别网络模型进行训练和优化,得到最优的基于自注意力机制融合的多模态情感识别网络模型。
5.根据权利要求1所述的一种基于自注意力机制融合的多模态情感识别方法,其特征在于,所述步骤5任务迁移的具体过程为:
步骤5.1:根据连续以及离散的情感分类划分三种情感状态,包括绝对情感、相对情感和情感倾向;
步骤5.2:根据三种不同的情感状态设置不同的迁移函数,以此来处理经过步骤4训练后得到的归一化情感特征值;
步骤5.3:将步骤5.2的结果输入Relu和全连接层得到不同任务的情感值。
6.根据权利要求3所述的一种基于自注意力机制融合的多模态情感识别方法,其特征在于,所述步骤3特征融合的过程中,通过自注意力机制来自适应控制模态信息权重的具体方法为:
利用自注意力机制调整矩阵参数来获取标注结果与输入向量之间的相关性,引导矩阵进行自适应的权重分配,得到的加权和即是情绪相关性的排序加权和,从而实现多个模态的权重分配,具体公式如下:
a'1,i=exp(a1,i)/∑jexp(a1,j)
式中,i表示第i个模态,j表示模态数,a1,i表示第i个模态所占的权重,a1,j表示第j个模态的权重。
7.根据权利要求5所述的一种基于自注意力机制融合的多模态情感识别方法,其特征在于,所述步骤5中的迁移函数包括绝对情感迁移函数、相对情感迁移函数和情感倾向迁移函数,三种迁移函数可适配不同的下游任务;
所述绝对情感迁移函数为:
式中,ga表示中位数基值,w表示序列内样本个数,i表示第i个样本,vi表示样本的value值;
所述相对情感迁移函数为:
式中,ca表示中位影响变化值,w表示序列内样本个数,i表示第i个样本,vi表示样本的value值,vi-1表示上一个样本的value;
所述情感倾向迁移函数为:
式中,ta表示中位影响趋势值,w表示序列内样本个数,i表示第i个样本,vi表示样本的value值,vi-1表示上一个样本的value。
8.一种基于自注意力机制融合的多模态情感识别***,其特征在于,包括:
数据预处理模块:根据不同的迁移函数选择不同的时间序列,对多个模态的数据进行采样,并按照序列进行对齐;
特征提取模块:利用预训练模型对预处理后的多个模态的数据所包含的情感信息分别进行提取,获取对应的特征向量;
特征融合模块:采用自注意力机制模型将提取到的多个模态的特征向量进行特征融合,得到归一化情感特征值;
模型训练模块:将预处理后的多个模态的数据通过对比学习机制生成对应的正负样本,优化提取到的特征向量,将优化后的特征向量输入基于自注意力机制融合的多模态情感识别网络模型,依次进行特征提取和特征融合,进行模型训练,得到最优的基于自注意力机制融合的多模态情感识别网络模型;
任务迁移模块:根据三种不同的情感状态设置不同的迁移函数,以此来处理经过基于自注意力机制融合的多模态情感识别网络模型训练后得到的归一化情感特征值,输出情感二维值。
9.一种基于自注意力机制融合的多模态情感识别设备,其特征在于,包括:
存储器:用于存储实现所述权利要求1-7的一种基于自注意力机制融合的多模态情感识别方法的计算机程序;
处理器:用于执行所述计算机程序时实现所述权利要求1-7的一种基于自注意力机制融合的多模态情感识别方法。
10.一种计算机可读存储介质,其特征在于,包括:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现权利要求1-7的一种基于自注意力机制融合的多模态情感识别方法。
CN202310617199.1A 2023-05-29 2023-05-29 一种基于自注意力机制融合的多模态情感识别方法、***、设备及介质 Pending CN116564355A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310617199.1A CN116564355A (zh) 2023-05-29 2023-05-29 一种基于自注意力机制融合的多模态情感识别方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310617199.1A CN116564355A (zh) 2023-05-29 2023-05-29 一种基于自注意力机制融合的多模态情感识别方法、***、设备及介质

Publications (1)

Publication Number Publication Date
CN116564355A true CN116564355A (zh) 2023-08-08

Family

ID=87492954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310617199.1A Pending CN116564355A (zh) 2023-05-29 2023-05-29 一种基于自注意力机制融合的多模态情感识别方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN116564355A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117133275A (zh) * 2023-08-25 2023-11-28 长春理工大学 基于单元点积相似度特征的并行化语音识别模型建立方法
CN117252689A (zh) * 2023-11-13 2023-12-19 北京佳格天地科技有限公司 基于大数据的农业用户信贷决策支持方法及***
CN117954100A (zh) * 2024-03-26 2024-04-30 天津市品茗科技有限公司 一种基于用户行为的认知能力测试和训练方法及***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117133275A (zh) * 2023-08-25 2023-11-28 长春理工大学 基于单元点积相似度特征的并行化语音识别模型建立方法
CN117133275B (zh) * 2023-08-25 2024-03-22 长春理工大学 基于单元点积相似度特征的并行化语音识别模型建立方法
CN117252689A (zh) * 2023-11-13 2023-12-19 北京佳格天地科技有限公司 基于大数据的农业用户信贷决策支持方法及***
CN117252689B (zh) * 2023-11-13 2024-02-13 北京佳格天地科技有限公司 基于大数据的农业用户信贷决策支持方法及***
CN117954100A (zh) * 2024-03-26 2024-04-30 天津市品茗科技有限公司 一种基于用户行为的认知能力测试和训练方法及***

Similar Documents

Publication Publication Date Title
CN108399428B (zh) 一种基于迹比准则的三元组损失函数设计方法
CN110188202B (zh) 语义关系识别模型的训练方法、装置及终端
CN113657124B (zh) 基于循环共同注意力Transformer的多模态蒙汉翻译方法
CN111897933B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN116564355A (zh) 一种基于自注意力机制融合的多模态情感识别方法、***、设备及介质
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN110349229B (zh) 一种图像描述方法及装置
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN114511906A (zh) 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
CN113361636B (zh) 一种图像分类方法、***、介质及电子设备
CN113822125B (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN114692732B (zh) 一种在线标签更新的方法、***、装置及存储介质
CN114240955B (zh) 一种半监督的跨领域自适应的图像分割方法
CN111476771A (zh) 一种基于距离对抗生成网络的领域自适应方法及***
CN111046771A (zh) 用于恢复书写轨迹的网络模型的训练方法
CN117218498B (zh) 基于多模态编码器的多模态大语言模型训练方法及***
CN114998601A (zh) 基于Transformer的在线更新目标跟踪方法及***
CN117351542A (zh) 一种面部表情识别方法及***
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN117688936B (zh) 一种图文融合的低秩多模态融合情感分析方法
CN114399661A (zh) 一种实例感知主干网络训练方法
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN115496991A (zh) 基于多尺度跨模态特征融合的指代表达理解方法
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN112765955B (zh) 一种中文指代表达下的跨模态实例分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination