CN115510224A - 一种基于视觉、音频与文本融合的跨模态bert情感分析方法 - Google Patents

一种基于视觉、音频与文本融合的跨模态bert情感分析方法 Download PDF

Info

Publication number
CN115510224A
CN115510224A CN202210825285.7A CN202210825285A CN115510224A CN 115510224 A CN115510224 A CN 115510224A CN 202210825285 A CN202210825285 A CN 202210825285A CN 115510224 A CN115510224 A CN 115510224A
Authority
CN
China
Prior art keywords
text
modal
attention
matrix
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210825285.7A
Other languages
English (en)
Inventor
刘峰
吴振国
赵峥涞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210825285.7A priority Critical patent/CN115510224A/zh
Publication of CN115510224A publication Critical patent/CN115510224A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

一种基于视觉、音频与文本融合的跨模态BERT情感分析方法,将三种不同方式提取出的模态进行缩放并使用一个一维卷积网络控制其处于相同维度;分别对视觉、音频模态进行类Self‑Attention处理并加权融合生成双模态注意力矩阵;对文本进行相同处理后与双模态注意力矩阵进行进一步融合并通过Mask掩码模块和激活函数生成融合后的多模态权重矩阵;将多模态权重矩阵与文本预训练模型提取到的文本特征进行矩阵相乘处理后通过残差网络和归一化得到的情感分类结果来微调文本预训练模型。本方法结合来自文本、图像和语音模态的信息微调预先训练过的文本模型,采用Cross‑Multimodal作为其核心,通过跨模态交互作用动态调整单词的权重,能够有效提高文本预训练模型对于情感分类的准确性。

Description

一种基于视觉、音频与文本融合的跨模态BERT情感分析方法
技术领域
本发明属于自然语言处理领域,具体涉及一种基于视觉、音频与文本融合的跨模态BERT情感分析方法。
背景技术
情感在人类的人际交往中起着至关重要的作用。情绪分析作为人机交互的关键技术之一,影响着人工智能的发展,已广泛应用于许多应用场景,如人机对话、自动驱动等。文本是我们日常生活中的一种基本的方式,它通过词语、短语和关系来表达情感。在过去的几年里,文本情绪分析取得了很多成就,例如,TextCNN在针对句子级分类任务的预训练词向量之上进行训练,取得的不错的效果。
然而人们对世界的认知,对信息的处理是多模态的,大多的机器学习模型却是仅针对单模态的,例如普通的BERT模型,在某些情况下,很难通过文本信息来准确地判断情绪;而单一的图片情感分析或是语音情感分析也仅仅针对单一模态做处理。
发明内容
针对现有技术的不足,本发明目的在于提供一种可以同时利用文本信息、视觉信息、音频信息的多模态情感分析方法,提高了单一模态情感分析的准确率。
本发明为实现上述发明目的采用以下技术方案:
(1)从输入视频中提取出图像特征、语音特征与文本特征,并控制三种不同模态的特征到同一维度上,具体步骤如下:
(1.1)先通过MTCNN来提取对齐人脸,使用OpenFace Toolkit2.0 提取出共709维的图像特征;使用具有默认参数的Librosa提取共33 维的语音特征;使用预训练好的标准BERT模型提取768维的文本特征;
(1.2)将所述三种模态输入到一维卷积层控制其到相同的维度,并对三种模态进行缩放。
(2)将所述三种模态特征输入到Masked MultiModel Attention 网络,结合类Self-Attention方法对其进行处理,得到多模态注意力矩阵,具体分步骤如下:
(2.1)将所述处理后的视觉特征输入到类Self-Attention网络得到双模态注意力矩阵Wfva
(2.2)将所述的文本特征与双模态注意力矩阵Wfva输入到类 Self-Attention网络得到多模态注意力矩阵Wf
(3)将所述多模态注意力矩阵输入到Mask模块处理得到多模态权重矩阵,之后再与初始文本模态相乘,得到具有多模态权重的文本特征;
(3.1)将多模态注意力矩阵Wf输入到Mask模块中输出多模态权重矩阵Wm
(3.2)通过MatMul层将多模态权重矩阵Wm与初始文本特征相乘输出得到Xatt
(4)将所述的具有多模态权重的文本特征输入到残差网络并进行归一化,输出得到情感分类结果。
与现有技术相比,本发明具备的有益效果为:
(1)对三种不同的模态进行缩放并通过一维卷积网络控制其处于相同纬度;在普通的BERT模型中引入了跨模态概念,加入了视频中视觉与音频特征;使用类Self-Attention网络对引入的图像与语音特征进行处理后与文本特征相结合得到多模态情感分析结果,并通过各模态之间的交互动态调整单词的权重
(2)本发明附加方面的优点将在下面的描述中部分给出,或从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例中的方法流程图。
图2是本发明实施例中的情感分析模型整体结构图。
图3是本发明实施例中的Cross-Multimodal BERT模型结构图。
图4是本发明实施例中的本方法在数据集CMU-MOSI数据集最终结果示意图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
步骤1:通过获取网上公开的CMU-MOSI数据集和CMU-MOSEI 数据集来构建数据样本,从数据集中的视频中提取出图像特征、语音特征与文本特征,并控制三种不同模态的特征到同一维度上;
(1)通过MTCNN提取对齐人脸,使用OpenFace Toolkit2.0提取出包括68个面部标志、17个面部动作单元、头部姿势、头部方向和眼睛注视等共709维的图像特征;
(2)使用具有默认参数的Librosa提取包括1维对数基频(log F0)、 20维梅尔频率倒谱系数(MFCC)和12维Constant-Q色谱图(CQT) 等共33维的语音特征;
(3)使用预训练好的标准BERT模型提取包括词向量编码、位置信息等共768维的文本特征;
(4)将所述三种模态的特征输入到一维卷积层Conv1D控制成相同的维度,并对三种模态的特征进行缩放防止量级过大。
步骤2:将步骤1所述三种模态特征输入到Masked MultiModel Attention网络,结合类Self-Attention方法对其进行处理,得到多模态注意力矩阵,具体分步骤如下:
(1)将处理后的图像特通过线性处理得到两个不同维度的矩阵,记为Qv、Kv,语音特征记为Qa、Ka,利用类Self-Attention得到双模态注意力矩阵。用αv表示图像注意力矩阵,βa表示语音注意力矩阵, Relu表示Relu激活函数,ωv表示图像注意力矩阵权重,ωa表示语音注意力矩阵权重,b表示偏置,输出双模态注意力矩阵Wfva
Figure RE-GDA0003950280300000041
Figure RE-GDA0003950280300000042
Wfva=ωvvaa+b (3)
(2)将输入的文本特征记为Qt、Kt,将Wfva输入到类 Self-Attention得到多模态注意力矩阵。其中γt表示文本注意力矩阵, Relu表示Relu激活函数,ωt表示文本注意力矩阵权重,ωf表示双模态注意力矩阵权重,b表示偏置,融合后得到多模态注意力矩阵Wf
Figure RE-GDA0003950280300000051
Wf=ωf*Wfvatt+b (5)
步骤3:将步骤2所述多模态注意力矩阵输入到Mask模块处理得到多模态权重矩阵,之后再与初始文本模态相乘,得到具有多模态权重的文本特征,具体分步骤如下:
(1)将步骤2得到的多模态注意力矩阵Wf输入到Mask模块中输出多模态权重矩阵Wm。其中M代表掩码矩阵,Softmax为Softmax 激活函数,使注意力矩阵变成多模态权重矩阵:
Wm=Softmax(Wf+M) (6)
(2)通过MatMul层将多模态权重矩阵Wm与初始文本特征(即为图3中标记的Vm,图中其由TextSubNet输出,也就是图2中 TextSubNet部分得到的输出)相乘输出得到包含了其他模态信息的文本特征Xatt
步骤4:将所述的具有多模态权重的文本特征输入到残差网络并进行归一化,具体步骤如下,至此完成神经网络的构建:
(1)通过Residual Connection残差连接层,将步骤3的输出与初始文本特征进行拼接(将两个向量进行叠加),使的深层网络中得到的结果不会比输入差。
(2)通过Layer Norm归一化层,将步骤(4.1)的输出归一化,使得后面进行反向传播时能够获取平衡的梯度;
(3)通过误差反向传播算法调整网络模型的参数至最优(这部分是模型自己通过得到的数据反馈根据梯度优化法来自己对参数进行优化),固定训练好的参数,得到基于图像、语音与文本融合的跨模态BERT情感分析模型,将样本测试集输入到网络模型中,从而实现多模态文本情感分类。
本方法在数据集CMU-MOSI数据集最终得到的效果如图4所示,可以看到本方法的7分类准确率Acc7、二分类准确率Acc2、F1-Score、均方损失误差MAE均优于目前大部分方法,误差Corr也较小。
本发明提出一种基于图像、语音融合跨模态微调文本预训练模型的情感分析方法,一方面将视频中的图像、语音特征提取出来通过类Self-Attention网络进行处理,获得双模态的注意力矩阵;另一方面在对标准BERT模型提取出的文本特征做处理,并将其余双模态注意力矩阵做融合得到多模态权重矩阵,之后通过新的权重去进一步处理文本特征得到多模态文本特征;本发明能够有效预测在多模态下文本的情感倾向。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (7)

1.一种基于视觉、音频与文本融合的跨模态BERT情感分析方法,其特征在于:包括以下步骤:
步骤(1),从输入视频中提取出图像特征、语音特征与文本特征,并控制三种不同模态的特征到同一维度上;
步骤(2),将所述三种模态特征输入到Masked MultiModel Attention网络,结合类Self-Attention方法对其进行处理,得到多模态注意力矩阵;
步骤(3),将所述多模态注意力矩阵输入到Mask模块处理得到多模态权重矩阵,之后再与初始文本模态相乘,得到具有多模态权重的文本特征;
步骤(4),将所述的具有多模态权重的文本特征输入到残差网络并进行归一化,并调整优化网络模型参数,输入待测数据集后,输出得到情感分类结果。
2.根据权利要求1所述的一种基于图像语音融合跨模态微调文本预训练模型的情感分析方法,其特征在于:步骤(1)提取初始三种模态特征具体包括如下步骤:
步骤(1.1),先通过多任务卷积神经网络MTCNN提取出对齐的人脸,之后使用OpenFaceToolkit2.0提取图像特征;
步骤(1.2),使用具有默认参数的语音处理包Librosa提取语音特征;
步骤(1.3),使用预训练好的标准BERT模型提取文本特征;
步骤(1.4),将所述三种特征输入到一维卷积层控制其到相同的维度,并对三种特征进行缩放防止量级过大。
3.根据权利要求1所述的一种基于图像语音融合跨模态微调文本预训练模型的情感分析方法,其特征在于:步骤(2)具体包括如下步骤:
步骤(2.1),将处理后的图像特通过线性处理得到两个不同维度的矩阵,记为Qv、Kv,语音特征记为Qa、Ka,利用类Self-Attention得到双模态注意力矩阵;
步骤(2.2),将输入的文本特征记为Qt、Kt,将Wfva输入到类Self-Attention得到多模态注意力矩阵。
4.根据权利要求3所述的一种基于图像语音融合跨模态微调文本预训练模型的情感分析方法,其特征在于:步骤(2.1)中,用αv表示图像注意力矩阵,βa表示语音注意力矩阵,Relu表示Relu激活函数,ωv表示视觉注意力矩阵权重,ωa表示音频注意力矩阵权重,b表示偏置,输出双模态注意力矩阵Wfva
Figure FDA0003746269490000021
Figure FDA0003746269490000022
Wfva=ωvvaa+b (3)。
5.根据权利要求3所述的一种基于图像语音融合跨模态微调文本预训练模型的情感分析方法,其特征在于:步骤(2.2)中,γt表示视觉注意力矩阵,Relu表示Relu激活函数,ωt表示文本注意力矩阵权重,ωf表示双模态注意力矩阵权重,b表示偏置,融合后得到多模态注意力矩阵Wf
Figure FDA0003746269490000031
Wf=ωf*Wfvatt+b (5)。
6.根据权利要求1所述的一种基于图像语音融合跨模态微调文本预训练模型的情感分析方法,其特征在于:步骤(3)具体包括如下步骤:
步骤(3.1),将步骤(2)得到的多模态注意力矩阵Wf输入到Mask模块中输出Wm;其中Wm代表多模态权重矩阵,M代表掩码矩阵,Softmax为Softmax激活函数:
Wm=Softmax(Wf+M) (6)
步骤(3.2),通过MatMul层将多模态权重矩阵Wm与初始文本特征相乘输出得到Xatt
7.根据权利要求1所述的一种基于图像语音融合跨模态微调文本预训练模型的情感分析方法,其特征在于:步骤(4)具体包括如下步骤:
步骤(4.1),通过Residual Connection残差连接层,将步骤(3.2)的输出与初始文本特征进行拼接;
步骤(4.2),通过Layer Norm归一化层,将步骤(4.1)的输出归一化,获得最终情感极性;
步骤(4.3),通过误差反向传播算法调整网络模型的参数至最优,固定训练好的参数,得到基于图像语音与文本融合的跨模态BERT情感分析模型,将样本数据集输入到网络模型中,从而实现多模态文本情感分类。
CN202210825285.7A 2022-07-14 2022-07-14 一种基于视觉、音频与文本融合的跨模态bert情感分析方法 Pending CN115510224A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210825285.7A CN115510224A (zh) 2022-07-14 2022-07-14 一种基于视觉、音频与文本融合的跨模态bert情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210825285.7A CN115510224A (zh) 2022-07-14 2022-07-14 一种基于视觉、音频与文本融合的跨模态bert情感分析方法

Publications (1)

Publication Number Publication Date
CN115510224A true CN115510224A (zh) 2022-12-23

Family

ID=84501306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210825285.7A Pending CN115510224A (zh) 2022-07-14 2022-07-14 一种基于视觉、音频与文本融合的跨模态bert情感分析方法

Country Status (1)

Country Link
CN (1) CN115510224A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690552A (zh) * 2022-12-30 2023-02-03 智慧眼科技股份有限公司 多意图识别方法、装置、计算机设备及存储介质
CN115690553A (zh) * 2023-01-03 2023-02-03 华南理工大学 一种基于多模态对话内容联合建模的情感分析方法及***
CN116049397A (zh) * 2022-12-29 2023-05-02 北京霍因科技有限公司 基于多模态融合的敏感信息发现并自动分类分级方法
CN116108186A (zh) * 2023-04-13 2023-05-12 南开大学 一种多模态方面级情感分析方法
CN116738359A (zh) * 2023-05-23 2023-09-12 内蒙古工业大学 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049397A (zh) * 2022-12-29 2023-05-02 北京霍因科技有限公司 基于多模态融合的敏感信息发现并自动分类分级方法
CN116049397B (zh) * 2022-12-29 2024-01-02 北京霍因科技有限公司 基于多模态融合的敏感信息发现并自动分类分级方法
CN115690552A (zh) * 2022-12-30 2023-02-03 智慧眼科技股份有限公司 多意图识别方法、装置、计算机设备及存储介质
CN115690553A (zh) * 2023-01-03 2023-02-03 华南理工大学 一种基于多模态对话内容联合建模的情感分析方法及***
CN116108186A (zh) * 2023-04-13 2023-05-12 南开大学 一种多模态方面级情感分析方法
CN116108186B (zh) * 2023-04-13 2023-06-20 南开大学 一种多模态方面级情感分析方法
CN116738359A (zh) * 2023-05-23 2023-09-12 内蒙古工业大学 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法

Similar Documents

Publication Publication Date Title
CN115510224A (zh) 一种基于视觉、音频与文本融合的跨模态bert情感分析方法
CN111312245B (zh) 一种语音应答方法、装置和存储介质
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
WO2021037113A1 (zh) 一种图像描述的方法及装置、计算设备和存储介质
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN115329779B (zh) 一种多人对话情感识别方法
CN112233646B (zh) 基于神经网络的语音克隆方法、***、设备及存储介质
CN108170749A (zh) 基于人工智能的对话方法、装置及计算机可读介质
Liu et al. Reinforcement learning for emotional text-to-speech synthesis with improved emotion discriminability
CN114973062A (zh) 基于Transformer的多模态情感分析方法
Azizah et al. Hierarchical transfer learning for multilingual, multi-speaker, and style transfer DNN-based TTS on low-resource languages
CN113421547B (zh) 一种语音处理方法及相关设备
JP2005003926A (ja) 情報処理装置および方法、並びにプログラム
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN112216307A (zh) 语音情感识别方法以及装置
Santoso et al. Speech Emotion Recognition Based on Attention Weight Correction Using Word-Level Confidence Measure.
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和***
CN114882862A (zh) 一种语音处理方法及相关设备
CN117251057A (zh) 一种基于aigc构建ai数智人的方法及***
CN115937369A (zh) 一种表情动画生成方法、***、电子设备及存储介质
Wu et al. Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech Synthesis.
CN114898779A (zh) 融合多模态的语音情感识别方法及***
CN116090474A (zh) 对话情绪分析方法、装置和计算机可读存储介质
CN116561533B (zh) 一种教育元宇宙中虚拟化身的情感演化方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination