CN115964638A

CN115964638A - 多模态社交数据情感分类方法、***、终端、设备及应用

Info

Publication number: CN115964638A
Application number: CN202211731084.7A
Authority: CN
Inventors: 郭认飞; 石珺; 廖伟; 李志鹏; 杨阳朝; 廖勇; 沈宜
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-04-14

Abstract

本发明属于人工智能、深度学习、情感识别、多模态融合技术领域，公开了多模态社交数据情感分类方法、***、终端、设备及应用。所述方法包括：基于掩码自编码器MAE的图像特征提取；基于BERT神经网络模型的文本信息提取；MFB融合层融合图像特征信息和文本信息；融合向量通过全连接神经网络层和softmax分类层完成情感分类。本发明掩码自编码器MAE模型具有enconder‑deconder网络结构，deconder结构负责重建原图，其enconder网络结构输出向量能够更好的表征图像高维抽象信息和细粒度局部信息；MFB融合层具有更好融合图像信息和文本信息的能力。本发明分类准确率获得提升。

Description

多模态社交数据情感分类方法、***、终端、设备及应用

技术领域

本发明属于人工智能、深度学习、情感识别、多模态融合技术领域，尤其涉及一种多模态社交数据情感分类方法、***、终端、设备及应用。

背景技术

社交网络用户文本数据经常搭配图像数据，只凭单一模态数据愈发难以理解用户表达情感。市场多模态情感分析方法文本特征提取网络和图像特征提取网络提取阶段是独立的，导致两种模态数据在特征提取阶段交互不足，不能充分提取两种模态的数据特征。为改善以上问题，本方法首先采用掩码自编码器MAE(Masked AutoEncoders)充分提取图像特征，自编码器MAE技术因为采用enconder-deconder的结构，具有图像提取特征、特征还原图像的双向功能，因此能够更准确的提取图像特征；文本语义特征提取采用市场上较成熟的BERT神经网络模型，BERT模型被广泛应用于文本分析，在文本相似度计算、文本分类、文本检索、信息抽取等任务上都具有良好、稳定的表现。然后，本方法采用多模态因子分解双线性池化MFB(Multi-modal Factorized Bilinear Pooling)技术，通过特征间的高维扩展、双线差值计算方法完成图像特征和文本特征的融合、对齐。最后，经过全连接神经网络层，分类层输出情感分析结果。

传统图像编码器不能兼顾提取高维信息和细粒度信息；不能够充分融合图像模态和文本模态数据。

为解决上述技术问题，现有技术一CN109508375A-一种基于多模态融合的社交情感分类方法-公开利用CNN-RNN混合模型提取文本信息中的情感特征并进行分类处理；基于3DCLS模型的视觉情感分类步骤，利用3DCLS模型提取视觉信息中的时空特征，卷积长短期记忆网络对时空特征序列进行分类处理；基于openSMILE的音频情感分类步骤；和决策融合步骤，将特征提取获得的结果利用决策融合方法进行异质性融合。鉴于此，具体步骤为：

(1)基于CNN-RNN混合模型的文本情感分类步骤

S11:对输入文本进行预处理，并将其标记为一个单词序列，每个单词都将从word2vec模型中查找得到对应的单词嵌入矩阵，这个字典(word2vec)为每个单词提供了一个300维向量，对于这个词典中没有的单词，使用随机向量。

S12:将句子向量视为图像，并通过线性过滤器对其进行卷积。

S13:对卷积后的每个输出序列tj应用一个非线性激活函数f来产生一个特征映射c∈Rn-h+1，其中cj＝f(tj)，cj表示每一个输出序列tj所对应的特征映射，j＝1,…,n-h+1，h是滤波器的长度，f是一个非线性变换函数。

S14:特征向量可以被馈送到CNN(Convolutional Neural Network)的下一层以进一步卷积，卷积过程与S13一样，或者可以被用于不同自然与预处理任务的输出向量。这里，这个文本特征向量被用作RNN(Recurrent Neural Networks)的输入。

S15:将隐藏状态的输出看作是RNN的最后一步，使用softmax层对文本进行预测分类，然后将交叉熵损耗从RNN反向传播到CNN以更新CNN-RNN模型的权重。使用随机梯度下降(SGD)来加速收敛。

(2)基于3DCLS模型的视觉情感分类步骤

S21:使用C3D从输入视频中提取时空特征，每段视频剪辑为长度为16的序列片段，将序列片段作为输入信息。C3D网络有8个卷积，5个最大池化层和2个完全连接层，然后是一个softmax输出层。

S22:视频V划分为T个片段，V＝(v1,v2,…,vt,…,vT)，其中vt是V的第t个片段，K是片段的长度，N表示帧数。接下来，使用3-DCNN网络对每个分割片段进行编码，从而产生图像帧序列X＝(x1,x2,…,xT)。

S23:将隐藏状态的输出看作是LSTM(Recurrent Neural Networks)的最后一步，使用softmax层对视觉信息进行预测分类。

(3)基于openSMILE的音频情感分类步骤

从视频的每个注释片段中使用开源软件openSMILE自动提取音频特征，音频特征以30Hz的帧率提取，滑动窗口设置为100ms。最后将openSMILE提取的音频特征使用SVM进行情感分类预测。

(4)决策融合

S31:获得特征向量不是像特征级融合那样连接特征向量，而是为每种模态使用单独的分类器。

S32:从每个分类器中获得每个情感类别的概率分数。

S33:使用加权和法则，将每个情感类别的概率相加，然后选择最大的标签。

现有技术二CN113254741A-基于融合模态内和模态间关系的数据处理方法及***-公开一种基于融合模态内和模态间关系的数据处理方法，包括：

获取社交网络指向目标分类的样本数据，并将样本数据划分为训练集、验证集和测试集，获得训练集样本数据、验证集样本数据和测试集样本数据；

构建预设分类模型，所述预设分类模型包括特征提取网络，与所述特征提取网络相连的目标分类主任务网络和多模态主题信息辅助任务网络，所述特征提取网络包括文本特征提取网络和图片特征提取网络，所述多模态主题信息辅助任务网络包括文本模态网络、图片模态网络和模态间网络，用来获取文本模态网络内主题信息、图片模态网络内主题信息和模态间网络关系主题信息；

将所述训练集样本数据输入所述预设分类模型并利用预设的损失函数进行训练，使用门控机制融合主任务和辅助任务的输出，得到社交数据分类模型，所述社交数据分类模型用于对输入的待分类数据进行分类。

现有技术三CN113326868A-一种用于多模态情感分类的决策层融合方法-公开：将多模态情感数据集中的样本分成训练集和测试集；分别构建各种模态的情感分类模型，使用训练集中对应模态的样本分别对各种模态的情感分类模型进行训练；使用训练好的各种模态的情感分类模型分别对测试集中对应模态的样本进行情感分类，统计分类结果，得到各种模态的情感分类混淆矩阵；使用训练好的各种模态的情感分类模型分别对被测样本的对应模态进行情感分类；利用分类混淆矩阵对被测样本的各种模态的情感分类结果进行决策层融合，得到被测样本的情感类别。

通过上述分析，现有技术存在的问题及缺陷为：

(1)多模态情感分析方法文本特征提取网络和图像特征提取网络提取阶段是独立的，导致两种模态数据在特征提取阶段交互不足。

(2)现有技术中社交数据情感分类功能单一，不能进行多网络数据处理，实用性受限。

(3)现有技术中特征融合主要方法分为内积、拼接两种线性计算方法，不能完成多模态特征对齐。

解决以上问题及缺陷的意义为：

本发明使用MAE图像特征提取方法保证充分提取图像特征，完成图像特征向量化，采用多模态因子分解双线性池化MFB(Multi-modal Factorized Bilinear Pooling)技术，通过特征间的高维扩展、双线差值计算方法，在多模态特征融合阶段引入非线性计算，完成多模态特征的交互和融合。

发明内容

为克服相关技术中存在的问题，本发明公开实施例提供了一种多模态社交数据情感分类方法、***、终端、设备及应用。尤其涉及一种基于神经网络的多模态社交网络数据情感识别方法。

所述技术方案如下：一种多模态社交数据情感分类方法，包括：步骤一，基于掩码自编码器MAE的图像特征提取；

步骤二，基于BERT神经网络模型的文本信息提取；

步骤三，MFB融合层融合图像特征信息和文本信息；

步骤四，融合向量通过全连接神经网络层和softmax分类层完成情感分类。

在一实施例中，在步骤一进行前，需进行：社交网络数据预处理，文本数据去除特殊符号、空白、链接；社交网络图像模态数据调整到固定大小。

在一实施例中，在步骤一中基于掩码自编码器MAE的图像特征提取具体包括：

基于社交网络图像模态数据调整到固定大小，将图像分割成(p,p)大小的图像块，把所有图像块及其位置信息输入到掩码自编码器MAE(Masked AutoEncoders)模型，通过MAE模型的编码器把图像特征映射到向量空间256维。

在一实施例中，在步骤二中基于BERT神经网络模型的文本信息提取具体包括：

构建预训练(BidirectionalEncoder Representations from Transformer)BERT模型，本发明采用基于大规模中文语料训练的预训练模型bert-base-chinese，文本经过特殊符号清洗，输入到BERT模型，通过BERT输出层进行文本层面语义特征提取和表征，获得256维向量。

在一实施例中，在步骤三中MFB融合层融合图像特征信息和文本信息具体包括：

通过多模态因子分解双线性池化MFB(Multi-modal Factorized BilinearPooling)层，其计算公式表示为z＝x^TWy，其中x表示MAE模型提取的图像特征向量，x^T表示x的转置向量，W表示向量扩展因子1×256向量矩阵，y表示BERT模型输出的文本向量，z表示MFB层的输出向量256维，完成特征高维扩展和向量融合。

在一实施例中，在步骤四中融合向量通过全连接神经网络层和softmax分类层完成情感分类具体包括：

多模态融合向量依次经过256×768全连接神经网络层和768×n全连接神经网络层进一步提取多模态特征，输出最终特征向量n维，其中n表示情感分类总类别；

最终特征向量输入到softmax分类层获得各类情感类概率分布，其计算公式为

其中vi表示特征向量的第i维，n表示情感类别总数，pi表示第i类情感的概率。

本发明的另一目的在于提供一种多模态社交数据情感分类***包括：

社交网络数据预处理模块，用于社交网络数据预处理，文本数据去除特殊符号、空白、链接等；社交网络图像模态数据调整到固定大小；

网络图像特征映射模块，用于基于社交网络图像模态数据调整到固定大小，图像分割成(p,p)大小的图像块，把所有图像块及其位置信息输入到MAE模型，MAE enconder网络把图像特征映射到向量空间；

语义特征提取表征模块，用于构建预训练BERT微调网络，文本经过预处理，输入到BERT模型，进行文本层面语义特征提取和表征；

MFB融合模块，用于文本特征和图像特征向量通过MFB融合层整合多模态向量特征；

多模态特征再提取模块，用于多模态向量经过全连接神经网络进一步提取多模态特征。

情感类概率分布获取模块，用于多模态特征输入到softmax分类层获得各情感类概率分布。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述多模态社交数据情感分类方法。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述多模态社交数据情感分类方法。

本发明的另一目的在于提供一种多模态社交数据情感分类方法在基于变分自动编码VAE和BERT神经网络的情感识别上的应用。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

本发明掩码自编码器MAE模型具有enconder-deconder网络结构，deconder结构负责重建原图，其enconder网络结构输出向量能够更好的表征图像高维抽象信息和细粒度局部信息；MFB融合层具有更好融合图像信息和文本信息的能力，通过特征间的高维扩展、双线差值计算引。本发明分类准确率获得提升。

相比于现有技术，本发明的优点进一步包括：

本发明相较于现有技术拼接、点乘的线性融合方式引入MFB融合技术，在多模态特征融合阶段引入非线性计算，通过扩展到高维向量空间，提升多模态向量见的对齐和融合效果。

本发明分类准确率获得提升，在中文开源多模态情感分类数据集CH-SIMS上准确率达到82.28％，比现有技术提升0.31％。

当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明的公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本发明实施例提供的多模态社交数据情感分类方法流程图。

图2是本发明实施例提供的多模态社交数据情感分类方法原理图。

图3是本发明实施例1提供的多模态社交数据情感分类方法示意图。

图4是本发明实施例提供的多模态社交数据情感分类***示意图；

图中：1、社交网络数据预处理模块；2、网络图像特征映射模块；3、语义特征提取表征模块；4、MFB融合模块；5、多模态特征再提取模块；6、情感类概率分布获取模块。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

一、下面结合具体实施例对本发明地技术方案作进一步描述。

实施例1

如图1所示，本发明实施例提供一种多模态社交数据情感分类方法，包括以下步骤：

S101，基于掩码自编码器MAE的图像特征提取。

S102，基于BERT神经网络模型的文本信息提取。

S103，MFB融合层融合图像特征信息和文本信息。

S104，融合向量通过全连接神经网络层和softmax分类层完成情感分类。

在本发明实施例中，图2是本发明实施例提供的多模态社交数据情感分类方法原理，即基于神经网络的多模态社交网络数据情感识别方法原理。

在本发明实施例中，在步骤S101中基于掩码自编码器MAE的图像特征提取具体包括：

在本发明实施例中，在步骤S102中基于BERT神经网络模型的文本信息提取具体包括：

在本发明实施例中，在步骤S103中MFB融合层融合图像特征信息和文本信息具体包括：

在本发明实施例中，在步骤S104中融合向量通过全连接神经网络层和softmax分类层完成情感分类具体包括：

实施例2

如图3所示，本发明提供一种多模态社交数据情感分类方法包括以下步骤：

步骤1，社交网络数据预处理，文本数据去除特殊符号、空白、链接等；社交网络图像模态数据调整到固定大小。

步骤2，基于社交网络图像模态数据调整到固定大小，将图像分割成(p,p)大小的图像块，把所有图像块及其位置信息输入到MAE模型，MAE enconder网络把图像特征映射到向量空间。

步骤3，构建预训练BERT微调网络，文本经过预处理，输入到BERT模型，进行文本层面语义特征提取和表征。

步骤4，文本特征和图像特征向量通过MFB融合层整合多模态向量特征。

步骤5，多模态向量经过全连接神经网络进一步提取多模态特征。

步骤6，多模态特征输入到softmax分类层获得各情感类概率分布。

实施例3

本发明提供多模态社交数据情感分类方法(基于神经网络的多模态社交网络数据情感识别方法)可理解为基于变分自动编码VAE和BERT神经网络的情感识别方法处理流程同实施例1。

实施例4

如图4所示，本发明实施例提供的多模态社交数据情感分类***包括：

社交网络数据预处理模块1，用于社交网络数据预处理，文本数据去除特殊符号、空白、链接；将社交网络图像模态数据调整到固定大小；

网络图像特征映射模块2，用于基于社交网络图像模态数据调整到固定大小，将图像分割成(p,p)大小的图像块，把所有图像块及其位置信息输入到MAE模型，MAE enconder网络把图像特征映射到向量空间；

语义特征提取表征模块3，用于构建预训练BERT微调网络，文本经过预处理，输入到BERT模型，进行文本层面语义特征提取和表征；

MFB融合模块4，用于文本特征和图像特征向量通过MFB融合层整合多模态向量特征；

多模态特征再提取模块5，用于多模态向量经过全连接神经网络进一步提取多模态特征。

情感类概率分布获取模块6，用于多模态特征输入到softmax分类层获得各情感类概率分布。

二、应用实施例：

本发明实施例提供了一种计算机设备，该计算机设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本发明实施例还提供了一种信息数据处理终端，所述信息数据处理终端用于实现于电子装置上执行时，提供用户输入接口以实施如上述各方法实施例中的步骤，所述信息数据处理终端不限于手机、电脑、交换机。

本发明实施例还提供了一种服务器，所述服务器用于实现于电子装置上执行时，提供用户输入接口以实施如上述各方法实施例中的步骤。

本发明实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种多模态社交数据情感分类方法，其特征在于，所述多模态社交数据情感分类方法包括：步骤一，基于掩码自编码器MAE的图像特征提取；

步骤二，基于BERT神经网络模型的文本信息提取；

步骤三，MFB融合层融合和对齐图像特征信息、文本信息；

2.根据权利要求1所述的多模态社交数据情感分类方法，其特征在于，在步骤一进行前，需进行：社交网络数据预处理，文本数据去除特殊符号、空白、链接，将社交网络图像模态数据调整到固定大小。

3.根据权利要求1所述的多模态社交数据情感分类方法，其特征在于，在步骤一中基于掩码自编码器MAE的图像特征提取具体包括：

基于社交网络图像模态数据调整到固定大小，将图像分割成(p,p)大小的图像块，把所有图像块及其位置信息输入到掩码自编码器MAE模型，通过MAE模型的编码器把图像特征映射到向量空间256维。

4.根据权利要求1所述的多模态社交数据情感分类方法，其特征在于，在步骤二中基于BERT神经网络模型的文本信息提取具体包括：

构建预训练BERT模型，采用基于大规模中文语料训练的预训练模型bert-base-chinese，文本经过特殊符号清洗，输入到BERT模型，通过BERT输出层进行文本层面语义特征提取和表征，获得256维向量。

5.根据权利要求1所述的多模态社交数据情感分类方法，其特征在于，在步骤三中MFB融合层融合图像特征信息和文本信息具体包括：

通过多模态因子分解双线性池化MFB层，计算公式表示为z＝x^TWy，其中x表示MAE模型提取的图像特征向量，x^T表示x的转置向量，W表示向量扩展因子1×256向量矩阵，y表示BERT模型输出的文本向量，z表示MFB层的输出向量256维，完成特征高维扩展和向量融合。

6.根据权利要求1所述的多模态社交数据情感分类方法，其特征在于，在步骤四中融合向量通过全连接神经网络层和softmax分类层完成情感分类具体包括：

7.一种实施权利要求1～6任意一项所述多模态社交数据情感分类方法的多模态社交数据情感分类***，其特征在于，所述多模态社交数据情感分类***包括：

社交网络数据预处理模块(1)，用于社交网络数据预处理，文本数据去除特殊符号、空白、链接；社交网络图像模态数据调整到固定大小；

网络图像特征映射模块(2)，用于基于社交网络图像模态数据调整到固定大小，将图像分割成(p,p)大小的图像块，把所有图像块及其位置信息输入到MAE模型，MAE enconder网络把图像特征映射到向量空间；

语义特征提取表征模块(3)，用于构建预训练BERT微调网络，文本经过预处理，输入到BERT模型，进行文本层面语义特征提取和表征；

MFB融合模块(4)，用于文本特征和图像特征向量通过MFB融合层整合多模态向量特征；

多模态特征再提取模块(5)，用于多模态向量经过全连接神经网络进一步提取多模态特征；

情感类概率分布获取模块(6)，用于多模态特征输入到softmax分类层获得各情感类概率分布。

8.一种信息数据处理终端，其特征在于，所述信息数据处理终端包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～6任意一项所述多模态社交数据情感分类方法。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～6任意一项所述多模态社交数据情感分类方法。

10.一种如权利要求1～6任意一项所述多模态社交数据情感分类方法在基于变分自动编码VAE和BERT神经网络的情感识别上的应用。