CN115146057A

CN115146057A - 基于交互注意力的供应链生态区图文融合情感识别方法

Info

Publication number: CN115146057A
Application number: CN202210593665.2A
Authority: CN
Inventors: 廖伟智; 马伟林; 阎德劲; 张川东; 王伟; 阴艳超
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-10-04
Anticipated expiration: 2042-05-27

Abstract

本发明公开了基于交互注意力的供应链生态区图文融合情感识别方法，包括如下步骤：对供应链生态社区的图文评论数据集进行预处理，得到预处理后的图文数据集；建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型，通过文本特征提取模型提取出预处理后的图文数据集中文本特征，通过图像特征提取模型提取出预处理后的图文数据集中图像特征；将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合，得到图像和文本的融合特征向量；建立基于文本和图像的多模态情感分析模型，利用图像和文本的融合特征向量进行情感分析，得到情感分类。通过本发明，可以实现充分而且有效的融合不同模态之间的信息，提升情感分类的准确率。

Description

基于交互注意力的供应链生态区图文融合情感识别方法

技术领域

本发明涉及自然语言处理领域，具体是基于交互注意力的供应链生态区图文融合情感识别方法。

背景技术

情感分析是自然语言处理的重要研究方向之一，是指利用数据分析人们的情感倾向。近年来，随着信息技术和互联网技术的迅猛发展，用户接收和发送的信息已经不在是单一的文本形式，而是变为文本和图片等多种模态的形式。本文主要依靠以“社交”模式搭建的研发与服务的开放性供应链生态社区中存在的多模态交互和评价数据，旨在挖掘用户所发图文等多模态数据，更准确、全面、细致的得到生态圈开发者、软件用户、服务和资源提供者等多主体的情感。以往的单模态文本情感分析主要是依赖传统的机器学习或深度学习方法，例如： K近邻，支持向量机(SVM)，随机森林(RF)，全连接神经网络(FC)，循环神经网络(RNN) 等。这类方法首先是在对人工标注的数据集上提取特征，其次根据上述方法建立模型进行对特分析，对情感进行预测。对于单一模态的图像情感分析，主要使用传统的深度学习方法，比如CNN或者是基于改进的CNN模型提取特征，然后进行情感分析。上述的方法中，提取的特征的质量决定了情感分析的效果，所以特征工程在上述算法中占据主要的地位。在文本特征提取的方法是基于一个词在整个语料库中的共现上下文信息聚合至该词的向量表示中，因此训练得到的词向量是”静态”的词向量，而在自然语言中同一个词在不同的语境或者上下文会呈现不同的语义；在图像特征提取中，基于CNN的特征提取方法，其池化层会丢失大量的具有价值的信息，而且会忽略图像整体与局部之间的关系，这些就影响了后续情感分析的准确率。

不同模态的数据包含不同的信息，多模态情感分析的首要任务是充分挖掘单个模态的信息，而不同模态的数据之间是相互关联，互为补充的，因此多模态情感分析的关键任务是如何利用不同模态的数据之间的关联性，以弥补传统情感分析的不足。现有的多模态的融合方法有简单的拼接或加权融合的方法，这类方法无法使得各个参数之间建立联系；有基于张量融合网络的不同模态之间的融合方法，然而张量融合网络只考虑了不同模态之间的相似性，并没有考虑不同模态之间的差异性，无法充分利用模态之间互补的特性。

发明内容

本发明的目的在于克服现有技术的不足，提供基于交互注意力的供应链生态区图文融合情感识别方法，包括如下步骤：

步骤一，对供应链生态社区的图文评论数据集进行预处理，得到预处理后的图文数据集；

步骤二，建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型，通过文本特征提取模型提取出预处理后的图文数据集中文本特征，通过图像特征提取模型提取出预处理后的图文数据集中图像特征；

步骤三，将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合，得到图像和文本的融合特征向量；

步骤四，建立基于文本和图像的多模态情感分析模型，利用图像和文本的融合特征向量进行情感分析，得到情感分类。

进一步的，所述的对供应链生态社区的图文评论数据集进行预处理，得到处理后的图文数据集，包括如下过程：

使用NLTK工具集去除图文数据集中文本数据的停用词，同时对文本进行分词，得到预处理后的图文数据集。

进一步的，所述的将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合，得到图像和文本的融合特征向量，包括如下过程：

所述的特征融合模块包括特征拼接层和特征融合层；所述的特征融合层包括注意力计算层、注意力融合层、输出层；

所述的注意力计算层计算出文本特征和图像特征的注意力，分别得到基于文本特征的文本模态的注意力头的注意力矩阵，得到基于图像特征的图像模态的注意力头的注意力矩阵；所述的注意力融合层将得到的文本模态的注意力头的注意力矩阵和图像模态的注意力头的注意力矩阵，融合得到注意力头的权重矩阵；

所述的输出层使用得到的融合注意力矩阵和BERT提取的文本特征相乘，便得到了文本输出特征向量，使用得到的融合注意力矩阵和BERT提取的图像特征相乘，得到图像输出特征向量，将文本输出特征向量与像输出特征向量进行拼接得到图像和文本的融合特征向量。

进一步的，所述的建立基于文本和图像的多模态情感分析模型，利用图像和文本的融合特征向量进行情感分析，包括如下步骤：

以融合特征向量为输入，得到输出c：

c＝WX

其中W是全连接层的权值矩阵；

然后对输出c，通过softmax计算得到不同情感的概率分布y_t：

y_t＝softmax(c)

其中，softmax(·)为按列进行归一化的函数；

对基于改进注意力机制的多模态情感分析模型的输出概率分布y_t与数据的真实标签向量进行交叉熵损失函数计算，其计算公式为：

采用小批量梯度下降法训练该模型的参数，当模型产生的损失值满足设定要求或者达到最大迭代次数N，则终止该模型的训练，得到最终的情感分类。

进一步的，所述的情感分类包括积极情感分类和消极情感分类。

本发明的有益效果是：使用预训练模型BERT提取动态语义信息，完成词向量从“静态”到“动态”转化；使用基于Transformer的图像特征提取模型，不仅能抑制基于CNN模型的池化的信息丢失，而且更加注重图片的全局信息。从而更好的挖掘不同模态包含的信息；同时充分而且有效的融合不同模态之间的信息，提升了情感分类的准确率。

附图说明

图1为基于交互注意力的供应链生态区图文融合情感识别方法的流程示意图；

图2为基于transformer的图像特征模型的结构示意图；

图3为特征融合模块的结构示意图；

图4为特征融合层示意图；

图5为基于改进注意力机制的多模态情感分析模型示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，基于交互注意力的供应链生态区图文融合情感识别方法，包括如下步骤：

所述的对供应链生态社区图文评论数据集进行预处理，得到处理后的图文数据集，包括如下过程：

所述的将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合，得到图像和文本的融合特征向量，包括如下过程：

所述的建立基于文本和图像的多模态情感分析模型，利用图像和文本的融合特征向量进行情感分析，包括如下步骤：

以融合特征向量为输入，得到输出c：

c＝WX

其中W是全连接层的权值矩阵；

然后对输出c，通过softmax计算得到不同情感的概率分布y_t：

y_t＝softmax(c)

其中，softmax(·)为按列进行归一化的函数；

所述的情感分类包括积极情感分类和消极情感分类。

具体的，基于交互注意力的供应链生态区图文融合情感识别方法，包括以下步骤：

S1：对供应链生态社区的图文评论数据集进行预处理；

S2：建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型；

S3：将提取的图像和文本的特征送入基于改进注意力机制的特征融合模块进行特征融合；

S4：建立基于文本和图像的多模态情感分析模型，利用基于图文的数据进行情感分析。

对需要进行情感分析的图文数据集进行预处理

使用NLTK工具集去除图文数据集中文本数据的停用词，即剔除语料库中对语言的含义并不重要的词语，比如”a”，”of”等，同时对语料进行分词；

建立基于预训练的文本特征提取模型和基于Transformer的图像特征提取模型

(1)基于transformer的图像特征提取

transformer模型，如图2所示，该模型的提出是针对自然语言处理领域，其基本原理是使用自注意力机制(Self-Attention)取代了原本的如RNN的顺序结构，这使得模型可以并行化训练，并且可以拥有全局信息。利用这一特点，将transformer应用于图像的特征提取，也取得了优秀的效果的效果。

①Embedding层：

对于标准transformer模型，要求输入的是二维的向量[num_token,token_dim],而图像数据是三维[H,W,C],因此Embedding层的作用就是将三维的向量转化成标准transformer模型的二维形式的输入。在得到的二维向量中***一个专门用于分类的[class]token，这个[class]token 是一个可训练的参数，数据格式和其他token一样都是一个向量，然后加上位置编码(Position Embedding)，这里位置编码和Transformer中的位置编码一致，采用的是一个可训练的参数，是直接叠加在tokens上的(add)。

②Encoding层：

Transformer的编码(Encoder)就是将编码块重复的堆叠一定的次数，整个编码(Encoding) 层由三个部分组成：

1)层归一化(Layer Norm)：

层归一化是对一个中间层的所有神经元进行归一化。对于一个深度神经网络，另第L层神经元的净输入为Z^(l)，其均值和方差为：

其中M_l为第l层的神经元数量。则层归一化为：

其中γ和β分别代表缩放和平移的参数向量。

2)多头注意力机制(Multi-Head Attention)

多头注意力机制会在下面进行详细的叙述，这里在不赘述。

3)丢弃层(Droup层)：

Transformer的编码(Encoder)是将编码块重复的堆叠一定的次数，使得神经网络拥有很强的拟合能力，从而出现过拟合，而丢弃法能够有效的抑制过拟合的发生。丢弃法利用集成学习的思想，通过随机丢弃一部分神经元来避免过拟合。对于一个神经层y＝f(Wx+b)，引入一个掩蔽函数mask()使得y＝f(Wmask(x)+b)，其中，掩蔽函数的定义为：

公式中，m∈{0,1}^D是丢弃掩码(Droupout Mask),通过以概率p的伯努利分布随机生成。

丢弃法一般是针对神经元进行丢弃，但是也可以扩展到对神经元之间的连接进行随机的丢弃：

基于预训练模型的文本特征提取

BERT(Bidirectional Encoder Representation from Transformers)是由Devlin等人提出的预训练语言模型，其充分的挖掘大量无标注文本的语义信息。

BERT的基本模型由transformer的Encoder部分组成，包含两个预训练任务：掩码语言模型(Masked Language Model,MLM)和下一个句子预测(Next Sentence Prediction,NSP)

1)掩码语言模型

将输入序列中的部分词进行掩码，并且按照模型的要求进行还原，称之为掩码语言模型。在BERT中，会将输入文本中的15％进行掩码，其中以80％的概率替换为[MASK]标记，以 10％的概率替换为词表中的任意一个随机词，以10％的概率保持原词不变，即不替换。

掩码语言语言模型的建模方法如下：

①输入层：假设原始输入文本为x₁x₂...x_n，通过上述的方法掩码后输入的文本为x′₁x′₂...x′_n， x_i表示输入文本的第i个词，x′_i表示经过处理的第i个词。对掩码后的文本进行如下处理，得到BERT的输入表示v：

X＝[CLS]x′₁x′₂...x′_n[SEP]

v＝Inputrepsention(X)

其中，[CLS]表示文本序列开始的特殊标记，[SEP]表示文本序列之间的分隔符。

②编码层：通过自注意力机制充分学习文本数据中的语义信息，得到

h＝Transformer(v)

其中，h表示最后一层Transformer层的输出。

③输出层：在BERT中，输入表示维度e和隐含层维度d相同，直接利用词向量矩阵

将掩码表示映射到词向量空间。对于掩码表示中的第i个分量

通过下面的公式计算该掩码位置对应的概率分布p_i：

其中，b⁰表示全连接层的偏置。在得到p_i之后，与标签y_i计算交叉损失，得到模型参数。

2)下一个句子预测

预测任务的输入层和BERT编码层与掩码任务的处理方式相同，唯一不同的是在输出层，预测任务只需要判断输入文本x⁽²⁾是否是x⁽¹⁾的下一个句子。

S3：将提取的图像和文本的特征送入基于改进注意力机制的特征融合模块进行特征融合，特征融合模块如图3所示；

在模态融合模块，其核心在于使用交叉多头注意力机制，利用辅助模态信息帮助主要特征调整主要特征的权重。

模型各层详细介绍：

(1)特征融合层包括：

1)注意力计算层：

文本特征和图像特征的注意力计算方式相同，则以文本特征的注意力计算方式为例。假设文本的特征向量为

对于每个输入x_i，将其映射到二个不同的向量空间，得到查询向量

和键向量

对于整个输入序列X，其线性映射过程为：

其中，

和

分别为线性映射的参数矩阵。

然后由

和

得到文本模态的每个注意力头的注意力矩阵

同理可得图像模态的每个注意力头的注意力矩阵

2)注意力融合层：

上述步骤得到图像和文本模态的各个注意力头的注意力矩阵，以文本特征为主要特征的融合方式和以图像特征为要特征的融合方式相同，下面则以文本模态为主要模态进行叙述。如图4所示的融合过程，通过文本模态和图像模态之间的注意力交互从而调整文本特征的权重，不同模态对应的注意力头以线性求和的方式进行交互，得到各个注意力头的权重矩阵：

其中，

和

分别表示各自模态的权重，b表示偏差。

然后将各个头的注意力矩阵进行拼接，然后通过一个全连接层进行特征筛选，计算方式如下：

其中，FC表示全连接神经网络，

表示向量拼接。

最后使用缩放点积作为注意力打分函数，得到最终的注意力矩阵：

其中，softmax(·)为按列进行归一化的函数。

3)输出层

本层的作用是输出融合的文本特征向量，使用得到的融合注意力矩阵和BERT提取的文本特征相乘，便得到了文本的输出特征向量：

其中V_m表示BERT提取的文本特征。

由于文本模态和图像模态的注意力融合方式基本相同，只是将文本模态为主要模态转换为以图像模态为主要模态，这里便不再赘述。以同样的方式可以得以图像特征为主要模态的输出向量

(2)特征拼接

将融合得到的图像特征向量和文本特征向量进行拼接，得到最终的图像和文本的融合特征向量

其中

表示拼接。

如图5所示，建立基于改进注意力机制的多模态情感分析模型如下：

(1)模型各层详细介绍：

1)特征提取层：

使用BERT模型提取文本特征

和使用基于Transformer的模型提取图像特征

步骤二中有详细的计算方式，这里不在赘述。

2)交互融合层：

本层作用域步骤三中的交互融合层一直，得到最终的融合向量X＝x¹,x²,x³...xⁿ

3)输出层：

本层是一个全连接层，以融合向量x¹,x²,x³...xⁿ作为输入，得到输出c:

c＝WX

其中X是全连接层的权值矩阵。

然后对于全连接层的输出c，通过softmax计算得到不同情感的概率分布y_t：

y_t＝softmax(c)

其中，softmax(·)为按列进行归一化的函数。

(2)训练基于改进注意力机制的多模态情感分析模型的参数：

采用小批量梯度下降法(Mini-Batch Gradient Descent)训练该模型的参数，当模型产生的损失值满足设定要求或者达到最大迭代次数N，则终止该模型的训练，得到最终的情感分类

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.基于交互注意力的供应链生态区图文融合情感识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于交互注意力的供应链生态区图文融合情感识别方法，其特征在于，所述的对供应链生态社区的图文评论数据集进行预处理，得到处理后的图文数据集，包括如下过程：

3.根据权利要求1所述的基于交互注意力的供应链生态区图文融合情感识别方法，其特征在于，所述的将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合，得到图像和文本的融合特征向量，包括如下过程：

4.根据权利要求3所述的基于交互注意力的供应链生态区图文融合情感识别方法，其特征在于，所述的建立基于文本和图像的多模态情感分析模型，利用图像和文本的融合特征向量进行情感分析，包括如下步骤：

以融合特征向量为输入，得到输出c：

c＝WX

其中W是全连接层的权值矩阵；

然后对输出c，通过softmax计算得到不同情感的概率分布y_t：

y_t＝softmax(c)

其中，softmax(·)为按列进行归一化的函数；

5.根据权利要求4所述的基于交互注意力的供应链生态区图文融合情感识别方法，其特征在于，所述的情感分类包括积极情感分类和消极情感分类。