CN115146057A - 基于交互注意力的供应链生态区图文融合情感识别方法 - Google Patents
基于交互注意力的供应链生态区图文融合情感识别方法 Download PDFInfo
- Publication number
- CN115146057A CN115146057A CN202210593665.2A CN202210593665A CN115146057A CN 115146057 A CN115146057 A CN 115146057A CN 202210593665 A CN202210593665 A CN 202210593665A CN 115146057 A CN115146057 A CN 115146057A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- fusion
- attention
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 15
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 9
- 230000008451 emotion Effects 0.000 claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000004458 analytical method Methods 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000007526 fusion splicing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于交互注意力的供应链生态区图文融合情感识别方法,包括如下步骤:对供应链生态社区的图文评论数据集进行预处理,得到预处理后的图文数据集;建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型,通过文本特征提取模型提取出预处理后的图文数据集中文本特征,通过图像特征提取模型提取出预处理后的图文数据集中图像特征;将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量;建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,得到情感分类。通过本发明,可以实现充分而且有效的融合不同模态之间的信息,提升情感分类的准确率。
Description
技术领域
本发明涉及自然语言处理领域,具体是基于交互注意力的供应链生态区图文融合情感识别方法。
背景技术
情感分析是自然语言处理的重要研究方向之一,是指利用数据分析人们的情感倾向。近年来,随着信息技术和互联网技术的迅猛发展,用户接收和发送的信息已经不在是单一的文本形式,而是变为文本和图片等多种模态的形式。本文主要依靠以“社交”模式搭建的研发与服务的开放性供应链生态社区中存在的多模态交互和评价数据,旨在挖掘用户所发图文等多模态数据,更准确、全面、细致的得到生态圈开发者、软件用户、服务和资源提供者等多主体的情感。以往的单模态文本情感分析主要是依赖传统的机器学习或深度学习方法,例如: K近邻,支持向量机(SVM),随机森林(RF),全连接神经网络(FC),循环神经网络(RNN) 等。这类方法首先是在对人工标注的数据集上提取特征,其次根据上述方法建立模型进行对特分析,对情感进行预测。对于单一模态的图像情感分析,主要使用传统的深度学习方法,比如CNN或者是基于改进的CNN模型提取特征,然后进行情感分析。上述的方法中,提取的特征的质量决定了情感分析的效果,所以特征工程在上述算法中占据主要的地位。在文本特征提取的方法是基于一个词在整个语料库中的共现上下文信息聚合至该词的向量表示中,因此训练得到的词向量是”静态”的词向量,而在自然语言中同一个词在不同的语境或者上下文会呈现不同的语义;在图像特征提取中,基于CNN的特征提取方法,其池化层会丢失大量的具有价值的信息,而且会忽略图像整体与局部之间的关系,这些就影响了后续情感分析的准确率。
不同模态的数据包含不同的信息,多模态情感分析的首要任务是充分挖掘单个模态的信息,而不同模态的数据之间是相互关联,互为补充的,因此多模态情感分析的关键任务是如何利用不同模态的数据之间的关联性,以弥补传统情感分析的不足。现有的多模态的融合方法有简单的拼接或加权融合的方法,这类方法无法使得各个参数之间建立联系;有基于张量融合网络的不同模态之间的融合方法,然而张量融合网络只考虑了不同模态之间的相似性,并没有考虑不同模态之间的差异性,无法充分利用模态之间互补的特性。
发明内容
本发明的目的在于克服现有技术的不足,提供基于交互注意力的供应链生态区图文融合情感识别方法,包括如下步骤:
步骤一,对供应链生态社区的图文评论数据集进行预处理,得到预处理后的图文数据集;
步骤二,建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型,通过文本特征提取模型提取出预处理后的图文数据集中文本特征,通过图像特征提取模型提取出预处理后的图文数据集中图像特征;
步骤三,将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量;
步骤四,建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,得到情感分类。
进一步的,所述的对供应链生态社区的图文评论数据集进行预处理,得到处理后的图文数据集,包括如下过程:
使用NLTK工具集去除图文数据集中文本数据的停用词,同时对文本进行分词,得到预处理后的图文数据集。
进一步的,所述的将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量,包括如下过程:
所述的特征融合模块包括特征拼接层和特征融合层;所述的特征融合层包括注意力计算层、注意力融合层、输出层;
所述的注意力计算层计算出文本特征和图像特征的注意力,分别得到基于文本特征的文本模态的注意力头的注意力矩阵,得到基于图像特征的图像模态的注意力头的注意力矩阵;所述的注意力融合层将得到的文本模态的注意力头的注意力矩阵和图像模态的注意力头的注意力矩阵,融合得到注意力头的权重矩阵;
所述的输出层使用得到的融合注意力矩阵和BERT提取的文本特征相乘,便得到了文本输出特征向量,使用得到的融合注意力矩阵和BERT提取的图像特征相乘,得到图像输出特征向量,将文本输出特征向量与像输出特征向量进行拼接得到图像和文本的融合特征向量。
进一步的,所述的建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,包括如下步骤:
以融合特征向量为输入,得到输出c:
c=WX
其中W是全连接层的权值矩阵;
然后对输出c,通过softmax计算得到不同情感的概率分布yt:
yt=softmax(c)
其中,softmax(·)为按列进行归一化的函数;
对基于改进注意力机制的多模态情感分析模型的输出概率分布yt与数据的真实标签向量进行交叉熵损失函数计算,其计算公式为:
采用小批量梯度下降法训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止该模型的训练,得到最终的情感分类。
进一步的,所述的情感分类包括积极情感分类和消极情感分类。
本发明的有益效果是:使用预训练模型BERT提取动态语义信息,完成词向量从“静态”到“动态”转化;使用基于Transformer的图像特征提取模型,不仅能抑制基于CNN模型的池化的信息丢失,而且更加注重图片的全局信息。从而更好的挖掘不同模态包含的信息;同时充分而且有效的融合不同模态之间的信息,提升了情感分类的准确率。
附图说明
图1为基于交互注意力的供应链生态区图文融合情感识别方法的流程示意图;
图2为基于transformer的图像特征模型的结构示意图;
图3为特征融合模块的结构示意图;
图4为特征融合层示意图;
图5为基于改进注意力机制的多模态情感分析模型示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,基于交互注意力的供应链生态区图文融合情感识别方法,包括如下步骤:
步骤一,对供应链生态社区的图文评论数据集进行预处理,得到预处理后的图文数据集;
步骤二,建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型,通过文本特征提取模型提取出预处理后的图文数据集中文本特征,通过图像特征提取模型提取出预处理后的图文数据集中图像特征;
步骤三,将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量;
步骤四,建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,得到情感分类。
所述的对供应链生态社区图文评论数据集进行预处理,得到处理后的图文数据集,包括如下过程:
使用NLTK工具集去除图文数据集中文本数据的停用词,同时对文本进行分词,得到预处理后的图文数据集。
所述的将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量,包括如下过程:
所述的特征融合模块包括特征拼接层和特征融合层;所述的特征融合层包括注意力计算层、注意力融合层、输出层;
所述的注意力计算层计算出文本特征和图像特征的注意力,分别得到基于文本特征的文本模态的注意力头的注意力矩阵,得到基于图像特征的图像模态的注意力头的注意力矩阵;所述的注意力融合层将得到的文本模态的注意力头的注意力矩阵和图像模态的注意力头的注意力矩阵,融合得到注意力头的权重矩阵;
所述的输出层使用得到的融合注意力矩阵和BERT提取的文本特征相乘,便得到了文本输出特征向量,使用得到的融合注意力矩阵和BERT提取的图像特征相乘,得到图像输出特征向量,将文本输出特征向量与像输出特征向量进行拼接得到图像和文本的融合特征向量。
所述的建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,包括如下步骤:
以融合特征向量为输入,得到输出c:
c=WX
其中W是全连接层的权值矩阵;
然后对输出c,通过softmax计算得到不同情感的概率分布yt:
yt=softmax(c)
其中,softmax(·)为按列进行归一化的函数;
对基于改进注意力机制的多模态情感分析模型的输出概率分布yt与数据的真实标签向量进行交叉熵损失函数计算,其计算公式为:
采用小批量梯度下降法训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止该模型的训练,得到最终的情感分类。
所述的情感分类包括积极情感分类和消极情感分类。
具体的,基于交互注意力的供应链生态区图文融合情感识别方法,包括以下步骤:
S1:对供应链生态社区的图文评论数据集进行预处理;
S2:建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型;
S3:将提取的图像和文本的特征送入基于改进注意力机制的特征融合模块进行特征融合;
S4:建立基于文本和图像的多模态情感分析模型,利用基于图文的数据进行情感分析。
对需要进行情感分析的图文数据集进行预处理
使用NLTK工具集去除图文数据集中文本数据的停用词,即剔除语料库中对语言的含义并不重要的词语,比如”a”,”of”等,同时对语料进行分词;
建立基于预训练的文本特征提取模型和基于Transformer的图像特征提取模型
(1)基于transformer的图像特征提取
transformer模型,如图2所示,该模型的提出是针对自然语言处理领域,其基本原理是使用自注意力机制(Self-Attention)取代了原本的如RNN的顺序结构,这使得模型可以并行化训练,并且可以拥有全局信息。利用这一特点,将transformer应用于图像的特征提取,也取得了优秀的效果的效果。
①Embedding层:
对于标准transformer模型,要求输入的是二维的向量[num_token,token_dim],而图像数据是三维[H,W,C],因此Embedding层的作用就是将三维的向量转化成标准transformer模型的二维形式的输入。在得到的二维向量中***一个专门用于分类的[class]token,这个[class]token 是一个可训练的参数,数据格式和其他token一样都是一个向量,然后加上位置编码(Position Embedding),这里位置编码和Transformer中的位置编码一致,采用的是一个可训练的参数,是直接叠加在tokens上的(add)。
②Encoding层:
Transformer的编码(Encoder)就是将编码块重复的堆叠一定的次数,整个编码(Encoding) 层由三个部分组成:
1)层归一化(Layer Norm):
层归一化是对一个中间层的所有神经元进行归一化。对于一个深度神经网络,另第L层神经元的净输入为Z(l),其均值和方差为:
其中Ml为第l层的神经元数量。则层归一化为:
其中γ和β分别代表缩放和平移的参数向量。
2)多头注意力机制(Multi-Head Attention)
多头注意力机制会在下面进行详细的叙述,这里在不赘述。
3)丢弃层(Droup层):
Transformer的编码(Encoder)是将编码块重复的堆叠一定的次数,使得神经网络拥有很强的拟合能力,从而出现过拟合,而丢弃法能够有效的抑制过拟合的发生。丢弃法利用集成学习的思想,通过随机丢弃一部分神经元来避免过拟合。对于一个神经层y=f(Wx+b),引入一个掩蔽函数mask()使得y=f(Wmask(x)+b),其中,掩蔽函数的定义为:
公式中,m∈{0,1}D是丢弃掩码(Droupout Mask),通过以概率p的伯努利分布随机生成。
丢弃法一般是针对神经元进行丢弃,但是也可以扩展到对神经元之间的连接进行随机的丢弃:
基于预训练模型的文本特征提取
BERT(Bidirectional Encoder Representation from Transformers)是由Devlin等人提出的预训练语言模型,其充分的挖掘大量无标注文本的语义信息。
BERT的基本模型由transformer的Encoder部分组成,包含两个预训练任务:掩码语言模型(Masked Language Model,MLM)和下一个句子预测(Next Sentence Prediction,NSP)
1)掩码语言模型
将输入序列中的部分词进行掩码,并且按照模型的要求进行还原,称之为掩码语言模型。在BERT中,会将输入文本中的15%进行掩码,其中以80%的概率替换为[MASK]标记,以 10%的概率替换为词表中的任意一个随机词,以10%的概率保持原词不变,即不替换。
掩码语言语言模型的建模方法如下:
①输入层:假设原始输入文本为x1x2...xn,通过上述的方法掩码后输入的文本为x′1x′2...x′n, xi表示输入文本的第i个词,x′i表示经过处理的第i个词。对掩码后的文本进行如下处理,得到BERT的输入表示v:
X=[CLS]x′1x′2...x′n[SEP]
v=Inputrepsention(X)
其中,[CLS]表示文本序列开始的特殊标记,[SEP]表示文本序列之间的分隔符。
②编码层:通过自注意力机制充分学习文本数据中的语义信息,得到
h=Transformer(v)
其中,h表示最后一层Transformer层的输出。
其中,b0表示全连接层的偏置。在得到pi之后,与标签yi计算交叉损失,得到模型参数。
2)下一个句子预测
预测任务的输入层和BERT编码层与掩码任务的处理方式相同,唯一不同的是在输出层,预测任务只需要判断输入文本x(2)是否是x(1)的下一个句子。
S3:将提取的图像和文本的特征送入基于改进注意力机制的特征融合模块进行特征融合,特征融合模块如图3所示;
在模态融合模块,其核心在于使用交叉多头注意力机制,利用辅助模态信息帮助主要特征调整主要特征的权重。
模型各层详细介绍:
(1)特征融合层包括:
1)注意力计算层:
文本特征和图像特征的注意力计算方式相同,则以文本特征的注意力计算方式为例。假设文本的特征向量为对于每个输入xi,将其映射到二个不同的向量空间,得到查询向量和键向量对于整个输入序列X,其线性映射过程为:
2)注意力融合层:
上述步骤得到图像和文本模态的各个注意力头的注意力矩阵,以文本特征为主要特征的融合方式和以图像特征为要特征的融合方式相同,下面则以文本模态为主要模态进行叙述。如图4所示的融合过程,通过文本模态和图像模态之间的注意力交互从而调整文本特征的权重,不同模态对应的注意力头以线性求和的方式进行交互,得到各个注意力头的权重矩阵:
然后将各个头的注意力矩阵进行拼接,然后通过一个全连接层进行特征筛选,计算方式如下:
最后使用缩放点积作为注意力打分函数,得到最终的注意力矩阵:
其中,softmax(·)为按列进行归一化的函数。
3)输出层
本层的作用是输出融合的文本特征向量,使用得到的融合注意力矩阵和BERT提取的文本特征相乘,便得到了文本的输出特征向量:
其中Vm表示BERT提取的文本特征。
(2)特征拼接
S4:建立基于文本和图像的多模态情感分析模型,利用基于图文的数据进行情感分析。
如图5所示,建立基于改进注意力机制的多模态情感分析模型如下:
(1)模型各层详细介绍:
1)特征提取层:
2)交互融合层:
本层作用域步骤三中的交互融合层一直,得到最终的融合向量X=x1,x2,x3...xn
3)输出层:
本层是一个全连接层,以融合向量x1,x2,x3...xn作为输入,得到输出c:
c=WX
其中X是全连接层的权值矩阵。
然后对于全连接层的输出c,通过softmax计算得到不同情感的概率分布yt:
yt=softmax(c)
其中,softmax(·)为按列进行归一化的函数。
(2)训练基于改进注意力机制的多模态情感分析模型的参数:
对基于改进注意力机制的多模态情感分析模型的输出概率分布yt与数据的真实标签向量进行交叉熵损失函数计算,其计算公式为:
采用小批量梯度下降法(Mini-Batch Gradient Descent)训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止该模型的训练,得到最终的情感分类
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (5)
1.基于交互注意力的供应链生态区图文融合情感识别方法,其特征在于,包括如下步骤:
步骤一,对供应链生态社区的图文评论数据集进行预处理,得到预处理后的图文数据集;
步骤二,建立基于BERT预训练的文本特征提取模型和基于Transformer的图像特征提取模型,通过文本特征提取模型提取出预处理后的图文数据集中文本特征,通过图像特征提取模型提取出预处理后的图文数据集中图像特征;
步骤三,将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量;
步骤四,建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,得到情感分类。
2.根据权利要求1所述的基于交互注意力的供应链生态区图文融合情感识别方法,其特征在于,所述的对供应链生态社区的图文评论数据集进行预处理,得到处理后的图文数据集,包括如下过程:
使用NLTK工具集去除图文数据集中文本数据的停用词,同时对文本进行分词,得到预处理后的图文数据集。
3.根据权利要求1所述的基于交互注意力的供应链生态区图文融合情感识别方法,其特征在于,所述的将提取的图像特征和文本特征送入基于改进注意力机制的特征融合模块进行特征融合,得到图像和文本的融合特征向量,包括如下过程:
所述的特征融合模块包括特征拼接层和特征融合层;所述的特征融合层包括注意力计算层、注意力融合层、输出层;
所述的注意力计算层计算出文本特征和图像特征的注意力,分别得到基于文本特征的文本模态的注意力头的注意力矩阵,得到基于图像特征的图像模态的注意力头的注意力矩阵;所述的注意力融合层将得到的文本模态的注意力头的注意力矩阵和图像模态的注意力头的注意力矩阵,融合得到注意力头的权重矩阵;
所述的输出层使用得到的融合注意力矩阵和BERT提取的文本特征相乘,便得到了文本输出特征向量,使用得到的融合注意力矩阵和BERT提取的图像特征相乘,得到图像输出特征向量,将文本输出特征向量与像输出特征向量进行拼接得到图像和文本的融合特征向量。
4.根据权利要求3所述的基于交互注意力的供应链生态区图文融合情感识别方法,其特征在于,所述的建立基于文本和图像的多模态情感分析模型,利用图像和文本的融合特征向量进行情感分析,包括如下步骤:
以融合特征向量为输入,得到输出c:
c=WX
其中W是全连接层的权值矩阵;
然后对输出c,通过softmax计算得到不同情感的概率分布yt:
yt=softmax(c)
其中,softmax(·)为按列进行归一化的函数;
对基于改进注意力机制的多模态情感分析模型的输出概率分布yt与数据的真实标签向量进行交叉熵损失函数计算,其计算公式为:
采用小批量梯度下降法训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N,则终止该模型的训练,得到最终的情感分类。
5.根据权利要求4所述的基于交互注意力的供应链生态区图文融合情感识别方法,其特征在于,所述的情感分类包括积极情感分类和消极情感分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210593665.2A CN115146057B (zh) | 2022-05-27 | 基于交互注意力的供应链生态区图文融合情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210593665.2A CN115146057B (zh) | 2022-05-27 | 基于交互注意力的供应链生态区图文融合情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115146057A true CN115146057A (zh) | 2022-10-04 |
CN115146057B CN115146057B (zh) | 2024-06-28 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049397A (zh) * | 2022-12-29 | 2023-05-02 | 北京霍因科技有限公司 | 基于多模态融合的敏感信息发现并自动分类分级方法 |
CN116719930A (zh) * | 2023-04-28 | 2023-09-08 | 西安工程大学 | 基于视觉方面注意的多模态情感分析方法 |
CN117036788A (zh) * | 2023-07-21 | 2023-11-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、训练图像分类模型的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
US11025892B1 (en) * | 2018-04-04 | 2021-06-01 | James Andrew Aman | System and method for simultaneously providing public and private images |
CN113627163A (zh) * | 2021-06-29 | 2021-11-09 | 华为技术有限公司 | 一种注意力模型、特征提取方法及相关装置 |
US11240278B1 (en) * | 2018-01-17 | 2022-02-01 | Sure Market, LLC | Distributed messaging communication system integrated with a cross-entity collaboration platform |
CN114020871A (zh) * | 2021-11-09 | 2022-02-08 | 丁健宇 | 基于特征融合的多模态社交媒体情感分析方法 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
US11240278B1 (en) * | 2018-01-17 | 2022-02-01 | Sure Market, LLC | Distributed messaging communication system integrated with a cross-entity collaboration platform |
US11025892B1 (en) * | 2018-04-04 | 2021-06-01 | James Andrew Aman | System and method for simultaneously providing public and private images |
CN113627163A (zh) * | 2021-06-29 | 2021-11-09 | 华为技术有限公司 | 一种注意力模型、特征提取方法及相关装置 |
CN114020871A (zh) * | 2021-11-09 | 2022-02-08 | 丁健宇 | 基于特征融合的多模态社交媒体情感分析方法 |
Non-Patent Citations (3)
Title |
---|
MUHAMMAD RAHEEL RAZA等: "sentimentanalysis using deep learning in cloud", 2021 9TH INTERNATIONAL SYMPOSIUM ON DIGITAL FORENSICS AND SECURITY, 29 June 2021 (2021-06-29), pages 1 - 10 * |
靳晓琳;: "基于AISAS消费者行为分析模型探讨短视频传播", 北方传媒研究, no. 06, 20 December 2019 (2019-12-20), pages 44 - 47 * |
马伟林: "面向云ERP生态社区的多模态情感分析方法研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 4, 15 April 2024 (2024-04-15), pages 138 - 1710 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049397A (zh) * | 2022-12-29 | 2023-05-02 | 北京霍因科技有限公司 | 基于多模态融合的敏感信息发现并自动分类分级方法 |
CN116049397B (zh) * | 2022-12-29 | 2024-01-02 | 北京霍因科技有限公司 | 基于多模态融合的敏感信息发现并自动分类分级方法 |
CN116719930A (zh) * | 2023-04-28 | 2023-09-08 | 西安工程大学 | 基于视觉方面注意的多模态情感分析方法 |
CN117036788A (zh) * | 2023-07-21 | 2023-11-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、训练图像分类模型的方法及装置 |
CN117036788B (zh) * | 2023-07-21 | 2024-04-02 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、训练图像分类模型的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN110647619A (zh) | 一种基于问题生成和卷积神经网络的常识问答方法 | |
CN111680484B (zh) | 一种视觉常识推理问答题的答题模型生成方法和*** | |
CN113128214A (zh) | 一种基于bert预训练模型的文本摘要生成方法 | |
CN110851594A (zh) | 一种基于多通道深度学习模型的文本分类方法及其装置 | |
CN114548099B (zh) | 基于多任务框架的方面词和方面类别联合抽取和检测方法 | |
CN117391051B (zh) | 一种融合情感的共同注意网络多模态虚假新闻检测方法 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
Al Faraby et al. | Image to Bengali caption generation using deep CNN and bidirectional gated recurrent unit | |
CN111581964A (zh) | 一种汉语古籍的主题分析方法 | |
Paul et al. | A modern approach for sign language interpretation using convolutional neural network | |
He et al. | Deep learning in natural language generation from images | |
Yang et al. | CLIP-KD: An Empirical Study of Distilling CLIP Models | |
Patil et al. | Performance analysis of image caption generation using deep learning techniques | |
Amjad et al. | Recognizing semi-natural and spontaneous speech emotions using deep neural networks | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN116958677A (zh) | 一种基于多模态大数据的互联网短视频分类方法 | |
CN115774782A (zh) | 多语种文本分类方法、装置、设备及介质 | |
CN115146057A (zh) | 基于交互注意力的供应链生态区图文融合情感识别方法 | |
Shah et al. | A study of various word embeddings in deep learning | |
CN115146057B (zh) | 基于交互注意力的供应链生态区图文融合情感识别方法 | |
CN114510569A (zh) | 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 | |
Guo et al. | Double-layer affective visual question answering network | |
CN113792541A (zh) | 一种引入互信息正则化器的方面级情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |