CN113657115B - 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 - Google Patents

一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 Download PDF

Info

Publication number
CN113657115B
CN113657115B CN202110825743.2A CN202110825743A CN113657115B CN 113657115 B CN113657115 B CN 113657115B CN 202110825743 A CN202110825743 A CN 202110825743A CN 113657115 B CN113657115 B CN 113657115B
Authority
CN
China
Prior art keywords
image
text
features
feature
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110825743.2A
Other languages
English (en)
Other versions
CN113657115A (zh
Inventor
苏依拉
张妍彤
程永坤
王涵
仁庆道尔吉
吉亚图
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202110825743.2A priority Critical patent/CN113657115B/zh
Publication of CN113657115A publication Critical patent/CN113657115A/zh
Application granted granted Critical
Publication of CN113657115B publication Critical patent/CN113657115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法,首先,将机器翻译和情感分析结合,以解决由于蒙古语情感数据集的匮乏导致情感分析不准确的问题;其次,将图像属性纳入讽刺识别中,并利用属性特征和Bi‑GRU提取文本特征,使用Bi‑GRU替换Bi‑LSTM,缓解了Bi‑LSTM记忆单元结构复杂,训练时间长的问题;第三,结合图文相关性检测,以解决多模态情感分析中若存在配图和发布的文本完全无关的情况对分析结果造成较大偏差的问题;最后,结合多模态细粒度混合的方法,在多模态细粒度混合时根据上下文环境的差异,考虑到了各模态中不同组成成分的差别,从而避免噪音信息的影响。

Description

一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分 析方法
技术领域
本发明属于人工智能技术领域,涉及文本内容的情感分析,特别涉及一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法。
背景技术
情感分析,又名意见挖掘、主观性分析,通常是指利用自然语言处理技术、统计学知识和深度学习技术研究、分析和识别主观性文档蕴含的情感极性。一般而言,情感分析旨在确定说话者、作者或其他主体对象对于某个主题、文档或事件的观点态度,可以判断或评价情感状态或情感交流。
目前,虽然已经有一些针对低资源语言的情感分析被提出,但仍旧存在数据集匮乏的问题;其次,情感分析仍然存在图文不匹配降低情感分析的准确率的问题;同时,网民利用讽刺的表达方式对某一热点话题进行情绪表达也是十分常见的。而用户利用此方式发布的内容往往与实际想表达的含义相反,这对于情感分析的正确性影响很大。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法,以期解决目前在情感分析中使用讽刺修辞手法的发布内容对情感分析造成的影响问题,以及缓解低资源的蒙古语数据集不足等问题。
为了实现上述目的,本发明采用的技术方案是:
一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法,包括如下步骤:
步骤1,利用机器翻译,将其他语言的情感分析图文数据集翻译成蒙古语图文数据集,与网上收集到的蒙古语图文数据集一起组成以图文对形式存在的最终数据集,利用所述最终数据集训练多模态情感分析模块;
步骤2,将待测的蒙古语图文数据以图文对的形式送入讽刺识别模块中进行讽刺识别,识别是否具有讽刺修辞手法,若存在讽刺修辞手法,则直接判定情感极性为消极;若不存在讽刺修辞手法,则进入下一步;
步骤3,将不存在讽刺修辞的图文对送入图文语义相关性检测模块中进行检测,若检测出图文语义不相关,则只进行文本情感分析,以避免图像对整体情感极性的影响;否则进入下一步;
步骤4,将图文相关的图文对送入训练得到的多模态情感分析模块中进行情感分析,从而得出情感极性。
与现有技术相比,本发明的有益效果是:
1、本发明将机器翻译、图文相关性检测以及讽刺识别融入多模态情感分析中,弥补了以往情感分析模型的不足之处。
2、本发明在多模态细粒度混合时考虑到了各模态中不同组成成分的特点,所处上下文环境的差异,这使得多模态情感分析在利用多模态数据互补特点的同时,避免了不相关信息的影响。
3、本发明提出的讽刺识模块使用Bi-GRU替换Bi-LSTM,缓解了Bi-LSTM记忆单元结构复杂,训练时间长的问题。
4、本发明在利用数据库图像文本信息的同时,生成较困难的负样本训练特征提取网络,能够提升图像的表征性能。
5、本发明在提取图像语义标签时,通过不同的标签识别网络识别中间层及输出层特征并生成多个图像标签,本发明提供了一种能够生成图像的多标签的方案。
附图说明
图1是本发明整体流程图。
图2是本发明的讽刺识别模块示意图。
图3是本发明图文相关性检测模块示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明为一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法,包括如下步骤:
步骤1,利用机器翻译,将英语等其他语言的情感分析图文数据集翻译成蒙古语图文数据集,与网上收集到的蒙古语图文数据集一起组成最终数据集,利用该最终数据集训练多模态情感分析模块。本步骤将机器翻译和情感分析结合,解决了由于蒙古语情感数据集的匮乏导致情感分析不准确的问题。
其中,最终数据集中的数据是以图文对形式存在的多模态图文数据,即,将文本特征、图像特征和图像属性特征作为三种模态。
本发明中,从Twitter获取英文情感分析图文数据集,先送入英汉翻译模型翻译为汉语图文数据集,再将汉语图文数据集送入基于迁移学习的蒙汉翻译模型中,翻译并得到蒙古语图文数据集。
本发明的多模态情感分析模块使用基于BERT模型框架的鲁棒性预训练模型,其原理是利用多头自注意力机制捕获文本特征和图像特征进行特征融合后进行情感分类。模块训练过程是:将带有标签的训练集送入多模态情感分析模块,统计原始标签和输出的分类是否一致,将F值作为评判标准,将计算得到的F值和阈值比较,若大于阈值,则继续训练至设定的迭代次数,否则,训练结束,其中F值为正确率和召回率的调和平均值,计算公式如下:
F值=正确率*召回率*2/(正确率+召回率)。
步骤2,将待测的蒙古语图文数据以图文对的形式送入讽刺识别模块中进行讽刺识别,识别是否具有讽刺修辞手法,若存在讽刺修辞手法,则直接判定情感极性为消极;若不存在讽刺修辞手法,则进入下一步。
本发明讽刺识别模块中,是将文本特征、图像特征和图像属性特征作为三种模态,其原理是首先提取图像特征和图像属性特征,再利用图像属性特征和Bi-GRU提取文本特征,最后将三种模态特征进行重构融合成一个特征向量来预测是否具有讽刺表达。本步骤将图像属性特征纳入讽刺识别中,并使用Bi-GRU替换Bi-LSTM,缓解了Bi-LSTM记忆单元结构复杂,训练时间长的问题。
具体地,参考图2,本发明讽刺识别模块进行讽刺识别的步骤如下:
首先,使用一个预训练和微调的ResNet模型获得图像原始向量,公式如下:
Figure GDA0004228944220000041
其中,
Figure GDA0004228944220000042
为图像中的第i个区域Ii的特征;
其次求图片的指导向量vav,公式如下:
Figure GDA0004228944220000043
其中,Nr为图像中的区域个数;
然后,使用标签识别网络预测并生成每个图像的多个图像属性特征,通过第一标签识别网络对输出层图像属性特征进行识别,得到第一类图像标签;通过第二标签识别网络对融合特征进行识别,得到第二类图像标签。将图像标签转换为图像属性向量,并将图像属性向量通过加权平均得到图像属性的指导向量。
然后使用Bi-GRU获得文本特征,得到的最终隐藏状态进行平均得到指导向量vw,公式如下:
Figure GDA0004228944220000044
其中,ht表示t时刻的隐藏状态,L表示文本的长度;
然后将上述图像、图像属性和文本通过低层次原始向量和高层次引导向量的帮助下,通过两层卷积网络得到注意力权重,用来重构得到重构向量,即:将指导向量vw转换成定长的表示,计算各模态的注意力权值,将其作为定长特征向量的权重,得到相应模态下的最终重构向量,从而进行特征融合,进行最后的讽刺识别检测。
步骤3,将不存在讽刺修辞的图文对送入图文语义相关性检测模块中进行检测,若检测出图文语义不相关,则只进行文本情感分析,以避免图像对整体情感极性的影响;否则进入下一步。本步骤结合图文相关性检测,解决了多模态情感分析中若存在配图和发布的文本完全无关的情况对分析结果造成较大偏差的问题。
具体地,参考图3,本发明图文语义相关性检测模块中,首先提取文本语义单元以及图像标签,此时需要对文本对应的图像使用经过预训练的图像分类模型提取图像中可信度最高的前几个语义标签;然后进行图文语义对齐操作,将得到的文本语义单元特征向量Vsimilar经过ResNet计算抽取的图像特征作为图文对齐自注意力机制中的keys与values向量矩阵;最后将从图文语义对齐编码层得到的图片向量和文本特征向量相连接输入到多模态编码层中,将多模态编码层计算所得的向量输入到线性激活函数Softmax中,以获得图文相关性检测结果。
获取文本语义单元的具体步骤如下:
经过蒙古语语义标签数据集训练图像分类模型后,使用TextRank算法对文本提取文本语义单元,然后对文本对应的图像使用经过预训练的图像分类模型提取图像中可信度最高的前几个语义标签,之后使用训练好的GloVe词向量模型分别对文本语义单元和图像语义标签中的每个词分别生成词向量,进而计算文本语义单元中每项和对应图像的语义标签之间的相似度,根据相似度选择前五项作为图文相关的文本语义单元,相似度similarity的计算公式如下:
Figure GDA0004228944220000051
其中,
Figure GDA0004228944220000052
和/>
Figure GDA0004228944220000053
分别对应文本语义单元与图像标签词的词向量;
图文语义对齐编码层的具体操作原理如下:
在图文语义对齐编码层中以图文关联的文本语义单元特征引导图像特征进行向量计算,从而使得图像特征中与文本语义相关的图像区域分配更多的权重信息,具体公式为
Figure GDA0004228944220000061
其中,V1是具有和文本特征相同维度的视觉特征,Vsimiliar是文本语义单元特征向量,Att(V1,Vsimiliar)是进行向量计算后获取的权重,Wq,Wv是可学习参数,dk表示向量长度。
步骤4,将图文相关的图文对送入训练得到的多模态情感分析模块中进行情感分析,从而得出情感极性。
进一步地,本发明可应用多模态细粒度特征混合方法,对图像特征、文本特征、图像属性特征的各个组成成分的模态信息进行细粒度分类,并生成负样本,作为最终数据集的补充数据,加入至多模态情感分析模块的训练中,以缓解蒙古语数据集数量少的问题,提升表征能力和特征提取效果。本发明结合多模态细粒度混合的方法,在多模态细粒度混合时根据上下文环境的差异,考虑到了各模态中不同组成成分的差别,从而避免噪音信息的影响。
本发明多模态细粒度特征混合方法包括:
首先,通过RCNN模型获得最终数据集的数据即多模态图文数据的视觉区域特征I,通过门控循环单元GRU获得文本单词特征T,所述视觉区域特征I指的是将图像划分为多个区域后各个区域的特征,所述文本单词特征T,指的是将句子划分为多个单词后各个单词的特征;然后通过全连接层将所述视觉区域特征I和所述文本单词特征T转换到相同维度的向量,获得所述视觉区域特征I中的视觉特征组成成分Ii和所述文本单词特征T中的文本特征组成成分Ti,具体公式如下:
Ii=tanh(WII+bI)
Ti=tanh(WTT+bT)
其中,WI,WT,bI,bT表示可学习的权重和偏置参数;
然后计算视觉区域特征I的模态内相关性
Figure GDA0004228944220000071
和模态间相关性/>
Figure GDA0004228944220000072
并进行归一化处理,公式如下:
Figure GDA0004228944220000073
Figure GDA0004228944220000074
其中,
Figure GDA0004228944220000075
表示图像划分的所有区域的各个视觉特征组成成分内的加权平均表示,
Figure GDA0004228944220000076
表示图像划分的所有区域的视觉特征组成成分间的加权平均表示,|| ||表示求向量的绝对值;
最后对视觉特征组成成分进行来自模态内和模态间的信息进行融合,得到融合的视觉特征,获得融合的视觉特征的方法如下:
首先得到自身模态信息和跨模态信息,再使用残差结构获得融合的视觉特征。
将融合的视觉特征利用情感分析模块进行分类,得出多模态情感分类结果,具体公式如下:
Figure GDA0004228944220000077
其中,SA(Ii)和GA(Vi)分别表示自身注意力权重和模态间注意力权重信息。
本发明在进行信息融合时,对图文特征的各个组成成分的模态信息进行细粒度分类。该方法在多模态细粒度混合时考虑到了各模态中不同组成成分的特点以及所处上下文环境的差异,选择对应的合适的交互方式,此方法可以在利用多模态数据互补的特点的同时,避免不相关信息的影响。
在进行多模态情感分析时,加入负样本能够提升图像的表征性能并弥补数据集不足的缺陷,方法如下:对于一个图文对,通过视觉编码器与文本编码器,分别得到图像特征与文本特征;对于图像,通过目标检测方法得到图像的目标区域,并输入至视觉编码器,得到真实图像区域特征,将某个目标区域使用其他图像的目标区域进行替换后再输入至视觉编码器,得到伪图像区域特征;对于文本,将文本中的某个词进行替换后输入至文本编码器,得到伪文本特征;基于真实图像区域特征、伪图像区域特征以及文本特征构造文本-图像排序损失函数,基于图像特征、文本特征及伪文本特征构造图像-文本排序损失函数,并进行网络训练。
本发明提供了一个具体的情感分析案例如下:
首先,输入图文对到讽刺识别模块:
经过讽刺识别后,应输出为0,则此图文对不具有讽刺表达,那么将此图文对输入图文语义相关性检测模块中进行下一步检测。
在图文语义相关性检测模块中,此图文对应检测为图文相关,接下来会将此图文对输入至多模态情感分析模块中进行检测。
在多模态情感分析模块中,最终得出情感极性为积极。
本发明具体实现步骤可描述如下:
1、将其他语言数据集送入上述提到的英汉翻译模型中,将其翻译为汉语数据集,再将得到的汉语数据集送入蒙汉翻译模型中,将其翻译为蒙古语数据集。至此得到所需蒙古语图文数据集,作为蒙古语数据集的补充。
2、将图文数据集送入预训练的讽刺识别模块中,识别是否具有讽刺修辞手法,若存在讽刺修辞手法,则直接判定情感极性为消极;若不存在讽刺修辞,则进行第三步操作。讽刺识别模块图如图2所示。
3、将不存在讽刺修辞的图文对送入图文语义相关性检测模块中进行检测,若检测出图文语义不相关,则为了避免图像对整体情感极性的影响,只进行文本情感分析;否则进行第四步操作。图文相关性检测框架图如图3所示。
4、将图文相关的图文对送入多模态情感分析模块中进行情感分析,从而得出情感极性。

Claims (7)

1.一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法,其特征在于,包括如下步骤:
步骤1,利用机器翻译,将其他语言的情感分析图文数据集翻译成蒙古语图文数据集,与网上收集到的蒙古语图文数据集一起组成以图文对形式存在的最终数据集,利用所述最终数据集训练多模态情感分析模块;
步骤2,将待测的蒙古语图文数据以图文对的形式送入讽刺识别模块中进行讽刺识别,识别是否具有讽刺修辞手法,若存在讽刺修辞手法,则直接判定情感极性为消极;若不存在讽刺修辞手法,则进入下一步;
步骤3,将不存在讽刺修辞的图文对送入图文语义相关性检测模块中进行检测,若检测出图文语义不相关,则只进行文本情感分析,以避免图像对整体情感极性的影响;否则进入下一步;
步骤4,将图文相关的图文对送入训练得到的多模态情感分析模块中进行情感分析,从而得出情感极性;
其中:
所述讽刺识别模块中,将文本特征、图像特征和图像属性特征作为三种模态,首先提取图像特征和图像属性特征,再利用图像属性特征和Bi-GRU提取文本特征,最后将三种模态特征进行重构融合成一个特征向量来预测是否具有讽刺表达;
应用多模态细粒度特征混合方法,对图像特征、文本特征、图像属性特征的各个组成成分的模态信息进行细粒度分类,并生成负样本,作为最终数据集的补充数据,加入至多模态情感分析模块的训练中,以缓解蒙古语数据集数量少的问题,从而提升表征能力和特征提取效果;
所述多模态细粒度特征混合方法包括:
首先,通过RCNN模型获得最终数据集的数据即多模态图文数据的视觉区域特征I,通过门控循环单元GRU获得文本单词特征T,所述视觉区域特征I指的是将图像划分为多个区域后各个区域的特征,所述文本单词特征T,指的是将句子划分为多个单词后各个单词的特征;然后通过全连接层将所述视觉区域特征I和所述文本单词特征T转换到相同维度的向量,获得所述视觉区域特征I中的视觉特征组成成分Ii和所述文本单词特征T中的文本特征组成成分Ti,具体公式如下:
Ii=tanh(WII+bI)
Ti=tanh(WTT+bT)
其中,WI,WT,bI,bT表示可学习的权重和偏置参数;
然后计算视觉区域特征I的模态内相关性
Figure QLYQS_1
和模态间相关性/>
Figure QLYQS_2
并进行归一化处理,公式如下:
Figure QLYQS_3
Figure QLYQS_4
其中,
Figure QLYQS_5
表示图像划分的所有区域的视觉特征组成成分内的加权平均表示,/>
Figure QLYQS_6
表示图像划分的所有区域的视觉特征组成成分间的加权平均表示,|| ||表示求向量的绝对值;
最后对视觉特征组成成分进行来自模态内和模态间的信息融合,获得融合的视觉特征,将融合的视觉特征利用情感分析模块进行分类,得出多模态情感分类结果,具体公式如下:
Figure QLYQS_7
其中,SA(Ii)和GA(Vi)分别表示自身注意力权重和模态间注意力权重信息。
2.根据权利要求1所述基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法,其特征在于,所述步骤1中,其他语言为英语,将Twitter的英文情感分析图文数据集送入英汉翻译模型翻译为汉语图文数据集,再将得到的汉语图文数据集送入基于迁移学习的蒙汉翻译模型中,将其翻译为蒙古语图文数据集。
3.根据权利要求1所述基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法,其特征在于,所述多模态情感分析模块使用的是基于BERT模型框架的鲁棒性预训练模型,用多头自注意力机制捕获文本特征和图像特征进行特征融合后进行情感分类,将带有标签的训练集送入多模态情感分析模块,通过统计原始标签和输出的分类是否一致,将F值作为评判标准,将计算得到的F值和阈值比较,若大于阈值,则继续训练至设定的迭代次数,否则,训练结束,F值为正确率和召回率的调和平均值,计算公式如下:
F值=正确率*召回率*2/(正确率+召回率)。
4.根据权利要求1所述基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法,其特征在于,所述讽刺识别模块进行讽刺识别的步骤如下:
首先使用一个预训练和微调的ResNet模型获得图像的14*14区域向量,公式如下:
Figure QLYQS_8
其中,
Figure QLYQS_9
为图像中的第i个区域Ii的特征;
其次求图像向量平均值vav,公式如下:
Figure QLYQS_10
其中,Nr为图像中的区域个数;
然后使用标签识别网络预测并生成每个图像的多个图像属性特征,通过特征融合网络对中间层图像属性特征和输出层图像属性特征进行特征融合,得到特征融合网络输出的融合特征;
通过第一标签识别网络对输出层图像属性特征进行识别,得到第一类图像标签;通过第二标签识别网络对融合特征进行识别,得到第二类图像标签;
然后将原始图像向量加权平均图像特征向量通过两层卷积网络得到注意力权重,用来重构得到重构向量,然后使用Bi-GRU获得文本特征,得到的最终隐藏状态进行平均得到指导向量vw,公式如下:
Figure QLYQS_11
其中,ht表示t时刻的隐藏状态,L表示文本的长度;
最后将指导向量vw转换成定长的表示,计算各模态的注意力权值,将其作为定长特征向量的权重得到相应模态下的最终单一向量,从而进行最后的讽刺识别检测。
5.根据权利要求1所述基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法,其特征在于,所述图文语义相关性检测模块中,首先提取图文关联的文本语义单元;然后进行图文语义对齐操作,将得到的文本语义单元特征向量Vsimilar经过ResNet计算抽取的图像特征作为图文对齐自注意力机制中的keys与values向量矩阵;最后将图文语义对齐编码层得到的视觉特征向量和文本特征向量相连接输入到多模态编码层中,将此层计算所得的向量输入到线性激活函数Softmax中,以获得图文相关性检测结果。
6.根据权利要求5所述基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法,其特征在于,经过蒙古语语义标签数据集训练图像分类模型后,使用TextRank算法对文本提取文本语义单元,然后对文本对应的图像使用经过预训练的图像分类模型提取图像中可信度最高的前几个语义标签,之后使用训练好的GloVe词向量模型分别对文本语义单元和图像语义标签中的每个词分别生成词向量,进而计算文本语义单元中每项和对应图像的语义标签之间的相似度,根据相似度选择前五项作为图文关联的文本语义单元,相似度similarity的计算公式如下:
Figure QLYQS_12
其中,
Figure QLYQS_13
和/>
Figure QLYQS_14
分别对应文本语义单元与图像标签词的词向量;
在图文语义对齐编码层中以图文关联的文本语义单元特征引导图像特征进行向量计算,从而使得图像特征中与文本语义相关的图像区域分配更多的权重信息,具体公式为
Figure QLYQS_15
其中,V1是具有和文本特征相同维度的视觉特征,Vsimiliar是文本语义单元特征向量,Att(V1,Vsimiliar)是进行向量计算后获取的权重,Wq,Wv是可学习参数,dk表示向量长度。
7.根据权利要求1所述基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法,其特征在于,在进行多模态情感分析时,加入负样本以提升图像的表征性能并弥补数据集不足的缺陷,方法如下:对于一个图像文本对,通过视觉编码器与文本编码器,分别得到图像特征与文本特征;对于图像,通过目标检测方法得到图像的目标区域,并输入至视觉编码器,得到真实图像区域特征,将某个目标区域使用其他图像的目标区域进行替换后再输入至视觉编码器,得到伪图像区域特征;对于文本,将文本中的某个词进行替换后输入至文本编码器,得到伪文本特征;基于真实图像区域特征、伪图像区域特征以及文本特征构造文本-图像排序损失函数,基于图像特征、文本特征及伪文本特征构造图像-文本排序损失函数,并进行网络训练。
CN202110825743.2A 2021-07-21 2021-07-21 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 Active CN113657115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110825743.2A CN113657115B (zh) 2021-07-21 2021-07-21 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110825743.2A CN113657115B (zh) 2021-07-21 2021-07-21 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法

Publications (2)

Publication Number Publication Date
CN113657115A CN113657115A (zh) 2021-11-16
CN113657115B true CN113657115B (zh) 2023-06-30

Family

ID=78489678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110825743.2A Active CN113657115B (zh) 2021-07-21 2021-07-21 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法

Country Status (1)

Country Link
CN (1) CN113657115B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577118B (zh) * 2022-09-30 2023-05-30 南京信息工程大学 一种基于混合分组排序和动态实体记忆规划的文本生成方法
CN116630726B (zh) * 2023-07-26 2023-09-22 成都大熊猫繁育研究基地 基于多模态的鸟类分类方法及***
CN117349662B (zh) * 2023-12-05 2024-02-06 华南师范大学 多模态嘲讽检测方法、装置、计算机设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145433A (ja) * 2002-10-22 2004-05-20 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
CN110162625A (zh) * 2019-04-19 2019-08-23 杭州电子科技大学 基于句内词对关系和上下文用户特征的反讽检测方法
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN111914734A (zh) * 2020-07-29 2020-11-10 南京邮电大学 面向短视频场景的主题情感分析方法
CN112257445A (zh) * 2020-10-19 2021-01-22 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
CN112287197A (zh) * 2020-09-23 2021-01-29 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN112860888A (zh) * 2021-01-26 2021-05-28 中山大学 一种基于注意力机制的双模态情感分析方法
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11423304B2 (en) * 2020-01-15 2022-08-23 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for semantic analysis of multimedia data using attention-based fusion network

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145433A (ja) * 2002-10-22 2004-05-20 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
CN110162625A (zh) * 2019-04-19 2019-08-23 杭州电子科技大学 基于句内词对关系和上下文用户特征的反讽检测方法
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN111914734A (zh) * 2020-07-29 2020-11-10 南京邮电大学 面向短视频场景的主题情感分析方法
CN112287197A (zh) * 2020-09-23 2021-01-29 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN112257445A (zh) * 2020-10-19 2021-01-22 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
CN112860888A (zh) * 2021-01-26 2021-05-28 中山大学 一种基于注意力机制的双模态情感分析方法
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Building a bridge: a method for image-text sarcasm detection without pretraining on image-text data;Wang Xinyu 等;《Proceedings of the first international workshop on natural language processing beyond text》;19-29 *
Effective attention networks for aspect-level sentiment classification;Nguyen Huy Thanh 等;《2018 10th International Conference on Knowledge and Systems Engineering(KSE)》;25-30 *
基于深度学习的情感分析与个性化推荐研究;郗晓琴;《中国优秀硕士学位论文全文数据库信息科技辑》(第01期);I138-2342 *
基于表示学习的事实型隐式情感分析研究;廖健;《中国博士学位论文全文数据库信息科技辑》(第04期);I138-37 *

Also Published As

Publication number Publication date
CN113657115A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN110119786B (zh) 文本话题分类方法及装置
CN113657115B (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN111126069B (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN110717324B (zh) 裁判文书答案信息提取方法、装置、提取器、介质和设备
CN111506732B (zh) 一种文本多层次标签分类方法
CN111914734A (zh) 面向短视频场景的主题情感分析方法
CN114708474A (zh) 一种融合局部和全局特征的图像语义理解算法
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN117033558A (zh) 一种融合bert-wwm与多特征的影评情感分析方法
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及***
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN115758218A (zh) 一种基于长短时特征和决策融合的三模态情感分析方法
CN115081445A (zh) 一种基于多任务学习的短文本实体消歧方法
Attai et al. A survey on arabic image captioning systems using deep learning models
CN114896969A (zh) 一种基于深度学习的方面词提取方法
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
CN113222059A (zh) 利用协作式神经网络链的多标签情感分类方法
CN117150320B (zh) 对话数字人情感风格相似度评价方法及***
CN112434516B (zh) 一种融合正文文本信息的自适应评论情感分析***及方法
CN117113988B (zh) 一种基于nlp的敏感词汇屏蔽方法及***
CN116561323B (zh) 一种基于方面词嵌入图卷积网络的情感分析方法
Kumar et al. A Survey on Indian Sign Language Translation Using Artificial Intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant