CN113657115B

CN113657115B - 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法

Info

Publication number: CN113657115B
Application number: CN202110825743.2A
Authority: CN
Inventors: 苏依拉; 张妍彤; 程永坤; 王涵; 仁庆道尔吉; 吉亚图
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2023-06-30
Anticipated expiration: 2041-07-21
Also published as: CN113657115A

Abstract

本发明一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法，首先，将机器翻译和情感分析结合，以解决由于蒙古语情感数据集的匮乏导致情感分析不准确的问题；其次，将图像属性纳入讽刺识别中，并利用属性特征和Bi‑GRU提取文本特征，使用Bi‑GRU替换Bi‑LSTM，缓解了Bi‑LSTM记忆单元结构复杂，训练时间长的问题；第三，结合图文相关性检测，以解决多模态情感分析中若存在配图和发布的文本完全无关的情况对分析结果造成较大偏差的问题；最后，结合多模态细粒度混合的方法，在多模态细粒度混合时根据上下文环境的差异，考虑到了各模态中不同组成成分的差别，从而避免噪音信息的影响。

Description

一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法

技术领域

本发明属于人工智能技术领域，涉及文本内容的情感分析，特别涉及一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法。

背景技术

情感分析，又名意见挖掘、主观性分析，通常是指利用自然语言处理技术、统计学知识和深度学习技术研究、分析和识别主观性文档蕴含的情感极性。一般而言，情感分析旨在确定说话者、作者或其他主体对象对于某个主题、文档或事件的观点态度，可以判断或评价情感状态或情感交流。

目前，虽然已经有一些针对低资源语言的情感分析被提出，但仍旧存在数据集匮乏的问题；其次，情感分析仍然存在图文不匹配降低情感分析的准确率的问题；同时，网民利用讽刺的表达方式对某一热点话题进行情绪表达也是十分常见的。而用户利用此方式发布的内容往往与实际想表达的含义相反，这对于情感分析的正确性影响很大。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法，以期解决目前在情感分析中使用讽刺修辞手法的发布内容对情感分析造成的影响问题，以及缓解低资源的蒙古语数据集不足等问题。

为了实现上述目的，本发明采用的技术方案是：

一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法，包括如下步骤：

步骤1，利用机器翻译，将其他语言的情感分析图文数据集翻译成蒙古语图文数据集，与网上收集到的蒙古语图文数据集一起组成以图文对形式存在的最终数据集，利用所述最终数据集训练多模态情感分析模块；

步骤2，将待测的蒙古语图文数据以图文对的形式送入讽刺识别模块中进行讽刺识别，识别是否具有讽刺修辞手法，若存在讽刺修辞手法，则直接判定情感极性为消极；若不存在讽刺修辞手法，则进入下一步；

步骤3，将不存在讽刺修辞的图文对送入图文语义相关性检测模块中进行检测，若检测出图文语义不相关，则只进行文本情感分析，以避免图像对整体情感极性的影响；否则进入下一步；

步骤4，将图文相关的图文对送入训练得到的多模态情感分析模块中进行情感分析，从而得出情感极性。

与现有技术相比，本发明的有益效果是：

1、本发明将机器翻译、图文相关性检测以及讽刺识别融入多模态情感分析中，弥补了以往情感分析模型的不足之处。

2、本发明在多模态细粒度混合时考虑到了各模态中不同组成成分的特点，所处上下文环境的差异，这使得多模态情感分析在利用多模态数据互补特点的同时，避免了不相关信息的影响。

3、本发明提出的讽刺识模块使用Bi-GRU替换Bi-LSTM，缓解了Bi-LSTM记忆单元结构复杂，训练时间长的问题。

4、本发明在利用数据库图像文本信息的同时，生成较困难的负样本训练特征提取网络，能够提升图像的表征性能。

5、本发明在提取图像语义标签时，通过不同的标签识别网络识别中间层及输出层特征并生成多个图像标签，本发明提供了一种能够生成图像的多标签的方案。

附图说明

图1是本发明整体流程图。

图2是本发明的讽刺识别模块示意图。

图3是本发明图文相关性检测模块示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明为一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法，包括如下步骤：

步骤1，利用机器翻译，将英语等其他语言的情感分析图文数据集翻译成蒙古语图文数据集，与网上收集到的蒙古语图文数据集一起组成最终数据集，利用该最终数据集训练多模态情感分析模块。本步骤将机器翻译和情感分析结合，解决了由于蒙古语情感数据集的匮乏导致情感分析不准确的问题。

其中，最终数据集中的数据是以图文对形式存在的多模态图文数据，即，将文本特征、图像特征和图像属性特征作为三种模态。

本发明中，从Twitter获取英文情感分析图文数据集，先送入英汉翻译模型翻译为汉语图文数据集，再将汉语图文数据集送入基于迁移学习的蒙汉翻译模型中，翻译并得到蒙古语图文数据集。

本发明的多模态情感分析模块使用基于BERT模型框架的鲁棒性预训练模型，其原理是利用多头自注意力机制捕获文本特征和图像特征进行特征融合后进行情感分类。模块训练过程是：将带有标签的训练集送入多模态情感分析模块，统计原始标签和输出的分类是否一致，将F值作为评判标准，将计算得到的F值和阈值比较，若大于阈值，则继续训练至设定的迭代次数，否则，训练结束，其中F值为正确率和召回率的调和平均值，计算公式如下：

F值＝正确率*召回率*2/(正确率+召回率)。

步骤2，将待测的蒙古语图文数据以图文对的形式送入讽刺识别模块中进行讽刺识别，识别是否具有讽刺修辞手法，若存在讽刺修辞手法，则直接判定情感极性为消极；若不存在讽刺修辞手法，则进入下一步。

本发明讽刺识别模块中，是将文本特征、图像特征和图像属性特征作为三种模态，其原理是首先提取图像特征和图像属性特征，再利用图像属性特征和Bi-GRU提取文本特征，最后将三种模态特征进行重构融合成一个特征向量来预测是否具有讽刺表达。本步骤将图像属性特征纳入讽刺识别中，并使用Bi-GRU替换Bi-LSTM，缓解了Bi-LSTM记忆单元结构复杂，训练时间长的问题。

具体地，参考图2，本发明讽刺识别模块进行讽刺识别的步骤如下：

首先，使用一个预训练和微调的ResNet模型获得图像原始向量，公式如下：

其中，

为图像中的第i个区域I_i的特征；

其次求图片的指导向量v_av，公式如下：

其中，N_r为图像中的区域个数；

然后，使用标签识别网络预测并生成每个图像的多个图像属性特征，通过第一标签识别网络对输出层图像属性特征进行识别，得到第一类图像标签；通过第二标签识别网络对融合特征进行识别，得到第二类图像标签。将图像标签转换为图像属性向量，并将图像属性向量通过加权平均得到图像属性的指导向量。

然后使用Bi-GRU获得文本特征，得到的最终隐藏状态进行平均得到指导向量v_w，公式如下：

其中，h_t表示t时刻的隐藏状态，L表示文本的长度；

然后将上述图像、图像属性和文本通过低层次原始向量和高层次引导向量的帮助下，通过两层卷积网络得到注意力权重，用来重构得到重构向量，即：将指导向量v_w转换成定长的表示，计算各模态的注意力权值，将其作为定长特征向量的权重，得到相应模态下的最终重构向量，从而进行特征融合，进行最后的讽刺识别检测。

步骤3，将不存在讽刺修辞的图文对送入图文语义相关性检测模块中进行检测，若检测出图文语义不相关，则只进行文本情感分析，以避免图像对整体情感极性的影响；否则进入下一步。本步骤结合图文相关性检测，解决了多模态情感分析中若存在配图和发布的文本完全无关的情况对分析结果造成较大偏差的问题。

具体地，参考图3，本发明图文语义相关性检测模块中，首先提取文本语义单元以及图像标签，此时需要对文本对应的图像使用经过预训练的图像分类模型提取图像中可信度最高的前几个语义标签；然后进行图文语义对齐操作，将得到的文本语义单元特征向量V_similar经过ResNet计算抽取的图像特征作为图文对齐自注意力机制中的keys与values向量矩阵；最后将从图文语义对齐编码层得到的图片向量和文本特征向量相连接输入到多模态编码层中，将多模态编码层计算所得的向量输入到线性激活函数Softmax中，以获得图文相关性检测结果。

获取文本语义单元的具体步骤如下：

经过蒙古语语义标签数据集训练图像分类模型后，使用TextRank算法对文本提取文本语义单元，然后对文本对应的图像使用经过预训练的图像分类模型提取图像中可信度最高的前几个语义标签，之后使用训练好的GloVe词向量模型分别对文本语义单元和图像语义标签中的每个词分别生成词向量，进而计算文本语义单元中每项和对应图像的语义标签之间的相似度，根据相似度选择前五项作为图文相关的文本语义单元，相似度similarity的计算公式如下：

其中，

和/>

分别对应文本语义单元与图像标签词的词向量；

图文语义对齐编码层的具体操作原理如下：

在图文语义对齐编码层中以图文关联的文本语义单元特征引导图像特征进行向量计算，从而使得图像特征中与文本语义相关的图像区域分配更多的权重信息，具体公式为

其中，V₁是具有和文本特征相同维度的视觉特征，V_similiar是文本语义单元特征向量，Att(V₁,V_similiar)是进行向量计算后获取的权重，W_q，W_v是可学习参数，d_k表示向量长度。

进一步地，本发明可应用多模态细粒度特征混合方法，对图像特征、文本特征、图像属性特征的各个组成成分的模态信息进行细粒度分类，并生成负样本，作为最终数据集的补充数据，加入至多模态情感分析模块的训练中，以缓解蒙古语数据集数量少的问题，提升表征能力和特征提取效果。本发明结合多模态细粒度混合的方法，在多模态细粒度混合时根据上下文环境的差异，考虑到了各模态中不同组成成分的差别，从而避免噪音信息的影响。

本发明多模态细粒度特征混合方法包括：

首先，通过RCNN模型获得最终数据集的数据即多模态图文数据的视觉区域特征I，通过门控循环单元GRU获得文本单词特征T，所述视觉区域特征I指的是将图像划分为多个区域后各个区域的特征，所述文本单词特征T，指的是将句子划分为多个单词后各个单词的特征；然后通过全连接层将所述视觉区域特征I和所述文本单词特征T转换到相同维度的向量，获得所述视觉区域特征I中的视觉特征组成成分I_i和所述文本单词特征T中的文本特征组成成分T_i，具体公式如下：

I_i＝tanh(W_II+b_I)

T_i＝tanh(W_TT+b_T)

其中，W_I,W_T,b_I,b_T表示可学习的权重和偏置参数；

然后计算视觉区域特征I的模态内相关性

和模态间相关性/>

并进行归一化处理，公式如下：

其中，

表示图像划分的所有区域的各个视觉特征组成成分内的加权平均表示，

表示图像划分的所有区域的视觉特征组成成分间的加权平均表示，|| ||表示求向量的绝对值；

最后对视觉特征组成成分进行来自模态内和模态间的信息进行融合，得到融合的视觉特征，获得融合的视觉特征的方法如下：

首先得到自身模态信息和跨模态信息，再使用残差结构获得融合的视觉特征。

将融合的视觉特征利用情感分析模块进行分类，得出多模态情感分类结果，具体公式如下：

其中，SA(I_i)和GA(V_i)分别表示自身注意力权重和模态间注意力权重信息。

本发明在进行信息融合时，对图文特征的各个组成成分的模态信息进行细粒度分类。该方法在多模态细粒度混合时考虑到了各模态中不同组成成分的特点以及所处上下文环境的差异，选择对应的合适的交互方式，此方法可以在利用多模态数据互补的特点的同时，避免不相关信息的影响。

在进行多模态情感分析时，加入负样本能够提升图像的表征性能并弥补数据集不足的缺陷，方法如下：对于一个图文对，通过视觉编码器与文本编码器，分别得到图像特征与文本特征；对于图像，通过目标检测方法得到图像的目标区域，并输入至视觉编码器，得到真实图像区域特征，将某个目标区域使用其他图像的目标区域进行替换后再输入至视觉编码器，得到伪图像区域特征；对于文本，将文本中的某个词进行替换后输入至文本编码器，得到伪文本特征；基于真实图像区域特征、伪图像区域特征以及文本特征构造文本-图像排序损失函数，基于图像特征、文本特征及伪文本特征构造图像-文本排序损失函数，并进行网络训练。

本发明提供了一个具体的情感分析案例如下：

首先，输入图文对到讽刺识别模块：

经过讽刺识别后，应输出为0，则此图文对不具有讽刺表达，那么将此图文对输入图文语义相关性检测模块中进行下一步检测。

在图文语义相关性检测模块中，此图文对应检测为图文相关，接下来会将此图文对输入至多模态情感分析模块中进行检测。

在多模态情感分析模块中，最终得出情感极性为积极。

本发明具体实现步骤可描述如下：

1、将其他语言数据集送入上述提到的英汉翻译模型中，将其翻译为汉语数据集，再将得到的汉语数据集送入蒙汉翻译模型中，将其翻译为蒙古语数据集。至此得到所需蒙古语图文数据集，作为蒙古语数据集的补充。

2、将图文数据集送入预训练的讽刺识别模块中，识别是否具有讽刺修辞手法，若存在讽刺修辞手法，则直接判定情感极性为消极；若不存在讽刺修辞，则进行第三步操作。讽刺识别模块图如图2所示。

3、将不存在讽刺修辞的图文对送入图文语义相关性检测模块中进行检测，若检测出图文语义不相关，则为了避免图像对整体情感极性的影响，只进行文本情感分析；否则进行第四步操作。图文相关性检测框架图如图3所示。

4、将图文相关的图文对送入多模态情感分析模块中进行情感分析，从而得出情感极性。

Claims

1.一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法，其特征在于，包括如下步骤：

步骤4，将图文相关的图文对送入训练得到的多模态情感分析模块中进行情感分析，从而得出情感极性；

其中：

所述讽刺识别模块中，将文本特征、图像特征和图像属性特征作为三种模态，首先提取图像特征和图像属性特征，再利用图像属性特征和Bi-GRU提取文本特征，最后将三种模态特征进行重构融合成一个特征向量来预测是否具有讽刺表达；

应用多模态细粒度特征混合方法，对图像特征、文本特征、图像属性特征的各个组成成分的模态信息进行细粒度分类，并生成负样本，作为最终数据集的补充数据，加入至多模态情感分析模块的训练中，以缓解蒙古语数据集数量少的问题，从而提升表征能力和特征提取效果；

所述多模态细粒度特征混合方法包括：

I_i＝tanh(W_II+b_I)

T_i＝tanh(W_TT+b_T)

其中，W_I,W_T,b_I,b_T表示可学习的权重和偏置参数；

然后计算视觉区域特征I的模态内相关性

和模态间相关性/>

并进行归一化处理，公式如下：

其中，

表示图像划分的所有区域的视觉特征组成成分内的加权平均表示，/>

最后对视觉特征组成成分进行来自模态内和模态间的信息融合，获得融合的视觉特征，将融合的视觉特征利用情感分析模块进行分类，得出多模态情感分类结果，具体公式如下：

2.根据权利要求1所述基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法，其特征在于，所述步骤1中，其他语言为英语，将Twitter的英文情感分析图文数据集送入英汉翻译模型翻译为汉语图文数据集，再将得到的汉语图文数据集送入基于迁移学习的蒙汉翻译模型中，将其翻译为蒙古语图文数据集。

3.根据权利要求1所述基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法，其特征在于，所述多模态情感分析模块使用的是基于BERT模型框架的鲁棒性预训练模型，用多头自注意力机制捕获文本特征和图像特征进行特征融合后进行情感分类，将带有标签的训练集送入多模态情感分析模块，通过统计原始标签和输出的分类是否一致，将F值作为评判标准，将计算得到的F值和阈值比较，若大于阈值，则继续训练至设定的迭代次数，否则，训练结束，F值为正确率和召回率的调和平均值，计算公式如下：

F值＝正确率*召回率*2/(正确率+召回率)。

4.根据权利要求1所述基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法，其特征在于，所述讽刺识别模块进行讽刺识别的步骤如下：

首先使用一个预训练和微调的ResNet模型获得图像的14*14区域向量，公式如下：

其中，

为图像中的第i个区域I_i的特征；

其次求图像向量平均值v_av，公式如下：

其中，N_r为图像中的区域个数；

然后使用标签识别网络预测并生成每个图像的多个图像属性特征，通过特征融合网络对中间层图像属性特征和输出层图像属性特征进行特征融合，得到特征融合网络输出的融合特征；

通过第一标签识别网络对输出层图像属性特征进行识别，得到第一类图像标签；通过第二标签识别网络对融合特征进行识别，得到第二类图像标签；

然后将原始图像向量加权平均图像特征向量通过两层卷积网络得到注意力权重，用来重构得到重构向量，然后使用Bi-GRU获得文本特征，得到的最终隐藏状态进行平均得到指导向量v_w，公式如下：

其中，h_t表示t时刻的隐藏状态，L表示文本的长度；

最后将指导向量v_w转换成定长的表示，计算各模态的注意力权值，将其作为定长特征向量的权重得到相应模态下的最终单一向量，从而进行最后的讽刺识别检测。

5.根据权利要求1所述基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法，其特征在于，所述图文语义相关性检测模块中，首先提取图文关联的文本语义单元；然后进行图文语义对齐操作，将得到的文本语义单元特征向量V_similar经过ResNet计算抽取的图像特征作为图文对齐自注意力机制中的keys与values向量矩阵；最后将图文语义对齐编码层得到的视觉特征向量和文本特征向量相连接输入到多模态编码层中，将此层计算所得的向量输入到线性激活函数Softmax中，以获得图文相关性检测结果。

6.根据权利要求5所述基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法，其特征在于，经过蒙古语语义标签数据集训练图像分类模型后，使用TextRank算法对文本提取文本语义单元，然后对文本对应的图像使用经过预训练的图像分类模型提取图像中可信度最高的前几个语义标签，之后使用训练好的GloVe词向量模型分别对文本语义单元和图像语义标签中的每个词分别生成词向量，进而计算文本语义单元中每项和对应图像的语义标签之间的相似度，根据相似度选择前五项作为图文关联的文本语义单元，相似度similarity的计算公式如下：

其中，

和/>

分别对应文本语义单元与图像标签词的词向量；

7.根据权利要求1所述基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法，其特征在于，在进行多模态情感分析时，加入负样本以提升图像的表征性能并弥补数据集不足的缺陷，方法如下：对于一个图像文本对，通过视觉编码器与文本编码器，分别得到图像特征与文本特征；对于图像，通过目标检测方法得到图像的目标区域，并输入至视觉编码器，得到真实图像区域特征，将某个目标区域使用其他图像的目标区域进行替换后再输入至视觉编码器，得到伪图像区域特征；对于文本，将文本中的某个词进行替换后输入至文本编码器，得到伪文本特征；基于真实图像区域特征、伪图像区域特征以及文本特征构造文本-图像排序损失函数，基于图像特征、文本特征及伪文本特征构造图像-文本排序损失函数，并进行网络训练。