CN116402063B

CN116402063B - 多模态讽刺识别方法、装置、设备以及存储介质

Info

Publication number: CN116402063B
Application number: CN202310677805.9A
Authority: CN
Inventors: 张政轩; 薛云; 钟玮瑜; 吴乔峰
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-08-15
Anticipated expiration: 2043-06-09
Also published as: CN116402063A

Abstract

本发明涉及自然语言处理技术领域，特别涉及一种多模态讽刺识别方法、装置、设备以及存储介质，基于图像、文本双模态数据，针对各模态内容分层次地进行全局特征以及语义特征提取分析，基于获得的全局特征，采用跨模态交互以及同模态交互的方式，获得跨模态相似度分数以及同模态相似度分数，利用提取的全局特征、语义特征、跨模态相似度分数以及同模态相似度分数进行协同识别，充分的利用模态间信息进行讽刺识别，提高讽刺识别的准确性。

Description

多模态讽刺识别方法、装置、设备以及存储介质

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种多模态讽刺识别方法、装置、设备以及存储介质。

背景技术

讽刺是一种复杂的语言行为，也属于一种特殊的情感表达方式，人们往往采用夸张、比喻等手法表达与真实意思相反的内容。随着社交平台的文化属性层次不断丰富，用户发表推文的含义通常不仅仅局限于表面，而讽刺就是用户经常使用的表达方式之一。在当前社交平台的用户观点发掘中，仅通过传统情感分析、观点发掘方法分析用户观点态度存在较大局限，难以有效识别观点中隐含的不一致信息。因此，通过识别讽刺的检测方法有利于分析用户真实的观点态度，提高情感分析、观点发掘任务的精确度。

同时，随着社交媒体和网络文化的不断发展，人们也不局限于使用文本形式作为表达自己观点的唯一方式，文本、图片等多模态的推文在各种社交平台上被广泛发布。其中，通过文字和图像的组合达到讽刺效果的推文不在少数。在多模态语境中，讽刺不再是一种纯粹的语言现象，并且由于社交媒体短文本的性质，文本的信息并不总是充分的，反义关系更多地通过跨模态的方式表现出来。因此，仅从文本分析的角度判断多模态信息中的讽刺是不够的。

发明内容

基于此，本发明提供一种多模态讽刺识别方法、装置、设备以及存储介质，基于图像、文本双模态数据，针对各模态内容分层次地进行全局特征以及语义特征提取分析，基于获得的全局特征，采用跨模态交互以及同模态交互的方式，获得跨模态相似度分数以及同模态相似度分数，利用提取的全局特征、语义特征、跨模态相似度分数以及同模态相似度分数进行协同识别，充分的利用模态间信息进行讽刺识别，提高讽刺识别的准确性。

其具有降低噪声、提高多模态讽刺识别精度的优点。该技术方法如下：

第一方面，本申请实施例提供了一种多模态讽刺识别方法，包括以下步骤：

获得待测文档数据以及预设的讽刺识别模型，其中，所述待测文档数据包括待测句子以及待测句子对应的待测图像，所述讽刺识别模型包括全局特征提取模块、跨模态交互模块、同模态交互模块、语义特征提取模块以及讽刺识别模块；

将所述待测文档数据输入至所述全局特征提取模块中进行特征提取，获得所述待测句子对应的文本全局特征表示以及待测图像对应的图像全局特征表示；

将所述文本全局特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行相似度水平评估，获得跨模态相似度分数；

构建所述文本全局特征表示对应的第一邻接矩阵以及图像全局特征表示对应的第二邻接矩阵，将所述第一邻接矩阵以及第二邻接矩阵输入至所述同模态交互模块中进行相似度水平评估，获得同模态相似度分数；

将所述文本全局特征表示以及图像全局特征表示输入至所述语义特征提取模块中进行语义特征提取，获得所述待测句子对应的语义特征表示、待测图像对应的语义特征表示；

将所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数以及同模态相似度分数输入至所述讽刺识别模块中进行讽刺识别，获得所述待测文档数据的讽刺识别结果。

第二方面，本申请实施例提供了一种多模态讽刺识别装置，包括：

数据获取模块，用于获得待测文档数据以及预设的讽刺识别模型，其中，所述待测文档数据包括待测句子以及待测句子对应的待测图像，所述讽刺识别模型包括全局特征提取模块、跨模态交互模块、同模态交互模块、语义特征提取模块以及讽刺识别模块；

全局特征提取模块，用于将所述待测文档数据输入至所述全局特征提取模块中进行特征提取，获得所述待测句子对应的文本全局特征表示以及待测图像对应的图像全局特征表示；

跨模态相似度分数计算模块，用于将所述文本全局特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行相似度水平评估，获得跨模态相似度分数；

同模态相似度分数计算模块，用于构建所述文本全局特征表示对应的第一邻接矩阵以及图像全局特征表示对应的第二邻接矩阵，将所述第一邻接矩阵以及第二邻接矩阵输入至所述同模态交互模块中进行相似度水平评估，获得同模态相似度分数；

语义特征提取模块，用于将所述文本全局特征表示以及图像全局特征表示输入至所述语义特征提取模块中进行语义特征提取，获得所述待测句子对应的语义特征表示、待测图像对应的语义特征表示；

讽刺识别模块，用于将所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数以及同模态相似度分数输入至所述讽刺识别模块中进行讽刺识别，获得所述待测文档数据的讽刺识别结果。

第三方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时实现如第一方面所述的多模态讽刺识别方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的多模态讽刺识别方法的步骤。

在本实施例中，提供一种多模态讽刺识别方法、装置、设备以及存储介质，基于图像、文本双模态数据，针对各模态内容分层次地进行全局特征以及语义特征提取分析，基于获得的全局特征，采用跨模态交互以及同模态交互的方式，获得跨模态相似度分数以及同模态相似度分数，利用提取的全局特征、语义特征、跨模态相似度分数以及同模态相似度分数进行协同识别，充分的利用模态间信息进行讽刺识别，提高讽刺识别的准确性。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本申请一个实施例提供的多模态讽刺识别方法的流程示意图；

图2为本申请一个实施例提供的多模态讽刺识别方法中S2的流程示意图；

图3为本申请一个实施例提供的多模态讽刺识别方法中S3的流程示意图；

图4为本申请一个实施例提供的多模态讽刺识别方法中S4的流程示意图；

图5为本申请另一个实施例提供的多模态讽刺识别方法中S4的流程示意图；

图6为本申请一个实施例提供的多模态讽刺识别方法中S5的流程示意图；

图7为本申请一个实施例提供的多模态讽刺识别方法中S6的流程示意图；

图8为本申请又一个实施例提供的多模态讽刺识别方法中S7的流程示意图；

图9为本申请一个实施例提供的多模态讽刺识别装置的结构示意图；

图10为本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述目标实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本申请一个实施例提供的多模态讽刺识别方法的流程示意图，包括如下步骤：

S1：获得待测文档数据以及预设的讽刺识别模型。

本申请的多模态讽刺识别方法的执行主体为多模态讽刺识别方法的识别设备（以下简称识别设备）。

在一个可选的实施例中，识别设备可以是一台计算机设备，可以是服务器，或多台计算机设备联合而成的服务器机群。

识别设备获得待测文档数据，在一个可选的实施例中，所述待测文档数据源自于社交媒体，其中，社交媒体是互联网上基于用户关系的内容生产和交换平台，主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。文档数据包括了社交媒体上的用户分享的意见、见解、经验和观点等等。

具体地，识别设备可以与所述社交媒体进行连接，获取社交媒体上发布的文档数据，作为待测文档数据，其中，所述待测文档数据包括待测句子以及待测句子对应的待测图像，所述待测句子包括若干个单词，如下所示：

式中，s为待测句子的句子序列，为第i个单词的词向量。

识别设备获取预设的讽刺识别模型，其中，所述讽刺识别模型包括全局特征提取模块、跨模态交互模块、同模态交互模块、语义特征提取模块以及讽刺识别模块。

S2：将所述待测文档数据输入至所述全局特征提取模块中进行特征提取，获得所述待测句子对应的文本全局特征表示以及待测图像对应的图像全局特征表示。

在本实施例中，识别设备将所述待测文档数据输入至所述全局特征提取模块中进行特征提取，获得所述待测句子对应的文本全局特征表示以及待测图像对应的图像全局特征表示，其中，所述文本全局特征表示包括若干个单词的状态向量，图像全局特征表示包括若干个图像子区域的状态向量。

所述全局特征提取模块包括词嵌入模块、目标检测模块以及维度变换模块；请参阅图2，图2为本申请一个实施例提供的多模态讽刺识别方法中S2的流程示意图，包括步骤S21~S23，具体如下：

S21：将所述待测句子输入至所述词嵌入模块中进行编码处理，获得所述待测句子的初始文本特征表示。

所述词嵌入模块采用BERT（Bidirectional Encoder Representation fromTransformers）词嵌入模型，用于将待测句子中若干个单词的向量转换为相应的状态向量。

在本实施例中，识别设备将所述待测句子输入至所述词嵌入模块中进行编码处理，获得所述待测句子的初始文本特征表示。

具体地，识别设备将所述待测句子输入至BERT词嵌入模型中，将待测句子中的每个单词映射到低维向量空间中，经过查询预训练好的BERT矩阵，获得BERT词嵌入模型输出的所述待测句子的若干个单词的隐藏层向量，并进行编码处理，获得所述初始文本特征表示，其中，所述初始文本特征表示为：

式中，X为所述初始文本特征表示，为第i个单词的隐藏层向量，/>为第n-1个单词的隐藏层向量。

式中，T为所述初始文本特征表示，为第i个单词的隐藏层向量，/>为第n-1个单词的隐藏层向量，n为单词总数。

S22：将所述待测图像划分为若干个图像子区域，将若干个所述图像子区域输入至所述目标检测模块进行目标检测，获得所述待测图像的初始图像特征表示。

所述目标检测模块采用Swin Transformer模型，用于多目标检测，能确定图片中与实体有关的预定义对象。

在本实施例中，识别设备将所述待测图像划分为若干个图像子区域，将若干个所述图像子区域输入至所述目标检测模块进行目标检测，获得所述待测图像的初始图像特征表示，其中，所述初始图像特征表示为：

式中，O为所述初始图像特征表示，为第j个图像子区域的检测向量，/>为第m-1个图像子区域的检测向量，m为图像子区域总数。

S23：将所述初始文本特征表示以及初始图像特征表示输入至所述维度变换模块中进行维度变换获得所述文本全局特征表示以及图像全局特征表示。

所述维度变换模块采用MLP（Multilayer Perceptron）多层感知机模型，是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。

在本实施例中，识别设备根据所述初始文本特征表示以及初始图像特征表示，使用两个参数不同的多层感知机模型将所述初始文本特征表示和初始图像特征表示映射到相同的维度空间，进行维度变换，获得所述文本全局特征表示以及图像全局特征表示，其中，所述文本全局特征表示为：

式中，T为所述文本全局特征表示，为第i个单词的状态向量，/>为第n-1个单词的状态向量。

所述图像全局特征表示为：

式中，I为所述图像全局特征表示，为第j个图像子区域的状态向量，/>为第m-1个图像子区域的状态向量。

S3：将所述文本全局特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行相似度水平评估，获得跨模态相似度分数。

在本实施例中，识别设备将所述文本全局特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行相似度水平评估，获得跨模态相似度分数。

请参阅图3，图3为本申请一个实施例提供的多模态讽刺识别方法中S3的流程示意图，包括步骤S31~S32，具体如下：

S31：采用多头交叉注意力机制，根据所述文本全局特征表示、图像全局特征表示以及预设的跨模态对齐算法，获得视觉模态对齐后的文本全局特征表示。

所述跨模态对齐算法为：

式中，为第i个交叉注意力的输出，softmax（）为归一化函数，T为所述文本全局特征表示，/>为第i个交叉注意力的第一权重参数，I为所述图像全局特征表示，/>为第i个交叉注意力的第二权重参数，/>为第i个交叉注意力的第三权重参数，d为维度参数，h为交叉注意力的头数，/>为转置符号，/>为所述视觉模态对齐后的文本全局特征表示，为归一化函数，/>为维度变换函数，/>为第h个交叉注意力的输出。

在本实施例中，识别设备采用多头交叉注意力机制，根据所述文本全局特征表示、图像全局特征表示以及预设的跨模态对齐算法，获得视觉模态对齐后的文本全局特征表示，实现了文本全局特征表示与图像全局特征表示的图文对齐，以提高相似度分数的计算的精准性，从而提高讽刺识别的准确性。

S32：根据所述视觉模态对齐后的文本全局特征表示、图像全局特征表示以及预设的跨模态相似度分数计算算法，获得所述跨模态相似度分数。

所述跨模态相似度分数计算算法为：

式中，为所述跨模态相似度分数，/>为可训练的第一权重参数，/>为第一偏置参数。

由于不同的单词对讽刺识别任务会产生不同的影响，特别是名词、动词和相邻词等通常对理解讽刺话语具有重要意义，在本实施例中，识别设备根据所述视觉模态对齐后的文本全局特征表示、图像全局特征表示以及预设的跨模态相似度分数计算算法，获得所述跨模态相似度分数。

S4：构建所述文本全局特征表示对应的第一邻接矩阵以及图像全局特征表示对应的第二邻接矩阵，将所述第一邻接矩阵以及第二邻接矩阵输入至所述同模态交互模块中进行相似度水平评估，获得同模态相似度分数。

在本实施例中，识别设备根据所述文本全局特征表示以及图像全局特征表示，分别构造文本全局特征表示对应的文本图，以及图像全局特征表示对应的视觉图，其中，构建步骤包括节点构造以及边构造。具体地，对于节点构造，识别设备根据所述文本全局特征表示中若干个单词的状态向量，构建所述文本图的若干个文本节点，每个文本节点对应于所述文本全局特征表示中的一个单词的状态向量；

识别设备根据图像全局特征表示中若干个图像子区域的状态向量，构建所述视觉图的若干个视觉节点，每个视觉节点对应于所述图像全局特征表示中的一个图像子区域的状态向量。

对于边构造，识别设备根据若干个文本节点以及图像节点，采用相同模态的节点通过模态内边两两连接，以及不同模态的节点通过模态间边进行连接的方式，构建所述文本图的边集合，以及视觉图的边集合。

识别设备将所述文本图以及视觉图进行转化，获得所述文本图对应的第一邻接矩阵，以及所述视觉图对应的第二邻接矩阵。

识别设备将所述第一邻接矩阵以及第二邻接矩阵输入至所述同模态交互模块中进行相似度水平评估，获得同模态相似度分数。

所述同模态交互模块包括多层图注意力网络GAT。请参阅图4，图4为本申请一个实施例提供的多模态讽刺识别方法中S4的流程示意图，包括步骤S41~S42，具体如下：

S41：分别将所述第一邻接矩阵以及第二邻接矩阵作为所述多层图注意力网络的首层输入数据，根据预设的图卷积算法，获得所述多层图注意力网络的各层的特征向量。

所述图卷积算法为：

式中，为所述多层图注意力网络的第l层的第i个节点与第j个邻居节点之间的注意力得分，/>为激活函数，/>为所述多层图注意力网络的第l层的可学习参数的偏置，/>为所述多层图注意力网络的第l层的权重参数，/>为所述多层图注意力网络的第l层的第i个节点的特征向量，j，k表示邻居节点，/>以及/>分别为所述多层图注意力网络的第l层的第j、k个邻居节点的特征向量，k表示邻居节点，/>为第i个节点的邻居节点集合，/>为所述多层图注意力网络的第l层的第i个节点与自身之间的注意力得分。

在本实施例中，识别设备分别将所述第一邻接矩阵以及第二邻接矩阵作为所述多层图注意力网络的首层输入数据，根据预设的图卷积算法，获得所述多层图注意力网络的各层的特征向量，其中，所述特征向量包括所述第一邻接矩阵对应的第一特征向量，以及所述第二邻接矩阵对应的第二特征向量。

GAT利用带掩码的自注意力层（masked self-attentional layers），能够学习节点间的相对重要程度。通过采用GAT对第一邻接矩阵以及第二邻接矩阵进行注意力提取，能够学习到文本和视觉模态内更深层次的信息，从而提高讽刺识别的准确性。

S42：将所述多层图注意力网络的各层的，所述第一邻接矩阵对应的第一特征向量进行组合，获得所述待测句子对应的文本模态嵌入表示，将所述多层图注意力网络的各层的，所述第二邻接矩阵对应的第二特征向量进行组合，获得所述待测图像对应的图像模态嵌入表示，根据所述文本模态嵌入表示、图像模态嵌入表示以及预设的同模态相似度分数计算算法，获得所述同模态相似度分数。

在本实施例中，识别设备将所述多层图注意力网络的各层的，所述第一邻接矩阵对应的第一特征向量进行组合，获得所述待测句子对应的文本模态嵌入表示，将所述多层图注意力网络的各层的，所述第二邻接矩阵对应的第二特征向量进行组合，获得所述待测图像对应的图像模态嵌入表示。

识别设备根据所述文本模态嵌入表示、图像模态嵌入表示以及预设的同模态相似度分数计算算法，获得所述同模态相似度分数，其中，所述同模态相似度分数计算算法为：

式中，为所述同模态相似度分数，/>为所述文本模态嵌入表示，/>为所述图像模态嵌入表示，/>为可训练的第二权重参数，/>为第二偏置参数。

请参阅图5，图5为本申请另一个实施例提供的多模态讽刺识别方法中S4的流程示意图，包括步骤S43，所述步骤S43在步骤S42之前，具体如下：

S43：根据所述文本全局特征表示、文本模态嵌入表示、视觉模态对齐后的文本全局特征表示以及预设的优化算法，获得优化后的所述文本模态嵌入表示。

考虑到可能由于待测句子中缺少足够的单词或解析器的错误的状况，导致识别设备无法构建可靠的文本图，在本实施例中，识别设备根据所述文本全局特征表示、文本模态嵌入表示、视觉模态对齐后的文本全局特征表示以及预设的优化算法，获得优化后的所述文本模态嵌入表示，以提高讽刺识别的精准性，其中，所述优化算法为：

式中，为优化后的所述文本模态嵌入表示，/>为可训练的第三权重参数，/>为第三偏置参数。

S5：将所述文本全局特征表示以及图像全局特征表示输入至所述语义特征提取模块中进行语义特征提取，获得所述待测句子对应的语义特征表示、待测图像对应的语义特征表示。

在本实施例中，识别设备将所述文本全局特征表示以及图像全局特征表示输入至所述语义特征提取模块中进行语义特征提取，获得所述待测句子对应的语义特征表示、待测图像对应的语义特征表示，实现了对待测句子以及待测图像内部的语义信息进行捕获，结合语义信息进行讽刺识别，提高讽刺识别的精准性。

请参阅图6，图6为本申请一个实施例提供的多模态讽刺识别方法中S5的流程示意图，包括步骤S51~S52，具体如下：

S51：根据所述文本全局特征表示以及预设的第一语义特征提取算法，获得所述待测句子对应的语义特征表示。

所述第一语义特征提取算法为：

式中，A为所述文本全局特征表示对应的注意力矩阵，为可训练的第四权重参数，/>为可训练的第五权重参数，/>为可训练的第六权重参数，K为多头自注意力的头数，F为所述待测句子对应的语义特征表示，GCN（）为图卷积函数。

在本实施例中，识别设备根据所述文本全局特征表示以及预设的第一语义特征提取算法，获得所述待测句子对应的语义特征表示。通过多头自注意力机制，获得所述文本全局特征表示对应的注意力矩阵A，将所述注意力矩阵A以及文本全局特征表示输入至预设的图卷积神经网络（GCN）进行语义信息提取，获得所述待测句子对应的语义特征表示。

S52：根据所述图像全局特征表示以及预设的第二语义特征提取算法，获得所述待测图像对应的语义特征表示。

所述第二语义特征提取算法为：

式中，为所述待测图像对应的语义特征表示，/>为可训练的第七权重参数，/>为第四偏置参数。

在本实施例中，识别设备根据所述图像全局特征表示以及预设的第二语义特征提取算法，获得所述待测图像对应的语义特征表示。

S6：将所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数以及同模态相似度分数输入至所述讽刺识别模块中进行讽刺识别，获得所述待测文档数据的讽刺识别结果。

在本实施例中，识别设备将所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数以及同模态相似度分数输入至所述讽刺识别模块中进行讽刺识别，获得所述待测文档数据的讽刺识别结果。

请参阅图7，图7为本申请一个实施例提供的多模态讽刺识别方法中S6的流程示意图，包括步骤S61~S62，具体如下：

S61：根据所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数、同模态相似度分数以及预设的讽刺表示计算算法，获得所述待测文档数据的讽刺表示。

所述讽刺表示计算算法为：

式中，y为所述讽刺表示，为element-wise向量积符号。

在本实施例中，识别设备根据所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数、同模态相似度分数以及预设的讽刺表示计算算法，获得所述待测文档数据的讽刺表示。

S62：根据所述待测文档数据的讽刺表示以及预设的预测讽刺概率分布向量计算算法，获得所述待测文档数据的预测讽刺概率分布向量，作为所述讽刺识别结果。

所述预测讽刺概率分布向量计算算法为：

式中，为所述预测讽刺概率分布向量，/>为可训练的第八权重参数，/>为第五偏置参数。

在本实施例中，识别设备根据所述待测文档数据的讽刺表示以及预设的预测讽刺概率分布向量计算算法，获得所述待测文档数据的预测讽刺概率分布向量，作为所述讽刺识别结果。

在本申请又一个实施例提供的多模态讽刺识别方法中，还包括步骤S7：训练所述讽刺识别模型，所述步骤S7在S2之前，请参阅图8，图8为本申请又一个实施例提供的多模态讽刺识别方法中S7的流程示意图，包括步骤S71~S77，具体如下：

S71：获得若干组训练文档数据、句子标注信息集以及标签数据。

在本实施例中，识别设备获得若干组训练文档数据、句子标注信息集以及标签数据，其中，所述训练文档数据包括训练句子以及训练句子对应的训练图像，所述句子标注信息集包括各个所述训练句子的标注信息，所述标签数据包括各个所述训练文档数据的真实讽刺概率分布向量。

S72：构建若干个批次的训练文档数据集。

在本实施例中，识别设备基于所述若干组训练文档数据，采用对比学习方法，构建若干个批次的训练文档数据集，其中，所述训练文档数据集包括若干个正例训练文档数据以及若干个负例训练文档数据，所述正例训练文档数据包括属于同一组训练文档数据的训练句子以及训练图像，所述负例训练文档数据包括不属于同一组训练文档数据的训练句子以及训练图像。

S73：将所述训练文档数据集输入至待训练的讽刺识别模型，获得所述训练文档数据集的若干个正例训练文档数据对应的文本全局特征表示、图像全局特征表示，以及若干个所述负例训练文档数据对应的文本全局特征表示、图像全局特征表示，根据预设的第一损失函数，获得第一损失值。

在本实施例中，识别设备将所述训练文档数据集输入至待训练的讽刺识别模型，获得所述训练文档数据集的正例训练文档数据对应的文本全局特征表示、图像全局特征表示，以及若干个所述负例训练文档数据对应的文本全局特征表示、图像全局特征表示，具体实施例可参照步骤S21~S23，在此不再赘述。

识别设备根据所述训练文档数据集的正例训练文档数据对应的文本全局特征表示、图像全局特征表示，以及若干个所述负例训练文档数据对应的文本全局特征表示、图像全局特征表示，以及预设的第一损失函数，获得第一损失值，其中，所述第一损失函数为：

式中，为当前批次的第i个正例训练文档数据的图像到文本对比损失值，为当前批次的第i个正例训练文档数据的图像全局特征表示，/>为当前批次的第i个正例训练文档数据的文本全局特征表示，N为当前批次的负例训练文档数据的数目，/>为当前批次的第j个负例训练文档数据的文本全局特征表示，/>为当前批次的第i个正例训练文档数据的文本到图像对比损失值，/>为当前批次的第j个负例训练文档数据的图像全局特征表示，sim（）为余弦相似度函数，τ为温度系数，/>为第一损失值，M为批次的数目，/>为第一超参数。

通过对比学习来优化文本全局特征表示T和图像全局特征表示I，更好地实现文本全局特征表示与图像全局特征表示的对齐，减少语义鸿沟，提高了相似度分数计算的精准性，从而提高讽刺识别的准确性。

S74：根据所述句子标注信息集以及训练文档数据集，构建若干个批次的训练句子集。

在本实施例中，识别设备根据所述句子标注信息集以及训练文档数据集，构建若干个批次的训练句子集，其中，所述训练句子集包括若干个正例训练句子组以及若干个负例训练句子组，所述正例训练句子组包括相同的标注信息的训练句子，所述负例训练句子组包括不同的标注信息的训练句子。

S75：获得所述训练句子对应的文本全局特征表示，根据若干个批次的所述训练句子集的若干个正例训练句子组中的训练句子的文本全局特征表示，若干个负例训练句子组中的训练句子的文本全局特征表示以及预设的第二损失函数，获得第二损失值。

所述第二损失函数为：

式中，为第二损失值，/>为当前批次的第i个正例训练句子组中的目标训练句子对应的文本全局特征表示，/>为当前批次的同一个正例训练句子组中，与目标训练句子相同的标注信息的训练句子对应的文本全局特征表示，/>为当前批次的第j个负例训练句子组中，与目标训练句子不同的标注信息的训练句子对应的文本全局特征表示，M为批次的数目，O为当前批次的负例训练句子组的数目。

在本实施例中，识别设备获得所述训练句子对应的文本全局特征表示，根据若干个批次的所述训练句子集的若干个正例训练句子组中的训练句子的文本全局特征表示，若干个负例训练句子组中的训练句子的文本全局特征表示以及预设的第二损失函数，获得第二损失值。运用有监督的对比学习，使得语义上接近的训练句子在空间上拉近同时将语义不同的训练句子推开，从而提高文本全局特征表示提取的精准性，提高讽刺识别的准确性。

S76：将各个所述训练文档数据输入至所述待训练的讽刺识别模型，获得各个所述训练文档数据的预测讽刺概率分布向量，根据各个所述训练文档数据的预测讽刺概率分布向量、真实讽刺概率分布向量以及预设的第三损失函数，获得第三损失值。

所述第三损失函数为：

式中，为第三损失值，P为所述训练文档数据的数目，/>为第i个训练文档数据的真实讽刺概率分布向量，/>为第i个训练文档数据的预测讽刺概率分布向量。

在本实施例中，识别设备将各个所述训练文档数据输入至所述待训练的讽刺识别模型，获得各个所述训练文档数据的预测讽刺概率分布向量，根据各个所述训练文档数据的预测讽刺概率分布向量、真实讽刺概率分布向量以及预设的第三损失函数，获得第三损失值。

S77：根据所述第一损失值、第二损失值以及第三损失值，对所述待训练的讽刺识别模型进行训练，获得目标讽刺识别模型。

在本实施例中，识别设备根据所述第一损失值、第二损失值以及第三损失值，对所述待训练的讽刺识别模型进行训练，获得目标讽刺识别模型。

请参阅图9，图9为本申请一个实施例提供的多模态讽刺识别装置的结构示意图，该装置可以通过软件、硬件或两者的结合实现多模态讽刺识别方法的全部或一部分，该装置9包括：

数据获取模块91，用于获得待测文档数据以及预设的讽刺识别模型，其中，所述待测文档数据包括待测句子以及待测句子对应的待测图像，所述待测句子包括若干个单词，所述讽刺识别模型包括全局特征提取模块、跨模态交互模块、同模态交互模块、语义特征提取模块以及讽刺识别模块；

全局特征提取模块92，用于将所述待测文档数据输入至所述全局特征提取模块中进行特征提取，获得所述待测句子对应的文本全局特征表示以及待测图像对应的图像全局特征表示；

跨模态相似度分数计算模块93，用于将所述文本全局特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行相似度水平评估，获得跨模态相似度分数；

同模态相似度分数计算模块94，用于构建所述文本全局特征表示对应的第一邻接矩阵以及图像全局特征表示对应的第二邻接矩阵，将所述第一邻接矩阵以及第二邻接矩阵输入至所述同模态交互模块中进行相似度水平评估，获得同模态相似度分数；

语义特征提取模块95，用于将所述文本全局特征表示以及图像全局特征表示输入至所述语义特征提取模块中进行语义特征提取，获得所述待测句子对应的语义特征表示、待测图像对应的语义特征表示；

讽刺识别模块96，用于将所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数以及同模态相似度分数输入至所述讽刺识别模块中进行实体识别，获得所述待测文档数据的讽刺识别结果。

在本申请的实施例中，通过数据获取模块，获得待测文档数据以及预设的讽刺识别模型，其中，所述待测文档数据包括待测句子以及待测句子对应的待测图像，所述待测句子包括若干个单词，所述讽刺识别模型包括全局特征提取模块、跨模态交互模块、同模态交互模块、语义特征提取模块以及讽刺识别模块；通过全局特征提取模块，将所述待测文档数据输入至所述全局特征提取模块中进行特征提取，获得所述待测句子对应的文本全局特征表示以及待测图像对应的图像全局特征表示；通过跨模态相似度分数计算模块，将所述文本全局特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行相似度水平评估，获得跨模态相似度分数；通过同模态相似度分数计算模块，构建所述文本全局特征表示对应的第一邻接矩阵以及图像全局特征表示对应的第二邻接矩阵，将所述第一邻接矩阵以及第二邻接矩阵输入至所述同模态交互模块中进行相似度水平评估，获得同模态相似度分数；通过语义特征提取模块，将所述文本全局特征表示以及图像全局特征表示输入至所述语义特征提取模块中进行语义特征提取，获得所述待测句子对应的语义特征表示、待测图像对应的语义特征表示；通过讽刺识别模块，将所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数以及同模态相似度分数输入至所述讽刺识别模块中进行实体识别，获得所述待测文档数据的讽刺识别结果。

基于图像、文本双模态数据，针对各模态内容分层次地进行全局特征以及语义特征提取分析，基于获得的全局特征，采用跨模态交互以及同模态交互的方式，获得跨模态相似度分数以及同模态相似度分数，利用提取的全局特征、语义特征、跨模态相似度分数以及同模态相似度分数进行协同识别，充分的利用模态间信息进行讽刺识别，提高讽刺识别的准确性。

请参考图10，图10为本申请一个实施例提供的计算机设备的结构示意图，计算机设备10包括：处理器101、存储器102以及存储在存储器102上并可在处理器101上运行的计算机程序103；计算机设备可以存储有多条指令，指令适用于由处理器101加载并执行上述图1至图8所述实施例的方法步骤，具体执行过程可以参见图1至图8所述实施例的具体说明，在此不进行赘述。

其中，处理器101可以包括一个或多个处理核心。处理器101利用各种接口和线路连接服务器内的各个部分，通过运行或执行存储在存储器102内的指令、程序、代码集或指令集，以及调用存储器102内的数据，执行多模态讽刺识别装置9的各种功能和处理数据，可选的，处理器101可以采用数字信号处理（Digital Signal Processing,DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programble LogicArray，PLA）中的至少一个硬件形式来实现。处理器101可集成中央处理器101（CentralProcessing Unit，CPU）、图像处理器101（Graphics Processing Unit，GPU）和调制解调器等中的一个或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器101中，单独通过一块芯片进行实现。

其中，存储器102可以包括随机存储器102（Random Access Memory，RAM），也可以包括只读存储器102（Read-Only Memory）。可选的，该存储器102包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器102可用于存储指令、程序、代码、代码集或指令集。存储器102可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令（比如触控指令等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器102可选的还可以是至少一个位于远离前述处理器101的存储装置。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条指令，所述指令适用于由处理器加载并执行所示实施例一至实施例三的方法步骤，具体执行过程可以参见所示图1至图8所述实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的目标应用和设计约束条件。专业技术人员可以对每个目标的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种多模态讽刺识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多模态讽刺识别方法，其特征在于，所述全局特征提取模块包括词嵌入模块、目标检测模块以及维度变换模块；

将所述待测文档数据输入至所述全局特征提取模块中进行特征提取，获得所述待测句子对应的文本全局特征表示以及待测图像对应的图像全局特征表示，包括步骤：

将所述待测句子输入至所述词嵌入模块中进行编码处理，获得所述待测句子的初始文本特征表示；

将所述待测图像划分为若干个图像子区域，将若干个所述图像子区域输入至所述目标检测模块进行目标检测，获得所述待测图像的初始图像特征表示；

将所述初始文本特征表示以及初始图像特征表示输入至所述维度变换模块中进行维度变换，获得所述文本全局特征表示以及图像全局特征表示。

3.根据权利要求2所述的多模态讽刺识别方法，其特征在于，所述将所述文本全局特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行相似度水平评估，获得跨模态相似度分数，包括步骤：

采用多头交叉注意力机制，根据所述文本全局特征表示、图像全局特征表示以及预设的跨模态对齐算法，获得视觉模态对齐后的文本全局特征表示，其中，所述跨模态对齐算法为：

式中，为第i个交叉注意力的输出，softmax（）为归一化函数，T为所述文本全局特征表示，/>为第i个交叉注意力的第一权重参数，I为所述图像全局特征表示，/>为第i个交叉注意力的第二权重参数，/>为第i个交叉注意力的第三权重参数，d为维度参数，h为交叉注意力的头数，/>为转置符号，/>为所述视觉模态对齐后的文本全局特征表示，/>为归一化函数，/>为维度变换函数，/>为第h个交叉注意力的输出；

根据所述视觉模态对齐后的文本全局特征表示、图像全局特征表示以及预设的跨模态相似度分数计算算法，获得所述跨模态相似度分数，其中，所述跨模态相似度分数计算算法为：

4.根据权利要求3所述的多模态讽刺识别方法，其特征在于：所述同模态交互模块包括多层图注意力网络；

所述将所述第一邻接矩阵以及第二邻接矩阵输入至所述同模态交互模块中进行相似度水平评估，获得同模态相似度分数，包括步骤：

分别将所述第一邻接矩阵以及第二邻接矩阵作为所述多层图注意力网络的首层输入数据，根据预设的图卷积算法，获得所述多层图注意力网络的各层的特征向量，其中，所述特征向量包括所述第一邻接矩阵对应的第一特征向量，以及所述第二邻接矩阵对应的第二特征向量，所述图卷积算法为：

式中，为所述多层图注意力网络的第l层的第i个节点与第j个邻居节点之间的注意力得分，/>为激活函数，/>为所述多层图注意力网络的第l层的可学习参数的偏置，/>为所述多层图注意力网络的第l层的权重参数，/>为所述多层图注意力网络的第l层的第i个节点的特征向量，j，k表示邻居节点，/>以及/>分别为所述多层图注意力网络的第l层的第j、k个邻居节点的特征向量，k表示邻居节点，/>为第i个节点的邻居节点集合，/>为所述多层图注意力网络的第l层的第i个节点与自身之间的注意力得分；

将所述多层图注意力网络的各层的，所述第一邻接矩阵对应的第一特征向量进行组合，获得所述待测句子对应的文本模态嵌入表示，将所述多层图注意力网络的各层的，所述第二邻接矩阵对应的第二特征向量进行组合，获得所述待测图像对应的图像模态嵌入表示，根据所述文本模态嵌入表示、图像模态嵌入表示以及预设的同模态相似度分数计算算法，获得所述同模态相似度分数，其中，所述同模态相似度分数计算算法为：

5.根据权利要求4所述的多模态讽刺识别方法，其特征在于，所述根据所述文本模态嵌入表示、图像模态嵌入表示以及预设的同模态相似度分数计算算法，获得所述同模态相似度分数之前，包括步骤：

根据所述文本全局特征表示、文本模态嵌入表示、视觉模态对齐后的文本全局特征表示以及预设的优化算法，获得优化后的所述文本模态嵌入表示，其中，所述优化算法为：

6.根据权利要求4所述的多模态讽刺识别方法，其特征在于，所述将所述文本全局特征表示以及图像全局特征表示输入至所述语义特征提取模块中进行语义特征提取，获得所述待测句子对应的语义特征表示、待测图像对应的语义特征表示，包括步骤：

根据所述文本全局特征表示以及预设的第一语义特征提取算法，获得所述待测句子对应的语义特征表示，其中，所述第一语义特征提取算法为：

式中，A为所述文本全局特征表示对应的注意力矩阵，为可训练的第四权重参数，为可训练的第五权重参数，/>为可训练的第六权重参数，K为多头自注意力的头数，F为所述待测句子对应的语义特征表示，GCN（）为图卷积函数；

根据所述图像全局特征表示以及预设的第二语义特征提取算法，获得所述待测图像对应的语义特征表示，其中，所述第二语义特征提取算法为：

7.根据权利要求6所述的多模态讽刺识别方法，其特征在于，所述将所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数以及同模态相似度分数输入至所述讽刺识别模块中进行讽刺识别，获得所述待测文档数据的讽刺识别结果，包括步骤：

根据所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数、同模态相似度分数以及预设的讽刺表示计算算法，获得所述待测文档数据的讽刺表示，其中，所述讽刺表示计算算法为：

式中，y为所述讽刺表示，为element-wise向量积符号；

根据所述待测文档数据的讽刺表示以及预设的预测讽刺概率分布向量计算算法，获得所述待测文档数据的预测讽刺概率分布向量，作为所述讽刺识别结果，其中，所述预测讽刺概率分布向量计算算法为：

8.根据权利要求7所述的多模态讽刺识别方法，其特征在于，还包括步骤：训练所述讽刺识别模型，所述训练所述讽刺识别模型，包括步骤：

获得若干组训练文档数据、句子标注信息集以及标签数据，其中，所述训练文档数据包括训练句子以及训练句子对应的训练图像，所述句子标注信息集包括各个所述训练句子的标注信息，所述标签数据包括各个所述训练文档数据的真实讽刺概率分布向量；

构建若干个批次的训练文档数据集，其中，所述训练文档数据集包括若干个正例训练文档数据以及若干个负例训练文档数据，所述正例训练文档数据包括属于同一组训练文档数据的训练句子以及训练图像，所述负例训练文档数据包括不属于同一组训练文档数据的训练句子以及训练图像；

将所述训练文档数据集输入至待训练的讽刺识别模型，获得所述训练文档数据集的若干个正例训练文档数据对应的文本全局特征表示、图像全局特征表示，以及若干个所述负例训练文档数据对应的文本全局特征表示、图像全局特征表示，根据预设的第一损失函数，获得第一损失值，其中，所述第一损失函数为：

式中，为当前批次的第i个正例训练文档数据的图像到文本对比损失值，/>为当前批次的第i个正例训练文档数据的图像全局特征表示，/>为当前批次的第i个正例训练文档数据的文本全局特征表示，N为当前批次的负例训练文档数据的数目，/>为当前批次的第j个负例训练文档数据的文本全局特征表示，/>为当前批次的第i个正例训练文档数据的文本到图像对比损失值，/>为当前批次的第j个负例训练文档数据的图像全局特征表示，sim（）为余弦相似度函数，τ为温度系数，/>为第一损失值，M为批次的数目，/>为第一超参数；

根据所述句子标注信息集以及训练文档数据集，构建若干个批次的训练句子集，其中，所述训练句子集包括若干个正例训练句子组以及若干个负例训练句子组，所述正例训练句子组包括相同的标注信息的训练句子，所述负例训练句子组包括不同的标注信息的训练句子；

获得所述训练句子对应的文本全局特征表示，根据若干个批次的所述训练句子集的若干个正例训练句子组中的训练句子的文本全局特征表示，若干个负例训练句子组中的训练句子的文本全局特征表示以及预设的第二损失函数，获得第二损失值，其中，所述第二损失函数为：

式中，为第二损失值，/>为当前批次的第i个正例训练句子组中的目标训练句子对应的文本全局特征表示，/>为当前批次的同一个正例训练句子组中，与目标训练句子相同的标注信息的训练句子对应的文本全局特征表示，/>为当前批次的第j个负例训练句子组中，与目标训练句子不同的标注信息的训练句子对应的文本全局特征表示，M为批次的数目，O为当前批次的负例训练句子组的数目；

将各个所述训练文档数据输入至所述待训练的讽刺识别模型，获得各个所述训练文档数据的预测讽刺概率分布向量，根据各个所述训练文档数据的预测讽刺概率分布向量、真实讽刺概率分布向量以及预设的第三损失函数，获得第三损失值，其中，所述第三损失函数为：

式中，为第三损失值，P为所述训练文档数据的数目，/>为第i个训练文档数据的真实讽刺概率分布向量，/>为第i个训练文档数据的预测讽刺概率分布向量；

根据所述第一损失值、第二损失值、第三损失值以及预设的总损失函数，对所述待训练的讽刺识别模型进行训练，获得目标讽刺识别模型，其中，所述总损失函数为：

式中，L为总损失值，为第二超参数，/>为第三超参数。

9.一种多模态讽刺识别装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的多模态讽刺识别方法的步骤。