CN113535949B - 基于图片和句子的多模态联合事件检测方法 - Google Patents
基于图片和句子的多模态联合事件检测方法 Download PDFInfo
- Publication number
- CN113535949B CN113535949B CN202110660692.2A CN202110660692A CN113535949B CN 113535949 B CN113535949 B CN 113535949B CN 202110660692 A CN202110660692 A CN 202110660692A CN 113535949 B CN113535949 B CN 113535949B
- Authority
- CN
- China
- Prior art keywords
- picture
- event
- sentence
- word
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图片和句子的多模态联合事件检测方法,同时从图片和句子中识别事件。本发明一方面利用现有的单模态数据集分别学习图片和文本事件分类器;另一方面利用已有的图片与标题对训练图片句子匹配模块,找出多模态文章中语义相似度最高的图片和句子,从而获取图片实体和单词在公共空间的特征表示。这些特征有助于图片和文本事件分类器之间共享参数,得到共享事件分类器。最后,利用少量的多模态标注数据对模型进行测试,利用共享事件分类器分别获取图片和句子描述的事件及其类型。本发明从图片和句子中识别事件,利用视觉特征和文本特征的互补性,不仅提高了单模态事件分类的性能,而且可以发现文章中更完整的事件信息。
Description
技术领域
本发明设计事件检测方法,具体来讲是一种基于图片和句子的多模态联合事件检测的方法,属于多模态信息抽取领域。
背景技术
随着电脑、手机等现代科技逐渐走入寻常百姓家,参与社交平台互动、浏览新闻网站等行为已成为人们获取网络信息的主要途径,这也极大简化了网民获取信息的流程。随之而来的是消费信息的网络用户不断增加,据中国互联网络信息中心发布的第47次《中国互联网络发展状况统计报告》1显示,截至2020年12月,中国网民人数达到98900万,相较于去年3月份,网民人数增加了8540万人。因此,每天都会有大量新的信息涌入网络,这些信息通常以文本、图片、音频等多种形式在大众之间进行传播。在面对如此海量且杂乱无章的网络信息时,信息抽取技术能对数据进行处理,并将结构化的信息展示给用户,从而准确地为用户提供有价值、感兴趣的信息。
信息抽取是为了从图片、文本或音频中抽取出结构化的信息,进行存储和展示,同时也是构建知识图谱的重要技术手段,通常由命名实体识别、关系抽取和事件抽取三个子任务构成。以文本为例,命名实体识别任务是为了发现描述地缘政治、设施、人名的实体。关系抽取任务的目的是确定两个实体之间的二元语义关系。而事件抽取任务包括事件检测(找出句中的触发词,并确定它们的事件类型)和论元识别(为每个参与事件的实体分配论元角色)两个环节。相比关系抽取,事件抽取任务能够同时抽取多实体间的相互关系,从而获得更加细粒度的结构化信息。因此,事件抽取任务更具挑战性。
事件检测是事件抽取任务的重要环节,该环节可以识别出标志着事件发生的图片动作和文本触发词,并将其分类为预定义的事件类型。在网络舆情分析、情报收集等领域有着广泛的应用。
发明内容
本发明主要针对于图片或句子等单模态数据提供的信息往往不足以进行正确的事件分类,通常需要借助于其他模态的特征信息。提出了一种基于图片和句子的多模态联合事件检测方法,同时从图片和句子中识别事件。提出的一种基于图片和句子的多模态联合事件检测的方法。
基于图片和句子的多模态联合事件检测的方法,按照如下步骤进行:
步骤1、文本事件检测模块首先对文本特征进行编码,获取句中单词的特征表示序列对于第j个候选触发词,然后将其对应的特征向量输入文本事件分类器SoftmaxT,获取第j个候选触发词触发的事件类型概率分布,其中,文本事件分类器的损失函数定义为LT;
步骤2、对图片特征进行编码,获取图片中描述动作以及多个实体的特征表示序列然后将图片实体特征向量输入图片事件分类器SoftmaxI,获取当前图片描述的事件类型概率分布,其中,图片事件分类器的损失函数定义为LI;
步骤3、图片句子匹配模块首先利用跨模态注意力机制(Cross-Modal AttentionMechanism,CMAM)计算每一对图片实体与单词之间的关联权值。根据第j个单词,CMAM能够定位重要的图片实体并分配权重,通过加权平均聚合与单词相关的视觉特征,获取单词在图片模态的特征表示另一方面,对于图片中的第i个实体,首先在待匹配的句子中搜索相关的单词,并为它们分配权重,通过加权平均捕获与图片实体相关的语义信息,从而获取图片实体在文本模态的特征表示然后将每个句子与其在图片模态中的特征表示序列的欧氏距离DT←I以及图片中所有实体与其在文本模态中的特征表示序列的欧氏距离DI←T进行相加,作为图片和句子的相似度。其中,图片句子匹配模块的损失函数定义为Lm;
步骤4、通过联合优化文本事件检测模块、图片事件检测模块以及图片句子匹配模块,从而获取共享事件分类器;
步骤5、在测试阶段,对于多模态文本,首先利用图片句子匹配模块找出相似度最高的图片和句子,并获取第i个图片实体在文本模态的特征表示以及第j个单词在图片模态的特征表示然后利用门控注意力机制为图片实体特征向量和分配权重,通过加权平均获取第i个图片实体对应的多模态特征向量,接着利用共享事件分类器获取图片描述的事件类型。同样,利用另外一个门控注意力机制为和分配权重,通过加权平均获取第j个单词的多模态特征表示,接着利用共享事件分类器获取第j个单词触发的事件类型;
进一步的,步骤1具体实现如下:
1-1.在KBP 2017英文数据集上训练文本事件分类器,首先对标注数据进行预处理,获取实体类型、事件触发词、实体关系,其中,一共5种实体类型,18种事件类型,然后利用Stanford CoreNLP对原始文本进行分句、分词,获取词性和句子的语法依存结构。并分别创建词性向量表、实体类型向量表,其中每一种向量表都有类型“空”对应的初始化向量。
1-2.查询预训练的glove词向量矩阵,获取句子中每个词的词向量wemd,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量wentity,每个词的实值向量x={wemd,wpos,wentity},因此句子实值向量序列表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度。
1-3.将句子实值向量序列W={x1,x2,...,xn-1,xn}作为Bi-LSTMs的输入,获取句子的隐含状态向量序列构建基于句子语法依存结构的图卷积网络,接着将HL输入GCNs中,获取句子的卷积向量序列最后利用注意力计算序列HT中的每个元素对候选触发词的影响权重,从而获取句子的编码序列同时将CT作为单词序列在公共空间的特征表示序列。
其中,WT和bT作为文本事件分类器SoftmaxT的权重矩阵和偏置项,表示句子S中第j个候选触发词wj触发的事件类型概率分布,而typew,j表示wj触发的事件类型。同时,文本事件分类器的损失函数定义为:
进一步的,步骤2具体实现如下:
2-1.在imSitu图片数据集上训练图片事件分类器,其中,一共定义了504个动词记录图片描述的动作,以及11538种实体类型描述图片中出现的实体。首先利用VGG16v去提取图片中的动作特征,并利用多层感知机MLPv将动词特征转换成动词向量同时,利用另外一个VGG16o提取图片中的实体集合O={o1,o2,...,om-1,om},然后通过多层感知机MLPo将所有实体转换成它们对应的名词向量序列然后用网状结构表示每张图片,根据其描述的动作和实体构建网状结构。其中,图片描述的动作作为网状结构的中心节点,同时将实体与动作节点进行连接。接着采用图卷积网络对图片特征对应的单词向量序列进行编码,从而使得动作节点卷积计算后的向量保存实体特征信息。其中,编码后的图片实体特征向量序列为其中,用来表示图片动作节点的卷积向量(为了方便计算,本发明将图片动作视为一个图片实体),同样,HI被视图片动作以及实体集合在公共空间的特征表示序列。
typeI=arg max(P(yI|I)) (5)
其中,WI和bI作为图片事件分类器SoftmaxI的权重矩阵和偏置项,P(yI|I)表示图片I触发的事件类型概率分布,而typeI表示图片I中描述的事件类型。同时,图片事件分类器的损失函数定义为:
其中,N代表着imSitu中图片标注事件样例的个数,yI作为图片Ii标注的事件类型,Ii表示图片数据集中第i个图片样例。
进一步的,步骤3具体实现如下:
3-1.图片句子匹配模块是为了从包含多张图片和多个句子的多模态文档中找出语义相似度最高的图片和句子。首先利用跨模态注意力机制计算每一对图片实体与单词之间的关联权值,学***均聚合与单词相关的视觉特征,获取单词在图片模态的特征表示。另一方面,对于图片中的每个实体,首先在待匹配的句子中搜索相关的单词,并为它们分配权重,通过加权平均捕获与图片实体相关的语义信息,从而获取图片实体在文本模态的特征表示。给出图片I对应的实体特征向量序列以及句子S的单词特征向量序列首先利用跨模态注意力机制获取单词和图片实体在其他模态的特征表示。
3-2.为了获取基于单词的图片实体特征表示,首先利用跨模态注意力机制计算图片中第i个实体与第j单词的关联程度Scoreij:
然后,通过加权平均捕获基于图片第i个实体的单词特征表示:
同样,图片中所有实体在文本模态的表示为:
3-4.为了获取图片与句子的语义相似度,采用弱一致性的对齐方式,将图片和句子的相似度定义为图片中所有实体与其在文本模态中的特征表示序列的欧氏距离,以及每个句子与其在图片模态中的特征表示序列的欧氏距离之和。
首先,计算每个句子与其在图片模态中的特征表示序列的欧氏距离:
然后图片中所有实体与其在文本模态中的特征表示序列的欧氏距离为:
因此,图片I和句子S的语义相似度定义为<I,S>=DT←I+DI←T。最后,为了获取语义相似度最高的图片句子对<I,S>,然后使用triplet loss优化图片句子匹配模块。对于每一对正确匹配的图片和句子,本发明额外抽取一个与句子S不匹配的图片I-,以及一个与图片I不匹配的句子S-,构成两个否定对<I,S->和<I-,S>。最后图片句子匹配模块的损失函数定义为:
Lm=max(0,1+<I,S>-<I,S->)+max(0,1+<I,S>-<I-,S>) (16)
进一步的,步骤4具体实现如下:
4-1.为了获取共享权重和偏置项的事件分类器,本发明将单词和图片动作在公共空间的特征表示分别作为文本和图片事件分类器的输入,最后通过最小化目标函数L=LT+LI+Lm,对模型进行联合优化。使文本事件分类器SoftmaxT和图片事件分类器SoftmaxI能够共享权重矩阵和偏置项。从而,在测试阶段,利用共享事件分类器同时预测图片和句子描述的事件类型。
进一步的,步骤5具体实现如下:
5-1.利用M2E2多模态标注数据对训练好的模型进行测试,对于包含k个句子S1,S2...,Sk-1,Sk和l张图片I1,I2...,Il-1,Il的文章,首先利用图片句子匹配模块找出语义相似度最高的图片句子对<I,S>,同时获取基于图片实体的单词特征表示序列HI←T、以及基于单词的图片实体特征表示序列HT←I。
本发明有益效果如下:
针对现有技术的不足,提出了一种基于图片和句子的多模态联合事件检测方法,同时从图片和句子中识别事件。但是,由于缺少足够的多模态标注数据,本发明采用联合优化的方式,一方面利用现有的单模态数据集(imSitu图片数据集和KBP 2017英文数据集)分别学习图片和文本事件分类器,另一方面,利用已有的图片与标题对训练图片句子匹配模块,找出多模态文章中语义相似度最高的图片和句子,从而获取图片实体和单词在公共空间的特征表示。这些特征有助于图片和文本事件分类器之间共享参数,得到共享事件分类器。最后,利用少量的多模态标注数据(M2E2多模态数据集)对模型进行测试,利用共享事件分类器分别获取图片和句子描述的事件及其类型。本发明从图片和句子中识别事件,利用视觉特征和文本特征的互补性,不仅提高了单模态事件分类的性能,而且可以发现文章中更完整的事件信息。
附图说明
图1是本发明的整体实施流程图。
图2是本发明模型训练阶段的结构图
具体实施方式
附图非限制性地公开了本发明所涉及优选实例的流程示意图;以下将结合附图详细地说明本发明的技术方案。
事件检测是事件抽取任务的重要环节,该环节可以识别出标志着事件发生的图片动作和文本触发词,并将其分类为预定义的事件类型。在网络舆情分析、情报收集等领域有着广泛的应用。随着传播网络信息的载体越来越多样化,研究人员开始关注不同领域的事件检测任务,即如何自动的从非结构化的图片、文本等不同的信息载体中获取感兴趣的事件。并且,同一个事件可能以不同的形式出现在图片和句子中。但现有的模型要么只针对基于句子或图片的单模态事件检测,要么只考虑图片特征对文本事件检测的影响,忽略了文本语境对图片事件分类的影响。针对上述问题,本发明提出了基于图片和句子的多模态联合事件检测方法。
如图1-2所示,一种基于图片和句子的多模态联合事件检测的方法,按照如下步骤进行:
步骤1、文本事件检测模块首先对文本特征进行编码,获取句中单词的特征表示序列对于第j个候选触发词,然后将其对应的特征向量输入文本事件分类器SoftmaxT,获取第j个候选触发词触发的事件类型概率分布,其中,文本事件分类器的损失函数定义为LT;
步骤2、对图片特征进行编码,获取图片中描述动作以及多个实体的特征表示序列然后将图片实体特征向量输入图片事件分类器SoftmaxI,获取当前图片描述的事件类型概率分布,其中,图片事件分类器的损失函数定义为LI;
步骤3、图片句子匹配模块首先利用跨模态注意力机制(Cross-ModalAttentionMechanism,CMAM)计算每一对图片实体与单词之间的关联权值。根据第j个单词,CMAM能够定位重要的图片实体并分配权重,通过加权平均聚合与单词相关的视觉特征,获取单词在图片模态的特征表示另一方面,对于图片中的第i个实体,首先在待匹配的句子中搜索相关的单词,并为它们分配权重,通过加权平均捕获与图片实体相关的语义信息,从而获取图片实体在文本模态的特征表示然后将每个句子与其在图片模态中的特征表示序列的欧氏距离DT←I以及图片中所有实体与其在文本模态中的特征表示序列的欧氏距离DI←T进行相加,作为图片和句子的相似度。其中,图片句子匹配模块的损失函数定义为Lm;
步骤4、通过联合优化文本事件检测模块、图片事件检测模块以及图片句子匹配模块,从而获取共享事件分类器;
步骤5、在测试阶段,对于多模态文本,首先利用图片句子匹配模块找出相似度最高的图片和句子,并获取第i个图片实体在文本模态的特征表示以及第j个单词在图片模态的特征表示然后利用门控注意力机制为图片实体特征向量和分配权重,通过加权平均获取第i个图片实体对应的多模态特征向量,接着利用共享事件分类器获取图片描述的事件类型。同样,利用另外一个门控注意力机制为和分配权重,通过加权平均获取第j个单词的多模态特征表示,接着利用共享事件分类器获取第j个单词触发的事件类型;
进一步的,步骤1具体实现如下:
1-1.在KBP 2017英文数据集上训练文本事件分类器,首先对标注数据进行预处理,获取实体类型、事件触发词、实体关系,其中,一共5种实体类型,18种事件类型,然后利用Stanford CoreNLP对原始文本进行分句、分词,获取词性和句子的语法依存结构。并分别创建词性向量表、实体类型向量表,其中每一种向量表都有类型“空”对应的初始化向量。
1-2.查询预训练的glove词向量矩阵,获取句子中每个词的词向量wemd,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量wentity,每个词的实值向量x={wemd,wpos,wentity},因此句子实值向量序列表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度。
1-3.将句子实值向量序列W={x1,x2,...,xn-1,xn}作为Bi-LSTMs的输入,获取句子的隐含状态向量序列构建基于句子语法依存结构的图卷积网络,接着将HL输入GCNs中,获取句子的卷积向量序列最后利用注意力计算序列HT中的每个元素对候选触发词的影响权重,从而获取句子的编码序列同时将CT作为单词序列在公共空间的特征表示序列。
其中,WT和bT作为文本事件分类器SoftmaxT的权重矩阵和偏置项,表示句子S中第j个候选触发词wj触发的事件类型概率分布,而typew,j表示wj触发的事件类型。同时,文本事件分类器的损失函数定义为:
进一步的,步骤2具体实现如下:
2-1.在imSitu图片数据集上训练图片事件分类器,其中,一共定义了504个动词记录图片描述的动作,以及11538种实体类型描述图片中出现的实体。首先利用VGG16v去提取图片中的动作特征,并利用多层感知机MLPv将动词特征转换成动词向量同时,利用另外一个VGG16o提取图片中的实体集合O={o1,o2,...,om-1,om},然后通过多层感知机MLPo将所有实体转换成它们对应的名词向量序列然后用网状结构表示每张图片,根据其描述的动作和实体构建网状结构。其中,图片描述的动作作为网状结构的中心节点,同时将实体与动作节点进行连接。接着采用图卷积网络对图片特征对应的单词向量序列进行编码,从而使得动作节点卷积计算后的向量保存实体特征信息。其中,编码后的图片实体特征向量序列为其中,用来表示图片动作节点的卷积向量(为了方便计算,本发明将图片动作视为一个图片实体),同样,HI被视图片动作以及实体集合在公共空间的特征表示序列。
typeI=argmax(P(yI|I))
其中,WI和bI作为图片事件分类器SoftmaxI的权重矩阵和偏置项,P(yI|I)表示图片I触发的事件类型概率分布,而typeI表示图片I中描述的事件类型。同时,图片事件分类器的损失函数定义为:
其中,N代表着imSitu中图片标注事件样例的个数,yI作为图片Ii标注的事件类型,Ii表示图片数据集中第i个图片样例。
进一步的,步骤3具体实现如下:
3-1.图片句子匹配模块是为了从包含多张图片和多个句子的多模态文档中找出语义相似度最高的图片和句子。首先利用跨模态注意力机制计算每一对图片实体与单词之间的关联权值,学***均聚合与单词相关的视觉特征,获取单词在图片模态的特征表示。另一方面,对于图片中的每个实体,首先在待匹配的句子中搜索相关的单词,并为它们分配权重,通过加权平均捕获与图片实体相关的语义信息,从而获取图片实体在文本模态的特征表示。给出图片I对应的实体特征向量序列以及句子S的单词特征向量序列首先利用跨模态注意力机制获取单词和图片实体在其他模态的特征表示。
3-2.为了获取基于单词的图片实体特征表示,首先利用跨模态注意力机制计算图片中第i个实体与第j单词的关联程度Scoreij:
3-4.为了获取图片与句子的语义相似度,采用弱一致性的对齐方式,将图片和句子的相似度定义为图片中所有实体与其在文本模态中的特征表示序列的欧氏距离,以及每个句子与其在图片模态中的特征表示序列的欧氏距离之和。
首先,计算每个句子与其在图片模态中的特征表示序列的欧氏距离:
然后图片中所有实体与其在文本模态中的特征表示序列的欧氏距离为:
因此,图片I和句子S的语义相似度定义为<I,S>=DT←I+DI←T。最后,为了获取语义相似度最高的图片句子对<I,S>,然后使用triplet loss优化图片句子匹配模块。对于每一对正确匹配的图片和句子,本发明额外抽取一个与句子S不匹配的图片I-,以及一个与图片I不匹配的句子S-,构成两个否定对<I,S->和<I-,S>。最后图片句子匹配模块的损失函数定义为:
Lm=max(0,1+<I,S>-<I,S->)+max(0,1+<I,S>-<I-,S>)
进一步的,步骤4具体实现如下:
4-1.为了获取共享权重和偏置项的事件分类器,本发明将单词和图片动作在公共空间的特征表示分别作为文本和图片事件分类器的输入,最后通过最小化目标函数L=LT+LI+Lm,对模型进行联合优化。使文本事件分类器SoftmaxT和图片事件分类器SoftmaxI能够共享权重矩阵和偏置项。从而,在测试阶段,利用共享事件分类器同时预测图片和句子描述的事件类型。
进一步的,步骤5具体实现如下:
5-1.利用M2E2多模态标注数据对训练好的模型进行测试,对于包含k个句子S1,S2...,Sk-1,Sk和l张图片I1,I2...,Il-1,Il的文章,首先利用图片句子匹配模块找出语义相似度最高的图片句子对<I,S>,同时获取基于图片实体的单词特征表示序列HI←T、以及基于单词的图片实体特征表示序列HT←I。
Claims (6)
1.基于图片和句子的多模态联合事件检测方法,其特征在于包括如下步骤:
步骤1、文本事件检测模块首先对文本特征进行编码,获取句中单词的特征向量表示序列对于第j个候选触发词,然后将其对应的候选触发词特征向量输入文本事件分类器SoftmaxT,获取第j个候选触发词触发的事件类型概率分布,其中文本事件分类器的损失函数定义为LT;
步骤2、图片事件检测模块对图片特征进行编码,获取图片中描述动作以及多个实体的图片实体特征向量表示序列然后将图片实体特征向量输入图片事件分类器SoftmaxI,获取当前图片描述的事件类型概率分布,其中图片事件分类器的损失函数定义为LI;
步骤3、图片句子匹配模块首先利用跨模态注意力机制CMAM计算每一对图片实体与单词之间的关联权值;
然后将每个待匹配句子与其在图片模态中的特征表示序列的欧氏距离DT←I,与图片中所有实体与其在文本模态中的特征表示序列的欧氏距离DI←T进行相加,作为图片和句子的相似度;其中,图片句子匹配模块的损失函数定义为Lm;
步骤4、通过联合优化文本事件检测模块、图片事件检测模块以及图片句子匹配模块,从而获取共享事件分类器;
2.根据权利要求1所述的基于图片和句子的多模态联合事件检测方法,其特征在于,步骤1具体实现如下:
1-1.在KBP 2017英文数据集上训练文本事件分类器SoftmaxT,首先对标注数据进行预处理,获取实体类型、事件触发词及其对应的事件类型;其中包含5种实体类型和18种事件类型;然后利用Stanford CoreNLP对原始文本进行分句、分词,获取词性和句子的语法依存结构;并分别创建词性向量表、实体类型向量表,其中每一种向量表都有类型“空”对应的初始化向量;
1-2.查询预训练的glove词向量矩阵,获取句子中每个词的词向量wemd,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量wentity,每个词的实值向量x={wemd,wpos,wentity},因此句子实值向量序列表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度;
1-3.将句子实值向量序列W={x1,x2,...,xn-1,xn}作为Bi-LSTMs的输入,获取句子的隐含状态向量序列构建基于句子语法依存结构的图卷积网络,接着将HL输入GCNs中,获取句子的卷积向量序列最后利用注意力计算序列HT中的每个元素对候选触发词的影响权重,从而获取句子的编码序列同时将CT作为单词序列在公共空间的特征表示序列;
其中,WT和bT作为文本事件分类器SoftmaxT的权重矩阵和偏置项,表示句子S中第j个候选触发词wj触发的事件类型概率分布,而typew,j表示wj触发的事件类型;同时,文本事件分类器的损失函数定义为:
3.根据权利要求2所述的基于图片和句子的多模态联合事件检测方法,其特征在于,步骤2具体实现如下:
2-1.在imSitu图片数据集上训练图片事件分类器,其中,一共定义了504个动词记录图片描述的动作,以及11538种实体类型描述图片中出现的实体;首先利用VGG16v去提取图片中的动作特征,并利用多层感知机MLPv将动词特征转换成动词向量同时,利用另外一个VGG16o提取图片中的实体集合O={o1,o2,...,om-1,om},然后通过多层感知机MLPo将所有实体转换成它们对应的名词向量序列然后用网状结构表示每张图片,根据其描述的动作和实体构建网状结构;其中,图片描述的动作作为网状结构的中心节点,同时将实体与动作节点进行连接;接着采用图卷积网络对图片特征对应的单词向量序列进行编码,从而使得动作节点卷积计算后的向量保存实体特征信息;其中,编码后的图片实体特征向量序列为其中,用来表示图片动作节点的卷积向量;同样,HI被视图片动作以及实体集合在公共空间的特征表示序列;
typeI=argmax(P(yI|I))
其中,WI和bI作为图片事件分类器SoftmaxI的权重矩阵和偏置项,P(yI|I)表示图片Ii触发的事件类型概率分布,而typeI表示图片I中描述的事件类型;同时,图片事件分类器的损失函数定义为:
其中,N代表着imSitu中图片标注事件样例的个数,yI作为图片Ii标注的事件类型,Ii表示图片数据集中第i个图片样例。
4.根据权利要求3所述的基于图片和句子的多模态联合事件检测方法,其特征在于,步骤3具体实现如下:
3-2.为了获取基于单词的图片实体特征表示,首先利用跨模态注意力机制计算图片中第i个实体与句子中第j单词的关联程度Scoreij:
3-4.采用弱一致性的对齐方式,将图片和句子的相似度定义为图片中所有实体与其在文本模态中的特征表示序列的欧氏距离,与每个句子与其在图片模态中的特征表示序列的欧氏距离之和;
首先,计算每个句子与其在图片模态中的特征表示序列的欧氏距离:
然后计算图片中所有实体与其在文本模态中的特征表示序列的欧氏距离为:
因此,图片I和句子S的语义相似度定义为<I,S>=DT←I+DI←T;
为了获取语义相似度<I,S>最高的图片句子对,使用tripletloss优化图片句子匹配模块;对于每一对正确匹配的图片和句子,额外抽取一个与句子S不匹配的图片I-,以及一个与图片I不匹配的句子S-,构成两个否定对<I,S->和<I-,S>;
最后图片句子匹配模块的损失函数定义为:
Lm=max(0,(1+<I,S>-<I,S->))+max(0,(1+<I,S>-<I-,S>))。
5.根据权利要求4所述的基于图片和句子的多模态联合事件检测方法,其特征在于,步骤4具体实现如下:
4-1.为了获取共享权重和偏置项的事件分类器,将单词和图片动作在公共空间的特征表示分别作为文本和图片事件分类器的输入,最后通过最小化目标函数L=LT+LI+Lm,对模型进行联合优化;使文本事件分类器SoftmaxT和图片事件分类器SoftmaxI能够共享权重矩阵和偏置项;从而,在测试阶段,利用共享事件分类器同时预测图片和句子描述的事件类型。
6.根据权利要求5所述的基于图片和句子的多模态联合事件检测方法,其特征在于,步骤5具体实现如下:
5-1.利用M2E2多模态标注数据对训练好的模型进行测试,对于包含k个句子S1,S2...,Sk-1,Sk和l张图片I1,I2...,Il-1,Il的文章,首先利用图片句子匹配模块找出语义相似度<I,S>最高的图片句子对,同时获取基于图片实体的单词特征表示序列HI←T、以及基于单词的图片实体特征表示序列HT←I;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110660692.2A CN113535949B (zh) | 2021-06-15 | 2021-06-15 | 基于图片和句子的多模态联合事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110660692.2A CN113535949B (zh) | 2021-06-15 | 2021-06-15 | 基于图片和句子的多模态联合事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535949A CN113535949A (zh) | 2021-10-22 |
CN113535949B true CN113535949B (zh) | 2022-09-13 |
Family
ID=78124947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110660692.2A Active CN113535949B (zh) | 2021-06-15 | 2021-06-15 | 基于图片和句子的多模态联合事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535949B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297473A (zh) * | 2021-11-25 | 2022-04-08 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及*** |
CN114418038A (zh) * | 2022-03-29 | 2022-04-29 | 北京道达天际科技有限公司 | 基于多模态融合的天基情报分类方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017139764A1 (en) * | 2016-02-12 | 2017-08-17 | Sri International | Zero-shot event detection using semantic embedding |
CN111259851A (zh) * | 2020-01-23 | 2020-06-09 | 清华大学 | 一种多模态事件检测方法及装置 |
CN112163416A (zh) * | 2020-10-09 | 2021-01-01 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
-
2021
- 2021-06-15 CN CN202110660692.2A patent/CN113535949B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017139764A1 (en) * | 2016-02-12 | 2017-08-17 | Sri International | Zero-shot event detection using semantic embedding |
CN111259851A (zh) * | 2020-01-23 | 2020-06-09 | 清华大学 | 一种多模态事件检测方法及装置 |
CN112163416A (zh) * | 2020-10-09 | 2021-01-01 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
Non-Patent Citations (2)
Title |
---|
Interactive learning for joint event and relation extraction;Jingli Zhang等;《Springer》;20190722;全文 * |
多媒体社会事件分析综述;钱胜胜;《计算机科学》;20210331;第48卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113535949A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763362B (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN108628828B (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
Mukhtar et al. | Urdu sentiment analysis using supervised machine learning approach | |
WO2020125445A1 (zh) | 分类模型训练方法、分类方法、设备及介质 | |
Fan et al. | Product-aware helpfulness prediction of online reviews | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110192203A (zh) | 用于多个自然语言处理(nlp)任务的联合多任务神经网络模型 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
Nasim et al. | Sentiment analysis on Urdu tweets using Markov chains | |
Ji et al. | Survey of visual sentiment prediction for social media analysis | |
CN113535949B (zh) | 基于图片和句子的多模态联合事件检测方法 | |
CN107688870A (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
Liu et al. | Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm | |
CN112131345A (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
Gandhi et al. | Multimodal sentiment analysis: review, application domains and future directions | |
Bitto et al. | Sentiment analysis from Bangladeshi food delivery startup based on user reviews using machine learning and deep learning | |
Sajeevan et al. | An enhanced approach for movie review analysis using deep learning techniques | |
CN113516094A (zh) | 一种用于为文档匹配评议专家的***以及方法 | |
Liu et al. | Social Image–Text Sentiment Classification With Cross-Modal Consistency and Knowledge Distillation | |
Abdulwahab et al. | Deep Learning Models for Paraphrases Identification | |
Braoudaki et al. | Hybrid data driven and rule based sentiment analysis on Greek text | |
Selvi et al. | Sentimental analysis of movie reviews in Tamil text | |
Ribeiro et al. | UA. PT Bioinformatics at ImageCLEF 2019: Lifelog Moment Retrieval based on Image Annotation and Natural Language Processing. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |