CN113535949B - 基于图片和句子的多模态联合事件检测方法 - Google Patents

基于图片和句子的多模态联合事件检测方法 Download PDF

Info

Publication number
CN113535949B
CN113535949B CN202110660692.2A CN202110660692A CN113535949B CN 113535949 B CN113535949 B CN 113535949B CN 202110660692 A CN202110660692 A CN 202110660692A CN 113535949 B CN113535949 B CN 113535949B
Authority
CN
China
Prior art keywords
picture
event
sentence
word
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110660692.2A
Other languages
English (en)
Other versions
CN113535949A (zh
Inventor
张旻
曹祥彪
汤景凡
姜明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110660692.2A priority Critical patent/CN113535949B/zh
Publication of CN113535949A publication Critical patent/CN113535949A/zh
Application granted granted Critical
Publication of CN113535949B publication Critical patent/CN113535949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图片和句子的多模态联合事件检测方法,同时从图片和句子中识别事件。本发明一方面利用现有的单模态数据集分别学习图片和文本事件分类器;另一方面利用已有的图片与标题对训练图片句子匹配模块,找出多模态文章中语义相似度最高的图片和句子,从而获取图片实体和单词在公共空间的特征表示。这些特征有助于图片和文本事件分类器之间共享参数,得到共享事件分类器。最后,利用少量的多模态标注数据对模型进行测试,利用共享事件分类器分别获取图片和句子描述的事件及其类型。本发明从图片和句子中识别事件,利用视觉特征和文本特征的互补性,不仅提高了单模态事件分类的性能,而且可以发现文章中更完整的事件信息。

Description

基于图片和句子的多模态联合事件检测方法
技术领域
本发明设计事件检测方法,具体来讲是一种基于图片和句子的多模态联合事件检测的方法,属于多模态信息抽取领域。
背景技术
随着电脑、手机等现代科技逐渐走入寻常百姓家,参与社交平台互动、浏览新闻网站等行为已成为人们获取网络信息的主要途径,这也极大简化了网民获取信息的流程。随之而来的是消费信息的网络用户不断增加,据中国互联网络信息中心发布的第47次《中国互联网络发展状况统计报告》1显示,截至2020年12月,中国网民人数达到98900万,相较于去年3月份,网民人数增加了8540万人。因此,每天都会有大量新的信息涌入网络,这些信息通常以文本、图片、音频等多种形式在大众之间进行传播。在面对如此海量且杂乱无章的网络信息时,信息抽取技术能对数据进行处理,并将结构化的信息展示给用户,从而准确地为用户提供有价值、感兴趣的信息。
信息抽取是为了从图片、文本或音频中抽取出结构化的信息,进行存储和展示,同时也是构建知识图谱的重要技术手段,通常由命名实体识别、关系抽取和事件抽取三个子任务构成。以文本为例,命名实体识别任务是为了发现描述地缘政治、设施、人名的实体。关系抽取任务的目的是确定两个实体之间的二元语义关系。而事件抽取任务包括事件检测(找出句中的触发词,并确定它们的事件类型)和论元识别(为每个参与事件的实体分配论元角色)两个环节。相比关系抽取,事件抽取任务能够同时抽取多实体间的相互关系,从而获得更加细粒度的结构化信息。因此,事件抽取任务更具挑战性。
事件检测是事件抽取任务的重要环节,该环节可以识别出标志着事件发生的图片动作和文本触发词,并将其分类为预定义的事件类型。在网络舆情分析、情报收集等领域有着广泛的应用。
发明内容
本发明主要针对于图片或句子等单模态数据提供的信息往往不足以进行正确的事件分类,通常需要借助于其他模态的特征信息。提出了一种基于图片和句子的多模态联合事件检测方法,同时从图片和句子中识别事件。提出的一种基于图片和句子的多模态联合事件检测的方法。
基于图片和句子的多模态联合事件检测的方法,按照如下步骤进行:
步骤1、文本事件检测模块首先对文本特征进行编码,获取句中单词的特征表示序列
Figure GDA0003769489940000021
对于第j个候选触发词,然后将其对应的特征向量
Figure GDA0003769489940000022
输入文本事件分类器SoftmaxT,获取第j个候选触发词触发的事件类型概率分布,其中,文本事件分类器的损失函数定义为LT
步骤2、对图片特征进行编码,获取图片中描述动作以及多个实体的特征表示序列
Figure GDA0003769489940000023
然后将图片实体特征向量
Figure GDA0003769489940000024
输入图片事件分类器SoftmaxI,获取当前图片描述的事件类型概率分布,其中,图片事件分类器的损失函数定义为LI
步骤3、图片句子匹配模块首先利用跨模态注意力机制(Cross-Modal AttentionMechanism,CMAM)计算每一对图片实体与单词之间的关联权值。根据第j个单词,CMAM能够定位重要的图片实体并分配权重,通过加权平均聚合与单词相关的视觉特征,获取单词在图片模态的特征表示
Figure GDA0003769489940000031
另一方面,对于图片中的第i个实体,首先在待匹配的句子中搜索相关的单词,并为它们分配权重,通过加权平均捕获与图片实体相关的语义信息,从而获取图片实体在文本模态的特征表示
Figure GDA0003769489940000032
然后将每个句子与其在图片模态中的特征表示序列的欧氏距离DT←I以及图片中所有实体与其在文本模态中的特征表示序列的欧氏距离DI←T进行相加,作为图片和句子的相似度。其中,图片句子匹配模块的损失函数定义为Lm
步骤4、通过联合优化文本事件检测模块、图片事件检测模块以及图片句子匹配模块,从而获取共享事件分类器;
步骤5、在测试阶段,对于多模态文本,首先利用图片句子匹配模块找出相似度最高的图片和句子,并获取第i个图片实体在文本模态的特征表示
Figure GDA0003769489940000033
以及第j个单词在图片模态的特征表示
Figure GDA0003769489940000034
然后利用门控注意力机制为图片实体特征向量
Figure GDA0003769489940000035
Figure GDA0003769489940000036
分配权重,通过加权平均获取第i个图片实体对应的多模态特征向量,接着利用共享事件分类器获取图片描述的事件类型。同样,利用另外一个门控注意力机制为
Figure GDA0003769489940000037
Figure GDA0003769489940000038
分配权重,通过加权平均获取第j个单词的多模态特征表示,接着利用共享事件分类器获取第j个单词触发的事件类型;
进一步的,步骤1具体实现如下:
1-1.在KBP 2017英文数据集上训练文本事件分类器,首先对标注数据进行预处理,获取实体类型、事件触发词、实体关系,其中,一共5种实体类型,18种事件类型,然后利用Stanford CoreNLP对原始文本进行分句、分词,获取词性和句子的语法依存结构。并分别创建词性向量表、实体类型向量表,其中每一种向量表都有类型“空”对应的初始化向量。
1-2.查询预训练的glove词向量矩阵,获取句子中每个词的词向量wemd,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量wentity,每个词的实值向量x={wemd,wpos,wentity},因此句子实值向量序列表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度。
1-3.将句子实值向量序列W={x1,x2,...,xn-1,xn}作为Bi-LSTMs的输入,获取句子的隐含状态向量序列
Figure GDA0003769489940000041
构建基于句子语法依存结构的图卷积网络,接着将HL输入GCNs中,获取句子的卷积向量序列
Figure GDA0003769489940000042
最后利用注意力计算序列HT中的每个元素对候选触发词的影响权重,从而获取句子的编码序列
Figure GDA0003769489940000043
同时将CT作为单词序列在公共空间的特征表示序列。
1-4.将句子中的每个单词视为候选触发词,对于第j(j≤n)个候选触发词,然后将其对应的特征向量
Figure GDA0003769489940000044
输入文本事件分类器:
Figure GDA0003769489940000045
Figure GDA0003769489940000046
其中,WT和bT作为文本事件分类器SoftmaxT的权重矩阵和偏置项,
Figure GDA0003769489940000051
表示句子S中第j个候选触发词wj触发的事件类型概率分布,而typew,j表示wj触发的事件类型。同时,文本事件分类器的损失函数定义为:
Figure GDA0003769489940000052
其中,T是KBP 2017英文数据集中标注的句子数量,
Figure GDA0003769489940000053
作为单词wj标注的事件类型,Si表示数据集中第i个句子,句子长度为n。
进一步的,步骤2具体实现如下:
2-1.在imSitu图片数据集上训练图片事件分类器,其中,一共定义了504个动词记录图片描述的动作,以及11538种实体类型描述图片中出现的实体。首先利用VGG16v去提取图片中的动作特征,并利用多层感知机MLPv将动词特征转换成动词向量
Figure GDA0003769489940000054
同时,利用另外一个VGG16o提取图片中的实体集合O={o1,o2,...,om-1,om},然后通过多层感知机MLPo将所有实体转换成它们对应的名词向量序列
Figure GDA0003769489940000055
然后用网状结构表示每张图片,根据其描述的动作和实体构建网状结构。其中,图片描述的动作作为网状结构的中心节点,同时将实体与动作节点进行连接。接着采用图卷积网络对图片特征对应的单词向量序列进行编码,从而使得动作节点卷积计算后的向量保存实体特征信息。其中,编码后的图片实体特征向量序列为
Figure GDA0003769489940000056
其中,
Figure GDA0003769489940000057
用来表示图片动作节点的卷积向量(为了方便计算,本发明将图片动作视为一个图片实体),同样,HI被视图片动作以及实体集合在公共空间的特征表示序列。
2-2.将图片I中动作卷积向量
Figure GDA0003769489940000061
作为图片事件分类器的输入,获取图片描述事件类型的概率分布为:
Figure GDA0003769489940000062
typeI=arg max(P(yI|I)) (5)
其中,WI和bI作为图片事件分类器SoftmaxI的权重矩阵和偏置项,P(yI|I)表示图片I触发的事件类型概率分布,而typeI表示图片I中描述的事件类型。同时,图片事件分类器的损失函数定义为:
Figure GDA0003769489940000063
其中,N代表着imSitu中图片标注事件样例的个数,yI作为图片Ii标注的事件类型,Ii表示图片数据集中第i个图片样例。
进一步的,步骤3具体实现如下:
3-1.图片句子匹配模块是为了从包含多张图片和多个句子的多模态文档中找出语义相似度最高的图片和句子。首先利用跨模态注意力机制计算每一对图片实体与单词之间的关联权值,学***均聚合与单词相关的视觉特征,获取单词在图片模态的特征表示。另一方面,对于图片中的每个实体,首先在待匹配的句子中搜索相关的单词,并为它们分配权重,通过加权平均捕获与图片实体相关的语义信息,从而获取图片实体在文本模态的特征表示。给出图片I对应的实体特征向量序列
Figure GDA0003769489940000064
以及句子S的单词特征向量序列
Figure GDA0003769489940000065
首先利用跨模态注意力机制获取单词和图片实体在其他模态的特征表示。
3-2.为了获取基于单词的图片实体特征表示,首先利用跨模态注意力机制计算图片中第i个实体与第j单词的关联程度Scoreij
Figure GDA0003769489940000071
Figure GDA0003769489940000072
其中,cos
Figure GDA0003769489940000073
表示图片中第i个实体的特征向量
Figure GDA0003769489940000074
与第j单词的特征能量
Figure GDA0003769489940000075
的余弦相似度,值域为[0,1]。然后根据Scoreij计算第i个图片实体对第j单词的影响权重Aij为:
Figure GDA0003769489940000076
最后,通过加权平均的方式聚合基于第j个单词的图片实体特征表示
Figure GDA0003769489940000077
因此,本发明用
Figure GDA0003769489940000078
表示整个句子在图片模态的特征表示序列。
3-3.为了获得基于图片实体的单词特征表示,采用和获取向量
Figure GDA0003769489940000079
相同的计算过程,对于图片中第i个实体,根据第j个单词与当前图片实体的相关性,为第j个单词分配注意力权重:
Figure GDA00037694899400000710
Figure GDA00037694899400000711
然后,通过加权平均捕获基于图片第i个实体的单词特征表示:
Figure GDA00037694899400000712
同样,图片中所有实体在文本模态的表示为:
Figure GDA0003769489940000081
3-4.为了获取图片与句子的语义相似度,采用弱一致性的对齐方式,将图片和句子的相似度定义为图片中所有实体与其在文本模态中的特征表示序列的欧氏距离,以及每个句子与其在图片模态中的特征表示序列的欧氏距离之和。
首先,计算每个句子与其在图片模态中的特征表示序列的欧氏距离:
Figure GDA0003769489940000082
然后图片中所有实体与其在文本模态中的特征表示序列的欧氏距离为:
Figure GDA0003769489940000083
因此,图片I和句子S的语义相似度定义为<I,S>=DT←I+DI←T。最后,为了获取语义相似度最高的图片句子对<I,S>,然后使用triplet loss优化图片句子匹配模块。对于每一对正确匹配的图片和句子,本发明额外抽取一个与句子S不匹配的图片I-,以及一个与图片I不匹配的句子S-,构成两个否定对<I,S->和<I-,S>。最后图片句子匹配模块的损失函数定义为:
Lm=max(0,1+<I,S>-<I,S->)+max(0,1+<I,S>-<I-,S>) (16)
进一步的,步骤4具体实现如下:
4-1.为了获取共享权重和偏置项的事件分类器,本发明将单词和图片动作在公共空间的特征表示分别作为文本和图片事件分类器的输入,最后通过最小化目标函数L=LT+LI+Lm,对模型进行联合优化。使文本事件分类器SoftmaxT和图片事件分类器SoftmaxI能够共享权重矩阵和偏置项。从而,在测试阶段,利用共享事件分类器同时预测图片和句子描述的事件类型。
进一步的,步骤5具体实现如下:
5-1.利用M2E2多模态标注数据对训练好的模型进行测试,对于包含k个句子S1,S2...,Sk-1,Sk和l张图片I1,I2...,Il-1,Il的文章,首先利用图片句子匹配模块找出语义相似度最高的图片句子对<I,S>,同时获取基于图片实体的单词特征表示序列HI←T、以及基于单词的图片实体特征表示序列HT←I
5-2.在特征融合时,对于单词wj,本发明认为
Figure GDA0003769489940000091
Figure GDA0003769489940000092
对触发词wj的事件类型预测贡献不同程度的特征信息。因此,本发明利用门控注意力机制为不同的特征信息分配权重,
Figure GDA0003769489940000093
的权值
Figure GDA0003769489940000094
计算方式如下:
Figure GDA0003769489940000095
Figure GDA0003769489940000096
其中,
Figure GDA0003769489940000097
表示第j个单词特征向量
Figure GDA0003769489940000098
与其在图片模态中的特征表示
Figure GDA0003769489940000099
的余弦相似度,值域为[-1,1]。然后,通过加权平均的方式融合与wj相关的图片特征信息,获取wj对应的多模态特征表示向量
Figure GDA00037694899400000910
Figure GDA00037694899400000911
其中,
Figure GDA00037694899400000912
的结果通常为0至1间的数值,控制着
Figure GDA00037694899400000913
对融合后的多模态特征
Figure GDA00037694899400000914
的影响程度。当
Figure GDA00037694899400000915
较小时,融合后的特征保存更多的文本信息,而
Figure GDA0003769489940000101
较大时,说明图片特征对单词wj在事件分类过程中贡献更多的信息。
最后将候选触发词wj对应的多模态特征
Figure GDA0003769489940000102
输入共享事件分类器,从而获取单词wj触发的事件类型arg
Figure GDA0003769489940000103
5-3.同样,对于图片I,利用另外一个门控注意力控制着单词特征对图片事件分类的影响。首先利用门控注意力机制为图片动作对应的原始特征
Figure GDA0003769489940000104
与其在文本模态的特征表示
Figure GDA0003769489940000105
分配权重
Figure GDA0003769489940000106
Figure GDA0003769489940000107
其中,
Figure GDA0003769489940000108
的计算方式为:
Figure GDA0003769489940000109
然后,通过加权平均融合第i个图片实体的原始特征
Figure GDA00037694899400001010
及其在文本模态中的特征表示
Figure GDA00037694899400001011
获取更新后的多模态特征向量
Figure GDA00037694899400001012
最后利用共享事件分类器对
Figure GDA00037694899400001013
进行分类,获取图片描述动作所属的事件类型argmax(P(yI|I))。
本发明有益效果如下:
针对现有技术的不足,提出了一种基于图片和句子的多模态联合事件检测方法,同时从图片和句子中识别事件。但是,由于缺少足够的多模态标注数据,本发明采用联合优化的方式,一方面利用现有的单模态数据集(imSitu图片数据集和KBP 2017英文数据集)分别学习图片和文本事件分类器,另一方面,利用已有的图片与标题对训练图片句子匹配模块,找出多模态文章中语义相似度最高的图片和句子,从而获取图片实体和单词在公共空间的特征表示。这些特征有助于图片和文本事件分类器之间共享参数,得到共享事件分类器。最后,利用少量的多模态标注数据(M2E2多模态数据集)对模型进行测试,利用共享事件分类器分别获取图片和句子描述的事件及其类型。本发明从图片和句子中识别事件,利用视觉特征和文本特征的互补性,不仅提高了单模态事件分类的性能,而且可以发现文章中更完整的事件信息。
附图说明
图1是本发明的整体实施流程图。
图2是本发明模型训练阶段的结构图
具体实施方式
附图非限制性地公开了本发明所涉及优选实例的流程示意图;以下将结合附图详细地说明本发明的技术方案。
事件检测是事件抽取任务的重要环节,该环节可以识别出标志着事件发生的图片动作和文本触发词,并将其分类为预定义的事件类型。在网络舆情分析、情报收集等领域有着广泛的应用。随着传播网络信息的载体越来越多样化,研究人员开始关注不同领域的事件检测任务,即如何自动的从非结构化的图片、文本等不同的信息载体中获取感兴趣的事件。并且,同一个事件可能以不同的形式出现在图片和句子中。但现有的模型要么只针对基于句子或图片的单模态事件检测,要么只考虑图片特征对文本事件检测的影响,忽略了文本语境对图片事件分类的影响。针对上述问题,本发明提出了基于图片和句子的多模态联合事件检测方法。
如图1-2所示,一种基于图片和句子的多模态联合事件检测的方法,按照如下步骤进行:
步骤1、文本事件检测模块首先对文本特征进行编码,获取句中单词的特征表示序列
Figure GDA0003769489940000121
对于第j个候选触发词,然后将其对应的特征向量
Figure GDA0003769489940000122
输入文本事件分类器SoftmaxT,获取第j个候选触发词触发的事件类型概率分布,其中,文本事件分类器的损失函数定义为LT
步骤2、对图片特征进行编码,获取图片中描述动作以及多个实体的特征表示序列
Figure GDA0003769489940000123
然后将图片实体特征向量
Figure GDA0003769489940000124
输入图片事件分类器SoftmaxI,获取当前图片描述的事件类型概率分布,其中,图片事件分类器的损失函数定义为LI
步骤3、图片句子匹配模块首先利用跨模态注意力机制(Cross-ModalAttentionMechanism,CMAM)计算每一对图片实体与单词之间的关联权值。根据第j个单词,CMAM能够定位重要的图片实体并分配权重,通过加权平均聚合与单词相关的视觉特征,获取单词在图片模态的特征表示
Figure GDA0003769489940000125
另一方面,对于图片中的第i个实体,首先在待匹配的句子中搜索相关的单词,并为它们分配权重,通过加权平均捕获与图片实体相关的语义信息,从而获取图片实体在文本模态的特征表示
Figure GDA0003769489940000126
然后将每个句子与其在图片模态中的特征表示序列的欧氏距离DT←I以及图片中所有实体与其在文本模态中的特征表示序列的欧氏距离DI←T进行相加,作为图片和句子的相似度。其中,图片句子匹配模块的损失函数定义为Lm
步骤4、通过联合优化文本事件检测模块、图片事件检测模块以及图片句子匹配模块,从而获取共享事件分类器;
步骤5、在测试阶段,对于多模态文本,首先利用图片句子匹配模块找出相似度最高的图片和句子,并获取第i个图片实体在文本模态的特征表示
Figure GDA0003769489940000131
以及第j个单词在图片模态的特征表示
Figure GDA0003769489940000132
然后利用门控注意力机制为图片实体特征向量
Figure GDA0003769489940000133
Figure GDA0003769489940000134
分配权重,通过加权平均获取第i个图片实体对应的多模态特征向量,接着利用共享事件分类器获取图片描述的事件类型。同样,利用另外一个门控注意力机制为
Figure GDA0003769489940000135
Figure GDA0003769489940000136
分配权重,通过加权平均获取第j个单词的多模态特征表示,接着利用共享事件分类器获取第j个单词触发的事件类型;
进一步的,步骤1具体实现如下:
1-1.在KBP 2017英文数据集上训练文本事件分类器,首先对标注数据进行预处理,获取实体类型、事件触发词、实体关系,其中,一共5种实体类型,18种事件类型,然后利用Stanford CoreNLP对原始文本进行分句、分词,获取词性和句子的语法依存结构。并分别创建词性向量表、实体类型向量表,其中每一种向量表都有类型“空”对应的初始化向量。
1-2.查询预训练的glove词向量矩阵,获取句子中每个词的词向量wemd,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量wentity,每个词的实值向量x={wemd,wpos,wentity},因此句子实值向量序列表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度。
1-3.将句子实值向量序列W={x1,x2,...,xn-1,xn}作为Bi-LSTMs的输入,获取句子的隐含状态向量序列
Figure GDA0003769489940000137
构建基于句子语法依存结构的图卷积网络,接着将HL输入GCNs中,获取句子的卷积向量序列
Figure GDA0003769489940000141
最后利用注意力计算序列HT中的每个元素对候选触发词的影响权重,从而获取句子的编码序列
Figure GDA0003769489940000142
同时将CT作为单词序列在公共空间的特征表示序列。
1-4.将句子中的每个单词视为候选触发词,对于第j(j≤n)个候选触发词,然后将其对应的特征向量
Figure GDA0003769489940000143
输入文本事件分类器:
Figure GDA0003769489940000144
Figure GDA0003769489940000145
其中,WT和bT作为文本事件分类器SoftmaxT的权重矩阵和偏置项,
Figure GDA0003769489940000146
表示句子S中第j个候选触发词wj触发的事件类型概率分布,而typew,j表示wj触发的事件类型。同时,文本事件分类器的损失函数定义为:
Figure GDA0003769489940000147
其中,T是KBP 2017英文数据集中标注的句子数量,
Figure GDA0003769489940000148
作为单词wj标注的事件类型,Si表示数据集中第i个句子,句子长度为n。
进一步的,步骤2具体实现如下:
2-1.在imSitu图片数据集上训练图片事件分类器,其中,一共定义了504个动词记录图片描述的动作,以及11538种实体类型描述图片中出现的实体。首先利用VGG16v去提取图片中的动作特征,并利用多层感知机MLPv将动词特征转换成动词向量
Figure GDA0003769489940000149
同时,利用另外一个VGG16o提取图片中的实体集合O={o1,o2,...,om-1,om},然后通过多层感知机MLPo将所有实体转换成它们对应的名词向量序列
Figure GDA0003769489940000151
然后用网状结构表示每张图片,根据其描述的动作和实体构建网状结构。其中,图片描述的动作作为网状结构的中心节点,同时将实体与动作节点进行连接。接着采用图卷积网络对图片特征对应的单词向量序列进行编码,从而使得动作节点卷积计算后的向量保存实体特征信息。其中,编码后的图片实体特征向量序列为
Figure GDA0003769489940000152
其中,
Figure GDA0003769489940000153
用来表示图片动作节点的卷积向量(为了方便计算,本发明将图片动作视为一个图片实体),同样,HI被视图片动作以及实体集合在公共空间的特征表示序列。
2-2.将图片I中动作卷积向量
Figure GDA0003769489940000154
作为图片事件分类器的输入,获取图片描述事件类型的概率分布为:
Figure GDA0003769489940000155
typeI=argmax(P(yI|I))
其中,WI和bI作为图片事件分类器SoftmaxI的权重矩阵和偏置项,P(yI|I)表示图片I触发的事件类型概率分布,而typeI表示图片I中描述的事件类型。同时,图片事件分类器的损失函数定义为:
Figure GDA0003769489940000156
其中,N代表着imSitu中图片标注事件样例的个数,yI作为图片Ii标注的事件类型,Ii表示图片数据集中第i个图片样例。
进一步的,步骤3具体实现如下:
3-1.图片句子匹配模块是为了从包含多张图片和多个句子的多模态文档中找出语义相似度最高的图片和句子。首先利用跨模态注意力机制计算每一对图片实体与单词之间的关联权值,学***均聚合与单词相关的视觉特征,获取单词在图片模态的特征表示。另一方面,对于图片中的每个实体,首先在待匹配的句子中搜索相关的单词,并为它们分配权重,通过加权平均捕获与图片实体相关的语义信息,从而获取图片实体在文本模态的特征表示。给出图片I对应的实体特征向量序列
Figure GDA0003769489940000161
以及句子S的单词特征向量序列
Figure GDA0003769489940000162
首先利用跨模态注意力机制获取单词和图片实体在其他模态的特征表示。
3-2.为了获取基于单词的图片实体特征表示,首先利用跨模态注意力机制计算图片中第i个实体与第j单词的关联程度Scoreij
Figure GDA0003769489940000163
Figure GDA0003769489940000164
其中,cos
Figure GDA0003769489940000165
表示图片中第i个实体的特征向量
Figure GDA0003769489940000166
与第j单词的特征能量
Figure GDA0003769489940000167
的余弦相似度,值域为[0,1]。然后根据Scoreij计算第i个图片实体对第j单词的影响权重Aij为:
Figure GDA0003769489940000168
最后,通过加权平均的方式聚合基于第j个单词的图片实体特征表示
Figure GDA0003769489940000169
因此,本发明用
Figure GDA00037694899400001610
表示整个句子在图片模态的特征表示序列。
3-3.为了获得基于图片实体的单词特征表示,采用和获取向量
Figure GDA0003769489940000171
相同的计算过程,对于图片中第i个实体,根据第j个单词与当前图片实体的相关性,为第j个单词分配注意力权重:
Figure GDA0003769489940000172
Figure GDA0003769489940000173
然后,通过加权平均捕获基于图片第i个实体的单词特征表示
Figure GDA0003769489940000174
同样,图片中所有实体在文本模态的表示为:
Figure GDA0003769489940000175
3-4.为了获取图片与句子的语义相似度,采用弱一致性的对齐方式,将图片和句子的相似度定义为图片中所有实体与其在文本模态中的特征表示序列的欧氏距离,以及每个句子与其在图片模态中的特征表示序列的欧氏距离之和。
首先,计算每个句子与其在图片模态中的特征表示序列的欧氏距离:
Figure GDA0003769489940000176
然后图片中所有实体与其在文本模态中的特征表示序列的欧氏距离为:
Figure GDA0003769489940000177
因此,图片I和句子S的语义相似度定义为<I,S>=DT←I+DI←T。最后,为了获取语义相似度最高的图片句子对<I,S>,然后使用triplet loss优化图片句子匹配模块。对于每一对正确匹配的图片和句子,本发明额外抽取一个与句子S不匹配的图片I-,以及一个与图片I不匹配的句子S-,构成两个否定对<I,S->和<I-,S>。最后图片句子匹配模块的损失函数定义为:
Lm=max(0,1+<I,S>-<I,S->)+max(0,1+<I,S>-<I-,S>)
进一步的,步骤4具体实现如下:
4-1.为了获取共享权重和偏置项的事件分类器,本发明将单词和图片动作在公共空间的特征表示分别作为文本和图片事件分类器的输入,最后通过最小化目标函数L=LT+LI+Lm,对模型进行联合优化。使文本事件分类器SoftmaxT和图片事件分类器SoftmaxI能够共享权重矩阵和偏置项。从而,在测试阶段,利用共享事件分类器同时预测图片和句子描述的事件类型。
进一步的,步骤5具体实现如下:
5-1.利用M2E2多模态标注数据对训练好的模型进行测试,对于包含k个句子S1,S2...,Sk-1,Sk和l张图片I1,I2...,Il-1,Il的文章,首先利用图片句子匹配模块找出语义相似度最高的图片句子对<I,S>,同时获取基于图片实体的单词特征表示序列HI←T、以及基于单词的图片实体特征表示序列HT←I
5-2.在特征融合时,对于单词wj,本发明认为
Figure GDA0003769489940000181
Figure GDA0003769489940000182
对触发词wj的事件类型预测贡献不同程度的特征信息。因此,本发明利用门控注意力机制为不同的特征信息分配权重,
Figure GDA0003769489940000183
的权值
Figure GDA0003769489940000184
计算方式如下:
Figure GDA0003769489940000185
Figure GDA0003769489940000191
其中,
Figure GDA0003769489940000192
表示第j个单词特征向量
Figure GDA0003769489940000193
与其在图片模态中的特征表示
Figure GDA0003769489940000194
的余弦相似度,值域为[-1,1]。然后,通过加权平均的方式融合与wj相关的图片特征信息,获取wj对应的多模态特征表示向量
Figure GDA0003769489940000195
Figure GDA0003769489940000196
其中,
Figure GDA0003769489940000197
的结果通常为0至1间的数值,控制着
Figure GDA0003769489940000198
对融合后的多模态特征
Figure GDA0003769489940000199
的影响程度。当
Figure GDA00037694899400001910
较小时,融合后的特征保存更多的文本信息,而
Figure GDA00037694899400001911
较大时,说明图片特征对单词wj在事件分类过程中贡献更多的信息。
最后将候选触发词wj对应的多模态特征
Figure GDA00037694899400001912
输入共享事件分类器,从而获取单词wj触发的事件类型arg
Figure GDA00037694899400001913
5-3.同样,对于图片I,利用另外一个门控注意力控制着单词特征对图片事件分类的影响。首先利用门控注意力机制为图片动作对应的原始特征
Figure GDA00037694899400001914
与其在文本模态的特征表示
Figure GDA00037694899400001915
分配权重
Figure GDA00037694899400001916
Figure GDA00037694899400001917
其中,
Figure GDA00037694899400001918
的计算方式为:
Figure GDA00037694899400001919
然后,通过加权平均融合第i个图片实体的原始特征
Figure GDA00037694899400001920
及其在文本模态中的特征表示
Figure GDA00037694899400001921
获取更新后的多模态特征向量
Figure GDA00037694899400001922
最后利用共享事件分类器对
Figure GDA00037694899400001923
进行分类,获取图片描述动作所属的事件类型argmax(P(yI|I))。

Claims (6)

1.基于图片和句子的多模态联合事件检测方法,其特征在于包括如下步骤:
步骤1、文本事件检测模块首先对文本特征进行编码,获取句中单词的特征向量表示序列
Figure FDA0003769489930000011
对于第j个候选触发词,然后将其对应的候选触发词特征向量
Figure FDA0003769489930000012
输入文本事件分类器SoftmaxT,获取第j个候选触发词触发的事件类型概率分布,其中文本事件分类器的损失函数定义为LT
步骤2、图片事件检测模块对图片特征进行编码,获取图片中描述动作以及多个实体的图片实体特征向量表示序列
Figure FDA0003769489930000013
然后将图片实体特征向量
Figure FDA0003769489930000014
输入图片事件分类器SoftmaxI,获取当前图片描述的事件类型概率分布,其中图片事件分类器的损失函数定义为LI
步骤3、图片句子匹配模块首先利用跨模态注意力机制CMAM计算每一对图片实体与单词之间的关联权值;
根据第j个单词,CMAM能够定位重要的图片实体并分配权重,通过加权平均聚合与单词相关的图片实体特征,获取单词在图片模态的特征表示
Figure FDA0003769489930000015
同时对于图片中的第i个实体,首先在待匹配的句子中搜索相关的单词,并为单词分配权重,通过加权平均捕获与图片实体相关的语义信息,从而获取图片实体在文本模态的特征表示
Figure FDA0003769489930000016
然后将每个待匹配句子与其在图片模态中的特征表示序列的欧氏距离DT←I,与图片中所有实体与其在文本模态中的特征表示序列的欧氏距离DI←T进行相加,作为图片和句子的相似度;其中,图片句子匹配模块的损失函数定义为Lm
步骤4、通过联合优化文本事件检测模块、图片事件检测模块以及图片句子匹配模块,从而获取共享事件分类器;
步骤5、在测试阶段,对于多模态文章,首先利用图片句子匹配模块找出相似度最高的图片和句子,并获取第i个图片实体在文本模态的特征表示
Figure FDA0003769489930000021
以及第j个单词在图片模态的特征表示
Figure FDA0003769489930000022
然后利用门控注意力机制为图片实体特征向量
Figure FDA0003769489930000023
和特征表示
Figure FDA0003769489930000024
分配权重,通过加权平均获取第i个图片实体对应的多模态特征向量;接着利用共享事件分类器获取图片描述的事件类型;同样,利用另外一个门控注意力机制为候选触发词特征向量
Figure FDA0003769489930000025
和特征表示
Figure FDA0003769489930000026
分配权重,通过加权平均获取第j个单词的多模态特征表示,接着利用共享事件分类器获取第j个单词触发的事件类型。
2.根据权利要求1所述的基于图片和句子的多模态联合事件检测方法,其特征在于,步骤1具体实现如下:
1-1.在KBP 2017英文数据集上训练文本事件分类器SoftmaxT,首先对标注数据进行预处理,获取实体类型、事件触发词及其对应的事件类型;其中包含5种实体类型和18种事件类型;然后利用Stanford CoreNLP对原始文本进行分句、分词,获取词性和句子的语法依存结构;并分别创建词性向量表、实体类型向量表,其中每一种向量表都有类型“空”对应的初始化向量;
1-2.查询预训练的glove词向量矩阵,获取句子中每个词的词向量wemd,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量wentity,每个词的实值向量x={wemd,wpos,wentity},因此句子实值向量序列表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度;
1-3.将句子实值向量序列W={x1,x2,...,xn-1,xn}作为Bi-LSTMs的输入,获取句子的隐含状态向量序列
Figure FDA0003769489930000031
构建基于句子语法依存结构的图卷积网络,接着将HL输入GCNs中,获取句子的卷积向量序列
Figure FDA0003769489930000032
最后利用注意力计算序列HT中的每个元素对候选触发词的影响权重,从而获取句子的编码序列
Figure FDA0003769489930000033
同时将CT作为单词序列在公共空间的特征表示序列;
1-4.将句子中的每个单词视为候选触发词,对于第j个候选触发词,其中j≤n,然后将其对应的特征向量
Figure FDA0003769489930000034
输入文本事件分类器:
Figure FDA0003769489930000035
Figure FDA0003769489930000036
其中,WT和bT作为文本事件分类器SoftmaxT的权重矩阵和偏置项,
Figure FDA0003769489930000037
表示句子S中第j个候选触发词wj触发的事件类型概率分布,而typew,j表示wj触发的事件类型;同时,文本事件分类器的损失函数定义为:
Figure FDA0003769489930000038
其中,T是KBP 2017英文数据集中标注的句子数量,
Figure FDA0003769489930000039
作为单词wj标注的事件类型,Si表示数据集中第i个句子,句子长度为n。
3.根据权利要求2所述的基于图片和句子的多模态联合事件检测方法,其特征在于,步骤2具体实现如下:
2-1.在imSitu图片数据集上训练图片事件分类器,其中,一共定义了504个动词记录图片描述的动作,以及11538种实体类型描述图片中出现的实体;首先利用VGG16v去提取图片中的动作特征,并利用多层感知机MLPv将动词特征转换成动词向量
Figure FDA0003769489930000041
同时,利用另外一个VGG16o提取图片中的实体集合O={o1,o2,...,om-1,om},然后通过多层感知机MLPo将所有实体转换成它们对应的名词向量序列
Figure FDA0003769489930000042
然后用网状结构表示每张图片,根据其描述的动作和实体构建网状结构;其中,图片描述的动作作为网状结构的中心节点,同时将实体与动作节点进行连接;接着采用图卷积网络对图片特征对应的单词向量序列进行编码,从而使得动作节点卷积计算后的向量保存实体特征信息;其中,编码后的图片实体特征向量序列为
Figure FDA0003769489930000043
其中,
Figure FDA0003769489930000044
用来表示图片动作节点的卷积向量;同样,HI被视图片动作以及实体集合在公共空间的特征表示序列;
2-2.将图片I中动作卷积向量
Figure FDA0003769489930000045
作为图片事件分类器的输入,获取图片描述事件类型的概率分布为:
Figure FDA0003769489930000046
typeI=argmax(P(yI|I))
其中,WI和bI作为图片事件分类器SoftmaxI的权重矩阵和偏置项,P(yI|I)表示图片Ii触发的事件类型概率分布,而typeI表示图片I中描述的事件类型;同时,图片事件分类器的损失函数定义为:
Figure FDA0003769489930000047
其中,N代表着imSitu中图片标注事件样例的个数,yI作为图片Ii标注的事件类型,Ii表示图片数据集中第i个图片样例。
4.根据权利要求3所述的基于图片和句子的多模态联合事件检测方法,其特征在于,步骤3具体实现如下:
3-1.给出图片I对应的实体特征向量序列
Figure FDA0003769489930000051
以及句子S的单词特征向量序列
Figure FDA0003769489930000052
首先利用跨模态注意力机制获取单词和图片实体在其他模态的特征表示;
3-2.为了获取基于单词的图片实体特征表示,首先利用跨模态注意力机制计算图片中第i个实体与句子中第j单词的关联程度Scoreij
Figure FDA0003769489930000053
Figure FDA0003769489930000054
其中,
Figure FDA0003769489930000055
表示图片中第i个实体的特征向量
Figure FDA0003769489930000056
与句子中第j单词的特征向量
Figure FDA0003769489930000057
的余弦相似度,值域为[0,1];然后根据Scoreij计算第i个图片实体对第j单词的影响权重Aij为:
Figure FDA0003769489930000058
最后,通过加权平均的方式聚合基于第j个单词的图片实体特征表示
Figure FDA0003769489930000059
Figure FDA00037694899300000510
表示整个句子在图片模态的特征表示序列;
3-3.为了获得基于图片实体的单词特征表示,采用和获取向量
Figure FDA00037694899300000511
相同的计算过程,对于图片中第i个实体,根据第j个单词与当前图片实体的相关性,为第j个单词分配注意力权重:
Figure FDA0003769489930000061
Figure FDA0003769489930000062
然后,通过加权平均捕获基于图片第i个实体的单词特征表示
Figure FDA0003769489930000063
同样图片中所有实体在文本模态的表示为:
Figure FDA0003769489930000064
3-4.采用弱一致性的对齐方式,将图片和句子的相似度定义为图片中所有实体与其在文本模态中的特征表示序列的欧氏距离,与每个句子与其在图片模态中的特征表示序列的欧氏距离之和;
首先,计算每个句子与其在图片模态中的特征表示序列的欧氏距离:
Figure FDA0003769489930000065
然后计算图片中所有实体与其在文本模态中的特征表示序列的欧氏距离为:
Figure FDA0003769489930000066
因此,图片I和句子S的语义相似度定义为<I,S>=DT←I+DI←T
为了获取语义相似度<I,S>最高的图片句子对,使用tripletloss优化图片句子匹配模块;对于每一对正确匹配的图片和句子,额外抽取一个与句子S不匹配的图片I-,以及一个与图片I不匹配的句子S-,构成两个否定对<I,S->和<I-,S>;
最后图片句子匹配模块的损失函数定义为:
Lm=max(0,(1+<I,S>-<I,S->))+max(0,(1+<I,S>-<I-,S>))。
5.根据权利要求4所述的基于图片和句子的多模态联合事件检测方法,其特征在于,步骤4具体实现如下:
4-1.为了获取共享权重和偏置项的事件分类器,将单词和图片动作在公共空间的特征表示分别作为文本和图片事件分类器的输入,最后通过最小化目标函数L=LT+LI+Lm,对模型进行联合优化;使文本事件分类器SoftmaxT和图片事件分类器SoftmaxI能够共享权重矩阵和偏置项;从而,在测试阶段,利用共享事件分类器同时预测图片和句子描述的事件类型。
6.根据权利要求5所述的基于图片和句子的多模态联合事件检测方法,其特征在于,步骤5具体实现如下:
5-1.利用M2E2多模态标注数据对训练好的模型进行测试,对于包含k个句子S1,S2...,Sk-1,Sk和l张图片I1,I2...,Il-1,Il的文章,首先利用图片句子匹配模块找出语义相似度<I,S>最高的图片句子对,同时获取基于图片实体的单词特征表示序列HI←T、以及基于单词的图片实体特征表示序列HT←I
5-2.在特征融合时,对于候选触发词wj,认为
Figure FDA0003769489930000071
Figure FDA0003769489930000072
对候选触发词wj的事件类型预测贡献不同程度的特征信息;因此利用门控注意力机制为不同的特征信息分配权重,
Figure FDA0003769489930000073
的权值
Figure FDA0003769489930000074
计算方式如下:
Figure FDA0003769489930000075
Figure FDA0003769489930000076
其中,
Figure FDA0003769489930000081
表示第j个候选触发词特征向量
Figure FDA0003769489930000082
与其在图片模态中的特征表示
Figure FDA0003769489930000083
的余弦相似度,值域为[-1,1];然后,通过加权平均的方式融合与wj相关的图片特征信息,获取wj对应的多模态特征表示向量
Figure FDA0003769489930000084
Figure FDA0003769489930000085
其中,
Figure FDA0003769489930000086
的结果通常为0至1间的数值,控制着
Figure FDA0003769489930000087
对融合后的多模态特征
Figure FDA0003769489930000088
的影响程度;当
Figure FDA0003769489930000089
较小时,融合后的特征保存更多的文本信息,而
Figure FDA00037694899300000810
较大时,说明图片特征对单词wj在事件分类过程中贡献更多的信息;
最后将候选触发词wj对应的多模态特征
Figure FDA00037694899300000811
输入共享事件分类器,从而获取单词wj触发的事件类型
Figure FDA00037694899300000812
5-3.同样,对于图片I,利用另外一个门控注意力控制着单词特征对图片事件分类的影响;首先利用门控注意力机制为图片动作对应的原始特征
Figure FDA00037694899300000813
与其在文本模态的特征表示
Figure FDA00037694899300000814
分别分配权重
Figure FDA00037694899300000815
Figure FDA00037694899300000816
其中,
Figure FDA00037694899300000817
的计算方式为:
Figure FDA00037694899300000818
然后,通过加权平均融合第i个图片实体的原始特征
Figure FDA00037694899300000819
及其在文本模态中的特征表示
Figure FDA00037694899300000820
获取更新后的多模态特征向量
Figure FDA00037694899300000821
最后利用共享事件分类器对
Figure FDA00037694899300000822
进行分类,获取图片描述动作所属的事件类型argmax(P(yI|I))。
CN202110660692.2A 2021-06-15 2021-06-15 基于图片和句子的多模态联合事件检测方法 Active CN113535949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110660692.2A CN113535949B (zh) 2021-06-15 2021-06-15 基于图片和句子的多模态联合事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110660692.2A CN113535949B (zh) 2021-06-15 2021-06-15 基于图片和句子的多模态联合事件检测方法

Publications (2)

Publication Number Publication Date
CN113535949A CN113535949A (zh) 2021-10-22
CN113535949B true CN113535949B (zh) 2022-09-13

Family

ID=78124947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110660692.2A Active CN113535949B (zh) 2021-06-15 2021-06-15 基于图片和句子的多模态联合事件检测方法

Country Status (1)

Country Link
CN (1) CN113535949B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297473A (zh) * 2021-11-25 2022-04-08 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及***
CN114418038A (zh) * 2022-03-29 2022-04-29 北京道达天际科技有限公司 基于多模态融合的天基情报分类方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017139764A1 (en) * 2016-02-12 2017-08-17 Sri International Zero-shot event detection using semantic embedding
CN111259851A (zh) * 2020-01-23 2020-06-09 清华大学 一种多模态事件检测方法及装置
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017139764A1 (en) * 2016-02-12 2017-08-17 Sri International Zero-shot event detection using semantic embedding
CN111259851A (zh) * 2020-01-23 2020-06-09 清华大学 一种多模态事件检测方法及装置
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Interactive learning for joint event and relation extraction;Jingli Zhang等;《Springer》;20190722;全文 *
多媒体社会事件分析综述;钱胜胜;《计算机科学》;20210331;第48卷(第3期);全文 *

Also Published As

Publication number Publication date
CN113535949A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN108763362B (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN108628828B (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
Mukhtar et al. Urdu sentiment analysis using supervised machine learning approach
WO2020125445A1 (zh) 分类模型训练方法、分类方法、设备及介质
Fan et al. Product-aware helpfulness prediction of online reviews
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110192203A (zh) 用于多个自然语言处理(nlp)任务的联合多任务神经网络模型
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
Nasim et al. Sentiment analysis on Urdu tweets using Markov chains
Ji et al. Survey of visual sentiment prediction for social media analysis
CN113535949B (zh) 基于图片和句子的多模态联合事件检测方法
CN107688870A (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
Gandhi et al. Multimodal sentiment analysis: review, application domains and future directions
Bitto et al. Sentiment analysis from Bangladeshi food delivery startup based on user reviews using machine learning and deep learning
Sajeevan et al. An enhanced approach for movie review analysis using deep learning techniques
CN113516094A (zh) 一种用于为文档匹配评议专家的***以及方法
Liu et al. Social Image–Text Sentiment Classification With Cross-Modal Consistency and Knowledge Distillation
Abdulwahab et al. Deep Learning Models for Paraphrases Identification
Braoudaki et al. Hybrid data driven and rule based sentiment analysis on Greek text
Selvi et al. Sentimental analysis of movie reviews in Tamil text
Ribeiro et al. UA. PT Bioinformatics at ImageCLEF 2019: Lifelog Moment Retrieval based on Image Annotation and Natural Language Processing.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant