CN113297387A - 一种基于nkd-gnn的图文不匹配新闻检测方法 - Google Patents

一种基于nkd-gnn的图文不匹配新闻检测方法 Download PDF

Info

Publication number
CN113297387A
CN113297387A CN202110424490.8A CN202110424490A CN113297387A CN 113297387 A CN113297387 A CN 113297387A CN 202110424490 A CN202110424490 A CN 202110424490A CN 113297387 A CN113297387 A CN 113297387A
Authority
CN
China
Prior art keywords
news
matching
description
entity
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110424490.8A
Other languages
English (en)
Other versions
CN113297387B (zh
Inventor
云静
高硕�
赵禹萌
许志伟
刘利民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202110424490.8A priority Critical patent/CN113297387B/zh
Publication of CN113297387A publication Critical patent/CN113297387A/zh
Application granted granted Critical
Publication of CN113297387B publication Critical patent/CN113297387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于NKD‑GNN的图文不匹配新闻检测方法,对新闻配图生成带有占位符的新闻配图描述;将命名实体按照连接规则构造为新闻知识图谱;基于新闻知识图谱驱动的图神经网络,选择与新闻配图相关的命名实体,***到新闻配图描述中,从而生成带有命名实体的新闻配图描述;计算新闻文本与带有命名实体的新闻配图描述的匹配性,判断一则新闻是否图文匹配。本发明在全面分析了新闻知识图谱中命名实体之间全部关联的基础上,还计算了新闻知识图谱中命名实体的重要程度并分析了相关新闻中核心命名实体,因此对新闻的图文匹配判断效果更好。

Description

一种基于NKD-GNN的图文不匹配新闻检测方法
技术领域
本发明属于人工智能技术领域,涉及虚假信息检测,特别涉及一种基于NKD-GNN的图文不匹配新闻检测方法。
背景技术
随着互联网技术的快速发展,浏览网络新闻已经成为人们了解时事的主要渠道。有些不良媒体为了博取读者眼球,获得极高的新闻点击量,常常给新闻配很吸引人,但与新闻内容无关的配图。如果不及时处理这些图文不匹配的新闻,极易导致公众对事实产生误解,破坏网络新闻生态、损失媒体的公信力。通常,新闻文本中包括事件发生的地点类命名实体,事件涉及的人物类命名实体以及组织类命名实体,新闻配图则直观生动的展示新闻事件中关键的命名实体。新闻文本与新闻配图中命名实体是否一致,很大程度影响着新闻图文匹配性检测的结果。由于新闻文本中包含大量的命名实体,而提取图像特征算法却不能在新闻配图中直接提取出这些命名实体,造成了新闻文本与新闻配图之间存在巨大的语义差距。因此无法直接使用现有图文匹配性检测方法判断新闻文本和新闻配图的匹配性,需要生成带有命名实体的新闻配图描述。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于NKD-GNN的图文不匹配新闻检测方法。
为了实现上述目的,本发明采用的技术方案是:
一种基于NKD-GNN的图文不匹配新闻检测方法,包括:
步骤1,对新闻配图生成带有占位符的新闻配图描述;
步骤2,将命名实体按照连接规则构造为新闻知识图谱;
步骤3,基于新闻知识图谱驱动的图神经网络,选择与新闻配图相关的命名实体,***到新闻配图描述中,从而生成带有命名实体的新闻配图描述;
步骤4,计算新闻文本与带有命名实体的新闻配图描述的匹配性,判断一则新闻是否图文匹配。
与现有技术相比,本发明在全面分析了新闻知识图谱中命名实体之间全部关联的基础上,还计算了新闻知识图谱中命名实体的重要程度并分析了相关新闻中核心命名实体,因此对新闻的图文匹配判断效果更好。
附图说明
图1是本发明流程示意图。
图2是本发明实施例提供的两幅新闻配图及其检测过程、结论,两幅新闻配图各包含三篇相关文章。其中(a)为图文匹配的新闻,(b)为图文不匹配的新闻。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明为一种基于NKD-GNN的图文不匹配新闻检测方法,步骤如下:
步骤1,对新闻配图,生成带有占位符的新闻配图描述。
新闻文本中存在大量命名实体,而现有生成图像描述的方法却不能直接生成带有命名实体的图像描述,所以新闻文本与新闻配图之间存在语义差距。直接计算二者匹配性存在一定困难。因此本发明将新闻配图生成带有占位符的新闻配图描述,将新闻文本与新闻配图统一到同一模态,并在后续的步骤中选择与新闻配图相关的命名实体***其中。
本发明生成带有占位符的新闻配图描述的具体步骤如下:
步骤1.1:使用开源预训练好的图像生成描述模型生成新闻配图描述,该模型遵从Encoder-Decoder设计思想,在编码阶段使用CNN提取图像特征,在解码阶段使用RNN生成新闻配图描述;
步骤1.2:对于生成的新闻配图描述,采用WordNet工具,将新闻配图描述中与’Person’在同一语义树的词汇使用<Person>占位符代替,将与’Place’在同一语义树的词汇使用<Place>占位符代替,用<Organization>占位符替代新闻配图描述中的’a group ofpeople’;使用<Building>占位符替代新闻配图描述中的Building词汇;从而生成带有<Person>、<Place>、<Organization>、<Building>四类占位符的新闻配图描述。
步骤2,构建新闻知识图谱。
在选择命名实体***到带有占位符的新闻配图描述中时,需要分析新闻文章中命名实体之间存在统计学上的关联,为准确反应新闻场景中命名实体之间的关联。本发明构建了新闻知识图谱,将命名实体按照连接规则构造为新闻知识图谱,为后续分析实体之间的关联奠定了基础。
本发明构造新闻知识图谱的具体步骤如下:
步骤2.1:使用SpaCy’s命名实体识别器提取新闻的相关文章的命名实体,保留Person、Organization、Location、Building四类命名实体;
步骤2.2:保留的命名实体构成实体集合V={v1,v2,...,vm};在同一句中出现的命名实体之间用边相连,所有的边构成边集合E={e1,e2,...,em},边e的权重值的计算方法如下式:
Figure BDA0003029292520000031
其中e∈E,He为边e的权重值,即两个命名实体的共现率,vh和vt是由边e连接的两个命名实体,
Figure BDA0003029292520000032
是vh和vt共同出现的次数,
Figure BDA0003029292520000033
Figure BDA0003029292520000034
分别是vh和vt单独出现的次数,由所有命名实体和所有边构成的图G={V,E},即新闻知识图谱。
步骤3,生成带有命名实体的新闻配图描述。
在步骤2中构造的新闻知识图谱包含新闻文章中所有的命名实体,其中存在一些与新闻配图无关的命名实体。为了完全分析新闻知识图谱中实体之间的关联,并排除新闻知识图谱中噪声干扰,从而选择出与新闻配图相关的命名实体。本发明提出了新闻知识图谱驱动的图神经网络(News knowledge graph driven graph neural network,NKD-GNN),在完全分析新闻知识图谱中命名实体之间关联的基础上,选择与新闻配图相关的命名实体***到新闻配图描述中,从而生成带有命名实体的新闻配图描述。
本发明生成带有命名实体的新闻配图描述的具体步骤如下:
步骤3.1:使用图神经网络聚合新闻知识图谱中所有边和所有节点信息,从而得到每一个节点向量v。
具体地,新闻知识图谱中节点vi输入到图神经网络的过程,以及图神经网络更新实体向量vi的过程如下式:
Figure BDA0003029292520000041
Figure BDA0003029292520000042
Figure BDA0003029292520000043
Figure BDA0003029292520000044
Figure BDA0003029292520000045
其中
Figure BDA0003029292520000046
是t时刻新闻知识图谱中第i个节点对应的输入,权重矩阵
Figure BDA0003029292520000047
Figure BDA0003029292520000048
是t-1时刻节点向量的集合,
Figure BDA0003029292520000049
为新闻知识图谱的邻接矩阵,
Figure BDA00030292925200000410
为新闻知识图谱邻接矩阵的第i个实体对应的分块矩阵,
Figure BDA00030292925200000411
是重置门,
Figure BDA00030292925200000412
是更新门,σ(·)是sigmoid函数,
Figure BDA00030292925200000413
是点乘运算符,
Figure BDA00030292925200000414
为t-1时刻的实体vi向量,Wz为t时刻
Figure BDA00030292925200000415
的权重矩阵,Wr为t时刻
Figure BDA00030292925200000416
的权重矩阵,Wo为t时刻激活函数输入的权重矩阵,Uz为t-1时刻
Figure BDA00030292925200000420
的权重矩阵,Ur为t-1时刻
Figure BDA00030292925200000417
的权重矩阵,Uo为t-1时刻激活函数输入的权重矩阵,
Figure BDA00030292925200000418
为实体vi的候选向量,
Figure BDA00030292925200000419
为第s个重置门;n为序号。
公式(2)反映了新闻知识图谱中节点vi聚合其邻接节点信息的过程,节点vi通过聚合邻居节点信息得到
Figure BDA0003029292520000051
公式(3)公式(4)分别决定邻居节点信息中保留的信息和丢弃的信息。公式(5)使用t-1时刻节点vi向量
Figure BDA0003029292520000052
和t时刻节点vi的输入
Figure BDA0003029292520000053
得到节点vi的候选向量
Figure BDA0003029292520000054
公式(6)使用t-1时刻实体向量
Figure BDA0003029292520000055
和节点候选向量
Figure BDA0003029292520000056
计算t时刻节点vi向量表示。直到学习完所有节点信息,就得到了该节点最终的向量表示
Figure BDA0003029292520000057
步骤3.2:新闻知识图谱中边最多的节点是相关文本中的核心实体,反映着新闻配图相关新闻的关键信息。本发明将新闻知识图谱中边最多的命名实体设置为重要节点vb,当新闻知识图谱中边最多的命名实体有多个时,取其中频率最大的为重要节点vb;将新闻知识图谱的全局向量
Figure BDA0003029292520000058
与重要节点向量
Figure BDA0003029292520000059
进行组合,得到新闻知识图谱的表示向量Nr
具体地,由于每个节点对新闻知识图谱全局向量的影响不同,具有不同的优先级,因而首先采用注意机制对每个节点向量进行加权,再求和得到新闻知识图谱的全局知识向量Ng;其次将重要节点vb的向量定义为Nb;最后将新闻知识图谱的全局知识向量Ng与重要实体向量Nb进行线性拼接得到新闻知识图谱表示向量Nr,过程如下式:
αi=qTσ(W1vb+W2vi) (7)
Figure BDA00030292925200000510
Figure BDA00030292925200000511
其中αi为新闻知识图谱中节点系数,参数
Figure BDA00030292925200000512
目的是转置矩阵让两个矩阵做乘法,得到一个具体的数值,矩阵
Figure BDA00030292925200000513
和矩阵
Figure BDA00030292925200000514
是新闻知识图谱中节点向量的权重矩阵,矩阵
Figure BDA00030292925200000515
将Ng与Nb组合向量压缩映射到
Figure BDA00030292925200000516
的向量空间中,vb为重要实体向量,n为序号,
步骤3.3:将节点vi的向量vi与新闻知识图谱的表示向量Nr做乘积运算,得到每个节点的分数
Figure BDA00030292925200000517
并使用Soft max函数输出该分数,得到该节点的概率,如下式所示:
Figure BDA0003029292520000061
Figure BDA0003029292520000062
其中
Figure BDA0003029292520000063
为节点的分数,
Figure BDA0003029292520000064
为节点vi的分数,
Figure BDA0003029292520000065
为命名实体***到新闻配图描述,即实体***到新闻配图描述中占位符的概率;
然后使用交叉熵损失函数,并使用基于时间的反向传播算法训练NKD-GNN模型,进行核心实体预测,交叉熵损失函数如下式所示:
Figure BDA0003029292520000066
其中yi为新闻知识图谱中标注的核心实体one-hot编码,
Figure BDA0003029292520000067
为第i个实体***到新闻配图描述中占位符的概率。
步骤3.4:将NKD-GNN预测的核心实体***到带有占位符的新闻配图描述。
具体地,取每一类命名实体中概率最大的,按照实体类型***到对应的占位符中,得到带有命名实体的新闻配图描述;当带有占位符的新闻配图的占位符没有对应***的命名实体时,使用占位符中的类型来替换它们,例如使用词汇“PERSON”来替换插槽<Person>。
步骤4,计算新闻文本与带有命名实体的新闻配图描述的匹配性。
本发明最终在弥补新闻文本与新闻配图之间语义差距的基础上,通过计算新闻文本与带有命名实体的新闻配图描述的匹配性,判断一则新闻是否图文匹配。带有命名实体的新闻配图描述与新闻文本仍然存在句式差异与结构差异。在计算二者匹配性时,不仅要分析二者的句式结构相似度,还需要计算二者关键词的相似度。为此本发明提出采用混合共同注意网络(Hybrid Co-Attention Network,HCAN)方法计算二者的匹配性,在计算时,分析二者的句式结构相似度并计算二者关键词的相似度,首先将新闻的文本划分为若干单句,如果存在一个单句与带有命名实体的新闻配图描述匹配,则认为该新闻为图文匹配的新闻。
本发明匹配性的具体计算方法如下:
步骤4.1:使用Word2vec工具生成待比较的两个句子词向量,每一个句子由若干词向量组成,两个待比较的句子向量分别为Uq和Uc
步骤4.2:将两个句子的每一个词向量做乘积得到一个相似矩阵
Figure BDA0003029292520000071
S∈Rn ×m,m为0-n之间的某一序号;
步骤4.3:对矩阵S∈Rn×m的每一个词向量做归一化,即对每一个词的分数进行mean-pooling和max-pooling,输出Uq和Uc的相关性信息,其中归一化方法如下式:
Figure BDA0003029292520000072
Figure BDA0003029292520000073
Max(S)为所有最大池化的集合;
Figure BDA0003029292520000074
为每一个词的最大池化操作;Mean(S)为平均池化的集合;
Figure BDA0003029292520000075
为每一个词的平均池化操作;
步骤4.4:计算Uq和Uc两个句子中每一个词的TF-IDF权重,即wgt(q),在归一化时充分考虑每一个词的重要性,从而得到Uq和Uc相关性匹配输出ORM,并且使用Soft max分类Uq和Uc是否匹配。如果两个句子匹配则判别该新闻图文匹配;如果带有命名实体的新闻配图描述与新闻文本的所有单句均不匹配,则认为该新闻图文不匹配。其中计算ORM,以及使用Softmax函数进行分类的公式如下:
Figure BDA0003029292520000076
o=soft max(ORM) (16)
综上,本发明的检测方法,输入是新闻配图、新闻文本以及与新闻配图相关的文章,输出是新闻文本与新闻配图的匹配性。下面通过一个具体的实施例来说明本发明方法整体执行过程。
本实施例建立在一个云计算平台上,该平台由15台服务器组成,包括Vmware Esxi5,20T磁盘阵列和1000M网络交换机,并部署了一个Hadoop的集群,提供了两幅新闻配图,如图2所示,两幅新闻配图各包含三篇相关文章。其中(a)为图文匹配的新闻,(b)为图文不匹配的新闻。(a)新闻讲述的是欧冠的体育赛事,配图中Timo Werner在踢足球,相关文章中共有8个命名实体,涉及人物、地点、组织三类实体。将这些实体构造为新闻知识图谱,(a)的新闻知识图谱中的核心命名实体为Timo Werner,经过NKD-GNN打分。Person类实体中得分最高的为Timo Werner,Place类实体中得分最高的为Cologne。因此将这两个实体***到带有占位符的新闻配图描述中,得到该配图的解释性描述<Timo Werner is playing thesoccer in Cologne>。(b)新闻讲述的是经济下行条件下消费者行为的变化,相关文章中共有10个命名实体,涉及人物、地点、建筑三类实体。将两例新闻的命名实体构造为新闻知识图谱,再为每一个实体进行打分。Organization类实体中得分最高的为Federal agent,Place类实体中得分最高的为Washington。得到配图(b)的解释性描述<Federal agentstanding in the Washington>。
(a)新闻文本中描述的实体与带有命名实体的新闻配图描述中实体一致,所以检测结果为匹配,检测正确。(b)新闻文本中讲述的是Norton Western University大学教授Piotr Dworczak讲述消费者行为的变化。配图是联邦警察在维护社会秩序。根据(b)新闻配图的相关文章生成的带有命名实体的新闻配图描述为Federal agent standing in theWashington behind the fire,与新闻文本完全不相关,经过计算认为此则新闻图文不匹配,检测正确。
通过这一实例,可以看出一种基于新闻知识驱动的图文不匹配新闻检测方法,通过生成带有命名实体的新闻配图描述,缩小了新闻文本与新闻配图的语义差异,从而准确计算二者的匹配性。

Claims (10)

1.一种基于NKD-GNN的图文不匹配新闻检测方法,其特征在于,包括:
步骤1,对新闻配图生成带有占位符的新闻配图描述;
步骤2,将命名实体按照连接规则构造为新闻知识图谱;
步骤3,基于新闻知识图谱驱动的图神经网络,选择与新闻配图相关的命名实体,***到新闻配图描述中,从而生成带有命名实体的新闻配图描述;
步骤4,计算新闻文本与带有命名实体的新闻配图描述的匹配性,判断一则新闻是否图文匹配。
2.根据权利要求1所述基于NKD-GNN的图文不匹配新闻检测方法,其特征在于,所述步骤1中生成带有占位符的新闻配图描述的方法如下:
步骤1.1:使用开源预训练好的图像生成描述模型生成新闻配图描述,该模型遵从Encoder-Decoder设计思想,在编码阶段使用CNN提取图像特征,在解码阶段使用RNN生成新闻配图描述;
步骤1.2:对于生成的新闻配图描述,采用WordNet工具,将新闻配图描述中与’Person’在同一语义树的词汇使用<Person>占位符代替,将与’Place’在同一语义树的词汇使用<Place>占位符代替,用<Organization>占位符替代新闻配图描述中的’a group ofpeople’;使用<Building>占位符替代新闻配图描述中的Building词汇;从而生成带有<Person>、<Place>、<Organization>、<Building>四类占位符的新闻配图描述。
3.根据权利要求2所述基于NKD-GNN的图文不匹配新闻检测方法,其特征在于,所述步骤2中构造新闻知识图谱的方法如下:
步骤2.1:使用SpaCy’s命名实体识别器提取新闻的相关文章的命名实体,保留Person、Organization、Location、Building四类命名实体;
步骤2.2:保留的命名实体构成实体集合V={v1,v2,...,vm};在同一句中出现的命名实体之间用边相连,所有的边构成边集合E={e1,e2,...,em},边e的权重值的计算方法如下式:
Figure FDA0003029292510000021
其中e∈E,He为边e的权重值,即两个实体的共现率,vh和vt是由边e连接的两个命名实体,
Figure FDA0003029292510000022
是vh和vt共同出现的次数,
Figure FDA0003029292510000023
Figure FDA0003029292510000024
分别是vh和vt单独出现的次数,由所有命名实体和所有边构成的图G={V,E},即新闻知识图谱。
4.根据权利要求1所述基于NKD-GNN的图文不匹配新闻检测方法,其特征在于,所述步骤3中生成带有命名实体的新闻配图描述的方法如下:
步骤3.1:使用图神经网络聚合新闻知识图谱中所有边和所有节点信息,从而得到每一个节点向量v;
步骤3.2:将新闻知识图谱中边最多的命名实体设置为重要节点vb,当新闻知识图谱中边最多的命名实体有多个时,取其中频率最大的为重要节点vb;将新闻知识图谱的全局向量
Figure FDA0003029292510000025
与重要节点向量
Figure FDA0003029292510000026
进行组合,得到新闻知识图谱的表示向量Nr
步骤3.3:将节点vi的向量vi与新闻知识图谱的表示向量Nr做乘积运算,得到每个节点的分数
Figure FDA0003029292510000027
并使用Soft max函数输出该分数,得到该节点的概率;然后使用交叉熵损失函数,并使用基于时间的反向传播算法训练NKD-GNN模型,进行核心实体预测;
步骤3.4:将NKD-GNN预测的核心实体***到带有占位符的新闻配图描述。
5.根据权利要求4所述基于NKD-GNN的图文不匹配新闻检测方法,其特征在于,所述步骤3.1新闻知识图谱中节点vi输入到图神经网络的过程,以及图神经网络更新实体向量vi的过程如下式:
Figure FDA0003029292510000031
Figure FDA0003029292510000032
Figure FDA0003029292510000033
Figure FDA0003029292510000034
Figure FDA0003029292510000035
其中
Figure FDA0003029292510000036
是t时刻新闻知识图谱中第i个节点对应的输入,权重矩阵
Figure FDA0003029292510000037
是t-1时刻节点向量的集合,
Figure FDA0003029292510000038
为新闻知识图谱的邻接矩阵,
Figure FDA0003029292510000039
为新闻知识图谱邻接矩阵的第i个实体对应的分块矩阵,
Figure FDA00030292925100000310
是重置门,
Figure FDA00030292925100000311
是更新门,σ(·)是sigmoid函数,
Figure FDA00030292925100000312
是点乘运算符,
Figure FDA00030292925100000313
为t-1时刻的实体vi向量,Wz为t时刻
Figure FDA00030292925100000314
的权重矩阵,Wr为t时刻
Figure FDA00030292925100000315
的权重矩阵,Wo为t时刻激活函数输入的权重矩阵,Uz为t-1时刻
Figure FDA00030292925100000316
的权重矩阵,Ur为t-1时刻
Figure FDA00030292925100000317
的权重矩阵,Uo为t-1时刻激活函数输入的权重矩阵,
Figure FDA00030292925100000318
为实体vi的候选向量,
Figure FDA00030292925100000319
为第s个重置门;n为序号。
6.根据权利要求4所述基于NKD-GNN的图文不匹配新闻检测方法,其特征在于,所述步骤3.2中,首先采用注意机制对每个节点向量进行加权,再求和得到新闻知识图谱的全局知识向量Ng;其次将重要节点vb的向量定义为Nb;最后将新闻知识图谱的全局知识向量Ng与重要实体向量Nb进行线性拼接得到新闻知识图谱表示向量Nr,过程如下式:
αi=qTσ(W1vb+W2vi)
Figure FDA00030292925100000320
Figure FDA00030292925100000321
其中αi为新闻知识图谱中节点系数,参数
Figure FDA00030292925100000322
目的是转置矩阵让两个矩阵做乘法,得到一个具体的数值,矩阵
Figure FDA00030292925100000323
和矩阵
Figure FDA00030292925100000324
是新闻知识图谱中节点向量的权重矩阵,矩阵
Figure FDA0003029292510000041
将Ng与Nb组合向量压缩映射到
Figure FDA0003029292510000042
的向量空间中,vb为重要实体向量,n为序号。
7.根据权利要求4所述基于NKD-GNN的图文不匹配新闻检测方法,其特征在于,所述步骤3.3中,计算过程如下
Figure FDA0003029292510000043
Figure FDA0003029292510000044
其中
Figure FDA0003029292510000045
为节点的分数,
Figure FDA0003029292510000046
为节点vi的分数,
Figure FDA0003029292510000047
为命名实体***到新闻配图描述,即实体***到新闻配图描述中占位符的概率;
交叉熵损失函数如下式所示:
Figure FDA0003029292510000048
其中yi为新闻知识图谱中标注的核心实体one-hot编码,
Figure FDA0003029292510000049
为第i个实体***到新闻配图描述中占位符的概率。
8.根据权利要求4所述基于NKD-GNN的图文不匹配新闻检测方法,其特征在于,所述步骤3.4中,取每一类命名实体中概率最大的,按照实体类型***到对应的占位符中,得到带有命名实体的新闻配图描述;当带有占位符的新闻配图的占位符没有对应***的命名实体时,使用占位符中的类型来替换占位符。
9.根据权利要求1所述基于NKD-GNN的图文不匹配新闻检测方法,其特征在于,所述步骤4中,采用混合共同注意网络(Hybrid Co-Attention Network,HCAN)方法计算新闻文本与带有命名实体的新闻配图描述的匹配性,在计算时,分析二者的句式结构相似度并计算二者关键词的相似度,首先将新闻的文本划分为若干单句,如果存在一个单句与带有命名实体的新闻配图描述匹配,则认为该新闻为图文匹配的新闻。
10.根据权利要求9所述基于NKD-GNN的图文不匹配新闻检测方法,其特征在于,所述匹配性的具体计算方法如下:
步骤4.1:使用Word2vec工具生成待比较的两个句子词向量,每一个句子由若干词向量组成,两个待比较的句子向量分别为Uq和Uc
步骤4.2:将两个句子的每一个词向量做乘积得到一个相似矩阵
Figure FDA0003029292510000051
S∈Rn×m,m为0-n之间的某一序号;
步骤4.3:对矩阵S∈Rn×m的每一个词向量做归一化,即对每一个词的分数进行mean-pooling和max-pooling,输出Uq和Uc的相关性信息,其中归一化方法如下式:
Figure FDA0003029292510000052
Figure FDA0003029292510000053
Max(S)为所有最大池化的集合;
Figure FDA0003029292510000054
为每一个词的最大池化操作;Mean(S)为平均池化的集合;
Figure FDA0003029292510000055
为每一个词的平均池化操作;
步骤4.4:计算Uq和Uc两个句子中每一个词的TF-IDF权重,即wgt(q),在归一化时充分考虑每一个词的重要性,从而得到Uq和Uc相关性匹配输出ORM,并且使用Soft max分类Uq和Uc是否匹配;如果两个句子匹配则判别该新闻图文匹配;如果带有命名实体的新闻配图描述与新闻文本的所有单句均不匹配,则认为该新闻图文不匹配;其中计算ORM,以及使用Soft max函数进行分类的公式如下:
Figure FDA0003029292510000056
o=soft max(ORM)。
CN202110424490.8A 2021-04-20 2021-04-20 一种基于nkd-gnn的图文不匹配新闻检测方法 Active CN113297387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110424490.8A CN113297387B (zh) 2021-04-20 2021-04-20 一种基于nkd-gnn的图文不匹配新闻检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110424490.8A CN113297387B (zh) 2021-04-20 2021-04-20 一种基于nkd-gnn的图文不匹配新闻检测方法

Publications (2)

Publication Number Publication Date
CN113297387A true CN113297387A (zh) 2021-08-24
CN113297387B CN113297387B (zh) 2022-04-29

Family

ID=77319956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110424490.8A Active CN113297387B (zh) 2021-04-20 2021-04-20 一种基于nkd-gnn的图文不匹配新闻检测方法

Country Status (1)

Country Link
CN (1) CN113297387B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626564A (zh) * 2021-10-09 2021-11-09 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN114218962A (zh) * 2021-12-16 2022-03-22 哈尔滨工业大学 一种固废管理信息人工智能应急语义识别***及识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256065A (zh) * 2018-01-16 2018-07-06 智言科技(深圳)有限公司 基于关系检测和强化学习的知识图谱推理方法
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109885796A (zh) * 2019-01-25 2019-06-14 内蒙古工业大学 一种基于深度学习的网络新闻配图匹配性检测方法
CN109933802A (zh) * 2019-03-25 2019-06-25 腾讯科技(深圳)有限公司 图文匹配方法、装置及存储介质
CN110008879A (zh) * 2019-03-27 2019-07-12 深圳市尼欧科技有限公司 车载个性化音视频内容推送方法及装置
WO2019220128A1 (en) * 2018-05-18 2019-11-21 Benevolentai Technology Limited Graph neutral networks with attention
CN111046664A (zh) * 2019-11-26 2020-04-21 哈尔滨工业大学(深圳) 基于多粒度的图卷积神经网络的假新闻检测方法及***
CN112241481A (zh) * 2020-10-09 2021-01-19 中国人民解放军国防科技大学 基于图神经网络的跨模态新闻事件分类方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256065A (zh) * 2018-01-16 2018-07-06 智言科技(深圳)有限公司 基于关系检测和强化学习的知识图谱推理方法
WO2019220128A1 (en) * 2018-05-18 2019-11-21 Benevolentai Technology Limited Graph neutral networks with attention
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109885796A (zh) * 2019-01-25 2019-06-14 内蒙古工业大学 一种基于深度学习的网络新闻配图匹配性检测方法
CN109933802A (zh) * 2019-03-25 2019-06-25 腾讯科技(深圳)有限公司 图文匹配方法、装置及存储介质
CN110008879A (zh) * 2019-03-27 2019-07-12 深圳市尼欧科技有限公司 车载个性化音视频内容推送方法及装置
CN111046664A (zh) * 2019-11-26 2020-04-21 哈尔滨工业大学(深圳) 基于多粒度的图卷积神经网络的假新闻检测方法及***
CN112241481A (zh) * 2020-10-09 2021-01-19 中国人民解放军国防科技大学 基于图神经网络的跨模态新闻事件分类方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIAN BAI ET AL.: "Enhanced Natural Language Interface for Web-Based Information Retrieval", 《IEEE ACCESS》 *
蒋贻顺: "基于规则匹配与神经网络学习的中文实体关系抽取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626564A (zh) * 2021-10-09 2021-11-09 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN113626564B (zh) * 2021-10-09 2021-12-17 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN114218962A (zh) * 2021-12-16 2022-03-22 哈尔滨工业大学 一种固废管理信息人工智能应急语义识别***及识别方法

Also Published As

Publication number Publication date
CN113297387B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN109544524B (zh) 一种基于注意力机制的多属性图像美学评价***
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
US20220245365A1 (en) Translation method and apparatus based on multimodal machine learning, device, and storage medium
CN110263324B (zh) 文本处理方法、模型训练方法和装置
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
US11687716B2 (en) Machine-learning techniques for augmenting electronic documents with data-verification indicators
KR101837262B1 (ko) 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법
CN112100346A (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN113297387B (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
CN111814817A (zh) 视频分类方法、装置、存储介质及电子设备
CN112148831B (zh) 图文混合检索方法、装置、存储介质、计算机设备
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN112364168A (zh) 一种基于多属性信息融合的舆情分类方法
CN114339450A (zh) 视频评论生成方法、***、设备及存储介质
CN110309515B (zh) 实体识别方法及装置
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant