CN112328801B

CN112328801B - 事件知识图谱预测***件的方法

Info

Publication number: CN112328801B
Application number: CN202011043065.6A
Authority: CN
Inventors: 潘磊; 代翔; 崔莹; 廖泓舟; 刘鑫; 丁洪丽
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2022-06-14
Anticipated expiration: 2040-09-28
Also published as: CN112328801A

Abstract

本发明公开的一种事件知识图谱预测***件的方法，涉及事件知识图谱挖掘与应用技术。本发明通过下述技术方案予以实现：分预测模型训练和实时预测两个阶段；预测模型训练阶段以历史结构化事件数据为输入数据构建历史事件图谱，采用图嵌入网络学习事件图谱的向量化表示，进而基于深度神经网络建立的分类网络模型来预测事件是否发生；实时预测阶段以实时的结构化事件数据为输入数据构建实时事件图谱，作为已训练完成的事件预测模型的输入数据，将实时事件数据构建的事件图谱输入事件预测模型，获取事件图谱的向量化表示，进而挖掘事件数据的深度语义信息，转化成一个事件发生和不发生的二分类问题，将概率最大的结果作为事件是否发生的预测结果。

Description

事件知识图谱预测***件的方法

技术领域

本发明涉及数据挖掘领域的知识图谱挖掘，具体涉及事件知识图谱挖掘与应用技术，尤其是基于事件知识图谱挖掘的***件预测方法。

背景技术

在群体、突发和事件这三个词语中，围绕“事件”一词，群体和突发都是用于描述“事件”的某种状态或某种性质的定语。群体性突发事件是指具有相同利益诉求的行为人，在一定的时间、空间和心理条件下，采取自发或有组织的聚众方式，与公共秩序和公共安全发生矛盾或对抗的行为和活动。由于很多事件是突然发生的，或一些事件的主体表现为群体性质所以有人将“突发”和“事件”放在一起表述为突发事件；有人将“群体”和“事件”放在一起表述为“***件”。不同的表述方法，反映出的侧重点也各不相同。广义的***件是指利益相同或相近的社会群体，由于正当性的利益之间出现严重分歧且不能通过司法的途径予以解决而产生的违反国家法律法规等扰乱社会秩序、危害公共安全的群体性冲突行为。狭义的***件是指，某些利益相近或相同的群体，当其正当利益的诉求缺乏协商机制和维护机制时，而聚众实施扰乱社会秩序、危害公共安全的群体性行为。***件的特点包括行为主体的群众性、行为形式的公开性、***处置工作较复杂、事件危害常常比较严重。***非常明显且典型的特点就是群体时间的突发性，由于事件不可控因素较多，现阶段没有有效地监控和识别方法，没办法对事件发生进行把控，这使得***发生的地点、规模、形式等都难以预测。

网络舆情具有特定的形成模式,网络域的热点主题中节点大小由关键词频次控制。在可视化图谱中,节点中心度直观地描述了与该点直接联系的个体数目。中心度愈大,说明该节点处于中心位置,对整个网络的影响力较大关键词的中心度及频次。其他节点围绕在中心度高的关键词周围,共同构成图谱的聚类内容。

网络舆情具有很强的两面性，一方面，能够帮助到弱势方，使得弱势群体诉求得到满足，如网络反腐等；另一方面，也有可能被别有用心的人利用，从而推波助澜，扩大事件影响，造成更加严重的后果。现阶段，***的所涉及的范围已经遍布各个行业和领域。针对群体性抗议事件检测与预测这一问题,现有技术提出了两个大规模频繁子图并行挖掘算法:面向图集的PTrGraM算法和面向单个大图的SSiGraM算法。而目前频繁子图挖掘算法均是单机串行执行,无法有效满足大规模输入图及低阈值模式挖掘的需求,因此提出并行化挖掘频繁子图。由于***件中的数据往往存在着紧密的关联性,图作为一种广泛应用的数据结构,非常适合用来描述这些具有紧密关联性的数据,这些数据用图组织成为知识图谱（KnowledgeGraph,KG）。知识图谱描述客观世界的概念、实体、事件及其之间的关系，是以科学知识为计量研究对象，显示科学知识的发展进程与结构关系的一种图形，具有“图”和“谱”的双重性质与特征，属于科学计量学范畴。在以数学模型表达科学知识单元及其关系基础上进而以可视化形式绘制成二维或三维图形即知识图谱。其中，概念是指人们在认识世界过程中形成对客观事物的概念化表示，如人、动物、组织机构等。实体是客观世界中的具体事物；事件是客观事件的活动；关系描述概念、实体、事件之间客观存在的关联关系。知识图谱以结构化的形式描述客观世界中概念、实体间的复杂关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱技术是指在建立知识图谱中使用的技术，是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等的交叉研究。知识图谱通过语义链接可以帮助理解大数据，获得对大数据的洞察，提供决策支持。知识图谱可发现、描述、解释、预测和评价科学知识。对图书情报学科具有更重要意义，也有助于信息检索、信息分类与信息服务等。知识图谱是处理关系分析问题的有效方法。事件知识图谱包含了所有历史事件的发生、发展的整个过程，同时也描述了不同事件之间的顺承、因果、时序等关系。如果对事件知识图谱进行仔细的分析，挖掘出其中所包含事件规律和模式的有价值信息，那么就可以通过这些信息来对未来事件进行预测。以科学知识为知识图谱是由Google公司在2012年提出来的一个新的概念，知识图谱是一种大规模语义网络，包括实体（entity）、概念（concept）及其之间的各种语义关系。语义网络是一种以图形化的（Graphic）形式通过点和边表示知识的方式，其基本组成元素是点和边。语义网络的点可以是实体、概念和值。知识图谱中的边可以分为属性（Property）和关系（Relation）两类。关系可以认为是一类特殊的属性，当实体的某个属性值也是一个实体时，这个属性实质上就是关系。语义网络中的边按照其两端节点的类型可以分为概念之间的子类（subclassof）关系、实体与概念之间的实例（instanceof）关系，以及实体之间的各种属性关系。构建知识图谱是一个迭代更新的过程，根据知识获取的逻辑，每一轮迭代包含三个阶段：信息抽取：从各种类型的数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达；知识融合：在获得新知识之后，需要对其进行整合，以消除矛盾和歧义，比如某些实体可能有多种表达，某个特定称谓也许对应于多个不同的实体等；知识加工：对于经过融合的新知识，需要经过质量评估之后（部分需要人工参与甄别），才能将合格的部分加入到知识库中，以确保知识库的质量。

知识图谱在数据分析、智能推荐、智能搜索、人机交互、决策支持等方向得到广泛应用。如何将知识图谱的图结构数据，如节点、边等，表示成数学模型尤其是神经网络模型所需的向量模式进行知识挖掘进而完成实体分类、事件预测等后续任务是知识图谱走向更广泛应用的关键，也是知识图谱相关技术研究的重点和热点。

图表示学习是一种把模型跟机器学习方法相结合的一类技术，当前比较热门的主要有两大类：图嵌入(GraphEmbedding)和图神经网络(GraphNeutralNetwork)。图模型的应用非常广泛，如社交网络，通信网络。在安全领域图模型也有关越来越广泛的应用，比如黑灰产团伙挖掘、安全知识图谱、欺诈检测等等。真实的图或网络往往是高维的难处理的，为了对这种高维数据进行降维，图嵌入技术应运而生，图嵌入的本质是在尽量保证图模型的结构特性的情况下把高维图数据映射到低维向量空间。发展到现在图嵌入技术已经不仅仅是一种降维方法，与深度学习相结合后图嵌入技术可以具有更复杂的图计算与图挖掘能力。图嵌入是图表示学习的一种，简单的来说就是把图模型映射到低维向量空间，表示成的向量形式还应该尽量的保留图模型的结构信息和潜在的特性。自从word2vec这个神奇的算法出世以后，导致了一波嵌入（Embedding）热，基于句子、文档表达的word2vec、doc2vec算法，基于物品序列的item2vec算法，基于图模型的图嵌入技术，无论是在引荐、广告还是反欺诈范畴，各互联网公司基于本身业务与嵌入结合的论文相继问世。

目前图嵌入技术大体可以分为三类：基于因子分解的方法、基于随机游走的方法、基于深度学习的方法。基于因子分解的代表方法有图因子分解、结构保持嵌入等。基于随机游走的代表方法包括Deepwalk、node2vec等。基于深度学习的图嵌入方法起源于DeepWalk，它是一种基于随机游走的方法。它通过随机游走产生结点序列，然后将结点看作单词，序列看作句子，用较为成熟的语言模型，例如SkipGram，来学习网络嵌入。Node2Vec它的基本思想与DeepWalk相同，不同的是随机游走的方式。它结合了深度优先搜索和广度优先搜索，游走带有偏向性。随后，SDNE建议使用深度自动编码器来保持一阶和二阶网络邻近度。它通过联合优化这两个近似值来实现这一点。该方法利用高度非线性函数来获得嵌入。DNGR结合了随机游走和深度自动编码器。使用叠加去噪自动编码器有助于模型在图中存在噪声时的鲁棒性，以及捕获任务（如链路预测和节点分类）所需的底层结构。

SDNE和DNGR两种嵌入方法以每个节点的全局邻域作为输入。对于大型稀疏图来说，这可能是一种计算代价很高且不适用的方法。而图卷积网络（GCN）通过在图上定义卷积算子可以有效解决这个问题。该模型迭代地聚合了节点的邻域嵌入，并使用在前一次迭代中获得的嵌入及其嵌入的函数来获得新的嵌入。仅局部邻域的聚合嵌入使其具有可扩展性，并且多次迭代允许学习嵌入一个节点来描述全局邻域。

随着人工智能时代的到来，事件主体通常借助于高科技手段，行事更加隐蔽、复杂，前兆事件难以被捕捉，事件呈现碎片化，已有的预测预警体系不能有效地进行关联分析与挖掘，严重影响了***件的及时有效防范。

发明内容

本发明的发明目的是针对当前***件预测方法存在的非结构化事件数据信息单一、事件关联分析能力弱、事件特征挖掘不充分、预测响应时间长、预警准确率不高等问题，提供一种以事件图谱为基础，能够有效实现事件关联分析、重要信息挖掘，并实时预测预警的***件预测方法。

本发明的上述目的可以通过以下技术方案予以实现：一种事件知识图谱预测***件的方法，其特征在于：包括预测模型训练和实时预测两个阶段；预测模型训练阶段以历史结构化事件数据为输入数据，构建历史事件图谱，并将历史事件图谱作为事件预测网络模型的输入数据，采用图嵌入网络学习事件图谱的向量化表示训练该预测网络模型，基于深度神经网络建立的分类网络模型来预测事件是否发生；实时预测阶段以实时的结构化事件数据为输入数据构建实时事件图谱，作为已训练完成的事件预测模型的输入数据，将实时事件数据构建的事件图谱输入事件预测模型，事件预测模型以图嵌入网络和深度分类网络构成，图嵌入网络采用图卷积神经网络模型对事件图谱进行表示学习，获取事件图谱的向量化表示，挖掘事件隐藏特征信息；深度分类网络采用卷积神经网络和双向长短时记忆网络挖掘事件数据的深度语义信息；最终转化成一个事件发生和不发生的二分类问题，将概率最大的结果作为事件是否发生的预测结果。

本发明的有益效果是：

信息丰富度高。本发明基于事件图谱挖掘的***件预测，采用预测模型训练和实时预测两个阶段，与现有事件预测方法所使用的非结构化事件数据不同，预测模型训练和实时预测两个阶段采用包含事件主/客体、时间、地点、事件类型、事件提及次数等信息的结构化事件数据，以事件图谱的形式进行关联，数据结构化特征明显、显性信息表达准确、组织性好，有益于深度挖掘事件数据的隐性特征，更好地支撑事件预测技术的开展。

预测响应时间短。本发明采用由离线和在线两个阶段构成的***件预测***，即模型训练阶段和实时预测阶段。模型训练阶段利用历史事件数据完成预测模型的训练，为实时预测阶段提供模型支撑；实时预测阶段将实时事件数据构建的事件图谱输入预测模型得到预测结果。***的预测响应时间主要存在于实时预测阶段，而其中的关系发现和预测模型均是加载于GPU上运行的，预测速度可达到秒级。

事件特征挖掘能力强。本发明以图卷积神经网络挖掘事件知识图谱的深层关联信息，与现有的基于事件频繁模式挖掘与匹配的预测方法相比，能够深度挖掘事件数据之间的隐性特征，且不需要人工干预、智能化水平高。

预测准确率高。本发明以图嵌入网络和深度分类网络构建***件预测***，图嵌入网络采用图卷积神经网络模型对事件图谱进行表示学习，获取事件图谱的向量化表示，充分挖掘事件隐藏特征信息；深度分类网络采用卷积神经网络和双向长短时记忆网络挖掘事件数据的深度语义信息；图卷积神经网络能够准确地表示事件图谱的有价值信息，为事件发生预测的准确判定提供保障，有效提升事件发生预测的准确率。

附图说明

图1是本发明事件知识图谱预测***件***流程框图；

图2是事件图谱可视化示意图；

图3是事件预测模型的结构示意图；

图4是实时预测阶段流程图；

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

具体实施方式

参见图1。根据本发明的一种事件知识图谱预测***件的方法，包括预测模型训练和实时预测两个阶段；预测模型训练阶段以历史结构化事件数据为输入数据，构建历史事件图谱，并将历史事件图谱作为事件预测网络模型的输入数据，采用图嵌入网络学习事件图谱的向量化表示训练该预测网络模型，基于深度神经网络建立的分类网络模型来预测事件是否发生；实时预测阶段以实时的结构化事件数据为输入数据构建实时事件图谱，作为已训练完成的事件预测模型的输入数据，将实时事件数据构建的事件图谱输入事件预测模型，事件预测模型以图嵌入网络和深度分类网络构成，图嵌入网络采用图卷积神经网络模型对事件图谱进行表示学习，获取事件图谱的向量化表示，挖掘事件隐藏特征信息；深度分类网络采用卷积神经网络和双向长短时记忆网络挖掘事件数据的深度语义信息；最终转化成一个事件发生和不发生的二分类问题，将概率最大的结果作为事件是否发生的预测结果。

参见图2。为了能够更好地挖掘事件图谱信息并完成事件发生预测，本实施例事件图谱采用全球知识图谱GKG (Global Knowledge Graph）的GDELT事件库作为数据来源，以日期节点为根节点，与事件相关的节点为子节点的图谱构建方式构建图谱，并在图谱的构建过程中，每个事件相关的节点加入事件类型节点、事件提及次数、参与者名称1、参与者名称2、事件地点等节点信息，每个参与者名称包含参与者国家、参与者类型等，其中，参与者类型节点是指在一定程度上反映事件重要性事件的两个参与者的身份类型；事件提及次数是指事件被其它媒体的提及次数。

图谱中共有7种边，分别为事件类型-事件边、参与者名称-事件边、事件提及次数-事件边、地点-事件边、参与者类型-参与者边、参与者国家-参与者边、事件-日期边，每种边表示一种消息传递方式。

参见图3。事件预测模型包括图嵌入网络和分类网络两部分，图嵌入网络采用图卷积神经网络，以事件图谱为网络输入，图卷积神经网络通过卷积层中不同尺度的卷积运算挖掘事件图谱的隐藏信息，其中卷积层的输出作为线性整流函数ReLU（Rectified LinearUnit, ReLU）层的输入，而每个ReLU层经过非线性变换后输出判别能力强的非线性特征，最后一个ReLU层的输出将作为图卷积神经网络的最终输出，也就是所需要的图嵌入向量。本实施例中图嵌入网络的具体执行过程为：参与者类型与参与者国家两个节点对应一个参与者名称节点，两个参与者名称节点对应一个事件节点，两个节点经消息传递函数处理后取平均；事件节点共收到参与者名称、事件类型、事件提及次数、地点4种类型节点的消息，更新事件节点时累加这些来自不同节点的更新向量；按照与此相同的规则，事件节点向日期节点传递消息，更新日期节点的表示，每个日期节点的表示都是N维向量，日期节点按当天是否发生***件分为两类，通过训练日期节点分类任务获得日期嵌入表示。图卷积神经网络在学习知识图谱的表示时，每个实体都将利用到与其相关的其他实体中的信息，打破了彼此之间的孤立性，从而更完整更丰富的实体、关系表示。本实施例中分类网络采用卷积神经网络与双向长短时记忆网络的组合模型，以图卷积神经网络获得的嵌入向量作为输入，通过卷积神经网络和双向长短时记忆网络挖掘图嵌入表示的局部和全局深度语义信息，输出事件发生与不发生的概率。本发明以历史事件数据训练事件预测网络模型，并以训练完成的预测模型支撑实时***件的发生预测。

参见图4。实时预测阶段，实时事件图谱将实时事件数据构建的事件图谱输入训练阶段得到的事件预测模型，事件预测模型通过图卷积神经网络得到网络节点的向量表示，进而通过CNN+Bi-LSTM网络挖掘事件图谱的深层语义信息，最终得到在当前事件数据情况下的事件是否发生的预测结果。

Claims

1.一种事件知识图谱预测***件的方法，其特征在于：包括预测模型训练和实时预测两个阶段；预测模型训练阶段以历史结构化事件数据为输入数据，构建历史事件图谱，并将历史事件图谱作为事件预测网络模型的输入数据，采用图嵌入网络学习事件图谱的向量化表示训练该预测网络模型，基于深度神经网络建立的分类网络模型来预测事件是否发生；实时预测阶段以实时的结构化事件数据为输入数据构建实时事件图谱，作为已训练完成的事件预测模型的输入数据，将实时事件数据构建的事件图谱输入事件预测模型，事件预测模型以图嵌入网络和深度分类网络构成，图嵌入网络采用图卷积神经网络模型对事件图谱进行表示学习，获取事件图谱的向量化表示，挖掘事件隐藏特征信息；深度分类网络采用卷积神经网络和双向长短时记忆网络挖掘事件数据的深度语义信息；最终转化成一个事件发生和不发生的二分类问题，将概率最大的结果作为事件是否发生的预测结果。

2.如权利要求1所述的事件知识图谱预测***件的方法，其特征在于：事件图谱采用全球知识图谱GKG的GDELT事件库作为数据来源，以日期节点为根节点，与事件相关的节点为子节点的图谱构建方式构建图谱。

3.如权利要求2所述的事件知识图谱预测***件的方法，其特征在于：在图谱的构建过程中，每个事件相关的节点加入事件类型节点、事件提及次数、参与者名称1、参与者名称2、事件地点的节点信息，每个参与者名称包含参与者国家、参与者类型，其中，参与者类型节点是指在一定程度上反映事件重要性事件的两个参与者的身份类型；事件提及次数是指事件被其它媒体的提及次数。

4.如权利要求3所述的事件知识图谱预测***件的方法，其特征在于：图谱中有至少7种边，分别为事件类型-事件边、参与者名称-事件边、事件提及次数-事件边、地点-事件边、参与者类型-参与者边、参与者国家-参与者边、事件-日期边，每种边表示一种消息传递方式。

5.如权利要求1所述的事件知识图谱预测***件的方法，其特征在于：事件预测模型包括图嵌入网络和分类网络两部分，图嵌入网络采用图卷积神经网络，以事件图谱为网络输入，图卷积神经网络通过卷积层中不同尺度的卷积运算挖掘事件图谱的隐藏信息，其中卷积层的输出作为线性整流函数ReLU层的输入，而每个ReLU层经过非线性变换后输出判别能力强的非线性特征，最后一个ReLU层的输出将作为图卷积神经网络的最终输出，也就是所需要的图嵌入向量。

6.如权利要求1所述的事件知识图谱预测***件的方法，其特征在于：图嵌入网络的具体执行过程为：参与者类型与参与者国家两个节点对应一个参与者名称节点，两个参与者名称节点对应一个事件节点，两个节点经消息传递函数处理后取平均；事件节点共收到参与者名称、事件类型、事件提及次数、地点4种类型节点的消息，更新事件节点时累加这些来自不同节点的更新向量；按照与此相同的规则，事件节点向日期节点传递消息，更新日期节点的表示，每个日期节点的表示都是N维向量，日期节点按当天是否发生***件分为两类，通过训练日期节点分类任务获得日期嵌入表示。

7.如权利要求1所述的事件知识图谱预测***件的方法，其特征在于：图卷积神经网络在学习知识图谱的表示时，每个实体都将利用到与其相关的其他实体中的信息，打破彼此之间的孤立性，完整丰富的实体、关系表示。

8.如权利要求1所述的事件知识图谱预测***件的方法，其特征在于：分类网络采用卷积神经网络与双向长短时记忆网络的组合模型，以图卷积神经网络获得的嵌入向量作为输入，通过卷积神经网络和双向长短时记忆网络挖掘图嵌入表示的局部和全局深度语义信息，输出事件发生与不发生的概率。

9.如权利要求1所述的事件知识图谱预测***件的方法，其特征在于：以历史事件数据训练事件预测网络模型，训练完成的预测模型支撑实时***件的发生预测。

10.如权利要求1所述的事件知识图谱预测***件的方法，其特征在于：实时预测阶段，实时事件图谱将实时事件数据构建的事件图谱输入训练阶段得到的事件预测模型，事件预测模型通过图卷积神经网络得到网络节点的向量表示，进而通过CNN+Bi-LSTM网络挖掘事件图谱的深层语义信息，最终得到在当前事件数据情况下的事件是否发生的预测结果。