CN112989060B - 一种基于gcn的重大事件趋势预测方法 - Google Patents
一种基于gcn的重大事件趋势预测方法 Download PDFInfo
- Publication number
- CN112989060B CN112989060B CN202011328486.3A CN202011328486A CN112989060B CN 112989060 B CN112989060 B CN 112989060B CN 202011328486 A CN202011328486 A CN 202011328486A CN 112989060 B CN112989060 B CN 112989060B
- Authority
- CN
- China
- Prior art keywords
- event
- graph
- node
- gcn
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于GCN的重大事件趋势预测方法。本发明从关系型数据库获取结构化事件信息数据,构建事件语义关联图,选择时间片粒度分割出局部图;基于GCN的趋势预测模型模型输入为多个局部事件语义关联图的节点向量和邻接矩阵,输出为趋势等级。该方法增强了对文本的语义理解,预测精度优于基于专家知识构建特征的方法。本发明方法具有时效性高、普适性强等优点,在重大事件趋势等级预测上具有广阔的应用前景。
Description
技术领域
本发明涉及自然语言处理、知识图谱的应用领域,涉及一种从事件信息数据中构建语义关联图并提取事件图特征,并通过图卷积网络提取图特征对重大事件的趋势等级进行预测的方法。
背景技术
在国际政治关系研究领域,重大事件一般指对国家或地区间会产生重大影响的一类事件。重大事件趋势预测将事件发展趋势划分为不同等级,利用已发生事件预测未来趋势等级,目前主要研究方法可分为基于事件数据分析法的定量分析和基于机器学习分类的方法两类。
传统方法依赖专家知识构建领域专题数据及特征指标量化,同时存在特征维度有限、时效性较弱等问题。随着自然语言处理、深度学习和大数据处理等相关技术的发展,使得基于海量公开新闻数据进行特征学习,自动化构建重大事件趋势预测模型成为可能。目前自动抽取特征的方法主要采用的主题词分布特征,这种方法仅考虑了词频特征,进一步通过事件抽取技术对新闻报道进行解析,获取各事件的发起者、承受者和事件类型等核心要素,利用事件类型频次信息构建语义与事件融合的特征,这种融合事件特征的方法已经尝试利用事件数据来提升文档语义理解程度,在统计事件类型频次信息时,对发起者和承受者的进行约束,但仅考虑到高频事件的频次信息,并未充分利用事件信息数据,割裂了词汇间或事件属性间的关联,仍然存在对文档特征语义理解不足的问题,因此,需要考虑以新的形式组织利用事件信息数据,丰富特征中的文档事件语义关联信息。
本发明受知识图谱以图的形式组织概念知识的启发,将事件的多维度要素信息图谱化有助于更好地理解新闻文本传递的语义信息,把握事件发展的趋势。事件信息建模为图数据后,需要将其进行特征表示以辅助重大事件趋势预测,考虑图这一非结构化数据的特殊性,采用针对图的卷积网络能够提取事件信息关联的多维特征。
本发明针对重大事件预测在特征选择时依赖关键词与事件类型频次,忽略了词汇间的关联信息,造成文档所传递语义丢失的问题,基于结构化事件信息数据,构建了以事件为中心的事件语义关联图(Event Semantic Association Graph,ESAG);然后在从事件语义关联图中分割出局部图,利用图卷积网络(Graph Convolution Network,GCN)聚合局部图的节点特征并读出图特征,最终对局部图的趋势等级分类。采用图卷积网络构建的趋势预测模型,由于充分利用了事件要素的语义关联信息,故能够提高趋势预测的精度。
发明内容
针对基于公开新闻数据的重大事件趋势预测研究在文本特征提取上语义理解不足问题,本发明提出了基于图卷积网络的重大事件趋势预测方法。该方法增强了对文本的语义理解,预测精度优于基于专家知识构建特征的方法。为了达到上述目的,本发明采用技术方案如下:
一种基于GCN的重大事件趋势预测方法,其特征在于该方法具体包括以下步骤:
步骤(1)、数据预处理:
从关系型数据库获取结构化事件信息数据,生成事件语义关联图,并存入图数据库;
所述结构化事件信息数据包括事件描述、事件属性;其中事件属性包括时间、地点、参与者、事件类型等;
所述事件语义关联图由节点、边构成,中心节点为事件描述,与中心节点直接关联的节点为事件属性,边为事件属性类型;同一边的相邻节点为同一事件上的结构化事件信息数据;
图的存储过程如下:从结构化事件信息数据提取字段名、字段值,字段名对应节点类型、字段值对应节点,以事件句为核心节点、事件属性为从节点建立关联,构建事件语义关联图,存储到Neo4J图数据库中;在每次存入新的节点(核心节点或从节点)数据,查询节点是否已存在,若已存在,则不重复在图数据库中存储节点,进而公共节点建立起了间接关联;若不存在则建立新节点;将事件数据库中所有数据经过上述处理过程后,事件语义关联图构建完成,可对事件语义关联图进行检索及进一步利用;
步骤(2)、局部图分割:选择时间片粒度分割出局部图,并对节点进行向量化;
2.1按时间片从事件语义关联图中分割出局部事件语义关联图
gt={VT,ET,T∈[t-n,t-1]},其中t属于事件数据集中某一月,n表示时间片粒度,T表示时间片,VT表示T时间片的节点集,ET表示T时间片的边集;
2.2将局部事件语义关联图的节点向量化表示,并构建所有节点的邻接矩阵;
其中Aij表示i和j两节点在邻接矩阵中的值,vi表示节点i,vj表示节点j,E表示边集;
作为优选,事件描述节点一般为长句,取分词后的文本词向量均值,其余直接成词的事件属性节点直接获取词向量,未登陆词用零向量代替;
步骤(3)、模型构建:利用图卷积网络提取事件图特征,构建基于GCN的趋势预测模型;
基于GCN的趋势预测模型模型输入为多个局部事件语义关联图的节点向量和邻接矩阵,输出为趋势等级;
基于GCN的趋势预测模型包括两个图卷积网络层、图特征池化层、全连接层、softmax层;
第一个图卷积网络层,用于对局部事件语义关联图提取聚合事件一阶自相关属性节点向量;
第二个图卷积网络层,用于对第一个图卷积网络层输出的聚合事件一阶自相关属性节点信息提取聚合二阶节点特征信息;
图特征池化层,用于对图中所有二阶节点特征池化处理,得到图的特征表示;
式中hg为图特征表示向量,|N(v)|为相邻节点数目,hv为二阶节点特征v的特征向量;
全连接层,用于对图的特征表示做线性变换,得到归一化前每一类的概率;
softmax层,用于归一化计算每一类的概率;
训练时采用交叉熵损失函数,如式(4)所示;
本发明的有益效果是:
(1)本发明从传统的基于频次统计的角度转换到面向事件认知的角度,构建了事件语义关联图,降低了人工分析成本;
(2)相比传统方法,本发明充分利用了事件语义关联信息,提升了文本语义理解能力;
(3)本发明设计了一种基于图卷积网络的事件图特征提取方法,实现了端到端的事件趋势等级预测。
附图说明
图1是基于GCN的重大事件趋势预测流程图;
图2是事件语义关联图示例;
图3是本发明基于GCN的趋势预测模型的结构图。
图4(a)是不同图卷积网络层个数对于模型预测准确率对比,图4(b)是本发明两层图卷积网络层的预测模型与专家知识预测准确率对比;
具体实施方式
以下结合技术方案和附图,详细叙述本发明的具体实施方式。
如图1所示,一种基于GCN的重大事件趋势预测方法,具体如下:
(1)数据预处理:利用基于模式匹配的事件抽取技术,从关系型数据库抽取结构化事件信息数据,生成全局事件语义关联图并存入图数据库;
所述结构化事件信息数据包括事件描述、事件属性;事件属性包括时间、地点、参与者、事件类型等。
所述事件语义关联图由节点、边构成,中心节点为事件描述,与中心节点直接关联的节点为事件属性,边为事件属性类型;同一边的相邻节点为同一事件上的结构化事件信息数据。
将原始单篇新闻文档解析为多条事件数据,为事件语义关联图中的节点服务。
受制于中文的事件及事件间关系的标注语料匮乏、标注体系不统一,目前,难以准确识别事件间直接关系。本文所构建的事件语义关联图侧重于事件属性关联,即事件间通过共有事件属性(如:时间、地点、发起者、承受者等)相关联。中心节点为事件描述,与中心节点直接关联的节点为事件属性,由重叠的事件属性扩展链路关联到其他事件,类型有事件句、时间、地点、参与者、事件类型、事件所属领域、事件来源七种,边有时间、地点、发起、承受、事件类型、领域、来源七种类型。事件语义关联图示例如图2所示。
例如,某某媒体报道了某首脑2018年6月12日会谈及其联合声明的内容。从原始新闻报道中抽取出两条事件数据,两事件共有的事件属性有新闻来源、时间、地点、发起者、事件所属领域,进而将两事件通过共有属性间接关联起来。
图的存储过程如下:从事件数据库中逐条读数据,字段名对应节点类型、字段值对应节点,以事件句为核心节点、事件属性为从节点建立关联,存储到Neo4J图数据库中;在每次存入新的节点数据,查询节点是否已存在,若已存在,则不重复在图数据库中存储节点,进而拥有相同事件属性的事件建立起了间接关联。将事件数据库中所有数据经过上述处理过程后,事件语义关联图构建完成,可对事件语义关联图进行检索及进一步利用。
(2)局部图分割:选择时间片粒度分割出局部图,并对节点进行向量化;
面向国际政治领域的重大事件趋势一般以月为单位进行预测,事件语义关联图是包含整个时间段的,而某一阶段的重大事件趋势仅与前一个月或几个月发生的事件有关;因此,需要按时间片从事件语义关联图中分割出局部图作为当前阶段的特征图gt={VT,ET,T∈[t-n,t-1]},其中,t属于事件数据集中某一月,n表示时间片粒度,T表示时间片,V表示节点集,E表示边集。
以预测2018年3月趋势等级为例,假设时间片粒度n为2,即从事件语义关联图中检索出事件时间属性在2018年1至2018年2月间的所有节点及边,生成局部事件语义关联图(Local-Event Semantic Association Graph,L-ESAG)。
图中节点均为中文描述,事件描述节点一般为长句,取分词后的文本词向量均值,其余直接成词的属性节点直接获取词向量,未登陆词用零向量代替。采用涵盖八百万词汇的腾讯预训练词向量将图中的文本节点特征向量化表示vi=[0.001,0.365,0.128,...],为后续模型输入服务。若两节点间存在边,则将邻接关系矩阵相应位置置1,否则置0。
(3)模型构建:利用图卷积网络提取事件图特征,构建基于GCN的趋势预测模型;
区别于以往预测方法输入的结构化特征向量,本发明趋势预测模型输入为非结构化的图,传统的深度卷积网络可以对结构化数据(图像、语音、序列等)进行特征提取,但图数据具有非结构化、无序、随机的特点,本发明构建的L-ESAG节点及关系数不是固定的,表达形式更灵活,无法将其对齐成固定尺度的特征矩阵利用传统卷积网络进行特征提取,因此,需要采用针对图的卷积网络,图卷积网络在捕获特征时不受限于二维结构上的依赖关系,能够聚合更丰富的关联节点信息。本发明结合图卷积网络,构建了基于GCN的趋势预测模型。将重大事件趋势预测转化为分类问题,模型输入为局部事件语义关联图,输出为趋势等级。
基于GCN的趋势预测模型模型输入为多个局部事件语义关联图的节点向量和邻接矩阵,输出为趋势等级;
如图3基于GCN的趋势预测模型包括两个图卷积网络层、图特征池化层、全连接层、softmax层;
第一个图卷积网络层,用于对局部事件语义关联图提取聚合事件一阶自相关属性节点向量;
第二个图卷积网络层,用于对第一个图卷积网络层输出的聚合事件一阶自相关属性节点信息提取聚合二阶节点特征信息;
图特征池化层,用于对图中所有二阶节点特征池化处理,得到图的特征表示;
式中hg为图特征表示向量,|N(v)|为相邻节点数目,hv为二阶节点特征v的特征向量;
全连接层,用于对图的特征表示做线性变换,得到归一化前每一类的概率;
softmax层,用于归一化计算每一类的概率;
基于GCN的趋势预测模型构建过程如下:首先,选择时间片粒度n,即利用前n个月的事件数据生成L-ESAG,预测当前月趋势值;其次,将训练集中多组L-ESAG输入到图卷积网络并选择卷积层数,利用图卷积网络聚合节点领域信息,不断迭代更新节点特征,每张图中节点数不一,对图中所有节点特征读出后取平均得到图的特征表示;再次,将图的表示输入分类器,分类器对图的表示做线性变换后计算每类的概率,训练过程采用反向传播和梯度下降更新权重参数;最后,将测试集的事件语义关联图输入训练好的模型进行分类并输出预测结果。
训练时采用交叉熵损失函数,如式(4)所示。
如图4本发明针对不同图卷积网络层个数做效果比对,其中1-GCN表示1个图卷积网络层,2-GCN表示2个图卷积网络层,3-GCN表示3个图卷积网络层。
图4(a)考虑到图卷积层数l对预测结果的影响,将卷积层数l设置了1至3进行对比,从预测结果来看,当l为2时,在测试准确率上优于l为1和3。当l为1时,图特征聚集了节点的1阶邻域信息,即事件与事件属性间的关联信息;当l为2时,可以聚集节点的2邻域信息,即可关联事件—事件属性—事件间的信息,从而获得事件与事件间的关联;当l增加到3时,图中节点会进行三重关联,即关联事件属性间的关联,此时可能产生部分冗余特征。
图4(b)本发明方法在时间片粒度n为4个月,卷积层数l为2时,预测效果最佳,预测准确率高于基于专家知识确定特征的传统方法,验证了本发明所提预测方法的有效性。
Claims (5)
1.一种基于GCN的重大事件趋势预测方法,其特征在于该方法具体包括以下步骤:
步骤(1)、数据预处理:
从关系型数据库获取结构化事件信息数据,生成事件语义关联图,并存入图数据库;
步骤(2)、局部图分割:选择时间片粒度分割出局部图,并对节点进行向量化;
步骤(3)、模型构建:利用图卷积网络提取事件图特征,构建基于GCN的趋势预测模型;
基于GCN的趋势预测模型输入为多个局部事件语义关联图的节点向量和邻接矩阵,输出为趋势等级;
基于GCN的趋势预测模型包括两个图卷积网络层、图特征池化层、全连接层、softmax层:
第一个图卷积网络层,用于对局部事件语义关联图提取聚合事件一阶自相关属性节点向量;
第二个图卷积网络层,用于对第一个图卷积网络层输出的聚合事件一阶自相关属性节点信息提取聚合二阶节点特征信息;
图特征池化层,用于对图中所有二阶节点特征池化处理,得到图的特征表示;
式中hg为图特征表示向量,|N(v)|为相邻节点数目,hv为二阶节点特征v的特征向量;
全连接层,用于对图的特征表示做线性变换,得到归一化前每一类的概率;
softmax层,用于归一化计算每一类的概率;
4.如权利要求1所述的一种基于GCN的重大事件趋势预测方法,其特征在于步骤(1)所述结构化事件信息数据包括事件描述、事件属性;
所述事件语义关联图由节点、边构成,中心节点为事件描述,与中心节点直接关联的节点为事件属性,边为事件属性类型;同一边的相邻节点为同一事件上的结构化事件信息数据。
5.如权利要求4所述的一种基于GCN的重大事件趋势预测方法,其特征在于事件属性包括时间、地点、参与者、事件类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011328486.3A CN112989060B (zh) | 2020-11-24 | 2020-11-24 | 一种基于gcn的重大事件趋势预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011328486.3A CN112989060B (zh) | 2020-11-24 | 2020-11-24 | 一种基于gcn的重大事件趋势预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989060A CN112989060A (zh) | 2021-06-18 |
CN112989060B true CN112989060B (zh) | 2022-04-15 |
Family
ID=76344836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011328486.3A Active CN112989060B (zh) | 2020-11-24 | 2020-11-24 | 一种基于gcn的重大事件趋势预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989060B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159425A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 一种基于历史关系和双图卷积网络的时态知识图谱表示方法 |
CN111581983A (zh) * | 2020-05-13 | 2020-08-25 | 中国人民解放军国防科技大学 | 基于群体分析的网络舆论事件中社会关注热点的预测方法 |
CN111598710A (zh) * | 2020-05-11 | 2020-08-28 | 北京邮电大学 | 社交网络事件的检测方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030135817A1 (en) * | 2002-01-11 | 2003-07-17 | G.E. Information Services, Inc. | Automated method, system and software for storing data in a general format in a global network |
-
2020
- 2020-11-24 CN CN202011328486.3A patent/CN112989060B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159425A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 一种基于历史关系和双图卷积网络的时态知识图谱表示方法 |
CN111598710A (zh) * | 2020-05-11 | 2020-08-28 | 北京邮电大学 | 社交网络事件的检测方法和装置 |
CN111581983A (zh) * | 2020-05-13 | 2020-08-25 | 中国人民解放军国防科技大学 | 基于群体分析的网络舆论事件中社会关注热点的预测方法 |
Non-Patent Citations (1)
Title |
---|
基于改进LDA特征抽取的重大事件趋势预测;彭博远等;《杭州电子科技大学学报(自然科学版)》;20200331;第40卷(第2期);第61-67页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112989060A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052583B (zh) | 电商本体构建方法 | |
CN111563164B (zh) | 一种基于图神经网络的特定目标情感分类方法 | |
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN110597735A (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
US20040034633A1 (en) | Data search system and method using mutual subsethood measures | |
US20040024755A1 (en) | System and method for indexing non-textual data | |
US20040024756A1 (en) | Search engine for non-textual data | |
CN117290489B (zh) | 一种行业问答知识库快速构建方法与*** | |
CN115934990B (zh) | 基于内容理解的遥感影像推荐方法 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN111190968A (zh) | 基于知识图谱的数据预处理和内容推荐方法 | |
CN112508600A (zh) | 一种基于互联网公开数据的车辆价值评估方法 | |
CN111078835A (zh) | 简历评估方法、装置、计算机设备及存储介质 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成***及生成方法 | |
US20240086731A1 (en) | Knowledge-graph extrapolating method and system based on multi-layer perception | |
CN113379457A (zh) | 面向金融领域的智能营销方法 | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与*** | |
CN115982379A (zh) | 基于知识图谱的用户画像构建方法和*** | |
CN115098706A (zh) | 一种网络信息提取方法及装置 | |
CN116257759A (zh) | 一种深度神经网络模型的结构化数据智能分类分级*** | |
CN114077661A (zh) | 信息处理装置、信息处理方法和计算机可读介质 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN111259223B (zh) | 基于情感分析模型的新闻推荐和文本分类方法 | |
CN112925983A (zh) | 一种电网资讯信息的推荐方法及*** | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |