CN113449204B - 基于局部聚合图注意力网络的社会事件分类方法、装置 - Google Patents
基于局部聚合图注意力网络的社会事件分类方法、装置 Download PDFInfo
- Publication number
- CN113449204B CN113449204B CN202110787860.4A CN202110787860A CN113449204B CN 113449204 B CN113449204 B CN 113449204B CN 202110787860 A CN202110787860 A CN 202110787860A CN 113449204 B CN113449204 B CN 113449204B
- Authority
- CN
- China
- Prior art keywords
- social
- graph
- events
- event
- social events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于局部聚合图注意力网络的社会事件分类方法、装置,其可以为网络和现实世界的社会事件进行分类,为社会事件的处理提供决策支持:抽取新闻文本数据中的时间、地点、人员、组织及关键词信息,建模成异构信息网络,并抽取出异构信息网络的元模式,选择多条具有不同语义的元路径,通过元路径计算两个社会事件之间的相似度,拼接社会事件的语义特征和社会事件的社会影响力特征得到社会事件的融合特征;将得到的相似度作为社会事件分类图的节点间的边权重,将得到混合特征作为节点特征,构建社会事件分类图;构建并训练社会事件分类模型,将社会事件分类图输入训练好的社会事件分类模型,输出社会事件的类别。
Description
技术领域
本发明属于网络舆情分析,数据挖掘,社会事件分析技术领域,特别涉及一种基于局部聚合图注意力网络的社会事件分类方法、装置。
背景技术
抗议、斗争和合作之类的社会事件的发生会对社会产生重大影响。从大型异构的开源新闻媒体中对社会事件进行分类是当前的研究热点。以往的研究中,事件分类方法主要将社会事件视为同质词或同质元素共现图,这些方法取得了一定的效果,但这些方法在建模社会事件时还是模糊不清的且可解释性较差,主要原因是以往研究没有考虑到事件中所蕴含的不同类型的元素,例如人员,时间,位置等。建模社会事件中的异构元素及其关系对于实现可解释和准确的分类是至关重要,本发明旨在提出一种新的社会事件分类方法解决目前存在的问题。
发明内容
针对上述问题,本发明公开了一种基于局部聚合图注意力网络的社会事件分类方法、装置,其可以为网络和现实世界的社会事件进行分类,为社会事件的处理提供决策支持。其技术方案是这样的:一种基于局部聚合图注意力网络的社会事件分类方法,包括以下步骤:
步骤1:采集社会事件相关的新闻文本数据,抽取新闻文本数据中的时间、地点、人员、组织及关键词信息;
步骤2:将抽取出的社会事件的时间、地点、人员、组织及关键词信息建模成异构信息网络,并抽取出异构信息网络的元模式;
步骤3:根据抽取出的异构信息网络的元模式,选择多条具有不同语义的元路径,通过元路径计算两个社会事件之间的相似度;
步骤4:从社会事件相关的新闻文本数据中获取社会事件的语义特征;将社会事件的政治影响力、舆论影响力和情感极性建模为社会事件的社会影响力特征,拼接社会事件的语义特征和社会事件的社会影响力特征得到社会事件的融合特征;
步骤5:将得到的两个社会事件之间的相似度作为社会事件分类图的节点间的边权重,将得到的社会事件的融合特征作为节点特征,构建社会事件分类图;
步骤6:构建并训练社会事件分类模型,所述社会事件分类模型包括顺序设置的局部聚合图神经网络GraphSAGE层、自监督图注意力网络SuperGAT层、逻辑分类层,将社会事件分类图输入训练好的社会事件分类模型,输出社会事件的类别。
进一步的,在步骤1中,从新闻数据库中获取社会事件相关的新闻文本数据,从新闻文本数据中获取社会事件的时间、地点、人员、组织,并通过TF-IDF算法提取社会事件的关键词,为关键词添加同义词以及反义词。
进一步的,步骤2具体包括以下步骤:
步骤201:获得每个社会事件对应的时间、地点、人员、组织及关键词信息,并根据现实意义为时间、地点、人员、组织及关键词信息中不同实例添加关系。
步骤202:以社会事件的时间、地点、人员、组织及关键词作为对象,并以对象的实例具有的关系构建异构信息网络,表示为其中V表示对象,为对象类型映射函数,将节点集合映射到对象集合,E表示关系,ψ:E→R为关系类型映射函数,将边集合映射到关系集合,元模式表示为TG=(A,R),A表示作为节点的对象类型集合,对象V为对象类型集合A的一个对象类型,R表示关系类型集合,关系E为关系类型集合R中的一个关系类型,元模式TG=(A,R)是定义在对象类型集合A上的有向图,并以R上的关系为边,且有信息网络的对象类型数|A|>1或者关系类型数|R|>1。
进一步的,步骤3具体包括以下步骤:
步骤302:通过元路径计算两个社会事件之间的相似度:
其中,Sim(ei,ej)表示两个社会事件之间的相似度,是社会事件ei和ej之间元路径Pm上的实例总数,wm是用于衡量不同元路径重要性的可学习的参数,b是可学习的偏置参数,ReLU(·)是激活函数,不同社会事件之间的相似度表示为Sim(ei,ej)。
进一步的,步骤4具体包括以下步骤:
步骤401:将社会事件相关的新闻文本数据中的每个单词通过预训练语言模型BERT表示成词向量,将词向量输入BiGRU模型计算得到隐藏向量,使用全连接神经网络获得社会事件的语义特征;
步骤402:将社会事件的政治影响力、舆论影响力和情感极性建模为事件的社会影响力特征;
步骤403:拼接语义特征和社会影响力特征得到社会事件的融合特征;
进一步的,步骤4具体包括以下步骤:
步骤401b:将第i个单词的词向量输入BiGRU模型计算得到隐藏向量,表示为:
步骤401c:使用全连接神经网络获得社会事件的语义特征fSem,按照以下公式计算:
其中,MLP表示全连接网络,concat(·)表示连接操作。
步骤402:对于一社会事件,获取其政治影响力评估值ScoreG,新闻舆论影响力评估值ScoreI,事件情感极性评估值ScoreT,其中政治影响力评估值ScoreG,事件情感极性评估值ScoreT为能够从全球新闻数据库GDELT中获得的标量数值,事件情感极性评估值ScoreI通过如下公式计算得到:
ScoreI=concat([NumMentions;NumSources;NumArticles])
其中NumMentions代表全球新闻数据库GDELT中间接提及该事件的新闻数量,NumSources代表全球新闻数据库GDELT中发布有关该事件的新闻媒体数目,NumArticles代表全球新闻数据库GDELT中与事件直接相关的新闻数量,则社会影响力特征fSoc按照以下公式计算:
fSoc=MLP(concat[ScoreG;ScoreI;ScoreT])
步骤403:则对于某一特定社会事件,拼接语义特征和社会影响力特征得到社会事件的融合特征h,表示为:
h=concat([fSem;fSoc])
进一步的,步骤5中包括以下步骤:
步骤501:将得到的两个社会事件之间的相似度作为社会事件分类图的节点间的边权重,表示为:
A[i,j]=Sim(ei,ej)
其中,A[i,j]表示社会事件分类图的节点i和节点j的边权重;
步骤502:将社会事件作为节点,将得到的社会事件的融合特征h作为节点的特征,两个社会事件之间的相似度作为社会事件分类图的节点间的边权重,构建社会事件分类图(A,H),其中H为作为节点的新闻事件的特征矩阵,A为边权重的矩阵。
进一步的,步骤6中包括以下步骤:
步骤601:构建社会事件分类模型,所述社会事件分类模型包括顺序设置的局部聚合图神经网络GraphSAGE层、自监督图注意力网络SuperGAT层、逻辑分类层;
将社会事件分类图输入局部聚合图神经网络GraphSAGE层,社会事件分类图中节点i经过局部聚合图神经网络层输出的特征向量表示为:
其中,hi表示第i个节点特征h,是第i个节点在图中的邻居节点集合,hj表示节点i的邻居节点的特征,W1,W2可学习的权重参数矩阵,表示将集合中的特征向量hj相加之后取均值,局部聚合图神经网络层输出的特征矩阵HGS表示为:
将局部聚合图神经网络层输出的特征矩阵HGS输入自监督图注意力网络SuperGAT层,表示为:
其中,是第i个节点在图中的邻居节点集合,对于第i个节点的邻居节点集合中的任一节点j,αj表示节点j经过标准化处理的权重系数,ej表示节点j的初始权重分数;LeakyReLU(·)是一种激活函数,exp(·)表示指数函数。W3,W4是可学习的权重参数矩阵,d是特征向量的长度。
监督图注意力网络层输出的特征矩阵表示为:
将自监督图注意力网络层输出的特征矩阵HSG输入逻辑分类层,表示为
Z=sigmoid(HSG)
其中sigmoid为分类函数,Z为输出的社会事件的类别序号;
步骤602:以步骤1中的方法构造训练集,对于训练集的社会事件,按照事件类别进行分别,并为每个事件类别设置类别序号,通过训练集的数据对社会事件分类模型,进行训练迭代,直至模型收敛,得到训练好的社会事件分类模型;
步骤603:将需要分类的社会事件对应的社会事件分类图输入社会事件分类模型,输出需要分类的输出的社会事件的类别序号,通过类别序号获得社会事件的分类结果。
一种计算机装置,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上述的基于局部聚合图注意力网络的社会事件分类方法、装置。
一种计算机可读存储介质,其上存储有程序,其特征在于:所述程序被处理器执行时实现如上述的基于局部聚合图注意力网络的社会事件分类方法、装置。
本发明具有的有益效果是:
1.本发明通过将社会事件建模为异构信息网络,通过元路径计算两个社会事件之间的相似度,该方法充分考虑了社会事件的五种信息维度分别是时间、位置、人员、组织以及关键词,将复杂的社会事件建模为具有五个维度的异构信息网络,事件表述更见简洁,事件之间的相似度度量更加准确且具有较强的可解释性。
2.本发明设计了一套用于衡量社会事件相似度的元路径集合,其中包括25条具有不同语义的元路径,其可以从多个维度和方面考量社会事件之间的内在关联,为日后基于元路径的相似度构造研究提供了思路和基准。
3.本发明设计了一个新的基于语义和社会影响力的事件特征提取框架,将语义特征与社会影响力特征结合起来,得到事件的混合特征表示。语义特征首先使用了经过充分训练的大规模预训练语言模型,得到了良好的单词级语义表示,之后使用门控循环单元(GRU),融合句子整体的实际含义,总的来说,本专利使用的语义特征融合了单词级的具体语义与句子级的真实含义,有助于后续事件分类;社会影响力特征考虑了事件的政治影响力、社会舆论影响力以及事件的情感极性,从三个维度对事件的社会影响力进行建模,为后续准确分类奠定了基础。
3.本发明提出了一种新的局社会事件分类方法,分类模型使用了局部聚合图注意力网络,局部聚合图注意力网络包括了局部聚合图神经网络GraphSAGE层和自监督图注意力网络SuperGAT层,两者均具有的优势是可以仅使用邻居节点的特征而无需遍历全部节点,大幅降低了计算复杂度提高了模型训练效率。局部聚合图神经网络使用到了局部采样和邻居聚合的技术,局部采样使得其可以应对大批量的图数据,邻居聚合技术使得其可以对新加入节点的特征进行推理;自监督图注意力网络可以有效应对网络中出现的噪声,并可以将注意力权重更多的分配于标签一致的邻居节点。且相对于现有的数据分类模型譬如卷积神经网络(CNN)、门控循环神网络(GRU)、文本图卷积网络(TextGCN)、快速文本分类方法Fasttext、图卷积神经网络(GCN)、图注意力网络(GAT)、大规模预训练语言模型BERT在分类准确率上有显著提升。
4.本发明可以用于社会事件分析,数据挖掘领域,尤其可以用于监测某一类社会事件的预测与监管,具有广泛的应用前景。
附图说明
图1为本发明的本发明的基于局部聚合图注意力网络的社会事件分类方法、装置的主要流程示意图;
图2为社会事件的元模式的示意图;
图3为一个实施例中计算机装置的内部结构图。
具体实施方式
见图1,本发明的一种基于局部聚合图注意力网络的社会事件分类方法,至少包括以下步骤:
步骤1:采集社会事件相关的新闻文本数据,抽取新闻文本数据中的时间、地点、人员、组织及关键词信息;
步骤2:将抽取出的社会事件的时间、地点、人员、组织及关键词信息建模成异构信息网络,并抽取出异构信息网络的元模式;
步骤3:根据抽取出的异构信息网络的元模式,选择多条具有不同语义的元路径,通过元路径计算两个社会事件之间的相似度;
步骤4:从社会事件相关的新闻文本数据中获取社会事件的语义特征;将社会事件的政治影响力、舆论影响力和情感极性建模为社会事件的社会影响力特征,拼接社会事件的语义特征和社会事件的社会影响力特征得到社会事件的融合特征;
步骤5:将得到的两个社会事件之间的相似度作为社会事件分类图的节点间的边权重,将得到的社会事件的融合特征作为节点特征,构建社会事件分类图;
步骤6:构建并训练社会事件分类模型,所述社会事件分类模型包括顺序设置的局部聚合图神经网络GraphSAGE层、自监督图注意力网络SuperGAT层、逻辑分类层,将社会事件分类图输入训练好的社会事件分类模型,输出社会事件的类别。
具体在本发明的一个实施例中,在步骤1中,从新闻数据库中获取社会事件相关的新闻文本数据,在本实施例中,选取了全球新闻数据库GDELT获取新闻文本数据,并获取社会事件对应的事件类别例如合作、抗议、斗争等,本实施例采用如表1所示的事件类别分类:
序号 | 事件类别 | 序号 | 事件类别 |
1 | 公开声明 | 11 | 不赞成 |
2 | 呼吁 | 12 | 拒绝 |
3 | 合作意向 | 13 | 威胁 |
4 | 商讨 | 14 | 抗议 |
5 | 外交合作 | 15 | 炫耀军事力量 |
6 | 实质合作 | 16 | 减少关系 |
7 | 援助 | 17 | 胁迫 |
8 | 妥协 | 18 | 攻击 |
9 | 调查 | 19 | 对抗 |
10 | 要求 | 20 | 大规模暴力 |
表1
当然在本发明的其他实施例中,也可以采用更多其他的事件类别分类,在此不一一描述。
获得新闻文本数后,会从新闻文本数据中获取社会事件的时间、地点、人员、组织,并构造社会事件的关键词,组织就是指人们为实现一定的目标,互相协作结合而成的集体或团体,如党团组织、工会组织、企业、军事组织等等。
具体在本实施例中,社会事件的关键词通过TF-IDF算法提取,并为关键词添加同义词以及反义词。
在本实施例中,步骤2具体包括以下步骤:
步骤201:获得每个社会事件对应的日期、位置、人员、组织及关键词,并根据现实意义为日期、位置、人员、组织、关键词中不同实例添加关系。
步骤202:现实世界中的社会事件通常是从新闻文章中提取的,这些社会事件可以被构造成具有多种类型的节点和边缘的图,称为异构信息网络,在异构信息网络中,通过关系序列连接的某些类型的对象通常称为元路径,元路径在捕获异构信息网络中对象之间的语义相关性方面起着重要作用,本发明基于异构信息网络和元路径对社交事件进行建模,以获得它们之间的相似性。
以社会事件的日期、位置、人员、组织及关键词作为对象,并以对象的实例具有的关系构建异构信息网络,信息网络是指一个具有对象类型映射函数和关系类型映射函数ψ:E→R的有向图其中V表示对象,为对象类型映射函数,将节点集合映射到对象集合;E表示关系,ψ:E→R为关系类型映射函数,将边集合映射到关系集合,元模式表示为TG=(A,R),A表示作为节点的对象类型集合,对象V为对象类型集合A的一个特定对象类型,R表示关系类型集合,关系E为关系类型集合R中的一个特定关系类型,元模式TG=(A,R)是定义在对象类型集合A上的有向图,并以R上的关系为边,且有信息网络的对象类型数|A|>1或者关系类型数|R|>1。
通过将社会事件建模为异构信息网络,通过元路径计算两个社会事件之间的相似度,该方法充分考虑了社会事件的五种信息维度分别是时间、位置、人员、组织以及关键词,将复杂的社会事件建模为具有五个维度的异构信息网络,事件表述更见简洁,事件之间的相似度度量更加准确且具有较强的可解释性。
进一步的,步骤3具体包括以下步骤:
具体在本实施例中,选取了25条具有不同语义的元路径,参见表2。
表2
其中→表示路径指向,以元路径5“事件1→人员1→人员2→事件2”为例,假设事件1有三个参与者学生A,教师B和校长C,事件2有两个参与者分别是学生A和教师B,其中A与B为师生关系,A是C担任校长学校的学生,B是C担任校长学校的教师,则以事件1源节点,事件2为目标节点的元路径5上共有4个实例分别是(1→A→B→2)、(1→B→A→2)、(1→C→A→2)、(1→C→B→2),以事件1源节点和目标节点的元路径5上共有6个实例:(1→A→B→1)、(1→A→C→1)、(1→B→A→1)(1→B→C→1)、(1→C→A→1)、(1→C→B→1),以事件2源节点和目标节点的元路径5上共有2个实例:(2→A→B→2)、(2→B→A→2)。
本实施例通过设计一套用于衡量社会事件相似度的元路径集合,其中包括25条具有不同语义的元路径,其可以从多个维度和方面考量社会事件之间的内在关联,为日后基于元路径的相似度构造研究提供了思路和基准。
步骤302:通过元路径计算两个社会事件之间的相似度:
其中,Sim(ei,ej)表示两个社会事件之间的相似度,是社会事件ei和ej之间元路径Pm上的实例总数,wm是用于衡量不同元路径的重要性的可学习的参数,b是可学习的偏置参数,ReLU(·)是激活函数,不同社会事件之间的相似度表示为Sim(ei,ej)。
i=j时,Sim=1。虽然仅有一个事件,但是事件的对象和关系会有多种。
例如:以元路径“事件1→参与者→事件2”为例,事件1为“学生A对教师B表示感谢”,则此处元路径实例有两个分别是:(1)事件1->学生A->事件1(2)事件1->教师B->事件1。
在本实施例中,步骤4具体包括以下步骤:
计算社会事件的语义特征,包括:
步骤401b:将第i个单词的词向量输入BiGRU模型计算得到隐藏向量,表示为:
步骤401c:使用全连接神经网络获得社会事件的语义特征fSem,按照以下公式计算:
其中,MLP表示全连接网络,concat(·)表示连接操作。
计算社会影响力特征:
步骤402:对于一社会事件,获取其政治影响力评估值ScoreG,新闻舆论影响力评估值ScoreI,事件情感极性评估值ScoreT,其中政治影响力评估值ScoreG,事件情感极性评估值ScoreT为能够从全球新闻数据库GDELT中获得的标量数值,事件情感极性评估值ScoreI通过如下公式计算得到:
ScoreI=concat([NumMentions;NumSources;NumArticles])
其中NumMentions代表全球新闻数据库GDELT中间接提及该事件的新闻数量,NumSources代表全球新闻数据库GDELT中发布有关该事件的新闻媒体数目,NumArticles代表全球新闻数据库GDELT中与事件直接相关的新闻数量,则社会影响力特征fSoc按照以下公式计算:
fSoc=MLP(concat[ScoreG;ScoreI;ScoreT])
其中,MLP表示全连接网络,concat(·)表示连接操作。
计算社会事件的融合特征:
步骤403:则对于某一特定社会事件,拼接语义特征和社会影响力特征得到社会事件的融合特征h,表示为:
h=concat([fSem;fSoc])
具体的,步骤5中,将异构事件分类问题形式化为基于图的节点分类,我们总共有N个社会事件新闻文本(S=s1,s2,…,sN)。每个社会事件都是一个节点。节点间的边权重A[i,j]由步骤3计算,节点的特征hs由步骤4计算,社会事件分类图是图神经网络的基本输入,社会事件分类图的基本构造为节点、边、节点特征;其中每个节点代表一个社会事件,节点特征由全局上下文语义特征以及局部语义特征组成,两事件之间的边权重是由基于知识性的相似度方法计算所得。
在本实施例中,设计了一个新的基于语义和社会影响力的事件特征提取框架,将语义特征与社会影响力特征结合起来,得到事件的混合特征表示。语义特征首先使用了经过充分训练的大规模预训练语言模型,得到了良好的单词级语义表示,之后使用门控循环单元(GRU),融合句子整体的实际含义,总的来说,本专利使用的语义特征融合了单词级的具体语义与句子级的真实含义,有助于后续事件分类;社会影响力特征考虑了事件的政治影响力、社会舆论影响力以及事件的情感极性,从三个维度对事件的社会影响力进行建模,为后续准确分类奠定了基础。
步骤5中包括以下步骤:
步骤501:将得到的两个社会事件之间的相似度作为社会事件分类图的节点间的边权重,表示为:
A[i,j]=Sim(ei,ej)
其中,A[i,j]表示社会事件分类图的节点i和节点j的边权重;
步骤502:将社会事件作为节点,将得到的社会事件的融合特征h作为节点的特征,两个社会事件之间的相似度作为社会事件分类图的节点间的边权重,构建社会事件分类图(A,H),其中H为作为节点的新闻事件的特征矩阵,A为边权重的矩阵。
步骤6具体包括以下步骤:
步骤601:构建社会事件分类模型,所述社会事件分类模型包括顺序设置的局部聚合图神经网络GraphSAGE层、自监督图注意力网络SuperGAT层、逻辑分类层;
将社会事件分类图输入局部聚合图神经网络GraphSAGE层,社会事件分类图中节点i经过局部聚合图神经网络层输出的特征向量表示为:
其中,hi表示第i个节点特征h,是第i个节点在图中的邻居节点集合,hj表示节点i的邻居节点的特征,W1,W2可学习的权重参数矩阵,表示将集合中的特征向量hj相加之后取均值,局部聚合图神经网络GraphSAGE层输出的特征矩阵HGS表示为:
将局部聚合图神经网络GraphSAGE层输出的特征矩阵HGS输入自监督图注意力网络SuperGAT层,表示为:
其中,是第i个节点在图中的邻居节点集合,对于第i个节点的邻居节点集合中的任一节点j,αj表示节点j经过标准化处理的权重系数,ej表示节点j的初始权重分数;LeakyReLU(·)是一种激活函数,exp(·)表示指数函数。W3,W4是可学习的权重参数矩阵,d是特征向量的长度。
监督图注意力网络SuperGAT层输出的特征矩阵表示为:
将自监督图注意力网络SuperGAT层输出的特征矩阵HSG输入逻辑分类层,表示为
Z=sigmoid(HSG)
其中sigmoid为分类函数,Z为输出的社会事件的类别序号;
步骤602:以步骤1中的方法构造训练集,对于训练集的社会事件,按照事件类别进行分别,并为每个事件类别设置类别序号,通过训练集的数据对社会事件分类模型,进行训练迭代,直至模型收敛,得到训练好的社会事件分类模型;
步骤603:将需要分类的社会事件对应的社会事件分类图输入社会事件分类模型,输出需要分类的输出的社会事件的类别序号,通过类别序号获得社会事件的分类结果。
对于上述实施例中的基于局部聚合图注意力网络的社会事件分类方法进行试验论证:
将本发明中的基于局部聚合图注意力网络(GSSG:GraphSAGE+SuperGAT)的社会事件分类模型与卷积神经网络(CNN)、门控循环神网络(GRU)、文本图卷积网络(TextGCN)、快速文本分类方法Fasttext、图卷积神经网络(GCN)、图注意力网络(GAT)、大规模预训练语言模型BERT七种模型在A,B,C,D,E五个国家的数据集上进行了事件分类准确率的对比,见表3,给出了各个模型在各个国家的数据上的事件分类准确率数据,实验结果表明了在二分类以及二十分类任务中,本发明的社会事件分类模型具有明显优越性能。
表3
本发明提出了一种新的局社会事件分类方法,分类模型使用了局部聚合图注意力网络,其包含局部聚合图神经网络GraphSAGE层和自监督图注意力网络SuperGAT层,两者均具有的优势是可以仅使用邻居节点的特征而无需遍历全部节点,大幅降低了计算复杂度提高了模型训练效率。局部聚合图神经网络使用到了局部采样和邻居聚合的技术,局部采样使得其可以应对大批量的图数据,邻居聚合技术使得其可以对新加入节点的特征进行推理;自监督图注意力网络可以有效应对网络中出现的噪声,并可以将注意力权重更多的分配于标签一致的邻居节点。且相对于现有的数据分类模型譬如卷积神经网络(CNN)、门控循环神网络(GRU)、文本图卷积网络(TextGCN)、快速文本分类方法(Fasttext)、图卷积神经网络(GCN)、图注意力网络(GAT)、大规模预训练语言模型BERT在分类准确率上有显著提升。
在本发明的实施例中,还提供了一种计算机装置,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如上述的基于局部聚合图注意力网络的社会事件分类方法、装置。
该计算机装置可以是终端,其内部结构图可以如图3所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于局部聚合图注意力网络的社会事件分类方法、装置。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机装置的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机装置外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机装置的限定,具体的计算机装置可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例中,还提供了一种计算机可读存储介质,其上存储有程序,程序被处理器执行时实现如上述的基于局部聚合图注意力网络的社会事件分类方法、装置。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (10)
1.一种基于局部聚合图注意力网络的社会事件分类方法,其特征在于,包括以下步骤:
步骤1:采集社会事件相关的新闻文本数据,抽取新闻文本数据中的时间、地点、人员、组织及关键词信息;
步骤2:将抽取出的社会事件的时间、地点、人员、组织及关键词信息建模成异构信息网络,并抽取出异构信息网络的元模式;
步骤3:根据抽取出的异构信息网络的元模式,选择多条具有不同语义的元路径,通过元路径计算两个社会事件之间的相似度;
步骤4:从社会事件相关的新闻文本数据中获取社会事件的语义特征;将社会事件的政治影响力、舆论影响力和情感极性建模为社会事件的社会影响力特征,拼接社会事件的语义特征和社会事件的社会影响力特征得到社会事件的融合特征;
步骤5:将得到的两个社会事件之间的相似度作为社会事件分类图的节点间的边权重,将得到的社会事件的融合特征作为节点特征,构建社会事件分类图;
步骤6:构建并训练社会事件分类模型,所述社会事件分类模型包括顺序设置的局部聚合图神经网络GraphSAGE层、自监督图注意力网络SuperGAT层、逻辑分类层,将社会事件分类图输入训练好的社会事件分类模型,输出社会事件的类别。
2.根据权利要求1所述的一种基于局部聚合图注意力网络的社会事件分类方法,其特征在于,在步骤1中,从新闻数据库中获取社会事件相关的新闻文本数据,从新闻文本数据中获取社会事件的时间、地点、人员、组织,并通过TF-IDF算法提取社会事件的关键词,为关键词添加同义词以及反义词。
3.根据权利要求1所述的一种基于局部聚合图注意力网络的社会事件分类方法,其特征在于:步骤2具体包括以下步骤:
步骤201:获得每个社会事件对应的时间、地点、人员、组织及关键词信息,并根据现实意义为时间、地点、人员、组织及关键词信息中不同实例添加关系;
5.根据权利要求4所述的一种基于局部聚合图注意力网络的社会事件分类方法,其特征在于,步骤4具体包括以下步骤:
步骤401:将社会事件相关的新闻文本数据中的每个单词通过预训练语言模型BERT表示成词向量,将词向量输入BiGRU模型计算得到隐藏向量,使用全连接神经网络获得社会事件的语义特征;
步骤402:将社会事件的政治影响力、舆论影响力和情感极性建模为事件的社会影响力特征;
步骤403:拼接语义特征和社会影响力特征得到社会事件的融合特征。
6.根据权利要求5所述的一种基于局部聚合图注意力网络的社会事件分类方法,其特征在于,步骤4具体包括以下步骤:
步骤401b:将第i个单词的词向量输入BiGRU模型计算得到隐藏向量,表示为:
步骤401c:使用全连接神经网络获得社会事件的语义特征fSem,按照以下公式计算:
其中,MLP表示全连接网络,concat(·)表示连接操作;
步骤402:对于一社会事件,获取其政治影响力评估值ScoreG,新闻舆论影响力评估值ScoreI,事件情感极性评估值ScoreT,其中政治影响力评估值ScoreG,事件情感极性评估值ScoreT为能够从全球新闻数据库GDELT中获得的标量数值,事件情感极性评估值ScoreI通过如下公式计算得到:
ScoreI=concat([NumMentions;NumSources;NumArticles])
其中NumMentions代表全球新闻数据库GDELT中间接提及该事件的新闻数量,NumSources代表全球新闻数据库GDELT中发布有关该事件的新闻媒体数目,NumArticles代表全球新闻数据库GDELT中与事件直接相关的新闻数量,则社会影响力特征fSoc按照以下公式计算:
fSoc=MLP(concat[ScoreG;ScoreI;ScoreT])
步骤403:则对于某一特定社会事件,拼接语义特征和社会影响力特征得到社会事件的融合特征h,表示为:
h=concat([fSem;fSoc])
7.根据权利要求6所述的一种基于局部聚合图注意力网络的社会事件分类方法,其特征在于,步骤5中包括以下步骤:
步骤501:将得到的两个社会事件之间的相似度作为社会事件分类图的节点间的边权重,表示为:
A[i,j]=Sim(ei,ej)
其中,A[i,j]表示社会事件分类图的节点i和节点j的边权重;
步骤502:将社会事件作为节点,将得到的社会事件的融合特征h作为节点的特征,两个社会事件之间的相似度作为社会事件分类图的节点间的边权重,构建社会事件分类图(A,H),其中H为作为节点的新闻事件的特征矩阵,A为边权重的矩阵。
8.根据权利要求6所述的一种基于局部聚合图注意力网络的社会事件分类方法,其特征在于,步骤6中包括以下步骤:
步骤601:构建社会事件分类模型,所述社会事件分类模型包括顺序设置的局部聚合图神经网络GraphSAGE层、自监督图注意力网络SuperGAT层、逻辑分类层;
将社会事件分类图输入局部聚合图神经网络GraphSAGE层,社会事件分类图中节点i经过局部聚合图神经网络层输出的特征向量表示为:
其中,hi表示第i个节点特征h,是第i个节点在图中的邻居节点集合,hj表示节点i的邻居节点的特征,W1,W2可学习的权重参数矩阵,表示将集合中的特征向量hj相加之后取均值,局部聚合图神经网络GraphSAGE层输出的特征矩阵HGS表示为:
将局部聚合图神经网络GraphSAGE层输出的特征矩阵HGS输入自监督图注意力网络SuperGAT层,表示为:
其中,是第i个节点在图中的邻居节点集合,对于第i个节点的邻居节点集合中的任一节点j,αj表示节点j经过标准化处理的权重系数,ej表示节点j的初始权重分数;LeakyReLU(·)是一种激活函数,exp(·)表示指数函数,W3,W4是可学习的权重参数矩阵,d是特征向量的长度;
监督图注意力网络SuperGAT层输出的特征矩阵表示为:
将自监督图注意力网络SuperGAT层输出的特征矩阵HSG输入逻辑分类层,表示为
Z=sigmoid(HSG)
其中sigmoid为分类函数,Z为输出的社会事件的类别序号;
步骤602:以步骤1中的方法构造训练集,对于训练集的社会事件,按照事件类别进行分别,并为每个事件类别设置类别序号,通过训练集的数据对社会事件分类模型,进行训练迭代,直至模型收敛,得到训练好的社会事件分类模型;
步骤603:将需要分类的社会事件对应的社会事件分类图输入社会事件分类模型,输出需要分类的输出的社会事件的类别序号,通过类别序号获得社会事件的分类结果。
9.一种计算机装置,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1所述的基于局部聚合图注意力网络的社会事件分类方法、装置。
10.一种计算机可读存储介质,其上存储有程序,其特征在于:所述程序被处理器执行时实现如权利要求1所述的基于局部聚合图注意力网络的社会事件分类方法、装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110787860.4A CN113449204B (zh) | 2021-07-13 | 2021-07-13 | 基于局部聚合图注意力网络的社会事件分类方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110787860.4A CN113449204B (zh) | 2021-07-13 | 2021-07-13 | 基于局部聚合图注意力网络的社会事件分类方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449204A CN113449204A (zh) | 2021-09-28 |
CN113449204B true CN113449204B (zh) | 2022-09-09 |
Family
ID=77816124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110787860.4A Active CN113449204B (zh) | 2021-07-13 | 2021-07-13 | 基于局部聚合图注意力网络的社会事件分类方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449204B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090902B (zh) * | 2021-11-22 | 2022-09-09 | 中国人民解放军国防科技大学 | 一种基于异质网络的社交网络影响力预测方法、装置 |
CN115086004B (zh) * | 2022-06-10 | 2023-08-29 | 中山大学 | 一种基于异质图的安全事件识别方法及*** |
CN116303996B (zh) * | 2023-05-25 | 2023-08-04 | 江西财经大学 | 基于多焦点图神经网络的主题事件抽取方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889434B (zh) * | 2019-10-29 | 2023-04-21 | 东南大学 | 一种基于活动的社交网络活动特征提取方法 |
CN111581983B (zh) * | 2020-05-13 | 2023-08-08 | 中国人民解放军国防科技大学 | 基于群体分析的网络舆论事件中社会关注热点的预测方法 |
CN112732905B (zh) * | 2020-12-08 | 2022-06-14 | 银江技术股份有限公司 | 一种基于知识图谱的交通事故分析与防控方法及*** |
CN112749757B (zh) * | 2021-01-21 | 2023-09-12 | 厦门大学 | 基于门控图注意力网络的论文分类模型构建方法及*** |
CN112861967B (zh) * | 2021-02-07 | 2023-04-07 | 中国电子科技集团公司电子科学研究院 | 基于异构图神经网络的社交网络异常用户检测方法及设备 |
-
2021
- 2021-07-13 CN CN202110787860.4A patent/CN113449204B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113449204A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Minh et al. | Deep learning approach for short-term stock trends prediction based on two-stream gated recurrent unit network | |
Wang et al. | Deep learning for aspect-based sentiment analysis | |
CN111159395B (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
CN113449204B (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
Katz et al. | Natural language processing in the legal domain | |
CN105354216A (zh) | 一种中文微博话题信息处理方法 | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
Golestani et al. | Real-time prediction of employee engagement using social media and text mining | |
Zhu et al. | Identifying the technology convergence using patent text information: A graph convolutional networks (GCN)-based approach | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
Domingos et al. | Just add weights: Markov logic for the semantic web | |
Fu et al. | Improving distributed word representation and topic model by word-topic mixture model | |
Shi et al. | EKGTF: A knowledge-enhanced model for optimizing social network-based meteorological briefings | |
Ray et al. | Prediction and Analysis of Sentiments of Reddit Users towards the Climate Change Crisis | |
Wang et al. | Automatic dialogue system of marriage law based on the parallel C4. 5 decision tree | |
Bi et al. | Judicial knowledge-enhanced magnitude-aware reasoning for numerical legal judgment prediction | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
Shah et al. | Cyber-bullying detection in hinglish languages using machine learning | |
Jiang et al. | Sentiment classification based on clause polarity and fusion via convolutional neural network | |
Zhu et al. | Attention based BiLSTM-MCNN for sentiment analysis | |
Bestvater | Using machine learning to infer real-world political attitudes and behaviors from social media data | |
CN118171645B (zh) | 一种基于文本分类的商业信息分析方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |