CN110737819B - 一种基于新闻报道的突发事件线索提取方法 - Google Patents

一种基于新闻报道的突发事件线索提取方法 Download PDF

Info

Publication number
CN110737819B
CN110737819B CN201910983942.9A CN201910983942A CN110737819B CN 110737819 B CN110737819 B CN 110737819B CN 201910983942 A CN201910983942 A CN 201910983942A CN 110737819 B CN110737819 B CN 110737819B
Authority
CN
China
Prior art keywords
event
events
topic
emergency
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910983942.9A
Other languages
English (en)
Other versions
CN110737819A (zh
Inventor
孙锐
金澎
敬思远
谢红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshan Normal University
Original Assignee
Leshan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshan Normal University filed Critical Leshan Normal University
Priority to CN201910983942.9A priority Critical patent/CN110737819B/zh
Publication of CN110737819A publication Critical patent/CN110737819A/zh
Application granted granted Critical
Publication of CN110737819B publication Critical patent/CN110737819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于新闻报道的突发事件线索提取方法,对新闻文本进行预处理;对预处理结果进行事件抽取;得到事件分布式表示,计算得到事件相似度以构建事件语义知识;构建事件主题模型,得到事件主题分布及文档主题分布;取主题概率最高的事件作为主题事件集合;以每个主题事件为结点,事件发生的先后关系为弧,构建事件的时序关系图;利用改进的拓扑排序算法输出最终的事件线索。本发明通过以上设计能够准确完整地获取突发事件线索,解决了现有技术中事件线索语义表达不强以及线索获取准确率低的问题。本发明方法灵活,具有很强的应用推广价值。

Description

一种基于新闻报道的突发事件线索提取方法
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于新闻报道的突发事件线索提取方法。
背景技术
突发事件,是指突然发生,造成或者可能造成严重社会危害,需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。为预防和减少突发事件的发生,控制、减轻和消除突发事件引起的严重社会危害,人民政府及其相关部门应规范突发事件应对活动,对可能发生的突发事件进行综合性评估,最大限度地减轻重大突发事件影响。突发事件具有明显的时序特征,其逻辑顺序可以用事件的话题演化,即突发事件线索来表示。例如,“2014年第9号威马逊台风”事件一发生,同时会出现“人员伤亡”、“农作物受灾”、“通讯中断”等事件;随着时间的推进,“威马逊登陆我国”、“气象台发布预警”、“相关部门发出通告”、“转移相关人员”、“防范病菌”等一系列相关事件。这些相关事件都是与“威马逊台风”这一主题下演化或衍生出的子事件。这些事件的发生有着时序关系或因果关系。准确完整地获取突发事件线索,对了解突发事件的前因后果对事态发展趋势的掌握有着重要的作用,同时对于如何应对类似突发事件有着一定的借鉴和预测作用。
现有技术中以词或短语为基本单位,应用主题模型以得到词语在话题上的分布。以高频主题词语集合表示子话题,以文档报道时间来表示话题的演变过程,存在如下缺点:1、以词或短语为基本单位,语义孤立,忽视了词与词之间的语义关系,因而无法完整地描述话题;词语本身无时间的概念,只能借助文档报道时间来体现话题目的时序特征。现有技术中采用的方案还有以ACE事件为基本单位,识别和推理事件之间的关系,从而描述话题的演变过程,其存在以下缺点:ACE事件类别共分为8大类33子类,事件领域受限,抽取准确率受限;ACE事件多为粗粒度的语句或篇章级事件,部分细粒度事件无法抽取;事件关系的界定无统一结构,关系判别准确率低,实现难度较大。
因此,我们设计了一种基于新闻报道的突发事件线索提取方法。事件线索以三元组原子事件(Subject,Predicate,Object)为基本单位,利用事件间的时序关系表示线索。采用一种改进的主题模型生成与该话题强相关的事件(即主题事件)集合,在构建的事件时序关系图上应用一种改进后的拓扑排序算法输出最终的事件线索。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于新闻报道的突发事件线索提取方法解决了现有技术中事件线索语义表达不强以及线索获取准确率低的问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于新闻报道的突发事件线索提取方法,包括如下步骤:
S1、获取新闻数据集,并利用自然语言处理方法对所述新闻数据集中每篇新闻进行预处理;
S2、以语句为单位,根据所述预处理结果对事件进行抽取;
S3、根据事件抽取结果得到事件分布式表示,并构建事件语义知识;
S4、以事件对为词条,利用所述事件语义知识和波利亚罐子模型构建事件主题模型;
S5、根据所述事件主题模型,取主题概率最高的topK个事件作为主题事件集合;
S6、根据所述主题事件集合和事件的先后顺序构建事件时序关系图;
S7、根据所述事件时序关系图利用改进的拓扑排序算法计算得到突发事件线索,从而完成对突发事件线索的提取。
进一步地,所述步骤S1中的预处理包括词性标、依存分析和指代消解。
再进一步地,所述步骤S2包括如下步骤:
S201、以语句为单位,并根据所述预处理结果提取事件中所有的谓语关系对;
S202、判断所述谓语关系对是否存在相同的谓语,若是,则将相同的谓语合并为一个三元组事件,并进入步骤S3,否则,将所述谓语关系对保留为二元组事件,并进入步骤S3,从而完成对事件的抽取。
再进一步地,所述步骤S3包括如下步骤:
S301、根据事件抽取结果利用Word2Vec算法在新闻语料上得到词向量表示;
S302、根据所述词向量表示利用组合语义算法计算得到事件分布式表示;
S303、根据所述事件分布式表示利用欧式距离算法计算得到事件间的相似度;
S304、根据所述事件间的相似度构建事件语义知识。
再进一步地,所述步骤S302中事件分布式表示包括以下任意一种情况:
第一种情况:
若事件为三元组事件,则根据事件的谓语向量以及事件的主语向量和宾语向量的克罗内外积计算得到事件分布式表示,其所述事件分布式表示
Figure BDA0002236105790000031
的表达式如下:
Figure BDA0002236105790000032
第二种情况:
若事件为二元组事件,则根据事件的谓语向量以及事件的主语或宾语的向量计算得到事件分布式表示,其所述事件分布式表示为
Figure BDA0002236105790000041
Figure BDA0002236105790000042
表达式如下:
Figure BDA0002236105790000043
Figure BDA0002236105790000044
其中,
Figure BDA0002236105790000045
表示克罗内克外积运算,·表示点乘运算,
Figure BDA0002236105790000046
表示事件谓语向量,
Figure BDA0002236105790000047
表示事件主语向量,
Figure BDA0002236105790000048
表示事件宾语向量。
再进一步地,所述步骤S4包括如下步骤:
S401、以事件对为词条,设置生成事件主题的多项式分布参数
Figure BDA0002236105790000049
~Dir(β),其中,
Figure BDA00022361057900000410
表示各事件在主题k下的分布,Dir(β)表示分布服从超参数为β的狄利克雷分布;
S402、设置生成文档主题的多项式公布参数θm~Dir(α),其中,θm表示文档 m的主题分布,Dir(α)表示分布服从超参数为α的狄利克雷分布;
S403、对每篇新闻文档m中事件共现对b(ei,ej)分别采样生成主题zb~Mult(θm)和采样生成事件ei
Figure BDA00022361057900000411
及事件ej
Figure BDA00022361057900000412
且在采样过程中利用波利亚罐子模型和所述事件语义知识引入事件相似度,所述事件相似度的阈值调节表达式如下:
Figure BDA00022361057900000413
其中,b表示文档m中出现的任一事件共现对,ei表示事件i,ej表示事件j, zb表示当前采样过程中事件共现对b的主题,Mult(θm)表示服从参数为θm的多项式分布,
Figure BDA00022361057900000414
表示服从参数为
Figure BDA00022361057900000415
的多项式分布,
Figure BDA00022361057900000416
表示事件ei和事件ej调节后的相似度,σ表示设置的阈值,sim(ei,ej)表示事件语义知识中得到的事件ei和事件ej的相似度;
S404、根据所述主题采样和事件采样得到事件主题分布
Figure BDA0002236105790000051
和文档主题分布θ,并根据所述事件主题分布
Figure BDA0002236105790000052
和文档主题分布θ构建事件主题模型。
再进一步地,所述步骤S6包括如下步骤:
S601、以所述主题事件集合中的每个主题事件为结点,并利用统计规则确定任意一事件对的时序关系;
S602、根据事件的先后顺序以先发生的事件为弧尾,后发生的事件为弧头,构建事件时序关系图。
再进一步地,所述步骤S601中利用统计规则确定任意一事件对的时序关系包括以下任意一种情况:
第一种情况:
若统计的两个主题事件均出现在相同文档的概率p1最大,则统计所述两个主题事件在同一文档中出现的位置先后顺序p2,且若事件ei先于事件ej,其时序关系的强度为:p=p1×p2
第二种情况:
若统计的两个主题事件出现在不同文档的概率p3最大,则统计所述两个主题事件所在文档的报道时间的先后顺序p4,且若事件ei先于事件ej,其时序关系的强度为:p=p3×p4
再进一步地,所述步骤S7包括如下步骤:
S701、根据所述事件时序关系图利用改进的拓扑排序算法输出事件结点序列;
S702、判断所述时序关系图中是否有未输出的事件结点,若有,则时序关系图的剩余子图中有环存在,并进入步骤S703,否则,进入步骤S704;
S703、删除所述剩余子图中的所有弧,并依次扫描已输出事件结点序列中的结点事件到剩余子图中每个未输出结点事件的弧,按时序关系的强度选择弧并输出每一个未输出结点事件,记录当前弧;
S704、由输出的事件结点序列以及所述记录的当前弧构成突发事件线索,从而完成对突发事件线索的提取。
再进一步地,所述步骤S701包括如下步骤:
S7011、根据所述事件时序关系图构建优先队列,并将时序关系图中的入度为零的结点事件作入队操作;
S7012、依次对所述优先队列中入度为零的结点事件作出队操作,输出该事件并删除以该输出事件为尾的弧;
S7013、判断是否有新的入度为零的结点事件,若是,则将该结点事件作入队操作,并记录当前删除的弧,并返回步骤S7012,否则,进入步骤S702。
本发明的有益效果:
(1)本发明以三元组事件为基本单位,其抽取算法实现简单,三元组事件在文档中出现的粒度界于词和语句之间,既能表达词与词之间的语义关系,也能避免语句中噪音词语的干扰;
(2)本发明引入事件语义知识,以主流的分布式向量表达事件语义,利用事件相似度来缓解事件稀疏性问题;
(3)本发明利用事件主题模型实现主题事件的自动聚簇,基于事件对构建主题模型,结合波利亚罐子模型并引入事件语义知识,得到事件和文档的主题分布;
(4)本发明构建事件时序关系图,在所构造的事件时序关系图中,结点代表每个主题事件,以每个事件对的时序关系为弧,利用改进的拓扑排序算法输出最终的事件线索。
附图说明
图1为本发明的方法流程图。
图2为本实施例中主题模型的结构图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例
本发明提供了一种基于新闻报道的突发事件线索提取方法,采用主题模型和时序关系图算法来构建突发事件线索。在新浪网上采集专题文档(包括“今年第9号台风威马逊来袭”专题(92篇),“中国台湾客机迫降重摔起火”专题(102 篇),“广东遭遇20年来最严重登革热疫情”专题(38篇),“杭州发生公交车纵火案”(54篇)等)上的实施例表明该技术实现简单有效,无监督的学习方式使得技术实施无需过多的人工干预,最终生成的事件线索以三元组事件为基本单位,采用一种改进的主题模型生成主题事件集合,在主题模型中引入事件语义知识。为以每个主题事件为结点,统计计算事件间发生的先后顺序并以此为弧,构建事件间的时序关系图,通过改进后的拓扑排序算法输出最终的事件线索,如图1所示,包括如下步骤:
S1、获取新闻数据集,并利用自然语言处理方法对所述新闻数据集中每篇新闻进行预处理,其预处理包括词性标、依存分析和指代消解;
S2、以语句为单位,根据所述预处理结果对事件进行抽取,其实现方法如下:
S201、以语句为单位,并根据所述预处理结果提取事件中所有的谓语关系对;
S202、判断所述谓语关系对是否存在相同的谓语,若是,则将相同的谓语合并为一个三元组事件,并进入步骤S3,否则,将所述谓语关系对保留为二元组事件,并进入步骤S3,从而完成对事件的抽取。
本实施例中,一条语句中可能存在多个事件,提出语句中所有可能的谓语关系对,如“NSUBJ”和“DOBJ”关系,若“NSUBJ”和“DOBJ”关系拥有相同的谓语,则合并为一个三元组事件,若依存关系无法合并,则保留为二元组事件。如给定语句“气象局发布台风预警”,存在两个依存对“NSUBJ(发布,气象局)”和“DOBJ(发布,预警)”,其谓语均为“发布”,则可合并为三元组事件“(气象局,发布,预警)”,而对于语句“飞机在公海上空失事”,则只能提取二元事件“(飞机,失事,nil)”,(“nil”表示事件论元缺失)。本发明以三元组事件为基本单位,其抽取算法实现简单,三元组事件在文档中出现的粒度界于词和语句之间,既能表达词与词之间的语义关系,也能避免语句中噪音词语的干扰。
S3、根据事件抽取结果得到事件分布式表示,并构建事件语义知识,其实现方法如下:
S301、根据事件抽取结果利用Word2Vec算法在新闻语料上得到词向量表示;
S302、根据所述词向量表示利用组合语义算法计算得到事件分布式表示,所述事件分布式表示包括以下任意一种情况:
第一种情况:
若事件为三元组事件,则根据事件的谓语向量以及事件的主语向量和宾语向量的克罗内外积计算得到事件分布式表示,其所述事件分布式表示
Figure BDA0002236105790000091
的表达式如下:
Figure BDA0002236105790000092
第二种情况:
若事件为二元组事件,则根据事件的谓语向量以及事件的主语或宾语的向量计算得到事件分布式表示,其所述事件分布式表示为
Figure BDA0002236105790000093
Figure BDA0002236105790000094
表达式如下:
Figure BDA0002236105790000095
Figure BDA0002236105790000096
其中,
Figure BDA0002236105790000097
表示克罗内克外积运算,·表示点乘运算,
Figure BDA0002236105790000098
表示事件谓语向量,
Figure BDA0002236105790000099
表示事件主语向量,
Figure BDA00022361057900000910
表示事件宾语向量;
S303、根据所述事件分布式表示利用欧式距离算法计算得到事件间的相似度;
S304、根据所述事件间的相似度构建事件语义知识。
本实施例中,利用Word2Vec模型在背景语料上得到词向量表示,然后采用组合语义方式计算得到事件分布式表示,若事件为三元组,则用事件谓语向量点乘事件主语和宾语向量的克罗内克外积;若事件为二元组,则直接用谓语向量点乘论元向量(主语或宾语),在得到事件的分布式向量表示后,采用欧式距离计算事件间的相似度,以构建事件语义知识。如事件“(飞机,失事,nil)”和“(飞机,遇难,nil)”语义相似度约为0.8765。本发明引入事件语义知识,以主流的分布式向量表达事件语义,利用事件相似度来缓解事件稀疏性问题。
S4、如图2所示,以事件对为词条,利用所述事件语义知识和波利亚罐子模型构建事件主题模型,其实现方法如下:
S401、以事件对为词条,设置生成事件主题的多项式分布参数
Figure BDA0002236105790000101
~Dir(β),其中,
Figure BDA0002236105790000102
表示各事件在主题k下的分布,Dir(β)表示分布服从超参数为β的狄利克雷分布;
S402、设置生成文档主题的多项式公布参数θm~Dir(α),其中,θm表示文档 m的主题分布,Dir(α)表示分布服从超参数为α的狄利克雷分布;
S403、对每篇新闻文档m中事件共现对b(ei,ej)分别采样生成主题zb~Mult(θm)和采样生成事件ei
Figure BDA0002236105790000103
及事件ej
Figure BDA0002236105790000104
且在采样过程中利用波利亚罐子模型和所述事件语义知识引入事件相似度,利用波利亚罐子模型使主题分布向高频“事件”倾斜,在采样过程中,通过引入事件相似度增加“同类事件”被采集的概率,事件相似度可由步骤2中的事件语义知识获取(可通过阈值调节语义知识强度),所述事件相似度的阈值调节表达式如下:
Figure BDA0002236105790000105
其中,b表示文档m中出现的任一事件共现对,ei表示事件i,ej表示事件j, zb表示当前采样过程中事件共现对b的主题,Mult(θm)表示服从参数为θm的多项式分布,
Figure BDA0002236105790000106
表示服从参数为
Figure BDA0002236105790000107
的多项式分布,
Figure BDA0002236105790000108
表示事件ei和事件ej调节后的相似度,σ表示设置的阈值,sim(ei,ej)表示事件语义知识中得到的事件ei和事件ej的相似度;
S404、根据所述主题采样和事件采样得到事件主题分布
Figure BDA0002236105790000109
和文档主题分布θ,并根据所述事件主题分布
Figure BDA00022361057900001010
和文档主题分布θ构建事件主题模型。本实施例中,根据上述的事件主题模型迭代进行主题采样和事件采样,迭代收敛后或平衡得到事件主题分布
Figure BDA00022361057900001011
和文档主题分布θ。
在本实施例中,因为引入了事件语义知识,使得“(人,死亡,nil)”、“(人,伤亡,nil)”、“(人,罹难,nil)”等相似事件在生成过程中被采样的概率增加,有效地解决了事件抽取后的长尾现象。
S5、根据所述事件主题模型,取主题概率最高的topK个事件作为主题事件集合。
在本实施例中,以主题“今年第9号台风威马逊来袭”为例,采用传统的以词为基本单位的主题模型,得到“台风、威马逊、登陆、沿海、广东、海南、中心、影响、暴雨、预计”等主题词(10个),而采用所述事件主题模型则可得到“(威马逊,登陆,nil)、(nil,受,影响)、(nil,损失,元)、(人,死亡, nil)、(气象台,发布,预警)、(人,受灾,nil)、(nil,启动,响应)、(通讯,中断,nil)、(nil,损坏,农房)和(农作物,受灾,nil)”等主题事件(10个)。
S6、根据所述主题事件集合和事件的先后顺序构建事件时序关系图,其实现方法如下:
S601、以所述主题事件集合中的每个主题事件为结点,并利用统计规则确定任意一事件对的时序关系,其利用统计规则确定任意一事件对的时序关系包括以下任意一种情况:
第一种情况:
若统计的两个主题事件均出现在相同文档的概率p1最大,则统计所述两个主题事件在同一文档中出现的位置先后顺序p2,且若事件ei先于事件ej,其时序关系的强度为:p=p1×p2
第二种情况:
若统计的两个主题事件出现在不同文档的概率p3最大,则统计所述两个主题事件所在文档的报道时间的先后顺序p4,且若事件ei先于事件ej,其时序关系的强度为:p=p3×p4
S602、根据事件的先后顺序以先发生的事件为弧尾,后发生的事件为弧头,构建事件时序关系图;
S7、根据所述事件时序关系图利用改进的拓扑排序算法计算得到突发事件线索,从而完成对突发事件线索的提取,其实现方法如下:
S701、根据所述事件时序关系图利用改进的拓扑排序算法输出事件结点序列,其实现方法如下:
S7011、根据所述事件时序关系图构建优先队列,并将时序关系图中的入度为零的结点事件作入队操作;
S7012、依次对所述优先队列中入度为零的结点事件作出队操作,输出该事件并删除以该输出事件为尾的弧;
S7013、判断是否有新的入度为零的结点事件,若是,则将该结点事件作入队操作,并记录当前删除的弧,并返回步骤S7012,否则,进入步骤S702;
S702、判断所述时序关系图中是否有未输出的事件结点,若有,则时序关系图的剩余子图中有环存在,并进入步骤S703,否则,进入步骤S704;
S703、删除所述剩余子图中的所有弧,并依次扫描已输出事件结点序列中的结点事件到剩余子图中每个未输出结点事件的弧,按时序关系的强度选择弧并输出每一个未输出结点事件,记录当前弧;
S704、由输出的事件结点序列以及所述记录的当前弧构成突发事件线索,从而完成对突发事件线索的提取。
在本实施例中,以主题“今年第9号台风威马逊来袭”为例,在构造的事件时序关系图中,“(人,死亡,nil)”,“(nil,损坏,农房)”,“(农作物,受灾,nil)”三个事件形成一个环状结构,采用传统的拓扑排序算法无法将这三个事件加入到事件线索中,采用所述的改进的拓扑排序可以直接打破环路,由于已输出事件“(威马逊,登陆,nil)”与三个事件的关系强度最大,故可直接输出此三个事件,事件线索中保留的事件时序关系为事件“(威马逊,登陆,nil)”与它们的时序关系。
与现有技术相比,本发明采用主题模型和时序关系图来构建突发事件线索。事件线索以三元组事件为基本单位,既能表达词与词之间的语义关系,也能避免语句中噪音词语的干扰;采用一种改进的主题模型生成主题事件集合,通过波利亚罐子模型和事件语义知识的引入缓解数据稀疏问题,以及有效地得到事件主题分布;构建的事件时序关系图能够直观地表达事件逻辑关系,通过改进后的拓扑排序算法能输出更为直观的事件线索,本发明通过以上设计解决了现有技术中事件线索语义表达不强以及线索获取准确率低的问题。

Claims (8)

1.一种基于新闻报道的突发事件线索提取方法,其特征在于,包括如下步骤:
S1、获取新闻数据集,并利用自然语言处理方法对所述新闻数据集中每篇新闻进行预处理;
S2、以语句为单位,根据所述预处理结果对事件进行抽取;
S3、根据事件抽取结果得到事件的分布式向量表示,并构建事件语义知识;
S4、以事件对为词条,利用所述事件语义知识和波利亚罐子模型构建事件主题模型;
S5、根据所述事件主题模型,取主题概率最高的topK个事件作为主题事件集合;
S6、根据所述主题事件集合和事件的先后顺序构建事件时序关系图;
S7、根据所述事件时序关系图利用改进的拓扑排序算法计算得到突发事件线索,从而完成对突发事件线索的提取;
所述步骤S7包括如下步骤:
S701、根据所述事件时序关系图利用改进的拓扑排序算法输出事件结点序列;
S702、判断所述时序关系图中是否有未输出的事件结点,若有,则时序关系图的剩余子图中有环存在,并进入步骤S703,否则,进入步骤S704;
S703、删除所述剩余子图中的所有弧,并依次扫描已输出事件结点序列中的结点事件到剩余子图中每个未输出结点事件的弧,按时序关系的强度选择弧并输出每一个未输出结点事件,记录当前弧;
S704、由输出的事件结点序列以及所述记录的当前弧构成突发事件线索,从而完成对突发事件线索的提取;
所述步骤S701包括如下步骤:
S7011、根据所述事件时序关系图构建优先队列,并将时序关系图中的入度为零的结点事件作入队操作;
S7012、依次对所述优先队列中入度为零的结点事件作出队操作,输出该事件并删除以该输出事件为尾的弧;
S7013、判断是否有新的入度为零的结点事件,若是,则将该结点事件作入队操作,并记录当前删除的弧,并返回步骤S7012,否则,进入步骤S702。
2.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S1中的预处理包括词性标注、依存分析和指代消解。
3.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S2包括如下步骤:
S201、以语句为单位,并根据所述预处理结果提取事件中所有的谓语关系对;
S202、判断所述谓语关系对是否存在相同的谓语,若是,则将相同的谓语合并为一个三元组事件,并进入步骤S3,否则,将所述谓语关系对保留为二元组事件,并进入步骤S3,从而完成对事件的抽取。
4.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S3包括如下步骤:
S301、根据事件抽取结果利用Word2Vec算法在新闻语料上得到词向量表示;
S302、根据所述词向量表示利用组合语义算法计算得到事件的分布式向量表示;
S303、根据所述事件分布式表示利用欧式距离算法计算得到事件间的相似度;
S304、根据所述事件间的相似度构建事件语义知识。
5.根据权利要求4所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S302中事件分布式表示包括以下任意一种情况:
第一种情况:
若事件为三元组事件,则根据事件的谓语向量以及事件的主语向量和宾语向量的克罗内克积计算得到事件分布式表示,其所述事件分布式表示
Figure FDA0003675818440000031
的表达式如下:
Figure FDA0003675818440000032
第二种情况:
若事件为二元组事件,则根据事件的谓语向量以及事件的主语或宾语的向量计算得到事件分布式表示,其所述事件分布式表示为
Figure FDA0003675818440000033
Figure FDA0003675818440000034
表达式如下:
Figure FDA0003675818440000035
Figure FDA0003675818440000036
其中,
Figure FDA0003675818440000037
表示克罗内克积运算,·表示点乘运算,
Figure FDA0003675818440000038
表示事件谓语向量,
Figure FDA0003675818440000039
表示事件主语向量,
Figure FDA00036758184400000310
表示事件宾语向量。
6.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S4包括如下步骤:
S401、以事件对为词条,设置生成事件主题的多项式分布参数
Figure FDA00036758184400000311
其中,
Figure FDA00036758184400000312
表示各事件在主题k下的分布,Dir(β)表示分布服从超参数为β的狄利克雷分布;
S402、设置生成文档主题的多项式公布参数θm~Dir(α),其中,θm表示文档m的主题分布,Dir(α)表示分布服从超参数为α的狄利克雷分布;
S403、对每篇新闻文档m中事件共现对b(ei,ej)分别采样生成主题zb~Mult(θm)和采样生成事件
Figure FDA0003675818440000041
及事件
Figure FDA0003675818440000042
且在采样过程中利用波利亚罐子模型和所述事件语义知识引入事件相似度,所述事件相似度的阈值调节表达式如下:
Figure FDA0003675818440000043
其中,b表示文档m中出现的任一事件共现对,ei表示事件i,ej表示事件j,zb表示当前采样过程中事件共现对b的主题,Mult(θm)表示服从参数为θm的多项式分布,
Figure FDA0003675818440000044
表示服从参数为
Figure FDA0003675818440000045
的多项式分布,
Figure FDA0003675818440000046
表示事件ei和事件ej调节后的相似度,σ表示设置的阈值,sim(ei,ej)表示事件语义知识中得到的事件ei和事件ej的相似度;
S404、根据所述主题采样和事件采样得到事件主题分布
Figure FDA0003675818440000047
和文档主题分布θ,并根据所述事件主题分布
Figure FDA0003675818440000048
和文档主题分布θ构建事件主题模型。
7.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S6包括如下步骤:
S601、以所述主题事件集合中的每个主题事件为结点,并利用统计规则确定任意一事件对的时序关系;
S602、根据事件的先后顺序以先发生的事件为弧尾,后发生的事件为弧头,构建事件时序关系图。
8.根据权利要求7所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S601中利用统计规则确定任意一事件对的时序关系包括以下任意一种情况:
第一种情况:
若统计的两个主题事件均出现在相同文档的概率p1最大,则统计所述两个主题事件在同一文档中出现的位置先后顺序p2,且若事件ei先于事件ej,其时序关系的强度为:p=p1×p2
第二种情况:
若统计的两个主题事件出现在不同文档的概率p3最大,则统计所述两个主题事件所在文档的报道时间的先后顺序p4,且若事件ei先于事件ej,其时序关系的强度为:p=p3×p4
CN201910983942.9A 2019-10-16 2019-10-16 一种基于新闻报道的突发事件线索提取方法 Active CN110737819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910983942.9A CN110737819B (zh) 2019-10-16 2019-10-16 一种基于新闻报道的突发事件线索提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910983942.9A CN110737819B (zh) 2019-10-16 2019-10-16 一种基于新闻报道的突发事件线索提取方法

Publications (2)

Publication Number Publication Date
CN110737819A CN110737819A (zh) 2020-01-31
CN110737819B true CN110737819B (zh) 2022-09-16

Family

ID=69269147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910983942.9A Active CN110737819B (zh) 2019-10-16 2019-10-16 一种基于新闻报道的突发事件线索提取方法

Country Status (1)

Country Link
CN (1) CN110737819B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069383A (zh) * 2020-08-31 2020-12-11 杭州叙简科技股份有限公司 一种用于事件追踪的新闻文本事件、时间抽取及规范化***
CN113312490B (zh) * 2021-04-28 2023-04-18 乐山师范学院 一种针对突发事件的事件知识图谱构建方法
CN114626339A (zh) * 2022-03-10 2022-06-14 深圳市大数据研究院 一种中文线索语生成方法、***、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984681A (zh) * 2014-03-31 2014-08-13 同济大学 基于时序分布信息和主题模型的新闻事件演化分析方法
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其***
CN106156299A (zh) * 2016-06-29 2016-11-23 北京小米移动软件有限公司 文本信息的主题内容识别方法及装置
CN109145224A (zh) * 2018-08-20 2019-01-04 电子科技大学 社交网络事件时序关系分析方法
CN109344239A (zh) * 2018-09-20 2019-02-15 四川昆仑智汇数据科技有限公司 一种基于时序特征的业务过程模型查询方法及查询***
CN110069636A (zh) * 2019-05-05 2019-07-30 苏州大学 融合依存关系与篇章修辞关系的事件时序关系识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984681A (zh) * 2014-03-31 2014-08-13 同济大学 基于时序分布信息和主题模型的新闻事件演化分析方法
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其***
CN106156299A (zh) * 2016-06-29 2016-11-23 北京小米移动软件有限公司 文本信息的主题内容识别方法及装置
CN109145224A (zh) * 2018-08-20 2019-01-04 电子科技大学 社交网络事件时序关系分析方法
CN109344239A (zh) * 2018-09-20 2019-02-15 四川昆仑智汇数据科技有限公司 一种基于时序特征的业务过程模型查询方法及查询***
CN110069636A (zh) * 2019-05-05 2019-07-30 苏州大学 融合依存关系与篇章修辞关系的事件时序关系识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《社交网络事件演化分析方法研究》;周磊;《万方数据》;20190916;第三、四章 *
《融入事件知识的主题表示方法》;孙锐;《计算机学报》;20170430;第3-11页 *

Also Published As

Publication number Publication date
CN110737819A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
US20230007965A1 (en) Entity relation mining method based on biomedical literature
WO2022227207A1 (zh) 文本分类方法、装置、计算机设备和存储介质
CN110737819B (zh) 一种基于新闻报道的突发事件线索提取方法
CN112487203B (zh) 一种融入动态词向量的关系抽取***
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN107480122B (zh) 人工智能交互方法及人工智能交互装置
CN104516947B (zh) 一种融合显性和隐性特征的中文微博情感分析方法
Lytvyn et al. Analysis of the developed quantitative method for automatic attribution of scientific and technical text content written in Ukrainian
CN112328797A (zh) 一种基于神经网络和注意力机制的情感分类方法及***
Xu et al. Chinese event detection based on multi-feature fusion and BiLSTM
CN112836051A (zh) 一种在线自学习的法院电子卷宗文本分类方法
CN116383430A (zh) 知识图谱构建方法、装置、设备及存储介质
JP2015007920A (ja) テキスト処理を用いた社会構造モデルの抽出
Li et al. Applying machine learning to Chinese temporal relation resolution
Shanto et al. Cyberbullying detection using deep learning techniques on bangla facebook comments
Luo et al. Unsupervised learning of morphological forests
Wang et al. Construction of causality event evolutionary graph of aviation accident
Chen et al. Distant supervision for relation extraction via noise filtering
Jia et al. Tibetan text classification method based on BiLSTM model
CN110705277A (zh) 一种基于循环神经网络的中文词义消岐方法
Saharia Detecting emotion from short messages on Nepal earthquake
CN115600584A (zh) DRCNN-BiGRU双通道结合GAP的蒙古语情感分析方法
Lu et al. What is Discussed about COVID-19: A Multi-Modal Framework for Analyzing Microblogs from Sina Weibo without Human Labeling.
Garg et al. Study of sentiment classification techniques
CN113515624A (zh) 一种针对突发事件新闻的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant