CN112069383A

CN112069383A - 一种用于事件追踪的新闻文本事件、时间抽取及规范化***

Info

Publication number: CN112069383A
Application number: CN202010894769.8A
Authority: CN
Inventors: 朱安安; 邱彦林; 陈尚武
Original assignee: Hangzhou Xujian Science And Technology Co ltd
Current assignee: Hangzhou Xujian Science And Technology Co ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-11

Abstract

本发明目的是提供一种用于事件追踪的新闻文本事件、时间抽取及规范化***，包括数据采集与处理模块(01)，新闻文本预处理模块(02)，事件及时间实体抽取模块(03)，时间规范化模块(04)，时间轴建立模块(05)；本发明首先对文本进行聚类、词性标注等预处理，然后对处理好的文本进行子事件抽取及规范化，对规范化子事件进行相似度检测，对非重复事件进行时间的抽取与规范化，最后将新子事件***所属事件时间轴，完成事件的持续追踪。本发明在对时间进行规范化处理时，基元时间的选择不再仅限于当前文本，而是与该事件的前序事件进行持续关联，该方法获取的基元时间更为准确。

Description

一种用于事件追踪的新闻文本事件、时间抽取及规范化***

技术领域

本发明属于事件追踪技术领域，具体涉及一种用于事件追踪的新闻文本事件、时间抽取及规范化***。

背景技术

随着自然语言处理的飞速发展，事件信息的识别、抽取与推理对于文本理解具有重要的作用。特别是在新闻事件文本中，对时效性的要求较高。一个事件从开始、持续、处置到结束，各个时间点所发生的事可以对事件建立事件追踪的时间轴，这对理解事态的发展，事件归纳整理以及事后的分析汇总有非常重要的作用。

现有技术的缺陷和不足：目前来说，由于中文表述方式复杂，语义理解困难，文本处理的难度较大，因此，多数研究都以一条文本为依据进行时间的抽取与规范化，而如何将一个持续数日甚至数月的事件持续的进行关联追踪，以相关事件中的某个时间作为基元时间抽取出重要的事件及发生时间节点，并将其规范化，构建完整的事件发展过程的探讨还不多。鉴于此，需要一种或多种方法针对一个持续事件建立事件时间轴，进行事件与发生时间的抽取和规范化，从而用于事件追踪。

发明内容

本发明要解决的问题是持续时间较长的事件基元时间难以把握，时间抽取与规范化困难的问题；本发明目的是提供一种用于事件追踪的新闻文本事件、时间抽取及规范化***，首先对文本进行聚类、词性标注等预处理，然后对处理好的文本进行子事件抽取及规范化，对规范化子事件进行相似度检测，对非重复事件进行时间的抽取与规范化，最后将新子事件插入所属事件时间轴，完成事件的持续追踪。

为解决上述问题，本发明目的是提供一种用于事件追踪的新闻文本事件、时间抽取及规范化***，包括数据采集与处理模块(01)，新闻文本预处理模块(02)，事件及时间实体抽取模块(03)，时间规范化模块(04)，时间轴建立模块(05)；

数据采集与处理模块(01)：通过爬虫或开放接口在相关新闻网站、舆情类网站(如微博、贴吧、论坛等)获取每日新闻文本以及评论等信息，由于我们关注的事件往往是突发的重大事故等负面的新闻，因此在获取文本后首先对其进行正负面情感分析，剔除正面文本，只保留负面文本。其次因要做事件的持续追踪，因此需要对文本信息进行聚类处理，将描述相同事件的新闻聚在一起并赋予该事件唯一id，每一条新获取的文本在数据库中进行相似度对比，若达到相似阈值则判定为同一事件报道，标记同一id，否则为新事件文本，***数据库，创建新的事件id，每个事件id均创建一个事件时间轴，用以保存每个相同id事件文本抽取出的规范化子事件与对应发生时间，对该事件进行持续追踪，构建事件；

新闻文本预处理模块(02)：针对数据采集与处理模块(01)中完成聚类的文本进行文本预处理，采用训练好的BERT模型进行分词和词性标注，然后进行语义角色和依存句法分析，对每个词生成一个该词的数组，用以记录该词的词性、父子节点的词性及其关系；

事件及时间实体抽取模块(03)：建立基于语义角色和依存句法关系的子事件抽取模型，对新闻文本预处理模块(02)中完成预处理的文本进行分析，抽取文本中包含时间条件的子事件实体；若聚类结果为该文本为新事件，则在分析该文本并抽取包含时间的子事件实体的同时，构建该事件的时间轴，时间轴包含每个子事件主要信息及发生的具体绝对时间；而聚类进入已存在事件的文本，则将文本数据通过预设模型抽取相关的子事件实体，并根据发生时间***该事件的时间轴；

其中，预设模型具体如下：

1.3.1对每个词查找其是否具有语义角色关系(A0,A1,A2)，且语义关系中存在时间信息(TMP)，如存在则通过语义角色分析提取子事件三元组，并将时间三元组规范化为子事件信息，同时取子事件发生时间。如：某新闻文本“某月某日某时某分,某烟花制造有限公司因违法违规生产烟花爆竹,引发***事故”。经过语义角色分析有：{17:{'TMP':['TMP',0, 4],'A0':['A0',5,9],'A1':['A1',18,19]}}，其中，数字为该句话分词后每个词的id，则该句话可抽取出包含时间的子事件三元组为：[['某烟花制造有限公司','引发','***事故']，'某月某日某时某分']，经处理后事件时间轴初步形成为：[('某月某日某时某分','某烟花制造有限公司引发***事故')]，然后进入时间规范化模块进行时间规范化处理。若不存在则进行依存句法分析查询；

1.3.2对每个词进行查询，找出其是否具有“主谓宾[SBV]，动宾[VOB]；定语后置[AT T]；缺失宾语情况下的介宾关系[POB]、前置宾语[FOB]、间接宾语[IOB]等”中的某一情况，若存在即为潜在三元组，先进入条件抽取模型，查询该潜在三元组是否具有时间条件，若存在则对三元组进行扩充，最终抽取出该时间条件下的三元组。如：某新闻文本“某年某月某日某时某分许，位于某市某镇某村的某烟花制造有限公司某工区某包装车间违规生产引发爆炸，导致周边包装车间发生***、工房倒损，并引发山火。”。该文本经语义角色分析模型分析无语义三元组，则进行依存句法分析后有：{25:{'ADV':[4],'SBV':[24],'VOB':[2 6]}}，该潜在三元组中“'ADV':[4]”‘4’所对应的词为副词且词性为时间t，表明该潜在三元组含有时间条件，对该潜在三元组进行扩充后，最终抽取出含时间条件的三元组为[['位于某市某镇某村的某烟花制造有限公司某工区某包装车间违规生产','引发','***']，'某年某月某日某时某分']。该子事件处理后需***事件时间轴的信息为：[('某年某月某日某时某分','位于某市某镇某村的某烟花制造有限公司某工区某包装车间违规生产引发***')]。最后，对规范化的子事件与时间轴上的其他子事件进行相似度检测，若相似度高于阈值则判定该子事件已在时间轴中，不再记录，否则进入时间规范化模块进行时间规范化处理；

时间规范化模块(04)：针对事件及时间实体抽取模块(03)中抽取的子事件进行时间规范化处理，将子事件发生时间规范化为标准的绝对时间；具体处理流程如下：

1.4.1、将时间表达式分为绝对时间、相对时间、时段以及其他表述时间的名词，如节假日等。针对相对时间、时段以及其他时间名词，根据训练文本抽取时间实体构建时间三元组字典，将文本信息中抽取出的非绝对时间信息通过三元组字典进行映射，初步形成较为规范的时间表述；

1.4.2、时间表述规范化及时间补全：对不完整的时间短语需进行补全，所述时间补全则需要确定一个参考时间，即基元时间；基元时间有以下三种选择：最近叙述事件、文档发表或报道时间以及当前***时间，采用24小时制；

最近叙述时间指在上文中出现，并已规范化为可用绝对时间的一个最近时间值；

文档发表或报道时间指，一般在新闻报道中出现的，如“××月××日讯”，或新闻末尾准确的绝对时间或爬取该新闻文档时页面所获取的发表时间等；

当前***时间即当前时间，需注意对所用***的时间进行校准；

由于针对的是事件类报道进行时间的规范化，因此选取基元时间优先采用最近叙述时间，其次为文档发表时间，最后为当前***时间。对基元时间进行粒度分解，根据时间三元组进行时间补全，需注意，时间补全只补全三元组时间粒度前的时间，如相关时间粒度为d ay，则时、分、秒基元省略。若相关时间粒度为hour，如在2019年12月3日发布的消息中抽取“当天下午3时”，则时间补全至小时，分、秒省略，补全结果为2019年12月3日15 时；

完成补全后将时间信息表述进行规范化处理，主要采用正则表达式进行转换，时间短语统一转换为标准格式“××××-××-××××:××:××”，即“年-月-日时:分:秒”，补全省略部分不显示；

时间轴建立模块(05)：在完成子事件及时间的抽取和规范化后，将子事件根据时间发生顺序***所述时间轴，完善事件的追踪过程。

与现有技术相比，本发明的有益效果为：

(1)、本发明在对时间进行规范化处理时，基元时间的选择不再仅限于当前文本，而是与该事件的前序事件进行持续关联，该方法获取的基元时间更为准确。

(2)、本发明通过对新闻文本聚类，然后抽取文本中的事件与时间，使得每条新闻文本不再相互独立，可以通过新闻间的相互关联，对某一事件进行持续追踪，形成事件进展时间轴，这对理解事件的发展过程，归纳整理以及事后的分析汇总有非常重要的作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图；

图1是本发明的技术方案框架结构示意图；

图2是本发明的技术方案工作流程图。

附图数字标注：数据采集与处理模块(01)，新闻文本预处理模块(02)，事件及时间实体抽取模块(03)，时间规范化模块(04)，时间轴建立模块(05)。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1～2所示，本发明提供一种用于事件追踪的新闻文本事件、时间抽取及规范化系统，包括数据采集与处理模块(01)，新闻文本预处理模块(02)，事件及时间实体抽取模块(03)，时间规范化模块(04)，时间轴建立模块(05)；

其中，预设模型具体如下：

1.3.1、对每个词查找其是否具有语义角色关系(A0,A1,A2)，且语义关系中存在时间信息(TMP)，如存在则通过语义角色分析提取子事件三元组，并将时间三元组规范化为子事件信息，同时取子事件发生时间。如：某新闻文本“某月某日某时某分,某烟花制造有限公司因违法违规生产烟花爆竹,引发***事故”。经过语义角色分析有：{17:{'TMP':['TMP', 0,4],'A0':['A0',5,9],'A1':['A1',18,19]}}，其中，数字为该句话分词后每个词的id，则该句话可抽取出包含时间的子事件三元组为：[['某烟花制造有限公司','引发','***事故']，' 某月某日某时某分']，经处理后事件时间轴初步形成为：[('某月某日某时某分','某烟花制造有限公司引发***事故')]，然后进入时间规范化模块进行时间规范化处理。若不存在则进行依存句法分析查询；

1.3.2、对每个词进行查询，找出其是否具有“主谓宾[SBV]，动宾[VOB]；定语后置[AT T]；缺失宾语情况下的介宾关系[POB]、前置宾语[FOB]、间接宾语[IOB]等”中的某一情况，若存在即为潜在三元组，先进入条件抽取模型，查询该潜在三元组是否具有时间条件，若存在则对三元组进行扩充，最终抽取出该时间条件下的三元组。如：某新闻文本“某年某月某日某时某分许，位于某市某镇某村的某烟花制造有限公司某工区某包装车间违规生产引发爆炸，导致周边包装车间发生***、工房倒损，并引发山火。”。该文本经语义角色分析模型分析无语义三元组，则进行依存句法分析后有：{25:{'ADV':[4],'SBV':[24],'VOB':[2 6]}}，该潜在三元组中“'ADV':[4]”‘4’所对应的词为副词且词性为时间t，表明该潜在三元组含有时间条件，对该潜在三元组进行扩充后，最终抽取出含时间条件的三元组为[['位于某市某镇某村的某烟花制造有限公司某工区某包装车间违规生产','引发','***']，'某年某月某日某时某分']。该子事件处理后需***事件时间轴的信息为：[('某年某月某日某时某分','位于某市某镇某村的某烟花制造有限公司某工区某包装车间违规生产引发***')]。最后，对规范化的子事件与时间轴上的其他子事件进行相似度检测，若相似度高于阈值则判定该子事件已在时间轴中，不再记录，否则进入时间规范化模块进行时间规范化处理；

时间三元组如下表所示：

当前***时间即当前时间，需注意对所用***的时间进行校准；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种用于事件追踪的新闻文本事件、时间抽取及规范化***，其特征在于，包括数据采集与处理模块(01)，新闻文本预处理模块(02)，事件及时间实体抽取模块(03)，时间规范化模块(04)，时间轴建立模块(05)；

数据采集与处理模块(01)：通过爬虫或开放接口在相关新闻网站、舆情类网站获取每日新闻文本以及评论信息，将描述相同事件的新闻聚在一起并赋予该事件唯一id，每一条新获取的文本在数据库中进行相似度对比，若达到相似阈值则判定为同一事件报道，标记同一id，否则为新事件文本，***数据库，创建新的事件id，每个事件id均创建一个事件时间轴，用以保存每个相同id事件文本抽取出的规范化子事件与对应发生时间，对该事件进行持续追踪，构建事件；

时间规范化模块(04)：针对事件及时间实体抽取模块(03)中抽取的子事件进行时间规范化处理，将子事件发生时间规范化为标准的绝对时间；

2.根据权利要求1中所述的一种用于事件追踪的新闻文本事件、时间抽取及规范化***，其特征在于，所述事件及时间实体抽取模块(03)中的预设模型具体流程如下：

1.3.1、对每个词查找其是否存在具有语义角色关系(A0，A1，A2)，且语义关系中存在时间信息(TMP)，如存在则通过语义角色分析提取子事件三元组，并将时间三元组规范化为子事件信息，同时取子事件发生时间，然后进入时间规范化模块进行时间规范化处理；若不存在则进行依存句法分析查询；

1.3.2、对每个词进行查询，找出其是否存在具有”主谓宾[SBV]，动宾[VOB]；定语后置[ATT]；缺失宾语情况下的介宾关系[POB]、前置宾语[FOB]、间接宾语[IOB]”中的某一情况，若存在即为潜在三元组，先进入条件抽取模型，查询该潜在三元组是否存在具有时间条件，若存在则对三元组进行扩充，最终抽取出该时间条件下的三元组；最后，对规范化的子事件与时间轴上的其他子事件进行相似度检测，若相似度高于阈值则判定该子事件已在时间轴中，不再记录，否则进入时间规范化模块进行时间规范化处理。

3.根据权利要求1中所述的一种用于事件追踪的新闻文本事件、时间抽取及规范化***，其特征在于，所述时间规范化模块(04)的具体处理流程如下：

1.4.1、将时间表达式分为绝对时间、相对时间、时段以及其他表述时间的名词；针对相对时间、时段以及其他时间名词，根据训练文本抽取时间实体构建时间三元组字典，将文本信息中抽取出的非绝对时间信息通过三元组字典进行映射，初步形成较为规范的时间表述；

最近叙述时间是指在上文中出现，并已规范化为可用绝对时间的一个最近时间值；

文档发表或报道时间，是指一般在新闻报道中出现的，或新闻末尾准确的绝对时间或爬取该新闻文档时页面所获取的发表时间；

当前***时间是指当前时间，需注意对所用***的时间进行校准；

由于针对的是事件类报道进行时间的规范化，因此选取基元时间优先采用最近叙述时间，其次为文档发表时间，最后为当前***时间；对基元时间进行粒度分解，根据时间三元组进行时间补全，需注意，时间补全只补全三元组时间粒度前的时间；

完成补全后将时间信息表述进行规范化处理，主要采用正则表达式进行转换，时间短语统一转换为标准格式”××××-××-××××:××:××”，即”年-月-日时:分:秒”，补全省略部分不显示。