CN112069383A - 一种用于事件追踪的新闻文本事件、时间抽取及规范化*** - Google Patents

一种用于事件追踪的新闻文本事件、时间抽取及规范化*** Download PDF

Info

Publication number
CN112069383A
CN112069383A CN202010894769.8A CN202010894769A CN112069383A CN 112069383 A CN112069383 A CN 112069383A CN 202010894769 A CN202010894769 A CN 202010894769A CN 112069383 A CN112069383 A CN 112069383A
Authority
CN
China
Prior art keywords
time
event
text
sub
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010894769.8A
Other languages
English (en)
Inventor
朱安安
邱彦林
陈尚武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xujian Science And Technology Co ltd
Original Assignee
Hangzhou Xujian Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Xujian Science And Technology Co ltd filed Critical Hangzhou Xujian Science And Technology Co ltd
Priority to CN202010894769.8A priority Critical patent/CN112069383A/zh
Publication of CN112069383A publication Critical patent/CN112069383A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明目的是提供一种用于事件追踪的新闻文本事件、时间抽取及规范化***,包括数据采集与处理模块(01),新闻文本预处理模块(02),事件及时间实体抽取模块(03),时间规范化模块(04),时间轴建立模块(05);本发明首先对文本进行聚类、词性标注等预处理,然后对处理好的文本进行子事件抽取及规范化,对规范化子事件进行相似度检测,对非重复事件进行时间的抽取与规范化,最后将新子事件***所属事件时间轴,完成事件的持续追踪。本发明在对时间进行规范化处理时,基元时间的选择不再仅限于当前文本,而是与该事件的前序事件进行持续关联,该方法获取的基元时间更为准确。

Description

一种用于事件追踪的新闻文本事件、时间抽取及规范化***
技术领域
本发明属于事件追踪技术领域,具体涉及一种用于事件追踪的新闻文本事件、时间抽取 及规范化***。
背景技术
随着自然语言处理的飞速发展,事件信息的识别、抽取与推理对于文本理解具有重要的 作用。特别是在新闻事件文本中,对时效性的要求较高。一个事件从开始、持续、处置到结 束,各个时间点所发生的事可以对事件建立事件追踪的时间轴,这对理解事态的发展,事件 归纳整理以及事后的分析汇总有非常重要的作用。
现有技术的缺陷和不足:目前来说,由于中文表述方式复杂,语义理解困难,文本处理 的难度较大,因此,多数研究都以一条文本为依据进行时间的抽取与规范化,而如何将一个 持续数日甚至数月的事件持续的进行关联追踪,以相关事件中的某个时间作为基元时间抽取 出重要的事件及发生时间节点,并将其规范化,构建完整的事件发展过程的探讨还不多。鉴 于此,需要一种或多种方法针对一个持续事件建立事件时间轴,进行事件与发生时间的抽取 和规范化,从而用于事件追踪。
发明内容
本发明要解决的问题是持续时间较长的事件基元时间难以把握,时间抽取与规范化困难 的问题;本发明目的是提供一种用于事件追踪的新闻文本事件、时间抽取及规范化***,首 先对文本进行聚类、词性标注等预处理,然后对处理好的文本进行子事件抽取及规范化,对 规范化子事件进行相似度检测,对非重复事件进行时间的抽取与规范化,最后将新子事件插 入所属事件时间轴,完成事件的持续追踪。
为解决上述问题,本发明目的是提供一种用于事件追踪的新闻文本事件、时间抽取及规 范化***,包括数据采集与处理模块(01),新闻文本预处理模块(02),事件及时间实体 抽取模块(03),时间规范化模块(04),时间轴建立模块(05);
数据采集与处理模块(01):通过爬虫或开放接口在相关新闻网站、舆情类网站(如微 博、贴吧、论坛等)获取每日新闻文本以及评论等信息,由于我们关注的事件往往是突发的 重大事故等负面的新闻,因此在获取文本后首先对其进行正负面情感分析,剔除正面文本, 只保留负面文本。其次因要做事件的持续追踪,因此需要对文本信息进行聚类处理,将描述 相同事件的新闻聚在一起并赋予该事件唯一id,每一条新获取的文本在数据库中进行相似度 对比,若达到相似阈值则判定为同一事件报道,标记同一id,否则为新事件文本,***数据 库,创建新的事件id,每个事件id均创建一个事件时间轴,用以保存每个相同id事件文本 抽取出的规范化子事件与对应发生时间,对该事件进行持续追踪,构建事件;
新闻文本预处理模块(02):针对数据采集与处理模块(01)中完成聚类的文本进行文 本预处理,采用训练好的BERT模型进行分词和词性标注,然后进行语义角色和依存句法分 析,对每个词生成一个该词的数组,用以记录该词的词性、父子节点的词性及其关系;
事件及时间实体抽取模块(03):建立基于语义角色和依存句法关系的子事件抽取模 型,对新闻文本预处理模块(02)中完成预处理的文本进行分析,抽取文本中包含时间条件 的子事件实体;若聚类结果为该文本为新事件,则在分析该文本并抽取包含时间的子事件实 体的同时,构建该事件的时间轴,时间轴包含每个子事件主要信息及发生的具体绝对时间; 而聚类进入已存在事件的文本,则将文本数据通过预设模型抽取相关的子事件实体,并根据 发生时间***该事件的时间轴;
其中,预设模型具体如下:
1.3.1对每个词查找其是否具有语义角色关系(A0,A1,A2),且语义关系中存在时间信 息(TMP),如存在则通过语义角色分析提取子事件三元组,并将时间三元组规范化为子事 件信息,同时取子事件发生时间。如:某新闻文本“某月某日某时某分,某烟花制造有限公 司因违法违规生产烟花爆竹,引发***事故”。经过语义角色分析有:{17:{'TMP':['TMP',0, 4],'A0':['A0',5,9],'A1':['A1',18,19]}},其中,数字为该句话分词后每个词的id,则该 句话可抽取出包含时间的子事件三元组为:[['某烟花制造有限公司','引发','***事故'],'某 月某日某时某分'],经处理后事件时间轴初步形成为:[('某月某日某时某分','某烟花制造有 限公司引发***事故')],然后进入时间规范化模块进行时间规范化处理。若不存在则进行 依存句法分析查询;
1.3.2对每个词进行查询,找出其是否具有“主谓宾[SBV],动宾[VOB];定语后置[AT T];缺失宾语情况下的介宾关系[POB]、前置宾语[FOB]、间接宾语[IOB]等”中的某一情况, 若存在即为潜在三元组,先进入条件抽取模型,查询该潜在三元组是否具有时间条件,若存 在则对三元组进行扩充,最终抽取出该时间条件下的三元组。如:某新闻文本“某年某月某 日某时某分许,位于某市某镇某村的某烟花制造有限公司某工区某包装车间违规生产引发爆 炸,导致周边包装车间发生***、工房倒损,并引发山火。”。该文本经语义角色分析模型 分析无语义三元组,则进行依存句法分析后有:{25:{'ADV':[4],'SBV':[24],'VOB':[2 6]}},该潜在三元组中“'ADV':[4]”‘4’所对应的词为副词且词性为时间t,表明该潜在三元组 含有时间条件,对该潜在三元组进行扩充后,最终抽取出含时间条件的三元组为[['位于某市 某镇某村的某烟花制造有限公司某工区某包装车间违规生产','引发','***'],'某年某月某日 某时某分']。该子事件处理后需***事件时间轴的信息为:[('某年某月某日某时某分','位于 某市某镇某村的某烟花制造有限公司某工区某包装车间违规生产引发***')]。最后,对规 范化的子事件与时间轴上的其他子事件进行相似度检测,若相似度高于阈值则判定该子事件 已在时间轴中,不再记录,否则进入时间规范化模块进行时间规范化处理;
时间规范化模块(04):针对事件及时间实体抽取模块(03)中抽取的子事件进行时间 规范化处理,将子事件发生时间规范化为标准的绝对时间;具体处理流程如下:
1.4.1、将时间表达式分为绝对时间、相对时间、时段以及其他表述时间的名词,如节假 日等。针对相对时间、时段以及其他时间名词,根据训练文本抽取时间实体构建时间三元组 字典,将文本信息中抽取出的非绝对时间信息通过三元组字典进行映射,初步形成较为规范 的时间表述;
1.4.2、时间表述规范化及时间补全:对不完整的时间短语需进行补全,所述时间补全则 需要确定一个参考时间,即基元时间;基元时间有以下三种选择:最近叙述事件、文档发表 或报道时间以及当前***时间,采用24小时制;
最近叙述时间指在上文中出现,并已规范化为可用绝对时间的一个最近时间值;
文档发表或报道时间指,一般在新闻报道中出现的,如“××月××日讯”,或新闻末尾准确 的绝对时间或爬取该新闻文档时页面所获取的发表时间等;
当前***时间即当前时间,需注意对所用***的时间进行校准;
由于针对的是事件类报道进行时间的规范化,因此选取基元时间优先采用最近叙述时 间,其次为文档发表时间,最后为当前***时间。对基元时间进行粒度分解,根据时间三元 组进行时间补全,需注意,时间补全只补全三元组时间粒度前的时间,如相关时间粒度为d ay,则时、分、秒基元省略。若相关时间粒度为hour,如在2019年12月3日发布的消息中 抽取“当天下午3时”,则时间补全至小时,分、秒省略,补全结果为2019年12月3日15 时;
完成补全后将时间信息表述进行规范化处理,主要采用正则表达式进行转换,时间短语 统一转换为标准格式“××××-××-××××:××:××”,即“年-月-日时:分:秒”,补全省略部分不显 示;
时间轴建立模块(05):在完成子事件及时间的抽取和规范化后,将子事件根据时间发 生顺序***所述时间轴,完善事件的追踪过程。
与现有技术相比,本发明的有益效果为:
(1)、本发明在对时间进行规范化处理时,基元时间的选择不再仅限于当前文本,而是 与该事件的前序事件进行持续关联,该方法获取的基元时间更为准确。
(2)、本发明通过对新闻文本聚类,然后抽取文本中的事件与时间,使得每条新闻文本 不再相互独立,可以通过新闻间的相互关联,对某一事件进行持续追踪,形成事件进展时间 轴,这对理解事件的发展过程,归纳整理以及事后的分析汇总有非常重要的作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术 描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一 些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些 附图获得其他的附图;
图1是本发明的技术方案框架结构示意图;
图2是本发明的技术方案工作流程图。
附图数字标注:数据采集与处理模块(01),新闻文本预处理模块(02),事件及时间实体抽取模块(03),时间规范化模块(04),时间轴建立模块(05)。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明 的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都 属于本发明的保护范围。
如图1~2所示,本发明提供一种用于事件追踪的新闻文本事件、时间抽取及规范化系 统,包括数据采集与处理模块(01),新闻文本预处理模块(02),事件及时间实体抽取模 块(03),时间规范化模块(04),时间轴建立模块(05);
数据采集与处理模块(01):通过爬虫或开放接口在相关新闻网站、舆情类网站(如微 博、贴吧、论坛等)获取每日新闻文本以及评论等信息,由于我们关注的事件往往是突发的 重大事故等负面的新闻,因此在获取文本后首先对其进行正负面情感分析,剔除正面文本, 只保留负面文本。其次因要做事件的持续追踪,因此需要对文本信息进行聚类处理,将描述 相同事件的新闻聚在一起并赋予该事件唯一id,每一条新获取的文本在数据库中进行相似度 对比,若达到相似阈值则判定为同一事件报道,标记同一id,否则为新事件文本,***数据 库,创建新的事件id,每个事件id均创建一个事件时间轴,用以保存每个相同id事件文本 抽取出的规范化子事件与对应发生时间,对该事件进行持续追踪,构建事件;
新闻文本预处理模块(02):针对数据采集与处理模块(01)中完成聚类的文本进行文 本预处理,采用训练好的BERT模型进行分词和词性标注,然后进行语义角色和依存句法分 析,对每个词生成一个该词的数组,用以记录该词的词性、父子节点的词性及其关系;
事件及时间实体抽取模块(03):建立基于语义角色和依存句法关系的子事件抽取模 型,对新闻文本预处理模块(02)中完成预处理的文本进行分析,抽取文本中包含时间条件 的子事件实体;若聚类结果为该文本为新事件,则在分析该文本并抽取包含时间的子事件实 体的同时,构建该事件的时间轴,时间轴包含每个子事件主要信息及发生的具体绝对时间; 而聚类进入已存在事件的文本,则将文本数据通过预设模型抽取相关的子事件实体,并根据 发生时间***该事件的时间轴;
其中,预设模型具体如下:
1.3.1、对每个词查找其是否具有语义角色关系(A0,A1,A2),且语义关系中存在时间 信息(TMP),如存在则通过语义角色分析提取子事件三元组,并将时间三元组规范化为子 事件信息,同时取子事件发生时间。如:某新闻文本“某月某日某时某分,某烟花制造有限 公司因违法违规生产烟花爆竹,引发***事故”。经过语义角色分析有:{17:{'TMP':['TMP', 0,4],'A0':['A0',5,9],'A1':['A1',18,19]}},其中,数字为该句话分词后每个词的id,则 该句话可抽取出包含时间的子事件三元组为:[['某烟花制造有限公司','引发','***事故'],' 某月某日某时某分'],经处理后事件时间轴初步形成为:[('某月某日某时某分','某烟花制造 有限公司引发***事故')],然后进入时间规范化模块进行时间规范化处理。若不存在则进 行依存句法分析查询;
1.3.2、对每个词进行查询,找出其是否具有“主谓宾[SBV],动宾[VOB];定语后置[AT T];缺失宾语情况下的介宾关系[POB]、前置宾语[FOB]、间接宾语[IOB]等”中的某一情况, 若存在即为潜在三元组,先进入条件抽取模型,查询该潜在三元组是否具有时间条件,若存 在则对三元组进行扩充,最终抽取出该时间条件下的三元组。如:某新闻文本“某年某月某 日某时某分许,位于某市某镇某村的某烟花制造有限公司某工区某包装车间违规生产引发爆 炸,导致周边包装车间发生***、工房倒损,并引发山火。”。该文本经语义角色分析模型 分析无语义三元组,则进行依存句法分析后有:{25:{'ADV':[4],'SBV':[24],'VOB':[2 6]}},该潜在三元组中“'ADV':[4]”‘4’所对应的词为副词且词性为时间t,表明该潜在三元组 含有时间条件,对该潜在三元组进行扩充后,最终抽取出含时间条件的三元组为[['位于某市 某镇某村的某烟花制造有限公司某工区某包装车间违规生产','引发','***'],'某年某月某日 某时某分']。该子事件处理后需***事件时间轴的信息为:[('某年某月某日某时某分','位于 某市某镇某村的某烟花制造有限公司某工区某包装车间违规生产引发***')]。最后,对规 范化的子事件与时间轴上的其他子事件进行相似度检测,若相似度高于阈值则判定该子事件 已在时间轴中,不再记录,否则进入时间规范化模块进行时间规范化处理;
时间规范化模块(04):针对事件及时间实体抽取模块(03)中抽取的子事件进行时间 规范化处理,将子事件发生时间规范化为标准的绝对时间;具体处理流程如下:
1.4.1、将时间表达式分为绝对时间、相对时间、时段以及其他表述时间的名词,如节假 日等。针对相对时间、时段以及其他时间名词,根据训练文本抽取时间实体构建时间三元组 字典,将文本信息中抽取出的非绝对时间信息通过三元组字典进行映射,初步形成较为规范 的时间表述;
时间三元组如下表所示:
Figure BDA0002658113210000061
1.4.2、时间表述规范化及时间补全:对不完整的时间短语需进行补全,所述时间补全则 需要确定一个参考时间,即基元时间;基元时间有以下三种选择:最近叙述事件、文档发表 或报道时间以及当前***时间,采用24小时制;
最近叙述时间指在上文中出现,并已规范化为可用绝对时间的一个最近时间值;
文档发表或报道时间指,一般在新闻报道中出现的,如“××月××日讯”,或新闻末尾准确 的绝对时间或爬取该新闻文档时页面所获取的发表时间等;
当前***时间即当前时间,需注意对所用***的时间进行校准;
由于针对的是事件类报道进行时间的规范化,因此选取基元时间优先采用最近叙述时 间,其次为文档发表时间,最后为当前***时间。对基元时间进行粒度分解,根据时间三元 组进行时间补全,需注意,时间补全只补全三元组时间粒度前的时间,如相关时间粒度为d ay,则时、分、秒基元省略。若相关时间粒度为hour,如在2019年12月3日发布的消息中 抽取“当天下午3时”,则时间补全至小时,分、秒省略,补全结果为2019年12月3日15 时;
完成补全后将时间信息表述进行规范化处理,主要采用正则表达式进行转换,时间短语 统一转换为标准格式“××××-××-××××:××:××”,即“年-月-日时:分:秒”,补全省略部分不显 示;
时间轴建立模块(05):在完成子事件及时间的抽取和规范化后,将子事件根据时间发 生顺序***所述时间轴,完善事件的追踪过程。
(1)、本发明在对时间进行规范化处理时,基元时间的选择不再仅限于当前文本,而是 与该事件的前序事件进行持续关联,该方法获取的基元时间更为准确。
(2)、本发明通过对新闻文本聚类,然后抽取文本中的事件与时间,使得每条新闻文本 不再相互独立,可以通过新闻间的相互关联,对某一事件进行持续追踪,形成事件进展时间 轴,这对理解事件的发展过程,归纳整理以及事后的分析汇总有非常重要的作用。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者 操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这 种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排 他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而 且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有 的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在 不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型, 本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种用于事件追踪的新闻文本事件、时间抽取及规范化***,其特征在于,包括数据采集与处理模块(01),新闻文本预处理模块(02),事件及时间实体抽取模块(03),时间规范化模块(04),时间轴建立模块(05);
数据采集与处理模块(01):通过爬虫或开放接口在相关新闻网站、舆情类网站获取每日新闻文本以及评论信息,将描述相同事件的新闻聚在一起并赋予该事件唯一id,每一条新获取的文本在数据库中进行相似度对比,若达到相似阈值则判定为同一事件报道,标记同一id,否则为新事件文本,***数据库,创建新的事件id,每个事件id均创建一个事件时间轴,用以保存每个相同id事件文本抽取出的规范化子事件与对应发生时间,对该事件进行持续追踪,构建事件;
新闻文本预处理模块(02):针对数据采集与处理模块(01)中完成聚类的文本进行文本预处理,采用训练好的BERT模型进行分词和词性标注,然后进行语义角色和依存句法分析,对每个词生成一个该词的数组,用以记录该词的词性、父子节点的词性及其关系;
事件及时间实体抽取模块(03):建立基于语义角色和依存句法关系的子事件抽取模型,对新闻文本预处理模块(02)中完成预处理的文本进行分析,抽取文本中包含时间条件的子事件实体;若聚类结果为该文本为新事件,则在分析该文本并抽取包含时间的子事件实体的同时,构建该事件的时间轴,时间轴包含每个子事件主要信息及发生的具体绝对时间;而聚类进入已存在事件的文本,则将文本数据通过预设模型抽取相关的子事件实体,并根据发生时间***该事件的时间轴;
时间规范化模块(04):针对事件及时间实体抽取模块(03)中抽取的子事件进行时间规范化处理,将子事件发生时间规范化为标准的绝对时间;
时间轴建立模块(05):在完成子事件及时间的抽取和规范化后,将子事件根据时间发生顺序***所述时间轴,完善事件的追踪过程。
2.根据权利要求1中所述的一种用于事件追踪的新闻文本事件、时间抽取及规范化***,其特征在于,所述事件及时间实体抽取模块(03)中的预设模型具体流程如下:
1.3.1、对每个词查找其是否存在具有语义角色关系(A0,A1,A2),且语义关系中存在时间信息(TMP),如存在则通过语义角色分析提取子事件三元组,并将时间三元组规范化为子事件信息,同时取子事件发生时间,然后进入时间规范化模块进行时间规范化处理;若不存在则进行依存句法分析查询;
1.3.2、对每个词进行查询,找出其是否存在具有”主谓宾[SBV],动宾[VOB];定语后置[ATT];缺失宾语情况下的介宾关系[POB]、前置宾语[FOB]、间接宾语[IOB]”中的某一情况,若存在即为潜在三元组,先进入条件抽取模型,查询该潜在三元组是否存在具有时间条件,若存在则对三元组进行扩充,最终抽取出该时间条件下的三元组;最后,对规范化的子事件与时间轴上的其他子事件进行相似度检测,若相似度高于阈值则判定该子事件已在时间轴中,不再记录,否则进入时间规范化模块进行时间规范化处理。
3.根据权利要求1中所述的一种用于事件追踪的新闻文本事件、时间抽取及规范化***,其特征在于,所述时间规范化模块(04)的具体处理流程如下:
1.4.1、将时间表达式分为绝对时间、相对时间、时段以及其他表述时间的名词;针对相对时间、时段以及其他时间名词,根据训练文本抽取时间实体构建时间三元组字典,将文本信息中抽取出的非绝对时间信息通过三元组字典进行映射,初步形成较为规范的时间表述;
1.4.2、时间表述规范化及时间补全:对不完整的时间短语需进行补全,所述时间补全则需要确定一个参考时间,即基元时间;基元时间有以下三种选择:最近叙述事件、文档发表或报道时间以及当前***时间,采用24小时制;
最近叙述时间是指在上文中出现,并已规范化为可用绝对时间的一个最近时间值;
文档发表或报道时间,是指一般在新闻报道中出现的,或新闻末尾准确的绝对时间或爬取该新闻文档时页面所获取的发表时间;
当前***时间是指当前时间,需注意对所用***的时间进行校准;
由于针对的是事件类报道进行时间的规范化,因此选取基元时间优先采用最近叙述时间,其次为文档发表时间,最后为当前***时间;对基元时间进行粒度分解,根据时间三元组进行时间补全,需注意,时间补全只补全三元组时间粒度前的时间;
完成补全后将时间信息表述进行规范化处理,主要采用正则表达式进行转换,时间短语统一转换为标准格式”××××-××-××××:××:××”,即”年-月-日时:分:秒”,补全省略部分不显示。
CN202010894769.8A 2020-08-31 2020-08-31 一种用于事件追踪的新闻文本事件、时间抽取及规范化*** Pending CN112069383A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010894769.8A CN112069383A (zh) 2020-08-31 2020-08-31 一种用于事件追踪的新闻文本事件、时间抽取及规范化***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010894769.8A CN112069383A (zh) 2020-08-31 2020-08-31 一种用于事件追踪的新闻文本事件、时间抽取及规范化***

Publications (1)

Publication Number Publication Date
CN112069383A true CN112069383A (zh) 2020-12-11

Family

ID=73664801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010894769.8A Pending CN112069383A (zh) 2020-08-31 2020-08-31 一种用于事件追踪的新闻文本事件、时间抽取及规范化***

Country Status (1)

Country Link
CN (1) CN112069383A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597269A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 流式数据事件文本专题及检测***
CN112966029A (zh) * 2021-03-31 2021-06-15 支付宝(杭州)信息技术有限公司 一种信息显示和发送方法、装置、设备和可读介质
CN113190674A (zh) * 2021-05-08 2021-07-30 上海明略人工智能(集团)有限公司 用于生成事件脉络的方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150234805A1 (en) * 2014-02-18 2015-08-20 David Allan Caswell System and Method for Interacting with Event and Narrative Information As Structured Data
CN108427761A (zh) * 2018-03-21 2018-08-21 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN109446513A (zh) * 2018-09-18 2019-03-08 中国电子科技集团公司第二十八研究所 一种基于自然语言理解的文本中事件的抽取方法
CN110737819A (zh) * 2019-10-16 2020-01-31 乐山师范学院 一种基于新闻报道的突发事件线索提取方法
CN111125520A (zh) * 2019-12-11 2020-05-08 东南大学 一种面向新闻文本的基于深度聚类模型的事件线抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150234805A1 (en) * 2014-02-18 2015-08-20 David Allan Caswell System and Method for Interacting with Event and Narrative Information As Structured Data
CN108427761A (zh) * 2018-03-21 2018-08-21 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN109446513A (zh) * 2018-09-18 2019-03-08 中国电子科技集团公司第二十八研究所 一种基于自然语言理解的文本中事件的抽取方法
CN110737819A (zh) * 2019-10-16 2020-01-31 乐山师范学院 一种基于新闻报道的突发事件线索提取方法
CN111125520A (zh) * 2019-12-11 2020-05-08 东南大学 一种面向新闻文本的基于深度聚类模型的事件线抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
姜高宇: ""信息对象重构***的设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 09, pages 138 - 1365 *
张远鹏 等: ""基于HMM的H7N9事件中时间信息的抽取"", 《中国数字医学》, vol. 10, no. 10, pages 23 - 26 *
李风环 等: ""基于动态机制的主题事件中的时间识别和规范化"", 《智能计算机与应用》, vol. 5, no. 6, pages 1 - 4 *
李风环: ""主题事件挖掘及动态演化分析研究"", 《中国博士学位论文全文数据库 信息科技辑》, no. 02, pages 138 - 226 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597269A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 流式数据事件文本专题及检测***
CN112966029A (zh) * 2021-03-31 2021-06-15 支付宝(杭州)信息技术有限公司 一种信息显示和发送方法、装置、设备和可读介质
CN112966029B (zh) * 2021-03-31 2023-08-04 支付宝(杭州)信息技术有限公司 一种信息显示和发送方法、装置、设备和可读介质
CN113190674A (zh) * 2021-05-08 2021-07-30 上海明略人工智能(集团)有限公司 用于生成事件脉络的方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN112069383A (zh) 一种用于事件追踪的新闻文本事件、时间抽取及规范化***
KR102508769B1 (ko) 새로운 카테고리 라벨의 마이닝 방법 및 장치, 전자 기기 및 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 제품
CN111625659B (zh) 知识图谱处理方法、装置、服务器及存储介质
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN111639484A (zh) 坐席通话内容的分析方法
CN102956231B (zh) 基于半自动校正的语音关键信息记录装置及方法
CN109558492A (zh) 一种适于事件归因的上市公司知识图谱构建方法及装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN110889786A (zh) 一种基于lstm技术的法律诉讼被告人保全用审判服务方法
CN111061882A (zh) 一种知识图谱构建方法
CN111897914A (zh) 用于综合管廊领域的实体信息抽取及知识图谱构建方法
CN107943514A (zh) 一种软件文档中核心代码元素的挖掘方法及***
CN110162651B (zh) 基于语义内容摘要的新闻内容图文不符鉴别***及鉴别方法
CN111177401A (zh) 一种电网自由文本知识抽取方法
CN114579695A (zh) 一种事件抽取方法、装置、设备及存储介质
CN111680493B (zh) 英语文本分析方法、装置、可读存储介质及计算机设备
CN112182019B (zh) 一种电网统计专业指标特征提取的语义解析搜索方法
Hunyadi et al. Annotation of spoken syntax in relation to prosody and multimodal pragmatics
Zhang et al. The Information Extraction Systems of PRIS at Temporal Summarization Track.
Orekhov et al. Using Internet News Flows as Marketing Data Component.
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN112541075B (zh) 一种警情文本的标准案发时间提取方法及***
CN115994531A (zh) 一种多维度文本综合辨识方法
CN114298041A (zh) 网络安全命名实体的识别方法及识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination