CN117094397B - 一种基于短论元的细粒度事件信息抽取方法、装置和产品 - Google Patents

一种基于短论元的细粒度事件信息抽取方法、装置和产品 Download PDF

Info

Publication number
CN117094397B
CN117094397B CN202311352557.7A CN202311352557A CN117094397B CN 117094397 B CN117094397 B CN 117094397B CN 202311352557 A CN202311352557 A CN 202311352557A CN 117094397 B CN117094397 B CN 117094397B
Authority
CN
China
Prior art keywords
event
sample
argument
short
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311352557.7A
Other languages
English (en)
Other versions
CN117094397A (zh
Inventor
杨国利
王圣
韩宏伟
刘艺
白晓颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Big Data Advanced Technology Research Institute
Original Assignee
Beijing Big Data Advanced Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Big Data Advanced Technology Research Institute filed Critical Beijing Big Data Advanced Technology Research Institute
Priority to CN202311352557.7A priority Critical patent/CN117094397B/zh
Publication of CN117094397A publication Critical patent/CN117094397A/zh
Application granted granted Critical
Publication of CN117094397B publication Critical patent/CN117094397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种基于短论元的细粒度事件信息抽取方法、装置和产品,涉及知识工程信息抽取技术领域,该方法为:利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元为事件论元中去除描述信息后的实体论元;利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述;所述短论元描述表示所述事件短论元的描述信息;将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表。

Description

一种基于短论元的细粒度事件信息抽取方法、装置和产品
技术领域
本申请涉及知识工程信息抽取技术领域,特别是一种基于短论元的细粒度事件信息抽取方法、装置和产品。
背景技术
事件抽取是信息抽取中的关键任务,是指从自然语言文本中抽取事件信息并将其以结构化的形式呈现出来,以供后续的分析应用,在自动摘要、自动问答、信息检索等领域有着广泛的应用。在事件抽取过程中,需要进行事件触发词检测及论元检测,即判断事件的事件类型以及该事件对应的事件要素。
然而,现有的信息抽取方法过于简单,无法满足针对复杂事件的细粒度信息抽取要求,即对于较为复杂的事件描述文本,难以抽取得到清楚准确具体的事件信息。因此,有必要开发一种基于短论元的细粒度事件信息抽取方法、装置和产品,以提高对事件信息的抽取效果,以得到更为准确,结构更为清晰的事件信息,支撑对事件的深度认知和精准归纳。
发明内容
鉴于上述问题,本申请实施例提供了一种基于短论元的事件信息抽取方法、装置和产品,以便克服上述问题或者至少部分地解决上述问题。
本申请实施例的第一方面,提供了一种基于短论元的细粒度事件信息抽取方法,包括:
利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描述信息后的实体论元;
利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述;所述短论元描述表示所述事件短论元的描述信息;
将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表。
在一种可选的实施方式中,所述短论元抽取模型是通过如下步骤训练得到的:
获取样本文本和所述样本文本中的多个样本事件论元;
对所述样本事件论元进行拆分,得到样本事件短论元,所述样本事件短论元表示与事件直接相关的实体论元;
对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注;
利用标注后的样本文本,对预训练模型进行训练,得到所述短论元抽取模型。
在一种可选的实施方式中,所述对所述样本事件论元进行拆分,得到样本事件短论元,包括:
过滤所述样本事件论元中与所述样本触发词无关的样本事件论元;
拆分并过滤所述样本事件论元中的远距离实体描述信息;所述远距离实体描述信息表示在文本中的位置与实体存在距离,但在语义信息中用于对该实体进行描述的文本信息;
在所述样本事件论元为复合描述型实体的情况下,拆分并过滤所述样本事件论元中的复合描述信息,得到所述样本事件短论元,所述复合描述型实体表示实体信息与多个描述信息以组合词的形式存在的文本。
在一种可选的实施方式中,所述对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注,包括:
对所述样本文本中的每个所述样本事件短论元,标注该样本事件短论元对应的样本触发词、相关事件和短论元标签;
对所述样本文本中的每个所述样本触发词,标注该样本触发词对应的相关事件和触发词标签。
在一种可选的实施方式中,所述短论元描述抽取模型是通过如下步骤训练得到的:
获取样本文本;
定义所述样本文本中的样本短论元描述和样本短论元实体,所述样本短论元描述包括复合类型描述和远距离描述;
在所述样本文本中,标注出每一对所述样本短论元描述和所述样本短论元实体之间的对应关系;
利用标注后的样本文本,对预训练模型进行训练,得到所述短论元描述抽取模型。
在一种可选的实施方式中,所述将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,包括:
从所述短论元描述中,过滤与所述事件短论元无关的短论元描述;
按照所述事件短论元、所述事件短论元对应的触发词和所述短论元描述各自在所述待抽取文本中的位置,将过滤后的短论元描述和所述事件短论元进行一一匹配,生成多个匹配结果;
根据所述事件短论元对应的触发词,对所述多个匹配结果进行递归,得到所述细粒度事件信息列表。
在一种可选的实施方式中,所述根据所述事件短论元对应的触发词,对所述多个匹配结果进行递归,得到所述细粒度事件信息列表,包括:
针对每个所述事件短论元对应的触发词,从所述多个匹配结果中确定出相关的多个候选匹配结果;
将多个所述候选匹配结果进行组合,得到同一事件的一个或多个事件信息;
根据各个事件的所述事件信息,生成所述细粒度事件信息列表。
本申请实施例第二方面提出了一种基于短论元的细粒度事件信息抽取装置,所述装置包括:
短论元抽取模块,用于利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描述信息后的实体论元;
描述抽取模块,用于利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述;所述短论元描述表示所述事件短论元的描述信息;
事件信息生成模块,用于将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表。
在一种可选的实施方式中,所述装置还包括短论元抽取模型训练模块,所述短论元抽取模型训练模块,包括:
第一样本文本获取子模块,用于获取样本文本和所述样本文本中的多个样本事件论元;
第一定义子模块,用于对所述样本事件论元进行拆分,得到样本事件短论元,所述样本事件短论元表示与事件直接相关的实体论元;
第一标注子模块,用于对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注;
第一训练子模块,用于利用标注后的样本文本,对预训练模型进行训练,得到所述短论元抽取模型。
在一种可选的实施方式中,所述第一定义子模块,包括:
第一过滤单元,用于过滤所述样本事件论元中与所述样本触发词无关的样本事件论元;
第二过滤单元,用于拆分并过滤所述样本事件论元中的远距离实体描述信息;所述远距离实体描述信息表示在文本中的位置与实体存在距离,但在语义信息中用于对该实体进行描述的文本信息;
第三过滤单元,用于在所述样本事件论元为复合描述型实体的情况下,拆分并过滤所述样本事件论元中的复合描述信息,得到所述样本事件短论元,所述复合描述型实体表示实体信息与多个描述信息以组合词的形式存在的文本。
在一种可选的实施方式中,所述第一标注子模块,包括:
短论元标注单元,用于对所述样本文本中的每个所述样本事件短论元,标注该样本事件短论元对应的样本触发词、相关事件和短论元标签;
触发词标注单元,用于对所述样本文本中的每个所述样本触发词,标注该样本触发词对应的相关事件和触发词标签。
在一种可选的实施方式中,所述装置包括短论元描述抽取模型训练模块,所述短论元描述抽取模型训练模块包括:
第二样本文本获取子模块,用于获取样本文本;
第二定义子模块,用于定义所述样本文本中的样本短论元描述和样本短论元实体,所述样本短论元描述包括复合类型描述和远距离描述;
第二标注子模块,用于在所述样本文本中,标注出每一对所述样本短论元描述和所述样本短论元实体之间的对应关系;
第二训练子模块,用于利用标注后的样本文本,对预训练模型进行训练,得到所述短论元描述抽取模型。
在一种可选的实施方式中,所述事件信息生成模块包括:
短论元描述过滤子模块,用于从所述短论元描述中,过滤与所述事件短论元无关的短论元描述;
匹配子模块,用于按照所述事件短论元、所述事件短论元对应的触发词和所述短论元描述各自在所述待抽取文本中的位置,将过滤后的短论元描述和所述事件短论元进行一一匹配,生成多个匹配结果;
递归子模块,用于根据所述事件短论元对应的触发词,对所述多个匹配结果进行递归,得到所述细粒度事件信息列表。
在一种可选的实施方式中,所述递归子模块,包括:
确定单元,用于针对每个所述事件短论元对应的触发词,从所述多个匹配结果中确定出相关的多个候选匹配结果;
组合单元,用于将多个所述候选匹配结果进行组合,得到同一事件的一个或多个事件信息;
事件信息列表生成单元,用于根据各个事件的所述事件信息,生成所述细粒度事件信息列表。
本申请实施例第三方面还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序以实现本申请实施例第一方面所述的基于短论元的细粒度事件信息抽取方法中的步骤。
本申请实施例第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请实施例第一方面所述的基于短论元的细粒度事件信息抽取方法中的步骤。
本申请实施例第五方面还提供了一种计算机程序产品,所述计算机程序产品在电子设备上运行时,使处理器执行时实现如本申请实施例第一方面所述的基于短论元的细粒度事件信息抽取方法中的步骤。
本申请实施例提供的一种基于短论元的细粒度事件信息抽取方法,包括:利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描述信息后的实体论元;利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述;所述短论元描述表示所述事件短论元的描述信息;将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表。
具体有益效果在于:
一方面,本申请通过短论元抽取模型,从待抽取文本中抽取得到事件短论元。相比于按照相关技术抽取得到的普通的事件论元,本申请所抽取到的事件短论元去除了事件论元中的描述信息,是对事件论元的进一步拆分,有利于从复杂事件的文本中获取到更细粒度的论元信息,有利于后续对事件信息的整合。
另一方面,本申请通过短论元描述抽取模型,从待抽取文本中抽取得到短论元描述,然后将其与事件短论元进行匹配和递归,从而使两者结合生成完整的事件抽取结果,有助于从文本中抽取远距离的和间接的描述信息,将多种描述信息和实体论元联系起来,判断出较为复杂的复合论元描述,得到更为准确,结构更为清晰的事件信息,从而支撑对事件的深度认知和精准归纳。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于短论元的细粒度事件信息抽取方法的步骤流程图;
图2是本申请实施例提供的一种细粒度事件信息列表的生成流程示意图;
图3是本申请实施例提供的一种基于短论元的细粒度事件信息抽取装置的结构示意图;
图4是本申请实施例提供的一种电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
事件抽取是信息抽取中的关键任务,是指从自然语言文本中抽取事件信息并将其以结构化的形式呈现出来,以供后续的分析应用,在自动摘要、自动问答、信息检索等领域有着广泛的应用。在事件抽取过程中,需要进行事件触发词检测及论元检测,即判断事件的事件类型以及该事件对应的事件要素。然而,现有的信息抽取方法过于简单,无法满足针对复杂事件的细粒度信息抽取要求,即对于较为复杂的事件描述文本,难以抽取得到清楚准确的事件信息。
在复杂事件中,不仅包括了传统事件抽取中(主体,触发词,客体)三元组形式的信息和与触发词直接相关的其他实体信息,还包括了对主体和客体等实体的描述性信息。这些间接的实体描述信息是参与事件的细粒度信息,例如实体的数量描述、型号描述和国家描述等信息。同时,实体的描述也可能较为复杂,其描述性可能是距离实体较远的,可能是同一个描述对应多个实体的,也有可能是一个实体带有多种描述的,可以分解为多个实体。
传统的事件抽取模型方法无法解决复杂事件的细粒度信息抽取问题,主要包括以下三个原因:
(a)间接性的论元描述对于事件抽取模型较难判断。事件抽取模型会先抽取出事件的触发词,并判断论元与触发词之间是否相关,对于间接构成事件的论元描述信息,其与不构成事件的论元描述信息可能很相似,因此,事件抽取模型无法较好得判断间接构成事件的描述信息。
(b)事件抽取模型无法匹配不同的描述与实体的关系,所以抽取出的描述性词语只能匹配出是否与触发词相关,无法判断出与哪个实体有关。假如单独使用一个模型来抽取多种论元描述信息和实体信息,抽取模型无法将多种论元描述信息和实体信息联系起来,只能够抽取出多个单独的描述信息和实体信息。
(c)事件抽取模型无法判断出复合实体、描述。对于多种描述的复合实体,同一个描述信息可能会复用到多个实体中,事件抽取模型无法判断出这样的复合实体、描述。
因此,单一的事件抽取模型只能发现论元与触发词之间的关系,无法判断论元描述与触发词之间的关系,无法将论元与论元描述进行匹配,也无法抽取复合的论元描述,难以达到理想的事件信息抽取效果,对于复杂事件的文本,难以抽取得到结构清晰的准确的事件信息。
鉴于上述问题,本申请实施例提出一种基于短论元的细粒度事件信息抽取方法、装置和产品,以解决上述事件信息抽取效果不理想等问题。下面结合附图,通过一些实施例及其应用场景对本申请实施例提供的基于短论元的细粒度事件信息抽取方法进行详细地说明。
本申请实施例第一方面提供了一种基于短论元的细粒度事件信息抽取方法,参照图1,图1为本申请实施例提供的一种基于短论元的细粒度事件信息抽取方法的步骤流程图,如图1所示,所述方法包括:
步骤S101,利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描述信息后的实体论元。
在相关技术中,对事件信息进行抽取,往往是直接抽取出文本中的事件论元(主体、客体)和触发词,这些三元组形式的信息。而对于描述复杂事件的文本来说,往往是以普通的长论元作为抽取粒度执行论元抽取的,即将描述信息和实体作为一个完整的事件论元进行抽取,无法抽取得到细粒度的描述信息。示例性的,对于一个事件抽取例句:A型、B型汽车各1辆碰撞了C型、D型货车2辆,E型汽车没有受到撞击。按照相关技术的事件信息抽取方法,可以从该例句中抽取得到,作为主体的事件论元“A型、B型汽车各1辆”、触发词“碰撞”和作为客体的事件论元“C型、D型货车2辆”。按照上述方法抽取得到的事件论元“A型、B型汽车各1辆”中包含了部分描述信息“A型、B型”和“各1辆”,对于复杂的事件信息,这样的事件论元过长,导致最终抽取得到的事件信息结构不清晰,不利于后续进行信息分析处理。
本申请实施例提出利用预先训练好的短论元抽取模型,从待抽取文本中抽取得到事件短论元。其中,待抽取文本表示的是包含对事件的描述信息的文本形式的数据。事件短论元表示的是事件论元中去除了描述信息后的实体论元。事件论元是相关技术中抽取得到的包含部分描述信息的论元实体,如“A型、B型汽车各1辆”,本实施例中的事件短论元是去除了所有描述信息,保留下来的实体信息,表示的是与事件直接相关的实体论元,如“汽车”。可选地,所述事件短论元中出了三元组信息中的事件主体和事件客体,还包括时间、地点等要素。
在本实施例中,通过将待抽取文本输入短论元抽取模型,由该模型进行分析计算,输出抽取结果,该抽取结果中包括事件短论元和该事件短论元所对应的触发词。即对于抽取到的每一个事件短论元,可以抽取得到相应的触发词,从而可以根据事件短论元与触发词之间的对应关系,确定出该事件短论元属于具体的哪一个事件,通过判断实体与触发词是否相关来过滤掉事件无关的实体。本申请实施例利用短论元抽取模型,抽取得到事件短论元,并忽略事件实体相关的描述性信息。
在一种可选的实施方式中,所述短论元抽取模型是通过如下步骤训练得到的:
步骤S201,获取样本文本和所述样本文本中的多个样本事件论元。
步骤S202,对所述样本事件论元进行拆分,得到样本事件短论元,所述样本事件短论元表示与事件直接相关的实体论元。其中,样本文本表示用于描述事件的文本数据,样本文本中的普通的样本事件论元,表示指代事件主体和客体的包含了对实体描述信息的论元。本实施例通过对样本事件论元进行拆分,去除样本事件论元中的描述信息,保留其中的实体信息,得到更为简短的样本事件短论元。
在一种可选的实施方式中,所述步骤S202,对所述样本事件论元进行拆分,得到样本事件短论元,包括:
过滤所述样本事件论元中与所述样本触发词无关的样本事件论元;
拆分并过滤所述样本事件论元中的远距离实体描述信息;所述远距离实体描述信息表示在文本中的位置与实体存在距离,但在语义信息中用于对该实体进行描述的文本信息;
在所述样本事件论元为复合描述型实体的情况下,拆分并过滤所述样本事件论元中的复合描述信息,得到所述样本事件短论元,所述复合描述型实体表示实体信息与多个描述信息以组合词的形式存在的文本。
在本实施例中,对于普通的样本事件论元可以按照实际的需求进行论元的拆分,仅保留主要的短实体部分作为事件的短论元。示例性的,对于样本事件论元“A型、B型汽车各1辆”,在对其进行拆分后,保留的短实体(样本事件短论元)为“汽车”。具体的,需要从样本事件短论元中拆分并过滤的实体描述包括远距离实体描述信息,即与实体部分没有紧密连接,距离该实体在文本中的位置较远,但在语义信息中是用于对实体进行描述的文本信息。本实施例还需要过滤长实体中的一些描述信息,即对于可能会出现的复合描述的描述型实体,如果有拆分的需求,也需要对其进行过滤。示例性的,对于复合描述型实体“美客机”,其中的“美”可以作为国家类型的描述性信息进行拆分,可以根据实际抽取需求保留“客机”作为样本事件短论元。此外,在此过程中,本实施例还过滤了样本事件论元中与样本触发词无关的样本事件论元。这是因为在文本中往往存在着除事件主体、事件客体以外的,与事件本身没有关系的实体信息,通过判断样本事件论元与样本触发词的关系,可以从中将与触发词没有联系的论元确定为与事件本身没有关联的实体信息,并将其过滤。示例性的,对于样本文本“A型、B型汽车各1辆碰撞了C型、D型货车2辆,E型汽车没有受到撞击”来说,其中的样本事件论元“E型汽车”,则是与触发词无关的样本事件论元,可以将其过滤去除。
步骤S203,对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注。
在对论元进行拆分之后,需要根据事件,对样本文本中的每一个样本事件短论元和触发词进行标注。该标注与普通的事件标注的区别在于,仅需要标注事件中的短论元与触发词,对于事件中的其他描述性论元信息不作标注。
在一种可选的实施方式中,所述步骤S203,对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注,包括:
对所述样本文本中的每个所述样本事件短论元,标注该样本事件短论元对应的样本触发词、相关事件和短论元标签。示例性的,对于样本文本中的样本事件短论元“汽车”,需要标注出该短论元所对应的样本触发词“碰撞”,从而可以根据该触发词确定出该短论元相关的事件,并利用短论元标签以标注该文本“汽车”属于样本事件短论元。
对所述样本文本中的每个所述样本触发词,标注该样本触发词对应的相关事件和触发词标签。示例性的,对于样本文本中的样本触发词“碰撞”,需要标注出该词对应的相关事件,一般来说一个触发词对应一个事件,并利用触发词标签以标注该文本“碰撞”属于样本触发词。
步骤S204,利用标注后的样本文本,对预训练模型进行训练,得到所述短论元抽取模型。
在本实施例中,根据标注后的样本文本,对初始模型进行训练或者对预训练模型进行微调。具体的,将该样本文本作为训练数据,样本文本中的标注(样本事件短论元和样本触发词)作为标签,对预训练模型进行训练,通过损失函数计算损失值,根据损失值进行模型参数回传,通过重复上述步骤实现对预训练模型的迭代训练,在达到预设训练次数后结束训练,得到所述短论元抽取模型。可选的,该预训练模型可以为预训练语言模型T5,短论元抽取可以在T5预训练模型的基础上,再使用相关语料进行微调,得到短论元抽取模型。
本申请实施例通过对样本文本中的样本事件短论元和触发词进行标注,利用标注后的样本文本对模型进行训练,从而得到短论元抽取模型,从而能够从待抽取文本中抽取得到事件短论元和触发词,并通过判断实体(事件短论元)预触发词是否相关来过滤掉与事件无关的实体。示例性的,对于待抽取文本“A型、B型汽车各1辆碰撞了C型、D型货车2辆,E型汽车没有受到撞击”,通过短论元抽取模型,从中抽取得到的结果可以表示为:[{事件类型:撞击,主体:汽车,触发词:撞击,客体:货车}]。该抽取结果中包括了作为事件主体和事件客体的事件短论元,以及对应的触发词和事件类型,并忽略了事件实体相关的描述性信息,如“A型”、“B型”等型号信息,仅抽取与事件直接相关的短论元。并且,在抽取过程中,短论元抽取模型过滤掉了与触发词无关的实体信息,即“E型汽车”相关的实体信息,有助于后续整合得到更为准确的事件信息。
步骤S102,利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述;所述短论元描述表示所述事件短论元的描述信息。
在本实施例中,利用短论元描述抽取模型,从待抽取文本抽取的主要是短论元相关的描述性信息,例如,事件主体数量、事件主体所属国家等信息。示例性的,如“A型”、“B型”、“各1辆”这些对事件主体“汽车”进行描述的文本。短论元描述抽取模型抽取出的内容与事件没有直接的关系,是一种针对短实体的描述信息的抽取,所以短论元描述的抽取结果需要与步骤S101中的事件短论元的抽取结果相结合,来生成完整的事件抽取结果。
在一种可选的实施方式中,所述短论元描述抽取模型是通过如下步骤训练得到的:
步骤S301,获取样本文本。
步骤S302,定义所述样本文本中的样本短论元描述和样本短论元实体,所述样本短论元描述包括复合类型描述和远距离描述。
在本实施例中,根据实际需求,确定短论元描述的实体定义,即定义出样本文本中的样本短论元描述,并确定出该样本短论元描述所对应的样本短论元实体。示例性的,对于样本文本中的事件主体“A型、B型汽车各1辆”,其中可以确定出表示型号描述文本的样本短论元描述“A型”和“B型”,以及表示数量描述文本的样本短论元描述“1辆”,并且可以确定出这三个样本短论元描述是用于描述“汽车”这一样本短论元实体的。需要注意的是,样本短论元描述可能是复合类型描述,也可能是远距离描述。具体的,对于样本文本中的复合短实体可以抽取出多种描述的组合,例如,从“001号美客机”中,可以抽取出编号“001号”和国家属别“美”两个样本短论元描述。样本文本中的远距离描述,表示与实体部分没有紧密连接,距离该实体在文本中的位置较远,但在语义信息中是用于对实体进行描述的文本信息。
步骤S303,在所述样本文本中,标注出每一对所述样本短论元描述和所述样本短论元实体之间的对应关系。
在本实施例中,在确定出样本文本中的样本短论元描述和样本短论元实体之后,将样本短论元描述和样本短论元实体组成一对进行标注,具体的,对于样本文本中的每一个样本短论元描述,标注出其描述的短论元实体,并为其添加描述标签,用以标注该文本属于样本短论元描述;对于样本文本中的每一个样本短论元实体,标注出其对应的一个或多个样本短论元描述,并为其添加实体标签,用于标注该文本属于样本短论元实体。示例性的,对于样本文本中的“A型、B型汽车各1辆”,将其中的文本“A型”和“B型”,分别标注其与样本短论元实体“汽车”的对应关系,并添加上描述标签;对于其中的文本“汽车”,为其标注出与样本短论元描述“A型”和“B型”的对应关系,并添加上实体标签。
本实施例不仅仅需要标注与事件相关的样本短论元实体与对应的样本短论元描述,还标注出了与事件无关的样本短论元实体与对应的样本短论元描述,以便于后续模型利用标注后的文本进行训练,学习到短论元实体与短论元描述的匹配信息。本实施例的标注与相关技术中的事件标注的区别之处在于,本实施例在此步骤中仅需要标注出样本文本中的短论元实体与短论元描述对,对于事件中的触发词等其他要素不作标注。
步骤S304,利用标注后的样本文本,对预训练模型进行训练,得到所述短论元描述抽取模型。
在本实施例中,根据标注的语料,对初始模型进行训练或者对预训练模型进行微调。具体的,将该样本文本作为训练数据,样本文本中的标注(成对的样本短论元描述和样本短论元实体)作为标签,对预训练模型进行训练,通过损失函数计算损失值,根据损失值进行模型参数回传,通过重复上述步骤实现对预训练模型的迭代训练,在达到预设训练次数后结束训练,得到短论元描述抽取模型。可选地,该预训练模型可以为预训练语言模型T5,短论元描述抽取可以在T5预训练模型的基础上,再使用相关语料进行微调,得到短论元描述抽取模型,该短论元描述抽取模型所抽取出的内容与事件没有直接的关系,是一种针对短实体的描述信息抽取,短论元描述抽取模型的抽取结果需要与短论元抽取模型的抽取结果结合来生成完整的事件抽取结果。
本申请实施例通过对样本文本中的每一对样本短论元描述和样本短论元实体进行标注,利用标注后的样本文本对模型进行训练,从而得到短论元描述抽取模型,从而能够从待抽取文本中抽取得到短论元描述,并确定该短论元描述所属实体,得到短论元描述与实体之间的对应关系。示例性的,对于待抽取文本“A型、B型汽车各1辆碰撞了C型、D型货车2辆,E型汽车没有受到撞击”,通过短论元描述抽取模型,从中抽取得到的结果可以表示为:
[{短论元:汽车,短论元型号:A型,短论元数量:1辆},
{短论元:汽车,短论元型号:B型,短论元数量:1辆},
{短论元:货车,短论元型号:C型,短论元数量:2辆},
{短论元:货车,短论元型号:D型,短论元数量:2辆},
{短论元:汽车,短论元型号:E型,短论元数量:None}]。
该抽取结果中包括了作为事件主体和事件客体的事件短论元,以及对应的短论元描述,还可以抽取出与事件无关的实体相关的描述性信息,即“E型汽车”相关的实体信息,和描述性信息。可以看出,该抽取是针对短实体的抽取,所以针对一个复合短实体可以抽取出多种描述的组合。针对一个复合短实体的多种描述,需要通过递归的方法来进行拆解,当一个短实体有多组复合描述时,通过添加后处理规则的方法来配对其描述信息。
步骤S103,将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表。
在相关技术中,将描述作为事件要素进行抽取时,难以匹配描述与实体之间的关系,可能抽取出与事件无关的描述信息和实体,得到多个单独的描述信息和实体信息。示例性的,对于待抽取文本“A型、B型汽车各1辆碰撞了C型、D型货车2辆,E型汽车没有受到撞击”,抽取得到的结果可以表示为[{事件类型:碰撞,主体:汽车,触发词:碰撞,客体:货车,型号:[A型,B型,C型,D型,E型],数量:[1辆,2辆]}]。
参照图2,图2示出了一种细粒度事件信息列表的生成流程示意图,如图2所示,本实施例提出,结合步骤S101的短论元抽取模型的抽取结果和步骤S102中的短论元描述抽取模型的抽取结果,通过规则的方法进行匹配和递归,生成最终的细粒度事件信息列表。
在一种可选的实施方式中,所述将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,包括:
从所述短论元描述中,过滤与所述事件短论元无关的短论元描述。具体的,由于步骤S102所抽取得到的短论元描述中包括了与事件相关的短实体的描述信息,还包括了与事件无关的实体的描述信息,所以需要将这部分不在事件中的短论元描述信息过滤掉。按照上述示例,从短论元描述中过滤掉“E型”相关的短论元描述,因为其短论元未参与到触发词“碰撞”相关的事件中。
按照所述事件短论元、所述事件短论元对应的触发词和所述短论元描述各自在所述待抽取文本中的位置,将过滤后的短论元描述和所述事件短论元进行一一匹配,生成多个匹配结果。
在本实施例中,匹配需要根据各自在待抽取文本中的位置,以及短论元描述抽取模型抽取得到的短论元描述和实体之间的关系,将短论元描述与事件短论元结合起来,得到匹配结果。示例性的,将位于文本第一句中的短论元描述与同样位于第一句中的事件短论元进行匹配。需要注意的是,同一句中可能包含多个事件,这需要将事件短论元与每一个事件逐一匹配。示例性的,按照上述示例,确定事件短论元和短论元描述的对应关系,匹配结果如下:
[{短论元:汽车,短论元型号:A型,短论元数量:1辆},
{短论元:汽车,短论元型号:B型,短论元数量:1辆},
{短论元:货车,短论元型号:C型,短论元数量:2辆},
{短论元:货车,短论元型号:D型,短论元数量:2辆}]。
根据所述事件短论元对应的触发词,对所述多个匹配结果进行递归,得到所述细粒度事件信息列表。
在一种可选的实施方式中,所述根据所述事件短论元对应的触发词,对所述多个匹配结果进行递归,得到所述细粒度事件信息列表,包括:
针对每个所述事件短论元对应的触发词,从所述多个匹配结果中确定出相关的多个候选匹配结果;
将多个所述候选匹配结果进行组合,得到同一事件的一个或多个事件信息;
根据各个事件的所述事件信息,生成所述细粒度事件信息列表。
在本实施例中,因为一个事件短论元可能包含多个描述信息,并且同一个描述信息可能会复用到多个实体中,在递归过程中,需要将多个事件短论元与相关的多个短论元描述分别进行组合,判断出这样的复合实体、描述,以得到完整的事件信息。具体的,可以先根据触发词,确定出属于同一个事件的多个候选匹配结果,匹配结果可以表示为事件短论元与短论元描述的组合。然后分别将多个所述候选匹配结果进行组合,得到一个或多个事件信息。示例性的,对于待抽取文本“A型、B型汽车各1辆碰撞了C型、D型货车2辆,E型汽车没有受到撞击”,根据匹配后得到的匹配结果可以知道,其中事件主体为复合主体“1辆A型汽车”和“1辆B型汽车”,事件客体为复合客体“2辆C型货车”和“2辆D型货车”,分别进行组合,得到的多个事件信息如下:
[{事件类型:碰撞,主体数量:1辆,主体型号:A型,主体:汽车,触发词:碰撞,客体数量:2辆,客体型号:C型,客体:货车},
{事件类型:碰撞,主体数量:1辆,主体型号:A型,主体:汽车,触发词:碰撞,客体数量:2辆,客体型号:D型,客体:货车},
{事件类型:碰撞,主体数量:1辆,主体型号:B型,主体:汽车,触发词:碰撞,客体数量:2辆,客体型号:C型,客体:货车},
{事件类型:碰撞,主体数量:1辆,主体型号:B型,主体:汽车,触发词:碰撞,客体数量:2辆,客体型号:D型,客体:货车}]。
整合上述得到的事件信息,生成完整的细粒度事件信息列表。
本申请实施例第二方面还提供了一种基于短论元的细粒度事件信息抽取装置,参照图3,图3示出了一种基于短论元的细粒度事件信息抽取装置的结构示意图,如图3所示,所述装置包括:
短论元抽取模块,用于利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描述信息后的实体论元;
描述抽取模块,用于利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述;所述短论元描述表示所述事件短论元的描述信息;
事件信息生成模块,用于将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表。
在一种可选的实施方式中,所述装置还包括短论元抽取模型训练模块,所述短论元抽取模型训练模块,包括:
第一样本文本获取子模块,用于获取样本文本和所述样本文本中的多个样本事件论元;
第一定义子模块,用于对所述样本事件论元进行拆分,得到样本事件短论元,所述样本事件短论元表示与事件直接相关的实体论元;
第一标注子模块,用于对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注;
第一训练子模块,用于利用标注后的样本文本,对预训练模型进行训练,得到所述短论元抽取模型。
在一种可选的实施方式中,所述第一定义子模块,包括:
第一过滤单元,用于过滤所述样本事件论元中与所述样本触发词无关的样本事件论元;
第二过滤单元,用于拆分并过滤所述样本事件论元中的远距离实体描述信息;所述远距离实体描述信息表示在文本中的位置与实体存在距离,但在语义信息中用于对该实体进行描述的文本信息;
第三过滤单元,用于在所述样本事件论元为复合描述型实体的情况下,拆分并过滤所述样本事件论元中的复合描述信息,得到所述样本事件短论元,所述复合描述型实体表示实体信息与多个描述信息以组合词的形式存在的文本。
在一种可选的实施方式中,所述第一标注子模块,包括:
短论元标注单元,用于对所述样本文本中的每个所述样本事件短论元,标注该样本事件短论元对应的样本触发词、相关事件和短论元标签;
触发词标注单元,用于对所述样本文本中的每个所述样本触发词,标注该样本触发词对应的相关事件和触发词标签。
在一种可选的实施方式中,所述装置包括短论元描述抽取模型训练模块,所述短论元描述抽取模型训练模块包括:
第二样本文本获取子模块,用于获取样本文本;
第二定义子模块,用于定义所述样本文本中的样本短论元描述和样本短论元实体,所述样本短论元描述包括复合类型描述和远距离描述;
第二标注子模块,用于在所述样本文本中,标注出每一对所述样本短论元描述和所述样本短论元实体之间的对应关系;
第二训练子模块,用于利用标注后的样本文本,对预训练模型进行训练,得到所述短论元描述抽取模型。
在一种可选的实施方式中,所述事件信息生成模块包括:
短论元描述过滤子模块,用于从所述短论元描述中,过滤与所述事件短论元无关的短论元描述;
匹配子模块,用于按照所述事件短论元、所述事件短论元对应的触发词和所述短论元描述各自在所述待抽取文本中的位置,将过滤后的短论元描述和所述事件短论元进行一一匹配,生成多个匹配结果;
递归子模块,用于根据所述事件短论元对应的触发词,对所述多个匹配结果进行递归,得到所述细粒度事件信息列表。
在一种可选的实施方式中,所述递归子模块,包括:
确定单元,用于针对每个所述事件短论元对应的触发词,从所述多个匹配结果中确定出相关的多个候选匹配结果;
组合单元,用于将多个所述候选匹配结果进行组合,得到同一事件的一个或多个事件信息;
事件信息列表生成单元,用于根据各个事件的所述事件信息,生成所述细粒度事件信息列表。
本申请实施例还提供了一种电子设备,参照图4,图4是本申请实施例提出的电子设备的示意图。如图4所示,电子设备100包括:存储器110和处理器120,存储器110与处理器120之间通过总线通信连接,存储器110中存储有计算机程序,该计算机程序可在处理器120上运行,进而实现本申请实施例公开的基于短论元的细粒度事件信息抽取方法中的步骤。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现如本申请实施例公开的基于短论元的细粒度事件信息抽取方法中的步骤。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在电子设备上运行时,使处理器执行时实现如本申请实施例所公开的基于短论元的细粒度事件信息抽取方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种基于短论元的细粒度事件信息抽取方法、装置和产品,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种基于短论元的细粒度事件信息抽取方法,其特征在于,所述方法包括:
利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描述信息后的实体论元;
利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述,确定所述短论元描述所属实体,得到所述短论元描述与实体之间的对应关系;所述短论元描述表示所述事件短论元的描述信息;
将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表;
所述短论元描述抽取模型是通过如下步骤训练得到的:
获取样本文本;
定义所述样本文本中的样本短论元描述和样本短论元实体,所述样本短论元描述包括复合类型描述和远距离描述;所述复合类型描述表示多种描述的组合,所述远距离描述表示没有与实体连接,语义信息中用于对实体进行描述的文本信息;
在所述样本文本中,标注出每一对所述样本短论元描述和所述样本短论元实体之间的对应关系;
利用标注后的样本文本,对预训练模型进行训练,得到所述短论元描述抽取模型。
2.根据权利要求1所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述短论元抽取模型是通过如下步骤训练得到的:
获取样本文本和所述样本文本中的多个样本事件论元;
对所述样本事件论元进行拆分,得到样本事件短论元,所述样本事件短论元表示与事件直接相关的实体论元;
对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注;
利用标注后的样本文本,对预训练模型进行训练,得到所述短论元抽取模型。
3.根据权利要求2所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述对所述样本事件论元进行拆分,得到样本事件短论元,包括:
过滤所述样本事件论元中与所述样本触发词无关的样本事件论元;
拆分并过滤所述样本事件论元中的远距离实体描述信息;所述远距离实体描述信息表示在文本中的位置与实体存在距离,但在语义信息中用于对该实体进行描述的文本信息;
在所述样本事件论元为复合描述型实体的情况下,拆分并过滤所述样本事件论元中的复合描述信息,得到所述样本事件短论元,所述复合描述型实体表示实体信息与多个描述信息以组合词的形式存在的文本。
4.根据权利要求2所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注,包括:
对所述样本文本中的每个所述样本事件短论元,标注该样本事件短论元对应的样本触发词、相关事件和短论元标签;
对所述样本文本中的每个所述样本触发词,标注该样本触发词对应的相关事件和触发词标签。
5.根据权利要求1所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,包括:
从所述短论元描述中,过滤与所述事件短论元无关的短论元描述;
按照所述事件短论元、所述事件短论元对应的触发词和所述短论元描述各自在所述待抽取文本中的位置,将过滤后的短论元描述和所述事件短论元进行一一匹配,生成多个匹配结果;
根据所述事件短论元对应的触发词,对所述多个匹配结果进行递归,得到所述细粒度事件信息列表。
6.根据权利要求5所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述根据所述事件短论元对应的触发词,对所述多个匹配结果进行递归,得到所述细粒度事件信息列表,包括:
针对每个所述事件短论元对应的触发词,从所述多个匹配结果中确定出相关的多个候选匹配结果;
将多个所述候选匹配结果进行组合,得到同一事件的一个或多个事件信息;
根据各个事件的所述事件信息,生成所述细粒度事件信息列表。
7.一种基于短论元的细粒度事件信息抽取装置,其特征在于,所述装置包括:
短论元抽取模块,用于利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描述信息后的实体论元;
描述抽取模块,用于利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述,确定所述短论元描述所属实体,得到所述短论元描述与实体之间的对应关系;所述短论元描述表示所述事件短论元的描述信息;
事件信息生成模块,用于将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表;
所述装置包括短论元描述抽取模型训练模块,所述短论元描述抽取模型训练模块包括:
第二样本文本获取子模块,用于获取样本文本;
第二定义子模块,用于定义所述样本文本中的样本短论元描述和样本短论元实体,所述样本短论元描述包括复合类型描述和远距离描述;所述复合类型描述表示多种描述的组合,所述远距离描述表示没有与实体连接,语义信息中用于对实体进行描述的文本信息;
第二标注子模块,用于在所述样本文本中,标注出每一对所述样本短论元描述和所述样本短论元实体之间的对应关系;
第二训练子模块,用于利用标注后的样本文本,对预训练模型进行训练,得到所述短论元描述抽取模型。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至6中任一项所述的基于短论元的细粒度事件信息抽取方法中的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至6中任一项所述的基于短论元的细粒度事件信息抽取方法中的步骤。
CN202311352557.7A 2023-10-19 2023-10-19 一种基于短论元的细粒度事件信息抽取方法、装置和产品 Active CN117094397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311352557.7A CN117094397B (zh) 2023-10-19 2023-10-19 一种基于短论元的细粒度事件信息抽取方法、装置和产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311352557.7A CN117094397B (zh) 2023-10-19 2023-10-19 一种基于短论元的细粒度事件信息抽取方法、装置和产品

Publications (2)

Publication Number Publication Date
CN117094397A CN117094397A (zh) 2023-11-21
CN117094397B true CN117094397B (zh) 2024-02-06

Family

ID=88780570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311352557.7A Active CN117094397B (zh) 2023-10-19 2023-10-19 一种基于短论元的细粒度事件信息抽取方法、装置和产品

Country Status (1)

Country Link
CN (1) CN117094397B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705218A (zh) * 2021-09-03 2021-11-26 四川大学 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN113946681A (zh) * 2021-12-20 2022-01-18 军工保密资格审查认证中心 文本数据的事件抽取方法、装置、电子设备及可读介质
CN114036955A (zh) * 2021-10-30 2022-02-11 西南电子技术研究所(中国电子科技集团公司第十研究所) 中心词跨句事件论元检测方法
CN115238685A (zh) * 2022-09-23 2022-10-25 华南理工大学 一种基于位置感知的建筑工程变更事件联合抽取方法
CN115630304A (zh) * 2022-10-31 2023-01-20 中国科学技术大学 一种文本抽取任务中的事件分割抽取方法及***
CN115658905A (zh) * 2022-11-07 2023-01-31 中国电子科技集团公司第二十八研究所 一种跨篇章的事件多维画像生成方法
CN115965003A (zh) * 2022-12-21 2023-04-14 中移动信息技术有限公司 事件信息的抽取方法以及事件信息的抽取装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967256B (zh) * 2020-06-30 2023-08-04 北京百度网讯科技有限公司 事件关系的生成方法、装置、电子设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705218A (zh) * 2021-09-03 2021-11-26 四川大学 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN114036955A (zh) * 2021-10-30 2022-02-11 西南电子技术研究所(中国电子科技集团公司第十研究所) 中心词跨句事件论元检测方法
CN113946681A (zh) * 2021-12-20 2022-01-18 军工保密资格审查认证中心 文本数据的事件抽取方法、装置、电子设备及可读介质
CN115238685A (zh) * 2022-09-23 2022-10-25 华南理工大学 一种基于位置感知的建筑工程变更事件联合抽取方法
CN115630304A (zh) * 2022-10-31 2023-01-20 中国科学技术大学 一种文本抽取任务中的事件分割抽取方法及***
CN115658905A (zh) * 2022-11-07 2023-01-31 中国电子科技集团公司第二十八研究所 一种跨篇章的事件多维画像生成方法
CN115965003A (zh) * 2022-12-21 2023-04-14 中移动信息技术有限公司 事件信息的抽取方法以及事件信息的抽取装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Event Argument Extraction using Causal Knowledge Structures;Debanjana Kar;arXiv:2105.00477v1;全文 *
Extracting Events and Their Relations from Texts: A Survey on Recent Research Progress and Challenges;Kang Liu etc.;AI Open;全文 *
利用提示调优融合多种信息的低资源事件抽取方法;苏杭等;计算机应用研究;全文 *

Also Published As

Publication number Publication date
CN117094397A (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN107291783B (zh) 一种语义匹配方法及智能设备
CN106446232A (zh) 一种基于规则的敏感文本过滤方法
CN100476839C (zh) 车辆诊断记录映射
CN102262634B (zh) 一种自动问答方法及***
CN101334933B (zh) 路况信息处理设备及其方法和路况信息集成装置及其方法
CN104503998B (zh) 针对用户查询句的类型识别方法及装置
CN103309926A (zh) 基于条件随机场的中英文混合命名实体识别方法及***
CN114757176B (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN106297785A (zh) 一种基于车联网的智能服务***
CA2610208A1 (en) Learning facts from semi-structured text
CN103425640A (zh) 一种多媒体问答***及方法
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN105095415A (zh) 网络情绪的确定方法和装置
CN103425686B (zh) 一种信息发布方法和装置
CN104462064A (zh) 一种移动终端信息通讯提示输入内容的方法和***
CN107340766A (zh) 基于相似度的电力调度告警信号文本归类及故障诊断方法
CN101980208A (zh) 地址查询方法及***
CN106485328A (zh) 信息处理***及方法
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN103020286B (zh) 基于排名网站的互联网排行榜抓取***
CN106156340A (zh) 一种命名实体链接方法
CN111079428A (zh) 一种分词和行业词典构建方法、装置以及可读存储介质
CN117094397B (zh) 一种基于短论元的细粒度事件信息抽取方法、装置和产品
CN104951434A (zh) 品牌情绪的确定方法和装置
CN112069833B (zh) 日志分析方法、日志分析装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant