CN116306581A - 一种事件抽取方法及装置 - Google Patents
一种事件抽取方法及装置 Download PDFInfo
- Publication number
- CN116306581A CN116306581A CN202310505237.4A CN202310505237A CN116306581A CN 116306581 A CN116306581 A CN 116306581A CN 202310505237 A CN202310505237 A CN 202310505237A CN 116306581 A CN116306581 A CN 116306581A
- Authority
- CN
- China
- Prior art keywords
- entity
- event
- target
- argument
- target sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 54
- 238000010586 diagram Methods 0.000 claims abstract description 27
- 238000010276 construction Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 19
- 238000010845 search algorithm Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 8
- 238000004590 computer program Methods 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种事件抽取方法及装置,包括:获取事件类型集合、角色类型集合以及待抽取事件的目标句子;将所述事件类型集合中的各个事件类型,以及所述角色类型集合中的各个论元角色,确定为实体集合;基于所述实体集合,对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体;基于所述目标实体,生成所述目标句子对应的论元关系图;利用预设的搜索算法,搜索所述论元关系图中的完全子图;基于所述完全子图,生成所述目标句子对应的事件信息。本发明能够改善事件抽取效果。
Description
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种事件抽取方法及装置。
背景技术
目前,事件抽取任务的目标是通过给定目标事件类型和角色类型集合及句子,识别句子中所有目标事件类型的事件,并根据论元角色集合抽取事件所对应的论元。
在实践中发现,现在的事件抽取方式通常需要依次执行触发词检测、事件/触发词类型识别、事件论元检测和论元角色识别这四个子任务。然而,这种事件抽取方式需要先检测触发词,再基于触发词做进一步的处理。如果在触发词检测环节出现问题,则难以进行下一步的处理。可见,现在的事件抽取方法存在着事件抽取效果不佳的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种事件抽取方法及装置,以至少改善事件抽取效果。
根据本发明实施例的一个方面,提供了一种事件抽取方法,所述方法包括:获取事件类型集合、角色类型集合以及待抽取事件的目标句子;将所述事件类型集合中的各个事件类型,以及所述角色类型集合中的各个论元角色,确定为实体集合;基于所述实体集合,对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体;基于所述目标实体,生成所述目标句子对应的论元关系图;利用预设的搜索算法,搜索所述论元关系图中的完全子图;基于所述完全子图,生成所述目标句子对应的事件信息。
作为一种可选的实施方式,基于所述实体集合,对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体,包括:对所述目标句子进行编码,得到目标向量序列;将所述目标向量序列转换为第一向量序列和第二向量序列;利用所述第一向量序列和所述第二向量序列,对所述实体集合中的每个实体进行打分,得到实体评分信息;基于所述实体评分信息,确定与所述目标句子对应的所述目标实体。
作为一种可选的实施方式,基于所述目标实体,生成所述目标句子对应的论元关系图,包括:将各个所述目标实体,确定为所述目标句子对应的各个论元;构建各个所述论元之间的所述论元关系图。
作为一种可选的实施方式,利用预设的搜索算法,搜索所述论元关系图中的完全子图,包括:确定所述论元关系图中的所有节点对;如果所有节点对均相邻,则将所述论元关系图确定为所述完全子图。
作为一种可选的实施方式,所述方法还包括:如果存在节点对不相邻,则对不相邻的节点对执行候选子图构建操作,得到每个节点对应的候选子图;如果所述候选子图中的所有节点对相邻,则将所述候选子图确定为所述完全子图;如果所述候选子图中存在节点对不相邻,则对不相邻的节点对重复执行所述候选子图构建操作,以得到更新后的候选子图,直至所述更新后的候选子图中的所有节点对相邻。
作为一种可选的实施方式,所述候选子图构建操作为:对不相邻的节点对中的每个节点,确定该节点的相邻节点集合;基于该节点、以及与该节点的相邻节点集合,确定所述候选子图。
根据本发明实施例的另一方面,还提供了一种事件抽取装置,包括:数据获取单元,用于获取事件类型集合、角色类型集合以及待抽取事件的目标句子;实体构建单元,用于将所述事件类型集合中的各个事件类型,以及所述角色类型集合中的各个论元角色,确定为实体集合;实体识别单元,用于基于所述实体集合,对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体;论元关系生成单元,用于基于所述目标实体,生成所述目标句子对应的论元关系图;子图搜索单元,用于利用预设的搜索算法,搜索所述论元关系图中的完全子图;事件生成单元,用于基于所述完全子图,生成所述目标句子对应的事件信息。
作为一种可选的实施方式,所述实体识别单元具体用于:对所述目标句子进行编码,得到目标向量序列;将所述目标向量序列转换为第一向量序列和第二向量序列;利用所述第一向量序列和所述第二向量序列,对所述实体集合中的每个实体进行打分,得到实体评分信息;基于所述实体评分信息,确定与所述目标句子对应的所述目标实体。
作为一种可选的实施方式,所述论元关系生成单元具体用于:将各个所述目标实体,确定为所述目标句子对应的各个论元;构建各个所述论元之间的所述论元关系图。
作为一种可选的实施方式,所述子图搜索单元具体用于:确定所述论元关系图中的所有节点对;如果所有节点对均相邻,则将所述论元关系图确定为所述完全子图。
作为一种可选的实施方式,所述子图搜索单元具体用于:如果存在节点对不相邻,则对不相邻的节点对执行候选子图构建操作,得到每个节点对应的候选子图;如果所述候选子图中的所有节点对相邻,则将所述候选子图确定为所述完全子图;如果所述候选子图中存在节点对不相邻,则对不相邻的节点对重复执行所述候选子图构建操作,以得到更新后的候选子图,直至所述更新后的候选子图中的所有节点对相邻。
作为一种可选的实施方式,所述候选子图构建操作为:对不相邻的节点对中的每个节点,确定该节点的相邻节点集合;基于该节点、以及与该节点的相邻节点集合,确定所述候选子图。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述事件抽取方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的事件抽取方法。
在本发明实施例中,通过将各个事件类型和各个角色类型组合成一个大类,构成实体集合,从而将事件抽取问题转换为命名实体识别问题,并特别地对存在嵌套问题的实体,采用嵌套实体识别的方式,确定目标句子中的目标实体(即组成目标句子的各个事件的论元),之后,生成论元关系图,对论元关系图搜索完全子图,确定得到目标句子对应的事件信息,可以理解,一个完全子图对应着一个事件。采用本发明实施例中的方案,无需考虑触发词,直接将事件类型和论元角色都划分为实体,再进行嵌套实体识别,结合完全子图搜索,能够改善事件抽取效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的事件抽取方法的流程图;
图2是根据本发明实施例的另一种可选的事件抽取方法的流程图;
图3是根据本发明实施例的一种可选的事件抽取示意图;
图4是根据本发明实施例的一种可选的完全子图示意图;
图5是根据本发明实施例的一种可选的事件抽取装置的结构示意图;
图6是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种可选的事件抽取方法,如图1所示,该事件抽取方法包括:
S101,获取事件类型集合、角色类型集合以及待抽取事件的目标句子。
在本实施例中,执行主体可以为终端设备、服务器等电子设备。
在本实施例中,在进行事件抽取时,执行主体可以先获取预设的事件类型集合、角色类型集合以及需要进行事件抽取的目标句子。之后,再在事件类型集合、角色类型集合所约定的事件类型、论元角色中,选择适配目标句子的事件类型、论元角色,并识别句子中对应论元角色的各个论元、与论元对应的事件。
其中,事件类型集合可以包括多种事件类型,事件类型可以包括但不限于“胜负”、“夺冠”等,本实施例对此不做限定。
其中,角色类型集合可以包括多种论元角色,角色类型可以包括但不限于“时间”、“败者”、“胜者”、“冠军”、“赛事”等,本实施例对此不做限定。
其中,待抽取时间的目标句子可以为需要进行事件抽取的句子,目标句子中可以包括一个事件,也可以包括多个事件,本实施例对此不做限定。
S102,将所述事件类型集合中的各个事件类型,以及所述角色类型集合中的各个论元角色,确定为实体集合。
在本实施例中,执行主体可以将事件类型中的所有事件类型、角色类型集合中的所有论元角色,都作为实体,得到实体集合。采用这种实体集合的构建方式,能够无需标注触发词,将触发词也作为事件的一个论元角色,后续事件抽取只需进行论元识别和事件划分,从而改善事件抽取效果。
S103,基于所述实体集合,对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体。
在本实施例中,不同的目标实体可能是嵌套的,因此需要基于实体集合对目标句子进行嵌套实体识别。这里优选采用GlobalPointer(一种利用全局归一化的思路来进行命名实体识别的方式)模型完成嵌套实体识别。
具体的,通过对目标句子进行嵌套实体识别,能够得到目标句子对应的目标实体,这里的目标实体可以为目标句子对应的事件中的论元。
S104,基于所述目标实体,生成所述目标句子对应的论元关系图。
在本实施例中,执行主体可以使用无向图或者有向图的方式,建立目标实体之间的连接关系,形成目标句子对应的论元关系图。其中,同一事件任意两个论元的节点可以连上一条边而成为相邻节点,而如果两个论元从未出现在同一事件中,那么对应的节点则没有边。
S105,利用预设的搜索算法,搜索所述论元关系图中的完全子图。
在本实施例中,完全子图指的是对于同一事件的任意两个节点都是相邻的,论元关系图中的一个完全子图对应着一个事件。
S106,基于所述完全子图,生成所述目标句子对应的事件信息。
在本实施例中,可以将每个完全子图中的所有论元确定为组成一个事件的论元,并将各个事件对应的论元信息确定为上述的事件信息。
请一并参阅图2,图2是根据本发明实施例的另一种可选的事件抽取方法的流程图,如图2所示,本实施例在进行事件抽取时,可以先将各个事件类型和各个论元角色组合形成大类,从而将事件抽取问题转换为实体识别问题。之后,采用识别嵌套实体的GlobalPointer模型,对目标句子进行嵌套实体识别,得到目标句子的各个论元。之后,对于事件论元的确定,可以将其转化为完全子图搜索问题。具体可以将目标句子的各个论元组合得到论元关系图,再采用递归搜索算法对论元关系图进行搜索,得到论元关系图中的完全子图。之后,基于完全子图,确定目标句子中各个事件对应的事件论元,生成目标句子对应的事件信息。
请一并参阅图3,图3是根据本发明实施例的一种可选的事件抽取示意图,如图3所示,对于需要进行事件抽取的句子“9月9日上午,运动员X以3:1击败5号种子运动员Y,夺得了网球公开赛男单冠军”,现有的事件抽取方式需要先确定句子中的触发词“击败”、“夺得”,之后,再根据触发词确定事件类型“胜负”、“夺冠”。之后,再确定与事件类型相匹配的论元角色“时间”、“赛事名称”、“败者”、“胜者”、“夺冠赛事”、“冠军”。之后,再从句子中确定与各个论元角色对应的论元“时间9月9日上午”、“网球公开赛”、“运动员X”、“运动员Y”,以此实现事件抽取的整个过程。而本申请可以将图3中的事件类型和论元角色组合成一个大类,得到实体集合,再基于实体集合,对目标句子进行嵌套实体识别,确定出句子中的各个论元,实现整个事件抽取。
作为一种可选的实施方式,基于所述实体集合,对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体,包括:对所述目标句子进行编码,得到目标向量序列;将所述目标向量序列转换为第一向量序列和第二向量序列;利用所述第一向量序列和所述第二向量序列,对所述实体集合中的每个实体进行打分,得到实体评分信息;基于所述实体评分信息,确定与所述目标句子对应的所述目标实体。
在本实施方式中,采用GlobalPointer,基于所述实体集合,对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体的方式具体可以为:先对目标句子进行编码,得到目标向量序列。之后,将目标向量序列/>转换为第一向量序列和第二向量序列/>。其中,n指的是目标句子的长度,/>指的是实体的类型。
其中,将所述目标向量序列转换为第一向量序列和第二向量序列的具体方式可以为,对目标向量序列,通过变换和/>,得到第一向量序列和第二向量序列。其中,i是指目标句子的索引下标;W、b是指向量权重系数;q,k是指实体类型为alpha经过转换得到的向量序列。
其中,GlobalPointer的基本思路是:假设要识别文本序列长度为,假定只有一种实体需要识别,并且每个待识别实体是该序列的一个连续片段,并且可以相互嵌套。那么长度为/>的序列有/>个不同的连续子序列。即需要从这/>个“候选实体”里挑出真正的实体。如果有/>种实体类型需要识别,那么就做成/>个/>选实体的多标签分类问题。定义/>作为从i到j的连续片段是一个类型为/>的实体的打分。也就是说,用与/>的内积,作为片段/>是类型为/>的实体的打分。其中,t[i:j]实际含义是指序列t的第i个元素到第j个元素组成的连续子串。
其中,GlobalPointer的损失函数可以为:
其中,Ω代表满足条件的位置下标的集合;i、j代表文本序列的索引。
作为一种可选的实施方式,基于所述目标实体,生成所述目标句子对应的论元关系图,包括:将各个所述目标实体,确定为所述目标句子对应的各个论元;构建各个所述论元之间的所述论元关系图。
在本实施方式中,可以将各个目标实体作为目标句子的各个论元,并建立各个论元之间的连接关系,得到论元关系图。
作为一种可选的实施方式,利用预设的搜索算法,搜索所述论元关系图中的完全子图,包括:确定所述论元关系图中的所有节点对;如果所有节点对均相邻,则将所述论元关系图确定为所述完全子图。
作为一种可选的实施方式,所述方法还包括:如果存在节点对不相邻,则对不相邻的节点对执行候选子图构建操作,得到每个节点对应的候选子图;如果所述候选子图中的所有节点对相邻,则将所述候选子图确定为所述完全子图;如果所述候选子图中存在节点对不相邻,则对不相邻的节点对重复执行所述候选子图构建操作,以得到更新后的候选子图,直至所述更新后的候选子图中的所有节点对相邻。
作为一种可选的实施方式,所述候选子图构建操作为:对不相邻的节点对中的每个节点,确定该节点的相邻节点集合;基于该节点、以及与该节点的相邻节点集合,确定所述候选子图。
在本实施方式中,假定已经有了描述论元关系的有向图,有向图中的节点是可以重复利用的,这意味着同一实体同时也是多个不同事件的论元。请一并参阅图4,图4是根据本发明实施例的一种可选的完全子图示意图,如图4所示,图中的8个节点可以搜索出两个完全子图,其中节点D同时出现在两个子图中,代表在划分出的两个事件中,它们拥有共同的论元D。那么递归的搜索算法如下:
步骤1,枚举图上的所有节点对,如果所有节点对相邻,那么该图本身就是完全图,直接返回即可;如果有不相邻的节点对,那么执行步骤2;
步骤2,对于每一对不相邻的节点,分别找出与之相邻的所有节点集(包含自身)构成子图,然后对每个子图集分别执行步骤1。
以图4为例,可以找出是一对不相邻节点,那么可以分别找出其相邻集为和/>,然后继续寻找/>和/>的不相邻节点对,发现找不到,所以和/>都是完全子图。这里需要注意这个不依赖于不相邻节点对的顺序,因为对于“所有”不相邻节点均需要进行同样的操作。
可选的,本发明可以利用一个嵌套实体识别模型来识别论元,然后分别需要一个“首-首”匹配和“尾-尾”匹配模型来构建论元之间的关系。可以选取DuEE中文事件抽取数据集和DuEE-fin金融领域篇章级事件抽取数据集。
在本发明实施例中,通过将各个事件类型和各个角色类型组合成一个大类,构成实体集合,从而将事件抽取问题转换为命名实体识别问题,并特别地对存在嵌套问题的实体,采用嵌套实体识别的方式,确定目标句子中的目标实体(即组成目标句子的各个事件的论元),之后,生成论元关系图,对论元关系图搜索完全子图,确定得到目标句子对应的事件信息,可以理解,一个完全子图对应着一个事件。采用本发明实施例中的方案,无需考虑触发词,直接将事件类型和论元角色都划分为实体,再进行嵌套实体识别,结合完全子图搜索,能够改善事件抽取效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
进一步的,本发明实施例提供了一种可选的事件抽取装置,如图5所示,该事件抽取装置包括:
数据获取单元501,用于获取事件类型集合、角色类型集合以及待抽取事件的目标句子。
在本实施例中,在进行事件抽取时,可以先获取预设的事件类型集合、角色类型集合以及需要进行事件抽取的目标句子。之后,再在事件类型集合、角色类型集合所约定的事件类型、论元角色中,选择适配目标句子的事件类型、论元角色,并识别句子中对应论元角色的各个论元、与论元对应的事件。
其中,事件类型集合可以包括多种事件类型,事件类型可以包括但不限于“胜负”、“夺冠”等,本实施例对此不做限定。
其中,角色类型集合可以包括多种论元角色,角色类型可以包括但不限于“时间”、“败者”、“胜者”、“冠军”、“赛事”等,本实施例对此不做限定。
其中,待抽取时间的目标句子可以为需要进行事件抽取的句子,目标句子中可以包括一个事件,也可以包括多个事件,本实施例对此不做限定。
实体构建单元502,用于将所述事件类型集合中的各个事件类型,以及所述角色类型集合中的各个论元角色,确定为实体集合。
在本实施例中,可以将事件类型中的所有事件类型、角色类型集合中的所有论元角色,都作为实体,得到实体集合。采用这种实体集合的构建方式,能够无需标注触发词,将触发词也作为事件的一个论元角色,后续事件抽取只需进行论元识别和事件划分,从而改善事件抽取效果。
实体识别单元503,用于基于所述实体集合,对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体。
在本实施例中,不同的目标实体可能是嵌套的,因此需要基于实体集合对目标句子进行嵌套实体识别。这里优选采用GlobalPointer(一种利用全局归一化的思路来进行命名实体识别的方式)模型完成嵌套实体识别。
具体的,通过对目标句子进行嵌套实体识别,能够得到目标句子对应的目标实体,这里的目标实体可以为目标句子对应的事件中的论元。
论元关系生成单元504,用于基于所述目标实体,生成所述目标句子对应的论元关系图。
在本实施例中,可以使用无向图或者有向图的方式,建立目标实体之间的连接关系,形成目标句子对应的论元关系图。其中,同一事件任意两个论元的节点可以连上一条边而成为相邻节点,而如果两个论元从未出现在同一事件中,那么对应的节点则没有边。
子图搜索单元505,用于利用预设的搜索算法,搜索所述论元关系图中的完全子图。
在本实施例中,完全子图指的是对于同一事件的任意两个节点都是相邻的,论元关系图中的一个完全子图对应着一个事件。
事件生成单元506,用于基于所述完全子图,生成所述目标句子对应的事件信息。
在本实施例中,可以将每个完全子图中的所有论元确定为组成一个事件的论元,并将各个事件对应的论元信息确定为上述的事件信息。
作为一种可选的实施方式,所述实体识别单元具体用于:对所述目标句子进行编码,得到目标向量序列;将所述目标向量序列转换为第一向量序列和第二向量序列;利用所述第一向量序列和所述第二向量序列,对所述实体集合中的每个实体进行打分,得到实体评分信息;基于所述实体评分信息,确定与所述目标句子对应的所述目标实体。
作为一种可选的实施方式,所述论元关系生成单元具体用于:将各个所述目标实体,确定为所述目标句子对应的各个论元;构建各个所述论元之间的所述论元关系图。
在本实施方式中,可以将各个目标实体作为目标句子的各个论元,并建立各个论元之间的连接关系,得到论元关系图。
作为一种可选的实施方式,所述子图搜索单元具体用于:确定所述论元关系图中的所有节点对;如果所有节点对均相邻,则将所述论元关系图确定为所述完全子图。
作为一种可选的实施方式,所述子图搜索单元具体用于:如果存在节点对不相邻,则对不相邻的节点对执行候选子图构建操作,得到每个节点对应的候选子图;如果所述候选子图中的所有节点对相邻,则将所述候选子图确定为所述完全子图;如果所述候选子图中存在节点对不相邻,则对不相邻的节点对重复执行所述候选子图构建操作,以得到更新后的候选子图,直至所述更新后的候选子图中的所有节点对相邻。
作为一种可选的实施方式,所述候选子图构建操作为:对不相邻的节点对中的每个节点,确定该节点的相邻节点集合;基于该节点、以及与该节点的相邻节点集合,确定所述候选子图。
在本发明实施例中,通过将各个事件类型和各个角色类型组合成一个大类,构成实体集合,从而将事件抽取问题转换为命名实体识别问题,并特别地对存在嵌套问题的实体,采用嵌套实体识别的方式,确定目标句子中的目标实体(即组成目标句子的各个事件的论元),之后,生成论元关系图,对论元关系图搜索完全子图,确定得到目标句子对应的事件信息,可以理解,一个完全子图对应着一个事件。采用本发明实施例中的方案,无需考虑触发词,直接将事件类型和论元角色都划分为实体,再进行嵌套实体识别,结合完全子图搜索,能够改善事件抽取效果。
进一步的,根据本发明实施例的又一个方面,还提供了一种用于实施上述事件抽取方法的电子装置,如图6所示,该电子装置包括存储器602和处理器604,该存储器602中存储有计算机程序,该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取事件类型集合、角色类型集合以及待抽取事件的目标句子;
S2,将所述事件类型集合中的各个事件类型,以及所述角色类型集合中的各个论元角色,确定为实体集合;
S3,基于所述实体集合,对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体;
S4,基于所述目标实体,生成所述目标句子对应的论元关系图;
S5,利用预设的搜索算法,搜索所述论元关系图中的完全子图;
S6,基于所述完全子图,生成所述目标句子对应的事件信息。
可选地,本领域普通技术人员可以理解,图6所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图6中所示更多或者更少的组件(如网络接口等),或者具有与图6所示不同的配置。
其中,存储器602可用于存储软件程序以及模块,如本发明实施例中的事件抽取方法对应的程序指令/模块,处理器604通过运行存储在存储器602内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的事件抽取方法。存储器602可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器602可进一步包括相对于处理器604远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器602具体可以但不限于用于存储操作指令等信息。作为一种示例,如图6所示,上述存储器602中可以但不限于包括上述装置中的各个模块。
可选地,上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置606包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置606为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器608和连接总线610。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取事件类型集合、角色类型集合以及待抽取事件的目标句子;
S2,将所述事件类型集合中的各个事件类型,以及所述角色类型集合中的各个论元角色,确定为实体集合;
S3,基于所述实体集合,对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体;
S4,基于所述目标实体,生成所述目标句子对应的论元关系图;
S5,利用预设的搜索算法,搜索所述论元关系图中的完全子图;
S6,基于所述完全子图,生成所述目标句子对应的事件信息。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种事件抽取方法,其特征在于,包括:
获取事件类型集合、角色类型集合以及待抽取事件的目标句子;
将所述事件类型集合中的各个事件类型,以及所述角色类型集合中的各个论元角色,确定为实体集合;其中,所述实体集合包含触发词;
基于所述实体集合,采用GlobalPointer对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体;其中,所述目标实体为所述目标句子对应的事件中的论元;
基于所述目标实体,生成所述目标句子对应的论元关系图;
利用预设的搜索算法,搜索所述论元关系图中的完全子图;其中,所述完全子图指的是对同一事件的任意两个节点都是相邻的,一个所述完全子图对应一个事件;
基于所述完全子图,生成所述目标句子对应的事件信息;其中,所述事件信息为每个完全子图构成的事件对应的论元信息。
2.根据权利要求1所述的方法,其特征在于,基于所述实体集合,采用GlobalPointer对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体,包括:
对所述目标句子进行编码,得到目标向量序列;
将所述目标向量序列转换为第一向量序列和第二向量序列;
利用所述第一向量序列和所述第二向量序列,对所述实体集合中的每个实体进行打分,得到实体评分信息;
基于所述实体评分信息,确定与所述目标句子对应的所述目标实体。
3.根据权利要求1所述的方法,其特征在于,基于所述目标实体,生成所述目标句子对应的论元关系图,包括:
将各个所述目标实体,确定为所述目标句子对应的各个论元;
构建各个所述论元之间的所述论元关系图。
4.根据权利要求1所述的方法,其特征在于,利用预设的搜索算法,搜索所述论元关系图中的完全子图,包括:
确定所述论元关系图中的所有节点对;
如果所有节点对均相邻,则将所述论元关系图确定为所述完全子图。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
如果存在节点对不相邻,则对不相邻的节点对执行候选子图构建操作,得到每个节点对应的候选子图;
如果所述候选子图中的所有节点对相邻,则将所述候选子图确定为所述完全子图;
如果所述候选子图中存在节点对不相邻,则对不相邻的节点对重复执行所述候选子图构建操作,以得到更新后的候选子图,直至所述更新后的候选子图中的所有节点对相邻。
6.根据权利要求5所述的方法,其特征在于,所述候选子图构建操作为:
对不相邻的节点对中的每个节点,确定该节点的相邻节点集合;
基于该节点、以及与该节点的相邻节点集合,确定所述候选子图。
7.一种事件抽取装置,其特征在于,包括:
数据获取单元,用于获取事件类型集合、角色类型集合以及待抽取事件的目标句子;
实体构建单元,用于将所述事件类型集合中的各个事件类型,以及所述角色类型集合中的各个论元角色,确定为实体集合;其中,所述实体集合包含触发词;
实体识别单元,用于基于所述实体集合,采用GlobalPointer对所述目标句子进行嵌套实体识别,得到所述目标句子对应的目标实体;其中,所述目标实体为所述目标句子对应的事件中的论元;
论元关系生成单元,用于基于所述目标实体,生成所述目标句子对应的论元关系图;
子图搜索单元,用于利用预设的搜索算法,搜索所述论元关系图中的完全子图;其中,所述完全子图指的是对同一事件的任意两个节点都是相邻的,一个所述完全子图对应一个事件;
事件生成单元,用于基于所述完全子图,生成所述目标句子对应的事件信息;其中,所述事件信息为每个完全子图构成的事件对应的论元信息。
8.根据权利要求7所述的装置,其特征在于,所述实体识别单元具体用于:
对所述目标句子进行编码,得到目标向量序列;
将所述目标向量序列转换为第一向量序列和第二向量序列;
利用所述第一向量序列和所述第二向量序列,对所述实体集合中的每个实体进行打分,得到实体评分信息;
基于所述实体评分信息,确定与所述目标句子对应的所述目标实体。
9.根据权利要求7所述的装置,其特征在于,所述论元关系生成单元具体用于:
将各个所述目标实体,确定为所述目标句子对应的各个论元;
构建各个所述论元之间的所述论元关系图。
10.根据权利要求7所述的装置,其特征在于,所述子图搜索单元具体用于:
确定所述论元关系图中的所有节点对;
如果所有节点对均相邻,则将所述论元关系图确定为所述完全子图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505237.4A CN116306581A (zh) | 2023-05-08 | 2023-05-08 | 一种事件抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505237.4A CN116306581A (zh) | 2023-05-08 | 2023-05-08 | 一种事件抽取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116306581A true CN116306581A (zh) | 2023-06-23 |
Family
ID=86803398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310505237.4A Pending CN116306581A (zh) | 2023-05-08 | 2023-05-08 | 一种事件抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116306581A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823824A (zh) * | 2013-11-12 | 2014-05-28 | 哈尔滨工业大学深圳研究生院 | 一种借助互联网自动构建文本分类语料库的方法及*** |
CN112906391A (zh) * | 2021-03-16 | 2021-06-04 | 合肥讯飞数码科技有限公司 | 元事件抽取方法、装置、电子设备和存储介质 |
CN113032636A (zh) * | 2019-12-25 | 2021-06-25 | 中移动信息技术有限公司 | 完全子图数据的搜索方法、装置、设备及介质 |
CN113268569A (zh) * | 2021-07-19 | 2021-08-17 | 中国电子科技集团公司第十五研究所 | 基于语义的关联词查找方法及装置、电子设备、存储介质 |
CN113468328A (zh) * | 2021-06-18 | 2021-10-01 | 浙江工业大学 | 一种多属性事理关系抽取及可视分析方法 |
CN114547301A (zh) * | 2022-02-21 | 2022-05-27 | 北京百度网讯科技有限公司 | 文档处理、识别模型训练方法、装置、设备及存储介质 |
CN115329746A (zh) * | 2022-08-05 | 2022-11-11 | 杭州海康威视数字技术股份有限公司 | 一种事件抽取方法、装置及设备 |
CN115858814A (zh) * | 2022-12-20 | 2023-03-28 | 上海大学 | 基于全局指针解码方法的文本结构化信息抽取方法 |
CN115983274A (zh) * | 2022-12-20 | 2023-04-18 | 东南大学 | 一种基于两阶段标签校正的噪声事件抽取方法 |
-
2023
- 2023-05-08 CN CN202310505237.4A patent/CN116306581A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823824A (zh) * | 2013-11-12 | 2014-05-28 | 哈尔滨工业大学深圳研究生院 | 一种借助互联网自动构建文本分类语料库的方法及*** |
CN113032636A (zh) * | 2019-12-25 | 2021-06-25 | 中移动信息技术有限公司 | 完全子图数据的搜索方法、装置、设备及介质 |
CN112906391A (zh) * | 2021-03-16 | 2021-06-04 | 合肥讯飞数码科技有限公司 | 元事件抽取方法、装置、电子设备和存储介质 |
CN113468328A (zh) * | 2021-06-18 | 2021-10-01 | 浙江工业大学 | 一种多属性事理关系抽取及可视分析方法 |
CN113268569A (zh) * | 2021-07-19 | 2021-08-17 | 中国电子科技集团公司第十五研究所 | 基于语义的关联词查找方法及装置、电子设备、存储介质 |
CN114547301A (zh) * | 2022-02-21 | 2022-05-27 | 北京百度网讯科技有限公司 | 文档处理、识别模型训练方法、装置、设备及存储介质 |
CN115329746A (zh) * | 2022-08-05 | 2022-11-11 | 杭州海康威视数字技术股份有限公司 | 一种事件抽取方法、装置及设备 |
CN115858814A (zh) * | 2022-12-20 | 2023-03-28 | 上海大学 | 基于全局指针解码方法的文本结构化信息抽取方法 |
CN115983274A (zh) * | 2022-12-20 | 2023-04-18 | 东南大学 | 一种基于两阶段标签校正的噪声事件抽取方法 |
Non-Patent Citations (2)
Title |
---|
世界划水锦标赛冠军: "GlobalPointer:用统一的方式处理嵌套和非嵌套NER", Retrieved from the Internet <URL:https://blog.csdn.net/qq_41898761/article/details/125209437> * |
苏剑林: "GPLinker:基于GlobalPointer的事件联合抽取", pages 1 - 2, Retrieved from the Internet <URL:hhttps://spaces.ac.cn/archives/8926> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837550A (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
CN109583904B (zh) | 异常操作检测模型的训练方法、异常操作检测方法及装置 | |
US10031973B2 (en) | Method and system for identifying a sensor to be deployed in a physical environment | |
CN110019876B (zh) | 数据查询方法、电子设备及存储介质 | |
CN108363686A (zh) | 一种字符串分词方法、装置、终端设备及存储介质 | |
CN109800431B (zh) | 事件信息关键词提取、监控方法及***及存储和处理装置 | |
Parry et al. | Multiple optimality criteria support Ornithoscelida | |
US20230035954A1 (en) | Method for establishing medicine synergism prediction model, prediction method and corresponding apparatus | |
CN108416034A (zh) | 基于金融异构大数据的信息采集***及其控制方法 | |
CN116955646A (zh) | 知识图谱的生成方法和装置、存储介质及电子设备 | |
US11669727B2 (en) | Information processing device, neural network design method, and recording medium | |
Goloboff et al. | Comparing tree shapes: beyond symmetry | |
CN111368552A (zh) | 一种面向特定领域的网络用户群组划分方法及装置 | |
CN109657048A (zh) | 一种应用于开源问答社区中回答者推荐方法 | |
CN106844338B (zh) | 基于属性间依赖关系的网络表格的实体列的检测方法 | |
US20160292258A1 (en) | Method and apparatus for filtering out low-frequency click, computer program, and computer readable medium | |
CN116306581A (zh) | 一种事件抽取方法及装置 | |
CN110069691B (zh) | 用于处理点击行为数据的方法和装置 | |
CN105279157B (zh) | 一种正则查询的方法和装置 | |
CN112070161A (zh) | 一种网络攻击事件分类方法、装置、终端及存储介质 | |
CN111666501A (zh) | 异常社团识别方法、装置、计算机设备和存储介质 | |
CN111783830A (zh) | 基于oct的视网膜分类方法、装置、计算机设备及存储介质 | |
CN110232393B (zh) | 数据的处理方法、装置、存储介质和电子装置 | |
CN113553370A (zh) | 异常检测方法、装置、电子设备及可读存储介质 | |
CN110598182A (zh) | 一种信息预测的方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230623 |
|
RJ01 | Rejection of invention patent application after publication |