CN113535963B - 一种长文本事件抽取方法、装置、计算机设备及存储介质 - Google Patents
一种长文本事件抽取方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113535963B CN113535963B CN202111065602.1A CN202111065602A CN113535963B CN 113535963 B CN113535963 B CN 113535963B CN 202111065602 A CN202111065602 A CN 202111065602A CN 113535963 B CN113535963 B CN 113535963B
- Authority
- CN
- China
- Prior art keywords
- event
- text
- truncated
- long text
- role
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种长文本事件抽取方法、装置、计算机设备及存储介质,该方法包括:获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本;利用深度学习模型分类预测所述截断文本对应的多个事件类型;结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息;基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出。本发明通过对长文本进行事件分类、事件角色抽取以及事件组合,提高了对于长文本的事件抽取效率和抽取精度。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种长文本事件抽取方法、装置、计算机设备及存储介质。
背景技术
当前,各大新闻媒体、公众号、推文博主等每天都会产生大量的资讯信息,包括但不限于新闻报道,评论预测,分析解读等。这些文本往往篇幅很长,同时内容复杂,观点不一,而服务公司往往需要监控这些文本信息以及时获得行业动态和事件信息等。传统的事件抽取方法主要需要通过领域专家的规范制定以及大量的人工筛选校验,这种方法工作量大,效率和准确性都较低,因此本发明基于深度学习技术,能够实现全自动化的事件抽取,大幅提升效率,并且在准确性上超过人工校验。
目前已有的长文本的事件抽取方法对于事件的定义一般较为简单。如一些金融类的舆情分析平台主要针对金融文本进行主要事件角色抽取,通过关键词等形式进行展示,同时会对整篇文本的情感倾向进行评估,这一类平台主要应用了简单的事件分类及NER(Named Entity Recognition,即命名实体识别技术)对长文本进行事件抽取。事件分类技术是对原始文本打上分类标签,同一篇文本有可能存在多个标签;命名实体识别技术是对原始文本中可能存在的一些关键词信息进行识别抽取,例如公司、时间等。
第二种较为相似的方法是针对较短文本的关系抽取。主要针对的是文章标题、概要、总结等,同时更关注于文本中的主体、客体及它们之间的关系。这类方法主要应用了关系抽取的技术,在大方向上有两种实现方式,第一种使用命名实体技术将文本中的主体识别出来,再通过其他模型将客体及它们之间的关系进行联合抽取;第二种使用命名实体技术同时将文本中的主体和客体抽取出来,如果存在多个主体或客体,需要通过二分类模型将不同的主体客体进行配对分组。
针对上述提到的第一种现有方法,首先是现有现有方法的事件抽取的信息较少,如在“公式上市”类型的长文本中,已有方法主要关注具体的上市公司和时间即可,其余像“融资规模”,“上市市值”,“融资轮数”等重要信息并未被抽取或展示。其次现有方法仅在情感分类层面给予用户提醒,在重要性,时效性,权威性等方面并没有相关提示。
针对上述提到的第二种关系抽取方法,仅仅抽取主体、客体及关联关系也是较为简单的。其次方法的应用面较窄,由于抽取信息简单的限制,这种方法一般只用于短文本的信息抽取,这大大影响了落地的应用范围。同时,关系抽取方法要求主体客体必须同时存在,现实中的文本经常缺失主体或者客体,如“A公司上市”,就只有主体“A公司”,并不存在相应的客体,无法应用此方法,因此第二种关系抽取方法有很大的局限性。
发明内容
本发明实施例提供了一种长文本事件抽取方法、装置、计算机设备及存储介质,旨在提高对于长文本的事件抽取效率和精度。
第一方面,本发明实施例提供了一种长文本事件抽取方法,包括:
获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本;
利用深度学习模型分类预测所述截断文本对应的多个事件类型;
结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息;
基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出。
第二方面,本发明实施例提供了一种长文本事件抽取装置,包括:
第一截断单元,用于获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本;
第一分类预测单元,用于利用深度学习模型分类预测所述截断文本对应的多个事件类型;
第一抽取单元,用于结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息;
结果输出单元,用于基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的长文本事件抽取方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的长文本事件抽取方法。
本发明实施例提供了一种长文本事件抽取方法、装置、计算机设备及存储介质,该方法包括:获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本;利用深度学习模型分类预测所述截断文本对应的多个事件类型;结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息;基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出。本发明实施例通过对长文本进行事件分类、事件角色抽取以及事件组合,提高了对于长文本的事件抽取效率和抽取精度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种长文本事件抽取方法的流程示意图;
图2为本发明实施例提供的一种长文本事件抽取方法的子流程示意图;
图3为本发明实施例提供的一种长文本事件抽取方法的子流程示意图;
图4为本发明实施例提供的一种长文本事件抽取装置的示意性框图;
图5为本发明实施例提供的一种长文本事件抽取装置的子示意性框图;
图6为本发明实施例提供的一种长文本事件抽取装置的子示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面请参见图1,图1为本发明实施例提供的一种长文本事件抽取方法的流程示意图,具体包括:步骤S101~S104。
S101、获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本;
S102、利用深度学习模型分类预测所述截断文本对应的多个事件类型;
S103、结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息;
S104、基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出。
本实施例中,将抽取事件过程具体划分为事件分类、事件角色抽取以及事件组合三个阶段。其中,在事件分类阶段,首先利用触发词对长文本进行文本截断,然后利用深度学习模型对截断文本进行分类预测。在事件角色抽取阶段,由于在事件分类阶段中获得了截断文本,以及所有截断文本的事件分类信息,因此需要在事件角色抽取阶段针对每种事件类型抽取其所属的事件角色信息,即采取MRC(Machine Reading Comprehension,即机器阅读理解技术)+指针网络的策略进行事件角色信息抽取。在事件组合阶段,通过前两个阶段的模型抽取,获得了每个截断文本隶属于某个事件类型下的所有事件角色,因此本阶段通过生成序列的方式将所有事件角色信息组合为一个完整的事件(即所述目标事件)对外输出。
本实施例通过对长文本进行事件分类、事件角色抽取以及事件组合,提高了对于长文本的事件抽取效率和抽取精度。本实施例所述的长文本可以是论文文献、新闻报道、杂志期刊等等。例如针对新闻报道的事件抽取更为详细,能够支持更细粒度的查询,减少用户阅读原始文本的时间。并且提供事件角色的重要性排序,可以使用户能够选择性关注一些重点。同时,本实施例采用深度学习的相关技术,大大节省了后期运营和审核的工作量。
需要说明的是,在事件分类阶段,文本截取上虽然存在现有技术,例如随机截断,首尾截断等,但这两者都会存在不同程度的信息丢失。在多标签分类上虽然可以采用多个二分类等方案,该方案可能会有样本不平衡的问题,对于实际事件较少的文本,预测效果较差。
在事件角色抽取阶段,现有技术在大数据量和类型复杂多变的情况下验证的效果还未知。而本实施例在全流程F1已经达到0.7+。目前评价指标设置为全流程F1,指从最一开始文本输入开始,输出n个事件,每个事件输出m个事件角色,F1的计算公式为2 * (p * r)/ (p + r),其中p为准确率,代表m * n个事件角色中正确的占比;r为召回率,代表m * n个事件角色中正确的个数,相对于标签总数的占比。
在事件组合阶段,现有方案也只有通过业务人员不断的更新规则引擎进行配对,这种方案效率低,准确性不高且成本高,而本实施例的则可以解决上述缺陷。
在一实施例中,如图2所示,所述步骤S101包括:步骤S201~S204。
S201、通过触发词词典在长文本中选取触发词,并利用触发词对长文本进行预截断;
S202、基于预截断的长文本,统计不同触发词之间的句子数量和总字数;
S203、根据不同触发词之间的总字数构建离散区间,并基于所述离散区间选取分布占比最多的字数区间;
S204、在所述字数区间中选取众数作为字数阈值,并利用所述字数阈值对长文本进行文本截断。
本实施例中,在事件分类阶段,由于新闻报道存在文本长度过长,所含事件类型多样等两大痛点。针对痛点1(即文本长度过长),首先会有领域专家梳理的触发词字典。触发词是指文本中如果存在相应的关键词,则存在一定概率存在对应类型的事件。该阶段主要结合事件触发词进行文本截断,具体做法是:先找出文本中所有存在的触发词,将触发词上下文的一定字数阈值的句子进行截断,该字数阈值主要通过统计决定。由于中文预训练模型为了保证效果,一般会限制最大的输入文本长度,因此需要对原始文本进行截断出来,具体过程为:
对长文本按不同事件维度进行分开统计,首先将长文本按照句号、问号、感叹号等进行截断。
统计不同触发词之间的句子数量及总字数。例如“公式上市”事件中存在触发词“上市”,同时下文的“公司退市”事件中存在触发词“退市”,则该阶段会在“上市”和“退市”之间统计字数作为“上市”触发词的下文字数,上文字数进行同样处理。
统计完成后将具体字数离散为具体区间,如(50字以下),(50-100字)等等,统计各大区间的分布,最终决定分布占比相对最多的字数区间挑选众数作为触发词前后的字数阈值进行文本切割。
在一实施例中,如图3所示,所述步骤S102包括:步骤S301~S304。
S201、获取包含截断训练文本和事件类型的训练集,并对训练集中的截断训练文本按照事件标签拼接;
S202、通过增加卷积核的深度学习模型对拼接后的截断训练文本进行卷积处理;
S203、采用focal-loss损失函数对改进的深度学习模型进行优化更新;
S204、利用更新后的深度学习模型对截断文本进行事件分类预测。
本实施例中,针对上述事件分类阶段的痛点2(即所含事件类型多样),对深度学习模型的训练和预测结构进行了改造,应用了一种多标签分类的技术,保证每个被截断的文本都可以被预测为多个事件类型,具体过程为:
在训练阶段,本实施例将截断后的文本和每个事件类型进行文本拼接,并用特殊字符进行隔开。例如存在10个事件类型,则原始单条训练文本将会变成10条训练文本,此时对应的训练标签变成二分类的标签,即模型的训练目标优化为判断该文本是否属于其中一个事件标签,这样能很好的解决样本数量少的问题。在模型层面为了适应流程上的变动也做了一些更改,模型不再对原文本进行卷积,而是对原文本拼接事件标签后进行卷积。此时文本语义可能相差较远,为了处理这种问题,本实施例在保留原有步长为1卷积核的情况下增加少量步长为2的卷积核,提升距离较远文本的信息抽取能力。
另外,本实施例在最终的损失计算上也进行了一定的改造,由于原始模型处理多标签文本,原始的损失计算已不适合现有的二分类模型,同时避免二分类后产生的大量负样本,本实施例采用focal-loss损失函数,从而能够有效避免负样本数量过多造成模型倾向于拟合负样本的二分类损失函数。
在预测阶段,同样将所有事件类型拼接在原始文本之后。例如,同样一条预测文本会被扩充到10条预测文本,模型经过同样的推理得到是否属于该事件类型的2分类结果,通过后处理汇总所有预测为1的事件类型,就可以得到该文本所有的事件类型。预测阶段在模型层面的改造,前馈计算和训练阶段保持一致,同样有少量步长为2的卷积核,主要是为了保证训练阶段的参数能够在预测进行完整重现。另外,预测结果的输出并不需要进过focal-loss的损失计算,直接输出前一层的激活函数结果即可。
在一实施例中,所述步骤S103包括:
采用问答式架构在所述截断文本的每一事件类型后拼接问句;
通过指针网络模型,根据拼接问句构建标签列表,并利用所述标签列表预测所述问句在所述截断文本中的起始位置概率值和终止位置概率值;
选取概率值最大的起始位置和终止位置,并将所述起始位置和终止位置之间的文本内容作为对应事件类型下属的事件角色信息。
本实施例中,由于事件角色抽取也存在多项痛点,例如角色标签多样,重合,分拆等,事件约束下部分角色不能被识别等,这些痛点都是传统用NER技术无法解决的。为了解决这些痛点,本实施例采取了MRC(Machine Reading Comprehension,即机器阅读理解技术)+指针网络的策略。其中,MRC技术(Machine Reading Comprehension,即机器阅读理解技术)主要采用了问答式的整体架构,即在输入的截断文本后拼接问句,这样做能够极大的丰富截断文本,并且加入问句后能够更聚焦于本次事件角色信息的抽取。如在“A公司于今年10月上市。”的截断文本后添加问句“在事件公司上市中,上市企业是什么”组成一条新的截断文本“A公司于今年10月上市。在事件公司上市中,上市企业是什么”,在输入的截断文本中能够学习到“上市企业”和A文本存在共现关系,对于模型的学习十分重要。
另外,还需要预测拼接的问句的答案在截断文本中的起始位置和终止位置。并且,针对每种事件类型下的每个事件角色都设置单独的问题,即如果一种事件类型下存在10个事件角色,则原始文本会被拼接10个问句组成10条训练样本进行训练。
事件角色识别(即事件角色信息获取)最重要的训练目标是获得该角色在截断文本中的起始位置和终止位置,但是如果起始位置和终止位置之间的起始位置和终止位置同时也存在其他的事件角色例如“深圳华为科技公司”中的“深圳”即是公司名称,也是所在地区,传统的事件角色识别技术并不能很好的解决这个问题。而指针网络主要是通过两组标签值来分别拟合起始位置和终止位置,同时针对每个事件角色都有独立的两组标签列表进行隔离,模型需要单独给每个事件角色预测两组预测值,分别与两组标签列表计算损失,最终保证在每个事件角色下都能得到最优解。指针网络的输入仍然是MRC结构下的拼接有问句的截断文本。
例如,拼接有问句的截断文本的长度为100,则指针网络会构建两个长度为100的标签列表。第一标签列表主要负责预测事件角色的起始位置,每个位置都会输出是否为起始位置的概率值,找到概率值最大的位置作为事件角色的起始位置。具体过程可以有多种基本网络,在本实施例中可以采用transformer的编码器进行处理,transformer在NLP领域应用十分广泛,拥有强大的特征变化及处理能力,能够很好抽取输入文本的表层句法结构信息和深层语义信息。整体过程类似于指针在长度为100的文本上前后移动,直到找到起始位位置。第二个标签列表与第一个标签列表处理过程的原理相同,只是将拟合目标(即起始位置)变换为事件角色的终止位置。
针对同一个实体有多个事件角色标签,同一个实体前半部分和后半部分属于不同类型的标签等问题,本实施例采用指针网络,将多标签识别的问题转化成大量单标签的二分类问题,避免信息混杂。针对事件约束先的部分角色不能被识别的问题,本实施例采用MRC技术,MRC技术主要是将原始文本进行转化,将原始文本拼接问题文本一起送入预训练的语言模型中。模型需要预测问题文本的答案的所在位置,其中的问题文本与事件类型强相关,因此能够实现事件类型对于事件角色的强约束,保证每个事件下的事件角色信息都符合领域专家制定的规则。
在一实施例中,所述序列生成算法为DOC2EDAG算法。
本实施例中,EDAG全称为Entity-based Directed Acyclic Graph,意为基于实体的有向无环图,即将长文本中抽取得到的一系列事件角色构建成一个有向无环图,也就是生成一个由事件角色组成的序列作为单一事件。
在一实施例中,所述步骤S104包括:
基于所述事件角色信息对每一事件类型下属的所有事件角色进行排序;
通过一状态变量对每一事件类型下属的事件角色进行状态更新;
根据排序结果和状态更新结果,通过DOC2EDAG算法为所有的事件角色构建有向无环图,得到所有的所述事件角色信息组合的序列,并将所述序列作为所述目标事件输出。
本实施例中,在事件组合阶段的痛点在于任何事件的任何事件角色都有可能是一个实体,多个实体,甚至没有实体,因此在配对组合上会面对及其复杂的逻辑处理。目前该痛点在工业界主要通过规则处理,学术界存在一定的模型实现。而本实施例则基于DOC2EDAG算法,将事件组合转化成序列生成的任务。具体的,对于每种事件类型,为下属的所有事件角色定义一个顺序,并逐步更新每个事件角色。定义顺序的标准可以由领域知识专家确定,标准为单一事件维度下的角色重要性排序。如“公司上市”事件中的角色重要性为:上市公司,上市环节,上市证券所,上市时间等等。
同时,通过所述状态变量m,记录每一事件类型更新到某个事件角色时整个事件的状态,在扩展下一个事件角色节点时,会根据此时的状态变量m和新加入事件角色节点的特征e进行综合判断。
然后根据排序结果和状态更新结果,对事件角色信息生成序列组合,并以此作为事件抽取结果输出。
在一实施例中,所述通过一状态变量对每一事件类型下属的事件角色进行状态更新,包括:
获取至少一新增事件角色节点,并利用全连接层对每一所述事件角色节点进行特征变换;
将特征变换结果与所述状态变量进行拼接,并将拼接结果依次输入值全连接层和激活函数,得到每一所述事件角色节点与对应事件角色的匹配概率值;
选择匹配概率值最大的事件角色节点作为对应事件角色的预测结果,并更新对应的事件类型。
本实施例中,综合判断主要由神经网络的全连接层决定,主要流程是新加入的事件角色节点的节点特征e经过全连接层进行特征变换,再与此时的状态变量进行拼接,然后经过一层全连接层和激活函数,得到该事件角色节点与该事件角色匹配的概率值。选取匹配概率值最高的事件角色节点作为该事件角色的预测结果。
每个事件角色节点可能是真实的实体,也可能是空值,最终把公共前缀进行合并,形成每个单独的事件。
还需注意的是,由于事件抽取的整体流程过长,因此需要进行流程拆解后利用不同模型的组合来分而治之。在不同的阶段也存在不同的痛点,而本实施例则可以完美解决存在痛点。各个阶段之间的联系主要通过串联实现,以输入一条长文本为例,一阶段(即事件分类阶段)主要输出该长文本的所有截断文本的事件类型(多分类);二阶段(即事件角色抽取阶段)输入这些截断文本,主要输出每条截断文本的每个事件类型下识别得到的所有事件角色;三阶段(即事件组合阶段)输入所有事件角色,通过序列生成模型获得包含一批事件角色的所有事件,最终实现事件抽取的需求。
图4为本发明实施例提供的一种长文本事件抽取装置400的示意性框图,该装置400包括:
第一截断单元401,用于获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本;
第一分类预测单元402,用于利用深度学习模型分类预测所述截断文本对应的多个事件类型;
第一抽取单元403,用于结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息;
结果输出单元404,用于基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出。
在一实施例中,如图5所示,所述第一截断单元401包括:
触发词选取单元501,用于通过触发词词典在长文本中选取触发词,并利用触发词对长文本进行预截断;
统计单元502,用于基于预截断的长文本,统计不同触发词之间的句子数量和总字数;
区间选取单元503,用于根据不同触发词之间的总字数构建离散区间,并基于所述离散区间选取分布占比最多的字数区间;
字数阈值设置单元504,用于在所述字数区间中选取众数作为字数阈值,并利用所述字数阈值对长文本进行文本截断。
在一实施例中,如图6所示,所述第一分类预测单元402包括:
标签拼接单元601,用于获取包含截断训练文本和事件类型的训练集,并对训练集中的截断训练文本按照事件标签拼接;
卷积处理单元602,用于通过增加卷积核的深度学习模型对拼接后的截断训练文本进行卷积处理;
优化更新单元603,用于采用focal-loss损失函数对改进的深度学习模型进行优化更新;
第二分类预测单元604,用于利用更新后的深度学习模型对截断文本进行事件分类预测。
在一实施例中,所述第一抽取单元403包括:
问句拼接单元,用于采用问答式架构在所述截断文本的每一事件类型后拼接问句;
概率预测单元,用于通过指针网络模型,根据拼接问句构建标签列表,并利用所述标签列表预测所述问句在所述截断文本中的起始位置概率值和终止位置概率值;
位置选取单元,用于选取概率值最大的起始位置和终止位置,并将所述起始位置和终止位置之间的文本内容作为对应事件类型下属的事件角色信息。
在一实施例中,所述序列生成算法为DOC2EDAG算法。
在一实施例中,所述结果输出单元404包括:
角色排序单元,用于基于所述事件角色信息对每一事件类型下属的所有事件角色进行排序;
状态更新单元,用于通过一状态变量对每一事件类型下属的事件角色进行状态更新;
序列输出单元,用于根据排序结果和状态更新结果,通过DOC2EDAG算法为所有的事件角色构建有向无环图,得到所有的所述事件角色信息组合的序列,并将所述序列作为所述目标事件输出。
在一实施例中,所述状态更新单元包括:
特征变换单元,用于获取至少一新增事件角色节点,并利用全连接层对每一所述事件角色节点进行特征变换;
特征拼接单元,用于将特征变换结果与所述状态变量进行拼接,并将拼接结果依次输入值全连接层和激活函数,得到每一所述事件角色节点与对应事件角色的匹配概率值;
节点选择单元,用于选择匹配概率值最大的事件角色节点作为对应事件角色的预测结果,并更新对应的事件类型。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (6)
1.一种长文本事件抽取方法,其特征在于,包括:
获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本;
所述获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本,包括:
通过触发词词典在长文本中选取触发词,并利用触发词对长文本进行预截断;
基于预截断的长文本,统计不同触发词之间的句子数量和总字数;
根据不同触发词之间的总字数构建离散区间,并基于所述离散区间选取分布占比最多的字数区间;
在所述字数区间中选取众数作为字数阈值,并利用所述字数阈值对长文本进行文本截断;
利用深度学习模型分类预测所述截断文本对应的多个事件类型;
结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息;
所述结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息,包括:
采用问答式架构在所述截断文本的每一事件类型后拼接问句;
通过指针网络模型,根据拼接问句构建标签列表,并利用所述标签列表预测所述问句在所述截断文本中的起始位置概率值和终止位置概率值;
选取概率值最大的起始位置和终止位置,并将所述起始位置和终止位置之间的文本内容作为对应事件类型下属的事件角色信息;
基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出;所述序列生成算法为DOC2EDAG算法;
所述基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出,包括:
基于所述事件角色信息对每一事件类型下属的所有事件角色进行排序;
通过一状态变量对每一事件类型下属的事件角色进行状态更新;
根据排序结果和状态更新结果,通过DOC2EDAG算法为所有的事件角色构建有向无环图,得到所有的所述事件角色信息组合的序列,并将所述序列作为所述目标事件输出。
2.根据权利要求1所述的长文本事件抽取方法,其特征在于,所述利用深度学习模型分类预测所述截断文本对应的多个事件类型,包括:
获取包含截断训练文本和事件类型的训练集,并对训练集中的截断训练文本按照事件标签拼接;
通过增加卷积核的深度学习模型对拼接后的截断训练文本进行卷积处理;
采用focal-loss损失函数对改进的深度学习模型进行优化更新;
利用更新后的深度学习模型对截断文本进行事件分类预测。
3.根据权利要求1所述的长文本事件抽取方法,其特征在于,所述通过一状态变量对每一事件类型下属的事件角色进行状态更新,包括:
获取至少一新增事件角色节点,并利用全连接层对每一所述事件角色节点进行特征变换;
将特征变换结果与所述状态变量进行拼接,并将拼接结果依次输入值全连接层和激活函数,得到每一所述事件角色节点与对应事件角色的匹配概率值;
选择匹配概率值最大的事件角色节点作为对应事件角色的预测结果,并更新对应的事件类型。
4.一种长文本事件抽取装置,其特征在于,包括:
第一截断单元,用于获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本;
所述第一截断单元包括:
触发词选取单元,用于通过触发词词典在长文本中选取触发词,并利用触发词对长文本进行预截断;
统计单元,用于基于预截断的长文本,统计不同触发词之间的句子数量和总字数;
区间选取单元,用于根据不同触发词之间的总字数构建离散区间,并基于所述离散区间选取分布占比最多的字数区间;
字数阈值设置单元,用于在所述字数区间中选取众数作为字数阈值,并利用所述字数阈值对长文本进行文本截断;
第一分类预测单元,用于利用深度学习模型分类预测所述截断文本对应的多个事件类型;
第一抽取单元,用于结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息;
所述第一抽取单元包括:
问句拼接单元,用于采用问答式架构在所述截断文本的每一事件类型后拼接问句;
概率预测单元,用于通过指针网络模型,根据拼接问句构建标签列表,并利用所述标签列表预测所述问句在所述截断文本中的起始位置概率值和终止位置概率值;
位置选取单元,用于选取概率值最大的起始位置和终止位置,并将所述起始位置和终止位置之间的文本内容作为对应事件类型下属的事件角色信息;
结果输出单元,用于基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出;所述序列生成算法为DOC2EDAG算法;
所述结果输出单元包括:
角色排序单元,用于基于所述事件角色信息对每一事件类型下属的所有事件角色进行排序;
状态更新单元,用于通过一状态变量对每一事件类型下属的事件角色进行状态更新;
序列输出单元,用于根据排序结果和状态更新结果,通过DOC2EDAG算法为所有的事件角色构建有向无环图,得到所有的所述事件角色信息组合的序列,并将所述序列作为所述目标事件输出。
5.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的长文本事件抽取方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的长文本事件抽取方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111065602.1A CN113535963B (zh) | 2021-09-13 | 2021-09-13 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
PCT/CN2021/120030 WO2023035330A1 (zh) | 2021-09-13 | 2021-09-24 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111065602.1A CN113535963B (zh) | 2021-09-13 | 2021-09-13 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535963A CN113535963A (zh) | 2021-10-22 |
CN113535963B true CN113535963B (zh) | 2021-12-21 |
Family
ID=78093162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111065602.1A Active CN113535963B (zh) | 2021-09-13 | 2021-09-13 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113535963B (zh) |
WO (1) | WO2023035330A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115292568B (zh) * | 2022-03-02 | 2023-11-17 | 内蒙古工业大学 | 一种基于联合模型的民生新闻事件抽取方法 |
CN114996434B (zh) * | 2022-08-08 | 2022-11-08 | 深圳前海环融联易信息科技服务有限公司 | 一种信息抽取方法及装置、存储介质、计算机设备 |
CN115982339A (zh) * | 2023-03-15 | 2023-04-18 | 上海蜜度信息技术有限公司 | 突发事件抽取方法、***、介质、电子设备 |
CN116501898B (zh) * | 2023-06-29 | 2023-09-01 | 之江实验室 | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 |
CN116776886B (zh) * | 2023-08-15 | 2023-12-05 | 浙江同信企业征信服务有限公司 | 一种信息抽取方法、装置、设备及存储介质 |
CN117648397A (zh) * | 2023-11-07 | 2024-03-05 | 中译语通科技股份有限公司 | 篇章事件抽取方法、***、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090763A (zh) * | 2019-11-22 | 2020-05-01 | 北京视觉大象科技有限公司 | 一种图片自动标签方法及装置 |
CN112905868A (zh) * | 2021-03-22 | 2021-06-04 | 京东方科技集团股份有限公司 | 事件抽取方法、装置、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004006133A1 (en) * | 2002-07-03 | 2004-01-15 | Iotapi., Com, Inc. | Text-machine code, system and method |
JP2009205372A (ja) * | 2008-02-27 | 2009-09-10 | Mitsubishi Electric Corp | 情報処理装置及び情報処理方法及びプログラム |
US10817669B2 (en) * | 2019-01-14 | 2020-10-27 | International Business Machines Corporation | Automatic classification of adverse event text fragments |
CN110210027B (zh) * | 2019-05-30 | 2023-01-24 | 杭州远传新业科技股份有限公司 | 基于集成学习的细粒度情感分析方法、装置、设备及介质 |
CN111522915A (zh) * | 2020-04-20 | 2020-08-11 | 北大方正集团有限公司 | 中文事件的抽取方法、装置、设备及存储介质 |
CN112861527A (zh) * | 2021-03-17 | 2021-05-28 | 合肥讯飞数码科技有限公司 | 一种事件抽取方法、装置、设备及存储介质 |
CN113312916B (zh) * | 2021-05-28 | 2022-05-27 | 北京航空航天大学 | 基于触发词语态学习的金融文本事件抽取方法 |
-
2021
- 2021-09-13 CN CN202111065602.1A patent/CN113535963B/zh active Active
- 2021-09-24 WO PCT/CN2021/120030 patent/WO2023035330A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090763A (zh) * | 2019-11-22 | 2020-05-01 | 北京视觉大象科技有限公司 | 一种图片自动标签方法及装置 |
CN112905868A (zh) * | 2021-03-22 | 2021-06-04 | 京东方科技集团股份有限公司 | 事件抽取方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023035330A1 (zh) | 2023-03-16 |
CN113535963A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113535963B (zh) | 一种长文本事件抽取方法、装置、计算机设备及存储介质 | |
Swenson | Functional and phylogenetic ecology in R | |
Muangkammuen et al. | Automated thai-faq chatbot using rnn-lstm | |
CN111125334B (zh) | 一种基于预训练的搜索问答*** | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
Pratt et al. | Employee attrition estimation using random forest algorithm | |
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及*** | |
Chakraborty et al. | A review on textual analysis of corporate disclosure according to the evolution of different automated methods | |
Vogel et al. | A century of Public Administration: Traveling through time and topics | |
CN113342958B (zh) | 问答匹配方法、文本匹配模型的训练方法和相关设备 | |
CN102402717A (zh) | 数据分析设备和方法 | |
Wang et al. | Maud: An expert-annotated legal nlp dataset for merger agreement understanding | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN115577080A (zh) | 一种问题回复匹配方法、***、服务器及存储介质 | |
CN115063035A (zh) | 基于神经网络的客户评估方法、***、设备及存储介质 | |
CN117668205B (zh) | 智慧物流客服处理方法、***、设备及存储介质 | |
Cooper et al. | Text-mining 10-K (annual) reports: a guide for B2B marketing research | |
Mgarbi et al. | Towards a new job offers recommendation system based on the candidate resume | |
CN111598691B (zh) | 信用债发债主体违约风险评估方法、***及装置 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN112036841A (zh) | 基于智能语义识别的政策解析***及方法 | |
Das et al. | Automated pipeline for sentiment analysis of political tweets | |
Gupta et al. | Real-time sentiment analysis of tweets: A case study of Punjab elections | |
Roelands et al. | Classifying businesses by economic activity using web-based text mining | |
CN117708308B (zh) | 一种基于rag自然语言智能知识库管理的方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |