CN111753522A - 事件抽取方法、装置、设备以及计算机可读存储介质 - Google Patents

事件抽取方法、装置、设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN111753522A
CN111753522A CN202010609527.XA CN202010609527A CN111753522A CN 111753522 A CN111753522 A CN 111753522A CN 202010609527 A CN202010609527 A CN 202010609527A CN 111753522 A CN111753522 A CN 111753522A
Authority
CN
China
Prior art keywords
event
target
training
acquiring
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010609527.XA
Other languages
English (en)
Inventor
刘康龙
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010609527.XA priority Critical patent/CN111753522A/zh
Publication of CN111753522A publication Critical patent/CN111753522A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及区块链技术领域,公开了一种事件抽取方法、装置、设备以及计算机可读存储介质,该方法包括:获取待测试文章的标题,并确定所述标题对应的事件名;获取所述待测试文章的所有语句,根据所述事件名在各所述语句中获取预设数量的目标语句;将各所述目标语句输入至预训练语言模型进行训练,以获取通用属性;获取输入的预设问题,根据所述预设问题在各所述目标语句中获取特殊论元,并输出所述通用属性和所述特殊论元。此外,待测试文章的所有语句可存储于区块链中。本发明提高了篇章级事件抽取的准确率。

Description

事件抽取方法、装置、设备以及计算机可读存储介质
技术领域
本发明涉及区块链技术领域,尤其涉及一种事件抽取方法、装置、设备以及计算机可读存储介质。
背景技术
目前,现有的事件抽取方法仅仅是在句子范围内提取事件参数,但是这种句子级事件抽取方法很难处理新兴应用的大量文档,如金融、立法和健康等类型。这些文档中的事件参数总是分散在不同的句子中,甚至在同一个文档中相同事件的提及可能会出现多次,但现有的事件抽取方法只能从句子中进行事件抽取,而不能基于整篇文档的整体进行事件抽取,从而导致进行篇章级事件抽取的准确率较低。
发明内容
本发明的主要目的在于提供一种事件抽取方法、装置、设备以及计算机可读存储介质,旨在解决现有技术中篇章级事件抽取的准确率较低的技术问题。
为实现上述目的,本发明提供一种事件抽取方法,所述事件抽取方法包括:
获取待测试文章的标题,并确定所述标题对应的事件名;
获取所述待测试文章的所有语句,根据所述事件名在各所述语句中获取预设数量的目标语句,所述待测试文章的所有语句存储于区块链;
将各所述目标语句输入至预训练语言模型进行训练,以获取通用属性;
获取输入的预设问题,根据所述预设问题在各所述目标语句中获取特殊论元,并输出所述通用属性和所述特殊论元。
可选地,所述确定所述标题对应的事件名的步骤,包括:
根据预训练语言模型对所述标题进行事件类型分类,基于所述分类的分类结果确定目标事件;
根据所述目标事件确定所述标题对应的事件名。
可选地,所述根据所述目标事件确定所述标题对应的事件名的步骤,包括:
根据预设的句法与语义角色标注算法在所述标题中提取所述目标事件对应的语法,并对所述语法进行组合以生成所述标题对应的事件名。
可选地,所述根据所述事件名在各所述语句中获取预设数量的目标语句的步骤,包括:
根据所述事件名和预设的排序模型对各所述语句进行排序;
基于所述排序的排序结果在各所述语句中获取预设数量的目标语句。
可选地,所述将各所述目标语句输入至预训练语言模型进行训练,以获取通用属性的步骤,包括:
将各所述目标语句输入至预训练语言模型进行训练,以获取各训练数据;
在各所述训练数据中确定各所述目标语句的训练属性,并根据各所述训练属性获取通用属性。
可选地,所述根据各所述训练属性获取通用属性的步骤,包括:
根据各所述训练属性对各所述目标语句进行分类,并获取同一类别的目标语句的共用属性,将所述共用属性作为通用属性。
可选地,所述根据所述预设问题在各所述目标语句中获取特殊论元的步骤,包括:
根据所述预设问题构造特殊论元问答对数据,并根据预设阅读理解模型和所述特殊论元问答对数据在各所述目标语句中抽取数据,将所述数据作为特殊论元。
此外,为实现上述目的,本发明还提供一种事件抽取装置,所述事件抽取装置包括:
第一获取模块,用于获取待测试文章的标题,并确定所述标题对应的事件名;
第二获取模块,用于获取所述待测试文章的所有语句,根据所述事件名在各所述语句中获取预设数量的目标语句,所述待测试文章的所有语句存储于区块链;
输入模块,用于将各所述目标语句输入至预训练语言模型进行训练,以获取通用属性;
输出模块,用于获取输入的预设问题,根据所述预设问题在各所述目标语句中获取特殊论元,并输出所述通用属性和所述特殊论元。
此外,为实现上述目的,本发明还提供一种事件抽取设备;
所述事件抽取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中:
所述计算机程序被所述处理器执行时实现如上所述的事件抽取方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质;
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的事件抽取方法的步骤。
本发明通过获取待测试文章的标题,并确定所述标题对应的事件名;获取所述待测试文章的所有语句,根据所述事件名在各所述语句中获取预设数量的目标语句,所述待测试文章的所有语句存储于区块链;将各所述目标语句输入至预训练语言模型进行训练,以获取通用属性;获取输入的预设问题,根据所述预设问题在各所述目标语句中获取特殊论元,并输出所述通用属性和所述特殊论元。通过根据待测试文章标题对应的事件名在待测试文章的所有语句中获取目标语句,并确定各个目标语句的通用属性,再根据预设问题获取特殊论元,并输出通用属性和特殊论元,从而避免了现有技术中只能事件抽取方法只能从句子中进行事件抽取,而不能基于整篇文档的整体进行事件抽取,有效地降低对篇章级事件进行抽取的难度,提高了篇章级事件抽取的准确性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的事件抽取设备结构示意图;
图2为本发明事件抽取方法第一实施例的流程示意图;
图3为本发明事件抽取装置的功能模块示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的事件抽取设备结构示意图。
如图1所示,该事件抽取设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,事件抽取设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度。当然,终端设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的事件抽取设备结构并不构成对事件抽取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及事件抽取程序。
在图1所示的事件抽取设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的事件抽取程序,并执行本发明实施例提供的事件抽取方法。
参照图2,本发明提供一种事件抽取方法,在事件抽取方法一实施例中,事件抽取方法包括以下步骤:
步骤S10,获取待测试文章的标题,并确定所述标题对应的事件名;
在本实施例中,当确定需要对一份文档(即待测试文章,如新闻网站上的文章、或其它网站上的文章和论文等)进行事件抽取时,需要先获取待测试文章的标题,而提取待测试文章的标题的方式可以是采用爬虫技术从原始新闻网站上单独提取标题。当获取到待测试文章的标题后,还需要通过预训练模型来对标题进行训练,以便对标题进行事件类型分类,从而获取到标题对应的目标事件。其中,预训练模型可以是双向编码器表示Transformers-双向长短期记忆网络-条件随机场模型,因此可以通过此模型来对标题进行事件类型分类,以确定标题对应的目标事件。其中,Transformers-双向长短期记忆网络-条件随机场模型可以用于确定标题中的词语(即事件)是否为用户所需求的,并在确定后将其作为事件触发词。例如,通过双向编码器表示Transformers-双向长短期记忆网络-条件随机场模型对标题进行分词处理,并根据各个分词创建相应的词汇,并根据条件随机场模型对各个词汇进行预测,得到标题对应的事件名。
并且,在根据预训练语言模型进行事件分类时,基于待测试文章的标题抽取目标事件对应的事件名。因此为了减少整篇文档(即待测试文章)中多个事件的干扰,将事件抽取的范围缩小为文档中最核心的事件,也就是标题中包括的目标事件。而且,该目标事件是标题中包含的关键信息。例如,当A文档的标题为“XX的道歉”,则可以通过预训练语言模型来确定标题中所包含的关键信息,如道歉,并将“道歉”作为A文档的标题对应的目标事件触发词,并基于此目标事件触发此来确定A文档所包含内容对应的目标事件,并将“道歉”作为目标事件对应的事件名。
步骤S20,获取所述待测试文章的所有语句,根据所述事件名在各所述语句中获取预设数量的目标语句,所述待测试文章的所有语句存储于区块链;
在获取到事件名,并获取到待测试文章的所有语句后,可以根据此事件名在待测试文章的所有语句中选择出和事件名相关的语句,再基于一定的规则在这些相关的语句中获取预设数量(可以是用户提前设置的任意数量)的目标语句。即根据事件名和预设的排序模型,如Learn-to-Rank排序模型对待测试文章的所有语句进行打分,以确定各个语句和事件名之间的关联程度,再根据此打分结果对各个语句进行排序,即按照分数的大小进行排序,再从排序结果中选择分数大于预设值的预设数量的语句,作为目标语句,也可以是根据分数的大小直接按照分数从大到小的顺序选择预设数量的语句作为目标语句。其中,目标语句是待测试文章中有提及目标事件,并且分数比较高的语句。而通过Learn-to-Rank排序模型可以确定待测试文章的所有语句与目标语句的相对相关度,并根据各个相对相关度进行打分,再基于打分结果对各个语句进行排序。
需要强调的是,为进一步保证上述所有语句的私密和安全性,上述待测试文章的所有语句还可以存储于一区块链的节点中。
步骤S30,将各所述目标语句输入至预训练语言模型进行训练,以获取通用属性;
在获取到事件名和各个目标语句后,可以根据预训练语言模型(如双向编码器表示Transformers-双向长短期记忆网络-条件随机场模型)来对各个目标语句进行训练,以获取各个目标语句的训练属性。例如,通过双向编码器表示Transformers-双向长短期记忆网络-条件随机场模型对输入的目标语句进行分类分词,并确定各个分词对应的事件类型,再将各个事件类型作为输入的目标语句的训练属性。并根据获取到的训练属性对各个目标语句进行分类,确定哪些目标语句携带有相同的训练属性(如都携带有时间属性、或地域属性等),并将具有相同的训练属性对应的目标语句作为最新目标语句。例如,假设在目标语句A、B、C中,A和B均携带有时间属性,而C未携带有时间属性,则可以将A和B作为最新目标语句。然后再提取这些最新目标语句的相同的训练属性作为通用属性。如可以将A和B中的时间属性作为通用属性进行提取。
步骤S40,获取输入的预设问题,根据所述预设问题在各所述目标语句中获取特殊论元,并输出所述通用属性和所述特殊论元。
在获取到各个目标语句,并进行通用属性提取后,可以进行特殊论元抽取,即先获取输入的预设问题,再基于特殊论元信息设计问题模板和预设问题,构造特殊论元问答对数据,并基于双向编码器表示Transformers的机器阅读理解模型,从各个目标语句中抽取答案作为特殊论元。例如,在基于双向编码器表示Transformers的机器阅读理解模型中接收到特殊论元问答对数据后,可以结合各个目标语句进行预测,即在各个目标语句中判断哪个目标语句与特殊论元问答对数据具有语义关系,并从此具有语义关系的目标语句中抽取与特殊论元问答对数据相关联的数据作为特殊论元。
并在获取到各个通用属性和各个特殊论元后,可以将这些通用属性和特殊论元作为篇章级事件进行输出。其中,机器阅读理解模型可以包括嵌入编码、特征提取、文章-问题交互和答案预测四个模块。并且嵌入编码模块是将输入的自然语言形式的文章和问题的词向量表示传递给特征提取模块进行特征提取。在文章-问题交互模块中,机器可以利用文章和问题之间的交互信息,推测出文章中哪些语句部分对回答问题更为重要,而答案预测模块则是根据嵌入编码、特征提取、文章-问题交互这三个模块获取的信息进行统计分析,得到最终的答案预测。需要说明的是,机器需要先检测输入的预设问题能否根据给定文章(即待测试文章)进行作答,若不能,则对此预设问题进行标记,标记为不能回答,并停止作答。若能,则输出答案。
其中,当预设问题是完形填空问题时,由于其答案输出是待测试文章中的一个词或语句。因此可以将待测试文章中相同词的注意力权重得分进行累加,得到各个积分,并从中选择积分最高的词作为答案进行输出。当预设问题是多项选择任务时,由于多项选择任务是从多个候选答案中挑选出正确答案,一般是对备选答案进行打分,因此可以选择得分最高的候选者作为答案。但预设问题是片段抽取类型问题时,可以从待测试文章中抽取一个与此问题关联的连续片段作为答案。并且在本实施例中,可以把事件抽取的任务理解成从文本中找到特定类别的事件,然后进行填表的过程。
在本实施例中,通过获取待测试文章的标题,并确定所述标题对应的事件名;获取所述待测试文章的所有语句,根据所述事件名在各所述语句中获取预设数量的目标语句,所述待测试文章的所有语句存储于区块链;将各所述目标语句输入至预训练语言模型进行训练,以获取通用属性;获取输入的预设问题,根据所述预设问题在各所述目标语句中获取特殊论元,并输出所述通用属性和所述特殊论元。通过根据待测试文章标题对应的事件名在待测试文章的所有语句中获取目标语句,并确定各个目标语句的通用属性,再根据预设问题获取特殊论元,并输出通用属性和特殊论元,从而避免了现有技术中只能事件抽取方法只能从句子中进行事件抽取,而不能基于整篇文档的整体进行事件抽取,有效地降低对篇章级事件进行抽取的难度,提高了篇章级事件抽取的准确性。
进一步地,在本发明第一实施例的基础上,提出了本发明事件抽取方法的第二实施例,本实施例是本发明第一实施例的步骤S10,确定所述标题对应的事件名的步骤的细化,包括:
步骤a,根据预训练语言模型对所述标题进行事件类型分类,基于所述分类的分类结果确定目标事件;
在本实施例中,在获取到待测试文章的标题后,可以根据提前设置的预训练语言模型对标题进行训练,也就是根据预训练语言模型来识别标题中的事件触发词,并根据事件触发词对标题进行事件类型分类,并根据分类的分类结果确定哪个事件是用户需要的,并将此事件作为目标事件。
步骤b,根据所述目标事件确定所述标题对应的事件名。
当获取到目标事件后,可以直接提取该目标事件的信息,并从提取的信息中确定目标事件的事件名,将其作为标题对应的事件名。
在本实施例中,通过根据预训练语言模型对标题进行事件类型分类,以确定目标事件,并根据目标事件确定事件名,从而保障了获取到的事件名的准确性。
具体地,根据所述目标事件确定所述标题对应的事件名的步骤,包括:
步骤c,根据预设的句法与语义角色标注算法在所述标题中提取所述目标事件对应的语法,并对所述语法进行组合以生成所述标题对应的事件名。
在本实施例中,当获取到目标事件后,可以获取提前设置的句法与语义角色标注算法,基于此句法与语义角色标注算法在标题中提取目标事件对应的语法,即从词法分析、句法分析和语义分析等角度对标题中目标事件进行解析,以获取目标事件对应的事件名。也就是从标题中抽取目标事件的主语、谓语和宾语,并根据主语、谓语和宾语三元组生成标题对应的事件名。
在本实施例中,通过在标题中提取目标事件对应的语法,并对语法进行组合得到标题对应的事件名,从而保障了获取到的事件名的准确性。
进一步地,根据所述事件名在各所述语句中获取预设数量的目标语句的步骤,包括:
步骤d,根据所述事件名和预设的排序模型对各所述语句进行排序;
在本实施例中,当获取到事件名后,还需要获取待测试的文章的所有语句,并根据事件名在各个语句中选择出和事件名相关的语句,并基于一定的规则在这些相关的语句中获取预设数量的目标语句。也就是可以根据事件名和预设的排序模型,如Learn-to-Rank排序模型对待测试的文章的所有语句进行打分,以确定各个语句和事件名之间的关联程度,并根据打分结果的大小对各个语句进行排序。
步骤e,基于所述排序的排序结果在各所述语句中获取预设数量的目标语句。
获取各个语句排序的排序结果,并依次选择分数最高的预设数量的语句(即目标语句)作为目标事件提及用以界定目标事件信息的上下文。也就是默认为这些目标语句有提及目标事件。
在本实施例中,通过根据事件名和排序模型对各个语句进行排序,并根据排序结果确定目标语句,从而保障了获取到的目标语句与事件名的关联性较高。
进一步地,将各所述目标语句输入至预训练语言模型进行训练,以获取通用属性的步骤,包括:
步骤f,将各所述目标语句输入至预训练语言模型进行训练,以获取各训练数据;
在本实施例中,当获取到各个目标语句后,可以将各个目标语句输入至预训练语言模型(如条件随机场模型)中进行训练,根据训练结果确定各个目标语句对应的训练数据。其中,训练数据是与目标语句正关联和负关联的数据。正关联是训练数据与目标语句相关联,负关联是训练数据与目标语句不相关联。
步骤g,在各所述训练数据中确定各所述目标语句的训练属性,并根据各所述训练属性获取通用属性。
在获取到各个训练数据后,可以继续根据预训练语言模型来进行训练,确定哪些训练数据与目标语句相关联,哪些训练数据与目标语句不相关联,并将与目标语句相关联的训练数据作为目标语句的训练属性。并且在本实施例中,对每个目标语句采用相同的处理方式,以获取每个目标语句的训练属性,并在这些训练属性中确定哪些训练属性为大部分目标语句(即大于一定数量的目标语句)都携带有的,并将其作为通用属性。
在本实施例中,通过将目标语句输入至预训练语言模型进行训练,获取各个训练数据,并根据训练数据确定目标语句的训练属性,再基于训练属性确定通用属性,从而保障了获取到的通用属性的准确性。
具体地,根据各所述训练属性获取通用属性的步骤,包括:
步骤h,根据各所述训练属性对各所述目标语句进行分类,并获取同一类别的目标语句的共用属性,将所述共用属性作为通用属性。
在根据训练属性获取通用属性时,可以先根据各个训练属性对各个目标语句进行分类,即确定哪些目标语句携带有相同的训练属性,再获取同一类别的目标语句的共有属性,再将共用属性作为通用属性。例如,假设训练属性包括1、2、3,而目标语句包括A、B、C和D,其中,A和B都携带有训练属性1,D和C都携带有训练属性3,则可以将A和B作为同一类别,并将训练属性1作为共用属性;同理也将D和C作为同一类别,并将训练属性3作为共用属性。
在本实施例中,通过对各个目标语句进行分类,并获取同一类别的目标语句的共用属性,将共用属性作为通用属性,从而保障了获取到的通用属性的准确性。
进一步地,根据所述预设问题在各所述目标语句中获取特殊论元的步骤,包括:
步骤k,根据所述预设问题构造特殊论元问答对数据,并根据预设阅读理解模型和所述特殊论元问答对数据在各所述目标语句中抽取数据,将所述数据作为特殊论元。
在本实施例中,当获取到输入的预设问题后,可以根据预设问题在特殊论元信息设计问题模板中构造特殊论元问答对数据,并根据提前设置好的阅读理解模型和特殊论元问答对数据在各个目标语句中抽取数据(即答案),并将此数据作为特殊论元。
在本实施例中,通过构建特殊论元问答对数据,并根据预设阅读理解模型在各个目标语句中抽取特殊论元,从而保障了获取到的特殊论元的准确性。
此外,参照图3,本发明实施例还提出一种事件抽取装置,所述事件抽取装置包括:
第一获取模块A10,用于获取待测试文章的标题,并确定所述标题对应的事件名;
第二获取模块A20,用于获取所述待测试文章的所有语句,根据所述事件名在各所述语句中获取预设数量的目标语句,所述待测试文章的所有语句存储于区块链;
输入模块A30,用于将各所述目标语句输入至预训练语言模型进行训练,以获取通用属性;
输出模块A40,用于获取输入的预设问题,根据所述预设问题在各所述目标语句中获取特殊论元,并输出所述通用属性和所述特殊论元。
可选地,所述第一获取模块A10,还用于:
根据预训练语言模型对所述标题进行事件类型分类,基于所述分类的分类结果确定目标事件;
根据所述目标事件确定所述标题对应的事件名。
可选地,所述第一获取模块A10,还用于:
根据预设的句法与语义角色标注算法在所述标题中提取所述目标事件对应的语法,并对所述语法进行组合以生成所述标题对应的事件名。
可选地,所述第二获取模块A20,还用于:
根据所述事件名和预设的排序模型对各所述语句进行排序;
基于所述排序的排序结果在各所述语句中获取预设数量的目标语句。
可选地,所述输入模块A30,还用于:
将各所述目标语句输入至预训练语言模型进行训练,以获取各训练数据;
在各所述训练数据中确定各所述目标语句的训练属性,并根据各所述训练属性获取通用属性。
可选地,所述输入模块A30,还用于:
根据各所述训练属性对各所述目标语句进行分类,并获取同一类别的目标语句的共用属性,将所述共用属性作为通用属性。
可选地,所述输出模块A40,还用于:
根据所述预设问题构造特殊论元问答对数据,并根据预设阅读理解模型和所述特殊论元问答对数据在各所述目标语句中抽取数据,将所述数据作为特殊论元。
其中,事件抽取装置的各个功能模块实现的步骤可参照本发明事件抽取方法的各个实施例,此处不再赘述。
本发明还提供一种事件抽取设备,所述事件抽取设备包括:存储器、处理器及存储在所述存储器上的事件抽取程序;所述处理器用于执行所述事件抽取程序,以实现上述事件抽取方法各实施例的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述事件抽取方法各实施例的步骤。
本发明计算机可读存储介质具体实施方式与上述事件抽取方法各实施例基本相同,在此不再赘述。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种事件抽取方法,其特征在于,所述事件抽取方法包括以下步骤:
获取待测试文章的标题,并确定所述标题对应的事件名;
获取所述待测试文章的所有语句,根据所述事件名在各所述语句中获取预设数量的目标语句,所述待测试文章的所有语句存储于区块链;
将各所述目标语句输入至预训练语言模型进行训练,以获取通用属性;
获取输入的预设问题,根据所述预设问题在各所述目标语句中获取特殊论元,并输出所述通用属性和所述特殊论元。
2.如权利要求1所述的事件抽取方法,其特征在于,所述确定所述标题对应的事件名的步骤,包括:
根据预训练语言模型对所述标题进行事件类型分类,基于所述分类的分类结果确定目标事件;
根据所述目标事件确定所述标题对应的事件名。
3.如权利要求2所述的事件抽取方法,其特征在于,所述根据所述目标事件确定所述标题对应的事件名的步骤,包括:
根据预设的句法与语义角色标注算法在所述标题中提取所述目标事件对应的语法,并对所述语法进行组合以生成所述标题对应的事件名。
4.如权利要求1所述的事件抽取方法,其特征在于,所述根据所述事件名在各所述语句中获取预设数量的目标语句的步骤,包括:
根据所述事件名和预设的排序模型对各所述语句进行排序;
基于所述排序的排序结果在各所述语句中获取预设数量的目标语句。
5.如权利要求1所述的事件抽取方法,其特征在于,所述将各所述目标语句输入至预训练语言模型进行训练,以获取通用属性的步骤,包括:
将各所述目标语句输入至预训练语言模型进行训练,以获取各训练数据;
在各所述训练数据中确定各所述目标语句的训练属性,并根据各所述训练属性获取通用属性。
6.如权利要求5所述的事件抽取方法,其特征在于,所述根据各所述训练属性获取通用属性的步骤,包括:
根据各所述训练属性对各所述目标语句进行分类,并获取同一类别的目标语句的共用属性,将所述共用属性作为通用属性。
7.如权利要求1-6任一项所述的事件抽取方法,其特征在于,所述根据所述预设问题在各所述目标语句中获取特殊论元的步骤,包括:
根据所述预设问题构造特殊论元问答对数据,并根据预设阅读理解模型和所述特殊论元问答对数据在各所述目标语句中抽取数据,将所述数据作为特殊论元。
8.一种事件抽取装置,其特征在于,所述事件抽取装置包括:
第一获取模块,用于获取待测试文章的标题,并确定所述标题对应的事件名;
第二获取模块,用于获取所述待测试文章的所有语句,根据所述事件名在各所述语句中获取预设数量的目标语句,所述待测试文章的所有语句存储于区块链;
输入模块,用于将各所述目标语句输入至预训练语言模型进行训练,以获取通用属性;
输出模块,用于获取输入的预设问题,根据所述预设问题在各所述目标语句中获取特殊论元,并输出所述通用属性和所述特殊论元。
9.一种事件抽取设备,其特征在于,所述事件抽取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的事件抽取程序,所述事件抽取程序被所述处理器执行时实现如权利要求1至7中任一项所述的事件抽取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有事件抽取程序,所述事件抽取程序被处理器执行时实现如权利要求1至7中任一项所述的事件抽取方法的步骤。
CN202010609527.XA 2020-06-29 2020-06-29 事件抽取方法、装置、设备以及计算机可读存储介质 Pending CN111753522A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010609527.XA CN111753522A (zh) 2020-06-29 2020-06-29 事件抽取方法、装置、设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010609527.XA CN111753522A (zh) 2020-06-29 2020-06-29 事件抽取方法、装置、设备以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111753522A true CN111753522A (zh) 2020-10-09

Family

ID=72676617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010609527.XA Pending CN111753522A (zh) 2020-06-29 2020-06-29 事件抽取方法、装置、设备以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111753522A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507700A (zh) * 2020-11-26 2021-03-16 北京百度网讯科技有限公司 事件抽取方法、装置、电子设备及存储介质
CN112528625A (zh) * 2020-12-11 2021-03-19 北京百度网讯科技有限公司 事件抽取的方法、装置、计算机设备以及可读存储介质
CN113157949A (zh) * 2021-04-27 2021-07-23 中国平安人寿保险股份有限公司 事件信息的抽取方法、装置、计算机设备及存储介质
CN114757189A (zh) * 2022-06-13 2022-07-15 粤港澳大湾区数字经济研究院(福田) 事件抽取方法、装置、智能终端及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507700A (zh) * 2020-11-26 2021-03-16 北京百度网讯科技有限公司 事件抽取方法、装置、电子设备及存储介质
CN112528625A (zh) * 2020-12-11 2021-03-19 北京百度网讯科技有限公司 事件抽取的方法、装置、计算机设备以及可读存储介质
CN112528625B (zh) * 2020-12-11 2024-02-23 北京百度网讯科技有限公司 事件抽取的方法、装置、计算机设备以及可读存储介质
CN113157949A (zh) * 2021-04-27 2021-07-23 中国平安人寿保险股份有限公司 事件信息的抽取方法、装置、计算机设备及存储介质
CN114757189A (zh) * 2022-06-13 2022-07-15 粤港澳大湾区数字经济研究院(福田) 事件抽取方法、装置、智能终端及存储介质

Similar Documents

Publication Publication Date Title
US20210081611A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
US20210232761A1 (en) Methods and systems for improving machine learning performance
WO2022116417A1 (zh) 三元组信息提取方法、装置、设备及计算机可读存储介质
US10262062B2 (en) Natural language system question classifier, semantic representations, and logical form templates
CN109284399B (zh) 相似度预测模型训练方法、设备及计算机可读存储介质
CN111753522A (zh) 事件抽取方法、装置、设备以及计算机可读存储介质
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN110263248B (zh) 一种信息推送方法、装置、存储介质和服务器
US10824816B2 (en) Semantic parsing method and apparatus
US20140180728A1 (en) Natural Language Processing
US20220405484A1 (en) Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof
US11651015B2 (en) Method and apparatus for presenting information
CN111339284A (zh) 产品智能匹配方法、装置、设备及可读存储介质
CN108776677B (zh) 平行语句库的创建方法、设备及计算机可读存储介质
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
CN109033082B (zh) 语义模型的学习训练方法、装置及计算机可读存储介质
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
CN117932022A (zh) 一种智能问答方法、装置、电子设备及存储介质
CN112966076A (zh) 智能问答问题的生成方法、装置、计算机设备及存储介质
CN117421413A (zh) 一种问答对生成方法、装置及电子设备
CN116701604A (zh) 问答语料库的构建方法和装置、问答方法、设备及介质
CN113535970A (zh) 信息处理方法和装置、电子设备以及计算机可读存储介质
CN116992874B (zh) 一种文本引用审核溯源方法、***、装置和存储介质
CN113312898B (zh) 语料处理方法、设备、存储介质及装置
JP7034977B2 (ja) 情報抽出支援装置、情報抽出支援方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination