CN110781302A - 文本中事件角色的处理方法、装置、设备及存储介质 - Google Patents
文本中事件角色的处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110781302A CN110781302A CN201911013208.6A CN201911013208A CN110781302A CN 110781302 A CN110781302 A CN 110781302A CN 201911013208 A CN201911013208 A CN 201911013208A CN 110781302 A CN110781302 A CN 110781302A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- event
- words
- role
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 327
- 230000002776 aggregation Effects 0.000 claims abstract description 54
- 238000004220 aggregation Methods 0.000 claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 238000003672 processing method Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种文本中事件角色的处理方法、装置、电子设备及存储介质;方法包括:通过角色处理模型中的编码器对文本中的单词进行编码,得到文本中单词的编码信息;通过编码器对文本中单词的编码信息进行特征聚合,得到所述文本的聚合特征;通过所述角色处理模型中的注意力模型,将至少一个事件角色的多个上层概念、以及所述文本中单词的编码信息进行关联,得到所述文本面向所述事件角色的语义向量;通过所述角色处理模型中的分类器对至少一个所述文本面向所述事件角色的语义向量、以及所述文本的聚合特征进行分类,得到对应所述文本的事件角色。通过本发明,能够根据事件角色的上层概念,自动并准确地抽取文本中的事件角色。
Description
技术领域
本发明涉及人工智能的自然语言处理技术,尤其涉及一种文本中事件角色的处理方法、装置、电子设备及存储介质。
背景技术
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,能实现人与计算机之间用自然语言进行有效通信。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,该领域将涉及自然语言,即人们日常使用的语言,所以它与语言学有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
事件角色处理***是自然语言处理领域的重要应用之一,事件角色处理***是指在文本中抽取各实体在事件中扮演的角色,事件角色处理***在问答***、信息检索***、智能硬件等中都有广泛的应用,即事件角色处理***是这些复杂***的基础组件。
但是,事件角色处理***主要依赖于大量的人力来进行人工标注特征以及规则,从而根据人工标注特征以及规则抽取事件角色,即获得事件角色的成本极高。
发明内容
本发明实施例提供一种事件角色的处理方法、装置、电子设备及存储介质,能够根据事件角色的上层概念,自动并准确地抽取文本中的事件角色。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种事件角色的处理方法,所述方法包括:
通过角色处理模型中的编码器对文本中的单词进行编码,得到所述文本中单词的编码信息;
通过所述编码器对所述文本中单词的编码信息进行特征聚合,得到所述文本的聚合特征;
通过所述角色处理模型中的注意力模型,将至少一个事件角色的多个上层概念、以及所述文本中单词的编码信息进行关联,得到所述文本面向所述事件角色的语义向量;
通过所述角色处理模型中的分类器对至少一个所述文本面向所述事件角色的语义向量、以及所述文本的聚合特征进行分类,得到对应所述文本的事件角色。
本发明实施例提供一种文本中事件角色的处理装置,所述装置包括:
编码模块,用于通过角色处理模型中的编码器对文本中的单词进行编码,得到所述文本中单词的编码信息;
通过所述编码器对所述文本中单词的编码信息进行特征聚合,得到所述文本的聚合特征;
注意力模块,用于通过所述角色处理模型中的注意力模型,将至少一个事件角色的多个上层概念、以及所述文本中单词的编码信息进行关联,得到所述文本面向所述事件角色的语义向量;
分类模块,用于通过所述角色处理模型中的分类器对至少一个所述文本面向所述事件角色的语义向量、以及所述文本的聚合特征进行分类,得到对应所述文本的事件角色。
上述技术方案中,所述编码模块还用于获取所述文本的词向量以及位置向量;
通过所述编码器对所述文本的词向量以及位置向量进行编码,得到所述文本中每个单词的隐藏向量;
其中,所述位置向量包括所述文本中触发词与实体词的位置信息。
上述技术方案中,所述编码模块还用于将所述文本的词向量以及位置向量进行相加,得到和向量;
通过所述编码器对所述和向量进行编码,得到所述文本中每个单词的隐藏向量。
上述技术方案中,所述编码模块还用于获取所述文本的词嵌入向量、位置向量以及事件类型向量;
通过所述编码器对所述词嵌入向量、位置向量以及事件类型向量进行编码,得到所述文本中每个单词的隐藏向量。
上述技术方案中,所述编码模块还用于获取所述文本的编码信息中触发词和实体词的位置;
根据所述触发词和实体词的位置,对所述文本的编码信息中第一个向量至第m个向量进行融合,得到第一融合向量;
对所述第m个向量至第k个向量进行融合,得到第二融合向量;
对所述第k个向量至第n个向量进行融合,得到第三融合向量;
对所述第一融合向量、所述第二融合向量以及所述第三融合向量进行拼接,得到所述文本的聚合特征;
其中,所述第m个向量和第k个向量为所述触发词或实体词,1<m<k<n,且n小于或者等于所述文本的向量总数,m、k、n为自然数。
上述技术方案中,所述注意力模块还用于通过所述注意力模型,将至少一个事件角色的多个上层概念以及所述文本中单词的编码信息进行编码,得到所述文本中单词相对于所述上层概念的隐藏状态;
根据所述文本中单词相对于所述上层概念的隐藏状态、以及所述注意力模型中的参数可学习矩阵,确定所述文本中单词与所述上层概念的相关度;
根据所述文本中单词与所述上层概念的相关度以及所述文本的编码信息,确定所述文本面向所述事件角色的语义向量。
上述技术方案中,所述注意力模块还用于对所述文本中单词的编码信息以及所述上层概念进行拼接,得到拼接向量;
对所述注意力模型中的参数可学习矩阵、所述拼接向量进行编码,得到所述文本中单词相对于所述上层概念的隐藏状态。
上述技术方案中,所述注意力模块还用于将所述单词与所述上层概念的相关度与所述参数可学习矩阵的乘积确定为第一乘积;
基于所述参数可学习矩阵,对各单词与所述上层概念的相关度进行加权求和,得到第二乘积;
将所述第一乘积与所述第二乘积的比值确定为所述文本中单词与所述上层概念的相关度。
上述技术方案中,所述注意力模块还用于根据多个所述文本中单词与所述上层概念的相关度,确定所述文本中单词面向所述事件角色的相关度;
根据所述文本中单词面向所述事件角色的相关度以及所述文本中单词的编码信息,确定所述文本面向所述事件角色的语义向量。
上述技术方案中,所述注意力模块还用于获取多个所述文本中单词与所述上层概念的相关度的平均值,将所述平均值确定为所述文本中单词面向所述事件角色的相关度;
所述根据所述文本中单词面向所述事件角色的相关度以及所述文本中单词的编码信息,确定所述文本面向所述事件角色的语义向量,包括:
基于所述文本中单词的编码信息,对所述文本中单词面向所述事件角色的相关度进行加权求和,得到所述文本面向所述事件角色的语义向量。
上述技术方案中,所述分类模块还用于对所述文本面向所述事件角色的语义向量、以及所述文本的聚合特征进行拼接,得到拼接特征;
通过所述分类器对所述拼接特征、以及所述事件角色进行分类处理,得到对应所述文本的事件角色概率;
根据所述对应所述文本的事件角色概率,得到对应所述文本的事件角色。
上述技术方案中,所述装置还包括:
训练模块,用于通过所述分类器对至少一个文本样本面向所述事件角色的语义向量、以及文本样本的聚合特征进行分类,得到对应所述文本样本的事件角色概率;
根据所述对应所述文本样本的事件角色概率,构建所述角色处理模型的损失函数;
更新所述角色处理模型的参数直至所述损失函数收敛。
本发明实施例提供一种文本中事件角色的处理设备,所述设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的文本中事件角色的处理方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的文本中事件角色的处理方法。
本发明实施例具有以下有益效果:
通过编码器对文本中单词的编码信息进行特征聚合,实现对文本进行下采样,去除文本中不重要的信息,节省后续的计算量;通过将文本中单词的编码信息与事件角色的多个上层概念进行关联,得到文本面向所述事件角色的语义向量,使得语义向量包含上层概念,通过上层概念将文本的事件角色关联起来,使得分类后得到的文本的事件角色更加准确,贴近事实。
附图说明
图1是本发明实施例提供的文本中事件角色的处理***10的应用场景示意图;
图2是本发明实施例提供的文本中事件角色的处理设备500的结构示意图;
图3是本发明实施例提供的文本中事件角色的处理装置555的结构示意图;
图4-7是本发明实施例提供的文本中事件角色的处理方法的流程示意图
图8为本发明实施例提供的上层概念的示意图;
图9为本发明实施例提供的整体框架的示意图;
图10为本发明实施例提供的注意力分数可视化的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)实体词:实体是指能够独立存在的、作为一切属性的基础和万物本原的东西,即实体词是指能够表示实体的词语。名词与代词为实体词,例如“小红”、“地点”为实体词。
2)触发词:触发指因触动而激发起某种反应。触发词也称事件关键词,在文本中表明事件的单词或短语,例如文本中“AA向XX的最后的据点发起进攻”,“进攻”表明事件为攻击,则该文本中的触发词为“进攻”。
3)上层概念:又称上位概念,反映事物中作为属的事物概念、即上一层概念,例如“卖家”的上层概念可以是“人物”或“组织”、即“卖家”的属性可以是“人物”或“组织”。
4)机器阅读理解(Machine Reading Comprehension,MRC):给定一篇文档和一个问题,机器根据该文档预测该问题的答案。对于抽取式机器阅读理解,答案一般为已知文档中的一个片段,MRC模型通过预测答案在已知文档中起始词和终止词的位置来预测答案。
为至少解决相关技术的上述技术问题,本发明实施例提供一种文本中事件角色的处理方法、装置、电子设备和存储介质,能够根据事件角色的上层概念,自动并准确地抽取文本中的事件角色。下面说明本发明实施例提供的文本中事件角色的处理设备的示例性应用,本发明实施例提供的文本中事件角色的处理设备可以是服务器,例如部署在云端的服务器,根据其他设备或者用户提供的文本,对该文本进行一系列处理,抽取对应文本的事件角色,并向用户展示该事件角色,例如,服务器根据其他设备获得文本,通过角色处理模型对该文本进行编码、关联、分类等处理,抽取准确的事件角色;也可是笔记本电脑,平板电脑,台式计算机,移动设备(例如,移动电话,个人数字助理)等各种类型的用户终端,例如手持终端,根据用户在手持终端上输入的文本,获得准确的事件角色,并显示在手持终端的显示界面上。
在一个实施场景中,对于智能问答的语音助手,服务器或者终端可以根据输入的语音,获得对应的问题文本。通过角色处理模型对该文本进行编码、关联、分类等处理,得到准确的事件角色,并将该事件角色融入到问答处理方法中,从而可以根据事件角色,得到准确的答案,例如问题文本为“谁发动了进攻?”,根据“AA向XX的最后的据点发起进攻”文本,抽取事件角色“AA”为“攻击方”、“XX”为“受害者”,当抽取到准确的事件角色后,通过问答处理方法,得到准确的答案“AA发动了进攻”。
在一个实施场景中,对于信息检索应用(Application,APP),服务器或者终端可以根据输入的检索信息,获得对应的检索结果。通过角色处理模型对该检索信息进行编码、关联、分类等处理,得到准确的事件角色,并将该事件角色融入到信息检索方法中,从而可以根据准确的事件角色,得到准确的检索结果,例如检索信息为“AA向XX的最后的据点发起进攻”,根据“AA向XX的最后的据点发起进攻”文本,抽取事件角色“AA”为“攻击方”、“XX”为“受害者”,当抽取到准确的事件角色后,通过信息检索方法,得到准确的检索结果“……对此,3000年AA才向XX的最后的据点发起进攻,……”。
在一个实施场景中,对于阅读理解应用,服务器或者终端可以根据输入的文档信息,获得对应的阅读理解结果。通过角色处理模型对该文档信息进行编码、关联、分类等处理,得到准确的事件角色,并该事件角色融入到阅读理解方法中,从而可以根据准确的事件角色,得到准确的阅读理解结果,例如文档信息为“……AA通过……向XX的最后的据点发起进攻”,根据“……AA通过……向XX的最后的据点发起进攻”文本,抽取事件角色“AA”为“攻击方”、“XX”为“受害者”,当抽取到准确的事件角色后,通过阅读理解方法,得到准确的阅读理解结果“AA向XX发起进攻”。
作为示例,参见图1,图1是本发明实施例提供的文本中事件角色的处理***10的应用场景示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
终端200可以被用来获取文本,例如,当用户通过输入界面输入文本,输入完成后,终端自动获取用户输入的文本。
在一些实施例中,终端200本地执行本发明实施例提供的文本中事件角色的处理方法来完成根据用户输入的文本,得到准确的事件角色,例如,在终端200上安装智能问答的语音助手,用户在智能问答的语音助手中,输入语音,终端200根据输入的语音,生成对应的文本,通过角色处理模型对该文本进行编码、关联、分类等处理,得到准确的事件角色,根据抽取的事件角色对答案进行预测,从而得到准确的答案,并将准确的答案显示在终端200的显示界面210上。
在一些实施例中,终端200也可以通过网络300向服务器100发送用户在终端100上输入的文本,并调用服务器100提供的文本中事件角色的处理功能,服务器100通过本发明实施例提供的文本中事件角色的处理方法获得对应事件角色,例如,在终端200上安装智能问答的语音助手,用户在智能问答的语音助手中,输入语音,终端通过网络300向服务器100发送语音,服务器100接收到该语音后,生成对应的文本,通过角色处理模型对该文本进行编码、关联、分类等处理,得到准确的事件角色,根据抽取的事件角色对答案进行预测,从而得到准确的答案,并返回答案至智能问答的语音助手,将答案显示在终端200的显示界面210上,或者,服务器100直接给出答案。
继续说明本发明实施例提供的文本中事件角色的处理设备的结构,文本中事件角色的处理设备可以是各种终端,例如手机、电脑等,也可以是如图1示出的服务器100。
参见图2,图2是本发明实施例提供的文本中事件角色的处理设备500的结构示意图,图2所示的文本中事件角色的处理设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。文本中事件角色的处理设备500中的各个组件通过总线***540耦合在一起。可理解,总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***551,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作***设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的文本中事件角色的处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的文本中事件角色的处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文本中事件角色的处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在另一些实施例中,本发明实施例提供的文本中事件角色的处理装置可以采用软件方式实现,图2示出了存储在存储器550中的文本中事件角色的处理装置555,其可以是程序和插件等形式的软件,并包括一系列的模块,包括编码模块5551、注意力模块5552、分类模块5553以及训练模块5554;其中,编码模块5551、注意力模块5552、分类模块5553以及训练模块5554用于实现本发明实施例提供的文本中事件角色的处理方法。
根据上文可以理解,本发明实施例提供的文本中事件角色的处理方法可以由各种类型的文本中事件角色的处理设备实施,例如智能终端和服务器等。
下面结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的文本中事件角色的处理方法。参见图3和图4,图3是本发明实施例提供的文本中事件角色的处理装置555的结构示意图,示出了事件角色的处理流程,图4是本发明实施例提供的文本中事件角色的处理方法的流程示意图,结合图4示出的步骤进行说明。
在步骤101中,通过角色处理模型中的编码器对文本中的单词进行编码,得到文本中单词的编码信息。
用户可以在终端的输入界面上输入文本信息,当输入完成后,终端可以将文本信息转发至服务器,服务器接收到文本信息后,可以对文本中的单词进行编码,得到文本中单词的编码信息,以便后续得到文本面向事件角色的语义向量。
在一些实施例中,通过角色处理模型中的编码器对文本中的单词进行编码,得到文本中单词的编码信息,包括:获取文本的词向量以及位置向量;通过编码器对文本的词向量以及位置向量进行编码,得到文本中每个单词的隐藏向量;其中,所述位置向量包括所述文本中触发词与实体词的位置信息。
角色处理模型中的编码器可以是基于变压器的双向编码器(BidirectionalEncoder Representation from Transformers,BERT),BERT的输入为文本的词向量以及位置向量,且位置向量包括文本中触发词与实体词的位置信息。通过BERT对文本的词向量以及位置向量进行编码,可以得到文本中每个单词的隐藏向量。
BERT可以进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。
作为示例,参见图3,通过文本中事件角色的处理装置555中的编码模块5551中的BERT可以对文本的词向量以及位置向量进行编码,得到文本中每个单词的隐藏向量,并将文本中每个单词的隐藏向量输入至注意力模块5552中。
在一些实施例中,通过编码器对文本的词向量以及位置向量进行编码,得到文本中每个单词的隐藏向量,包括:将文本的词向量以及位置向量进行相加,得到和向量;通过编码器对和向量进行编码,得到文本中每个单词的隐藏向量。
通过BERT对文本的词向量以及位置向量进行相加,使得相加后的向量包括词向量信息以及位置向量信息,再对相加后的向量进行编码,从而得到文本中每个单词的隐藏向量,该隐藏向量包括词向量信息以及位置向量信息。
在一些实施例中,通过角色处理模型中的编码器对文本中的单词进行编码,得到文本中单词的编码信息,包括:获取文本的词嵌入向量、位置向量以及事件类型向量;通过编码器对词嵌入向量、位置向量以及事件类型向量进行编码,得到文本中每个单词的隐藏向量。
角色处理模型中的编码器可以是卷积神经网络(Convolutional Neural Networks,CNN),CNN的输入为文本的词嵌入向量、位置向量以及事件类型向量,且位置向量包括文本中触发词与实体词的位置信息,事件类型用于表示该文本体现出的事件,例如文本为“AA向XX的最后的据点发起进攻”,则事件类型为“攻击事件”。通过CNN对文本的词嵌入向量、位置向量以及事件类型向量进行编码,可以得到文本中每个单词的隐藏向量。
其中,CNN包括三个基本层,分别为卷积层(Convolutional Layer)、池化层(Pooling Layer)、输出层。其中,卷积层通过在输入向量上滑动卷积核进行卷积操作。池化层包括最大池化层和平均池化层,池化层在保持主要特征的情况下,大大降低了参数的数目,例如将三维数据变换为一维数据,可以降低过拟合的风险,即使输入有轻微变形,也不影响最后的处理结果。还可以减少参数数目,进一步加速计算。CNN能够做到平移不变性,即在滑动卷积核的时候,使用的卷积核权值是保持固定的(权值共享)。输出层可以通过softmax函数进行分类,得到输出结果。
作为示例,参见图3,通过文本中事件角色的处理装置555中的编码模块5551中的CNN可以对词嵌入向量、位置向量以及事件类型向量进行编码,得到文本中每个单词的隐藏向量,并将文本中每个单词的隐藏向量输入至注意力模块5552中。
需要说明的是,本发明中的编码器并不限于BERT和CNN,还可以是其他的编码器。
在步骤102中,通过编码器对文本中单词的编码信息进行特征聚合,得到文本的聚合特征。
由于文本中单词的编码信息可能包括一些不重要的信息,需要对文本中单词的编码信息进行特征聚合,融合一些不重要的特征,从而节约计算的复杂度。
参见图5,图5是本发明实施例提供的一个可选的流程示意图,在一些实施例中,图5示出步骤102可以通过图5示出的步骤1021至步骤1025实现。
在步骤1021中,获取文本的编码信息中触发词和实体词的位置。
为了通过编码器对文本中的单词的编码信息进行分段聚合,可以先确定文本中触发词和实体词的位置,根据触发词和实体词的位置。
在步骤1022中,根据触发词和实体词的位置,对文本的编码信息中第一个向量至第m个向量进行融合,得到第一融合向量。
其中,第m个向量为触发词或实体词,对文本的编码信息中第一个向量至第m个向量进行融合,得到第一融合向量,即将第一个向量的第i个维度至第m个向量的第i个维度中最大值,确定为第一融合向量的第i个维度;或者将第一个向量的第i个维度至第m个向量的第i个维度的平均值确定为第一融合向量的第i个维度。其中,第i个维度为向量中的任意一个维度。
在步骤1023中,对第m个向量至第k个向量进行融合,得到第二融合向量。
其中,第m个向量为触发词或实体词,对文本的编码信息中对第m个向量至第k个向量进行融合,得到第二融合向量,即将第m个向量的第i个维度至第k个向量的第i个维度中最大值,确定为第二融合向量的第i个维度;或者将第m个向量的第i个维度至第k个向量的第i个维度的平均值确定为第二融合向量的第i个维度。其中,第i个维度为向量中的任意一个维度。
在步骤1024中,对第k个向量至第n个向量进行融合,得到第三融合向量。
其中,第n个向量可以为文本的编码信息中最后一个向量,对文本的编码信息中对第k个向量至第n个向量进行融合,得到第三融合向量,即将第k个向量的第i个维度至第n个向量的第i个维度中最大值,确定为第三融合向量的第i个维度;或者将第k个向量的第i个维度至第n个向量的第i个维度的平均值确定为第三融合向量的第i个维度。其中,第i个维度为向量中的任意一个维度。
在步骤1025中,对第一融合向量、第二融合向量以及第三融合向量进行拼接,得到文本的聚合特征。
第一融合向量、第二融合向量以及第三融合向量分别融合文本中的部分重要信息,将第一融合向量、第二融合向量以及第三融合向量进行拼接,使得文本的聚合特征包括文本所有的重要信息,并去除了文本编码信息的不重要的信息。
其中,1<m<k<n,且n小于或者等于文本的向量总数,m、k、n为自然数。
作为示例,参见图3,通过文本中事件角色的处理装置555中的编码模块5551还可以对文本中单词的编码信息进行特征聚合,得到文本的聚合特征,并将文本的聚合特征输入至分类模块5553中。
在步骤103中,通过角色处理模型中的注意力模型,将至少一个事件角色的多个上层概念、以及文本中单词的编码信息进行关联,得到文本面向事件角色的语义向量。
由于事件角色之间可能有关联关系,可以通过将文本中的单词与事件角色的上层概念(消费者的上层概念可以是“组织”、“人物”)进行关联,使得文本包括事件角色的上层概念,由于不同事件角色的上层概念可能相同,从而充分利用不同事件角色的关系,有助于事件角色的抽取,提高事件角色的准确性。
其中,注意力模型通过注意力机制对至少一个事件角色的多个上层概念、与文本中单词的编码信息进行关联,得到文本面向事件角色的语义向量。注意力机制是指关联文本中单词的编码信息以及上层概念,使得文本面向事件角色的语义向量都与文本中单词的编码信息以及上层概念有关联,避免在编码的过程中丢失文本中单词的编码信息以及上层概念。
参见图6,图6是本发明实施例提供的一个可选的流程示意图,在一些实施例中,图6示出步骤103可以通过图6示出的步骤1031至步骤1033实现。
在步骤1031中,通过注意力模型,将至少一个事件角色的多个上层概念以及文本中单词的编码信息进行编码,得到文本中单词相对于上层概念的隐藏状态。
为了得到文本中单词与上层概念的相关度,需要先通过注意力模型对至少一个事件角色的多个上层概念、与文本中单词的编码信息进行编码,得到文本中单词相对于上层概念的隐藏状态。
在一些实施例中,通过注意力模型,将至少一个事件角色的多个上层概念以及文本中单词的编码信息进行编码,得到文本中单词相对于上层概念的隐藏状态,包括:对文本中单词的编码信息以及上层概念进行拼接,得到拼接向量;对注意力模型中的参数可学习矩阵、拼接向量进行编码,得到文本中单词相对于上层概念的隐藏状态。
其中,参数可学习矩阵为可训练参数,通过模型训练可以得到参数可学习矩阵。为了在隐藏状态中融入上层概念,可以先对文本中单词的编码信息以及上层概念进行拼接,得到拼接向量,再对注意力模型中的参数可学习矩阵、拼接向量进行编码,从而得到文本中单词相对于上层概念的隐藏状态。
在步骤1032中,根据文本中单词相对于上层概念的隐藏状态、以及注意力模型中的参数可学习矩阵,确定文本中单词与上层概念的相关度。
其中,参数可学习矩阵为可训练参数,通过模型训练可以得到参数可学习矩阵。当确定出文本中单词相对于上层概念的隐藏状态后,可以通过文本中单词相对于上层概念的隐藏状态、以及注意力模型中的参数可学习矩阵,确定文本中单词与上层概念的相关度。其中,步骤1032中的参数可学习矩阵并不等同于步骤1031中的参数可学习矩阵。
在一些实施例中,根据文本中单词相对于上层概念的隐藏状态、以及注意力模型中的参数可学习矩阵,确定文本中单词与上层概念的相关度,包括:将单词与上层概念的相关度、与参数可学习矩阵的乘积确定为第一乘积;基于参数可学习矩阵,对各单词与上层概念的相关度进行加权求和,得到第二乘积;将第一乘积与第二乘积的比值确定为文本中单词与上层概念的相关度。
由于各单词可能与多个上层概念有关联,因此,需要通过各上层概念,获取文本中单词与该上层概念的相关度。首先将单词与上层概念的相关度、与参数可学习矩阵的乘积确定为第一乘积,该第一乘积包括该上层概念的信息,然后基于参数可学习矩阵,对各单词与上层概念的相关度进行加权求和,得到第二乘积,该第二乘积包括各上层概念的信息,最后将第一乘积与第二乘积的比值确定为文本中单词与该上层概念的相关度。
在步骤1033中,根据文本中单词与上层概念的相关度以及文本的编码信息,确定文本面向事件角色的语义向量。
在确定了文本中单词与上层概念的相关度后,可以根据文本中单词与上层概念的相关度以及文本的编码信息,确定文本面向事件角色的语义向量。
在一些实施例中,根据文本中单词与上层概念的相关度以及文本的编码信息,确定文本面向事件角色的语义向量,包括:根据多个文本中单词与上层概念的相关度,确定文本中单词面向事件角色的相关度;根据文本中单词面向事件角色的相关度以及文本中单词的编码信息,确定文本面向事件角色的语义向量。
由于一个事件角色可能对应多个上层概念,因此,需要根据多个上层概念,得到文本中单词面向该事件角色的相关度、即根据多个文本中单词与上层概念的相关度,确定文本中单词面向事件角色的相关度,并根据文本中单词面向事件角色的相关度以及文本中单词的编码信息,确定文本面向事件角色的语义向量。
在一些实施例中,根据多个文本中单词与上层概念的相关度,确定文本中单词面向事件角色的相关度,包括:获取多个文本中单词与上层概念的相关度的平均值,将平均值确定为文本中单词面向事件角色的相关度;
根据文本中单词面向事件角色的相关度以及文本中单词的编码信息,确定文本面向事件角色的语义向量,包括:基于文本中单词的编码信息,对文本中单词面向事件角色的相关度进行加权求和,得到文本面向事件角色的语义向量。
作为示例,参见图3,通过文本中事件角色的处理装置555中的注意力模块5552中的注意力模型可以对文本中单词的编码信息、与至少一个事件角色的多个上层概念进行关联,得到文本面向事件角色的语义向量,并将文本面向事件角色的语义向量输入至分类模块5553中。
在步骤104中,通过角色处理模型中的分类器对至少一个文本面向事件角色的语义向量、以及文本的聚合特征进行分类,得到对应文本的事件角色。
由于文本可以对应至少一个事件角色,因此需要通过分类器对文本的聚合特征、至少一个文本面向事件角色的语义向量进行分类,得到对应文本的事件角色。
在一些实施例中,通过角色处理模型中的分类器对至少一个文本面向事件角色的语义向量、以及文本的聚合特征进行分类,得到对应文本的事件角色,包括:对文本面向事件角色的语义向量、以及文本的聚合特征进行拼接,得到拼接特征;通过分类器对拼接特征、以及事件角色进行分类处理,得到对应文本的事件角色概率;根据对应文本的事件角色概率,得到对应文本的事件角色。
在确定文本面向事件角色的语义向量后,需要在文本面向事件角色的语义向量融入文本的聚合特征,可以对文本面向事件角色的语义向量以及文本的聚合特征进行拼接,得到拼接特征,并通过分类器对拼接特征、以及事件角色进行分类,得到对应文本的事件角色概率,即将该拼接特征与事件角色相乘,得到第一乘积;将各事件角色对应的拼接特征与各事件角色相乘,并相加,得到乘积和;将第一乘积与乘积和进行比值,得到对应文本的事件角色概率。对对应文本的事件角色概率进行降序排序,可以将最大事件角色概率对应的事件角色确定为对应文本的事件角色,也可以将前N个事件角色概率对应的事件角色确定为对应文本的事件角色。
作为示例,参见图3,通过文本中事件角色的处理装置555中的分类模块5552中的分类器接收到文本面向事件角色的语义向量以及文本的聚合特征后,可以对文本的聚合特征、至少一个文本面向事件角色的语义向量进行分类,得到对应文本的事件角色。
在一些实施例中,针对角色处理模型的训练进行说明,参见图7,基于图4,图7是本发明实施例提供的文本中事件角色的处理方法的流程示意图,在步骤105中,通过分类器对至少一个文本样本面向事件角色的语义向量、以及文本样本的聚合特征进行分类,得到对应文本样本的事件角色概率;根据对应文本样本的事件角色概率,构建角色处理模型的损失函数;更新角色处理模型的参数直至损失函数收敛。
其中,步骤105与步骤101至步骤104并无明显的先后顺序。当服务器基于对应文本样本的事件角色概率,确定角色处理模型的损失函数的值后,可以判断损失函数的值是否超出预设阈值,当损失函数的值超出预设阈值时,基于损失函数确定角色处理模型的误差信号,将误差信息在角色处理模型中反向传播,并在传播的过程中更新各个层的模型参数。
这里,对反向传播进行说明,将训练样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛,其中,角色处理模型属于神经网络模型。
作为示例,参见图3,通过文本中事件角色的处理装置555中的训练模块5554中的预测模型可以基于角色处理模型的损失函数对角色处理模型进行训练。
至此已经结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的文本中事件角色的处理方法,下面继续说明本发明实施例提供的文本中事件角色的处理装置555中各个模块配合实现文本中事件角色的处理的方案。
编码模块5551,用于通过角色处理模型中的编码器对文本中的单词进行编码,得到所述文本中单词的编码信息;
通过所述编码器对所述文本中单词的编码信息进行特征聚合,得到所述文本的聚合特征;
注意力模块5552,用于通过所述角色处理模型中的注意力模型,将至少一个事件角色的多个上层概念、以及所述文本中单词的编码信息进行关联,得到所述文本面向所述事件角色的语义向量;
分类模块5553,用于通过所述角色处理模型中的分类器对至少一个所述文本面向所述事件角色的语义向量、以及所述文本的聚合特征进行分类,得到对应所述文本的事件角色。
上述技术方案中,所述编码模块5551还用于获取所述文本的词向量以及位置向量;通过所述编码器对所述文本的词向量以及位置向量进行编码,得到所述文本中每个单词的隐藏向量;其中,所述位置向量包括所述文本中触发词与实体词的位置信息。
上述技术方案中,所述编码模块5551还用于将所述文本的词向量以及位置向量进行相加,得到和向量;通过所述编码器对所述和向量进行编码,得到所述文本中每个单词的隐藏向量。
上述技术方案中,所述编码模块5551还用于获取所述文本的词嵌入向量、位置向量以及事件类型向量;通过所述编码器对所述词嵌入向量、位置向量以及事件类型向量进行编码,得到所述文本中每个单词的隐藏向量。
上述技术方案中,所述编码模块5551还用于获取所述文本的编码信息中触发词和实体词的位置;根据所述触发词和实体词的位置,对所述文本的编码信息中第一个向量至第m个向量进行融合,得到第一融合向量;对所述第m个向量至第k个向量进行融合,得到第二融合向量;对所述第k个向量至第n个向量进行融合,得到第三融合向量;对所述第一融合向量、所述第二融合向量以及所述第三融合向量进行拼接,得到所述文本的聚合特征;其中,所述第m个向量和第k个向量为所述触发词或实体词,1<m<k<n,且n小于或者等于所述文本的向量总数,m、k、n为自然数。
上述技术方案中,所述注意力模块5552还用于通过所述注意力模型,将至少一个事件角色的多个上层概念以及所述文本中单词的编码信息进行编码,得到所述文本中单词相对于所述上层概念的隐藏状态;根据所述文本中单词相对于所述上层概念的隐藏状态、以及所述注意力模型中的参数可学习矩阵,确定所述文本中单词与所述上层概念的相关度;根据所述文本中单词与所述上层概念的相关度以及所述文本的编码信息,确定所述文本面向所述事件角色的语义向量。
上述技术方案中,所述注意力模块5552还用于对所述文本中单词的编码信息以及所述上层概念进行拼接,得到拼接向量;对所述注意力模型中的参数可学习矩阵、所述拼接向量进行编码,得到所述文本中单词相对于所述上层概念的隐藏状态。
上述技术方案中,所述注意力模块5552还用于将所述单词与所述上层概念的相关度与所述参数可学习矩阵的乘积确定为第一乘积;基于所述参数可学习矩阵,对各单词与所述上层概念的相关度进行加权求和,得到第二乘积;将所述第一乘积与所述第二乘积的比值确定为所述文本中单词与所述上层概念的相关度。
上述技术方案中,所述注意力模块5552还用于根据多个所述文本中单词与所述上层概念的相关度,确定所述文本中单词面向所述事件角色的相关度;根据所述文本中单词面向所述事件角色的相关度以及所述文本中单词的编码信息,确定所述文本面向所述事件角色的语义向量。
上述技术方案中,所述注意力模块5552还用于获取多个所述文本中单词与所述上层概念的相关度的平均值,将所述平均值确定为所述文本中单词面向所述事件角色的相关度;
所述根据所述文本中单词面向所述事件角色的相关度以及所述文本中单词的编码信息,确定所述文本面向所述事件角色的语义向量,包括:基于所述文本中单词的编码信息,对所述文本中单词面向所述事件角色的相关度进行加权求和,得到所述文本面向所述事件角色的语义向量。
上述技术方案中,所述分类模块5553还用于对所述文本面向所述事件角色的语义向量、以及所述文本的聚合特征进行拼接,得到拼接特征;通过所述分类器对所述拼接特征、以及所述事件角色进行分类处理,得到对应所述文本的事件角色概率;根据所述对应所述文本的事件角色概率,得到对应所述文本的事件角色。
上述技术方案中,所述文本中事件角色的处理装置555还包括:
训练模块5554,用于通过所述分类器对至少一个文本样本面向所述事件角色的语义向量、以及文本样本的聚合特征进行分类,得到对应所述文本样本的事件角色概率;根据所述对应所述文本样本的事件角色概率,构建所述角色处理模型的损失函数;更新所述角色处理模型的参数直至所述损失函数收敛。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
现有的事件角色抽取方法依靠手写特征和规则,随着神经网络的发展,各种神经网络被提出,从而能自动的将文本语义信息表示为低维向量,并基于低维向量进一步的进行事件角色抽取,其中,神经网络的主要代表为卷积神经网络和循环神经网络,还可以通过其他的方法抽取事件角色,例如零样本学习方法,多模态方法和弱监督学习方法等。
然而,现有技术均将事件角色看成一个个互相独立的个体,忽略了事件角色之间上层概念的相关性,没有利用不同的事件角色语义上的关联和排斥。如图8所示,图8为本发明实施例提供的上层概念的示意图,图8中的“商家”与“消费者”之间的语义关系就比它们与“时间-不超过”的语义关系要更近,因为“商家”与“消费者”的上层概念都包括“组织”或者“人物”,而后者是的上层概念为“时间”。直观上,这种层次化的概念会提供不同事件角色的额外信息(语义关系),从而有助于事件角色的抽取。
本发明实施例充分利用层次化模块抓取事件角色的共同点,充分利用不同事件角色的语义信息,能够在事件角色抽取的时候提供额外的信息,最终提高事件角色抽取的效果。
本发明实施例抽取的事件角色在产品侧能帮助构建知识库,且对很多自然语言处理的下游子任务有帮助作用,例如问答,信息检索和阅读理解等子任务。
为了解决上述问题,本发明实施例提出了利用层次化语义进行事件角色抽取的模型(角色处理模型),如图9所示,图9为本发明实施例提供的整体框架的示意图,整体框架包括以下三个部分:
A、编码器:利用编码器把自然语言编码为对应的嵌入向量,从而为其他模块提供语义特征。例如,给定一个自然语言文本:w=[w1,w2,…,wn],其中wi为第i个单词,该文本通过一个由神经网络组成的嵌入层,得到w的语义表示矩阵。
B、层次化模块注意力模块(注意力模块):利用层次化模块赋予不同单词不同的权重,通过对语义表示矩阵的加权平均得到针对不同事件角色的特定语义嵌入向量。
C、分类器:利用分类器把表征语义的向量转换为对应事件角色的概率,从而实现分类。
下面,具体说明上述三个模块的实现方式:
A、编码器
本发明实施例可以使用卷积神经网络(Convolutional Neural Networks,CNN)或双向变换编码器(Bidirectional Encoder Representation from Transformers,BERT)作为编码器。
(1)CNN:将w中的所有单词表示为向量,该向量包括词嵌入向量、位置向量和事件类型向量,其中位置向量包括两种信息,分别为触发词和候选实体词,CNN在输入向量(文本)上滑动卷积核以获取隐藏向量,其计算公式如公式(1)所示:
{h1,h2,…,hn}=CNN(w1,w2,…,wn) (1)
其中,w1,w2,...,wn表示文本中的单词,h1,h2,...,hn表示文本编码后的隐藏向量。
(2)BERT:类似于CNN,在对文本w中所有单词的词向量和位置向量求和,并作为输入向量后,BERT采用多层双向变换编码器获取隐藏向量,其计算公式如公式(2)所示:
{h1,h2,...,hn}=BERT(x1,x2,...,xn) (2)
其中,x1,x2,...,xn表示所有单词的词向量和位置向量的和,h1,h2,...,hn表示文本编码后的隐藏向量。
根据文本编码后的隐藏向量生成特征聚合向量:对编码器编码后的隐藏向量h1,h2,...,hpt,...,hpa,...,hn,其中pt,pa分别代表触发词t和实体词a的位置,使用动态多层池化进行特征聚合,得到特征聚合向量,其计算公式如公式(3)、(4)、(5)、(6)所示:
[x1,pt]i=max{[h1]i,...,[hpt]i} (3)
[xpt+1,pa]i=max[hpt+1]i,...,[hpa]i} (4)
[xpa+1,n]i=max{[hpa+1]i,...,[hn]i} (5)
x=[x1,pt;xpt+1,pa;xpa+1,n] (6)
其中,[.]i表示向量的第i个维度,max{}表示取最大值,[x1,pt;xpt+1,pa;xpa+1,n]表示拼接向量x1,pt、xpt+1,pa、xpa+1,n,x表示特征聚合向量。
B、层次化模块注意力模块
本发明实施例可以先人为的预设若干顶层模块,并确定每个事件角色所对应的顶层模块,一个事件角色可以对应多个顶层模块。
对于每一个顶层模块,一个顶层模块对应一个上层概念c,并用一个可以训练的向量uc代表其语义特征。使用多层感知器计算各个单词hi的隐藏状态,其计算公式如公式(7)所示:
使用一个softmax层计算hi的注意力分数,其计算公式如公式(8)所示:
针对一个hi和指定的事件角色r,由于r包含若干顶层模块c1,c2,…,cn,其中,对应各个顶层模块c1,c2,…,cn的注意力分数分别为我们通过计算其平均值得到hi面向事件角色r的注意力分数,其计算公式如公式(9)所示:
其中,k表示顶层模块的总数,表示hi面向事件角色r的注意力分数(hi面向事件角色的相关度)。
利用上述注意力分数对hi进行加权平均,得到面向事件角色r的语义嵌入,其计算公式如公式(10)所示:
其中,n表示单词总数,er表示面向事件角色r的语义嵌入(文本面向事件角色的语义向量)。
C、分类器
分类器的输入为特征聚合向量以及面向事件角色的语义向量。将特征聚合向量以及面向事件角色的语义向量连接起来,并通过softmax层计算该事件角色的概率,其计算公式如公式(11)所示:
其中,x表示特征聚合向量,er表示面向事件角色的语义向量,r表示事件角色,[x;er]表示拼接特征聚合向量和面向事件角色的语义向量,表示事件角色的集合,r′表示中任一事件角色,p(r|x)表示事件角色r的概率。
在训练模型时,可以通过下面的损失函数进行优化,其计算公式如公式(12)所示:
其中,θ表示模型的所有参数,l表示一个文本。
当采用CNN作为编码器时,将本发明实施例中的模型命名为HMEAE(CNN);当采用BERT作为编码器时,将本发明实施例中的模型命名为HMEAE(BERT)。DMBERT为一种BERT基线模型,该DMBERT没有本发明实施例中的层次化模块注意力模块,但可以使用动态多层池化作为特征聚合器。
本发明实施例可以在两个真实数据集(ACE 2005和TAC KBP 2016)上评估本发明实施例中的模型(HMEAE(CNN)和HMEAE(BERT))。其中,ACE 2005为事件提取中使用最广泛的数据集,它包含599个文档,并通过8个事件类型、33个事件子类型和35个事件角色进行注释,如果分类后的事件子类型、偏移量和事件角色与注释结果匹配,则该事件角色被正确分类。TAC KBP 2016数据集中标注了一些更复杂的测试数据。
考虑到数据集中没有现有的本体,本发明实施例设计一个概念层次结构,该结构中有8个不同的上层概念,其原理是用人类经验从特定的标签中确定出上层概念,例如可以将“来源”和“目的地”概括为“地点”,“地点”是一个理想的上层概念。
CNN在输入向量上滑动卷积核,得到隐藏向量。其中,向量包括词嵌入向量、位置向量和事件类型向量,HMEAE(CNN)的参数设置如表1所示:
表1
BERT采用多层双向变换编码器获取隐藏向量,为了充分利用事件类型信息,在输入序列中附加一个特殊的标记来指示事件类型,HMEAE(BERT)的参数设置如表2所示:
表2
学习率 | 6e-05 |
批量大小 | 50 |
内核大小 | 3 |
预热学习率 | 0.1 |
u<sub>c</sub>尺寸 | 900 |
W<sub>b</sub>尺寸 | 900 |
将本发明实施例中的模型与基于ACE 2005的各种基线模型进行比较,如表3所示:(1)基于特征的方法,例如Li's joint模型和RBPB;(2)普通的神经网络方法,例如DMCNN模型和JRNN模型;(3)基于语法信息的神经网络,例如dbRNN(递归神经网络,收集语法相关信息)。
表3
对于TAC KBP 2016,将本发明实施例中的模型与表现最佳的***(DISC ERN-R、CMU CS、Washington1、DMCNN、DMBERT)进行比较,如表4所示:
表4
根据表3和表4可知,(1)与DMCNN和DMBERT相比,HMEAE(CN N)和HMEAE(BERT)在F1中分别提高了2%左右。除了层次化模块注意力模块之外,本发明实施例中的模型具有几乎相同的网络框架,表明分层模型能够很好地利用层次概念的归纳偏置来增强从事件参数提取(Event argument ext raction,EAE)模型;(2)HMEE(BERT)与dbRNN具有可比性,达到了最先进的性能。
为了验证层次化模块的作用,本发明实施例将ACE 2005数据集中随机抽取的句子中的HMEAE注意力分数进行可视化。如图10所示,图10为本发明实施例提供的注意力分数可视化的示意图,由图10可知,与上层概念相关的词向量的注意分数比其他词的注意力分数高得多。结果表明,事件角色的上层概念之间是共享的,上层概念可以很好地描述事件角色的特征,且无需专门用数据进行训练。
综上所述,本发明实施例根据文本信息,通过角色处理模型进行一系列处理,得到对应文本的事件角色,具有以下有益效果:
通过编码器对文本中单词的编码信息进行特征聚合,实现对文本进行下采样,去除文本中不重要的信息,节省后续的计算量;通过将文本中单词的编码信息与事件角色的多个上层概念进行关联,得到文本面向所述事件角色的语义向量,使得语义向量包含上层概念,通过上层概念将文本的事件角色关联起来,使得分类后得到的文本的事件角色更加准确,贴近事实。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (15)
1.一种文本中事件角色的处理方法,其特征在于,所述方法包括:
通过角色处理模型中的编码器对文本中的单词进行编码,得到所述文本中单词的编码信息;
通过所述编码器对所述文本中单词的编码信息进行特征聚合,得到所述文本的聚合特征;
通过所述角色处理模型中的注意力模型,将至少一个事件角色的多个上层概念、以及所述文本中单词的编码信息进行关联,得到所述文本面向所述事件角色的语义向量;
通过所述角色处理模型中的分类器对至少一个所述文本面向所述事件角色的语义向量、以及所述文本的聚合特征进行分类,得到对应所述文本的事件角色。
2.根据权利要求1所述的方法,其特征在于,所述通过角色处理模型中的编码器对文本中的单词进行编码,得到所述文本中单词的编码信息,包括:
获取所述文本的词向量以及位置向量;
通过所述编码器对所述文本的词向量以及位置向量进行编码,得到所述文本中每个单词的隐藏向量;
其中,所述位置向量包括所述文本中触发词与实体词的位置信息。
3.根据权利要求2所述的方法,其特征在于,所述通过所述编码器对所述文本的词向量以及位置向量进行编码,得到所述文本中每个单词的隐藏向量,包括:
将所述文本的词向量以及位置向量进行相加,得到和向量;
通过所述编码器对所述和向量进行编码,得到所述文本中每个单词的隐藏向量。
4.根据权利要求1所述的方法,其特征在于,所述通过角色处理模型中的编码器对文本中的单词进行编码,得到所述文本中单词的编码信息,包括:
获取所述文本的词嵌入向量、位置向量以及事件类型向量;
通过所述编码器对所述词嵌入向量、位置向量以及事件类型向量进行编码,得到所述文本中每个单词的隐藏向量。
5.根据权利要求1所述的方法,其特征在于,所述通过所述编码器对所述文本中单词的编码信息进行特征聚合,得到所述文本的聚合特征,包括:
获取所述文本的编码信息中触发词和实体词的位置;
根据所述触发词和实体词的位置,对所述文本的编码信息中第一个向量至第m个向量进行融合,得到第一融合向量;
对所述第m个向量至第k个向量进行融合,得到第二融合向量;
对所述第k个向量至第n个向量进行融合,得到第三融合向量;
对所述第一融合向量、所述第二融合向量以及所述第三融合向量进行拼接,得到所述文本的聚合特征;
其中,所述第m个向量和第k个向量为所述触发词或实体词,1<m<k<n,且n小于或者等于所述文本的向量总数,m、k、n为自然数。
6.根据权利要求1所述的方法,其特征在于,所述通过所述角色处理模型中的注意力模型,将所述至少一个事件角色的多个上层概念、以及所述文本中单词的编码信息进行关联,得到所述文本面向所述事件角色的语义向量,包括:
通过所述注意力模型,将至少一个事件角色的多个上层概念以及所述文本中单词的编码信息进行编码,得到所述文本中单词相对于所述上层概念的隐藏状态;
根据所述文本中单词相对于所述上层概念的隐藏状态、以及所述注意力模型中的参数可学习矩阵,确定所述文本中单词与所述上层概念的相关度;
根据所述文本中单词与所述上层概念的相关度以及所述文本的编码信息,确定所述文本面向所述事件角色的语义向量。
7.根据权利要求6所述的方法,其特征在于,所述通过所述注意力模型,将至少一个事件角色的多个上层概念以及所述文本中单词的编码信息进行编码,得到所述文本中单词相对于所述上层概念的隐藏状态,包括:
对所述文本中单词的编码信息以及所述上层概念进行拼接,得到拼接向量;
对所述注意力模型中的参数可学习矩阵、所述拼接向量进行编码,得到所述文本中单词相对于所述上层概念的隐藏状态。
8.根据权利要求6所述的方法,其特征在于,所述根据所述文本中单词相对于所述上层概念的隐藏状态、以及所述注意力模型中的参数可学习矩阵,确定所述文本中单词与所述上层概念的相关度,包括:
将所述单词与所述上层概念的相关度与所述参数可学习矩阵的乘积确定为第一乘积;
基于所述参数可学习矩阵,对各单词与所述上层概念的相关度进行加权求和,得到第二乘积;
将所述第一乘积与所述第二乘积的比值确定为所述文本中单词与所述上层概念的相关度。
9.根据权利要求6所述的方法,其特征在于,所述根据所述文本中单词与所述上层概念的相关度以及所述文本的编码信息,确定所述文本面向所述事件角色的语义向量,包括:
根据多个所述文本中单词与所述上层概念的相关度,确定所述文本中单词面向所述事件角色的相关度;
根据所述文本中单词面向所述事件角色的相关度以及所述文本中单词的编码信息,确定所述文本面向所述事件角色的语义向量。
10.根据权利要求9所述的方法,其特征在于,所述根据多个所述文本中单词与所述上层概念的相关度,确定所述文本中单词面向所述事件角色的相关度,包括:
获取多个所述文本中单词与所述上层概念的相关度的平均值,将所述平均值确定为所述文本中单词面向所述事件角色的相关度;
所述根据所述文本中单词面向所述事件角色的相关度以及所述文本中单词的编码信息,确定所述文本面向所述事件角色的语义向量,包括:
基于所述文本中单词的编码信息,对所述文本中单词面向所述事件角色的相关度进行加权求和,得到所述文本面向所述事件角色的语义向量。
11.根据权利要求1所述的方法,其特征在于,所述通过所述角色处理模型中的分类器对至少一个所述文本面向所述事件角色的语义向量、以及所述文本的聚合特征进行分类,得到对应所述文本的事件角色,包括:
对所述文本面向所述事件角色的语义向量、以及所述文本的聚合特征进行拼接,得到拼接特征;
通过所述分类器对所述拼接特征、以及所述事件角色进行分类处理,得到对应所述文本的事件角色概率;
根据所述对应所述文本的事件角色概率,得到对应所述文本的事件角色。
12.根据权利要求1至11任一项所述的方法,其特征在于,所述方法还包括:
通过所述分类器对至少一个文本样本面向所述事件角色的语义向量、以及文本样本的聚合特征进行分类,得到对应所述文本样本的事件角色概率;
根据所述对应所述文本样本的事件角色概率,构建所述角色处理模型的损失函数;
更新所述角色处理模型的参数直至所述损失函数收敛。
13.一种文本中事件角色的处理装置,其特征在于,所述装置包括:
编码模块,用于通过角色处理模型中的编码器对文本中的单词进行编码,得到所述文本中单词的编码信息;
通过所述编码器对所述文本中单词的编码信息进行特征聚合,得到所述文本的聚合特征;
注意力模块,用于通过所述角色处理模型中的注意力模型,将至少一个事件角色的多个上层概念、以及所述文本中单词的编码信息进行关联,得到所述文本面向所述事件角色的语义向量;
分类模块,用于通过所述角色处理模型中的分类器对至少一个所述文本面向所述事件角色的语义向量、以及所述文本的聚合特征进行分类,得到对应所述文本的事件角色。
14.一种文本中事件角色的处理设备,其特征在于,所述设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的文本中事件角色的处理方法。
15.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至12任一项所述的文本中事件角色的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911013208.6A CN110781302B (zh) | 2019-10-23 | 2019-10-23 | 文本中事件角色的处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911013208.6A CN110781302B (zh) | 2019-10-23 | 2019-10-23 | 文本中事件角色的处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110781302A true CN110781302A (zh) | 2020-02-11 |
CN110781302B CN110781302B (zh) | 2024-06-21 |
Family
ID=69386680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911013208.6A Active CN110781302B (zh) | 2019-10-23 | 2019-10-23 | 文本中事件角色的处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781302B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597328A (zh) * | 2020-05-27 | 2020-08-28 | 青岛大学 | 一种新事件主题提取方法 |
CN112270198A (zh) * | 2020-10-27 | 2021-01-26 | 北京百度网讯科技有限公司 | 角色确定方法、装置、电子设备及存储介质 |
CN113268983A (zh) * | 2021-06-02 | 2021-08-17 | 北京理工大学 | 一种角色导向的故事结局生成方法 |
CN113392213A (zh) * | 2021-04-19 | 2021-09-14 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113946681A (zh) * | 2021-12-20 | 2022-01-18 | 军工保密资格审查认证中心 | 文本数据的事件抽取方法、装置、电子设备及可读介质 |
CN114385793A (zh) * | 2022-03-23 | 2022-04-22 | 粤港澳大湾区数字经济研究院(福田) | 一种事件抽取方法及相关装置 |
CN114416970A (zh) * | 2021-12-06 | 2022-04-29 | 阿里巴巴达摩院(杭州)科技有限公司 | 带角色的文本分类模型以及对话文本分类方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050278164A1 (en) * | 2002-12-23 | 2005-12-15 | Richard Hudson | Computerized method and system for searching for text passages in text documents |
WO2017094911A1 (en) * | 2015-12-04 | 2017-06-08 | Mitsubishi Electric Corporation | Method for processing utterances |
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
-
2019
- 2019-10-23 CN CN201911013208.6A patent/CN110781302B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050278164A1 (en) * | 2002-12-23 | 2005-12-15 | Richard Hudson | Computerized method and system for searching for text passages in text documents |
WO2017094911A1 (en) * | 2015-12-04 | 2017-06-08 | Mitsubishi Electric Corporation | Method for processing utterances |
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
Non-Patent Citations (3)
Title |
---|
XIAOZHI WANG, ZHIAYUAN LIU等: "HMEAE: Hierarchical Modular Event Argument Extraction", PROCEEDINGS OF THE 2019 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND THE 9TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING, 7 November 2019 (2019-11-07), pages 5777 * |
何中市;刘莉;邢欣来;毛小丽;: "基于语义角色的中文事件识别", 计算机工程与科学, no. 04, 15 April 2013 (2013-04-15) * |
秦彦霞;王中卿;郑德权;张民;: "基于混合表示的中文事件检测方法研究", 中文信息学报, no. 04, 15 April 2019 (2019-04-15) * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597328A (zh) * | 2020-05-27 | 2020-08-28 | 青岛大学 | 一种新事件主题提取方法 |
CN112270198A (zh) * | 2020-10-27 | 2021-01-26 | 北京百度网讯科技有限公司 | 角色确定方法、装置、电子设备及存储介质 |
CN112270198B (zh) * | 2020-10-27 | 2021-08-17 | 北京百度网讯科技有限公司 | 角色确定方法、装置、电子设备及存储介质 |
CN113392213A (zh) * | 2021-04-19 | 2021-09-14 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113392213B (zh) * | 2021-04-19 | 2024-05-31 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113268983A (zh) * | 2021-06-02 | 2021-08-17 | 北京理工大学 | 一种角色导向的故事结局生成方法 |
CN113268983B (zh) * | 2021-06-02 | 2022-09-02 | 北京理工大学 | 一种角色导向的故事结局生成方法 |
CN114416970A (zh) * | 2021-12-06 | 2022-04-29 | 阿里巴巴达摩院(杭州)科技有限公司 | 带角色的文本分类模型以及对话文本分类方法及装置 |
CN113946681A (zh) * | 2021-12-20 | 2022-01-18 | 军工保密资格审查认证中心 | 文本数据的事件抽取方法、装置、电子设备及可读介质 |
CN113946681B (zh) * | 2021-12-20 | 2022-03-29 | 军工保密资格审查认证中心 | 文本数据的事件抽取方法、装置、电子设备及可读介质 |
CN114385793A (zh) * | 2022-03-23 | 2022-04-22 | 粤港澳大湾区数字经济研究院(福田) | 一种事件抽取方法及相关装置 |
CN114385793B (zh) * | 2022-03-23 | 2022-07-08 | 粤港澳大湾区数字经济研究院(福田) | 一种事件抽取方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110781302B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021027533A1 (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
US20210134173A1 (en) | Neural models for key phrase detection and question generation | |
CN111291181B (zh) | 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习 | |
WO2021233112A1 (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN110781302A (zh) | 文本中事件角色的处理方法、装置、设备及存储介质 | |
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN111401077B (zh) | 语言模型的处理方法、装置和计算机设备 | |
CN111680159B (zh) | 数据处理方法、装置及电子设备 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN110852106A (zh) | 基于人工智能的命名实体处理方法、装置及电子设备 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
Zhou et al. | Self-selective attention using correlation between instances for distant supervision relation extraction | |
WO2023179429A1 (zh) | 一种视频数据的处理方法、装置、电子设备及存储介质 | |
CN115455171B (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
CN113707299A (zh) | 基于问诊会话的辅助诊断方法、装置及计算机设备 | |
WO2022228127A1 (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
Li et al. | Text steganalysis based on capsule network with dynamic routing | |
CN115129869A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN108875024B (zh) | 文本分类方法、***、可读存储介质及电子设备 | |
CN117874234A (zh) | 基于语义的文本分类方法、装置、计算机设备及存储介质 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |