CN104809105B - 基于最大熵的事件论元及论元角色的识别方法及*** - Google Patents
基于最大熵的事件论元及论元角色的识别方法及*** Download PDFInfo
- Publication number
- CN104809105B CN104809105B CN201510236815.4A CN201510236815A CN104809105B CN 104809105 B CN104809105 B CN 104809105B CN 201510236815 A CN201510236815 A CN 201510236815A CN 104809105 B CN104809105 B CN 104809105B
- Authority
- CN
- China
- Prior art keywords
- argument
- event
- candidate item
- maximum entropy
- roles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开基于最大熵的事件论元及论元角色的识别方法,提取事件的实体信息以确定事件论元候选项并提取事件的论元信息;提取事件论元候选项的特征信息,并利用特征信息及论元信息进行数据处理得到论元识别语料和论元角色识别语料;利用论元识别语料训练最大熵二元分类模型得到最大熵二元分类模型;利用论元角色识别语料训练最大熵多元分类模型得到最大熵多元分类模型;利用最大熵二元分类模型对事件中的事件论元候选项进行识别,得到论元识别结果;利用最大熵多元分类模型对论元识别结果进行识别,得到论元角色识别结果;该方法提高事件论元及论元角色识别效率;还公开基于最大熵的事件论元及论元角色的识别***。
Description
技术领域
本发明涉及信息处理领域,特别是涉及一种基于最大熵的事件论元及论元角色的识别方法及***。
背景技术
信息抽取是从文本中自动提取信息的一种主要手段。信息抽取是将无结构的文本信息,按照人们的需求识别和抽取出来,转化为结构化或半结构化的信息,并采用数据库的形式存储,以便人们查询和进一步的分析、利用。事件由事件触发词和描述事件结构的元素构成,事件抽取(Event Extraction)是信息抽取的一个重要研究方向。ACE2005将事件抽取的任务定义为事件的检测与识别(Event detection and recognition),即识别特定类型的事件,并进行相关信息的确定和抽取。事件论元是事件的重要组成元素,对事件论元及其角色的识别是进行事件抽取其他子任务的基础。例如:“高中同学前一个月结婚了”,其中包括事件论元“高中同学”,对应的论元角色为“Person”和“前一个月”,对应的论元角色为“Time”。
目前,事件论元及其角色的识别方法是基于模式匹配的方法,它主要是通过人工或自动的方式来设定或提取一定的模式,然后在该模式的指导下进行事件信息的识别和抽取。该方法匹配出的结果准确性较好,但是模式的建立需要取决于具体的领域和使用的环境,建立起来较困难。因此,如何提供一种全局化的方法来选择合适的特征,提高事件论元及论元角色的识别效率,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种基于最大熵的事件论元及论元角色的识别方法,该方法能够选择合适的特征,提高事件论元及论元角色的识别效率;本发明的另一目的是提供一种基于最大熵的事件论元及论元角色的识别***。
为解决上述技术问题,本发明提供一种基于最大熵的事件论元及论元角色的识别方法,建立最大熵分类模型,其中,所述建立最大熵分类模型包括:提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息;提取所述事件论元候选项的特征信息,并利用所述事件论元候选项的特征信息及所述论元信息进行数据处理得到论元识别语料和论元角色识别语料;利用所述论元识别语料训练最大熵二元分类模型,得到最大熵二元分类模型;利用所述论元角色识别语料训练最大熵多元分类模型,得到最大熵多元分类模型;包括:
利用所述最大熵二元分类模型对事件中的事件论元候选项进行识别,得到论元识别结果;
利用所述最大熵多元分类模型对所述论元识别结果进行识别,得到论元角色识别结果。
其中,所述提取所述事件论元候选项的特征信息包括:
从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征;
利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析,提取所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征。
其中,所述从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征包括:
从原始语料中抽取得到所述事件论元候选项的词特征,所述事件论元候选项的首单词,所述事件论元候选项所属的实体类型,所述事件论元候选项所属的实体子类型,所述事件论元候选项所在事件的触发词,所述事件论元候选项所在事件的事件类型,所述事件论元候选项的上下文单词。
其中,所述利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析,提取所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征包括:
利用Stanford工具提取所述事件论元候选项的词性特征,所述事件论元候选项的首单词的词性特征,所述事件论元候选项所在事件的触发词的词性特征,所述事件论元候选项的上下文单词的词性特征及所述事件论元候选项所在事件的触发词的距离及位置关系特征。
其中,所述提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息包括:
利用ACE2005对事件论元的定义和相关标注信息提取事件的实体信息和论元信息,通过所述实体信息确定事件论元候选项。
其中,所述的事件论元及论元角色的识别方法还包括:
定期对所述最大熵二元分类模型及最大熵多元分类模型进行更新训练。
本发明还提供一种基于最大熵的事件论元及论元角色的识别***包括:
模型建立模块,用于提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息;提取所述事件论元候选项的特征信息,并利用所述事件论元候选项的特征信息及所述论元信息进行数据处理得到论元识别语料和论元角色识别语料;利用所述论元识别语料训练最大熵二元分类模型,得到最大熵二元分类模型;利用所述论元角色识别语料训练最大熵多元分类模型,得到最大熵多元分类模型;
论元识别模块,用于利用所述最大熵二元分类模型对事件中的事件论元候选项进行识别,得到论元识别结果;
论元角色识别模块,用于利用所述最大熵多元分类模型对所述论元识别结果进行识别,得到论元角色识别结果。
其中,所述模型建立模块包括:
提取单元,用于提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息;
抽取单元,用于从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征;
Stanford单元,用于利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析,提取所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征;
数据处理单元,用于利用所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征,所述事件论元候选项的词特征和实体信息特征进行数据处理得到论元识别语料和论元角色识别语料;
第一训练模块,用于利用所述论元识别语料训练最大熵二元分类模型,得到最大熵二元分类模型;
第二训练模块,用于利用所述论元角色识别语料训练最大熵多元分类模型,得到最大熵多元分类模型。
其中,所述的事件论元及论元角色的识别***还包括:
更新模块,用于定期对所述最大熵二元分类模型及最大熵多元分类模型进行更新训练。
本发明所提供的一种基于最大熵的事件论元及论元角色的识别方法,该方法首先对原始事件语料进行预处理,提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息,进而利用特征工具选择有效的特征,使特征具有全局性,进而将各特征信息进行融合,对融合后的各个特征及论元信息进行数据处理,提取论元识别语料和论元角色识别语料。然后先用论元识别语料训练最大熵二元分类模型;再用论元角色识别语料训练最大熵多元分类模型,对之前识别出来的论元进行角色判定;本发明将事件论元及论元角色识别任务看作是分类问题,使用最大熵模型,这样可以充分的利用有效的特征,建立一个统一的概率模型,有利于提高事件论元及其角色的识别效率及性能。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于最大熵的事件论元及论元角色的识别方法的流程图;
图2为本发明实施例提供的基于最大熵的事件论元及论元角色的识别***的结构框图;
图3为本发明实施例提供的最大熵分类模型建立模块的结构框图;
图4为本发明实施例提供的另一基于最大熵的事件论元及论元角色的识别***的结构框图。
具体实施方式
本发明的核心是提供一种基于最大熵的事件论元及论元角色的识别方法,该方法能够选择合适的特征,提高事件论元及论元角色的识别效率;本发明的另一目的是提供一种基于最大熵的事件论元及论元角色的识别***。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了选择合适的特征,提高事件论元及论元角色的识别效率,本发明的核心思想在于最大熵模型的使用和特征选择。
请参考图1,图1为本发明实施例提供的基于最大熵的事件论元及论元角色的识别方法的流程图;该方法可以包括:
步骤s100、利用所述论元识别语料训练最大熵二元分类模型,得到最大熵二元分类模型;利用所述论元角色识别语料训练最大熵多元分类模型,得到最大熵多元分类模型;
其中,获得好的论元识别语料和论元角色识别语料,才可以获得好的最大熵二元分类模型及最大熵多元分类模型。因此,获得论元识别语料和论元角色识别语料的方法可以为:
其中,提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息;其中,所述论元信息包括论元标签和论元角色标签,例如论元标签可以是1表示是论元,0表示不是论元。
其中,事件论元是事件的重要组成元素,主要包括事件的参与者。事件论元主要由实体、值和时间表达式组成,用独一无二的ID和角色来定义。和关系不同,事件允许在同一个角色中有多种论元。事件论元及论元角色识别主要从众多实体、值和时间表达式中识别出真正的事件元素,并给予其准确的角色标注。本发明将实体、值和时间统一为事件论元候选项,其中,本发明可以是利用事件的论元信息作为事件论元候选项的标签,即表明该事件论元候选项是否为论元,从中识别出真正的事件论元,再利用论元信息中的论元角色标签,即表明该事件论元是什么角色,进而再对识别出的事件论元进行角色判定。
正是由于本申请中论元信息具有论元角色标签,因此,相对于其他分类模型来说,本发明既可以进行事件论元识别还可以进行事件论元角色识别。因此,本发明可以更加准确的进行事件识别,提高识别效率。
其中,利用语料处理工具来对所述事件的实体信息和论元信息进行处理,获得所述事件的实体信息和论元信息的特征信息。例如可以利用Stanford词性标注工具来提取词性特征等,从而进一步构建事件的实体信息和论元信息所需的特征语料。且Stanford词性标注工具是目前比较先进且应用比较广泛的相关工具,本发明即可以利用这些工具来实现某些特征的提取。
提取所述事件论元候选项的特征信息,并利用所述事件论元候选项的特征信息及所述论元信息进行数据处理得到论元识别语料和论元角色识别语料;
其中,可以将上述得到的各个特征在处理过程中将每一类特征依次排列即各占一行;即可以形成特征向量的形式。
其中,所述论元识别语料可以包含所有实体,即可以通过论元信息中的确定事件论元候选项是否为论元的标签来确定该实体是否为论元;所述论元角色识别语料可以包含确定为论元的那部分实体,即通过论元信息中的论元角色标签来确定论元角色识别语料中各论元角色。
利用所述论元识别语料训练最大熵二元分类模型,得到最大熵二元分类模型;
利用所述论元角色识别语料训练最大熵多元分类模型,得到最大熵多元分类模型;
其中,最大熵模型***地描述了条件最大熵的框架和实现算法,并在自然语言处理任务上取得了非常好的效果,在自然语言处理的各个领域都取得了巨大的成功,最大熵模型目前是近年来自然语言处理领域最成功的机器学习方法。
最大熵分类方法是基于最大熵信息理论的,其基本思想是为所有已知的因素建立模型,而把所有未知的因素排除在外。也就是说,要找到一种概率分布,满足所有已知的事实,但是让未知的因素最随机化。该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此,该方法适合融合各种不一样的特征,而无需考虑它们之间的影响。近年来,最大熵模型广泛地应用于自然语言处理的各项任务,包括分词、词性标注、词义排岐、短语识别、机器翻译等。
在自然语言处理领域,假设a表示某个类别,b表示文档中出现的词,我们想知道包含词b的文档属于类别a的概率,最容易的方法是使用训练语料来进行统计。给定一个训练集,A={a1,a2,...,am}是文档所属的类别集,B={b1,b2,...,bn}是文档的特征词集,具体来说如下:
求解满足最大熵原则的概率分布的公式如下:
如果没有其他任何先验知识,根据熵的性质,上述公式得到最大值的条件是:
其中,
在最大熵模型中,通常用二值特征函数来表示特征函数,定义如下:
对于特征函数fi,它相对于经验概率分布的期望值为:
特征函数fi相对于模型p(a|b)的期望值为:
我们限制在训练集中,这两个期望值相同,即:
其中,i=1,2,...,k。
现在问题变成了满足一组约束条件的最优解问题,即
求解这个最优解的经典方法是拉格朗日乘子算法,结论如下:
其中π(b)是归一化因子,λi是参数,可以看成是特征函数的权值,可以通过GIS算法求出,知道了λi的值,就得到了概率分布函数,完成了最大熵模型的构造。
目前,最大熵概率模型的优势主要有:首先,最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型;其次,最大熵统计模型可以灵活地设置约束条件,通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度;再次,它还能自然地解决了统计模型中参数平滑的问题。
因此,通过上述方式获得的最大熵二元分类模型及最大熵多元分类模型能够可以充分的利用有效的特征,建立一个统一的概率模型,有利于提高事件论元及其角色的识别效率及性能。
步骤s110、利用所述最大熵二元分类模型对事件中的事件论元候选项进行识别,得到论元识别结果;
其中,利用所述最大熵二元分类模型对事件的实体信息和论元信息进行识别,可以得到概率数值,通过概率数值判断识别的结果;即可以识别出论元和非论元。
步骤s120、利用所述最大熵多元分类模型对所述论元识别结果进行识别,得到论元角色识别结果。
其中,针对步骤s110识别出来的论元利用利用所述最大熵多元分类模型对所述论元识别结果进行识别,可以得到概率值,通过概率值判断出论元角色。
基于上述技术方案,本发明实施例提供的基于最大熵的事件论元及论元角色的识别方法,该方法首先对原始事件语料进行预处理,提取事件的实体信息和论元信息,进而利用特征工具选择有效的特征,使特征具有全局性,进而将各特征信息进行融合,对融合后的各个特征及论元信息进行数据处理,提取论元识别语料和论元角色识别语料。然后先用论元识别语料训练最大熵二元分类模型;再用论元角色识别语料训练最大熵多元分类模型,对之前识别出来的论元进行角色判定;本发明将事件论元及论元角色识别任务看作是分类问题,使用最大熵模型,这样可以充分的利用有效的特征,建立一个统一的概率模型,有利于提高事件论元及其角色的识别效率及性能。
优选的,所述提取所述事件论元候选项的特征信息可以包括:
从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征;
其中,对于英文语料来说可以直接获得分词结构,对于中文可以通过中科院分词工具进行分词;继而从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征;
利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析,提取所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征。
其中,Stanford词性标注工具是目前比较先进且应用比较广泛的相关工具,本发明即利用这些工具来实现某些特征的提取。通过有效的工具可以得到有效的特征,有利于提高识别效率。本发明可以利用Stanford工具提取所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征。根据实际情况,也可以提取其他特征。
可选的,所述从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征可以包括:
从原始语料中抽取得到所述事件论元候选项的词特征,所述事件论元候选项的首单词,所述事件论元候选项所属的实体类型,所述事件论元候选项所属的实体子类型,所述事件论元候选项所在事件的触发词,所述事件论元候选项所在事件的事件类型,所述事件论元候选项的上下文单词。
可选的,所述利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析,提取所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征可以包括:
利用Stanford工具提取所述事件论元候选项的词性特征,所述事件论元候选项的首单词的词性特征,所述事件论元候选项所在事件的触发词的词性特征,所述事件论元候选项的上下文单词的词性特征及所述事件论元候选项所在事件的触发词的距离及位置关系特征。
其中,本发明论元识别语料中的特征包括:实体信息的词本身,实体信息的词性特征,实体信息的首单词,实体信息的首单词的词性特征,实体信息所对应的实体类型和子类型,实体信息所在事件的触发词,实体信息所在事件的事件类型,实体信息的上下文单词和词性特征(窗口为2),实体信息与事件触发词的距离和位置关系。本发明论元角色识别语料中的特征包括:论元信息的词本身,论元信息的词性特征,论元信息的首单词,论元信息的首单词的词性特征,论元信息所对应的实体类型和子类型,论元信息所在事件的触发词,论元信息所在事件的事件类型,论元信息的上下文单词和词性特征(窗口为2),论元信息与事件触发词的距离和位置关系。其中,论元识别语料中的各个实体可以是论元也可以不是论元,论元角色识别语料中的各个实体都是论元,因此利用论元角色识别语料对其中的论元的角色进行识别;且需要的特征但并不限定于此,可以根据实际情况对选择的特征进行加减。下面通过举例说明,例1为一个“Transport”事件,以其中的论元角色“Place”--“asmall village”为例说明其特征表达。
例1:事件:Saddam's clan is said to have left for a small village inthe desert.
实体信息和论元信息/“Place”类论元:a small village
特征表达:a_small_village DT_JJ_NN a DT GPE_Population-Center left_trigger Movement_Transport for_l1IN_l1left_l2VBN_l2in_r1IN_r1the_r2DT_r22right。
可选的,所述提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息可以包括:
利用ACE2005对事件论元的定义和相关标注信息提取事件的实体信息和论元信息,通过所述实体信息确定事件论元候选项。
其中,提取事件的实体信息和论元信息,进而针对实体提取选择有效的特征,其中包括使用Stanford工具提取词性信息、中科院分词工具提取词特征等。通过上述特征可以充分利用事件的有效特征,具有全局性,能够提高事件论元的识别效率及性能。其中,论元信息包括了论元标签和论元角色标签。
优选的,所述的事件论元及论元角色的识别方法还可以包括:
定期对所述最大熵二元分类模型及最大熵多元分类模型进行更新训练。
其中,这样有助于保证最大熵分类模型的准确率。使得利用最大熵分类模型进行的事件论元识别效果更好,提高其性能。
基于上述技术方案,本发明实施例提供的基于最大熵的事件论元及论元角色的识别方法,该方法首先对原始事件语料进行预处理,提取事件的实体信息和论元信息,进而利用Stanford词性标注工具(其是目前比较先进且应用比较广泛的相关工具)和中科院分词工具,通过利用这些工具来实现某些有效的特征信息,这样能够充分的利用上下文信息,并对所述特征信息进行预处理,选择有效的特征,使得特征具有全局性,进而将各特征信息进行数据处理,提取论元识别语料和论元角色识别语料。然后先用论元识别语料训练最大熵二元分类模型;再用论元角色识别语料训练最大熵多元分类模型,对之前识别出来的论元进行角色判定;本发明将事件论元及论元角色识别任务看作是分类问题,使用最大熵模型,这样可以充分的利用有效的特征,建立一个统一的概率模型,有利于提高事件论元及其角色的识别效率及性能。且定期对所述最大熵分类模型进行更新,这样也助于保证最大熵分类模型的准确率。
本发明实施例提供了基于最大熵的事件论元及论元角色的识别方法,可以通过上述方法能够实现家庭智能网关提供留言,并对该留言信息进行处理。
下面对本发明实施例提供的基于最大熵的事件论元及论元角色的识别***进行介绍,下文描述的基于最大熵的事件论元及论元角色的识别***与上文描述的基于最大熵的事件论元及论元角色的识别方法可相互对应参照。
请参考图2,图2为本发明实施例提供的基于最大熵的事件论元及论元角色的识别***的结构框图;该***可以包括:
模型建立模块100,用于提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息;提取所述事件论元候选项的特征信息,并利用所述事件论元候选项的特征信息及所述论元信息进行数据处理得到论元识别语料和论元角色识别语料;利用所述论元识别语料训练最大熵二元分类模型,得到最大熵二元分类模型;利用所述论元角色识别语料训练最大熵多元分类模型,得到最大熵多元分类模型;
论元识别模块200,用于利用所述最大熵二元分类模型对事件中的事件论元候选项进行识别,得到论元识别结果;
论元角色识别模块300,用于利用所述最大熵多元分类模型对所述论元识别结果进行识别,得到论元角色识别结果。
可选的,请参考图3,图3为本发明实施例提供的最大熵分类模型建立模块的结构框图;所述模型建立模块100包括:
提取单元110,用于提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息;
抽取单元120,用于从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征;
Stanford单元130,用于利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析,提取所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征;
数据处理单元140,用于利用所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征,所述事件论元候选项的词特征和实体信息特征进行数据处理得到论元识别语料和论元角色识别语料;
第一训练模块150,利用所述论元识别语料训练最大熵二元分类模型,得到最大熵二元分类模型;
第二训练模块160,利用所述论元角色识别语料训练最大熵多元分类模型,得到最大熵多元分类模型。
可选的,请参考图4,图4为本发明实施例提供的另一基于最大熵的事件论元及论元角色的识别***的结构框图,该***还可以包括:
更新模块400,用于定期对所述最大熵二元分类模型及最大熵多元分类模型进行更新训练。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的基于最大熵的事件论元及论元角色的识别方法及***进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (9)
1.一种基于最大熵的事件论元及论元角色的识别方法,其特征在于,提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息;提取所述事件论元候选项的特征信息,并利用所述事件论元候选项的特征信息及所述论元信息进行数据处理,得到论元识别语料和论元角色识别语料;利用所述论元识别语料训练最大熵二元分类模型,得到最大熵二元分类模型;利用所述论元角色识别语料训练最大熵多元分类模型,得到最大熵多元分类模型;其中,所述论元信息包括论元标签和论元角色标签;包括:
利用所述最大熵二元分类模型对事件中的事件论元候选项进行识别,得到论元识别结果;
利用所述最大熵多元分类模型对所述论元识别结果进行识别,得到论元角色识别结果。
2.如权利要求1所述的事件论元及论元角色的识别方法,其特征在于,所述提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息包括:
利用ACE2005对事件论元的定义和相关标注信息提取事件的实体信息和论元信息,通过所述实体信息确定事件论元候选项。
3.如权利要求1所述的事件论元及论元角色的识别方法,其特征在于,还包括:
定期对所述最大熵二元分类模型及最大熵多元分类模型进行更新训练。
4.如权利要求1所述的事件论元及论元角色的识别方法,其特征在于,所述提取所述事件论元候选项的特征信息包括:
从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征;
利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析,提取所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征。
5.如权利要求4所述的事件论元及论元角色的识别方法,其特征在于,所述从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征包括:
从原始语料中抽取得到所述事件论元候选项的词特征,所述事件论元候选项的首单词,所述事件论元候选项所属的实体类型,所述事件论元候选项所属的实体子类型,所述事件论元候选项所在事件的触发词,所述事件论元候选项所在事件的事件类型,所述事件论元候选项的上下文单词。
6.如权利要求5所述的事件论元及论元角色的识别方法,其特征在于,所述利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析,提取所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征包括:
利用Stanford工具提取所述事件论元候选项的词性特征,所述事件论元候选项的首单词的词性特征,所述事件论元候选项所在事件的触发词的词性特征,所述事件论元候选项的上下文单词的词性特征及所述事件论元候选项所在事件的触发词的距离及位置关系特征。
7.一种基于最大熵的事件论元及论元角色的识别***,其特征在于,包括:
模型建立模块,用于提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息;提取所述事件论元候选项的特征信息,并利用所述事件论元候选项的特征信息及所述论元信息进行数据处理得到论元识别语料和论元角色识别语料;利用所述论元识别语料训练最大熵二元分类模型,得到最大熵二元分类模型;利用所述论元角色识别语料训练最大熵多元分类模型,得到最大熵多元分类模型;其中,所述论元信息包括论元标签和论元角色标签;
论元识别模块,用于利用所述最大熵二元分类模型对事件中的事件论元候选项进行识别,得到论元识别结果;
论元角色识别模块,用于利用所述最大熵多元分类模型对所述论元识别结果进行识别,得到论元角色识别结果。
8.如权利要求7所述的事件论元及论元角色的识别***,其特征在于,所述模型建立模块包括:
提取单元,用于提取事件的实体信息以确定事件论元候选项,并提取事件的论元信息;
抽取单元,用于从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征;
Stanford单元,用于利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析,提取所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征;
数据处理单元,用于利用所述事件论元候选项的词性特征,上下文的词性特征,及依存关系特征,所述事件论元候选项的词特征和实体信息特征进行数据处理得到论元识别语料和论元角色识别语料;
第一训练模块,用于利用所述论元识别语料训练最大熵二元分类模型,得到最大熵二元分类模型;
第二训练模块,用于利用所述论元角色识别语料训练最大熵多元分类模型,得到最大熵多元分类模型。
9.如权利要求7所述的事件论元及论元角色的识别***,其特征在于,还包括:
更新模块,用于定期对所述最大熵二元分类模型及最大熵多元分类模型进行更新训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510236815.4A CN104809105B (zh) | 2015-05-11 | 2015-05-11 | 基于最大熵的事件论元及论元角色的识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510236815.4A CN104809105B (zh) | 2015-05-11 | 2015-05-11 | 基于最大熵的事件论元及论元角色的识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104809105A CN104809105A (zh) | 2015-07-29 |
CN104809105B true CN104809105B (zh) | 2017-12-26 |
Family
ID=53693936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510236815.4A Active CN104809105B (zh) | 2015-05-11 | 2015-05-11 | 基于最大熵的事件论元及论元角色的识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104809105B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389304B (zh) * | 2015-10-27 | 2018-11-02 | 小米科技有限责任公司 | 事件提取方法及装置 |
CN105740230B (zh) * | 2016-01-26 | 2018-11-09 | 中国科学技术信息研究所 | 基于论元特征模型的文献术语识别方法和*** |
CN110032641B (zh) * | 2019-02-14 | 2024-02-13 | 创新先进技术有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN111353306B (zh) * | 2020-02-22 | 2020-10-16 | 杭州电子科技大学 | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 |
CN111581954B (zh) * | 2020-05-15 | 2023-06-09 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN111797241B (zh) * | 2020-06-17 | 2023-08-22 | 北京北大软件工程股份有限公司 | 基于强化学习的事件论元抽取方法及装置 |
CN112149386A (zh) * | 2020-09-25 | 2020-12-29 | 杭州中软安人网络通信股份有限公司 | 一种事件抽取方法、存储介质及服务器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030068856A (ko) * | 2002-02-18 | 2003-08-25 | 한국전자통신연구원 | 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법 |
CN102693219A (zh) * | 2012-06-05 | 2012-09-26 | 苏州大学 | 一种中文事件的抽取方法及*** |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和*** |
CN104156351A (zh) * | 2014-08-08 | 2014-11-19 | 西安交通大学 | 一种基于纳税人年报的纳税人税务交易行为识别方法 |
CN104331480A (zh) * | 2014-11-07 | 2015-02-04 | 苏州大学 | 一种中文事件触发词的抽取***及方法 |
-
2015
- 2015-05-11 CN CN201510236815.4A patent/CN104809105B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030068856A (ko) * | 2002-02-18 | 2003-08-25 | 한국전자통신연구원 | 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법 |
CN102693219A (zh) * | 2012-06-05 | 2012-09-26 | 苏州大学 | 一种中文事件的抽取方法及*** |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和*** |
CN104156351A (zh) * | 2014-08-08 | 2014-11-19 | 西安交通大学 | 一种基于纳税人年报的纳税人税务交易行为识别方法 |
CN104331480A (zh) * | 2014-11-07 | 2015-02-04 | 苏州大学 | 一种中文事件触发词的抽取***及方法 |
Non-Patent Citations (1)
Title |
---|
中文事件抽取的相关技术研究;赵妍妍;《中国优秀硕士学位论文全文数据库信息科技辑》;20090315(第3期);第20-50页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104809105A (zh) | 2015-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104809105B (zh) | 基于最大熵的事件论元及论元角色的识别方法及*** | |
CN107943847B (zh) | 企业关系提取方法、装置及存储介质 | |
CN104899304B (zh) | 命名实体识别方法及装置 | |
CN106469554B (zh) | 一种自适应的识别方法及*** | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测*** | |
WO2021208696A1 (zh) | 用户意图分析方法、装置、电子设备及计算机存储介质 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN106202030A (zh) | 一种基于异构标注数据的快速序列标注方法及装置 | |
CN108959305A (zh) | 一种基于互联网大数据的事件抽取方法及*** | |
WO2019075967A1 (zh) | 企业名称识别方法、电子设备及计算机可读存储介质 | |
CN111210111B (zh) | 一种基于在线学习与众包数据分析的城市环境评估方法和*** | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN103390057B (zh) | 一种历史信息的空间化建模存储方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN107729290A (zh) | 一种利用局部敏感哈希优化的超大规模图的表示学习方法 | |
CN109359301A (zh) | 一种网页内容的多维度标注方法及装置 | |
CN109388805A (zh) | 一种基于实体抽取的工商变更分析方法 | |
CN104834718A (zh) | 基于最大熵模型的事件论元识别方法及*** | |
CN109446523A (zh) | 基于BiLSTM和条件随机场的实体属性抽取模型 | |
CN109299470A (zh) | 文本公告中触发词的抽取方法及*** | |
CN113947087B (zh) | 一种基于标签的关系构建方法、装置、电子设备及存储介质 | |
CN114997263A (zh) | 基于机器学习的结训率分析方法、装置、设备及存储介质 | |
Lhasiw et al. | A bidirectional LSTM model for classifying Chatbot messages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Shoushan Inventor after: Zhu Zhu Inventor after: Zhou Guodong Inventor after: Zhang Min Inventor before: Li Shoushan Inventor before: Zhu Zhu Inventor before: Zhou Guodong |
|
CB03 | Change of inventor or designer information |