CN101901213A - 一种基于实例动态泛化的共指消解方法 - Google Patents
一种基于实例动态泛化的共指消解方法 Download PDFInfo
- Publication number
- CN101901213A CN101901213A CN2010102397366A CN201010239736A CN101901213A CN 101901213 A CN101901213 A CN 101901213A CN 2010102397366 A CN2010102397366 A CN 2010102397366A CN 201010239736 A CN201010239736 A CN 201010239736A CN 101901213 A CN101901213 A CN 101901213A
- Authority
- CN
- China
- Prior art keywords
- extensive
- point
- training
- positive
- subclass
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
一种基于实例的动态泛化共指消解方法,涉及文本信息抽取领域。本发明所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成,并经由实例构建、实例库构建、建立索引、动态泛化与实例检索以及共指链合成几部分完成共指消解。本发明不仅解决了共指统计模型中长尾效应,充分发挥低频训练样本的作用,使得本来就很珍贵的训练样本得以充分的发挥,并且使实例的动态泛化机制能够自适应的将测试实例的分类问题转变为训练实例库中最佳泛化点的选定与利用,最终找到最佳匹配的训练实例。
Description
技术领域
本发明涉及文本信息抽取领域,具体涉及一种基于实例的动态泛化共指消解方法。
背景技术
近年来,随着互联网上信息的***式增长,每天出现的新信息大大超过了人类的处理能力。在自然语言处理、信息检索等诸多领域中,现实世界中的同一事物经常会有不同的名称以及描述。将它们正确对应到具体的事物,对于数据的后续处理和深入理解是非常必要的。在自然语言处理中,对指向同一实体的名词、代词、以及普通名词短语进行消解,可以使后续的实体关系的描述更加完善,为其他自然语言处理领域,如机器翻译、信息抽取、自动文摘及信息检索等奠定基础。所谓共指消解就是根据一篇文档中各个表述的自身内容以及所在上下文来进行所有表述的等价类划分。例如,在讨论中国、美国、日本等大国间贸易的文章中,开篇可能会写“中华人民共和国”,后面可能会说“中国”、“大中国”等,还会提到“这个国家”、“她”等。这些表述都是“中华人民共和国”这个实体的不同体现。虽然人们可以毫无困难的区分文章中同一实体的不同体现,但对计算机而言,仍是非常困难的。在某种意义上说,共指在自然语言中起到了超链接的作用。一方面,它使得作者在撰写文章时可以体现一定的风格并实现篇章的连贯性。但另一方面,语言中的共指现象在自然语言理解中增加了更多的模糊成分,为其他领域自然语言的处理,如机器翻译,信息抽取等带来困难。共指消解技术的研究目标就是发现篇章中同一实体的各个等价描述,为后续的自然语言处理奠定基础。
共指消解研究面临许多困难,不仅需要语言学方面的知识,例如浅层的词汇、句法知识,还需要较为宏观的语义和篇章知识,以及丰富的背景知识才能完成。全自动的共指消解是计算机对自然语言理解的一项重要而艰难任务。这方面的专门研究在国外已经进行数十年,但在国内才刚起步不久。随着共指消解研究的不断深入,现在已经到了瓶颈阶段。最为关键的问题就是相关语料的稀缺,使得传统的基于语言学规则和基于统计方法都只能覆盖大多数的训练样本,对于一些频率较低样本未能进行充分的利用。
基于语言学规则的共指消解方法,主要包括Hobbs算法、中心理论以及一些基于中心理论的方法。基于规则的方法都是前人在相关语料上总结大量的语言现象后得出的主观性处理方法。这种规律性的总结不可避免的会遗漏掉大量的一些较少出现的共指现象,尤其是在较小规模的语料上分析得到的规律性规则很难应用到实际的大量处理实际情况中。事实上,基于规则的方法在实际性能上都表现不太好,并且最终导致了基于统计的研究方法发展。
统计学习方法应用到共指消解问题中兴起于1995年。随着McCarthy and Lehnert(1995)首次将共指消解问题视为二元分类并采用决策树(Decision Trees)C4.5算法以来,共指消解开始在二元分类的框架下获得了长足的发展。典型常用的基于统计的机器学习有决策树、最大熵、支撑向量机,这种基于统计学习的分类方法都是要先在训练语料上进行统计训练,得到一个可以统一描述问题的学习模型后,再将这个模型应用到需要分类的问题上。这种方法虽然能够取得一定的成绩,但是对于共指消解却存在一定的问题。分类算法在进行训练的过程中不断的优化过程中,每次进行选择时都是选择能够覆盖多数实例的优化方向,对于未能覆盖的实例不做考虑。这种情况下最终学习得到的模型只能覆盖多数情况,对于一些频率较低的实例就会存在错分的可能性。这种情况对于训练实例数量本来就相对较少的共指尤为突出。事实上,这种可能错分的频率较低的实例数量众多。
发明内容
为了解决上述问题,本发明公开了一种基于实例动态泛化的共指消解方法,不仅解决了共指统计模型中长尾效应,还充分发挥低频训练样本的作用,使得本来就很珍贵的训练样本得以充分的发挥,并且使实例的动态泛化机制能够自适应的将测试实例的分类问题转变为训练实例库中最佳泛化点的选定与利用,最终找到最佳匹配的训练实例。
本发明解决上述技术问题的技术方案是:一种基于实例的动态泛化共指消解方法,其特征在于所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成;所述训练实例库构建阶段包括:
A、对训练语料进行底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;
B、利用标注语料中共指链上的名词短语和A中抽取的名词短语,构造正/反训练实例;
C、抽取各正/反实例的特征取值,根据特征取值生成属于该实例的“泛化点”;
D、构建带“泛化点”的训练实例库,并对训练实例库建立倒排索引。
所述篇章内实体消解阶段包括:
E、接收待处理的纯文本,并进行各种底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;
F、利用E中抽取的名词短语构造可能存在共指关系的候选实例,抽取该候选实例的特征取值;
G、抽取候选实例的特征取值,根据特征取值生成属于该实例的“泛化点”;
H、根据动态泛化算法,利用候选实例的“泛化点”对训练实例库中的实例反复筛选泛化,剩余训练实例中正例所占比例作为该测试实例的正例置信度;
I、根据各候选实例的正例置信度给出二元分类结果并合成最终共指链,共指消解完成。
其中,步骤A和E步骤中所述自然语言预处理过程包括:
断句,根据文档中的标点符号,将文档正确切分为一个个独立句子;
分词,将文档中的字符序列切分成若干个单独的词;
词性标注,为分词结果得到的词标注上词性标签;
名词短语识别,根据词性标注结果和有定性描述和指示性描述的相关关键字识别出文档中的名词短语;
命名实体识别,根据分词和词性标注结果,识别出当前领域中所关注的命名实体;
句法分析,根据分词和词性标注结果,构建各句子的短语结构句法树。
本发明步骤B中所述构造训练实例包括:
a.同一共指链上,存在共指关系的两个相邻名词短语i、j构成正例对<i,j>;
b.共指链上,存在共指关系的两个相邻名词短语i、j之间的其他名词短语k(i<k<j),与名词短语j构成反例对<k,j>。
本发明中,对训练/测试实例的特征取值生成“泛化点”的具体过程为:
针对当前考查的实例属性,抽取实例的特征取值,每个特征取值对应一个“泛化点”,泛化点形式化表示为“[a/b/ab].特征名.特征取值”,其中第一部分表示特征所描述的对象,a表示先行语,b表示照应语,ab表示两者先行语与照应语的联合体。
本发明步骤D中所述构建训练实例库和建立倒排索引的具体过程为:
a.对每个正/反训练实例生成所有“泛化点”;
b.训练实例库中每一行记录存储了训练实例的所有信息,包括训练实例的类别标签“+”或“-”,该实例的所有“泛化点”由泛化点类型、特征名称、特征取值三部分信息组成;
c.以建立后的训练实例库为基础,泛化点作为关键字,拥有该泛化点的所有训练实例在实例库中的位置列表作为索引项,由此建立训练实例库的倒排索引。
上述提及的泛化点类型分为以下三种:
a.枚举型,特征的可能取值为离散值;
b.确定无穷型,这种类型主要是针对可能会有无穷种返回结果的特征,而且在动态泛化过程中进行泛化点匹配时,不再需要对这些特征取值进一步切分使用,这种类型主要指返回值为字符串形式的特征;
c.变化无穷型,这种类型主要是针对可能会有无穷种返回结果的特征,并且在动态泛化过程中进行泛化点匹配时,需要对这些特征取值进一步切分使用,这种类型主要指返回值为树状的图结构。
本发明中步骤H中所述动态泛化算法的具体过程为:
i、所述的泛化点生成过程,为待分类的实例生成泛化点,所有泛化点形成泛化点集G;
ii、训练实例库全部实例作为待筛选的实例集S;
iii、根据泛化点选取标准,从泛化点集G中选取一个泛化点g,使得S中拥有该泛化点的所有实例构成的子集G’满足选取标准,该泛化点g称之为最佳泛化点;
iv、从G中删除g,令S={原S中拥有泛化点g的所有实例};
v、如果S中所有实例均属于同一类别(即均为正例或均为反例),或者G为空,最终剩余实例子集S中正例所占比例作为该待分类实例的正例置信度,终止迭代;反之,返回第iii步。
以下为供步骤iii选取泛化点的标准:
a.正、反例所占比例差的绝对值最大化,拥有该泛化点的实例子集G’中,正例所占比例与反例所占比例差的绝对值最大化;
b.覆盖实例数量最大化,拥有该泛化点的实例子集G’中,实例数量最大化;
c.正例数量最大化,拥有该泛化点的实例子集G’中,正例数量最大化;
d.覆盖实例数量最少化,拥有该泛化点的实例子集G’非空的情况下,实例数量最小化;
e.正例所占比例最大化,拥有该泛化点的实例子集G’中,正例所占比例最大化;
步骤iii中选择泛化点还存在如下优先次序:
首先,当变化无穷型泛化点子集非空时,根据泛化点选取标准,优先从变化无穷型泛化点子集中选取最佳泛化点;
其次,当确定无穷型泛化点子集非空时,根据泛化点选取标准,优先从确定无穷型泛化点子集中选取最佳泛化点;
最后,根据泛化点选取标准,从使用枚举型泛化点子集中选取最佳泛化点。
其中,步骤iii中计算实例子集G’时,泛化点匹配因类型差异采取不同策略:对枚举型泛化点和确定无穷型泛化点g,一个实例拥有g当且仅当该实例其中一个泛化点与g完全相同;对变化无穷型泛化点,逐一删除图结构中的节点以放松约束,直至修剪后的子结构至少在一个训练实例中作为子图出现,则以该子结构对训练实例进行筛选。
本发明步骤I中根据各候选实例的正例置信度给出二元分类结果过程为:如果动态泛化算法为候选实例给出的正例置信度超过0.5,则将该候选实例判断为正例,即相应两名词短语间存在共指关系。
本发明所述的一种基于实例的动态泛化共指消解方法,其对于特征取值为连接先行语和照应语的短语结构句法树的变化无穷型泛化点,具体修剪方式为:
a.短语结构句法树中连接先行语与照应语的最短路径称为“关键路径”;
b.从短语结构句法树的最底层节点开始,“关键路径”上的节点除外,依次删除每层节点,直至修剪后的子结构至少在一个训练实例中作为子图出现。
本发明具有以下优点:在保证大多数训练样本正确覆盖的情况下,尽可能的充分发挥那些低频的训练样本的作用,使得本来就很珍贵的训练样本得以充分的发挥。改善了传统方法在处理低频实例方面的不足,在传统方法无法有效处理的低频实例消解问题上取得了更好的效果。由于共指消解问题的特殊性,使得低频实例的处理显得尤其重要,在这方面本方法更具有优势。并且和以往的方法不同,基于实例的动态泛化机制能够将测试实例的分类问题转变为训练实例库中最佳泛化点的选定与利用,在处理不同的实例时并不像传统方法一样使用统一的模型和参数,而是自适应的找到最佳泛化点,逐层泛化之后最终找到最佳匹配的训练实例,对不同的实例会自动选择相应的泛化点,避免使用统一模型,因此具有更强的适应性。综上,本方法进行共指消解效果更为有效。
附图说明
图1是本发明一种基于实例的动态泛化共指消解方法整体框架的流程图;
图2是根据训练/测试用实例生成泛化点的示意图;
图3是本发明中动态泛化与检索算法的第一实施例流程图;
图4是动态泛化与检索算法中对变化无穷型泛化点逐层放松约束的实施实例示意图;
具体实施方式
结合附图1~4及实施例,对本发明作进一步的说明:
(图1所示)一种基于实例的动态泛化共指消解方法,所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成;所述训练实例库构建阶段包括:
A、对训练语料进行底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;
B、利用标注语料中共指链上的名词短语和A中抽取的名词短语,构造正/反训练实例;
C、抽取各正/反实例的特征取值,根据特征取值生成属于该实例的“泛化点”;
D、构建带“泛化点”的训练实例库,并对训练实例库建立倒排索引。
所述篇章内实体消解阶段包括:
E、接收待处理的纯文本,并进行各种底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;
F、利用E中抽取的名词短语构造可能存在共指关系的候选实例,抽取该候选实例的特征取值;
G、抽取候选实例的特征取值,根据特征取值生成属于该实例的“泛化点”;
H、根据动态泛化算法筛选实例库。所谓动态泛化方法,即对测试实例中所具有的泛化点进行逐一动态选择,并根据选择的泛化点从训练实例库中筛选出有利于做出最后类别判断的实例子集的方法。利用候选实例的“泛化点”对训练实例库中的实例反复筛选泛化,剩余训练实例中正例所占比例作为该测试实例的正例置信度;
I、根据各候选实例的正例置信度给出二元分类结果并合成最终共指链,共指消解完成。
本实施方式中,步骤A和E步骤中所述自然语言预处理过程包括:
断句:根据文档中的标点符号,将文档正确切分为一个个独立句子;
分词:将文档中的字符序列切分成若干个单独的词;
词性标注:为分词结果得到的词标注上词性标签;
名词短语识别:根据词性标注结果和有定性描述和指示性描述的相关关键字识别出文档中的名词短语;
命名实体识别:根据分词和词性标注结果,识别出当前领域中所关注的命名实体;
句法分析:根据分词和词性标注结果,构建各句子的短语结构句法树。
本实施方式中,步骤B中所述构造训练实例包括:
a.同一共指链上,存在共指关系的两个相邻名词短语i、j构成正例对<i,j>;
b.共指链上,存在共指关系的两个相邻名词短语i、j之间的其他名词短语k(i<k<j),与名词短语j构成反例对<k,j>。
本实施方式步骤D中所述构建训练实例库和建立倒排索引的具体过程为:
a.对每个正/反训练实例生成所有“泛化点”;
b.训练实例库中每一行记录存储了训练实例的所有信息,包括训练实例的类别标签“+”或“-”,该实例的所有“泛化点”由泛化点类型、特征名称、特征取值三部分信息组成;
c.以建立后的训练实例库为基础,泛化点作为关键字,拥有该泛化点的所有训练实例在实例库中的位置列表作为索引项,由此建立训练实例库的倒排索引。
其中,(图2如示)训练和测试过程用到的实例,具体指可能存在共指关系的名词短语对。其中,正例即该名词短语对之间存在共指关系,反之称之为反例。该名词短语对实例中,原文中位置靠前者称之为“候选先行语”,称之为表述a(Mention a);位置靠后者称之为“照应语”,称之为表述b(Mention b)。
具体的说,泛化点是就是实例的某个特征取值,每个特征取值对应一个“泛化点”,泛化点的统一形式化表示为“[a/b/ab].[特征名称].[特征取值]”。其中“[a/b/ab]”表示后面“[特征名称].[特征取值]”所描述的对象,a、b分别表示候选先行语、照应语,而ab则表示将候选先行语和照应语的结合体;而“[特征名称]”、“[特征取值]”分别表示其特征名与取值。泛化点根据特征取值的类型可以分为以下三种类型:
枚举型,这些特征具有有限的几个可能取值,主要指一些常用的句法、词汇特征,如表述a和b的名词短语类型,语义一致性、性别一致性、单复数一致性特征等,如图2中的“a.Mention类型.NAM”,“b.语法标记.Subject”,“ab.性别一致.T”,“a b.句子距离.1”;
确定无穷型,这种特征可能返回无穷种结果,而且这些特征在动态泛化过程中不需要进一步切分使用,主要指中心语等字符串特征,如图2中的“a.Head.猴子”,“b.Head.它”;
变化无穷型,这种特征可能返回无穷型返回结果,而且在动态泛化过程中会对这个部分的进一步切分使用,主要指覆盖表述a和b之间最小上下文句法树结构,例如图2中的“ab.Tree.(Sentences(ROOT(IP(NP(NR猴子)))(VP(VV吃)(NP(NR香蕉)))(PU。))(ROOT(PP(P因为)(IP(NP(PN它))(VP(VV饿)(AS了)))(PU。))))”。
本实施方式中步骤H中所述动态泛化算法的具体过程为:
i、所述的泛化点生成过程,为待分类的实例生成泛化点,所有泛化点形成泛化点集G;
ii、训练实例库全部实例作为待筛选的实例集S;
iii、根据泛化点选取标准,从泛化点集G中选取一个泛化点g,使得S中拥有该泛化点的所有实例构成的子集G’满足选取标准,该泛化点g称之为最佳泛化点;
iv、从G中删除g,令S={原S中拥有泛化点g的所有实例};
v、如果S中所有实例均属于同一类别(即均为正例或均为反例),或者G为空,最终剩余实例子集S中正例所占比例作为该待分类实例的正例置信度,终止迭代;反之,返回第iii步。
以下为供步骤iii选取泛化点的标准:
a.正、反例所占比例差的绝对值最大化,拥有该泛化点的实例子集G’中,正例所占比例与反例所占比例差的绝对值最大化;
b.覆盖实例数量最大化,拥有该泛化点的实例子集G’中,实例数量最大化;
c.正例数量最大化,拥有该泛化点的实例子集G’中,正例数量最大化;
d.覆盖实例数量最少化,拥有该泛化点的实例子集G’非空的情况下,实例数量最小化;
e.正例所占比例最大化,拥有该泛化点的实例子集G’中,正例所占比例最大化;
步骤iii中选择泛化点还存在如下优先次序:
首先,当变化无穷型泛化点子集非空时,根据泛化点选取标准,优先从变化无穷型泛化点子集中选取最佳泛化点;
其次,当确定无穷型泛化点子集非空时,根据泛化点选取标准,优先从确定无穷型泛化点子集中选取最佳泛化点;
最后,根据泛化点选取标准,从使用枚举型泛化点子集中选取最佳泛化点。
其中,步骤iii中计算实例子集G’时,泛化点匹配因类型差异采取不同策略:对枚举型泛化点和确定无穷型泛化点g,一个实例拥有g当且仅当该实例其中一个泛化点与g完全相同;对变化无穷型泛化点,逐一删除图结构中的节点以放松约束,直至修剪后的子结构至少在一个训练实例中作为子图出现,则以该子结构对训练实例进行筛选。
本发明步骤I中根据各候选实例的正例置信度给出二元分类结果过程为:如果动态泛化算法为候选实例给出的正例置信度超过0.5,则将该候选实例判断为正例,即相应两名词短语间存在共指关系。
本发明所述的一种基于实例的动态泛化共指消解方法,其对于特征取值为连接先行语和照应语的短语结构句法树的变化无穷型泛化点,具体修剪方式为:
a.短语结构句法树中连接先行语与照应语的最短路径称为“关键路径”;
b.从短语结构句法树的最底层节点开始,“关键路径”上的节点除外,依次删除每层节点,直至修剪后的子结构至少在一个训练实例中作为子图出现。
(图3)本发明中动态泛化与检索算法的实施例的流程图,所述实施例中使用的泛化点综合考虑了枚举型、确定无穷型和变化无穷型,包括步骤:
步骤3-1初始化:
待分类实例的所有泛化点构成未使用的泛化点子集G,已使用的泛化点子集G’为空集,并以完整的训练实例库作为初始的待筛选实例子集E’。
步骤3-2选择最佳泛化点:
根据泛化点选取标准,从G中,选取一个泛化点g*,使得在待筛选的实例库中,拥有的所有训练实例子集E*的分布在满足泛化点选取标准,该泛化点g*称之为最佳泛化点。
其中泛化点选取标准有多种选择,本实例中较成熟包括以下5种选择:
1)正、反例所占比例差的绝对值最大化,拥有该泛化点的实例子集中,正例所占比例与反例所占比例差的绝对值最大化;
2)覆盖实例数量最大化,拥有该泛化点的实例子集中实例数量最大化;
3)正例数量最大化,拥有该泛化点的实例子集中正例数量最大化;
4)覆盖实例数量最少化,拥有该泛化点的实例子集非空的情况下,实例数量最小化;
5)正例所占比例最大化,拥有该泛化点的实例子集中,正例所占比例最大化。
以上各泛化点选取标准各有侧重点,根据具体的语料特性与要求,实施过程中将取不同的选取标准。
此外,对不同类型的泛化点,会采用不同的优先选取策略。当变化无穷型泛化点子集非空时,根据泛化点选取标准,优先从变化无穷型泛化点子集中选取最佳泛化点;其次,当确定无穷型泛化点子集非空时,根据泛化点选取标准,优先从确定无穷型泛化点子集中选取最佳泛化点;最后,根据泛化点选取标准,从使用枚举型泛化点子集中选取最佳泛化点。
步骤3-3筛选实例集:
从G中删除g*,并将g*加入到G’中;
利用该最佳泛化点g*,从当前待筛选训练实例子集中筛选中具有g*的所有实例,并令E’={原E’中具有泛化点g*的所有实例}。
需要强调的是,对训练实例子集进行筛选,涉及到泛化点的匹配方式。在实施过程中,对枚举型和确定无穷型泛化点的匹配采用完全匹配方式;而对变化无穷型泛化点,逐渐删除图结构中的节点以放松约束,直至修剪后的子结构至少在一个训练实例中作为子图出现,则以该子结构对训练实例进行筛选。
步骤3-4迭代终止条件判定:
如果E’中的实例均属于同一类别(均为正例或者均为反例),或者|G|=|G’|,E’中正例所占比例作为该待分类实例的正例置信度输出,终止迭代;否则,未使用的泛化点子集G和待筛选的训练实例子集E’作为输入,继续步骤3-2。
在本发明实施例中,动态泛化算法是为了确定待分类实例的最优类别,下面描述其算法:
输入:训练实例库E,待检索的测试实例的泛化点集合G
输出:测试实例的正例置信度p,及实例子集E’,其中p∈[0,1]
#01:G’←Φ,E’←E,p←I(E’)//根据E’计算正例置信度I
#02:while(|G’|<|G|and E’≠Φ)
#03: (g*,E*)←Best_Generalize_Point(E’,G-G’);//找到最佳泛化点g*和选定实例集E*
#04: G’←G’∪{g*}
#05: if(E*=Φ)
#06: continue
#07: end if
#08: E’=E*
#09: if(E’中全为正例or E’中全为反例or G-G’=Φ)
#10: p←I(E’)//根据E’计算正例置信度I
#11: break
#12: end if
#13:end while
#14:return p,E’
最优泛化点确定算法是为确定在每轮筛选泛化的过程中使用哪个泛化点更加合适,下面描述其算法:
输入:实例库E,待检索的测试实例的泛化点集合G
输出:最佳泛化点g*,E中筛选出来的有效实例集E’
#01:g*←null
#02:(N,C, S)←Divide(G)//G中元素分为:N枚举型,C字符序列型,S结构型
#03:if(|S|>0)
#04: g*←S中使筛选后实例子集满足“选择标准”的泛化点
#05:else if(|C|>0)
#06: g*←C中使筛选后实例子集满足“选择标准”的泛化点
#05:else if(|N|>0)
#06: g*←N中使筛选后实例子集满足“选择标准”的泛化点
#07:end if
#08:E’←E中与g*项一致的所有实例
#09:return g*,E’
(图4所示)动态泛化与检索算法中对变化无穷型泛化点逐层放松约束的实施实例的示意图,所述实施实例中的变化无穷型泛化点指Simple-Expansion结构,包括步骤:
Simple-Expansion结构具体指“覆盖先行语和照应语的最小子树上的最短路径,以及最短路径上所有结点的直接孩子结点”。对一于句子“[the man]in the room saw[him]”中,覆盖候选共指实例<″the man″,″him″>的最小子树如图4(a)所示,其中虚线包围的子集树即Simple-Expansion结构。
如图4(b)是连接候选先行语(NN-CANDI)与照应语(PRP-ANA)的Simple-Expansion结构,图4(c)中①所示封闭曲线覆盖部分表示包含候选先行语和照应语的最短路径,①+②组成的覆盖部分表示下降一层后的句法树形结构,以此类推①+②+③表示下降二层后的结果,而①+②+③就相当于完整的Simple-Expansion结构。由于完整结构的约束过于严格,容易导致泛化筛选后的子集为空。因此,利用这种“结构型”泛化点进行泛化筛选时,采取从完整结构(①+②+③)中依次删除③、②子结构的方式,逐渐放宽动态泛化的约束条件。
除了依次删除各层节点外,进一步还对删除节点后的子集树进行进一步修剪。如图4(d)中子树是图4(c)中删除③后的结果,而图4(d)中虚线包含的两个节点间存在特点:“父节点的标签与子节点的标签一致,且子节点只有一个后续节点”。在这种情况下,将两个节点皱缩为一个节点,如图4(e)所示。
“结构型”泛化点的具体使用方式如下:
(1)T=“simple-Expansion结构”,T的深度为n,i=n;
(2)E=“训练实例集中其泛化点ab.Tree.(...)包含子结构T的所有训练实例”;
(3)如果E为空且i大于0,从T中删除第i层节点(最短路径①中节点除外)并如图4(d-e)进行修剪,i=i-1,返回步骤(2);否则,返回E作为经过该泛化点筛选实例子集。
以上实施例仅供说明本发明之用,而非对本发明的限制,本技术领域的普通技术人员,在不脱离本发明的精神及范围的情况下,作出各种等同变换或变化的技术方案均属于本发明的保护范畴,由各项权利要求限定。
Claims (10)
1.一种基于实例的动态泛化共指消解方法,其特征在于所述动态泛化共指消解方法由训练实例库构建阶段和篇章内实体消解阶段组成;
所述训练实例库构建阶段包括:
A、对训练语料进行底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;
B、利用标注语料中共指链上的名词短语和A中抽取的名词短语,构造正/反训练实;
C、抽取各正/反实例的特征取值,根据特征取值生成属于该实例的“泛化点”;
D、构建带“泛化点”的训练实例库,并对训练实例库建立倒排索引;
所述篇章内实体消解阶段包括:
E、接收待处理的纯文本,并进行各种底层的自然语言预处理,抽取相互之间可能存在共指关系的候选名词短语;
F、利用E中抽取的名词短语构造可能存在共指关系的候选实例,抽取该候选实例的特征取值;
G、抽取候选实例的特征取值,根据特征取值生成属于该实例的“泛化点”;
H、根据动态泛化算法,利用候选实例的“泛化点”对训练实例库中的实例反复筛选泛化,剩余训练实例中正例所占比例作为该测试实例的正例置信度;
I、根据各候选实例的正例置信度给出二元分类结果并合成最终共指链,共指消解完成。
2.根据权利要求1所述的一种基于实例的动态泛化共指消解方其特征还在于步骤A和E步骤中所述自然语言预处理过程包括:断句;分词;词性标注;名词短语识别;命名实体识别和句法分析。
3.根据权利要求1所述的一种基于实例的动态泛化共指消解方法,其特征还在于步骤B中所述构造训练实例包括:
a.同一共指链上,存在共指关系的两个相邻名词短语i、j构成正例对<i,j>;
b.共指链上,存在共指关系的两个相邻名词短语i、j之间的其他名词短语k(i<k<j),与名词短语j构成反例对<k,j>。
4.根据权利要求1所述的一种基于实例的动态泛化共指消解方法,其特征在于步骤D中所述构建训练实例库和建立倒排索引的具体过程为:
a.对每个正/反训练实例生成所有“泛化点”;
b.训练实例库中每一行记录存储了训练实例的所有信息,包括训练实例的类别标签“+”或“-”,该实例的所有“泛化点”由泛化点类型、特征名称、特征取值三部分信息组成;
c.以建立后的训练实例库为基础,泛化点作为关键字,拥有该泛化点的所有训练实例在实例库中的位置列表作为索引项,由此建立训练实例库的倒排索引。
5.根据权利要求1、2、3或4所述的一种基于实例的动态泛化共指消解方法,其特征在于泛化点中特征取值类型分为:枚举型、确定无穷型或变化无穷型;所述步骤H中所述动态泛化算法的具体过程为:
i、所述的泛化点生成过程,为待分类的实例生成泛化点,所有泛化点形成泛化点集G;
ii、训练实例库全部实例作为待筛选的实例集S;
iii、根据泛化点选取标准,从泛化点集G中选取一个泛化点g,使得S中拥有该泛化点的所有实例构成的子集G’满足选取标准,该泛化点g称之为最佳泛化点;
iv、从G中删除g,令S={原S中拥有泛化点g的所有实例};
v、如果S中所有实例均属于同一类别(即均为正例或均为反例),或者G为空,最终剩余实例子集S中正例所占比例作为该待分类实例的正例置信度,终止迭代;反之,返回第iii步。
6.根据权利要求5所述的一种基于实例的动态泛化共指消解方法,其特征还在于设计以下选取泛化点标准供步骤iii选用:
a.正、反例所占比例差的绝对值最大化,拥有该泛化点的实例子集G’中,正例所占比例与反例所占比例差的绝对值最大化;
b.覆盖实例数量最大化,拥有该泛化点的实例子集G’中,实例数量最大化;
c.正例数量最大化,拥有该泛化点的实例子集G’中,正例数量最大化;
d.覆盖实例数量最少化,拥有该泛化点的实例子集G’非空的情况下,实例数量最小化;
e.正例所占比例最大化,拥有该泛化点的实例子集G’中,正例所占比例最大化。
7.根据权利要求6所述的一种基于实例的动态泛化共指消解方法,其特征在于步骤iii中选择泛化点还存在如下优先次序:
首先,当变化无穷型泛化点子集非空时,根据泛化点选取标准,优先从变化无穷型泛化点子集中选取最佳泛化点;
其次,当确定无穷型泛化点子集非空时,根据泛化点选取标准,优先从确定无穷型泛化点子集中选取最佳泛化点;
最后,根据泛化点选取标准,从使用枚举型泛化点子集中选取最佳泛化点。
8.根据权利要求6或7所述的一种基于实例的动态泛化共指消解方法,其特征在于步骤iii中计算实例子集G’时,泛化点匹配因类型差异采取不同策略:
a.对枚举型泛化点和确定无穷型泛化点g,一个实例拥有g当且仅当该实例其中一个泛化点与g完全相同;
b.对变化无穷型泛化点,逐一删除图结构中的节点以放松约束,直至修剪后的子结构至少在一个训练实例中作为子图出现,则以该子结构对训练实例进行筛选。
9.根据权利要求8所述的一种基于实例的动态泛化共指消解方法,其特征在于步骤I中根据各候选实例的正例置信度给出二元分类结果过程为:如果动态泛化算法为候选实例给出的正例置信度超过0.5,则将该候选实例判断为正例,即相应两名词短语间存在共指关系。
10.根据权利要求9所述的一种基于实例的动态泛化共指消解方法,其特征在于对于特征取值为连接先行语和照应语的短语结构句法树的变化无穷型泛化点,具体修剪方式为:
a.短语结构句法树中连接先行语与照应语的最短路径称为“关键路径”;
b.从短语结构句法树的最底层节点开始,“关键路径”上的节点除外,依次删除每层节点,直至修剪后的子结构至少在一个训练实例中作为子图出现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102397366A CN101901213A (zh) | 2010-07-29 | 2010-07-29 | 一种基于实例动态泛化的共指消解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102397366A CN101901213A (zh) | 2010-07-29 | 2010-07-29 | 一种基于实例动态泛化的共指消解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101901213A true CN101901213A (zh) | 2010-12-01 |
Family
ID=43226756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102397366A Pending CN101901213A (zh) | 2010-07-29 | 2010-07-29 | 一种基于实例动态泛化的共指消解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101901213A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081659A (zh) * | 2011-01-14 | 2011-06-01 | 南开大学 | 倒排索引压缩的预处理方法 |
CN103150405A (zh) * | 2013-03-29 | 2013-06-12 | 苏州大学 | 一种分类模型建模方法、中文跨文本指代消解方法和*** |
CN103838559A (zh) * | 2012-11-23 | 2014-06-04 | 富士通株式会社 | 用于组合工具的方法和装置 |
CN104142914A (zh) * | 2013-05-10 | 2014-11-12 | 富士通株式会社 | 带反馈的功能模块组合方法和装置、数据处理方法和设备 |
CN105260457A (zh) * | 2015-10-14 | 2016-01-20 | 南京大学 | 一种面向共指消解的多语义网实体对比表自动生成方法 |
CN106445911A (zh) * | 2016-03-18 | 2017-02-22 | 苏州大学 | 一种基于微观话题结构的指代消解方法及*** |
CN106776550A (zh) * | 2016-12-06 | 2017-05-31 | 桂林电子科技大学 | 一种英语作文语篇连贯质量的分析方法 |
CN108280064A (zh) * | 2018-02-28 | 2018-07-13 | 北京理工大学 | 分词、词性标注、实体识别及句法分析的联合处理方法 |
CN110362682A (zh) * | 2019-06-21 | 2019-10-22 | 厦门美域中央信息科技有限公司 | 一种基于统计机器学习算法的实体共指消解方法 |
CN112001190A (zh) * | 2020-07-20 | 2020-11-27 | 北京百度网讯科技有限公司 | 自然语言处理模型的训练方法、装置、设备及存储介质 |
-
2010
- 2010-07-29 CN CN2010102397366A patent/CN101901213A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081659A (zh) * | 2011-01-14 | 2011-06-01 | 南开大学 | 倒排索引压缩的预处理方法 |
CN103838559A (zh) * | 2012-11-23 | 2014-06-04 | 富士通株式会社 | 用于组合工具的方法和装置 |
CN103150405A (zh) * | 2013-03-29 | 2013-06-12 | 苏州大学 | 一种分类模型建模方法、中文跨文本指代消解方法和*** |
CN103150405B (zh) * | 2013-03-29 | 2014-12-10 | 苏州大学 | 一种分类模型建模方法、中文跨文本指代消解方法和*** |
CN104142914A (zh) * | 2013-05-10 | 2014-11-12 | 富士通株式会社 | 带反馈的功能模块组合方法和装置、数据处理方法和设备 |
CN105260457A (zh) * | 2015-10-14 | 2016-01-20 | 南京大学 | 一种面向共指消解的多语义网实体对比表自动生成方法 |
CN105260457B (zh) * | 2015-10-14 | 2018-07-13 | 南京大学 | 一种面向共指消解的多语义网实体对比表自动生成方法 |
CN106445911A (zh) * | 2016-03-18 | 2017-02-22 | 苏州大学 | 一种基于微观话题结构的指代消解方法及*** |
CN106445911B (zh) * | 2016-03-18 | 2022-02-22 | 苏州大学 | 一种基于微观话题结构的指代消解方法及*** |
CN106776550B (zh) * | 2016-12-06 | 2019-12-13 | 桂林电子科技大学 | 一种英语作文语篇连贯质量的分析方法 |
CN106776550A (zh) * | 2016-12-06 | 2017-05-31 | 桂林电子科技大学 | 一种英语作文语篇连贯质量的分析方法 |
CN108280064A (zh) * | 2018-02-28 | 2018-07-13 | 北京理工大学 | 分词、词性标注、实体识别及句法分析的联合处理方法 |
CN108280064B (zh) * | 2018-02-28 | 2020-09-11 | 北京理工大学 | 分词、词性标注、实体识别及句法分析的联合处理方法 |
CN110362682A (zh) * | 2019-06-21 | 2019-10-22 | 厦门美域中央信息科技有限公司 | 一种基于统计机器学习算法的实体共指消解方法 |
CN112001190A (zh) * | 2020-07-20 | 2020-11-27 | 北京百度网讯科技有限公司 | 自然语言处理模型的训练方法、装置、设备及存储介质 |
US20220019736A1 (en) * | 2020-07-20 | 2022-01-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training natural language processing model, device and storage medium |
KR20220011082A (ko) * | 2020-07-20 | 2022-01-27 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 자연 언어 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 기록 매체 |
KR102549972B1 (ko) * | 2020-07-20 | 2023-06-29 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 자연 언어 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 기록 매체 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101901213A (zh) | 一种基于实例动态泛化的共指消解方法 | |
CN108763333B (zh) | 一种基于社会媒体的事件图谱构建方法 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN106503192B (zh) | 基于人工智能的命名实体识别方法及装置 | |
CN107704892B (zh) | 一种基于贝叶斯模型的商品编码分类方法以及*** | |
CN111143479B (zh) | 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法 | |
CN101630314B (zh) | 一种基于领域知识的语义查询扩展方法 | |
CN111680173A (zh) | 统一检索跨媒体信息的cmr模型 | |
CN110046351B (zh) | 规则驱动下基于特征的文本关系抽取方法 | |
CN111190900B (zh) | 一种云计算模式下json数据可视化优化方法 | |
CN110321432A (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
CN106095762A (zh) | 一种基于本体模型库的新闻推荐方法及装置 | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN104679867B (zh) | 基于图的地址知识处理方法及装置 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及*** | |
CN110263325A (zh) | 中文分词*** | |
CN116501875B (zh) | 一种基于自然语言和知识图谱的文档处理方法和*** | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN112926337B (zh) | 一种结合重构句法信息的端到端方面级情感分析方法 | |
CN104391837A (zh) | 一种基于格语义的智能语法分析方法 | |
CN116244445A (zh) | 航空文本数据标注方法及其标注*** | |
CN114996467A (zh) | 基于语义相似度的知识图谱实体属性对齐算法 | |
CN115935995A (zh) | 面向知识图谱生成的非遗丝织领域实体关系抽取方法 | |
CN110489539A (zh) | 基于文档的智能办公文件推送技术 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20101201 |