CN105988990B - 汉语零指代消解装置和方法、模型训练方法和存储介质 - Google Patents

汉语零指代消解装置和方法、模型训练方法和存储介质 Download PDF

Info

Publication number
CN105988990B
CN105988990B CN201510088829.6A CN201510088829A CN105988990B CN 105988990 B CN105988990 B CN 105988990B CN 201510088829 A CN201510088829 A CN 201510088829A CN 105988990 B CN105988990 B CN 105988990B
Authority
CN
China
Prior art keywords
zero
candidate
pronoun
word
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510088829.6A
Other languages
English (en)
Other versions
CN105988990A (zh
Inventor
赵知纬
小林贤一郎
吴友政
山冈启介
张宇
尹庆宇
张伟男
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to CN201510088829.6A priority Critical patent/CN105988990B/zh
Priority to US15/054,471 priority patent/US9875231B2/en
Publication of CN105988990A publication Critical patent/CN105988990A/zh
Application granted granted Critical
Publication of CN105988990B publication Critical patent/CN105988990B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种用于汉语中的零指代消解的装置和方法以及训练方法,该装置包括:特征向量提取单元,被配置为从输入的文本中提取分别基于候选零代词位置、每个候选零代词位置的候选零代词类别‑候选名词词对的特征向量;以及分类器,被配置为将特征向量输入到联合模型中,以确定文本中的零代词。

Description

汉语零指代消解装置和方法、模型训练方法和存储介质
技术领域
本发明的实施例总体上涉及信息处理领域,具体地涉及自然语言处理,更具体地,涉及一种用于汉语中的零指代消解的装置和方法,以及相应的模型训练方法。
背景技术
省略是汉语会话里常见的现象,由于这些省略,计算机难以自动地理解句子。例如,零指代是零代词与代词指代两种语言现象的合称,这两种语言现象都是汉语里常见的语言现象。
零代词指的是汉语里常常会把在前文出现过的代词在后文中省略,例如:俄罗斯作为米洛舍维奇一贯的支持者,*它*曾经提出调停这场政治危机。该例句中的“*它*”即为一个在行文中的零代词,在行文中是被省略、不出现的。
代词指代指的是汉语文本当中,经常使用代词来代替前文出现过的事物等,例如:李明怕高妈妈一人呆在家里寂寞,他便将家里的电视搬了过来。例句中的“他”实际指代的是“李明”。
零指代消解包括两个方面,即零代词恢复与代词指代消解。零代词恢复即为找出行文中被省略的代词,并将恢复出来代词添加回句子中;代词指代消解目标为在对恢复完代词的句子,找出每个代词所具体指代的事物。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本申请的一个方面,提供了一种用于汉语中的零指代消解的装置,包括:特征向量提取单元,被配置为从输入的文本中提取分别基于候选零代词位置、每个候选零代词位置的候选零代词类别-候选名词词对的特征向量;以及分类器,被配置为将特征向量输入到联合模型中,以确定文本中的零代词。
根据本申请的另一个方面,提供了一种用于汉语中的零指代消解的方法,包括:从输入的文本中提取分别基于候选零代词位置、每个候选零代词位置的候选零代词类别-候选名词词对的特征向量;以及将特征向量输入到联合模型中来进行分类,以确定文本中的零代词。
根据本申请的另一个方面,还提供了一种用于汉语中的零指代消解的联合模型的训练方法,包括:输入标注有零代词和零代词指代信息的训练文本集;根据标注获得训练文本集中的每一个文本中的候选零代词位置和零代词类别、以及候选零代词类别-候选名词词对;获取候选零代词位置的特征向量、以及候选零代词类别-候选名词词对的特征向量;基于特征向量和已标注信息来训练联合模型。
依据本发明的其它方面,还提供了用于实现上述用于汉语中的零指代消解的方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述方法的计算机程序代码的计算机可读存储介质。
根据本发明的装置和方法以及训练方法通过采用联合模型,将零指代消解转化为零代词类别-代词消解联合最优解的问题,有效地避免了误差的累积,提高了零指代消解的性能。
通过以下结合附图对本发明的优选实施例的详细说明,本发明的上述以及其他优点将更加明显。
附图说明
为了进一步阐述本发明的以上和其它优点和特征,下面结合附图对本发明的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本发明的典型示例,而不应看作是对本发明的范围的限定。在附图中:
图1是根据本申请的一个实施例的用于汉语中的零指代消解的装置的结构框图;
图2是根据本申请的一个实施例的联合模型的示例的结构图;
图3是根据本申请的实施例的基于联合模型的方法与传统方法的性能比较的图;
图4是根据本申请的一个实施例的用于汉语中的零指代消解的方法的流程图;
图5是根据本申请的一个实施例的用于汉语中的零指代消解的联合模型的训练方法的流程图;以及
图6是其中可以实现根据本发明的实施例的方法和/或装置和/或***的通用个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与***及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
如上所述,在本文中,零代词指的是文本中出于使得语言简洁或符合语言习惯的目的而被省略的代词。零指代消解指的是如下过程:在文本中找出被省略的零代词(零代词恢复),并且找到这个代词实际指代的名词(代词指代消解)。
如果将零代词恢复与代词指代消解两个步骤以流水线的方式顺序进行,则在零代词恢复错误的情况下将会导致代词指代消解结果的进一步偏离,因此性能较差。而在本申请中,采用了联合模型,对上述两个问题同时进行优化,避免了误差的累积。
如图1所示,根据本申请的一个实施例的用于汉语中的零指代消解的装置100包括:特征向量提取单元101,被配置为从输入的文本中提取分别基于候选零代词位置、每个候选零代词位置的候选零代词类别-候选名词词对的特征向量;以及分类器102,被配置为将特征向量输入到联合模型中,以确定文本中的零代词。
例如,该输入的文本已经完成了分词、词性标注、命名实体识别和依存句法分析的操作。其中,依存句法分析指的是将一个句子解析成这样一个树状结构:句子中核心动词处于支配其它词的中心位置;其它词直接依存于某一词;任何一个词都不同时依存于两个或两个以上的其他词。命名实体识别指的是识别出文本中代表现实生活中的实体概念的词语。由于这些操作与本发明的主旨并不密切相关,且可以采用已有技术进行,在此不再详细描述。
针对该输入的文本,特征向量提取单元101首先获得候选零代词位置,候选零代词位置为可能存在零代词的位置,例如将句子中每一词语的左侧作为候选零代词位置,然后提取该候选零代词位置的特征向量。此外,针对每一个候选零代词位置,可能有某一个适当的零代词类别,比如:我、我们、你、你们、他、他们、她、她们、它、它们等,此外还可以没有零代词,即NULL。针对每一个候选零代词位置的候选零代词类别,可以提取相关的句子中比如在该位置之前的N(例如,N为3)个句子中的所有名词,从而形成候选零代词类别-候选名词词对,特征向量提取单元101提取其特征向量。在获得了上述特征向量之后,分类器102将其输入到联合模型中,从而最终判断哪一个候选零代词位置上最可能存在零代词以及该零代词最可能指代哪一个名词。
假设零代词用p表示,p=p1,…,pn,其中,pi∈P,1≤i≤n,P为代词集合,例如包括上述我、我们、你、你们、他、他们、她、她们、它、它们、NULL的集合,则分类器102解决如下问题:
Figure GDA0002918702840000041
其中,
Figure GDA0002918702840000042
Figure GDA0002918702840000043
其中,w代表句子中词语,r代表代词指代消解过程,其中,
Figure GDA0002918702840000051
n代表恢复的零代词p所指代的名词。
Figure GDA0002918702840000052
Figure GDA0002918702840000053
分别代表最优的零代词恢复和最优的代词指代消解。
可以看出,装置100联合完成了寻找零代词类别-代词消解的优化,因此可以有效地避免误差的累积,提供零指代消解的性能。
其中,上述联合模型是基于训练文本集预先训练获得的,并且装置100例如在工作时加载该联合模型。下文中将结合模型的训练过程给出装置100的具体示例。
在训练联合模型时,首先输入标注了零代词以及零代词指代信息的训练文本集。类似地,该文本集中的文本也可以是已经完成了分词、词性标注、命名实体识别和依存句法分析的文本。并且通过人工标注的方法获得在每一个词语的左侧是否存在一个零代词,以及如果存在这样的零代词,其指代的名词为哪个。例如,可以将这样的零代词以及零代词指代信息与对应的句子存放到同一个文件内,比如一行存放句子,接着一行存放零代词以及零代词的指代信息。
根据训练文本集的零代词以及零代词指代信息,可以得到标注有零代词类别的候选零代词位置作为训练实例。例如,假设原句为:“俄罗斯作为米洛舍维奇一贯的支持者,曾经提出调停这场政治危机。”
用“#”表示在每一个词语左侧的候选零代词位置,该句表示如下“#俄罗斯#作为#米洛舍维奇#一贯#的#支持者#,#曾经#提出#调停#这#场#政治#危机#。”
根据上述候选零代词位置的指定方式,该句将产生15个候选零代词位置,即有15个#,编号以词语索引来表示:○0表示第0个词“俄罗斯”左侧的候选零代词位置,即第1个#,以此类推。根据标注信息,在第1个#处的零代词标签为0,即没有零代词;○7表示第7个词“曾经”左侧的候选零代词位置,即第7个#,根据标注信息,该位置的零代词标签为“它”。因此,包括该标注信息的句子表示为“#俄罗斯#作为#米洛舍维奇#一贯#的#支持者#,*它*曾经#提出#调停#这#场#政治#危机#。”,其中,标注信息为“曾经”的左边存在一个零代词“*它*”,“*”表明这是一个零代词,这个“*它*”指代的是“俄罗斯”。
接下来,获取候选零代词位置的特征向量。例如,该特征向量中包括的以下特征中的至少一种:语法特征;词汇特征;结构特征;代词特定特征。这些特征可以从通过依存句法分析获得的树状结构的表示中获得。
作为示例,语法特征包括:当前节点标签、父节点标签、前一节点标签、祖父节点标签、最左兄弟标签、最右兄弟标签、前一节点子节点标签、左兄弟标签、右兄弟标签、当前词的依存关系、头词的依存关系。词汇特征包括:当前词的词性、前一词的词性、当前词、前一词、当前词是否是动词、当前词是否是及物动词。结构特征包括:当前词与前一词之间的词距离、归一化的当前词与前一词之间的词距离、当前词与最近的动词之间的词距离、从当前词到前一词之间的路径、从当前词到根节点的路径。代词特定特征包括:出现在当前词之前的最近的代词;上一句子的代词集合。
具体地,在一个示例中,候选零代词位置的特征向量包括如下特征的至少之一:候选零代词位置对应的当前词的语法特征、所述当前词的依存树父节点的语法特征、所述当前词前一个词的语法特征、所述当前词与其依存树父节点之间的距离、所述当前词与其依存树父节点之间的依存子树中不包括所述当前词及其父节点在内的动词的数量、所述当前词与其依存树父节点之间的依存子树中不包括所述当前词及其父节点在内的逗号的数量、所述当前词的依存树父节点的动词词性特征、所述当前词词性和所述当前词与其父节点的依存弧标签以及所述当前词父节点词性和所述当前词父节点与更高级父节点的依存弧标签、所述当前词词性和所述当前词到依存树根节点路径的组合。
例如,可以进行如下操作(仍以上文中的例句为例):
1)提取当前词的语法特征:即提取候选零代词位置的编号所对应的词语的相关特征,例如包括词、词性、依存树父节点词以及其与依存树父节点间的依存弧标签。以候选零代词位置7○为例,当前词即为句子的第7个词:“曾经”(后文中的“当前词”同此处定义),词性为d(意为该词是一个副词),依存树父节点词为“提出”,依存弧标签为ADV(意为该词是作为其依存树父节点词的状语成分)。
2)提取当前词的依存树父节点的语法特征:即提取父节点所对应词语的相关特征,例如包括词、词性、依存树父节点词以及其与依存树父节点间的依存弧标签。仍以候选零代词位置7○对应的当前词为例,其父节点词为“提出”,父节点词性为v(动词),父节点在依存树上的更上一级父节点词为ROOT(根节点),相应依存弧标签为HED。
3)提取当前词前一个词的语法特征:即提取前一个词的相关特征,例如包括词、词性、依存树父节点词以及其与依存树父节点间的依存弧标签。仍以候选零代词位置⑦对应的当前词为例,其前一个词为“,”词性为wp,依存树父节点词为“作为”,依存弧标签为WP。
4)提取当前词与其依存树父节点之间所相隔的距离。仍以候选零代词位置7○对应的当前词为例,其在句中的位置为7,其父节点在句中的位置为8,所以该特征取值为1。
5)提取当前词与其依存父节点之间的依存子树中不包含当前词及其父节点在内的动词的数量。以候选零代词位置7○对应的当前词为例,其与之依存父节点之间的依存子树为“曾经提出”,因为没有动词,所以该特征取值为0。
6)提取当前词与其依存父节点之间的依存子树中不包含当前词及其父节点在内的逗号的数量。以候选零代词位置7○对应的当前词为例,其与之依存父节点之间的依存子树为“曾经提出”,因为没有逗号,所以该特征取值为0。
7)提取当前词的依存父节点的动词词性特征:如果依存父节点的词性为动词,那么其特征取值为1,反之为0。以候选零代词位置○7对应的当前词为例,其依存父节点的词性为v,所以该特征取值为1。
8)提取当前词词性、当前词与其父节点的依存弧标签,以及当前词父节点词性、当前词父节点与更高级父节点的依存弧标签,并组合起来。以候选零代词位置7○对应的当前词为例,当前词词性为d,当前词与其父节点的依存弧标签为ADV,当前词父节点词性为v,当前词父节点与更高级父节点的依存弧标签为HED,组合起来即为“d ADV HED v”。
9)提取当前词词性,以及当前词到依存树根节点路径,并组合起来。以候选零代词位置⑦对应的当前词为例,当前词词性为d,当前词到依存树根节点为“ADV HED ROOT”,组合起来即为“d ADV HED ROOT”。
在如上获得特征向量后,基于该特征向量及其对应的零代词类别来训练多元分类模型,该模型用于判断候选零代词位置-候选零代词类别。例如,该模型可以为最大熵模型。在训练时可以使用最大熵建模工具来获得该多元分类模型。而在实际使用预存的该多元分类模型时,输入特征向量即可获得其对应的候选零代词类别的恢复概率。
接下来,根据训练文本集标注的零代词以及零代词指代信息,得到标注有指代关系的候选零代词类别-候选名词词对。具体地,仍以前文中的句子为例,“曾经”的左边存在一个零代词“*它*”,在其前面的句子中存在三个名词“俄罗斯”、“支持者”和“米洛舍维奇”,则得到3组零代词-候选名词词对,分别为:(*它*,俄罗斯),(*它*,支持者),(*它*,米洛舍维奇)。其中,像(*它*,俄罗斯)这样的具有指代关系的样本标签为1,而(*它*,米洛舍维奇)这样的没有指代关系的样本标签为0。
针对每一个零代词-候选名词词对获取其特征向量。该特征向量可以包括以下特征中的至少一种:词汇特征、语法特征;二元文法特征;代词特定特征。
具体地,例如,对于零代词-候选名词词对(i,j),其中,i是代词,j是名词,词汇特征包括:词j;词性i;词性j;j是否是命名实体;词j的依存关系;词i的依存关系;j的前一词;i的前一词。语法特征包括:从j到其前一词路径;从i到其前一词的路径;从i到其根节点词的路径;从j到其根节点词的路径;i的父节点;j的父节点。二元文法特征指的是词对的语言模式得分。代词特定特征包括:词i的性别信息;词j的数量信息。
在一个示例中,零代词类别-候选名词词对的特征向量包括如下特征的至少之一:名词的语法特征、零代词的语法特征、名词的词性和名词与其父节点的依存弧标签以及名词父节点词性和名词父节点与更高级父节点的依存弧标签、名词词性和名词到依存树根节点路径、零代词的词性和零代词与其父节点的依存弧标签以及零代词父节点词性和零代词父节点与更高级父节点的依存弧标签、零代词词性和零代词到依存树根节点路径、名词与零代词后面一个词在大规模文本中统计出来的二元文法概率。
例如,可以进行如下操作(仍以上文中的例句为例):
1)提取名词的语法特征:即提取一个零代词-候选名词词对中的名词的相关特征,包括词、词性、命名实体类别以及其与依存树父节点间的依存弧标签。以(*它*,俄罗斯)词对为例,其中的名词是“俄罗斯”,所以词为“俄罗斯”,词性为n(意为该词是个名词),命名实体类别为ns(表明该词是一个地理上的命名实体),依存弧标签为SBV(意为该名词是作为其依存树父节点词的主语成分)。
2)提取零代词的语法特征:即提取一个零代词-候选名词词对中的零代词的相关特征,包括词、词性、命名实体类别、其与依存树父节点间的依存弧标签,以及性别与单复数。仍以(*它*,俄罗斯)词对为例,其中的零代词是“*它*”,所以词为“它”,词性为r,命名实体类别为o,依存弧标签为ADV,性别为None(表明该代词不具有性别信息),单复数为single(表明该代词用于指代单数名词)。
3)提取名词的词性、名词与其父节点的依存弧标签,以及名词父节点词性、名词父节点与更高级父节点的依存弧标签,并组合起来。以(*它*,俄罗斯)词对为例,其中的名词是“俄罗斯”,所以词为“俄罗斯”,词性为n,名词与其父节点的依存弧标签为SBV,名词父节点词性为v,名词父节点与更高级父节点的依存弧标签为HED,组合起来即为“d SBV HEDv”。
4)提取名词词性,以及名词到依存树根节点路径,并组合起来。以(*它*,俄罗斯)词对为例,其中的名词是“俄罗斯”,所以词为“俄罗斯”,词性为n,名词到依存树根节点路径为“SBV HED ROOT”,组合起来即为“n SBV HED ROOT”。
5)提取零代词的词性、零代词与其父节点的依存弧标签,以及零代词父节点词性、零代词父节点与更高级父节点的依存弧标签,并组合起来。以(*它*,俄罗斯)词对为例,其中的零代词是“*它*”,所以词为“它”,词性为r,零代词与其父节点的依存弧标签为ADV,名词父节点词性为v,名词父节点与更高级父节点的依存弧标签为HED,组合起来即为“d ADVHED v”。
6)提取零代词词性,以及零代词到依存树根节点路径,并组合起来。以(*它*,俄罗斯)词对为例,其中的零代词是“*它*”,所以词为“它”,词性为r,零代词到依存树根节点路径为“ADV HED ROOT”,组合起来即为“n ADV HED ROOT”。
7)提取名词与零代词后边一个词在大规模文本中统计出来的2元文法概率。以(*它*,俄罗斯)词对为例,其中零代词“*它*”的后一个词是“提出”,假设“俄罗斯提出”这样一个2元文法在一组大规模文本中出现的概率为0.00124,则该特征取值为0.00124。
在如上获得特征向量后,基于该特征向量以及所标注的是否具有指代关系的信息来训练二元分类模型,该模型用于判断零代词与候选名词是否具有指代关系。例如,该模型可以为最大熵模型。在训练时可以使用最大熵建模工具来获得该二元分类模型。而在实际使用预存的该二元分类模型时,输入特征向量即可获得该对零代词和候选名词存在指代关系的消解概率。
然后,根据训练文本集标注的零代词与零代词指代信息,以及以上得到的多元分类模型和二元分类模型,得到标注有正负例的候选零代词位置-候选零代词类别-候选名词三元组。具体地,对一个句子中所有标注了零代词的候选零代词位置,利用所获得的多元分类模型得到该候选零代词位置对应每种零代词类别的恢复概率;对一个句子中的每个标注了零代词的候选零代词位置以及每种类别的零代词,利用所获得的二元分类模型,得到该位置的该类别零代词被消解为该位置前各个候选名词的消解概率;对于每个候选零代词位置-候选零代词类别-候选名词三元组,将训练文本集中标注出来的三元组认作是正例,将其余的三元组认作为负例。
例如,在上述句子“俄罗斯作为米洛舍维奇一贯的支持者,*它*曾经提出调停这场政治危机。”中,标注信息为“曾经”的左边存在一个被省略的“*它*”,这个“*它*”指代的是“俄罗斯”。候选零代词位置为⑦,利用上述多元分类模型,得到⑦被恢复成“*它*”的概率为0.254、⑦被恢复成“*他*”的概率为0.144、⑦被恢复成“*她*”的概率为0.106、⑦被恢复成“*我*”的概率为0.077、等等。
对于候选零代词位置⑦被恢复为“*它*”这一候选,(*它*,俄罗斯)具有指代关系的消解概率是0.447,为正例;(*它*,米洛舍维奇)具有指代关系的消解概率是0.100,为负例;(*它*,支持者)具有指代关系的消解概率是0.204,也为负例。
使用针对训练数据集获得的上述结果,即,对于每一个三元组,将其候选零代词位置-候选零代词类别的恢复概率视为第1维特征,将候选零代词类别-候选名词的消解概率视为第2维特征,连同这个三元组的正负例标签输入到另一个二元分类模型(第二二元分类模型)中进行训练,该模型用于判断该三元组所代表的零指代消解结果的置信度。例如,在实际中使用该模型进行判断时,所获得的结果表示在该候选零代词位置处存在该候选零代词类别并且其指代该候选名词的正确(正例)或错误(负例)的概率。
作为示例,第二二元分类模型可以为支持向量机模型。在训练时可以使用支持向量机的建模工具来获得该模型。
例如,在线性模型下,可以选择如下置信度最高的三元组(w,p,r)。
Scorejoint(w,p,r)=α*Scoredp(w,p)+β*Scoreresolution(w,p,r) (4)
其中,
Figure GDA0002918702840000111
Figure GDA0002918702840000112
其中,参数α和β可以通过自动训练获得,公式(5)和(6)可以分别基于上述恢复概率和消解概率获得。其中,w代表句子中的某一个词,pi是词w的预测代词。在式(5)中,fk(w,pi)代表特征向量,Z(w)=∑n∈Pexp(∑kλkfk(w,p))是归一化因子。类似地,在式(6)中Z(w,p)=∑r∈Rexp(∑kλkfk(w,p,r)),是归一化因子。
在通过上述训练过程获得了联合模型之后,装置100可以使用这些联合模型来对输入的文本进行零指代消解。
如图2所示,在一个示例中,联合模型200可以包括:多元分类模型201,被配置为基于所述候选零代词位置的特征向量进行分类,以获得该候选零代词位置上的零代词类别的恢复概率;第一二元分类模型202,被配置为针对包括各个候选零代词位置的各个零代词类别的零代词类别-候选名词词对的特征向量进行分类,以获得该候选零代词位置上的每一对零代词类别-候选名词词对存在指代关系的消解概率;以及第二二元分类模型203,被配置为基于所述恢复概率和所述消解概率对每一个候选零代词位置-零代词类别-候选名词三元组进行分类,以获得恢复消解结果。
其中,在实际使用过程中,各个特征向量设置和提取方式与前述训练过程中的相同,在此不再重复。
在一个示例中,恢复消解结果包括结果标号以及相应的置信度,其中,结果标号表示是正例还是负例,分类器102被配置为选择结果标号为正例且置信度最高的候选零代词位置-零代词类别-候选名词三元组,并且将该三元组中的零代词位置中的零代词类别作为文本中的零代词,将该三元组中的候选名词作为所述零代词指代的名词。
图3示出了采用上述联合模型以及采用传统的流水线方法所获得的零指代消解的性能的比较。其中,准确率(P)指的是***识别出的正确的关系实例占***识别出的所有关系实例的百分比;召回率(R)是指***识别出的正确的关系实例占所有正确的关系实例的百分比;F1测度是指准确率和召回率的调和平均值,定义为
Figure GDA0002918702840000121
可以看出,本发明的基于联合模型的方法可以获得较好的性能,F1指数明显提高。
在上文的实施方式中描述用于汉语中的零指代消解的装置的过程中,显然还公开了一些处理或方法。下文中,在不重复上文中已经讨论的一些细节的情况下给出这些方法的概要,但是应当注意,虽然这些方法在描述用于汉语中的零指代消解的装置的过程中公开,但是这些方法不一定采用所描述的那些部件或不一定由那些部件执行。例如,用于汉语中的零指代消解的装置的实施方式可以部分地或完全地使用硬件和/或固件来实现,而下面讨论的用于汉语中的零指代消解的方法可以完全由计算机可执行的程序来实现,尽管这些方法也可以采用用于汉语中的零指代消解的装置的硬件和/或固件。
如图4所示,根据本申请的一个实施例的用于汉语中的零指代消解的方法包括如下步骤:从输入的文本中提取分别基于候选零代词位置、每个候选零代词位置的候选零代词类别-候选名词词对的特征向量(S11);以及将特征向量输入到联合模型中来进行分类,以确定文本中的零代词(S12)。
如图5所示,根据本申请的一个实施例的用于汉语中的零指代消解的联合模型的训练方法包括:输入标注有零代词和零代词指代信息的训练文本集(S21);根据标注获得训练文本集中的每一个文本中的候选零代词位置和零代词类别、以及候选零代词类别-候选名词词对(S22);获取候选零代词位置的特征向量、以及候选零代词类别-候选名词词对的特征向量(S23);基于特征向量和已标注信息来训练联合模型(S24)。
注意,上述方法的细节在对装置100的描述过程中已经进行了详细描述,在此不再重复。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者其组合的形式实现,这是本领域的技术人员在阅读了本发明的描述的情况下利用其基本电路设计知识或者基本编程技能就能实现的。
而且,本发明还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在通过软件或固件实现本发明的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图6所示的通用计算机600)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,也根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。
下述部件连接到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡比如LAN卡、调制解调器等)。通信部分609经由网络比如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口605。可移除介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上,使得从中读出的计算机程序根据需要被安装到存储部分608中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可移除介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质611。可移除介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,在本发明的装置、方法和***中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应该视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按时间顺序执行。某些步骤可以并行或彼此独立地执行。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims (11)

1.一种用于汉语中的零指代消解的装置,包括:
特征向量提取单元,被配置为从输入的文本中提取分别基于候选零代词位置、每个候选零代词位置的每个零代词类别的候选零代词类别-候选名词词对的特征向量;以及
分类器,被配置为将所述特征向量输入到联合模型中,以确定所述文本中的零代词,其中所述联合模型包括第一二元分类模型,被配置为针对所述每个候选零代词位置的每个零代词类别的候选零代词类别-候选名词词对的特征向量进行分类,以获得该候选零代词位置上的每一对候选零代词类别-候选名词词对存在指代关系的消解概率。
2.根据权利要求1所述的装置,其中,所述联合模型还包括:
多元分类模型,被配置为基于所述候选零代词位置的特征向量进行分类,以获得该候选零代词位置上的零代词类别的恢复概率;以及
第二二元分类模型,被配置为基于所述恢复概率和所述消解概率对每一个候选零代词位置-零代词类别-候选名词三元组进行分类,以获得恢复消解结果。
3.根据权利要求2所述的装置,其中,所述恢复消解结果包括结果标号以及相应的置信度,所述分类器被配置为选择结果标号为正例且置信度最高的候选零代词位置-零代词类别-候选名词三元组,并且将该三元组中的零代词位置中的零代词类别作为所述文本中的零代词,将该三元组中的候选名词作为所述零代词指代的名词。
4.根据权利要求2所述的装置,其中,所述多元分类模型和所述第一二元分类模型为最大熵模型。
5.根据权利要求2所述的装置,其中,所述第二二元分类模型为支持向量机模型。
6.根据权利要求1所述的装置,其中,所述联合模型是基于训练文本集预先训练获得的。
7.根据权利要求1所述的装置,其中,所述基于候选零代词位置的特征向量包括如下特征的至少之一:
候选零代词位置对应的当前词的语法特征、所述当前词的依存树父节点的语法特征、所述当前词前一个词的语法特征、所述当前词与其依存树父节点之间的距离、所述当前词与其依存树父节点之间的依存子树中不包括所述当前词及其父节点在内的动词的数量、所述当前词与其依存树父节点之间的依存子树中不包括所述当前词及其父节点在内的逗号的数量、所述当前词的依存树父节点的动词词性特征、所述当前词词性和所述当前词与其父节点的依存弧标签以及所述当前词父节点词性和所述当前词父节点与更高级父节点的依存弧标签、所述当前词词性和所述当前词到依存树根节点路径的组合。
8.根据权利要求1所述的装置,其中,所述基于零代词类别-候选名词词对的特征向量包括如下特征的至少之一:
名词的语法特征、零代词的语法特征、名词的词性和名词与其父节点的依存弧标签以及名词父节点词性和名词父节点与更高级父节点的依存弧标签、名词词性和名词到依存树根节点路径、零代词的词性和零代词与其父节点的依存弧标签以及零代词父节点词性和零代词父节点与更高级父节点的依存弧标签、零代词词性和零代词到依存树根节点路径、名词与零代词后面一个词在大规模文本中统计出来的二元文法概率。
9.一种用于汉语中的零指代消解的方法,包括:
从输入的文本中提取分别基于候选零代词位置、每个候选零代词位置的每个零代词类别的候选零代词类别-候选名词词对的特征向量;以及
将所述特征向量输入到联合模型中来执行分类,以确定所述文本中的零代词,其中所述联合模型包括第一二元分类模型,被配置为针对所述每个候选零代词位置的每个零代词类别的候选零代词类别-候选名词词对的特征向量进行分类,以获得该候选零代词位置上的每一对候选零代词类别-候选名词词对存在指代关系的消解概率。
10.一种用于汉语中的零指代消解的联合模型的训练方法,包括:
输入标注有零代词和零代词指代信息的训练文本集;
根据标注获得训练文本集中的每一个文本中的候选零代词位置和零代词类别、以及候选零代词类别-候选名词词对;
获取候选零代词位置的特征向量、以及每个候选零代词位置的每个零代词类别的候选零代词类别-候选名词词对的特征向量;以及
基于所述特征向量和已标注信息来训练所述联合模型,其中所述联合模型包括第一二元分类模型,被配置为针对所述每个候选零代词位置的每个零代词类别的候选零代词类别-候选名词词对的特征向量进行分类,以获得该候选零代词位置上的每一对候选零代词类别-候选名词词对存在指代关系的消解概率。
11.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被执行时,使得执行根据权利要求9所述的方法或根据权利要求10所述的训练方法。
CN201510088829.6A 2015-02-26 2015-02-26 汉语零指代消解装置和方法、模型训练方法和存储介质 Expired - Fee Related CN105988990B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510088829.6A CN105988990B (zh) 2015-02-26 2015-02-26 汉语零指代消解装置和方法、模型训练方法和存储介质
US15/054,471 US9875231B2 (en) 2015-02-26 2016-02-26 Apparatus and method for resolving zero anaphora in Chinese language and model training method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510088829.6A CN105988990B (zh) 2015-02-26 2015-02-26 汉语零指代消解装置和方法、模型训练方法和存储介质

Publications (2)

Publication Number Publication Date
CN105988990A CN105988990A (zh) 2016-10-05
CN105988990B true CN105988990B (zh) 2021-06-01

Family

ID=56798512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510088829.6A Expired - Fee Related CN105988990B (zh) 2015-02-26 2015-02-26 汉语零指代消解装置和方法、模型训练方法和存储介质

Country Status (2)

Country Link
US (1) US9875231B2 (zh)
CN (1) CN105988990B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
CN107402913B (zh) * 2016-05-20 2020-10-09 腾讯科技(深圳)有限公司 先行词的确定方法和装置
WO2018174815A1 (en) * 2017-03-24 2018-09-27 Agency For Science, Technology And Research Method and apparatus for semantic coherence analysis of texts
CN109165386A (zh) * 2017-08-30 2019-01-08 哈尔滨工业大学 一种中文零代词消解方法及***
CN108446268A (zh) * 2018-02-11 2018-08-24 青海师范大学 藏文人称代词指代消解***
CN108563617B (zh) * 2018-03-12 2021-09-21 云知声智能科技股份有限公司 汉语句子混合模板的挖掘方法及装置
CN109726389B (zh) * 2018-11-13 2020-10-13 北京邮电大学 一种基于常识和推理的中文缺失代词补全方法
CN109582956B (zh) * 2018-11-15 2022-11-11 中国人民解放军国防科技大学 应用于句子嵌入的文本表示方法和装置
CN109471919B (zh) * 2018-11-15 2021-08-10 北京搜狗科技发展有限公司 零代词消解方法及装置
CN109783801B (zh) * 2018-12-14 2023-08-25 厦门快商通信息技术有限公司 一种电子装置、多标签分类方法及存储介质
CN110162785B (zh) * 2019-04-19 2024-07-16 腾讯科技(深圳)有限公司 数据处理方法和代词消解神经网络训练方法
CN111984766B (zh) * 2019-05-21 2023-02-24 华为技术有限公司 缺失语义补全方法及装置
CN110781685B (zh) * 2019-10-18 2022-08-19 四川长虹电器股份有限公司 基于用户反馈自动标注语义分析结果正误性的方法
CN111488733B (zh) * 2020-04-07 2023-12-19 苏州大学 基于Mask机制与孪生网络的汉语零指代消解方法及***
CN111626042B (zh) * 2020-05-28 2023-07-21 成都网安科技发展有限公司 指代消解方法及装置
CN111401036B (zh) * 2020-05-28 2020-09-25 支付宝(杭州)信息技术有限公司 一种指代消解文本的生成方法、装置及电子设备
CN111737416B (zh) * 2020-06-29 2022-08-19 重庆紫光华山智安科技有限公司 案件处理模型的训练方法、案件文本处理方法及相关装置
CN111858894B (zh) * 2020-07-29 2024-06-04 网易(杭州)网络有限公司 语义缺失的识别方法及装置、电子设备、存储介质
CN112101030B (zh) * 2020-08-24 2024-01-26 沈阳东软智能医疗科技研究院有限公司 建立术语映射模型、实现标准词映射的方法、装置及设备
CN112256868A (zh) * 2020-09-30 2021-01-22 华为技术有限公司 零指代消解方法、训练零指代消解模型的方法及电子设备
CN112163431A (zh) * 2020-10-19 2021-01-01 北京邮电大学 一种基于泛条件随机场的中文缺失代词补全方法
CN114462408A (zh) * 2020-11-10 2022-05-10 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及可读存储介质
CN114138980B (zh) * 2021-11-10 2024-07-05 竹间智能科技(上海)有限公司 事件触发词的提取方法、电子设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025659A (ja) * 2003-07-01 2005-01-27 Nippon Telegr & Teleph Corp <Ntt> ゼロ代名詞解消方法、解消装置、解消プログラムおよびプログラムを記録した記録媒体
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和***
CN103150405A (zh) * 2013-03-29 2013-06-12 苏州大学 一种分类模型建模方法、中文跨文本指代消解方法和***
CN104169909A (zh) * 2012-06-25 2014-11-26 株式会社东芝 上下文解析装置及上下文解析方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774845A (en) * 1993-09-17 1998-06-30 Nec Corporation Information extraction processor
JP2003529845A (ja) * 2000-03-31 2003-10-07 アミカイ・インコーポレイテッド ネットワーク経由の多言語翻訳を提供する方法と装置
JP4065936B2 (ja) * 2001-10-09 2008-03-26 独立行政法人情報通信研究機構 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム
US20050273314A1 (en) * 2004-06-07 2005-12-08 Simpleact Incorporated Method for processing Chinese natural language sentence
JP2006252047A (ja) * 2005-03-09 2006-09-21 Fuji Xerox Co Ltd 言語処理装置および言語処理プログラム
JP4654780B2 (ja) * 2005-06-10 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
WO2007015505A1 (ja) * 2005-08-04 2007-02-08 Nec Corporation データ処理装置、データ処理方法、データ処理プログラム
US20110131033A1 (en) * 2009-12-02 2011-06-02 Tatu Ylonen Oy Ltd Weight-Ordered Enumeration of Referents and Cutting Off Lengthy Enumerations
WO2011099355A1 (ja) * 2010-02-12 2011-08-18 日本電気株式会社 文書分析装置、文書分析方法、およびコンピュータ読み取り可能な記録媒体
JP5197774B2 (ja) * 2011-01-18 2013-05-15 株式会社東芝 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム
JP5534280B2 (ja) * 2011-04-27 2014-06-25 日本電気株式会社 テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム
US8903707B2 (en) 2012-01-12 2014-12-02 International Business Machines Corporation Predicting pronouns of dropped pronoun style languages for natural language translation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025659A (ja) * 2003-07-01 2005-01-27 Nippon Telegr & Teleph Corp <Ntt> ゼロ代名詞解消方法、解消装置、解消プログラムおよびプログラムを記録した記録媒体
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和***
CN104169909A (zh) * 2012-06-25 2014-11-26 株式会社东芝 上下文解析装置及上下文解析方法
CN103150405A (zh) * 2013-03-29 2013-06-12 苏州大学 一种分类模型建模方法、中文跨文本指代消解方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chinese Pronominal Anaphora Resolution Using Lexical Knowledge and Entropy-Based Weight;Dian-SongWu 等;《JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY》;20080717;第13卷(第59期);第2138-2145页 *
中文零指代消解研究;黄李伟;《中国优秀硕士学位论文全文数据库信息科技辑》;20110115(第01期);论文正文第3页、第18页 *

Also Published As

Publication number Publication date
US20160253309A1 (en) 2016-09-01
US9875231B2 (en) 2018-01-23
CN105988990A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN105988990B (zh) 汉语零指代消解装置和方法、模型训练方法和存储介质
JP7223785B2 (ja) 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体
US10915564B2 (en) Leveraging corporal data for data parsing and predicting
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和***
US11334608B2 (en) Method and system for key phrase extraction and generation from text
CN110427618B (zh) 对抗样本生成方法、介质、装置和计算设备
US9195646B2 (en) Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
US20150095017A1 (en) System and method for learning word embeddings using neural language models
US8321418B2 (en) Information processor, method of processing information, and program
US11514034B2 (en) Conversion of natural language query
US20180068221A1 (en) System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
JP6705318B2 (ja) 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
Qian et al. A transition-based model for joint segmentation, pos-tagging and normalization
CN103678318B (zh) 多词单元提取方法和设备及人工神经网络训练方法和设备
WO2014036827A1 (zh) 一种文本校正方法及用户设备
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
US10331789B2 (en) Semantic analysis apparatus, method, and non-transitory computer readable storage medium thereof
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
KR101983477B1 (ko) 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
Sun et al. From characters to words: Hierarchical pre-trained language model for open-vocabulary language understanding
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム
WO2022123716A1 (ja) 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置
JP4933118B2 (ja) 文章区間抽出装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210601