CN101520775B

CN101520775B - 一种融入语义信息的中文句法分析与解码方法

Info

Publication number: CN101520775B
Application number: CN2009101318275A
Authority: CN
Inventors: 吴玺宏; 迟惠生; 罗定生; 林小俊; 樊杨
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2009-02-17
Filing date: 2009-04-08
Publication date: 2012-05-30
Anticipated expiration: 2029-04-08
Also published as: CN101520775A

Abstract

本发明公开了一种结合语义信息的中文句法分析方法，属于自然语言处理技术领域。本发明的方法为：1)按照知网的上下位关系抽取出词的不同层次的语义类别，得到由词到语义类的索引；2)以句法树中的词作为键值对知网进行查询得到该词的语义类，并将语义类添加到句法树的某一层上；3)将步骤2)处理后的句法树作为训练数据，进行文法训练，得到文法模型；4)利用步骤3)训练后的文法模型对待分析的句子进行解码。与现有技术相比，本发明采用语义信息帮助句法分析消歧，使句法分析效果有显著提升。

Description

一种融入语义信息的中文句法分析与解码方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种融入语义信息的中文句法分析与解码方法，在句法分析中引入语义知识来帮助提高句法分析的性能。

背景技术

句法分析是自然语言处理当中非常重要的一项技术，它所分析的是词与词之间如何组合形成有意义的短语、句子，来揭示深层的语言规律。句法分析的结果将直接影响到对自然语言的理解。在实际的自然语言处理应用当中，一个高性能的句法分析器有利于提升信息抽取、信息检索、机器翻译、自动问答等高层应用***的性能。

句法分析过程就是在给定一套文法模型的情况下，根据一定的算法推导出句子的语法结构，通常用一种树状结构来表示。例如对一句话，“大连外贸出口额一半以上来自‘三资’企业。”，进行句法分析的结果可由附图1(a)中的结构树来表示。在这个树结构当中，最底层的叶子结点是词，称作终结符；上层的非叶子结点均称为非终结符，而非叶子结点的最底层代表词性，称作预终结符。由于自然语言普遍存在着歧义性，对于同一句话可能分析出多个不同的语法结构，因此就需要利用有效的信息和算法来消解存在的歧义，找出最合理的句法结构，这也是当前各种句法分析方法所要解决的问题。

利用统计学写的方法可以从训练语料中学习词汇和结构的偏向性信息，从而在一定程度上处理句法结构的歧义问题。一些人工标注的语法结构树库资源(如美国宾夕法尼亚大学构建的宾大树库)的出现，为提出基于统计的句法分析方法创造了条件，极大的推动了这类技术的发展。在统计句法分析方法中研究的最多的是概率上下文无关文法(PCFG：Probabilistic Context-Free Grammar)，它通过一系列的上下文无关的文法规则来描述句子结构，并且赋予每条规则一定的概率。这种方法的优点是形式简单，可在多项式时间内处理。

PCFG模型的一个问题来自于条件独立性假设，在这个假设条件下，认为任何一个非终结符(即在句法树中词结点以上的各个结点)的展开与其他非终结符的展开是相互独立的。但通过对树库中各个位置非终结符的统计分布研究发现，有时一个结点的展开是与其所在树中的位置相关的，而在简单PCFG建模时这一点是被忽略的。为了解决这一问题，就需要对基本PCFG模型进行改进，通常有两种途径：引入词汇化信息和扩展非终结符标记，后者常常又被称作非词汇化方法。引入词汇化信息方面最具代表性的工作是中心词驱动的句法分析方法，代表工作如Michael Collins在他的博士论文当中为语法规则中的每一个非终结符引入词汇、距离等信息，提高文法的区分性，非词汇化句法分析的方法主要有通过人工的方式对部分非终结符进行细化，以及通过无监督学习的方法自动细化标记从而能够覆盖更多的语言现象，代表工作为UC Berkeley的Dan Klein等人的工作。然而这两种方法也存在着各自的缺陷：词汇化方法中词汇信息的引入带来了一定的数据稀疏问题，非词汇化方法中自动细化标记存在着对语言现象的刻画是否准确等问题。

发明内容

本发明的目的在于提供一种融入语义信息的中文句法分析与解码方法，利用语义信息来帮助提高句法分析的性能，同时还可以从句法分析结果当中获得带有句法约束的语义信息。

已经有理论研究表明语义信息可以帮助句法消歧。语义概念所涉及的是词语的含义、结构和说话方式等，相关研究可以分为两个部分：研究单个词的语义(词义)以及单个词的含义是怎样联合起来组成句子的含义。语义分析的主要任务是产生语言文本的词汇语义单元表示和它们之间的依赖关系。句法分析和语义分析虽然是语言分析的两个不同层面，但两者存在着相互制约的关系。汉语的语序对语义的制约性很强，句法成分之间存在着较复杂的语义关系。在许多情况下，仅对语法形式进行句法结构分析是解释不了句子的内部规律的。因此，在中文句法分析中引入语义会有利于结构歧义的消解。

本发明通过考察句法分析和语义分析的关系，将语义信息融入到非词汇化句法分析过程中，来解决PCFG模型缺少语义信息的问题，以及通过语义标记对词性层进行进一步的细化。通过引入语义信息，帮助句法分析进行歧义消解，从而使句法分析的性能有一定程度的提高。

因此，本发明的基本思想是认为句法和语义是语言分析的两个不同层面，它们在语言分析的过程当中共同发挥作用，并相互影响，语义信息非常有助于结构歧义的消解。通过在非词汇化句法分析方法中融入语义信息，使句法分析器的性能得到明显提升，并且所得到的分析结果当中既包含句法的修饰关系，也包含了每个词的语义类别。

本发明的出发点是得到高性能的句法分析器，并以语义分析为辅助手段来提高句法分析性能。句法分析的基本模型采用的是非词汇化的PCFG模型，该模型是通过无监督学习的方法自动细化标记，提高文法的描述能力，其性能已经超过了词汇化句法分析器。本方法在此基础之上以HowNet作为语义词典，为句法树库当中的部分词提供某一层次的语义类别，并将语义类附着在句法树的预终结符(即词汇层的上一层)层次，并以标记后的树库进行训练得到包含语义信息的文法模型。在解码部分不需要进行任何特殊处理即可得到带有语义标记的句法分析结果。通过实验发现该方法有效的提高了句法分析的性能。

下面分三个部分详细介绍本发明的技术方案。

1.语义信息融入句法分析的方式

以HowNet作为语义词典，以其中定义的义原(定义为意义的最小单位)作为语义类别。义原在HowNet中存在着一定的上下位关系，如附图2所示，按照这种上下位关系抽取出不同层次的语义类别，以句法树中的词作为键值进行查询得到其语义类，并将语义类附着在预终结符上。为了保证语义体系的一致性以及减轻数据稀疏问题，在这里需要保证的一点是所有词查询得到的语义类在HowNet中处于同一层。

对于存在多个语义类别的词就存在词义消歧的问题，我们这里的策略是取第一个语义类别；另一方面我们设计了一个多义词的意义类别标注***，采用人工标注的方式对多义词的语义类进行标注。对于HowNet中不存在的词，则不添加语义信息。

附图1显示的是一个标注语义的例子。附图1(a)是标注前的树库中的句子；附图1(b)是经过语义标注后的句子，可以看到引入语义的策略就是将某个词的语义类别附着到它所对应的预终结符上。

对于词性层以上的非终结符，不能从HowNet中直接得到，最简单的添加方式可以采用类似于提取中心词的方法，将预终结符的语义信息当成中心词，提取到上层结点上。但是考虑到，词的语义类别比较多，附加到上层结点可能会产生更多的非终结符，对于数据量不充足的情况会产生非常严重数据稀疏问题。因此，对于上层非终结符仍然采用无监督自动***合并的方式进行自动细分，而不引入语义。

经过这样的处理后，树库中的大多数词所对应的上层预终结符就标记上了HowNet中的某一层语义类，采用该树库进行句法分析模型训练，就可以获得融入语义信息的文法模型。利用该文法进行解码，可以得到带有语义标记的句法分析结果，同时句法分析结果也更加准确。

2.句法分析模型训练

本发明所采用的基本句法分析模型为非词汇化句法分析模型，即采用无监督的方式对非终结符结点标记进行细化，来提高文法的描述能力。下面简要介绍该模型。

近年来，非词汇化PCFG句法分析方法取得了较大的进展，最好的模型的性能已经达到了当前句法分析的最高水平。该模型是在基本的PCFG框架下通过无监督学习的方式自动细化非终结符标记，增强文法的描述能力。该模型的训练部分主要包含***、融合两个过程。***过程是将每一个非终结符***为两个，对标记进行细化，从而扩大了文法复杂性，扩大了对树库中出现的语言现象的覆盖范围；融合过程是为了保证***步骤中标记的***哪些是必要的，这一点是通过考察某一标记***与否对于整个树库似然度的影响来衡量的，即如果将两个***出的子标记合并后整个树库似然度下降不明显，则这一标记的***是不必要的，从而将子标记合并。

采用这种基于自动***的非词汇化句法分析方法，首先能够保证较高性能的基线***，同时这种模型便于融入语义信息。此外，通过外部语义词典添加语义信息，有利于约束句法标记的自动***；而另一方面，后续的自动***又能保证添加的语义类不至于影响句法功能的划分。

3.句法分析解码过程

对于一个新的待分析句，根据训练过程中得到的文法模型就可以分析出它的句法结构。基本的方法是采用文法模型中的文法规则按照线图分析的方式自底向上推导出一个最可能的句法树，但是这种最简单的分析方式其搜索空间是非常巨大的。为了提高效率，就采用一种由粗到细的分析策略，即首先采用简单的文法模型解码得到一系列候选结果，然后再采用更精细的文法模型在这些候选结果中再进行解码，这样就可以在后面的精细解码前裁掉许多不可能结果，从而减小了搜索空间，提高了效率。

本发明的积极效果：

与现有技术相比，本发明采用语义信息帮助句法分析消歧，有效提高了句法分析的性能，使句法分析的效率和准确性得到显著提升；并且能够通过这种融合语义信息的句法分析器获得部分词的语义信息。

附图说明

图1句法树及添加语义信息后的句法树；

(a)是标注前的树库中的句子；(b)是经过语义标注后的句子；

图2语义资源HowNet中义原树片段示例；

图3本发明的方法流程图。

具体实施方式

下面结合附图详细描述本发明的具体实施方式，本发明的方法流程图如图3所示。

1.构建词-语义类索引

根据HowNet中定义的义原之间的上下位关系抽取出由粗到细的不同层的语义类，并与每一个词相对应，从而构建出由词到语义类的索引。这里的词是附带着词性信息的。

2.对原始树库添加语义类信息

对原始树库，以词和词性作为键值来得到语义类的信息，然后将语义类的信息附着到词性(预终结符)层次上，实现对词性层标记的细化。这样部分词性就包含了语义信息。

某些词语可能存在多个不同的语义类，针对这种情况采用了两种策略：选取多个语义中的第一个，或者采用人工标注的方式根据上下文选择。

3.训练文法模型

以添加了语义类信息的树库作为训练数据。采用前面介绍的非词汇化句法分析模型进行文法训练，训练过程中对于非终结符采用自动***、合并的方式进行细化。另一方面，为了考察是否需要对添加了语义信息的预终结符也进行这一细化过程，我们进行了实验验证，结果发现在添加粗粒度语义的同时仍然进行自动细分其效果要好于不进行细分，而这一做法的效果也要好于直接添加区分性更强的细粒度语义而不进行自动细化，下面的效果分析部分还会详细的介绍。

4.对待分析语句进行句法分析

有了上面训练出的文法模型，对于一个待分析的句子(已经过分词处理)就可以采用前面介绍的非词汇化句法分析器根据文法模型进行解码，得到句法分析结果，同时还带有该语句的语义标注结果。

效果分析：

为了验证本发明的有效性，我们设计了一系列的实验，下面介绍部分实验。

实验语料：

训练和测试语料采用宾大中文树库UPenn Chinese Tree Bank 2.0，其中共325篇新闻类语料，采用标准方式进行划分：使用1-25篇作为开发集，共350句话；26-270篇作为训练集，共3172句话；271-300篇作为测试集，共348句话。

语义词典采用HowNet。

基线***：

基线***采用前面介绍的非词汇化句法分析模型，采用无监督的方法对非终结符标记自动***细化，每次迭代将原始标记***为2个，通过EM算法确定新标记对应的参数，接着根据似然度贡献对***的标记进行合并。

评测程序：

评测程序采用当前使用较为广泛的句法分析评测工具EVALB。该工具是以括号标记匹配为评价标准，关注准确率、召回率和F值。

实验结果及分析：

基线***在CTB标准数据集上进行测试的结果见表1：

表1：基线***性能

其中S&M表示***-合并过程循环的次数，比如S&M-1表示进行一次***-迭代；S&M-2表示进行两次***-迭代，即在一次***-迭代得到的文法基础上再进行一次***-迭代。Len表示句子的长度，即句子中包含的词数，Len＜＝40表示只在长度小于40的句子上进行测试；All表示在所有句子上进行测试。LR表示召回率，LP表示准确率，F1表示F值。

为了在一定程度上减弱数据稀疏问题，我们选取HowNet中最顶层的语义类，并且对所有标记进行自动细化，采用相同数据集的实验结果如表2。

表2添加粗粒度语义类标记分析性能

从上表中可以发现从第四次迭代***合并开始，通过添加语义信息类的句法分析性能超过了基线***。在第六次迭代的时候，***过细出现了过训练，F值有一定的下降，在基线***和改进***上呈现的趋势一致。但添加语义类的结果仍然优于基线***。以第五轮迭代的结果进行比较，F值由80.26％提高到了81.63％，绝对提高1.37个点，这在句法分析的研究中提高相当显著。

此外，采用最新发布的5.0版本的宾大中文树库(共包含18782个句子)进行训练，本发明的句法分析性能最高可达到F值86.39％。添加语义信息前后的对比趋势与上面列出的宾大中文树库2.0上得出的结果相似，这里就不再赘述。

本发明以非词汇化句法分析器为基础，将语义信息融入其中，利用语义信息帮助句法分析进行消歧，使句法分析器性能得到明显提升，并且能够通过这种融合语义信息的句法分析器获得部分词的语义信息。

Claims

1.一种结合语义信息的中文句法分析与解码方法，其步骤为：

1)按照知网的上下位关系抽取出词的不同层次的语义类别，得到由词到语义类的索引；

2)以句法树中的词作为键值对知网进行查询得到该词的语义类，并将语义类添加到句法树的预终结符层上；

3)将步骤2)处理后的句法树作为训练数据，采用非词汇化句法分析模型进行文法训练，其中对于非预终结符采用自动***、合并的方式进行细化，得到文法模型；

4)利用步骤3)训练后的文法模型对待分析的句子进行解码。

2.如权利要求1所述的方法，其特征在于所述词中包含词性信息。

3.如权利要求2所述的方法，其特征在于以词和词性为键值对知网进行查询得到该词的语义类。

4.如权利要求1或3所述的方法，其特征在于对知网的同一层语义类进行查询，使所有词查询得到的语义类在知网中处于同一层。

5.如权利要求1所述的方法，其特征在于如果词语存在多个不同的语义类，则选取多个语义中的第一个语义类作为该词的语义类，或采用人工标注的方式根据上下文选择。