CN103377184B

CN103377184B - 处理语言数据的装置、方法以及设备

Info

Publication number: CN103377184B
Application number: CN201210110614.6A
Authority: CN
Inventors: 葛乃晟; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-04-16
Filing date: 2012-04-16
Publication date: 2016-03-30
Anticipated expiration: 2032-04-16
Also published as: CN103377184A

Abstract

本发明的实施例涉及处理语言数据的装置、方法以及设备，以至少克服现有的语言处理技术所存在的不能消除语句结构歧义的问题。上述处理语言数据的装置包括：用于识别能够符合至少两种句法关系的至少两个词法单元的识别模块；用于分别针对每种句法关系得到候选语句的转换模块；用于对各个候选语句进行评分的评分模块；以及用于将上述识别的词法单元确定为具有与得分最高的候选语句相对应的句法关系的确定模块。上述处理语言数据的方法用于执行能够实现上述处理语言数据的装置的功能的处理。上述设备包括上述处理语言数据的装置。应用本发明的上述技术，能够消除语言数据中的具有句法歧义的结构的歧义，可以应用于自然语言处理领域。

Description

处理语言数据的装置、方法以及设备

技术领域

本发明涉及自然语言处理领域，尤其涉及一种处理语言数据的装置、方法以及设备。

背景技术

在现有的自动句法分析过程中，结构歧义是普遍存在的。例如，在汉语中，各词没有明确的形态标记，同一个词在不改变任何形态的情况下可以分别充当不同的句子成分；又如，在英语中，一些情况下的后置定语或定语从句所修饰的对象可能存在多种可能；等等。因此，仅仅依靠词性标记来进行语言语句分析是远远不够的，在词类这个层面上仍可能存在着许多句法结构上的歧义，也即，当把一个句子或句子的较大成分分解成若干较小的成分时，可能出现不同的句法结构，具体体现为内部组合层次不同，或内部结构关系不同。因此，有必要提出一种能够消除上述结构歧义的方案。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于现有技术的上述缺陷，本发明的目的之一是提供一种处理语言数据的装置、计算机实现的处理语言数据的方法以及设备，以至少克服现有的语言处理技术所存在的不能消除语句结构歧义的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种处理语言数据的装置，该装置包括：识别模块，其被配置用于获得语言数据中的词法单元，并在语言数据中的词法单元中识别能够符合至少两种句法关系的至少两个词法单元；转换模块，其被配置用于针对每一种句法关系，根据相应转换方法将识别的词法单元转换为候选语句，以使候选语句具有与该句法关系相对应的特征句法结构；评分模块，其被配置用于利用语言模型对各个候选语句进行评分；以及确定模块，其被配置用于将识别的词法单元确定为具有与得分最高的候选语句相对应的句法关系。

根据本发明的另一个方面，还提供了一种计算机实现的处理语言数据的方法，该处理语言数据的方法包括：获得语言数据中的词法单元，并在语言数据中的词法单元中识别能够符合至少两种句法关系的至少两个词法单元；针对每一种句法关系，根据相应转换方法将识别的词法单元转换为候选语句，以使候选语句具有与该句法关系相对应的特征句法结构；利用语言模型对各个候选语句进行评分；以及将识别的词法单元确定为具有与得分最高的候选语句相对应的句法关系。

根据本发明的另一个方面，还提供了一种设备，该设备包括如上所述的处理语言数据的装置。

依据本发明的其它方面，还提供了相应的计算机可读存储介质，该计算机可读存储介质上存储有能够由计算设备执行的计算机程序，所述程序在执行时能够使所述计算设备执行上述计算机实现的处理语言数据的方法。

根据本发明实施例的上述处理语言数据的装置和上述计算机实现的处理语言数据的方法以及包括该处理语言数据的装置的设备，能够实现至少以下益处之一：通过确定待处理的语言数据中歧义结构的唯一句法关系，能够实现对上述歧义结构的消岐；提高机器翻译的准确度；以及提高检索准确度。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示意性地示出根据本发明的实施例的处理语言数据的装置的一种示例结构的框图。

图2是示意性地示出图1中的转换模块的一种可能的示例结构的框图。

图3是示意性地示出根据本发明的实施例的计算机实现的处理语言数据的方法的一种示例性处理的流程图。

图4是示意性地示出如图3所示的步骤S330的一种可能的示例性处理的流程图。

图5是示出了可用来实现根据本发明实施例的处理语言数据的装置和计算机实现的处理语言数据的方法的一种可能的信息处理设备的硬件配置的结构简图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与***及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

为了解决现有的语言处理技术所存在的不能消除语句结构歧义的问题，本发明提出了一种处理语言数据的装置。该处理语言数据的装置包括：识别模块，其被配置用于获得语言数据中的词法单元，并在语言数据中的词法单元中识别能够符合至少两种句法关系的至少两个词法单元；转换模块，其被配置用于针对每一种句法关系，根据相应转换方法将识别的词法单元转换为候选语句，以使候选语句具有与该句法关系相对应的特征句法结构；评分模块，其被配置用于利用语言模型对各个候选语句进行评分；以及确定模块，其被配置用于将识别的词法单元确定为具有与得分最高的候选语句相对应的句法关系。

下面结合图1-图2来详细描述根据本发明的实施例的处理语言数据的装置。

图1是示意性地示出根据本发明的实施例的处理语言数据的装置100的一种示例结构的框图。如图1所示，根据本发明的实施例的处理语言数据的装置100包括识别模块110、转换模块120、评分模块130和确定模块140。

如图1所示，装置100中的识别模块110例如可以通过对上述语言数据进行分词处理来获得语言数据中的词法单元，并可以通过对上述经过分词处理的语言数据进行句法分析来识别出那些能够符合至少两种句法关系的至少两个词法单元。其中，句法分析(Parsing)是对句子中的词语语法功能进行分析的一种现有的处理技术，它是语块分析(chunking)思想的一个直接实现，语块分析通过识别出高层次的结构单元来简化句子的描述。

其中，这里所说的语言数据例如可以包括一个或多个语句和/或短语。例如，对于语言数据中可能包括的一个短语“修理张师傅的汽车”进行分词处理的结果可以为“修理/张师傅/的/汽车”，也即可以得到4个词法单元。对该句子进行句法分析可知，“修理张师傅的汽车”可能符合的句法关系有两种，一个是动宾句法关系(也即，“张师傅的汽车”为“修理”的宾语)，另一个是定中句法关系(也即，“修理张师傅的”是“汽车”的定语，“汽车”为中心语)。需要说明的是，这里所说的“可能符合的句法关系”或“能够符合的句法关系”是指在语法层面上能够符合、而在语义层可能符合也可能不符合的句法关系。由此可知，“修理”、“张师傅”、“的”以及“汽车”这4个词法单元能够符合两种句法关系，因此，通过识别模块110能够识别出类似于“修理”、“张师傅”、“的”以及“汽车”这组词法单元的多组词法单元，也即，能够识别出类似于“修理/张师傅/的/汽车”这种在词类层面具有句法结构歧义的短语或句子。在下文中，为了叙述方便和清楚，将识别模块110所识别的“能够符合至少两种句法关系的至少两个词法单元”简称为“歧义结构”。

接下来，可以通过转换模块120、评分模块130和确定模块140的处理，来确定上述“歧义结构”的唯一的句法关系。

通过上文描述可知，识别模块110所识别的“至少两个词法单元”能够符合至少两种句法关系，因此，针对其中的每一种句法关系，可以通过转换模块120来根据相应的转换方法将上述识别的词法单元转换为候选语句，以使得转换后得到的候选语句具有与该句法关系相对应的特征句法结构。其中，这里所说的特征句法结构由句法关系本身的定义/属性而决定，下文中将举例说明。

在根据本发明的实施例的处理语言数据的装置的一种实现方式中，如图1所示的转换模块120可以采用如图2所示的结构来实现。图2是示意性地示出图1中的转换模块120的一种可能的示例结构的框图。

如图2所示，转换模块120可以包括确定子模块210和转换子模块220。

其中，确定子模块210可以针对识别模块110所识别的“至少两个词法单元”能够符合的至少两种句法关系中的每一种句法关系，确定与该句法关系相对应的特征句法结构，确定该特征句法结构中的各句子成分之间的先后顺序和上述各句子成分的时态，以及确定能够表征该特征句法结构的特征词及特征词的位置。

然后，转换子模块220可以针对上述的每一种句法关系，将识别的词法单元之间的先后顺序转换为和与该句法关系相对应的特征句法结构中的各句子成分之间的先后顺序相一致，将上述识别的词法单元的时态转换为和与该句法关系相对应的特征句法结构中的各句子成分的时态相一致，以及根据能够表征与该句法关系相对应的特征句法结构的特征词及其位置，在经过转换后的识别的词法单元中的对应位置加入相应的特征词，以得到候选语句。

在一个例子中，若识别模块110所识别的“能够符合至少两种句法关系的至少两个词法单元”能够符合的句法关系之一为动宾句法关系，也即，在上述至少两个词法单元例如包括第一词法单元和第二词法单元的情况下，假设第一词法单元为动词词法单元，第二词法单元为宾语词法单元。

这里，需要说明的是，这里所描述的例子中虽然“上述至少两个词法单元”仅包含第一词法单元和第二词法单元，但实际处理中，“上述至少两个词法单元”也可以包括更多的词法单元，可以将这种情况看成是第二词法单元内还包括多个词法子单元，而这多个词法子单元组合在一起构成了“宾语词法单元”。例如，在“修理张师傅的汽车”中，针对该短语可能符合的动宾句法关系，可以将“修理”看成是第一词法单元，而将“张师傅的汽车”看成是第二词法单元，其中，“张师傅/的/汽车”中的三个词法子单元组合在一起构成“修理”的宾语。

由此，在该例子中，在上述第一词法单元具有被动形式的情况下，通过确定子模块210所得到的动宾句法关系对应的特征句法结构例如可以是这样的结构(以下简称为第一结构)：“宾语”+“动词的被动形式”。在这种情况下(也即，第一词法单元具有被动形式的情况)下，针对上述动宾句法关系，通过转换子模块220可以将识别模块110所识别的词法单元之间的先后顺序以及时态转换为与上述第一结构中的各句子成分之间的先后顺序以及各句子成分的时态相一致，也即，可以将识别模块110所识别的词法单元转换为具有如下结构的候选语句：“第二词法单元”+“第一词法单元的被动形式”。

此外，在该例子中，在上述第一词法单元不具有被动形式的情况下，通过确定子模块210所得到的动宾句法关系对应的特征句法结构例如可以包括这样的结构(以下简称为第二结构)：“动词”+“宾语中心语”；“宾语”。在这种情况(也即，第一词法单元不具有被动形式的情况)下，针对上述动宾句法关系，通过转换子模块220可以将识别模块110所识别的词法单元之间的先后顺序以及时态转换为与上述第二结构中的各句子成分之间的先后顺序以及各句子成分的时态相一致，也即，可以将识别模块110所识别的词法单元转换为具有如下结构的候选语句：“第一词法单元”+“第二词法单元的中心语”；“第二词法单元”。例如，若第二词法单元例如为“手机的听筒”，则第二词法单元的中心语为“听筒”。需要说明的是，当第二词法单元仅包括中心语本身的情况下，则“第二词法单元的中心语”即指第二词法单元本身。

由于上述第一结构、第二结构中未存在特征词，因此不需要在经过转换得到的候选语句中添加特征词。

在另一个例子中，若识别模块110所识别的“能够符合至少两种句法关系的至少两个词法单元”能够符合的句法关系之一为定中句法关系，也即，在上述至少两个词法单元例如包括第三词法单元和第四词法单元的情况下，假如第三词法单元为定语词法单元，第四词法单元为中心语词法单元。

其中，与上文所述相类似地，第三词法单元内也可以包括多个词法子单元，这多个词法子单元组合在一起构成了用于修饰/限定第四词法单元的定语词法单元。

在该例子中，通过确定子模块210所得到的定中句法关系对应的特征句法结构例如可以是这样的结构(以下简称为第三结构)：“数词”+“量词”+“定语”+“中心语”。其中，上述“数词”和“量词”即为定中句法关系对应的一种特征句法结构中的特征词，但其特征词并不限于此。针对上述定中句法关系，通过转换子模块220可以将识别模块110所识别的词法单元之间的先后顺序以及时态转换为与上述第三结构中的各句子成分之间的先后顺序以及各句子成分的时态相一致，以及在转换后的识别的词法单元的相应位置加入特征词(如“数词”和“量词”)，则可以将识别模块110所识别的词法单元转换为具有如下结构的候选语句：“数词”+“量词”+“第三词法单元”+“第四词法单元”。其中，这里的量词用于表示第四词法单元的数量单位。例如，针对“修理张师傅的汽车”可能符合的定中句法关系，可以将“汽车”看成是第四词法单元，而将“修理张师傅的”看成是第三词法单元，其中，“修理/张师傅/的”中的三个词法子单元组合在一起构成用于限定“汽车”的定语。

此外，在该例子中，通过确定子模块210所得到的定中句法关系对应的特征句法结构例如也可以是这样的结构(以下简称为第四结构)：“定语”；“数词”+“量词”+“定语”+“中心语”。针对上述定中句法关系，通过转换子模块220可以将识别模块110所识别的词法单元之间的先后顺序以及时态转换为与上述第四结构中的各句子成分之间的先后顺序以及各句子成分的时态相一致，以及在转换后的识别的词法单元的相应位置加入特征词(如“数词”和“量词”)，则可以将识别模块110所识别的词法单元转换为具有如下结构的候选语句：“第三词法单元”；“数词”+“量词”+“第三词法单元”+“第四词法单元”。其中，这里的量词用于表示第四词法单元的数量单位。

由此，通过转换模块120可以将识别模块110所识别的词法单元分别按照相应的转换方法转换为与上述“能够符合至少两种句法关系的至少两个词法单元”可能符合的每一种句法关系相对应的候选语句，也即，可以得到至少两个候选语句。

然后，可以通过评分模块130利用语言模型对上述至少两个候选语句中的各个候选语句进行评分，并通过确定模块140将其中得分最高的那个候选语句所对应的句法关系最终确定为识别模块110所识别的词法单元的唯一的句法关系。

其中，语言模型(也即，统计语言模型，StatisticalLanguageModel)是一种能够计算句子的概率的模型，其能够采用大规模的训练语料(corpus)对模型的参数进行自动的学习。利用语言模型，可以确定哪个词序列的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语，等等。常见的方法例如包括n-gram模型方法、决策树方法、最大熵模型方法、最大熵马尔科夫模型方法、条件随机域方法、神经网络方法，等等，上述方法均可为本发明所使用。

例如，在根据本发明的实施例的处理语言数据的装置的一个应用示例中，根据上文所述方法，在某语言数据中所识别的“歧义结构”例如包括：

“修理/张师傅/的/汽车”(以下简称“第一歧义结构”)，

“修理/汽车/的/张师傅”(以下简称“第二歧义结构”)，

“成为/公司/的/领导”(以下简称“第三歧义结构”)，

“成为/士兵/的/学生”(以下简称“第四歧义结构”)。

其中，第一歧义结构可能符合的句法关系包括动宾句法关系和定中句法关系。

针对第一歧义结构可能符合的动宾句法关系，由于其中的动词“修理”具有被动形式，因此可以将第一歧义结构转换为第一候选语句“张师傅的汽车被修理”。

另外，针对第一歧义结构可能符合的定中句法关系，可以将第一歧义结构转换为第二候选语句“一辆修理张师傅的汽车”；或者转换为第三候选语句“修理张师傅；一辆修理张师傅的汽车”。优选地，可以选择第二候选语句。

类似地，针对第二歧义结构可能符合的动宾句法关系，可以将第二歧义结构转换为第四候选语句“汽车的张师傅被修理”；以及针对第二歧义结构可能符合的定中句法关系，可以将第二歧义结构转换为第五候选语句“一位修理汽车的张师傅”或第六候选语句“修理汽车；一位修理汽车的张师傅”，优选地，可以选择第五候选语句。

此外，针对第三歧义结构可能符合的动宾句法关系，由于其中的动词“成为”不具有被动形式，因此可以将第三歧义结构转换为第七候选语句“成为领导；公司的领导”。另外，针对第三歧义结构可能符合的定中句法关系，可以将第三歧义结构转换为第八候选语句“一位成为公司的领导”，或者优选地将第三歧义结构转换为第九候选语句“成为公司；一位成为公司的领导”。

类似地，针对第四歧义结构可能符合的动宾句法关系，可以将第四歧义结构转换为第十候选语句“成为学生；士兵的学生”；以及针对第四歧义结构可能符合的定中句法关系，可以将第四歧义结构转换为第十一候选语句“一名成为士兵的学生”，或者优选地将第四歧义结构转换为第十二候选语句“成为士兵；一名成为士兵的学生”。

对于第一歧义结构的两个候选语句(例如第一候选语句和第二候选语句)，分别利用语言模型对这两个候选语句进行评分，评分结果可得第一候选语句的得分高于第二候选语句的得分，由此可将第一歧义结构“修理/张师傅/的/汽车”的唯一的句法关系确定为第一候选语句所对应的句法关系，也即，确定为动宾句法关系。

此外，第二歧义结构“修理/汽车/的/张师傅”的两个候选语句(例如第四候选语句和第五候选语句)中的第五候选语句的得分较高，因此可以将第二歧义结构的唯一的句法关系确定为第五候选语句所对应的句法关系，也即，确定为定中句法关系。

类似地，可以将第三歧义结构“成为/公司/的/领导”的唯一的句法关系确定为第七候选语句所对应的句法关系，也即，确定为动宾句法关系；以及可以将第四歧义结构“成为/士兵/的/学生”的唯一的句法关系确定为第十一或第十二候选语句所对应的句法关系，也即，确定为定中句法关系。

此外，在根据本发明的实施例的处理语言数据的装置的另一个应用示例中，根据上文所述方法，可获知某语言数据中的句子“Seeagirlwithahat”(以下简称为第五歧义结构)可能符合的句法关系包括“动词+宾语+定语”以及“动词+宾语+补语”两种，也即，“withahat”可能是用于修饰宾语“agirl”的定语，也可能是用于修饰动词“see”的状语。

若“withahat”是用于修饰宾语“agirl”的定语，则定语“withahat”可以紧邻其所修饰的中心词“agirl”，也即，“agirlwithahat”是“see”的宾语，可以得到第五歧义结构的第十三候选语句“Agirlwithahatwasseen”。

若“withahat”是用于修饰动词“see”的状语，则状语“withahat”可以紧邻其所修饰的动词“see”，可以得到第五歧义结构的第十四候选语句“Agirlwasseenwithahat”。

通过语言模型对第十三和第十四候选语句进行评分可得，第十三候选语句“Agirlwithahatwasseen”的得分高于第十四候选语句“Agirlwasseenwithahat”的得分。因此，可以将第五歧义结构的唯一的句法关系确定为第十三候选语句所对应的句法关系，也即，“动词+宾语+定语”这种句法关系。

这里，需要说明的是，在实际处理中，仍存在一些例如“杀死猎人的狗”这种不适用于使用上述装置来处理的语句/短语，但多数情况下，利用根据本发明的实施例的上述处理语言数据的装置能够确定大部分诸如上文所述歧义结构的唯一句法关系。

通过以上描述可知，根据本发明的实施例的上述处理语言数据的装置，其通过识别语言数据中的歧义结构(也即，能够符合至少两种句法关系的至少两个词法单元)，将识别的歧义结构根据其可能符合的每一种句法关系分别相应地得到候选语句，并利用语言模型获得每个候选语句的得分，将其中得分最高的候选语句对应的句法关系确定为所识别的歧义结构的唯一句法关系，从而消除了上述识别的歧义结构的句法歧义。

此外，本发明的实施例还提供了一种设备，该设备包括如上所述的处理语言数据的装置。

例如，该设备可以通过其中的处理语言数据的装置来识别待进行机器翻译的语句的句法关系，以基于所识别的句法关系对上述待进行机器翻译的语句进行机器翻译。

以“修理汽车的张师傅昨天休假了。”为例，如果“修理汽车的张师傅”没有消岐，在一个基于句法分析的机器翻译***里面，有可能将“修理”的宾语分析成“汽车的张师傅昨天休假了”，从而使得翻译的结果可能为“RepairtheMasterZhangofcarwasonleaveyesterday.”。如果能将这个句法歧义结构消岐后的信息应用基于规则的翻译***，会提高它的句法分析准确性，也就不会将“修理”的宾语分析错。例如，通过设备内的处理语言数据的装置对“修理汽车的张师傅”进行消岐处理，也即可以获知“修理汽车的”是“张师傅”的定语，则最后的翻译结果就会是正确的：

MasterZhangwhorepairsthecarwasonleaveyesterday.

即使在一个基于统计的机器翻译***里，也有可能无法将“修理汽车”和“张师傅”在语法关系上联系到一起。在一个实际的基于统计的机器翻译***中这句话的翻译结果为：

ThecarrepairsMasterZhangyesterdaywasonleave.

同样地，如果通过设备内的处理语言数据的装置对“修理汽车的张师傅”进行消岐处理，将得到的唯一句法关系提供给基于统计的机器翻译***，可以分别将这句话拆分成“张师傅昨天休假了。”和“修理汽车。”。然后，分别予以翻译这两句话，并将“修理汽车”以定语的结构添加到“张师傅昨天休假了”这个句子，也会得到如下翻译：

MasterZhangwhorepairsthecaryesterdaywasonleave.

这样这句话理解起来也更容易些了。

此外，在其他例子中，该设备也可以通过其中的处理语言数据的装置来识别待检索的关键短语或语句的句法关系，以基于所识别的句法关系对上述待检索的关键短语或语句进行检索；等等。

其中，该设备例如可以是计算机(例如，台式机或笔记本电脑)、手机、平板电脑、电纸书、个人数字助理，等等。

通过以上描述可知，根据本发明的实施例的上述设备，其通过利用内置的处理语言数据的装置来对待处理的语言数据进行处理，以确定其中可能存在的歧义结构的唯一句法关系，从而可以利用所确定的句法关系来进行其他例如机器翻译、检索等处理，能够改善处理效果，例如可以提高处理的准确度(如翻译准确度、检索准确度)。

此外，本发明的实施例还提供了一种计算机实现的处理语言数据的方法。下面结合图3和图4来描述该方法的一种示例性处理。

如图3所示，根据本发明的实施例的计算机实现的处理语言数据的方法的处理流程300开始于步骤S310，然后执行步骤S320。

在步骤S320中，获得上述语言数据中的词法单元，并在上述语言数据的词法单元中识别能够符合至少两种句法关系的至少两个词法单元。然后执行步骤S330。

在步骤S330中，针对步骤S320中所识别的“至少两个词法单元”能够符合的至少两种句法关系中的每一种句法关系，根据相应转换方法将上述识别的“至少两个词法单元”转换为候选语句，以使候选语句具有与该句法关系相对应的特征句法结构。然后执行步骤S340。

其中，可以针对步骤S320中所识别的“至少两个词法单元”能够符合的至少两种句法关系中的每一种句法关系，分别执行如图4所示的步骤S410-S430，以实现步骤S320的处理。

其中，在步骤S410中，确定与该句法关系相对应的特征句法结构、该特征句法结构中的各句子成分之间的先后顺序和各句子成分的时态、以及能够表征该特征句法结构的特征词及其位置。然后执行步骤S420。

在步骤S420中，将识别的词法单元之间的先后顺序以及时态转换为与所确定的特征句法结构中的各句子成分之间的先后顺序以及各句子成分的时态相一致。然后执行步骤S430。

在步骤S430中，根据所确定的能够表征特征句法结构的特征词及其位置，在转换后的识别的词法单元中的对应位置加入相应的特征词，以得到候选语句。

其中，在一个例子中，若所识别的“能够符合至少两种句法关系的至少两个词法单元”能够符合的句法关系之一为动宾句法关系，也即，在上述至少两个词法单元例如包括第一词法单元和第二词法单元的情况下，假如第一词法单元为动词词法单元，第二词法单元为宾语词法单元，其中，第二词法单元可以仅包括一个词，也包括多个词法子单元。在该例子中，在上述第一词法单元具有被动形式的情况下，该动宾句法关系对应的特征句法结构例如可以是上文所述的第一结构；在这种情况(也即，第一词法单元具有被动形式的情况)下，针对上述动宾句法关系，可以将识别的词法单元之间的先后顺序以及时态转换为与上述第一结构中的各句子成分之间的先后顺序以及各句子成分的时态相一致，也即，可以将识别的词法单元转换为具有如下结构的候选语句：“第二词法单元”+“第一词法单元的被动形式”。此外，在该例子中，在上述第一词法单元不具有被动形式的情况下，该动宾句法关系对应的特征句法结构例如可以是上文所述的第二结构；在这种情况(也即，第一词法单元不具有被动形式的情况)下，针对上述动宾句法关系，可以将识别的词法单元之间的先后顺序以及时态转换为与上述第二结构中的各句子成分之间的先后顺序以及各句子成分的时态相一致，也即，可以将识别的词法单元转换为具有如下结构的候选语句：“第一词法单元”+“第二词法单元的中心语”；“第二词法单元”。

此外，在另一个例子中，若上述识别的“能够符合至少两种句法关系的至少两个词法单元”能够符合的句法关系之一为定中句法关系，也即，在上述至少两个词法单元例如包括第三词法单元和第四词法单元的情况下，假如第三词法单元为定语词法单元，第四词法单元为中心语词法单元。其中，与上文所述相类似地，第三词法单元内也可以包括多个词法子单元，这多个词法子单元组合在一起构成了用于修饰/限定第四词法单元的定语词法单元。在该例子中，该定中句法关系对应的特征句法结构例如可以是上文所述的第三结构；针对上述定中句法关系，可以将上述识别的词法单元之间的先后顺序以及时态转换为与上述第三结构中的各句子成分之间的先后顺序以及各句子成分的时态相一致，以及在转换后的识别的词法单元的相应位置加入特征词(如“数词”和“量词”)，则可以将上述识别的词法单元转换为具有如下结构的候选语句：“数词”+“量词”+“第三词法单元”+“第四词法单元”。其中，这里的量词用于表示第四词法单元的数量单位。此外，在该例子中，上述定中句法关系对应的特征句法结构例如也可以是上文所述的第四结构；针对上述定中句法关系，可以将上述识别的词法单元之间的先后顺序以及时态转换为与上述第四结构中的各句子成分之间的先后顺序以及各句子成分的时态相一致，以及在转换后的识别的词法单元的相应位置加入特征词(如“数词”和“量词”)，则可以将上述识别的词法单元转换为具有如下结构的候选语句：“第三词法单元”；“数词”+“量词”+“第三词法单元”+“第四词法单元”。其中，这里的量词用于表示第四词法单元的数量单位。

由此，通过针对每种可能符合的句法关系可以分别得到一个候选语句。

转至图3，在步骤S340中，利用语言模型对步骤S330针对各种句法关系所获得的各个候选语句进行评分，并在步骤S350中，将其中得分最高的候选语句相对应的句法关系确定为上述识别的“至少两个词法单元”的唯一的句法关系。

处理流程300结束于步骤S360。

在实际应用中，例如可以使用上述处理语言数据的方法来识别待检索的关键短语或语句的句法关系，以基于所识别的句法关系对待检索的关键短语或语句进行检索；或者可以利用上述处理语言数据的方法来识别待进行机器翻译的语句的句法关系，以基于所识别的句法关系对待进行机器翻译的语句进行机器翻译。

通过以上描述可知，根据本发明的实施例的上述计算机实现的处理语言数据的方法，其通过识别语言数据中的歧义结构(也即，能够符合至少两种句法关系的至少两个词法单元)，将识别的歧义结构按照其可能符合的每一种句法关系分别相应地得到候选语句，并利用语言模型获得每个候选语句的得分，将其中得分最高的候选语句对应的句法关系确定为所识别的歧义结构的唯一句法关系，从而消除了上述识别的歧义结构的句法歧义。在机器翻译或检索等处理中，可以使用上述处理语言数据的方法来对待处理的语言数据进行处理，以确定其中可能存在的歧义结构的唯一句法关系，从而可以利用所确定的句法关系来进行其他例如机器翻译、检索等处理，能够改善处理效果，例如可以提高处理的准确度(如翻译准确度、检索准确度)。

上述根据本发明的实施例的处理语言数据的装置中的各个组成模块、子模块等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的机器(例如图5所示的通用机器500)安装构成该软件或固件的程序，该机器在安装有各种程序时，能够执行上述各组成模块、子模块的各种功能。

图5是示出了可用来实现根据本发明的实施例的处理语言数据的装置和处理语言数据的方法的一种可能的信息处理设备的硬件配置的结构简图。

在图5中，中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM503中，还根据需要存储当CPU501执行各种处理等等时所需的数据。CPU501、ROM502和RAM503经由总线504彼此连接。输入/输出接口505也连接到总线504。

下述部件也连接到输入/输出接口505：输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡例如LAN卡、调制解调器等)。通信部分509经由网络例如因特网执行通信处理。根据需要，驱动器510也可连接到输入/输出接口505。可拆卸介质511例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上，使得从中读出的计算机程序可根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM502、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本发明还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明的实施例的处理语言数据的方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”，“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度，而仅仅是为了描述清楚起见而被配置用于在这些特征、要素、步骤或组件之间进行标识。

此外，本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

此外，显然，根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本发明的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给***或设备，并且该***或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该***或者设备具有执行程序的功能，则本发明的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作***的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户计算机通过连接到因特网上的相应网站，并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本发明。

最后，还需要说明的是，在本文中，诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

综上，在根据本发明的实施例中，本发明提供了如下方案：

附记1.一种处理语言数据的装置，包括：识别模块，其被配置用于获得所述语言数据中的词法单元，并在所述语言数据中的词法单元中识别能够符合至少两种句法关系的至少两个词法单元；转换模块，其被配置用于针对每一种所述句法关系，根据相应转换方法将所述识别的词法单元转换为候选语句，以使所述候选语句具有与该句法关系相对应的特征句法结构；评分模块，其被配置用于利用语言模型对各个所述候选语句进行评分；以及确定模块，其被配置用于将所述识别的词法单元确定为具有与得分最高的候选语句相对应的句法关系。

附记2.根据附记1所述的处理语言数据的装置，其中，所述转换模块包括：

确定子模块，其被配置用于针对每一种所述句法关系，确定与该句法关系相对应的特征句法结构、所述特征句法结构中的各句子成分之间的先后顺序和各句子成分的时态、以及能够表征所述特征句法结构的特征词及其位置；以及

转换子模块，其被配置用于针对每一种所述句法关系，

将所述识别的词法单元之间的先后顺序以及时态转换为和与该句法关系相对应的所述特征句法结构中的各句子成分之间的先后顺序以及各句子成分的时态相一致，和

根据所确定的能够表征与该句法关系相对应的所述特征句法结构的特征词及其位置，在转换后的所述识别的词法单元中的对应位置加入相应的特征词，以得到所述候选语句。

附记3.根据附记2所述的处理语言数据的装置，其中，所识别的词法单元能够符合的句法关系之一为动宾句法关系，且所识别的词法单元中的第一词法单元为动词词法单元，第二词法单元为宾语词法单元，在所述第一词法单元具有被动形式的情况下，针对所述动宾句法关系，所述转换子模块将所识别的词法单元转换为具有如下结构的候选语句：“第二词法单元”+“第一词法单元的被动形式”。

附记4.根据附记3所述的处理语言数据的装置，其中，在所述第一词法单元不具有被动形式的情况下，针对所述动宾句法关系，所述转换子模块将所识别的词法单元转换为具有如下结构的候选语句：“第一词法单元”+“第二词法单元的中心语”；“第二词法单元”。

附记5.根据附记2-4中任一所述的处理语言数据的装置，其中，所识别的词法单元能够符合的句法关系之一为定中句法关系，且所识别的词法单元中的第三词法单元为定语词法单元，第四词法单元为中心语词法单元，针对所述定中句法关系，所述转换子模块将所识别的词法单元转换为具有如下结构的候选语句：“数词”+“量词”+“第三词法单元”+“第四词法单元”；其中，所述量词用于表示所述第四词法单元的数量单位。

附记6.根据附记2-4中任一所述的处理语言数据的装置，其中，所识别的词法单元能够符合的句法关系之一为定中句法关系，且所识别的词法单元中的第三词法单元为定语词法单元，第四词法单元为中心语词法单元，针对所述定中句法关系，所述转换子模块将所识别的词法单元转换为具有如下结构的候选语句：“第三词法单元”；“数词”+“量词”+“第三词法单元”+“第四词法单元”；其中，所述量词用于表示所述第四词法单元的数量单位。

附记7.一种设备，其包括如附记1-6中任一所述的处理语言数据的装置。

附记8.根据附记7所述的设备，其中，所述设备被配置用于：

利用所述处理语言数据的装置识别待检索的关键短语或语句的句法关系，以基于所识别的句法关系对所述待检索的关键短语或语句进行检索；或

利用所述处理语言数据的装置识别待进行机器翻译的语句的句法关系，以基于所识别的句法关系对所述待进行机器翻译的语句进行机器翻译。

附记9.根据附记7或8所述的设备，其中，所述设备是以下设备之一：计算机、手机、平板电脑、电纸书和个人数字助理。

附记10.一种计算机实现的处理语言数据的方法，包括：获得所述语言数据中的词法单元，并在所述语言数据中的词法单元中识别能够符合至少两种句法关系的至少两个词法单元；针对每一种所述句法关系，根据相应转换方法将所述识别的词法单元转换为候选语句，以使所述候选语句具有与该句法关系相对应的特征句法结构；利用语言模型对各个所述候选语句进行评分；以及将所述识别的词法单元确定为具有与得分最高的候选语句相对应的句法关系。

附记11.根据附记10所述的处理语言数据的方法，其中，所述的针对每一种所述句法关系、根据相应转换方法将所述识别的词法单元转换为候选语句包括：

针对每一种所述句法关系，

确定与该句法关系相对应的特征句法结构、所述特征句法结构中的各句子成分之间的先后顺序和各句子成分的时态、以及能够表征所述特征句法结构的特征词及其位置，

将所述识别的词法单元之间的先后顺序以及时态转换为与所确定的特征句法结构中的各句子成分之间的先后顺序以及各句子成分的时态相一致，以及

根据所确定的能够表征所述特征句法结构的特征词及其位置，在转换后的所述识别的词法单元中的对应位置加入相应的特征词，以得到所述候选语句。

附记12.根据附记11所述的处理语言数据的方法，其中，所识别的词法单元能够符合的句法关系之一为动宾句法关系，且所识别的词法单元中的第一词法单元为动词词法单元，第二词法单元为宾语词法单元，在所述第一词法单元具有被动形式的情况下，针对所述动宾句法关系，将所识别的词法单元转换为具有如下结构的候选语句：“第二词法单元”+“第一词法单元的被动形式”。

附记13.根据附记12所述的处理语言数据的方法，其中，在所述第一词法单元不具有被动形式的情况下，针对所述动宾句法关系，将所识别的词法单元转换为具有如下结构的候选语句：“第一词法单元”+“第二词法单元的中心语”；“第二词法单元”。

附记14.根据附记11-13中任一所述的处理语言数据的方法，其中，所识别的词法单元能够符合的句法关系之一为定中句法关系，且所识别的词法单元中的第三词法单元为定语词法单元，第四词法单元为中心语词法单元，针对所述定中句法关系，将所识别的词法单元转换为具有如下结构的候选语句：“数词”+“量词”+“第三词法单元”+“第四词法单元”；其中，所述量词用于表示所述第四词法单元的数量单位。

附记15.根据附记11-13中任一所述的处理语言数据的方法，其中，所识别的词法单元能够符合的句法关系之一为定中句法关系，且所识别的词法单元中的第三词法单元为定语词法单元，第四词法单元为中心语词法单元，针对所述定中句法关系，将所识别的词法单元转换为具有如下结构的候选语句：“第三词法单元”；“数词”+“量词”+“第三词法单元”+“第四词法单元”；其中，所述量词用于表示所述第四词法单元的数量单位。

附记16.根据附记10-15中任一所述的处理语言数据的方法，其中，所述处理语言数据的方法用于：

识别待检索的关键短语或语句的句法关系，以基于所识别的句法关系对所述待检索的关键短语或语句进行检索；或

识别待进行机器翻译的语句的句法关系，以基于所识别的句法关系对所述待进行机器翻译的语句进行机器翻译。

Claims

1.一种处理语言数据的装置，包括：

识别模块，其被配置用于获得所述语言数据中的词法单元，并在所述语言数据中的词法单元中识别能够符合至少两种句法关系的至少两个词法单元；

转换模块，其被配置用于针对每一种所述句法关系，根据相应转换方法将所述识别的词法单元转换为候选语句，以使所述候选语句具有与该句法关系相对应的特征句法结构；

评分模块，其被配置用于利用语言模型对各个所述候选语句进行评分；以及

确定模块，其被配置用于将所述识别的词法单元确定为具有与得分最高的候选语句相对应的句法关系。

2.根据权利要求1所述的处理语言数据的装置，其中，所述转换模块包括：

转换子模块，其被配置用于针对每一种所述句法关系，

3.根据权利要求2所述的处理语言数据的装置，其中，所识别的词法单元能够符合的句法关系之一为动宾句法关系，且所识别的词法单元中的第一词法单元为动词词法单元，第二词法单元为宾语词法单元，

在所述第一词法单元具有被动形式的情况下，针对所述动宾句法关系，所述转换子模块将所识别的词法单元转换为具有如下结构的候选语句：

“第二词法单元”+“第一词法单元的被动形式”。

4.根据权利要求3所述的处理语言数据的装置，其中，在所述第一词法单元不具有被动形式的情况下，针对所述动宾句法关系，所述转换子模块将所识别的词法单元转换为具有如下结构的候选语句：

“第一词法单元”+“第二词法单元的中心语”；“第二词法单元”。

5.根据权利要求2所述的处理语言数据的装置，其中，所识别的词法单元能够符合的句法关系之一为定中句法关系，且所识别的词法单元中的第三词法单元为定语词法单元，第四词法单元为中心语词法单元，

针对所述定中句法关系，所述转换子模块将所识别的词法单元转换为具有如下结构的候选语句：

“数词”+“量词”+“第三词法单元”+“第四词法单元”；

其中，所述量词用于表示所述第四词法单元的数量单位。

6.根据权利要求2所述的处理语言数据的装置，其中，所识别的词法单元能够符合的句法关系之一为定中句法关系，且所识别的词法单元中的第三词法单元为定语词法单元，第四词法单元为中心语词法单元，

“第三词法单元”；“数词”+“量词”+“第三词法单元”+“第四词法单元”；

其中，所述量词用于表示所述第四词法单元的数量单位。

7.一种处理语言数据的设备，其包括如权利要求1-6中任一所述的处理语言数据的装置。

8.根据权利要求7所述的处理语言数据的设备，其中，所述设备被配置用于：

9.根据权利要求7所述的处理语言数据的设备，其中，所述设备是以下设备之一：

计算机、手机、平板电脑、电纸书和个人数字助理。

10.一种计算机实现的处理语言数据的方法，包括：

获得所述语言数据中的词法单元，并在所述语言数据中的词法单元中识别能够符合至少两种句法关系的至少两个词法单元；

针对每一种所述句法关系，根据相应转换方法将所述识别的词法单元转换为候选语句，以使所述候选语句具有与该句法关系相对应的特征句法结构；

利用语言模型对各个所述候选语句进行评分；以及

将所述识别的词法单元确定为具有与得分最高的候选语句相对应的句法关系。