CN104331398A

CN104331398A - 生成同义词对齐词典的方法及装置

Info

Publication number: CN104331398A
Application number: CN201410601632.3A
Authority: CN
Inventors: 石磊; 李朋凯; 曾增烽; 林英展
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-10-30
Filing date: 2014-10-30
Publication date: 2015-02-04
Anticipated expiration: 2034-10-30
Also published as: CN104331398B

Abstract

本发明提供一种生成同义词对齐词典的方法及装置，上述方法包括：根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型，所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息；根据所述替换决策树模型对已有的对齐词典进行过滤，生成第一同义词对齐词典。本发明提供的生成同义词对齐词典的方法及装置，通过根据多个替换词标注数据样本及其多个预定特征的特征值生成替换决策树模型，得到了能够更精确地衡量各个特征之间的关系的模型，并通过根据替换决策树模型对已有的对齐词典进行过滤，从而能够得到更多的优等替换词条。

Description

生成同义词对齐词典的方法及装置

技术领域

本发明涉及信息检索领域，尤其涉及一种生成同义词对齐词典的方法及装置。

背景技术

在信息检索领域，当用户发出检索请求时，对于用户输入的检索词，为了提供相关性更好的检索结果，需要将其中的每个检索词进行适当的替换，以便检索出更多更好的检索结果。比如：一个冷门词被替换成同样意思的热门词，将检索出更多的相关性好的检索结果，一个单一的检索词被替换成多种形式的同义词，将能够使得检索结果更具备多样性；一个表述不全的检索词被补全为完整的表达，将能够找回更精确的检索结果。因此，提供丰富而且准确的同义词对齐词典是检索过程中非常基础而重要的一环，该同义词对齐词典中词条的数量和质量将直接影响到检索结果的召回率和精确度。

在现有技术中，通常采用如下技术方案生成同义词对齐词典：根据已有的同义词对齐词典，人工设计统计量，选择其中能较好地反应替换效果的统计值作为主要的过滤特征；通过人工过滤的方式调整上述过滤特征的阈值，得到一个比较稳定而良好的经验阈值；将上述已有的同义词对齐词典的替换词条中特征值小于\大于过滤特征的阈值的替换词条删除，得到一个经过提纯的精确的同义词对齐词典。

然而，前述技术方案至少存在如下问题：

尽管通过人工有效地设置统计量、设置经验阈值的方法，经验阈值很难精确地设置，人工调整只能确定一个模糊的范围，对替换词条的过滤不够精确。除此以外，随着统计特征增多，难以通过人工直接衡量各个特征之间的关系，不能总体上综合考虑特征值，只能对各个特征值逐一比较，一旦有一个特征值不满足经验阈值该词条就会被过滤掉，容易丢失好的替换词条，从而在检索结果方面会受到一定的损失。

发明内容

本发明的目的在于提供一种生成同义词对齐词典的方法及装置，能够自动地生成更精确的同义词对齐词典，并解决了现有技术中过滤方法导致的误过滤优等替换词条的问题。

根据本发明的一方面，本发明提供一种生成同义词对齐词典的方法，包括：根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型，所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息；根据所述替换决策树模型对已有的对齐词典进行过滤，生成第一同义词对齐词典。

根据本发明的另一方面，本发明提供一种生成同义词对齐词典的装置，包括：替换决策树模型生成单元，用于根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型，所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息；词典过滤单元，用于根据所述替换决策树模型对已有的同义词对齐词典进行过滤，生成第一同义词对齐词典。

本发明提供的生成同义词对齐词典的方法及装置，通过根据多个替换词标注数据样本及其多个预定特征的特征值生成替换决策树模型，得到了能够更精确地衡量各个特征之间的关系的模型，并通过根据替换决策树模型对已有的对齐词典进行过滤，从而能够得到更多的优等替换词条。

附图说明

图1为本发明示例性实施例的生成同义词对齐词典的方法的流程图。

图2为本发明优选实施例的生成同义词对齐词典的方法的流程图。

图3为本发明示例性实施例的生成同义词对齐词典的装置的逻辑框图。

图4为本发明优选实施例的生成同义词对齐词典的装置的逻辑框图。

具体实施方式

本发明的总体发明构思是，提供一种生成同义词对齐词典的方法及装置，先根据多个替换词标注数据样本及其多个预定特征的特征值生成根据多个预定特征进行决策的替换决策树模型，然后根据替换决策树模型对已有的同义词对齐词典进行过滤，生成更精确的同义词对齐词典。通过根据多个替换词标注数据样本及其多个预定特征的特征值生成替换决策树模型，得到了能够更精确地衡量各个特征之间的关系的模型，并通过根据替换决策树模型对已有的对齐词典进行过滤，从而能够得到更多的优等替换词条。

下面结合附图对本发明的生成同义词对齐词典的方法及装置进行详细描述。

参照图1，在步骤S110，根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型，所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息。根据本法发明的示例性实施例，所述替换决策树模型中的叶节点表示替换的优劣，每个非叶节点对应于一个所述预定特征，所述非叶节点的每个分支分别表示所述非叶节点对应的预定特征的特征值满足预定条件和不满足所述预定条件。

例如，多个替换词标注数据样本及其多个预定特征的特征值可以如下：

可以通过weka中标准的决策树模型J48，对这些数据样本进行训练，得到的替换决策树模型如下：

在步骤S120，根据所述替换决策树模型对已有的同义词对齐词典(例如IBM对齐词典)进行过滤，生成第一同义词对齐词典。根据本发明的示例性实施例，所述已有的对齐词典中的替换词条信息可以包括基于统计对齐获得的原词、替换词以及替换统计数据。其中，替换统计数据可以包括：替换词条的共现次数信息和对齐次数信息。共现次数表示原词和替换词同时出现在一次检索的检索词中并且同时为热门词的次数，对齐次数表示通过统计对齐计算出来的原词对齐到替换词的统计次数。一种已有的同义词对齐词典的例子可以是通过IBM对齐算法(如IBM模型1)对平行据对中的替换点进行对齐次数统计而产生的基本替换点词典。

根据本发明的示例性实施例，步骤S120可具体包括：

首先，根据所述已有的对齐词典中的替换词条的替换统计数据，计算所述替换词条的所述多个预定特征的特征值。具体地，可以根据所述已有的对齐词典中的替换词条的共现次数信息和对齐次数信息计算所述替换词条的所述多个预定特征的特征值。下面举例说明替换词条的多个预定特征中的2个特征值的计算方法：

替换词条的一个特征值1：共现对齐的概率，该特征值的计算方法可以为：共现对齐的概率＝共现次数/对齐次数。

替换词条的一个特征值4：精确度，该特征值的计算方法可以为：精确度＝对齐次数/count(A in query&&B in hl)。其中，count(A in query&&B in hl)表示原词出现检索词中而同时替换词为热门词的次数。在检索技术中，通常会通过统计所有的平行句对，将每个检索词中的词和检索结果中的高亮词共同出现的次数进行统计，生成所有词对的共现次数词典。该次数可以通过词对共现次数词典查询到。例如，已有的对齐词典中的一个替换词条为：

原词	替换词	共现次数	对齐次数
				cooking	cuisine	3	9

线下cooc词典中相应的词条是：cooking cuisine 18。由此得到上述词条的一个特征值精确度＝9/18＝0.5。

然后，针对所述已有的对齐词典中的替换词条，根据所述替换词条的所述多个预定特征的特征值以及所述替换决策树模型，从所述已有的对齐词典删除被确定为劣的替换词条，以生成第一同义词对齐词典。下面举例说明如何确定词条为劣：

假设已有的对齐词典中的一个替换词条为：原词：cores，替换词：cortes。

计算得到该替换词条的19个特征分别为：0.758445946，0.002470032，0.00738698，0.384166126，42.27272727，7.92E-05，0.000180535，0.013447433，155，1.21E-05，3.43E-05，0.003667482，0.929606625，0.003407047，0.007573026，0.313432836，0，1.09E-05，0.142887964。

根据上面的特征值，通过上面生成的替换决策树模型的决策流程，得到最终的标签。例如：特征1命中第二分支，特征7命中第一个分支，所以该替换词条被判别为bad(即劣)，需要删除。

通过上述的处理，生成了拥有更多的优等替换词条的第一同义词对齐词典。

参照图2，本发明的优选实施例的生成同义词对齐词典的方法在步骤S120之后，还可以执行步骤S130。

在步骤S130，将所述第一同义词对齐词典与已有的高置信度同义词对齐词典合并，生成第二同义词对齐词典。已有的高置信度同义词对齐词典中的替换词条都是精确度较高的高置信度词条，一般情况下，高置信度同义词对齐词典中的词条不会与上述的已有的对齐词典中的词条有重合。通过将第一同义词对齐词典与已有的高置信度同义词对齐词典合并，得到了拥有更多的精确的替换词条的第二同义词对齐词典，从而在进行检索时，能够得到更多的精确的检索结果。

进一步地，本发明优选实施例的生成同义词对齐词典的方法在步骤S130之后，还可以执行步骤S140。

在步骤S140，根据所述第二同义词对齐词典中的替换词条的对齐次数信息，获得所述第二同义词对齐词典中的替换词条的替换权值。

具体地，在步骤S140中，针对所述第二同义词对齐词典中每条替换词条，所述替换词条的替换权值等于所述替换词条的对齐次数除以所述第二同义词对齐词典中原词与所述替换词条的原词相同的替换词条中最大的对齐次数。

下面通过一个具体的例子对传统的计算替换词条的替换权值的方法与本实施例的计算替换词条的替换权值的方法进行比较，以加强对步骤S140的理解。

假设高置信度同义词对齐词典中有如下条词条：

原词	替换词	对齐次数
			A	B	10
A	C	100
			A	D	1000

第一同义词对齐词典中有如下条词条：

原词	替换词	对齐次数
			A	E	50
A	F	500
			A	G	5000

传统的计算替换词条的替换权值的算法为：

a：归一化高置信度同义词对齐词典中词条的对齐次数。用p(X->Y)表示原词为X替换词为Y的词条的替换权值,可得：

p(A->B)＝10/1000＝0.01

p(A->C)＝100/1000＝0.1

p(A->D)＝1000/1000＝1.0

b：归一化第一同义词对齐词典中词条的对齐次数。

p(A->E)＝50/5000＝0.01

p(A->F)＝500/5000＝0.1

p(A->G)＝5000/5000＝1.0

c：步骤a和步骤b所计算的替换概率合并后的集合即为最终的词典，即：

原词	替换词	对齐次数	替换权值
				A	B	10	0.01

A	C	100	0.1
				A	D	1000	1.0
A	E	50	0.01
				A	F	500	0.1
A	G	5000	1.0

由此可见，传统计算替换词条的替换权值的算法将两个同义词对齐词典的替换权值归一化分开完成，最后才合并，每个替换词条仅仅和自己词典中的其他替换词条进行归一化，而没有与另一个词典中的替换词条进行比较，从而使得在其中某个对齐词典的替换词条的对齐次数偏低的时候，其替换权值的大小却与另一个列表相似。这样导致了当同一个词A的两个不同来源的替换候选列表在对齐次数上具有比较悬殊差距时，该打分方式无法体现这种差距。

而本实施例的计算替换词条的替换权值的算法为：对由第一同义词对齐词典与高置信度同义词对齐词典合并后生成的第二同义词对齐词典中词条的对齐次数进行统一归一化，可得：

p(A->B)＝10/5000＝0.002

p(A->C)＝100/5000＝0.02

p(A->D)＝1000/5000＝0.2

p(A->E)＝50/5000＝0.01

p(A->F)＝500/5000＝0.1

p(A->G)＝5000/5000＝1.0

从而得到最终的词典如下：

原词	替换词	对齐次数	替换权值
				A	B	10	0.002
A	C	100	0.02
				A	D	1000	0.2
A	E	50	0.01
				A	F	500	0.1
A	G	5000	1.0

由此可见，本实施例的计算替换词条的替换权值的算法能够更加全面的衡量每个替换词条的优劣程度。

参照图3，本发明的生成同义词对齐词典的装置包括：替换决策树模型生成单元310以及词典过滤单元320。

替换决策树模型生成单元310用于根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型，所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息。根据本发明的示例性实施例，替换决策树模型中的叶节点表示替换的优劣，每个非叶节点对应于一个所述预定特征，所述非叶节点的每个分支分别表示所述非叶节点对应的预定特征的特征值满足预定条件和不满足所述预定条件。替换决策树模型生成单元310的具体处理可参考上述对图1中的步骤S110的说明，在此不再赘述。

词典过滤单元320用于根据所述替换决策树模型对已有的同义词对齐词典进行过滤，生成第一同义词对齐词典。其中，已有的对齐词典中的替换词条信息可以包括基于统计对齐获得的原词、替换词以及替换统计数据。替换统计数据可以包括：替换词条的共现次数信息和对齐次数信息。

根据本发明的实例性实施例，词典过滤单元320可以包括：

特征值计算单元321，用于根据所述已有的对齐词典中的替换词条的替换统计数据，计算所述替换词条的所述多个预定特征的特征值。具体地，特征值计算单元321根据已有的对齐词典中的替换词条的共现次数信息和对齐次数信息计算所述替换词条的所述多个预定特征的特征值。关于特征值计算单元321对特征值的计算，可参考上述对图1中的对步骤S120的关于特征值计算的说明，在此不再赘述。

词典过滤子单元322，用于针对所述已有的对齐词典中的替换词条，根据所述替换词条的所述多个预定特征的特征值以及所述替换决策树模型，删除被确定为劣的替换词条，以生成第一同义词对齐词典。关于词典过滤子单元322的处理，可参考上述对图1中的步骤S120的关于根据所述替换决策树模型对已有的同义词对齐词典进行过滤，生成第一同义词对齐词典的处理的详细说明，在此不再赘述。

参照图4，本发明优选实施例的生成同义词对齐词典的装置除了决策树模型生成单元310以及词典过滤单元320之外，还可以包括词典合并单元330，用于将所述第一同义词对齐词典与已有的高置信度同义词对齐词典合并，生成第二同义词对齐词典。已有的高置信度同义词对齐词典中的替换词条都是精确度较高的高置信度词条，一般情况下，高置信度同义词对齐词典中的词条不会与上述的已有的对齐词典中的词条有重合。通过将第一同义词对齐词典与已有的高置信度同义词对齐词典合并，得到了拥有更多的精确的替换词条的第二同义词对齐词典，从而在进行检索时，能够得到更多的精确的检索结果。

进一步地，本发明优选实施例的生成同义词对齐词典的装置还可以包括：替换权值获取单元340，用于根据所述第二同义词对齐词典中的替换词条的对齐次数信息，获得所述第二同义词对齐词典中的替换词条的替换权值。根据本发明的实例性实施例，替换权值获取单元340针对所述第二同义词对齐词典中每条替换词条，计算所述替换词条的替换权值等于所述替换词条的对齐次数除以所述第二同义词对齐词典中原词与所述替换词条的原词相同的替换词条中最大的对齐次数。替换权值获取单元340获得所述第二同义词对齐词典中的替换词条的替换权值的处理以及该处理相对于传统获取方法的有益效果可参考上述对图2中步骤S140的相关描述，在此不再赘述。

根据上述本发明的实施例的生成同义词对齐词典的方法及装置，通过根据多个替换词标注数据样本及其多个预定特征的特征值生成替换决策树模型，得到了能够更精确地衡量各个特征之间的关系的模型，并通过根据替换决策树模型对已有的对齐词典进行过滤，从而能够得到更多的优等替换词条。此外，本发明的实施例还通过对由第一同义词对齐词典与高置信度同义词对齐词典合并后生成的第二同义词对齐词典中词条的对齐次数进行统一归一化来获取替换词条的替换权值，更加全面的衡量每个替换词条的优劣程度。

以上仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种生成同义词对齐词典的方法，其特征在于，所述方法包括：

根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型，所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息；

根据所述替换决策树模型对已有的同义词对齐词典进行过滤，生成第一同义词对齐词典。

2.根据权利要求1所述的方法，其特征在于，所述替换决策树模型中的叶节点表示替换的优劣，每个非叶节点对应于一个所述预定特征，所述非叶节点的每个分支分别表示所述非叶节点对应的预定特征的特征值满足预定条件和不满足所述预定条件。

3.根据权利要求2所述的方法，其特征在于，所述已有的对齐词典中的替换词条信息包括基于统计对齐获得的原词、替换词以及替换统计数据。

4.根据权利要求3所述的方法，其特征在于，所述根据所述替换决策树模型对已有的对齐词典进行过滤，生成第一同义词对齐词典的处理包括：

根据所述已有的对齐词典中的替换词条的替换统计数据，计算所述替换词条的所述多个预定特征的特征值；

针对所述已有的对齐词典中的替换词条，根据所述替换词条的所述多个预定特征的特征值以及所述替换决策树模型，删除被确定为劣的替换词条，以生成第一同义词对齐词典。

5.根据权利要求4所述的方法，其特征在于，所述替换统计数据包括：替换词条的共现次数信息和对齐次数信息，

所述根据所述已有的对齐词典中的替换词条的替换统计数据，计算所述替换词条的所述多个预定特征的特征值的处理包括：

根据所述已有的对齐词典中的替换词条的共现次数信息和对齐次数信息计算所述替换词条的所述多个预定特征的特征值。

6.根据权利要求1～5中任一项所述的方法，其特征在于，所述方法还包括：

将所述第一同义词对齐词典与已有的高置信度同义词对齐词典合并，生成第二同义词对齐词典。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

根据所述第二同义词对齐词典中的替换词条的对齐次数信息，获得所述第二同义词对齐词典中的替换词条的替换权值。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第二同义词对齐词典中的替换词条的对齐次数信息，获得所述第二同义词对齐词典中的替换词条的替换权值包括：

针对所述第二同义词对齐词典中每条替换词条，所述替换词条的替换权值等于所述替换词条的对齐次数除以所述第二同义词对齐词典中原词与所述替换词条的原词相同的替换词条中最大的对齐次数。

9.一种生成同义词对齐词典的装置，其特征在于，所述装置包括：

替换决策树模型生成单元，用于根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型，所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息；

词典过滤单元，用于根据所述替换决策树模型对已有的同义词对齐词典进行过滤，生成第一同义词对齐词典。

10.根据权利要求9所述的装置，其特征在于，所述替换决策树模型中的叶节点表示替换的优劣，每个非叶节点对应于一个所述预定特征，所述非叶节点的每个分支分别表示所述非叶节点对应的预定特征的特征值满足预定条件和不满足所述预定条件。

11.根据权利要求10所述的装置，其特征在于，所述已有的对齐词典中的替换词条信息包括基于统计对齐获得的原词、替换词以及替换统计数据。

12.根据权利要求11所述的装置，其特征在于，所述词典过滤单元包括：

特征值计算单元，用于根据所述已有的对齐词典中的替换词条的替换统计数据，计算所述替换词条的所述多个预定特征的特征值；

词典过滤子单元，用于针对所述已有的对齐词典中的替换词条，根据所述替换词条的所述多个预定特征的特征值以及所述替换决策树模型，删除被确定为劣的替换词条，以生成第一同义词对齐词典。

13.根据权利要求12所述的装置，其特征在于，所述替换统计数据包括：替换词条的共现次数信息和对齐次数信息，

所述特征值计算单元根据所述已有的对齐词典中的替换词条的共现次数信息和对齐次数信息计算所述替换词条的所述多个预定特征的特征值。

14.根据权利要求9～13中任一项所述的装置，其特征在于，所述装置还包括：

词典合并单元，用于将所述第一同义词对齐词典与已有的高置信度同义词对齐词典合并，生成第二同义词对齐词典。

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

替换权值获取单元，用于根据所述第二同义词对齐词典中的替换词条的对齐次数信息，获得所述第二同义词对齐词典中的替换词条的替换权值。

16.根据权利要求15所述的装置，其特征在于，所述替换权值获取单元针对所述第二同义词对齐词典中每条替换词条，计算所述替换词条的替换权值等于所述替换词条的对齐次数除以所述第二同义词对齐词典中原词与所述替换词条的原词相同的替换词条中最大的对齐次数。