CN105279252A

CN105279252A - 挖掘相关词的方法、搜索方法、搜索***

Info

Publication number: CN105279252A
Application number: CN201510657691.7A
Authority: CN
Inventors: 韩增新; 蒋冠军; 董良
Original assignee: Guangzhou Shenma Mobile Information Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2015-10-12
Filing date: 2015-10-12
Publication date: 2016-01-27
Anticipated expiration: 2035-10-12
Also published as: WO2017063538A1; CN105279252B

Abstract

本发明公开了一种挖掘相关词的方法，包括：基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对；对每组平行句对进行分词处理；对所述分词处理后的平行句对进行词对齐处理，以获取第一对齐词对；计算所述第一对齐词对的共现频率；将共现频率高于预定阈值的所述第一对齐词对确定为相关词。这样，通过该挖掘相关词方法，可以挖掘出更高相关度的相关词，也可以扩大检索词搜索的范围，提高找到更好的搜索结果的概率。同时，本发明还公开了一种搜索方法和一种搜索***。

Description

挖掘相关词的方法、搜索方法、搜索***

技术领域

本发明涉及信息检索领域，尤其涉及一种挖掘相关词的方法、一种搜索方法以及一种搜索***。

背景技术

搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能，同时也是“研究网站用户行为的一个有效工具”。高效的站内检索可以让用户快速准确地找到目标信息，从而有效地解决用户问题，也能更有效地促进产品/服务的销售，而且通过对网站访问者搜索行为的深度分析，对于进一步制定更为有效的网络营销策略具有重要价值。

用户在使用搜索引擎进行搜索时，通过搜索引擎的检索页面，输入检索关键词，搜索引擎检索并返回检索结果。一般搜索引擎会直接使用用户输入的关键词进行原词搜索，或者使用检索词的同义词进行搜索。

但是，使用检索词原词或者同义词进行搜索时，搜索结果有限。常常有一些好结果，它们的词语本身与检索词并不一致，但是语义上与搜索词非常相关，导致这样结果的网页无法召回。

发明内容

本发明所要解决的技术问题是解决传统搜索引擎只通过原词或同义词进行检索得到的检索结果有限的问题，提供一种挖掘相关词的方法、一种搜索方法以及一种搜索***。

根据本发明的一个方面，提供了一种挖掘相关词的方法。

一种挖掘相关词的方法，包括：

基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对；

对每组所述平行句对进行分词处理；

对所述分词处理后的平行句对进行词对齐处理，以获取第一对齐词对；

计算所述第一对齐词对的共现频率；

将共现频率高于预定阈值的所述第一对齐词对确定为相关词。

这样，通过该挖掘相关词方法，可以挖掘出更高相关度的相关词，也可以扩大检索词搜索的范围，提高找到更好的搜索结果的概率。

优选地，所述获取平行句对的步骤包括：

根据两个句子的字面相似度，滤除含义不同的平行句对。

这样，通过两个句子的字面相似度滤除含义不同的平行句对，从而获取表达含义相同但说法不同的平行句对。

优选地，该方法还包括记录所述相关词的上下文语境词。

通过记录该相关词的上下文语境，通过判断两个相关词的上下文语境是否相同或者相近，有利于进一步判断相关词之间的相关度。

优选地，所述词对齐处理包括规则词对齐处理和/或统计词对齐处理。

优选地，所述规则词对齐处理包括字面完全相同词对齐处理、字面部分相同词对齐处理或临近词对齐处理中的至少一种。

这样，可以挖掘出相关度程度不同的相关词。

优选地，所述统计词对齐处理为使用GIZA++工具进行统计词对齐处理。

优选地，该方法还包括：

使用线性模型过滤所述大规模用户搜索行为数据获取第二对齐词对；

获取能够体现所述相关词之间的相关度的统计特征；

以所述第一对齐词对为正样本，所述第二对齐词对为负样本，基于所述统计特征，采用梯度提升决策树(GBDT)算法，训练所述正样本和所述负样本，获取所述相关词置信度计算模型。

这样，通过建立相关词置信度计算模型，通过该模型可以区分相关词之间的相关度。

优选地，所述相关词置信度计算模型为GBDT非线性回归模型。

根据本发明的另一个方面，还公开了一种搜索方法。

一种搜索方法，包括如下步骤：

基于相关词词库获取检索词的相关词；

基于置信度计算模型计算所述检索词与每个所述相关词之间的置信度；

根据对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。

这样，通过该搜索方法，可以针对检索词找到其对应的相关词，扩大了搜索的范围，扩大了搜索结果，可以防止词语本身与检索词并不一致，但是语义上与检索词非常相时，这样的搜索结果无法召回的结果发生。

优选地，所述相关词词库是通过根据上述挖掘相关词的方法建立的。

通过上述挖掘相关词的方法，可以挖掘出更高相关度的相关词，也可以扩大检索词搜索的范围，提高找到更好的搜索结果的概率。

优选地，该方法还包括对检索语句进行分词处理以获取所述检索词。

当用户输入检索语句时，通过将检索语句进行分词，从而获取若干检索词，从而通过该检索方法检索出与上述若干检索词相关的检索结果，进一步扩大了搜索的范围。

优选地，基于置信度计算模型计算所述检索词与每个所述相关词之间的置信度的步骤包括：

获取每个所述检索词与对应的每个所述相关词之间的特征值；

将所述特征值作为所述置信度计算模型的输入，基于所述置信度计算模型计算所述置信度。

优选地，所述特征值包括：

相关程度信息，用于衡量每个所述检索词与每个对应的相关词之间的相关程度；和/或

可替换程度信息，用于衡量在所述相关词的上下文语境中，所述检索词与所述相关词之间的可替换程度；和/或

共现关系信息，用于衡量所述检索词之间的共现关系；和/或

语言模型得分信息，用于显示所述相关词替换所述检索词前后的检索语句的语言模型得分；和/或

权重值信息，用于表示所述相关词的权重。

优选地，所述相关程度信息包括第一翻译概率P₁和/或第二翻译概率P₂；

P_{1} (A, A^{'}) = \frac{{count}_{1} (A, A^{'})}{{count}_{1} (A, \cdot)}, P_{2} (A, A^{'}) = \frac{{count}_{1} (A, A^{'})}{{count}_{1} (\cdot, A^{'})};

count₁(A,·)＝∑_jcount₁(A,w_j)，count₁(·,A′)＝∑_icount₁(w_i,A′)；

其中，检索词A与相关词A’构成第一词对(A,A’)，count₁(A,A’)表示在平行句对中第一词对(A,A’)被对齐的次数，count₁(A,·)表示在平行句对中检索词A被对齐的总次数，count₁(·,A′)表示在平行句对中相关词A’被对齐的总次数，w_j表示在平行句对中所有与检索词A对齐的词中的第j个，w_i表示在平行句对中所有与相关词A’对齐的词中的第i个，count₁(A,w_j)表示在平行句对中检索词A与词w_j对齐的次数，count₁(w_i,A’)表示在平行句对中词w_i与相关词A’对齐的次数，i和j均为自然数。

优选地，所述可替换程度信息包括第一可替换程度score(D,Q)和/或第二可替换程度score(D,Q′)；

s c o r e (D, Q) = Σ_{i = 1}^{n} I D F (q_{i}) \cdot \frac{f (q_{i}, D) \cdot (k_{1} + 1)}{f (q_{i}, D) + k_{1} \cdot (1 - b + b \cdot \frac{| D |}{a v g d l})};

s c o r e (D, Q^{'}) = Σ_{j = 1}^{m} I D F (q_{j}^{'}) \cdot \frac{f (q_{j}^{'}, D) \cdot (k_{1} + 1)}{f (q_{j}^{'}, D) + k_{1} \cdot (1 - b + b \cdot \frac{| D |}{a v g d l})};

其中，检索词A与相关词A’构成第一词对(A,A’)，

检索词A与相关词A’的所有上下文词作为文档D，|D|为D的长度，

Q为检索语句，q_i为所述检索语句Q的第i个检索词，n是所述检索语句Q中检索词的总个数，

Q′为检索词A附近的m个词的检索词组合，m<n，q′_j为所述检索词组合Q′的第j个检索词，

avgdl为检索词A的所有相关词的上下文构成的文档的平均长度，

k₁为第一常数，b为第二常数，

f(q_i,D)表示qi在文档D中的出现频率，

f(q′_j,D)表示q′_j在文档D中的出现频率。

优选地，所述共现关系信息包括基于共现关系指数PMI得到的第一共现关系信息和/或第二共现关系信息，其中，

p m i (A, B) = l o g \frac{{count}_{2} (A, \cdot) \times {count}_{2} (\cdot, B)}{{count}_{2} (A, B) \times {count}_{2} (\cdot, \cdot)} / l o g \frac{{count}_{2} (A, B)}{{count}_{2} (\cdot, \cdot)};

count₂(A,·)＝Σ_jcount₂(A,w_j)；

count₂(·,B)＝∑_icount₂(w_i,B)；

count₂(·,·)＝Σ_i,jcount₂(w_i,w_j)；

count₂(A,·)表示在检索资源中检索词A与其它检索词同时出现的总次数，count₂(·,B)表示在检索资源中检索词B与其它检索词同时出现的总次数，count₂(A,B)表示在检索资源中两个检索词A、B同时出现的次数，w_j表示在检索资源中所有与检索词A同时出现的词中的第j个，w_i表示在检索资源中所有与相关词B同时出现的词中的第i个，count₂(A,w_j)表示在检索资源中两个检索词A、w_j同时出现的次数，count₂(w_i,B)表示在检索资源中两个检索词w_i、B同时出现的次数，count₂(w_i,w_j)表示在检索资源中两个检索词w_i、w_j同时出现的次数，i和j均为自然数；

第一共现关系信息是检索词与检索语句中其它词的共现关系指数PMI的平均值；

第二共现关系信息是相关词与检索语句中其它词的共现关系指数PMI的平均值。

优选地，该方法还包括基于大规模用户搜索行为数据训练N-gram语言模型获取所述语言模型。

优选地，所述根据对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序的步骤，为通过排序模型根据所述对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。

优选地，该方法还包括所述排序模型根据所述检索语句和检索资源页面信息对所述检索资源进行初排序的步骤。

优选地，所述检索资源为网页资源和/或文档资源。

根据本发明的另一个方面，还提供了一种搜索***。

一种搜索***，包括：

相关词词库存储装置；

相关词获取装置，用于基于所述相关词词库存储装置存储的相关词词库获取检索词的相关词；

置信度计算装置，用于基于相关词置信度计算模型计算所述检索词与每个所述相关词之间的置信度；

排序装置，用于根据所述对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。

优选地，该搜索***还包括相关词词库建立装置，用于建立所述相关词词库，包括：

平行句获取模块，用于基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对；

分词器，用于对每组所述平行句对进行分词处理；

词对齐模块，用于将所述分词处理后的平行句对进行词对齐处理以获取第一对齐词对；

共现频率获取模块，用于计算所述第一对齐词对的共现频率；

相关词确定模块，用于将共现频率高于预定阈值的所述第一对齐词对确定为相关词。

优选地，所述相关词词库建立装置还包括：

语境获取模块，用于获取所述相关词的上下文语境词。

优选地，该搜索***还包括相关词置信度计算模型建立装置，用于建立所述相关词置信度计算模型，包括：

线性模型过滤模块，用于使用线性模型过滤所述大规模用户搜索行为数据以获取第二对齐词对；

训练模块，用于以所述第一对齐词对为正样本，以所述第二对齐词对为负样本，基于GBDT算法训练所述正样本和所述负样本，获取所述相关词置信度计算模型。

优选地，所述相关词置信度计算模型为GBDT非线性回归模型。

优选地，所述分词器还用于对检索语句进行分词处理以获取检索词。

优选地，所述置信度计算装置包括：

特征值提取模块，用于提取每个所述检索词与对应的每个所述相关词之间的特征值；

置信度计算模块，用于将所述特征值作为所述相关词置信度计算模型的输入，基于所述相关词置信度计算模型计算所述置信度。

优选地，所述特征值提取模块包括：

相关程度信息获取单元，用于获取相关程度信息，所述相关程度信息用于衡量每个所述检索词与每个对应的相关词之间的相关程度；和/或

可替换程度信息获取单元，用于获取可替换程度信息，所述可替换程度信息用于衡量在所述相关词的上下文语境中，所述检索词与所述相关词之间的可替换程度；和/或

共现关系信息获取单元，用于获取共现关系信息，所述共现关系信息用于衡量所述检索词之间的共现关系；和/或

语言模型得分信息获取单元，用于获取语言模型得分信息，所述语言模型得分信息用于显示所述相关词替换所述检索词前后的检索语句的语言模型得分；和/或

权重值信息获取单元，用于获取权重值信息，所述权重值信息用于表示所述相关词的权重。

优选地，所述特征值提取模块还包括：

语言模型获取单元，用于基于所述大规模用户搜索行为数据训练N-gram语言模型获取所述语言模型。

优选地，所述排序装置为通过排序模型根据所述对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。

优选地，所述排序装置还用于通过所述排序模型根据检索语句和检索资源页面信息对所述检索资源进行初排序。

这样，通过上述挖掘相关词的方法、搜索方法以及搜索***，可以找到检索词对应的相关词，使用检索词以及其相关词一并进行检索，扩大了搜索的范围，扩大了搜索结果，可以防止词语本身与检索词并不一致，但是语义上与检索词非常相时，这样的搜索结果无法召回的结果发生。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明一实施例的挖掘相关词的方法的流程图；

图2示出了根据本发明另一实施例的挖掘相关词的方法的流程图；

图3示出了根据本发明一实施例的搜索方法的流程图；

图4示出了根据本发明另一实施例的搜索方法的流程图；

图5示出了图4所示实施例步骤S240的流程图；

图6示出了根据本发明一实施例的搜索***的示意图；

图7示出了根据本发明另一实施例的搜索***的示意图；

图8示出了图7所示实施例相关词词库建立装置310的示意图；

图9示出了图7所示实施例相关词置信度计算模型建立装置350的示意图；

图10示出了图7所示实施例置信度计算装置390的示意图；

图11示出了图10所示实施例特征值提取模块394的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

下面参考图1描述根据本发明一实施例的一种挖掘相关词的方法，用于从大规模用户搜索行为数据获取相关词。

图1示出了根据本发明一实施例的挖掘相关词的方法的流程图。

在步骤S110，基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对。

基于大规模用户搜索行为数据，从用户的检索日志和/或检索标题日志等数据中获取平行句对。其中，平行句对是指采用不同表述形式来表达相同含义的句对。例如，上述采用不同表述形式表达相同含义的平行句对，可以为“婴儿颈部长有红斑痣”和“宝宝脖子有斑痣”等。

在上述大规模用户搜索行为数据中，例如在用户的检索日志和/或检索标题日志等数据中，存在很多含义相同，但表达并不一致的句对。进一步地，可以根据两个句子的字面相似度，滤除含义不同的平行句对。

在步骤S120，对每组平行句对进行分词处理。

通过分词技术将上述每组平行句对中的每一个句子进行分词。

在步骤S130，对上述分词处理后的平行句对进行词对齐处理，以获取第一对齐词对。

通过词对齐处理，可以找出表达相同含义的词。

其中，上述词对齐处理可以包括规则词对齐处理和/或统计词对齐处理方式。上述规则词对齐处理包括字面完全相同词对齐处理、字面部分相同词对齐处理或临近词对齐处理中的至少一种。上述统计词对齐处理为使用GIZA++工具进行统计词对齐处理。

在步骤S140，计算上述第一对齐词对的共现频率。

其中，共现频率的评价指标可以为第一翻译概率P1和/或第二翻译概率P2，P1、P2的计算公式如下：

P_{1} (A, A^{'}) = \frac{{count}_{1} (A, A^{'})}{{count}_{1} (A, \cdot)}, P_{2} (A, A^{'}) = \frac{{count}_{1} (A, A^{'})}{{count}_{1} (\cdot, A^{'})};

count₁(A,·)＝Σ_jcount₁(A,w_j)，count₁(·,A′)＝Σ_icount₁(w_i,A′)；

其中，检索词A与相关词A’构成第一词对(A,A’)，count₁(A,A’)表示在平行句对中第一词对(A,A’)被对齐的次数，count₁(A,·)表示在平行句对中检索词A被对齐的总次数，count₁(·,A′)表示在平行句对中相关词A’被对齐的总次数，w_j表示在平行句对中所有与检索词A对齐的词中的第j个，w_i表示在平行句对中所有与相关词A’对齐的词中的第i个，count₁(A,w_j)表示在平行句对中检索词A与词w_j对齐的次数count₁(w_i,A’)表示在平行句对中词w_i与相关词A’对齐的次数，i和j均为自然数。

可以理解，count₁(A,A’)的值与A、A’的顺序是无关的，即count₁(A,A’)与count₁(A’,A)是相同的。

P1表示查询词A与相关词A′对齐的次数占查询词A被对齐的总次数的比例，P2表示查询词A与相关词A′对齐的次数占相关词A′被对齐的总次数的比例。

其中，对齐次数是两个词在多个不同的平行句对中对齐的次数，共现次数是两个词在同一个语料中同时出现的次数。

在步骤S150，将共现频率高于预定阈值的第一对齐词对确定为相关词。

其中，上述预定阈值可以根据对相关词之间相关度的要求不同进行不同程度的设定。在一实施例中，上述预定阈值可为1.0*e^-99。

这样，通过该挖掘相关词方法，可以挖掘出更高相关度的相关词，可以进一步扩大检索词搜索的范围，提高找到更好的搜索结果的概率。并且，也可以根据预定阈值的不同，获取相似度不同的相关词。

下面参考图2描述根据本发明另一实施例的一种挖掘相关词的方法，用于从大规模用户搜索行为数据获取相关词。

参考图2，上述挖掘相关词的方法还包括如下步骤：

在步骤S160，记录相关词的上下文语境词。

通过记录该相关词的上下文语境词，可以获知相关词的上下文语境。通过判断两个相关词的上下文语境是否相同或者相近，可以进一步判断相关词之间的相关度，有利于获取更高相似度的相关词。

上述相关词的上下文语境词的获取，根据平行句的长度不同，可以做不同程度长度的限定。本实施例中，因考虑平行句对的长度一般不会过长，因此可以不做长度或其他形式的限定。在其他实施例中，可以根据对相关词的相关度的要求不同或者其他标准下，对其长度或者上下文语境词的获取方式做不同的限定。

在步骤S170，使用线性模型过滤所述大规模用户搜索行为数据获取第二对齐词对。

其中，上述线性模型可为简单线性模型。进一步地，该简单线性模型可以为用人工标注的少量(可以为万级别)词对，使用上述词对之间的统计特征，用简单线性回归模型拟合的线性模型。其中，上述拟合可以指线性回归拟合建模。

上述人工标注的词对数量较少，并且模型简单，因此使用该模型输出的置信度得分不高。通过该线性模型过滤上述大规模用户搜索行为数据，将置信度得分小于特定阈值的结果作为上述第二对齐词对，因使用该模型过滤出的词对置信度得分不高，因此该第二对齐词对作为较差词对。具体的，上述特定阈值接近或小于零。

上述“人工标注”的词对是指：在某个查询语句(query)下，一个query中的原词到相关词构成一个词对，这个词对经过标注，是否适合作为一个相关词。上述标注方式可以为，在”八个月宝宝吃什么？”这个query中，宝宝->婴儿这个相关词对中，“宝宝”是原词，“婴儿”是相关词，这个相关词可以标注1分，代表可以作为一个相关词；在这个query下，“宝宝”->“宝贝”标注0分，代表不能作为一个相关词。

上述较差词对是指在当前查询词语境下，不应该出现的错误词对，或者说违反用户意图的词对。例如，用户搜索“宝宝吃奶”，获取“宝宝喝奶”是一个较好词对(即标注1分的相关词)；然而“什么水果好吃”，变成“什么水果好喝”，就是一个转义的错误词对，即较差词对。并且，上述较差词对可以有更多种形式的表示，并不限于该举例。

在步骤S180，获取能够体现相关词之间的相关度的统计特征。

上述统计特征，是在当前query语境下是否适合出这个词对的语境词统计验证特征,这些特征包括每两个相关词之间的相关程度信息、可替换程度信息、共现关系信息、语言模型得分信息、权重值信息中的至少一种。

在步骤S190，以上述第一对齐词对为正样本，第二对齐词对为负样本，基于上述统计特征，采用梯度提升决策树(GBDT)算法，训练上述正样本和负样本，获取上述相关词置信度计算模型。

其中，上述相关词置信度计算模型可以为GBDT非线性回归模型。

下面参考图3描述根据本发明一实施例的一种搜索方法。

图3示出了根据本发明一实施例的搜索方法的流程图。

一种搜索方法，包括如下步骤：

在步骤S220，基于相关词词库获取检索词的相关词。

其中，上述相关词词库是通过根据上述挖掘相关词的方法建立的。这样，可以获取该检索词的所有相关词，该相关词不仅包括检索词的同义词(可以包括强同义词和语境同义词)，还包括了更广覆盖程度的相关词。通过上述挖掘相关词的方法，可以挖掘出更高相关度的相关词，进一步地扩大了搜索的范围，提高了找到更好的搜索结果的概率。

在步骤S240，基于置信度计算模型计算上述检索词与每个相关词之间的置信度。

在步骤S260，根据对应的置信度对使用上述检索词和其相关词进行检索所得到的结果进行排序。

上述步骤，为通过排序模型根据上述对应的置信度对使用检索词和相关词进行检索所得到的结果进行排序。上述排序模型可以为根据现有快速排序算法进行排序的快速排序模型。可知，该排序模型也可以为现有其他模型。

根据相关词进行搜索不仅涵盖了同义词的高频，还更注重了中低频的相关词，尤其是在检索资源比较少的时候，使用相关词进行搜索，实现了最大程度地获取到检索信息。

这样，通过该搜索方法，可以针对检索词找到其对应的相关词，使用检索词和相关词进行检索，扩大了搜索的范围，扩大了搜索结果；可以防止词语本身与检索词并不一致，但是语义上与检索词非常相时，这样的搜索结果无法召回的结果发生。

在另一实施例中，在上述步骤S260之前还可以包括该排序模型根据检索语句和检索资源页面信息对检索资源进行初排序的步骤。

该初排序步骤为一般的检索过程，也可以通过设定检索程度限定，达到预定得分的检索结果才可以进入步骤S260再排序的步骤。这样，在初检索结果较多时，可以减少再排序的量。也可以在用户要求只显示精确度高的搜索结果时，使用该双重排序方法进行搜索。

其中，上述检索资源可以为网页资源和/或文档资源。检索资源可以是一段文本信息、一个网页的标题、一次查询的语句，也可能是比较长的一个文档。

下面参考图4描述根据本发明另一实施例的一种搜索方法。

图4示出了根据本发明另一实施例的搜索方法的流程图。

上述搜索方法，在上述步骤S220之前还可以包括步骤S210。在步骤S210，对检索语句进行分词处理以获取上述检索词。

当用户输入检索语句时，通过将检索语句进行分词，从而获取若干检索词，从而通过该检索方法检索出与上述若干检索词相关的检索结果，进一步扩大了搜索的范围。上述分词，可以包括中文分词和/或英文分词，也可以包括其他语种形式的分词，相应的分词方式可以为现有的各种形式的分词技术。

下面参考图5为图4所示实施例步骤S240的流程图。

图5示出了图4所示实施例步骤S240的流程图。

在步骤S242，获取每个检索词与对应的每个相关词之间的特征值。

每一次检索内容不同，相应的检索词也会不同，因此上述特征值也会不同。

在步骤S244，将上述特征值作为置信度计算模型的输入，基于该置信度计算模型计算置信度。

其中，上述特征值可以包括相关程度信息、可替换程度信息、共现关系信息、语言模型得分信息、权重值信息中的至少一种。

其中，上述相关程度信息用于衡量每个检索词与每个对应的相关词之间的相关程度。

上述相关程度信息可以包括第一翻译概率P₁和/或第二翻译概率P₂，并分别用下述公式进行表示：

P_{1} (A, A^{'}) = \frac{{count}_{1} (A, A^{'})}{{count}_{1} (A, \cdot)}, P_{2} (A, A^{'}) = \frac{{count}_{1} (A, A^{'})}{{count}_{1} (\cdot, A^{'})};

其中，可替换程度信息用于衡量在相关词的上下文语境中，检索词与相关词之间的可替换程度。

可替换程度信息包括第一可替换程度score(D,Q)和/或第二可替换程度score(D,Q′)，并用如下公式进行表示：

s c o r e (D, Q) = Σ_{i = 1}^{n} I D F (q_{i}) \cdot \frac{f (q_{i}, D) \cdot (k_{1} + 1)}{f (q_{i}, D) + k_{1} \cdot (1 - b + b \cdot \frac{| D |}{a v g d l})};

s c o r e (D, Q^{'}) = Σ_{j = 1}^{m} I D F (q_{j}^{'}) \cdot \frac{f (q_{j}^{'}, D) \cdot (k_{1} + 1)}{f (q_{j}^{'}, D) + k_{1} \cdot (1 - b + b \cdot \frac{| D |}{a v g d l})};

其中，检索词A与相关词A’构成第一词对(A,A’)，

检索词A的上下文词，以及相关词A’的上下文词一起作为文档D，|D|为D的长度；其中，检索词A与相关词A’的上下文词在多数句对中是一样的，但是也会有个别不同，都会记录下来作为整体的上下文；

Q为检索语句，q_i为检索语句Q的第i个检索词，n是检索语句Q中检索词的总个数，

k₁为第一常数，b为第二常数，

f(q_i,D)表示qi在文档D中的出现频率，

f(q′_j,D)表示q′_j在文档D中的出现频率。

其中，共现关系信息，用于衡量检索词之间的共现关系，是指两个检索词出现在一个查询语料(检索资源，网页和/文档)中同时出现的统计数据。

共现关系信息包括基于共现关系指数PMI得到的第一共现关系信息和/或第二共现关系信息：

p m i (A, B) = l o g \frac{{count}_{2} (A, \cdot) \times {count}_{2} (\cdot, B)}{{count}_{2} (A, B) \times {count}_{2} (\cdot, \cdot)} / l o g \frac{{count}_{2} (A, B)}{{count}_{2} (\cdot, \cdot)};

count₂(A,·)＝∑_jcount₂(A,w_j)；

count₂(·,B)＝∑_icount₂(w_i,B)；

count₂(·,·)＝∑_i,jcount₂(w_i,w_j)；

count₂(A,·)表示检索词A与其它检索词在检索资源中同时出现的总次数，count₂(·,B)表示检索词B与其它检索词在检索资源中同时出现的总次数，count₂(A,B)表示两个检索词A、B在检索资源中同时出现的次数，w_j表示在检索资源中所有与检索词A同时出现的词中的第j个，w_i表示在检索资源中所有与相关词B同时出现的词中的第i个，count₂(A,w_j)表示在检索资源中两个检索词A、w_j同时出现的次数，count₂(w_i,B)表示在检索资源中两个检索词w_i、B同时出现的次数，count₂(w_i,w_j)表示在检索资源中两个检索词w_i、w_j同时出现的次数，i和j均为自然数。

可以理解，count₂(A,B)的值与A、B的顺序是无关的，即count₂(A,B)与count₂(B,A)是相同的。

第一共现关系信息是检索词与检索语句中其它词的共现关系指数PMI的平均值。

第二共现关系信息是相关词与检索语句中其它检索词(不包括与该相关词对应的检索词的其他检索词)的共现关系指数PMI的平均值。

其中，计算上述第一共现关系信息时，可以直接使用上述公式并计算平均值；计算第二共现关系时，将上述公式中的检索词A替换为其相关词A’。

语言模型得分信息，用于显示相关词替换检索词前后的检索语句的语言模型得分。其中，该方法还包括基于大规模用户搜索行为数据训练N-gram语言模型获取上述语言模型。

其中，上述权重值信息用于表示相关词的权重。

其中，上述统计特征的计算方式同样用于步骤S180，计算每个相关词之间的统计特征。

下面参考图6描述根据本发明一实施例的一种搜索***。

图6示出了根据本发明一实施例的搜索***的示意图。

一种搜索***300，包括相关词词库存储装置320，相关词获取装置340，搜索装置360，排序装置380，置信度计算装置390。

相关词获取装置340连接相关词词库存储装置320，并基于相关词词库存储装置320获取检索词的相关词。搜索装置360基于上述检索词和检索词的相关词进行检索。置信度计算装置390基于置信度计算模型计算检索词与其对应的每个相关词之间的置信度。排序装置380，根据置信度计算装置390计算的对应的置信度对搜索装置360检索所得到的结果进行排序。

这样，通过该搜索***300，可以针对检索词找到其对应的相关词，根据检索词和其对应的相关词进行检索，扩大了搜索的范围，进一步扩大了搜索结果，提高了检索到目的文件的概率。可以防止词语本身与检索词并不一致，但是语义上与检索词非常相时，这样的好的搜索结果无法召回的现象发生。

下面参考图7描述根据本发明另一实施例的一种搜索***。

图7示出了根据本发明另一实施例的搜索***的示意图。

上述搜索***300还可以包括相关词词库建立装置310和相关词置信度计算模型建立装置350。

上述相关词词库建立装置310连接相关词词库存储装置320，用于通过上述挖掘相关词的方法以建立上述相关词词库。

参考图8描述了根据图7所示实施例相关词词库建立装置310的示意图，用于建立相关词词库。

图8示出了图7所示实施例相关词词库建立装置310的示意图。

上述相关词词库建立装置310可以包括：平行句获取模块311，分词器313，词对齐模块315，共现频率获取模块317，相关词确定模块319和语境获取模块318。

平行句获取模块311，基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对，分词器313对每组平行句对进行分词处理，词对齐模块315将分词处理后的平行句对进行词对齐处理以获取第一对齐词对，共现频率获取模块317计算第一对齐词对的共现频率，相关词确定模块319将共现频率高于预定阈值的第一对齐词对确定为相关词以组成相关词词库。

这样，通过该相关词词库建立装置310，可以挖掘出更高相关度的相关词，也可以扩大检索词搜索的范围，提高找到更好的搜索结果的概率，也可以根据预定阈值的不同，获取相似度不同的相关词。

通过建立相关词词库，可以获取该检索词的所有相关相关词，该相关词不仅包括检索词的同义词(可以包括强同义词和语境同义词)，还包括了更广覆盖程度的相关词。通过上述挖掘相关词的方法，可以挖掘出更高相关度的相关词，也可以扩大检索词搜索的范围，提高找到更好的搜索结果的概率。

另外，上述分词器313还用于对检索语句进行分词处理以获取检索词。当用户输入检索语句时，通过将检索语句进行分词，从而获取若干检索词，从而通过该检索方法检索出与上述若干检索词相关的检索结果，进一步扩大了搜索的范围。

进一步地，上述相关词词库建立装置310还包括语境获取模块318，用于获取上述相关词的上下文语境词。

下面参考图9为图7所示实施例相关词置信度计算模型建立装置350的示意图。

图9示出了图7所示实施例相关词置信度计算模型建立装置350的示意图。

相关词置信度计算模型建立装置350可以包括线性模型过滤模块352和训练模块354。

线性模型过滤模块352用于使用线性模型过滤大规模用户搜索行为数据以获取第二对齐词对。

上述线性模型可为简单线性模型，进一步地，该简单线性模型可以为用人工标注的少量(可以为万级别)词对，使用上述词对之间的统计特征，用简单线性回归模型拟合的线性模型。上述人工标注的词对数量较少，并且模型简单，因此使用该模型输出的置信度精度不高。通过该线性模型过滤上述大规模用户搜索行为数据获取第二对齐词对，该第二对齐词对为较差词对，是指在当前查询词语境下，不应该出现的错误词对，或者说违反用户意图的词对。例如，用户搜索“宝宝吃奶”，获取“宝宝喝奶”是一个好词对；然而“什么水果好吃”，变成“什么水果好喝”，就是一个转义的错误词对，即较差词对。

训练模块354分别连接相关词词库建立装置310、线性模型过滤模块352，以上述第一对齐词对为正样本，上述第二对齐词对为负样本，基于GBDT算法训练该正样本和负样本，获取相关词置信度计算模型。

参考图10，图7所示实施例置信度计算装置390可以包括置信度计算模块392和特征值提取模块394。

特征值提取模块394提取每个检索词与其对应的每个所述相关词之间的特征值，置信度计算模块392将上述特征值作为置信度计算模型的输入，基于该置信度计算模型计算上述置信度。

参考图11为图10所示实施例特征值提取模块394的示意图。

其中，特征值提取模块394还可以包括相关程度信息获取单元3941，可替换程度信息获取单元3942，共现关系信息获取单元3943，语言模型得分信息获取单元3944，权重值信息获取单元3945和语言模型获取单元3946中的至少一个。

相关程度信息获取单元3941，用于获取相关程度信息。相关程度信息用于衡量每个检索词与每个对应的相关词之间的相关程度。

可替换程度信息获取单元3942，用于获取可替换程度信息。可替换程度信息用于衡量在相关词的上下文语境中，检索词与相关词之间的可替换程度。

共现关系信息获取单元3943，用于获取共现关系信息。其中，共现关系信息用于衡量检索词之间的共现关系。

语言模型得分信息获取单元3944，用于获取语言模型得分信息。其中，语言模型得分信息用于显示相关词替换检索词前后的检索语句的语言模型得分。

权重值信息获取单元3945，用于获取权重值信息。其中，权重值信息用于表示相关词的权重。

进一步地，特征值提取模块394还可以包括语言模型获取单元3946。语言模型获取单元3946用于基于大规模用户搜索行为数据训练N-gram语言模型获取上述语言模型。

其中，上述排序装置380为通过排序模型根据对应的置信度信息对使用检索词和对应的相关词进行检索所得到的结果进行排序。其中，上述排序模型可以为根据现有快速排序算法进行排序的快速排序模型。

进一步地，上述排序装置380还可以通过上述排序模型根据检索语句和检索资源页面信息对检索资源进行初排序。该初排序为一般的搜索过程，也可以通过设定检索程度限定，达到预定得分的检索结果才可以进入再排序。在初检索结果较多时，可以减少再排序的工作量。也可以在用户要求只显示精确度高的搜索结果时，使用该双重排序方法。

根据相关词进行搜索不仅涵盖了同义词的高频，还更注重了中低频的检索词，尤其是在检索资源比较少的时候，使用相关词进行搜索，最大程度地获取到检索信息。这样，通过该搜索***，可以针对检索词找到其对应的相关词，使用检索词和相关词进行检索，扩大了搜索的范围，扩大了搜索结果；可以防止词语本身与检索词并不一致，但是语义上与检索词非常相时，这样的搜索结果无法召回的结果发生。

上文中已经参考附图详细描述了根据本发明的挖掘相关词的方法、搜索方法和搜索***。

此外，根据本发明的方法还可以实现为一种计算机程序产品，该计算机程序产品包括计算机可读介质，在该计算机可读介质上存储有用于执行本发明的方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种挖掘相关词的方法，包括：

对每组所述平行句对进行分词处理；

计算所述第一对齐词对的共现频率；

2.根据权利要求1所述的方法，其中，所述获取平行句对的步骤包括：

根据两个句子的字面相似度，滤除含义不同的平行句对。

3.根据权利要求1所述的方法，还包括：

记录所述相关词的上下文语境词。

4.根据权利要求1所述的方法，其中，

所述词对齐处理包括规则词对齐处理和/或统计词对齐处理；

所述规则词对齐处理包括字面完全相同词对齐处理、字面部分相同词对齐处理或临近词对齐处理中的至少一种；

所述统计词对齐处理为使用GIZA++工具进行统计词对齐处理。

5.根据权利要求1所述的方法，还包括：

获取能够体现所述相关词之间的相关度的统计特征；

6.根据权利要求5所述的方法，其中，所述相关词置信度计算模型为GBDT非线性回归模型。

7.一种搜索方法，包括如下步骤：

基于相关词词库获取检索词的相关词；

8.根据权利要求7所述的方法，其中，所述相关词词库是通过根据权利要求1至6中任何一项所述的方法建立。

9.根据权利要求7所述的方法，还包括：

对检索语句进行分词处理以获取所述检索词。

10.根据权利要求9所述的方法，其中，基于置信度计算模型计算所述检索词与每个所述相关词之间的置信度的步骤包括：

11.根据权利要求10所述的方法，其中，所述特征值包括：

共现关系信息，用于衡量所述检索词之间的共现关系；和/或

权重值信息，用于表示所述相关词的权重。

12.根据权利要求11所述的方法，其中，所述相关程度信息包括第一翻译概率P₁和/或第二翻译概率P₂；

P_{1} (A, A^{'}) = \frac{{count}_{1} (A, A^{'})}{{count}_{1} (A, \cdot)}, P_{2} (A, A^{'}) = \frac{{count}_{1} (A, A^{'})}{{count}_{1} (\cdot, A^{'})};

count₁(A，·)＝∑_jcount₁(A，w_j)，count₁(·，A′)＝∑_icount₁(w_i，A′)；

其中，检索词A与相关词A’构成第一词对(A，A’)，count₁(A，A’)表示在平行句对中第一词对(A，A’)被对齐的次数，count₁(A，·)表示在平行句对中检索词A被对齐的总次数，count₁(·，A')表示在平行句对中相关词A’被对齐的总次数，w_j表示在平行句对中所有与检索词A对齐的词中的第j个，w_i表示在平行句对中所有与相关词A’对齐的词中的第i个，count₁(A，w_j)表示在平行句对中检索词A与词w_j对齐的次数，count₁(w_i，A’)表示在平行句对中词w_i与相关词A’对齐的次数，i和j均为自然数。

13.根据权利要求11所述的信息检索方法，其中，所述可替换程度信息包括第一可替换程度score(D，Q)和/或第二可替换程度score(D，Q')；

s c o r e (D, Q) = Σ_{i = 1}^{n} I D F (q_{i}) \cdot \frac{f (q_{i}, D) \cdot (k_{1} + 1)}{f (q_{i}, D) + k_{1} \cdot (1 - b + b \cdot \frac{| D |}{a v g d l})};

s c o r e (D, Q^{'}) = Σ_{j = 1}^{m} I D F (q_{j}^{'}) \cdot \frac{f (q_{j}^{'}, D) \cdot (k_{1} + 1)}{f (q_{j}^{'}, D) + k_{1} \cdot (1 - b + b \cdot \frac{| D |}{a v g d l})};

其中，检索词A与相关词A’构成第一词对(A，A’)，

Q'为检索词A附近的m个词的检索词组合，m<n，q'_j为所述检索词组合Q'的第j个检索词，

k₁为第一常数，b为第二常数，

f(q_i，D)表示qi在文档D中的出现频率，

f(q'_j，D)表示q'_j在文档D中的出现频率。

14.根据权利要求11所述的方法，其中，所述共现关系信息包括基于共现关系指数PMI得到的第一共现关系信息和/或第二共现关系信息，其中，

p m i (A, B) = l o g \frac{{count}_{2} (A, \cdot) \times {count}_{2} (\cdot, B)}{{count}_{2} (A, B) \times {count}_{2} (\cdot, \cdot)} / l o g \frac{{count}_{2} (A, B)}{{count}_{2} (\cdot, \cdot)};

count₂(A，·)＝∑_jcount₂(A，w_j)；

count₂(·，B)＝∑_icount₂(w_i，B)；

count₂(·，·)＝∑_i，jcount₂(w_i，w_j)；

count₂(A，·)表示在检索资源中检索词A与其它检索词同时出现的总次数，count₂(·，B)表示在检索资源中检索词B与其它检索词同时出现的总次数，count₂(A，B)表示在检索资源中两个检索词A、B同时出现的次数，w_j表示在检索资源中所有与检索词A同时出现的词中的第j个，w_i表示在检索资源中所有与相关词B同时出现的词中的第i个，count₂(A，w_j)表示在检索资源中两个检索词A、w_j同时出现的次数，count₂(w_i，B)表示在检索资源中两个检索词w_i、B同时出现的次数，count₂(w_i，w_j)表示在检索资源中两个检索词w_i、w_j同时出现的次数，i和j均为自然数；

15.根据权利要求11所述的信息检索方法，其中，还包括基于大规模用户搜索行为数据训练N-gram语言模型获取所述语言模型。

16.根据权利要求7或9所述的方法，其中，所述根据对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序的步骤，为通过排序模型根据所述对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。

17.根据权利要求16所述的方法，其中，还包括所述排序模型根据所述检索语句和检索资源页面信息对所述检索资源进行初排序的步骤。

18.根据权利要求17所述的方法，其中，

所述检索资源为网页资源和/或文档资源。

19.一种搜索***，包括：