CN104102633A

CN104102633A - 一种挖掘搜索引擎未召回类纠错词的方法及装置

Info

Publication number: CN104102633A
Application number: CN201310111569.0A
Authority: CN
Inventors: 阮星华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-04-01
Filing date: 2013-04-01
Publication date: 2014-10-15

Abstract

本发明提出了一种挖掘搜索引擎未召回类纠错词的方法，包括以下步骤：搜索引擎获取用户的会话日志，其中，会话日志至少包括第一会话和第二会话，第一会话和第二会话中分别包括第一搜索词和第二搜索词；搜索引擎获得第一搜索词和第二搜索词之间的关联关系信息；搜索引擎根据关联关系信息判断第一搜索词是否为未召回类纠错词。本发明还提出了一种挖掘搜索引擎未召回类纠错词的装置。本发明通过对用户搜索词序列和搜索结果的建模分析，能够自动地发现未召回类纠错词，召回效率远高于人工查找，大大节省了寻找未召回类纠错词的人力成本。

Description

一种挖掘搜索引擎未召回类纠错词的方法及装置

技术领域

本发明涉及互联网搜索技术领域，特别涉及一种挖掘搜索引擎未召回类纠错词的方法及装置。

背景技术

搜索引擎搜索词纠错是一种有效的用户搜索词纠正和引导方法。当用户在搜索时，由于拼写错误、记忆不清而不能提供完整和准确的搜索词的时候，搜索引擎能够通过纠错、校正用户的输入或者将用户引导到正确的搜索词上，使得用户获得有用的查询结果，如图1(a)、图1(b)、图1(c)所示，例如用户本来想搜索“中关村”，但是输入错误的“中观村”、“众关村”或者“zhong关村”，搜索引擎都能够给出正确的纠错词“中关村”。

如果搜索引擎给出的纠错词不正确，例如将不需要纠错的搜索词做纠错，或者需要纠错的搜索词没有正确纠错，那么不仅无法引导给用户需要的结果，往往还会造成适得其反的负面效果。因此针对搜索引擎纠错的效果进行验证(包括准确率和召回率)，以及挖掘出纠错效果不好的搜索引擎纠错失败的案例以供后续改进就变得非常重要。

搜索引擎纠错失败的情况可以分为如下三种类型：

(1)用户输入的是正确的搜索词，但是搜索引擎却做了纠错，给了不合适的纠错词；

(2)用户输入的是错误的搜索词，但是搜索引擎给出的纠错词也不正确；

(3)用户输入的是错误的搜索词，但是搜索引擎没有给出纠错词，也就是业界所说的纠错词未召回的情况，例如，用户输入“万里长征永不倒”查询结果如图2(a)所示，搜索引擎没有给出纠错词，实际上用户想要检索的应该是“万里长城永不倒”，用“万里长城永不倒”检索能够检索到更多更好的结果，如图2(b)所示。

对于其中的(1)和(2)两种情况，通过对带有纠错词信息的用户Session(会话)日志进行建模分析能够有效地发现。而对于第(3)种搜索引擎未召回类纠错词的情况，现有技术中尚未有针对性的解决办法。

发明内容

本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。

为此，本发明的第一个目的在于提出一种挖掘搜索引擎未召回类纠错词的方法，通过对用户搜索词序列和搜索结果的建模分析，能够自动地发现未召回类纠错词。本发明的第二个目的在于提出一种挖掘搜索引擎未召回类纠错词的装置。

为达到上述目的，本发明第一方面的实施例提出了一种挖掘搜索引擎未召回类纠错词的方法，包括以下步骤：搜索引擎获取用户的会话日志，其中，所述会话日志至少包括第一会话和第二会话，所述第一会话和第二会话中分别包括第一搜索词和第二搜索词；所述搜索引擎获得所述第一搜索词和第二搜索词之间的关联关系信息；所述搜索引擎根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词。

根据本发明实施例的挖掘搜索引擎未召回类纠错词的方法，通过样本的训练之后能够自动的进行未召回类纠错词判断，大大节省了寻找未召回类纠错词的人力，并且，通过对用户搜索词序列和搜索结果的建模分析，能够自动地发现未召回类纠错词，召回效率远高于以往的人工查找。

在本发明的一个实施例中，所述关联关系信息包括所述第一搜索词和第二搜索词之间的编辑距离信息，所述第一搜索词和第二搜索词之间的分词数量变化信息，以及所述第一搜索词和第二搜索词之间的包含关系信息。

在本发明的一个实施例中，所述关联关系信息还包括所述第一搜索词和第二搜索词之间的差异比例。

在本发明的一个实施例中，所述搜索引擎根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词，进一步包括：所述搜索引擎根据所述关联关系信息计算所述第一搜索词是未召回类纠错词的概率，当所述概率大于预设阈值时，所述搜索引擎判断所述第一搜索词是未召回类纠错词。

在本发明的一个实施例中，所述方法还包括：所述搜索引擎分别获取所述第一搜索词对应的第一搜索结果和所述第二搜索词对应的第二搜索结果；所述搜索引擎根据所述第一搜索结果的数量与所述第二搜索结果的数量之比判断所述第一搜索词是否为未召回类纠错词。

在本发明的一个实施例中，所述方法还包括：所述搜索引擎获取所述用户对所述第一搜索结果的第一点击记录和所述用户对所述第二搜索结果的第二点击记录；所述搜索引擎根据所述第一点击记录与所述第二点击记录判断所述第一搜索词是否为未召回类纠错词。

本发明第二方面的实施例提出了一种挖掘搜索引擎未召回类纠错词的装置，包括：日志读取模块，用于获取用户的会话日志，其中，所述会话日志至少包括第一会话和第二会话，所述第一会话和第二会话中分别包括第一搜索词和第二搜索词；关联关系检测模块，用于获得所述第一搜索词和第二搜索词之间的关联关系信息；判断模块，用于根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词。

根据本发明实施例的挖掘搜索引擎未召回类纠错词的装置，通过样本的训练之后能够自动的进行未召回类纠错词判断，大大节省了寻找未召回类纠错词的人力，并且，通过对用户搜索词序列和搜索结果的建模分析，能够自动地发现未召回类纠错词，召回效率远高于以往的人工查找。

在本发明的一个实施例中，所述判断模块根据所述关联关系信息计算所述第一搜索词是未召回类纠错词的概率，当所述概率大于预设阈值时，所述搜索引擎判断所述第一搜索词是未召回类纠错词。

在本发明的一个实施例中，所述装置还包括：搜索结果获取模块，所述搜索模块用于分别获取所述第一搜索词对应的第一搜索结果和所述第二搜索词对应的第二搜索结果，所述判断模块还用于根据所述第一搜索结果的数量与所述第二搜索结果的数量之比判断所述第一搜索词是否为未召回类纠错词。

在本发明的一个实施例中，所述搜索结果获取模块还用于获取所述用户对所述第一搜索结果的第一点击记录和所述用户对所述第二搜索结果的第二点击记录，所述判断模块还用于根据所述第一点击记录与所述第二点击记录判断所述第一搜索词是否为未召回类纠错词。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1(a)为一个搜索引擎对错误的搜索词进行纠错的示意图；

图1(b)为一个搜索引擎对错误的搜索词进行纠错的示意图；

图1(c)为一个搜索引擎对错误的搜索词进行纠错的示意图；

图2(a)为一个搜索引擎对错误的搜索词没有进行纠错的示意图；

图2(b)为图2(a)中错误的搜索词相对应的正确的搜索词的示意图；

图3为根据本发明一个实施例的挖掘搜索引擎未召回类纠错词的方法的流程图；

图4(a)为一个用户输入错误的搜索词的示意图；

图4(b)为图4(a)中错误的搜索词相对应的正确的搜索词的示意图；

图5为根据本发明一个实施例的挖掘搜索引擎未召回类纠错词的装置的示意图；以及

图6为根据本发明一个实施例的挖掘搜索引擎未召回类纠错词的装置的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

在本发明的描述中，需要说明的是，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

下面参考附图描述根据本发明实施例的挖掘搜索引擎未召回类纠错词的方法及装置。

如图3所示，根据本发明第一方面实施例的挖掘搜索引擎未召回类纠错词的方法。在本发明中，纠错词是指搜索引擎对用户输入的搜索词进行纠正之后词。未召回类纠错词是指目前虽然用户输入的搜索词有误，但是搜索引擎并没有给出相应的纠错词，因此称之为未召回类纠错词。该方法包括以下步骤：

S101：搜索引擎获取用户的会话日志，其中，会话日志至少包括第一会话和第二会话，第一会话包括第一搜索词，且第二会话包括第二搜索词。

S102：搜索引擎获得第一搜索词和第二搜索词之间的关联关系信息。

其中，关联关系信息包括：第一搜索词和第二搜索词之间的编辑距离信息、第一搜索词和第二搜索词之间的分词数量变化信息、第一搜索词和第二搜索词之间的包含关系信息中的一种或多种。

S103：搜索引擎根据关联关系信息判断第一搜索词是否为未召回类纠错词。

优选地，搜索引擎根据关联关系信息计算第一搜索词是未召回类纠错词的概率，当概率大于预设阈值时，搜索引擎判断第一搜索词是未召回类纠错词。预设阈值可通过对一定数量的会话日志进行训练后计算得出。

以下通过具体的实施例对本发明进行说明。

用户在某一段时间内使用搜索引擎输入的搜索词，称为用户的搜索词序列。用户的搜索词序列中的前后搜索词之间存在一定的联系。在本发明的一个实施例中，比如用户输入错误的第一搜索词“优酷tvv新剧”，发现查询结果太少并且无法满足自己的需求，这时候也许用户会意识到自己输入的搜索词有误，通过将搜索词修正为第二搜索词“优酷tvb新剧”之后得到较好的查询结果并点击相应的搜索结果，来满足自己的信息检索需求。以下表述中，有需要时，第一搜索词也以“前搜索词”，第二搜索词也以“后搜索词”来描述。

用户使用搜索引擎一般来说都有某种搜索诉求，希望通过搜索引擎找到自己想要的信息。而搜索词就是用户和搜索引擎交互的渠道，如果使用的搜索词不合适或者搜索词出现错误，搜索结果可能就无法满足用户的需求。用户也会通过修正或者调整搜索词来获取更好的搜索结果满足自己的需求。因此，当用户发现自己输入的搜索词错误而导致搜索结果不好的时候，会主动地修正搜索词；如果用户意识不到输入了错误的搜索词，那么用户可能会想方设法调整使用别的搜索词来获取更好的搜索结果。而体现在会话日志中，则表现为用户修正或者调整前后的搜索词之间存在关联关系，例如当用户错误输入第一搜索词“优酷tvv新剧”之后搜索引擎给出的结果不太好，如图4(a)，那么用户修正后，输入第二搜索词为“优酷tvb新剧”获得了更好的搜索结果，如图4(b)，编辑距离的意义为第二搜索词相比于第一搜索词的最小修正字符数，图4(a)和图4(b)中，修正的字符为把“v”变成“b”，因此修正前后两个搜索词之间的编辑距离为1。

本发明基于用户会话日志中提取的搜索词序列和搜索结果进行建模分析，然后计算不同指标分布情况下属于未召回类纠错词的概率从而挖掘搜索引擎未召回类纠错词的方法。主要分析因素如下：

(1)对会话序列中前后两个搜索词之间的关联关系分析以获得前后两个搜索词之间的关联关系信息，关联关系信息主要包括如下内容：

A、编辑距离，例如“钻进需要哪些资格证书”和“钻井需要哪些资格证书”之间的编辑距离为1；

这里的编辑距离1为绝对编辑距离，实际上，在本实施例中，关联关系信息还可以包括第一搜索词和第二搜索词之间的差异比例，即绝对编辑距离和第一搜索词长度的比例，上面这个例子的差异比例就是10％。而“芒果”转换为“苹果”之间虽然编辑距离也为1，但是差异比例为50％。再比较一下这两个例子，“芒果”转换为“苹果”这个场景下，前一个搜索词“芒果”不被认为是输入错误词，而“钻进需要哪些资格证书”被认为是输入错误而需要纠正的搜索词。

也就是说，前后两个词之间的差异比例越小的情况下，前面的搜索词可能是需要纠错的搜索词的概率会相对高一些。

B、前后词的分词数量变化，例如“是会可以吃？”，经分词后，分词个数为4(是、会、可以、吃)，“石灰可以吃？”经分词后，分词个数为3(石灰、可以、吃)；

当用户输入的搜索词存在输入错误的时候，很大概率上会造成分词数增加，例如：“大学生就业问题”如果出现输入错误变成“大学生就也问题”，这种情形下，分词数会由3(大学生、就业、问题)变为4(大学生、就、也、问题)，因为输入的错字导致搜索词的分词结果更加分散了。

C、前后词的包含关系，包含关系分为“前词包含后词”，“后词包含前词”和“不包含”三种关系，例如“淘宝网购物”和“淘宝网”之间就是“前词包含后词”的关系，并且删除的“购物”两个字能够独立成词。“淘宝网实”和“淘宝网”之间也是“前词包含后此”的关系，但是删除的“实”字不能独立成词。一般情况下，如果“后词包含前词”那么前词属于输入错误词的概率会小一些，而“前词包含后词”的情况下，如果差异的字较少并且不能独立成词，那么前词属于输入错误词的概率就会偏大一些。

(2)搜索词查询结果的数量变化

错误的搜索词通常情况下召回的搜索结果比较少或者召回的结果相关度比较差，而且经过修正后能够召回更多、相关度更高的搜索结果(每个查询词的搜索结果都能够通过建模计算出一个量化的相关度值，这个计算过程可以使用现有技术，因此在此不再赘述。一般情况下错误的搜索词召回的搜索结果与正确的搜索词召回的搜索结果相比，计算出来的相关度值更低)。修正后的第二搜索词的搜索结果的数量和/或相关度比第一搜索词的搜索结果更高，也是搜索引擎判断第一搜索词是未召回类纠错词的判断依据之一。在本发明的一个实施例中，搜索引擎分别获取第一搜索词对应的第一搜索结果和第二搜索词对应的第二搜索结果，并根据第一搜索结果的数量与第二搜索结果的数量之比判断第一搜索词是否为未召回类纠错词。

(3)搜索词对应查询结果的点击情况

错误的搜索词由于召回的搜索结果比较少或者召回的结果相关性比较差，因此也经常会造成用户对修正前的搜索结果点击少甚至不点击，而对修正后的结果点击多的情况。修正后的第二搜索词的搜索结果的点击次数比第一搜索词的搜索结果的点击次数更多，也是搜索引擎判断第一搜索词是未召回类纠错词的判断依据之一。在本发明的一个实施例中，搜索引擎获取用户对第一搜索结果的第一点击记录和用户对所述第二搜索结果的第二点击记录，并根据第一点击记录与第二点击记录的比较判断第一搜索词是否为未召回类纠错词。

本发明将“用户输入错误的第一搜索词之后，重新输入的第二搜索词相比于第一搜索词更能够满足用户需要”这一判断第一搜索词是未召回类纠错词的基本依据，具体地在统计学原理上分解为第一部分所述的第一搜索词和第二搜索词之间的关联关系(尤其是编辑距离和差异比例，可体现出第二搜索词是否是由用户对第一搜索词修改而得到)，第二部分所述的前后两次搜索结果的相关度之间的比较，第三部分所述的用户对前后两次搜索结果的点击次数比较等三方面的因素，实现了将对第一搜索词是未召回类纠错词的判断智能化、自动化。

表1为一个具体实施例中的搜索词的关联关系的示意表。

表1搜索词序列关联关系表

如表1所示，记录了一段用户会话日志中搜索词序列中，前后两个搜索词两两之间的关联关系信息。关联关系信息可根据对会话日志进行统计得出。

其中粗体的部分属于第一搜索词存在输入错误的情况(也就是所说的搜索引擎未召回类的纠错失败案例)。从表1内容中，也很容易能够看出“编辑距离(差异比例)”、“前后搜索词的分词数变化趋势”以及“前后词的包含关系”这些指标和第一搜索词是否是一个未召回类纠错词存在很大的关联关系。本实施例中，需要将这些关联关系量化，并且建立模型来计算挖掘用户搜索词序列中是未召回类纠错失败的搜索词的概率。

以“编辑距离(差异比例)”这一列为例，将编辑距离(差异比例)这一属性记为D，其取值区分为“小于等于25％”、“大于25％”两种情况，分别记为D＝q₁和D＝q₂，可以得到下面的表2：

表2搜索词编辑距离(差异比例)与是否属于未召回型纠错失败案例的关系下文中为了描述方便，将搜索词属于未召回型纠错词记录为事件B，将第一搜索词不属于未召回型纠错词记录为事件G。从上面的表2中可以看出：

P (B | q_{1}) = \frac{P (B q_{1})}{P (q_{1})} = 75 %

p (B | q_{2}) = \frac{p ({Bq}_{2})}{p (q_{2})} = 20 %

其中，P(B|q₁)的含义是当满足D＝q₁的情形下，即前后搜索词之间的编辑距离(差异比例)小于等于25％的时候，那么前搜索词属于未召回型纠错词的条件概率是75％。

对于“分词数(前)”与“分词数(后)”之间变化趋势、“包含关系”和“当前词包含后词的情况下，多出内容是否独立成词”三者之间从概率的角度上分析不是独立属性，因此将三者转换成一个三元组(N，I，T)组合属性，含义分别如下：

(1)N表示前后搜索词分词数的变化趋势，取值为“减少或者不变”(N＝n₁)以及“增加”(N＝n₂)；

(2)I表示前后搜索词的包含关系，取值为“前词包含后词”(I＝i₁)，“不包含”(I＝i₂)和“后词包含前词”(I＝i₃)；

(3)T表示第一搜索词包含第二搜索词情况下，即I＝i₁的前提下，第二搜索词相比第一搜索词的被删除内容是否独立成词的属性：取值为“能够独立成词”(T＝t₂)和“不能独立成词”(T＝t₂)；

针对(N，I，T)三元组，能够从表1中得到如表3所示的信息：

表3搜索词编辑距离(差异比例)与是否属于未召回型纠错失败案例的关系表3中只列出的是表1中所示的训练样本中出现过的组合，由于实际情况的训练样本比表1中的数据多得多，因此实际上三元组的12种组合都有可能出现。在本实施例中，上述表格只是为了示意用，所以仅列出部分数据，从表格中能够看出一些规律，比如当后词包含前词的情况下，前词是未召回型纠错案例的概率会比较低。同样地，也可以算出三元组每个组合的条件概率，例如，当第二搜索词相比第一搜索词的分词数趋势为减少或者不变(N＝n₁)，并且前后搜索词之间为不包含关系(I＝i₂)的时候，前面的第一搜索词为未召回型纠错词的条件概率为：

P (B | < n_{1}, i_{2} >) = \frac{P (B < n_{1}, i_{2 >})}{P (< n_{1}, i_{2} >)} = 85.7 %

上述实施例只是举例说明判断第一搜索词是否属于未召回型纠错词的案例所用到的其中一个单独属性和一个组合属性的关联关系，另外两个“搜索词对应结果数”和“查询结果的点击数”也可依此类推，分别根据关联关系信息计算各个属性下的第一搜索词是未召回型纠错词的条件概率。最后，搜索引擎通过求不同属性的条件概率的累积V得到第一搜索词是未召回类纠错词的概率，并根据该概率来判断第一搜索词是否属于未召回型纠错词：

V = Π_{i = 1}^{m} P (B | S_{i})

S_i表示用于判断第一搜索词是否属于未召回型纠错词的属性(可以是单独属性，也可以是组合属性)，例如，参照前文所述，S₁=D为单独属性，D为编辑距离(差异比例)，S₂＝N，I，T为组合属性，N为前后搜索词分词数的变化趋势，I为前后搜索词的包含关系，T为第二搜索词相比第一搜索词的被删除内容是否独立成词。V的值越大越说明第一搜索词越有可能是未召回型纠错词。具体实施例中，可以设定一个预设阈值，当计算得出的V大于该预设阈值时，搜索引擎判断该第一搜索词是未召回类纠错词。预设阈值可通过对一定数量的会话日志进行训练后计算得出。实际应用的情况下，会话日志的数量需要足够大到在概率统计上具有一般代表意义。本技术领域的技术人员可以根据具体需要选择会话日志的数量。

如图5所示，根据本发明第二方面实施例的挖掘搜索引擎未召回类纠错词的装置，包括：日志读取模块510、关联关系检测模块520和判断模块530。

具体的，日志读取模块510用于获取用户的会话日志，其中，会话日志至少包括第一会话和第二会话，第一会话和第二会话中分别包括第一搜索词和第二搜索词。关联关系检测模块520用于获得第一搜索词和第二搜索词之间的关联关系信息。关联关系信息包括第一搜索词和第二搜索词之间的编辑距离信息，第一搜索词和第二搜索词之间的分词数量变化信息，以及第一搜索词和第二搜索词之间的包含关系信息。判断模块530用于根据关联关系信息判断第一搜索词是否为未召回类纠错词。

优选地，判断模块530根据关联关系信息计算第一搜索词是未召回类纠错词的概率，当概率大于预设阈值时，搜索引擎判断第一搜索词是未召回类纠错词。预设阈值可通过对一定数量的会话日志进行训练后计算得出。

以下通过具体的实施例对本发明进行说明。

本发明基于用户会话日志中提取的搜索词系列和搜索结果进行建模分析，然后计算不同指标分布情况下属于未召回类纠错词的概率从而挖掘搜索引擎未召回类纠错词的方法。主要分析因素如下：

(1)会话序列中前后两个搜索词之间的关联关系分析，关联关系信息主要包括如下内容：

这里的编辑距离1为绝对编辑距离，实际上，在本实施例中，关联关系信息还包括计算第一搜索词和第二搜索词之间的差异比例，即绝对编辑距离和第一搜索词长度的比例，上面这个例子的差异比例就是10％。而“芒果”转换为“苹果”之间虽然编辑距离也为1，但是差异比例为50％。再比较一下这两个例子，“芒果”转换为“苹果”这个场景下，前一个搜索词“芒果”不被认为是输入错误词，而“钻进需要哪些资格证书”被认为是输入错误需要纠正的搜索词。

也就是说，前后两个词之间发生修改的差异比例越小的情况下，前面的搜索词可能是需要纠错的搜索词的概率会相对高一些。

C、前后词的包含关系，包含关系分为“前词包含后词”，“后词包含前词”和“不包含”三种关系，例如“淘宝网购物”和“淘宝网”之间就是“前词包含后词”的关系，并且删除的“购物”两个字能够独立成词。“淘宝网实”和“淘宝网”之间也是“前词包含后此”的关系，但是删除的“实”字不能独立成词。根据经验，如果“后词包含前词”那么前词属于输入错误词的概率会小一些，而“前词包含后词”的情况下，如果差异的字较少并且不能独立成词，那么前词属于输入错误词的概率就会偏大一些。

(2)搜索词查询结果的数量变化

错误的搜索词通常情况下召回的搜索结果比较少或者召回的结果相关性比较差，而经过修正后能够召回更多、相关度更高的搜索结果(每个查询词的搜索结果都能够通过建模计算出一个量化的相关度值，这个计算过程可以使用现有技术，因此在此不再赘述。一般情况下错误的搜索词召回的搜索结果与正确的搜索词召回的搜索结果相比，计算出来的相关度值更低)。修正后的第二搜索词的搜索结果的数量和/或相关度比第一搜索词的搜索结果更高，也是判断第一搜索词是未召回类纠错词的判断依据之一。在本发明的一个实施例中，如图6所示，挖掘搜索引擎未召回类纠错词的装置还包括：搜索结果获取模块540。搜索结果获取模块540分别获取第一搜索词对应的第一搜索结果和第二搜索词对应的第二搜索结果，判断模块530根据第一搜索结果的数量与第二搜索结果的数量之比判断第一搜索词是否为未召回类纠错词。

(3)搜索词对应查询结果的点击情况

错误的搜索词由于召回的搜索结果比较少或者召回的结果相关性比较差，因此也经常会造成用户对修正前的搜索结果点击少甚至不点击，而对修正后的结果点击多的情况。修正后的第二搜索词的搜索结果的点击次数比第一搜索词的搜索结果的点击次数更多，也是判断第一搜索词是未召回类纠错词的判断依据之一。在本发明的一个实施例中，搜索结果获取模块540获取用户对第一搜索结果的第一点击记录和用户对所述第二搜索结果的第二点击记录，判断模块530根据第一点击记录与第二点击记录的比较判断第一搜索词是否为未召回类纠错词。

表1为一个具体实施例中的搜索词的关联关系的示意表。

如表1所示，记录了一段用户会话日志中搜索词序列中，前后两个搜索词两两之间的关联关系信息。日志读取模块510读取用户的会话日志后，关联关系信息可由关联关系检测模块520根据对会话日志进行统计得出。

以“编辑距离(差异比例)”这一列为例，将编辑距离(差异比例)这一属性记为D，其取值区分为“小于等于25％”、“大于25％”两种情况，分别记为D＝q₁和D＝q₂，可以得到表2。

下文中为了描述方便，将搜索词属于未召回型纠错词记录为事件B，将第一搜索词不属于未召回型纠错词记录为事件G。从上面的表2中可以看出：

p (B | q_{1}) = \frac{P ({Bq}_{1})}{P (q_{1})} = 75 %

P (B | q_{2}) = \frac{P ({Bq}_{1})}{P (q_{2})} = 20 %

(3)T表示第一搜索词包含第二搜索词情况下，即I＝i₁的前提下，第二搜索词相比第一搜索词的被删除内容是否独立成词的属性：取值为“能够独立成词”(T＝t₁)和“不能独立成词”(T＝t₂)；

针对(N，I，T)三元组，能够从表1中得到如表3所示的信息。

表3中只列出的是表1中所示的训练样本中出现过的组合，由于实际情况的训练样本比表1中的数据多得多，因此实际上三元组的12种组合都有可能出现。在本实施例中，上述表格只是为了示意用，所以仅列出部分数据，从表格中能够看出一些规律，比如当后词包含前词的情况下，前词是未召回型纠错案例的概率会比较低。同样地，也可以算出三元组每个组合的条件概率，例如，当第二搜索词相比第一搜索词的分词数趋势为减少或者不变(N＝n₁)，并且前后搜索词之间为不包含关系(I＝i₂)的时候，前面的第一搜索词为未召回型纠错词的条件概率为：

P (B | < n_{1}, i_{2} >) = \frac{P (B < n_{1}, i_{2} >)}{P (< n_{1}, i_{2} >)} = 85.7 %

上述实施例只是举例说明判断第一搜索词是否属于未召回型纠错词的案例所用到的其中一个单独属性和一个组合属性的关联关系，另外两个“搜索词对应结果数”和“查询结果的点击数”也可依此类推，分别根据关联关系信息计算各个属性下的第一搜索词是未召回型纠错词的条件概率。最后，判断模块530通过求不同属性的条件概率的累积V得到第一搜索词是未召回类纠错词的概率，并根据该概率来判断第一搜索词是否属于未召回型纠错词：

V = Π_{i = 1}^{m} P (B | S_{i})

S_i表示用于判断第一搜索词是否属于未召回型纠错词的属性(可以是单独属性，也可以是组合属性)，例如，参照前文所述，S₁＝D为单独属性，D为编辑距离(差异比例)，S₂＝N，I，T为组合属性，N为前后搜索词分词数的变化趋势，I为前后搜索词的包含关系，T为第二搜索词相比第一搜索词的被删除内容是否独立成词。V的值越大越说明第一搜索词越有可能是未召回型纠错词。具体实施例中，可以设定一个预设阈值，当计算得出的V大于该预设阈值时，判断模块530判断该第一搜索词是未召回类纠错词。预设阈值可通过对一定数量的会话日志进行训练后计算得出。实际应用的情况下，会话日志的数量需要足够大到在概率统计上具有一般代表意义。本技术领域的技术人员可以根据具体需要选择会话日志的数量。

根据本发明实施例的挖掘搜索引擎未召回类纠错词的装置，通过样本的训练之后能够自动的进行未召回类纠错词判断，大大节省了寻找未召回类纠错词的人力，并且，通过对用户搜索词序列和搜索结果的建模分析，

能够自动地发现未召回类纠错词，召回效率远高于以往的人工查找。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种挖掘搜索引擎未召回类纠错词的方法，其特征在于，包括以下步骤：

搜索引擎获取用户的会话日志，其中，所述会话日志至少包括第一会话和第二会话，所述第一会话和第二会话中分别包括第一搜索词和第二搜索词；

所述搜索引擎获得所述第一搜索词和第二搜索词之间的关联关系信息；以及

所述搜索引擎根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词。

2.如权利要求1所述的挖掘搜索引擎未召回类纠错词的方法，其特征在于，所述关联关系信息包括所述第一搜索词和第二搜索词之间的编辑距离信息，所述第一搜索词和第二搜索词之间的分词数量变化信息，以及所述第一搜索词和第二搜索词之间的包含关系信息。

3.如权利要求2所述的挖掘搜索引擎未召回类纠错词的方法，其特征在于，所述关联关系信息还包括所述第一搜索词和第二搜索词之间的差异比例。

4.如权利要求1-3任一项所述的挖掘搜索引擎未召回类纠错词的方法，其特征在于，所述搜索引擎根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词，进一步包括：

所述搜索引擎根据所述关联关系信息计算所述第一搜索词是未召回类纠错词的概率，当所述概率大于预设阈值时，所述搜索引擎判断所述第一搜索词是未召回类纠错词。

5.如权利要求1-4中任一项所述的挖掘搜索引擎未召回类纠错词的方法，其特征在于，还包括：

所述搜索引擎分别获取所述第一搜索词对应的第一搜索结果和所述第二搜索词对应的第二搜索结果；

所述搜索引擎根据所述第一搜索结果的数量与所述第二搜索结果的数量之比判断所述第一搜索词是否为未召回类纠错词。

6.如权利要求5所述的挖掘搜索引擎未召回类纠错词的方法，其特征在于，还包括：

所述搜索引擎获取所述用户对所述第一搜索结果的第一点击记录和所述用户对所述第二搜索结果的第二点击记录；

所述搜索引擎根据所述第一点击记录与所述第二点击记录判断所述第一搜索词是否为未召回类纠错词。

7.一种挖掘搜索引擎未召回类纠错词的装置，其特征在于，包括：

日志读取模块，用于获取用户的会话日志，其中，所述会话日志至少包括第一会话和第二会话，所述第一会话和第二会话中分别包括第一搜索词和第二搜索词；

关联关系检测模块，用于获得所述第一搜索词和第二搜索词之间的关联关系信息；以及

判断模块，用于根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词。

8.如权利要求7所述的挖掘搜索引擎未召回类纠错词的装置，其特征在于，所述关联关系信息包括所述第一搜索词和第二搜索词之间的编辑距离信息，所述第一搜索词和第二搜索词之间的分词数量变化信息，以及所述第一搜索词和第二搜索词之间的包含关系信息。

9.如权利要求8所述的挖掘搜索引擎未召回类纠错词的装置，其特征在于，所述关联关系信息还包括所述第一搜索词和第二搜索词之间的差异比例。

10.如权利要求7所述的挖掘搜索引擎未召回类纠错词的装置，其特征在于，所述判断模块根据所述关联关系信息计算所述第一搜索词是未召回类纠错词的概率，当所述概率大于预设阈值时，所述判断模块判断所述第一搜索词是未召回类纠错词。

11.如权利要求7-10中任一项所述的挖掘搜索引擎未召回类纠错词的装置，其特征在于，还包括：

搜索结果获取模块，所述搜索模块用于分别获取所述第一搜索词对应的第一搜索结果和所述第二搜索词对应的第二搜索结果，并根据所述第一搜索结果的数量与所述第二搜索结果的数量之比判断所述第一搜索词是否为未召回类纠错词。

12.如权利要求11所述的挖掘搜索引擎未召回类纠错词的装置，其特征在于，

所述搜索结果获取模块还用于获取所述用户对所述第一搜索结果的第一点击记录和所述用户对所述第二搜索结果的第二点击记录，并根据所述第一点击记录与所述第二点击记录判断所述第一搜索词是否为未召回类纠错词。