CN102799586A

CN102799586A - 一种用于搜索结果排序的转义度确定方法和装置

Info

Publication number: CN102799586A
Application number: CN2011101358053A
Authority: CN
Inventors: 程道放
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-05-24
Filing date: 2011-05-24
Publication date: 2012-11-28
Anticipated expiration: 2031-05-24
Also published as: CN102799586B

Abstract

本发明提供了一种用于搜索结果排序的转义度确定方法和装置，其中方法包括：A、对用户输入的搜索请求进行紧密度的分析，确定所述搜索请求中各词语对的紧密度；B、根据对所述搜索请求对应的搜索结果中各网页进行的结构信息处理的结果，统计所述搜索请求中各词语对在所述各网页中的物理距离分布；C、利用所述搜索请求中各词语对对应的紧密度以及在所述各网页中的物理距离分布，确定所述搜索结果中各网页针对所述搜索请求的转义度，所述转义度用于对所述搜索结果中各网页进行排序。利用本发明确定出的转义度进行搜索结果的排序能够提高搜索结果的排序效果，从而节约网络资源。

Description

一种用于搜索结果排序的转义度确定方法和装置

【技术领域】

本发明涉及计算机技术领域，特别涉及一种用于搜索结果排序的转义度确定方法和装置。

【背景技术】

随着计算机技术的不断发展，搜索引擎已经成为人们获取信息的主要手段。当用户输入搜索请求query后，搜索引擎将与该query匹配的页面包含在搜索结果中返回给用户。

对搜索结果中各页面的排序是基于用户输入的query与页面的匹配程度进行的，在目前的搜索技术中通常该匹配程度仅取决于query中各词语在页面中的物理距离。但实际上query中包含的各词语之间是存在紧密度上的区分的，同一个query中，如果紧密度大的词语对在页面1中的物理距离与紧密度小的词语对在页面2中的物理距离相同，那么显然页面1的排序应该比页面2的排序靠前，但在目前的搜索技术中并不能在搜索结果的排序中体现这一特点，因搜索结果的排序不优导致用户长时间占用网络资源，从而造成网络资源的浪费。

【发明内容】

本发明提供了一种用于搜索结果排序的转义度确定方法和装置，以便于提高搜索结果的排序效果，从而节约网络资源。

具体技术方案如下：

一种用于搜索结果排序的转义度确定方法，该方法包括：

A、对用户输入的搜索请求进行紧密度的分析，确定所述搜索请求中各词语对的紧密度；

B、根据对所述搜索请求对应的搜索结果中各网页进行的结构信息处理的结果，统计所述搜索请求中各词语对在所述各网页中的物理距离分布；

C、利用所述搜索请求中各词语对对应的紧密度以及在所述各网页中的物理距离分布，确定所述搜索结果中各网页针对所述搜索请求的转义度，所述转义度用于对所述搜索结果中各网页进行排序。

其中，所述步骤A具体包括：

A1、对所述搜索请求进行分词处理；

A2、利用所述分词处理后得到的词语，确定所述搜索请求中的各词语对；

A3、查询预先挖掘出的专名词典和/或共现词典，确定所述各词语对的紧密度，其中所述专名词典包含预先挖掘出的专有名词，所述共现词典包含预先确定的各词语对在已有数据源中的共现状况。

较优地，在所述步骤A1中还包括：对所述分词处理后得到的词语进行基于停用词表的过滤。

具体地，所述步骤A2包括：

将所述分词处理后得到的词语中相邻的词语两两构成词语对；或者，

将所述分词处理后得到的词语中表意能力强的词语两两构成词语对，其中所述表意能力强的词语根据词性或者在所述搜索请求中的句子成分确定。

在所述步骤A3中查询预先挖掘出的专名词典确定所述各词语对的紧密度具体包括：

如果所述专名词典中的专有名词包含词语对i，则将所述词语对i的紧密度确定为预设紧密度值，所述词语对i为所述搜索请求中各词语对的任一个。

在所述步骤A3中查询预先挖掘出的共现词典确定所述各词语对的紧密度具体包括：

查询所述共现词典确定词语对i在已有数据源中的共现状况，所述共现状况包括词语对i在各距离范围等级的出现次数，所述词语对i为所述搜索请求中各词语对的任一个；

确定所述词语对i在各距离范围等级中相对出现概率值最大的距离范围等级；

将确定的所述距离范围等级所对应的紧密度作为所述词语对i的紧密度，其中预先设置不同距离范围等级对应不同的紧密度。

另外，所述共现词典的挖掘具体包括：

D1、对所述数据源进行分词处理和基于停用词表的过滤后，将得到的词语两两组合构成词语对；

D2、统计所述步骤D1得到的词语对在所述数据源中的共现状况，并将统计到的共现状况存入共现词典中。

如果在所述步骤A3中同时采用了专名词典和共现词典，并且通过专名词典的查询能够确定出词语对i的紧密度，则以查询专名词典确定出的所述词语对i的紧密度作为所述词语对i的紧密度，所述词语对i为所述搜索请求中各词语对的任一个。

具体地，对网页进行的结构信息处理包括：

将网页划分为网页块、段和句；

记录网页中各词语的位置信息并存储在数据库中，其中位置信息包括：所在的网页块、段、句和句内偏移。

基于此，所述步骤B具体包括：

B1、根据所述数据库中记录的所述搜索请求中词语对i的两词语分别在网页d中的位置信息，确定出所述词语对i在网页d中的共现状况，所述词语对i为所述搜索请求中各词语对的任一个，网页d为所述搜索结果中的任一个网页；

B2、根据所述步骤B1确定出的共现状况，统计所述词语对i在网页d中的物理距离分布。

所述步骤C具体包括：

C1、利用所述搜索请求中的词语对i的紧密度确定所述词语对i的加权值weight(i)；

C2、利用所述词语对i在所述搜索结果中的网页d中的物理距离分布确定所述网页d对所述词语对i的满足度fit(i，d)；

C3、按照公式

确定所述网页d针对所述搜索请求q的转义度offset_ratio(d，q)，其中，φ为所述搜索请求q中的词语对构成的集合。

所述weight(i)为：

weight(i)＝f1(tight(i)，imp(i))；其中tight(i)为所述词语对i的紧密度，imp(i)为所述词语对i在所述搜索请求q中的重要程度，f1(tight(i)，imp(i))是将tight(i)作为主因数且将imp(i)作为调节因数的函数，在相同imp(i)的情况下tight(i)值越大weight(i)值越大；或者，

weight(i)＝f2(tight(i))，其中f2(tight(i))是对tight(i)进行归一化处理的函数。

所述imp(i)由以下因素中的至少一种确定：

所述词语对i在所述搜索请求中的词性、所述词语对i在所述搜索请求中的句子成分以及所述词语对i的倒文档率。

所述fit(i，d)为：

fit(i，d)＝f3(HIT(i，d)，tight(i))；其中HIT(i，d)标识统计到的所述词语对i在网页d中的物理距离分布，tight(i)为所述词语对i的紧密度，f3(HIT(i，d)，tight(i))是由HIT(i，d)确定出的所述词语对i的距离范围作为主因数且tight(i)作为调节因数的函数，在相同tight(i)的情况下由HIT(i，d)确定出的词语对i的距离范围越小fit(i，d)值越大；或者，

fit(i，d)＝f4(HIT(i，d))，f4(HIT(i，d))是将由HIT(i，d)确定出的词语对i的距离范围映射为具体的fit(i，d)值的函数。

由HIT(i，d)确定所述词语对i的距离范围具体包括：

采用所述HIT(i，d)中所述词语对i的最小距离范围作为所述词语对i的距离范围；或者，

依据所述HIT(i，d)将相对出现概率值最大的距离范围等级作为词语对i的距离范围等级。

一种用于搜索结果排序的转义度确定装置，该装置包括：紧密度分析单元、距离分布确定单元以及转义度确定单元；

所述紧密度分析单元，用于对用户输入的搜索请求进行紧密度的分析，确定所述搜索请求中各词语对的紧密度；

所述距离分布确定单元，用于根据对所述搜索请求对应的搜索结果中各网页进行的结构信息处理的结果，统计所述搜索请求中各词语对在所述各网页中的物理距离分布；

所述转义度确定单元，用于利用所述搜索请求中各词语对对应的紧密度以及在所述各网页中的物理距离分布，确定所述搜索结果中各网页针对所述搜索请求的转义度，所述转义度用于对所述搜索结果中各网页进行排序。

其中，所述紧密度分析单元具体包括：分词处理子单元、词语对确定子单元和紧密度确定子单元；

所述分词处理子单元，用于对所述搜索请求进行分词处理；

所述词语对确定子单元，用于利用所述分词处理后得到的词语，确定所述搜索请求中的各词语对；

所述紧密度确定子单元，用于查询预先挖掘出的专名词典和/或共现词典，确定所述各词语对的紧密度，其中所述专名词典包含预先挖掘出的专有名词，所述共现词典包含预先确定的各词语对在已有数据源中的共现状况。

较优地，所述紧密度分析单元还包括：过滤处理子单元，用于对所述分词处理子单元进行分词处理后得到的词语进行基于停用词表的过滤，将过滤后得到的词语发送给所述词语对确定子单元。

具体地，所述词语对确定子单元将所述分词处理后得到的词语中相邻的词语两两构成词语对；或者，

如果所述专名词典中的专有名词包含词语对i，则所述紧密度确定子单元将所述词语对i的紧密度确定为预设紧密度值，所述词语对i为所述搜索请求中各词语对的任一个。

所述紧密度确定子单元具体包括：词典查询模块、距离等级确定模块和紧密度确定模块；

所述词典查询模块，用于查询所述共现词典确定词语对i在已有数据源中的共现状况，所述共现状况包括词语对i在各距离范围等级的出现次数，所述词语对i为所述搜索请求中各词语对的任一个；

所述距离等级确定模块，用于根据所述词典查询模块的查询结果，确定所述词语对i在各距离范围等级中相对出现概率值最大的距离范围等级；

所述紧密度确定模块，用于将所述距离等级确定模块确定的所述距离范围等级所对应的紧密度作为所述词语对i的紧密度，其中预先设置不同距离范围等级对应不同的紧密度。

更进一步地，所述紧密度分析单元还包括：共现词典挖掘子单元，用于对所述数据源进行分词处理和基于停用词表的过滤后，将得到的词语两两组合构成词语对，统计得到的词语对在所述数据源中的共现状况，并将统计到的共现状况存入共现词典中。

如果所述紧密度确定子单元同时采用了专名词典和共现词典，并且通过专名词典的查询能够确定出词语对i的紧密度，则以查询专名词典确定出的所述词语对i的紧密度作为所述词语对i的紧密度，所述词语对i为所述搜索请求中各词语对的任一个。

更进一步地，该装置还包括：结构信息处理单元，用于将网页划分为网页块、段和句，记录网页中各词语的位置信息并存储在数据库中，其中所述位置信息包括：所在的网页块、段、句和句内偏移。

所述距离分布确定单元具体包括：共现状况确定子单元和距离分布统计子单元；

所述共现状况确定子单元，用于根据所述数据库中记录的所述搜索请求中词语对i的两词语分别在网页d中的位置信息，确定出所述词语对i在网页d中的共现状况，所述词语对i为所述搜索请求中各词语对的任一个，网页d为所述搜索结果中的任一个网页；

所述距离分布统计子单元，用于根据所述共现状况确定子单元确定出的共现状况，统计所述词语对i在网页d中的物理距离分布。

所述转义度确定单元具体包括：加权值确定子单元、满足度确定子单元和转义度确定子单元；

所述加权值确定子单元，用于利用所述搜索请求中的词语对i的紧密度确定所述词语对i的加权值weight(i)；

所述满足度确定子单元，用于利用所述词语对i在所述搜索结果中的网页d中的物理距离分布确定所述网页d对所述词语对i的满足度fit(i，d)；

所述转义度确定子单元，用于按照公式确定所述网页d针对所述搜索请求q的转义度offset_ratio(d，q)，其中，φ为所述搜索请求q中的词语对构成的集合。

所述加权值确定子单元按照weight(i)＝f1(tight(i)，imp(i))或者weight(i)＝f2(tight(i))确定所述词语对i的加权值weight(i)；

其中tight(i)为所述词语对i的紧密度，imp(i)为所述词语对i在所述搜索请求q中的重要程度，f1(tight(i)，imp(i))是将tight(i)作为主因数且将imp(i)作为调节因数的函数，在相同imp(i)的情况下tight(i)值越大weight(i)值越大，f2(tight(i))是对tight(i)进行归一化处理的函数。

这种情况下，所述转义度确定单元还包括：重要度确定子单元，用于按照以下因素中的至少一种确定所述imp(i)：

所述满足度确定子单元按照fit(i，d)＝f3(HIT(i，d)，tight(i))或者fit(i，d)＝f4(HIT(i，d))确定所述网页d对所述词语对i的满足度fit(i，d)；

其中HIT(i，d)标识统计到的所述词语对i在网页d中的物理距离分布，tight(i)为所述词语对i的紧密度，f3(HIT(i，d)，tight(i))是由HIT(i，d)确定出的所述词语对i的距离范围作为主因数且tight(i)作为调节因数的函数，在相同tight(i)的情况下由HIT(i，d)确定出的词语对i的距离范围越小fit(i，d)值越大，f4(HIT(i，d))是将由HIT(i，d)确定出的词语对i的距离范围映射为具体的fit(i，d)值的函数。

这种情况下，所述转义度确定单元还包括：距离范围确定子单元，用于根据所述HIT(i，d)确定所述词语对i的距离范围，具体包括：

由以上技术方案可以看出，本发明提供的方法和装置确定出的转义度是基于query中各词语对对应的紧密度以及在网页中的物理距离分布的，网页针对query的转义度越高，说明该网页中与query中紧密度高的词语对的匹配程度越高，依据此的排序结果越优，用户通过这样的搜索结果排序能够更快速地获取想要的信息，从而节约网络资源。

【附图说明】

图1为本发明实施例提供的主要方法流程图；

图2为本发明实施例一提供的对query进行紧密度分析的方法流程图；

图3为本发明实施例二提供的统计query中各词语对在网页中的物理距离分布的方法流程图；

图4为本发明是实施例三提供的确定网页针对query的转义度的方法流程图；

图5为本发明实施例四提供的转义度确定装置的结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明实施例提供的主要方法流程图，如图1所示，该方法可以包括以下步骤：

步骤101：对用户输入的query进行紧密度的分析，确定query中各词语对的紧密度。

步骤102：根据对该query对应的搜索结果中各网页进行结构信息处理的结果，统计query中各词语对在网页中的物理距离分布。

步骤103：利用query中各词语对对应的紧密度以及在搜索结果的各网页中的物理距离分布，确定搜索结果的各网页针对query的转义度，该转义度用于对搜索结果的各网页进行排序。

下面对上述方法中的各步骤进行详细描述。首先结合实施例一对上述步骤101，即对query进行紧密度的分析过程进行详细描述。

实施例一、

图2为本发明实施例一提供的对query进行紧密度分析的方法流程图，如图2所示，该方法可以包括以下步骤：

步骤201：对query进行分词处理。

本步骤中的分词处理方法可以采用但不限于：基于词典和最长匹配的方法，或者基于统计模型的方法等，由于分词处理是已有成熟技术，在此不再具体赘述。

较优地，还可以进一步对分词处理后得到的各词语基于停用词表进行过滤，过滤掉表意能力差的词语，例如副词、虚词、助词等。

以query“相亲相爱的一家人是谁唱的”为例，进行分词处理后得到的词语为：“相亲相爱”、“的”、“一家人”、“是”、“谁”、“唱”和“的”。

基于停用词表进行过滤时，过滤掉其中的“的”，剩下的词语为：“相亲相爱”、“一家人”、“是”、“谁”和“唱”。

步骤202：利用分词处理的结果，确定query中的各词语对。

在确定query中的词语对时，可以采用以下策略中的至少一种：

策略1：将分词处理后得到的词语中，相邻的词语两两构成词语对。

策略2：将分词处理后得到的词语中，表意能力强的词语两两构成词语对。

其中表意能力强的词语可以根据词性或者句子成分确定，例如，将名词、动词、形容词、代词中的至少一种确定为表意能力强的词语，或者，将作为主语、谓语、宾语中的至少一种确定为表意能力强的词语。

仍以“相亲相爱的一家人是谁唱的”的query为例，对应于策略1，将“相亲相爱”、“一家人”、“是”、“谁”和“唱”中相邻的词语两两构成词语对后，得到词语对：“相亲相爱”-“一家人”、“一家人”-“是”、“是”-“谁”、“谁”-“唱”。

对应于策略2，query进行分词处理后得到的词语中，表意能力强的词语为“相亲相爱”、“一家人”和“唱”，将其两两组成词语对为：“相亲相爱”-“一家人”、“相亲相爱”-“唱”和“一家人”-“唱”。

步骤203：查询预先挖掘出的专名词典和/或共现词典，确定各词语对的紧密度，其中专名词典中包含预先挖掘出的专有名词，共现词典中包含预先确定的各词语对在已有数据源中的共现状况。

在本步骤中涉及到两种词典：专名词典和/或共现词典。其中，专名词典的挖掘过程可以采用现有技术，目前专有名词可以分为18种类型：人名、地名、影视名、国家名、单位名、组织名等。针对各类型可以采用各自的语料库进行挖掘，例如，针对影视名类型的专有名词，可以将视频网站的title作为语料库进行挖掘。各种类型的挖掘方式在此不做具体限定。

在利用专名词典确定各词语对的紧密度时，如果专名词典中的专有名词包含某词语对，则可以确定该词语对的紧密度为预设紧密度值。例如：“相亲相爱”和“一家人”构成的词语对命中专名词典中的专有名词“相亲相爱的一家人”，即专名词典中的专有名词包含该词语对，因此，可以设置“相亲相爱”和“一家人”构成的词语对的紧密度为最高紧密度。

下面对共现词典的挖掘进行介绍，挖掘共现词典的数据源可以采用但不限于以下中的至少一种：网页内容、网页标题(title)以及搜索日志中的query。对各数据源分别进行分词处理，较优地，进一步基于停用词表过滤掉分词处理后得到的词语中表意能力差的词语后，两两组合构成词语对，统计词语对在数据源中的共现状况，并存入共现词典中。

共现词典中各词语对的共现状况可以存储为：词语对、词语对的共现距离范围、共现在该距离范围内的次数。其中，距离范围可以预先设置为几种等级，例如分成五种等级：网页块、段、句、N个词语内(N为大于2的整数，例如3个词语内)、相邻。

在利用共现词典对用户输入的query进行紧密度分析时，查询共现词典确定query中的各词语对在各距离范围等级的出现次数，确定出各距离范围等级中相对出现概率值最大的距离范围等级，将确定的该距离范围等级所对应的紧密度作为该词语对的紧密度。其中可以预先设置不同距离范围等级对应不同的紧密度。

例如，对于“谁”-“唱”这一词语对，在共现词典中相邻等级的共现次数为2，3个词语内等级的共现次数为10，句等级的共现次数为18，段等级的共现次数为40，网页块等级的共现次数为60。然后确定出相对出现概率值最大的距离范围等级为：3个词语内，因此，确定“谁”-“唱”这一词语对的共现距离范围等级为：3个词语内，这一词语对的紧密度等级为第二紧密度等级。

其中第j个等级的相对出现概率P_j可以为：

其中，x_j为词语对在第j个等级的共现次数，x_j+1为词语在第j+1个等级的共现次数，各等级按照紧密度从高到低排序。相对出现概率值也可以采用其它的定义，在此不做限制。

如果同时采用了专名词典和共现词典，某个词语对同时命中了专名词典和共现词典，则可以以专名词典为较高优先级，即以查询专名词典确定出的词语对的紧密度作为该词语对最终的紧密度。

在本实施例中，可以将各词语对的紧密度以上述不同紧密度等级的方式体现，也可以以具体的紧密度值的方式体现。

至此实施例一所示流程结束，下面结合实施例二对步骤102，即如何对搜索结果中各网页进行结构信息处理的过程进行详细描述。

实施例二、

图3为本发明实施例二提供的统计query中各词语对在网页中的物理距离分布的方法流程图，如图3所示，该方法可以包括以下步骤：

步骤301：对query对应的搜索结果中的各网页分别进行结构信息处理，该结构信息处理包括：划分网页块、段、句。

其中，划分得到的网页块可以包括但不限于：标题(title)块、锚(anchor)块、导航(mypos)块、内容块。其中anchor块和内容块可以有更细粒度的划分。

对划分得到的网页块可以进一步进行分段，每个段可以进一步进行分句处理。

步骤301可以是在线下进行的，经过上述对网页的结构信息处理过程，每个词语在网页中都具有绝对的位置，可以将各词语在各网页中的位置信息存储在数据库中，供在线执行步骤302时查询使用。其中，位置信息可以是各词语具体所在的网页块、段、句以及句内偏移。

步骤302：根据各词语在网页中的位置信息，统计query中各词语对在网页中的物理距离分布。

根据query中各词语对中两词语在网页中的位置信息就可以确定出词语对在网页中的共现状况，即在网页块、段或句内的共现次数，由于一个词语对在网页中可能多次出现，可以基于词语在网页中的共现状况统计词语对在网页中的物理距离分布，从而形成数组HIT(i，d)，其中i标识词语对，d标识网页，HIT(i，d)标识统计到的词语对i在网页d中的物理距离分布。

至此，实施例二所示流程结束，下面结合实施例三对确定各网页针对query的转义度的方法进行详细描述。

实施例三、

图4为本发明是实例三提供的确定网页针对query的转义度的方法流程图，如图4所示，该方法可以包括以下步骤：

步骤401：利用query中各词语对的紧密度和词语对在query中的重要程度，确定词语对的加权值weight(i)。

其中，weight(i)＝f1(tight(i)，imp(i))，tight(i)为词语对i的紧密度，imp(i)为词语对i在query中的重要程度。f1(tight(i)，imp(i))可以是将tight(i)作为主因数且将imp(i)作为调节因数的函数，在相同imp(i)的情况下tight(i)值越大weight(i)值越大。例如可以是将imp(i)进行归一化处理后得到的值乘以tight(i)。

下面举其中一个f1(tight(i)，imp(i))的具体实现方案：

首先根据tight(i)值对应的等级映射到对应的权重值g_tight_map[tight(i)]上，其中tight(i)值对应的不同等级可以映射为不同的权重值，例如假设tight(i)对应五个等级，对应取[0，4]之间的整数值，映射到权重值成为一个数组，假设为g_tight_map[5]＝{16，8，4，2，1}。

然后取weight(i)＝f1(tight(i)，imp(i))＝g_tight_map[tight(i)]+imp(i)，其中，可以将g_tight_map[tight(i)]的取值范围大于imp(i)的取值范围，从而实现tight(i)作为主因数，imp(i)为调节因数。

imp(i)可以基于以下因素中的至少一种确定词语对i在query中的重要程度：在query中的词性，或者在query中的句子成分，或者倒文档率(IDF)。

其中，词语对i的倒文档率IDF_i为：

Freq_i为所述词语对i在大规模语料库中的绝对词频，M为所有词语对在大规模语料库中的绝对词频的最大值。

另外，还可以仅利用query中各词语对的紧密度确定词语对的加权值，即weight(i)＝f2(tight(i))，此时，f2(tight(i))可以是对tight(i)进行归一化处理的函数。

步骤402：利用query中各词语对在网页中的物理距离分布以及各词语对的紧密度，分别确定网页对各词语对的满足度fit(i，d)。

其中fit(i，d)＝f3(HIT(i，d)，tight(i))，HIT(i，d)标识统计到的词语对i在网页d中的物理距离分布，tight(i)为词语对i的紧密度。具体地，f3(HIT(i，d)，tight(i))可以采用由HIT(i，d)确定出的词语对i的距离范围作为主因数，tight(i)作为调节因数的函数，在相同tight(i)的情况下由HIT(i，d)确定出的词语对i的距离范围越小fit(i，d)值越大。

下面举其中一个f3(HIT(i，d)，tight(i))的具体实现方案：

HIT(i，d)反映了词语对i在网页d中的物理距离分布，可以理解为在各物理距离范围中的共现次数，假设HIT(i，d)是一个数组hit[5]，hit[0]代表词语对i在网页d中相邻共现的次数；hit[1]代表在网页d中3个词语内共现的频次；hit[2]代表在网页d中句内共现的次数；hit[3]代表在网页d中段内共现的次数；hit[4]代表在网页d中块内共现的次数。tight(i)为词语对i的紧密度，假设tight(i)是一个[0，4]范围的整数值。

首先可以将HIT(i，d)量化为一个距离范围值，则计算值hit_value＝16*hit[0]+8*hit[1]+4*hit[2]+2*hit[1]+hit[0]。可以定义hit_value的取值范围为[0，16]，如果计算出的hit_value大于16，则直接取值为16。

预先定义各tight(i)值和hit_value值的组合映射到不同的fit(i，d)，该映射关系可以体现为一个二维数组g_hit_map_fit[tight(i)][hit_value]，例如g_hit_map_fit[5][17]，该二维数组中的取值可以为[0，1]范围内的浮点数。即取fit(i，d)＝f3(HIT(i，d)，tight(i))＝g_hit_map_fit[tight(i)][hit_value]。

在由HIT(i，d)确定词语对i的距离范围时，可以直接采用HIT(i，d)中词语对i的最小距离范围作为词语对i的距离范围，或者可以依据HIT(i，d)将相对出现概率值最大的距离范围等级作为词语对i的距离范围等级。

另外，还可以仅利用由HIT(i，d)确定出的词语对i的距离范围确定fit(i，d)，即fit(i，d)＝f4(HIT(i，d))，此时，f4(HIT(i，d))可以是将由HIT(i，d)确定出的词语对i的距离范围映射为具体的fit(i，d)值的函数。例如，预先将不同的距离范围等级对应到不同的fit(i，d)值，由HIT(i，d)确定出的词语对i的距离范围等级后，确定该距离范围等级对应的fit(i，d)值。

步骤403：利用query中各词语对的加权值以及网页对各词语对的满足度，确定网页针对query的转义度offset_ratio(d，q)。

其中，

offset_ratio(d，q)为网页d针对query q的转义度，φ为q中的词语对构成的集合。

在确定出query的搜索结果中各网页针对query的转义度后，可以按照转义度从高到低的顺序进行搜索结果的排序。网页针对query的转义度越高，说明该网页中与query中紧密度高的词语对的匹配程度越高，依据此的排序结果越优。

以上是对本发明所提供的方法进行的描述，下面对本发明所提供的装置进行详细描述。

实施例四、

图5为本发明实施例四提供的转义度确定装置的结构图，该装置可以设置在搜索引擎所在的服务器端，也可以设置在能与搜索引擎进行交互的其他服务器端。如图5所示，该装置可以包括：紧密度分析单元500、距离分布确定单元510以及转义度确定单元520。

紧密度分析单元500对用户输入的query进行紧密度的分析，确定query中各词语对的紧密度。

距离分布确定单元510根据对query对应的搜索结果中各网页进行的结构信息处理的结果，统计query中各词语对在搜索结果的各网页中的物理距离分布。

距离分布确定单元510可以从搜索引擎获取query对应的搜索结果。

转义度确定单元520利用query中各词语对对应的紧密度以及在各网页中的物理距离分布，确定搜索结果中各网页针对query的转义度，转义度用于对搜索结果中各网页进行排序。

其中，紧密度分析单元500可以具体包括：分词处理子单元501、词语对确定子单元502和紧密度确定子单元503。

分词处理子单元501对query进行分词处理。其采用的分词处理方法可以包括但不限于：基于词典和最长匹配的方法，或者基于统计模型的方法等。

词语对确定子单元502利用分词处理后得到的词语，确定query中的各词语对。

紧密度确定子单元503查询预先挖掘出的专名词典和/或共现词典，确定各词语对的紧密度，其中专名词典包含预先挖掘出的专有名词，共现词典包含预先确定的各词语对在已有数据源中的共现状况。

较优地，紧密度分析单元500还可以包括：设置在分词处理子单元501和词语对确定子单元502之间的过滤处理子单元504。过滤处理子单元504对分词处理子单元501进行分词处理后得到的词语进行基于停用词表的过滤，将过滤后得到的词语发送给词语对确定子单元502。词语对确定子单元502利用所述过滤处理子单元504过滤后得到的词语确定query中的各词语对。

词语对确定子单元502在确定query中的各词语对时，可以将分词处理后得到的词语中，相邻的词语两两构成词语对；或者，将分词处理后得到的词语中，表意能力强的词语两两构成词语对，其中表意能力强的词语根据词性或者在query中的句子成分确定。

紧密度确定子单元503在利用专名词典确定各词语对对的紧密度时，如果专名词典中的专有名词包含词语对i，则紧密度确定子单元503可以将词语对i的紧密度确定为预设紧密度值，词语对i为query中各词语对的任一个，对于专名词典的利用，在图5中并未示出。

专名词典的挖掘过程可以采用现有技术的方式，目前专有名词可以分为18种类型：人名、地名、影视名、国家名、单位名、组织名等。

紧密度确定子单元503在利用共现词典确定各词语对的紧密度时，紧密度确定子单元503可以具体包括：词典查询模块5031、距离等级确定模块5032和紧密度确定模块5033。

词典查询模块5031查询共现词典确定词语对i在已有数据源中的共现状况，共现状况包括词语对i在各距离范围等级的出现次数。

距离等级确定模块5032根据词典查询模块5031的查询结果，确定词语对i在各距离范围等级中相对出现概率值最大的距离范围等级。

紧密度确定模块5033将距离等级确定模块5032确定的距离范围等级所对应的紧密度作为词语对i的紧密度，其中预先设置不同距离范围等级对应不同的紧密度。

为了实现共现词典的线下挖掘，紧密度分析单元500还可以包括：共现词典挖掘子单元505，对数据源进行分词处理和基于停用词表的过滤后，将得到的词语两两组合构成词语对，统计得到的词语对在数据源中的共现状况，并统计到的共现状况存入共现词典中。

其中采用的数据源可以包括但不限于：网页内容、网页title以及搜索日志中的query。

共现词典中各词语对的共现状况可以存储为：词语对、词语对的共现距离范围、共现在该距离范围内的次数。其中，距离范围可以预先设置为几种等级，例如分成五种等级：网页块、段、句、N个词语内以及相邻，其中N为大于2的整数。

如果紧密度确定子单元503同时采用了专名词典和共现词典，通过专名词典的查询能够确定出词语对i的紧密度，则以查询专名词典确定出的词语对i的紧密度作为词语对i的紧密度。

为了实现距离分布确定单元510统计query中各词语对在搜索结果的各网页中的物理距离分布，该装置还可以包括：结构信息处理单元530，用于将网页划分为网页块、段和句，记录网页中各词语的位置信息并存储在数据库中，其中位置信息包括：所在的网页块、段、句和句内偏移。

本实施例中涉及到的网页块的划分包括但不限于：title块、anchor块、mypos块或者内容块。其中anchor块和内容块可以有更细粒度的划分。

基于此，距离分布确定单元510可以具体包括：共现状况确定子单元511和距离分布统计子单元512。

共现状况确定子单元511根据数据库中记录的query中词语对i的两词语分别在网页d中的位置信息，确定出词语对i在网页d中的共现状况，网页d为搜索结果中的任一个网页。

距离分布统计子单元512根据共现状况确定子单元511确定出的共现状况，统计词语对i在网页d中的物理距离分布。

下面对转义度确定单元520的结构进行详细描述，转义度确定单元520可以具体包括：加权值确定子单元521、满足度确定子单元522和转义度确定子单元523。

加权值确定子单元521利用query中的词语对i的紧密度确定词语对i的加权值weight(i)。

满足度确定子单元522利用词语对i在搜索结果中的网页d中的物理距离分布确定网页d对词语对i的满足度fit(i，d)。

转义度确定子单元523按照公式

确定网页d针对query q的转义度offset_ratio(d，q)，其中，φ为query q中的词语对构成的集合。

其中，加权值确定子单元521可以按照weight(i)＝f1(tight(i)，imp(i))或者weight(i)＝f2(tight(i))确定词语对i的加权值weight(i)。

tight(i)为词语对i的紧密度，imp(i)为词语对i在query q中的重要程度，f1(tight(i)，imp(i))是将tight(i)作为主因数且将imp(i)作为调节因数的函数，在相同imp(i)的情况下tight(i)值越大weight(i)值越大，f2(tight(i))是对tight(i)进行归一化处理的函数。

此时，转义度确定单元520还可以包括：重要度确定子单元524，用于按照以下因素中的至少一种确定imp(i)：词语对i在query中的词性、词语对i在query中的句子成分以及词语对i的倒文档率。

满足度确定子单元522可以按照fit(i，d)＝f3(HIT(i，d)，tight(i))或者fit(i，d)＝f4(HIT(i，d))确定网页d对词语对i的满足度fit(i，d)。

其中HIT(i，d)标识统计到的词语对i在网页d中的物理距离分布，tight(i)为词语对i的紧密度，f3(HIT(i，d)，tight(i))是由HIT(i，d)确定出的词语对i的距离范围作为主因数且tight(i)作为调节因数的函数，在相同tight(i)的情况下由HIT(i，d)确定出的词语对i的距离范围越小fit(i，d)值越大，f4(HIT(i，d))是将由HIT(i，d)确定出的词语对i的距离范围映射为具体的fit(i，d)值的函数。

此时，转义度确定单元520还可以包括：距离范围确定子单元525，用于根据HIT(i，d)确定词语对i的距离范围，具体可以包括：

采用HIT(i，d)中词语对i的最小距离范围作为词语对i的距离范围；或者，依据HIT(i，d)将相对出现概率值最大的距离范围等级作为词语对i的距离范围等级。

在图5所示装置确定出搜索结果中各网页针对query的转义度后，可以将该转义度提供给搜索引擎用于对搜索结果中的各网页进行排序，query转义度越高的网页排序越靠前。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用于搜索结果排序的转义度确定方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤A具体包括：

A1、对所述搜索请求进行分词处理；

3.根据权利要求2所述的方法，其特征在于，在所述步骤A1中还包括：对所述分词处理后得到的词语进行基于停用词表的过滤。

4.根据权利要求2所述的方法，其特征在于，所述步骤A2具体包括：

5.根据权利要求2所述的方法，其特征在于，在所述步骤A3中查询预先挖掘出的专名词典确定所述各词语对的紧密度具体包括：

6.根据权利要求2所述的方法，其特征在于，在所述步骤A3中查询预先挖掘出的共现词典确定所述各词语对的紧密度具体包括：

7.根据权利要求2或6所述的方法，其特征在于，所述共现词典的挖掘具体包括：

8.根据权利要求2所述的方法，其特征在于，如果在所述步骤A3中同时采用了专名词典和共现词典，并且通过专名词典的查询能够确定出词语对i的紧密度，则以查询专名词典确定出的所述词语对i的紧密度作为所述词语对i的紧密度，所述词语对i为所述搜索请求中各词语对的任一个。

9.根据权利要求1所述的方法，其特征在于，对网页进行的结构信息处理包括：

将网页划分为网页块、段和句；

10.根据权利要求9所述的方法，其特征在于，所述步骤B具体包括：

11.根据权利要求1所述的方法，其特征在于，所述步骤C具体包括：

C3、按照公式

12.根据权利要求11所述的方法，其特征在于，所述weight(i)为：

13.根据权利要求12所述的方法，其特征在于，所述imp(i)由以下因素中的至少一种确定：

14.根据权利要求11所述的方法，其特征在于，所述fit(i，d)为：

15.根据权利要求14所述的方法，其特征在于，由HIT(i，d)确定所述词语对i的距离范围具体包括：

16.一种用于搜索结果排序的转义度确定装置，其特征在于，该装置包括：紧密度分析单元、距离分布确定单元以及转义度确定单元；

17.根据权利要求16所述的装置，其特征在于，所述紧密度分析单元具体包括：分词处理子单元、词语对确定子单元和紧密度确定子单元；

所述分词处理子单元，用于对所述搜索请求进行分词处理；

18.根据权利要求17所述的装置，其特征在于，所述紧密度分析单元还包括：过滤处理子单元，用于对所述分词处理子单元进行分词处理后得到的词语进行基于停用词表的过滤，将过滤后得到的词语发送给所述词语对确定子单元。

19.根据权利要求17所述的装置，其特征在于，所述词语对确定子单元将所述分词处理后得到的词语中相邻的词语两两构成词语对；或者，

20.根据权利要求17所述的装置，其特征在于，如果所述专名词典中的专有名词包含词语对i，则所述紧密度确定子单元将所述词语对i的紧密度确定为预设紧密度值，所述词语对i为所述搜索请求中各词语对的任一个。

21.根据权利要求17所述的装置，其特征在于，所述紧密度确定子单元具体包括：词典查询模块、距离等级确定模块和紧密度确定模块；

22.根据权利要求17或21所述的装置，其特征在于，所述紧密度分析单元还包括：共现词典挖掘子单元，用于对所述数据源进行分词处理和基于停用词表的过滤后，将得到的词语两两组合构成词语对，统计得到的词语对在所述数据源中的共现状况，并将统计到的共现状况存入共现词典中。

23.根据权利要求17所述的装置，其特征在于，如果所述紧密度确定子单元同时采用了专名词典和共现词典，并且通过专名词典的查询能够确定出词语对i的紧密度，则以查询专名词典确定出的所述词语对i的紧密度作为所述词语对i的紧密度，所述词语对i为所述搜索请求中各词语对的任一个。

24.根据权利要求16所述的装置，其特征在于，该装置还包括：结构信息处理单元，用于将网页划分为网页块、段和句，记录网页中各词语的位置信息并存储在数据库中，其中所述位置信息包括：所在的网页块、段、句和句内偏移。

25.根据权利要求24所述的装置，其特征在于，所述距离分布确定单元具体包括：共现状况确定子单元和距离分布统计子单元；

26.根据权利要求16所述的装置，其特征在于，所述转义度确定单元具体包括：加权值确定子单元、满足度确定子单元和转义度确定子单元；

27.根据权利要求26所述的装置，其特征在于，所述加权值确定子单元按照weight(i)＝f1(tight(i)，imp(i))或者weight(i)＝f2(tight(i))确定所述词语对i的加权值weight(i)；

28.根据权利要求27所述的装置，其特征在于，所述转义度确定单元还包括：重要度确定子单元，用于按照以下因素中的至少一种确定所述imp(i)：

29.根据权利要求26所述的装置，其特征在于，所述满足度确定子单元按照fit(i，d)＝f3(HIT(i，d)，tight(i))或者fit(i，d)＝f4(HIT(i，d))确定所述网页d对所述词语对i的满足度fit(i，d)；

30.根据权利要求29所述的装置，其特征在于，所述转义度确定单元还包括：距离范围确定子单元，用于根据所述HIT(i，d)确定所述词语对i的距离范围，具体包括：