CN1996316A

CN1996316A - 基于网页相关性的搜索引擎搜索方法

Info

Publication number: CN1996316A
Application number: CN 200710056425
Authority: CN
Inventors: 侯越先
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2007-01-09
Filing date: 2007-01-09
Publication date: 2007-07-11

Abstract

一种基于网页相关性的搜索引擎搜索方法。该方法能够在一次查询过程中提供两次结果给用户，利用用户第一次点击提供的信息有效地解决了一意多词和一词多意的问题，解决了基于关键字的搜索引擎无法准确确定用户查询意图的问题，这种不仅可以提供给用户与关键字相关且与用户感兴趣的网页相关的网页，而且没有增加用户操作的复杂性。另外，使用点击数据更新差异性矩阵，是从一个新的角度判断网页间差异性，这种差异性是大量数据中体现出来的统计意义上的差异性，是大量搜索引擎用户使用搜索引擎过程中作出的判断。所以，本发明利用具有统计平稳性的网页级的相关性(差异性)分析，不需长期跟踪特定用户的行为，即可为该用户提供统计意义上的优化服务。

Description

基于网页相关性的搜索引擎搜索方法

技术领域

本发明属于计算机网络中搜索引擎搜索技术领域，特别是涉及一种基于网页相关性的搜索引擎搜索方法。

背景技术

搜索引擎技术是一种利用关键字组合在网络上查找相关信息，并按照这些信息与关键字的匹配程度进行排序，然后返回给用户查看的技术。随着互联网的迅速发展，使用搜索引擎已成为网络用户获取网络资源的最主要途径。近几年来，全球出现了各种各样的搜索引擎，并且这些搜索引擎在人们对信息的获取过程中起到了很重要的作用。目前主要的搜索引擎可分为目录式搜索引擎和基于关键字的搜索引擎。其中目录式搜索引擎的思路是对网页库预分类，然后由用户自己选择需要哪一类的网页，并到相应的目录下去查找，目前最具代表性的分类目录式搜索引擎是yahoo[http://www.yahoo.com]。但是，为了提交给用户一组最好的搜索结果往往需要很细的类别划分力度，而对于现有的手工和自动分类技术应用于海量的网络信息是不现实的，另外即使搜索引擎提供了很细的类别，用户的选择过程也将变得非常复杂，而且不能保证用户的判断与搜索引擎已有的分类是完全吻合的。

目前互联网上的搜索引擎大多数采用基于关键字的查询技术，其典型代表为Google[http://www.***.com]和百度[http://www.***.com]。

这类搜索引擎通过程序收集并索引的信息资源量极其庞大，而用户的提问语句却大多由几个词组成，由于词语本身存在多义性，从而导致搜索引擎很难确定用户的需求，这种情况将会导致数量庞大的搜索结果且不能保证相关度，因此用户需要花费巨大的精力在搜索引擎的结果中进行浏览筛选。总之，目前的搜索引擎给出的信息质量都不是很高。

另外，搜索引擎采用的排序算法通常包括以下几种：(1)基于词频统计的排序算法。早期很多搜索引擎采用的排序算法是基于词频统计的，词权的计算一般把该词在网页中出现的位置考虑进来，例如在标题中出现的词比在正文中的词权值高。但是由于网络资源的数量巨大，词频相同的两个网页质量却可能相差很远，而且依据词频计算网页与关键字的相关度并不可靠，因此这种算法的局限性很明显。(2)基于超链分析的排序算法。传统情报检索理论中的引文分析方法是确定学术文献权威性的重要方法之一，即根据引文的数量和质量来确定文献的权威性。基于超链分析的排序算法借鉴了这一思想，通过把引文分析思想借鉴到网络文档重要性的计算中来，利用网络自身的超链接结构根据网页被引用的次数及引用网页自身的重要性给所有的网页确定一个重要性的等级数，以此来帮助实现排序算法的优化。但这种算法得到的是网页自身的重要性等级，而不是网页与用户查询的关键字的相关度，所以常会出现查询结果中网页自身的质最很高但是与用户的查询需求不一定很相关的问题。

发明内容

为了解决上述问题，本发明的目的在于提供一种能够在不增加操作复杂性的前提下准确地辨别出用户的需求，从而可以提高搜索引擎的搜索结果与用户需求之间相关性的基于网页相关性的搜索引擎搜索方法。

为了达到上述目的，本发明提供的基于网页相关性的搜索引擎搜索方法包括按顺序进行的下列步骤：

(1)在搜索引擎运行过程中记录一段时间内网络用户在搜索引擎搜索结果列表上的点击行为数据；

(2)用基于向量空间模型的方法计算出所有网页间的差异度并保存；

(3)用步骤1中记录的点击数据更新步骤2中得到的所有网页间差异度；

(4)将步骤3中得到的网页间差异度视为网页间的距离，并用维数约减的算法对这些距离数据降维，从而得到网页间差异度数据的低维几何表示；

(5)当搜索引擎接受到一个用户的一次查询请求时进行下列步骤：

(a)搜索引擎接受用户输入的查询关键字，用某种相关度计算方法得出一个对应于此查询关键字的初始查询结果列表并将其提交给用户查看；

(b)用户查看初始查询列表后将点击一个其感兴趣的链接；

(c)搜索引擎记录用户点击的第一个链接，并将该链接对应的网页记为目标网页，然后根据步骤4得到的网页间差异度数据的低维几何表示计算出目标网页与初始查询结果列表中所有链接对应的网页间的差异度，并将差异度按照从低到高的顺序排列构成新的查询结果；

(d)将新的查询结果提交给用户，此查询结果即是与用户点击的第一个网页相关且与用户输入的查询关键字高度相关的最终查询结果。

所述的步骤1中的记录时间以每个月作为周期，长期动态跟踪。

本发明提供的基于网页相关性的搜索引擎搜索方法具有如下有益效果：

1.本发明能够在一次查询过程中提供两次结果给用户，利用用户第一次点击提供的信息有效地解决了一意多词和一词多意的问题，解决了基于关键字的搜索引擎无法准确确定用户查询意图的问题，这种根据用户的第一次点击提供第二次搜索结果的方法不仅可以提供给用户与关键字相关且与用户感兴趣的网页相关的网页，而且没有增加用户操作的复杂性。

2.从经验和直觉上讲，只有同类的、相关性高的网页才更容易被用户同时访问，所以点击数据中包含了用户对网页差异性的判断。使用点击数据更新差异性矩阵，是从一个新的角度判断网页间的差异性，这种差异性是大量数据中体现出来的统计意义上的差异性，是大量搜索引擎用户使用搜索引擎过程中作出的判断。所以，本发明利用具有统计平稳性的网页级的相关性(差异性)分析，不需长期跟踪特定用户的行为，即可为该用户提供统计意义上的优化服务。

具体实施方式

本发明提供的基于网页相关性的搜索引擎搜索方法是通过收集用户的点击行为数据来确定用户真正需要的信息内容类型，同时将点击数据作为判断网页间相关性的依据之一，由此提高查询结果与用户需求的相关性。

通常使用搜索引擎的用户不会随机地点击搜索结果列表上的链接，而是作出某种选择，这样点击数据就成为一种包含丰富信息的隐性反馈。由于用户更加趋向于去点击那些与他们的需求相吻合的链接，所以搜索引擎可以通过跟踪用户点击的链接分析出用户的即时需求，解决查询词多义性问题。如搜索引擎可以提供一个动态查询结果，使查询结果既与查询词相关又与用户刚点击的链接内容相关，这样就可以确定出用户想要用此查询词表达的意思，使搜索结果适应用户的需求。

在进行一次查询过程中，用户的需求往往是比较单一的，而且其总体上不会无故地进行点击，所以在用户的一次查询过程中司时被点击的多个链接相互之间是相关性较强的。本发明通过一个n×n的矩阵保存这种被同时点击的信息，作为更新网页间相关度的依据。即本发明是通过维护由大量用户点击数据获得的网页内容差异性，针对每个查询请求，经由跟踪用户点击和网页内容差异性信息来辨识查询主题和查询意图，最终提供给用户一个与用户点击的第一个网页相关且与用户输入的查询关键字高度相关的最终查询结果。

下面对本发明提供的基于网页相关性的搜索引擎搜索方法进行详细说明：

本发明提供的基于网页相关性的搜索引擎搜索方法包括按顺序进行的下列步骤：

(1)在搜索引擎运行过程中记录一段时间内网络用户在搜索引擎搜索结果列表上的点击行为数据；由于点击行为数据需要积累，所以本步骤需要随搜索引擎运行持续一段时间。

(2)用基于向量空间模型的方法计算出所有网页间的差异度并保存；网页差异度是与网页相关度相反的属性，是对网页间差异程度的定量化的定义，两个网页的相关度越高则差异度越小。

在此过程中，首先建立差异性矩阵D并实现更新，以维护以下数据结构：

共同访问计数矩阵A：n*n对称矩阵，保存了所有网页间被同时访问的计数。

点击计数向量B：n*1向量，b_i为非负整数，[0，+∞]，每个元素保存了对应网页收到的总点击数。

初始差异性矩阵D⁰：n*n对称矩阵，由向量空间模型计算得到。令Doc＝{doc_i|1≤i≤n}表示一个网页集。根据向量空间模型，每个网页doc_i都可以被表示为向量doc_i，则D⁰的第i行j列元素d_ij ⁰可以定义为：

d_{ij}^{0} &equiv; \frac{{| | \frac{{doc}_{i}}{{| | {doc}_{i} | |}_{2}} - \frac{{doc}_{i}}{{| | {doc}_{j} | |}_{2}} | |}_{2}}{\arg \max_{i, j} {{| | \frac{{doc}_{i}}{{| | {doc}_{i} | |}_{2}} - \frac{{doc}_{j}}{{| | {doc}_{j} | |}_{2}} | |}_{2}}} - - - (1)

‖·‖₂为2范数。根据定义可知d_ij ⁰是一个规范化的分布在[0，1]值，D⁰的元素满足测度公理(满足测度公理是D可求出几何嵌入的必要属性)。

点击差异矩阵C：n*n矩阵，直接定义C的元素为

c_{ij} &equiv; \{\begin{matrix} 1 - (a_{ij} / \max {b_{i}, b_{j}}), i &NotEqual; j \\ 0, i = j \end{matrix} - - - (2)

差异性矩阵D：n*n的对称矩阵。第i行j列元素d_ij保存了第i个网页和第j个网页之间的差异性，定义d_ij为

d_{ij} &equiv; \{\begin{matrix} w \cdot c_{ij} + (1 - w) \cdot d_{ij}^{0}, i &NotEqual; j \\ 0, i = j \end{matrix} - - - (3)

其中w为用户参数，0＜w＜1。在初始状态w置为0，随着***运行时间的增加逐渐调高w的值。经过足够长的时间后，w可取1。w也可以应特殊需求进行调整，如有些网页只收到了很少的点击，则点击数据的可靠性就比较低，这时可以将w取一个较小的值，则此时差异性主要取决于由VSM方法计算所得到的值。

D的压缩表示Y：n*d矩阵，D的压缩表示，用维数约减算法处理D可以得到Y。D中的元素d_ij被表示为Y中第i行与第j行向量的距离。因此，所有网页间的差异性都可以用Y中向量的欧式距离表示。

(3)用步骤1中记录的点击数据更新步骤2中得到的所有网页间差异度；任意两个网页间的差异度更新方法如下：(a)分析步骤1中记录的点击数据，如果点击数据显示这两个网页同时出现在某次查询结果中且它们都被当时的用户打开，则这两个网页间的同时点击计数加1，处理完步骤1中的所有点击数据后可以得到这两个网页间在步骤1所持续的时间段内总的同时点击计数。

(4)将步骤3中得到的网页间差异度视为网页间的距离，并用维数约减的算法对这些距离数据降维，从而得到网页间差异度数据的低维几何表示；至此得到搜索引擎产生查询结果所需的计算网页间差异度的数据。

在上述的步骤3和4中，定期对差异性矩阵进行更新，更新过程如下

1.依据向量空间模型生成初始差异性矩阵D⁰。

2.对每个查询事件，依据某种方法(不需要约束使用的具体算法)生成查询结果集。结果集中的链接被有序提交给用户，每个链接都附有对应网页的摘要。

3.用户查看列表后依据当时的需要点击了若干个链接，搜索引擎记录下被点击的链接并将被点击的网页间的同时访问计数加1，如下：对被点击的网页i、j，执行

a_ij＝a_ij+1 (4)

b_i＝b_i+1 (5)

b_J＝b_j+1 (6)

如果只有一个网页i被打开，则执行

b_i＝b_i+1 (7)

4.搜索引擎规律性的根据A、B和D⁰重新计算生成D，并D对进行降维，获得D压缩几何表示Y。这样网页间的差异性被表示为d维嵌入空间下的欧式距离，d＜＜n。

5.当有新的网页加入时，***用基于向量空间模型的方法计算出新网页与其它网页的差异性，并将该网页的w参数调整为0。当该网页收到的点击达到一定量再将w调整到一个合理的非0值。

(a)搜索引擎接受用户输入的查询关键字，用某种相关度计算方法得出一个对应于此查询关键字的初始查询结果列表并将具提交给用户查看；

(b)用户查看初始查询列表后将点击一个其感兴趣的链接；

在此步骤中，当有用户使用搜索引擎时，对于一次查询请求进行下列过程：

1.用基于向量空间模型的方法生成初始查询结果集r。设此时r中行m个网页。

2.在用户观察初始查询结果并点击一个链接后，搜索引擎记录该链接(称为目标网页，设其在网页库中的ID为i)。计算目标网页i和r中其它网页的差异度(即计算Y中对应行向量间的距离)，获得差异向量

d_{i} &equiv; [d_{{ij}_{1}}, {d_{ij}}_{2}, . . ., {d_{ij}}_{m}]^{T}

(也可以计算目标网页和所有其它网页间的差异度并取差异度最小的一部分网页作为查询结果集的扩展)。

3.将r中的网页按照d_i中对应的差异度升序排列，提交给用户，此为搜索引擎提交给用户的最终结果。

Claims

1、一种基于网页相关性的搜索引擎搜索方法，其特征在于：所述的基于网页相关性的搜索引擎搜索方法包括按顺序进行的下列步骤：

(b)用户查看初始查询列表后将点击一个其感兴趣的链接；

2、根据权利要求1所述的基于网页相关性的搜索引擎搜索方法，其特征在于：所述的步骤1中的记录时间以每个月作为周期，长期动态跟踪。