CN103559203A

CN103559203A - 网页排序方法、装置和***

Info

Publication number: CN103559203A
Application number: CN201310464478.5A
Authority: CN
Inventors: 肖鹏
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2013-10-08
Filing date: 2013-10-08
Publication date: 2014-02-05

Abstract

本发明公开了一种网页排序方法、装置和***。所述方法包括：获取网页的访问时长信息，将所获取的网页的访问时长信息提供给搜索引擎服务器，以供搜索引擎服务器在进行网页排序时参考网页的访问时长信息。本发明的技术方案中，由于网页的访问时长信息更能够反映用户真实访问的网页，因此在很大程度上提高了搜索结果的准确度，进而提高了用户的搜索体验。

Description

网页排序方法、装置和***

技术领域

本发明涉及计算机网络技术领域，具体涉及一种网页排序方法、装置和***。

背景技术

随着计算机的普及和互联网的发展，人们对网络的使用越来越频繁，计算机网络逐渐成为人们日常生活中必不可少的工具，而搜索引擎因其本身能够提供的各种丰富的信息服务，给用户提供了方方面面的信息和数据，在人们的日常生活中得到了广泛的应用，给人们日常的生产生活带来了巨大的便利。

搜索引擎网站是互联网上专门提供检索服务的一类网站，这些网站的搜索引擎服务器通过网络搜索软件或网络登录等方式，将互联网上的大量网站的网页信息收集起来，经过加工处理后，建立信息数据库和索引数据库，用户通过在搜索引擎提供的接口中输入搜索词（query），获取搜索引擎针对该搜索词返回的搜索结果。搜索结果通常是根据一系列的评分策略和排序算法而得到的。最初，主要将网页与搜索词的相关性作为决定搜索结果排序的依据。

相关性通常由很多因素确定，其中之一即网页的PageRank（网页级别）。PageRank根据其他网页的内部链接对一个网页的重要性进行衡量。简单来说，其他网页对某特定网页的各个链接构成该网页的PageRank。但是，考虑到搜索结果的多样性，除了要考虑相关性以外，用户的访问量也是一个重要的判定依据。

在现有技术中，搜索引擎服务器主要是通过用户对网页的点击率来统计用户对网页的访问量。但是，由于用户点击一个网页后可能并没有真正的查看网站内容（比如误操作点击某个网页链接后马上关闭，或者点击打开网页后发现对其内容不感兴趣直接关闭），因此这种根据点击率来统计用户对网页的访问量的方案不够准确，不能很好地将用户真正喜欢的结果展现出来。

现在互联网上的网页数量远远超过了用户能够阅读和访问的能力，而且这个数量还在快速增长，找到用户真实访问的网页，将能够很大的提高搜索结果的精确度，进而提高用户的搜索体验。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页排序方法和相应的装置和***。

依据本发明的一个方面，提供了一种网页排序方法，该方法包括：

获取网页的访问时长信息；

将所获取的网页的访问时长信息提供给搜索引擎服务器，以供搜索引擎服务器在进行网页排序时参考网页的访问时长信息。

可选地，所述获取网页的访问时长信息包括：使用浏览器插件在浏览器端获取网页的访问时长信息。

可选地，所述使用浏览器插件在浏览器端获取网页的访问时长信息包括：浏览器插件监输入输出操作事件；浏览器插件每次捕获到网页浏览状态下的输入输出操作事件时，在当前浏览网页的访问时长上累加一个时间段，并记录本次行为的时间点；

其中：如果本次行为的时间点与上一次行为的时间点之间的时间间隔大于或等于预设时间长度，则累加的所述时间段等于所述预设时间长度，否则累加的所述时间段等于本次行为的时间点与上一次行为的时间点之间的时间间隔。

可选地，所述将所获取的网页的访问时长信息提供给搜索引擎服务器包括：浏览器插件获取到网页地址变化或者网页关闭的事件时，将累加的网页的访问时长信息提供给搜索引擎服务器。

可选地，所述网页的访问时长信息包括：网页的地址和网页的访问时长；

其中，浏览器插件根据当前焦点窗口获得浏览器窗口对应的网页的地址。

可选地，所述将所获取的网页的访问时长信息提供给搜索引擎服务器包括：

将所获取的网页的访问时长信息直接发送给搜索引擎服务器；

或者，

将所获取的网页的访问时长信息发送给安全服务器，再由安全服务器转发给搜索引擎服务器。

根据本发明的另一方面，提供了一种网页排序装置，该装置包括：

时长获取单元，适于获取网页的访问时长信息，并发送给发送单元；

发送单元，适于将时长获取单元所发送的网页的访问时长信息提供给搜索引擎服务器，以供搜索引擎服务器在进行网页排序时参考网页的访问时长信息。

可选地，所述时长获取单元，适于监控输入输出操作事件，每次捕获到网页浏览状态下的输入输出操作事件时，在当前浏览网页的访问时长上累加一个时间段，并记录本次行为的时间点；

可选地，所述时长获取单元，适于在获取到网页地址变化或者网页关闭的事件时，将累加的网页的访问时长信息发送给发送单元。

所述时长获取单元，适于根据当前焦点窗口获得浏览器窗口对应的网页的地址。

可选地，所述发送单元，适于将所获取的网页的访问时长信息直接发送给搜索引擎服务器；或者，适于将所获取的网页的访问时长信息发送给安全服务器，再由安全服务器转发给搜索引擎服务器。

根据本发明的又一方面，提供了一种网页排序***，该***包括：搜索引擎服务器和多个如上述任一项所述的网页排序装置；其中，

所述发送单元，适于将所获取的网页的访问时长信息直接发送给搜索引擎服务器；

所述搜索引擎服务器，适于在进行网页排序时参考网页的访问时长信息。

可选地，所述搜索引擎服务器，适于根据网页的访问时长信息调节网页的PageRank值，根据各网页的PageRank值进行排序。

根据本发明的又一方面，提供了一种网页排序***，其中，该***包括：搜索引擎服务器、安全服务器和多个如上述任一项所述的网页排序装置；其中，

所述发送单元，适于将所获取的网页的访问时长信息发送给安全服务器；

所述安全服务器，适于将多个网页排序装置发送的网页的访问时长信息转发给所述搜索引擎服务器；

根据本发明的获取网页的访问时长信息，将所获取的网页的访问时长信息提供给搜索引擎服务器，以供搜索引擎服务器在进行网页排序时参考网页的访问时长信息的技术方案，由于网页的访问时长信息更能够反映用户真实访问的网页，因此在很大程度上提高了搜索结果的准确度，进而提高了用户的搜索体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种网页排序方法的流程图；

图2示出了根据本发明一个实施例的一种网页排序装置的结构图；

图3示出了根据本发明一个实施例的一种网页排序***的组成示意图；

图4示出了根据本发明一个实施例的一种网页排序***的组成示意图。具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的一种网页排序方法的流程图。如图1所示，该方法包括：

步骤S110，获取网页的访问时长信息。

在本发明的一个实施例中，使用浏览器插件在浏览器端获取网页的访问时长信息。即通过浏览器插件获知网页状态，获知鼠标、键盘行为等输入输出事件，以此判断出当前网页被访问的有效时间。

步骤S120，将所获取的网页的访问时长信息提供给搜索引擎服务器，以供搜索引擎服务器在进行网页排序时参考网页的访问时长信息。

在本步骤中，将所获取的网页的访问时长信息提供给搜索引擎服务器，使得搜索引擎服务器以此项数据作为搜索引擎排序的重要依据。

图1所示的方案中，由于网页的访问时长信息更能够反映用户真实访问的网页，因此在很大程度上提高了搜索结果的准确度，能够把用户真正喜欢的网页排序到前面并展现，从而提高了用户的搜索体验。

在本发明的一个实施例中，使用浏览器插件在浏览器端获取网页的访问时长信息。浏览器作为用户访问网页的工具，能够获取到用户的具体网页访问情况，当页面被打开时，可以使用浏览器插件获知网页状态等，可以通过监控运行浏览器的终端的输入输出事件，如鼠标和键盘等事件获知该网页是否被打开，以及是否活跃（即是否在前端）等，进而分析页面事件行为。

使用浏览器插件能够获取当前浏览网页的网页地址、捕获网页地址的变化、捕获网页状态的变化（包括开始加载、加载完成、加载失败等）以及捕获网页的关闭行为等。通过浏览器插件进入浏览器后，hook***事件API，能够监控到输入输出事件，如鼠标和键盘行为（也可以是其他可能的输入输出行为），以此确认当前网页处于活跃状态，并根据当前焦点窗口获得浏览器窗口对应的网页地址。一个页面在活跃状态时，通常会有鼠标点击、键盘输入或输入搜索词事件，或者有鼠标滚轮等事件，根据这些事件可以知道用户目前是否在活跃状态。鼠标的活动过程包括鼠标行为、鼠标的停留时间以及鼠标当前位置等。浏览器插件记录鼠标事件和累加的时间，将访问者在网站中操作鼠标的活动记录下来，在网站页面关闭时，记录累加的数量。

各种浏览器的官方的插件机制，如IE的BHO、Chrome的plugin、Firefox的npapi等都直接支持上述事件和状态的获取，因此本领域的普通技术人员按照官方提供的插件机制编写本申请中需要的浏览器插件即可实现，这里不再详细阐述。

具体来说，在本发明的一个具体实施例中通过如下方式获得网页的访问时长信息：

（1）浏览器插件监控输入输出事件（如鼠标行为和键盘行为等）；

（2）浏览器插件每次捕获到网页浏览状态下的输入输出事件时，在当前浏览网页的访问时长上累加一个时间段，并记录本次行为的时间点；

（3）浏览器插件获取到网页地址变化或者网页关闭的事件时，将累加的网页的访问时长信息提供给搜索引擎服务器。

其中：网页的访问时长信息包括：网页的地址和网页的访问时长。浏览器插件根据当前焦点窗口获得浏览器窗口对应的网页的地址。

例如：预设时间长度为100毫秒，浏览器第一次捕获到网页的浏览状态的时间点为a，之后捕获到该网页浏览状态下的连续三次的鼠标或键盘行为依次发生在b、c和d三个时间点。如果a和b，b和c，以及c和d的间隔都大于100毫秒，那么这个网页的访问时长累加300毫秒。如果a和b，以及c和d的间隔大于100毫秒，而b和c的间隔小于100毫秒，那么这个网页的访问时长累加c-b+200毫秒。

在本具体实施例中，没有采用以打开页面、切换页面、关闭页面和进入退出焦点的状态的时间点作为时间累计的标准的原因是，这些行为可能存在偏差，导致出现网页访问时长非常长的情况。而采用上述的方案可以避免该问题。

在本发明的一个实施例中，将浏览器端所获取的网页的访问时长信息直接发送给搜索引擎服务器。

在本发明的另一个实施例中，将浏览器所获取的网页的访问时长信息发送给安全服务器，再由安全服务器转发给搜索引擎服务器。

上述两种方案可以根据实际网络架构情况进行选择。例如，搜索引擎服务器能够设置用于接收来自浏览器端的访问时长信息的接口逻辑时，可采用前一种浏览器端直接向搜索引擎服务器发送的方案，反之采用后一种通过安全服务器中转的方案。

搜索引擎服务器接收网页的访问时长信息并进行记录，根据各个网页的访问时长信息调节各个网页的PageRank值，以便将此数据应用到网页排序过程中。其中的基本原则是，一个网页的访问时长越长，其被排到靠前位置的概率越大。

在本发明的一个实施例中，搜索引擎服务器在接收浏览器端统计的网页的访问时长信息，具体实现时，由于搜索引擎服务器维护着索引数据库，其中保存了抓取到所有网页的信息，接收到用户的搜索请求时，就是根据该索引数据库中的数据向用户返回搜索结果，因此，可以在索引数据库中为每个网页设置访问时长这一参数，搜索引擎服务器根据该参数调节网页的权重，从而调节网页的排序。

利用本发明的这种方法，能够优先提供高质量的、真正符合用户搜索意图的网页资源给用户，从而减少用户浏览、查检网页的时间，提高用户的检索效能。

图2示出了根据本发明一个实施例的一种网页排序装置的结构图。如图2所示，该网页排序装置200包括：时长获取单元201和发送单元202。

时长获取单元201，适于获取网页的访问时长信息，并发送给发送单元202；

发送单元202，适于将时长获取单元所发送的网页的访问时长信息提供给搜索引擎服务器，以供搜索引擎服务器在进行网页排序时参考网页的访问时长信息。

在本发明的一个实施例中，时长获取单元201，适于监控输入输出事件（如鼠标行为和键盘行为等），每次捕获到网页浏览状态下的输入输出事件时，在当前浏览网页的访问时长上累加一个时间段，并记录本次行为的时间点；

例如：预设时间长度为100毫秒，浏览器第一捕获到网页浏览状态的时间点为a，之后捕获到该网页浏览状态下的连续三次的鼠标或键盘行为依次发生在b、c和d三个时间点。如果a和b，b和c，以及c和d的间隔都大于100毫秒，那么这个网页的访问时长累加300毫秒。如果a和b，以及c和d的间隔大于100毫秒，而b和c的间隔小于100毫秒，那么这个网页的访问时长累加c-b+200毫秒。

在本发明的一个实施例中，时长获取单元201，适于在获取到网页地址变化或者网页关闭的事件时，将累加的网页的访问时长信息发送给发送单元202。

在本发明的一个实施例中，所述网页的访问时长信息包括：网页的地址和网页的访问时长；时长获取单元201，适于根据当前焦点窗口获得浏览器窗口对应的网页的地址。

在本发明的一个实施例中，发送单元202，适于将所获取的网页的访问时长信息直接发送给搜索引擎服务器；或者，适于将所获取的网页的访问时长信息发送给安全服务器，再由安全服务器转发给搜索引擎服务器。

图3示出了根据本发明一个实施例的一种网页排序***的组成示意图。如图3所示，该***包括：搜索引擎服务器400、安全服务器300和多个如图2所示的网页排序装置200。

网页排序装置200中的发送单元202，适于将所获取的网页的访问时长信息发送给安全服务器300；

安全服务器300，适于将多个网页排序装置发送的网页的访问时长信息转发给所述搜索引擎服务器400；

搜索引擎服务器400，适于在进行网页排序时参考网页的访问时长信息。具体地，搜索引擎服务器400适于根据网页的访问时长信息调节网页的PageRank值，再根据各网页的PageRank值进行排序。

图4示出了根据本发明一个实施例的一种网页排序***的组成示意图。如图4所示，该***包括：搜索引擎服务器400和多个如图2所示网页排序装置200。

网页排序装置200中的发送单元202，适于将所获取的网页的访问时长信息直接发送给搜索引擎服务器400；

图3和图4中的搜索引擎服务器400接收网页的访问时长信息并进行记录，根据各个网页的访问时长信息调节各个网页的PageRank值，以便将此数据应用到网页排序过程中。其中的基本原则是，一个网页的访问时长越长，其被排到靠前位置的概率越大。在本发明的一个实施例中，搜索引擎服务器400接收浏览器端统计的网页的访问时长信息，具体实现时，由于搜索引擎服务器400维护着索引数据库，其中保存了抓取到所有网页的信息，接收到用户的搜索请求时，就是根据该索引数据库中的数据向用户返回搜索结果，因此，可以在索引数据库中为每个网页设置访问时长这一参数，搜索引擎服务器400根据该参数调节网页的权重，从而调节网页的排序。

综上所述，根据本发明的获取网页的访问时长信息，将所获取的网页的访问时长信息提供给搜索引擎服务器，以供搜索引擎服务器在进行网页排序时参考网页的访问时长信息的技术方案，由于网页的访问时长信息更能够反映用户真实访问的网页，因此在很大程度上提高了搜索结果的准确度，进而提高了用户的搜索体验。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的网页排序装置和***中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种网页排序方法，其中，该方法包括：

获取网页的访问时长信息；

2.如权利要求1所述的方法，其中，所述获取网页的访问时长信息包括：

使用浏览器插件在浏览器端获取网页的访问时长信息。

3.如权利要求2所述的方法，其中，所述使用浏览器插件在浏览器端获取网页的访问时长信息包括：

浏览器插件监控输入输出操作事件；

浏览器插件每次捕获到网页浏览状态下的输入输出操作事件时，在当前浏览网页的访问时长上累加一个时间段，并记录本次行为的时间点；

4.如权利要求3所述的方法，其中，所述将所获取的网页的访问时长信息提供给搜索引擎服务器包括：

浏览器插件获取到网页地址变化或者网页关闭的事件时，将累加的网页的访问时长信息提供给搜索引擎服务器。

5.如权利要求3所述的方法，其中，所述网页的访问时长信息包括：网页的地址和网页的访问时长；

6.如权利要求1至5中任一项所述的方法，其中，所述将所获取的网页的访问时长信息提供给搜索引擎服务器包括：

或者，

7.一种网页排序装置，其中，该装置包括：

8.如权利要求7所述的装置，其中，

所述时长获取单元，适于监控输入输出操作事件，每次捕获到网页浏览状态下的输入输出操作事件时，在当前浏览网页的访问时长上累加一个时间段，并记录本次行为的时间点；

9.如权利要求8所述的装置，其中，

所述时长获取单元，适于在获取到网页地址变化或者网页关闭的事件时，将累加的网页的访问时长信息发送给发送单元。

10.如权利要求8所述的装置，其中，所述网页的访问时长信息包括：网页的地址和网页的访问时长；

11.如权利要求7至10中任一项所述的装置，其中，

所述发送单元，适于将所获取的网页的访问时长信息直接发送给搜索引擎服务器；或者，适于将所获取的网页的访问时长信息发送给安全服务器，再由安全服务器转发给搜索引擎服务器。

12.一种网页排序***，其中，该***包括：搜索引擎服务器和多个如权利要求7至10中任一项所述的网页排序装置；其中，

13.如权利要求12所述的***，其特征在于，

所述搜索引擎服务器，适于根据网页的访问时长信息调节网页的PageRank值，根据各网页的PageRank值进行排序。

14.一种网页排序***，其中，该***包括：搜索引擎服务器、安全服务器和多个如权利要求7至10中任一项所述的网页排序装置；其中，

15.如权利要求14所述的***，其特征在于，