WO2015074455A1

WO2015074455A1 - 一种计算关联网页URL模式pattern的方法和装置

Info

Publication number: WO2015074455A1
Application number: PCT/CN2014/086522
Authority: WO
Inventors: 王智广
Original assignee: 北京奇虎科技有限公司; 奇智软件（北京）有限公司
Priority date: 2013-11-25
Filing date: 2014-09-15
Publication date: 2015-05-28

Abstract

一种计算关联网页URL模式pattern的方法和装置，所述方法包括：判断指定网页的页面元素中是否具有翻页特征anchor；若是，则提取所述翻页特征anchor对应链接到的关联URL；根据所述指定网页的URL以及所述翻页特征anchor对应链接到的关联URL计算与所述指定网页对应的关联网页模式pattern。采用翻页特征anchor识别关联网页，识别准确率高，基于指定网页的URL和关联URL计算出关联网页URL模式pattern，计算效率高。

Description

一种计算关联网页URL模式pattern的方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种计算关联网页URL模式pattern的方法、一种计算关联网页URL模式pattern的装置。

背景技术

随着因特网的发展，愈来愈多的信息是通过网页方式呈现在因特网上供用户查询，同样的通过搜寻引擎在因特网中查询数据也成为最常使用的数据搜寻方法。

搜索引擎收录网页时需要针对不同种类的网页采取不同的调度策略，网页种类的识别是一项基础工作，其中翻页(Page turning)网页的识别是一项比较关键的工作。所谓翻页网页，即查看分页文件的上一个页面、下一个页面或任意存在的非当前页面。翻页网页可以将实体书或者移动Web窗体中的内容进行改变，以观看不同内容。在互联网上运用时该机制还呈现可用于浏览到其他页的用户界面元素。

现有的翻页网页的识别方法是根据网页的URL(Uniform Resource Locator，统一资源定位符)所包含的关键词来识别是否是索引页。例如，当URL包含有page、pn、p等关键词以及关键词后面有数字时，判断该URL对应的网页为翻页网页。

但是，这种识别方法召回率低，并且很多网站的翻页是不具有这些关键词的，比如“http://cq.ABC.com/lvshi/o12/”、“http://bbs.BCA.com/t661_10”、“http://china.BCD.com/product/20110617/2647”，但是这些网页依然是翻页，使得这些识别方法容易造成误操作，实用性低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种计算关联网页URL模式pattern的方法和相应的一种计算关联网页URL模式pattern的装置。

根据本发明的一个方面，提供了一种计算关联网页URL模式pattern的方法，包括：

判断指定网页的页面元素中是否具有翻页特征anchor；若是，则提取所述翻页特征anchor对应链接到的关联URL；

根据所述指定网页的URL以及所述翻页特征anchor对应链接到的关联URL计算与所述指定网页对应的关联网页URL模式pattern。

根据本发明的另一方面，提供了一种识别网页URL中页码标识的方法，包括：

获取指定网页的页面元素中翻页特征anchor对应链接到的关联URL；

依据所述指定网页的URL和所述关联URL计算关联网页URL模式pattern；

基于与指定网页对应的关联网页URL模式pattern，分别确定所述指定网页URL的页码特征部分以及所述关联URL中的页码特征部分；

比较所述指定网页URL与所述关联页URL的页码特征部分，提取不同数字标识部分识别为指定网页URL的页码标识。

根据本发明的另一方面，提供了一种关联网页数据库的建立方法，包括：

判断抓取到的网页是否包括关联网页URL模式；若是，则获取所述关联网页URL模式；

基于所述关联网页URL模式获取对应的关联网页；

采用所述关联网页URL模式对应的关联网页建立关联网页数据库。

根据本发明的另一方面，提供了一种关联网页搜索方法，包括：

接收搜索请求；所述请求中包括搜索关键词；

依据所述搜索关键词在预置的关联网页数据库中进行查找，获得与所述关键词匹配的网页；

判断所述网页是否为关联网页；若是，则返回所述网页及所述网页关联的首页信息。

根据本发明的另一方面，提供了一种计算关联网页URL模式pattern的装置，包括：

翻页特征anchor判断模块，适于判断指定网页的页面元素中是否具有翻页特征anchor；若是，则调用关联URL提取模块；

URL提取模块，适于提取所述翻页特征anchor对应链接到的关联URL；

关联网页URL模式pattern计算模块，适于根据所述指定网页的URL以及所述翻页特征anchor对应链接到的关联URL计算与所述指定网页对应的关联网页URL模式pattern。

根据本发明的又一个方面，提供了一种计算机程序，其包括计算机可读代码，当所述计算机可读代码在计算设备上运行时，导致所述计算设备执行根据权利要求1-8中的任一个所述的计算关联网页URL模式pattern方法。

根据本发明的再一个方面，提供了一种计算机可读介质，其中存储了如权利要求23所述的计算机程序。

本发明的有益效果为：

本发明采用翻页特征anchor识别关联网页，识别准确率高，基于指定网页的URL中和关联URL计算出关联网页URL模式pattem，计算效率高。

本发明使用通配字符替换数字块获得第一特征URL前缀和获得第二特征URL前缀，当所述第一特征URL前缀与所述第二特征URL前缀相同时，将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式，本发明采用URL的共性部分进行匹配，进一步提高了关联网页的识别准确率，使得召回率大幅提高，在实际应用中可以识别90％以上的关联网页。

本发明将关联网页URL模式pattern的翻页块替换为首页标识获得首页关联网页的URL，同理，也可以将翻页块替换为其他挂链网页标识获得其他关联网页的URL，从而增加了关联网页的覆盖率，使得能够获取更加全面的关联网页，进而实现了细颗粒度的操作。

本发明基于当前抓取到的网页提取关联网页URL模式，采用关联网页URL模式对应的关联网页建立关联网页数据库，避免了重复抓取网页，减少了***资源的占用，大大提高了数据库的建立效率。

本发明在判断获得与关键词匹配的网页为关联网页时，返回该网页及该网页关联的首页信息，避免了用户重复搜索或者查找首页的过程，进一步减少了***的操作，减少了***资源的占用，提高了搜索的效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意性示出了根据本发明一个实施例的一种计算关联网页URL模式pattern的方法实施例1的步骤流程图；

图2示意性示出了根据本发明一个实施例的一种网页结构示例图；

图3示意性示出了示出了本发明一个实施例的一种翻页块的示例图；

图4示意性示出了根据本发明一个实施例的一种计算关联网页URL模式pattern的方法实施例2的步骤流程图；

图5示意性示出了本发明一个实施例的一种识别网页URL中页码标识的方法实施例的步骤流程图；

图6示意性示出了本发明一个实施例的一种关联网页数据库的建立方法实施例的步骤流程图；

图7示意性示出了本发明一个实施例的一种关联网页搜索方法实施例的步骤流程图；

图8示意性示出了根据本发明一个实施例的一种计算关联网页URL模式pattern的装置实施例1的结构框图；

图9示意性示出了根据本发明一个实施例的一种计算关联网页URL模式pattern的装置实施例2的结构框图；

图10示意性地示出了用于执行根据本发明的方法的计算设备的框图；以及

图11示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步的描述。

参照图1，示出了本发明一个实施例的一种计算关联网页URL模式pattem的方法实施例1的步骤流程图，具体可以包括如下步骤：

步骤101，判断指定网页的页面元素中是否具有翻页特征anchor；若是，则执行步骤102；

网页按照功能可以划分为多个区域，以某一个论坛(Bulletin Board System，BBS)的页面为例，如图2所示，该页面可以划分为导航块(1)、垃圾块(2、4)、翻页块(3)、标题块(5)、作者信息块(6)、发表日期块(7)、正文块(8)。其中，导航块可以位于网页页眉顶部，或者 banner(网页的横幅广告)下部，用于指向网页的信息栏目。垃圾块可以为与网页主题相关度很低的页面元素所在的区域，例如“发帖”、“回复”等功能按钮。翻页块可以为指示翻页的区域。标题块可以为网页主题的标题(例如图2所示的“安全浏览器聚集黑色星期四”)所在的区域。作者信息块为记载该网页主题作者信息的区域。正文块为记载该网页主题正文的区域。

参照图3，示出了示出了本发明一个实施例的一种翻页块的示例图。

如图3所示，翻页块主要可以由翻页特征anchor组成，翻页特征anchor即翻页特征字符串，其可以为用于标识翻页的页面元素。

在具体实现中，翻页特征anchor可以包括以下的一种或多种：

[<<]、[>>]、[< <]、[> >]、[《]、[》]、[>]、[<]、[下一页]、[上一页]、[上一]、[下一]、[next]、[末页]、[尾页]、[前页]、[后页]、[<上一页]、[>上一]、[下一>]、[下一页>]、[1...]。

当然，上述翻页特征anchor只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他翻页特征anchor，本发明实施例对此不加以限制。

在本发明的一种优选实施例中，所述步骤101具体可以包括如下子步骤：

子步骤S11，采用翻页特征anchor在当前网页的DOM树节点中进行匹配；

子步骤S12，当匹配成功时，则判断当前网页具有翻页特征anchor。

DOM(文件对象模型，Document Object Model)是处理可扩展置标语言的标准编程接口。DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构，是表示和处理一个HTML(Hypertext Markup Language，超文本标记语言)或XML(eXtensible Markup Language，可扩展标记语言)文档的常用方法。

DOM实际上是以面向对象方式描述的文档模型。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系。可以把DOM认为是页面上数据和结构的一个树形表示，不过页面当然可能并不是以这种树的方式具体实现。

通过JavaScript可以重构整个HTML文档，可以添加、移除、改变或重排页面上的项目。

要改变页面的某个东西，JavaScript就需要获得对HTML文档中所有元素进行访问的入口。这个入口，连同对HTML元素进行添加、移动、改变或移除的方法和属性，都是通过文档对象模型来获得的(DOM)。

可以将HTML文档视作树结构，而这种结构被称为节点树(HTML DOM)。通过HTML DOM，树中的所有节点均可通过JavaScript进行访问。所有HTML元素(节点)均可被修改，也可以创建或删除节点。

节点树中的节点彼此拥有层级关系。可以采用父(parent)、子(child)和同胞(sibling)等术语用于描述这些关系。其中，父节点拥有子节点。同级的子节点被称为同胞(兄弟或姐妹)。在节点树中，顶端节点被称为根(root)。每个节点都有父节点、除了根(它没有父节点)。一个节点可拥有任意数量的子，同胞是拥有相同父节点的节点。

具体可以通过若干种方法在节点树来查找希望操作的网页元素：

例如，可以通过使用getElementById()和getElementsByTagName()方法进行查找。

又例如，可以通过使用一个元素节点的parentNode、firstChild以及lastChild属性。

其中，getElementById()和getElementsByTagName()这两种方法，可查找整个HTML文档中的任何HTML元素。而这两种方法会忽略文档的结构。假如查找文档中所有的<p>元素，getElementsByTagName()会把它们全部找到，不管<p>元素处于文档中的哪个层次。同时，getElementById()方法也会返回正确的元素，不论它被隐藏在文档结构中的什么位置。这两种方法会提供任何所需要的HTML元素，不论它们在文档中所处的位置。

此外，getElementById()可通过指定的ID来返回网页元素。

在具体实现中，可以通过识别该网页的HTML文本DOM树中超链接<a>(anchor，锚点)标识是否包括[<<]、[>>]、[< <]、[> >]、[《]、[》]、[>]、[<]、[下一页]、[上一页]、[上一]、[下一]、[next]、[末页]、[尾页]、[前页]、[后页]、[<上一页]、[<上一]、[下一>]、[下一页>]、[1...]中的一种或多种，若是，则判断当前网页具有翻页特征anchor。

其中，<a>可以用于把当前位置的文本或图片连接到其他的页面、文本或图像等。

<a>标识的基本语法结构可以如下：

<a

class＝type

id＝value

href＝reference

name＝value

rel＝same|next|parent|previous

rev＝value

target＝window

style＝value

title＝title

onclick＝function

onmouseout＝function

onMouseOver＝function>显示文字或者图片的代码</a>

例如以下一种HTML文本中<a>标识的内容为：

<a

href＝″forum-99-1.html″class＝″prev″></a>

<a

href＝″forum-99-1.html″>1</a><strong>2<>

<a

href＝″forum-99-3.html″>3</a>

<a

href＝″forum-99-4.html″>4</a>

<a

href＝″forum-99-5.html″>5</a>

<a

href＝″forum-99-6.html″>6</a>

<a

href＝″forum-99-7.html″>7</a>

<a

href＝″forum-99-8.html″>8</a>

<a

href＝″forum-99-9.html″>9</a>

<a

href＝″forum-99-10.html″>10</a>

<a

href＝″forum-99-1000.html″class＝″last″>...2107</a>

<label>

<inputtype＝″text″name＝″custompage″class＝″px″size＝″2″title＝″输入页码，按回车快速跳转″value＝″2″onkeydown＝″if(event.keyCode＝＝13){window.location＝′forum.php？mod＝forumdisplay&fid＝99&page＝′+this.value；doane(event)；}″/>

</label>

<a

href＝″forum-99-3.html″class＝″nxt″>下一页</a>

</div>

</span>

通过HTML文本中<a>标识的匹配，可以判断该网页具有一个或多个翻页特征anchor。

步骤102，提取所述翻页特征anchor对应链接到的关联URL(Un而nn Resource Locator，统一资源定位符)；

在实现应用中，所述翻页特征anchor可以对应链接到一个或多个关联URL。

具体地，在识别出该一个或多个翻页特征anchor之后，提取该一个或多个翻页特征anchor链接的一个或多个关联URL，该一个或多个关联URL指向其他的与当前网页关联的翻页网页。

步骤103，根据所述指定网页的URL以及所述翻页特征anchor对应链接到的关联URL计算与所述指定网页对应的关联网页URL模式pattern。

关联网页URL模式Pattern，可以为长相或者功能类似的URL/网页聚在一起形成的集合。

在本发明的一种优选实施例中，所述步骤103具体可以包括如下子步骤：

子步骤S21，使用通配字符替换指定网页的URL中的数字块，获得第一特征URL前缀；其中，所述数字块为被间隔标识分割出的单个数字或多个数字；

子步骤S31，使用通配字符替换所述关联URL中的数字块，获得第二特征URL前缀；

需要说明的是，通配字符可以为任意字符，本发明实施例对此不加以限制。间隔标识可以为URL中用于间隔的符号，例如“/”、“.”、“-”、“？”、“：”等等。数字块需要为间隔标识中连续的数字，例如“123ABC”不为数字块。

在本发明实施例的一种优选示例中，所述子步骤S21进一步可以包括如下子步骤：

子步骤S211，采用相同的通配字符替换指定网页的URL中不同位置的数字块，获得第一特征URL前缀；

与子步骤S211相对应地，所述子步骤S31进一步可以包括如下子步骤：

子步骤S311，采用相同的通配字符替换所述关联URL中不同位置的数字块，获得第二特征URL前缀。

在具体实现中，指定网页的URL和关联URL可以具有一个或多个数字块，为减少替换的操作步骤和***的资源占用，可以用相同的通配字符替换数字块。

例如，指定网页的URL为http://bbs.XXX.com/forum-99-2.html，关联URL为http://bbs.XXX.com/forum-99-3.html，其中“99”、“2”被识别出为数字块，以“(\d+)”作为通配字符的一种示例，则第一特征URL前缀可以为http://bbs.XXX.com/forum-(\d+)-(\d+).html，第二特征URL前缀可以为http://bbs.XXX.com/forum-(\d+)-(\d+).html。

在本发明的一种实施例中，所述子步骤S21进一步可以包括如下子步骤：

子步骤S212，分别采用不同的替换字符，替换指定网页的URL中不同位置的数字块，获得第一特征URL前缀；

与子步骤S212相对应地，所述步骤103具体可以包括如下子步骤：

子步骤S312，分别采用与第一特征URL相同的通配字符替换所述关联URL在相同位置的数字块，获得第二特征URL前缀。

在具体实现中，指定网页的URL和关联URL可以具有一个或多个数字块，为提高后续第一特征URL前缀与第二特征URL是否相同的判断以及对数字块的标识的效率，可以采用不同的通配字符替换数字块。

例如，指定网页的URL为http://bbs.XXX.com/forum-99-2.html，关联URL为http://bbs.XXX.com/forum-99-3.html，其中“99”、“2”被识别出为数字块，以“(\d+)”、“(\e+)”作为通配字符的一种示例，则第一特征URL前缀可以为http://bbs.XXX.com/forum-(\d+)-(\e+).html，第二特征URL前缀可以为http://bbs.XXX.com/forum-(\d+)-(\e+).html。

子步骤S41，当所述第一特征URL前缀与所述第二特征URL前缀相同时，将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式pattern。

在实际应用中，当第一特征URL前缀与第二特征URL前缀相同时，可以判定指定网页的和关联URL对应的网页为关联的翻页网页。

因为第一特征URL前缀和第二特征URL相同，则以第一特征URL前缀或第二特征URL前缀作为关联网页URL模式Pattern均可。

本发明采用翻页特征anchor识别关联网页，识别准确率高，基于指定网页的URL中和关联URL计算出关联网页URL模式pattern，计算效率高。

本发明使用通配字符替换数字块获得第一特征URL前缀和获得第二特征URL前缀，当所述第一特征URL前缀与所述第二特征URL前缀相同时，将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式，本发明采用采用URL的共性部分进行匹配，进一步提高了关联网页的识别准确率，使得召回率大幅提高，在实际应用中可以识别90％以上的关联网页。

参照图4，示出了本发明一个实施例的一种计算关联网页URL模式pattern的方法实施例2的步骤流程图，具体可以包括如下步骤：

步骤401，判断指定网页的页面元素中是否具有翻页特征anchor；若是，则执行步骤402；

步骤402，提取所述翻页特征anchor对应链接到的关联URL；

步骤403，根据所述指定网页的URL以及所述翻页特征anchor对应链接到的关联URL计算与所述指定网页对应的关联网页URL模式pattern；

步骤404，通过对关联网页URL模式pattern中的共性部分进行结构分析，提取关联网页URL模式pattern中的翻页块，将所述翻页块替换为首页标识获得首页关联网页的URL；

其中，所述翻页块为多个关联网页URL模式pattern中位置相同但数字不同的数字块。

在实际应用中，URL可以包括以下的一种或多种结构：

1、protocol(协议)：指定使用的传输协议，最常用的是HTTP协议，它也是目前WWW中应用最广的协议。具体地，传输协议包括file协议(资源是本地计算机上的文件，格式为file:///)、ftp协议(通过FTP访问资源，格式为FTP://)、gopher(通过Gopher协议访问资源)、http协议(通过HTTP访问资源，格式为HTTP://)、https协议(通过安全的HTTPS访问资源，格式为HTTPS://)等等。

2、hostname(主机名)：指存放资源的服务器的域名***(DNS)主机名或IP地址。有时，在主机名前也可以包含连接到服务器所需的用户名和密码(格式为username：password)。

3、port(端口号)：省略时使用方案的默认端口，各种传输协议都有默认的端口号，如http的默认端口为80。如果输入时省略，则使用默认端口号。有时候出于安全或其他考虑，可以在服务器上对端口进行重定义，即采用非标准端口号，此时，URL中就不能省略端口号这一项。

4、path(路径)：由零或多个“/”符号隔开的字符串，一般用来表示主机上的一个目录或文件地址。

5、parameters(参数)：可以用于指定特殊参数的可选项。

6、query(查询)：可以用于给动态网页(如使用CGI、ISAPI、PHP/JSP/ASP/ASP.NET等技术制作的网页)传递参数，可有多个参数，用“&”符号隔开，每个参数的名和值用“＝”符号隔开。

7、fragment(信息片断)：可以用于指定网络资源中的片断。例如一个网页中有多个名词解释，可使用fragment直接定位到某一名词解释。

在具体实现中，通过对多个关联网页URL模式中的共性部分进行结构分析，提取关联网页URL模式中的翻页块，然后将所述翻页块替换为首页标识获得首页关联网页的URL。

例如，对于上述示例的关联网页URL模式-http://bbs.XXX.com/forum-(\d+)-(\e+).html，在识别出(\e+)为翻页块，然后将翻页块替换为首页标识后，获得首页关联网页的URL-http://bbs.XXX.com/forum-99-1.html。

在本发明实施例的一种优选示例中，所述首页标识可以包括0、1和/或当前关联网页中的最大数值。

在具体实现中，关联网页中的首页关联网页一般会记载有重要的内容，例如图3所示的正文块，因此首页关联网页的重要性比较高，因此获知首页关联网页具有比较重要的意义。而不同的网站会采用不同的翻页结构，造成了首页关联网页的不同。例如，某些网站会采用第0页作为首页关联网页，某些网站会采用第1页作为首页关联网页，某些网站会采用最大页(例如图3所示的2100)作为首页关联网页，等等。

当然，上述首页关联网页只是作为示例，在实施本发明实施例时，可以根据实际情况将数字快替换为任一关联网页的标识获取对应的关联网页，本发明实施例对此不一一加以详述。

参照图5，示出了本发明一个实施例的一种识别网页URL中页码标识的方法实施例的步骤流程图，具体可以包括如下步骤：

步骤501，获取指定网页的页面元素中翻页特征anchor对应链接到的关联URL；

在本发明的一种优选实施例中，所述步骤501具体可以包括如下子步骤：

子步骤S51，使用翻页特征anchor在指定网页的DOM树节点中进行匹配；

子步骤S52，当匹配成功时，则从匹配成功的翻页特征anchor中获取关联URL。

步骤502，依据所述指定网页的URL和所述关联URL计算关联网页URL模式pattern；

在本发明的一种优选实施例中，所述步骤502具体可以包括如下子步骤：

子步骤S61，使用通配字符替换指定网页的URL中的数字块，获得第一特征URL前缀；其中，所述数字块为被间隔标识分割出的单个数字或多个数字；

子步骤S71，使用通配字符替换所述关联URL中的数字块，获得第二特征URL前缀；

在本发明实施例的一种优选示例中，所述子步骤S61进一步可以包括如下子步骤：

子步骤S611，采用相同的通配字符替换指定网页的URL中不同位置的数字块，获得第一特征URL前缀；

与子步骤S611相对应地，所述子步骤S71进一步可以包括如下子步骤：

在本发明的一种实施例中，所述子步骤S61进一步可以包括如下子步骤：

子步骤S612，分别采用不同的替换字符，替换指定网页的URL中不同位置的数字块，获得第一特征URL前缀；

与子步骤S612相对应地，所述子步骤S71进一步可以包括如下子步骤：

子步骤S712，分别采用与第一特征URL相同的通配字符替换所述关联URL在相同位置的数字块，获得第二特征URL前缀。

子步骤S81，当所述第一特征URL前缀与所述第二特征URL前缀相同时，将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式pattern。

步骤503，基于与指定网页对应的关联网页URL模式pattern，分别确定所述指定网页URL的页码特征部分以及所述关联URL中的页码特征部分；

通过对关联网页URL模式pattern中的共性部分进行结构分析，可以确定关联网页URL模式pattern中的页码特征部分，即翻页块，具体可以为多个关联网页URL模式pattern中位置相同但数字不同的数字块。

步骤504，比较所述指定网页URL与所述关联页URL的页码特征部分，提取不同数字标识部分识别为指定网页URL的页码标识。

在具体实现中，所述页码标识可以包括首页标识，所述首页标识可以包括0、1和/或当前关联网页中的最大数值。

在提取关联网页URL模式中的翻页块后可以将所述翻页块替换为首页标识获得首页关联网页的URL。

例如，对于上述示例的关联网页URL模式-http://bbs.XXX.com/forum-(\d+)-(\e+).html，在识别出(\e+)为翻页块，然后将翻页块替换为首页标识后，获得首页关联网页的URL-http://bbs.XXX.com/fomm-99-1.html。

本发明采用翻页特征anchor识别关联网页，识别准确率高，基于指定网页的URL中和关联URL计算出关联网页URL模式pattern，计算效率高，采用URL的共性部分进行比较，大幅提高召回率，在实际应用中可以识别90％以上的关联网页。

本发明使用通配字符替换数字块获得第一特征URL前缀和获得第二特征URL前缀，当所述第一特征URL前缀与所述第二特征URL前缀相同时，将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式，本发明采用URL的共性部分进行匹配，进一步提高了关联网页的识别准确率。

参照图6，示出了本发明一个实施例的一种关联网页数据库的建立方法实施例的步骤流程图，具体可以包括如下步骤：

步骤601，判断抓取到的网页是否包括关联网页URL模式；若是，则执行步骤602；

需要说明的是，搜索引擎从万维网上自动提取网页的功能可以是通过网络爬虫实现的。网络爬虫又称为网络蜘蛛，即Web Spider，网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面(通常是首页)开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

关联网页URL模式可以为翻页网页的共性部分Pattern，即长相或者功能类似的URL/网页聚在一起形成的集合。

在本发明的一种优选实施例中，所述步骤601具体可以包括如下子步骤：

子步骤S91，判断当前网页的页面元素中是否具有翻页特征字符串；若是，则提取所述翻页特征字符串链接的URL；

如图3所示，翻页块主要可以由翻页特征字符串(即翻页特征ancho)组成，而翻页特征字符串可以为用于标识翻页的页面元素。

在具体实现中，翻页特征字符串可以包括以下的一种或多种：

[<<]、[>>]、[< <]、[> >]、[《]、[》]、[>]、[<]、[下一页]、[上一页]、[上一]、[下一]、[next]、[末页]、[尾页]、[前页]、[后页]、[<上一页]、[<上一]、[下一>]、[下一页>]、[1...]。

当然，上述翻页特征字符串只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他翻页特征字符串，本发明实施例对此不加以限制。

需要说明的是，当前网页可以为被抓取到的网页。

在本发明的一种优选实施例中，所述子步骤S91进一步可以包括如下子步骤：

子步骤S911，采用翻页特征字符串在当前网页的DOM树节点中进行匹配；

子步骤S912，当匹配成功时，则判断当前网页具有翻页特征字符串。

子步骤S92，采用预置的替换字符替换当前网页的URL中的数字块，获得第一特征URL前缀；其中，所述数字块为被间隔标识分割出的单个数字或多个数字；

子步骤S93，采用预置的替换字符替换所述翻页特征字符串链接的URL中的数字块，获得第二特征URL前缀；

在本发明的一种实施例中，所述子步骤S92进一步可以包括如下子步骤：

子步骤S921，采用相同的替换字符替换当前网页的URL中不同位置的数字块，获得第一特征URL前缀；

与子步骤S921相对应地，所述子步骤S93进一步可以包括如下子步骤：

子步骤S931，采用相同的替换字符替换所述特征字符串链接的URL中不同位置的数字块，获得第二特征URL前缀。

子步骤S922，分别采用不同的替换字符，替换当前网页的URL中不同位置的数字块，获得第一特征URL前缀；

与子步骤S922相对应地，所述子步骤S93进一步可以包括如下子步骤：

子步骤S932，分别采用与第一特征URL相同的替换字符替换所述特征字符串链接的URL在相同位置的数字块，获得第二特征URL前缀。

子步骤S94，当所述第一特征URL前缀与所述第二特征URL前缀相同时，则判定抓取到的网页是否包括关联网页URL模式。

步骤602，获取所述关联网页URL模式；

在本发明的一种实施例中，所述步骤602具体可以包括如下子步骤：

子步骤S101，将所述第一特征URL前缀或第二特征URL前缀作为所述当前网页的对应的关联网页URL模式。

本发明在当前网页的页面元素中具有翻页特征字符串时，采用预置的替换字符替换当前网页的URL中的数字块，获得第一特征URL前缀，并采用预置的替换字符替换翻页特征字符串链接的URL中的数字块，获得第二特征URL前缀，当所述第一特征URL前缀与所述第二特征URL前缀相同时，将所述第一特征URL前缀或第二特征URL前缀作为所述当前网页的对应的关联网页URL模式，本发明采用翻页特征字符串进行识别关联网页，识别准确率高，采用URL的共性部分进行匹配，进一步提高了关联网页的识别准确率，使得召回率大幅提高，在实际应用中可以识别90％以上的关联网页。

步骤603，基于所述关联网页URL模式获取对应的关联网页；

在具体实现中，关联网页可以包括首页关联网页和其他关联网页，其中，首页关联网页一般会记载有重要的内容，例如图3所示的正文块，因此首页关联网页的重要性比较高，因此获知首页关联网页具有比较重要的意义。

在本发明的一种优选实施例中，所述步骤603具体可以包括如下子步骤：

子步骤S111，通过对关联网页URL模式中的共性部分进行结构分析，提取关联网页URL模式中的翻页块，将所述翻页块替换为首页标识获得首页关联网页的URL；其中，所述翻页块为多个关联网页URL模式中位置相同但数字不同的数字块；

子步骤S112，访问所述首页关联网页的URL获取所述首页关联网页。

本发明将关联网页URL模式的翻页块替换为首页标识获得首页关联网页的URL，同理，也可以将翻页块替换为其他挂链网页标识获得其他关联网页的URL，从而增加了关联网页的覆盖率，使得能够获取更加全面的关联网页，进而实现了细颗粒度的操作。

步骤604，采用所述关联网页URL模式对应的关联网页建立关联网页数据库。

在具体实现中，关联网页URL模式对应的关联网页可以包括首页关联网页和其他关联网页，可以是所有关联网页的全部，也可以是所有关联网页的部分，本发明实施例对此不加以限制。

作为一种优选示例，可以对蜘蛛抓取的网页文件进行数据处理，具体可以包括：

1、网页结构化。即关联网页的HTML代码删掉，提取出网页内容。

2、消噪。在网页结构化中，已经删掉了HTML代码，剩下了网页内容，那么消噪指的就是留下网页的主题内容，删掉没用的内容，比如版权。

3、查重。查找重复的网页与内容，如果找到重复的页面，就删除。

4、分词。提取出网页内容，然后分成N个词语，排列出来，存入索引库，同时也会计算这一个词在这个页面出现了多少次。

5、链接分析。查询页面的反向链接，导出链接有多少以及内链，然后给这个页面多少的权重等。

在进行了上边的数据处理之后，就可以把这些处理好的数据存储在关联网页数据库中。

参照图7，示出了本发明一个实施例的一种关联网页搜索方法实施例的步骤流程图，具体可以包括如下步骤：

步骤701，接收搜索请求；所述请求中包括搜索关键词；

搜索请求可以是指用户发出的对某搜索关键词进行相关联信息搜索的请求。例如，用户可以在浏览器地址栏、搜索栏、搜索引擎中的搜索关键字输入框中输入搜索关键词并按下回车键或点击搜索按钮，相当于接收到了用户的搜索请求。

步骤702，依据所述搜索关键词在预置的关联网页数据库中进行查找，获得与所述关键词匹配的网页；

在搜索引擎的后台预置有关联网页数据库，用于存放搜集到的关联网页的信息。所收集的信息一般是能表明关联网页内容(包括网页本身、网页的URL地址、构成网页的代码以及进出网页的连接)的关键词或者短语。

作为一种优选示例，首先可以把用户输入的搜索关键词切分为一个关键词序列，用q来进行表示，则用户搜索的关键词q被切分为q＝{q1，q2，q3，......，qn}。然后再根据用户查询方式，例如是所有词连在一起，还是中间有空格等，以及根据q中不同关键词的词性，来确定所需查询词中每一个词在查询结果的展示上所占有的重要性。当切分出搜索词集合q后，q中每个关键词所对应的URL排序——索引库，同时也根据用户的查询方式与词性计算出每个关键词在查询结果的展示上所占有的重要，那么只需要进行一点综合性的排序算法，即可以获得搜索结果。

在本发明的一种优选实施例中，所述关联网页数据库可以通过以下方式建立：

子步骤S101，判断抓取到的网页是否包括关联网页URL模式；若是，则执行子步骤S102；

在本发明的一种优选实施例中，所述子步骤S101具体可以包括如下子步骤：

子步骤S121，判断当前网页的页面元素中是否具有翻页特征字符串；若是，则提取所述翻页特征字符串链接的URL；

在本发明的一种优选实施例中，所述子步骤S121进一步可以包括如下子步骤：

子步骤S1211，采用翻页特征字符串在当前网页的DOM树节点中进行匹配；

子步骤S1212，当匹配成功时，则判断当前网页具有翻页特征字符串。

子步骤S122，采用预置的替换字符替换当前网页的URL中的数字块，获得第一特征URL前缀；其中，所述数字块为被间隔标识分割出的单个数字或多个数字；

子步骤S123，采用预置的替换字符替换所述翻页特征字符串链接的URL中的数字块，获得第二特征URL前缀；

在本发明的一种实施例中，所述子步骤S122进一步可以包括如下子步骤：

子步骤S1221，采用相同的替换字符替换当前网页的URL中不同位置的数字块，获得第一特征URL前缀；

与子步骤S1221相对应地，所述子步骤S123进一步可以包括如下子步骤：

子步骤S1231，采用相同的替换字符替换所述特征字符串链接的URL中不同位置的数字块，获得第二特征URL前缀。

子步骤S1222，分别采用不同的替换字符，替换当前网页的URL中不同位置的数字块，获得第一特征URL前缀；

与子步骤S1222相对应地，所述子步骤S123进一步可以包括如下子步骤：

子步骤S1232，分别采用与第一特征URL相同的替换字符替换所述特征字符串链接的URL在相同位置的数字块，获得第二特征URL前缀。

子步骤S124，当所述第一特征URL前缀与所述第二特征URL前缀相同时，则判定抓取到的网页是否包括关联网页URL模式。

子步骤S102，获取所述关联网页URL模式；

在本发明的一种实施例中，所述子步骤S102具体可以包括如下子步骤：

子步骤S131，将所述第一特征URL前缀或第二特征URL前缀作为所述当前网页的对应的关联网页URL模式。

子步骤S103，采用所述关联网页URL模式获取对应的关联网页；

在本发明的一种优选实施例中，所述子步骤S103具体可以包括如下子步骤：

子步骤S141，通过对关联网页URL模式中的共性部分进行结构分析，提取关联网页URL 模式中的翻页块，将所述翻页块替换为首页标识获得首页关联网页的URL；其中，所述翻页块为多个关联网页URL模式中位置相同但数字不同的数字块；

子步骤S142，访问所述首页关联网页的URL获取所述首页关联网页。

子步骤S104，采用所述关联网页URL模式对应的关联网页建立关联网页数据库。

步骤703，判断所述网页是否为关联网页；若是，则执行步骤706；

在具体实现中，判断所述网页是否包括关联网页URL模式即可判断所述网页是否为关联网页。即当所述网页包括关联网页URL模式时，判断所述网页为关联网页。

步骤704，返回所述网页及所述网页关联的首页信息。

本发明实施例可以存储有关联网页URL模式及其对应的网页的对应关系，只要查询所述网页的关联网页URL模式及其对应的网页的对应关系即可获得所述网页关联的首页。

当获得搜索结果后，搜索引擎即可以将搜索结果展示在用户阅览的界面上以供用户使用。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

参照图8，示出了本发明一个实施例的一种计算关联网页URL模式pattern的装置实施例1的结构框图，具体可以包括如下模块：

翻页特征anchor判断模块801，适于判断指定网页的页面元素中是否具有翻页特征anchor；若是，则调用关联URL提取模块802；

URL提取模块802，适于提取所述翻页特征anchor对应链接到的关联URL；

关联网页URL模式pattern计算模块803，适于根据所述指定网页的URL以及所述翻页特征anchor对应链接到的关联URL计算与所述指定网页对应的关联网页URL模式pattern。

在本发明的一种优选实施例中，所述翻页特征anchor判断模块801还可以适于：

采用翻页特征anchor在当前网页的DOM树节点中进行匹配；

当匹配成功时，则判断当前网页具有翻页特征anchor。

在本发明的一种优选实施例中，所述翻页特征anchor可以对应链接到一个或多个关联URL。

在本发明的一种优选实施例中，所述关联网页URL模式pattern计算模块803具体可以包括如下模块：

第一特征URL前缀获得模块，适于使用通配字符替换指定网页的URL中的数字块，获得第一特征URL前缀；其中，所述数字块为被间隔标识分割出的单个数字或多个数字；

第二特征URL前缀获得模块，适于使用通配字符替换所述关联URL中的数字块，获得第二特征URL前缀；

关联网页URL模式pattern获得模块，适于在所述第一特征URL前缀与所述第二特征URL前缀相同时，将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式pattern。

在本发明的一种优选实施例中，所述第一特征URL前缀获得模块还可以适于：

采用相同的通配字符替换指定网页的URL中不同位置的数字块，获得第一特征URL前缀；

所述第二特征URL前缀获得模块还可以适于：

采用相同的通配字符替换所述关联URL中不同位置的数字块，获得第二特征URL前缀。

分别采用不同的通配字符，替换指定网页的URL中不同位置的数字块，获得第一特征URL前缀；

第二特征URL前缀获得模块还可以适于：

分别采用与第一特征URL相同的通配字符替换所述关联URL在相同位置的数字块，获得第二特征URL前缀。

对于图8的装置实施例而言，由于其与图1的方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图9，示出了本发明一个实施例的计算一种关联网页URL模式pattern的装置施例2的结构框图，具体可以包括如下模块：

翻页特征anchor判断模块901，适于判断指定网页的页面元素中是否具有翻页特征anchor；若是，则调用关联URL提取模块902；

URL提取模块902，适于提取所述翻页特征anchor对应链接到的关联URL；

关联网页URL模式pattem计算模块903，适于根据所述指定网页的URL以及所述翻页特征anchor对应链接到的关联URL计算与所述指定网页对应的关联网页URL模式pattern；

首页关联网页URL获得模块904，适于通过对关联网页URL模式pattern中的共性部分进行结构分析，提取关联网页URL模式pattern中的翻页块，将所述翻页块替换为首页标识获得首页关联网页的URL；其中，所述翻页块为多个关联网页URL模式pattern中位置相同但数字不同的数字块。

对于图9的装置实施例而言，由于其与图4的方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的计算关联网页URL模式pattern的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图10示出了可以实现根据本发明的计算关联网页URL模式pattern的的计算设备，例如用户终端设备或应用服务器。该计算设备传统上包括处理器1010和以存储器1020形式的计算机程序产品或者计算机可读介质。存储器1020可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器1020具有用于执行上述方法中的任何方法步骤的程序代码1031的存储空间1030。例如，用于程序代码的存储空间1030可以包括分别用于实现上面的方法中的各种步骤的各个程序代码1031。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图11所述的便携式或者固定存储单元。该存储单元可以具有与图10的计算设备中的存储器1020类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码1031’，即可以由例如诸如1010之类的处理器读取的代码，这些代码当由计算设备运行时，导致该计算设备执行上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

一种计算关联网页URL模式pattern的方法，包括：

判断指定网页的页面元素中是否具有翻页特征anchor；若是，则提取所述翻页特征anchor对应链接到的关联URL；

根据所述指定网页的URL以及所述翻页特征anchor对应链接到的关联URL计算与所述指定网页对应的关联网页URL模式pattern。
如权利要求1所述的方法，其特征在于，所述判断指定网页的页面元素中是否具有翻页特征anchor的步骤包括：

采用翻页特征anchor在当前网页的DOM树节点中进行匹配；

当匹配成功时，则判断当前网页具有翻页特征anchor。
如权利要求1所述的方法，其特征在于，所述翻页特征anchor对应链接到一个或多个关联URL。
如权利要求1或2或3所述的方法，其特征在于，所述根据所述指定网页的URL以及所述关联页URL计算所述关联网页URL模式pattern的步骤进一步包括：

使用通配字符替换指定网页的URL中的数字块，获得第一特征URL前缀；其中，所述数字块为被间隔标识分割出的单个数字或多个数字；

使用通配字符替换所述关联URL中的数字块，获得第二特征URL前缀；

当所述第一特征URL前缀与所述第二特征URL前缀相同时，将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式pattern。
如权利要求4所述的方法，其特征在于，所述使用通配字符替换指定网页的URL中的数字块，获得第一特征URL前缀的步骤为：

采用相同的通配字符替换指定网页的URL中不同位置的数字块，获得第一特征URL前缀；

所述使用通配字符替换所述关联URL中的数字块，获得第二特征URL前缀的步骤为：

采用相同的通配字符替换所述关联URL中不同位置的数字块，获得第二特征URL前缀。
如权利要求5所述的方法，其特征在于，所述使用通配字符替换指定网页的URL中的数字块，获得第一特征URL前缀的步骤为：

分别采用不同的通配字符，替换指定网页的URL中不同位置的数字块，获得第一特征URL前缀；

所述使用通配字符替换所述关联URL中的数字块，获得第二特征URL前缀的步骤为：

分别采用与第一特征URL相同的通配字符替换所述关联URL在相同位置的数字块，获得第二特征URL前缀。
如权利要求1或2或3或5或6所述的方法，其特征在于，还包括：

通过对关联网页URL模式pattern中的共性部分进行结构分析，提取关联网页URL模式pattern中的翻页块，将所述翻页块替换为首页标识获得首页关联网页的URL；其中，所述翻页块为多个关联网页URL模式pattern中位置相同但数字不同的数字块。
如权利要求7所述的方法，其特征在于，所述首页标识包括0、1和/或当前关联网页中的最大数值。
一种识别网页URL中页码标识的方法，包括：

获取指定网页的页面元素中翻页特征anchor对应链接到的关联URL；

依据所述指定网页的URL和所述关联URL计算关联网页URL模式pattern；

基于与指定网页对应的关联网页URL模式pattern，分别确定所述指定网页URL的页码特征部分以及所述关联URL中的页码特征部分；

比较所述指定网页URL与所述关联页URL的页码特征部分，提取不同数字标识部分识别为指定网页URL的页码标识。
一种关联网页数据库的建立方法，包括：

判断抓取到的网页是否包括关联网页URL模式；若是，则获取所述关联网页URL模式；

基于所述关联网页URL模式获取对应的关联网页；

采用所述关联网页URL模式对应的关联网页建立关联网页数据库。
一种关联网页搜索方法，包括：

接收搜索请求；所述请求中包括搜索关键词；

依据所述搜索关键词在预置的关联网页数据库中进行查找，获得与所述关键词匹配的网页；

判断所述网页是否为关联网页；若是，则返回所述网页及所述网页关联的首页信息。
一种计算关联网页URL模式pattern的装置，包括：

翻页特征anchor判断模块，适于判断指定网页的页面元素中是否具有翻页特征anchor；若是，则调用关联URL提取模块；

URL提取模块，适于提取所述翻页特征anchor对应链接到的关联URL；

关联网页URL模式pattern计算模块，适于根据所述指定网页的URL以及所述翻页特征anchor对应链接到的关联URL计算与所述指定网页对应的关联网页URL模式pattern。
如权利要求12所述的装置，其特征在于，所述翻页特征anchor判断模块还适于：

采用翻页特征anchor在当前网页的DOM树节点中进行匹配；

当匹配成功时，则判断当前网页具有翻页特征anchor。
如权利要求12所述的装置，其特征在于，所述翻页特征anchor对应链接到一个或多个关联URL。
如权利要求12或13或14所述的装置，其特征在于，所述关联网页URL模式pattern计算模块包括：

第一特征URL前缀获得模块，适于使用通配字符替换指定网页的URL中的数字块，获得第一特征URL前缀；其中，所述数字块为被间隔标识分割出的单个数字或多个数字；

第二特征URL前缀获得模块，适于使用通配字符替换所述关联URL中的数字块，获得第二特征URL前缀；

关联网页URL模式pattem获得模块，适于在所述第一特征URL前缀与所述第二特征URL前缀相同时，将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式pattern。
如权利要求15所述的装置，其特征在于，所述第一特征URL前缀获得模块还适于：

采用相同的通配字符替换指定网页的URL中不同位置的数字块，获得第一特征URL前缀；

所述第二特征URL前缀获得模块还适于：

采用相同的通配字符替换所述关联URL中不同位置的数字块，获得第二特征URL前缀。
如权利要求16所述的装置，其特征在于，所述第一特征URL前缀获得模块还适于：

分别采用不同的通配字符，替换指定网页的URL中不同位置的数字块，获得第一特征URL前缀；

第二特征URL前缀获得模块还适于：

分别采用与第一特征URL相同的通配字符替换所述关联URL在相同位置的数字块，获得第二特征URL前缀。
如权利要求12或13或14或16或17所述的装置，其特征在于，还包括：

首页关联网页URL获得模块，适于通过对关联网页URL模式pattern中的共性部分进行结构分析，提取关联网页URL模式pattern中的翻页块，将所述翻页块替换为首页标识获得首页关联网页的URL；其中，所述翻页块为多个关联网页URL模式pattern中位置相同但数字不同的数字块。
如权利要求18所述的装置，其特征在于，所述首页标识包括0、1和/或当前关联网页中的最大数值。
如权利要求12所述的装置，其特征在于，还包括：

页码特征部分确定模块，适于基于与指定网页对应的关联网页URL模式pattern，分别确定所述指定网页URL的页码特征部分以及所述关联URL中的页码特征部分；

页码标识确定模块，适于比较所述指定网页URL与所述关联页URL的页码特征部分，提取不同数字标识部分识别为指定网页URL的页码标识。
如权利要求12所述的装置，其特征在于，还包括：

关联网页数据库建立模块，适于采用所述关联网页URL模式对应的关联网页建立关联网页数据库。
如权利要求21所述的装置，其特征在于，还包括：

搜索请求接收模块，适于接收搜索请求；所述请求中包括搜索关键词；

匹配网页获得模块，适于依据所述搜索关键词在预置的关联网页数据库中进行查找，获得与所述关键词匹配的网页；

多页关联网页判断模块，适于判断所述网页是否为关联网页；若是，则调用信息返回模块；

信息返回模块，适于返回所述网页及所述网页关联的首页信息。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算设备上运行时，导致所述计算设备执行根据权利要求1-8中的任一个所述的计算关联网页URL模式pattem的方法。
一种计算机可读介质，其中存储了如权利要求23所述的计算机程序。