CN106649337A

CN106649337A - 识别网页栏目的方法及装置

Info

Publication number: CN106649337A
Application number: CN201510726360.4A
Authority: CN
Inventors: 侯明午
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2017-05-10

Abstract

本发明公开了一种识别网页栏目的方法及装置，涉及互联网技术领域，为解决无法准确识别网页栏目的问题而发明。本发明的方法包括：通过网络爬虫工具对目标页面进行N次爬取，其中N为大于或等于1的正整数；从历次采集的页面代码中提取超链接；统计同一个超链接在N次爬取过程中出现的总次数；若总次数等于N的倍数，则确定超链接指向的页面内容为网页栏目。本发明主要应用于对门户网站首页进行网页栏目识别中。

Description

识别网页栏目的方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种识别网页栏目的方法及装置。

背景技术

网页栏目是指由网页中的点击控件所链接的、具有一定主题性和时效性的特定页面内容。实际生活中，点击控件多以字符串或图片的形式出现，当用户触发点击控件后，浏览器跳转到该控件所链接的二级页面，显示对应的网页栏目内容。通常情况下，网页栏目可以从主题、内容来源(本站或第三方)、所属站点等维度进行分类，不同类别的网页栏目之间既具有相对的独立性，又在一些情况下存在交叉关系。

网站分析的基础在于对网站层级结构的爬取，而网页栏目作为网站层级结构的血肉，自然是网站分析的核心对象。现有对网页栏目的识别主要是通过分析统一资源定位符(Uniform Resource Locator，简称URL)实现的。包括网页栏目在内的每个页面内容都对应有一个URL，在进行网页栏目识别时，需要将URL端口号之后的路径部分提取出来进行路径特征分析。对于站点而言，由于网页栏目与非网页栏目的存储路径有所差异，因此通过分析路径特征的方式可以实现对网页栏目的识别。

但是上述识别网页栏目的方式并不是绝对准确的。如前所述，这种方式需要以站点对包括网页栏目、广告在内的所有页面内容进行明确的路径划分为前提条件，如果网页栏目与其他页面内容的路径相同或相似，那么就无法通过URL中的路径特征对网页栏目进行识别。因此，当URL的路径特征与网页栏目之间不具有完全的对应关系时，如何找出一种替代方案对网页栏目进行有效识别，就成为一个亟待解决的问题。

发明内容

本发明提供了一种识别网页栏目的方法及装置，能够解决无法准确识别网页栏目的问题。

为解决上述问题，第一方面，本发明提供了一种识别网页栏目的方法，该方法包括：

通过网络爬虫工具对目标页面进行N次爬取，其中N为大于或等于1的正整数；

从历次采集的页面代码中提取超链接；

统计同一个超链接在N次爬取过程中出现的总次数；

若所述总次数等于N的倍数，则确定所述超链接指向的页面内容为网页栏目。

第二方面，本发明提供了一种识别网页栏目的装置，该装置包括：

采集单元，用于通过网络爬虫工具对目标页面进行N次爬取，其中N为大于或等于1的正整数；

提取单元，用于从所述采集单元历次采集的页面代码中提取超链接；

统计单元，用于统计所述提取单元提取的同一个超链接在N次爬取过程中出现的总次数；

确定单元，用于当所述统计单元统计的所述总次数等于N的倍数时，确定所述超链接指向的页面内容为网页栏目。

本发明提供的识别网页栏目的方法及装置，能够通过网络爬虫工具对目标页面进行多次爬取，并获取多次爬取到的超链接。然后判断获取超链接的总次数是否等于N的倍数，如果结果为是，则确定超链接指向的页面内容为网页栏目。由于网页栏目相对广告、通知等其他页面内容更加固定，网站不会在短时间内改变超链接指向的页面内容，因此与现有技术相比，本发明可以通过比较获得同一页面内容的次数是否小于爬取次数的方式，对网页栏目进行有效识别。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本实施例提供的一种识别网页栏目的方法的流程图；

图2示出了本实施例提供的另一种识别网页栏目的方法的流程图；

图3示出了本实施例提供的一种识别网页栏目的装置的结构示意图；

图4示出了本实施例提供的另一种识别网页栏目的装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

请参考图1，其示出了本实施例提供的一种识别网页栏目的方法的流程图。如图1所示，识别网页栏目的方法可以包括以下步骤：

101、通过网络爬虫工具对目标页面进行N次爬取。

网络爬虫(又被称为网页蜘蛛、网络机器人或网页追逐者)，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。其中，N可以为大于或等于1的正整数。

在本实施例中，进行爬取的时机可以为随机的，也可以为用户设置的，或者还可以是在网络较为空闲时进行爬取等。

102、从历次采集的页面代码中提取超链接。

103、统计同一个超链接在N次爬取过程中出现的总次数。

在一次爬取过程中，如果同一个超链接指向的页面内容只位于页面的一个位置上，则网络爬虫在一次爬取过程中，可以从该网页中爬取到一次超链接，即在一次爬取过程中该超链接出现了1次，此时，N次爬取过程中出现的总次数应为N次。如果同一个超链接指向的页面内容位于页面的M个位置上，则网络爬虫在一次爬取过程中，可以从该网页中爬取到M次超链接，即在一次爬取过程中该超链接出现了M次，此时，N次爬取过程中出现的总次数应为M*N次。

104、若总次数等于N的倍数，则确定超链接指向的页面内容为网页栏目。

由于网页栏目在页面上不会发生变化，因此，可以将页面上不经常发生变化的超链接指向的页面内容确定为网页栏目。

可以理解，若总次数等于N的倍数，则可以说明该超链接指向的页面内容不经常发生变动。由此，可以将总次数等于N的倍数的超链接指向的页面内容确定为网页栏目。

本实施例提供的识别网页栏目的方法，能够通过网络爬虫工具对目标页面进行多次爬取，并获取多次爬取到的超链接。然后判断获取超链接的总次数是否等于N的倍数，如果结果为是，则确定超链接指向的页面内容为网页栏目。由于网页栏目相对广告、通知等其他页面内容更加固定，网站不会在短时间内改变超链接指向的页面内容，因此与现有技术相比，本发明可以通过比较获得同一页面内容的次数是否小于爬取次数的方式，对网页栏目进行有效识别。

本实施例提供另一种识别网页栏目的方法，该方法是对图1所示的方法的进一步扩展和优化。请参考图2，其示出了本实施例提供的另一种识别网页栏目的方法的流程图。如图2所示，图1所示的步骤104进一步可以包括步骤201：

201、若总次数等于N，则确定超链接指向的页面内容为网页栏目。

可选的，N的倍数不限于为N的一倍，即N，还可以为N的其他整数倍，如，2N、3N等。如果总次数为2N，则可以说明同一个超链接指向的页面内容在网页中位于两个位置上，且在每次爬去过程中该超链接出现的次数为2。其他情况类似，在这里不一一赘述。

进一步地，如图2所示，图1所示的步骤101“通过网络爬虫工具对目标页面进行N次爬取”可以包括步骤202和步骤203。

202、设定时间间隔T。

203、以时间间隔T为周期，对目标页面进行N次爬取。

在本实施例中，T可以取6小时、12小时、24小时等，具体可以根据实际需要进行设定。

进一步地，如图2所示，图1所示的步骤101“通过网络爬虫工具对目标页面进行N次爬取”还可以包括步骤204。

204、采用不同的爬虫方式对目标页面进行N次爬取。

爬虫方式原理上可以包括但不限于以下两种方式：广度优先爬取和深度优先爬取。不同的爬取方式获得的爬取结果的准确性不同。

在本实施例中，可以但不限于通过上述两种爬取方式中的至少一种。如，可以采用单一爬取方式，可以包括：只使用广度优先爬取，或者，只使用深度优先爬取等；另外，还可以采用混合爬取方式，可以包括：先使用广度优先爬取后使用深度优先爬取，或者，先使用深度优先爬取后使用广度优先爬取等。爬取方式具体可以根据实际需要进行设置，在此不作赘述。

对于不同结构的网站，采用单一爬取方式获得的爬取结果可能更准确。如，对同层级结构的网站，例如门户网站等，使用广度优先爬取方式进行爬取得到的爬取结果可能更准确。而对于层级结构网站，例如垂直搜索网站等，使用深度优先爬取方式进行爬取得到的爬取结果可能更准确。

在无法确定网站层级结构的情况下，可以但不限于采用混合爬取方式进行爬取。

另外，采用混合爬取方式，可以弥补单一爬取方式对爬取结果的影响，使爬取结果的准确性更高。因为少爬取到一次也会导致总次数不等于N的倍数，这会直接导致识别结果的准确性。

进一步地，如图2所示，在图1所示的步骤104“确定超链接指向的页面内容为网页栏目”之后，还可以包括步骤205至步骤206。

205、将确定为网页栏目的页面内容添加到网页栏目候选集合中。

206、通过预设的内容特征规则，从网页栏目候选集合中选取预定种类的网页栏目。

在本实施例中，可以设置预定种类的网页栏目的内容特征规则。如，可以设置预定种类的网页栏目对应的预定关键词、预定超链接文本长度等至少一项特征。在本实施例中，以同时包括上述两项特征为例进行说明。在获取到网页栏目候选集合后，可以提取网页栏目候选集合中包括的网页栏目的关键词、超链接文本长度等，确定提取的关键词是否为预定关键词，同时，还可以确定提取的超链接文本长度，是否为预定超链接文本长度。如果提取的关键词是预定关键词，且提取的超链接文本长度为预定超链接文本长度，则确定该网页栏目为预定种类的网页栏目。

为了实现上述方法实施例，本实施例提供一种与上述方法实施例对应的装置实施例。请参考图3，其示出了本实施例提供的一种识别网页栏目的装置的结构示意图。该装置与图1或图2所示的方法对应。如图3所示，识别网页栏目的装置可以包括：

采集单元301，用于通过网络爬虫工具对目标页面进行N次爬取，其中N为大于或等于1的正整数；

提取单元302，用于从采集单元301历次采集的页面代码中提取超链接；

统计单元303，用于统计提取单元302提取的同一个超链接在N次爬取过程中出现的总次数；

确定单元304，用于当统计单元303统计的总次数等于N的倍数时，确定超链接指向的页面内容为网页栏目。

进一步地，图3所示的确定单元304，用于当总次数等于N时，确定超链接指向的页面内容为网页栏目。

进一步地，图3所示的采集单元301，用于：

设定时间间隔T；

以时间间隔T为周期，对目标页面进行N次爬取。

进一步地，图3所示的采集单元301，用于采用不同的爬虫方式对目标页面进行N次爬取。

进一步地，请参考图4，其示出了本实施例提供的另一种识别网页栏目的装置的结构示意图。

如图4所示，该装置进一步包括：

添加单元401，用于在确定单元304确定超链接指向的页面内容为网页栏目之后，将确定为网页栏目的页面内容添加到网页栏目候选集合中；

选取单元402，用于通过预设的内容特征规则，从添加单元401获得的网页栏目候选集合中选取预定种类的网页栏目。

本实施例提供的识别网页栏目的装置，能够通过网络爬虫工具对目标页面进行多次爬取，并获取多次爬取到的超链接。然后判断获取超链接的总次数是否等于N的倍数，如果结果为是，则确定超链接指向的页面内容为网页栏目。由于网页栏目相对广告、通知等其他页面内容更加固定，网站不会在短时间内改变超链接指向的页面内容，因此与现有技术相比，本实施例可以通过比较获得同一页面内容的次数是否小于爬取次数的方式，对网页栏目进行有效识别。

识别网页栏目的装置包括处理器和存储器，上述采集单元、提取单元、统计单元和确定单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现对网页栏目的准确识别。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：通过网络爬虫工具对目标页面进行N次爬取，其中N为大于或等于1的正整数；从历次采集的页面代码中提取超链接；统计同一个超链接在N次爬取过程中出现的总次数；若总次数等于N的倍数，则确定超链接指向的页面内容为网页栏目。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种识别网页栏目的方法，其特征在于，包括：

从历次采集的页面代码中提取超链接；

统计同一个超链接在N次爬取过程中出现的总次数；

2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

若所述总次数等于N，则确定所述超链接指向的页面内容为网页栏目。

3.根据权利要求1所述的方法，其特征在于，所述通过网络爬虫工具对目标页面进行N次爬取，包括：

设定时间间隔T；

以所述时间间隔T为周期，对所述目标页面进行N次爬取。

4.根据权利要求1所述的方法，其特征在于，所述通过网络爬虫工具对目标页面进行N次爬取，包括：

采用不同的爬虫方式对所述目标页面进行N次爬取。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在所述确定所述超链接指向的页面内容为网页栏目之后，所述方法进一步包括：

将确定为网页栏目的页面内容添加到网页栏目候选集合中；

通过预设的内容特征规则，从网页栏目候选集合中选取预定种类的网页栏目。

6.一种识别网页栏目的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述确定单元，用于当所述总次数等于N时，确定所述超链接指向的页面内容为网页栏目。

8.根据权利要求6所述的装置，其特征在于，所述采集单元，用于：

设定时间间隔T；

以所述时间间隔T为周期，对所述目标页面进行N次爬取。

9.根据权利要求6所述的装置，其特征在于，所述采集单元，用于采用不同的爬虫方式对所述目标页面进行N次爬取。

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述装置进一步包括：

添加单元，用于在所述确定单元确定所述超链接指向的页面内容为网页栏目之后，将确定为网页栏目的页面内容添加到网页栏目候选集合中；

选取单元，用于通过预设的内容特征规则，从所述添加单元获得的网页栏目候选集合中选取预定种类的网页栏目。