WO2019071896A1

WO2019071896A1 - 网页地址去重方法、电子设备及计算机可读存储介质

Info

Publication number: WO2019071896A1
Application number: PCT/CN2018/076170
Authority: WO
Inventors: 李芳�; 王建明; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-10-13
Filing date: 2018-02-10
Publication date: 2019-04-18
Also published as: CN107844527A

Abstract

一种网页地址去重方法，该方法包括步骤：依次读取一条待处理网页地址（如URL地址），于改进广义表中搜索该待处理网页地址（S31）；若所述改进广义表中没有搜索到该待处理网页地址，则将该待处理网页地址***至所述改进广义表，并将该待处理网页地址存入待抓取队列（S32）；若所述改进广义表中搜索到该待处理网页地址，则停止将该待处理网页地址存入待抓取队列（S33）。通过上述方法可以提升网页地址去重效率。

Description

网页地址去重方法、电子设备及计算机可读存储介质

本申请要求于2017年10月13日提交中国专利局、申请号为201710954304.5、发明名称为“网页地址去重方法、电子设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及计算机信息技术领域，尤其涉及一种网页地址去重方法、电子设备及计算机可读存储介质。

背景技术

目前，网络爬虫常用的URL去重方案有基于数据库的去重方案和基于内存链表的去重方案，这些方案在URL库容量不大的情况下有不错的效果。但是，现有的分布式爬虫面向的URL库容量通常非常大，需要URL去重能够持久保持高效运作，而上述常用的URL去重方案在爬虫程序运行较长时间后会有效率剧降或任务瘫痪的风险。故，现有技术中的URL去重方法设计不够合理，亟需改进。

发明内容

有鉴于此，本申请提出一种网页地址去重方法、电子设备及计算机可读存储介质，通过采用基于内存改进的广义表进行URL去重作业，在时间效率上大大优于传统的URL去重方案。

首先，为实现上述目的，本申请提出一种电子设备，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页地址去重***，所述网页地址去重***被所述处理器执行时实现如下步骤：

依次读取一条待处理网页地址，于改进广义表中搜索该待处理网页地址，其中，所述改进广义表中的每个节点权重相同，且所述改进广义表中的每个节点包括一个判断当前节点是否为根节点的标志位；

若所述改进广义表中没有搜索到该待处理网页地址，则将该待处理网页地址***至所述改进广义表，并将该待处理网页地址存入待抓取队列；及

若所述改进广义表中搜索到该待处理网页地址，则停止将该待处理网页地址存入待抓取队列。

优选地，所述标志位包括第一数值和第二数值；

如果检测到当前节点的标志位为第一数值，则确定该当前节点为根节点，从该当前节点开始遍历，确定为动态***操作的出发节点；及

如果检测到当前节点的标志位为第二数值，则确定该当前节点不是根节点，继续遍历下一个节点。

优选地，若所述改进广义表的当前节点为根节点，则该当前节点的数据结构包括指针初始化操作和第一构造函数，该第一构造函数在该当前节点的新建节点对象没有传递指定参数时，默认将该新建节点对象的数据域属性设置为指定字符。

优选地，若所述改进广义表的当前节点为非根节点，则该当前节点的数据结构包括指针初始化操作和第二构造函数，该第二构造函数将该当前节点的新建节点对象传递的指定数据值赋值给该新建节点对象的数据域。

优选地，所述将该待处理网页地址***至所述改进广义表包括：将该待处理网页地址对应的字符串分割为单个的字母，所述改进广义表中每个节点存储一个字母。

此外，为实现上述目的，本申请还提供一种网页地址去重方法，该方法应用于电子设备，所述方法包括：

优选地，所述标志位包括第一数值和第二数值；

优选地，若所述改进广义表的当前节点为根节点，则该当前节点的数据结构包括指针初始化操作和第一构造函数，该第一构造函数在该当前节点的新建节点对象没有传递指定参数时，默认将该新建节点对象的数据域属性设置为指定字符；及

若所述改进广义表的当前节点为非根节点，则该当前节点的数据结构包括指针初始化操作和第二构造函数，该第二构造函数将该当前节点的新建节点对象传递的指定数据值赋值给该新建节点对象的数据域。

进一步地，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有网页地址去重***，所述网页地址去重***可被至少一个处理器执行，以使所述至少一个处理器执行如上述的网页地址去重方法的步骤。

相较于现有技术，本申请所提出的电子设备、网页地址去重方法及计算机可读存储介质，通过采用基于内存改进的广义表进行URL去重作业，在时间效率上大大优于传统的URL去重方案。进一步地，在空间效率上有很高的空间可行性，能够持久保持去重作业的高效运作，没有明显的瓶颈制约。

附图说明

图1是本申请电子设备一可选的硬件架构的示意图；

图2是本申请电子设备中网页地址去重***一实施例的程序模块示意图；

图3为本申请网页地址去重方法一实施例的实施流程示意图。

附图标记：

电子设备	2
存储器	21
处理器	22
网络接口	23
网页地址去重***	20
搜索模块	201
***模块	202
去重模块	203
流程步骤	S31-S33

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

进一步需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

首先，本申请提出一种电子设备2。

参阅图1所示，是本申请电子设备2一可选的硬件架构的示意图。本实施例中，所述电子设备2可包括，但不限于，可通过***总线相互通信连接存储器21、处理器22、网络接口23。需要指出的是，图1仅示出了具有组件21-23的电子设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述电子设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备，该电子设备2可以是独立的服务器，也可以是多个服务器所组成的服务器集群。

所述存储器21至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器21可以是所述电子设备2的内部存储单元，例如该电子设备2的硬盘或内存。在另一些实施例中，所述存储器21也可以是所述电子设备2的外部存储设备，例如该电子设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括所述电子设备2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器21通常用于存储安装于所述电子设备2的操作***和各类应用软件，例如所述网页地址去重***20的程序代码等。此外，所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子设备2的总体操作，例如执行与所述电子设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的网页地址去重***20等。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述电子设备2与其他电子设备之间建立通信连接。例如，所述网络接口23用于通过网络将所述电子设备2与外部数据平台相连，在所述电子设备2与外部数据平台之间的建立数据传输通道和通信连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、 Wi-Fi等无线或有线网络。

至此，己经详细介绍了本申请各个实施例的应用环境和相关设备的硬件结构和功能。下面，将基于上述应用环境和相关设备，提出本申请的各个实施例。

参阅图2所示，是本申请电子设备2中网页地址去重***20一实施例的程序模块图。本实施例中，所述的网页地址去重***20可以被分割成一个或多个程序模块，所述一个或者多个程序模块被存储于所述存储器21中，并由一个或多个处理器(本实施例中为所述处理器22)所执行，以完成本申请。例如，在图2中，所述的网页地址去重***20可以被分割成搜索模块201、***模块202、以及去重模块203。本申请所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述网页地址去重***20在所述电子设备2中的执行过程。以下将就各程序模块201-203的功能进行详细描述。

所述搜索模块201，用于依次读取一条待处理网页地址(如URL地址)，于改进广义表中搜索该待处理网页地址。其中，在本实施例中，可以从网页日志中依次读取一条URL(Universal Resource Locator，统一资源定位符)。

优选地，在本实施例中，采用基于内存改进的广义表进行URL去重作业，所述改进广义表中的每个节点(如普通节点和元素节点)权重相同(地位相等)，且所述改进广义表中的每个节点增加一个判断当前节点是否为根节点(root节点)的标志位。其中，所述标志位用于确定每次动态***操作的出发节点。

在本实施例中，每个节点都有判断当前节点是否为根节点的标志位(如isRoot标志位)，所述标志位包括第一数值(如true，代表1)和第二数值(如false，代表0)。如果检测到当前节点的标志位为第一数值(如true，代表1)，则确定该当前节点为根节点，从该当前节点开始遍历，确定为动态***操作的出发节点；如果检测到当前节点的标志位为第二数值(如false，代表0)，则确定该当前节点不是根节点，继续遍历下一个节点。

需要说明的是，传统的广义表包含不同权重的节点(即地位不同的节点)，如普通节点和元素节点，因此，在进行广义表的动态增加、删除和修改时需要判断节点的类型，会耗费较多时间。本实施例中改进后的广义表每个节点地位相等，因此无需额外的判断，能够高效地进行动态扩展，适应去重的需求。更具体而言，本实施例通过在每个节点中增加一个isRoot标志位，仅在每个节点增加了一点内存空间，属于空间换时间的一种方案，在时间效率上有大幅提高。

举例而言，在本实施例中，所述改进广义表的节点数据结构设置如下所示。

在本实施例中，若所述改进广义表的当前节点为根节点(isRoot＝true)，则该当前节点的数据结构包括，但不限于，指针初始化操作(head＝tail＝null)和第一构造函数(this.data＝'？')，该第一构造函数在该当前节点的新建节点对象(如GLNode对象)没有传递指定参数时，默认将该新建节点对象的数据域属性(即data属性)设置为指定字符'？'。若所述改进广义表的当前节点为非根节点(isRoot＝false)，则该当前节点的数据结构包括，但不限于，指针初始化操作(head＝tail＝null)和第二构造函数(this.data＝data)，该第二构造函数将该当前节点的新建节点对象(如GLNode对象)传递的指定数据值(如数据参数data)赋值给该新建节点对象的数据域。

所述***模块202，用于若所述改进广义表中没有搜索到该待处理网页地址，则将该待处理网页地址***至所述改进广义表，并将该待处理网页地址存入待抓取队列，排队等待网络爬虫进行网页内容的抓取作业。

优选地，在本实施例中，所述将该待处理网页地址***至所述改进广义表包括：将该待处理网页地址对应的字符串(如URL字符串)分割为单个的字母，所述改进广义表中每个节点存储一个字母。

所述去重模块203，用于若所述改进广义表中搜索到该待处理网页地址，则停止将该待处理网页地址存入待抓取队列，避免重复进行网页内容抓取作业。

通过上述程序模块201-203，本申请所提出的网页地址去重***20，通过采用基于内存改进的广义表进行URL去重作业，在时间效率上大大优于传统的URL去重方案。进一步地，在空间效率上有很高的空间可行性，能够持久保持去重作业的高效运作，没有明显的瓶颈制约。

此外，本申请还提出一种网页地址去重方法。

参阅图3所示，是本申请网页地址去重方法一实施例的实施流程示意图。在本实施例中，根据不同的需求，图3所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S31，依次读取一条待处理网页地址(如URL地址)，于改进广义表中搜索该待处理网页地址。其中，在本实施例中，可以从网页日志中依次读取一条URL(Universal Resource Locator，统一资源定位符)。

在本实施例中，若所述改进广义表的当前节点为根节点(isRoot＝true)，则该当前节点的数据结构包括，但不限于，指针初始化操作(head＝tail＝null) 和第一构造函数(this.data＝'？')，该第一构造函数在该当前节点的新建节点对象(如GLNode对象)没有传递指定参数时，默认将该新建节点对象的数据域属性(即data属性)设置为指定字符'？'。若所述改进广义表的当前节点为非根节点(isRoot＝false)，则该当前节点的数据结构包括，但不限于，指针初始化操作(head＝tail＝null)和第二构造函数(this.data＝data)，该第二构造函数将该当前节点的新建节点对象(如GLNode对象)传递的指定数据值(如数据参数data)赋值给该新建节点对象的数据域。

步骤S32，若所述改进广义表中没有搜索到该待处理网页地址，则将该待处理网页地址***至所述改进广义表，并将该待处理网页地址存入待抓取队列，排队等待网络爬虫进行网页内容的抓取作业。

步骤S33，若所述改进广义表中搜索到该待处理网页地址，则停止将该待处理网页地址存入待抓取队列，避免重复进行网页内容抓取作业。

通过上述步骤S31-S33，本申请所提出的网页地址去重方法，通过采用基于内存改进的广义表进行URL去重作业，在时间效率上大大优于传统的URL去重方案。进一步地，在空间效率上有很高的空间可行性，能够持久保持去重作业的高效运作，没有明显的瓶颈制约。

进一步地，为实现上述目的，本申请还提供一种计算机可读存储介质(如ROM/RAM、磁碟、光盘)，所述计算机可读存储介质存储有网页地址去重***20，所述网页地址去重***20可被至少一个处理器22执行，以使所述至少一个处理器22执行如上所述的网页地址去重方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上参照附图说明了本申请的优选实施例，并非因此局限本申请的权利范围。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本申请的范围和实质，可以有多种变型方案实现本申请，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种电子设备，其特征在于，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页地址去重***，所述网页地址去重***被所述处理器执行时实现如下步骤：

依次读取一条待处理网页地址，于改进广义表中搜索该待处理网页地址，其中，所述改进广义表中的每个节点权重相同，且所述改进广义表中的每个节点包括一个判断当前节点是否为根节点的标志位；

若所述改进广义表中没有搜索到该待处理网页地址，则将该待处理网页地址***至所述改进广义表，并将该待处理网页地址存入待抓取队列；及

若所述改进广义表中搜索到该待处理网页地址，则停止将该待处理网页地址存入待抓取队列。
如权利要求1所述的电子设备，其特征在于，所述标志位包括第一数值和第二数值；

如果检测到当前节点的标志位为第一数值，则确定该当前节点为根节点，从该当前节点开始遍历，确定为动态***操作的出发节点；及

如果检测到当前节点的标志位为第二数值，则确定该当前节点不是根节点，继续遍历下一个节点。
如权利要求2所述的电子设备，其特征在于，若所述改进广义表的当前节点为根节点，则该当前节点的数据结构包括指针初始化操作和第一构造函数，该第一构造函数在该当前节点的新建节点对象没有传递指定参数时，默认将该新建节点对象的数据域属性设置为指定字符。
如权利要求2所述的电子设备，其特征在于，若所述改进广义表的当前节点为非根节点，则该当前节点的数据结构包括指针初始化操作和第二构造函数，该第二构造函数将该当前节点的新建节点对象传递的指定数据值赋值给该新建节点对象的数据域。
如权利要求3所述的电子设备，其特征在于，若所述改进广义表的当前节点为非根节点，则该当前节点的数据结构包括指针初始化操作和第二构造函数，该第二构造函数将该当前节点的新建节点对象传递的指定数据值赋值给该新建节点对象的数据域。
如权利要求2或3所述的电子设备，其特征在于，所述将该待处理网页地址***至所述改进广义表包括：将该待处理网页地址对应的字符串分割为单个的字母，所述改进广义表中每个节点存储一个字母。
如权利要求4或5所述的电子设备，其特征在于，所述将该待处理网页地址***至所述改进广义表包括：将该待处理网页地址对应的字符串分割为单个的字母，所述改进广义表中每个节点存储一个字母。
一种网页地址去重方法，应用于电子设备，其特征在于，所述方法包括：

依次读取一条待处理网页地址，于改进广义表中搜索该待处理网页地址，其中，所述改进广义表中的每个节点权重相同，且所述改进广义表中的每个节点包括一个判断当前节点是否为根节点的标志位；

若所述改进广义表中没有搜索到该待处理网页地址，则将该待处理网页地址***至所述改进广义表，并将该待处理网页地址存入待抓取队列；及

若所述改进广义表中搜索到该待处理网页地址，则停止将该待处理网页地址存入待抓取队列。
如权利要求8所述的网页地址去重方法，其特征在于，所述标志位包括第一数值和第二数值；

如果检测到当前节点的标志位为第一数值，则确定该当前节点为根节点，从该当前节点开始遍历，确定为动态***操作的出发节点；及

如果检测到当前节点的标志位为第二数值，则确定该当前节点不是根节点，继续遍历下一个节点。
如权利要求9所述的网页地址去重方法，其特征在于，若所述改进广义表的当前节点为根节点，则该当前节点的数据结构包括指针初始化操作和第一构造函数，该第一构造函数在该当前节点的新建节点对象没有传递指定参数时，默认将该新建节点对象的数据域属性设置为指定字符。
如权利要求9所述的网页地址去重方法，其特征在于，若所述改进广义表的当前节点为非根节点，则该当前节点的数据结构包括指针初始化操作和第二构造函数，该第二构造函数将该当前节点的新建节点对象传递的指定数据值赋值给该新建节点对象的数据域。
如权利要求10所述的网页地址去重方法，其特征在于，若所述改进广义表的当前节点为非根节点，则该当前节点的数据结构包括指针初始化操作和第二构造函数，该第二构造函数将该当前节点的新建节点对象传递的指定数据值赋值给该新建节点对象的数据域。
如权利要求9或10所述的网页地址去重方法，其特征在于，所述将该待处理网页地址***至所述改进广义表包括：将该待处理网页地址对应的字符串分割为单个的字母，所述改进广义表中每个节点存储一个字母。
如权利要求11或12所述的网页地址去重方法，其特征在于，所述将该待处理网页地址***至所述改进广义表包括：将该待处理网页地址对应的字符串分割为单个的字母，所述改进广义表中每个节点存储一个字母。
一种计算机可读存储介质，所述计算机可读存储介质存储有网页地址去重***，所述网页地址去重***可被至少一个处理器执行，所述网页地址去重***被所述处理器执行时实现如下步骤：

依次读取一条待处理网页地址，于改进广义表中搜索该待处理网页地址，其中，所述改进广义表中的每个节点权重相同，且所述改进广义表中的每个节点包括一个判断当前节点是否为根节点的标志位；

若所述改进广义表中没有搜索到该待处理网页地址，则将该待处理网页地址***至所述改进广义表，并将该待处理网页地址存入待抓取队列；及

若所述改进广义表中搜索到该待处理网页地址，则停止将该待处理网页地址存入待抓取队列。
如权利要求15所述的计算机可读存储介质，其特征在于，所述标志位包括第一数值和第二数值；

如果检测到当前节点的标志位为第一数值，则确定该当前节点为根节点，从该当前节点开始遍历，确定为动态***操作的出发节点；及

如果检测到当前节点的标志位为第二数值，则确定该当前节点不是根节点，继续遍历下一个节点。
如权利要求16所述的计算机可读存储介质，其特征在于，若所述改进广义表的当前节点为根节点，则该当前节点的数据结构包括指针初始化操作和第一构造函数，该第一构造函数在该当前节点的新建节点对象没有传递指定参数时，默认将该新建节点对象的数据域属性设置为指定字符。
如权利要求16或17所述的计算机可读存储介质，其特征在于，若所述改进广义表的当前节点为非根节点，则该当前节点的数据结构包括指针初始化操作和第二构造函数，该第二构造函数将该当前节点的新建节点对象传递的指定数据值赋值给该新建节点对象的数据域。
如权利要求16或17所述的计算机可读存储介质，其特征在于，所述将该待处理网页地址***至所述改进广义表包括：将该待处理网页地址对应的字符串分割为单个的字母，所述改进广义表中每个节点存储一个字母。
如权利要求18所述的计算机可读存储介质，其特征在于，所述将该待处理网页地址***至所述改进广义表包括：将该待处理网页地址对应的字符串分割为单个的字母，所述改进广义表中每个节点存储一个字母。