CN108491420A

CN108491420A - 网页爬取的配置方法、应用服务器及计算机可读存储介质

Info

Publication number: CN108491420A
Application number: CN201810119441.1A
Authority: CN
Inventors: 蔡俊
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2018-09-04
Also published as: WO2019153603A1

Abstract

本发明公开了一种网页爬取的配置方法，所述方法包括：接收用户输入的爬取网址；设置爬取信息类型；设置爬取任务处理节点；从所述爬取网址的网页上的链接转入所述爬取任务处理节点；在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息。本发明还提供一种应用服务器及计算机可读存储介质。本发明提供的网页爬取的配置方法、应用服务器及计算机可读存储介质，可以灵活的对爬取深度进行控制，同时还可以在网页爬取的过程中，就能实现数据的归类整理，提高了整个数据爬取及使用的效能。

Description

网页爬取的配置方法、应用服务器及计算机可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种网页爬取的配置方法、应用服务器及计算机可读存储介质。

背景技术

网页爬取指网页搜索集子***中根据统一资源定位符(Uniform ResourceLocator,URL)完成一篇页面爬取的进程或者线程。对于搜索引擎来说，网页爬取即网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面(通常是首页)开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。然而目前的网页爬取过程中，特别是针对图片的爬取过程，虽然可以有效的爬取到目标图片，但是循环查找增加了服务器的负载，影响了爬取的效率，影响了用户体验。

发明内容

有鉴于此，本发明提出一种网页爬取的配置方法、应用服务器及计算机可读存储介质，可以灵活的对爬取深度进行控制，同时还可以在网页爬取的过程中，就能实现数据的归类整理，提高了整个数据爬取及使用的效能。

首先，为实现上述目的，本发明提出一种应用服务器，所述应用服务器包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的网页爬取的配置程序，所述网页爬取的配置程序被所述处理器执行时实现如下步骤：

接收用户输入的爬取网址；

设置爬取信息类型，其中，所述爬取信息类型包括文字、html、多媒体及照片中的至少一种或者多种；

设置爬取任务处理节点；

从所述爬取网址的网页上的链接转入所述爬取任务处理节点；及

在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息。

可选地，所述接收用户输入的爬取网址的步骤，包括：

建立关键文字信息与所述爬取网址的关联信息；

接收用户输入的关键文字信息；及

通过所述关键文字信息与所述关联信息获取所述关键文字信息对应的网址。

可选地，所述设置爬取任务处理节点的步骤，包括：

设置所述爬取网址代表的网站的访问层数，并根据所述爬取任务处理节点进行网页爬取。

可选地，所述网页爬取的配置程序被所述处理器执行时，还实现如下步骤：

设置爬取用途信息；及

根据所述爬取用途信息设定相应的存储空间；及

在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息的步骤之后，将所述相应信息存储至所述存储空间。

此外，为实现上述目的，本发明还提供一种网页爬取的配置方法，该方法应用于应用服务器，所述方法包括：

接收用户输入的爬取网址；

设置爬取任务处理节点；

可选地，所述接收用户输入的爬取网址的步骤，还包括：

建立关键文字信息与所述爬取网址的关联信息；

接收用户输入的关键文字信息；及

可选地，所述设置爬取任务处理节点的步骤，包括：

可选地，所述方法还包括步骤：

设置爬取用途信息；及

根据所述爬取用途信息设定相应的存储空间。

可选地，在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息的步骤之后，所述方法还包括步骤：

将所述相应信息存储至所述存储空间。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有网页爬取的配置程序，所述网页爬取的配置程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的网页爬取的配置方法的步骤。

相较于现有技术，本发明所提出的应用服务器、网页爬取的配置方法及计算机可读存储介质，首先，接收用户输入的爬取网址；其次，设置爬取信息类型；接着，设置爬取任务处理节点；然后，从所述爬取网址的网页上的链接转入所述爬取任务处理节点；最后，在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息。这样，可以避免现有技术爬取过程中，循环查找增加了服务器的负载的弊端。可以灵活的对爬取深度进行控制，同时还可以在网页爬取的过程中，就能实现数据的归类整理，提高了整个数据爬取及使用的效能。

附图说明

图1是本发明中应用服务器一可选的硬件架构的示意图；

图2是本发明网页爬取的配置程序第一实施例的程序模块图；

图3是本发明网页爬取的配置程序第二实施例的程序模块图；

图4为本发明网页爬取的配置方法第一实施例的流程图；

图5为本发明网页爬取的配置方法第二实施例的流程图；

图6为本发明网页爬取的配置方法第三实施例的流程图。

附图标记：

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是应用服务器1一可选的硬件架构的示意图。

所述应用服务器1可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备，该应用服务器1可以是独立的服务器，也可以是多个服务器所组成的服务器集群。

本实施例中，所述应用服务器1可包括，但不仅限于，可通过***总线相互通信连接存储器11、处理器12、网络接口13。

所述应用服务器1通过网络接口13连接网络，获取资讯。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

需要指出的是，图1仅示出了具有组件11-13的应用服务器1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述应用服务器1的内部存储单元，例如该应用服务器1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述应用服务器1的外部存储设备，例如该应用服务器1配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述应用服务器1的内部存储单元也包括其外部存储设备。本实施例中，所述存储器11通常用于存储安装于所述应用服务器1的操作***和各类应用软件，例如网页爬取的配置程序200的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述应用服务器1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述的网页爬取的配置程序200等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述应用服务器1与其他电子设备之间建立通信连接。

本实施例中，所述应用服务器1内安装并运行有所述网页爬取的配置程序200，当所述网页爬取的配置程序200运行时，所述应用服务器1首先，接收用户输入的爬取网址；其次，设置爬取信息类型；接着，设置爬取任务处理节点；然后，从所述爬取网址的网页上的链接转入所述爬取任务处理节点；最后，在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息。这样，可以避免现有技术爬取过程中，循环查找增加了服务器的负载的弊端。可以灵活的对爬取深度进行控制，同时还可以在网页爬取的过程中，就能实现数据的归类整理，提高了整个数据爬取及使用的效能。

至此，己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面，将基于上述应用环境和相关设备，提出本发明的各个实施例。

首先，本发明提出一种网页爬取的配置程序200。

参阅图2所示，是本发明网页爬取的配置程序200第一实施例的程序模块图。

本实施例中，所述的网页爬取的配置程序200包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本发明各实施例的网页爬取的配置操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，所述网页爬取的配置程序200可以被划分为一个或多个模块。例如，在图2中，所述的网页爬取的配置程序200可以被分割成接收模块201、第一设置模块202、第二设置模块203、链接处理模块204及信息爬取模块205。其中：

所述接收模块201，用于接收用户输入的爬取网址。具体地，所述接收模块201在预设网址栏接收用户输入的所述爬取网址。用户在终端设备的预设网址栏输入爬取网址。本实施例中，所述终端设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载装置等等的可移动设备，以及诸如数字TV、台式计算机、笔记本、服务器等等的固定终端。

本实施例中，所述接收模块201通过以下方式接收用户输入的爬取网址：

所述接收模块201，首先，建立关键文字信息与所述爬取网址的关联信息，然后，接收用户输入的关键文字信息；最后，通过所述关键文字信息与所述关联信息获取所述关键文字信息对应的网址。

在本实施例中，爬取网址可以是用户在所述终端设备的预设的网址栏中进行输入。而在其他实施方式中，可以不必用户去记住相应的网址，而只需要用户输入与相应网址关联的关键文字信息即可，比如通过键盘输入或者语音输入“新浪”两字，那么根据预设的关联信息自动输入“新浪”对应的网址。

所述第一设置模块202，用于设置爬取信息类型。本实施例中，所述爬取信息类型包括文字、超文本标识语言(Hyper Text Markup Language,HTML)、多媒体及照片中的至少一种或者多种。

在本实施例中，针对依据所述爬取信息类型进行信息获取的方式又会根据不同的爬取信息类型采取不同的方式：

针对文字类型相应信息的获取，其一般是由专业厂商提供的软件生成的文档呈现，厂商都会提供相应的文本提取接口。爬取程序只需要调用这些插件的接口，就可以轻松的提取文档中的文本信息和文件其它相关的信息。

而HTML等文档不一样，HTML有一套自己的语法，通过不同的命令标识符来表示不同的字体、颜色、位置等版式，如：style＝“color:#fff；font-weght；bold”等，提取文本信息时需要把这些标识符都过滤掉，然后再去获取内容信息。

对于多媒体、图片类型，一般是通过链接的锚文本(即，链接文本)和相关的文件注释来判断这些文件的内容，进而获取相应的内容。

所述第二设置模块203，用于设置爬取任务处理节点。本实施例中，所述设置爬取任务处理节点具体是指：设置所述爬取网址代表的网站的访问层数。

在本实施方式中，从爬取效能出发，不可能抓取所有的网页，那么可以对爬取的网站设置爬取任务的处理节点，即设置访问的层数(也可以称之为爬取深度)。例如，A为起始网页，属于0层，B、C、D、E、F属于A链接下的第1层，G、H属于第1层链接下的第2层，I属于第2层链接下的第3层。如果网络蜘蛛设置的访问层数为2的话，网页I是不会被访问到的。

这样，通过设置爬取任务处理节点，即设置所述爬取网址代表的网站的访问层数，可以灵活的对爬取深度进行控制，提高了整个数据爬取的效能。

所述链接处理模块204，用于从所述爬取网址的网页上的链接转入所述爬取任务处理节点。

所述信息爬取模块205，用于在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息。

通过上述程序模块201-205，本发明所提出的网页爬取的配置程序200，首先，接收用户输入的爬取网址；其次，设置爬取信息类型；接着，设置爬取任务处理节点；然后，从所述爬取网址的网页上的链接转入所述爬取任务处理节点；最后，在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息。这样，可以避免现有技术爬取过程中，循环查找增加了服务器的负载的弊端。可以灵活的对爬取深度进行控制，同时还可以在网页爬取的过程中，就能实现数据的归类整理，提高了整个数据爬取及使用的效能。

进一步地，基于本发明基于网页爬取的配置程序200的上述第一实施例，提出本发明的第二实施例(如图3所示)。本实施例中，所述的网页爬取的配置程序200还包括存储模块206，本实施例中：

所述第二设置模块203，还用于设置爬取用途信息；并根据所述爬取用途信息设定相应的存储空间。比如爬取的用途是做用户行为分析，或者数据修改等，以便对爬取用途进行分类整理，提升效率。具体地，可以对每个不同的爬取用途信息设置标识号，这样通过标识号就能区分不同的爬取用途信息。

在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息的步骤之后，所述存储模块206，用于将所述相应信息存储至所述存储空间。

在本实施例中，在进行爬取流程的同时，设置爬取用途信息，并建立以用途为名的存储空间，在爬取流程完成后，可以将获取的信息存储至所述存储空间。比如此次爬取的用途是做用户行为分析，那么在爬取流程结束后，可将数据存储至用户行为分析的存储空间，以供后续用户行为的应用直接调用，如此，便于数据归类以及数据的管理，提高了整个数据爬取的效能。

通过上述程序模块201-206，本发明所提出的网页爬取的配置程序200，通过设置爬取用途信息；并根据所述爬取用途信息设定相应的存储空间，以及将所述相应信息存储至所述存储空间。实现了数据归类以及数据的管理。

此外，本发明还提出一种网页爬取的配置方法。

参阅图4所示，是本发明网页爬取的配置方法第一实施例的实施流程示意图。在本实施例中，根据不同的需求，图4所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S401，接收用户输入的爬取网址。具体地，所述应用服务器1在预设网址栏接收用户输入的所述爬取网址。用户在终端设备的预设网址栏输入爬取网址。具体地，所述接收用户输入的爬取网址的具体步骤将在本发明网页爬取的配置方法第三实施例(图6)进行详述。本实施例中，所述终端设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载装置等等的可移动设备，以及诸如数字TV、台式计算机、笔记本、服务器等等的固定终端。

步骤S402，设置爬取信息类型。本实施例中，所述爬取信息类型包括文字、超文本标识语言(Hyper Text Markup Language,HTML)、多媒体及照片中的至少一种或者多种。

步骤S403，设置爬取任务处理节点。本实施例中，所述设置爬取任务处理节点具体是指：设置所述爬取网址代表的网站的访问层数。

步骤S404，从所述爬取网址的网页上的链接转入所述爬取任务处理节点。

步骤S405，在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息。

通过上述步骤S401-405，本发明所提出的网页爬取的配置方法，首先，接收用户输入的爬取网址；其次，设置爬取信息类型；接着，设置爬取任务处理节点；然后，从所述爬取网址的网页上的链接转入所述爬取任务处理节点；最后，在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息。这样，可以避免现有技术中爬取过程中，循环查找增加了服务器的负载的弊端。可以灵活的对爬取深度进行控制，同时还可以在网页爬取的过程中，就能实现数据的归类整理，提高了整个数据爬取及使用的效能。

参阅图5所示，是本发明网页爬取的配置方法第二实施例的实施流程示意图。在本实施例中，根据不同的需求，图5所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S501，接收用户输入的爬取网址。具体地，所述应用服务器1在预设网址栏接收用户输入的所述爬取网址。用户在终端设备的预设网址栏输入爬取网址。具体地，所述接收用户输入的爬取网址的具体步骤将在本发明网页爬取的配置方法第三实施例(图6)进行详述。本实施例中，所述终端设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载装置等等的可移动设备，以及诸如数字TV、台式计算机、笔记本、服务器等等的固定终端。

步骤S502，设置爬取信息类型。本实施例中，所述爬取信息类型包括文字、超文本标识语言(Hyper Text Markup Language,HTML)、多媒体及照片中的至少一种或者多种。

步骤S503，设置爬取任务处理节点。本实施例中，所述设置爬取任务处理节点具体是指：设置所述爬取网址代表的网站的访问层数。

步骤S504，从所述爬取网址的网页上的链接转入所述爬取任务处理节点。

步骤S505，在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息。

步骤S506，设置爬取用途信息。比如爬取的用途是做用户行为分析，或者数据修改等，以便对爬取用途进行分类整理，提升效率。具体地，可以对每个不同的爬取用途信息设置标识号，这样通过标识号就能区分不同的爬取用途信息。

步骤S507，根据所述爬取用途信息设定相应的存储空间。

步骤S508，将所述相应信息存储至所述存储空间。

通过上述步骤S501-508，本发明所提出的网页爬取的配置方法，在爬取流程结束后，可将数据存储至用户行为分析的存储空间，以供后续用户行为的应用直接调用，如此，便于数据归类以及数据的管理，提高了整个数据爬取的效能。

参阅图6所示，是本发明网页爬取的配置方法第三实施例的实施流程示意图。在本实施例中，根据不同的需求，图6所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

在本实施例中，所述接收用户输入的爬取网址的步骤，具体包括：

步骤S601，在预设网址栏接收用户输入的所述爬取网址。

步骤S602，建立关键文字信息与所述爬取网址的关联信息。

步骤S603，接收用户输入的关键文字信息。

步骤S604，通过所述关键文字信息与所述关联信息获取所述关键文字信息对应的网址。

在本实施例中，爬取网址可以是用户在所述终端设备的预设的网址栏中进行输入。而在其他实施方式中，可以不必用户去记住相应的网址，而只需要用户输入与相应网址关联的关键文字信息即可，比如通过键盘输入或者语音输入“新浪”两字，那么根据预设的关联信息自动输入“新浪”对应的网址。本实施例中，所述终端设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载装置等等的可移动设备，以及诸如数字TV、台式计算机、笔记本、服务器等等的固定终端。

通过上述步骤S601-604，本发明所提出的网页爬取的配置方法，可以通过用户输入的关键文字信息，快速获取爬取网址，提高了整个数据爬取的效能。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网页爬取的配置方法，应用于应用服务器，其特征在于，所述方法包括步骤：

接收用户输入的爬取网址；

设置爬取任务处理节点；

2.如权利要求1所述的网页爬取的配置方法，其特征在于，所述接收用户输入的爬取网址的步骤，还包括：

建立关键文字信息与所述爬取网址的关联信息；

接收用户输入的关键文字信息；及

3.如权利要求1所述的网页爬取的配置方法，其特征在于，所述设置爬取任务处理节点的步骤，包括：

4.如权利要求1所述的网页爬取的配置方法，其特征在于，所述方法还包括步骤：

设置爬取用途信息；及

根据所述爬取用途信息设定相应的存储空间。

5.如权利要求4所述的网页爬取的配置方法，其特征在于，在所述爬取任务处理节点上依据所述爬取信息类型爬取相应信息的步骤之后，所述方法还包括步骤：

将所述相应信息存储至所述存储空间。

6.一种应用服务器，其特征在于，所述应用服务器包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的网页爬取的配置程序，所述网页爬取的配置程序被所述处理器执行时实现如下步骤：

接收用户输入的爬取网址；

设置爬取任务处理节点；

7.如权利要求6所述的应用服务器，其特征在于，所述接收用户输入的爬取网址的步骤，包括：

建立关键文字信息与所述爬取网址的关联信息；

接收用户输入的关键文字信息；及

8.如权利要求6所述的应用服务器，其特征在于，所述设置爬取任务处理节点的步骤，包括：

9.如权利要求6所述的应用服务器，其特征在于，所述网页爬取的配置程序被所述处理器执行时，还实现如下步骤：

设置爬取用途信息；及

根据所述爬取用途信息设定相应的存储空间；及

10.一种计算机可读存储介质，所述计算机可读存储介质存储有网页爬取的配置程序，所述网页爬取的配置程序可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-5中任一项所述的网页爬取的配置方法的步骤。