CN107220250A

CN107220250A - 一种模板配置方法及***

Info

Publication number: CN107220250A
Application number: CN201610162744.2A
Authority: CN
Inventors: 曹六; 曹六一; 张丹; 杨建武
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2016-03-21
Filing date: 2016-03-21
Publication date: 2017-09-29

Abstract

本发明提供了一种模板配置方法及***，该方法包括：获取网页的URL地址，根据所述URL地址加载对应的网页；当接收到用户对所述网页触发的选取操作时，提取所述选取操作对应的网页内容；查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置，根据查找到的位置生成所述网页内容对应的抽取表达式；将所述抽取表达式传递给预设模板树中当前配置节点的Xpath属性，实现网页的模板配置。本发明解决了现有技术中手工配置模板过程费时费力，而且需要进行重复修正的问题，实现了模板的自动配置，为数据抽取、采集提供了有力的技术支持。

Description

一种模板配置方法及***

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种模板配置方法及***。

背景技术

数据抽取是数据采集中的一个重要环节，所有采集到的原始网页需要经过数据抽取才能获得有效的数据，如标题、正文等。基于模板的数据抽取是根据特定的网页模板抽取网页内容的技术。

模板由抽取表达式并通过XML或者JSON等组织而成。常用的抽取表达式有正则表达式与XPATH。其中，正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些符合某个模式的文本。XPATH，是XML路径语言，它是一种用来确定XML文档中某部分的位置的语言。程序通过读取模板，依照模板中的表达式或路径语言即可提取出网页中的所需内容。

现有技术中都是采用手工配置模板。但是，由于手工配置模板是一个复杂而又繁琐的工作，不同的网页其结构千差万别，因而需要配置各种不同的模板。因此，在采集网页的种类比较多的时候，手工配置往往成为整个工程的瓶颈所在，费时费力，而且手工配置的模板不可避免会出现纰漏，又没有工具去预览模板抽取结果，导致模板在配置过程中需要进行重复修正。

发明内容

鉴于上述问题，本发明提出了一种模板配置方法及***，解决了现有技术中手工配置模板过程费时费力，而且需要进行重复修正的问题，实现了模板的自动配置。

根据本发明的第一方面，提供了一种模板配置方法，该方法包括：

获取网页的URL地址，根据所述URL地址加载对应的网页；

当接收到用户对所述网页触发的选取操作时，提取所述选取操作对应的网页内容；

查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置，根据查找到的位置生成所述网页内容对应的抽取表达式；

将所述抽取表达式传递给预设模板树中当前配置节点的Xpath属性，实现网页的模板配置。

其中，所述查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置，根据查找到的位置生成所述网页内容对应的抽取表达式，进一步包括：

获取所述网页对应的树状结构；

逐层遍历所述网页对应的树状结构，查找所述网页节点在所述树状结构中的位置；

根据查找到的位置，计算所述网页节点的Xpath路径和/或相对路径；

根据所述Xpath路径和/或相对路径生成所述网页内容对应的抽取表达式。

其中，所述根据查找到的位置，计算所述网页节点的相对路径，进一步包括：

获取所述网页节点的父节点的Xpath路径；

根据所述网页节点的Xpath路径和所述网页节点的父节点的Xpath路径计算该网页节点的相对路径。

其中，在所述获取网页的URL地址，根据所述URL地址加载对应的网页之后，所述方法还包括：

在所述预设模板树中选取需要进行配置节点，将其作为当前配置节点；

其中，所述预设模板树包括ROOT节点、列表节点、元素节点、属性节点和文本节点；

每一节点采用KEY-VALUE格式；

每一节点的VALUE包括type、xpath、pattr和child属性。

其中，所述方法进一步包括：

采用得到的模板对所述网页进行数据提取，并将数据提取结果进行展示。

根据本发明的第二方面，提供了一种模板配置***，该***包括：

加载单元，用于获取网页的URL地址，根据所述URL地址加载对应的网页；

确定单元，用于当接收到用户对所述加载单元记载的网页触发的选取操作时，确定所述选取操作对应的网页内容；

生成单元，用于查找所述确定单元确定出的网页内容对应的网页节点在所述网页对应的树状结构中的位置，根据查找到的位置生成所述网页内容对应的抽取表达式；

传输单元，用于将所述生成单元生成的抽取表达式传递给预设模板树中当前配置节点的Xpath属性，实现网页的模板配置。

其中，所述生成单元，进一步包括：

获取模块，用于获取所述网页对应的树状结构；

查找模块，用于逐层遍历所述网页对应的树状结构，查找所述网页节点在所述树状结构中的位置；

计算模块，用于根据查找到的位置，计算所述网页节点的Xpath路径和/或相对路径；

生成模块，用于根据所述Xpath路径和/或相对路径生成所述网页内容对应的抽取表达式。

其中，所述计算模块，具体用于获取所述网页节点的父节点的Xpath路径，根据所述网页节点的Xpath路径和所述网页节点的父节点的Xpath路径计算该网页节点的相对路径。

其中，所述***还包括：

选取单元，用于在所述获取网页的URL地址，根据所述URL地址加载对应的网页之后，在所述预设模板树中选取需要进行配置节点，将其作为当前配置节点；

每一节点采用KEY-VALUE格式；

每一节点的VALUE包括type、xpath、pattr和child属性。

其中，所述***还包括：

展示单元，用于采用得到的模板对所述网页进行数据提取，并将数据提取结果进行展示。

本发明的有益效果为：

本发明提供的模板配置方法及***，通过URL地址加载对应的网页，根据选取的网页内容对应的网页节点在加载的网页对应的树状结构中的位置，生成网页内容对应的抽取表达式，并将得到的抽取表达式传递给预设模板树中当前配置节点的Xpath属性，实现网页的模板配置。本发明解决了现有技术中手工配置模板过程费时费力，而且需要进行重复修正的问题，实现了模板的自动配置，为数据抽取、采集提供了有力的技术支持。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明一个实施例提出的模板配置方法的流程图；

图2为本发明实施例提出的模板配置方法中步骤S13的细分流程图；

图3为本发明一个实施例提出的模板配置***的结构示意图；

图4为本发明实施例提出的模板配置***中生成单元的具体结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

需要说明的是，本发明提供的模板配置方法及***，采用B/S(browser/server，浏览器/服务器)架构，服务端采用django实现，WEB界面端采用HTML以及JQUERY实现，模板等数据的存储使用MYSQL数据库。

图1示出了本发明实施例的模板配置方法的流程图。

参照图1，本发明实施例提出的模板配置方法，具体包括以下步骤：

S11、获取网页的URL地址，根据所述URL地址加载对应的网页。

统一资源***(Uniform Resoure Locator，URL)是对可以从互联网上所获取到资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有唯一的URL，它包含的信息能够指出文件的位置以及浏览器对该文件的处理方法。

在实际应用中，可通过用户输入的方式实现特定URL地址的获取。***提供统一的WEB界面，该界面展示有输入框，通过该输入框接收用户输入的特定URL，并对其进行自动加载，得到对应的网页。

可理解的，通过用户输入的方式实现特定URL地址的获取方式仅是举例说明，特定URL地址的获取包括多种实现方式，如通过网络抓取的方式获取某一网页的URL及该网页所包括的URL等，本领域技术人员需要根据实际应用进行设置，对此本发明实施例不作具体限定。

其中，URL地址对应网页的加载，具体为，首先通过服务器端进行下载，并将javascript脚本去除，并返回给配置界面通过iframe加载出来。

S12、当接收到用户对所述网页触发的选取操作时，提取所述选取操作对应的网页内容。

在实际应用中，用户触发的选取操作可通过鼠标选取、键盘选取或手势选取的方式实现。本领域技术人员需要根据实际应用进行设置，对此本发明实施例不作具体限定。

S13、查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置，根据查找到的位置生成所述网页内容对应的抽取表达式。

可理解的是，任何HTML页面均可以解析成为DOM树状结构，XPATH即为DOM树中从根节点到选中节点的路径。

S14、将所述抽取表达式传递给预设模板树中当前配置节点的Xpath属性，实现网页的模板配置。

其中，预设模板树为预先配置的。具体的，通过将预设模板结构定义为JSON结构，自然即具有了树的性质，然后将预设模板通过JQUERY中的jstree技术在HTML网页画出树，即得到预设模板树。可以通过鼠标对这颗树进行节点的添加、删除等编辑操作。

本发明实施例提供的模板配置方法，通过URL地址加载对应的网页，根据选取的网页内容对应的网页节点在加载的网页对应的树状结构中的位置，生成网页内容对应的抽取表达式，并将得到的抽取表达式传递给预设模板树中当前配置节点的Xpath属性，实现了模板的自动配置，为数据抽取、采集提供了有力的技术支持。

在本发明的另一实施例中，步骤S13，如图2所示，进一步包括以下步骤：

S131获取所述网页对应的树状结构。

S132逐层遍历所述网页对应的树状结构，查找所述网页节点在所述树状结构中的位置。

S133根据查找到的位置，计算所述网页节点的Xpath路径和/或相对路径。

进一步地，步骤S133中的根据查找到的位置，计算所述网页节点的相对路径，进一步包括以下图中未示出的步骤：A1、获取所述网页节点的父节点的Xpath路径；A2、根据所述网页节点的Xpath路径和所述网页节点的父节点的Xpath路径计算该网页节点的相对路径。

S134根据所述Xpath路径和/或相对路径生成所述网页内容对应的抽取表达式。

需要说明的是，本实施例中，使用XPATH作为主抽取表达式，采用正则表达式作为辅助抽取表达式，辅助抽取表达式只对属性节点或者文本节点有效。抽取时首先使用主抽取表达式抽取，如果辅助表达式不空且满足节点类型要求则继续使用辅助抽取表达式继续抽取。

本实施例中，XPATH抽取表达式的计算，具体如下：

获取所述网页对应的树状结构，从网页节点沿着树状结构向上回溯，即可以获得该网页节点的XPATH路径。根据模板的定义非ROOT节点直接子孩子节点还需要根据模板中对应的父节点xpath属性计算其相对路径。

具体的，非ROOT直接子孩子节点C的相对路径计算方法如下：

1)求节点C父节点的绝对路径。假设父节点A为ROOT节点的直接子孩子，那么xpath即为其绝对路径，否则从父节点开始向上回溯直到ROOT节点的直接子孩子节点，从该节点开始将路径上所有节点的xpath拼接起来即求得了父节点A的绝对路径。

2)求节点C相对路径，根据求得的节点C的绝对路径与节点A的绝对路径，取其公共部分，从公共部分以后部分即为相对路径。

进一步地，在所述获取网页的URL地址，根据所述URL地址加载对应的网页之后，所述方法还包括：在所述预设模板树中选取需要进行配置节点，将其作为当前配置节点；

本实施例中，在获取到被配置网页的URL地址，完成该网页的加载与显示之后，通过鼠标在预设模板树中选取一个需要进行配置节点，将其作为当前配置节点，然后在加载网页中选取需要抽取的网页节点，自动计算该网页节点的XPATH路径与相对路径，并自动将该值传递给预设模板树中被选中当前配置节点的xpath属性，实现节点的自动配置。

每一节点采用KEY-VALUE格式；

每一节点的VALUE包括type、xpath、pattr和child属性。

本实施例中，预设模板树采用JSON格式组织。预设模板树中包括多个节点，每个采用KEY-VALUE对的形式实现。KEY-VALUE对为一组<key，抽取表达式>。节点分为五种类型，分别为ROOT节点、列表节点、元素节点、属性节点、文本节点。每个节点的VALUE由type、xpath、pattr、child组成，结构如下：

其中，type为整数类型，标识该节点类型；xpath为字符串，为抽取表达式，这里采用XPATH；pattr为字典，标识多种辅助抽取表达式；child为列表，标识该节点的孩子节点。

在模板中，ROOT节点为JSON结构的根节点，有且只有一个。ROOT节点的xpath、pattr均为空。列表节点child属性可以包含的孩子节点类型为列表节点、元素节点、属性节点、文本节点；元素节点child属性可以包含的孩子节点类型为列表节点、元素节点、属性节点、文本节点；属性节点以及文本节点child属性为空，即不可包含孩子节点。

ROOT节点的直接子孩子节点的xpath路径为绝对路径，非ROOT节点的直接孩子节点的子节点的xpath路径为相对路径。

进一步地，本实施例提供的模板配置方法，进一步包括以下步骤：

本实施例还提供了模板抽取结果预览功能。自动获取配置好的模板与配置该模板时提供的URL，并采用得到的模板对对应的网页进行数据抽取，并将结果反馈给前端页面进行展示。

此外，本发明实施例提供方的模板配置方法还提供对已配置模板的存储与修改功能，对外提供应用程序编程接口API供采集程序使用模板。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

图3示出了本发明实施例的模板配置***的结构示意图。

参照图3，本发明实施例的模板配置***，具体包括加载单元301、确定单元302、生成单元303以及传输单元304，其中：

所述加载单元301，用于获取网页的URL地址，根据所述URL地址加载对应的网页；

所述确定单元302，用于当接收到用户对所述加载单元记载的网页触发的选取操作时，确定所述选取操作对应的网页内容；

所述生成单元303，用于查找所述确定单元确定出的网页内容对应的网页节点在所述网页对应的树状结构中的位置，根据查找到的位置生成所述网页内容对应的抽取表达式；

所述传输单元304，用于将所述生成单元生成的抽取表达式传递给预设模板树中当前配置节点的Xpath属性，实现网页的模板配置。

在本发明的另一实施例中，如图4所示，所述生成单元303，进一步包括获取模块3031、查找模块3032、计算模块3033以及生成模块3034：

所述获取模块3031，用于获取所述网页对应的树状结构；

所述查找模块3032，用于逐层遍历所述网页对应的树状结构，查找所述网页节点在所述树状结构中的位置；

所述计算模块3033，用于根据查找到的位置，计算所述网页节点的Xpath路径和/或相对路径；

所述生成模块3034，用于根据所述Xpath路径和/或相对路径生成所述网页内容对应的抽取表达式。

在本发明实施例中，所述计算模块，具体用于获取所述网页节点的父节点的Xpath路径，根据所述网页节点的Xpath路径和所述网页节点的父节点的Xpath路径计算该网页节点的相对路径。

进一步地，所述模板配置***还包括附图中未示出的选取单元：所述选取单元，用于在所述获取网页的URL地址，根据所述URL地址加载对应的网页之后，在所述预设模板树中选取需要进行配置节点，将其作为当前配置节点；

其中，所述预设模板树包括ROOT节点、列表节点、元素节点、属性节点和文本节点；每一节点采用KEY-VALUE格式；每一节点的VALUE包括type、xpath、pattr和child属性。

本实施例中，预设模板树采用JSON格式组织。预设模板树中包括多个节点，每个采用KEY-VALUE对的形式实现。KEY-VALUE对为一组<key，抽取表达式>。节点分为五种类型，分别为ROOT节点、列表节点、元素节点、属性节点、文本节点。每个节点的VALUE由type、xpath、pattr、child组成，其中，type为整数类型，标识该节点类型；xpath为字符串，为抽取表达式，这里采用XPATH；pattr为字典，标识多种辅助抽取表达式；child为列表，标识该节点的孩子节点。

进一步地，所述模板配置***还包括附图中未示出的展示单元：所述展示单元，用于采用得到的模板对所述网页进行数据提取，并将数据提取结果进行展示。

对于***实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

综上所述，本发明实施例提供的模板配置方法及***，通过URL地址加载对应的网页，根据选取的网页内容对应的网页节点在加载的网页对应的树状结构中的位置，生成网页内容对应的抽取表达式，并将得到的抽取表达式传递给预设模板树中当前配置节点的Xpath属性，实现网页的模板配置。本发明解决了现有技术中手工配置模板过程费时费力，而且需要进行重复修正的问题，实现了模板的自动配置，为数据抽取、采集提供了有力的技术支持。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的单元可以合并为一个单元，也可以进一步拆分成多个子模块。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种模板配置方法，其特征在于，该方法包括：

获取网页的URL地址，根据所述URL地址加载对应的网页；

2.根据权利要求1所述的方法，其特征在于，所述查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置，根据查找到的位置生成所述网页内容对应的抽取表达式，进一步包括：

获取所述网页对应的树状结构；

3.根据权利要求2所述的方法，其特征在于，所述根据查找到的位置，计算所述网页节点的相对路径，进一步包括：

获取所述网页节点的父节点的Xpath路径；

4.根据权利要求2或3所述的方法，其特征在于，在所述获取网页的URL地址，根据所述URL地址加载对应的网页之后，所述方法还包括：

每一节点采用KEY-VALUE格式；

每一节点的VALUE包括type、xpath、pattr和child属性。

5.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

6.一种模板配置***，其特征在于，该***包括：

7.根据权利要求6所述的***，其特征在于，所述生成单元，进一步包括：

获取模块，用于获取所述网页对应的树状结构；

8.根据权利要求7所述的***，其特征在于，所述计算模块，具体用于获取所述网页节点的父节点的Xpath路径，根据所述网页节点的Xpath路径和所述网页节点的父节点的Xpath路径计算该网页节点的相对路径。

9.根据权利要求7或8所述的***，其特征在于，所述***还包括：

每一节点采用KEY-VALUE格式；

每一节点的VALUE包括type、xpath、pattr和child属性。

10.根据权利要求6所述的***，其特征在于，所述***还包括：