CN109086450B

CN109086450B - 一种Web深网查询接口检测方法

Info

Publication number: CN109086450B
Application number: CN201810971193.3A
Authority: CN
Inventors: 于富财; 涂轶文; 章俊; 费高雷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2021-08-27
Anticipated expiration: 2038-08-24
Also published as: CN109086450A

Abstract

本发明公开了一种Web深网查询接口检测方法，包括以下步骤：S1、输入网页URL链接地址；S2、进行网页渲染，通过布局渲染引擎，将HTML可视标签的显示方式转化为盒模型；S3、进行布局分块；S4、进行分块剪枝；S5、进行分块重构；S6、输出交互接口。本发明主要利用了网页数据的布局和样式特征，对网页数据进行区域分块，并通过制定相应的处理规则，最终实现网页交互接口的定位；本发明提出了一种组合接口结构特征和文本特征的改进方法，改进了单方面依赖结构特征进行分类，而导致分类准确率不高或适应性不强的问题。在实验测试中，网页交互接口定位方法达到了很高的定位正确性，而改进的接口分类特征集则达到了较高的分类效果。

Description

一种Web深网查询接口检测方法

技术领域

本发明涉及一种Web深网查询接口检测方法。

背景技术

随着互联网的飞速发展，互联网已经和人们的日常生活息息相关。而为了满足人们日益增长的生活需要，互联网也得到了强劲的发展动力，呈现出越来越多的网络信息。据2003年的网络规模研究报告显示：网络中存在超过20亿GB的数据，而且处于持续快速增长的态势。如何有效发掘并利用这些Web信息，是互联网数据挖掘的重要课题。

根据互联网数据的获取难度，可以将网页信息划分为两大类：浅网(Surface Web)和深网(Deep Web,Invisible Web)。Surface Web是指通过传统搜索引擎能够检索到的那部分Web信息，这部分Web信息通常是静态的，并且常以超链接的形式镶嵌在其它Web页面中。深网信息主要指传统搜索引擎不能发现和检索的那部分网页信息。通常来说，深网信息主要包括了以下四个方面：第一，存在于站点页面后台数据库(Web Database,WDB)中的信息。这类信息必须通过填写查询表单，并向站点页面提交特定查询后，由站点后台动态生成；第二，缺乏超链接指向的Web页面。由于缺乏超链接指向，故而传统搜索引擎不能够索引到，这类Web页面据统计大约占整个比例的21.3％；第三，被限制访问的内容。这类Web页面可能由于各种政策的规定不能访问，或者需要用户注册权限才能访问；第四，Web中无法访问的非网页文件。主要包含图片文件、PDF文件以及Word文档等。

按照获取深网信息方式的不同，可以将深网数据挖掘可以分为两种形式：

(1)深网数据集成。这种方式主要应用到数据集成的相关技术。

深网数据集成主要分为三个主要阶段：WDB查询接口集成阶段，WDB查询提交阶段以及WDB查询结果处理阶段。WDB查询接口集成阶段：通过改进的传统网络爬虫，发现并获取WDB查询接口，接着对查询接口进行理解并提取模式信息，并对来自同一领域不同的WDB查询接口模式进行匹配，集成同一领域的统一的集成查询接口。WDB查询提交阶段：网络用户通过填写这个集成的查询接口，后台选择待查询的WDB，并将填写的查询条件转换为对应WDB的查询条件，然后分别向选择的WDB提交定向查询。WDB查询结果处理阶段：对返回的WDB查询结果页面进行分析，提取出结构化的后台数据，并对查询结果信息进行语义标注，最后对所有的WDB查询结果进行去重整合，返回最终结果给网络用户，完成本次深网数据查询。深网数据集成是一个面向领域的抽取方式，整个流程中用户只需要通过填写一个集成的查询接口，便可以查询同一领域的多个数据库。

(2)浅表化深网信息。这种发掘深网信息的方式主要利用了传统搜索引擎的基础设施。浅表化深网信息和深网集成方式的主要不同是：浅表化方式填写查询接口表单是自动的，不需要人工的参与；浅表化是预先提交查询，并得到查询结果，而后同传统搜索引擎类似的，将查询结果索引到静态的HTML页面上。

深网查询接口发现是深网信息挖掘的首要任务，查询接口发现的准确率和覆盖率直接关乎到后续处理的有效性。目前对深网查询接口模式抽取的研究，已经取得了很大发展：开始由基于接口元素的研究，逐步转向基于元素分组关系的研究；开始由基于规则的研究，逐步转向基于机器学习技术的研究。从深网集成方向来说，基于元素分组的模式抽取方法有利于后续的模式匹配和集成；而从浅表化深网信息方向来说，基于元素分组的模式抽取方法则有利于自动表单填写爬虫对表单的理解，特别是当接口元素之间存在约束影响时，分组的模式抽取方法便于爬虫锁定目标搜索范围，有利于提高有效表单查询的命中率。基于机器学习技术的抽取研究则有利于提高算法适应性。如何有效利用Web网页呈现的设计信息，提出适应性更强、更稳定的深网查询接口模式抽取算法，是提高模式抽取准确度和效率的关键，同时也是目前研究的重点和难点。

发明内容

本发明的目的在于克服现有技术的不足，提供一种利用了网页数据的布局和样式特征，对网页数据进行区域分块，并通过制定相应的处理规则，最终实现网页交互接口的定位，具有很高的定位正确性的Web深网查询接口检测方法。

本发明的目的是通过以下技术方案来实现的：一种Web深网查询接口检测方法，包括以下步骤：

S1、输入网页URL链接地址；

S2、进行网页渲染，通过布局渲染引擎，将HTML可视标签的显示方式转化为盒模型；

S3、进行布局分块；

S4、进行分块剪枝；

S5、进行分块重构；

S6、输出交互接口。

进一步地，所述步骤S3进行布局分块的规则为：

(1)如果分块EB对应的HTML元素标签为<form>，则当前分块不划分；

(2)如果分块EB的接口元素密度低于预设的阈值，则当前分块需要划分；否则进一步判断当前分块所包含的区域是否含有多个交互接口区域，若是则当前分块需要划分，否则当前分块不划分；

(3)如果分块EB存在背景颜色不同的子分块，则划分当前分块；

(4)如果分块EB存在分隔符子分块，则以分隔符为界划分当前分块。

进一步地，所述步骤S4进行分块剪枝的具体实现方法为：

S41、选择布局分块结果集合中的一个分块，判断该分块是否具有接口元素，若是则保留该分块，并将该分块标记为已处理；否则执行步骤S42；

S42、判断该分块与Web页面底部的距离是否小于预设的阈值，若是则删除该分块，否则执行步骤S43；

S43、判断该分块盒模型对应的DOM树模型的子节点集合中是否包含文本节点，若是则执行步骤S44，否则删除该分块；

S44、判断该分块的图形元素密度是否大于预设的比例系数γ1，若是则删除该分块，否则进一步判断该分块的链接密度是否大于预设的阈值γ2，若是则删除该分块，否则保留该分块并将该分块标记为已处理，其中，0≤γ1≤1，0≤γ2≤1；

S45、检查布局分块集合中是否存在未处理的分块，若是则返回步骤S41，否则输出布局分块集合中的所有分块集合。

本发明的有益效果是：

1、本发明在深网查询接口的定位问题上，创新性的提出了一种基于网页设计的视觉信息，进行网页交互接口定位的方法。该定位方法主要利用了网页数据的布局和样式特征，对网页数据进行区域分块，并通过制定相应的处理规则，最终实现网页交互接口的定位。该定位方法规避了以往依赖<form>标签进行接口定位的局限性。

2、在深网查询接口识别问题上，提出了一种组合接口结构特征和文本特征的改进方法，改进了单方面依赖结构特征进行分类，而导致分类准确率不高或适应性不强的问题。在实验测试中，网页交互接口定位方法达到了很高的定位正确性，而改进的接口分类特征集则达到了较高的分类效果。

附图说明

图1为本发明的Web深网查询接口检测方法的流程图；

图2为元素盒模型示意图；

图3为本发明的进行分块剪枝的流程图。

具体实施方式

本发明将针对深网查询接口发现问题，重点研究其中网页交互接口定位和深网查询接口识别两个子问题。本发明提出一种基于视觉信息的深网查询接口定位方法，该方法能够有效避免以往定位方法对<form>标签的依赖问题。接着，基于网页交互接口定位方法，将对深网查询接口识别问题进行扩展研究，组合利用网页交互接口的结构和文本特征进行查询接口的识别，以改进仅使用接口结构特征，而导致分类识别准确率不高的问题。下面结合附图进一步说明本发明的技术方案。

如图1所示，一种Web深网查询接口检测方法，包括以下步骤：

S1、输入网页URL链接地址；

(1)元素盒模型(Element Box Model)：元素盒模型是指CSS样式定义的HTML元素呈现的方式。每个可见的HTML元素经过浏览器样式渲染之后，都由一个如图2所示的盒模型表征其具体呈现形式。其中，Content代表HTML元素的具体内容；Padding代表内边距，紧贴内容部分，主要呈现的是元素的背景信息；Border代表内边距的边框；Margin代表外边距，默认是透明的。

根据W3C的设计规范，HTML网页通过浏览器布局渲染引擎之后，每个HTML可视标签都会以盒模型的方式在页面中呈现排布，最终得到用户看见的实际网页。

(2)交互接口元素(Interface Element)：本文定义的交互接口元素是指表征接口信息的一类HTML元素。具体而言是指这样一类元素集合：ES＝{input,radio,checkbox,text,select,textarea,button}，其中radio、checkbox和text是特定类型的<input>元素，单独提出来是为了说明其重要性。一般而言，网页交互接口至少具有ES集合中元素的一种。接口元素集合ES实际上是网页交互接口元素的子集。本文选择了大多数接口都通用的一组元素作为定位基准，可以减小问题的复杂性。

(3)交互接口区域(Interface Area)：交互接口区域是指包含所有交互接口元素的最小盒模型对应的矩形区域。特别地，对于form表单而言，即是<form>标签元素盒模型所在的矩形区域。

网页交互接口定位需要解决的问题即是找到交互接口区域。这源于网页设计的规则：对于嵌套的HTML标签，一般而言在网页布局中也是以嵌套盒模型的形式呈现。网页渲染呈现步骤是定位方法的第一步。首先输入网页URL链接地址，然后通过布局渲染引擎，将HTML可视标签的显示方式转化为盒模型，后续步骤的处理将基于得到的盒模型。

S3、进行布局分块；本发明提出的布局分块的划分方法，主要利用到的是分块的样式和布局特征。方法根据分块包含的子块之间的关联度，以及分块本身的特征进行是否需要划分的判断。下面将对划分应用到的启发式规则进行描述：

规则(1)是对传统的基于<form>标签定位方法的描述。分块划分的目的是发现属于同一个交互接口的元素，显然传统的基于<form>标签的定位方法在一定程度上就是一个网页交互接口，故而不需要继续划分。

规则(2)主要利用网页交互接口的布局特征，通常对于一个交互接口分块而言，其内部包含的接口元素子块应该占有相当的比例。如果分块的交互接口元素密度低，则侧面说明接口可能包含的干扰信息(非交互接口信息)多，需要对其进行划分，以降低非交互接口信息对后续深网查询接口识别和分类的影响，减小实验误差。如果分块的交互接口元素密度高，还需要进一步的判断，判断分块所包含的区域是否含有多个交互接口区域。

规则(3)基于一种网页设计观察：网页分块具有不同的背景颜色，通常意味着具有不同的语义。网页设计人员在设计网页时，一般会用这种方式区分网页语义块，以便于用户能够直观的定位到感兴趣的内容。规则(4)和规则(3)相似，通常分隔符也象征着分隔符两边的分块具有不同的语义。通过规则(3)和规则(4)，可以从视觉角度判断当前分块是否包含了多个语义块，能够一定程度上解决排布密集的多个交互接口区域的划分问题。

S4、进行分块剪枝；通过对网页布局进行分块，可以对网页进行初步的区域划分，得到多个可视区域。本发明的目的是发现深网查询接口潜在的区域，即需要从众多数据区域中定位识别出网页交互接口区域。故而，对于本方法而言，其他一切不相关的数据区域都是噪声，需要进行删减去噪，这有利于提高处理效率。

通过大量的实验观察和分析，发现网页交互接口区域通常具有以下特征：

(1)网页交互接口区域不会位于Web页面的底部。

(2)网页交互接口区域不会具有大量的图片和超链接。

如图3所示，基于以上观察事实，提出以下剪枝方法：

所述的交互接口元素，如果分块未含有交互接口元素，从直观上来说不可能是交互接口区域，但实际上可能是交互接口区域的一部分，它在交互接口区域中的作用是对相关接口元素进行语义标注，为接口提供语义信息，这种信息对后序深网查询接口的识别和分类具有重要的意义，故而需要保留下来。而通过大量的实验观察发现，这类接口语义信息通常通过文本节点的方式呈现，进而我们可以通过衡量分块是否具有文本节点，来判断其是否提供语义信息。更进一步，即便分块具有文本节点时，也并非都是交互接口语义信息，我们可以通过衡量分块的图形元素密度和链接密度的大小，来排除分块可能是某类网页正文和导航区域的可能性。

具体来说，分块剪枝方法流程如图3所示。首先根据布局分块结果集合判断是否有未处理分块的存在，如果没有，则输出剩余分块集合；如果存在未处理的分块，那么就从结果集合中选取一个未处理的分块EB，看它是否具有接口元素，如果有接口元素，那么久保留分块并且标记分块为已处理的，如果没有接口元素，更进一步的，查看它与页面底部的距离是否小于阈值，如果小于阈值那么直接删除该分块；如果大于等于阈值，查看它是否包含文本节点，如果不包含则删除分块，如果包含文本节点，更进一步的，如果分块EB的图形元素密度大于γ1或者其链接密度大于γ2，那么删除该分块。

S5、进行分块重构；

当所有分块都标记为已处理之后，所有分块的划分和剪枝工作就结束了。接下来需要进行分块重构，分块重构有两个目的：

首先，为了矫正布局分块阶段的过度划分问题。布局分块阶段通过启发式规则对分块是否需要继续划分进行判断，不过由于问题本身的异质和非结构化特点，规则本身并不能涵盖所有情况，故而需要通过进一步处理，到达减小误差的目的。特别地，如果当交互接口区域对应分块的接口元素密度不满足要求时，可能会被进一步划分，导致错误划分。为了解决这种因为过度划分，而导致交互接口信息不完整的问题，我们需要对关系紧密的分块进行合并重构，最终定位网页交互接口区域。

其次，为了进一步对未包含交互接口元素的分块进行筛选，从中选择出更可能具有交互接口区域信息的分块。

分块重构主要利用的是分块之间的视觉设计特点，网页设计人员在设计网页时，通常通过直观的视觉特征来对网页数据区域进行划分，这种视觉设计特点为Web数据挖掘提供了很好的指导作用。

S6、输出交互接口。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种Web深网查询接口检测方法，其特征在于，包括以下步骤：

S1、输入网页URL链接地址；

S3、进行布局分块；

S4、进行分块剪枝；具体实现方法为：

S45、检查布局分块集合中是否存在未处理的分块，若是则返回步骤S41，否则输出布局分块集合中的所有分块集合；

S5、进行分块重构；

S6、输出交互接口。

2.根据权利要求1所述的一种Web深网查询接口检测方法，其特征在于，所述步骤S3进行布局分块的规则为：