CN112199613B

CN112199613B - 融合dom拓扑和文本属性的产品url自动定位方法

Info

Publication number: CN112199613B
Application number: CN202011099728.6A
Authority: CN
Inventors: 潘丽敏; 郜森; 罗森林; 吴舟婷; 周妍汝; 董勃
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2023-03-03
Anticipated expiration: 2040-10-13
Also published as: CN112199613A

Abstract

本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法，属于计算机与信息科学技术领域。本发明首先将网站转成DOM解析树结构，获取DOM解析树下各节点的文本属性并给节点添加标签属性；然后通过递归遍历DOM标签树，构建出节点带有产品标签属性的树形图，将树形图转换为包含DOM解析树拓扑结构的节点向量集w；并通过doc2vec将各节点下的文本属性转换成文本向量h；最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性，训练节点分类模型，完成URL自动定位。本发明融合DOM拓扑、文本属性，在现有方法的基础上自动学习页面的提取规则，提高方法的自适应能力，有效的解决了现有方法鲁棒性差、准确率低、工作量大的缺点，具有较高的实用价值和社会价值。

Description

融合DOM拓扑和文本属性的产品URL自动定位方法

技术领域

本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法，属于计算机与信息科学技术领域。

背景技术

随着全球化进程的发展，信息通信技术行业供应链日益复杂，各国已普遍认识到加强信息通信技术行业供应链安全管理的重要性，并开始构建该行业供应链网络。为构建供应链网络需要收集信息通信技术行业相关的企业官网公开的产品信息并完成结构化信息抽取。在构建信息通信技术行业供应链的过程中关键难点便是对供应商官网上的产品信息进行定位，摒弃无用的信息数据。然而由于程序编码的不规范以及DHTML和Ajax的盛行导致DOM结构异常复杂，官网上的产品信息难以被精确定位。因此多种方法被提出来解决这个问题，统计分析现有的URL节点定位方法，通常使用方法可归为两类：

1.基于规则判定的节点定位方法

基于规则判定的节点定位方法主要依赖于人类专家的参与，通过分析待提取信息的特征制定出信息检索规则。然后对整个页面进行检索，匹配出对应的数据内容。然而该方法对于不同的信息要制定不同的检索规则，工作量大；另一方面，很难制定出完整全面的规则，使得准确率也比较低。

2.基于网页结构的节点定位方法

基于网页结构的定位方法利用了网页的DOM结构，需要提取的信息视为DOM结构上的一个子节点。之后获得从根节点到子节点要经过的路径，根据此路径便可唯一标识节点位置。然而该方法要求目标网站的网页结构是固定且一致的，而在实际应用时很难达到这个条件。这导致批量精确定位时出现准确率和效率低、鲁棒性差的问题。

综上所述，现有的URL节点定位方法更多的是依赖于人工参与制定相应的提取规则或者匹配固定xpath路径下的内容，存在着准确率与效率低、鲁棒性差、工作量大的问题。因此亟需一个更加高效、准确、自动的方法来实现官网上产品节点的自动定位。所以本发明提出融合DOM拓扑和文本属性的产品URL自动定位方法。

发明内容

本发明的目的是解决现有的产品节点定位方法准确率与效率低、鲁棒性差、工作量大的问题，针对性的提出了融合DOM拓扑和文本属性的产品URL自动定位方法。

本发明的设计原理为：本发明首先通过输入的URL爬取供应商网站的全站内容，转成DOM解析树结构，获取DOM解析树下各节点的文本属性并给DOM解析树对应节点添加标签属性(是否为产品节点，是为1，其他均为0)；然后通过递归遍历DOM标签树，构建出节点带有产品标签属性的树形图，将树形图转换为包含DOM解析树拓扑结构的节点向量集w；并通过doc2vec将各节点下的文本属性转换成文本向量h；最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性，训练节点分类模型，完成URL自动定位，实现信息自动批量获取。

本发明的技术方案是通过如下步骤实现的：

步骤1，解析网页并获取拓扑结构，生成标签属性树。

步骤2，DOM树属性嵌入。

步骤3，产品节点分类定位。

有益效果

相比于规则判定以及网页结构的URL节点定位方法，本发明不仅结合了这两种方法，大大提高了方法的鲁棒性；而且该方法自动提取网页的DOM结构、自动学习相应页面的提取规则，大大地提高了效率和准确性。

附图说明

图1为本发明融合DOM拓扑和文本属性的产品URL自动定位方法的原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

实验数据来自实验室标注数据，主要涉及86家科技公司总共4397个网址。将其按3：7的比例切分为测试集与训练集，导入模型进行训练。实验采用F1值、P(精准率)、R(召回率)评价模型的效果，三者的计算方法如公式⑴⑵⑶：

其中，TP是将正类节点预测为正类的数目，FN是将正类节点预测为负类的数目，FP是将负类节点预测为正类的数目，TN是将负类节点预测为负类的数目

具体流程为：

步骤1，解析网页并获取拓扑结构，生成标签属性树。

步骤1.1，模型通过输入的公司官网URL爬取多家供应商公司网站的全站内容，使用Beautifulsoup库将网站前端HTML转成DOM解析树结构，并根据DOM树进行节点的搜索，获取所有节点的名称、文本；

步骤1.2，给DOM解析树对应节点新加标签属性(是否为产品，是为1，其他均为为0)，从而获得带有不同产品标签属性的DOM标签树图；

步骤1.3，然后递归遍历DOM标签树，获取树每一个节点的子孙节点形成拓扑链接节点对，生成训练数据。

步骤2，DOM树属性嵌入。

步骤2.1，初始化节点向量集Φ。

步骤2.2，对于样本集中的每一个节点v_i随机游走得到节点序列

给定当前访问起始节点，从其邻居中随机采样节点作为下一个访问节点，重复此过程，直到访问序列长度满足预设条件。从图中的每个节点开始分别进行Random Walk采样，得到局部相关联的训练数据

步骤2.3，对于每一个序列

利用skip-gram(Φ,

w)去更新节点向量。获取足够数量的节点访问序列后，对采样数据进行skip-gram训练：通过将离散的网络节点表示成向量化，最大化节点共现。最终将所有的序列输入skip-gram模型，生成最终的节点嵌入向量w。

步骤2.4，使用doc2vec创建各节点下文本的向量化表示h，并组合文本向量与节点向量，获得包含有拓扑信息与文本属性信息的属性向量[w,h]。

步骤3，产品节点分类定位。

步骤3.1，最后使用[w,h]训练LinearSVC节点分类模型，完成供应商官网URL产品节点自动定位。

测试结果：实验基于融合DOM拓扑和文本属性的产品URL自动定位方法，本发明结合网页的DOM拓扑结构以及机器学习的相关方法，有效的实现了自动进行关键节点定位的目的，解决了以往方法效率低、鲁棒性差的问题。在60家供应商公司官网数据进行实验，产品链接自动定位任务的F1值可达78.2％，P值可达74.2％，R值可达92.4％，具有非常高的准确率以及实用价值。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于融合DOM拓扑和文本属性的产品URL自动定位方法，其特征在于所述方法包括如下步骤：

步骤1，模型使用Beautifulsoup库获取网页的DOM解析树结构，获取网页的根节点，通过逐层递归搜索解析树的所有节点，并保存DOM解析树结构以及对应节点下的文本信息；

步骤2，生成采样样本前，读取各节点类型，根据节点类型与所处层数对解析树进行修剪，并为节点分配权重，获取新的解析树，采用随机游走策略对节点进行采样，并对采样数据进行skip-gram，从而将网站的DOM解析树结构转换为包含DOM解析树拓扑结构的节点向量集w，并使用doc2vec将各节点对应的文本属性转换成文本向量h；

步骤3，在对分类模型进行训练前，涉及到节点向量与文本向量的生成，以及节点向量与文本向量的拼接，将节点向量与文本向量进行拼接，生成含有网页拓扑信息与文本特征的属性向量，用学习到的属性向量[w,h]结合各节点标签属性，训练节点分类模型，实现URL产品节点自动定位。