CN112199613B - 融合dom拓扑和文本属性的产品url自动定位方法 - Google Patents
融合dom拓扑和文本属性的产品url自动定位方法 Download PDFInfo
- Publication number
- CN112199613B CN112199613B CN202011099728.6A CN202011099728A CN112199613B CN 112199613 B CN112199613 B CN 112199613B CN 202011099728 A CN202011099728 A CN 202011099728A CN 112199613 B CN112199613 B CN 112199613B
- Authority
- CN
- China
- Prior art keywords
- node
- dom
- text
- vector
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法,属于计算机与信息科学技术领域。本发明首先将网站转成DOM解析树结构,获取DOM解析树下各节点的文本属性并给节点添加标签属性;然后通过递归遍历DOM标签树,构建出节点带有产品标签属性的树形图,将树形图转换为包含DOM解析树拓扑结构的节点向量集w;并通过doc2vec将各节点下的文本属性转换成文本向量h;最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性,训练节点分类模型,完成URL自动定位。本发明融合DOM拓扑、文本属性,在现有方法的基础上自动学习页面的提取规则,提高方法的自适应能力,有效的解决了现有方法鲁棒性差、准确率低、工作量大的缺点,具有较高的实用价值和社会价值。
Description
技术领域
本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法,属于计算机与信息科学技术领域。
背景技术
随着全球化进程的发展,信息通信技术行业供应链日益复杂,各国已普遍认识到加强信息通信技术行业供应链安全管理的重要性,并开始构建该行业供应链网络。为构建供应链网络需要收集信息通信技术行业相关的企业官网公开的产品信息并完成结构化信息抽取。在构建信息通信技术行业供应链的过程中关键难点便是对供应商官网上的产品信息进行定位,摒弃无用的信息数据。然而由于程序编码的不规范以及DHTML和Ajax的盛行导致DOM结构异常复杂,官网上的产品信息难以被精确定位。因此多种方法被提出来解决这个问题,统计分析现有的URL节点定位方法,通常使用方法可归为两类:
1.基于规则判定的节点定位方法
基于规则判定的节点定位方法主要依赖于人类专家的参与,通过分析待提取信息的特征制定出信息检索规则。然后对整个页面进行检索,匹配出对应的数据内容。然而该方法对于不同的信息要制定不同的检索规则,工作量大;另一方面,很难制定出完整全面的规则,使得准确率也比较低。
2.基于网页结构的节点定位方法
基于网页结构的定位方法利用了网页的DOM结构,需要提取的信息视为DOM结构上的一个子节点。之后获得从根节点到子节点要经过的路径,根据此路径便可唯一标识节点位置。然而该方法要求目标网站的网页结构是固定且一致的,而在实际应用时很难达到这个条件。这导致批量精确定位时出现准确率和效率低、鲁棒性差的问题。
综上所述,现有的URL节点定位方法更多的是依赖于人工参与制定相应的提取规则或者匹配固定xpath路径下的内容,存在着准确率与效率低、鲁棒性差、工作量大的问题。因此亟需一个更加高效、准确、自动的方法来实现官网上产品节点的自动定位。所以本发明提出融合DOM拓扑和文本属性的产品URL自动定位方法。
发明内容
本发明的目的是解决现有的产品节点定位方法准确率与效率低、鲁棒性差、工作量大的问题,针对性的提出了融合DOM拓扑和文本属性的产品URL自动定位方法。
本发明的设计原理为:本发明首先通过输入的URL爬取供应商网站的全站内容,转成DOM解析树结构,获取DOM解析树下各节点的文本属性并给DOM解析树对应节点添加标签属性(是否为产品节点,是为1,其他均为0);然后通过递归遍历DOM标签树,构建出节点带有产品标签属性的树形图,将树形图转换为包含DOM解析树拓扑结构的节点向量集w;并通过doc2vec将各节点下的文本属性转换成文本向量h;最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性,训练节点分类模型,完成URL自动定位,实现信息自动批量获取。
本发明的技术方案是通过如下步骤实现的:
步骤1,解析网页并获取拓扑结构,生成标签属性树。
步骤2,DOM树属性嵌入。
步骤3,产品节点分类定位。
有益效果
相比于规则判定以及网页结构的URL节点定位方法,本发明不仅结合了这两种方法,大大提高了方法的鲁棒性;而且该方法自动提取网页的DOM结构、自动学习相应页面的提取规则,大大地提高了效率和准确性。
附图说明
图1为本发明融合DOM拓扑和文本属性的产品URL自动定位方法的原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
实验数据来自实验室标注数据,主要涉及86家科技公司总共4397个网址。将其按3:7的比例切分为测试集与训练集,导入模型进行训练。实验采用F1值、P(精准率)、R(召回率)评价模型的效果,三者的计算方法如公式⑴⑵⑶:
其中,TP是将正类节点预测为正类的数目,FN是将正类节点预测为负类的数目,FP是将负类节点预测为正类的数目,TN是将负类节点预测为负类的数目
具体流程为:
步骤1,解析网页并获取拓扑结构,生成标签属性树。
步骤1.1,模型通过输入的公司官网URL爬取多家供应商公司网站的全站内容,使用Beautifulsoup库将网站前端HTML转成DOM解析树结构,并根据DOM树进行节点的搜索,获取所有节点的名称、文本;
步骤1.2,给DOM解析树对应节点新加标签属性(是否为产品,是为1,其他均为为0),从而获得带有不同产品标签属性的DOM标签树图;
步骤1.3,然后递归遍历DOM标签树,获取树每一个节点的子孙节点形成拓扑链接节点对,生成训练数据。
步骤2,DOM树属性嵌入。
步骤2.1,初始化节点向量集Φ。
步骤2.2,对于样本集中的每一个节点vi随机游走得到节点序列给定当前访问起始节点,从其邻居中随机采样节点作为下一个访问节点,重复此过程,直到访问序列长度满足预设条件。从图中的每个节点开始分别进行Random Walk采样,得到局部相关联的训练数据
步骤2.3,对于每一个序列利用skip-gram(Φ,w)去更新节点向量。获取足够数量的节点访问序列后,对采样数据进行skip-gram训练:通过将离散的网络节点表示成向量化,最大化节点共现。最终将所有的序列输入skip-gram模型,生成最终的节点嵌入向量w。
步骤2.4,使用doc2vec创建各节点下文本的向量化表示h,并组合文本向量与节点向量,获得包含有拓扑信息与文本属性信息的属性向量[w,h]。
步骤3,产品节点分类定位。
步骤3.1,最后使用[w,h]训练LinearSVC节点分类模型,完成供应商官网URL产品节点自动定位。
测试结果:实验基于融合DOM拓扑和文本属性的产品URL自动定位方法,本发明结合网页的DOM拓扑结构以及机器学习的相关方法,有效的实现了自动进行关键节点定位的目的,解决了以往方法效率低、鲁棒性差的问题。在60家供应商公司官网数据进行实验,产品链接自动定位任务的F1值可达78.2%,P值可达74.2%,R值可达92.4%,具有非常高的准确率以及实用价值。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.基于融合DOM拓扑和文本属性的产品URL自动定位方法,其特征在于所述方法包括如下步骤:
步骤1,模型使用Beautifulsoup库获取网页的DOM解析树结构,获取网页的根节点,通过逐层递归搜索解析树的所有节点,并保存DOM解析树结构以及对应节点下的文本信息;
步骤2,生成采样样本前,读取各节点类型,根据节点类型与所处层数对解析树进行修剪,并为节点分配权重,获取新的解析树,采用随机游走策略对节点进行采样,并对采样数据进行skip-gram,从而将网站的DOM解析树结构转换为包含DOM解析树拓扑结构的节点向量集w,并使用doc2vec将各节点对应的文本属性转换成文本向量h;
步骤3,在对分类模型进行训练前,涉及到节点向量与文本向量的生成,以及节点向量与文本向量的拼接,将节点向量与文本向量进行拼接,生成含有网页拓扑信息与文本特征的属性向量,用学习到的属性向量[w,h]结合各节点标签属性,训练节点分类模型,实现URL产品节点自动定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011099728.6A CN112199613B (zh) | 2020-10-13 | 2020-10-13 | 融合dom拓扑和文本属性的产品url自动定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011099728.6A CN112199613B (zh) | 2020-10-13 | 2020-10-13 | 融合dom拓扑和文本属性的产品url自动定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112199613A CN112199613A (zh) | 2021-01-08 |
CN112199613B true CN112199613B (zh) | 2023-03-03 |
Family
ID=74009072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011099728.6A Active CN112199613B (zh) | 2020-10-13 | 2020-10-13 | 融合dom拓扑和文本属性的产品url自动定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112199613B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462540A (zh) * | 2014-12-24 | 2015-03-25 | 中国科学院声学研究所 | 网页信息抽取方法 |
CN107451215A (zh) * | 2017-07-17 | 2017-12-08 | 广州特道信息科技有限公司 | 特征文本抽取方法及装置 |
CN110457579A (zh) * | 2019-07-30 | 2019-11-15 | 四川大学 | 基于模板和分类器协同工作的网页去噪方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577466B (zh) * | 2012-08-03 | 2017-02-15 | 腾讯科技(深圳)有限公司 | 一种在浏览器中显示网页内容的方法和装置 |
-
2020
- 2020-10-13 CN CN202011099728.6A patent/CN112199613B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462540A (zh) * | 2014-12-24 | 2015-03-25 | 中国科学院声学研究所 | 网页信息抽取方法 |
CN107451215A (zh) * | 2017-07-17 | 2017-12-08 | 广州特道信息科技有限公司 | 特征文本抽取方法及装置 |
CN110457579A (zh) * | 2019-07-30 | 2019-11-15 | 四川大学 | 基于模板和分类器协同工作的网页去噪方法及*** |
Non-Patent Citations (2)
Title |
---|
基于Web的新闻信息抽取;朱永盛等;《计算机工程》;20060531;第32卷(第10期);74-76 * |
基于文本标签属性的网页信息抽取方法研究;沈娜;《武汉职业技术学院学报》;20160229;第15卷(第01期);62-65、73 * |
Also Published As
Publication number | Publication date |
---|---|
CN112199613A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710701B (zh) | 一种用于公共安全领域大数据知识图谱的自动化构建方法 | |
CN104899273B (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN103136360B (zh) | 一种互联网行为标注引擎及对应该引擎的行为标注方法 | |
CN112749284B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN110134613B (zh) | 一种基于代码语义及背景信息的软件缺陷数据采集*** | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
CN104268148A (zh) | 一种基于时间串的论坛页面信息自动抽取方法及*** | |
CN102591992A (zh) | 基于垂直搜索和聚焦爬虫技术的网页分类识别***及方法 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN103559234A (zh) | RESTful Web服务的自动化语义标注***和方法 | |
CN110059085B (zh) | 一种面向Web 2.0的JSON数据解析与建模方法 | |
CN101477571A (zh) | 网络内容语义结构标注的方法和装置 | |
CN103559199A (zh) | 网页信息抽取方法和装置 | |
CN114090861A (zh) | 一种基于知识图谱的教育领域搜索引擎构建方法 | |
CN102508901A (zh) | 基于内容的海量图像检索方法和*** | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
Wen et al. | Heterogeneous Information Network‐Based Scientific Workflow Recommendation for Complex Applications | |
Rizvi et al. | A preliminary review of web-page recommendation in information retrieval using domain knowledge and web usage mining | |
CN101576933A (zh) | 基于标题分隔符的全自动web页面分组法 | |
Nethra et al. | WEB CONTENT EXTRACTION USING HYBRID APPROACH. | |
CN112199613B (zh) | 融合dom拓扑和文本属性的产品url自动定位方法 | |
CN109948015B (zh) | 一种元搜索列表结果抽取方法及*** | |
CN115905705A (zh) | 基于工业大数据的工业算法模型推荐方法 | |
CN106407271B (zh) | 一种智能客服***及其智能客服知识库的更新方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |