CN105302884B - 基于深度学习的网页模式识别方法及视觉结构学习方法 - Google Patents

基于深度学习的网页模式识别方法及视觉结构学习方法 Download PDF

Info

Publication number
CN105302884B
CN105302884B CN201510670711.4A CN201510670711A CN105302884B CN 105302884 B CN105302884 B CN 105302884B CN 201510670711 A CN201510670711 A CN 201510670711A CN 105302884 B CN105302884 B CN 105302884B
Authority
CN
China
Prior art keywords
source code
webpage
text source
deep learning
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510670711.4A
Other languages
English (en)
Other versions
CN105302884A (zh
Inventor
李志杰
刘丽丽
张作职
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Mass Information Technology Ltd By Share Ltd
Original Assignee
Tianjin Mass Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Mass Information Technology Ltd By Share Ltd filed Critical Tianjin Mass Information Technology Ltd By Share Ltd
Priority to CN201510670711.4A priority Critical patent/CN105302884B/zh
Publication of CN105302884A publication Critical patent/CN105302884A/zh
Application granted granted Critical
Publication of CN105302884B publication Critical patent/CN105302884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于深度学习的网页模式识别方法,包括以下步骤:以非格式化文本,网页的超文本标记语言的Text源码作为算法输入;将上述源码进行分词;设计堆叠降噪自动编码器,作为网页的特征学习算法;采用神经网络语言模型对SDAE的输入进行初始化;采用分类算法对通过SDAE学习到的文本特征向量进行分类;将上述分类结果进行输出。一种网页视觉结构学习方法,用机器学习的方法学习HTML的Text源码的结构,并以此学习网页的视觉结构。本发明用自然语言处理的方法处理人工语言,用深度学习的方法及神经网络语言模型对HTML的Text源码进行特征学习,通过本发明可对各类型网站,如博客、论坛、资讯等的网页模式进行精确识别。

Description

基于深度学习的网页模式识别方法及视觉结构学习方法
技术领域
本发明涉及互联网的技术领域,具体说是一种基于深度学习的网页模式识别方法及视觉结构学习方法。
背景技术
网页识别是数据采集***及搜索引擎中的关键步骤。目前,对网页识别大多采取如下方法:人工设定识别规则对网页进行识别或者基于其他非深度学习的机器学习方法对网页进行识别。
但出于自然语言具有高度抽象性,机器对纯文本的模式识别难以获得理想的识别效果。
发明内容
本发明要解决的技术问题是提供一种基于深度学习的网页模式识别方法及视觉结构学习方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的基于深度学习的网页模式识别方法,包括以下步骤:
A、非格式化文本,以网页HTML的Text源码作为算法输入;
B、将上述网页HTML的Text源码进行预处理;
C、设计堆叠降噪自动编码器SDAE,作为网页特征的深度学习算法;采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化,上一步骤中得到的输出作为本步骤中神经网络语言模型的输入,得到Text源码的初始特征向量输出,并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入,得到相应网页的特征向量;
D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类,特征向量的分类结果即为相应网页的识别结果;
E、将上述分类结果进行输出。
本发明还可以采用以下技术措施:
步骤B中,使用Text源码中的HTML语言标签作为原始文本进行机器学习。
步骤B中,使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。
步骤B中,使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。
步骤B中,使用Text源码的自然语言内容作为原始文本进行机器学习时,对Text源码进行分词处理。
采用海量分词算法对网页HTML的Text源码进行分词。
采用结巴分词算法对网页HTML的Text源码进行分词。
步骤C中,采用神经网络语言模型的文段转向量算法Paragraph2Vec对堆叠降噪自动编码器SDAE的输入向量进行初始化。
步骤D中采用L2正则随机梯度下降逻辑回归分类器对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。
本发明的基于深度学习的网页视觉结构学习方法,用机器学习的方法学习HTML的Text源码的结构,并以此学习网页的视觉结构。
本发明具有的优点和积极效果是:
本发明的基于深度学习的网页模式识别方法及视觉结构学习方法中,用自然语言处理的方法处理Text源码,更为关注网页HTML的Text源码的结构而非内容,用深度学习的方法进行文本特征学习,对深度算法SDAE初始化方法的改进:使用Paragraph2Vec算法作为SDAE输入向量的初始化算法,从而取代SDAE惯用的随机初始化方法。从而可以最大化保留文本特征,减少特征丢失,有利于避免SDAE进入局部最优解,有效地保证SDAE的收敛。
本发明用自然语言处理(Natural Language Processing,简称NLP)的方法处理人工语言(Artificial Language,简称AL),用深度学***。
具体实施方式
以下对本技术方案进行详细说明:
本发明的基于深度学习的网页模式识别方法,包括以下步骤:
A、非格式化文本,以网页超文本语言(Hypertext Markup Language)即HTML的Text源码作为算法输入;
B、将上述网页HTML的Text源码进行预处理;
C、设计堆叠降噪自动编码器(Stacking Denoising Autoencoders), 简称SDAE,作为网页特征的深度学习算法;采用神经网络语言模型(Neural Network LanguageModel),简称NNLM,对堆叠降噪自动编码器SDAE的输入进行初始化,上一步骤中得到的输出作为神经网络语言模型NNLM的输入,得到Text源码的初始特征向量输出,并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入,得到相应网页的特征向量;
D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类,特征向量的分类结果即为相应网页的识别结果;
E、将上述分类结果进行输出。
在保留自然语言内容的预处理步骤中,需要使用分词,而在仅保留HTML语言标签时,无需分词。
步骤B中,使用Text源码中的HTML语言标签作为原始文本进行机器学习,此时无需分词,无需使用分词算法。
步骤B中,使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。
步骤B中,使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。
步骤B中,使用Text源码的自然语言内容作为原始文本进行机器学习时,对Text源码进行分词处理。
采用海量分词算法对网页HTML的Text源码进行分词。
采用结巴分词算法对网页HTML的Text源码进行分词。
选用海量分词算法或结巴分词算法对最终结果影响不大。
步骤C中,采用神经网络语言模型NNLM的文段转向量算法Paragraph2Vec对堆叠降噪自动编码器SDAE的输入向量进行初始化。
步骤D中采用L2正则随机梯度下降逻辑回归分类器(L2-Stochastic GradientDescent Logistic Regression)对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。上述逻辑回归分类器是Softmax回归(n分类)分类中当n=2时的特殊形式。
步骤D中设置为二分类模式,两种类别分别对应于网页是导航页或非导航页。如果是多分类模式,如论坛页面/资讯页面/微博页面等等,则采用Softmax回归进行多类别分类。
本发明的基于深度学习的网页视觉结构学习方法,用机器学习的方法学习HTML的Text源码的结构,并以此学习网页的视觉结构。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。

Claims (8)

1.一种基于深度学习的网页模式识别方法,包括以下步骤:
A、采用非格式化文本,以网页HTML的Text源码作为算法输入;
B、将上述网页HTML的Text源码进行预处理;
C、设计堆叠降噪自动编码器SDAE作为网页特征的深度学习算法;采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化,将对网页HTML的Text源码进行预处理的结果作为本步骤中神经网络语言模型的输入,得到Text源码的初始特征向量输出,并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入,得到相应网页的特征向量;其中,采用神经网络语言模型的文段转向量算法Paragraph2Vec对堆叠降噪自动编码器SDAE的输入向量进行初始化;
D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类,特征向量的分类结果即为相应网页的识别结果;
E、将上述分类结果进行输出。
2.根据权利要求1所述的基于深度学习的网页模式识别方法,其特征在于:步骤B中,使用Text源码中的HTML语言标签作为原始文本进行机器学习。
3.根据权利要求1所述的基于深度学习的网页模式识别方法,其特征在于:步骤B中,使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。
4.根据权利要求1所述的基于深度学习的网页模式识别方法,其特征在于:步骤B中,使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。
5.根据权利要求1所述的基于深度学习的网页模式识别方法,其特征在于:步骤B中,使用Text源码的自然语言内容作为原始文本进行机器学习时,对Text源码进行分词处理。
6.根据权利要求3、4或5所述的基于深度学习的网页模式识别方法,其特征在于:采用海量分词算法对网页HTML的Text源码进行分词。
7.根据权利要求3、4或5所述的基于深度学习的网页模式识别方法,其特征在于:采用结巴分词算法对网页HTML的Text源码进行分词。
8.根据权利要求1所述的基于深度学习的网页模式识别方法,其特征在于:步骤D中采用L2正则随机梯度下降逻辑回归分类器对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。
CN201510670711.4A 2015-10-19 2015-10-19 基于深度学习的网页模式识别方法及视觉结构学习方法 Active CN105302884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510670711.4A CN105302884B (zh) 2015-10-19 2015-10-19 基于深度学习的网页模式识别方法及视觉结构学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510670711.4A CN105302884B (zh) 2015-10-19 2015-10-19 基于深度学习的网页模式识别方法及视觉结构学习方法

Publications (2)

Publication Number Publication Date
CN105302884A CN105302884A (zh) 2016-02-03
CN105302884B true CN105302884B (zh) 2019-02-19

Family

ID=55200154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510670711.4A Active CN105302884B (zh) 2015-10-19 2015-10-19 基于深度学习的网页模式识别方法及视觉结构学习方法

Country Status (1)

Country Link
CN (1) CN105302884B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161209B (zh) * 2016-07-21 2019-09-20 康佳集团股份有限公司 一种基于深度自学习的垃圾短信过滤方法及***
CN106503066B (zh) * 2016-09-29 2019-10-15 北京百度网讯科技有限公司 基于人工智能的处理搜索结果方法和装置
US11144718B2 (en) 2017-02-28 2021-10-12 International Business Machines Corporation Adaptable processing components
CN107665248A (zh) * 2017-09-22 2018-02-06 齐鲁工业大学 基于深度学习混合模型的文本分类方法和装置
CN108984694B (zh) * 2018-07-04 2019-07-30 龙马智芯(珠海横琴)科技有限公司 网页的处理方法及装置、存储介质、电子装置
CN109241383B (zh) * 2018-07-20 2019-06-21 北京开普云信息科技有限公司 一种基于深度学习的网页类型智能识别方法及***
US10824794B2 (en) 2019-04-08 2020-11-03 Paypal, Inc. Process for creating a fixed length representation of a variable length input
CN110275958B (zh) * 2019-06-26 2021-07-27 北京市博汇科技股份有限公司 网站信息识别方法、装置和电子设备
CN112966263A (zh) * 2021-02-25 2021-06-15 ***股份有限公司 目标信息获取方法、装置及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567337A (zh) * 2010-12-15 2012-07-11 盛乐信息技术(上海)有限公司 一种通过链接快速识别网页类型的方法及***
CN103309862A (zh) * 2012-03-07 2013-09-18 腾讯科技(深圳)有限公司 一种网页类型识别方法和***
CN103544210A (zh) * 2013-09-02 2014-01-29 烟台中科网络技术研究所 一种识别网页类型的***和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870487B (zh) * 2012-12-13 2017-07-25 腾讯科技(深圳)有限公司 网页文件处理方法及移动终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567337A (zh) * 2010-12-15 2012-07-11 盛乐信息技术(上海)有限公司 一种通过链接快速识别网页类型的方法及***
CN103309862A (zh) * 2012-03-07 2013-09-18 腾讯科技(深圳)有限公司 一种网页类型识别方法和***
CN103544210A (zh) * 2013-09-02 2014-01-29 烟台中科网络技术研究所 一种识别网页类型的***和方法

Also Published As

Publication number Publication date
CN105302884A (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
CN105302884B (zh) 基于深度学习的网页模式识别方法及视觉结构学习方法
CN103942550B (zh) 一种基于稀疏编码特征的场景文本识别方法
CN107038480A (zh) 一种基于卷积神经网络的文本情感分类方法
CN106874410A (zh) 基于卷积神经网络的中文微博文本情绪分类方法及其***
CN104834941A (zh) 基于计算机输入下的稀疏自编码的脱机手写体识别方法
CN106919557A (zh) 一种结合主题模型的文档向量生成方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN103034726B (zh) 文本过滤***及方法
CN106126502A (zh) 一种基于支持向量机的情感分类***及方法
CN105550278A (zh) 基于深度学习的网页区域识别算法
CN105740382A (zh) 一种对短评论文本进行方面分类方法
CN107357785A (zh) 主题特征词抽取方法及***、情感极性判断方法及***
CN110502757B (zh) 一种自然语言情感分析方法
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及***
CN105975497A (zh) 微博话题自动推荐方法及装置
CN109710946A (zh) 一种基于依赖解析树的联合论辩挖掘***及方法
CN111859983A (zh) 基于人工智能的自然语言标注方法及相关设备
CN111125370A (zh) 一种适应小样本的关系抽取方法
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与***
CN101655911B (zh) 基于免疫抗体网络的模式识别方法
CN110110846A (zh) 基于卷积神经网络的辅助驾驶人车交互方法
CN109858008A (zh) 基于深度学习的文书判决结果倾向性的方法及装置
CN104866867B (zh) 一种基于清分机的多国纸币序列号字符识别方法
CN102034102B (zh) 图像显著对象提取方法、互补显著度图学习方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat

Applicant after: Tianjin mass information technology Limited by Share Ltd

Address before: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat

Applicant before: Tianjin Hylanda Information Technology Co.,Ltd.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant