CN106528583A - 一种网页正文提取比对方法 - Google Patents

一种网页正文提取比对方法 Download PDF

Info

Publication number
CN106528583A
CN106528583A CN201510793525.XA CN201510793525A CN106528583A CN 106528583 A CN106528583 A CN 106528583A CN 201510793525 A CN201510793525 A CN 201510793525A CN 106528583 A CN106528583 A CN 106528583A
Authority
CN
China
Prior art keywords
web page
text
label
webpage
submodule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510793525.XA
Other languages
English (en)
Chinese (zh)
Inventor
孙燕群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510793525.XA priority Critical patent/CN106528583A/zh
Priority to PCT/CN2015/100180 priority patent/WO2017080090A1/fr
Publication of CN106528583A publication Critical patent/CN106528583A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)
CN201510793525.XA 2015-11-14 2015-11-14 一种网页正文提取比对方法 Pending CN106528583A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510793525.XA CN106528583A (zh) 2015-11-14 2015-11-14 一种网页正文提取比对方法
PCT/CN2015/100180 WO2017080090A1 (fr) 2015-11-14 2015-12-31 Procédé d'extraction et de comparaison pour un texte de page internet

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510793525.XA CN106528583A (zh) 2015-11-14 2015-11-14 一种网页正文提取比对方法

Publications (1)

Publication Number Publication Date
CN106528583A true CN106528583A (zh) 2017-03-22

Family

ID=58348780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510793525.XA Pending CN106528583A (zh) 2015-11-14 2015-11-14 一种网页正文提取比对方法

Country Status (2)

Country Link
CN (1) CN106528583A (fr)
WO (1) WO2017080090A1 (fr)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和***
CN109543126A (zh) * 2018-11-19 2019-03-29 四川长虹电器股份有限公司 基于块文字占比的网页正文信息提取方法
CN111194457A (zh) * 2018-07-31 2020-05-22 株式会社艾飒木兰 专利评估判定方法、专利评估判定装置以及专利评估判定程序
CN112214737A (zh) * 2020-11-10 2021-01-12 山东比特智能科技股份有限公司 以图片为主的欺诈网页的识别方法、***、装置和介质
CN112528205A (zh) * 2020-12-22 2021-03-19 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
CN112765940A (zh) * 2021-01-20 2021-05-07 南京万得资讯科技有限公司 一种基于主题特征和内容语义的新型网页去重方法
CN113449078A (zh) * 2021-06-25 2021-09-28 完美世界控股集团有限公司 相似新闻识别方法、设备、***及存储介质
CN114239590A (zh) * 2021-12-01 2022-03-25 马上消费金融股份有限公司 一种数据处理方法及装置
CN115238208A (zh) * 2022-06-28 2022-10-25 北京关键科技股份有限公司 一种基于符号特征的数据检索方法及设备

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019794B (zh) * 2017-11-07 2023-04-25 腾讯科技(北京)有限公司 文本资源的分类方法、装置、存储介质及电子装置
CN110196968B (zh) * 2019-06-06 2023-04-07 北京林业大学 一种基于特定字符串查找的简体中文编码方式自动识别***及方法
CN110795933B (zh) * 2019-09-30 2023-10-31 奇安信科技集团股份有限公司 一种网页正文的识别处理方法及装置
CN110874428A (zh) * 2019-11-11 2020-03-10 汉口北进出口服务有限公司 电商页面的结构化数据提取装置、方法及可读存储介质
CN111241446B (zh) * 2020-01-13 2023-10-31 杭州安恒信息技术股份有限公司 一种web网页的正文内容提取方法、装置、设备及介质
CN111708900B (zh) * 2020-06-17 2023-08-25 北京明略软件***有限公司 标签同义词的扩充方法、扩充装置、电子设备及存储介质
CN112101004B (zh) * 2020-09-23 2023-03-21 电子科技大学 基于条件随机场与句法分析的通用网页人物信息提取方法
CN112269906B (zh) * 2020-10-14 2023-04-14 西安邮电大学 网页正文的自动抽取方法及装置
CN112287254B (zh) * 2020-11-23 2023-10-27 武汉虹旭信息技术有限责任公司 网页结构化信息提取方法、装置、电子设备及存储介质
CN112668309B (zh) * 2020-11-25 2023-03-07 紫光云技术有限公司 一种融合压缩dom树结构向量的网络行为预测方法
CN113033220A (zh) * 2021-04-15 2021-06-25 沈阳雅译网络技术有限公司 一种基于莱文斯坦比的文言文-现代文翻译***构建方法
CN113065086A (zh) * 2021-04-23 2021-07-02 深圳壹账通智能科技有限公司 网页正文提取方法、装置、电子设备及存储介质
CN113434797B (zh) * 2021-06-29 2024-05-31 ***数智科技有限公司 一种网页信息提取方法及装置
CN113486228B (zh) * 2021-07-02 2022-05-10 燕山大学 基于md5三叉树和改进birch算法的互联网论文数据自动抽取算法
CN113569119A (zh) * 2021-07-02 2021-10-29 中译语通科技股份有限公司 一种基于多模态机器学习的新闻网页正文抽取***及方法
CN117573959B (zh) * 2023-10-17 2024-04-05 北京国科众安科技有限公司 一种基于网页xpath获取新闻正文的通用方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197849B (zh) * 2007-12-21 2012-10-03 腾讯科技(深圳)有限公司 将互联网页面转换为无线应用协议页面的转换方法
JP5392227B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド フィルタリング装置およびフィルタリング方法
CN103064966B (zh) * 2012-12-31 2016-01-27 中国科学院计算技术研究所 一种从单记录网页中抽取规律噪音的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朱泽德: "网络双语语料挖掘关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 *
杨钦 等: "一种基于标点密度的网页正文提取方法", 《智能计算机与应用》 *
陈秋: "移动互联网内容相似性研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和***
CN108920434B (zh) * 2018-06-06 2022-08-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和***
CN111194457A (zh) * 2018-07-31 2020-05-22 株式会社艾飒木兰 专利评估判定方法、专利评估判定装置以及专利评估判定程序
CN109543126B (zh) * 2018-11-19 2022-04-29 四川长虹电器股份有限公司 基于块文字占比的网页正文信息提取方法
CN109543126A (zh) * 2018-11-19 2019-03-29 四川长虹电器股份有限公司 基于块文字占比的网页正文信息提取方法
CN112214737A (zh) * 2020-11-10 2021-01-12 山东比特智能科技股份有限公司 以图片为主的欺诈网页的识别方法、***、装置和介质
CN112214737B (zh) * 2020-11-10 2022-06-24 山东比特智能科技股份有限公司 以图片为主的欺诈网页的识别方法、***、装置和介质
CN112528205B (zh) * 2020-12-22 2021-10-29 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
CN112528205A (zh) * 2020-12-22 2021-03-19 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
CN112765940A (zh) * 2021-01-20 2021-05-07 南京万得资讯科技有限公司 一种基于主题特征和内容语义的新型网页去重方法
CN112765940B (zh) * 2021-01-20 2024-04-19 南京万得资讯科技有限公司 一种基于主题特征和内容语义的网页去重方法
CN113449078A (zh) * 2021-06-25 2021-09-28 完美世界控股集团有限公司 相似新闻识别方法、设备、***及存储介质
CN114239590A (zh) * 2021-12-01 2022-03-25 马上消费金融股份有限公司 一种数据处理方法及装置
CN114239590B (zh) * 2021-12-01 2023-09-19 马上消费金融股份有限公司 一种数据处理方法及装置
CN115238208A (zh) * 2022-06-28 2022-10-25 北京关键科技股份有限公司 一种基于符号特征的数据检索方法及设备

Also Published As

Publication number Publication date
WO2017080090A1 (fr) 2017-05-18

Similar Documents

Publication Publication Date Title
CN106528583A (zh) 一种网页正文提取比对方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与***
CN103049435B (zh) 文本细粒度情感分析方法及装置
US20180341630A1 (en) System and method of document generation
CN109271626A (zh) 文本语义分析方法
CN101079025B (zh) 一种文档相关度计算***和方法
CN107590219A (zh) 网页人物主题相关信息提取方法
CN104598577B (zh) 一种网页正文的提取方法
CN109684642B (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN111143479A (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
CN102955848B (zh) 一种基于语义的三维模型检索***和方法
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN103646112B (zh) 利用了网络搜索的依存句法的领域自适应方法
Zheng et al. Template-independent news extraction based on visual consistency
CN112417854A (zh) 中文文档抽取式摘要方法
CN105574066A (zh) 网页正文提取比对方法及其***
CN112667940B (zh) 基于深度学习的网页正文抽取方法
CN103559199A (zh) 网页信息抽取方法和装置
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
CN108038099A (zh) 基于词聚类的低频关键词识别方法
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN110222338A (zh) 一种机构名实体识别方法
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170322

RJ01 Rejection of invention patent application after publication