CN115495693B - 一种网站页面处理方法 - Google Patents

一种网站页面处理方法 Download PDF

Info

Publication number
CN115495693B
CN115495693B CN202211333120.4A CN202211333120A CN115495693B CN 115495693 B CN115495693 B CN 115495693B CN 202211333120 A CN202211333120 A CN 202211333120A CN 115495693 B CN115495693 B CN 115495693B
Authority
CN
China
Prior art keywords
text
website page
neural network
network model
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211333120.4A
Other languages
English (en)
Other versions
CN115495693A (zh
Inventor
刘羽
傅晓航
刘宸
张正义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202211333120.4A priority Critical patent/CN115495693B/zh
Publication of CN115495693A publication Critical patent/CN115495693A/zh
Application granted granted Critical
Publication of CN115495693B publication Critical patent/CN115495693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)

Abstract

本申请涉及信息提取技术领域,特别是涉及一种网站页面处理方法。该方法包括:S100,爬取目标网站页面,得到目标网站页面对应的文本T;S200,利用去广告算法对T进行NLP处理,得到第一文本T1;S300,获取目标网站页面的图像P,并利用与所述目标网站页面匹配的经训练的神经网络模型对P进行区域划分和分类,得到第一类别区域图像和第二类别区域图像;S400,对第一类别区域图像进行OCR文字识别,得到第二文本T2;遍历T1和T2,如果sm与某一sn,q匹配,则保留T1中sm;否则,删除T1中sm;S500,获取更新后的T1。本发明能够有效滤除网站页面上与正文相关的非正文内容。

Description

一种网站页面处理方法
技术领域
本发明涉及信息提取技术领域,特别是涉及一种网站页面处理方法。
背景技术
利用爬虫技术爬取网站页面后,可利用去广告算法对爬取得到的文本进行NLP处理(自然语言处理),以滤除文本中与网站页面的正文无关的广告内容。但是,网站网页上除了包括广告之外,还包括一些与正文内容相关的非正文内容,如readmore(继续阅读)链接和对正文的一些描述等。由于这些非正文内容与正文相关,因此不容易基于语义将这些内容从爬取得到的文本中滤除,那么如何滤除这些与正文相关的非正文内容,是亟待解决的问题。
发明内容
本发明目的在于,提供一种网站页面处理方法,能够有效滤除网站页面上与正文相关的非正文内容。
根据本发明,提供了一种网站页面处理方法,包括以下步骤:
S100,爬取目标网站页面,得到目标网站页面对应的文本T。
S200,利用去广告算法对T进行NLP处理,得到第一文本T1=(s1,s2,…,sM),sm为T1包括的第m个语句,m的取值范围为1到M,M为T1包括的语句数量。
S300,获取目标网站页面的图像P,并利用与所述目标网站页面匹配的经训练的神经网络模型对P进行区域划分和分类,得到第一类别区域图像(P1,1,P1,2,…,P1,N)和第二类别区域图像(P2,1,P2,2,…,P2,D);P1,n为对P进行区域划分得到的第n张第一类别区域图像,n的取值范围为1到N,N为对P进行区域划分得到的第一类别区域图像数量;P2,d为对P进行区域划分得到的第d张第二类别区域图像,d的取值范围为1到D,D为对P进行区域划分得到的第二类别区域图像数量;所述第一类别区域图像对应于目标网站页面的正文信息,所述第二类别区域图像对应于目标网站页面中的非正文信息,所述非正文信息包括广告、推荐信息或对正文信息的描述。
S400,对(P1,1,P1,2,…,P1,N)进行OCR文字识别,得到第二文本T2=(T2,1,T2,2,…,T2,N),T2,n为对P1,n进行OCR文字识别得到的文本,T2,n=(sn,1,sn,2,…,sn,Q),sn,q为T2,n包括的第q个语句,q的取值范围为1到Q,Q为T2,n包括的语句数量;遍历T1和T2,如果sm与某一sn,q匹配,则保留T1中sm;否则,删除T1中sm
或者对(P2,1,P2,2,…,P2,D)进行OCR文字识别,得到第三文本T3=(T3,1,T3,2,…,T3,D),T3,d为对P2,d进行OCR文字识别得到的文本,T3,d=(sd,1,sd,2,…,sd,A),sd,a为T3,d包括的第a个语句,a的取值范围为1到A,A为T3,d包括的语句数量;遍历T1和T3,如果sm不与任一sd,a匹配,则保留T1中sm;否则,删除T1中sm
S500,获取更新后的T1
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的网站页面处理方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
本发明除了利用去广告算法对T进行NLP处理之外,还获得了目标网站页面的图像,并利用经训练的神经网络模型实现了对该图像的区域划分和分类,得到了与目标网站页面正文对应的第一类别区域图像以及与目标网站页面非正文对应的第二类别区域图像;对第一类别区域图像进行OCR文字识别得到的文本即是与目标网站页面正文对应的文本T2,已经不再包括非正文信息;对第二类别区域图像进行OCR文字识别得到的文本即是与目标网站页面非正文对应的文本T3,只包括非正文信息。由于利用去广告算法对T进行NLP处理得到的第一文本T1中还包括与正文相关的非正文,而T2已经是不包括非正文的文本,T3是只包括非正文的文本,因此,本发明将T1中各语句与T2中各语句进行匹配,删除T1中不能与T2中语句匹配的语句,保留T1中可以与T2中语句匹配的语句,由此,更新后的T1中也不包括与正文相关的非正文内容;或者将T1中各语句与T3中各语句进行匹配,删除T1中与T3中语句匹配的语句,保留T1中不与T3中语句匹配的语句,由此,更新后的T1中也不包括与正文相关的非正文内容。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的网站页面处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的第一方面,提供了一种网站页面处理方法,如图1所示,包括以下步骤:
S100,爬取目标网站页面,得到目标网站页面对应的文本T。
应当理解的是,目标网站页面上不但包括正文信息,还包括非正文信息。正文信息是与网站页面中标题最相关的内容,例如一个新闻报道网站页面中的报道主体;非正文信息一般包括广告、推荐信息和对正文信息的描述,推荐信息例如与正文信息相关的readmore,对正文信息的描述例如对正文中嵌入的与正文信息相关的图片的描述。
应当理解的是,利用爬虫技术爬取目标网站页面可以得到目标网站页面对应的文本。本领域技术人员知悉,现有技术中利用任何爬取网站页面的方法得到网站页面对应的文本均落入本发明的保护范围。
S200,利用去广告算法对T进行NLP处理,得到第一文本T1=(s1,s2,…,sM),sm为T1包括的第m个语句,m的取值范围为1到M,M为T1包括的语句数量。
应当理解的是,去广告算法的目的在于滤除T中与目标网站页面正文信息无关的广告内容。本领域技术人员知悉,现有技术中任何利用去广告算法对文本进行NLP处理的方法均落入本发明的保护范围。
S300,获取目标网站页面的图像P,并利用与所述目标网站页面匹配的经训练的神经网络模型对P进行区域划分和分类,得到第一类别区域图像(P1,1,P1,2,…,P1,N)和第二类别区域图像(P2,1,P2,2,…,P2,D);P1,n为对P进行区域划分得到的第n张第一类别区域图像,n的取值范围为1到N,N为对P进行区域划分得到的第一类别区域图像数量;P2,d为对P进行区域划分得到的第d张第二类别区域图像,d的取值范围为1到D,D为对P进行区域划分得到的第二类别区域图像数量;所述第一类别区域图像对应于目标网站页面的正文信息,所述第二类别区域图像对应于目标网站页面中的非正文信息,所述非正文信息包括广告、推荐信息或对正文信息的描述。
应当理解的是,不同网站的编辑风格不同,但是各网站的编辑风格又是具有某些特点的,例如,有的网站会将广告设置在正文的两侧,将与正文信息相关的图片插在正文的两段落之间,会将对图片的描述以较小的字体设置在图片的下方。因此,本发明通过预先构建与各预设网站对应的经训练的神经网络模型的方式来区分P中的正文信息和非正文信息。
本发明与所述目标网站页面匹配的经训练的神经网络模型的获取方法包括:
S310,获取目标网站页面的网址。
S320,解析所述目标网站页面的网址,得到所述目标网站页面对应的网站W。
应当理解的是,各网站对应的网页的网址都包括对应网站的网址,因此可以通过网页的网址来判断网页所属的网站。
S330,从预先构建的神经网络模型库中匹配与W对应的经训练的神经网络模型,所述神经网络模型库中存储有各预设网站对应的经训练的神经网络模型。
应当理解的是,不同网站的编辑特点不同,因此本发明构建了神经网络模型库,库中每个经训练的神经网络模型对应一个网站。
本发明神经网络模型库的构建方法包括:
S331,获取网站页面图像样本集P’={P’1,P’2,…,P’B},P’b={P’b,1,P’b,2,…,P’b,H},P’b为P’对应的第b个网站的网站页面图像样本,b的取值范围为1到B,B为P’对应的网站数量;P’b,h为P’b的第h个网站页面图像样本,h的取值范围为1到H,H为P’b包括的网站页面图像样本数量。
根据本发明,P’中包括各预设网站对应的网站页面图像样本。应当理解的是,为了提高获取的经训练的神经网络模型的准确度,各预设网站对应的网站页面图像样本数量应为较大值。
S332,遍历P’,将P’b,h进行区域划分,如果某区域对应于网站页面的正文信息,则将该区域标注为第一类别区域;如果某区域对应于网站页面的非正文信息,则将该区域标注为第二类别区域。
本发明不局限于具体的区域划分方法,但进行区域划分时应满足如下条件:将正文信息和非正文信息划分到不同的区域中。该条件可以避免出现某一区域中既包括正文信息又包括非正文信息的情况,保证后续对各区域进行分类时标注的准确性。
本发明可通过人工的方式来实现S332中对区域的划分和标注。
S333,遍历P’,根据对P’b,h的标注结果对神经网络模型进行训练,得到P’对应的第b个网站对应的经训练的神经网络模型。
本发明对P’b,h对应的各划分区域的类型进行了标注,因此,本发明对神经网络模型进行的训练属于有监督训练。应当理解的是,经训练的神经网络模型已经具备对对应的网站页面进行区域划分和对划分的区域标注第一类别或第二类别的能力,也即具有了区域划分和对划分得到的区域进行分类的能力。
应当理解的是,现有技术中任何基于训练样本对神经网络模型进行训练的方法均落入本发明的保护范围。
S400,对(P1,1,P1,2,…,P1,N)进行OCR文字识别,得到第二文本T2=(T2,1,T2,2,…,T2,N),T2,n为对P1,n进行OCR文字识别得到的文本,T2,n=(sn,1,sn,2,…,sn,Q),sn,q为T2,n包括的第q个语句,q的取值范围为1到Q,Q为T2,n包括的语句数量;遍历T1和T2,如果sm与某一sn,q匹配,则保留T1中sm;否则,删除T1中sm;或者对(P2,1,P2,2,…,P2,D)进行OCR文字识别,得到第三文本T3=(T3,1,T3,2,…,T3,D),T3,d为对P2,d进行OCR文字识别得到的文本,T3,d=(sd,1,sd,2,…,sd,A),sd,a为T3,d包括的第a个语句,a的取值范围为1到A,A为T3,d包括的语句数量;遍历T1和T3,如果sm不与任一sd,a匹配,则保留T1中sm;否则,删除T1中sm
应当理解的是,OCR文字识别技术可以将图像转换为对应的文本。根据本发明,利用OCR文字识别技术识别每张第一类别区域图像,得到每张第一类别区域图像对应的文本,该文本可视为由多个语句构成,这些语句均是目标网站页面的正文信息对应的语句。同样的,利用OCR文字识别技术识别每张第二类别区域图像,得到每张第二类别区域图像对应的文本,该文本可视为由多个语句构成,这些语句均是目标网站页面的非正文信息对应的语句。
本领域技术人员知悉,现有技术中任何利用OCR文字识别技术进行文字识别的方法均落入本发明的保护范围。
作为第一实施例,将T1中各语句与T2中各语句进行匹配。根据本发明,利用去广告算法对T进行NLP处理得到的第一文本T1中还包括与正文相关的非正文,而T2已经是不包括非正文的文本,因此,本发明将进行NLP处理后得到的T1中各语句与T2中各语句进行匹配,删除T1中不能与T2中语句匹配的语句(当T1中某语句与T2中所有语句都不匹配时,才判定T1中该语句不与T2中语句匹配),保留T1中可以与T2中语句匹配的语句(只要T1中某语句与T2中某一语句匹配,即判定T1中该语句与T2中语句匹配),由此,就可以将T1中与正文相关的非正文内容滤除。而且,相较于直接将T2作为网站页面对应的最终文本的方法,本发明只有在T1中sm同时出现T2中时才将sm保留,可以避免T1或T2中广告没有筛掉的情况,提高目标网站页面对应的最终文本中没有广告的概率(本发明将更新后的T1作为目标网站页面对应的最终文本)。
作为第二实施例,将T1中各语句与T3中各语句进行匹配。根据本发明,T1中还包括与正文相关的非正文,而T3只包括非正文的文本,因此,本发明将T1中各语句与T2中各语句进行匹配,删除T1中与T3中语句匹配的语句(只要T1中某语句与T3中某一语句匹配,即判定T1中该语句与T3中语句匹配),保留T1中不能与T3中语句匹配的语句(当T1中某语句与T3中所有语句都不匹配时,才判定T1中该语句不与T3中语句匹配),由此,就可以将T1中与正文相关的非正文内容滤除。
本领域技术人员知悉,现有技术中任何判断两语句是否匹配的方法均落入本发明的保护范围。应当理解的是,两语句匹配指两语句为同一语句。可选的,通过获取sm与sn,q中最大共享字符串的方式来判断sm与sn,q是否匹配,判断方法包括:
S410,获取sm与sn,q中最大共享字符串的长度L1
本领域技术人员知悉,现有技术中任何获取两文本的最大共享字符串的方法均落入本发明的保护范围。
S420,获取sm字符串的长度L2
S430,如果z=L1/L2大于设定占比阈值k,则判定sm与sn,q匹配;否则,判定sm与sn,q不匹配。
本发明中0<k<1。应当理解的是,z的值越大,sm与sn,q的相似性越高。当z=1时,sm与sn,q为同一文本。但考虑到OCR识别过程中可能出现对sn,q识别不准确的问题,优选的,设置k≥0.9。
本发明判断sm与sd,a是否匹配的方法与判断sm与sn,q是否匹配的方法相同,此处不再赘述。
S500,获取更新后的T1
将更新后的T1作为目标网站界面对应的最终文本,即只包括正文的文本。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims (7)

1.一种网站页面处理方法,其特征在于,包括以下步骤:
S100,爬取目标网站页面,得到目标网站页面对应的文本T;
S200,利用去广告算法对T进行NLP处理,得到第一文本T1=(s1,s2,…,sM),sm为T1包括的第m个语句,m的取值范围为1到M,M为T1包括的语句数量;
S300,获取目标网站页面的图像P,并利用与所述目标网站页面匹配的经训练的神经网络模型对P进行区域划分和分类,得到第一类别区域图像(P1,1,P1,2,…,P1,N)和第二类别区域图像(P2,1,P2,2,…,P2,D);P1,n为对P进行区域划分得到的第n张第一类别区域图像,n的取值范围为1到N,N为对P进行区域划分得到的第一类别区域图像数量;P2,d为对P进行区域划分得到的第d张第二类别区域图像,d的取值范围为1到D,D为对P进行区域划分得到的第二类别区域图像数量;所述第一类别区域图像对应于目标网站页面的正文信息,所述第二类别区域图像对应于目标网站页面中的非正文信息,所述非正文信息包括广告、推荐信息或对正文信息的描述;
S400,对(P1,1,P1,2,…,P1,N)进行OCR文字识别,得到第二文本T2=(T2,1,T2,2,…,T2,N),T2,n为对P1,n进行OCR文字识别得到的文本,T2,n=(sn,1,sn,2,…,sn,Q),sn,q为T2,n包括的第q个语句,q的取值范围为1到Q,Q为T2,n包括的语句数量;遍历T1和T2,如果sm与某一sn,q匹配,则保留T1中sm;否则,删除T1中sm
或者对(P2,1,P2,2,…,P2,D)进行OCR文字识别,得到第三文本T3=(T3,1,T3,2,…,T3,D),T3,d为对P2,d进行OCR文字识别得到的文本,T3,d=(sd,1,sd,2,…,sd,A),sd,a为T3,d包括的第a个语句,a的取值范围为1到A,A为T3,d包括的语句数量;遍历T1和T3,如果sm不与任一sd,a匹配,则保留T1中sm;否则,删除T1中sm
S500,获取更新后的T1
2.根据权利要求1所述的方法,其特征在于,S300中与所述目标网站页面匹配的经训练的神经网络模型的获取方法包括:
S310,获取目标网站页面的网址;
S320,解析所述目标网站页面的网址,得到所述目标网站页面对应的网站W;
S330,从预先构建的神经网络模型库中匹配与W对应的经训练的神经网络模型,所述神经网络模型库中存储有各预设网站对应的经训练的神经网络模型。
3.根据权利要求2所述的方法,其特征在于,S330中神经网络模型库的构建方法包括:
S331,获取网站页面图像样本集P’={P’1,P’2,…,P’B},P’b={P’b,1,P’b,2,…,P’b,H},P’b为P’对应的第b个网站的网站页面图像样本,b的取值范围为1到B,B为P’对应的网站数量;P’b,h为P’b的第h个网站页面图像样本,h的取值范围为1到H,H为P’b包括的网站页面图像样本数量;
S332,遍历P’,将P’b,h进行区域划分,如果某区域对应于网站页面的正文信息,则将该区域标注为第一类别区域;如果某区域对应于网站页面的非正文信息,则将该区域标注为第二类别区域;
S333,遍历P’,根据对P’b,h的标注结果对神经网络模型进行训练,得到P’对应的第b个网站对应的经训练的神经网络模型。
4.根据权利要求3所述的方法,其特征在于,S332中所述区域划分满足的划分条件包括:将正文信息和非正文信息划分到不同的区域中。
5.根据权利要求1所述的方法,其特征在于,S400中,通过获取sm与sn,q中最大共享字符串的方式来判断sm与sn,q是否匹配。
6.根据权利要求5所述的方法,其特征在于,判断sm与sn,q是否匹配的方法包括:
S410,获取sm与sn,q中最大共享字符串的长度L1
S420,获取sm字符串的长度L2
S430,如果z大于设定占比阈值k,则判定sm与sn,q匹配,z=L1/L2;否则,判定sm与sn,q不匹配。
7.根据权利要求6所述的方法,其特征在于,k≥0.9。
CN202211333120.4A 2022-10-28 2022-10-28 一种网站页面处理方法 Active CN115495693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211333120.4A CN115495693B (zh) 2022-10-28 2022-10-28 一种网站页面处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211333120.4A CN115495693B (zh) 2022-10-28 2022-10-28 一种网站页面处理方法

Publications (2)

Publication Number Publication Date
CN115495693A CN115495693A (zh) 2022-12-20
CN115495693B true CN115495693B (zh) 2023-04-28

Family

ID=85115147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211333120.4A Active CN115495693B (zh) 2022-10-28 2022-10-28 一种网站页面处理方法

Country Status (1)

Country Link
CN (1) CN115495693B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386488B2 (en) * 2004-04-27 2013-02-26 International Business Machines Corporation Method and system for matching appropriate content with users by matching content tags and profiles
CN111401416B (zh) * 2020-03-05 2022-10-21 支付宝(杭州)信息技术有限公司 异常网站的识别方法、装置和异常对抗行为的识别方法
CN112101004B (zh) * 2020-09-23 2023-03-21 电子科技大学 基于条件随机场与句法分析的通用网页人物信息提取方法

Also Published As

Publication number Publication date
CN115495693A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN103309862B (zh) 一种网页类型识别方法和***
CN110276054B (zh) 一种保险文本结构化实现方法
CN107590219A (zh) 网页人物主题相关信息提取方法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN112507711A (zh) 文本摘要抽取方法及***
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
Sheshikala et al. Natural language processing and machine learning classifier used for detecting the author of the sentence
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN112966117A (zh) 实体链接方法
CN116308758B (zh) 一种基于大数据的金融风险分析方法及***
CN108681977B (zh) 一种律师信息处理方法和***
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN107436931B (zh) 网页正文抽取方法及装置
CN115713085A (zh) 文献主题内容分析方法及装置
CN115309910A (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
CN111274494B (zh) 结合深度学习和协同过滤技术的复合标签推荐方法
CN115495693B (zh) 一种网站页面处理方法
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
CN115658993A (zh) 一种网页的核心内容的智能化抽取方法及***
CN113902354B (zh) 旅游评价数据处理方法、装置和计算机设备
CN111274354B (zh) 一种裁判文书结构化方法及装置
CN114610948A (zh) 视频分类方法、装置、电子设备及存储介质
Lafia et al. Digitizing and parsing semi-structured historical administrative documents from the GI Bill mortgage guarantee program
CN112417858A (zh) 一种实体权重评分方法、***、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant