CN115495693A

CN115495693A - 一种网站页面处理方法

Info

Publication number: CN115495693A
Application number: CN202211333120.4A
Authority: CN
Inventors: 刘羽; 傅晓航; 刘宸; 张正义
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2022-12-20
Anticipated expiration: 2042-10-28
Also published as: CN115495693B

Abstract

本申请涉及信息提取技术领域，特别是涉及一种网站页面处理方法。该方法包括：S100，爬取目标网站页面，得到目标网站页面对应的文本T；S200，利用去广告算法对T进行NLP处理，得到第一文本T₁；S300，获取目标网站页面的图像P，并利用与所述目标网站页面匹配的经训练的神经网络模型对P进行区域划分和分类，得到第一类别区域图像和第二类别区域图像；S400，对第一类别区域图像进行OCR文字识别，得到第二文本T₂；遍历T₁和T₂，如果s_m与某一s_n,q匹配，则保留T₁中s_m；否则，删除T₁中s_m；S500，获取更新后的T₁。本发明能够有效滤除网站页面上与正文相关的非正文内容。

Description

一种网站页面处理方法

技术领域

本发明涉及信息提取技术领域，特别是涉及一种网站页面处理方法。

背景技术

利用爬虫技术爬取网站页面后，可利用去广告算法对爬取得到的文本进行NLP处理(自然语言处理)，以滤除文本中与网站页面的正文无关的广告内容。但是，网站网页上除了包括广告之外，还包括一些与正文内容相关的非正文内容，如readmore(继续阅读)链接和对正文的一些描述等。由于这些非正文内容与正文相关，因此不容易基于语义将这些内容从爬取得到的文本中滤除，那么如何滤除这些与正文相关的非正文内容，是亟待解决的问题。

发明内容

本发明目的在于，提供一种网站页面处理方法，能够有效滤除网站页面上与正文相关的非正文内容。

根据本发明，提供了一种网站页面处理方法，包括以下步骤：

S100，爬取目标网站页面，得到目标网站页面对应的文本T。

S200，利用去广告算法对T进行NLP处理，得到第一文本T₁＝(s₁，s₂，…，s_M)，s_m为T₁包括的第m个语句，m的取值范围为1到M，M为T₁包括的语句数量。

S300，获取目标网站页面的图像P，并利用与所述目标网站页面匹配的经训练的神经网络模型对P进行区域划分和分类，得到第一类别区域图像(P_1,1，P_1,2，…，P_1,N)和第二类别区域图像(P_2,1，P_2,2，…，P_2,D)；P_1,n为对P进行区域划分得到的第n张第一类别区域图像，n的取值范围为1到N，N为对P进行区域划分得到的第一类别区域图像数量；P_2,d为对P进行区域划分得到的第d张第二类别区域图像，d的取值范围为1到D，D为对P进行区域划分得到的第二类别区域图像数量；所述第一类别区域图像对应于目标网站页面的正文信息，所述第二类别区域图像对应于目标网站页面中的非正文信息，所述非正文信息包括广告、推荐信息或对正文信息的描述。

S400，对(P_1,1，P_1,2，…，P_1,N)进行OCR文字识别，得到第二文本T₂＝(T_2,1，T_2,2，…，T_2,N)，T_2,n为对P_1,n进行OCR文字识别得到的文本，T_2,n＝(s_n,1，s_n,2，…，s_n,Q)，s_n,q为T_2,n包括的第q个语句，q的取值范围为1到Q，Q为T_2,n包括的语句数量；遍历T₁和T₂，如果s_m与某一s_n,q匹配，则保留T₁中s_m；否则，删除T₁中s_m。

或者对(P_2,1，P_2,2，…，P_2,D)进行OCR文字识别，得到第三文本T₃＝(T_3,1，T_3,2，…，T_3,D)，T_3,d为对P_2,d进行OCR文字识别得到的文本，T_3,d＝(s_d,1，s_d,2，…，s_d,A)，s_d,a为T_3,d包括的第a个语句，a的取值范围为1到A，A为T_3,d包括的语句数量；遍历T₁和T₃，如果s_m不与任一s_d,a匹配，则保留T₁中s_m；否则，删除T₁中s_m。

S500，获取更新后的T₁。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的网站页面处理方法可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明除了利用去广告算法对T进行NLP处理之外，还获得了目标网站页面的图像，并利用经训练的神经网络模型实现了对该图像的区域划分和分类，得到了与目标网站页面正文对应的第一类别区域图像以及与目标网站页面非正文对应的第二类别区域图像；对第一类别区域图像进行OCR文字识别得到的文本即是与目标网站页面正文对应的文本T₂，已经不再包括非正文信息；对第二类别区域图像进行OCR文字识别得到的文本即是与目标网站页面非正文对应的文本T₃，只包括非正文信息。由于利用去广告算法对T进行NLP处理得到的第一文本T₁中还包括与正文相关的非正文，而T₂已经是不包括非正文的文本，T₃是只包括非正文的文本，因此，本发明将T₁中各语句与T₂中各语句进行匹配，删除T₁中不能与T₂中语句匹配的语句，保留T₁中可以与T₂中语句匹配的语句，由此，更新后的T₁中也不包括与正文相关的非正文内容；或者将T₁中各语句与T₃中各语句进行匹配，删除T₁中与T₃中语句匹配的语句，保留T₁中不与T₃中语句匹配的语句，由此，更新后的T₁中也不包括与正文相关的非正文内容。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的网站页面处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的第一方面，提供了一种网站页面处理方法，如图1所示，包括以下步骤：

S100，爬取目标网站页面，得到目标网站页面对应的文本T。

应当理解的是，目标网站页面上不但包括正文信息，还包括非正文信息。正文信息是与网站页面中标题最相关的内容，例如一个新闻报道网站页面中的报道主体；非正文信息一般包括广告、推荐信息和对正文信息的描述，推荐信息例如与正文信息相关的readmore，对正文信息的描述例如对正文中嵌入的与正文信息相关的图片的描述。

应当理解的是，利用爬虫技术爬取目标网站页面可以得到目标网站页面对应的文本。本领域技术人员知悉，现有技术中利用任何爬取网站页面的方法得到网站页面对应的文本均落入本发明的保护范围。

应当理解的是，去广告算法的目的在于滤除T中与目标网站页面正文信息无关的广告内容。本领域技术人员知悉，现有技术中任何利用去广告算法对文本进行NLP处理的方法均落入本发明的保护范围。

应当理解的是，不同网站的编辑风格不同，但是各网站的编辑风格又是具有某些特点的，例如，有的网站会将广告设置在正文的两侧，将与正文信息相关的图片插在正文的两段落之间，会将对图片的描述以较小的字体设置在图片的下方。因此，本发明通过预先构建与各预设网站对应的经训练的神经网络模型的方式来区分P中的正文信息和非正文信息。

本发明与所述目标网站页面匹配的经训练的神经网络模型的获取方法包括：

S310，获取目标网站页面的网址。

S320，解析所述目标网站页面的网址，得到所述目标网站页面对应的网站W。

应当理解的是，各网站对应的网页的网址都包括对应网站的网址，因此可以通过网页的网址来判断网页所属的网站。

S330，从预先构建的神经网络模型库中匹配与W对应的经训练的神经网络模型，所述神经网络模型库中存储有各预设网站对应的经训练的神经网络模型。

应当理解的是，不同网站的编辑特点不同，因此本发明构建了神经网络模型库，库中每个经训练的神经网络模型对应一个网站。

本发明神经网络模型库的构建方法包括：

S331，获取网站页面图像样本集P’＝{P’₁，P’₂，…，P’_B}，P’_b＝{P’_b,1，P’_b,2，…，P’_b,H}，P’_b为P’对应的第b个网站的网站页面图像样本，b的取值范围为1到B，B为P’对应的网站数量；P’_b,h为P’_b的第h个网站页面图像样本，h的取值范围为1到H，H为P’_b包括的网站页面图像样本数量。

根据本发明，P’中包括各预设网站对应的网站页面图像样本。应当理解的是，为了提高获取的经训练的神经网络模型的准确度，各预设网站对应的网站页面图像样本数量应为较大值。

S332，遍历P’，将P’_b,h进行区域划分，如果某区域对应于网站页面的正文信息，则将该区域标注为第一类别区域；如果某区域对应于网站页面的非正文信息，则将该区域标注为第二类别区域。

本发明不局限于具体的区域划分方法，但进行区域划分时应满足如下条件：将正文信息和非正文信息划分到不同的区域中。该条件可以避免出现某一区域中既包括正文信息又包括非正文信息的情况，保证后续对各区域进行分类时标注的准确性。

本发明可通过人工的方式来实现S332中对区域的划分和标注。

S333，遍历P’，根据对P’_b,h的标注结果对神经网络模型进行训练，得到P’对应的第b个网站对应的经训练的神经网络模型。

本发明对P’_b,h对应的各划分区域的类型进行了标注，因此，本发明对神经网络模型进行的训练属于有监督训练。应当理解的是，经训练的神经网络模型已经具备对对应的网站页面进行区域划分和对划分的区域标注第一类别或第二类别的能力，也即具有了区域划分和对划分得到的区域进行分类的能力。

应当理解的是，现有技术中任何基于训练样本对神经网络模型进行训练的方法均落入本发明的保护范围。

S400，对(P_1,1，P_1,2，…，P_1,N)进行OCR文字识别，得到第二文本T₂＝(T_2,1，T_2,2，…，T_2,N)，T_2,n为对P_1,n进行OCR文字识别得到的文本，T_2,n＝(s_n,1，s_n,2，…，s_n,Q)，s_n,q为T_2,n包括的第q个语句，q的取值范围为1到Q，Q为T_2,n包括的语句数量；遍历T₁和T₂，如果s_m与某一s_n,q匹配，则保留T₁中s_m；否则，删除T₁中s_m；或者对(P_2,1，P_2,2，…，P_2,D)进行OCR文字识别，得到第三文本T₃＝(T_3,1，T_3,2，…，T_3,D)，T_3,d为对P_2,d进行OCR文字识别得到的文本，T_3,d＝(s_d,1，s_d,2，…，s_d,A)，s_d,a为T_3,d包括的第a个语句，a的取值范围为1到A，A为T_3,d包括的语句数量；遍历T₁和T₃，如果s_m不与任一s_d,a匹配，则保留T₁中s_m；否则，删除T₁中s_m。

应当理解的是，OCR文字识别技术可以将图像转换为对应的文本。根据本发明，利用OCR文字识别技术识别每张第一类别区域图像，得到每张第一类别区域图像对应的文本，该文本可视为由多个语句构成，这些语句均是目标网站页面的正文信息对应的语句。同样的，利用OCR文字识别技术识别每张第二类别区域图像，得到每张第二类别区域图像对应的文本，该文本可视为由多个语句构成，这些语句均是目标网站页面的非正文信息对应的语句。

本领域技术人员知悉，现有技术中任何利用OCR文字识别技术进行文字识别的方法均落入本发明的保护范围。

作为第一实施例，将T₁中各语句与T₂中各语句进行匹配。根据本发明，利用去广告算法对T进行NLP处理得到的第一文本T₁中还包括与正文相关的非正文，而T₂已经是不包括非正文的文本，因此，本发明将进行NLP处理后得到的T₁中各语句与T₂中各语句进行匹配，删除T₁中不能与T₂中语句匹配的语句(当T₁中某语句与T₂中所有语句都不匹配时，才判定T₁中该语句不与T₂中语句匹配)，保留T₁中可以与T₂中语句匹配的语句(只要T₁中某语句与T₂中某一语句匹配，即判定T₁中该语句与T₂中语句匹配)，由此，就可以将T₁中与正文相关的非正文内容滤除。而且，相较于直接将T₂作为网站页面对应的最终文本的方法，本发明只有在T₁中s_m同时出现T₂中时才将s_m保留，可以避免T₁或T₂中广告没有筛掉的情况，提高目标网站页面对应的最终文本中没有广告的概率(本发明将更新后的T₁作为目标网站页面对应的最终文本)。

作为第二实施例，将T₁中各语句与T₃中各语句进行匹配。根据本发明，T₁中还包括与正文相关的非正文，而T₃只包括非正文的文本，因此，本发明将T₁中各语句与T₂中各语句进行匹配，删除T₁中与T₃中语句匹配的语句(只要T₁中某语句与T₃中某一语句匹配，即判定T₁中该语句与T₃中语句匹配)，保留T₁中不能与T₃中语句匹配的语句(当T₁中某语句与T₃中所有语句都不匹配时，才判定T₁中该语句不与T₃中语句匹配)，由此，就可以将T₁中与正文相关的非正文内容滤除。

本领域技术人员知悉，现有技术中任何判断两语句是否匹配的方法均落入本发明的保护范围。应当理解的是，两语句匹配指两语句为同一语句。可选的，通过获取s_m与s_n,q中最大共享字符串的方式来判断s_m与s_n,q是否匹配，判断方法包括：

S410，获取s_m与s_n,q中最大共享字符串的长度L₁。

本领域技术人员知悉，现有技术中任何获取两文本的最大共享字符串的方法均落入本发明的保护范围。

S420，获取s_m字符串的长度L₂。

S430，如果z＝L₁/L₂大于设定占比阈值k，则判定s_m与s_n,q匹配；否则，判定s_m与s_n,q不匹配。

本发明中0<k<1。应当理解的是，z的值越大，s_m与s_n,q的相似性越高。当z＝1时，s_m与s_n,q为同一文本。但考虑到OCR识别过程中可能出现对s_n,q识别不准确的问题，优选的，设置k≥0.9。

本发明判断s_m与s_d,a是否匹配的方法与判断s_m与s_n,q是否匹配的方法相同，此处不再赘述。

S500，获取更新后的T₁。

将更新后的T₁作为目标网站界面对应的最终文本，即只包括正文的文本。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims

1.一种网站页面处理方法，其特征在于，包括以下步骤：

S100，爬取目标网站页面，得到目标网站页面对应的文本T；

S200，利用去广告算法对T进行NLP处理，得到第一文本T₁＝(s₁，s₂，…，s_M)，s_m为T₁包括的第m个语句，m的取值范围为1到M，M为T₁包括的语句数量；

S300，获取目标网站页面的图像P，并利用与所述目标网站页面匹配的经训练的神经网络模型对P进行区域划分和分类，得到第一类别区域图像(P_1,1，P_1,2，…，P_1,N)和第二类别区域图像(P_2,1，P_2,2，…，P_2,D)；P_1,n为对P进行区域划分得到的第n张第一类别区域图像，n的取值范围为1到N，N为对P进行区域划分得到的第一类别区域图像数量；P_2,d为对P进行区域划分得到的第d张第二类别区域图像，d的取值范围为1到D，D为对P进行区域划分得到的第二类别区域图像数量；所述第一类别区域图像对应于目标网站页面的正文信息，所述第二类别区域图像对应于目标网站页面中的非正文信息，所述非正文信息包括广告、推荐信息或对正文信息的描述；

S400，对(P_1,1，P_1,2，…，P_1,N)进行OCR文字识别，得到第二文本T₂＝(T_2,1，T_2,2，…，T_2,N)，T_2,n为对P_1,n进行OCR文字识别得到的文本，T_2,n＝(s_n,1，s_n,2，…，s_n,Q)，s_n,q为T_2,n包括的第q个语句，q的取值范围为1到Q，Q为T_2,n包括的语句数量；遍历T₁和T₂，如果s_m与某一s_n,q匹配，则保留T₁中s_m；否则，删除T₁中s_m；

或者对(P_2,1，P_2,2，…，P_2,D)进行OCR文字识别，得到第三文本T₃＝(T_3,1，T_3,2，…，T_3,D)，T_3,d为对P_2,d进行OCR文字识别得到的文本，T_3,d＝(s_d,1，s_d,2，…，s_d,A)，s_d,a为T_3,d包括的第a个语句，a的取值范围为1到A，A为T_3,d包括的语句数量；遍历T₁和T₃，如果s_m不与任一s_d,a匹配，则保留T₁中s_m；否则，删除T₁中s_m；

S500，获取更新后的T₁。

2.根据权利要求1所述的方法，其特征在于，S300中与所述目标网站页面匹配的经训练的神经网络模型的获取方法包括：

S310，获取目标网站页面的网址；

S320，解析所述目标网站页面的网址，得到所述目标网站页面对应的网站W；

3.根据权利要求2所述的方法，其特征在于，S330中神经网络模型库的构建方法包括：

S331，获取网站页面图像样本集P’＝{P’₁，P’₂，…，P’_B}，P’_b＝{P’_b,1，P’_b,2，…，P’_b,H}，P’_b为P’对应的第b个网站的网站页面图像样本，b的取值范围为1到B，B为P’对应的网站数量；P’_b,h为P’_b的第h个网站页面图像样本，h的取值范围为1到H，H为P’_b包括的网站页面图像样本数量；

S332，遍历P’，将P’_b,h进行区域划分，如果某区域对应于网站页面的正文信息，则将该区域标注为第一类别区域；如果某区域对应于网站页面的非正文信息，则将该区域标注为第二类别区域；

4.根据权利要求3所述的方法，其特征在于，S332中所述区域划分满足的划分条件包括：将正文信息和非正文信息划分到不同的区域中。

5.根据权利要求1所述的方法，其特征在于，S400中，通过获取s_m与s_n,q中最大共享字符串的方式来判断s_m与s_n,q是否匹配。

6.根据权利要求5所述的方法，其特征在于，判断s_m与s_n,q是否匹配的方法包括：

S410，获取s_m与s_n,q中最大共享字符串的长度L₁；

S420，获取s_m字符串的长度L₂；

7.根据权利要求6所述的方法，其特征在于，k≥0.9。