CN106599155A

CN106599155A - 一种网页分类方法及***

Info

Publication number: CN106599155A
Application number: CN201611117608.8A
Authority: CN
Inventors: 谢念; 周名扬; 洪秋月; 潘练; 金尧; 林飞; 唐新民; 沈智杰; 景晓军
Original assignee: SURFILTER NETWORK TECHNOLOGY Co Ltd; Beijing Asia Century Technology Development Co Ltd
Current assignee: SURFILTER NETWORK TECHNOLOGY Co Ltd; Beijing Asia Century Technology Development Co Ltd
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2017-04-26
Anticipated expiration: 2036-12-07
Also published as: CN106599155B

Abstract

本发明公开了一种网页分类方法，包括：抓取并从网页的文本数据中提取所述网页的关键词；将所述关键词与已分类好的网页特征词库中的特征词进行匹配，统计所述特征词的词频总数；判断所述词频总数是否小于预设的阈值；若是，则截取并根据所述网页的页面图像对所述网页进行分类；若否，则根据多个所述特征词及其对应的词频对所述网页进行分类。由此，所述方法综合利用图像信息与文本信息，有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的方法，通过准确的判断待分类网页属于短文本网页还是长文本网页，选择最合适有效的网页分类步骤，相比现有的网页分类方法，其在对现行的网页进行分类时有更高的准确率和召回率。

Description

一种网页分类方法及***

技术领域

本发明涉及互联网技术领域，具体涉及一种网页分类方法及***。

背景技术

随着互联网技术的普及和飞速发展，网络信息成***性增长，一方面满足了用户对信息的需求，另一方面，如何根据网页内容把网页自动划分到不同的类别，以提高用户的体验，是目前面临的一个问题。

衡量网页分类方法的指标具体包括召回率和准确率等。其中，召回率，是正确分出类别的网页数量和所有网页中属于该类别的网页数量的比值，用于衡量网页分类方法是否具有通用性；准确率，是正确分出类别的网页数量除以所有分出类别的网页数量的比值，用于衡量网页分类方法是否准确。现有技术常用的网页分类方法是：提取网页的文本内容和标签信息等网页内容特征，利用文本分类器对网页内容特征进行分类。其中的文本分类器是预先训练好的分类器，其使用分类算法对文本进行分类。

为此，非常有必要设计一种综合利用图像信息与文本信息的网页分类方法，以提高对现行网页进行分类的召回率和准确率。

发明内容

本发明要解决的技术问题在于，针对现有网页分类方法不能准确地对现行的文本数量少、图像数量多的网页进行分类的问题，提供一种综合利用图像信息与文本信息的网页分类方法，以提高对现行发的文本数量少、图像数量多的网页进行分类的召回率和准确率。

本发明解决其问题所采用的技术方案是：

一方面，提供一种网页分类方法，包括以下步骤：

步骤S1，抓取并从网页的文本数据中提取所述网页的关键词；

步骤S2，将所述关键词与已分类好的网页特征词库中的特征词进行匹配，统计所述特征词的词频总数；

步骤S3，判断所述词频总数是否小于预设的阈值；

步骤S4，若是，则截取并根据所述网页的页面图像对所述网页进行分类；

步骤S5，若否，则根据多个所述特征词及其对应的词频对所述网页进行分类。

在本发明提供的网页分类方法中，所述步骤S1包括以下步骤：

步骤S11，提取所述网页中包含的文本数据；

步骤S12，对所述文本数据进行分词处理，得到至少一个关键词；

步骤S13，除掉无类别代表性的各类网页通用的所述关键词。

在本发明提供的网页分类方法中，所述步骤S4包括以下步骤：

步骤S41，对所述网页页面进行截图，得到所述网页的页面图像；

步骤S42，根据所述页面图像对所述网页的结构进行解构分析，提取出所述网页包含的图片；

步骤S43，利用训练好的Faster R-CNN算法对所述图片进行分类，得到分类结果。

在本发明提供的网页分类方法中，所述步骤S43包括：

步骤S43a，使用RPN网络从所述图片中提取候选框；

步骤S43b，采用CNN模型提取所述候选框的特征；

步骤S43c，根据所述候选框的特征和SVM新标定结果得出SVMs分类器预测模型；

步骤S43d，得到SVMs分类器对于所有所述候选框的评分结果；

步骤S43e，根据所述评分结果对所述图片进行分类，最终得到分类结果。

在本发明提供的网页分类方法中，在所述步骤S43d和所述步骤S43e之间还包括：

步骤S43f，去掉复数个分数相对较低的所述候选框；

步骤S43g，对于相交的所述候选框，采用非极大值抑制技术，选出最能代表最终检测结果的所述候选框。

相应地，本发明还提供一种网页分类***，包括：

特征提取模块，用于抓取并从网页的文本数据中提取所述网页的关键词；

匹配模块，用于将所述关键词与已分类好的网页特征词库中的特征词进行匹配，统计所述特征词的词频总数；

判断模块，用于判断所述词频总数是否小于预设的阈值；

图像分类模块，用于截取并根据所述网页的页面图像对所述网页进行分类；

文本分类模块，用于根据多个所述特征词及其对应的词频对所述网页进行分类。

在本发明提供的网页分类***中，所述特征提取模块包括：

抓取单元，用于提取所述网页中包含的文本数据；

分词单元，用于对所述文本数据进行分词处理，得到多个关键词；

降噪单元，用于除掉无类别代表性的各类网页通用的所述关键词。

在本发明提供的网页分类***中，所述图像分类模块包括：

截图单元，用于对所述网页页面进行截图，得到所述网页的页面图像；

解构单元，用于根据所述页面图像对所述网页的结构进行解构分析，提取出所述网页包含的图片；

分类单元，用于利用训练好的Faster R-CNN算法对所述图片进行分类，得到分类结果。

在本发明提供的网页分类***中，所述分类单元包括：

候选框提取子单元，用于使用RPN网络从所述图片中提取候选框；

特征提取子单元，用于采用CNN模型提取所述候选框的特征；

模型生成子单元，用于根据所述候选框的特征和SVM新标定结果得出SVMs分类器预测模型；

评分子单元，用于得到SVMs分类器对于所有所述候选框的评分结果；

图片分类子单元，用于根据所述评分结果对所述图片进行分类，最终得到分类结果。

在本发明提供的网页分类***中，所述分类单元还包括：

低分排除子单元，用于去掉复数个分数相对较低的所述候选框。

优化选择子单元，用于采用非极大值抑制技术从相交的所述候选框中选出最能代表最终检测结果的所述候选框。

与现有技术相比，实施本发明实施例，具有如下有益效果：本发明提供的网页分类方法包括：步骤S1，抓取并从网页的文本数据中提取所述网页的关键词；步骤S2，将所述关键词与已分类好的网页特征词库中的特征词进行匹配，统计所述特征词的词频总数；步骤S3，判断所述词频总数是否小于预设的阈值；步骤S4，若是，则截取并根据所述网页的页面图像对所述网页进行分类；步骤S5，若否，则根据多个所述特征词及其对应的词频对所述网页进行分类。由此，所述方法综合利用图像信息与文本信息，有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的方法，通过准确的判断待分类网页属于短文本网页还是长文本网页，选择最合适有效的网页分类步骤，相比现有的网页分类方法，其在对现行的网页进行分类时有更高的准确率和召回率。

附图说明

图1为本发明实施例一提供的网页分类方法的流程图；

图2为本发明实施例一提供的网页分类方法中步骤S1的具体流程图；

图3为本发明实施例一提供的网页分类方法中步骤S4的具体流程图；

图4为本发明实施例一提供的网页分类方法中步骤S43的具体流程图；

图5为本发明实施例二提供的网页分类方法中步骤S43的具体流程图；

图6为本发明实施例三提供的网页分类***的方框示意图；

图7为本发明实施例三提供的网页分类***中图像分类模块的方框示意图；

图8为本发明实施例四提供的网页分类***中图像分类模块的方框示意图。

具体实施方式中的附图标号说明：

特征提取模块	100	匹配模块	200
				判断模块	300	图像分类模块	400
文本分类模块	500
				截图单元	410	解构单元	420
分类单元	430	候选框提取子单元	431
				特征提取子单元	432	模型生成子单元	433
评分子单元	434	图片分类子单元	435
				低分排除子单元	436	优化选择子单元	437

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种网页分类方法。参见图1，所述网页分类方法包括以下步骤：

步骤S1，抓取并从网页的文本数据中提取所述网页的多个特征词。

与现有的网页分类方法类似，首先抓取待分类的网页所包含的所有的文本数据，再从所述文本数据中提取出与所述网页对应的特征词，通常特征词不止一个，而是成百上千个。本实施例中，参见图2，所述步骤S1更具体地包括如下步骤：

步骤S11，提取所述网页中包含的文本数据。

具体地，通过现有的网络信息抓取工具，如“网络爬虫”来抓取待分类网页信息的程序或脚本，从而获得待分类网页的页面中涉及的文本数据。

步骤S12，对所述文本数据进行分词处理，得到至少一个关键词。

具体地，将所述文本数据通过分词工具进行分词处理，从而生成与待分类网页内容信息对应的多个关键词。所述多个关键词中包含了用于描述所述待分类网页内容信息的所有实词。

步骤S13，除掉无类别代表性的各类网页通用的所述关键词。

具体地，对多个所述关键词进行过滤处理，去除与所述待分类网页主题无关的无类别代表性的各类网页通用的所述关键词，例如，“主页”、“联系我们”、“版权申明”等。此类与主题无关的关键词会对后续的所述待分类网页的分类步骤的速度和精度造成很大影响，因此，有必要进行去除。

步骤S2，将所述关键词与已分类好的网页特征词库中的特征词进行匹配，统计所述特征词的词频总数。

其中，所述已分类好的网页特征词库的特征词为预先对大量已进行行业分类的网站的网页内容信息进行实词统计后提取获得的。每个行业类别都对应着一定数量的特征词。这些特征词可以在很大概率上确定包含这些关键词的网页所属的行业类别为该特征词对应的行业类别。

在本实施例中，通过网络爬虫从互联网中爬取到全国500万左右的域名，对这些域名进行汇集整理后，通过专业工具进行一系列的整理、分析、归纳完成了域名的分类处理。分类牵涉到18行业大类80小类，牵涉行业分别为教育文化、银行金融、新闻综合、政府机构、电子商务、生活服务、网络服务、博客网站、医疗健康、休闲娱乐、违规、宗教政治、企业网站、论坛网站、游戏网站、互联网金融、公益、其他。分类准确达到同行业的专业水平。对处理过的域名整理后建立一个可以对外提供服务的网页特征词库。

将经过滤后的所述关键词与已分类好的网页特征词库中的特征词进行匹配，确定各行业类别对应的特征词在所述待分类网页的内容信息对应的所述多个关键词中出现的次数，并将多个所述特征词出现的次数合计为词频总数。举例而言，匹配时发现违规行业对应的特征词：“黄色”、“赌博”、“毒品”分别出现10、12、13次，则确定违规行业对应的特征词在所述待分类的网页对应的多个所述关键词中出现了35次。匹配时发现教育文化行业对应的特征词：“教育”、“文化”、“传承”分别出现5、9、13次，则确定教育文化行业对应的特征词在所述待分类的网页对应的多个所述关键词中出现了27次。则所述已分类好的网页特征词库中的特征词在所述待分类的网页对应的多个所述关键词中出现的词频总数为违规行业和教育文化行业对应的特征词出现次数的和，即35与27的和63。

步骤S3，判断所述词频总数是否小于预设的阈值。

具体地，该步骤的目的是判断所述待分类的网页是否为短文本网页。现有技术中，对短文本网页的判定并没有统一的规定，这也是影响网页分类准确率的重要因素。通过无数次试验，本实施例提供了一种判断网页是否为短文本网页的方法，即通过判断所述词频总数是否小于预设的阈值来判定所述待分类的网页是否为短文本网页，本实施例中，所述阈值优选为50，即当所述词频总数小于50时，则判定所述待分类的网页为短文本网页。否则，为长文本网页。

步骤S4，若是，则截取并根据所述网页的页面图像对所述网页进行分类。

具体地，当所述词频总数小于50时，认为所述待分类的网页的文本信息较少，所述待分类的网页被判定为短文本网页，对于短文本网页，则需要截取并根据所述待分类的网页的页面图像对所述待分类的网页进行分类。在本实施例中，参见图3，所述步骤S4更具体的包括以下步骤：

步骤S41，对所述网页页面进行截图，得到所述网页的页面图像。

具体地，通过phantom Js虚拟浏览器对所述待分类的网页页面进行截图，得到所述待分类的网页的页面图像。利用训练好的Faster R-CNN算法对其图片进行分类，主要识别黄色、赌博等特征较明显，且在网页文本中无相关关键字显示的网页，得到基于图片的分类结果。

步骤S42，根据所述页面图像对所述网页的结构进行解构分析，提取出所述待分类的网页包含的图片。

具体地，首先，使用RPN网络(Region Proposal Network)提取候选框，提高网络计算性能，然后，用提取得到的候选框训练Fast R-CNN，用Faster R-CNN初始化RPN网络中共用的卷积层，最终实现两个网络卷积层特征共享训练。本实施例中，参见图4，所述步骤S43更具体地包括以下步骤：

步骤S43a，使用RPN网络从所述图片中提取候选框。

具体地，该算法引入了RPN网络(Region Proposal Network)提取候选框。RPN网络是一个全卷积神经网络，通过共享卷积层特征可以实现候选框的提取，训练RPN时，与VGG共有的层参数可以直接拷贝经ImageNet训练得到的模型中的参数；剩下没有的层参数用标准差为0.01的高斯分布初始化。

步骤S43b，采用CNN模型提取所述候选框的特征。

具体地，用于提取特征的CNN模型需要预先训练得到。训练CNN模型时，对训练数据标定要求比较宽松，即SS方法提取的所述候选框只包含部分目标区域时，将所述候选框标定为特定物体类别，宽松标定条件下训练得到的CNN模型只能用于候选框的特征提取。

步骤S43c，根据所述候选框的特征和SVM新标定结果得出SVMs分类器预测模型。

具体地，对所有所述候选框进行严格的标定，然后将所有所述候选框经过CNN模型处理得到的特征和SVM新标定结果输入到SVMs分类器进行训练，得到SVMs分类器预测模型。

步骤S43d，得到SVMs分类器对于所有所述候选框的评分结果。

需要说明的是，由于上述过程涉及到对图片及其内容进行分析，因此计算量较大，为了保证运算速度，需在带有3分以上计算能力的gpu服务器上进行处理。

具体地，当所述词频总数大于或等于50时，认为所述待分类的网页的文本信息充足，所述待分类的网页被判定为长文本网页，对于长文本网页，则可以采用现有的网页分类方法对所述待分类的网页进行分类。在本实施例中，所述步骤S5更具体的包括以下步骤：

步骤S51，通过所述已分类好的网页特征词库中的特征词在所述待分类的网页对应的所述多个关键词中出现的次数计算得到所述待分类的网页所对应不同行业领域特征的权重值。

步骤S52，根据每个所述特征词的权重值生成特征向量。

步骤S53，使用贝叶斯分类器对所述特征向量进行分类，得到分类结果。

本实施例提供的网页分类方法综合利用图像信息与文本信息，有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的方法，通过准确的判断待分类网页属于短文本网页还是长文本网页，选择最合适有效的网页分类步骤，相比现有的网页分类方法，其在对现行的网页进行分类时有更高的准确率和召回率。

本实施例提供的网页分类方法中，还涉及了一种判断网页是否为短文本网页的方法，现有技术中没有用于判断网页是否为短文本网页的方法，填补了现有技术的空白。所述判断网页是否为短文本网页的方法能够准确的判断网页所包含的文本信息的多少，其准确的判定结果有利于我们准确的选择适当的分类步骤对网页进行分类。

本实施例提供的网页分类方法中，还涉及了一种网页快照技术和网页图片深度学习、提取特征的技术，上述两项技术在对短文本网页进行分类的过程中起到了举足轻重的作用，保证了对短文本网页进行分类的准确率和召回率。

实施例二

本实施例提供了一种网页分类方法，参见图5，与实施例一所述的方法的不同之处在于，所述步骤S43还包括低分排除和优化选择的步骤。

参见图，本实施例中所述步骤S43的具体步骤为：

步骤S43a，使用RPN网络从所述图片中提取候选框。

步骤S43b，采用CNN模型提取所述候选框的特征。

步骤S43d，得到SVMs分类器对于所有所述候选框的评分结果。

步骤S43f，低分排除步骤：去掉复数个分数相对较低的所述候选框。

具体地，将所有的所述候选框按平方高低进行有序的排序，将排位在后的若干个候选框删除，本实施例中，优选地删除排位后20位的候选框，以此来调高后续分类过程的效率。

步骤S43g，优化选择步骤：对于相交的所述候选框，采用非极大值抑制技术，选出最能代表最终检测结果的所述候选框。

具体地，剩下的所述候选框中，通常会出现候选框相交的情况。对于相交的两个或若干个所述候选框，有必要采用非极大值抑制技术找到最能代表最终检测结果的候选框，以保证分类的准确率和召回率。

本实施例提供的网页分类方法中，在步骤S43的步骤S43d和步骤S43e之间增加了步骤S43f(低分排除步骤)和步骤S43g(优化选择步骤)，进一步提高了采用所述网页分类方法对短文本网页进行分类时的效率、准确率和召回率。

实施例三

本实施例提供了一种网页分类***，参见图6，所述网页分类***包括特征提取模,100、匹配模块200、判断模块300、图像分类模块400以及文本分类模块500。

所述特征提取模块100，用于抓取并从网页的文本数据中提取所述网页的关键词。

在本实施例中，所述特征提取模块100包括抓取单元、分词单元和降噪单元。

所述抓取单元，用于提取所述网页中包含的文本数据。

所述分词单元，与所述抓取单元电性连接，用于对所述文本数据进行分词处理，得到多个关键词。

所述降噪单元，与所述分词单元电性连接，用于除掉无类别代表性的各类网页通用的所述关键词。

所述匹配模块200，与所述特征提取模块100电性连接，用于将所述关键词与已分类好的网页特征词库中的特征词进行匹配，统计所述特征词的词频总数。

所述判断模块300，与所述匹配模块200电性连接，用于判断所述词频总数是否小于预设的阈值。

所述图像分类模块400，与所述判断模块300电性连接，用于截取并根据所述网页的页面图像对所述网页进行分类。

在本实施例中，参见图7，所述图像分类模块400包括截图单元410、解构单元420和分类单元430。

所述截图单元410，用于对所述网页页面进行截图，得到所述网页的页面图像。

所述解构单元420，与所述截图单元410电性连接，用于根据所述页面图像对所述网页的结构进行解构分析，提取出所述网页包含的图片。

所述分类单元430，与所述解构单元420电性连接，用于利用训练好的Faster R-CNN算法对所述图片进行分类，得到分类结果。

在本实施例中，参见图7，所述分类单元430包括候选框提取子单元431、特征提取子单元432、模型生成子单元433、评分子单元434和图片分类子单元435。

所述候选框提取子单元431，用于使用RPN网络从所述图片中提取候选框。

所述特征提取子单元432，与所述候选框提取子单元431电性连接，用于采用CNN模型提取所述候选框的特征。

所述模型生成子单元433，与所述特征提取子单元432电性连接，用于根据所述候选框的特征和SVM新标定结果得出SVMs分类器预测模型。

所述评分子单元434，与所述模型生成子单元433电性连接，用于得到SVMs分类器对于所有所述候选框的评分结果。

所述图片分类子单元435，与所述评分子单元434电性连接，用于根据所述评分结果对所述图片进行分类，最终得到分类结果。

所述文本分类模块500，与所述判断模块300电性连接，用于根据多个所述特征词及其对应的词频对所述网页进行分类。

本实施例提供的网页分类***完全适用于实施例一提供的网页分类方法，故其具体的操作方法不再赘述。

本实施例提供的网页分类***能够综合利用图像信息与文本信息，有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的模块，通过准确的判断待分类网页属于短文本网页还是长文本网页，选择最合适有效的网页分类模块，相比现有的网页分类***，其在对现行的网页进行分类时有更高的准确率和召回率。

实施例四

本实施例提供一种网页分类***，参见图8，与实施例三所述的方法的不同之处在于，所述***中的分类单元的具体包括候选框提取子单元431、特征提取子单元432、模型生成子单元433、评分子单元434、低分排除子单元436、优化选择子单元437和图片分类子单元435。

所述低分排除子单元436，与所述评分子单元434电性连接，用于去掉复数个分数相对较低的所述候选框。

所述优化选择子单元437，与所述低分排除子单元436性连接，用于采用非极大值抑制技术从相交的所述候选框中选出最能代表最终检测结果的所述候选框。

所述图片分类子单元435，与优化选择子单元437电性连接，用于根据所述评分结果对所述图片进行分类，最终得到分类结果。

本实施例提供的网页分类***中，在实施例三的基础上增加了低分排除子单元436和优化选择子单元437，进一步提高了采用所述网页分类***对短文本网页进行分类的效率、准确率和召回率。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护范围之内。

Claims

1.一种网页分类方法，其特征在于，包括以下步骤：

步骤S3，判断所述词频总数是否小于预设的阈值；

2.根据权利要求1所述的网页分类方法，其特征在于，所述步骤S1具体包括以下步骤：

步骤S11，提取所述网页中包含的文本数据；

步骤S13，除掉无类别代表性的各类网页通用的所述关键词。

3.根据权利要求1所述的网页分类方法，其特征在于，所述步骤S4具体包括以下步骤：

4.根据权利要求3所述的网页分类方法，其特征在于，所述步骤S43包括：

步骤S43a，使用RPN网络从所述图片中提取候选框；

步骤S43b，采用CNN模型提取所述候选框的特征；

步骤S43d，得到SVMs分类器对于所有所述候选框的评分结果；

5.根据权利要求4所述的网页分类方法，其特征在于，在所述步骤S43d和所述步骤S43e之间还包括：

步骤S43f，去掉复数个分数相对较低的所述候选框；

6.一种网页分类***，其特征在于，包括：

判断模块，用于判断所述词频总数是否小于预设的阈值；

7.根据权利要求6所述的网页分类***，其特征在于，所述特征提取模块包括：

抓取单元，用于提取所述网页中包含的文本数据；

分词单元，用于对所述文本数据进行分词处理，得到至少一个关键词；

8.根据权利要求6所述的网页分类***，其特征在于，所述图像分类模块包括：

9.根据权利要求8所述的网页分类***，其特征在于，所述分类单元包括：

特征提取子单元，用于采用CNN模型提取所述候选框的特征；

10.根据权利要求9所述的网页分类***，其特征在于，所述分类单元还包括：