CN106599155A - 一种网页分类方法及*** - Google Patents
一种网页分类方法及*** Download PDFInfo
- Publication number
- CN106599155A CN106599155A CN201611117608.8A CN201611117608A CN106599155A CN 106599155 A CN106599155 A CN 106599155A CN 201611117608 A CN201611117608 A CN 201611117608A CN 106599155 A CN106599155 A CN 106599155A
- Authority
- CN
- China
- Prior art keywords
- webpage
- web page
- candidate frame
- classification
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网页分类方法,包括:抓取并从网页的文本数据中提取所述网页的关键词;将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数;判断所述词频总数是否小于预设的阈值;若是,则截取并根据所述网页的页面图像对所述网页进行分类;若否,则根据多个所述特征词及其对应的词频对所述网页进行分类。由此,所述方法综合利用图像信息与文本信息,有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的方法,通过准确的判断待分类网页属于短文本网页还是长文本网页,选择最合适有效的网页分类步骤,相比现有的网页分类方法,其在对现行的网页进行分类时有更高的准确率和召回率。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种网页分类方法及***。
背景技术
随着互联网技术的普及和飞速发展,网络信息成***性增长,一方面满足了用户对信息的需求,另一方面,如何根据网页内容把网页自动划分到不同的类别,以提高用户的体验,是目前面临的一个问题。
衡量网页分类方法的指标具体包括召回率和准确率等。其中,召回率,是正确分出类别的网页数量和所有网页中属于该类别的网页数量的比值,用于衡量网页分类方法是否具有通用性;准确率,是正确分出类别的网页数量除以所有分出类别的网页数量的比值,用于衡量网页分类方法是否准确。现有技术常用的网页分类方法是:提取网页的文本内容和标签信息等网页内容特征,利用文本分类器对网页内容特征进行分类。其中的文本分类器是预先训练好的分类器,其使用分类算法对文本进行分类。
对于短文本的网页,现有技术能够提取的有效文本特征(代表网页唯一主题的有效特征)维度不足,再者,网页自身的背景资料容易产生诸如广告、推荐信息、版权声明等与网页内容无关的噪声信息,更容易导致错误分类,从而引起准确率和召回率较低的问题。随着各种数字设备的广泛普及,网页中的图像数量越来越多,文本数量越来越少,只利用文本信息对网页进行分类已经不能很好地符合如今网页的实际形态。
为此,非常有必要设计一种综合利用图像信息与文本信息的网页分类方法,以提高对现行网页进行分类的召回率和准确率。
发明内容
本发明要解决的技术问题在于,针对现有网页分类方法不能准确地对现行的文本数量少、图像数量多的网页进行分类的问题,提供一种综合利用图像信息与文本信息的网页分类方法,以提高对现行发的文本数量少、图像数量多的网页进行分类的召回率和准确率。
本发明解决其问题所采用的技术方案是:
一方面,提供一种网页分类方法,包括以下步骤:
步骤S1,抓取并从网页的文本数据中提取所述网页的关键词;
步骤S2,将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数;
步骤S3,判断所述词频总数是否小于预设的阈值;
步骤S4,若是,则截取并根据所述网页的页面图像对所述网页进行分类;
步骤S5,若否,则根据多个所述特征词及其对应的词频对所述网页进行分类。
在本发明提供的网页分类方法中,所述步骤S1包括以下步骤:
步骤S11,提取所述网页中包含的文本数据;
步骤S12,对所述文本数据进行分词处理,得到至少一个关键词;
步骤S13,除掉无类别代表性的各类网页通用的所述关键词。
在本发明提供的网页分类方法中,所述步骤S4包括以下步骤:
步骤S41,对所述网页页面进行截图,得到所述网页的页面图像;
步骤S42,根据所述页面图像对所述网页的结构进行解构分析,提取出所述网页包含的图片;
步骤S43,利用训练好的Faster R-CNN算法对所述图片进行分类,得到分类结果。
在本发明提供的网页分类方法中,所述步骤S43包括:
步骤S43a,使用RPN网络从所述图片中提取候选框;
步骤S43b,采用CNN模型提取所述候选框的特征;
步骤S43c,根据所述候选框的特征和SVM新标定结果得出SVMs分类器预测模型;
步骤S43d,得到SVMs分类器对于所有所述候选框的评分结果;
步骤S43e,根据所述评分结果对所述图片进行分类,最终得到分类结果。
在本发明提供的网页分类方法中,在所述步骤S43d和所述步骤S43e之间还包括:
步骤S43f,去掉复数个分数相对较低的所述候选框;
步骤S43g,对于相交的所述候选框,采用非极大值抑制技术,选出最能代表最终检测结果的所述候选框。
相应地,本发明还提供一种网页分类***,包括:
特征提取模块,用于抓取并从网页的文本数据中提取所述网页的关键词;
匹配模块,用于将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数;
判断模块,用于判断所述词频总数是否小于预设的阈值;
图像分类模块,用于截取并根据所述网页的页面图像对所述网页进行分类;
文本分类模块,用于根据多个所述特征词及其对应的词频对所述网页进行分类。
在本发明提供的网页分类***中,所述特征提取模块包括:
抓取单元,用于提取所述网页中包含的文本数据;
分词单元,用于对所述文本数据进行分词处理,得到多个关键词;
降噪单元,用于除掉无类别代表性的各类网页通用的所述关键词。
在本发明提供的网页分类***中,所述图像分类模块包括:
截图单元,用于对所述网页页面进行截图,得到所述网页的页面图像;
解构单元,用于根据所述页面图像对所述网页的结构进行解构分析,提取出所述网页包含的图片;
分类单元,用于利用训练好的Faster R-CNN算法对所述图片进行分类,得到分类结果。
在本发明提供的网页分类***中,所述分类单元包括:
候选框提取子单元,用于使用RPN网络从所述图片中提取候选框;
特征提取子单元,用于采用CNN模型提取所述候选框的特征;
模型生成子单元,用于根据所述候选框的特征和SVM新标定结果得出SVMs分类器预测模型;
评分子单元,用于得到SVMs分类器对于所有所述候选框的评分结果;
图片分类子单元,用于根据所述评分结果对所述图片进行分类,最终得到分类结果。
在本发明提供的网页分类***中,所述分类单元还包括:
低分排除子单元,用于去掉复数个分数相对较低的所述候选框。
优化选择子单元,用于采用非极大值抑制技术从相交的所述候选框中选出最能代表最终检测结果的所述候选框。
与现有技术相比,实施本发明实施例,具有如下有益效果:本发明提供的网页分类方法包括:步骤S1,抓取并从网页的文本数据中提取所述网页的关键词;步骤S2,将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数;步骤S3,判断所述词频总数是否小于预设的阈值;步骤S4,若是,则截取并根据所述网页的页面图像对所述网页进行分类;步骤S5,若否,则根据多个所述特征词及其对应的词频对所述网页进行分类。由此,所述方法综合利用图像信息与文本信息,有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的方法,通过准确的判断待分类网页属于短文本网页还是长文本网页,选择最合适有效的网页分类步骤,相比现有的网页分类方法,其在对现行的网页进行分类时有更高的准确率和召回率。
附图说明
图1为本发明实施例一提供的网页分类方法的流程图;
图2为本发明实施例一提供的网页分类方法中步骤S1的具体流程图;
图3为本发明实施例一提供的网页分类方法中步骤S4的具体流程图;
图4为本发明实施例一提供的网页分类方法中步骤S43的具体流程图;
图5为本发明实施例二提供的网页分类方法中步骤S43的具体流程图;
图6为本发明实施例三提供的网页分类***的方框示意图;
图7为本发明实施例三提供的网页分类***中图像分类模块的方框示意图;
图8为本发明实施例四提供的网页分类***中图像分类模块的方框示意图。
具体实施方式中的附图标号说明:
特征提取模块 | 100 | 匹配模块 | 200 |
判断模块 | 300 | 图像分类模块 | 400 |
文本分类模块 | 500 | ||
截图单元 | 410 | 解构单元 | 420 |
分类单元 | 430 | 候选框提取子单元 | 431 |
特征提取子单元 | 432 | 模型生成子单元 | 433 |
评分子单元 | 434 | 图片分类子单元 | 435 |
低分排除子单元 | 436 | 优化选择子单元 | 437 |
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种网页分类方法。参见图1,所述网页分类方法包括以下步骤:
步骤S1,抓取并从网页的文本数据中提取所述网页的多个特征词。
与现有的网页分类方法类似,首先抓取待分类的网页所包含的所有的文本数据,再从所述文本数据中提取出与所述网页对应的特征词,通常特征词不止一个,而是成百上千个。本实施例中,参见图2,所述步骤S1更具体地包括如下步骤:
步骤S11,提取所述网页中包含的文本数据。
具体地,通过现有的网络信息抓取工具,如“网络爬虫”来抓取待分类网页信息的程序或脚本,从而获得待分类网页的页面中涉及的文本数据。
步骤S12,对所述文本数据进行分词处理,得到至少一个关键词。
具体地,将所述文本数据通过分词工具进行分词处理,从而生成与待分类网页内容信息对应的多个关键词。所述多个关键词中包含了用于描述所述待分类网页内容信息的所有实词。
步骤S13,除掉无类别代表性的各类网页通用的所述关键词。
具体地,对多个所述关键词进行过滤处理,去除与所述待分类网页主题无关的无类别代表性的各类网页通用的所述关键词,例如,“主页”、“联系我们”、“版权申明”等。此类与主题无关的关键词会对后续的所述待分类网页的分类步骤的速度和精度造成很大影响,因此,有必要进行去除。
步骤S2,将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数。
其中,所述已分类好的网页特征词库的特征词为预先对大量已进行行业分类的网站的网页内容信息进行实词统计后提取获得的。每个行业类别都对应着一定数量的特征词。这些特征词可以在很大概率上确定包含这些关键词的网页所属的行业类别为该特征词对应的行业类别。
在本实施例中,通过网络爬虫从互联网中爬取到全国500万左右的域名,对这些域名进行汇集整理后,通过专业工具进行一系列的整理、分析、归纳完成了域名的分类处理。分类牵涉到18行业大类80小类,牵涉行业分别为教育文化、银行金融、新闻综合、政府机构、电子商务、生活服务、网络服务、博客网站、医疗健康、休闲娱乐、违规、宗教政治、企业网站、论坛网站、游戏网站、互联网金融、公益、其他。分类准确达到同行业的专业水平。对处理过的域名整理后建立一个可以对外提供服务的网页特征词库。
将经过滤后的所述关键词与已分类好的网页特征词库中的特征词进行匹配,确定各行业类别对应的特征词在所述待分类网页的内容信息对应的所述多个关键词中出现的次数,并将多个所述特征词出现的次数合计为词频总数。举例而言,匹配时发现违规行业对应的特征词:“黄色”、“赌博”、“毒品”分别出现10、12、13次,则确定违规行业对应的特征词在所述待分类的网页对应的多个所述关键词中出现了35次。匹配时发现教育文化行业对应的特征词:“教育”、“文化”、“传承”分别出现5、9、13次,则确定教育文化行业对应的特征词在所述待分类的网页对应的多个所述关键词中出现了27次。则所述已分类好的网页特征词库中的特征词在所述待分类的网页对应的多个所述关键词中出现的词频总数为违规行业和教育文化行业对应的特征词出现次数的和,即35与27的和63。
步骤S3,判断所述词频总数是否小于预设的阈值。
具体地,该步骤的目的是判断所述待分类的网页是否为短文本网页。现有技术中,对短文本网页的判定并没有统一的规定,这也是影响网页分类准确率的重要因素。通过无数次试验,本实施例提供了一种判断网页是否为短文本网页的方法,即通过判断所述词频总数是否小于预设的阈值来判定所述待分类的网页是否为短文本网页,本实施例中,所述阈值优选为50,即当所述词频总数小于50时,则判定所述待分类的网页为短文本网页。否则,为长文本网页。
步骤S4,若是,则截取并根据所述网页的页面图像对所述网页进行分类。
具体地,当所述词频总数小于50时,认为所述待分类的网页的文本信息较少,所述待分类的网页被判定为短文本网页,对于短文本网页,则需要截取并根据所述待分类的网页的页面图像对所述待分类的网页进行分类。在本实施例中,参见图3,所述步骤S4更具体的包括以下步骤:
步骤S41,对所述网页页面进行截图,得到所述网页的页面图像。
具体地,通过phantom Js虚拟浏览器对所述待分类的网页页面进行截图,得到所述待分类的网页的页面图像。利用训练好的Faster R-CNN算法对其图片进行分类,主要识别黄色、赌博等特征较明显,且在网页文本中无相关关键字显示的网页,得到基于图片的分类结果。
步骤S42,根据所述页面图像对所述网页的结构进行解构分析,提取出所述待分类的网页包含的图片。
步骤S43,利用训练好的Faster R-CNN算法对所述图片进行分类,得到分类结果。
具体地,首先,使用RPN网络(Region Proposal Network)提取候选框,提高网络计算性能,然后,用提取得到的候选框训练Fast R-CNN,用Faster R-CNN初始化RPN网络中共用的卷积层,最终实现两个网络卷积层特征共享训练。本实施例中,参见图4,所述步骤S43更具体地包括以下步骤:
步骤S43a,使用RPN网络从所述图片中提取候选框。
具体地,该算法引入了RPN网络(Region Proposal Network)提取候选框。RPN网络是一个全卷积神经网络,通过共享卷积层特征可以实现候选框的提取,训练RPN时,与VGG共有的层参数可以直接拷贝经ImageNet训练得到的模型中的参数;剩下没有的层参数用标准差为0.01的高斯分布初始化。
步骤S43b,采用CNN模型提取所述候选框的特征。
具体地,用于提取特征的CNN模型需要预先训练得到。训练CNN模型时,对训练数据标定要求比较宽松,即SS方法提取的所述候选框只包含部分目标区域时,将所述候选框标定为特定物体类别,宽松标定条件下训练得到的CNN模型只能用于候选框的特征提取。
步骤S43c,根据所述候选框的特征和SVM新标定结果得出SVMs分类器预测模型。
具体地,对所有所述候选框进行严格的标定,然后将所有所述候选框经过CNN模型处理得到的特征和SVM新标定结果输入到SVMs分类器进行训练,得到SVMs分类器预测模型。
步骤S43d,得到SVMs分类器对于所有所述候选框的评分结果。
步骤S43e,根据所述评分结果对所述图片进行分类,最终得到分类结果。
需要说明的是,由于上述过程涉及到对图片及其内容进行分析,因此计算量较大,为了保证运算速度,需在带有3分以上计算能力的gpu服务器上进行处理。
步骤S5,若否,则根据多个所述特征词及其对应的词频对所述网页进行分类。
具体地,当所述词频总数大于或等于50时,认为所述待分类的网页的文本信息充足,所述待分类的网页被判定为长文本网页,对于长文本网页,则可以采用现有的网页分类方法对所述待分类的网页进行分类。在本实施例中,所述步骤S5更具体的包括以下步骤:
步骤S51,通过所述已分类好的网页特征词库中的特征词在所述待分类的网页对应的所述多个关键词中出现的次数计算得到所述待分类的网页所对应不同行业领域特征的权重值。
步骤S52,根据每个所述特征词的权重值生成特征向量。
步骤S53,使用贝叶斯分类器对所述特征向量进行分类,得到分类结果。
本实施例提供的网页分类方法综合利用图像信息与文本信息,有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的方法,通过准确的判断待分类网页属于短文本网页还是长文本网页,选择最合适有效的网页分类步骤,相比现有的网页分类方法,其在对现行的网页进行分类时有更高的准确率和召回率。
本实施例提供的网页分类方法中,还涉及了一种判断网页是否为短文本网页的方法,现有技术中没有用于判断网页是否为短文本网页的方法,填补了现有技术的空白。所述判断网页是否为短文本网页的方法能够准确的判断网页所包含的文本信息的多少,其准确的判定结果有利于我们准确的选择适当的分类步骤对网页进行分类。
本实施例提供的网页分类方法中,还涉及了一种网页快照技术和网页图片深度学习、提取特征的技术,上述两项技术在对短文本网页进行分类的过程中起到了举足轻重的作用,保证了对短文本网页进行分类的准确率和召回率。
实施例二
本实施例提供了一种网页分类方法,参见图5,与实施例一所述的方法的不同之处在于,所述步骤S43还包括低分排除和优化选择的步骤。
参见图,本实施例中所述步骤S43的具体步骤为:
步骤S43a,使用RPN网络从所述图片中提取候选框。
具体地,该算法引入了RPN网络(Region Proposal Network)提取候选框。RPN网络是一个全卷积神经网络,通过共享卷积层特征可以实现候选框的提取,训练RPN时,与VGG共有的层参数可以直接拷贝经ImageNet训练得到的模型中的参数;剩下没有的层参数用标准差为0.01的高斯分布初始化。
步骤S43b,采用CNN模型提取所述候选框的特征。
具体地,用于提取特征的CNN模型需要预先训练得到。训练CNN模型时,对训练数据标定要求比较宽松,即SS方法提取的所述候选框只包含部分目标区域时,将所述候选框标定为特定物体类别,宽松标定条件下训练得到的CNN模型只能用于候选框的特征提取。
步骤S43c,根据所述候选框的特征和SVM新标定结果得出SVMs分类器预测模型。
具体地,对所有所述候选框进行严格的标定,然后将所有所述候选框经过CNN模型处理得到的特征和SVM新标定结果输入到SVMs分类器进行训练,得到SVMs分类器预测模型。
步骤S43d,得到SVMs分类器对于所有所述候选框的评分结果。
步骤S43f,低分排除步骤:去掉复数个分数相对较低的所述候选框。
具体地,将所有的所述候选框按平方高低进行有序的排序,将排位在后的若干个候选框删除,本实施例中,优选地删除排位后20位的候选框,以此来调高后续分类过程的效率。
步骤S43g,优化选择步骤:对于相交的所述候选框,采用非极大值抑制技术,选出最能代表最终检测结果的所述候选框。
具体地,剩下的所述候选框中,通常会出现候选框相交的情况。对于相交的两个或若干个所述候选框,有必要采用非极大值抑制技术找到最能代表最终检测结果的候选框,以保证分类的准确率和召回率。
步骤S43e,根据所述评分结果对所述图片进行分类,最终得到分类结果。
需要说明的是,由于上述过程涉及到对图片及其内容进行分析,因此计算量较大,为了保证运算速度,需在带有3分以上计算能力的gpu服务器上进行处理。
本实施例提供的网页分类方法中,在步骤S43的步骤S43d和步骤S43e之间增加了步骤S43f(低分排除步骤)和步骤S43g(优化选择步骤),进一步提高了采用所述网页分类方法对短文本网页进行分类时的效率、准确率和召回率。
实施例三
本实施例提供了一种网页分类***,参见图6,所述网页分类***包括特征提取模,100、匹配模块200、判断模块300、图像分类模块400以及文本分类模块500。
所述特征提取模块100,用于抓取并从网页的文本数据中提取所述网页的关键词。
在本实施例中,所述特征提取模块100包括抓取单元、分词单元和降噪单元。
所述抓取单元,用于提取所述网页中包含的文本数据。
所述分词单元,与所述抓取单元电性连接,用于对所述文本数据进行分词处理,得到多个关键词。
所述降噪单元,与所述分词单元电性连接,用于除掉无类别代表性的各类网页通用的所述关键词。
所述匹配模块200,与所述特征提取模块100电性连接,用于将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数。
所述判断模块300,与所述匹配模块200电性连接,用于判断所述词频总数是否小于预设的阈值。
所述图像分类模块400,与所述判断模块300电性连接,用于截取并根据所述网页的页面图像对所述网页进行分类。
在本实施例中,参见图7,所述图像分类模块400包括截图单元410、解构单元420和分类单元430。
所述截图单元410,用于对所述网页页面进行截图,得到所述网页的页面图像。
所述解构单元420,与所述截图单元410电性连接,用于根据所述页面图像对所述网页的结构进行解构分析,提取出所述网页包含的图片。
所述分类单元430,与所述解构单元420电性连接,用于利用训练好的Faster R-CNN算法对所述图片进行分类,得到分类结果。
在本实施例中,参见图7,所述分类单元430包括候选框提取子单元431、特征提取子单元432、模型生成子单元433、评分子单元434和图片分类子单元435。
所述候选框提取子单元431,用于使用RPN网络从所述图片中提取候选框。
所述特征提取子单元432,与所述候选框提取子单元431电性连接,用于采用CNN模型提取所述候选框的特征。
所述模型生成子单元433,与所述特征提取子单元432电性连接,用于根据所述候选框的特征和SVM新标定结果得出SVMs分类器预测模型。
所述评分子单元434,与所述模型生成子单元433电性连接,用于得到SVMs分类器对于所有所述候选框的评分结果。
所述图片分类子单元435,与所述评分子单元434电性连接,用于根据所述评分结果对所述图片进行分类,最终得到分类结果。
所述文本分类模块500,与所述判断模块300电性连接,用于根据多个所述特征词及其对应的词频对所述网页进行分类。
本实施例提供的网页分类***完全适用于实施例一提供的网页分类方法,故其具体的操作方法不再赘述。
本实施例提供的网页分类***能够综合利用图像信息与文本信息,有机地结合了基于文本信息对网页进行分类和基于图像信息对网页进行分类的模块,通过准确的判断待分类网页属于短文本网页还是长文本网页,选择最合适有效的网页分类模块,相比现有的网页分类***,其在对现行的网页进行分类时有更高的准确率和召回率。
实施例四
本实施例提供一种网页分类***,参见图8,与实施例三所述的方法的不同之处在于,所述***中的分类单元的具体包括候选框提取子单元431、特征提取子单元432、模型生成子单元433、评分子单元434、低分排除子单元436、优化选择子单元437和图片分类子单元435。
所述候选框提取子单元431,用于使用RPN网络从所述图片中提取候选框。
所述特征提取子单元432,与所述候选框提取子单元431电性连接,用于采用CNN模型提取所述候选框的特征。
所述模型生成子单元433,与所述特征提取子单元432电性连接,用于根据所述候选框的特征和SVM新标定结果得出SVMs分类器预测模型。
所述评分子单元434,与所述模型生成子单元433电性连接,用于得到SVMs分类器对于所有所述候选框的评分结果。
所述低分排除子单元436,与所述评分子单元434电性连接,用于去掉复数个分数相对较低的所述候选框。
所述优化选择子单元437,与所述低分排除子单元436性连接,用于采用非极大值抑制技术从相交的所述候选框中选出最能代表最终检测结果的所述候选框。
所述图片分类子单元435,与优化选择子单元437电性连接,用于根据所述评分结果对所述图片进行分类,最终得到分类结果。
本实施例提供的网页分类***中,在实施例三的基础上增加了低分排除子单元436和优化选择子单元437,进一步提高了采用所述网页分类***对短文本网页进行分类的效率、准确率和召回率。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护范围之内。
Claims (10)
1.一种网页分类方法,其特征在于,包括以下步骤:
步骤S1,抓取并从网页的文本数据中提取所述网页的关键词;
步骤S2,将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数;
步骤S3,判断所述词频总数是否小于预设的阈值;
步骤S4,若是,则截取并根据所述网页的页面图像对所述网页进行分类;
步骤S5,若否,则根据多个所述特征词及其对应的词频对所述网页进行分类。
2.根据权利要求1所述的网页分类方法,其特征在于,所述步骤S1具体包括以下步骤:
步骤S11,提取所述网页中包含的文本数据;
步骤S12,对所述文本数据进行分词处理,得到至少一个关键词;
步骤S13,除掉无类别代表性的各类网页通用的所述关键词。
3.根据权利要求1所述的网页分类方法,其特征在于,所述步骤S4具体包括以下步骤:
步骤S41,对所述网页页面进行截图,得到所述网页的页面图像;
步骤S42,根据所述页面图像对所述网页的结构进行解构分析,提取出所述网页包含的图片;
步骤S43,利用训练好的Faster R-CNN算法对所述图片进行分类,得到分类结果。
4.根据权利要求3所述的网页分类方法,其特征在于,所述步骤S43包括:
步骤S43a,使用RPN网络从所述图片中提取候选框;
步骤S43b,采用CNN模型提取所述候选框的特征;
步骤S43c,根据所述候选框的特征和SVM新标定结果得出SVMs分类器预测模型;
步骤S43d,得到SVMs分类器对于所有所述候选框的评分结果;
步骤S43e,根据所述评分结果对所述图片进行分类,最终得到分类结果。
5.根据权利要求4所述的网页分类方法,其特征在于,在所述步骤S43d和所述步骤S43e之间还包括:
步骤S43f,去掉复数个分数相对较低的所述候选框;
步骤S43g,对于相交的所述候选框,采用非极大值抑制技术,选出最能代表最终检测结果的所述候选框。
6.一种网页分类***,其特征在于,包括:
特征提取模块,用于抓取并从网页的文本数据中提取所述网页的关键词;
匹配模块,用于将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数;
判断模块,用于判断所述词频总数是否小于预设的阈值;
图像分类模块,用于截取并根据所述网页的页面图像对所述网页进行分类;
文本分类模块,用于根据多个所述特征词及其对应的词频对所述网页进行分类。
7.根据权利要求6所述的网页分类***,其特征在于,所述特征提取模块包括:
抓取单元,用于提取所述网页中包含的文本数据;
分词单元,用于对所述文本数据进行分词处理,得到至少一个关键词;
降噪单元,用于除掉无类别代表性的各类网页通用的所述关键词。
8.根据权利要求6所述的网页分类***,其特征在于,所述图像分类模块包括:
截图单元,用于对所述网页页面进行截图,得到所述网页的页面图像;
解构单元,用于根据所述页面图像对所述网页的结构进行解构分析,提取出所述网页包含的图片;
分类单元,用于利用训练好的Faster R-CNN算法对所述图片进行分类,得到分类结果。
9.根据权利要求8所述的网页分类***,其特征在于,所述分类单元包括:
候选框提取子单元,用于使用RPN网络从所述图片中提取候选框;
特征提取子单元,用于采用CNN模型提取所述候选框的特征;
模型生成子单元,用于根据所述候选框的特征和SVM新标定结果得出SVMs分类器预测模型;
评分子单元,用于得到SVMs分类器对于所有所述候选框的评分结果;
图片分类子单元,用于根据所述评分结果对所述图片进行分类,最终得到分类结果。
10.根据权利要求9所述的网页分类***,其特征在于,所述分类单元还包括:
低分排除子单元,用于去掉复数个分数相对较低的所述候选框。
优化选择子单元,用于采用非极大值抑制技术从相交的所述候选框中选出最能代表最终检测结果的所述候选框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611117608.8A CN106599155B (zh) | 2016-12-07 | 2016-12-07 | 一种网页分类方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611117608.8A CN106599155B (zh) | 2016-12-07 | 2016-12-07 | 一种网页分类方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106599155A true CN106599155A (zh) | 2017-04-26 |
CN106599155B CN106599155B (zh) | 2020-05-26 |
Family
ID=58596021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611117608.8A Active CN106599155B (zh) | 2016-12-07 | 2016-12-07 | 一种网页分类方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599155B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832774A (zh) * | 2017-10-09 | 2018-03-23 | 无线生活(杭州)信息科技有限公司 | 一种页面异常检测方法及装置 |
CN107895024A (zh) * | 2017-09-13 | 2018-04-10 | 同济大学 | 用于网页新闻分类推荐的用户模型构建方法及推荐方法 |
CN108256104A (zh) * | 2018-02-05 | 2018-07-06 | 恒安嘉新(北京)科技股份公司 | 基于多维特征的互联网网站综合分类方法 |
CN108875019A (zh) * | 2018-06-20 | 2018-11-23 | 淮阴工学院 | 一种资源结构化链接的信息快速分类方法 |
CN108874996A (zh) * | 2018-06-13 | 2018-11-23 | 北京知道创宇信息技术有限公司 | 网站分类方法及装置 |
CN108921184A (zh) * | 2018-04-18 | 2018-11-30 | 中国科学院信息工程研究所 | 一种通用的网页类型判定方法 |
CN109241383A (zh) * | 2018-07-20 | 2019-01-18 | 北京开普云信息科技有限公司 | 一种基于深度学习的网页类型智能识别方法及*** |
CN109242516A (zh) * | 2018-09-06 | 2019-01-18 | 北京京东尚科信息技术有限公司 | 处理服务单的方法和装置 |
CN109344884A (zh) * | 2018-09-14 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 媒体信息分类方法、训练图片分类模型的方法及装置 |
CN109409091A (zh) * | 2018-09-28 | 2019-03-01 | 深信服科技股份有限公司 | 检测Web页面的方法、装置、设备以及计算机存储介质 |
CN109886022A (zh) * | 2019-02-20 | 2019-06-14 | 北京丁牛科技有限公司 | Cms类型识别方法及装置 |
CN110378330A (zh) * | 2018-04-12 | 2019-10-25 | Oppo广东移动通信有限公司 | 图片分类方法及相关产品 |
CN110781925A (zh) * | 2019-09-29 | 2020-02-11 | 支付宝(杭州)信息技术有限公司 | 软件页面的分类方法、装置、电子设备及存储介质 |
CN111382385A (zh) * | 2020-02-21 | 2020-07-07 | 奇安信科技集团股份有限公司 | 网页所属行业分类方法及装置 |
CN111538550A (zh) * | 2020-04-17 | 2020-08-14 | 姜海强 | 一种基于图像检测算法的网页信息筛查方法 |
CN111626309A (zh) * | 2020-05-26 | 2020-09-04 | 北京墨云科技有限公司 | 一种基于深度学习的网站指纹识别方法 |
CN112131506A (zh) * | 2020-09-24 | 2020-12-25 | 厦门市美亚柏科信息股份有限公司 | 一种网页分类方法、终端设备及存储介质 |
CN112507186A (zh) * | 2020-11-27 | 2021-03-16 | 北京数立得科技有限公司 | 网页元素分类方法 |
CN113360734A (zh) * | 2021-07-07 | 2021-09-07 | 脸萌有限公司 | 网页分类方法、装置、存储介质及电子设备 |
CN113688905A (zh) * | 2021-08-25 | 2021-11-23 | 中国互联网络信息中心 | 一种有害域名核验方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4370873B2 (ja) * | 2003-10-17 | 2009-11-25 | 富士ゼロックス株式会社 | 文書分類装置、プログラムおよび文書分類方法 |
CN101794311A (zh) * | 2010-03-05 | 2010-08-04 | 南京邮电大学 | 基于模糊数据挖掘的中文网页自动分类方法 |
CN103377258A (zh) * | 2012-04-28 | 2013-10-30 | 索尼公司 | 用于对微博信息进行分类显示的方法和设备 |
CN104881428A (zh) * | 2015-04-02 | 2015-09-02 | 广州神马移动信息科技有限公司 | 一种信息图网页的信息图提取、检索方法和装置 |
CN105574200A (zh) * | 2015-12-29 | 2016-05-11 | 成都陌云科技有限公司 | 基于历史记录的用户兴趣提取方法 |
-
2016
- 2016-12-07 CN CN201611117608.8A patent/CN106599155B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4370873B2 (ja) * | 2003-10-17 | 2009-11-25 | 富士ゼロックス株式会社 | 文書分類装置、プログラムおよび文書分類方法 |
CN101794311A (zh) * | 2010-03-05 | 2010-08-04 | 南京邮电大学 | 基于模糊数据挖掘的中文网页自动分类方法 |
CN103377258A (zh) * | 2012-04-28 | 2013-10-30 | 索尼公司 | 用于对微博信息进行分类显示的方法和设备 |
CN104881428A (zh) * | 2015-04-02 | 2015-09-02 | 广州神马移动信息科技有限公司 | 一种信息图网页的信息图提取、检索方法和装置 |
CN105574200A (zh) * | 2015-12-29 | 2016-05-11 | 成都陌云科技有限公司 | 基于历史记录的用户兴趣提取方法 |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895024B (zh) * | 2017-09-13 | 2021-10-08 | 同济大学 | 用于网页新闻分类推荐的用户模型构建方法及推荐方法 |
CN107895024A (zh) * | 2017-09-13 | 2018-04-10 | 同济大学 | 用于网页新闻分类推荐的用户模型构建方法及推荐方法 |
CN107832774A (zh) * | 2017-10-09 | 2018-03-23 | 无线生活(杭州)信息科技有限公司 | 一种页面异常检测方法及装置 |
CN108256104A (zh) * | 2018-02-05 | 2018-07-06 | 恒安嘉新(北京)科技股份公司 | 基于多维特征的互联网网站综合分类方法 |
CN108256104B (zh) * | 2018-02-05 | 2020-05-26 | 恒安嘉新(北京)科技股份公司 | 基于多维特征的互联网网站综合分类方法 |
CN110378330A (zh) * | 2018-04-12 | 2019-10-25 | Oppo广东移动通信有限公司 | 图片分类方法及相关产品 |
CN110378330B (zh) * | 2018-04-12 | 2021-07-13 | Oppo广东移动通信有限公司 | 图片分类方法及相关产品 |
CN108921184A (zh) * | 2018-04-18 | 2018-11-30 | 中国科学院信息工程研究所 | 一种通用的网页类型判定方法 |
CN108874996A (zh) * | 2018-06-13 | 2018-11-23 | 北京知道创宇信息技术有限公司 | 网站分类方法及装置 |
CN108875019A (zh) * | 2018-06-20 | 2018-11-23 | 淮阴工学院 | 一种资源结构化链接的信息快速分类方法 |
CN108875019B (zh) * | 2018-06-20 | 2022-07-26 | 淮阴工学院 | 一种资源结构化链接的信息快速分类方法 |
CN109241383B (zh) * | 2018-07-20 | 2019-06-21 | 北京开普云信息科技有限公司 | 一种基于深度学习的网页类型智能识别方法及*** |
CN109241383A (zh) * | 2018-07-20 | 2019-01-18 | 北京开普云信息科技有限公司 | 一种基于深度学习的网页类型智能识别方法及*** |
CN109242516A (zh) * | 2018-09-06 | 2019-01-18 | 北京京东尚科信息技术有限公司 | 处理服务单的方法和装置 |
CN111444966A (zh) * | 2018-09-14 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 媒体信息分类方法及装置 |
CN109344884A (zh) * | 2018-09-14 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 媒体信息分类方法、训练图片分类模型的方法及装置 |
CN109344884B (zh) * | 2018-09-14 | 2023-09-12 | 深圳市雅阅科技有限公司 | 媒体信息分类方法、训练图片分类模型的方法及装置 |
CN111444966B (zh) * | 2018-09-14 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 媒体信息分类方法及装置 |
CN109409091A (zh) * | 2018-09-28 | 2019-03-01 | 深信服科技股份有限公司 | 检测Web页面的方法、装置、设备以及计算机存储介质 |
CN109409091B (zh) * | 2018-09-28 | 2021-11-19 | 深信服科技股份有限公司 | 检测Web页面的方法、装置、设备以及计算机存储介质 |
CN109886022A (zh) * | 2019-02-20 | 2019-06-14 | 北京丁牛科技有限公司 | Cms类型识别方法及装置 |
CN110781925A (zh) * | 2019-09-29 | 2020-02-11 | 支付宝(杭州)信息技术有限公司 | 软件页面的分类方法、装置、电子设备及存储介质 |
CN111382385A (zh) * | 2020-02-21 | 2020-07-07 | 奇安信科技集团股份有限公司 | 网页所属行业分类方法及装置 |
CN111382385B (zh) * | 2020-02-21 | 2024-04-12 | 奇安信科技集团股份有限公司 | 网页所属行业分类方法及装置 |
CN111538550A (zh) * | 2020-04-17 | 2020-08-14 | 姜海强 | 一种基于图像检测算法的网页信息筛查方法 |
CN111626309A (zh) * | 2020-05-26 | 2020-09-04 | 北京墨云科技有限公司 | 一种基于深度学习的网站指纹识别方法 |
CN112131506A (zh) * | 2020-09-24 | 2020-12-25 | 厦门市美亚柏科信息股份有限公司 | 一种网页分类方法、终端设备及存储介质 |
CN112507186A (zh) * | 2020-11-27 | 2021-03-16 | 北京数立得科技有限公司 | 网页元素分类方法 |
WO2023282848A1 (zh) * | 2021-07-07 | 2023-01-12 | 脸萌有限公司 | 网页分类方法、装置、存储介质及电子设备 |
CN113360734B (zh) * | 2021-07-07 | 2023-05-02 | 脸萌有限公司 | 网页分类方法、装置、存储介质及电子设备 |
CN113360734A (zh) * | 2021-07-07 | 2021-09-07 | 脸萌有限公司 | 网页分类方法、装置、存储介质及电子设备 |
CN113688905A (zh) * | 2021-08-25 | 2021-11-23 | 中国互联网络信息中心 | 一种有害域名核验方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106599155B (zh) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599155A (zh) | 一种网页分类方法及*** | |
CN107301171A (zh) | 一种基于情感词典学习的文本情感分析方法和*** | |
Bansal et al. | On predicting elections with hybrid topic based sentiment analysis of tweets | |
CN103793484B (zh) | 分类信息网站中的基于机器学习的欺诈行为识别*** | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN107291723A (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CN108256104A (zh) | 基于多维特征的互联网网站综合分类方法 | |
CN106570109B (zh) | 一种通过文本分析自动生成题库知识点的方法 | |
CN105095187A (zh) | 一种搜索意图识别方法及装置 | |
CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
CN109165529B (zh) | 一种暗链篡改检测方法、装置和计算机可读存储介质 | |
CN108364199A (zh) | 一种基于互联网用户评论的数据分析方法及*** | |
CN103886077B (zh) | 短文本的聚类方法和*** | |
CN104657466B (zh) | 一种基于论坛帖子特征的用户兴趣识别方法及装置 | |
CN111797239A (zh) | 应用程序的分类方法、装置及终端设备 | |
CN111274125B (zh) | 一种日志分析方法及装置 | |
CN104462229A (zh) | 一种事件分类方法及装置 | |
CN107665221A (zh) | 关键词的分类方法和装置 | |
CN110019776A (zh) | 文章分类方法及装置、存储介质 | |
CN110347931A (zh) | 文章新章节的检测方法及装置 | |
CN104966109B (zh) | 医疗化验单图像分类方法及装置 | |
CN108733652A (zh) | 基于机器学习的影评情感倾向性分析的测试方法 | |
CN106168968A (zh) | 一种网站分类方法及装置 | |
CN103246686A (zh) | 文本分类方法和装置及文本分类的特征处理方法和装置 | |
CN103577557A (zh) | 一种确定网络资源点的抓取频率的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |