CN103810264B - 基于特征选择的网页文本分类方法 - Google Patents

基于特征选择的网页文本分类方法 Download PDF

Info

Publication number
CN103810264B
CN103810264B CN201410038614.9A CN201410038614A CN103810264B CN 103810264 B CN103810264 B CN 103810264B CN 201410038614 A CN201410038614 A CN 201410038614A CN 103810264 B CN103810264 B CN 103810264B
Authority
CN
China
Prior art keywords
webpage
class
training set
web page
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410038614.9A
Other languages
English (en)
Other versions
CN103810264A (zh
Inventor
周红芳
郭杰
王鹏
张国荣
段文聪
王心怡
何馨依
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201410038614.9A priority Critical patent/CN103810264B/zh
Publication of CN103810264A publication Critical patent/CN103810264A/zh
Application granted granted Critical
Publication of CN103810264B publication Critical patent/CN103810264B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于特征选择的网页文本分类方法,首先,把由大量的网页构成的数据集分为训练集和测试集两部分;然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重,并计算训练集中每个网页内特征词的权重(归一化后的词频与反文档频率之积);在所得权重的基础上结合类内分布率和类间偏差,计算训练集中每个网页的特征向量,继而计算训练集中每个类的特征向量;最后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每一个类之间的相似度,采用相似度最大的类作为待分类网页的所属类,得到分类结果。

Description

基于特征选择的网页文本分类方法
技术领域
本发明属于数据挖掘方法技术领域,涉及一种基于特征选择的网页文本分类方法。
背景技术
随着计算机与通讯技术的快速发展、互联网迅速普及应用,网络上的网页正以几何级数的速度增长。面对这些***式增长的海量网络信息,如何从中快速、有效地获得有用的、感兴趣的信息变得越来越重要。因此,有效地组织和管理网页资源,缩短用户获取所需信息的时间,成为了目前急需解决的问题。网页分类技术应运而生,并逐渐成为继文本分类之后机器学习领域的研究热点。
传统上的网页分类是先由人工判断类别,即在分析网页的内容之后,人工手动选择一个合适的类别。但是,这种人工分类的做法存在着许多缺点:一是在网页文本数量急剧增长的情况下,用人工分类方法来进行分类变得不切实际,需要耗费大量的人力资源;二是人工对网页文本进行分类无法保证较高的分类准确率,主要是由于每个人的经验知识等主观因素不同,分类结果可能会出现不一致的情况。因此,急需一种有效的方法对网页文本进行管理,由此网页文本自动分类技术开始显示出其优越性。
网页文本自动分类技术来源于文本自动分类技术,其目标和文本分类技术一致,即在预先定义的网页分类体系下,把待分类的网页准确归属到一个或多个相应的类别。常用的网页文本分类算法有以下几种:KNN算法、NB(Naive Bayes)算法、支持向量机(SVM)、遗传算法(GA)、Rocchio算法等。这些网页文本自动分类技术仍然存在着许多问题,如网页文本特征空间的维数过高,导致存储空间大,分类速度慢;网页中包含有大量网站标记、广告等噪声信息,严重干扰了对网页类别的确定,从而降低了分类的准确率;同时网页中不同位置的信息表达网页的能力不同,对分类的准确性有一定的影响。因此,迫切需要找到一种有效的网页文本分类技术,来减少分类的时间,并提高分类的准确率。
发明内容
本发明的目的是提供一种基于特征选择的网页文本分类方法,解决现有技术存在的分类速度慢、准确率不高的问题。
本发明的技术方案是,基于特征选择的网页文本分类方法,首先,把由大量的网页构成的数据集分为训练集和测试集两部分;然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重,并计算训练集中每个网页内特征词的权重(归一化后的词频与反文档频率之积);在所得权重的基础上结合类内分布率和类间偏差,计算训练集中每个网页的特征向量,继而计算训练集中每个类的特征向量;最后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每一个类之间的相似度,采用相似度最大的类作为待分类网页的所属类,得到分类结果。
本发明的特点还在于:
特征词为对网页进行预处理后得到的能表示网页内容的词。
训练集中的网页包含若干个不同的类,对每个类中的网页进行计算得到每个类的特征向量,然后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每个类的特征向量的相似度,采用相似度最大的类作为待分类网页的所属类,得到对网页进行分类的结果。数据集中的训练集进行一系列的计算构造网页分类器,测试集用于测试该网页分类器对网页进行分类的性能优劣。
具体步骤如下:
1.把由大量的网页构成的数据集分为训练集和测试集两部分,一般要求训练集取数据集的80%左右,测试集取剩余部分;
2.对数据集(包括训练集和测试集)进行预处理,主要是对网页进行分词,即将网页内的文本切分成单个的词语,去除网页中对分类无关的噪音信息,去除停用词即无实际含义或应用很广泛的词;
3.结合特征词的位置特征,计算训练集中每个网页内特征词的词频;
4.结合特征词的类内分布率和类间偏差,计算训练集中每个网页内特证词的权重(TFIDF);
5.根据每个网页内特证词的权重,计算训练集中每个网页的文本特征向量;
6.根据每个类中各网页的文本特征向量,计算训练集中每个类的特征向量;
7.结合特征词的位置特征,计算测试集中每个网页内特征词的词频;
8.利用向量空间模型进行网页分类,采用两个特征向量间的余弦夹角公式计算待分类网页与训练集中每一个类之间的相似度,并采用相似度最大的类作为待分类网页的所属类。
计算特征词的词频时,考虑其位置的影响,本发明根据实际经验并参考前人的研究成果,认为表示网页中心内容的标题,其权重最高;对概括和强调网页起关键作用的简介和关键字,其权重次之;网页正文,其权重最低。
计算特征词tk的权重时结合特征词tk的类间偏差EDkj和类内分布率IDkj,其中,类间偏差EDkj的计算公式如下:
式中,N(tk,Cj)表示类Cj中出现特征词tk的文档个数,表示所有类中出现特征词tk的文档个数,m为训练集中类别的个数。
类内分布率IDkj的计算公式如下:
式中,M(tk,Cj)表示类Cj中特征词tk出现的总次数,M(Cj)表示类Cj中所有词出现的总次数。
权重的计算公式如下:
其中,tfik(di)是根据特征词tk在网页中的位置进行修正后的新词频,N(D)为训练集中的总文档数,N(tk,D)为文档集D中出现特征词tk的文档数,n为文档di中特征词的总个数,EDkj为特征词tk的类间偏差,IDkj为特征词tk的类内分布律。
大量的网页为最少6000个。
本发明具有如下有益效果:
1.分类正确率上,对比传统TFIDF算法和遗传算法(GA),本发明分类方法在分类正确率上优于其他2个对比算法。主要原因是:①在计算特征词的词频时,考虑了特征词在网页中的位置对词频的影响,对其进行了修正,有效的提高了分类的正确率;②在计算特征词权重时,综合了特征词的类内分布率和类间偏差,进一步提高了分类的正确率。
2.分类时间上,由于本发明分类方法在计算特征词权重时,考虑了特征词在网页中的位置、特征词在类内及类间的分布,所以,相比于同样具有较好分类效果的遗传算法,大大缩短了执行时间。
3.本发明召回率整体上比传统的TFIDF算法及遗传算法都高。
附图说明
图1是本发明基于特征选择的网页文本分类方法与现有技术的分类正确率的对比图;
图2是本发明基于特征选择的网页文本分类方法与现有技术的分类召回率的对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明分类方法在计算特征词权重时结合了特征词的位置以及特征词的类间类内分布,从而避免了那些对分类没有贡献的特征词被赋予较大权值的不足,并最终提高了分类的准确率。
本发明中的相关定义如下:
定义1(词频)词频(TF,Term Frequency)是指特征词tk在文档di中出现的次数,用tfik(di)表示。在排除停用词及个别高频词的前提下,特征词tk在文档di中出现的次数越多,其表征文档di的能力越强。
定义2(文档频率)文档频率(DF,Document Frequency)是指文档集D中出现特征词tk的文档数,用N(tk,D)表示。特征词tk出现的文档数N(tk,D)越大,tk对文档集D中的文档di的代表性越弱。
定义3(反文档频率)反文档频率(IDF,Inverse Document Frequency)是特征词tk在文档集D中出现频繁程度的度量,用IDFk表示:
其中,N(D)为训练集中的总文档数,N(tk,D)为文档集D中出现特征词tk的文档数。IDFk随着N(tk,D)的增大而减小,文档集D中出现tk的文档数N(tk,D)越小,tk对文档集D中的文档di越具有代表性。
定义4(归一化)为降低个别高频特征词对低频特征词的抑制作用,对各分量进行归一化。归一化后的TFIDF计算如下:
其中,L为经验值,通常取L=0.01,tfik(di)为特征词tk在文档di中出现的次数,N(D)为训练集中的总文档数,N(tk,D)为文档集D中出现特征词tk的文档数,n为文档di中特征词的总个数。
定义5(网页的VSM表示)网页d的表示形式为V(d)=(t1,w1(d);…;tk,wk(d);…,tn,wn(d)),其中tk表示网页中的特征词,wk(d)表示tk出现的词频。
定义6(类间偏差)类间偏差(ED,external deviation)表示特征词可能在有些类中出现,可能在有些类中不出现,它为一种类间不确定性度量,用EDkj表示:
其中,N(tk,Cj)表示类Cj中出现特征词tk的文档个数,表示所有类中出现特征词tk的文档个数,m为训练集中类别的个数。从上式可看出,EDkj值越大,说明特征词tk越集中在类Cj中,对类Cj的表征作用越强。
定义7(类内分布率)类内分布率(ID,internal distribution)表示类内所有文档中出现特征词的概率,它是特征词tk在某具体类中分布均衡程度的度量。类内分布率用IDkj表示:
其中,M(tk,Cj)表示类Cj中特征词tk出现的总次数,M(Cj)表示类Cj中所有词出现的总次数。从上式可看出,IDkj值越大,说明特征词tk在类Cj中越均匀分布,对类Cj的表征作用越强。
特征词为对网页进行预处理后得到的能表示网页内容的词。
具体步骤如下:
1.把大量的网页分为训练集和测试集两部分,一般要求训练集取总网页数的80%左右,测试集取剩下的部分;
2.对网页(包括训练集和测试集)进行预处理,主要是对网页进行分词,即将网页内的文本切分成单个的词语,去除网页中对分类无关的噪音信息,去除停用词(无实际含义或应用很广泛的词)等;
3.结合特征词(网页内所有能表示网页内容的词)的位置特征,计算训练集中每个网页内特征词的词频;
4.结合特征词的类内分布率和类间偏差,计算训练集中每个网页内特证词的权重(TFIDF);
5.根据每个网页内特证词的权重,计算训练集中每个网页的文本特征向量;
6.根据每个类中各网页的文本特征向量,计算训练集中每个类的特征向量;
7.结合特征词的位置特征,计算测试集中每个网页内特征词的词频;
8.利用向量空间模型进行网页分类,采用两个特征向量间的余弦夹角公式计算待分类网页与训练集中每一个类之间的相似度,并采用相似度最大的类作为待分类网页的所属类。
Web页面不同于一般的文本文件,它是一种半结构化的文件,含有大量的链接和标签,标签域中的信息表达网页内容的能力不同,因而对网页分类所起的作用也有所不同。本发明根据特征词tk所在的位置对其词频进行修正,具体方法为在原词频基础上,根据其所在的位置乘以相应的权重,得到新词频。在实验中,我们认为Title是对网页主题的直接描述,表示网页的中心内容,赋予其权重为4;Description是对网页的简介,keywords表示网页内容中的关键字,这两部分内容对概括和强调网页起关键作用,赋予其权重为2;PlainText是普通的文本,即网页正文,它对网页的作用较前两者次之,赋予其权重为1。
本发明考虑包含特征词tk的文档在每个类中的分布情况,以及特征词tk在某个类的各个文档中的分布情况,在计算特征词tk的权重时结合特征词tk的类间偏差EDkj和类内分布率IDkj。其中,类间偏差EDkj的计算公式如下:
式中,N(tk,Cj)表示类Cj中出现特征词tk的文档个数,表示所有类中出现特征词tk的文档个数,m为训练集中类别的个数。类内分布率IDkj的计算公式如下:
式中,M(tk,Cj)表示类Cj中特征词tk出现的总次数,M(Cj)表示类Cj中所有词出现的总次数。
结合特征词的位置、类间偏差和类内分布率后计算权重的公式如下:
其中,tfik(di)是根据特征词tk在网页中的位置进行修正后的新词频,N(D)为训练集中的总文档数,N(tk,D)为文档集D中出现特征词tk的文档数,n为文档di中特征词的总个数,EDkj为特征词tk的类间偏差,IDkj为特征词tk的类内分布律。
计算特征词的词频时,考虑其位置的影响,本发明根据实际经验并参考前人的研究成果,认为表示网页中心内容的标题,其权重最高;对概括和强调网页起关键作用的简介和关键字,其权重次之;网页正文,其权重最低。
本发明中,如果某个词在一个文本中出现的频率越高,说明它在区分该文本内容属性方面的能力越强;如果一个词在某些文本中出现的范围越广,即每个类别中出现次数相当,说明该词区分文本内容的能力越低。考虑到Web页面是一种半结构化的文件,含有大量的链接和标签,标签域中的信息表达网页内容的能力有所差别,对网页分类所起的作用也有所不同,本发明定义最能反映页面内容的信息归为位置1,赋予其最高权值;较能反映页面内容的信息归为位置2,赋予其高权值;反映页面内容次于前两者的信息归为位置3,赋予其较低权值,即有:
weight(p=1)>weight(p=2)>weight(p=3)
(6)
其中,p为位置特征。在具体实验过程中,本发明认为Title是对网页主题的直接描述,表示网页的中心内容,将其置于位置1,并赋予其权重为4;Description是对网页的简介,keywords表示网页内容中的关键字,这两部分内容对概括和强调网页起关键作用,将其置于位置2,并赋予其权重为2;Plain Text是普通的文本,即网页正文,它对网页的作用较前两者次之,将其置于位置3,并赋予其权重为1。本发明根据特征词tk在网页中的位置对其词频进行修正,具体方法为在原词频基础上,根据其位置特征乘以相应的权重,得到新词频wk(d)。
其次,考虑到网页文本分类算法中很少考虑特征词在类内及类间的分布情况,本发明又结合了特征词的类间偏差和类内分布率来调整特征词的权重。
最后,本发明提出了一种结合特征词的位置、类间偏差和类内分布率的TFIDF特征加权方法,公式如下:
其中,tfik(di)是根据特征词tk在网页中的位置进行修正后的新词频,N(D)为训练集中的总文档数,N(tk,D)为文档集D中出现特征词tk的文档数,n为文档di中特征词的总个数,EDkj为特征词tk的类间偏差,IDkj为特征词tk的类内分布律。
一般情况下,经过上式求出来的权重就可以得到较好的分类结果,但是当多个类同时含有同一个特征词时,且计算出的特征权重比较大时,会对分类结果的准确性产生一定的影响,因此,本发明在上式求出的权重结果上又进行了修正,修正后的权重记为W′ik(di)。修正方法是先统计特征词在各个类别中权重的总和sum(注:当特征词不出现在某一类别中时,其权重为0),然后用根据上式求出的权重除以sum,以此来降低其对分类结果的影响。即
根据式(7)计算出的权重,降低了同一特征词出现在不同类中且其权重太大时对分类结果的影响,同时又不影响不同类中独有特征词对分类的影响。
在分类器的选择上,本发明选用向量空间模型,首先计算出待分类网页与每一个类之间的相似度,然后采用相似度最大的类作为待分类网页的所属类。相似度的计算公式采用两个特征向量间的余弦夹角表示:
其中,Wik、Wjk分别表示文档di和类Cj的第k个特征词的权值,n为特征词的总个数。
实施例,按照本发明提出的基于特征选择的网页文本分类方法的具体实施如下:
本发明所使用的网页是来自搜狗实验室的互联网语料库SougouCS。在实验中,由于网页中有些类别的网页个数太少,因此,我们只选取了汽车、财经、IT、健康、体育、旅游、教育、文化、军事、房产、娱乐、时尚共12个类别,将整理后的网页分成训练集和测试集两部分,其中每个类中训练集的网页个数为600个,测试集的网页个数为200个。
本实施例中共有12个类,每个类中训练集的网页数是600,测试集的网页数是200,所以总网页数是12*(600+200)=9600个。
对网页进行预处理,主要是对网页进行分词,去除网页中对分类无关的噪音信息,去除停用词等。例如,网页正文内容为“我是一个学生”,经过分词后得到的结果是“我是一个学生”这样一系列的词组,再经过去除噪音信息和停用词后所得的结果是“学生”。
结合特征词的位置特征,计算训练集中每个网页内特征词的词频。统计训练集内每个网页内特征词在该网页内出现的次数,如果该特征词位于“标题”处,则在计算出的次数之上乘以4;如果该特征词位于“简介”和“关键词”处,则在计算出的次数之上乘以2;如果该特征词位于“网页正文”处,则在计算出的次数之上乘以1。
结合特征词的类内分布率和类间偏差,计算训练集中每个网页内特证词的权重(TFIDF)。根据公式(1)计算出特征词的类间偏差,根据公式(2)计算出特征词的类内分布率,最后根据公式(3)计算出特征词的复合权重。
选择训练集中每个网页内特征词权重最高的前n个(n可以任意取值,一般偏大,在本发明中n取100)特征词及其权重构成该网页的文本特征向量。合并某一类中所有网页的文本特征向量,并按权重从大到小排列,选取前n个(n可以任意取值,一般偏大,在本发明中n取100)特征词及其权重构成该类的特征向量。当得到所有类的特征向量时,训练完成。
结合特征词的位置特征,计算测试集中每个网页内特征词的词频。统计测试集内每个网页内特征词在该网页内出现的次数,如果该特征词位于“标题”处,则在计算出的次数之上乘以4;如果该特征词位于“简介”和“关键词”处,则在计算出的次数之上乘以2;如果该特征词位于“网页正文”处,则在计算出的次数之上乘以1。
利用向量空间模型进行网页分类,根据公式(14)计算待分类网页与训练集中每一个类之间的相似度,并采用相似度最大的类作为待分类网页的所属类。此步完成后,按照本发明进行网页分类结束,其分类结果如下表的混淆矩阵所示:
表1 本发明的分类结果表
从表1中可以看出,本发明分类正确的网页个数总体上较多,但也存在着像健康、文化、时尚等这样正确分类数偏低的类别。这是由于这些类别和其他一些类别之间包含的相同特征词太多造成的,即这些不同类别的分类界限模糊。例如时尚类,分类结果中有31个网页被分到了娱乐类中。
为了验证本发明的准确性,分别使用传统TFIDF算法、遗传算法(GA)与本发明进行对比。本发明采用正确率和召回率评价网页分类的性能,其计算公式如下:
其正确率对比图如图1所示,召回率对比图如图2所示。从图1、图2可以看出,使用本发明的分类效果比使用传统的TFIDF算法及遗传算法要好,对于大多数类,其分类的准确率和召回率都有一定的提高。这说明特征词在类内及类间的分布对权重的计算有一定的影响,因此,考虑这两个因素能有效地提高分类的正确率和召回率。同时也说明在计算权重时考虑特征词在网页中的位置能明显提高网页分类的准确度。

Claims (5)

1.基于特征选择的网页文本分类方法,其特征在于,首先,把由大量的网页构成的数据集分为训练集和测试集两部分;然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重,并计算训练集中每个网页内特征词的权重,所述权重为归一化后的词频与反文档频率之积;在所得权重的基础上结合类内分布率和类间偏差,计算训练集中每个网页的特征向量,继而计算训练集中每个类的特征向量;最后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每一个类之间的相似度,采用相似度最大的类作为待分类网页的所属类,得到分类结果;
所述训练集中的网页包含若干个不同的类,对每个类中的网页进行计算得到每个类的特征向量,然后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每个类的特征向量的相似度,采用相似度最大的类作为待分类网页的所属类,得到对网页进行分类的结果;数据集中的训练集进行一系列的计算构造网页分类器,测试集用于测试该网页分类器对网页进行分类的性能优劣;
计算特征词tk的权重时结合特征词tk的类间偏差EDkj和类内分布率IDkj,其中,类间偏差EDkj的计算公式如下:
ED k j = N ( t k , C j ) Σ x = 1 m N ( t k , C x ) - - - ( 1 )
式中,N(tk,Cj)表示类Cj中出现特征词tk的文档个数,表示所有类中出现特征词tk的文档个数,m为训练集中类别的个数;
类内分布率IDkj的计算公式如下:
ID k j = M ( t k , C j ) M ( C j ) - - - ( 2 )
式中,M(tk,Cj)表示类Cj中特征词tk出现的总次数,M(Cj)表示类Cj中所有词出现的总次数;
权重的计算公式如下:
W i k ( d i ) = tf i k ( d i ) × l o g ( N ( D ) N ( t k , D ) + 0.01 ) Σ k = 1 n ( tf i k ( d i ) ) 2 × [ l o g ( N ( D ) N ( t k , D ) + 0.01 ) ] 2 × ED k j × ID k j - - - ( 3 )
其中,tfik(di)是根据特征词tk在网页中的位置进行修正后的新词频,N(D)为训练集中的总文档数,N(tk,D)为文档集D中出现特征词tk的文档数,n为文档di中特征词的总个数,EDkj为特征词tk的类间偏差,IDkj为特征词tk的类内分布率。
2.如权利要求1所述的基于特征选择的网页文本分类方法,其特征在于,特征词为对网页进行预处理后得到的能表示网页内容的词。
3.如权利要求1-2任一项所述的基于特征选择的网页文本分类方法,其特征在于,具体步骤如下:
1)把由大量的网页构成的数据集分为训练集和测试集两部分,一般要求训练集取数据集的80%左右,测试集取剩余部分;
2)对数据集进行预处理,主要是对网页进行分词,即将网页内的文本切分成单个的词语,去除网页中对分类无关的噪音信息,去除停用词即无实际含义或应用很广泛的词;
3)结合特征词的位置特征,计算训练集中每个网页内特征词的词频;
4)结合特征词的类内分布率和类间偏差,计算训练集中每个网页内特证词的权重;
5)根据每个网页内特证词的权重,计算训练集中每个网页的文本特征向量;
6)根据每个类中各网页的文本特征向量,计算训练集中每个类的特征向量;
7)结合特征词的位置特征,计算测试集中每个网页内特征词的词频;
8)利用向量空间模型进行网页分类,采用两个特征向量间的余弦夹角公式计算待分类网页与训练集中每一个类之间的相似度,并采用相似度最大的类作为待分类网页的所属类。
4.如权利要求1所述的基于特征选择的网页文本分类方法,其特征在于,表示网页中心内容的标题,其权重最高;对概括和强调网页起关键作用的简介和关键字,其权重次之;网页正文,其权重最低。
5.如权利要求1所述的基于特征选择的网页文本分类方法,其特征在于:大量的网页为最少6000个。
CN201410038614.9A 2014-01-27 2014-01-27 基于特征选择的网页文本分类方法 Expired - Fee Related CN103810264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410038614.9A CN103810264B (zh) 2014-01-27 2014-01-27 基于特征选择的网页文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410038614.9A CN103810264B (zh) 2014-01-27 2014-01-27 基于特征选择的网页文本分类方法

Publications (2)

Publication Number Publication Date
CN103810264A CN103810264A (zh) 2014-05-21
CN103810264B true CN103810264B (zh) 2017-06-06

Family

ID=50707034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410038614.9A Expired - Fee Related CN103810264B (zh) 2014-01-27 2014-01-27 基于特征选择的网页文本分类方法

Country Status (1)

Country Link
CN (1) CN103810264B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050240A (zh) * 2014-05-26 2014-09-17 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置
CN104123659A (zh) * 2014-07-30 2014-10-29 杭州野工科技有限公司 基于商品网络化基因的品牌知识产权保护平台
CN104239436B (zh) * 2014-08-27 2018-01-02 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN106294392B (zh) * 2015-05-20 2019-12-06 阿里巴巴集团控股有限公司 一种网页显示方法及装置
CN104866573B (zh) * 2015-05-22 2018-02-13 齐鲁工业大学 一种文本分类的方法
CN105205090A (zh) * 2015-05-29 2015-12-30 湖南大学 基于网页链接分析和支持向量机的网页文本分类算法研究
CN105303296B (zh) * 2015-09-29 2019-04-23 国网浙江省电力公司电力科学研究院 一种电力设备全寿命状态评价方法
CN105488029A (zh) * 2015-11-30 2016-04-13 西安闻泰电子科技有限公司 基于knn的智能手机即时通讯工具取证方法
CN107544980B (zh) * 2016-06-24 2020-07-24 北京国双科技有限公司 一种查找网页的方法及装置
CN108614825B (zh) * 2016-12-12 2022-04-15 中移(杭州)信息技术有限公司 一种网页特征提取方法和装置
CN108268457A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于svm的文本分类方法及装置
CN108268458B (zh) * 2016-12-30 2020-12-08 广东精点数据科技股份有限公司 一种基于knn算法的半结构化数据分类方法及装置
CN108694325B (zh) * 2017-04-10 2020-12-29 北大方正集团有限公司 指定类型网站的辨别方法和指定类型网站的辨别装置
CN107577708A (zh) * 2017-07-31 2018-01-12 北京北信源软件股份有限公司 基于SparkMLlib文档分类的类库构建方法及***
CN109858006B (zh) * 2017-11-30 2021-04-09 亿度慧达教育科技(北京)有限公司 科目识别训练方法、装置
CN108764671B (zh) * 2018-05-16 2022-04-15 山东师范大学 一种基于自建语料库的创造能力评测方法和装置
CN109101477B (zh) * 2018-06-04 2023-01-31 东南大学 一种企业领域分类及企业关键词筛选方法
CN109472293A (zh) * 2018-10-12 2019-03-15 国家电网有限公司 一种基于机器学习的电网设备档案数据纠错方法
CN109299275A (zh) * 2018-11-09 2019-02-01 长春理工大学 一种基于并行化噪音消除的文本分类方法
CN110929028A (zh) * 2019-11-01 2020-03-27 深圳前海微众银行股份有限公司 一种日志分类方法及装置
CN111368552B (zh) * 2020-02-26 2023-09-26 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111382273B (zh) * 2020-03-09 2023-04-14 广州智赢万世市场管理有限公司 一种基于吸引因子的特征选择的文本分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于VSM模型和特征选择算法的中文文本自动分类研究》;朱坤红;《中国优秀硕士学位论文全文数据库(电子期刊)》;20120430;正文第22-28页 *
《基于支持向量机的网页文本分类技术研究》;黄乐;《中国优秀硕士学位论文全文数据库(电子期刊)》;20121031;正文第15-35页 *

Also Published As

Publication number Publication date
CN103810264A (zh) 2014-05-21

Similar Documents

Publication Publication Date Title
CN103810264B (zh) 基于特征选择的网页文本分类方法
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
Cohen et al. End to end long short term memory networks for non-factoid question answering
CN105205090A (zh) 基于网页链接分析和支持向量机的网页文本分类算法研究
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及***
CN103365997B (zh) 一种基于集成学习的观点挖掘方法
WO2021184674A1 (zh) 文本关键词提取方法、电子设备及计算机可读存储介质
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
US20080208840A1 (en) Diverse Topic Phrase Extraction
CN106445919A (zh) 一种情感分类方法及装置
CN106599054A (zh) 一种题目分类及推送的方法及***
CN105917364B (zh) 对问答论坛中讨论话题的排名
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN109062958B (zh) 一种基于TextRank和卷积神经网络的小学作文自动分类方法
CN106997379A (zh) 一种基于图片文本点击量的相近文本的合并方法
Li et al. Text classification method based on convolution neural network
CN106649264B (zh) 一种基于篇章信息的中文水果品种信息抽取方法及装置
Ma et al. A microblog recommendation algorithm based on multi-tag correlation
CN103324942B (zh) 一种图像分类方法、装置及***
Gao et al. Text categorization based on improved Rocchio algorithm
CN106776724A (zh) 一种题目分类方法及***
CN108920492B (zh) 一种网页分类方法、***、终端及存储介质
CN113780832B (zh) 舆情文本评分方法、装置、计算机设备和存储介质
CN109829054A (zh) 一种文本分类方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170606

Termination date: 20210127

CF01 Termination of patent right due to non-payment of annual fee