CN105447161A - 一种基于数据特征的智能信息分类方法 - Google Patents

一种基于数据特征的智能信息分类方法 Download PDF

Info

Publication number
CN105447161A
CN105447161A CN201510866092.6A CN201510866092A CN105447161A CN 105447161 A CN105447161 A CN 105447161A CN 201510866092 A CN201510866092 A CN 201510866092A CN 105447161 A CN105447161 A CN 105447161A
Authority
CN
China
Prior art keywords
word
classification
frequency
document
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510866092.6A
Other languages
English (en)
Inventor
刘治
张胜
章云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201510866092.6A priority Critical patent/CN105447161A/zh
Publication of CN105447161A publication Critical patent/CN105447161A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据挖掘领域,涉及一种基于数据特征的智能信息分类方法。本发明主要包括对已经标记好的网页进行训练和对待分类网页进行分类两个阶段。训练阶段包括的主要步骤有:对网页进行预处理;对网页正文进行中文分词和去停止词;根据数据特征创建知识库;对网页进行特征选择和生成特征向量;生成SVM分类器。分类阶段的主要步骤有:对网页进行预分类;用SVM分类器进行精确分类。通过本发明,解决了现有信息分类方法无法对中文网页进行高速和高效分类的不足。

Description

一种基于数据特征的智能信息分类方法
技术领域
本发明属于数据挖掘领域,涉及一种基于数据特征的智能信息分类方法。
背景技术
随着互联网的飞速发展,网络信息呈***式增长。面对如此海量的Web信息,如何快速、准确地获取有用信息,是当今互联网技术面临的挑战之一。网页自动分类是高效处理海量Web信息的一种重要技术。它是指对于待分类网页,根据其内容由计算机根据某种自动分类算法,把网页分为预先定义好的类别。
目前,已经出现了多种基于统计理论和机器学习方法的文本自动分类算法。但是与普通文本文档相比,网页具有以下特点:(1)网页采用超文本设计,网页内包含HTML标签,这使得它比普通文本表现能力更强,可以利用的结构化信息和编辑信息更多;(2)Web上的网页之间通过超链接互相关联,超链接所蕴含的内容推荐与内容相关关系给网页分类带来很多启发信息;(3)网页通常包含大量噪音,如广告、导航条、推荐栏、作者信息等与主题内容无关的信息;(4)中文网页使用中文表达,不像英语那样使用空白符间隔每个单词,中文网页需要分词处理。正是上面这些原因使得网页分类比普通文本分类要复杂得多。
发明内容
针对上述问题,本发明在深入研究中文网页的特点之后,根据网页标题、关键字等部分对分类结果有较高权重的特点,提出了根据数据特征以预置关键词表和标题内容为知识库来进行预先分类,再将网页转化成特征向量结合SVM算法作为补充的分类方法。该方法极大地提高了分类器的综合性能。
具体技术方案如下:一种基于数据特征的智能信息分类方法,包括训练和分类两个阶段:
训练阶段具体按照如下步骤进行:步骤一、对待训练网页进行预处理,去除与网页分类无关的html标记,从中抽取出正文文本。步骤二、对抽取的文本进行中文分词处理,并去掉分词后对网页分类没有多大意义的停止词。例如‘的’、‘了’等在汉语中没有实际意义的字或词,此外还有一些生僻字和特殊符号,都必须作为停止词去掉。步骤三、对分词和去停止词后的结果进行词频统计。步骤四、对词频统计后的结果进行特征选择。具体做法是设置词频阈值,过滤掉词频低于阈值的词。步骤五、对余下的高频词进行权重值计算,生成特征向量。步骤六、创建行业知识库,为每个待训练类别预置该领域的关键词表。步骤七、创建SVM分类器。
分类阶段具体按照如下步骤进行:步骤一、对待分类练网页进行预处理,去除与网页分类无关的html标记,从中抽取出正文文本。步骤二、对抽取后的文本进行中文分词和去停止词处理,具体实施方法和训练时一样。步骤三、预分类。提取待分类网页的标题类容,与预置行业知识库中的关键词表进行对比,确定网页的所属类别。若预分类成功,则直接返回分类结果;若预分类失败,则继续以下步骤。步骤四、将网页文本分词和去停止词后的文本转成特征向量。步骤五、使用SVM分类器对该特征向量进行分类,并返回分类结果。
基于以上技术方案的公开,本发明具备如下有益效果:
1、本发明中根据网页标题、关键字等部分对分类结果有较高权重的特点,提出以预置关键词表和标题内容作为知识库来进行预先分类,大大提高了对中文网页的分类速度。
2、本发明中提出以数据特征建立知识库进行预分类,再结合SVM算法作为补充的分类方法,极大地提高了分类器的综合性能。
附图说明
图1是本发明提出的一种基于数据特征的智能信息分类方法的***流程图。
图2是本发明提出的一种基于数据特征的智能信息分类方法的训练阶段流程图。
图3是本发明提出的一种基于数据特征的智能信息分类方法的分类阶段流程图。
具体实施方式
如图1所示,为本发明提出的一种基于数据特征的智能信息分类方法的***流程图。参照图1,本发明提出的一种基于数据特征的智能信息分类方法包括:步骤S1,对已经标记好的网页进行训练;步骤S2,对待分类的网页进行分类。
参照图2,步骤S1中所述对已经标记好的网页进行训练包括:
步骤S11,对待训练网页进行预处理,去除与网页分类无关的html标记,从中抽取出正文文本。首先,除去<style>、<script>、<applet>等标记所嵌的html源码;其次,将<title>、<meta>标签中内容提取出来,单独保存;最后,过滤掉上述html标签后,提取出网页正文文本。
步骤S12,对抽取的网页正文文本进行中文分词处理,并去掉分词后对网页分类没有多大意义的停止词。例如‘的’、‘了’等在汉语中没有实际意义的字或词,此外还有一些生僻字和特殊符号,都必须作为停止词去掉。
步骤S13,对分词和去停止词后的结果进行词频统计。
步骤S14,对词频统计后的结果进行特征选择。具体做法是设置词频阈值,过滤掉词频低于阈值的词。
步骤S15,使用空间向量模型(VectorSpaceModel)将待训练网页正文文本转换成特征向量。在该模型中,每个文本文档被表示成如下的特征向量:
V(d)=(t1,ω1(d);t2,ω2(d);…;tn,ωn(d);)
其中ti为特征项,ωi(d)为ti在文档中的权重。
根据步骤S15所述,为了便于后续计算,需要减小特征向量的维度。步骤S12、S13、S14减少了特征项的个数,即减少了特征向量的维度。
根据步骤S15所述,特征项在文档中的权重ωi(d)可以使用基于TF-IDF的传统权重算法进行计算,计算公式如下:
&omega; i ( d ) = tf i ( d ) &times; log ( N / n k + 0.01 ) &Sigma; i = 1 n ( tf i ( d ) ) 2 &times; &lsqb; log ( N / n k + 0.01 ) &rsqb; 2
其中,tfi(d)为ti在文档d中出现的频率,N为文档集中的总文档数,nK为出现特征项tK的文档数。
根据步骤S15所述,在网页表示中,有两个因素影响特征项的权重值:一是特征项在文档中出现的频率,一是特征项在文档中出现的位置。采用对不同位置特征词赋予不同权重因子的方法,权重因子计算公式如下:
&lambda; = d k &OverBar; d 0 = ( &Sigma; d k ) / N k ( &Sigma; d k ) / N 0
其中,表示核心词平均词频,表示非核心词平均词频,dK和NK分别为核心词词频和核心词数,dO和NO分别为非核心词词频和非核心词词数。核心词包括<title>内的词和<meta>标记中keywords,description位置出现的词,其余为非核心词。
可选的,一般来说,核心词的词数少而出现次数多,且较为集中,所以λ≥1,当遇到小于1的情况时就取λ=1。对于核心词,特征向量公式就变为:
ω′i(d)=λ×ωi(d)
步骤S16,创建知识库,为每个待训练类别预置该领域的关键词表。
根据步骤S16所述,知识库的具体创建方法为:首先按各个类别提取训练集中所有网页的<title>标记包含的内容,并对其进行分词处理,然后分别统计词频,并按词频降序排列。下一步,将从这些词中选取部分作为预先分类的知识库,选取的原则是从每个类别中词频最高的词开始,检查它是否在其他类别中出现过,如果没有在其他类别中出现,则将它选取为该类别的知识库。
优选的,根据上述所述,若严格要求一个词语只在某个类别标题中出现,则所得到的关键词较少,并不能显著提高分类效率。所以,在实际过程中适当降低要求,如果某个词在一个类别中有较高的词频,而在其他类别中出现的次数不超过某一固定阀值,或者在其他类别中出现次数占总网页数的比例在一定范围内(如1%),仍然选择该词条作为本类的预分类关键词。
步骤S17,对生成的特征向量进行训练,创建SVM分类器。
根据S17所述,SVM分类器的原理为:
(1)设给定的训练集
T∈{(x1,y1),(x2,y2),…,(xi,yi)}∈(X*Y)l
其中,xi∈X=Rn,yi∈Y={-1,1},i=1,2,…,l
(2)选择适合的核函数K(x,x′)和惩罚参数C,构造并求解如下最优化问题
S . t . &Sigma; i = 1 l y i &alpha; i = 0
0≤ai≤Ci=1,2,3…l
得到最优解 &alpha; * = ( &alpha; 1 * , &alpha; 2 * , ... , &alpha; i * ) T
(3)选择α*的一个小于C的正分量并据此计算
b * = y i - &Sigma; i = 1 l y i &alpha; i * K ( x i , x j )
(4)构造决策函数
f ( x ) = sgn ( &Sigma; i = 1 l y i &alpha; i * K ( x i , x ) + b * )
参照图3,步骤S2中对待分类网页进行分类包括:
步骤S21,对待分类网页进行预处理,具体实施方法和S11相同。
步骤S22,对抽取后的文本进行中文分词和去停止词处理,具体实施方法步骤S12一样。
步骤S23,对网页进行预分类。
根据步骤S23所述,预分类的具体实施方法为:(1)提取网页标题内容,与知识库中关键词表比较,判断单词所属类别,统计标题中的单词在各类别中的出现频度;(2)若属于某个类别的单词频度最大,则认为网页属于该类别;(3)若属于两个类别的单词频度相等,则比较类别优先级,将其划分为优先级较大的类别。(4)若优先级相同,则预分类失败,需要继续以下的步骤。
步骤S24,对分词和去停止词后的结果进行词频统计,具体实施方法和S13一样。
步骤S25,对词频统计后的结果进行特征选择。具体实施方法和步骤S14一样。
步骤S26,使用空间向量模型(VectorSpaceModel)将待分类网页正文文本转换成特征向量。具体实施方法和步骤S15一样。
步骤S27,使用SVM分类器对生成的特征向量进行分类,获取分类结果。
基于以上技术方案的公开,本发明具备如下有益效果:
1、本发明中根据网页标题、关键字等部分对分类结果有较高权重的特点,提出以预置关键词表和标题内容作为数据特征建立知识库来进行预先分类,大大提高了中文网页的分类速度。
2、本发明中提出以数据特征作为知识库进行预分类,再结合SVM算法作为补充的分类方法,极大地提高了分类器的综合性能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围内。

Claims (5)

1.一种基于数据特征的智能信息分类方法,其特征在于,该方法包括:
根据数据特征创建知识库,对待分类的中文网页进行预分类,大大加速了网页的分类速度。
2.根据权利要求1所述的方法,其特征在于,所述的预分类方法包括:
(1)提取网页标题内容,与知识库中关键词表比较,判断单词所属类别,统计标题中的单词在各类别中的出现频度;(2)若属于某个类别的单词频度最大,则认为网页属于该类别;(3)若属于两个类别的单词频度相等,则比较类别优先级,将其划分为优先级较大的类别;(4)若优先级相同,则预分类失败,需要使用SVM分类器继续分类。
3.根据权利要求1所述的方法,其特征在于,所述的知识库创建包括:
(1)按各个类别提取训练集中所有网页的<title>标记包含的内容,并对其进行分词处理,然后分别统计词频,并按词频降序排列;(2)将从这些词中选取部分作为预先分类的知识库,选取的原则是从每个类别中词频最高的词开始,检查它是否在其他类别中出现过,如果没有在其他类别中出现,则将它选取为该类别的知识库。
4.根据权利要求1所述的方法,其特征在于,所述的SVM分类器的创建原理包括:
(1)设给定的训练集
T∈{(x1,y1),(x2,y2),…,(xi,yi)}∈(X*Y)l
其中,xi∈X=Rn,yi∈Y={-1,1},i=1,2,…,l
(2)选择适合的核函数K(x,x′)和惩罚参数C,构造并求解如下最优化问题:
0≤αi≤Ci=1,2,3…l
得到最优解
(3)选择α*的一个小于C的正分量并据此计算
(4)构造决策函数
5.根据权利要求4所述方法,其特征在于,所述特征向量的构造方法包括:
(1)使用空间向量模型(VectorSpaceModel)将待训练网页正文文本转换成特征向量;在该模型中,每个文本文档被表示成如下的特征向量:
V(d)=(t1,ω1(d);t2,ω2(d);…;tn,ωn(d);)
其中ti为特征项,ωi(d)为ti在文档中的权重;
(2)特征项在文档中的权重ωi(d)可以使用基于TF-IDF的传统权重算法进行计算,计算公式如下:
其中,tfi(d)为ti在文档d中出现的频率,N为文档集中的总文档数,nk为出现特征项tk的文档数;
(3)在网页表示中,有两个因素影响特征项的权重值:一是特征项在文档中出现的频率,一是特征项在文档中出现的位置;采用对不同位置特征词赋予不同权重因子的方法,权重因子计算公式如下:
其中,表示核心词平均词频,表示非核心词平均词频,dk和Nk分别为核心词词频和核心词数,d0和N0分别为非核心词词频和非核心词词数;核心词包括<title>内的词和<meta>标记中keywords,description位置出现的词,其余为非核心词。
CN201510866092.6A 2015-11-26 2015-11-26 一种基于数据特征的智能信息分类方法 Pending CN105447161A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510866092.6A CN105447161A (zh) 2015-11-26 2015-11-26 一种基于数据特征的智能信息分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510866092.6A CN105447161A (zh) 2015-11-26 2015-11-26 一种基于数据特征的智能信息分类方法

Publications (1)

Publication Number Publication Date
CN105447161A true CN105447161A (zh) 2016-03-30

Family

ID=55557337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510866092.6A Pending CN105447161A (zh) 2015-11-26 2015-11-26 一种基于数据特征的智能信息分类方法

Country Status (1)

Country Link
CN (1) CN105447161A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934055A (zh) * 2017-03-20 2017-07-07 南京大学 一种基于不充分模态信息的半监督网页自动分类方法
CN107169523A (zh) * 2017-05-27 2017-09-15 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN107545179A (zh) * 2017-07-11 2018-01-05 宁波大学 一种垃圾网页识别方法
CN107729334A (zh) * 2016-08-11 2018-02-23 英业达科技有限公司 数据分类***及数据分类方法
CN108228687A (zh) * 2017-06-20 2018-06-29 上海吉贝克信息技术有限公司 大数据知识挖掘及精准跟踪方法与***
CN108920492A (zh) * 2018-05-16 2018-11-30 广州舜飞信息科技有限公司 一种网页分类方法、***、终端及存储介质
CN109947947A (zh) * 2019-03-29 2019-06-28 北京泰迪熊移动科技有限公司 一种文本分类方法、装置及计算机可读存储介质
CN109063217B (zh) * 2018-10-29 2020-11-03 广东电网有限责任公司广州供电局 电力营销***中的工单分类方法、装置及其相关设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729334A (zh) * 2016-08-11 2018-02-23 英业达科技有限公司 数据分类***及数据分类方法
CN106934055A (zh) * 2017-03-20 2017-07-07 南京大学 一种基于不充分模态信息的半监督网页自动分类方法
CN106934055B (zh) * 2017-03-20 2020-05-19 南京大学 一种基于不充分模态信息的半监督网页自动分类方法
CN107169523A (zh) * 2017-05-27 2017-09-15 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN108228687A (zh) * 2017-06-20 2018-06-29 上海吉贝克信息技术有限公司 大数据知识挖掘及精准跟踪方法与***
CN107545179A (zh) * 2017-07-11 2018-01-05 宁波大学 一种垃圾网页识别方法
CN107545179B (zh) * 2017-07-11 2020-06-19 宁波大学 一种垃圾网页识别方法
CN108920492A (zh) * 2018-05-16 2018-11-30 广州舜飞信息科技有限公司 一种网页分类方法、***、终端及存储介质
CN109063217B (zh) * 2018-10-29 2020-11-03 广东电网有限责任公司广州供电局 电力营销***中的工单分类方法、装置及其相关设备
CN109947947A (zh) * 2019-03-29 2019-06-28 北京泰迪熊移动科技有限公司 一种文本分类方法、装置及计算机可读存储介质
CN109947947B (zh) * 2019-03-29 2021-11-23 北京泰迪熊移动科技有限公司 一种文本分类方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN105447161A (zh) 一种基于数据特征的智能信息分类方法
CN107193959B (zh) 一种面向纯文本的企业实体分类方法
TWI735543B (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
CN101408883B (zh) 一种网络舆情观点收集方法
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类***及方法
CN101794311B (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN102193936B (zh) 一种数据分类的方法及装置
CN102332028B (zh) 一种面向网页的不良Web内容识别方法
CN108984518A (zh) 一种面向裁判文书的文本分类方法
CN100353361C (zh) 一种新的面向文本分类的特征向量权重的方法及装置
CN106095996A (zh) 用于文本分类的方法
CN107590219A (zh) 网页人物主题相关信息提取方法
CN107871144A (zh) ***商品名分类方法、***、设备及计算机可读存储介质
CN101295381B (zh) 一种垃圾邮件检测方法
CN103309862A (zh) 一种网页类型识别方法和***
CN103324628A (zh) 一种针对发布文本的行业分类方法和***
CN111310476A (zh) 一种使用基于方面的情感分析方法的舆情监控方法和***
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN102789498A (zh) 基于集成学习的中文评论文本的情感分类方法与***
CN109446423B (zh) 一种新闻以及文本的情感判断***及方法
CN110399606A (zh) 一种无监督电力文档主题生成方法及***
CN104978354A (zh) 文本分类方法和装置
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN103914551A (zh) 一种微博语义信息扩充和特征选取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160330