CN103106262A - 文档分类、支持向量机模型生成的方法和装置 - Google Patents

文档分类、支持向量机模型生成的方法和装置 Download PDF

Info

Publication number
CN103106262A
CN103106262A CN201310033125XA CN201310033125A CN103106262A CN 103106262 A CN103106262 A CN 103106262A CN 201310033125X A CN201310033125X A CN 201310033125XA CN 201310033125 A CN201310033125 A CN 201310033125A CN 103106262 A CN103106262 A CN 103106262A
Authority
CN
China
Prior art keywords
classification
document
training set
machine model
subclass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310033125XA
Other languages
English (en)
Other versions
CN103106262B (zh
Inventor
戴明洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN201310033125.XA priority Critical patent/CN103106262B/zh
Publication of CN103106262A publication Critical patent/CN103106262A/zh
Application granted granted Critical
Publication of CN103106262B publication Critical patent/CN103106262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文档分类、支持向量机模型生成的方法和装置,所述方法包括:根据待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型,确定该待分类文档所属类别,其中,训练集的类别扁平化处理过程包括:针对训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。由于根据类别之间的层级关系先对训练集进行类别扁平化处理,从而使得得到的支持向量机模型可适用于对多层级类别的文档进行分类,使得分类结果具有较好的精确性。

Description

文档分类、支持向量机模型生成的方法和装置
技术领域
本发明涉及计算机处理技术,尤其涉及文档分类、支持向量机模型生成的方法和装置。
背景技术
近年来,随着互联网Internet的快速发展,使得Web(网络)上的文档资源呈现***式的增长,这些文档信息数据量大,内容繁杂。与数据库中结构化的信息相比,非结构化或半结构化的web文档信息更加丰富和繁杂。为了充分有效地利用这些文档资源,是用户能够快速有效的找到需要的信息,并且提取其中潜在的有价值的信息,则需要对这些文档进行分类。
目前,对文档进行自动分类的方法通常采用基于支持向量机模型的方法进行分类;该方法包括:训练阶段和分类阶段。目前,现有技术中有多种基于支持向量机模型的文档自动分类方法,下面较为详细的介绍了一种。
训练阶段得到支持向量机模型的方法为:根据训练集中划分了类别的文档,得到类别特征向量;根据类别特征向量集,可以得到支持向量机模型以及有效词语集(或称词典);为便于描述,本文中将训练集中的样本称为训练样本。
其中,根据训练集中划分了类别的训练样本,得到类别特征向量的一种具体方法,流程如图1所示,包括如下步骤:
S101:对训练集中的每个训练样本进行分词,得到每个训练样本的词语集合,删除其中的停用词。
训练集中收集了各种已经划分了类别的文档,通常,训练集采用人工分类的语料库。为了保证训练阶段得到的支持向量机模型的稳定性和收敛性,通常训练集中的文档数量要大于一定数值。
文档(训练样本)由一串连续的字序列组成,词语是文档中的基本单位;分词就是将文档中连续的字序列划分为一个个词语的过程,划分出的词语构成该文档的词语集合。
S102:针对每个类别,统计该类别的训练样本的词语集合中,各词语出现的频次。
例如,训练集中的训练样本共有q个类别,分别记为:c1、c2……cq;其中,q为大于2的自然数;
训练集中所有的训练样本的词语集合中共有n个词语,分别记为t1、t2……tn;其中,n为大于2的自然数;
针对其中第i个类别,统计出第i个类别的训练样本的词语集合中第j个词语出现的频次(次数),记为mij
S103:构建类别词语矩阵。
根据统计出的每个类别中各词语出现的频次,得到每个类别的词语频次向量;例如,第i个类别的词语频次向量
构建的q×n的类别词语矩阵
Figure BDA00002785932100022
亦即类别词语矩阵Cq×n为:
Figure BDA00002785932100023
根据类别词语矩阵,得到支持向量机模型的一种具体方法,流程如图2所示,包括如下步骤:
S201:根据类别词语矩阵,计算每个词语的反文档频率。
具体地,对于n个词语中的第k个词语的倒排类别频率ICFk的计算公式如公式1:
ICF k = log ( q CF k + 0.01 ) (公式1)
此处,倒排类别频率ICFk即为第k个词语的反文档频率(Inverse DocumentFrequency,IDF)IDFk;ICFk(IDFk)值越大,则表明第k个词语的类别区别能力越强。
S202:对各词语的反文档频率进行排序,根据排序结果得到有效词语集(也可称为词典)。
根据每个词语的反文档频率(即倒排类别频率),对上述n个词语进行排序,根据预先设定的有效词语参数,从中提取若干排序在前的词语构成有效词语集。具体地,例如,预先设定的有效词语参数为有效词语个数g,则提取g个排序在前的词语及其反文档频率构成有效词语集;或者预先设定的有效词语参数为有效词语百分比h,则提取n×h个排序在前的词语及其反文档频率构成有效词语集。
S203:根据有效词语集重新构建类别词语矩阵。
根据有效词语集中的词语,将原类别词语矩阵中的、没有包含于有效词语集中的词语的矩阵元素剔除后,形成新的类别词语矩阵;
若有效词语集中的词语为p个,则对于q个类别中的第i个类别,重新构建的该类别的词语频次向量
Figure BDA00002785932100031
其中,mir为p个词语中的第r个词语在第i个类别中出现的频次;
根据重新构建的每个类别的词语频次向量,重新构建的类别词语矩阵: C q × p ′ = [ c 1 → ′ , c 2 → ′ , . . . , c q → ′ ] T .
S204:根据重新构建的类别词语矩阵,计算每个词语的词语频率(TermFrequency,TF),得到各类别的词语频率向量。
其中,第i个类别的训练样本的词语集合中第j个词语的词语频率tfij如公式2计算得到:
tf ij = m ij max ( m i 1 , m i 2 , . . . , m ir , . . . , m ip ) (公式2)
由此,得到第i个类别的词语频率向量
Figure BDA00002785932100034
Figure BDA00002785932100035
其中,tfir为p个词语中的第r个词语在第i个类别中的词语频率。
S205:根据词语的TF,以及每个词语的IDF,构建支持向量机模型。
具体地,针对每个类别,根据重新构建的该类别的词语频率向量,以及p个词语中的各词语的IDF,计算该类别的特征向量;其中,第i个类别的特征向量为
Figure BDA00002785932100036
其中,tfidfir为p个词语中的第r个词语在第i个类别中词语频率tfir与该词语的反文档频率IDFr的乘积;
由每个类别的特征向量可以构建所述支持向量机模型:根据每个类别的特征向量,确定出支持向量模型中的分别对应各类别的超平面;具体地,针对每两个类别,以间隔最大化为原则计算出最优划分超平面,从而找到其中的支持向量作为最终支持向量模型的重要参数。
在得到支持向量机模型后,可根据该模型对文档进行自动分类,即分类阶段;分类阶段对文档进行自动分类的方法流程,如图3所示,包括如下步骤:
S301:对待分类文档进行分词,得到该待分类文档的词语集合。
S302:计算该待分类文档的特征向量。
具体地,该待分类文档的特征向量为其中,zr为有效词语集中p个词语中的第r个词语在该待分类文档中出现的频率tfir与该词语的反文档频率的乘积值。
S303:根据该待分类文档的特征向量以及支持向量机模型,确定该待分类文档所属类别。
具体地,计算该待分类文档的特征向量与支持向量机模型中对应各类别的超平面之间的距离;根据计算的距离确定该待分类文档所属类别:将离超平面的距离作为该待分类样本所属类别的可信度,也就是距离该待分类文档的特征向量越近的超平面所对应的类别,其为该待分类文档所属类别的可信度越高;将其中TOP K个类别作为该待分类文档所属类别;其中K为预先设定值,比如设定K等于5,则取前5个类别作为该待分类文档所属类别。事实上,待分类文档的特征向量与超平面之间的距离,反映了待分类文档的特征向量与该超平面所对应的类别的特征向量之间的相似度;距离越近,则待分类文档的特征向量与类别的特征向量之间的相似度也就越高,该待分类文档属于该类别的可信度则越高。
本发明的发明人发现,现有技术的文档自动分类方法可以对类别层次单一的文档进行分类;然而,现有技术的文档自动分类方法并不适用于多层级类别的文档的分类,文档分类结果不精确、不理想;因此,目前对于多层级类别的文档,比如新闻类的文档,仍然采用人工方法进行分类,使得工作人员工作量大,且效率低。
发明内容
本发明的实施例提供了一种基于多层级类别的文档分类方法和装置,可适用于对多层级类别的文档进行自动分类。
根据本发明的一个方面,提供了一种文档分类方法,包括:
对待分类文档进行分词后,确定该待分类文档的特征向量;
根据该待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型,确定该待分类文档所属类别,其中,
所述训练集的类别扁平化处理过程,包括:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。
较佳地,所述类别被分配了唯一的标识,以及所述类别的标识中包含了该类别的层级路径信息。
较佳地,最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成;其中,所述子类识别码是针对属于同一父类的一组子类,为组内每个子类分配的唯一的识别码。
其中,所述支持向量机模型是根据训练集生成的具体包括:
根据所述训练集构建类别词语矩阵;
根据所述类别词语矩阵生成各类别的特征向量,根据各类别的特征向量构建所述支持向量机模型;以及
所述根据该待分类文档的特征向量以及支持向量机模型,确定该待分类文档所属类别具体包括:
计算该待分类文档的特征向量与所述支持向量机模型中分别对应各类别的超平面之间的距离;
根据计算的距离确定该待分类文档所属类别。
根据本发明的另一个方面,还提供了一种支持向量机模型生成方法,包括:
对训练集进行类别扁平化处理:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除;
根据经过类别扁平化处理的训练集生成所述支持向量机模型。
较佳地,所述类别被分配了唯一的标识,以及所述类别的标识中包含了该类别的层级路径信息。
较佳地,最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成;其中,所述子类识别码是针对属于同一父类的一组子类,为组内每个子类分配的唯一的识别码。
根据本发明的另一个方面,还提供了一种支持向量机模型生成装置,包括:
训练集扁平化处理模块,用于对训练集进行类别扁平化处理:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除;将经过类别扁平化处理的训练集输出;
支持向量机模型生成模块,用于接收所述训练集扁平化处理模块输出的训练集,并根据接收的训练集生成所述支持向量机模型。
较佳地,所述类别被分配了唯一的标识,以及所述类别的标识中包含了该类别的层级路径信息。
最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成;其中,所述子类识别码是针对属于同一父类的一组子类,为组内每个子类分配的唯一的识别码。
本发明实施例由于先根据类别之间的层级关系对训练集进行类别扁平化处理,使得经类别扁平化处理过的训练集已经考虑了类别之间的层级关系,从而得到的支持向量机模型可适用于对多层级类别的文档进行分类,使得分类结果具有较好的精确性。
进一步,类别的标识中包含了该类别的层级路径信息,以便于根据文档的分类结果中的各类别的标识回溯到该类别的父类类别,得到该文档更为详尽的类别属性信息。
附图说明
图1为现有技术的根据训练集得到类别词语矩阵的方法流程图;
图2为现有技术的根据类别词语矩阵,得到支持向量机模型的方法流程图;
图3为现有技术的根据支持向量机模型对文档进行自动分类的方法流程图;
图4为本发明实施例的对训练集进行类别扁平化处理的方法流程图;
图5为本发明实施例的生成支持向量机模型的方法流程图;
图6为本发明实施例的支持向量机模型生成装置的内部结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本申请使用的“模块”、“***”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。
本发明的发明人对现有技术的文档自动分类方法进行分析,发现采用现有技术对多层级类别的文档进行分类时,由于没有考虑类别之间的层级关系(或者说类别之间的所属关系),所以会造成文档的分类混乱。比如,下表1所示的一种多层级类别(也可称为树结构类别):
表1
一级 二级 三级 四级
科技 互联网 互联网形式
社交网络
社区
创业投资
微博
中国概念股
互联网巨头
百度
腾讯
Facebook
阿里巴巴
谷歌
twitter
互联网名人
马云
雷军
扎克伯格
周鸿祎
李彦宏
李开复
马化腾
刘强东
移动互联网
电子商务
业界 人物
鲍尔默
蒂姆·库克
柳传志
杨元庆
公司
联想
微软
苹果
英特尔
富士康
三星
重要概念
云存储
大数据
Windows
其中,类别分为四个层级,由高到低分别为一级、二级、三级、四级;在一级类别“科技”下,包括两个二级类别“互联网”和“业界”,即“互联网”和“业界”类别属于一级类别“科技”,“互联网”和“业界”类别与一级类别“科技”具有层级隶属关系;“互联网”和“业界”类别为“科技”类别的子类类别,“科技”类别为“互联网”和“业界”类别的父类类别;
在二级类别“互联网”下,包括若干三级类别“互联网形式”、“互联网巨头”、“互联网名人”等,即这些三级类别属于二级类别“互联网”,亦即这些三级类别与二级类别“互联网”具有层级隶属关系;这些三级类别为二级类别“互联网”的子类类别,二级类别“互联网”为这些三级类别的父类类别。
采用现有技术针对表1中的各类别的特征向量生成支持向量机模型后,假设有一待分类的文档,其特征向量与支持向量机模型中的各类别的超平面进行距离判断后,即与支持向量机模型中的各类别的特征向量进行相似度比较后,得到的相似度由高到低的类别分别为:科技、互联网、互联网巨头、互联网名人、阿里巴巴、马云;选择排名前五的类别:科技、互联网、互联网巨头、互联网名人、阿里巴巴作为该文档的最终分类结果;这样,导致该文档属于互联网名人中的马云的特征属性就被忽略了;从而分类效果不精确、效果不佳,可能会导致很多文档的分类混乱。
由此,本发明的发明人考虑到在训练阶段时考虑类别之间的层级关系,使得训练出来的支持向量机模型可以适用于对多层级类别的文档的自动分类:在根据训练集训练出支持向量机模型之前,先根据类别之间的层级关系对训练集进行类别扁平化处理;将经过类别扁平化处理后的训练集进行训练,从而得到的支持向量机模型可适用于对多层级类别的文档进行分类。
通常,训练集中的各文档会被人工预先设置至少一个类别;对于多层级类别的文档,其所属的多个类别中,可能包括具有层级隶属关系的类别;例如,训练集中的文档A,其所属类别可能包括:科技、互联网、互联网巨头、互联网名人、阿里巴巴、马云;其中,“科技”与“互联网”是具有层级隶属关系的类别,“互联网”与“互联网巨头”是具有层级隶属关系的类别,“互联网”与“互联网名人”是具有层级隶属关系的类别,“互联网巨头”与“阿里巴巴”是具有层级隶属关系的类别,“互联网名人”与“马云”是具有层级隶属关系的类别。
根据类别之间的层级关系对训练集进行类别扁平化处理的方法流程,如图4所示,包括如下步骤:
S401:针对训练集中的每个训练样本,对每个训练样本预先设置的所属类别,按类别的层级高低进行排序;
例如,针对上述文档A所属类别的排序结果为:科技、互联网、互联网巨头、互联网名人、阿里巴巴、马云。
S402:对于每个训练样本,分别针对该训练样本所属的各类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。
例如,针对上述文档A,判断出“科技”在文档A所属类别中有“科技”的子类类别“互联网”,即与之具有层级隶属关系的其它类别“互联网”,则将“科技”从文档A所属类别中剔除;同理,之后将“互联网”、“互联网巨头”和“互联网名人”从文档A所属类别中剔除。
最终,文档A所属类别仅保留了“阿里巴巴”和“马云”两个相互不具层级隶属关系的子类类别。
由此,本发明实施例的提供的在训练阶段生成支持向量机模型的方法流程,如图5所示,包括如下步骤:
S501:根据类别之间的层级关系对训练集进行类别扁平化处理。
对训练集进行类别扁平化处理的具体方法在前述图4所示的各步骤中进行了详细介绍,此处不再赘述。
S502:根据经过类别扁平化处理的训练集,生成支持向量机模型。
本步骤中,根据经过类别扁平化处理的训练集构建类别词语矩阵;根据所述类别矩阵生成各类别的特征向量,根据各类别的特征向量构建所述支持向量机模型;其中根据经过类别扁平化处理的训练集,生成支持向量机模型所采用的方法与现有技术中的方法相同,在前述图1、2所示的各步骤中进行了详细介绍,此处不再赘述。
在根据本发明的技术方案得到支持向量机模型后,根据支持向量机模型对待分类的文档进行分类:对待分类文档进行分词,得到该待分类文档的词语集合后,统计有效词语集中p个词语中的各词语在该待分类文档中出现的频率,根据统计的有效词语集中p个词语中的各词语的词语频率以及各词语的反文档频率得到该待分类文档的特征向量
Figure BDA00002785932100101
计算该待分类文档的特征向量与所述支持向量机模型中分别对应各类别的超平面之间的距离;根据计算的距离确定该待分类文档所属类别。具体过程与现有技术中进行文档分类的方法相同,在前述的图3所示的各步骤中进行了详细介绍,此处不再赘述。
事实上,如果不对训练集中的训练样本的类别进行扁平化处理,而直接使用这些训练样本来计算支持向量机模型,则支持向量机模型将不适用于多层级类别的文档的分类;而本发明中使用经过扁平化处理后的训练集生成支持向量机模型时,由于经过类别扁平化处理的训练集中的文档,其所属类别两两之间将不会具有层级隶属关系,且其保留的所属类别为层级较低的类别;因此,根据类别扁平化处理的训练集,构建类别词语矩阵时将会使得层级较低的类别的词语频次增加;进而构建支持向量机模型时,使得层级较低的类别的特征向量空间更大;从而根据该支持向量机模型进行文档分类时,会更倾向于层级较低的类别的超平面,或者说会更倾向于层级较低的类别的相似度较高;使得层级较低的类别可以优先择出,就不会出现现有技术中对多层级类别文档进行分类时所产生的现象——一些层级较低的类别被忽略掉而导致分类效果不佳、文档分类的混乱。
例如,若采用本发明的支持向量机模型对上述的文档A进行分类,由于对训练集进行类别扁平化处理后,类别词语矩阵中子类类别如“马云”、“阿里巴巴”的词频将得到增加,其子类类别以及其更上一级的类别如“科技”、“互联网”、“互联网巨头”的词频将减少,根据由此得到的支持向量机模型对上述的文档A进行分类时,文档A的特征向量将距离子类类别如“马云”、“阿里巴巴”的超平面更近,也就是更倾向于与子类类别如“马云”、“阿里巴巴”的特征向量,即文档A的特征向量与“马云”、“阿里巴巴”的特征向量的相似度将高于与“科技”、“互联网”、“互联网巨头”的特征向量的相似度;因此,采用支持向量机模型对文档A进行类别确定后,所得到的相似度排序将会是:“马云”、“阿里巴巴”、“互联网巨头”、“互联网名人”、“互联网”、“科技”;选择排名前五的类别:“马云”、“阿里巴巴”、“互联网巨头”、“互联网名人”、“互联网”作为该文档的最终分类结果;显然,该分类结果比现有技术的分类方法的分类结果更为精确,效果更佳。
在实际应用中,每个类别被分配了唯一的标识;更优地,在本发明的方案中每个类别的标识,包含了该类别的层级路径信息;由此,在根据本发明的支持向量机模型对待分类的文档进行分类后,得到该文档的分类结果,可以根据该分类结果中的各类别的标识回溯到该类别的父类类别,得到该文档更为详尽的类别属性信息。
具体地,包含层级路径信息的类别标识可以数字或字母形式表示,其中,最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成;对属于同一父类的一组子类,其中每个子类分配了该组内的唯一的识别码;也就是说,所述子类识别码是针对属于同一父类的一组子类,为组内每个子类分配的唯一的识别码。
例如,具有上表1所示的层级隶属关系的类别,其中,最高层级类别即一级类别“科技”,其类别标识可以为“01”;
最高层级以下的二级类别“互联网”、“业界”的标识分别可以为“0101”、“0102”;从中可以看出,“互联网”以及“业界”的标识的高两位数字等于其父类类别“科技”的标识“01”,而后两位数字“01”、“02”则分别是“互联网”、“业界”在组内的识别码。
最高层级以下的三级类别“互联网形式”、“互联网巨头”、“互联网名人”、“移动互联网”、“电子商务”的标识分别可以为“010101”、“010102”、“010103”、“010104”、“010105”;这些类别的标识的高4位数字等于其父类类别“互联网”的标识“0101”,而后两位数字“01”、“02”、“03”、“04”、“05”则分别是“互联网形式”、“互联网巨头”、“互联网名人”、“移动互联网”、“电子商务”类别在组内的识别码。
由此,在得到文档的分类结果后,可以轻易确定出分类结果中的类别的父类类别,进而还可确定出该父类类别的父类类别。
显然,类似地,包含层级路径信息的类别标识也可以字母形式表示,方法原理与数字的相同,此处不再赘述。
本发明实施例提供的支持向量机模型生成装置,其内部结构框图如图6所示,包括:训练集扁平化处理模块601、支持向量机模型生成模块602。
训练集扁平化处理模块601用于对训练集进行类别扁平化处理:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除;将经过类别扁平化处理的训练集输出;所述类别的标识中包含了该类别的层级路径信息;所述类别的标识具体可以数字或字母形式表示;其中,最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成;其中,所述子类识别码是针对属于同一父类的一组子类,为组内每个子类分配的唯一的识别码。
支持向量机模型生成模块602用于接收训练集扁平化处理模块601输出的训练集,并根据接收的训练集生成所述支持向量机模型。支持向量机模型生成模块602可采用与现有技术相同的方法根据训练集生成所述支持向量机模型,此处不再赘述。
本发明实施例由于根据类别之间的层级关系先对训练集进行类别扁平化处理,使得经类别扁平化处理过的训练集已经考虑了类别之间的层级关系,从而得到的支持向量机模型可适用于对多层级类别的文档进行分类,使得分类结果具有较好的精确性。
进一步,类别的标识中包含了该类别的层级路径信息,以便于根据文档的分类结果中的各类别的标识回溯到该类别的父类类别,得到该文档更为详尽的类别属性信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文档分类方法,其特征在于,包括:
对待分类文档进行分词后,确定该待分类文档的特征向量;
根据该待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型,确定该待分类文档所属类别,其中,
所述训练集的类别扁平化处理过程,包括:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。
2.如权利要求1所述的方法,其特征在于,所述类别被分配了唯一的标识,以及所述类别的标识中包含了该类别的层级路径信息。
3.如权利要求2所述的方法,其特征在于,最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成;其中,所述子类识别码是针对属于同一父类的一组子类,为组内每个子类分配的唯一的识别码。
4.如权利要求1-3任一所述的方法,其特征在于,所述支持向量机模型是根据训练集生成的具体包括:
根据所述训练集构建类别词语矩阵;
根据所述类别词语矩阵生成各类别的特征向量,根据各类别的特征向量构建所述支持向量机模型;以及
所述根据该待分类文档的特征向量以及支持向量机模型,确定该待分类文档所属类别具体包括:
计算该待分类文档的特征向量与所述支持向量机模型中分别对应各类别的超平面之间的距离;
根据计算的距离确定该待分类文档所属类别。
5.一种支持向量机模型生成方法,其特征在于,包括:
对训练集进行类别扁平化处理:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除;
根据经过类别扁平化处理的训练集生成所述支持向量机模型。
6.如权利要求5所述的方法,其特征在于,所述类别被分配了唯一的标识,以及所述类别的标识中包含了该类别的层级路径信息。
7.如权利要求6所述的方法,其特征在于,最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成;其中,所述子类识别码是针对属于同一父类的一组子类,为组内每个子类分配的唯一的识别码。
8.一种支持向量机模型生成装置,其特征在于,包括:
训练集扁平化处理模块,用于对训练集进行类别扁平化处理:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除;将经过类别扁平化处理的训练集输出;
支持向量机模型生成模块,用于接收所述训练集扁平化处理模块输出的训练集,并根据接收的训练集生成所述支持向量机模型。
9.如权利要求8所述的装置,其特征在于,所述类别被分配了唯一的标识,以及所述类别的标识中包含了该类别的层级路径信息。
10.如权利要求9所述的装置,其特征在于,最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成;其中,所述子类识别码是针对属于同一父类的一组子类,为组内每个子类分配的唯一的识别码。
CN201310033125.XA 2013-01-28 2013-01-28 文档分类、支持向量机模型生成的方法和装置 Active CN103106262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310033125.XA CN103106262B (zh) 2013-01-28 2013-01-28 文档分类、支持向量机模型生成的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310033125.XA CN103106262B (zh) 2013-01-28 2013-01-28 文档分类、支持向量机模型生成的方法和装置

Publications (2)

Publication Number Publication Date
CN103106262A true CN103106262A (zh) 2013-05-15
CN103106262B CN103106262B (zh) 2016-05-11

Family

ID=48314117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310033125.XA Active CN103106262B (zh) 2013-01-28 2013-01-28 文档分类、支持向量机模型生成的方法和装置

Country Status (1)

Country Link
CN (1) CN103106262B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680192A (zh) * 2015-02-05 2015-06-03 国家电网公司 一种基于深度学习的电力图像分类方法
CN104850592A (zh) * 2015-04-27 2015-08-19 小米科技有限责任公司 生成模型文件的方法和装置
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
WO2015180622A1 (zh) * 2014-05-26 2015-12-03 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置
CN105512145A (zh) * 2014-09-26 2016-04-20 阿里巴巴集团控股有限公司 信息分类方法及装置
CN106022599A (zh) * 2016-05-18 2016-10-12 德稻全球创新网络(北京)有限公司 一种工业设计人才水平评测方法及***
CN106126734A (zh) * 2016-07-04 2016-11-16 北京奇艺世纪科技有限公司 文档的分类方法和装置
CN107194260A (zh) * 2017-04-20 2017-09-22 中国科学院软件研究所 一种基于机器学习的Linux‑Kernel关联CVE智能预测方法
CN107894986A (zh) * 2017-09-26 2018-04-10 北京纳人网络科技有限公司 一种基于向量化的企业关系划分方法、服务器以及客户端
CN109033478A (zh) * 2018-09-12 2018-12-18 重庆工业职业技术学院 一种用于搜索引擎的文本信息规律分析方法与***
CN110808968A (zh) * 2019-10-25 2020-02-18 新华三信息安全技术有限公司 网络攻击检测方法、装置、电子设备和可读存储介质
CN111199170A (zh) * 2018-11-16 2020-05-26 长鑫存储技术有限公司 配方文件识别方法及装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
CN1725213A (zh) * 2004-07-22 2006-01-25 国际商业机器公司 构造、维护个性化分类树、分类显示文档的方法及***
CN102243645A (zh) * 2010-05-11 2011-11-16 微软公司 将分层内容归类成深度分类

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
CN1725213A (zh) * 2004-07-22 2006-01-25 国际商业机器公司 构造、维护个性化分类树、分类显示文档的方法及***
CN102243645A (zh) * 2010-05-11 2011-11-16 微软公司 将分层内容归类成深度分类

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
胡学刚等: "基于词向量空间模型的中文文本分类方法", 《合肥工业大学学报(自然科学版)》 *
马乐等: "一种基于SVM 的网页层次分类算法", 《北京师范大学学报(自然科学版)》 *
马乐等: "一种基于SVM 的网页层次分类算法", 《北京师范大学学报(自然科学版)》, vol. 45, no. 3, 30 June 2009 (2009-06-30) *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
WO2015180622A1 (zh) * 2014-05-26 2015-12-03 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置
CN105512145A (zh) * 2014-09-26 2016-04-20 阿里巴巴集团控股有限公司 信息分类方法及装置
CN104680192B (zh) * 2015-02-05 2017-12-12 国家电网公司 一种基于深度学习的电力图像分类方法
CN104680192A (zh) * 2015-02-05 2015-06-03 国家电网公司 一种基于深度学习的电力图像分类方法
CN104850592B (zh) * 2015-04-27 2018-09-18 小米科技有限责任公司 生成模型文件的方法和装置
CN104850592A (zh) * 2015-04-27 2015-08-19 小米科技有限责任公司 生成模型文件的方法和装置
CN106022599A (zh) * 2016-05-18 2016-10-12 德稻全球创新网络(北京)有限公司 一种工业设计人才水平评测方法及***
CN106126734A (zh) * 2016-07-04 2016-11-16 北京奇艺世纪科技有限公司 文档的分类方法和装置
CN106126734B (zh) * 2016-07-04 2019-06-28 北京奇艺世纪科技有限公司 文档的分类方法和装置
CN107194260A (zh) * 2017-04-20 2017-09-22 中国科学院软件研究所 一种基于机器学习的Linux‑Kernel关联CVE智能预测方法
CN107894986A (zh) * 2017-09-26 2018-04-10 北京纳人网络科技有限公司 一种基于向量化的企业关系划分方法、服务器以及客户端
CN107894986B (zh) * 2017-09-26 2021-03-30 北京纳人网络科技有限公司 一种基于向量化的企业关系划分方法、服务器以及客户端
CN109033478A (zh) * 2018-09-12 2018-12-18 重庆工业职业技术学院 一种用于搜索引擎的文本信息规律分析方法与***
CN111199170A (zh) * 2018-11-16 2020-05-26 长鑫存储技术有限公司 配方文件识别方法及装置、电子设备、存储介质
CN111199170B (zh) * 2018-11-16 2022-04-01 长鑫存储技术有限公司 配方文件识别方法及装置、电子设备、存储介质
CN110808968A (zh) * 2019-10-25 2020-02-18 新华三信息安全技术有限公司 网络攻击检测方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN103106262B (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN103106262A (zh) 文档分类、支持向量机模型生成的方法和装置
Rathi et al. Sentiment analysis of tweets using machine learning approach
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN105893609B (zh) 一种基于加权混合的移动app推荐方法
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及***
CN106776574B (zh) 用户评论文本挖掘方法及装置
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN103049433A (zh) 自动问答方法、自动问答***及构建问答实例库的方法
CN116911312B (zh) 一种任务型对话***及其实现方法
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及***
CN104392006A (zh) 一种事件查询处理方法及装置
CN105956083A (zh) 应用软件分类***、应用软件分类方法及服务器
Albadarneh et al. Using big data analytics for authorship authentication of arabic tweets
Bai et al. Constructing sentiment lexicons in Norwegian from a large text corpus
CN112256842A (zh) 用于文本聚类的方法、电子设备和存储介质
CN106600213B (zh) 一种个人简历智能管理***及方法
Arasteh et al. ARAZ: A software modules clustering method using the combination of particle swarm optimization and genetic algorithms
Vishwakarma et al. A comparative study of K-means and K-medoid clustering for social media text mining
CN103412880A (zh) 一种用于确定多媒体资源间隐式关联信息的方法与设备
CN105550292B (zh) 一种基于von Mises-Fisher概率模型的网页分类方法
CN104991920A (zh) 标签的生成方法及装置
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测***、电子设备
CN111723122A (zh) 数据间关联规则的确定方法、装置、设备及可读存储介质
CN115048531A (zh) 一种城市体检知识的知识管理方法、装置以及***
CN104331507A (zh) 机器数据类别自动发现和分类的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230417

Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee after: Sina Technology (China) Co.,Ltd.

Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor

Patentee before: Sina.com Technology (China) Co.,Ltd.