CN103106262A

CN103106262A - 文档分类、支持向量机模型生成的方法和装置

Info

Publication number: CN103106262A
Application number: CN201310033125XA
Authority: CN
Inventors: 戴明洋
Original assignee: Sina Technology China Co Ltd
Current assignee: Sina Technology China Co Ltd
Priority date: 2013-01-28
Filing date: 2013-01-28
Publication date: 2013-05-15
Anticipated expiration: 2033-01-28
Also published as: CN103106262B

Abstract

本发明公开了一种文档分类、支持向量机模型生成的方法和装置，所述方法包括：根据待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型，确定该待分类文档所属类别，其中，训练集的类别扁平化处理过程包括：针对训练集中的每个训练样本，对该训练样本预先设置的所属类别，按类别的层级高低进行排序；针对该训练样本所属的每个类别，从层级较高的类别开始，判断该训练样本所属类别中是否有该类别的子类类别；若有，则将该类别从该训练样本所属类别中剔除。由于根据类别之间的层级关系先对训练集进行类别扁平化处理，从而使得得到的支持向量机模型可适用于对多层级类别的文档进行分类，使得分类结果具有较好的精确性。

Description

文档分类、支持向量机模型生成的方法和装置

技术领域

本发明涉及计算机处理技术，尤其涉及文档分类、支持向量机模型生成的方法和装置。

背景技术

近年来，随着互联网Internet的快速发展，使得Web（网络）上的文档资源呈现***式的增长，这些文档信息数据量大，内容繁杂。与数据库中结构化的信息相比，非结构化或半结构化的web文档信息更加丰富和繁杂。为了充分有效地利用这些文档资源，是用户能够快速有效的找到需要的信息，并且提取其中潜在的有价值的信息，则需要对这些文档进行分类。

目前，对文档进行自动分类的方法通常采用基于支持向量机模型的方法进行分类；该方法包括：训练阶段和分类阶段。目前，现有技术中有多种基于支持向量机模型的文档自动分类方法，下面较为详细的介绍了一种。

训练阶段得到支持向量机模型的方法为：根据训练集中划分了类别的文档，得到类别特征向量；根据类别特征向量集，可以得到支持向量机模型以及有效词语集（或称词典）；为便于描述，本文中将训练集中的样本称为训练样本。

其中，根据训练集中划分了类别的训练样本，得到类别特征向量的一种具体方法，流程如图1所示，包括如下步骤：

S101：对训练集中的每个训练样本进行分词，得到每个训练样本的词语集合，删除其中的停用词。

训练集中收集了各种已经划分了类别的文档，通常，训练集采用人工分类的语料库。为了保证训练阶段得到的支持向量机模型的稳定性和收敛性，通常训练集中的文档数量要大于一定数值。

文档（训练样本）由一串连续的字序列组成，词语是文档中的基本单位；分词就是将文档中连续的字序列划分为一个个词语的过程，划分出的词语构成该文档的词语集合。

S102：针对每个类别，统计该类别的训练样本的词语集合中，各词语出现的频次。

例如，训练集中的训练样本共有q个类别，分别记为：c₁、c₂……c_q；其中，q为大于2的自然数；

训练集中所有的训练样本的词语集合中共有n个词语，分别记为t₁、t₂……t_n；其中，n为大于2的自然数；

针对其中第i个类别，统计出第i个类别的训练样本的词语集合中第j个词语出现的频次（次数），记为m_ij。

S103：构建类别词语矩阵。

根据统计出的每个类别中各词语出现的频次，得到每个类别的词语频次向量；例如，第i个类别的词语频次向量

构建的q×n的类别词语矩阵

亦即类别词语矩阵C_q×n为：

根据类别词语矩阵，得到支持向量机模型的一种具体方法，流程如图2所示，包括如下步骤：

S201：根据类别词语矩阵，计算每个词语的反文档频率。

具体地，对于n个词语中的第k个词语的倒排类别频率ICF_k的计算公式如公式1：

{ICF}_{k} = \log (\frac{q}{{CF}_{k}} + 0.01)

（公式1）

此处，倒排类别频率ICF_k即为第k个词语的反文档频率（Inverse DocumentFrequency，IDF）IDF_k；ICF_k（IDF_k）值越大，则表明第k个词语的类别区别能力越强。

S202：对各词语的反文档频率进行排序，根据排序结果得到有效词语集（也可称为词典）。

根据每个词语的反文档频率（即倒排类别频率），对上述n个词语进行排序，根据预先设定的有效词语参数，从中提取若干排序在前的词语构成有效词语集。具体地，例如，预先设定的有效词语参数为有效词语个数g，则提取g个排序在前的词语及其反文档频率构成有效词语集；或者预先设定的有效词语参数为有效词语百分比h，则提取n×h个排序在前的词语及其反文档频率构成有效词语集。

S203：根据有效词语集重新构建类别词语矩阵。

根据有效词语集中的词语，将原类别词语矩阵中的、没有包含于有效词语集中的词语的矩阵元素剔除后，形成新的类别词语矩阵；

若有效词语集中的词语为p个，则对于q个类别中的第i个类别，重新构建的该类别的词语频次向量

其中，m_ir为p个词语中的第r个词语在第i个类别中出现的频次；

根据重新构建的每个类别的词语频次向量，重新构建的类别词语矩阵：

C_{q \times p}^{'} = {[{\overset{&RightArrow;}{c_{1}}}^{'}, {\overset{&RightArrow;}{c_{2}}}^{'}, . . ., {\overset{&RightArrow;}{c_{q}}}^{'}]}^{T} .

S204：根据重新构建的类别词语矩阵，计算每个词语的词语频率（TermFrequency，TF），得到各类别的词语频率向量。

其中，第i个类别的训练样本的词语集合中第j个词语的词语频率tf_ij如公式2计算得到：

{tf}_{ij} = \frac{m_{ij}}{\max (m_{i 1}, m_{i 2}, . . ., m_{ir}, . . ., m_{ip})}

（公式2）

由此，得到第i个类别的词语频率向量

其中，tf_ir为p个词语中的第r个词语在第i个类别中的词语频率。

S205：根据词语的TF，以及每个词语的IDF，构建支持向量机模型。

具体地，针对每个类别，根据重新构建的该类别的词语频率向量，以及p个词语中的各词语的IDF，计算该类别的特征向量；其中，第i个类别的特征向量为

其中，tfidf_ir为p个词语中的第r个词语在第i个类别中词语频率tf_ir与该词语的反文档频率IDF_r的乘积；

由每个类别的特征向量可以构建所述支持向量机模型：根据每个类别的特征向量，确定出支持向量模型中的分别对应各类别的超平面；具体地，针对每两个类别，以间隔最大化为原则计算出最优划分超平面，从而找到其中的支持向量作为最终支持向量模型的重要参数。

在得到支持向量机模型后，可根据该模型对文档进行自动分类，即分类阶段；分类阶段对文档进行自动分类的方法流程，如图3所示，包括如下步骤：

S301：对待分类文档进行分词，得到该待分类文档的词语集合。

S302：计算该待分类文档的特征向量。

具体地，该待分类文档的特征向量为其中，z_r为有效词语集中p个词语中的第r个词语在该待分类文档中出现的频率tf_ir与该词语的反文档频率的乘积值。

S303：根据该待分类文档的特征向量以及支持向量机模型，确定该待分类文档所属类别。

具体地，计算该待分类文档的特征向量与支持向量机模型中对应各类别的超平面之间的距离；根据计算的距离确定该待分类文档所属类别：将离超平面的距离作为该待分类样本所属类别的可信度，也就是距离该待分类文档的特征向量越近的超平面所对应的类别，其为该待分类文档所属类别的可信度越高；将其中TOP K个类别作为该待分类文档所属类别；其中K为预先设定值，比如设定K等于5，则取前5个类别作为该待分类文档所属类别。事实上，待分类文档的特征向量与超平面之间的距离，反映了待分类文档的特征向量与该超平面所对应的类别的特征向量之间的相似度；距离越近，则待分类文档的特征向量与类别的特征向量之间的相似度也就越高，该待分类文档属于该类别的可信度则越高。

本发明的发明人发现，现有技术的文档自动分类方法可以对类别层次单一的文档进行分类；然而，现有技术的文档自动分类方法并不适用于多层级类别的文档的分类，文档分类结果不精确、不理想；因此，目前对于多层级类别的文档，比如新闻类的文档，仍然采用人工方法进行分类，使得工作人员工作量大，且效率低。

发明内容

本发明的实施例提供了一种基于多层级类别的文档分类方法和装置，可适用于对多层级类别的文档进行自动分类。

根据本发明的一个方面，提供了一种文档分类方法，包括：

对待分类文档进行分词后，确定该待分类文档的特征向量；

根据该待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型，确定该待分类文档所属类别，其中，

所述训练集的类别扁平化处理过程，包括：针对所述训练集中的每个训练样本，对该训练样本预先设置的所属类别，按类别的层级高低进行排序；针对该训练样本所属的每个类别，从层级较高的类别开始，判断该训练样本所属类别中是否有该类别的子类类别；若有，则将该类别从该训练样本所属类别中剔除。

较佳地，所述类别被分配了唯一的标识，以及所述类别的标识中包含了该类别的层级路径信息。

较佳地，最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成；其中，所述子类识别码是针对属于同一父类的一组子类，为组内每个子类分配的唯一的识别码。

其中，所述支持向量机模型是根据训练集生成的具体包括：

根据所述训练集构建类别词语矩阵；

根据所述类别词语矩阵生成各类别的特征向量，根据各类别的特征向量构建所述支持向量机模型；以及

所述根据该待分类文档的特征向量以及支持向量机模型，确定该待分类文档所属类别具体包括：

计算该待分类文档的特征向量与所述支持向量机模型中分别对应各类别的超平面之间的距离；

根据计算的距离确定该待分类文档所属类别。

根据本发明的另一个方面，还提供了一种支持向量机模型生成方法，包括：

对训练集进行类别扁平化处理：针对所述训练集中的每个训练样本，对该训练样本预先设置的所属类别，按类别的层级高低进行排序；针对该训练样本所属的每个类别，从层级较高的类别开始，判断该训练样本所属类别中是否有该类别的子类类别；若有，则将该类别从该训练样本所属类别中剔除；

根据经过类别扁平化处理的训练集生成所述支持向量机模型。

根据本发明的另一个方面，还提供了一种支持向量机模型生成装置，包括：

训练集扁平化处理模块，用于对训练集进行类别扁平化处理：针对所述训练集中的每个训练样本，对该训练样本预先设置的所属类别，按类别的层级高低进行排序；针对该训练样本所属的每个类别，从层级较高的类别开始，判断该训练样本所属类别中是否有该类别的子类类别；若有，则将该类别从该训练样本所属类别中剔除；将经过类别扁平化处理的训练集输出；

支持向量机模型生成模块，用于接收所述训练集扁平化处理模块输出的训练集，并根据接收的训练集生成所述支持向量机模型。

最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成；其中，所述子类识别码是针对属于同一父类的一组子类，为组内每个子类分配的唯一的识别码。

本发明实施例由于先根据类别之间的层级关系对训练集进行类别扁平化处理，使得经类别扁平化处理过的训练集已经考虑了类别之间的层级关系，从而得到的支持向量机模型可适用于对多层级类别的文档进行分类，使得分类结果具有较好的精确性。

进一步，类别的标识中包含了该类别的层级路径信息，以便于根据文档的分类结果中的各类别的标识回溯到该类别的父类类别，得到该文档更为详尽的类别属性信息。

附图说明

图1为现有技术的根据训练集得到类别词语矩阵的方法流程图；

图2为现有技术的根据类别词语矩阵，得到支持向量机模型的方法流程图；

图3为现有技术的根据支持向量机模型对文档进行自动分类的方法流程图；

图4为本发明实施例的对训练集进行类别扁平化处理的方法流程图；

图5为本发明实施例的生成支持向量机模型的方法流程图；

图6为本发明实施例的支持向量机模型生成装置的内部结构框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举出优选实施例，对本发明进一步详细说明。然而，需要说明的是，说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解，即便没有这些特定的细节也可以实现本发明的这些方面。

本申请使用的“模块”、“***”等术语旨在包括与计算机相关的实体，例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如，模块可以是，但并不仅限于：处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说，计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内，一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。

本发明的发明人对现有技术的文档自动分类方法进行分析，发现采用现有技术对多层级类别的文档进行分类时，由于没有考虑类别之间的层级关系（或者说类别之间的所属关系），所以会造成文档的分类混乱。比如，下表1所示的一种多层级类别（也可称为树结构类别）：

表1

一级	二级	三级	四级
				科技	互联网	互联网形式
			社交网络
							社区
			创业投资
							微博
			中国概念股
						互联网巨头
			百度
							腾讯
			Facebook
							阿里巴巴
			谷歌
							twitter
		互联网名人
							马云
			雷军
							扎克伯格
			周鸿祎
							李彦宏
			李开复
							马化腾
			刘强东
						移动互联网
		电子商务
					业界	人物
			鲍尔默
							蒂姆·库克
			柳传志
							杨元庆
		公司
							联想
			微软
							苹果
			英特尔
							富士康

三星
	重要概念
云存储
		大数据
Windows

其中，类别分为四个层级，由高到低分别为一级、二级、三级、四级；在一级类别“科技”下，包括两个二级类别“互联网”和“业界”，即“互联网”和“业界”类别属于一级类别“科技”，“互联网”和“业界”类别与一级类别“科技”具有层级隶属关系；“互联网”和“业界”类别为“科技”类别的子类类别，“科技”类别为“互联网”和“业界”类别的父类类别；

在二级类别“互联网”下，包括若干三级类别“互联网形式”、“互联网巨头”、“互联网名人”等，即这些三级类别属于二级类别“互联网”，亦即这些三级类别与二级类别“互联网”具有层级隶属关系；这些三级类别为二级类别“互联网”的子类类别，二级类别“互联网”为这些三级类别的父类类别。

采用现有技术针对表1中的各类别的特征向量生成支持向量机模型后，假设有一待分类的文档，其特征向量与支持向量机模型中的各类别的超平面进行距离判断后，即与支持向量机模型中的各类别的特征向量进行相似度比较后，得到的相似度由高到低的类别分别为：科技、互联网、互联网巨头、互联网名人、阿里巴巴、马云；选择排名前五的类别：科技、互联网、互联网巨头、互联网名人、阿里巴巴作为该文档的最终分类结果；这样，导致该文档属于互联网名人中的马云的特征属性就被忽略了；从而分类效果不精确、效果不佳，可能会导致很多文档的分类混乱。

由此，本发明的发明人考虑到在训练阶段时考虑类别之间的层级关系，使得训练出来的支持向量机模型可以适用于对多层级类别的文档的自动分类：在根据训练集训练出支持向量机模型之前，先根据类别之间的层级关系对训练集进行类别扁平化处理；将经过类别扁平化处理后的训练集进行训练，从而得到的支持向量机模型可适用于对多层级类别的文档进行分类。

通常，训练集中的各文档会被人工预先设置至少一个类别；对于多层级类别的文档，其所属的多个类别中，可能包括具有层级隶属关系的类别；例如，训练集中的文档A，其所属类别可能包括：科技、互联网、互联网巨头、互联网名人、阿里巴巴、马云；其中，“科技”与“互联网”是具有层级隶属关系的类别，“互联网”与“互联网巨头”是具有层级隶属关系的类别，“互联网”与“互联网名人”是具有层级隶属关系的类别，“互联网巨头”与“阿里巴巴”是具有层级隶属关系的类别，“互联网名人”与“马云”是具有层级隶属关系的类别。

根据类别之间的层级关系对训练集进行类别扁平化处理的方法流程，如图4所示，包括如下步骤：

S401：针对训练集中的每个训练样本，对每个训练样本预先设置的所属类别，按类别的层级高低进行排序；

例如，针对上述文档A所属类别的排序结果为：科技、互联网、互联网巨头、互联网名人、阿里巴巴、马云。

S402：对于每个训练样本，分别针对该训练样本所属的各类别，从层级较高的类别开始，判断该训练样本所属类别中是否有该类别的子类类别；若有，则将该类别从该训练样本所属类别中剔除。

例如，针对上述文档A，判断出“科技”在文档A所属类别中有“科技”的子类类别“互联网”，即与之具有层级隶属关系的其它类别“互联网”，则将“科技”从文档A所属类别中剔除；同理，之后将“互联网”、“互联网巨头”和“互联网名人”从文档A所属类别中剔除。

最终，文档A所属类别仅保留了“阿里巴巴”和“马云”两个相互不具层级隶属关系的子类类别。

由此，本发明实施例的提供的在训练阶段生成支持向量机模型的方法流程，如图5所示，包括如下步骤：

S501：根据类别之间的层级关系对训练集进行类别扁平化处理。

对训练集进行类别扁平化处理的具体方法在前述图4所示的各步骤中进行了详细介绍，此处不再赘述。

S502：根据经过类别扁平化处理的训练集，生成支持向量机模型。

本步骤中，根据经过类别扁平化处理的训练集构建类别词语矩阵；根据所述类别矩阵生成各类别的特征向量，根据各类别的特征向量构建所述支持向量机模型；其中根据经过类别扁平化处理的训练集，生成支持向量机模型所采用的方法与现有技术中的方法相同，在前述图1、2所示的各步骤中进行了详细介绍，此处不再赘述。

在根据本发明的技术方案得到支持向量机模型后，根据支持向量机模型对待分类的文档进行分类：对待分类文档进行分词，得到该待分类文档的词语集合后，统计有效词语集中p个词语中的各词语在该待分类文档中出现的频率，根据统计的有效词语集中p个词语中的各词语的词语频率以及各词语的反文档频率得到该待分类文档的特征向量

计算该待分类文档的特征向量与所述支持向量机模型中分别对应各类别的超平面之间的距离；根据计算的距离确定该待分类文档所属类别。具体过程与现有技术中进行文档分类的方法相同，在前述的图3所示的各步骤中进行了详细介绍，此处不再赘述。

事实上，如果不对训练集中的训练样本的类别进行扁平化处理，而直接使用这些训练样本来计算支持向量机模型，则支持向量机模型将不适用于多层级类别的文档的分类；而本发明中使用经过扁平化处理后的训练集生成支持向量机模型时，由于经过类别扁平化处理的训练集中的文档，其所属类别两两之间将不会具有层级隶属关系，且其保留的所属类别为层级较低的类别；因此，根据类别扁平化处理的训练集，构建类别词语矩阵时将会使得层级较低的类别的词语频次增加；进而构建支持向量机模型时，使得层级较低的类别的特征向量空间更大；从而根据该支持向量机模型进行文档分类时，会更倾向于层级较低的类别的超平面，或者说会更倾向于层级较低的类别的相似度较高；使得层级较低的类别可以优先择出，就不会出现现有技术中对多层级类别文档进行分类时所产生的现象——一些层级较低的类别被忽略掉而导致分类效果不佳、文档分类的混乱。

例如，若采用本发明的支持向量机模型对上述的文档A进行分类，由于对训练集进行类别扁平化处理后，类别词语矩阵中子类类别如“马云”、“阿里巴巴”的词频将得到增加，其子类类别以及其更上一级的类别如“科技”、“互联网”、“互联网巨头”的词频将减少，根据由此得到的支持向量机模型对上述的文档A进行分类时，文档A的特征向量将距离子类类别如“马云”、“阿里巴巴”的超平面更近，也就是更倾向于与子类类别如“马云”、“阿里巴巴”的特征向量，即文档A的特征向量与“马云”、“阿里巴巴”的特征向量的相似度将高于与“科技”、“互联网”、“互联网巨头”的特征向量的相似度；因此，采用支持向量机模型对文档A进行类别确定后，所得到的相似度排序将会是：“马云”、“阿里巴巴”、“互联网巨头”、“互联网名人”、“互联网”、“科技”；选择排名前五的类别：“马云”、“阿里巴巴”、“互联网巨头”、“互联网名人”、“互联网”作为该文档的最终分类结果；显然，该分类结果比现有技术的分类方法的分类结果更为精确，效果更佳。

在实际应用中，每个类别被分配了唯一的标识；更优地，在本发明的方案中每个类别的标识，包含了该类别的层级路径信息；由此，在根据本发明的支持向量机模型对待分类的文档进行分类后，得到该文档的分类结果，可以根据该分类结果中的各类别的标识回溯到该类别的父类类别，得到该文档更为详尽的类别属性信息。

具体地，包含层级路径信息的类别标识可以数字或字母形式表示，其中，最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成；对属于同一父类的一组子类，其中每个子类分配了该组内的唯一的识别码；也就是说，所述子类识别码是针对属于同一父类的一组子类，为组内每个子类分配的唯一的识别码。

例如，具有上表1所示的层级隶属关系的类别，其中，最高层级类别即一级类别“科技”，其类别标识可以为“01”；

最高层级以下的二级类别“互联网”、“业界”的标识分别可以为“0101”、“0102”；从中可以看出，“互联网”以及“业界”的标识的高两位数字等于其父类类别“科技”的标识“01”，而后两位数字“01”、“02”则分别是“互联网”、“业界”在组内的识别码。

最高层级以下的三级类别“互联网形式”、“互联网巨头”、“互联网名人”、“移动互联网”、“电子商务”的标识分别可以为“010101”、“010102”、“010103”、“010104”、“010105”；这些类别的标识的高4位数字等于其父类类别“互联网”的标识“0101”，而后两位数字“01”、“02”、“03”、“04”、“05”则分别是“互联网形式”、“互联网巨头”、“互联网名人”、“移动互联网”、“电子商务”类别在组内的识别码。

由此，在得到文档的分类结果后，可以轻易确定出分类结果中的类别的父类类别，进而还可确定出该父类类别的父类类别。

显然，类似地，包含层级路径信息的类别标识也可以字母形式表示，方法原理与数字的相同，此处不再赘述。

本发明实施例提供的支持向量机模型生成装置，其内部结构框图如图6所示，包括：训练集扁平化处理模块601、支持向量机模型生成模块602。

训练集扁平化处理模块601用于对训练集进行类别扁平化处理：针对所述训练集中的每个训练样本，对该训练样本预先设置的所属类别，按类别的层级高低进行排序；针对该训练样本所属的每个类别，从层级较高的类别开始，判断该训练样本所属类别中是否有该类别的子类类别；若有，则将该类别从该训练样本所属类别中剔除；将经过类别扁平化处理的训练集输出；所述类别的标识中包含了该类别的层级路径信息；所述类别的标识具体可以数字或字母形式表示；其中，最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成；其中，所述子类识别码是针对属于同一父类的一组子类，为组内每个子类分配的唯一的识别码。

支持向量机模型生成模块602用于接收训练集扁平化处理模块601输出的训练集，并根据接收的训练集生成所述支持向量机模型。支持向量机模型生成模块602可采用与现有技术相同的方法根据训练集生成所述支持向量机模型，此处不再赘述。

本发明实施例由于根据类别之间的层级关系先对训练集进行类别扁平化处理，使得经类别扁平化处理过的训练集已经考虑了类别之间的层级关系，从而得到的支持向量机模型可适用于对多层级类别的文档进行分类，使得分类结果具有较好的精确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读取存储介质中，如：ROM/RAM、磁碟、光盘等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文档分类方法，其特征在于，包括：

对待分类文档进行分词后，确定该待分类文档的特征向量；

2.如权利要求1所述的方法，其特征在于，所述类别被分配了唯一的标识，以及所述类别的标识中包含了该类别的层级路径信息。

3.如权利要求2所述的方法，其特征在于，最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成；其中，所述子类识别码是针对属于同一父类的一组子类，为组内每个子类分配的唯一的识别码。

4.如权利要求1-3任一所述的方法，其特征在于，所述支持向量机模型是根据训练集生成的具体包括：

根据所述训练集构建类别词语矩阵；

根据计算的距离确定该待分类文档所属类别。

5.一种支持向量机模型生成方法，其特征在于，包括：

6.如权利要求5所述的方法，其特征在于，所述类别被分配了唯一的标识，以及所述类别的标识中包含了该类别的层级路径信息。

7.如权利要求6所述的方法，其特征在于，最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成；其中，所述子类识别码是针对属于同一父类的一组子类，为组内每个子类分配的唯一的识别码。

8.一种支持向量机模型生成装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，所述类别被分配了唯一的标识，以及所述类别的标识中包含了该类别的层级路径信息。

10.如权利要求9所述的装置，其特征在于，最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成；其中，所述子类识别码是针对属于同一父类的一组子类，为组内每个子类分配的唯一的识别码。