CN105868773A

CN105868773A - 一种基于层次随机森林的多标签分类方法

Info

Publication number: CN105868773A
Application number: CN201610171082.5A
Authority: CN
Inventors: 吴庆耀; 谭明奎; 陈健; 林世杭; 黄翰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-03-23
Filing date: 2016-03-23
Publication date: 2016-08-17

Abstract

本发明公开了一种基于层次随机森林的多标签分类方法，所述方法包括：从训练数据集中随机抽取一部分数据，使用这部分随机抽取的数据训练一棵层次树，层次树中节点的分列基于节点中所有数据的标签的聚类结果，重复建立多棵层次树，进而建立层次随机森林作为多标签分类器，并使用建立的层次随机森林多标签分类器对无标签的对象进行分类。该方法利用数据的多个标签之间总有一定的关联性的基本思想，基于标签的聚类结果建立层次树，并为树的每个节点都建立一个分类器；使用随机森林的思想，建立层次随机森林，充分考虑标签之间关联的各种可能性，泛化层次树的分类误差，提高多标签分类问题的速度和准确度。

Description

一种基于层次随机森林的多标签分类方法

技术领域

本发明涉及涉及多标签分类领域，具体涉及基于层次随机森林的多标签分类方法。

背景技术

多标签分类问题是分类问题中比较复杂的问题，不同于两类分类问题，它允许问题中存在多个类别；不同于多类分类问题，它允许分类对象同时属于多个类别。现实中存在许多多标签分类问题。一个比较常见的问题是为电影分类，电影的类别有很多种，比如，科幻、喜剧、动作、剧情等，一部电影可以同时属于喜剧和剧情，即同时属于不止一个类别，而且绝大多数电影都是属于多个类别的。在文本分类中，可以将一篇文章分到多个话题中，比如，社会、科学、体育、娱乐、教育等；在风景图像分类中，一幅图像可以有多个主题，比如，树林、海滩、山、草原等。多标签问题在现实生活中具有极其广泛的应用，因此对多标签分类问题的研究无疑具有非常重大的现实意义。目前，多标签分类问题的算法主要有两大类，一类是基于数据集分解的方法，另一类是基于单个优化问题的方法。虽然对多标签分类问题的研究已经有了一定的成果，但是在分类的速度和准确度上仍然有待提高。

发明内容

本发明的目的是提供一种基于层次随机森林的多标签分类方法，克服现有技术存在的上述不足。

本发明的目的可以通过采取如下技术方案实现。

一种基于层次随机森林的多标签分类方法，包括如下步骤：

S1、从训练数据集中随机抽取一部分数据；

S2、使用步骤S1抽取的数据建立一棵层次树；

S3、重复步骤S1-S2，建立层次随机森林作为多标签分类器；

S4、使用步骤S3建立的多标签分类器对无标签的对象进行分类。

作为一种具体的实施方案，步骤S1中，所述的从训练数据集中随机抽取一部分数据，具体方法为：使用bagging方法对训练数据集进行有放回地抽样，随机抽取N次，将随机抽取的数据中重复出现的数据删除。

作为一种具体的实施方案，步骤S2中，所述的建立一棵层次树，具体方法包括以下步骤：

S31、创建一个根节点，此节点包含数据所有的标签和步骤S1中抽取的所有训练数据；

S32、使用平衡k-means算法对层次树中的父节点中的标签进行聚类；

S33、根据步骤S32中对父节点中的标签聚类的数量建立相同个数的子节点，将每个簇划分到不同的子节点中，第c个子节点包含的标签用集合L_c表示，数据对象e属于的标签用集合μ_e表示，如果则将数据对象e划分到子节点c中；

S34、将每个子节点中的数据由(x_e,Y_e)转换为(x_e,Z_e)，其中Y_e和Z_e分别为数据对象e在父节点中的标签集和在当前子节点中的标签集；

S35、使用分类算法对每个子节点分别训练一个分类器，其中训练数据为步骤S34转换后的数据；

S36、重复步骤S32-S35，直到子节点中所有数据的标签都一样，或者无法使用分类器对子节点中的数据进一步划分。

作为一种具体的实施方案，步骤S32中，所述的平衡k-means算法，具体方法包括以下步骤：

S41、随机找k个标签作为初始的聚类中心；

S42、对于剩余的标签，计算每个标签与每个聚类中心的距离，如果距离标签最近的聚类中心所在的簇包含的标签数量小于则将其归为这个簇；否则，就找距离聚类中心第二近的簇，依次类推，直到将其归到一个簇中，其中，L是标签数量，k是聚类中心(簇)的数量；标签之间距离的计算公式具体如下：

其中，P(y_i,y_j)表示标签y_i和标签y_j同时出现的概率，P(y_i)表示标签y_i出现的概率，S_ij 越大表示两个标签一起出现的概率越大，则两个标签越相似。

S43、当对所有标签都被划分到某个簇中后，重新计算每一个簇的中心；

S44、重复步骤S42-S43，当所有的簇所包含的标签都不再改变时，算法结束。

作为一种具体的实施方案，步骤S4中，所述的使用层次随机森林多标签分类器对无标签的对象进行分类，具体计算方法为：

其中，HT_i(u)(i＝1,2,…,M)表示层次随机森林中第i棵层次树对无标签数据对象u的标签的预测结果，是一个长度为M的0-1向量，M表示层次随机森林中层次树的个数；P(λ₁,λ₂,…,λ_L)表示层次随机森林分类器对无标签数据对象u的标签的预测结果，L表示标签的数量，λ_i的计算方法如下：

其中，λ为预先设置好的阈值，p_i为层次随机森林中预测无标签数据对象u的标签是y_i的层次树的百分比。

与现有技术相比，本发明具有如下优点和技术效果：

本发明利用数据的多个标签之间总有一定的关联性的基本思想，基于标签的聚类结果建立层次树，并为树的每个节点都建立一个分类器；使用随机森林的思想，建立层次随机森林，充分考虑标签之间关联的各种可能性，泛化层次树的分类误差。该方法可以提高多标签分类问题的速度和准确度。

附图说明

图1为本发明实施例1的一种基于层次随机森林的多标签分类方法的流程图。

图2为本发明实施例1的建立一棵层次树的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1：

如图1所示，本实施例1的一种基于层次随机森林的多标签分类方法，包括以下步骤：

S1、从训练数据集中随机抽取一部分数据；

S2、使用步骤S1抽取的数据建立一棵层次树；

S3、重复步骤S1-S2，建立层次随机森林作为多标签分类器；

所述的训练数据集是分类研究领域对用于学习分类模型的数据的简称，这些数据可以是使用文本、图片、视频等表示的医疗数据、互联网数据、银行数据等。

所述的从训练数据集中随机抽取一部分数据，具体方法为：使用bagging方法对训练数据集进行有放回地抽样，随机抽取N次(作为实例，N通常为训练数据集的2/3)，将随机抽取的数据中重复出现的数据删除，将这些数据作为建立一棵层次树的训练数据。其中，

如图2所示，本实施例1的一种基于层次随机森林的多标签分类方法，所述的建立一棵层次树，具体方法包括以下步骤：

S35、使用分类算法对每个子节点分别训练一个分类器，其中训练数据为步骤S34转换后的数据，这里的分类算法可以是C4.5、SVM等分类方法；

所述的平衡k-means算法，具体方法包括以下步骤：

S41、随机找k个标签作为初始的聚类中心；

其中，P(y_i,y_j)表示标签y_i和标签y_j同时出现的概率，P(y_i)表示标签y_i出现的概率，S_ij越大表示两个标签一起出现的概率越大，则两个标签越相似。

步骤S4所述的使用层次随机森林多标签分类器对无标签的对象进行分类，具体计算方法为：

上述实例使用随机森林的思想，建立层次随机森林，充分考虑标签之间关联的各种可能性，泛化层次树的分类误差，可以提高多标签分类问题的速度和准确度。

以上所述，仅为本发明专利优选的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于层次随机森林的多标签分类方法，其特征在于：包括以下步骤：

S1、从训练数据集中随机抽取一部分数据；

S2、使用步骤S1抽取的数据建立一棵层次树；

S3、重复步骤S1-S2，建立层次随机森林作为多标签分类器即层次随机森林分类器；

2.根据权利要求1所述的一种基于层次随机森林的多标签分类方法，其特征在于：步骤S1所述的从训练数据集中随机抽取一部分数据，具体为：使用bagging方法对训练数据集进行有放回地抽样，随机抽取N次，将随机抽取的数据中重复出现的数据删除。

3.根据权利要求1所述的一种基于层次随机森林的多标签分类方法，其特征在于：步骤S2所述的建立一棵层次树，具体方法包括以下步骤：

S31、创建一个根节点，此节点包含使用步骤S1所描述的方法从训练数据集中抽样的数据，以及训练数据集包含的所有标签。

S33、根据步骤S32中对父节点中的标签聚类的数量建立相同个数的子节点，将每个簇划分到不同的子节点中，第c个子节点包含的标签用集合L_c表示，数据对象e所有的标签用集合μ_e表示，如果则将数据对象e划分到当前节点的第c个子节点中；

S34、将每个子节点中的数据由(x_e,Y_e)转换为(x_e,Z_e)，其中x_e表示对象e，Y_e和Z_e分别为数据对象e在父节点中的标签集和在当前子节点中的标签集；

S36、重复步骤S32-S35，直到子节点中所有对象的标签都一样，或者无法使用分类器对子节点中的数据进一步划分。

4.根据权利要求3所述的一种基于层次化随机森林的多标签分类方法，其特征在于：步骤S32所述的平衡k-means算法，具体方法包括以下步骤：

S41、随机找k个标签作为初始的聚类中心；

S42、对于剩余的标签，计算每个标签与每个聚类中心的距离，如果距离标签最近的聚类中心所在的簇包含的标签数量小于则将其归为这个簇；否则，就找距离聚类中心第二近的簇，依次类推，直到将其归到一个簇中，其中，L是标签数量，k是聚类中心的数量；

S43、当所有标签都被划分到某个簇中后，重新计算每一个簇的中心；

S44、重复步骤S42-S43，直到所有簇的聚类中心不再改变。

5.根据权利要求1所述的一种基于层次化随机森林的多标签分类方法，其特征在于：步骤S4所述的使用多标签分类器对无标签的对象进行分类，具体计算方法为：

P (λ_{1}, λ_{2}, ..., λ_{L}) = \frac{{HT}_{1} (u) + {HT}_{2} (u) + ... + {HT}_{M} (u)}{M}

其中，HT_i(u)表示层次随机森林中第i棵层次树对无标签数据对象u的标签的预测结果，是一个长度为M的0-1向量，i＝1,2,…,M，M表示层次随机森林中层次树的个数；P(λ₁,λ₂,…,λ_L)表示层次随机森林分类器对无标签数据对象u的标签的预测结果，L表示标签的数量，λ_i的计算方法如下：

λ_{i} = \{\begin{matrix} 1, p_{i} &GreaterEqual; λ; \\ 0, p_{i} < λ . \end{matrix}