CN109409434A

CN109409434A - 基于随机森林的肝脏疾病数据分类规则提取的方法

Info

Publication number: CN109409434A
Application number: CN201811292849.5A
Authority: CN
Inventors: 黄立勤; 陈宋
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-02-05
Filing date: 2018-11-01
Publication date: 2019-03-01
Anticipated expiration: 2038-11-01
Also published as: CN109409434B

Abstract

本发明提出一种基于随机森林的肝脏疾病数据分类规则提取的方法，包括：步骤1：对肝脏疾病中不平衡或者不规则的数据进行预处理，通过SMOTE（合成少数过采样技术）获得肝脏疾病数据集；步骤2：利用随机森林模型对肝脏疾病数据集进行二进制稀疏编码，获得肝脏疾病规则集；步骤3：对肝脏疾病规则集进行弹性范数稀疏编码规则提取，获得编码肝脏疾病规则集；步骤5：进行原始数据验证，生成最终规则集。本发明提出的结合L1和L2范数的弹性范数规则提取和特征选择方法使本发明方法不仅可以选择相对较少的特征，并可以提高泛化能力，提高分类精度。本发明提出的二次规则提取与验证方法大大提升了生成规则的可信度。

Description

基于随机森林的肝脏疾病数据分类规则提取的方法

技术领域

本发明属于疾病及诊断信息的数据处理领域，尤其涉及一种基于随机森林的肝脏疾病数据分类规则提取的方法。

背景技术

肝癌是全世界癌症死亡的第二大原因，而原发性肝炎可发展为纤维化、肝硬化甚至肝癌。目前肝脏疾病的诊断方法大多是黑箱模型，且仍然集中在分类问题上，难以诊断肝脏疾病的分类规则的准确性和可解释性，不能充分显示数据中隐藏的信息。在实际医学应用中，虽然一些黑箱模型实现了很高的精度，但却不能给出分类的原因，这对医生来说是非常重要的。从数据中提取的知识表示规则比其他表示更易于理解和理解。因此，对分类的解释可以表达一些简洁而有效的规则。简洁有效的规则提取可以提供底层的详细解释，在医学环境中越来越流行，这不仅要求高精度，而且易于理解。规则提取一直是人工智能领域的研究热门。所谓规则提取，是指许多实验研究结合了来自多个来源的数据，以了解潜在的问题。从这些来源找到和解释最重要的信息是很重要的。因此，需要一种有效的算法可以同时提取决策规则，并在保留预测性能的同时，选择关键特征之间的关系来解释影响肝脏疾病上的危险因素，并给出影响因素的关系表达式提供给医生诊断。

目前，肝炎的数据集的许多诊断方法已被成功应用到不同的分类算法：基于属性加权的聚类；极限学习机；支持向量机；神经网络；模糊规则提取基于支持向量机；分类回归树；支持向量识别；主成分分析.Hsieh等提出了一种粒子群优化—基于模糊超矩形复合神经网络，采用粒子群优化算法产生的规则修剪训练没有降低(甚至提高)识别性能。Barakat，N.andA.P.Bradley等提出了一种利用SVM模型的输出向量并应用决策树算法的进行规则提取。在同类工作，从SVM的预测模型运用朴素贝叶斯树，TREPAN，RIPPER和CART提取规则。另一个工作是从支撑向量模型利用ANFIS和DENFIS进行规则提取。最近，T.MarthiPadmaja等提出一种新的混合算法，支撑向量数据加RIPPE来提高单类SVM分类的解释能力。对于大部分的工作主要集中在SVM分类器上，为了提高产生的规则的可解释性，ShengLiu，RonakY.Patel等提出了***的基于随机森林的规则提取和特征选择的模型，数据通过随机森林进行规则提取，选择规则中存在的特征，在反馈到随机森林中进行分类验证，利用产生的规则进行分类，精度可以达到原始数据分类的精度。特征搜索算法可能是特征选择方法中最重要的部分之一。针对特征选择提出了几种搜索策略:分枝与约束、分治法、贪婪法、进化算法、退火算法等。在其中，贪婪法搜索策略，例如正向选择(增量搜索)或向后消除，是最流行的技术之一。

从上述可知，SVM、神经网络、决策树和随机森林是研究规则提取的基础模型，对于规则数量的限制与提取主要利用L1或者L2范数正则化，实现规则与特征的稀疏，即特征选择和可解释性。

如上所述，在肝脏疾病实际诊断过程中，有一个可解释的模型和高的预测性能是非常重要的，同时也能很好地理解潜在的问题。最先进的算法，如支持向量机(SVM)，人工神经网络和随机森林(RF)，通常预测结果的准确性较高，但除了精确性之外，很难解释这些模型的构建，因为它们都是“黑盒子模型”，或者包含许多我们无法清晰解释的决策规则。在另一方面，一些算法，特别是基于决策树的算法，很容易解释。然而，与SVM、ANN或RF相比，预测性能通常较低。

其二，肝脏疾病诊断中，如果产生过多的诊断规则，对于医生来讲就没有任何实际意义，因此，针对于基础模型决策树的规则提取算法则会产生许多的规则集，对于用户的直观解释没有意义，而L1范数正则化虽然可以实现规则和特征的提取，但其本身将关联性很小的规则会直接置为0，容易造成过拟合；同时L2范数本身将关联性很小的规则置为一个很小的数值，容易造成数据的欠拟合。

发明内容

为了解决现有技术存在的问题，本发明使用选择适于分类性能与解释性模型相平衡的模型。同时在规则提取过程中采用弹性范数迭代的实现方法。

本发明针对肝脏疾病数据提出了使用一种新的结合L1和L2的弹性范数收敛算法来选择有效且少量的规则，通过一种混合的规则提取和特征选择的方法，规则提取的结果用于特征选择，在产生规则中被选定的特征，再送入随机森林和弹性范数编码步骤提取重要规则。通过不断的迭代交替方法，直到选定的特征和规则不会被改变。最后，也是最为必要的是，对于产生的规则，要让医生或者用户信任规则的有效性和准确度，本发明利用覆盖率和精度来量化性能，达到准确度和分类精度的最优平衡。

本发明在肝脏数据中提出了一个由随机森林(RF)产生的二进制编码的森林，它将样本点映射到由整个叶子节点(规则)集定义的空间。然后利用二进制编码和弹性范数提取有代表性规则的编码方法。在选择的规则中，重新选择的特征用作下一次循环的子特征，其被用来构造一个新的RF产生一组新的规则，重复此过程直到满足停止条件，即特征数量保持稳定和规则数量收敛。

具体采用以下技术方案：

一种基于随机森林的肝脏疾病数据分类规则提取的方法，其特征在于，包括以下步骤：

步骤1：对肝脏疾病中不平衡或者不规则的数据进行预处理，通过SMOTE(合成少数过采样技术)获得肝脏疾病数据集；

步骤2：利用随机森林模型对肝脏疾病数据集进行二进制稀疏编码，获得肝脏疾病规则集；

步骤3：对肝脏疾病规则集进行弹性范数稀疏编码规则提取，获得编码肝脏疾病规则集；

步骤4：对编码肝脏疾病规则集进行特征的提取和删除；

步骤5：进行原始数据验证，生成最终规则集。

其中，由于肝脏数据集原始数据存在的不平衡，会造成模式识别中的许多问题。例如，如果数据集不平衡，则分类器倾向于“学习”最大比例的样本，并以最高的精度对它们进行聚类。在实际应用中，这种偏见是不可接受的。本发明通过通过SMOTE(合成少数过采样技术)进行处理，能够以很少的样本为每个少数类创建“合成”实例。

进一步地，步骤2中，所述利用随机森林模型对肝脏疾病数据集进行二进制稀疏编码的方法包括以下步骤：

步骤2A：将肝脏疾病数据集训练获得包括多颗决策树的随机森林，每个决策树中，根节点到叶节点的路径被解释为一个决策规则，则随机森林等价为一个决策规则集合；

步骤2B：将肝脏疾病数据集每个样本对应为从根节点到只有一个叶子节点的决定树；

步骤2C：定义一个二元特征向量捕捉随机森林叶节点结构：对于样本X_i，其对应的二进制向量和编码叶子节点定义为：

X_i＝[X_1，...，X_q]^T，其中q是叶子节点总数；

则X_i的空间为叶节点空间，在这个空间中，每个样本被映射到超立方体的顶点，每个规则空间的维度定义为一个决策规则。因此，这样的映射处理对于样本基本上定义了哪些规则是有效的，哪些是无效的。

进一步地，步骤3中，所述对肝脏疾病规则集进行弹性范数稀疏编码规则提取的方法包括以下步骤：

步骤3A：根据步骤2C的映射结果，构建新的训练样本：

{(X₁，y₁)，(X₂，X₂)，...，(X_p，y_p)}；

其中，X_i是二进制属性向量，y∈{1，2，...，K}是相关类标，定义分类的公式为：

其中权重向量W_k和标量b_k定义了第k类的线性判别函数；

由于每个二进制属性表示一个决策规则。公式(1)中的权重W_k衡量规则的重要性：权重的大小表明规则的重要程度。显然，在上面的分类器中，如果其所有类的权重为0，即可以安全地去除该条规则。因此规则提取也就成为学习权重向量的问题。

步骤3B：进行弹性范数正规化学习，其中目标函数如下：

ξ_i≥0，i＝1，...，p (2)

该目标函数由两项组成：第一项为结合L1和L2范数的弹性范数公式：

用以控制非零权重和规则提取的数量，P为选择L1或者L2范数的概率因子；第二项ε_k是松弛变量的和；λ为正则化参数。因为非零松弛变量代表一个错误分类的样本，第二项是与经验误差相关。结果的稀疏性和经验误差取决于正则化参数，而L1和L2范数稀疏编码已被广泛应用于统计和机器学习。L1范数可以删除不重要的特征，而L2范数可以防止过度拟合数据。本发明在步骤3B之后采用模型交叉验证精度最高的P值，选取该P值代入公式(2)中。

在随机森林中任一样本特征的重要性的计算方法如下：

步骤3C：对于随机森林中的每一颗决策树，使用相应的OOB(袋外数据)数据来计算它的袋外数据误差，记为errOOB1；

步骤3D：随机地对袋外数据OOB所有样本的特征加入噪声干扰，再次计算它的袋外数据误差，记为errOOB2；

步骤3E：设随机森林中有Ntree棵决策树，对特征的重要性定义为：

∑(err00B1-err00B2)/Ntree (3)

计算所有特征的重要性。

之所以公式(3)作为相应特征的重要性的度量值是因为：若给某个特征随机加入噪声之后，袋外的准确率大幅度降低，则说明这个特征对于样本的分类结果影响很大，也就是说它的重要程度比较高。

进一步地，步骤4中，所述对编码肝脏疾病规则集进行特征的提取和删除的方法包括以下步骤：

由于随机森林中的特征分布是由随机森林的学习过程决定的。通常它与从前一个公式中规则抽取产生的特征分布不同。而重要特征是基于抽取的决策规则中做假设，我们可以利用特征不同性去选择特征。特征如果没有出现在前面公式(2)抽取的规则中，则被删除，因为它对于公式(1)定义的分类器没有影响。在此思路下，可以同时选择规则和特征。

而正则化参数λ可通过训练集交叉验证来选择。通过选择的特征来重新构造随机森林，可以更进一步选择规则去获得更加紧凑的规则。通过这样一个迭代的过程，在前一个迭代中特征被选择用来构造新的随机森林，通过这个新的随机森林可以产生新的规则，迭代直到选择的特征不会变化为止。

由此有：

步骤4A：如果某一特征没有出现在公式(2)抽取的规则中，则被删除；

步骤4B：通过训练集交叉验证选择正则化参数λ，并回到步骤2A重新构造随机森林进行训练；

步骤4C：重复步骤2A至步骤4B的迭代过程，直至选择的特征不会变化为止。

进一步地，步骤5中，进行原始数据验证，生成最终规则集包括以下步骤：

步骤5A：给定类标记的肝脏疾病数据集D，设n_covers为覆盖的数据个数，n_correct为规则集R准确分类的数据数，将规则集R的覆盖率和准确度分别定义为：

其中规则的覆盖率和准确率越高，则该规则对于辅助诊断的可信度就越大；将覆盖率和准确率相对较高的规则生成最终规则集。

本发明及优选方案提出的结合L1和L2范数的弹性范数规则提取和特征选择方法使本发明方法不仅可以选择相对较少的特征，并可以提高泛化能力，提高分类精度。

本发明提出的二次规则提取与验证(即进行原始数据验证，生成最终规则集)方法大大提升了生成规则的可信度。

本发明可以实现多类的规则提取验证，解决早期工作中规则提取只能分类提取的问题。

训练数据集不平衡，会造成模式识别中的许多问题。例如，如果数据集不平衡，则分类器倾向于“学习”最大比例的样本，并以最高的精度对它们进行聚类。在实际应用中，这种偏见是不可接受的。为了实现样本数据的均匀分布，本发明利用合成少数过采样技术解决了这一问题，算法以很少的样本为每个少数类创建“合成”实例。

本发明在具体实例中的应用相对于现有技术的优势如下：

1、由于现有的肝脏疾病数据规则提取算法主要基于SVM或者决策树，而特征搜索算法可能是特征选择方法中最重要的部分。针对特征选择提出了几种搜索策略:分枝与约束、分治法、贪婪法、进化算法、退火算法等。在其中，例如贪婪法搜索策略，正向选择(增量搜索)或向后消除，是最流行的技术之一，但是它们的的计算效率、健壮性容易过拟合或者欠拟合。

本发明针对肝脏疾病数据采用随机森林的基础模型，解决SVM高精度却无法解释规则的缺点，同时创新性采用结合L1和L2的弹性范数收敛，不仅可以解决上述方法的问题，还可以解决L1范数删除规则或者特征过多，导致过拟合的问题；解决L2范数存在规则或者特征过多，导致欠拟合的问题。

2、由于目前对于肝脏疾病规则提取算法的结果所产生的规则集，并没有一个有效的验证算法，即产生的规则就是最终的规则，这样的策略可信度欠佳。

而本发明采用规则验证算法，作为产生规则集的二次验证步骤。可以解决两个问题：1.当规则数不多的情况可以验证每条规则在原始样本的可信度情况；2.当规则数比较多的时候，可以作为精简规则的手段和再验证规则可信度的算法。

3、医学数据中特别是肝脏疾病原始数据存在数据噪声或者缺失的情况，数据异常会对模型的精度和产生的规则偏向于数据比较正常的部分。

本发明首先采用合成少数过采样技术中的缺失值处理，将缺失值用中位数填补，保证数据连续；其次，利用重采样来保持不同类的样本的量的一致，并采用交叉验证来保证足够的训练样本。

4、现有的肝脏数据的规则提取的算法中，多数采用的是同一种类分开进行规则提取，显然，这样会导致计算时间增加，实际应用不够现实等问题。

本发明采用的随机森林模型，在运行到样本规则提取前，先对数据进行分类存储并再次确认不同类的样本数量保持一致，再对肝脏疾病分类完成的样本同时计算做规则提取和特征选择。这样的处理提升了整体的计算效率。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1是本发明实施例方法总体流程示意图；

图2是本发明实施例中为随机森林的二进制编码的示意图；

图3是本发明实施例中规则剔除示意图示意图；

图4是本发明实施例中L1和L2范数结合的方式示意图；

图5是本发明实施例方法主要算法流程示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

如图1所示，本发明实施例包括以下步骤：

步骤4：对编码肝脏疾病规则集进行特征的提取和删除；

步骤5：进行原始数据验证，生成最终规则集。

其中，由于肝脏数据集原始数据存在的不平衡，会造成模式识别中的许多问题。例如，如果数据集不平衡，则分类器倾向于“学***衡处理和数据缺失处理)，能够以很少的样本为每个少数类创建“合成”实例。

步骤2中，所述利用随机森林模型对肝脏疾病数据集进行二进制稀疏编码的方法包括以下步骤：

步骤2C：定义一个二元特征向量捕捉随机森林叶节点结构：对于样本Xi，其对应的二进制向量和编码叶子节点定义为：

X_i＝[X_1，...，X_q]^T，其中q是叶子节点总数；

如图2所示，在本发明所应用的一个实例中，展示了节点的映射关系：

步骤3中，所述对肝脏疾病规则集进行弹性范数稀疏编码规则提取的方法包括以下步骤：

步骤3A：根据步骤2C的映射结果，构建新的训练样本：

{(X₁，y₁)，(X₂，y₂)，...，(X_p，y_p)}；

其中权重向量W_k和标量b_k定义了第k类的线性判别函数；

步骤3B：进行弹性范数正规化学习，其中目标函数如下：

ξ_i≥0,i＝1,...,p (2)

如图4所示，该目标函数由两项组成：第一项为结合L1和L2范数的弹性范数公式：用以控制非零权重和规则提取的数量，P为选择L1或者L2范数的概率因子；第二项ε_k是松弛变量的和；λ为正则化参数。因为非零松弛变量代表一个错误分类的样本，第二项是与经验误差相关。结果的稀疏性和经验误差取决于正则化参数，而L1和L2范数稀疏编码已被广泛应用于统计和机器学习。L1范数可以删除不重要的特征，而L2范数可以防止过度拟合数据。本发明在步骤3B之后采用模型交叉验证精度最高的P值，选取该P值代入公式(2)中。

在随机森林中任一样本特征的重要性的计算方法如下：

∑(err00B1-err00B2)/Ntree (3)

计算所有特征的重要性。

步骤4中，所述对编码肝脏疾病规则集进行特征的提取和删除的方法包括以下步骤：

如图3所示，图3即为本发明当中对图2的随机森林进行处理的最终结果。由此有：

步骤5中，进行原始数据验证，生成最终规则集包括以下步骤：

如图5所示，对本发明实施例的伪代码运行过程如下：

前提要求：

1：初始化特征变量F。

2：从总样本D中随机选择训练样本X。

输入：

1：选择特征F_f

2：选择规则R_f

算法主要步骤：

1：特征F_i，i＝1；

2：如果执行：

3：运行随机森林模型，数据集为带有特征F_i的训练样本X；

4：随机森林产生一系列的规则集R_r；

5：用规则集R_r来编码训练样本X；

6：用线性方程(2)来获得交叉验证精度C_i和权重W值；

7：当权重大于一个阈值(预设的一个足够小的值)，记录所有参数的索引；

8：R_r索引传给R_i；

9：R_i中的特征传给F_i+1,i＝i+1；

10：结束循环；

11：选择交叉验证精度C_i最大的i传给i^*；

12：传给F_f；

13：传给R_f；

14：返回F_f、R_f。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于随机森林的肝脏疾病数据分类规则提取的方法，以及对于存在显著不规则、不平衡特点的其他类型样本数据，皆可在本发明的设计方案下进行有效的规则提取，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种基于随机森林的肝脏疾病数据分类规则提取的方法，其特征在于，包括以下步骤：

步骤4：对编码肝脏疾病规则集进行特征的提取和删除；

步骤5：进行原始数据验证，生成最终规则集。

2.根据权利要求1所述的基于随机森林的肝脏疾病数据分类规则提取的方法，其特征在于：步骤2中，所述利用随机森林模型对肝脏疾病数据集进行二进制稀疏编码的方法包括以下步骤：

X_i＝[X₁，...，X_q]^T，其中q是叶子节点总数；

则X_i的空间为叶节点空间，在这个空间中，每个样本被映射到超立方体的顶点，每个规则空间的维度定义为一个决策规则。

3.根据权利要求2所述的基于随机森林的肝脏疾病数据分类规则提取的方法，其特征在于：步骤3中，所述对肝脏疾病规则集进行弹性范数稀疏编码规则提取的方法包括以下步骤：

步骤3A：根据步骤2C的映射结果，构建新的训练样本：

{(X₁，y₁)，(X₂，y₂)，...，(X_p，y_p)}；

其中权重向量W_k和标量b_k定义了第k类的线性判别函数；

步骤3B：进行弹性范数正规化学习，其中目标函数如下：

ξ_i≥0,i＝1,...,p (2)

用以控制非零权重和规则提取的数量，P为选择L1或者L2范数的概率因子，取值为：0≤P≤1；第二项ε_k是松弛变量的和；λ为正则化参数。

4.根据权利要求3所述的基于随机森林的肝脏疾病数据分类规则提取的方法，其特征在于：步骤4中，所述对编码肝脏疾病规则集进行特征的提取和删除的方法包括以下步骤：

5.根据权利要求4所述的基于随机森林的肝脏疾病数据分类规则提取的方法，其特征在于：步骤5中，进行原始数据验证，生成最终规则集包括以下步骤：

6.根据权利要求3所述的基于随机森林的肝脏疾病数据分类规则提取的方法，其特征在于：在步骤3B之后采用模型交叉验证精度最高的P值，选取该P值代入公式(2)中。

7.根据权利要求3所述的基于随机森林的肝脏疾病数据分类规则提取的方法，其特征在于：

在随机森林中任一样本特征的重要性的计算方法如下：

∑(err00B1-err00B2)/Ntree (3)

计算所有特征的重要性。