CN113362920A

CN113362920A - 基于临床数据的特征选择方法及装置

Info

Publication number: CN113362920A
Application number: CN202110662867.3A
Authority: CN
Inventors: 罗嘉庆; 郭春来; 陈子蝶
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-09-07
Anticipated expiration: 2041-06-15
Also published as: CN113362920B

Abstract

本发明公开了一种基于临床数据的特征选择方法及装置，属于数字医疗技术领域。本发明利用滤波方法和mRMR因子对遗传算法的适应度函数进行了改进，提出了一种基于mRMR‑GA算法的临床数据的特征选择方法。同时，为了确保更有效地计算mRMR因子，使用很密度函数估计来计算互信息，该核密度函数估计具有比密度直方图估计更平滑的概率密度函数的优点，最后，利用遗传算法的特征选择处理是基于特征关系搜索特征空间集的一种方式，能获得更好的特征集选择结果。本发明在用于对指定预测任务的预测模型中，基于本发明确定预测目标的优选特征子集，进而对预测模型进行训练和测试识别，能够有效的将数据维度降低，进而能有效提升预测模型的准确率。

Description

基于临床数据的特征选择方法及装置

技术领域

本发明属于数字医疗技术领域，具体涉及一种基于临床数据的特征选择方法及装置。

背景技术

随着数字化浪潮的兴起，对实体经济进行数字化成为了一个脍炙人口的话题，而数字化中最重要的资产便是其中的数据。当前进行辅助治疗的医疗器械的蓬勃发展，进一步带动了医疗数据成多元化、规模化等特点发展，而利用这些庞大的数据去挖掘出有用的信息辅助医疗诊断成为一个有意义的话题。基于医疗数据去对疾病预测、远程治疗等可以更有效的使医疗数据***更有效的进行运作。

医学数据***式地产生，通过计算机技术进行自动化的分析和预测是有用且高效的。它包括通过一些机器学习算法(如神经网络、随机森林、支持向量机SVM)一些算法对医疗数据进行预测，即基于现有的机器学习算法构建预测目标的预测模型，并且医学数据的多元化而呈现为数据特征的高纬度特性，为了保证预测任务的准确性，往往通过特征选择等方式来对高维医疗数据特征进行降维，选取更有效的特征进行预测任务，例如呼吸类疾病的预测，基于对应预测目标的训练数据集完成对所设定的预测模型的训练，则可基于所确定的数据特征选择结果，提取当前的临床数据进行特征向量并输入训练好的预测模型，基于预测模型的输出得到对应的预测结果。

发明内容

本发明实施例提供了一种基于临床数据的特征选择方法及装置，以用于提升对指定的预测目标的预测模型的预测准确性。

一方面，本发明实施例提供了一种基于临床数据的特征选择方法，所述方法包括：

采集临床医疗数据，设置预测目标的目标类别；

根据高斯核密度函数估计每项数据之间的互信息值，并基于每项数据的互信息值计算最大相关最小冗余((Max-Relevance and Min-Redundancy，mRMR)因子，即特征(数据项)与目标类之间的相关性最大且特征之间(数据项之间)冗余性最小的因子；

以每个数据项的mRMR因子作为个体分数，根据遗传选择算法从所述临床医疗数据的所有数据项中选择出当前预测目标的第一特征子集，得到该临床医疗数据的第一特征选择结果。

即本发明实施例中，利用滤波方法和mRMR因子对遗传算法(GA)的适应度函数进行了改进，提出了一种基于mRMR-GA算法的临床数据的特征选择方法。同时，为了确保更有效地计算mRMR因子，使用很密度函数估计来计算互信息，该核密度函数估计具有比密度直方图估计更平滑的概率密度函数的优点，最后，利用遗传算法的特征选择处理是基于特征关系搜索特征空间集的一种方式，能获得更好的特征集选择结果。

进一步的，本发明实施例还包括对所获得的第一特征子集进行第二选择处理，获得第二特征子集，所述第二选择处理包括：

步骤b1，基于随机森林作为预测目标的预测模型，以采集的临床医疗数据中对应第一特征子集的数据作为样本，得到预测模型的样本集；

步骤b2，初始化特征集合S0为空集，剩余特征集合S1为当前得到的预测目标的特征子集；以及设置关于样本袋外误差的特征重要度评估函数，和预测性能评估函数；

步骤b3，基于预测模型和特征重要度评估函数获取第一特征子集中各个特征的重要度，并按照重要降序排列得到第一特征序列的初始值；

步骤b4，从剩余特征集合S1中选择第一特征序列中最靠前一个特征xi加入集合S0，并从剩余特征集合S1中去掉特征xi，以及从第一特征序列中删除特征xi；

根据预测性能评估函数，通过所述预测模型对特征集合S0进行评估，得到加入特征xi后的预测性能，若比加入之前的预测性能更好，则保留特征xi，否则，从特征集合S0中删除特征xi，其中，集合S0所对应的预测性能的初始值为预测性能的最小取值，例如设置为0；

重复步骤b4，直到遍历完第一特征序列中的所有特征值，基于当前特征集合S0得到第二特征子集。

另一方面，本发明实施例提供了一种基于临床数据的特征选择装置，所述装置包括：

数据采集单元，用于采集临床医疗数据；

用户设置单元，用于设置预测目标的目标类别；

计算及输出单元，根据高斯核密度函数估计每项数据之间的互信息值，并基于每项数据的互信息值计算mRMR因子；以每个数据项的mRMR因子作为个体分数，根据遗传选择算法从所述临床医疗数据的所有数据项中选择出当前预测目标的第一特征子集，得到该临床医疗数据的第一特征选择结果并输出。

进一步的，所述计算单元还对所获得的第一特征子集进行第二选择处理，获得第二特征子集并输出。

另一方面，本发明实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现上述任一所述的基于临床数据的特征选择方法。

另一方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现上述任一所述的基于临床数据的特征选择方法。

基于本发明实施例所提供的特征选择方法或装置，可以进而实现对指定的预测任务的预测处理，即基于本发明实施例所提供的特征选择方法或装置提取当前的临床数据进行特征向量并输入训练好的预测模型，基于预测模型的输出得到对应的预测结果，如对呼吸类疾病(例如COVID-19的预测(例如病重程度的预测))、肝脏类疾病(人工肝的衰竭程度)等的预测任务。

本发明实施例提供的技术方案至少带来如下有益效果：在本发明实施例中，能够有效的将数据维度降低，进而能有效提升预测模型的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中，第一选择处理的处理过程示意图；

图2是本发明实施例中，第二选择处理的过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例中，提供了一种基于临床数据的特征选择方法，该方法包括：

采集临床医疗数据，设置预测目标的目标类别，其中目标类别基于实际应用需求进行划分；

根据高斯核密度函数估计每项数据之间的互信息值，并基于每项数据的互信息值计算mRMR因子；

即，在计算种群的适应度时，将每个数据项的mRMR因子作为个体分数。

以参见图1，在一种可能的实现方式中，本发明实施例中基于遗产算法的特征选择处理包括：

本实施例中，在初始化种群时，对所涉及到的特征项，在遗传算法中将以0，1二进制码来代表个体基因，0表示特征不被选择，1代表特征被选择，数据集中每个个体通过染色体来表示，而染色体由一定数量的基因片段来代表，染色体中每个基因片段的顺序为指定方式。

在有了个体的表示方法之后，种群是遗传算法进行迭代搜索的基础，将生成多个染色体个体作为种群。在种群中，每个个体可能有不同的染色体表示，本实施例中，代表对应的个体所选择的特征，整个种群可以代表在所有可能性中选择所有特征的一些组合方式。

适应度函数，由于遗传算法的迭代复杂性，适应度函数的选择往往要求不能过于复杂，本实施中，采用最大相关最小冗余因子来作为适应度计算因子，通过适应度函数能够反映出染色体个体所代表的特征集合的评估值。当染色体个体所代表的特征集合通过mRMR因子计算得到的评估值较大时，那么这个特征集合也有较好的效果，同时对于遗传算法而言，染色体个体的适应度越大。

其中，mRMR因子的计算公式为：

maxφ(D,R),φ(D,R)＝D-R (1)

其中，D表示每个数据项x_i与目标类c之间的相关性，

R表示数据项之间的冗余性，

S表示数据项集合，|S|表示集合数量，I()表示基于高斯核密度函数的互信息值，本实施例中，即I()为基于高斯核密度函数的信息熵。

选择操作，对每一代的种群进行选择优良个体作为下一代的时候，会根据适应度函数返回的值来作为每个个体生存值，通过生存值得到每个个体的选择概率，如公式(2)所示：

其中，x_i代表第i个个体，f(x_i)表示个体的适应度函数。

最后，将求得的选择概率按分布函数形式量化到[0,1]区间中，公式如(3)所示：

其中，q_i为个体x_i的积累概率。

再接着，通过轮盘赌选择法来选择优良个体。具体步骤如下：

第一步：在[0,1]区间中产生一个随机数r。

第二步：如果随机数满足q_i-1≤r≤q_i(1≤i≤n)，那么第i个个体被选中，作为下一代种群中的个体。

交叉操作，交叉操作主要是为了从优良个体中产生可能更好的个体，同时也是为了增加种群的多样性，本文主要采用单点交叉来进行交叉操作。具体做法是通过设定在[0,1]区间中的一个阈值，然后随机生成一个概率值，判断概率值是否大于设定的阈值，如果大于就对两个染色体个体进行交叉，同时会随机生成一个交叉点将染色体分成两段，最后通过交叉生成新的个体。

变异操作，变异操作是一种有效防止局部优化的操作，按照一定几率对染色体个体的某些基因进行改变，对种群个体也具有多样性的特点。例如可采用基本位变异操作方式来改变染色体上某些基因编码。

需要说明的是，本发明实施例中，遗传算法中所涉及的选择、交叉和变异操作可采用遗传算法中任意惯用方式，本发明对此不做具体限定。

参见图2，本发明实施例中，对当前所获得的第一特征子集进行第二选择处理包括：

优选的，可基于样本袋外误差计算每个特征的重要度，训练集通过均匀概率从数据集有放回的抽样方式，这样，对于被抽取的样本概率可以表示为：

其中，N表示抽样次数，当其足够大时，被抽取的样本值趋于0.63，意味着对于抽样出的样本大概有0.63为原训练数据，而未被抽中的样本称为袋外样本(OOB)，这样就可以利用袋外样本当做验证集。通过袋外样本做验证的时候，随机森林算法不需要额外的训练集，可以得到样本袋外误差公式为：

公式(4)中，N为样本x_i作为袋外数据所有生成决策树的棵数，

为样本x_i作为袋外数据所对应决策树组成的随机森林，y_i为样本x_i的实际分类值，从而可以得到样本x_i作为袋外数据的袋外数据错误率。

本实施例中，基于下列步骤构造随机森林：

第一步：从数据集通过装袋技术来抽取样本，作为子训练集(x_i,y_i)。

第二步：用子训练集(x_i,y_i)中随机抽取特征子空间去训练得到一棵决策树。

第三步：迭代第二步，得到多棵决策树，综合平均结果，最后输出得到的预测结果。

假设对于重排列前，构造的随机森林利用袋外样本计算得到的袋外数据误差为E_OOB，选择第j个变量进行重排序并重新计算袋外数据误差记为

那么可以得到第j个变量的重要性计算公式为：

其中，VI_j表示第j个特征的特征重要度，

表示选择第j个特征时的袋外数据误差，E_OOB表示未选择第j个特征时的袋外数据误，n表示第一特征子集的数量。由此随机森林对变量的重要性排序步骤包括：

(1)使用装袋技术从样本集S中抽取获得子样本集s；

(2)从子样本集s的特征空间X中随机选择得到子样本特征空间X_sub；

(3)利用X_sub训练决策树；

(4)重复步骤(2)-(3)，生成N棵决策树，并计算袋外样本误差E_OOB；

(5)选取第j个特征，并对变量重排序，并计算袋外样本误差

(6)重复步骤5，分别计算所有特征变量的重要性VI_j；

(7)对所有特征变量的重要性标准化(归一化)，得到各特征重要度排序。

另一方面，本发明实施例还提供了一种基于临床数据的特征选择装置，所述装置包括：

数据采集单元，用于采集临床医疗数据；

用户设置单元，用于设置预测目标的目标类别；

计算及输出单元，根据高斯核密度函数估计每项数据之间的互信息值，并基于每项数据的互信息值计算mRMR因子；以每个数据项的mRMR因子作为个体分数，根据遗传选择算法从所述临床医疗数据的所有数据项中选择出当前预测目标的第一特征子集，得到该临床医疗数据的第一特征选择结果并输出，即可视化输出，以供用户查看。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

在示例性实施例中，还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行，以实现上述任一种特征选择方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由计算机设备的处理器加载并执行，以实现上述任一种特征选择方法。

在一种可能实现方式中，上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact DiscRead-Only Memory，CD-ROMD)、磁带和光数据存储设备等。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例方式并不代表与本发明相一致的所有实施方式。想法，它们仅是与如所附权利要求书中所详细的、本发明的一些方面相一致的装置和方法的例子。

以上所述仅为本发明的示例性实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。