CN111738297A

CN111738297A - 特征选择方法、装置、设备及存储介质

Info

Publication number: CN111738297A
Application number: CN202010453796.1A
Authority: CN
Inventors: 刘小双
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-10-02
Also published as: WO2021139115A1

Abstract

本发明涉及人工智能技术领域，公开了一种特征选择方法、装置、设备及存储介质，通过对原始医疗数据进行提取获得特征值，将所有特征值作为特征集进行多次拷贝，每次拷贝后打乱，得到随机顺序的特征集，将原有特征集与随机顺序特征集拼接为特征矩阵。将所有样本切割为n组，每次取n‑1组构建树模型，重复n次，然后计算得到特征重要性集合，根据特征重要性集合计算特征的真实分值，剔除出在所有待选择特征中特征分值最高的特征，并以剔除后的特征矩阵继续进行分割重复上述步骤，直到剔除的特征数达到预设数量。本发明还涉及区块链技术，所述原始医疗数据可存储于区块链节点中。

Description

特征选择方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种特征选择方法、装置、设备及存储介质。

背景技术

近年来，随着互联网的普及，许多企业和组织都产生了大量的数据，大数据量和超高维度成为后续分析的主要障碍，因此我们需要从过剩的信息中筛选去除冗余，找到相关信息，特征选择算法是一种降维技术，能够找到和问题最相关的特征，去除冗余特征，提高数据存储和处理效率，使用这些最相关特征进行后期的模型构架，能够避免维度灾难。

而在医疗领域，在处理医疗数据时，通过特征选择的方法，能够筛选出在医疗生产中的与结果相关性较高的重要特征，例如通过特征选择，能够找到对于睡眠质量相关性较高的特征，生产探测健康数据的某可穿戴设备，重点对通过特征选择进行筛选后得出的重要特征进行探测。

目前的特征选择方法是通过过滤的方式来选择，也就是通过循环，不断的去除重要性较低的特征，而该过滤往往存在以下操作原则，一是若删掉某维特征，导致模型性能下降，则认为该特征很重要；二是如果删掉某维特征，模型性能没有变化，则认为该特征不重要。然而，在实际训练中，如果删掉某维特征后模型性能没有发生变化，这并不能充分说明该特征不是重要特征，在大多数情况下，如果特征维度非常大，特征A,B,C之间存在关联，那么模型在随机情况下，选择特征A和B作为重要特征放在模型中后，特征C的重要性就会变成0，导致特征C被过滤掉，尽管特征C和结果也具有很强的关联，也就是说，这种特征选择方法无法避免的会去掉两个或三个彼此存在较强关联的特征中的一个。而当我们进行特征选择的目的是挖掘出重要的特征而不是得到最好的模型时，由于特征与特征之间的关联度高，特征与特征之间信息彼此干扰的缘故，导致我们选择不出重要特征或将某些重要特征过滤。

发明内容

本发明的主要目的在于解决现有技术中，由于删去多个彼此存在较强关联的特征中的一个特征，导致选择不出对于重要的特征或导致将某些重要特征过滤的问题。

本发明第一方面提供了一种特征选择方法，包括：

获取原始医疗数据，并对所述原始医疗数据进行特征化处理，得到与所述原始医疗数据对应的待选择特征组；

将所述待选择特征组进行多次拷贝，并对每次拷贝后的集合进行随机打乱，得到多组随机集合；

将所述待选择特征组与多组所述随机集合进行拼接，得到特征矩阵，并将所述特征矩阵进行分割成n组训练集，n为预设值，且为大于1的正整数；

选取所述n组训练集中的n-1组训练集基于模型训练算法构建树模型，得到n个树模型，并计算每个树模型对应的特征重要性集合；

根据所述特征重要性集合计算多个所述待选择特征的代表分值；

获取所述代表分值中最高值所对应的待选择特征，记录所述待选择特征的分值，并将获取到的待选择特征及其对应的随机特征从所述特征矩阵中移除；

判断选择出的特征个数是否大于或等于预设的特征个数；若是，结束特征选择，将特征选择出来的被选择特征作为重要医疗特征输出；

若否，则将特征移除处理后得到的特征矩阵进行分割处理，继续进行特征选择。

可选的，在本发明第一方面的第一种实现方式中，在所述将所述待选择特征组进行多次拷贝之后，还包括：

对拷贝后获得的拷贝特征打上特征标签，所述特征标签用于使待选择特征和所述随机特征相对应，其中，所述特征标签用于对所述特征矩阵进行分割处理。

可选的，在本发明第一方面的第二种实现方式中，所述将所述特征矩阵进行分割成n组训练集包括：

根据所述特征标签，将所述特征矩阵中的每个特征的数据分别划分为至少一类样本；

对所述样本进行分层抽样，得到n组训练集，所述训练集用于通过模型训练算法构建树模型。

可选的，在本发明第一方面的第三中实现方式中，所述模型训练算法包括随机森林算法、Adboost、GBDT、Xgboost、以及LightGBM中的任意一种。

可选的，在本发明第一方面的第四种实现方式中，所述选取所述n组训练集中的n-1组训练集基于模型训练算法构建树模型，得到n个树模型，并计算每个树模型对应的特征重要性集合包括：

计算随机森林中的树模型在袋外数据上的第一分类错误数；

在树模型的袋外数据中对特征的取值进行随机扰动，计算第二分类错误数；

根据所述第一分类错误数和第二分类错误数计算各特征的特征重要性。

可选的，在本发明第一方面的第五种实现方式中，所述根据所述特征重要性集合计算多个所述待选择特征的代表分值包括：

根据所述特征重要性，计算各特征的Z-score值；

根据所述待选择特征的Z-score值和对应的随机特征的Z-score值计算待选择特征的代表分值。

可选的，在本发明第一方面的第六种实现方式中，在所述结束特征选择，将特征选择出来的被选择特征作为重要医疗特征输出之后，还包括：

获取被选择特征及所述被选择特征对应的Z-score值；

根据所述被选择特征对应的Z-score值，计算所有被选择特征的第一重要性分值；

将所述被选择特征重新输入树模型中，计算所述被选择特征的特征重要性，将所述特征重要性作为第二重要性分值；

选择所述第一重要性分值和所述第二重要性分值中的一个作为参考分值，所述参考分值用于进行后续特征分析。

本发明第二方面提供了一种特征选择装置，包括：

特征化模块，用于获取原始医疗数据，并对所述原始医疗数据进行特征化处理，得到与所述原始医疗数据对应的待选择特征组，其中，所述特征化处理为将所述原始医疗数据与待选择特征之间进行映射处理；

拷贝模块，用于将所述待选择特征组进行多次拷贝，并对每次拷贝后的集合进行随机打乱，得到多组随机集合；

拼接分割模块，用于将所述待选择特征组与多组所述随机集合进行拼接，得到特征矩阵，并将所述特征矩阵进行分割成n组训练集，n为预设值，且为大于1的正整数；

树模型构建模块，用于选取所述n组训练集中的n-1组训练集基于模型训练算法构建树模型，得到n个树模型，并计算每个树模型对应的特征重要性集合；

计算模块，用于根据所述特征重要性集合计算多个所述待选择特征的代表分值；

记录模块，获取所述代表分值中最高值所对应的待选择特征，记录所述待选择特征的分值，并将获取到的待选择特征及其对应的随机特征从所述特征矩阵中移除；

判断模块，用于判断选择出的特征个数是否大于或等于预设的特征个数；

输出模块，用于当选择出的特征个数大于或等于预设的特征个数时，结束特征选择，将特征选择出来的被选择特征作为重要医疗特征输出；

循环模块，用于当选择出的特征个数不大于或不等于预设的特征个数时，将特征移除处理后得到的特征矩阵进行分割处理，继续进行特征选择。

可选的，在本发明第二方面的第一种实现方式中，所述特征选择装置还包括特征标签模块，具体用于：

可选的，在本发明第二方面的第二种实现方式中，所述特征选择装置还包括拼接分割模块，具体用于：

将所述特征矩阵中的每个特征的数据分别划分为至少一类样本；

对所述样本进行分层抽样，得到n组训练集。

可选的，在本发明第二方面的第三种实现方式中，所述模型训练算法包括随机森林算法、Adboost算法、GBDT算法、Xgboost算法、以及LightGBM算法中的任意一种。

可选的，在本发明第二方面的第四种实现方式中，所述树模型构建模块具体用于：

计算随机森林中的树模型在袋外数据上的第一分类错误数；

可选的，在本发明第二方面的第五种实现方式中，所述计算模块具体用于：

根据所述特征重要性，计算各特征的Z-score值；

可选的，在本发明第二方面的第六种实现方式中，所述特征选择装置还包括重要性分值模块，具体用于：

获取被选择特征及所述被选择特征对应的Z-score值；

本发明第三方面提供了一种特征选择设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述特征选择设备执行上述的特征选择方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述的特征选择方法。

本发明提供的技术方案中，对原始医疗数据进行提取获得特征值，将所有特征值作为特征集进行多次拷贝，每次拷贝后打乱，得到随机顺序的特征集，将原有特征集与随机顺序特征集拼接为特征矩阵。将所有样本切割为n组，每次取n-1组构建树模型，重复n次，然后计算得到特征重要性集合，根据特征重要性集合计算特征的真实分值，剔除出在所有待选择特征中特征分值最高的特征，并以剔除后的特征矩阵继续进行分割重复上述步骤，直到剔除的特征数达到预设数量，由于此方法能够避免在特征选择过程中过滤两个或三个彼此存在较强关联的特征中的一个，从而满足挖掘重要医疗特征的需求。

附图说明

图1为本发明实施例中特征选择方法的一个实施例示意图；

图2为本发明实施例中特征选择方法的另一个实施例示意图；

图3为本发明实施例中特征选择装置的一个实施例示意图；

图4为本发明实施例中特征选择装置的另一个实施例示意图；

图5为本发明实施例中特征选择设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种特征选择方法，具体的实现过程为：一种特征选择方法，对原始医疗数据进行提取获得特征值，将所有特征值作为特征集进行多次拷贝，每次拷贝后打乱，得到随机顺序的特征集，将原有特征集与随机顺序特征集拼接为特征矩阵。将所有样本切割为n组，每次取n-1组构建树模型，重复n次，然后计算得到特征重要性集合，根据特征重要性集合计算特征的真实分值，剔除出在所有待选择特征中特征分值最高的特征，并以剔除后的特征矩阵继续进行分割，重复上述步骤，直到剔除的特征数达到预设数量，通过本方式，能够避免在特征选择过程中去掉两个或三个彼此存在较强关联的特征中的一个，满足挖掘重要医疗特征的需求。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中特征选择方法的一个实施例包括：

101、获取原始医疗数据，并对所述原始医疗数据进行特征化处理，得到与所述原始医疗数据对应的待选择特征组；

在实际应用中，所述特征化处理为将所述原始医疗数据与待选择特征之间进行映射处理，在医疗过程中会有多种原始数据，例如，会有血液信息数据，“18.5*10^9/L”“20*10^9/L”对应个人的白细胞计数，“71.80％”“72.50％”“73.67％”对应淋巴细胞％，“31.19pg”“32.50pg”对应平均血红蛋白含量等，对每个人原始医疗数据进行特征化，使得原始医疗数据与待选择特征对应，例如“32.50pg”对应的待选择特征为平均血红蛋白含量，将得到的待选择特征作为一组集合得到待选择特征组。

102、将所述待选择特征组进行多次拷贝，并对每次拷贝后的集合进行随机打乱，得到多组随机集合；

在该步骤中，通过对待选择特征组进行拷贝，得到相同的集合，在本案中，通过选择随机种子，将待选择特征组中的待选择特征进行打乱，通过选择随机种子的方式，能够达到特征顺序的真随机，而不是伪随机，重复多次拷贝，并且每次选择不同的随机种子打乱特征的顺序，得到多组不同的随机集合，构建随机集合的目的是为了使得各特征和结果的关联去除，可消除特征重要性评估中偶然性和随机性引入的偏差。

103、将所述待选择特征组与多组所述随机集合进行拼接，得到特征矩阵，并将所述特征矩阵进行分割成n组训练集；

在该步骤中，n为预设值，且为大于1的正整数将特征矩阵进行分割的方式是通过分层抽样的方式，对特征矩阵中的样本进行取样，在事先对样本数据打上结局标签，例如在生产某些血液疾病药物时，需要获取样本数据，对于某个收集到的个人样本，根据他的个人数据得知他罹患了某种血液疾病，则对其他医疗样本数据打上“罹患”的结局标签。根据数据的结局标签进行分层抽样，若有10个特征数据的结局标签为“罹患”以及20个特征数据的结局标签为“健康”，预先设定的训练集组数为5，则从10个特征数据的结局标签为“罹患”中每次抽取2个，从20个特征数据的结局标签为“健康”每次抽取4个，获取得到的6个样本作为1组，在进行分层抽样得到5组后。每次分层抽样可以选择固定的随机种子，确保在重复试验的过程中得到的进行分层抽样的结果是一样的。进行分层抽样，并且分为n组构建n个树模型的目的是为了确保构建树模型时所有样本都参与训练，避免了样本带来的随机性偏差。

104、选取所述n组训练集中的n-1组训练集基于模型训练算法构建树模型，得到n个树模型，并计算每个树模型对应的特征重要性集合；

在该步骤中，所述模型训练算法可以为随机森林算法、Adboost、GBDT、Xgboost、以及LightGBM中的其中一种或者两种以上，并基于这些算法训练构建树模型，其中，GBDT为梯度提升树，主要通过计算特征在单棵树中的重要性的平均值，XGboost是通过该特征每棵树中***次数的和去计算的，比如这个特征在第一棵树***1次，第二棵树2次……，那么这个特征的得分就是(1+2+...)，所述具体采用哪种基于树的算法模型可以从应用领域以及特征的特点等实际应用的角度进行选择。

在本实施例中主要使用随机森林算法，在得到n个树模型后，需要计算每个树模型对应的特征重要性集合，所述特征重要性集合包括待选择特征以及随机特征对于树模型影响大小的数值，在实际应用中，随机森林计算特征重要性的方式主要是通过判断每个特征在随机森林中每棵树做了多大的贡献，然后取平均值，一般有两种，一个是袋外数据错误率评估，另外一个是Gini系数评价指标，在本实施例中，选择的是袋外数据错误率评估的方式计算树模型的特征重要性。

105、根据所述特征重要性集合计算多个所述待选择特征的代表分值；

106、获取所述代表分值中最高值所对应的待选择特征，记录所述待选择特征的分值，并将获取到的待选择特征及其对应的随机特征从所述特征矩阵中移除；

在该步骤中，在获得特征重要性集合后，由于不同树模型对应不同特征重要性集合，而在每个特征重要性集合中都包括了待选择特征的特征重要性以及对应随机特征的特征重要性，通过各待选择特征的特征重要性以及对应随机特征的特征重要性计算出各待选择特征的Z-score值和对应随机特征的Z-score值，根据计算得到的各待选择特征的Z-score值和对应随机特征的Z-score值计算各待选择特征的代表分值。

在该步骤中，在计算得到每个待选择特征的代表分值后可以对所述待选择特征根据代表分值的高低进行排序，并且按照预先设定的比例将代表分值最高的对应的最少一个待选择特征进行剔除，并记录剔除掉的特征的代表分值，通过这种方式不断的剔除出最重要的特征能够消除特征之间彼此的干扰，去除特征在选择过程中因彼此之间的关联带来的漏掉重要特征的问题，更全面的筛选出和结果相关的特征。

107、判断选择出的特征个数是否大于或等于预设的特征个数；

108、若是，结束特征选择，将特征选择出来的被选择特征作为重要医疗特征输出；

109、若否，则将特征移除处理后得到的特征矩阵进行分割处理，继续进行特征选择。

在该步骤中，在每次进行特征选择后，需要进行判断是否继续进行特征选择，否则将持续进行特征选择，加大计算量，降低运行效率，同时后面选择的特征的重要性也相对较小，在本实施例中，是通过判断选择出来的特征是否大于或等于预设特征个数的方式完成的，在实际应用中，还可以通过在每次进行特征选择后计算树模型的模型评估指标(AUC)，判断所述模型评估指标是否小于预设值的方式判断是否继续进行特征选择，所述模型评估指标的值在[0.5,1]之间，数值越大代表模型越好。

本发明实施例中，对原始医疗数据进行提取获得特征值，将所有特征值作为特征集进行多次拷贝，每次拷贝后打乱，得到随机顺序的特征集，将原有特征集与随机顺序特征集拼接为特征矩阵。将所有样本切割为n组，每次取n-1组构建树模型，重复n次，然后计算得到特征重要性集合，根据特征重要性集合计算特征的真实分值，剔除出在所有待选择特征中特征分值最高的特征，并以剔除后的特征矩阵继续进行分割，重复上述步骤，直到剔除的特征数达到预设数量，通过本方式，能够避免在特征选择过程中去掉两个或三个彼此存在较强关联的特征中的一个，满足挖掘重要医疗特征的需求。

请参阅图2，本发明实施例中特征选择方法的另一个实施例包括：

201、获取原始医疗数据，并对所述原始医疗数据进行特征化处理，得到与所述原始医疗数据对应的待选择特征组，其中，所述特征化处理为将所述原始医疗数据与待选择特征之间进行映射处理；

202、将所述待选择特征组进行多次拷贝，并对每次拷贝后的集合进行随机打乱，得到多组随机集合；

在该步骤中，在所述将所述待选择特征组进行多次拷贝之后，还包括：

在该步骤，由于后续需要进行对特征的shuffle处理获得随机特征，导致在后续计算过程中，随机特征无法与待选择特征相对应，也就无法计算待选择特征的代表分值，为了避免这种情况发生，在本案中，需要将通过对待选择特征组进行拷贝后获得的拷贝特征的name打上标签，使得待选择特征与随机特征相对应，这样在进行打乱处理后计算待选择特征的代表分值时，通过所述特征标签，就能够找到待选择特征对应的随机特征，例如对于待选择特征A对应的随机特征对A-S1、A-S2等。

203、将所述待选择特征组与多组所述随机集合进行拼接，得到特征矩阵；

204、根据所述特征标签，将所述特征矩阵中的每个特征的数据分别划分为至少一类样本；

205、对所述样本进行分层抽样，得到n组训练集，所述训练集用于通过模型训练算法构建树模型；

在该步骤中，对于不同特征的数据可以根据导向的结局划分至少一类样本，在事先对样本数据打上结局标签，例如在生产某些血液疾病药物时，需要获取样本数据，对于某个收集到的个人样本，根据他的个人数据得知他已经罹患了血液疾病，则对其他样本数据打上“罹患”的结局标签，根据样本的结局标签进行分层抽样，若有10个特征数据的结局标签为“罹患”以及20个特征数据的结局标签为“健康”，预先设定的训练集组数为5，则从10个特征数据的结局标签为“罹患”中每次抽取2个，从20个特征数据的结局标签为“健康”每次抽取4个，将结局标签为“罹患”抽取的2个样本以及结局标签为“健康”抽取的4个样本作为1组。在进行分层抽样获取n组样本后，每次取其中的n-1组作为训练集样本，这样一共可以获取n组不同的训练集，例如当预设的训练集的组数为3时，在获取到3组样本后，每次取其中的2组作为训练集样本，分别是第二组和第三组样本为一组训练集，第一组和第三组样本为一组训练集，第一组和第二组样本为一组训练集。对样本进行分层抽样能保证总体中每一层都有个体被抽到，同时构建n组训练集保证了由于样本随机性带来的偶然误差。

206、选取所述n组训练集中的n-1组训练集基于模型训练算法构建树模型，得到n个树模型；

207、计算随机森林中的树模型在袋外数据上的第一分类错误数；

208、在树模型的袋外数据中对特征的取值进行随机扰动，计算第二分类错误数；

209、根据所述第一分类错误数和第二分类错误数计算各特征的特征重要性。

在实际应用中，对于随机森林计算特征的特征重要性的方式有两种，一种是通过计算袋外错误率的方式，一种是通过计算基尼指数的方式，在本实施例中，是使用计算袋外错误率的方式，所述计算各特征的特征重要性的计算公式为：

其中，I为特征重要性，n为树模型的个数，E_I为第二分类错误数，E_i第一分类错误数。

210、根据所述特征重要性，计算各特征的Z-score值；

211、根据所述待选择特征的Z-score值和对应的随机特征的Z-score值计算待选择特征的代表分值；

在本案中，树模型对于每个输入的特征都会计算其特征重要性，在前面的步骤中，通过树模型计算出待选择特征的特征重要性以及所述待选择特征对应的随机特征的特征重要性后，计算待选择特征的Z-score值以及所述待选择特征对应的随机特征的Z-score值后，将待选择特征的Z-score值减去所述待选择特征对应的随机特征的Z-score值即可得到待选择特征的代表分值，所述Z-score值的计算公式为：

其中，I表示一个特征在n个树模型上的特征重要性的均值，σ_I表示一个特征在个树模型上的特征重要性的标准差。

212、获取所述代表分值中最高值所对应的待选择特征，记录所述待选择特征的分值，并将获取到的待选择特征及其对应的随机特征从所述特征矩阵中移除；

213、判断选择出的特征个数是否大于或等于预设的特征个数；

214、若是，结束特征选择，将特征选择出来的被选择特征作为重要医疗特征输出；

在该步骤中，在将特征选择出来的被选择特征作为重要医疗特征输出之后，还包括：

获取被选择特征及所述被选择特征对应的Z-score值；

在该步骤中，在通过特征选择获得重要特征后，还需要计算所有选择出来的重要特征的重要性分值，得到的重要性分值便于在后续进行比较各特征的重要程度，这是因为在每次进行特征选择并剔除后，选择出来的特征与其他特征失去了关联，所以在选择出需要的重要特征后需要计算所有被选择特征的重要性分值，同时若一开始进行特征选择时的个数过多，其中部分被选择特征的重要性分值过低，我们可以选择其中重要性分值最高的部分特征进行后续分析，计算某一特征a的第一特征重要性的计算方法为：

其中，Z-score_a为某一特征a的Z-score值，Z-score_max为所有被选择特征中的Z-score最大值，Z-score_min为所有被选择特征中的Z-score最小值。

215、若否，则将特征移除处理后得到的特征矩阵进行分割处理，继续进行特征选择。

上面对本发明实施例中特征选择方法进行了描述，下面对本发明实施例中特征选择装置进行描述，请参阅图3，本发明实施例中特征选择装置一个实施例包括：

特征化模块301，用于获取原始医疗数据，并对所述原始医疗数据进行特征化处理，得到与所述原始医疗数据对应的待选择特征组，其中，所述特征化处理为将所述原始医疗数据与待选择特征之间进行映射处理；

拷贝模块302，用于将所述待选择特征组进行多次拷贝，并对每次拷贝后的集合进行随机打乱，得到多组随机集合；

拼接分割模块303，用于将所述待选择特征组与多组所述随机集合进行拼接，得到特征矩阵，并将所述特征矩阵进行分割成n组训练集，n为预设值，且为大于1的正整数；

树模型构建模块304，用于选取所述n组训练集中的n-1组训练集基于模型训练算法构建树模型，得到n个树模型，并计算每个树模型对应的特征重要性集合；

计算模块305，用于根据所述特征重要性集合计算多个所述待选择特征的代表分值；

记录模块306，获取所述代表分值中最高值所对应的待选择特征，记录所述待选择特征的分值，并将获取到的待选择特征及其对应的随机特征从所述特征矩阵中移除；

判断模块307，用于判断选择出的特征个数是否大于或等于预设的特征个数；

输出模块308，用于当选择出的特征个数大于或等于预设的特征个数时，结束特征选择，将特征选择出来的被选择特征作为重要医疗特征输出；

循环模块309，用于当选择出的特征个数不大于或不等于预设的特征个数时，将特征移除处理后得到的特征矩阵进行分割处理，继续进行特征选择。

请参阅图4，本发明实施例中特征选择装置的另一个实施例包括：

记录模块306，用于获取所述代表分值中最高值所对应的待选择特征，记录所述待选择特征的分值，并将获取到的待选择特征及其对应的随机特征从所述特征矩阵中移除；

可选的，所述特征选择装置还包括标签模块310，用于对拷贝后获得的拷贝特征打上特征标签，所述特征标签用于使待选择特征和所述随机特征相对应，其中，所述特征标签用于对所述特征矩阵进行分割处理。

可选的，所述303拼接分割模块包括：划分单元3031，分层抽样单元3032；

划分单元3031用于根据所述特征标签，将所述特征矩阵中的每个特征的数据分别划分为至少一类样本；

分层抽样单元3032用于对所述样本进行分层抽样，得到n组训练集，所述训练集用于通过模型训练算法构建树模型。

可选的，树模型构建单元包括：第一计算单元3041、第二计算单元3042、特征重要性计算单元3043；

第一计算单元3041，计算随机森林中的树模型在袋外数据上的第一分类错误数；

第二计算单元3042，在树模型的袋外数据中对特征的取值进行随机扰动，计算第二分类错误数；

筛选单元3043，根据所述第一分类错误数和第二分类错误数计算各特征的特征重要性。

可选的，所述计算模块305包括：Z-score单元3051、代表分值单元3052；

Z-score单元3051用于根据所述特征重要性，计算各特征的Z-score值；

代表分值单元3052用于根据所述待选择特征的Z-score值和对应的随机特征的Z-score值计算待选择特征的代表分值。

可选的，所述特征选择装置还包括分析模块311，用于获取被选择特征及所述被选择特征对应的Z-score值；根据所述被选择特征对应的Z-score值，计算所有被选择特征的第一重要性分值；将所述被选择特征重新输入树模型中，计算所述被选择特征的特征重要性，将所述特征重要性作为第二重要性分值；选择所述第一重要性分值和所述第二重要性分值中的一个作为参考分值，所述参考分值用于进行后续特征分析。

上面图3和图4从模块化功能实体的角度对本发明实施例中的特征选择装置进行详细描述，下面从硬件处理的角度对本发明实施例中特征选择设备进行详细描述。

图5是本发明实施例提供的一种特征选择设备的结构示意图，该特征选择设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对特征选择设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在特征选择设备500上执行存储介质530中的一系列指令操作。

基于特征选择设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作***531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的特征选择设备结构并不构成对基于特征选择设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序(即是指令)，当所述计算机程序在计算机上运行时，使得计算机执行所述特征选择方法的步骤，可选的，是通过计算机上的处理器来执行所述计算机程序。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种特征选择方法，其特征在于，所述特征选择方法包括：

获取原始医疗数据，并对所述原始医疗数据进行特征化处理，得到与所述原始医疗数据对应的待选择特征组，其中，所述特征化处理为将所述原始医疗数据与待选择特征之间进行映射处理；

判断选择出的特征个数是否大于或等于预设的特征个数；

若是，结束特征选择，将特征选择出来的被选择特征作为重要医疗特征输出；

2.根据权利要求1所述的特征选择方法，其特征在于，在所述将所述待选择特征组进行多次拷贝之后，还包括：

3.根据权利要求2所述的特征选择方法，其特征在于，所述将所述特征矩阵进行分割成n组训练集包括：

4.根据权利要求1-3任一项所述的特征选择方法，其特征在于，所述模型训练算法包括随机森林算法、Adboost、GBDT、Xgboost、以及LightGBM中的任意一种。

5.根据权利要求4所述的特征选择方法，其特征在于，当所述模型训练算法为随机森林算法时，所述选取所述n组训练集中的n-1组训练集基于模型训练算法构建树模型，得到n个树模型，并计算每个树模型对应的特征重要性集合包括：

计算随机森林中的树模型在袋外数据上的第一分类错误数；

6.根据权利要求1所述的特征选择方法，其特征在于，所述根据所述特征重要性集合计算多个所述待选择特征的代表分值包括：

根据所述特征重要性，计算各特征的Z-score值；

7.根据权利要求6所述的特征选择方法，其特征在于，在所述结束特征选择，将特征选择出来的被选择特征作为重要医疗特征输出之后，还包括：

获取被选择特征及所述被选择特征对应的Z-score值；

8.一种特征选择装置，其特征在于，所述特征选择装置包括：

9.一种特征选择设备，其特征在于，所述特征选择设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述特征选择设备执行如权利要求1-7中任一项所述的特征选择方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述特征选择方法。