CN109685107A - 特征选择方法、***、计算机可读存储介质及电子设备 - Google Patents
特征选择方法、***、计算机可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN109685107A CN109685107A CN201811400762.5A CN201811400762A CN109685107A CN 109685107 A CN109685107 A CN 109685107A CN 201811400762 A CN201811400762 A CN 201811400762A CN 109685107 A CN109685107 A CN 109685107A
- Authority
- CN
- China
- Prior art keywords
- feature
- subset
- evaluation index
- feature subset
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013459 approach Methods 0.000 title claims abstract description 23
- 238000011156 evaluation Methods 0.000 claims abstract description 221
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000004590 computer program Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 238000012417 linear regression Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000010187 selection method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开涉及一种特征选择方法、***、计算机可读存储介质及电子设备。方法包括:获取第一特征子集,并确定第一特征子集对应的第一评价指标;获取第二特征子集和第三特征子集;确定第三特征子集对应的第二评价指标;在第二评价指标优于第一评价指标时,执行更新操作;在确定满足第一更新截止条件时,将当前的目标特征子集确定为目标模型的目标输入特征,否则,将第三特征子集确定为新的第一特征子集,将第二评价指标确定为新的第一评价指标,并返回获取第二特征子集和第三特征子集的步骤。由此,可快速有效地筛选出较优的目标模型的目标输入特征、大大降低特征集的维度,在很大程度上解决了“维度灾难”问题,提高了计算效率。
Description
技术领域
本公开涉及机器学习领域,具体地,涉及一种特征选择方法、***、计算机可读存储介质及电子设备。
背景技术
机器学习中,训练样本的特征往往会非常多,极易引发维度灾难,即当特征维度超过一定规模后,训练模型的性能随着特征维度的增加反而下降,而且维度越高,训练模型的时间开销越大。其中,导致训练模型性能下降的原因往往是因为这些高维度特征中含有无关特征和冗余特征,因此,采用特征选择以去除特征中的无关特征和冗余特征。尤其是在自动化机器学习中,为了训练获得效果较好的模型,往往在训练模型之前先进行特征生成,即根据已有的特征构造大量的新特征,如何从这些大量的新特征中快速有效地筛选出较优的特征子集,以获得较好的模型成为机器学习研究的重点。
发明内容
为了克服现有技术中存在的问题,本公开提供一种特征选择方法、***、计算机可读存储介质及电子设备。
为了实现上述目的,根据本公开实施例的第一方面,提供一种特征选择方法,包括:
获取第一特征子集,并确定所述第一特征子集对应的第一评价指标;
获取第二特征子集和第三特征子集,所述第二特征子集与所述第一特征子集的交集为空,所述第三特征子集为所述第一特征子集与所述第二特征子集的并集;
确定所述第三特征子集对应的第二评价指标;
在所述第二评价指标优于所述第一评价指标的情况下,执行更新操作,所述更新操作包括更新目标特征子集为所述第三特征子集;
在确定满足第一更新截止条件的情况下,将当前的所述目标特征子集确定为目标模型的目标输入特征;
在确定不满足所述第一更新截止条件的情况下,将所述第三特征子集确定为新的第一特征子集,将所述第二评价指标确定为新的第一评价指标,并返回所述获取第二特征子集和第三特征子集的步骤。
可选地,所述第一更新截止条件包括:
所述更新操作的执行次数达到第一预设次数;或
所述第二评价指标达到第一预设阈值。
可选地,所述方法还包括:
在所述第二评价指标不优于所述第一评价指标的情况下,确定特征选择失败;
在特征选择连续失败次数未达到第二预设次数的情况下,返回所述获取第二特征子集和第三特征子集的步骤;
在所述特征选择连续失败次数达到所述第二预设次数的情况下,执行回退操作以获得新的第一特征子集和对应的新的第一评价指标,当所述回退操作的执行次数未达到第三预设次数时,返回所述获取第二特征子集和第三特征子集的步骤,其中,所述回退操作包括将当前第一特征子集的特征组合状态回退到前次特征组合状态。
可选地,所述方法还包括:
当所述回退操作的执行次数达到所述第三预设次数,将执行所述回退操作后获得的所述新的第一特征子集确定为所述目标输入特征。
可选地,所述在确定不满足所述第一更新截止条件的情况下,将所述第三特征子集确定为新的第一特征子集,将所述第二评价指标确定为新的第一评价指标,包括:
在确定不满足所述第一更新截止条件、且所述更新操作的执行次数不等于第四预设次数的正整数倍的情况下,将所述第三特征子集确定为新的第一特征子集,将所述第二评价指标确定为新的第一评价指标;
所述方法还包括:
在确定不满足所述第一更新截止条件、且所述更新操作的执行次数等于所述第四预设次数的正整数倍的情况下,从所述目标特征子集中筛选出无效特征;
确定从所述目标特征子集中剔除所述无效特征后所得的特征子集对应的第三评价指标;
当所述第三评价指标优于所述第二评价指标时,从所述目标特征子集中剔除所述无效特征,以获得新的目标特征子集;
令所述更新操作的执行次数加一;
在确定不满足第二更新截止条件的情况下,将所述新的目标特征子集确定为所述新的第一特征子集,将所述第三评价指标确定为所述新的第一评价指标,并返回所述获取第二特征子集和第三特征子集的步骤。
可选地,所述方法还包括:
获取原始特征集合;
确定所述原始特征集合中各原始特征的质量指标;
根据所述各原始特征的质量指标,构建轮盘;
所述获取第一特征子集,包括:
根据所述轮盘,通过轮盘机制获取第一特征子集;
所述获取第二特征子集,包括:
根据所述轮盘,通过所述轮盘机制获取第二特征子集。
可选地,所述在确定不满足所述第一更新截止条件的情况下,将所述第三特征子集确定为新的第一特征子集,将所述第二评价指标确定为新的第一评价指标,包括:
在确定不满足所述第一更新截止条件、且所述更新操作的执行次数不等于第四预设次数的正整数倍的情况下,将所述第三特征子集确定为新的第一特征子集,将所述第二评价指标确定为新的第一评价指标;
所述方法还包括:
在确定不满足所述第一更新截止条件、且所述更新操作的执行次数等于所述第四预设次数的正整数倍的情况下,从所述目标特征子集中筛选出无效特征;
确定从所述目标特征子集中剔除所述无效特征后所得的特征子集对应的第三评价指标;
当所述第三评价指标优于所述第二评价指标时,从所述目标特征子集中剔除所述无效特征,以获得新的目标特征子集;
令所述更新操作的执行次数加一,减小所述无效特征的所述质量指标,并更新所述轮盘;
在确定不满足第二更新截止条件的情况下,将所述新的目标特征子集确定为所述新的第一特征子集,将所述第三评价指标确定为所述新的第一评价指标,并返回所述获取第二特征子集和第三特征子集的步骤。
可选地,所述第二更新截止条件包括:
所述更新操作的执行次数达到第一预设次数;或
所述第三评价指标达到第二预设阈值。
可选地,所述确定所述原始特征集合中各原始特征的质量指标,包括:
确定原始特征集合的多个评估指标;
根据所述多个评估指标,确定所述原始特征集合中各原始特征的质量指标。
可选地,所述根据所述多个评估指标,确定所述原始特征集合中各原始特征的质量指标,包括:
根据所述多个评估指标,通过以下公式来确定所述原始特征集合中各原始特征的质量指标:
其中,M(xi)为原始特征xi的所述质量指标;compute(xi)泛指所述原始特征集合的各评估指标的计算公式;N(compute(xi))为对compute(xi)进行归一化处理;为对N(compute(xi))进行指标反转处理。
根据本公开实施例的第二方面,提供一种特征选择***,包括:
多个第一特征选择器,其中,所述第一特征选择器用于执行本公开第一方面提供的所述特征选择方法的步骤;
第二特征选择器,与所述多个第一特征选择器分别连接,用于:
从各所述第一特征选择器获取所述目标输入特征,并将各所述目标输入特征合并后得到的集合确定为所述第二特选择器的原始特征集合;
根据所述第二特选择器的原始特征集合,执行本公开第一方面提供的所述特征选择方法的步骤。
可选地,所述第二特征选择器还用于:
获取所述第二特选择器的原始特征集合中各原始特征在所述多个第一选择器中被获取的总次数;
将各原始特征在所述多个第一选择器中被获取的总次数确定为该原始特征的质量指标。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的所述特征选择方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面提供的所述特征选择方法的步骤。
在上述技术方案中,首先获取第一特征子集、第二特征子集及第三特征子集,其中,第三特征子集是在第一特征子集中加入最新获取到的第二特征子集而得到的;之后,判定第三特征子集对应的第二评价指标是否优于第一特征子集对应的第一评价指标;在第二评价指标优于第一评价指标时,表明在第一特征子集的基础上加入第二特征子集后得到的第三特征子集比原有的第一特征子集更能够获取到好的目标模型,此时,可以执行更新操作,即将该目标特征子集更新为该第三特征子集;当确定满足第一更新截止条件时,将上述第三特征子集确定为新的第一特征子集、将上述第二评价指标确定为新的第一评价指标,重新获取新的第二特征子集和第三特征子集,如此循环,直到确定不满足上述第一更新截止条件时,将当前的目标特征子集确定为目标模型的目标输入特征。这样,可以快速有效地筛选出较优的目标模型的目标输入特征。并且,可以大大降低特征集的维度,在很大程度上解决了常规特征选择算法中遇到的“维度灾难”问题,提高了计算效率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种特征选择方法的流程图。
图2A是根据一示例性实施例示出的一种特征选择过程的示意图。
图2B是根据另一示例性实施例示出的一种特征选择过程的示意图。
图3是根据另一示例性实施例示出的一种特征选择方法的流程图。
图4是根据一示例性实施例示出的一种确定质量指标的方法的流程图。
图5是根据另一示例性实施例示出的一种特征选择方法的流程图。
图6A是根据另一示例性实施例示出的一种特征选择过程的示意图。
图6B是根据另一示例性实施例示出的一种特征选择过程的示意图。
图6C是根据另一示例性实施例示出的一种特征选择过程的示意图。
图7是根据另一示例性实施例示出的一种特征选择方法的流程图。
图8是根据另一示例性实施例示出的一种特征选择方法的流程图。
图9是根据一示例性实施例示出的一种特征选择***的框图。
图10是根据一示例性实施例示出的一种电子设备的框图。
图11是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是根据一示例性实施例示出的一种特征选择方法的流程图。如图1所示,该特征选择方法可以包括以下步骤。
在步骤101中,获取第一特征子集,并确定该第一特征子集对应的第一评价指标。
在本公开中,在获取到第一特征子集后,可以使用该第一特征子集在训练集上构建相应模型,并在验证集上评估,以得到该第一特征子集对应的第一评价指标。
示例地,上述模型可以为线性回归模型,相应地,第一评价指标为决定系数r2。
又示例地,上述模型可以为逻辑回归模型,相应地,第一评价指标为准确率。
其中,上述使用第一特征子集在训练集上构建相应模型以获得第一评价指标的具体方式属于本领域技术人员公知的,在本公开中不再详细阐述。
在步骤102中,获取第二特征子集和第三特征子集。
在本公开中,第二特征子集与上述步骤101中获取到的第一特征子集的交集为空,第三特征子集为第一特征子集与第二特征子集的并集。在获取到第一特征子集和第二特征子集后,可以将二者合并,并将合并后所得的集合作为第三特征子集。并且,可以在获取第二特征子集之前获取第一特征子集,也可以在获取到第二特征子集之后再获取第一特征子集,还可以同时获取第一特征子集和第二特征子集,在本公开中不作具体限定。
在步骤103中,确定第三特征子集对应的第二评价指标。
在本公开中,在通过上述步骤102获取到第三特征子集后,可以使用该第三特征子集在训练集上构建相应模型,并在验证集上评估,以得到该第三特征子集对应的第二评价指标。其中,该模型可以与上述在确定第一特征子集对应的第一评价指标时构建的模型相对应。示例地,在确定第一评价指标时构建的模型为线性回归模型,则在确定第二评价指标时也构建相应的线性回归模型;又示例地,在确定第一评价指标时构建的模型为逻辑回归模型,则在确定第二评价指标时也构建相应的逻辑回归模型。
在步骤104中,判定第二评价指标是否优于第一评价指标。
在本公开中,当上述确定第一评价指标、第二评价指标时构建的模型为线性回归模型时,第一评价指标、第二评价指标均为决定系数r2,可以通过以下方式来判定第二评价指标是否优于第一评价指标:当第二评价指标大于第一评价指标时,确定第二评价指标优于第一评价指标,否则,确定第二评价指标不优于第一评价指标。
而当上述确定第一评价指标、第二评价指标时构建的模型为逻辑回归模型时,第一评价指标、第二评价指标均为准确率,可以通过以下方式来判定第二评价指标是否优于第一评价指标:当第二评价指标大于第一评价指标时,确定第二评价指标优于第一评价指标,否则,确定第二评价指标不优于第一评价指标。
当然,上述第一评价指标、第二评价指标还可以是其他类型的指标,例如,错误率,此时,可以通过以下方式来判定第二评价指标是否优于第一评价指标:当第二评价指标小于第一评价指标时,确定第二评价指标优于第一评价指标,否则,确定第二评价指标不优于第一评价指标。
在第二评价指标优于第一评价指标的情况下,执行以下步骤105;在第二评价指标不优于第一评价指标的情况下,可以重新获取第二特征子集和第三特征子集,即返回上述步骤102。
在步骤105中,执行更新操作。
在本公开中,该更新操作为更新目标特征子集为第三特征子集。
在步骤106中,判定是否满足第一更新截止条件。
在本公开中,该第一更新截止条件可以包括更新操作的执行次数达到第一预设次数、或者第三特征子集对应的第二评价指标达到第一预设阈值。
在一种实施方式中,上述第一更新截止条件可以为更新操作的执行次数达到第一预设次数。每执行一次更新操作,更新操作的执行次数就加一,之后,可以判定该更新操作的执行次数是否达到第一预设次数。具体来说,当更新操作的执行次数未达到第一预设次数时,可以将第三特征子集确定为新的第一特征子集,并将第二评价指标确定为新的第一评价指标,即执行以下步骤107;之后,重新获取第二特征子集和第三特征子集,即返回上述步骤102继续执行,直到更新操作的执行次数达到上述第一预设次数时,将当前的目标特征子集确定为目标模型的目标输入特征,即执行以下步骤108。
在另一种实施方式中,上述更新操作截止条件可以为第三特征子集对应的第二评价指标达到第一预设阈值。每执行一次更新操作后,就判定上述步骤103中确定出的第三特征子集对应的第二评价指标是否达到第一预设阈值。具体来说,当确定该第二评价指标未达到上述第一预设阈值时,可以将第三特征子集确定为新的第一特征子集,并将第二评价指标确定为新的第一评价指标,即执行以下步骤107;之后,重新获取第二特征子集和第三特征子集,即返回上述步骤102继续执行,直到第三特征子集对应的第二评价指标达到上述第一预设阈值时,将当前的目标特征子集确定为目标模型的目标输入特征,即执行以下步骤108。
在又一种实施方式中,上述第一更新截止条件可以为更新操作的执行次数达到第一预设次数、或者第三特征子集对应的第二评价指标达到第一预设阈值,即,只要满足二者中的其中一个,就可以确定满足第一更新截止条件。具体来说,当更新操作的执行次数未达到第一预设次数、且第三特征子集对应的第二评价指标未达到上述第一预设阈值时,可以将第三特征子集确定为新的第一特征子集,并将第二评价指标确定为新的第一评价指标,即执行以下步骤107;之后,重新获取第二特征子集和第三特征子集,即返回上述步骤102继续执行,直到更新操作的执行次数达到第一预设次数、或者第三特征子集对应的第二评价指标达到上述第一预设阈值时,将当前的目标特征子集确定为目标模型的目标输入特征,即执行以下步骤108。
在步骤107中,将第三特征子集确定为新的第一特征子集,将第二评价指标确定为新的第一评价指标。
在步骤108中,将当前的目标特征子集确定为目标模型的目标输入特征。
在本公开中,该目标模型可以例如是分类模型、预测模型等,在本公开中不作具体限定。
另外,需要说明的是,上述第一预设次数、第一预设阈值可以是用户设定的值,也可以是默认的经验值,在本公开中均不作具体限定。
下面举例说明如何获取到目标模型的目标输入特征。
假设上述第一更新截止条件为更新操作的执行次数达到第一预设次数、且该第一预设次数为3,第一特征子集为X0,第二特征子集为X1,其中,第三特征子集X2=X0∪X1,并且,第一特征子集X0对应的第一评价指标P0=P(X0),第三特征子集对应的第二评价指标为P1=P(X0∪X1)。
示例地,如图2A所示,P(X0∪X1)优于P(X0),即第二评价指标P1优于第一评价指标P0,执行更新操作,即将目标特征子集Xm更新为第三特征子集X2,即Xm=X2=X0∪X1,此时更新操作的执行次数为1,其小于上述第一预设次数3,这样,可以先将第三特征子集X2确定为新的第一特征子集X0',即,X0'=X2=X0∪X1,将第二评价指标P1确定为新的第一评价指标P0',即P0'=P1=P(X0∪X1);然后,重新获取第二特征子集X1',其中,则第三特征子集X2'=X0'∪X1'=X0∪X1∪X1',由于P(X0∪X1∪X1')优于P(X0∪X1),即第二评价指标为P1'优于第一评价指标P0',执行更新操作,即将目标特征子集Xm更新为第三特征子集X2',即Xm=X2'==X0∪X1∪X1',此时更新操作的执行次数为2,其小于上述第一预设次数3,这样,可以先将第三特征子集X2'确定为新的第一特征子集X0”,即,X0”=X2'=X0∪X1∪X1',将第二评价指标P1'确定为新的第一评价指标P0”,即P0”=P1'=P(X0∪X1∪X1');之后,重新获取第二特征子集X1”,其中,
则第三特征子集X2”=X0”∪X1”=X0∪X1∪X1'∪X1”,由于P(X0∪X1∪X1'∪X1”)优于P(X0∪X1∪X1'),即第二评价指标为P1”优于第一评价指标P0”,执行更新操作,即将目标特征子集Xm更新为第三特征子集X2”,即Xm=X2”=X0∪X1∪X1'∪X1”,此时更新操作的执行次数为3,其达到上述第一预设次数3,可以结束迭代,将当前目标特征子集Xm确定为目标模型的目标输入特征Xs,即目标模型的目标输入特征Xs为X0∪X1∪X1′∪X1″。
又示例地,如图2B所示,P(X0∪X1)优于P(X0),即第二评价指标P1优于第一评价指标P0,执行更新操作,即将目标特征子集Xm更新为第三特征子集X2,即Xm=X2=X0∪X1,此时更新操作的执行次数为1,其小于上述第一预设次数3,这样,可以先将第三特征子集X2确定为新的第一特征子集X0',即,X0'=X2=X0∪X1,将第二评价指标P1确定为新的第一评价指标P0',即P0'=P1=P(X0∪X1);然后,重新获取第二特征子集X1',其中,则第三特征子集X2'=X0'∪X1'=X0∪X1∪X1',由于P(X0∪X1∪X1')不优于P(X0∪X1),即第二评价指标为P1'不优于第一评价指标P0',此时,不执行更新操作;接下来,重新获取第二特征子集X1”,其中,则第三特征子集X2”=X0'∪X1”=X0∪X1∪X1”,由于P(X0∪X1∪X1”)优于P(X0∪X1),即第二评价指标为P1”优于第一评价指标P0',执行更新操作,即将目标特征子集Xm更新为第三特征子集X2”,即Xm=X2”==X0∪X1∪X1”,此时更新操作的执行次数为2,其小于上述第一预设次数3,这样,可以先将第三特征子集X2”确定为新的第一特征子集X0”,即,X0”=X2”=X0∪X1∪X1”,将第二评价指标P1”确定为新的第一评价指标P0”,即P0”=P1”=P(X0∪X1∪X1”);之后,重新获取第二特征子集X1”',其中,则第三特征子集X2”'=X0”∪X1”'=X0∪X1∪X1”∪X1”',由于P(X0∪X1∪X1”∪X1”')优于P(X0∪X1∪X1”),即第二评价指标为P1”'优于第一评价指标P0”,执行更新操作,即将目标特征子集Xm更新为第三特征子集X2”',即Xm=X2”'=X0∪X1∪X1”∪X1”',此时更新操作的执行次数为3,其达到上述第一预设次数3,此时,可以结束迭代,将当前目标特征子集Xm确定为目标模型的目标输入特征Xs,即目标模型的目标输入特征Xs为X0∪X1∪X1″∪X1″′。
在上述技术方案中,首先获取第一特征子集、第二特征子集及第三特征子集,其中,第三特征子集是在第一特征子集中加入最新获取到的第二特征子集而得到的;之后,判定第三特征子集对应的第二评价指标是否优于第一特征子集对应的第一评价指标;在第二评价指标优于第一评价指标时,表明在第一特征子集的基础上加入第二特征子集后得到的第三特征子集比原有的第一特征子集更能够获取到好的目标模型,此时,可以执行更新操作,即将该目标特征子集更新为该第三特征子集;当确定不满足第一更新截止条件时,将上述第三特征子集确定为新的第一特征子集、将上述第二评价指标确定为新的第一评价指标,重新获取新的第二特征子集和第三特征子集,如此循环,直到确定满足上述第一更新截止条件时,将当前的目标特征子集确定为目标模型的目标输入特征。这样,可以快速有效地筛选出较优的目标模型的目标输入特征。并且,可以大大降低特征集的维度,在很大程度上解决了常规特征选择算法中遇到的“维度灾难”问题,提高了计算效率。
为了使本领域技术人员更加理解本发明实施例提供的技术方案,下面对上述步骤进行详细的说明。
首先针对上述步骤101中的获取第一特征子集进行详细说明。
在一种实施方式中,可以先获取原始特征集合,之后,从该原始特征集合中随机选出多个原始特征,并将该多个原始特征作为第一特征子集。
在另一种实施方式中,在获取第一特征子集之前,可以先构建轮盘,然后根据该轮盘,采用轮盘机制来获取第一特征子集。具体来说,可以通过图3中所示的步骤109~步骤111来构建轮盘。
在步骤109中,获取原始特征集合。
在本公开中,该原始特征集合中所包含的原始特征的数量可能为几十个、几百个、甚至上千个,对此,在本申请中不作具体限定。
在步骤110中,确定原始特征集合中各原始特征的质量指标。
在本公开中,在获取到原始特征集合后,可以通过图4中所示的步骤1101和步骤1102来确定原始特征集合中各原始特征的质量指标。
在步骤1101中,确定原始特征集合的多个评估指标。
在本公开中,可以采用多种评估指标相结合的方式来对原始特征集合进行评估,示例地,可以将ID列可能性(即,该列中包含的非重复值的个数与总的数据条数的比值)、缺失值百分比、方差、熵、基尼系数、与目标列的相关性(例如,皮尔森相关系数、斯皮尔曼相关系数等)共同作为原始特征集合的评估指标。
在步骤1102中,根据多个评估指标,确定原始特征集合中各原始特征的质量指标。
在本公开中,在确定出原始特征集合的多个评估指标后,可以根据该多个评估指标来确定原始特征集合中各原始特征的质量指标。示例地,可以通过以下等式(1)来确定原始特征集合中各原始特征的质量指标:
其中,M(xi)为原始特征xi的所述质量指标;compute(xi)泛指所述原始特征集合的各评估指标的计算公式;N(compute(xi))为对compute(xi)进行归一化处理,即将compute(xi)转化成(0,1)范围内的数值;为对N(compute(xi))进行指标反转处理,即当compute(xi)越小时,表示当前评估指标越好,此时,可以对该compute(xi)进行指标反转处理,示例地,可以将N(compute(xi))=1-compute(xi),这样,1-compute(xi)越大时,表示当前评估指标越好。
另外,不同的评估指标的适用类型也不同。例如,评估指标“ID列可能性”、“缺失值百分比”、“基尼系数”、“与目标列的相关性”均适用于离散型特征或连续性特征、评估指标“方差”适用于连续性特征、评估指标“熵”适用于离散型特征。当原始特征xi的类型属于当前评估指标的适用类型时,表明原始特征xi适用于当前评估指标,此时,可以将并入该原始特征xi的质量指标M(xi)中。
示例地,原始特征xi为连续性特征,则:
又示例地,原始特征xi为离散性特征,则
其中,compute1(xi)为评估指标“ID列可能性”的计算公式;compute2(xi)为评估指标“缺失值百分比”的计算公式;compute3(xi)为评估指标“方差”的计算公式;compute4(xi)为评估指标“熵”的计算公式;compute5(xi)为评估指标“基尼系数”的计算公式;compute6(xi)为评估指标“与目标列的相关性”的计算公式。
此外,需要说明的是,由于上述原始特征集合的各评估指标的计算公式属于本领域技术人员公知的,在本公开中不再详细描述。
返回图3,在步骤111中,根据各原始特征的质量指标,构建轮盘。
在本公开中,在通过上述步骤110确定出原始特征集合中各原始特征的质量指标后,可以基于各原始特征的质量指标,构建轮盘,其中,原始特征的质量指标越大,其在轮盘中所占的面积就越大,相应地,在通过轮盘机制进行特征选择时,该原始特征被选择的概率也就更大。
在构建轮盘后,上述步骤101即可以通过根据该轮盘,通过轮盘机制获取第一特征子集。具体来说,每次旋转轮盘,可以选择一个原始特征,通过多次旋转轮盘,即可获取到多个原始特征,直到获取到的原始特征的个数达到第一预设个数时,停止轮盘旋转,此时,获取到的第一预设个数的原始特征即构成一个特征子集,可以将其作为第一特征子集。其中,上述第一预设个数可以是用户设定的,例如,一个、两个、三个、甚至更多个,也可以是默认的在本公开中均不作具体限定。
相应地,可以采用上述获取第一特征子集的同样的方式来获取第二特征子集,但第二特征子集与第一特征子集的交集为空。在获取第二特征子集时,当通过一次轮盘旋转获得的原始特征属于第一特征子集时,可以舍弃该原始特征,重新旋转轮盘进行特征选择,直到获取到的原始特征的个数达到第二预设个数时,停止轮盘旋转,此时,即获取到了第二特征子集。其中,上述第二预设个数可以是用户设定的,例如,一个、两个、三个、甚至更多个,也可以是默认的,并且,该它可以与上述第一预设个数相同,也可以不同,在本公开中均不作具体限定。
通过轮盘机制来获取第一特征子集和第二特征子集时,质量指标越大的特征被选择的概率就越大,由此,可以避免对原始特征集合中的所有特征进行遍历,大大加快了特征选择的效率。
图5是根据另一示例性实施例示出的一种特征选择方法的流程图。如图5所示,上述方法还可以包括以下步骤112~步骤116。
在步骤112中,确定特征选择失败。
在本公开中,在上述步骤104确定出第三特征子集对应的第二评价指标不优于第一特征子集对应的第一评价指标时,可以确定此次特征选择失败,为了避免因连续多次特征选择失败造成的目标输入特征的获取时间较长,可以在返回上述步骤102重新获取第二特征子集和第三特征子集前,先判定特征选择连续失败的次数是否达到第二预设次数,即执行以下步骤113。
在步骤113中,判定特征选择连续失败次数是否达到第二预设次数。
在步骤114中,执行回退操作以获得新的第一特征子集和对应的新的第一评价指标。
在本公开中,该回退操作可以为将当前第一特征子集的特征组合状态回退到前次特征组合状态。示例地,前次获取到的第一特征子集为X0∪X1∪X1”,当前的第一特征子集为X0∪X1∪X1”∪X1”',在执行回退操作后获得的新的第一特征子集为前次获取到的第一特征子集,即在执行回退操作后获得的新的第一特征子集为X0∪X1∪X1”。
如图5中所示,在确定特征选择连续失败的次数未达到第二预设次数时,可以重新进行特征选择,即返回上述步骤102继续执行;在确定特征选择连续失败的次数达到上述第二预设次数时,可以执行回退操作以获得新的第一特征子集和对应的新的第一评价指标(即执行步骤114),之后,判定回退操作的执行次数是否达到第三预设次数(即执行以下步骤115)。
在步骤115中,判定回退操作的执行次数是否达到第三预设次数。
在本公开中,过多的回退操作将造成特征选择算法的运算量成倍正常,因此,在本公开中将回退操作的执行次数限制在第三预设次数内。当回退操作的执行次数未达到第三预设次数的情况下,可以重新进行特征选择,即返回上述步骤102继续执行;而当回退操作的执行次数达到上述第三预设次数的情况下,则将执行回退操作后获得的新的第一特征子集确定为目标模型的目标输入特征(即执行以下步骤116)。
在步骤116中,将执行回退操作后获得的新的第一特征子集确定为目标输入特征。
示例地,假设上述第一更新截止条件为更新操作的执行次数达到第一预设次数,该第一预设次数为3,第二预设次数为3,第三预设次数为2,如图6A所示,特征选择过程如下:在经过两次更新操作后,连续三次特征选择失败,即特征选择连续失败的次数达到第二预设次数3,此时,执行回退操作以获得新的第一特征子集和对应的新的第一评价指标,其中,执行回退操作后获得的特征子集为X0”=X0∪X1,这样,可以将X0”=X0∪X1作为新的第一特征子集、将P(X0∪X1)作为新的第一评价指标;此时,回退操作的执行次数为1,其小于第三预设次数2,之后,重新进行特征选择,即,如图5所示,返回上述步骤102继续执行,由图6A可知,通过步骤102获取到第二特征子集X1””'和第三特征子集X0∪X1∪X1””',并且第二评价指标P(X0∪X1∪X1””')优于第一评价指标P(X0∪X1),此时,执行更新操作,即将目标特征子集更新为第三特征子集,即目标特征子集Xm为X0∪X1∪X1””',此时,更新操作的执行次数为3,达到上述第一预设次数3,此时,可以将当前的目标特征子集Xm确定为目标模型的目标输入特征Xs,即目标模型的目标输入特征Xs为X0∪X1∪X1””'。
又示例地,假设上述第一更新截止条件为更新操作的执行次数达到第一预设次数,该第一预设次数为4,第二预设次数为3,第三预设次数为2。如图6B所示,特征选择过程如下:在经过两次更新操作后,连续三次特征选择失败,即特征选择连续失败的次数达到第二预设次数3,此时,执行回退操作以获得新的第一特征子集和对应的新的第一评价指标,其中,执行回退操作后获得的特征子集为X0”=X0∪X1,这样,可以将X0”=X0∪X1作为新的第一特征子集、将P(X0∪X1)作为新的第一评价指标;此时,回退操作的执行次数为1,其小于第三预设次数2,之后,重新进行特征选择,即,如图5所示,返回上述步骤102继续执行,由图6B可知,通过步骤102获取到第二特征子集X1””'和第三特征子集X0∪X1∪X1””',并且第二评价指标P(X0∪X1∪X1””')优于第一评价指标P(X0∪X1),此时,执行更新操作,即将目标特征子集更新为第三特征子集,即目标特征子集为X0∪X1∪X1””',此时,更新操作的执行次数为3,其小于上述第一预设次数4,此时可以重新进行特征选择(如图6B中未示出),直到更新操作的执行次数达到4时,将当前的目标特征子集确定为目标模型的目标输入特征。
又示例地,假设上述第一更新截止条件为更新操作的执行次数达到第一预设次数,该第一预设次数为3,第二预设次数为3,第三预设次数为2。如图6C所示,特征选择过程如下:在经过两次更新操作后,连续三次特征选择失败,即特征选择连续失败的次数达到第二预设次数3,此时,执行回退操作以获得新的第一特征子集和对应的新的第一评价指标,其中,执行回退操作后获得的特征子集为X0”=X0∪X1,这样,可以将X0”=X0∪X1作为新的第一特征子集、将P(X0∪X1)作为新的第一评价指标;此时,回退操作的执行次数为1,其小于第三预设次数2,之后,重新进行特征选择,即,如图5所示,返回上述步骤102继续执行,如图6C所示,再次出现连续三次特征选择失败,即特征选择连续失败的次数达到第二预设次数3,此时,执行回退操作以获得新的第一特征子集和对应的新的第一评价指标,其中,执行回退操作后获得的特征子集为X0”=X0,这样,可以将X0”=X0作为新的第一特征子集、将P(X0)作为新的第一评价指标;此时,回退操作的执行次数为2,其达到第三预设次数2,因此,可以将执行上述回退操作后获得的新的第一特征子集X0确定为目标模型的目标输入特征Xs,即目标模型的目标输入特征Xs为X0。
另外,在通过多次更新操作后获得的目标特征子集中可能存在无效特征,因此,可以在执行多次更新操作后,增加一步特征筛选,以从目标特征子集中剔除无效特征,这样,可以使得最终选择到的目标模型的目标输入特征更优,从而保证特征选择的有效性。具体来说,可以通过图7中步骤117~步骤124来完成特征筛选。
在步骤117中,判定更新操作的执行次数是否等于第四预设次数的正整数倍。
在本公开中,上述第四预设次数为大于1的正整数,即在执行(第四预设次数-1)次更新操作后,可以增加一步特征筛选操作。示例地,上述第四预设次数为4,则可以在执行3次更新操作后,增加一步特征筛选操作。
具体来说,在每次执行完毕更新操作后,可以先判定是否满足第一更新截止条件,并在确定满足上述第一更新截止条件时,将当前的目标特征子集确定为目标模型的目标输入特征;而在确定不满足上述第一更新截止条件时,可以再次判定更新操作的执行次数是否等于第四预设次数的正整数倍,即执行步骤117。
当通过上述步骤117确定出更新操作的执行次数不等于第四预设次数的正整数倍时,可以将所述第三特征子集确定为新的第一特征子集,将所述第二评价指标确定为新的第一评价指标(即执行上述步骤107);而当通过上述步骤117确定出更新操作的执行次数等于第四预设次数的正整数倍时,此时,可以进行特征筛选操作,即执行以下步骤118~步骤124。
示例地,假设上述第一更新截止条件为更新操作的执行次数达到第一预设次数,且该第一预设次数为3,第四预设次数为2,在步骤105执行更新操作后,更新操作的执行次数为2,可见,更新操作的执行次数未达到第一预设次数、且等于第四预设次数的正整数倍,即确定不满足第一更新截止条件、且更新操作的执行次数等于第四预设次数的正整数倍,此时,可以执行步骤118。
又示例地,假设上述第一更新截止条件为更新操作的执行次数达到第一预设次数,且该第一预设次数为3,第四预设次数为2,在步骤105执行更新操作后,更新操作的执行次数为1,可见,更新操作的执行次数未达到第一预设次数、且不等于第四预设次数的正整数倍,即确定不满足第一更新截止条件、且更新操作的执行次数不等于第四预设次数的正整数倍,此时,可以执行步骤107。
又示例地,假设上述第一更新截止条件为更新操作的执行次数达到第一预设次数,且该第一预设次数为8,第四预设次数为2,在步骤105执行更新操作后,更新操作的执行次数为4,可见,更新操作的执行次数未达到第一预设次数、且等于第四预设次数的正整数倍,即确定不满足第一更新截止条件、且更新操作的执行次数等于第四预设次数的正整数倍,此时,可以执行步骤118。
又示例地,假设上述第一更新截止条件为更新操作的执行次数达到第一预设次数,该第一预设次数为8,第四预设次数为2,在步骤105执行更新操作后,更新操作的执行次数为8,可见,更新操作的执行次数达到第一预设次数,即确定满足第一更新截止条件,此时,可以执行步骤108。
在步骤118中,从目标特征子集中筛选出无效特征。
在本公开中,可以通过以下方式来筛选出无效特征:首先,根据当前的目标特征子集构建线性模型(例如,线性回归模型、逻辑回归模型等),根据该线性模型可以获知当前的目标特征子集中各特征的系数,其中,特征的系数越低,该特征是无效特征的概率就越高。在本公开中,无效特征的确定方式可以多种,在一种实施方式中,可以将系数小于预设系数阈值的特征确定为无效特征。
在另一种实施方式中,可以将各特征按照系数从小到大的顺序进行排列,将排名靠前的预设数量阈值的特征确定为无效特征,其中,上述预设数量阈值小于当前的目标特征子集中包含的特征的总数量。
另外,需要说明的是,上述预设系数阈值、预设数量阈值可以是用户设定的值,也可以是默认的经验值,在本公开中不作具体限定。
在步骤119中,确定从目标特征子集中剔除无效特征后所得的特征子集对应的第三评价指标。
在通过上述步骤118从目标特征子集中筛选出无效特征后,可以从目标特征子集中剔除无效特征,得到第四特征子集,之后,确定该第四特征子集对应的第三评价指标。其中,可以采用上述确定第一特征子集对应的第一评价指标相同的方式来确定第四特征子对应的第三评价指标,在本公开中不再赘述。
在步骤120中,判定第三评价指标是否优于第二评价指标。
在本公开中,在通过上述步骤119确定出第三评价指标后,可以先判定第三评价指标是否优于上述第三特征子集对应的第二评价指标。如果第三评价指标优于第二评价指标,可以从当前的目标特征子集中剔除无效特征,以获得新的目标特征子集(即执行以下步骤121);如果第三评价指标不优于第二评价指标,重新进行特征选择,即返回上述步骤102继续执行。
在步骤121中,从目标特征子集中剔除无效特征,以获得新的目标特征子集。
在步骤122中,令更新操作的执行次数加一。
在从目标特征子集中剔除无效特征后,可以令更新操作的执行次数加一,之后,再次判定是否满足第二更新截止条件(即执行以下步骤123)。
在步骤123中,判定是否满足第二更新截止条件。
在本公开中,该第二更新截止条件可以包括更新操作的执行次数达到第一预设次数、或第四特征子集对应的第三评价指标达到第二预设阈值。
在一种实施方式中,上述第二更新截止条件可以为更新操作的执行次数达到第一预设次数。
在另一种实施方式中,上述第二更新截止条件可以为第四特征子集对应的第三评价指标达到第二预设阈值。
在又一种实施方式中,上述第二更新截止条件可以为更新操作的执行次数达到第一预设次数、或第四特征子集对应的第三评价指标达到第二预设阈值。
当确定不满足上述第二更新截止条件时,可以将新的目标特征子集确定为新的第一特征子集,将第三评价指标确定为新的第一评价指标(即执行以下步骤124),之后,重新进行特征选择,即返回上述步骤102继续执行;当确定满足上述第二更新截止条件时,可以将当前的目标特征子集确定为目标模型的目标输入特征(即执行上述步骤108)。
另外,需要说明的是,上述第二预设阈值可以是用户设定的值,也可以是默认的经验值,并且,它可以与上述第一预设阈值相等,也可以不等,在本公开中均不作具体限定。
在步骤124中,将新的目标特征子集确定为新的第一特征子集,将第三评价指标确定为新的第一评价指标。
此外,在上述步骤101和步骤102根据各原始特征的质量指标构建轮盘,基于轮盘机制获取第一特征子集、第二特征子集时,在上述步骤121从目标特征子集中剔除无效特征后,除了令更新操作的执行次数加一外,还可以减小无效特征的质量指标,并更新轮盘,从而可以降低无效特征在轮盘中被选择的概率,进而提升特征选择的效率。具体来说,可以通过图8中所示的步骤101~步骤111、步骤117~步骤121、以及步骤123~步骤125来进行目标输入特征的选择。
在步骤125中,令更新操作的执行次数加一,减小无效特征的质量指标,并更新轮盘。
在本公开中,可以通过以下任一种方式减小无效特征的质量指标:
(1)令无效特征的质量指标减小预设减少阈值,其中,该预设减少阈值小于或等于各无效特征中的最小质量指标;
(2)令无效特征的质量指标减小预设比例,例如减小50%,即减半。
其中,上述预设减少阈值、预设比例可以是用户设定的,也可以是默认的,在本公开中不作具体限定。
另外,需要说明的是,上述第二预设次数、第三预设次数以及第四预设次数可以是用户设定的值,也可以是默认的经验值,在本公开中不作具体限定。
图9是根据一示例性实施例示出的一种特征选择***的结构框图。参照图9,该特征选择***可以包括:多个第一特征选择器1(如图9所示,该多个第一特征选择器1分别为第一特征选择器11、第一特征选择器12、…、第一特征选择器1n,其中,n为大于或等于2的整数)和第二特征选择器2。
其中,上述第一特征选择器1可以用于执行本公开提供的上述特征选择方法的步骤。第二特征选择器2,可以与上述多个第一特征选择器1分别连接,它可以用于:从各第一特征选择器1获取目标模型的目标输入特征,并将各目标输入特征合并后得到的集合确定为第二特选择器2的原始特征集合,之后,根据第二特选择器2的原始特征集合,再次进行特征选择操作。具体来说,在多个第一特征选择器1通过上述特征选择方法获取到各自的目标模型的目标输入特征后,可以将其输入至第二特征选择器2中;第二特征选择器2接收各第一特征选择器1输入的目标输入特征,之后,合并各目标输入特征,并将合并后的目标输入特征作为自身的原始特征集合;接下来,第二特征选择器2可以基于该原始特征集合,按照本公开提供的上述特征选择方法再次进行特征选择,以获得目标模型的目标输入特征。
由于第一特征选择器1在特征选择时具有一定的随机性,其只能在一定范围内寻找到较优的目标输入特征,因此,第一特征选择器1的输出的目标输入特征为局部最优解。所以,我们构建多个第一特征选择器1,选择多个局部最优解,以多个第一特征选择器1的输出结果作为第二特征选择器2的输入,再次进行特征选择,从而可以保证最终获取到的目标输入特征为最优特征子集,并且,很大程度上提高了特征选择结果的稳定性。
另外,第二特征选择器2在确定各原始特征的质量指标时,除了可以采用上述步骤1101和步骤1102中所述的方式外,还可以采用如下方式:
上述第二特征选择器2还可以用于获取第二特选择器的原始特征集合中各原始特征在多个第一选择器中被获取的总次数,即各原始特征在多个第一特征选择器在获取第一特征子集和第二特征子集时被获取到的总次数;然后,将各原始特征在所述多个第一选择器中被获取的总次数确定为该原始特征的质量指标,这样,可以进一步优化最终获取到的目标输入特征。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开提供的上述特征选择方法的步骤。
图10是根据一示例性实施例示出的一种电子设备1000的框图。如图10所示,该电子设备1000可以包括:处理器1001,存储器1002。该电子设备1000还可以包括多媒体组件1003,输入/输出(I/O)接口1004,以及通信组件1005中的一者或多者。
其中,处理器1001用于控制该电子设备1000的整体操作,以完成上述的特征选择方法中的全部或部分步骤。存储器1002用于存储各种类型的数据以支持在该电子设备1000的操作,这些数据例如可以包括用于在该电子设备1000上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1002可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件1003可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1002或通过通信组件1005发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口1004为处理器1001和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1005用于该电子设备1000与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件1005可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备1000可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的特征选择方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的特征选择方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1002,上述程序指令可由电子设备1000的处理器1001执行以完成上述的特征选择方法。
图11是根据一示例性实施例示出的一种电子设备1100的框图。例如,电子设备1100可以被提供为一服务器。参照图11,电子设备1100包括处理器1122,其数量可以为一个或多个,以及存储器1132,用于存储可由处理器1122执行的计算机程序。存储器1132中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1122可以被配置为执行该计算机程序,以执行上述的特征选择方法。
另外,电子设备1100还可以包括电源组件1126和通信组件1150,该电源组件1126可以被配置为执行电子设备1100的电源管理,该通信组件1150可以被配置为实现电子设备1100的通信,例如,有线或无线通信。此外,该电子设备1100还可以包括输入/输出(I/O)接口1158。电子设备1100可以操作基于存储在存储器1132的操作***,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的特征选择方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1132,上述程序指令可由电子设备1100的处理器1122执行以完成上述的特征选择方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种特征选择方法,其特征在于,包括:
获取第一特征子集,并确定所述第一特征子集对应的第一评价指标;
获取第二特征子集和第三特征子集,所述第二特征子集与所述第一特征子集的交集为空,所述第三特征子集为所述第一特征子集与所述第二特征子集的并集;
确定所述第三特征子集对应的第二评价指标;
在所述第二评价指标优于所述第一评价指标的情况下,执行更新操作,所述更新操作包括更新目标特征子集为所述第三特征子集;
在确定满足第一更新截止条件的情况下,将当前的所述目标特征子集确定为目标模型的目标输入特征;
在确定不满足所述第一更新截止条件的情况下,将所述第三特征子集确定为新的第一特征子集,将所述第二评价指标确定为新的第一评价指标,并返回所述获取第二特征子集和第三特征子集的步骤。
2.根据权利要求1所述的方法,其特征在于,所述第一更新截止条件包括:
所述更新操作的执行次数达到第一预设次数;或
所述第二评价指标达到第一预设阈值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述第二评价指标不优于所述第一评价指标的情况下,确定特征选择失败;
在特征选择连续失败次数未达到第二预设次数的情况下,返回所述获取第二特征子集和第三特征子集的步骤;
在所述特征选择连续失败次数达到所述第二预设次数的情况下,执行回退操作以获得新的第一特征子集和对应的新的第一评价指标,当所述回退操作的执行次数未达到第三预设次数时,返回所述获取第二特征子集和第三特征子集的步骤,其中,所述回退操作包括将当前第一特征子集的特征组合状态回退到前次特征组合状态。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当所述回退操作的执行次数达到所述第三预设次数时,将执行所述回退操作后获得的所述新的第一特征子集确定为所述目标输入特征。
5.根据权利要求1所述的方法,其特征在于,所述在确定不满足所述第一更新截止条件的情况下,将所述第三特征子集确定为新的第一特征子集,将所述第二评价指标确定为新的第一评价指标,包括:
在确定不满足所述第一更新截止条件、且所述更新操作的执行次数不等于第四预设次数的正整数倍的情况下,将所述第三特征子集确定为新的第一特征子集,将所述第二评价指标确定为新的第一评价指标;
所述方法还包括:
在确定不满足所述第一更新截止条件、且所述更新操作的执行次数等于所述第四预设次数的正整数倍的情况下,从所述目标特征子集中筛选出无效特征;
确定从所述目标特征子集中剔除所述无效特征后所得的特征子集对应的第三评价指标;
当所述第三评价指标优于所述第二评价指标时,从所述目标特征子集中剔除所述无效特征,以获得新的目标特征子集;
令所述更新操作的执行次数加一;
在确定不满足第二更新截止条件的情况下,将所述新的目标特征子集确定为所述新的第一特征子集,将所述第三评价指标确定为所述新的第一评价指标,并返回所述获取第二特征子集和第三特征子集的步骤。
6.根据权利要求1-4中任一项所述的方法,其特征在于,在所述获取所述第一特征子集的步骤之前,所述方法还包括:
获取原始特征集合;
确定所述原始特征集合中各原始特征的质量指标;
根据所述各原始特征的质量指标,构建轮盘;
所述获取第一特征子集,包括:
根据所述轮盘,通过轮盘机制获取第一特征子集;
所述获取第二特征子集,包括:
根据所述轮盘,通过所述轮盘机制获取第二特征子集。
7.根据权利要求6所述的方法,其特征在于,所述在确定不满足所述第一更新截止条件的情况下,将所述第三特征子集确定为新的第一特征子集,将所述第二评价指标确定为新的第一评价指标,包括:
在确定不满足所述第一更新截止条件、且所述更新操作的执行次数不等于第四预设次数的正整数倍的情况下,将所述第三特征子集确定为新的第一特征子集,将所述第二评价指标确定为新的第一评价指标;
所述方法还包括:
在确定不满足所述第一更新截止条件、且所述更新操作的执行次数等于所述第四预设次数的正整数倍的情况下,从所述目标特征子集中筛选出无效特征;
确定从所述目标特征子集中剔除所述无效特征后所得的特征子集对应的第三评价指标;
当所述第三评价指标优于所述第二评价指标时,从所述目标特征子集中剔除所述无效特征,以获得新的目标特征子集;
令所述更新操作的执行次数加一,减小所述无效特征的所述质量指标,并更新所述轮盘;
在确定不满足第二更新截止条件的情况下,将所述新的目标特征子集确定为所述新的第一特征子集,将所述第三评价指标确定为所述新的第一评价指标,并返回所述获取第二特征子集和第三特征子集的步骤。
8.一种特征选择***,其特征在于,包括:
多个第一特征选择器,其中,所述第一特征选择器用于执行权利要求1-7中任一项所述方法的步骤;
第二特征选择器,与所述多个第一特征选择器分别连接,用于:
从各所述第一特征选择器获取所述目标输入特征,并将各所述目标输入特征合并后得到的集合确定为所述第二特选择器的原始特征集合;
根据所述第二特征选择器的原始特征集合,执行权利要求1-7中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811400762.5A CN109685107A (zh) | 2018-11-22 | 2018-11-22 | 特征选择方法、***、计算机可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811400762.5A CN109685107A (zh) | 2018-11-22 | 2018-11-22 | 特征选择方法、***、计算机可读存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109685107A true CN109685107A (zh) | 2019-04-26 |
Family
ID=66185831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811400762.5A Pending CN109685107A (zh) | 2018-11-22 | 2018-11-22 | 特征选择方法、***、计算机可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109685107A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119783A (zh) * | 2019-05-16 | 2019-08-13 | 联想(北京)有限公司 | 焦炭质量预测方法、装置及计算机设备 |
CN111242310A (zh) * | 2020-01-03 | 2020-06-05 | 腾讯科技(北京)有限公司 | 特征有效性评估方法、装置、电子设备及存储介质 |
CN111626573A (zh) * | 2020-05-11 | 2020-09-04 | 新智数字科技有限公司 | 一种目标数据的确定方法、装置、可读介质及电子设备 |
CN112382342A (zh) * | 2020-11-24 | 2021-02-19 | 山西三友和智慧信息技术股份有限公司 | 一种基于集成特征选择的癌症甲基化数据分类方法 |
CN113297337A (zh) * | 2021-07-27 | 2021-08-24 | 成方金融科技有限公司 | 一种特征维度的选择方法、装置、介质及电子设备 |
CN114268625A (zh) * | 2020-09-14 | 2022-04-01 | 腾讯科技(深圳)有限公司 | 特征选择方法、装置、设备及存储介质 |
-
2018
- 2018-11-22 CN CN201811400762.5A patent/CN109685107A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119783A (zh) * | 2019-05-16 | 2019-08-13 | 联想(北京)有限公司 | 焦炭质量预测方法、装置及计算机设备 |
CN111242310A (zh) * | 2020-01-03 | 2020-06-05 | 腾讯科技(北京)有限公司 | 特征有效性评估方法、装置、电子设备及存储介质 |
CN111242310B (zh) * | 2020-01-03 | 2023-04-18 | 深圳市雅阅科技有限公司 | 特征有效性评估方法、装置、电子设备及存储介质 |
CN111626573A (zh) * | 2020-05-11 | 2020-09-04 | 新智数字科技有限公司 | 一种目标数据的确定方法、装置、可读介质及电子设备 |
CN111626573B (zh) * | 2020-05-11 | 2024-03-01 | 新奥新智科技有限公司 | 一种目标数据的确定方法、装置、可读介质及电子设备 |
CN114268625A (zh) * | 2020-09-14 | 2022-04-01 | 腾讯科技(深圳)有限公司 | 特征选择方法、装置、设备及存储介质 |
CN114268625B (zh) * | 2020-09-14 | 2024-01-02 | 腾讯科技(深圳)有限公司 | 特征选择方法、装置、设备及存储介质 |
CN112382342A (zh) * | 2020-11-24 | 2021-02-19 | 山西三友和智慧信息技术股份有限公司 | 一种基于集成特征选择的癌症甲基化数据分类方法 |
CN113297337A (zh) * | 2021-07-27 | 2021-08-24 | 成方金融科技有限公司 | 一种特征维度的选择方法、装置、介质及电子设备 |
CN113297337B (zh) * | 2021-07-27 | 2021-11-12 | 成方金融科技有限公司 | 一种特征维度的选择方法、装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685107A (zh) | 特征选择方法、***、计算机可读存储介质及电子设备 | |
Zhan et al. | Policy mirror descent for regularized reinforcement learning: A generalized framework with linear convergence | |
CN103294586B (zh) | 对于可替代用户界面模型的用户偏好的自动检测 | |
CN110825884A (zh) | 基于人工智能的嵌入表示处理方法、装置及电子设备 | |
Xiao et al. | Systematically exploring redundancy reduction in summarizing long documents | |
JP5221369B2 (ja) | 資源制約デバイスのための学習装置 | |
CN110033851A (zh) | 信息推荐方法、装置、存储介质及服务器 | |
CN104636130B (zh) | 用于生成事件树的方法和*** | |
CN106471525A (zh) | 增强神经网络以生成附加输出 | |
CN104794501B (zh) | 模式识别方法及装置 | |
CN109740113A (zh) | 超参数阈值范围确定方法、装置、存储介质及电子设备 | |
CN108665055A (zh) | 一种图说生成方法及装置 | |
EP3726435A1 (en) | Deep neural network training method and apparatus, and computer device | |
CN105446742A (zh) | 一种人工智能执行任务的优化方法 | |
Crawford et al. | Dynamic selection of enumeration strategies for solving constraint satisfaction problems | |
CN109800858A (zh) | 数据异常检测方法、装置、可读存储介质及电子设备 | |
CN114548300B (zh) | 解释业务处理模型的业务处理结果的方法和装置 | |
CN114861747A (zh) | 多层网络关键节点的识别方法、装置、设备和存储介质 | |
Gibson et al. | Bayesian analysis of botanical epidemics using stochastic compartmental models | |
CN109657840A (zh) | 决策树生成方法、装置、计算机可读存储介质及电子设备 | |
CN110502432A (zh) | 智能测试方法、装置、设备及可读存储介质 | |
Pei et al. | AlphaSyn: Logic synthesis optimization with efficient monte carlo tree search | |
Yang et al. | Efficient validation of self-adaptive applications by counterexample probability maximization | |
Smith et al. | A learning classifier system with mutual-information-based fitness | |
CN114900435B (zh) | 一种连接关系预测方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190426 |