CN114118246A - 基于沙普利值和假设检验的全相关特征选择方法及装置 - Google Patents

基于沙普利值和假设检验的全相关特征选择方法及装置 Download PDF

Info

Publication number
CN114118246A
CN114118246A CN202111384278.XA CN202111384278A CN114118246A CN 114118246 A CN114118246 A CN 114118246A CN 202111384278 A CN202111384278 A CN 202111384278A CN 114118246 A CN114118246 A CN 114118246A
Authority
CN
China
Prior art keywords
features
feature
importance
global
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111384278.XA
Other languages
English (en)
Inventor
陈丹
殷丁泽
汤云波
李小俚
熊明福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202111384278.XA priority Critical patent/CN114118246A/zh
Publication of CN114118246A publication Critical patent/CN114118246A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于沙普利值和假设检验的全相关特征选择方法及装置。本方法适用于有监督任务的特征集合。设计了一个解决全相关问题的特征选择模型,模型首先利用沙普利归因算法计算特征的局部重要性,其次利用随机特征构建自适应阈值,然后利用重要性和阈值评估出特征的相关性。在选择策略上,本发明设计了双重假设检验,利用局部假设检验快速剔除不相关特征,再利用全局假设检验降低误删相关特征的风险。最后得到与问题域相关的全部特征,既提高了特征集的可解释性,也增强了预测的可靠性。

Description

基于沙普利值和假设检验的全相关特征选择方法及装置
技术领域
本发明涉及特征选择技术领域,尤其涉及一种基于沙普利值和假设检验的全相关特征选择方法及装置。
背景技术
特征选择是特征工程中的重要问题之一,特征选择的任务是从原始特征集中选择出与问题域相关的特征子集。特征选择的目的是提高特征集的可解释性和预测的性能。在以特征数据为中心的场景中解决该问题是至关重要的。目前传统特征选择的研究主要是解决最小最优问题,即选择出具有最优分类性能的最小特征子集。根据特征子集评价标准可以将方法分为过滤式和封装式两种,过滤式方法具体是指将所有特征按照特定的统计值进行排序,根据排序选择特征子集。封装式方法是通过学习算法对候选的特征子集进行评价,并通过多次迭代改变候选特征子集,然后根据分类精度和特征数等评价标准选择最优特征子集。以求解最小最优问题为目标的选择特征方法优势在于得到的特征子集分类效果好,且特征数少,后续建立的模型更为简单。缺点是利用最小最优特征集,得到的往往是一个黑盒子预测模型,难以保证特征集的可解释性。为了更好地理解问题域的潜在知识,特征选择方法更优先要解决的是全相关问题,即确定与问题域相关的全部特征,解决全相关问题还存在以下难点,比如在模型强大的拟合能力下,虚假相关性广泛存在,相关性指标难以定义和评估,再比如难以选择出全部的相关特征,尤其是弱相关特征。
发明内容
本发明的主要目的在于提供一种基于沙普利值和假设检验的全相关特征选择方法及装置,旨在解决不能有效评估特征相关性和不能自适应地识别全部相关特征的问题。
第一方面,本发明提供一种基于沙普利值和假设检验的全相关特征选择方法,所述基于沙普利值和假设检验的全相关特征选择方法包括:
步骤1:相关性评估;
步骤1的输入是由N个样本组成的数据集,记为
Figure BDA0003357241390000021
其中第n个样本的特征向量为x(n)=(x1,...,xM),共M个候选特征,并记特征集合为
Figure BDA0003357241390000022
利用沙普利值对M个候选特征的重要性进行量化,得到局部重要性值
Figure BDA0003357241390000023
和全局重要性GIm
利用随机化特征的全局重要性
Figure BDA0003357241390000024
和自适应系数c得到重要性阈值T;
评估出M个候选特征的局部相关性指标Rm和全局相关性指标GRm
步骤2:选择策略;
步骤2的输入是M个候选特征的局部相关性指标Rm和全局相关性指标GRm
基于M个候选特征的局部相关性指标Rm和全局相关性指标GRm得到相关特征集
Figure BDA0003357241390000025
不相关特征集
Figure BDA0003357241390000026
待定特征集
Figure BDA0003357241390000027
检测不相关特征集
Figure BDA0003357241390000028
是否为空;
若不相关特征集
Figure BDA0003357241390000029
不为空,删除不相关特征集,执行步骤1;
若不相关特征集
Figure BDA00033572413900000210
为空,检测自适应系数c是否为1;
若自适应系数c不为1,使自适应系数c增加0.1,执行步骤1;
若自适应系数c为1,检测待定特征集
Figure BDA00033572413900000211
是否为空;
若待定特征集
Figure BDA00033572413900000212
不为空,执行步骤1;
若待定特征集
Figure BDA00033572413900000213
为空,停止执行步骤1。
可选的,所述利用沙普利值对M个候选特征的重要性进行量化,得到局部重要性值
Figure BDA00033572413900000214
和全局重要性GIm的步骤包括:
确定输入的数据集x={x(n),n=1,...,N},其中第n个样本的特征向量为x(n)=(x1,...,xM),标签为y(n),特征集合为
Figure BDA00033572413900000215
沙普利归因算法表示为
Figure BDA00033572413900000216
使用沙普利归因算法将分类/回归模型f(·)对样本x(n)的输出归因到第m个候选特征的贡献
Figure BDA0003357241390000031
其中
Figure BDA0003357241390000032
为模型输出的均值;
若为分类任务,则
Figure BDA0003357241390000033
Figure BDA0003357241390000034
表示第n个样本的第m个特征对第l类的贡献,此时局部重要性为
Figure BDA0003357241390000035
其中l=y(n)
若为回归任务,则贡献直接表现为一个贡献值
Figure BDA0003357241390000036
此时局部重要性为
Figure BDA0003357241390000037
全局重要性为局部重要性在所有样本上的均值,即全局重要性
Figure BDA0003357241390000038
Figure BDA0003357241390000039
可选的,所述基于沙普利值和假设检验的全相关特征选择方法包括:
自适应阈值表示为
Figure BDA00033572413900000310
其中
Figure BDA00033572413900000311
为随机特征的全局重要性,c为自适应系数。
可选的,所述基于沙普利值和假设检验的全相关特征选择方法包括:
局部相关性为
Figure BDA00033572413900000312
Rm指第m个特征的局部重要性高于自适应阈值的个数,Rm越大,相关性程度越大;
全局相关性为
Figure BDA00033572413900000313
其中MI为最大迭代次数,GRm指迭代过程中第m个特征的全局重要性高于阈值的次数。
可选的,所述基于M个候选特征的局部相关性指标Rm和全局相关性指标GRm得到相关特征集
Figure BDA00033572413900000314
不相关特征集
Figure BDA00033572413900000315
待定特征集
Figure BDA00033572413900000316
的步骤包括:
定义原假设(H0):特征的相关性服从概率为0.5的二项分布,其概率分布函数为F(·);
对局部相关性做假设检验,将落入左右拒绝域的特征集定义为:
Figure BDA00033572413900000317
Figure BDA00033572413900000318
其中α为显著性水平,
Figure BDA00033572413900000319
代表落入左侧拒绝域,落入左侧拒绝域内的特征在局部是不相关特征;
Figure BDA00033572413900000320
代表落入右侧拒绝域,落入右侧拒绝域内的特征在局部是相关特征;
对全局相关性做假设检验,得到两个特征集:
Figure BDA0003357241390000041
Figure BDA0003357241390000042
其中
Figure BDA0003357241390000043
代表落入左侧拒绝域,落入左侧拒绝域内的特征在全局是不相关特征;
Figure BDA0003357241390000044
代表落入右侧拒绝域,落入右侧拒绝域内的特征在全局是相关特征;
根据两次假设检验得到特征集合的划分:
Figure BDA0003357241390000045
Figure BDA0003357241390000046
Figure BDA0003357241390000047
其中
Figure BDA0003357241390000048
为相关特征集合,
Figure BDA0003357241390000049
为不相关特征集,
Figure BDA00033572413900000410
为待定特征。
第二方面,本发明还提供一种基于沙普利值和假设检验的全相关特征选择装置:所述基于沙普利值和假设检验的全相关特征选择装置包括:
评估模块10,用于执行步骤1:相关性评估;
步骤1的输入是由N个样本组成的数据集,记为
Figure BDA00033572413900000411
其中第n个样本的特征向量为x(n)=(x1,...,xM),共M个候选特征,并记特征集合为
Figure BDA00033572413900000412
利用沙普利值对M个候选特征的重要性进行量化,得到局部重要性值
Figure BDA00033572413900000413
和全局重要性GIm
利用随机化特征的全局重要性
Figure BDA00033572413900000414
和自适应系数c得到重要性阈值T;
评估出M个候选特征的局部相关性指标Rm和全局相关性指标GRm
选择模块20,用于执行步骤2:选择策略;
步骤2的输入是M个候选特征的局部相关性指标Rm和全局相关性指标GRm
基于M个候选特征的局部相关性指标Rm和全局相关性指标GRm得到相关特征集
Figure BDA0003357241390000051
不相关特征集
Figure BDA0003357241390000052
待定特征集
Figure BDA0003357241390000053
检测不相关特征集
Figure BDA0003357241390000054
是否为空;
若不相关特征集
Figure BDA0003357241390000055
不为空,删除不相关特征集,执行步骤1;
若不相关特征集
Figure BDA0003357241390000056
为空,检测自适应系数c是否为1;
若自适应系数c不为1,使自适应系数c增加0.1,执行步骤1;
若自适应系数c为1,检测待定特征集
Figure BDA0003357241390000057
是否为空;
若待定特征集
Figure BDA0003357241390000058
不为空,执行步骤1;
若待定特征集
Figure BDA0003357241390000059
为空,停止执行步骤1。
可选的,所述评估模块10还用于:
确定输入的数据集
Figure BDA00033572413900000510
其中第n个样本的特征向量为x(n)=(x1,...,xM),标签为y(n),特征集合为
Figure BDA00033572413900000511
沙普利归因算法表示为
Figure BDA00033572413900000512
使用沙普利归因算法将分类/回归模型f(·)对样本x(n)的输出归因到第m个候选特征的贡献
Figure BDA00033572413900000513
其中
Figure BDA00033572413900000514
为模型输出的均值;
若为分类任务,则
Figure BDA00033572413900000515
Figure BDA00033572413900000516
表示第n个样本的第m个特征对第l类的贡献,此时局部重要性为
Figure BDA00033572413900000517
其中l=y(n)
若为回归任务,则贡献直接表现为一个贡献值
Figure BDA00033572413900000518
此时局部重要性为
Figure BDA00033572413900000519
全局重要性为局部重要性在所有样本上的均值,即全局重要性
Figure BDA00033572413900000520
Figure BDA00033572413900000521
可选的,所述基于沙普利值和假设检验的全相关特征选择装置,其特征在于,自适应阈值表示为
Figure BDA00033572413900000522
其中
Figure BDA00033572413900000523
为随机特征的全局重要性,c为自适应系数。
可选的,所述基于沙普利值和假设检验的全相关特征选择装置,其特征在于,局部相关性为
Figure BDA0003357241390000061
Rm指第m个特征的局部重要性高于自适应阈值的个数,Rm越大,相关性程度越大;
全局相关性为
Figure BDA0003357241390000062
其中MI为最大迭代次数,GRm指迭代过程中第m个特征的全局重要性高于阈值的次数。
可选的,所述选择模块20还用于:
定义原假设(H0):特征的相关性服从概率为0.5的二项分布,其概率分布函数为F(·);
对局部相关性做假设检验,将落入左右拒绝域的特征集定义为:
Figure BDA0003357241390000063
Figure BDA0003357241390000064
其中α为显著性水平,
Figure BDA0003357241390000065
代表落入左侧拒绝域,落入左侧拒绝域内的特征在局部是不相关特征;
Figure BDA0003357241390000066
代表落入右侧拒绝域,落入右侧拒绝域内的特征在局部是相关特征;
对全局相关性做假设检验,得到两个特征集:
Figure BDA0003357241390000067
Figure BDA0003357241390000068
其中
Figure BDA0003357241390000069
代表落入左侧拒绝域,落入左侧拒绝域内的特征在全局是不相关特征;
Figure BDA00033572413900000610
代表落入右侧拒绝域,落入右侧拒绝域内的特征在全局是相关特征;
根据两次假设检验得到特征集合的划分:
Figure BDA00033572413900000611
Figure BDA00033572413900000612
Figure BDA00033572413900000613
其中
Figure BDA00033572413900000614
为相关特征集合,
Figure BDA00033572413900000615
为不相关特征集,
Figure BDA00033572413900000616
为待定特征。
本发明公开了一种基于沙普利值和假设检验的全相关特征选择方法及装置。本方法适用于有监督任务的特征集合。设计了一个解决全相关问题的特征选择模型,模型首先利用沙普利归因算法计算特征的局部重要性,其次利用随机特征构建自适应阈值,然后利用重要性和阈值评估出特征的相关性。在选择策略上,本发明设计了双重假设检验,利用局部假设检验快速剔除不相关特征,再利用全局假设检验降低误删相关特征的风险。最后得到与问题域相关的全部特征,既提高了特征集的可解释性,也增强了预测的可靠性。
附图说明
图1为本发明实施例方案中涉及的基于沙普利值和假设检验的全相关特征选择方法的流程示意图;
图2为本发明实施例方案中涉及的基于沙普利值和假设检验的全相关特征选择装置的第一实施例的功能示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
第一方面,本发明实施例提供了一种基于沙普利值和假设检验的全相关特征选择方法。
参照图1,图1为本发明实施例方案中涉及的基于沙普利值和假设检验的全相关特征选择方法的流程示意图。
如图1所示,基于沙普利值和假设检验的全相关特征选择方法包括:
步骤1:相关性评估;
步骤1的输入是由N个样本组成的数据集,记为
Figure BDA0003357241390000071
其中第n个样本的特征向量为x(n)=(x1,...,xM),共M个候选特征,并记特征集合为
Figure BDA0003357241390000072
利用沙普利值对M个候选特征的重要性进行量化,得到局部重要性值
Figure BDA0003357241390000073
和全局重要性GIm
利用随机化特征的全局重要性
Figure BDA0003357241390000081
和自适应系数c得到重要性阈值T;
评估出M个候选特征的局部相关性指标Rm和全局相关性指标GRm
在本实施例中,本实施例提出的方法适用于有监督任务,需要提供样本数据
Figure BDA0003357241390000082
以及标签y(n),其中x(n)=(x1,...,xM),共有M个特征,即特征集合为
Figure BDA0003357241390000083
随机化特征,将特征集采样做随机化,得到随机特征集
Figure BDA0003357241390000084
Figure BDA0003357241390000085
利用沙普利归因算法计算重要性,得到特征集
Figure BDA0003357241390000086
中每个特征的局部重要性
Figure BDA0003357241390000087
以及全局重要性GIm=E(Im),其中N为样本数。根据随机特征集
Figure BDA0003357241390000088
得到全局重要性
Figure BDA0003357241390000089
步骤2:选择策略;
步骤2的输入是M个候选特征的局部相关性指标Rm和全局相关性指标GRm
基于M个候选特征的局部相关性指标Rm和全局相关性指标GRm得到相关特征集
Figure BDA00033572413900000810
不相关特征集
Figure BDA00033572413900000811
待定特征集
Figure BDA00033572413900000812
检测不相关特征集
Figure BDA00033572413900000813
是否为空;
若不相关特征集
Figure BDA00033572413900000814
不为空,删除不相关特征集,执行步骤1;
若不相关特征集
Figure BDA00033572413900000815
为空,检测自适应系数c是否为1;
若自适应系数c不为1,使自适应系数c增加0.1,执行步骤1;
若自适应系数c为1,检测待定特征集
Figure BDA00033572413900000816
是否为空;
若待定特征集
Figure BDA00033572413900000817
不为空,执行步骤1;
若待定特征集
Figure BDA00033572413900000818
为空,停止执行步骤1。
进一步地,一实施例中,所述利用沙普利值对M个候选特征的重要性进行量化,得到局部重要性值
Figure BDA00033572413900000819
和全局重要性GIm的步骤包括:
确定输入的数据集
Figure BDA00033572413900000820
其中第n个样本的特征向量为x(n)=(x1,...,xM),标签为y(n),特征集合为
Figure BDA0003357241390000091
沙普利归因算法表示为
Figure BDA0003357241390000092
使用沙普利归因算法将分类/回归模型f(·)对样本x(n)的输出归因到第m个候选特征的贡献
Figure BDA0003357241390000093
其中
Figure BDA0003357241390000094
为模型输出的均值;
若为分类任务,则
Figure BDA0003357241390000095
Figure BDA0003357241390000096
表示第n个样本的第m个特征对第l类的贡献,此时局部重要性为
Figure BDA0003357241390000097
其中l=y(n)
若为回归任务,则贡献直接表现为一个贡献值
Figure BDA0003357241390000098
此时局部重要性为
Figure BDA0003357241390000099
全局重要性为局部重要性在所有样本上的均值,即全局重要性
Figure BDA00033572413900000910
Figure BDA00033572413900000911
进一步地,一实施例中,所述基于沙普利值和假设检验的全相关特征选择方法包括:
自适应阈值表示为
Figure BDA00033572413900000912
其中
Figure BDA00033572413900000913
为随机特征的全局重要性,c为自适应系数。
本实施例中,根据自适应系数c和随机特征集
Figure BDA00033572413900000914
的全局重要性GI*计算自适应阈值
Figure BDA00033572413900000915
即GI*的最大值乘以系数c,其中c初始值为0.1,最大值为1。
进一步地,一实施例中,所述基于沙普利值和假设检验的全相关特征选择方法包括:
局部相关性为
Figure BDA00033572413900000916
Rm指第m个特征的局部重要性高于自适应阈值的个数,Rm越大,相关性程度越大;
全局相关性为
Figure BDA00033572413900000917
其中MI为最大迭代次数,GRm指迭代过程中第m个特征的全局重要性高于阈值的次数。
本实施例中,需要评估相关性;局部相关性,将特征的局部重要性Im与阈值T做比较,高于T的次数为该特征的局部相关性,即
Figure BDA00033572413900000918
Figure BDA0003357241390000101
全局相关性,假设已经迭代了MI次,则MI次迭代中全局重要性GIm高于阈值的次数表示为全局相关性,即
Figure BDA0003357241390000102
Figure BDA0003357241390000103
进一步地,一实施例中,所述基于M个候选特征的局部相关性指标Rm和全局相关性指标GRm得到相关特征集
Figure BDA0003357241390000104
不相关特征集
Figure BDA0003357241390000105
待定特征集
Figure BDA0003357241390000106
的步骤包括:
定义原假设(H0):特征的相关性服从概率为0.5的二项分布,其概率分布函数为F(·);
对局部相关性做假设检验,将落入左右拒绝域的特征集定义为:
Figure BDA0003357241390000107
Figure BDA0003357241390000108
其中α为显著性水平,
Figure BDA0003357241390000109
代表落入左侧拒绝域,落入左侧拒绝域内的特征在局部是不相关特征;
Figure BDA00033572413900001010
代表落入右侧拒绝域,落入右侧拒绝域内的特征在局部是相关特征;
对全局相关性做假设检验,得到两个特征集:
Figure BDA00033572413900001011
Figure BDA00033572413900001012
其中
Figure BDA00033572413900001013
代表落入左侧拒绝域,落入左侧拒绝域内的特征在全局是不相关特征;
Figure BDA00033572413900001014
代表落入右侧拒绝域,落入右侧拒绝域内的特征在全局是相关特征;
根据两次假设检验得到特征集合的划分:
Figure BDA00033572413900001015
Figure BDA00033572413900001016
Figure BDA00033572413900001017
其中
Figure BDA00033572413900001018
为相关特征集,
Figure BDA00033572413900001019
为不相关特征集,
Figure BDA00033572413900001020
为待定特征集。
本实施例中,在进行了一次特征选择后,需要用相关特征集
Figure BDA0003357241390000111
代替原有特征集
Figure BDA0003357241390000112
为后续的监督任务做准备。
本发明涉及的实施例公开了一种基于沙普利值和假设检验的全相关特征选择方法及装置。本方法适用于有监督任务的特征集合。设计了一个解决全相关问题的特征选择模型,模型首先利用沙普利归因算法计算特征的局部重要性,其次利用随机特征构建自适应阈值,然后利用重要性和阈值评估出特征的相关性。在选择策略上,本发明涉及的实施例设计了双重假设检验,利用局部假设检验快速剔除不相关特征,再利用全局假设检验降低误删相关特征的风险。最后得到与问题域相关的全部特征,既提高了特征集的可解释性,也增强了预测的可靠性。
第二方面,本发明实施例还提供一种基于沙普利值和假设检验的全相关特征选择装置。
参照图2,图2为本发明实施例方案中涉及的基于沙普利值和假设检验的全相关特征选择装置的第一实施例的功能示意图。
本实施例中,所述基于沙普利值和假设检验的全相关特征选择装置包括:
评估模块,用于执行步骤1:相关性评估;
步骤1的输入是由N个样本组成的数据集,记为
Figure BDA0003357241390000113
其中第n个样本的特征向量为x(n)=(x1,...,xM),共M个候选特征,并记特征集合为
Figure BDA0003357241390000114
利用沙普利值对M个候选特征的重要性进行量化,得到局部重要性值
Figure BDA0003357241390000115
和全局重要性GIm
利用随机化特征的全局重要性
Figure BDA0003357241390000116
和自适应系数c得到重要性阈值T;
评估出M个候选特征的局部相关性指标Rm和全局相关性指标GRm
选择模块,用于执行步骤2:选择策略;
步骤2的输入是M个候选特征的局部相关性指标Rm和全局相关性指标GRm
基于M个候选特征的局部相关性指标Rm和全局相关性指标GRm得到相关特征集
Figure BDA0003357241390000121
不相关特征集
Figure BDA0003357241390000122
待定特征集
Figure BDA0003357241390000123
检测不相关特征集
Figure BDA0003357241390000124
是否为空;
若不相关特征集
Figure BDA0003357241390000125
不为空,删除不相关特征集,执行步骤1;
若不相关特征集
Figure BDA0003357241390000126
为空,检测自适应系数c是否为1;
若自适应系数c不为1,使自适应系数c增加0.1,执行步骤1;
若自适应系数c为1,检测待定特征集
Figure BDA0003357241390000127
是否为空;
若待定特征集
Figure BDA0003357241390000128
不为空,执行步骤1;
若待定特征集
Figure BDA0003357241390000129
为空,停止执行步骤1。
进一步地,一实施例中,所述评估模块还用于:
确定输入的数据集
Figure BDA00033572413900001210
其中第n个样本的特征向量为x(n)=(x1,...,xM),标签为y(n),特征集合为
Figure BDA00033572413900001211
沙普利归因算法表示为
Figure BDA00033572413900001212
使用沙普利归因算法将分类/回归模型f(·)对样本x(n)的输出归因到第m个候选特征的贡献
Figure BDA00033572413900001213
其中
Figure BDA00033572413900001214
为模型输出的均值;
若为分类任务,则
Figure BDA00033572413900001215
Figure BDA00033572413900001216
表示第n个样本的第m个特征对第l类的贡献,此时局部重要性为
Figure BDA00033572413900001217
其中l=y(n)
若为回归任务,则贡献直接表现为一个贡献值
Figure BDA00033572413900001218
此时局部重要性为
Figure BDA00033572413900001219
全局重要性为局部重要性在所有样本上的均值,即全局重要性
Figure BDA00033572413900001220
Figure BDA00033572413900001221
进一步地,一实施例中,所述基于沙普利值和假设检验的全相关特征选择装置,其特征在于,自适应阈值表示为
Figure BDA00033572413900001222
其中
Figure BDA00033572413900001223
为随机特征的全局重要性,c为自适应系数。
进一步地,一实施例中,所述基于沙普利值和假设检验的全相关特征选择装置,其特征在于,局部相关性为
Figure BDA0003357241390000131
Rm指第m个特征的局部重要性高于自适应阈值的个数,Rm越大,相关性程度越大;
全局相关性为
Figure BDA0003357241390000132
其中MI为最大迭代次数,GRm指迭代过程中第m个特征的全局重要性高于阈值的次数。
进一步地,一实施例中,所述选择模块还用于:
定义原假设(H0):特征的相关性服从概率为0.5的二项分布,其概率分布函数为F(·);
对局部相关性做假设检验,将落入左右拒绝域的特征集定义为:
Figure BDA0003357241390000133
Figure BDA0003357241390000134
其中α为显著性水平,
Figure BDA0003357241390000135
代表落入左侧拒绝域,落入左侧拒绝域内的特征在局部是不相关特征;
Figure BDA0003357241390000136
代表落入右侧拒绝域,落入右侧拒绝域内的特征在局部是相关特征;
对全局相关性做假设检验,得到两个特征集:
Figure BDA0003357241390000137
Figure BDA0003357241390000138
其中
Figure BDA0003357241390000139
代表落入左侧拒绝域,落入左侧拒绝域内的特征在全局是不相关特征;
Figure BDA00033572413900001310
代表落入右侧拒绝域,落入右侧拒绝域内的特征在全局是相关特征;
根据两次假设检验得到特征集合的划分:
Figure BDA00033572413900001311
Figure BDA00033572413900001312
Figure BDA00033572413900001313
其中
Figure BDA00033572413900001314
为相关特征集合,
Figure BDA00033572413900001315
为不相关特征集,
Figure BDA00033572413900001316
为待定特征。
其中,上述xx装置中各个模块的功能实现与上述基于沙普利值和假设检验的全相关特征选择方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于沙普利值和假设检验的全相关特征选择方法,其特征在于,所述基于沙普利值和假设检验的全相关特征选择方法包括:
步骤1:相关性评估;
步骤1的输入是由N个样本组成的数据集,记为
Figure FDA0003357241380000011
其中第n个样本的特征向量为x(n)=(x1,...,xM),共M个候选特征,并记特征集合为
Figure FDA0003357241380000012
利用沙普利值对M个候选特征的重要性进行量化,得到局部重要性值
Figure FDA0003357241380000013
和全局重要性GIm
利用随机化特征的全局重要性
Figure FDA0003357241380000014
和自适应系数c得到重要性阈值T;
评估出M个候选特征的局部相关性指标Rm和全局相关性指标GRm
步骤2:选择策略;
步骤2的输入是M个候选特征的局部相关性指标Rm和全局相关性指标GRm
基于M个候选特征的局部相关性指标Rm和全局相关性指标GRm得到相关特征集
Figure FDA0003357241380000015
不相关特征集
Figure FDA0003357241380000016
待定特征集
Figure FDA0003357241380000017
检测不相关特征集
Figure FDA0003357241380000018
是否为空;
若不相关特征集
Figure FDA0003357241380000019
不为空,删除不相关特征集,执行步骤1;
若不相关特征集
Figure FDA00033572413800000110
为空,检测自适应系数c是否为1;
若自适应系数c不为1,使自适应系数c增加0.1,执行步骤1;
若自适应系数c为1,检测待定特征集
Figure FDA00033572413800000111
是否为空;
若待定特征集
Figure FDA00033572413800000112
不为空,执行步骤1;
若待定特征集
Figure FDA00033572413800000113
为空,停止执行步骤1。
2.如权利要求1所述的基于沙普利值和假设检验的全相关特征选择方法,其特征在于,所述利用沙普利值对M个候选特征的重要性进行量化,得到局部重要性值
Figure FDA0003357241380000021
和全局重要性GIm的步骤包括:
确定输入的数据集
Figure FDA0003357241380000022
其中第n个样本的特征向量为x(n)=(x1,...,xM),标签为y(n),特征集合为
Figure FDA0003357241380000023
沙普利归因算法表示为
Figure FDA0003357241380000024
使用沙普利归因算法将分类/回归模型f(·)对样本x(n)的输出归因到第m个候选特征的贡献
Figure FDA0003357241380000025
其中
Figure FDA0003357241380000026
为模型输出的均值;
若为分类任务,则
Figure FDA0003357241380000027
Figure FDA0003357241380000028
表示第n个样本的第m个特征对第l类的贡献,此时局部重要性为
Figure FDA0003357241380000029
其中l=y(n)
若为回归任务,则贡献直接表现为一个贡献值
Figure FDA00033572413800000210
此时局部重要性为
Figure FDA00033572413800000211
全局重要性为局部重要性在所有样本上的均值,即全局重要性
Figure FDA00033572413800000212
Figure FDA00033572413800000213
3.如权利要求2所述的基于沙普利值和假设检验的全相关特征选择方法,其特征在于,所述基于沙普利值和假设检验的全相关特征选择方法包括:
自适应阈值表示为
Figure FDA00033572413800000214
其中
Figure FDA00033572413800000215
为随机特征的全局重要性,c为自适应系数。
4.如权利要求3所述的基于沙普利值和假设检验的全相关特征选择方法,其特征在于,所述基于沙普利值和假设检验的全相关特征选择方法包括:
局部相关性为
Figure FDA00033572413800000216
Rm指第m个特征的局部重要性高于自适应阈值的个数,Rm越大,相关性程度越大;
全局相关性为
Figure FDA00033572413800000217
其中MI为最大迭代次数,GRm指迭代过程中第m个特征的全局重要性高于阈值的次数。
5.如权利要求4所述的基于沙普利值和假设检验的全相关特征选择方法,其特征在于,所述基于M个候选特征的局部相关性指标Rm和全局相关性指标GRm得到相关特征集
Figure FDA0003357241380000031
不相关特征集
Figure FDA0003357241380000032
待定特征集
Figure FDA0003357241380000033
的步骤包括:
定义原假设(H0):特征的相关性服从概率为0.5的二项分布,其概率分布函数为F(·);
对局部相关性做假设检验,将落入左右拒绝域的特征集定义为:
Figure FDA0003357241380000034
Figure FDA0003357241380000035
其中α为显著性水平,
Figure FDA0003357241380000036
代表落入左侧拒绝域,落入左侧拒绝域内的特征在局部是不相关特征;
Figure FDA0003357241380000037
代表落入右侧拒绝域,落入右侧拒绝域内的特征在局部是相关特征;
对全局相关性做假设检验,得到两个特征集:
Figure FDA0003357241380000038
Figure FDA0003357241380000039
其中
Figure FDA00033572413800000310
代表落入左侧拒绝域,落入左侧拒绝域内的特征在全局是不相关特征;
Figure FDA00033572413800000311
代表落入右侧拒绝域,落入右侧拒绝域内的特征在全局是相关特征;
根据两次假设检验得到特征集合的划分:
Figure FDA00033572413800000312
Figure FDA00033572413800000313
Figure FDA00033572413800000314
其中
Figure FDA00033572413800000315
为相关特征集合,
Figure FDA00033572413800000316
为不相关特征集,
Figure FDA00033572413800000317
为待定特征。
6.一种基于沙普利值和假设检验的全相关特征选择装置,其特征在于,所述基于沙普利值和假设检验的全相关特征选择装置包括:
评估模块,用于执行步骤1:相关性评估;
步骤1的输入是由N个样本组成的数据集,记为
Figure FDA0003357241380000041
其中第n个样本的特征向量为x(n)=(x1,...,xM),共M个候选特征,并记特征集合为
Figure FDA0003357241380000042
利用沙普利值对M个候选特征的重要性进行量化,得到局部重要性值
Figure FDA0003357241380000043
和全局重要性GIm
利用随机化特征的全局重要性
Figure FDA0003357241380000044
和自适应系数c得到重要性阈值T;
评估出M个候选特征的局部相关性指标Rm和全局相关性指标GRm
选择模块,用于执行步骤2:选择策略;
步骤2的输入是M个候选特征的局部相关性指标Rm和全局相关性指标GRm
基于M个候选特征的局部相关性指标Rm和全局相关性指标GRm得到相关特征集
Figure FDA0003357241380000045
不相关特征集
Figure FDA0003357241380000046
待定特征集
Figure FDA0003357241380000047
检测不相关特征集
Figure FDA0003357241380000048
是否为空;
若不相关特征集
Figure FDA0003357241380000049
不为空,删除不相关特征集,执行步骤1;
若不相关特征集
Figure FDA00033572413800000410
为空,检测自适应系数c是否为1;
若自适应系数c不为1,使自适应系数c增加0.1,执行步骤1;
若自适应系数c为1,检测待定特征集
Figure FDA00033572413800000411
是否为空;
若待定特征集
Figure FDA00033572413800000412
不为空,执行步骤1;
若待定特征集
Figure FDA00033572413800000413
为空,停止执行步骤1。
7.如权利要求6所述的基于沙普利值和假设检验的全相关特征选择装置,其特征在于,所述评估模块还用于:
确定输入的数据集
Figure FDA00033572413800000414
其中第n个样本的特征向量为x(n)=(x1,...,xM),标签为y(n),特征集合为
Figure FDA00033572413800000415
沙普利归因算法表示为
Figure FDA0003357241380000051
使用沙普利归因算法将分类/回归模型f(·)对样本x(n)的输出归因到第m个候选特征的贡献
Figure FDA0003357241380000052
其中
Figure FDA0003357241380000053
为模型输出的均值;
若为分类任务,则
Figure FDA0003357241380000054
Figure FDA0003357241380000055
表示第n个样本的第m个特征对第l类的贡献,此时局部重要性为
Figure FDA0003357241380000056
其中l=y(n)
若为回归任务,则贡献直接表现为一个贡献值
Figure FDA0003357241380000057
此时局部重要性为
Figure FDA0003357241380000058
全局重要性为局部重要性在所有样本上的均值,即全局重要性
Figure FDA0003357241380000059
Figure FDA00033572413800000510
8.如权利要求7所述的基于沙普利值和假设检验的全相关特征选择装置,其特征在于,自适应阈值表示为
Figure FDA00033572413800000511
其中
Figure FDA00033572413800000512
为随机特征的全局重要性,c为自适应系数。
9.如权利要求8所述的基于沙普利值和假设检验的全相关特征选择装置,其特征在于,局部相关性为
Figure FDA00033572413800000513
Rm指第m个特征的局部重要性高于自适应阈值的个数,Rm越大,相关性程度越大;
全局相关性为
Figure FDA00033572413800000514
其中MI为最大迭代次数,GRm指迭代过程中第m个特征的全局重要性高于阈值的次数。
10.如权利要求9所述的基于沙普利值和假设检验的全相关特征选择装置,其特征在于,所述选择模块还用于:
定义原假设(H0):特征的相关性服从概率为0.5的二项分布,其概率分布函数为F(·);
对局部相关性做假设检验,将落入左右拒绝域的特征集定义为:
Figure FDA0003357241380000061
Figure FDA0003357241380000062
其中α为显著性水平,
Figure FDA0003357241380000063
代表落入左侧拒绝域,落入左侧拒绝域内的特征在局部是不相关特征;
Figure FDA0003357241380000064
代表落入右侧拒绝域,落入右侧拒绝域内的特征在局部是相关特征;
对全局相关性做假设检验,得到两个特征集:
Figure FDA0003357241380000065
Figure FDA0003357241380000066
其中
Figure FDA0003357241380000067
代表落入左侧拒绝域,落入左侧拒绝域内的特征在全局是不相关特征;
Figure FDA0003357241380000068
代表落入右侧拒绝域,落入右侧拒绝域内的特征在全局是相关特征;
根据两次假设检验得到特征集合的划分:
Figure FDA0003357241380000069
Figure FDA00033572413800000610
Figure FDA00033572413800000611
其中
Figure FDA00033572413800000612
为相关特征集合,
Figure FDA00033572413800000613
为不相关特征集,
Figure FDA00033572413800000614
为待定特征。
CN202111384278.XA 2021-11-16 2021-11-16 基于沙普利值和假设检验的全相关特征选择方法及装置 Pending CN114118246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111384278.XA CN114118246A (zh) 2021-11-16 2021-11-16 基于沙普利值和假设检验的全相关特征选择方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111384278.XA CN114118246A (zh) 2021-11-16 2021-11-16 基于沙普利值和假设检验的全相关特征选择方法及装置

Publications (1)

Publication Number Publication Date
CN114118246A true CN114118246A (zh) 2022-03-01

Family

ID=80439074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111384278.XA Pending CN114118246A (zh) 2021-11-16 2021-11-16 基于沙普利值和假设检验的全相关特征选择方法及装置

Country Status (1)

Country Link
CN (1) CN114118246A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114662707A (zh) * 2022-03-31 2022-06-24 国网智能电网研究院有限公司 基于联邦学习的节点激励方法、装置、***及存储介质
CN115953248A (zh) * 2023-03-01 2023-04-11 支付宝(杭州)信息技术有限公司 基于沙普利可加性解释的风控方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110009014A (zh) * 2019-03-24 2019-07-12 北京工业大学 一种融合相关系数与互信息的特征选择方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110009014A (zh) * 2019-03-24 2019-07-12 北京工业大学 一种融合相关系数与互信息的特征选择方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114662707A (zh) * 2022-03-31 2022-06-24 国网智能电网研究院有限公司 基于联邦学习的节点激励方法、装置、***及存储介质
CN115953248A (zh) * 2023-03-01 2023-04-11 支付宝(杭州)信息技术有限公司 基于沙普利可加性解释的风控方法、装置、设备及介质
CN115953248B (zh) * 2023-03-01 2023-05-16 支付宝(杭州)信息技术有限公司 基于沙普利可加性解释的风控方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Russo et al. Controlling bias in adaptive data analysis using information theory
CN109408389B (zh) 一种基于深度学习的代码缺陷检测方法及装置
CN109302410B (zh) 一种内部用户异常行为检测方法、***及计算机存储介质
Nguyen et al. Model selection for degradation modeling and prognosis with health monitoring data
CN114118246A (zh) 基于沙普利值和假设检验的全相关特征选择方法及装置
WO2015095247A1 (en) Matrix factorization for automated malware detection
CN111242358A (zh) 一种双层结构的企业情报流失预测方法
CN111753290A (zh) 软件类型的检测方法及相关设备
CN113723070B (zh) 文本相似度模型训练方法、文本相似度检测方法及装置
CN109766259B (zh) 一种基于复合蜕变关系的分类器测试方法及***
Garćia et al. Noisy data set identification
CN116167010B (zh) 具有智能迁移学习能力的电力***异常事件快速识别方法
Wang et al. Mushroom toxicity recognition based on multigrained cascade forest
CN110111311B (zh) 一种图像质量评价方法和装置
CN117523218A (zh) 标签生成、图像分类模型的训练、图像分类方法及装置
CN113468538A (zh) 一种基于相似性度量的漏洞攻击数据库构建方法
CN111738530B (zh) 河流的水质预测方法、装置以及计算机可读存储介质
CN110808947B (zh) 一种自动化的脆弱性量化评估方法及***
CN115641201B (zh) 数据异常检测方法、***、终端设备及存储介质
CN107067034B (zh) 一种快速识别红外光谱数据分类的方法及***
CN116579980A (zh) 基于小样本学习的印刷电路板缺陷检测方法、介质及设备
Alfaz et al. A deep convolutional neural network based approach to classify and detect crack in concrete surface using xception
CN113190851B (zh) 恶意文档检测模型的主动学习方法、电子设备及存储介质
CN114417977A (zh) 一种基于变压器数据样本扩充的故障诊断方法及***
CN114141298A (zh) 一种磁盘故障检测方法、装置、***及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220301

RJ01 Rejection of invention patent application after publication