CN111339165A - 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法 - Google Patents

一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法 Download PDF

Info

Publication number
CN111339165A
CN111339165A CN202010130947.XA CN202010130947A CN111339165A CN 111339165 A CN111339165 A CN 111339165A CN 202010130947 A CN202010130947 A CN 202010130947A CN 111339165 A CN111339165 A CN 111339165A
Authority
CN
China
Prior art keywords
mscc
feature
outbound
fisher
mobile user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010130947.XA
Other languages
English (en)
Other versions
CN111339165B (zh
Inventor
许国良
张轩
王超
李万林
雒江涛
易燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010130947.XA priority Critical patent/CN111339165B/zh
Publication of CN111339165A publication Critical patent/CN111339165A/zh
Application granted granted Critical
Publication of CN111339165B publication Critical patent/CN111339165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,属于数据挖掘领域。首先利用Fisher准则保留分类能力强的特征,剔除不相关特征和弱相关特征。其次融合最大信息系数MIC和对称不确定性SU两种度量方法,设计相关性度量标准MSCC,利用MSCC标准进一步剔除不相关特征。最后结合MSCC度量标准,利用近似Markov‑Blanket判断条件剔除Fisher候选特征集中的冗余特征,最终获得维度规模较小的最优特征子集。本发明能够有效的对移动用户的出境特征进行选择,提高模型的分类准确率。

Description

一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选 择方法
技术领域
本发明属于数据挖掘技术领域,涉及一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法。
背景技术
移动互联网时代的到来,移动上网用户规模不断增大,人们的生活和工作方式与之前大有不同,移动设备的高普及率带来移动数据的爆发式增长。移动数据具有数据采样全面、实时性好等优点,在趋势性分析和***挖掘领域相当具有权威性,为行业用户挖掘提供良好的便利条件。
特征选择是机器学习、数据挖掘关键的数据预处理步骤,是从原始特征中筛选最有效特征以降低数据集特征维度的过程,更是提高模型性能的重要手段。特征选择主要包括产生过程,评价函数,停止准则,验证过程四个部分。特征选择算法分为过滤式特征选择、包裹式特征选择、嵌入式特征选择三类。过滤式特征选择主要利用特征发散性或与类别的相关性对特征打分,设定阈值,筛选出最佳特征。包裹式特征选择主要利用评价函数,每次剔除或选择若干特征,直到选择最佳特征。嵌入式特征选择主要利用机器学习算法自身在模型训练过程中,实现特征的重要性排序,从而筛选最佳特征。
移动数据中一般包含高维度的特征,且为非线性数据,在样本数量有限情况下,如果使用大量的特征来设计分类器,计算开销大、分类性能差且容易出现过拟合。而上述方法存在容易陷入局部最优、容易删除有用特征等不足。
发明内容
有鉴于此,本发明的目的在于提供一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,用于提高数据的挖掘效率和模型准确性,进一步实现降维,对于移动数据的挖掘研究具有很好的意义。
为达到上述目的,本发明提供如下技术方案:
一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,首先利用Fisher准则保留分类能力强的特征,剔除不相关特征和弱相关特征。其次融合最大信息系数MIC和对称不确定性SU两种度量方法,设计相关性度量标准MSCC,利用MSCC标准进一步剔除不相关特征。再次,结合MSCC度量标准,利用近似Markov-Blanket判断条件剔除Fisher候选特征集中的冗余特征,最终获得维度规模较小的最优特征子集,同时保持较高的模型分类准确率。该方法具体包括以下步骤:
S1:获取移动用户样本的上网、通话、轨迹和属性数据,对用户样本进行打标,构建训练集和测试集;
S2:利用提供出境服务的APP、电话、机构位置基站信息提取用户样本的出境特征,对特征集归一化处理;
S3:根据Fisher分剔除出境特征集中不相关的特征,获得Fisher候选特征集;
S4:设计相关性度量标准MSCC,剔除Fisher候选特征集中不相关的特征,获得MSCC候选特征集;
S5:利用近似Markov-Blanket剔除MSCC候选特征集中的冗余特征,获得最优出境特征子集;
S6:利用集成学习思想构建分类模型,完成待测样本的分类。
进一步,所述步骤S1中,移动用户样本数据为电信运营商提供的B域数据和O域数据。
进一步,所述步骤S2中,出境特征提取的方法包括:
S21:撷取提供出境服务的APP数据,以域名、关键词为关联条件与移动用户上网数据进行关联匹配,得到移动用户的上网特征G={x1,x2,…,xg};
S22:采集提供出境服务的通话端口数据,以对端号码、城市电话区号为关联条件与移动用户通话数据进行关联匹配,得到移动用户的通话特征T={x1,x2,…,xt};
S23:采集提供出境服务的机构位置基站数据,以地区区域码和基站编码为关联条件与移动用户轨迹数据进行关联匹配,得到移动用户的出行特征V={x1,x2,…,xv};
S24:过滤移动用户属性数据中无关维度,得到移动用户的静态特征U={x1,x2,…,xu}。
进一步,所述步骤S3中,获得Fisher候选特征集的方法包括:
S31:计算第s个特征的正样本、负样本和全部样本的均值向量,计算公式为:
Figure BDA0002395758950000021
Figure BDA0002395758950000022
其中,m1,s、m2,s
Figure BDA0002395758950000023
分别为第s个出境特征的正、负样本和全部样本的均值,N1、N2和N分别为第s个出境特征的正、负样本和全部样本的个数,X1、X2和X分别为第s个出境特征的正负样本和全部样本的集合;
S32:计算第s个出境特征变量的类内离散度Sw,s,即同类样本间的距离,计算公式为:
Figure BDA0002395758950000031
其中,δ1,s 2、δ2,s 2分别为第s个出境特征变量的正、负样本的方差;
S33:计算第s个出境特征变量的类间离散度Sb,s,即不同类样本间的距离,计算公式为:
Figure BDA0002395758950000032
S34:计算第s个出境特征的Fisher分值Fk,s,计算公式为:
Figure BDA0002395758950000033
S35:按Fisher分值大小对各出境特征进行降序排列,设定阈值K1,保留Fisher分值大于K1的出境特征,得到Fisher候选特征集。
进一步,所述步骤S4中,获得MSCC候选特征集方法包括:
S41:计算出境特征变量X与标签变量Y的互信息值I[X;Y],计算公式为:
Figure BDA0002395758950000034
其中,p(x)和p(y)分别为变量X,Y的概率密度函数,p(x,y)为变量X,Y的联合概率密度分布函数;
S42:将得到的最大互信息值I[X;Y]除以log2(min(X,Y)),进行归一化处理;
S43:在不同的网格尺度下,比较归一化后的最大互信息值,将最大的互信息值作为MIC值,计算公式为:
Figure BDA0002395758950000035
其中,B取数据总量的0.55或0.6次方;
S44:计算出境特征变量X的信息熵H(X),计算公式为:
Figure BDA0002395758950000036
其中,n为变量X的不同取值的数量;
S45:计算标签变量Y的信息熵H(Y),计算公式为:
Figure BDA0002395758950000041
其中,m为变量Y的不同取值的数量;
S46:计算出境特征变量X和标签变量Y的条件熵H(X|Y),计算公式为:
Figure BDA0002395758950000042
S47:计算标签变量Y的信息增益IG(X|Y),计算公式为:
IG(X|Y)=H(X)-H(X|Y)
S48:计算出境特征变量X的对称不确定性SU(X,Y),计算公式为:
Figure BDA0002395758950000043
S49:定义相关性度量系数MSCC,计算公式为:
Figure BDA0002395758950000044
其中,MIC和SU的取值范围均在0与1之间,所以MSCC的取值范围仍在0与1之间,MSCC取值越接近与1,表示出境特征变量X与标签变量Y的相关性越强;
S410:计算Fisher候选特征集中的各出境特征的MSCC值,设定阈值K2,剔除小于K2的特征,并对剩余的特征降序排列,得到MSCC候选特征集。
进一步,所述步骤S5中,获得最优出境特征子集的方法包括:
S51:初始化特征集合
Figure BDA0002395758950000045
S52:将MSCC候选特征集赋给特征集合F;
S53:选择F中MSCC值最大的特征x*作为主特征;
S54:更新特征集合:F=F-x*,F*=F*+x*
S55:对于F中所有特征x,依次计算出境特征x与x*的MSCC(x,x*)、出境特征x与标签Y的MSCC(x,Y),当MSCC(x,x*)>MSCC(x,Y),证明该特征为冗余特征,从F中剔除该特征;
S56:当
Figure BDA0002395758950000046
时,重复步骤S53~S55;
S57:当
Figure BDA0002395758950000047
时,输出最优出境特征子集F*
进一步,所述步骤S5中,近似Markov-Blanket的判断条件为:
MSCC(xi,Y)>MSCC(xj,Y)并且MSCC(xi,xj)>MSCC(xj,Y)
其中,xi和xj为两个不同的特征,Y为标签变量,满足上述公式,则xi是xj的Markov-Blanket。
进一步,所述步骤S6中,分类模型的构建方法包括:
S61:分类模型设计为两层结构,第一层分别采用KNN、LightGBM、逻辑回归、AdaBoost算法构建基分类器,第二层采用随机森林算法构建次级分类器;
S62:采用交叉验证的方式,四个基分类器分别对最优特征集合进行学习和预测,最终得到基分类器对训练集的预测结果T1,对测试集的预测结果T2
S63:将T1作为训练集,T2作为测试集,然后输入次级分类器中进行学习和预测,得到最终的预测结果。
本发明的有益效果在于:本发明利用Fisher规则剔除不相关和弱相关特征,利用融合最大信息系数MIC和对称不确定性SU两种方法的相关性度量标准MSCC进一步剔除不相关特征,利用近似Markov-Blanket判断条件剔除冗余特征,最终获得维度规模较小的最优特征子集,同时保持较高的模型分类准确率。相较于一般的特征选择方法,能够显著提高数据的挖掘效率和模型准确性,进一步实现降维,对于移动数据的挖掘研究具有很好的意义
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述移动用户出境特征选择方法的流程图;
图2为实施例中出境特征的关联匹配规则示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图2,为本发明优选的一种基于Fisher分和近似Markov-Blanket的移动用户出境特征选择算法,其流程如图1所示,包括:
S1:获取移动用户样本的上网、通话、轨迹和属性数据,对用户样本进行打标,构建训练集和测试集。
其中,移动数据为电信运营商的B域数据和O域数据;B域为业务域,主要有用户数据和业务数据;O域为运营域,主要有网络数据。本实施例使用B域中的用户数据和终端信息、消费信息等业务数据以及O域中的信令位置数据。样本标签为0和1。
S2:利用提供出境服务的APP、电话、机构位置基站信息提取用户样本的出境特征,对特征集归一化处理,具体包括以下步骤:
S21:出境特征提取,包括:1)撷取提供出境服务的APP数据,以域名、关键词为关联条件与移动用户上网数据进行关联匹配,得到移动用户的上网特征;2)采集提供出境服务的通话端口数据,以对端号码、城市电话区号为关联条件与移动用户通话数据进行关联匹配,得到移动用户的通话特征;3)采集提供出境服务的机构位置基站数据,以地区区域码和基站编码为关联条件与移动用户轨迹数据进行关联匹配,得到移动用户的出行特征;4)过滤移动用户属性数据中无关维度,得到移动用户的静态特征。出境特征的关联匹配规则如图2所示,所有的出境特征集合如表1所示:
表1出境特征
Figure BDA0002395758950000061
S22:特征归一化处理,归一化公式为:
x*=(x-xmin)(xmax-xmin)
其中,变量x为处理前的数据,x*为标准后的数据,xmin和xmax分别为变量x的最小值和最大值。
S3:根据Fisher分剔除出境特征集中不相关的特征,获得Fisher候选特征集,具体包括以下步骤:
S31:分别计算第s个特征的正负样本和全部样本的均值m1,s、m2,s
Figure BDA0002395758950000062
分别计算第s个特征变量的类间离散度Sb,s和类内离散度Sw,s,以及正负样本方差δ1,s 2、δ2,s 2,Sb,s与Sw,s做除即得第s个特征变量的Fisher分,Fisher分计算公式如下:
Figure BDA0002395758950000071
Figure BDA0002395758950000072
Figure BDA0002395758950000073
Figure BDA0002395758950000074
Figure BDA0002395758950000075
其中,N1、N2和N分别为第s个特征变量的正负样本和全部样本的个数,X1、X2和X分别为第s个特征变量的正负样本和全部样本的集合;
S32:按特征变量的Fisher分值大小进行降序排序,设定阈值K1,保留Fisher分值大于K1的特征,得到Fisher候选特征集。
S4:设计相关性度量标准MSCC,剔除Fisher候选特征集中不相关的特征,获得MSCC候选特征集,具体包括以下步骤:
S41:计算MSCC:
首先,计算特征的MIC值:将随机变量x,y化成散点图分布在二维空间中,使用k×s的网格来分割数据空间,将落在第x行的数据点频率作为p(x)估计,将落在第y列的数据点频率作为p(y)估计,将落在(x,y)格子中的数据点频率作为p(x,y)的估计。然后计算随机变量x、y的互信息值I[X;Y],求得x、y的最大互信息值Imax[X;Y],然后利用归一化方法,将最大互信息值缩放到(0,1)区间,最后求得不同尺度下互信息的最大值,将其作为MIC值,MIC计算公式为:
Figure BDA0002395758950000076
Figure BDA0002395758950000077
其中,B取数据总量的0.55或0.6次方,log2(min(|X|,|Y|))为归一化因子。
其次,计算特征的SU值:分别计算特征变量X的信息熵H(X)、类别变量Y的信息熵H(Y)、特征变量X和类别变量Y的条件熵H(X|Y),由此得出类别变量Y的信息增益IG(X|Y),最后可得特征变量X的对称不确定性SU(X,Y),SU(X,Y)的计算公式为:
Figure BDA0002395758950000081
Figure BDA0002395758950000082
Figure BDA0002395758950000083
IG(X|Y)=H(X)-H(X|Y)
Figure BDA0002395758950000084
其中,p(x)和p(y)分别为变量X,Y的概率密度函数,n、m分别为变量X、Y不同取值的数量。
再次,计算特征的MSCC值:对特征的MIC值和SU值进行加权求和,两个度量标准的权重各为0.5,MSCC计算公式为:
Figure BDA0002395758950000085
其中,MIC和SU的取值范围均在0与1之间,所以MSCC的取值范围仍在0与1之间,MSCC取值越接近与1,表示特征变量X与类别变量Y的相关性越强。
S42、获取MSCC候选特征集:按特征变量的MSCC值大小进行降序排序,设定阈值K3,保留MSCC值大于K3的特征,得到MSCC候选特征集。
S5:利用近似Markov-Blanket剔除MSCC候选特征集中的冗余特征,获得最优出境特征子集F*=(G∪T∪V∪S)best。其中,最优特征子集F*=(G∪T∪V∪S)best获取步骤为:
输入:MSCC候选特征集={x1,x2,…,xs}
输出:最优特征子集F*
S51:初始化特征集合
Figure BDA0002395758950000086
S52:将MSCC候选特征集赋给特征集合F;
S53:选择F中MSCC值最大的特征x*作为主特征;
S54:更新特征集合:F=F-x*,F*=F*+x*
S55:对于F中所有特征x,依次计算特征x与x*的MSCC(x,x*)、特征x与类别Y的MSCC(x,Y)。当MSCC(x,x*)>MSCC(x,Y),证明该特征为冗余特征,从F中剔除该特征;
S56:当
Figure BDA0002395758950000087
时,跳转至S53;否则跳转至S57;
S57:输出最优特征子集F*,迭代结束。
S6:利用集成学习思想构建分类模型,完成待测样本的分类,具体包括:
S61:分类模型设计为两层结构,第一层采用KNN、LightGBM、逻辑回归、AdaBoost算法构建基分类器,第二层采用随机森林构建次级分类器;
S62:将总样本分为两个集合,总样本的80%作为训练集train,20%作为测试集test。将train按5折交叉验证平均分成5份,其中4份作为训练集train1,1份作为测试集test1;
S63:循环5次对每个初级分类器进行训练得到测试结果Tn,将4个分类器的测试结果进行拼接转置得到T=[T1,T2,T2,T4];4个初级分类器分别对test进行预测,将预测结果进行简单平均得到预测结果Pn,将预测结果进行拼接转置得P=[P1,P2,P2,P4];
S64:将初级分类器得到的集合T作为训练集,输入次级分类器进行训练,将集合P作为测试集,最终待测样本的分类。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,该方法包括以下步骤:
S1:获取移动用户样本的上网、通话、轨迹和属性数据,对用户样本进行打标,构建训练集和测试集;
S2:利用提供出境服务的APP、电话、机构位置基站信息提取用户样本的出境特征,对特征集归一化处理;
S3:根据Fisher分剔除出境特征集中不相关的特征,获得Fisher候选特征集;
S4:设计相关性度量标准MSCC,剔除Fisher候选特征集中不相关的特征,获得MSCC候选特征集;
S5:利用近似Markov-Blanket剔除MSCC候选特征集中的冗余特征,获得最优出境特征子集;
S6:利用集成学习思想构建分类模型,完成待测样本的分类。
2.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S1中,移动用户样本数据为电信运营商提供的B域数据和O域数据。
3.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S2中,出境特征提取的方法包括:
S21:撷取提供出境服务的APP数据,以域名、关键词为关联条件与移动用户上网数据进行关联匹配,得到移动用户的上网特征G={x1,x2,…,xg};
S22:采集提供出境服务的通话端口数据,以对端号码、城市电话区号为关联条件与移动用户通话数据进行关联匹配,得到移动用户的通话特征T={x1,x2,…,xt};
S23:采集提供出境服务的机构位置基站数据,以地区区域码和基站编码为关联条件与移动用户轨迹数据进行关联匹配,得到移动用户的出行特征V={x1,x2,…,xv};
S24:过滤移动用户属性数据中无关维度,得到移动用户的静态特征U={x1,x2,…,xu}。
4.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S3中,获得Fisher候选特征集的方法包括:
S31:计算第s个特征的正样本、负样本和全部样本的均值向量,计算公式为:
Figure FDA0002395758940000011
Figure FDA0002395758940000021
其中,m1,s、m2,s
Figure FDA0002395758940000022
分别为第s个出境特征的正、负样本和全部样本的均值,N1、N2和N分别为第s个出境特征的正、负样本和全部样本的个数,X1、X2和X分别为第s个出境特征的正负样本和全部样本的集合;
S32:计算第s个出境特征变量的类内离散度Sw,s,即同类样本间的距离,计算公式为:
Figure FDA0002395758940000023
其中,δ1,s 2、δ2,s 2分别为第s个出境特征变量的正、负样本的方差;
S33:计算第s个出境特征变量的类间离散度Sb,s,即不同类样本间的距离,计算公式为:
Figure FDA0002395758940000024
S34:计算第s个出境特征的Fisher分值Fk,s,计算公式为:
Figure FDA0002395758940000025
S35:按Fisher分值大小对各出境特征进行降序排列,设定阈值K1,保留Fisher分值大于K1的出境特征,得到Fisher候选特征集。
5.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S4中,获得MSCC候选特征集方法包括:
S41:计算出境特征变量X与标签变量Y的互信息值I[X;Y],计算公式为:
Figure FDA0002395758940000026
其中,p(x)和p(y)分别为变量X,Y的概率密度函数,p(x,y)为变量X,Y的联合概率密度分布函数;
S42:将得到的最大互信息值I[X;Y]除以log2(min(X,Y)),进行归一化处理;
S43:在不同的网格尺度下,比较归一化后的最大互信息值,将最大的互信息值作为MIC值,计算公式为:
Figure FDA0002395758940000027
其中,B取数据总量的0.55或0.6次方;
S44:计算出境特征变量X的信息熵H(X),计算公式为:
Figure FDA0002395758940000031
其中,n为变量X的不同取值的数量;
S45:计算标签变量Y的信息熵H(Y),计算公式为:
Figure FDA0002395758940000032
其中,m为变量Y的不同取值的数量;
S46:计算出境特征变量X和标签变量Y的条件熵H(X|Y),计算公式为:
Figure FDA0002395758940000033
S47:计算标签变量Y的信息增益IG(X|Y),计算公式为:
IG(X|Y)=H(X)-H(X|Y)
S48:计算出境特征变量X的对称不确定性SU(X,Y),计算公式为:
Figure FDA0002395758940000034
S49:定义相关性度量系数MSCC,计算公式为:
Figure FDA0002395758940000035
S410:计算Fisher候选特征集中的各出境特征的MSCC值,设定阈值K2,剔除小于K2的特征,并对剩余的特征降序排列,得到MSCC候选特征集。
6.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S5中,获得最优出境特征子集的方法包括:
S51:初始化特征集合
Figure FDA0002395758940000036
S52:将MSCC候选特征集赋给特征集合F;
S53:选择F中MSCC值最大的特征x*作为主特征;
S54:更新特征集合:F=F-x*,F*=F*+x*
S55:对于F中所有特征x,依次计算出境特征x与x*的MSCC(x,x*)、出境特征x与标签Y的MSCC(x,Y),当MSCC(x,x*)>MSCC(x,Y),从F中剔除该特征;
S56:当
Figure FDA0002395758940000037
时,重复步骤S53~S55;
S57:当
Figure FDA0002395758940000038
时,输出最优出境特征子集F*
7.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S5中,近似Markov-Blanket的判断条件为:
MSCC(xi,Y)>MSCC(xj,Y)并且MSCC(xi,xj)>MSCC(xj,Y)
其中,xi和xj为两个不同的特征,Y为标签变量,满足上述公式,则xi是xj的Markov-Blanket。
8.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S6中,分类模型的构建方法包括:
S61:分类模型设计为两层结构,第一层分别采用KNN、LightGBM、逻辑回归、AdaBoost算法构建基分类器,第二层采用随机森林算法构建次级分类器;
S62:采用交叉验证的方式,四个基分类器分别对最优特征集合进行学习和预测,最终得到基分类器对训练集的预测结果T1,对测试集的预测结果T2
S63:将T1作为训练集,T2作为测试集,然后输入次级分类器中进行学习和预测,得到最终的预测结果。
CN202010130947.XA 2020-02-28 2020-02-28 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法 Active CN111339165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010130947.XA CN111339165B (zh) 2020-02-28 2020-02-28 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010130947.XA CN111339165B (zh) 2020-02-28 2020-02-28 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法

Publications (2)

Publication Number Publication Date
CN111339165A true CN111339165A (zh) 2020-06-26
CN111339165B CN111339165B (zh) 2022-06-03

Family

ID=71184244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010130947.XA Active CN111339165B (zh) 2020-02-28 2020-02-28 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法

Country Status (1)

Country Link
CN (1) CN111339165B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860894A (zh) * 2020-07-29 2020-10-30 宁波大学 斜拉桥病害属性选择方法
CN112348168A (zh) * 2020-10-27 2021-02-09 国网四川省电力公司经济技术研究院 考虑数据缺失和特征冗余的超短期负荷预测方法及***
CN113469252A (zh) * 2021-07-02 2021-10-01 河海大学 一种考虑不平衡样本的特高压换流阀运行状态评估方法
CN116579842A (zh) * 2023-07-13 2023-08-11 南开大学 基于用户行为数据的信用数据分析方法及***
CN117421565A (zh) * 2023-12-18 2024-01-19 中国人民解放军国防科技大学 基于马尔可夫毯的装备评估方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156231A1 (en) * 2012-11-30 2014-06-05 Xerox Corporation Probabilistic relational data analysis
CN105205349A (zh) * 2015-08-25 2015-12-30 合肥工业大学 马尔科夫毯嵌入式的基于封装的特征选择方法
CN105868583A (zh) * 2016-04-06 2016-08-17 东北师范大学 一种基于序列使用代价敏感集成和聚类预测表位的方法
CN106991446A (zh) * 2017-04-06 2017-07-28 哈尔滨理工大学 一种互信息的组策略嵌入式动态特征选择方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156231A1 (en) * 2012-11-30 2014-06-05 Xerox Corporation Probabilistic relational data analysis
CN105205349A (zh) * 2015-08-25 2015-12-30 合肥工业大学 马尔科夫毯嵌入式的基于封装的特征选择方法
CN105868583A (zh) * 2016-04-06 2016-08-17 东北师范大学 一种基于序列使用代价敏感集成和聚类预测表位的方法
CN106991446A (zh) * 2017-04-06 2017-07-28 哈尔滨理工大学 一种互信息的组策略嵌入式动态特征选择方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YU L, LIU H: "Efficient feature selection", 《JOURNAL OF MACHINE LEARNING RESEARCH》, 15 May 2004 (2004-05-15), pages 1205 - 1224 *
张俐,王枞: "基于最大相关最小冗余联合互", 《通信学报》, vol. 39, no. 05, 25 May 2018 (2018-05-25), pages 111 - 122 *
潘锋: "特征提取与特征选择技术研究", 《中国博士学位论文全文数据库(信息科技辑)》, no. 10, 15 October 2013 (2013-10-15), pages 138 - 57 *
顾秋实 等: "基于手机信令数据的南京市旅游客源地网络层级结构及区域分异研究", 《地理科学》, vol. 39, no. 11, 29 November 2019 (2019-11-29), pages 1739 - 1748 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860894A (zh) * 2020-07-29 2020-10-30 宁波大学 斜拉桥病害属性选择方法
CN111860894B (zh) * 2020-07-29 2024-01-09 宁波大学 斜拉桥病害属性选择方法
CN112348168A (zh) * 2020-10-27 2021-02-09 国网四川省电力公司经济技术研究院 考虑数据缺失和特征冗余的超短期负荷预测方法及***
CN112348168B (zh) * 2020-10-27 2023-04-07 国网四川省电力公司经济技术研究院 考虑数据缺失和特征冗余的超短期负荷预测方法及***
CN113469252A (zh) * 2021-07-02 2021-10-01 河海大学 一种考虑不平衡样本的特高压换流阀运行状态评估方法
CN116579842A (zh) * 2023-07-13 2023-08-11 南开大学 基于用户行为数据的信用数据分析方法及***
CN116579842B (zh) * 2023-07-13 2023-10-03 南开大学 基于用户行为数据的信用数据分析方法及***
CN117421565A (zh) * 2023-12-18 2024-01-19 中国人民解放军国防科技大学 基于马尔可夫毯的装备评估方法、装置和计算机设备
CN117421565B (zh) * 2023-12-18 2024-03-12 中国人民解放军国防科技大学 基于马尔可夫毯的装备评估方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111339165B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN111339165B (zh) 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法
Salimi et al. Visual-based trash detection and classification system for smart trash bin robot
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
KR20040037180A (ko) 학습 모델 부분들을 사용하는 안면 인식 시스템 및 방법
CN109165608A (zh) 多视角微表情识别方法、装置、存储介质和计算机设备
CN110096575B (zh) 面向微博用户的心理画像方法
CN108038208B (zh) 上下文信息识别模型的训练方法、装置和存储介质
CN106791579A (zh) 一种视频会议质量的处理方法及***
CN110610193A (zh) 标注数据的处理方法及装置
CN109903053B (zh) 一种基于传感器数据进行行为识别的反欺诈方法
WO2020135642A1 (zh) 一种基于生成对抗网络的模型训练方法及设备
CN111325237B (zh) 一种基于注意力交互机制的图像识别方法
CN112926045B (zh) 一种基于逻辑回归模型的群控设备识别方法
CN112950445B (zh) 图像隐写分析中基于补偿的检测特征选择方法
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
CN111931616A (zh) 基于移动智能终端传感器设备的情绪识别方法及***
CN107944363A (zh) 人脸图像处理方法、***及服务器
CN112541010B (zh) 一种基于逻辑回归的用户性别预测方法
CN106709824B (zh) 一种基于网络文本语义分析的建筑评价方法
CN108960282A (zh) 一种基于半监督学习的在线服务信誉度量方法
Wu et al. Can feature-based inductive transfer learning help person re-identification?
Zhang et al. Multi-weather classification using evolutionary algorithm on efficientnet
CN116012877A (zh) 一种基于注意力机制的毫米波雷达3d点云人体姿态识别方法
CN115762530A (zh) 声纹模型训练方法、装置、计算机设备和存储介质
De Sabbata et al. Deep learning geodemographics with autoencoders and geographic convolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant