CN111339165A

CN111339165A - 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法

Info

Publication number: CN111339165A
Application number: CN202010130947.XA
Authority: CN
Inventors: 许国良; 张轩; 王超; 李万林; 雒江涛; 易燕
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-26
Anticipated expiration: 2040-02-28
Also published as: CN111339165B

Abstract

本发明涉及一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法，属于数据挖掘领域。首先利用Fisher准则保留分类能力强的特征，剔除不相关特征和弱相关特征。其次融合最大信息系数MIC和对称不确定性SU两种度量方法，设计相关性度量标准MSCC，利用MSCC标准进一步剔除不相关特征。最后结合MSCC度量标准，利用近似Markov‑Blanket判断条件剔除Fisher候选特征集中的冗余特征，最终获得维度规模较小的最优特征子集。本发明能够有效的对移动用户的出境特征进行选择，提高模型的分类准确率。

Description

一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法

技术领域

本发明属于数据挖掘技术领域，涉及一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法。

背景技术

移动互联网时代的到来，移动上网用户规模不断增大，人们的生活和工作方式与之前大有不同，移动设备的高普及率带来移动数据的爆发式增长。移动数据具有数据采样全面、实时性好等优点，在趋势性分析和***挖掘领域相当具有权威性，为行业用户挖掘提供良好的便利条件。

特征选择是机器学习、数据挖掘关键的数据预处理步骤，是从原始特征中筛选最有效特征以降低数据集特征维度的过程，更是提高模型性能的重要手段。特征选择主要包括产生过程，评价函数，停止准则，验证过程四个部分。特征选择算法分为过滤式特征选择、包裹式特征选择、嵌入式特征选择三类。过滤式特征选择主要利用特征发散性或与类别的相关性对特征打分，设定阈值，筛选出最佳特征。包裹式特征选择主要利用评价函数，每次剔除或选择若干特征，直到选择最佳特征。嵌入式特征选择主要利用机器学习算法自身在模型训练过程中，实现特征的重要性排序，从而筛选最佳特征。

移动数据中一般包含高维度的特征，且为非线性数据，在样本数量有限情况下，如果使用大量的特征来设计分类器，计算开销大、分类性能差且容易出现过拟合。而上述方法存在容易陷入局部最优、容易删除有用特征等不足。

发明内容

有鉴于此，本发明的目的在于提供一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法，用于提高数据的挖掘效率和模型准确性，进一步实现降维，对于移动数据的挖掘研究具有很好的意义。

为达到上述目的，本发明提供如下技术方案：

一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法，首先利用Fisher准则保留分类能力强的特征，剔除不相关特征和弱相关特征。其次融合最大信息系数MIC和对称不确定性SU两种度量方法，设计相关性度量标准MSCC，利用MSCC标准进一步剔除不相关特征。再次，结合MSCC度量标准，利用近似Markov-Blanket判断条件剔除Fisher候选特征集中的冗余特征，最终获得维度规模较小的最优特征子集，同时保持较高的模型分类准确率。该方法具体包括以下步骤：

S1：获取移动用户样本的上网、通话、轨迹和属性数据，对用户样本进行打标，构建训练集和测试集；

S2：利用提供出境服务的APP、电话、机构位置基站信息提取用户样本的出境特征，对特征集归一化处理；

S3：根据Fisher分剔除出境特征集中不相关的特征，获得Fisher候选特征集；

S4：设计相关性度量标准MSCC，剔除Fisher候选特征集中不相关的特征，获得MSCC候选特征集；

S5：利用近似Markov-Blanket剔除MSCC候选特征集中的冗余特征，获得最优出境特征子集；

S6：利用集成学习思想构建分类模型，完成待测样本的分类。

进一步，所述步骤S1中，移动用户样本数据为电信运营商提供的B域数据和O域数据。

进一步，所述步骤S2中，出境特征提取的方法包括：

S21：撷取提供出境服务的APP数据，以域名、关键词为关联条件与移动用户上网数据进行关联匹配，得到移动用户的上网特征G＝{x₁,x₂,…,x_g}；

S22：采集提供出境服务的通话端口数据，以对端号码、城市电话区号为关联条件与移动用户通话数据进行关联匹配，得到移动用户的通话特征T＝{x₁,x₂,…,x_t}；

S23：采集提供出境服务的机构位置基站数据，以地区区域码和基站编码为关联条件与移动用户轨迹数据进行关联匹配，得到移动用户的出行特征V＝{x₁,x₂,…,x_v}；

S24：过滤移动用户属性数据中无关维度，得到移动用户的静态特征U＝{x₁,x₂,…,x_u}。

进一步，所述步骤S3中，获得Fisher候选特征集的方法包括：

S31：计算第s个特征的正样本、负样本和全部样本的均值向量，计算公式为：

其中，m_1,s、m_2,s和

分别为第s个出境特征的正、负样本和全部样本的均值，N₁、N₂和N分别为第s个出境特征的正、负样本和全部样本的个数，X₁、X₂和X分别为第s个出境特征的正负样本和全部样本的集合；

S32：计算第s个出境特征变量的类内离散度S_w,s，即同类样本间的距离，计算公式为：

其中，δ_1,s ²、δ_2,s ²分别为第s个出境特征变量的正、负样本的方差；

S33：计算第s个出境特征变量的类间离散度S_b,s，即不同类样本间的距离，计算公式为：

S34：计算第s个出境特征的Fisher分值F_k,s，计算公式为：

S35：按Fisher分值大小对各出境特征进行降序排列，设定阈值K₁，保留Fisher分值大于K₁的出境特征，得到Fisher候选特征集。

进一步，所述步骤S4中，获得MSCC候选特征集方法包括：

S41：计算出境特征变量X与标签变量Y的互信息值I[X；Y]，计算公式为：

其中，p(x)和p(y)分别为变量X,Y的概率密度函数，p(x,y)为变量X,Y的联合概率密度分布函数；

S42：将得到的最大互信息值I[X；Y]除以log₂(min(X,Y))，进行归一化处理；

S43：在不同的网格尺度下，比较归一化后的最大互信息值，将最大的互信息值作为MIC值，计算公式为：

其中，B取数据总量的0.55或0.6次方；

S44：计算出境特征变量X的信息熵H(X)，计算公式为：

其中，n为变量X的不同取值的数量；

S45：计算标签变量Y的信息熵H(Y)，计算公式为：

其中，m为变量Y的不同取值的数量；

S46：计算出境特征变量X和标签变量Y的条件熵H(X|Y)，计算公式为：

S47：计算标签变量Y的信息增益IG(X|Y)，计算公式为：

IG(X|Y)＝H(X)-H(X|Y)

S48：计算出境特征变量X的对称不确定性SU(X,Y)，计算公式为：

S49：定义相关性度量系数MSCC，计算公式为：

其中，MIC和SU的取值范围均在0与1之间，所以MSCC的取值范围仍在0与1之间，MSCC取值越接近与1，表示出境特征变量X与标签变量Y的相关性越强；

S410：计算Fisher候选特征集中的各出境特征的MSCC值，设定阈值K₂，剔除小于K₂的特征，并对剩余的特征降序排列，得到MSCC候选特征集。

进一步，所述步骤S5中，获得最优出境特征子集的方法包括：

S51：初始化特征集合

S52：将MSCC候选特征集赋给特征集合F；

S53：选择F中MSCC值最大的特征x^*作为主特征；

S54：更新特征集合：F＝F-x^*，F^*＝F^*+x^*；

S55：对于F中所有特征x，依次计算出境特征x与x^*的MSCC(x,x^*)、出境特征x与标签Y的MSCC(x,Y)，当MSCC(x,x^*)>MSCC(x,Y)，证明该特征为冗余特征，从F中剔除该特征；

S56：当

时，重复步骤S53～S55；

S57：当

时，输出最优出境特征子集F^*。

进一步，所述步骤S5中，近似Markov-Blanket的判断条件为：

MSCC(x_i,Y)>MSCC(x_j,Y)并且MSCC(x_i,x_j)>MSCC(x_j,Y)

其中，x_i和x_j为两个不同的特征，Y为标签变量，满足上述公式，则x_i是x_j的Markov-Blanket。

进一步，所述步骤S6中，分类模型的构建方法包括：

S61：分类模型设计为两层结构，第一层分别采用KNN、LightGBM、逻辑回归、AdaBoost算法构建基分类器，第二层采用随机森林算法构建次级分类器；

S62：采用交叉验证的方式，四个基分类器分别对最优特征集合进行学习和预测，最终得到基分类器对训练集的预测结果T₁，对测试集的预测结果T₂；

S63：将T₁作为训练集，T₂作为测试集，然后输入次级分类器中进行学习和预测，得到最终的预测结果。

本发明的有益效果在于：本发明利用Fisher规则剔除不相关和弱相关特征，利用融合最大信息系数MIC和对称不确定性SU两种方法的相关性度量标准MSCC进一步剔除不相关特征，利用近似Markov-Blanket判断条件剔除冗余特征，最终获得维度规模较小的最优特征子集，同时保持较高的模型分类准确率。相较于一般的特征选择方法，能够显著提高数据的挖掘效率和模型准确性，进一步实现降维，对于移动数据的挖掘研究具有很好的意义

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述移动用户出境特征选择方法的流程图；

图2为实施例中出境特征的关联匹配规则示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图2，为本发明优选的一种基于Fisher分和近似Markov-Blanket的移动用户出境特征选择算法，其流程如图1所示，包括：

S1：获取移动用户样本的上网、通话、轨迹和属性数据，对用户样本进行打标，构建训练集和测试集。

其中，移动数据为电信运营商的B域数据和O域数据；B域为业务域，主要有用户数据和业务数据；O域为运营域，主要有网络数据。本实施例使用B域中的用户数据和终端信息、消费信息等业务数据以及O域中的信令位置数据。样本标签为0和1。

S2：利用提供出境服务的APP、电话、机构位置基站信息提取用户样本的出境特征，对特征集归一化处理，具体包括以下步骤：

S21：出境特征提取，包括：1)撷取提供出境服务的APP数据，以域名、关键词为关联条件与移动用户上网数据进行关联匹配，得到移动用户的上网特征；2)采集提供出境服务的通话端口数据，以对端号码、城市电话区号为关联条件与移动用户通话数据进行关联匹配，得到移动用户的通话特征；3)采集提供出境服务的机构位置基站数据，以地区区域码和基站编码为关联条件与移动用户轨迹数据进行关联匹配，得到移动用户的出行特征；4)过滤移动用户属性数据中无关维度，得到移动用户的静态特征。出境特征的关联匹配规则如图2所示，所有的出境特征集合如表1所示：

表1出境特征

S22：特征归一化处理，归一化公式为：

x^*＝(x-x_min)(x_max-x_min)

其中，变量x为处理前的数据，x^*为标准后的数据，x_min和x_max分别为变量x的最小值和最大值。

S3：根据Fisher分剔除出境特征集中不相关的特征，获得Fisher候选特征集，具体包括以下步骤：

S31：分别计算第s个特征的正负样本和全部样本的均值m_1,s、m_2,s和

分别计算第s个特征变量的类间离散度S_b,s和类内离散度S_w,s，以及正负样本方差δ_1,s ²、δ_2,s ²，S_b,s与S_w,s做除即得第s个特征变量的Fisher分，Fisher分计算公式如下：

其中，N₁、N₂和N分别为第s个特征变量的正负样本和全部样本的个数，X₁、X₂和X分别为第s个特征变量的正负样本和全部样本的集合；

S32：按特征变量的Fisher分值大小进行降序排序，设定阈值K₁，保留Fisher分值大于K₁的特征，得到Fisher候选特征集。

S4：设计相关性度量标准MSCC，剔除Fisher候选特征集中不相关的特征，获得MSCC候选特征集，具体包括以下步骤：

S41：计算MSCC：

首先，计算特征的MIC值：将随机变量x,y化成散点图分布在二维空间中，使用k×s的网格来分割数据空间，将落在第x行的数据点频率作为p(x)估计，将落在第y列的数据点频率作为p(y)估计，将落在(x,y)格子中的数据点频率作为p(x,y)的估计。然后计算随机变量x、y的互信息值I[X；Y]，求得x、y的最大互信息值I_max[X；Y]，然后利用归一化方法，将最大互信息值缩放到(0,1)区间，最后求得不同尺度下互信息的最大值，将其作为MIC值，MIC计算公式为：

其中，B取数据总量的0.55或0.6次方，log₂(min(|X|,|Y|))为归一化因子。

其次，计算特征的SU值：分别计算特征变量X的信息熵H(X)、类别变量Y的信息熵H(Y)、特征变量X和类别变量Y的条件熵H(X|Y)，由此得出类别变量Y的信息增益IG(X|Y)，最后可得特征变量X的对称不确定性SU(X,Y)，SU(X,Y)的计算公式为：

IG(X|Y)＝H(X)-H(X|Y)

其中，p(x)和p(y)分别为变量X，Y的概率密度函数，n、m分别为变量X、Y不同取值的数量。

再次，计算特征的MSCC值：对特征的MIC值和SU值进行加权求和，两个度量标准的权重各为0.5，MSCC计算公式为：

其中，MIC和SU的取值范围均在0与1之间，所以MSCC的取值范围仍在0与1之间，MSCC取值越接近与1，表示特征变量X与类别变量Y的相关性越强。

S42、获取MSCC候选特征集：按特征变量的MSCC值大小进行降序排序，设定阈值K₃，保留MSCC值大于K₃的特征，得到MSCC候选特征集。

S5：利用近似Markov-Blanket剔除MSCC候选特征集中的冗余特征，获得最优出境特征子集F^*＝(G∪T∪V∪S)_best。其中，最优特征子集F^*＝(G∪T∪V∪S)_best获取步骤为：

输入：MSCC候选特征集＝{x₁,x₂,…,x_s}

输出：最优特征子集F^*

S51：初始化特征集合

S52：将MSCC候选特征集赋给特征集合F；

S53：选择F中MSCC值最大的特征x^*作为主特征；

S54：更新特征集合：F＝F-x^*，F^*＝F^*+x^*；

S55：对于F中所有特征x，依次计算特征x与x^*的MSCC(x,x^*)、特征x与类别Y的MSCC(x,Y)。当MSCC(x,x^*)>MSCC(x,Y)，证明该特征为冗余特征，从F中剔除该特征；

S56：当

时，跳转至S53；否则跳转至S57；

S57：输出最优特征子集F^*，迭代结束。

S6：利用集成学习思想构建分类模型，完成待测样本的分类，具体包括：

S61：分类模型设计为两层结构，第一层采用KNN、LightGBM、逻辑回归、AdaBoost算法构建基分类器，第二层采用随机森林构建次级分类器；

S62：将总样本分为两个集合，总样本的80％作为训练集train，20％作为测试集test。将train按5折交叉验证平均分成5份，其中4份作为训练集train1，1份作为测试集test1；

S63：循环5次对每个初级分类器进行训练得到测试结果T_n，将4个分类器的测试结果进行拼接转置得到T＝[T₁,T₂,T₂,T₄]；4个初级分类器分别对test进行预测，将预测结果进行简单平均得到预测结果P_n，将预测结果进行拼接转置得P＝[P₁,P₂,P₂,P₄]；

S64：将初级分类器得到的集合T作为训练集，输入次级分类器进行训练，将集合P作为测试集，最终待测样本的分类。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法，其特征在于，所述步骤S1中，移动用户样本数据为电信运营商提供的B域数据和O域数据。

3.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法，其特征在于，所述步骤S2中，出境特征提取的方法包括：

4.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法，其特征在于，所述步骤S3中，获得Fisher候选特征集的方法包括：

其中，m_1,s、m_2,s和

S34：计算第s个出境特征的Fisher分值F_k,s，计算公式为：

5.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法，其特征在于，所述步骤S4中，获得MSCC候选特征集方法包括：

其中，B取数据总量的0.55或0.6次方；

S44：计算出境特征变量X的信息熵H(X)，计算公式为：

其中，n为变量X的不同取值的数量；

S45：计算标签变量Y的信息熵H(Y)，计算公式为：

其中，m为变量Y的不同取值的数量；

S47：计算标签变量Y的信息增益IG(X|Y)，计算公式为：

IG(X|Y)＝H(X)-H(X|Y)

S49：定义相关性度量系数MSCC，计算公式为：

6.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法，其特征在于，所述步骤S5中，获得最优出境特征子集的方法包括：

S51：初始化特征集合

S52：将MSCC候选特征集赋给特征集合F；

S53：选择F中MSCC值最大的特征x^*作为主特征；

S54：更新特征集合：F＝F-x^*，F^*＝F^*+x^*；

S55：对于F中所有特征x，依次计算出境特征x与x^*的MSCC(x,x^*)、出境特征x与标签Y的MSCC(x,Y)，当MSCC(x,x^*)>MSCC(x,Y)，从F中剔除该特征；

S56：当

时，重复步骤S53～S55；

S57：当

时，输出最优出境特征子集F^*。

7.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法，其特征在于，所述步骤S5中，近似Markov-Blanket的判断条件为：

MSCC(x_i,Y)>MSCC(x_j,Y)并且MSCC(x_i,x_j)>MSCC(x_j,Y)

8.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法，其特征在于，所述步骤S6中，分类模型的构建方法包括：