CN109447099B

CN109447099B - 一种基于pca降维的多分类器融合方法

Info

Publication number: CN109447099B
Application number: CN201810989020.4A
Authority: CN
Inventors: 姚全珠; 赵佳瑜; 费蓉; 颜丽菁
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2022-01-07
Anticipated expiration: 2038-08-28
Also published as: CN109447099A

Abstract

本发明公开了一种基于PCA降维的多分类器融合方法，对数据特征集应用特征选择方法，涉及(逐步向前选择方法和)主成分分析方法，该方法通过构造出少量新特征来替代原始特征进行建模，并在多分类器上应用stacking算法，最终在用户鼠标行为的身份认证实验中取得目前最优的分类效果，本发明解决了现有技术中存在的基于用户鼠标行为的身份认证时针对用户鼠标行为特征空间维数过多的问题。

Description

一种基于PCA降维的多分类器融合方法

技术领域

本发明属于多分类器融合技术领域，具体涉及一种基于PCA降维的多分类器融合方法。

背景技术

身份认证作为信息***安全的重要保证关卡，但是传统的身份认证方法存在认证因素易泄露、易丢失等缺陷，因此基于用户生物特征的身份认证逐渐成为身份认证研究领域的热点。在对用户鼠标行为特征的身份认证方法进行探索研究时，为了提升身份认证性能，避免单一分类器容易发生过拟合以及分类准确率不够高等问题，发明了一种基于PCA降维的多分类器融合方法执行基于用户鼠标行为特征的动态连续身份认证任务，取得了较现有研究更好的身份认证结果。

信息***的身份认证方法主要分为3类：口令认证、持有物认证以及生物认证。其中口令认证存在密码易被泄露或者被破解等风险；持有物认证会出现持有物遗失或者被假造等缺陷。基于用户生物特征的身份认证方法与上述身份认证方法相比，不仅改善了缺陷，还提高了身份认证***的安全性。基于用户生物特征的身份认证主要分为两类：基于用户生理特征的身份认证方法，其常用的认证因素是用户独一无二的生理特征，主要包括指纹、人脸以及虹膜等，该身份认证方法需要使用特殊的硬件装置采集用户生理特征数据；基于用户行为特征的身份认证方法，其不需要增加硬件设备可直接使用用户与计算机的交互数据对当前用户身份进行认证。综上所述，基于用户生理特征的身份认证方法在当前计算机上应用难度较大，而基于用户行为特征的身份认证可在当前计算机***中直接部署。

目前基于手机、键盘以及鼠标等行为特征进行身份认证的方法得到了广泛研究。许多研究者使用用户的击键行为进行用户身份认证研究，但是随着计算机***图形化界面的发展越来越普及，鼠标已经超过键盘成为当前用户与计算机***交互的主要设备，同时受到了更多学者的关注。Pusara和 Brodley是最早研究使用鼠标行为进行身份的研究人员，该研究针对18个用户使用IE浏览器浏览相同网页时的行为数据进行了分析，对鼠标移动和点击等事件进行量化得到了特征并使用决策树建立个性化模型，最终确定不同用户的可分性。实验取得了1.75％的FAR以及0.34％的FRR。2003年，Ahmed 等人通过鼠标行为建立连续身份认证机制。他们收集49名用户的数据，从鼠标动作块中提取39维特征向量并使用神经网络进行训练和分类，首次验证了利用鼠标行为特征对用户身份进行验证的可行性。在后续的研究中 Ahmed等人使用基于多元数据分析学习算法的模糊分类，并使用分数以及融合方案合并相应的生物统计分数，改善了需要大量鼠标操作才能进行身份认证的不足，取得了0％的FAR和0.36％的FRR。沈超等人，2010年提出了利用用户的鼠标行为特征进行身份认证以及监控。2012年进行了静态认证的基准研究，利用26名用户在严格控制的环境下进行数据收集。实验结果表明，认证时间越长精度越高。验证时间从11秒增加到110秒，同等错误率从14.26％降低到2.64％。2014年提出了一种降维方法能够减少鼠标行为的动态变化，提升了基于鼠标行为特征的连续认证方法性能。2017年提出了一个简单而有效的用户认证***，通过模式增长的挖掘方法提取出频繁的行为段，以获得稳定和由区别的鼠标交互行为特征，实验取得了0.09％的FAR和 1％的FRR。

上述研究者对基于用户鼠标行为的身份认证方法进行了多方位的研究，这些研究工作基本验证了使用用户的鼠标行为特征进行身份认证的可行性。

发明内容

本发明的目的是提供一种基于PCA降维的多分类器融合方法，解决了现有技术中存在的基于用户鼠标行为的身份认证时针对用户鼠标行为特征空间维数过多的问题。

本发明一种基于PCA降维的多分类器融合方法，具体按照以下步骤实施：

步骤1、预处理鼠标行为数据，包括数据清洗和数据变换；

步骤2、对鼠标整体行为和轨迹行为特征分析，采用PCA方法对特征降维，构造出相互独立的新特征；

步骤3、构造训练数据集和测试数据集；

步骤4、对训练集数据依次使用SVM和ANN算法，得出新的鼠标行为数据。

本发明的特点还在于，

步骤2中鼠标整体行为和轨迹行为构造的原始75维特征的正交变换，选取累计贡献率达到85％的主成分作为新的鼠标行为特征，即选取26维新特征替代原始75维特征。

步骤2具体按照以下步骤实施：

步骤2.1、对预处理后的特征数据，采用如下公式计算出特征之间的协方差：

式中，X,Y为两个不同的特征，

为特征的均值，X_i,Y_i为该特征在第 i个样本上的取值，n为样本数；

步骤2.2、将数据集中两两特征的协方差组成协方差矩阵A，矩阵的第 (i,j)个元素是数据集中第i和第j个元素的协方差；

步骤2.3、计算协方差矩阵A的特征向量和特征值；

步骤2.4、特征向量按照对应的特征值大小排序得到矩阵的主成分，把数据映射到主成分上，按照特征值由大到小降序排列，即第一主成分是最大特征值对应的特征向量，选取累计贡献率达到85％的主成分作为新的鼠标行为特征建立一个转换矩阵，它的每一列都是主成分的特征向量；

步骤2.5、用原始特征矩阵右乘转换矩阵得到新特征矩阵。

步骤3如下：

将步骤2得到的新特征矩阵中75％的用户作为训练集D，其中合法用户和非法用户各占50％；新特征矩阵中剩下的25％的新特征矩阵用户作为测试集T，合法用户和非法用户仍旧各占50％。

步骤4如下：

采用以k折交叉验证法，随机划分训练集D为k个大小相同的数据集 D₁,D₂,...,D_k，令D_j和

分别表示第j折的测试数据集和训练数据集， j∈1,2,...,k，初始选定t个初级学习算法，当Stacking方法选取SVM和ANN 其中一个作为初级学习算法时，t＝1，当Stacking方法选取SVM和ANN两者作为初级学习算法时，t＝2，初级学习器

通过在

上使用第t个初级学习算法而得；

首先将SVM作为初级学习算法，进行交叉验证：基于训练集

训练初级学习器

基于测试集D_j在

模型上对D_j进行预测，第j次交叉验证完成之后会得到关于当前D_j的预测值记为a_j，k折交叉验证会生成针对D_j数据预测的k列数据a₁,a₂,...a_k，即原来训练集D的预测值记为A₁＝(a₁,a₂,...,a_k)；然后将ANN作为初级学习算法，再进行交叉验证：基于训练集

训练初级学习器

基于测试集D_j在

模型上对D_j进行预测，第j次交叉验证完成之后会得到关于当前D_j的预测值记为a_j，k折交叉验证会生成针对D_j数据预测的k列数据a₁,a₂,...a_k，记为A₂＝(a₁,a₂,...,a_k)；最终得到(A₁,A₂)矩阵记为D′用于训练次级学习器；

至此，SVM、ANN作为初级学习器的Stacking结合策略融合完成。

本发明的有益效果是，一种基于PCA降维的多分类器融合方法，将多分类器融合方法应用在基于用户鼠标行为的身份认证问题上，使用Stacking 结合策略，选择SVM和ANN作为多分类器融合方法的初级学习器，次级学习器选择逻辑回归。同时为避免鼠标行为特征个数多易引起“维度灾难”即模型复杂度的上升，以及缩短建模时间、及时识别用户真伪，采用PCA降维方法，去除了原始特征集基底数据的相关性，选出比原始特征个数少，能解释原始特征集中大部分特征的几个新特征，即所谓主成分，来代替原始特征进行建模，通过多方面的对比实验将本方法与现有方法进行对比，实验结果表明基于PCA降维的Stacking多分类器融合方法性能优于现有的相关方法。与初级学习器对比Stacking算法实验效果较其他几个单一分类器效果更好；不同的多分类器融合对比，使用SVM、ANN作为初级学习器，Logistic 回归作为次级学习器的多分类融合方法准确率最高；不同的结合策略对比，使用Stacking结合策略的准确率最高。

附图说明

图1是本发明一种基于PCA降维的多分类器融合方法中身份认证过程流程示意图；

图2是本发明一种基于PCA降维的多分类器融合方法中Stacking学习过程图；

图3是本发明一种基于PCA降维的多分类器融合方法中ANN所应用的3层神经网络结构图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于PCA降维的多分类器融合方法，如图1、图2所示，具体按照以下步骤实施：

步骤1、预处理鼠标行为数据，包括数据清洗和数据变换；

步骤2、对鼠标整体行为和轨迹行为特征分析，采用PCA方法对特征降维，构造出相互独立的新特征，其中鼠标整体行为和轨迹行为构造的原始75 维特征的正交变换，选取累计贡献率达到85％的主成分作为新的鼠标行为特征，即选取26维新特征替代原始75维特征，具体按照以下步骤实施：

式中，X,Y为两个不同的特征，

步骤2.2、将数据集中两两特征的协方差组成协方差矩阵A，矩阵的第(i,j)个元素是数据集中第i和第j个元素的协方差；

步骤2.3、计算协方差矩阵A的特征向量和特征值；

步骤2.5、用原始特征矩阵右乘转换矩阵得到新特征矩阵；

步骤3、构造训练数据集和测试数据集，如下：

将步骤2得到的新特征矩阵中75％的用户作为训练集D，其中合法用户和非法用户各占50％；新特征矩阵中剩下的25％的新特征矩阵用户作为测试集T，合法用户和非法用户仍旧各占50％；

步骤4、对训练集数据依次使用SVM和ANN算法，得出新的鼠标行为数据，如下：

通过在

上使用第t个初级学习算法而得；

首先将SVM作为初级学习算法，进行交叉验证：基于训练集

训练初级学习器

基于测试集D_j在

训练初级学习器

基于测试集D_j在

至此，SVM、ANN作为初级学习器的Stacking结合策略融合完成。

本发明一种基于PCA降维的多分类器融合方法，实施例如下：

将原始数据集分为训练数据集和测试数据集。假设训练数据集包含890 行原始数据，测试集包含418行原始数据。对训练数据集使用5折交叉验证，故每次的交叉验证都会生成713行的小训练数据集和178行的小测试集，并且所有的初级学习器，都需要完成5次的模型训练过程和测试过程。使用初级学习器Model1进行训练过程和测试过程，可得到了长度为178的预测值。当5折交差验证执行完毕，将得到178*5＝890的预测值，这些预测值是初级学习器Model1产生的，经过转换转为890*1，记作P1。以上初级学习器 Model1完成了训练过程，由于5折交叉验证是针对训练数据进行的，所以每次的交叉验证使用713行小训练集训练出来的模型都需要对所有的Test Data进行测试过程，最终初级学习器Model1产生了长度为418的预测值，经过转换转为418*1，记作p1。基于ANN和SVM两种初级分类器，那么会得到来自5折交叉验证的预测矩阵(P1,P2)以及来自Test Data的预测矩阵 (p1,p2)。以上就是初级学习器的整个训练过程和测试过程，次级学习器的数据来自初级学习器，故次级学习器使用来自5这交叉验证的预测矩阵作为训练集，训练次级学习器。使用来自测试集的预测矩阵作为测试集，使用训练好的次级学习器对测试集进行预测。以上描述了Stacking算法的执行过程，对于各个学习器的选择将在身份认证模型构建的过程中进行描述。

本文选取SVM和ANN作为初级学习器，实验中使用的ANN结构为图 3，表示隐藏层的节点个数分别为5，输出层的节点个数为1，输入层节点的个数与数据集中输入数据的特征维数保持一致。对SVM的核函数选择和参数调整进行了实验，实验结果显示核函数选择放射性核函数RBF时的实验分类准确率更高，因此本文选择RBF作为SVM模型的核函数，正则化参数 C与核函数参数γ，分别使用16和0.25作为后续实验中模型的参数。

使用SVM和ANN作为初级分类器参与组合。

SVM主要用于解决二分类问题，核心是如何在训练数据集中找到具有最大类间界限的决策平面。在传统机器学习分类方法中SVM是身份认证分类问题中表现较好的分类方法之一。但同时传统的机器学习方法在身份认证分类问题的精度上很难提升至期望值。基于深度学习的分类算法获得不断关注，人工神经网络具有分类准确率高，对噪声数据有较强的鲁棒性和容错能力，能充分拟合复杂的非线性关系等优点。在图像处理、人工智能等领域有广泛的应用，但是其需要大量的参数，并且作为黑盒算法不能清楚的观察到学习过程，输出结果难以解释，这将会大大的影响实验结果的可信度和可接受程度。

正是因为上述两种方法存在一定的缺陷，但是又各自有独特的优点，所以他们在处理同一用户的鼠标行为特征时所产生的预测结果会具有相对独立的特性，这就满足了上述要求的各个单一分类器的错误率是相互独立的。因此本发明选择这两种方法作为初级分类器进行组合。ANN和SVM两个初级分类器模型建立完毕后，对模型进行训练。

实验验证如下：

基于stacking结合策略的多分类器融合方法使用k折交叉验证：

设分类算法有l个，训练数据集为{(x₁,y₁)...(x_k,y_k)}，其中k为样本个数；训练过程开始时，从训练数据集中取出一个训练样本并设其为x_i，同时将其余k-1个训练样本作为训练集，学习训练l个分类器，本发明分别使用SVM 和ANN分类器，之后，通过这些分类器预测结果。

对x_i进行分类同时获得l个输出结果，记为

之后依次选取不同部分数据集为目标进行上述步骤，经k轮训练后，得到各次训练所得到的l个输出

与y_i共同构成新训练集

该训练集具有与原始训练集相同的实例个数，即k个；最终，该训练集将作为次级学习器的输入。

与初级学习器以及其他结合策略相比，基于stacking结合策略的多分类器融合方法准确率最高，该Stacking结合策略优于基分类器(如ANN、KNN、 SVM等)单独的分类效果且优于基于Voting结合策略的分类效果；

选择Logistic回归作为次级分类器：

获得初级分类器的输出作为特征，初级学习器通过交叉验证使得提供给元学习器的特征向量数目与整个训练样本数据特征数量相同。次级学习器使用稳定性较高的Logistic算法。

本发明提出了新定义的鼠标行为特征以更加精确细致地方式表示每个用户独特的鼠标行为特征。主要包括鼠标整体行为特征和鼠标轨迹行为特征，由于这些特征不是使用鼠标行为描述性统计特征，从而可以大大减少环境等因素对实验结果的影响并提高身份认证的准确性。应用特征选择方法获得基于用户鼠标行为的特征空间，其有效地表示了原始鼠标行为特征空间并使本发明提出的方法对鼠标行为数据的变化有更好的稳定性和强健性。为了提高身份认证的准确率，本发明使用多分类器融合方法执行基于用户鼠标行为的身份认证任务，为了验证本发明所构造鼠标行为特征集的有效性以及本发明所提出的身份认证方法的高效性，基于不同数据集进行多角度对比实验。通过身份认证领域常用评价指标FAR、FFR以及本发明所提出的新评价指标ANIA、ANGA评估实验结果，结果表明本发明所提出的鼠标行为特征结合本发明身份认证方法能以较高的准确率完成用户身份认证。