CN112527670B

CN112527670B - 一种基于Active Learning的项目内软件老化缺陷预测方法

Info

Publication number: CN112527670B
Application number: CN202011511241.4A
Authority: CN
Inventors: 向剑文; 梁梦婷; 李滴萌; 赵冬冬; 胡文华; 李琳
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2022-06-03
Anticipated expiration: 2040-12-18
Also published as: CN112527670A

Abstract

本发明公开了一种基于Active Learning的项目内软件老化预测方法，通过收集软件中代码静态度量，使用Active Learning挑选出样本进行打标签作为训练集，去预测剩下的无类标的样本。采用Active Learning进行样本挑选和人工打标签，构成训练集。采用过采样和欠采样结合法缓解类不平衡问题，使用机器学***衡问题，有助于开发者在开发测试阶段发现软件老化相关缺陷并移除，避免软件老化问题带来的损失。本发明已在真实软件上验证过其可行性，并可推广至其他软件来预测软件老化相关缺陷。

Description

一种基于Active Learning的项目内软件老化缺陷预测方法

技术领域

本发明属于软件老化预测技术领域，具体涉及一种基于Active Learning的项目内软件老化缺陷预测方法。

背景技术

在长期运行的操作***中，软件老化是造成***性能下降或软件崩溃的主要原因。其由软件老化相关缺陷(Aging-Related Bugs，ARB)引起，如内存泄漏，未释放的文件锁，存储问题等。且其已被发现存在于多种***中，如Android、Linux、Windows等。软件老化的复杂性和时间特性导致其检测十分困难。故在开发测试阶段(代码层次)预测并移除软件老化相关缺陷是降低软件老化所带来损失的重要方式之一。

近年来，老化缺陷预测逐步受到可靠性领域学者的重视。部分学者通过使用代码静态特征(如代码行数，注释数等)并利用机器学习等方法来训练模型进行项目内老化缺陷预测，然而由于老化缺陷占比较少，如Linux老化缺陷数据集中老化缺陷仅占比0.59％，对我们来说在项目内收集到足够的训练数据进行建模是非常困难的。

针对软件老化训练数据不充足这个问题，有学者提出了跨项目的软件老化缺陷预测，主要方法是通过迁移学***衡问题来进行跨项目老化缺陷预测。这种方式虽然数据量充足，但是不同项目之间的差异还是比较严重，所以，跨项目的预测性能和项目内的预测性能还是存在一定差异的。而且，先前的研究中，处理极其严重的类不平衡时，使用的是过采样或欠采样单个方式，极易导致过拟合，对不同的机器学习分类器不够健壮，即预测效果差异较大。

发明内容

为了克服上述背景技术的缺陷，本发明提供一种基于Active Learning的项目内软件老化缺陷预测方法。

为了解决上述技术问题本发明的所采用的技术方案为：

一种基于Active Learning的项目内软件老化缺陷预测方法，包括：

步骤1，对一个项目内无类标的样本，运用Active Learning选取其中具有代表性的和信息量丰富的第一类样本；

步骤2，针对选取的第一类分样本，再加上已有的有类标的样本组成训练集；

步骤3，针对训练集，采用过采样方法SMOTE和欠采样方法ENN联合进行类不平衡问题处理，学习分类特征；

步骤4，针对步骤3处理后的数据，采用机器学习方法训练预测模型并在测试集上进行老化缺陷预测。

较佳的，在运用Active Learning选取其中具有代表性的和信息量丰富的第一类样本的步骤中，使用Active Learning领域提出的Active Learning by QueryingInformative and Representative Examples(QUIRE)方法，根据有类标的样本训练出来的的分类器对要选取的样本的不确定性来选取信息量大的样本，根据未标记的样本训练出来的分类器对要选取样本的不确定性来选择具有代表性的样本。

较佳地，步骤2中采用选取出来的样本加上已有的有类标的样本组成训练集的步骤中，训练集包含整个项目的初始已标记样本和Active Learning挑选出来的有具有代表性的样本。

较佳地，采用SMOTE+ENN的采样方式，将少数类过采样，多数类欠采样，形成最终的训练集。

较佳的，采用机器学习方法训练预测模型的步骤中，采用机器学习方法执行跨项目预测任务；采用机器学习的方法为决策树、K近邻、支持向量机、逻辑回归、随机森林和朴素贝叶斯六个分类器；其中分类器最佳参数的选择采用十折交叉验证法确定。

本发明的有益效果在于：针对老化缺陷数据量较少的问题，提出了一种新的基于Active Learning的项目内软件老化缺陷预测方法。它解决了软件老化缺陷预测中训练数据样本不充足和软件老化缺陷预测领域严重的类不平衡问题，具有较强的鲁棒性，缓解了收集老化数据集费时费力的情况而且还能取得比较好的效果，能够避免因软件老化造成的损失。

附图说明

图1为本发明提供的一种基于Active Learning的项目内软件老化缺陷预测方法的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供了一种基于Active Learning的项目内软件老化缺陷预测方法，本发明实施例的项目内老化缺陷预测流程框图如图1所示，首先采用Active Learning对无类标的样本进行选取，之后将选取的样本和项目原本有的一小部分有类标的样本合并构成训练集。然后根据老化数据集的特点采用过采样SMOTE和欠采样ENN方法联合使用的方式来解决严重的类不平衡问题。最终使用机器学习分类器对目标项目进行分类，输出预测结果。

该方法的步骤包括：

步骤1，对一个项目内无类标的样本，运用Active Learning选取其中具有代表性的和信息量丰富的第一类样本。

使用Active Learning领域提出的Active Learning by Querying Informativeand Representative Examples(QUIRE)方法，根据有类标的样本训练出来的的分类器对要选取的样本的不确定性来选取信息量大的样本，根据未标记的样本训练出来的分类器对要选取样本的不确定性来选择具有代表性的样本。

首先f^*表示由已标记的样本训练的分类模型：

其中H是一个具有核函数的再生核Hilbert空间，l(x)是损失函数。基于边界的Active Learning方法选择最接近决策边界的未标记样本，即：

将基于边缘的查询选择与主动学习的最小-最大公式连接起来

其中

在主动学习的最小-最大视图中，它保证所选实例x_s将导致目标函数的一个小值，而不管其类标签y_s。为了选择信息丰富和具有代表性的查询，扩展评估函数L(D_l,x_s)包括所有未标记的数据。假设，知道D_u中未选择的未标记实例的类分配y_u，则评估函数可以修改为

以下求出满足上述公式的x_s：

为了计算的简单性令

上述公式就变成了：

其中L＝(K+λI)^-1,K是核矩阵，因此

就可以化简成:

为有效地计算每个未标记实例的上述数量，为了方便表示，通过下标u表示矩阵M中的行/列，用于D_u中未标记的实例，通过下标l表示标记实例的M中的行/列，以及通过下标s表示所选实例的M中的行/列。还通过下标a指M中所有未标记实例(即D_u∪{x_s}的行/列)。利用这些约定，重写了目标函数

令

得到

最后一步遵循以下条件：

采用选取出来的样本加上已有的有类标的样本组成训练集的步骤中，训练集包含整个项目的初始已标记样本和Active Learning挑选出来的有具有代表性的样本。

Data_train＝Data_labled∪Data_selected

其中，Data_train表示训练集，Data_selected表示Active Learning挑选出来的有具有代表性的样本，Data_labled表示项目的初始已标记样本。

软件老化缺陷预测所面临的类不平衡问题十分严重，比如常用于老化缺陷预测的Linux数据集，老化缺陷仅占比0.59％。故需要对类不平衡问题进行处理。在本步骤中首先采用SMOTE对少数类进行过采样，然后采用ENN对多数类进行欠采样。

SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中，算法流程如下。

(1)对于少数类中每一个样本x，以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻。

(2)根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本x，从其k近邻中随机选择若干个样本，假设选择的近邻为xn。

(3)对于每一个随机选出的近邻x_n，分别与原样本按照如下的公式构建新的样本。

ENN算法的主要思想：针对训练样本集中的每个样本找出其三个最近邻样本，若该样本是多数类样本且其三个最近邻中有两个以上是少数类样本，则删除它；反之当该样本是少数类并且其三个最近邻中有两个以上是多数类样本，则去除近邻中的多数类样本。

结合上述内容对类不平衡问题进行处理。

在本步骤中，采用机器学习算法对目标项目进行预测，如朴素贝叶斯(NB)，逻辑回归(LR)，K-近邻(KNN)，决策树(DT)，随机森林(RF)，支持向量机(SVM)等。分类器参数通过十折交叉验证确定。六种不同的机器学习分类器均取得较佳效果，其中使用NB和KNN作为分类器时取得最佳效果。

本发明通过收集软件中代码静态度量，使用Active Learning挑选出样本进行打标签作为训练集，去预测剩下的无类标的样本。采用Active Learning进行样本挑选，根据一定的策略选出具有代表性和信息量丰富的样本，对样本进行人工打标签，这部分样本构成本文的训练集。然后采用过采样和欠采样结合法缓解软件老化中严重的类不平衡问题，最后使用机器学***衡问题。它解决了软件老化数据量过少而且收集起来比较困难和项目内软件老化缺陷预测精度的问题，有助于开发者在开发测试阶段发现软件老化相关缺陷并移除，避免软件老化问题带来的损失。本发明已在真实软件上验证过其可行性，并可推广至其他软件来预测软件老化相关缺陷。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于Active Learning的项目内软件老化缺陷预测方法，其特征在于，包括：

步骤4，针对步骤3处理后的数据，采用机器学习方法训练预测模型并在测试集上进行老化缺陷预测；

在所述步骤1中，使用Active Learning领域提出的Active Learning by QueryingInformative and Representative Examples方法，根据有类标的样本训练出来的分类器对要选取的样本的不确定性来选取信息量大的样本，根据未标记的样本训练出来的分类器对要选取样本的不确定性来选择具有代表性的样本：

首先f^*表示由已标记的样本训练的分类模型：

其中H是一个具有核函数的再生核Hilbert空间，l(x)是损失函数，基于边界的ActiveLearning方法选择最接近决策边界的未标记样本，即：

将基于边缘的查询选择与主动学习的最小-最大公式连接起来

其中

在主动学习的最小-最大视图中，它保证所选实例x_s将导致目标函数的一个小值，而不管其类标签y_s；为了选择信息丰富和具有代表性的查询，扩展评估函数L(D_l,x_s)包括所有未标记的数据；假设，知道D_u中未选择的未标记实例的类分配y_u，则评估函数修改为：

以下求出满足上述公式的x_S：

为了计算的简单性令

上述公式就变成了：

其中L＝(K+λI)^-1,K是核矩阵，因此

就可以化简成：

为有效地计算每个未标记实例的数量，为了方便表示，通过下标u表示矩阵M中的行/列，用于D_u中未标记的实例，通过下标l表示标记实例的M中的行/列，以及通过下标s表示所选实例的M中的行/列；还通过下标a指M中所有未标记实例，即D_u∪{x_S}的行/列；利用这些约定，重写了目标函数：

令

得到

最后一步遵循以下条件：

2.根据权利要求1所述一种基于Active Learning的项目内软件老化缺陷预测方法，其特征在于，在运用Active Learning选取其中具有代表性的和信息量丰富的第一类样本的步骤中，使用Active Learning领域提出的Active Learning by Querying Informativeand Representative Examples方法，根据有类标的样本训练出来的分类器对要选取的样本的不确定性来选取信息量大的样本，根据未标记的样本训练出来的分类器对要选取样本的不确定性来选择具有代表性的样本。

3.根据权利要求1所述一种基于Active Learning的项目内软件老化缺陷预测方法，其特征在于：步骤2中采用选取出来的样本加上已有的有类标的样本组成训练集的步骤中，训练集包含整个项目的初始已标记样本和Active Learning挑选出来的有具有代表性的样本。

4.根据权利要求1所述一种基于Active Learning的项目内软件老化缺陷预测方法，其特征在于：采用SMOTE+ENN的采样方式，将少数类过采样，多数类欠采样，形成最终的训练集。

5.根据权利要求1所述一种基于Active Learning的项目内软件老化缺陷预测方法，其特征在于：采用机器学习方法训练预测模型的步骤中，采用机器学习方法执行跨项目预测任务；采用机器学习的方法为决策树、K近邻、支持向量机、逻辑回归、随机森林和朴素贝叶斯六个分类器；其中分类器最佳参数的选择采用十折交叉验证法确定。