CN111767216A

CN111767216A - 一种可缓解类重叠问题的跨版本深度缺陷预测方法

Info

Publication number: CN111767216A
Application number: CN202010581583.7A
Authority: CN
Inventors: 李芳�; 曲豫宾
Original assignee: Nantong Textile Vocational Technology College
Current assignee: Nantong Textile Vocational Technology College
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-10-13
Anticipated expiration: 2040-06-23
Also published as: CN111767216B

Abstract

本发明公开了一种可缓解类重叠问题的跨版本深度缺陷预测方法，包括如下：1、跨版本软件缺陷预测中面向深度语义学***衡问题与类重叠问题，对数据的统计分析结果表明该策略能够提升基于深度语义学习的软件缺陷预测的性能。

Description

一种可缓解类重叠问题的跨版本深度缺陷预测方法

技术领域

本发明具体涉及一种可缓解类重叠问题的跨版本深度缺陷预测方法。

背景技术

软件缺陷预测(software defect prediction)被用来识别软件开发过程中的软件缺陷。软件开发过程中产生的历史数据构成了软件缺陷预测分类器的训练数据，这些数据可以从文件、类等多个粒度进行标注。从软件开发过程(software process)角度出发面向历史数据的度量元被人工设计用于构建分类模型，这些度量元包括基于代码行数(linesof code)的度量元、Halstead科学度量、以及McCabe环路复杂度(cyclomatic complexity)等。传统的项目内缺陷预测模型关注静态度量元，基于度量元进行分类模型构建，基于潜在的有缺陷模块应该具有相同的统计分布特征。然而在实际的软件开发过程中，静态度量元构建的分类器无法预测具有相同的统计特征分布却具有不同语义特征的代码模块，比如JAVA代码中Queue队列的add，remove方法的先后顺序虽然具有相同的统计分布特征，却具有明显不同的语义特征。通过使用自编码网络，卷积神经网络等深度学习框架能够从源数据集中学习到语义特征，建立面向语义学习的软件缺陷预测模型。在实际的训练数据集标注过程中，拥有不同的数据标记却在特征空间中有相同的特征，这种类重叠(classoverlap)问题是由于标注过程中的多种因素造成的。类重叠问题是数据挖掘以及机器学习中常见的问题，影响了分类性能。类重叠的训练样例模糊了分类边界，增大了分类的难度。很多应用领域都存在类重叠问题，比如***欺诈检测领域、文本分类领域等等。然而这些策略都是基于传统的静态度量元进行的，面向基于语义学习的软件缺陷预测的类重叠问题研究较少。

基于此，本发明将基于卷积神经网络的深度学习框架应用到跨版本软件缺陷预测中，设计了面向跨版本软件缺陷预测的深度学习框架，从前一个版本的历史数据中根据抽象语法树构建基于文件级别的特征语义向量；以该语义向量为基础，改进了数据抽样策略，融合基于近邻的样例清理策略与基于K-Means算法的清理策略，对训练数据集进行预处理，作为Logistic Regression分类器的输入训练分类模型。将下一个版本软件代码作为测试数据集，使用常见的AUC(Area Under Curve)作为分类性能的评价指标，测试了该清理策略的有效性。通过对实验结果使用Friedman test与Nemenyi后检验进行统计分析，证明该策略能够解决类重叠问题，提升基于深度语义学习特征的分类器的性能。

发明内容

发明目的：针对软件缺陷预测建模时未充分使用源代码语义特征以及学出的语义特征中存在的类重叠问题，本发明提供了一种可缓解类重叠问题的跨版本深度缺陷预测方法。

技术方案：一种可缓解类重叠问题的跨版本深度缺陷预测方法，包括如下：1、跨版本软件缺陷预测中面向深度语义学习的整体框架；2、基于卷积神经网络的语义特征学习模型；3、面向深度语义学习的混合式最近邻清理策略；具体如下：

1.跨版本软件缺陷预测中面向深度语义学习的整体框架：

该方法采用混合式最近邻清理策略处理深度语义特征学习过程中的类重叠，使用该方法可以自动的从源代码中学习语义和结构特征，为分类器提供基于深度语义学习的特征向量；

该方法首先从训练数据集和测试数据集出发，构建抽象语法树(Abstract SyntaxTrees),具体实验中，采用软件开发过程中发布的前一个版本的历史数据作为训练数据集，下一个版本的软件开发数据作为测试数据集；构建抽象语法树过程中，选择具有代表性的语法树节点表示软件模块，每个软件模块构筑符号向量；

符号向量采用one-hot编码方式进行编码，对输入向量进行词嵌入，作为卷积神经网络的输入，卷积神经网络随后从输入向量中自动学***衡问题，对训练数据进行过采样，过采样完的数据集可能会带来更多的类重叠；从近邻出发，对多数类与少数类同时进行清理，处理潜在的重叠软件模块向量；经过预处理的深度语义特征，作为传统分类器，比如Logistic Regression分类器的输入；在Logistic Regression分类器上训练分类模型，并对测试数据集进行测试；

2.基于卷积神经网络的语义特征学习模型：

卷积神经网络拥有深度特征提取的能力，基于源代码使用one-hot编码以后的特征向量具有内在的语义和语法结构，通过引入CNN能够创建表征语义信息的新的深度特征向量；本文提出的基于卷积神经网络的语义特征学习模型采用的是有监督的深度语义学习范式，通过对训练数据集的优化能够生成更加适合当前项目的语义；

假定当前软件项目有文件数目为n，X＝{x₁x₂，..x_n}软件缺陷预测问题可以被形式化为学习任务，该学习任务从训练数据集中学习预测函数：

F：X→Y，y_i∈Y＝{1，0} (1)

其中y_i∈Y，指示软件模块是否含有软件缺陷；

软件项目源文件被编码为one-hot特征向量，以one-hot特征向量输入采用预训练的word2vec模型获取词嵌入向量；对项目文件x_i，其one-hot特征向量为

max表示为该文件中最大特征标记数目；该标记指的是具有代表性的语法树节点，同时剔除了文件中数目小于3的标记；经过word2vec模型处理完以后，得到具有固定长度的词嵌入向量，该向量为：vi∈R^p×q；v_i表示对应于项目文件x_i的词嵌入向量；

训练过的词嵌入向量作为CNN的输入，在输入方向设置多个一维卷积核，从词嵌入向量中提取单词的特征，并将输出结果输入到池化层；为了对优化过程中的参数加以约束，引入正则化，采用dropout方法在反向传播误差更新权值时候随机删除部分神经元；

对池化层输出展开为全连接层，多次迭代训练得到语义特征向量；训练过程中采用minibatch stochastic gradient descent算法，优化器选用Adam optimizer，基于该语义特征向量来判断当前模块是否存在缺陷；

3.面向深度语义学习的混合式最近邻清理策略：

该策略以生成的深度语义特征向量集合为输入，根据集合中标记的不同，将样例分为C_max和C_min两类，算法过程大致分为三个步骤：

第一个步骤是对少数类样例循环遍历，依据欧式距离选择k个最近邻，并使用随机种子数在某个样例与最近邻之间生成新的样例，迭代完成过采样，实现多数类与少数类之间的平衡，解决类不平衡问题；

第二个步骤是在新生成的少数类集合C′_min与多数类集合C_max上分别进行迭代，依据欧式距离计算得到与样例最近的N_x近邻；如果该近邻的标记与当前的标记不一致，则最终删除，实现对多数类与少数类潜在类重叠模块的清理；

第三个步骤是将第二个步骤的输出{C″_min，C′_max}作为输入，计算当前两类模块的统计分布值，使用标准K-means聚类算法划分为k簇，对每个簇进行遍历，根据当前簇两个模块的统计分布值删除对应的模块，实现对多数类与少数类潜在类重叠模块的清理。

2.根据权利要求1所述的可缓解类重叠问题的跨版本深度缺陷预测方法，其特征在于：所述面向深度语义学习的混合式最近邻清理策略中的算法1混合式最近邻策略如下：

1)输入：训练数据集T＝{Cmax，Cmin}，其中Cmax属于多数类，Cmin属于少数类，d表示有缺陷模块与所有模块数目的比值；

输出：清理完成的数据集T′＝{C″′_max，C″′_min}；

2)遍历Cmin.集合中的每个样例；

3)利用欧氏距离选择k最近邻；

4)选择样例x_i(nn)，生成随机数δ，δ∈{0，1}；

5)刊用当前样例与x_i(nn)生成新样例：x_i1＝x_i+δ*(x_i(nn)-x_i)；

6)将新生成样例加入到C_min集合，更新集合为C′_min；

7)遍历Cmin.集合中的每个样例完成后，遍历C_min集合中的每个样例；

8)根据预定义的欧式距离计算与当前样例最近的N_x个样例；

9)如果N_x中任意一个样例包含于集合C_max，则删除；

10)更新集合C_max为C′_max；

11)同理，遍历C_max集合中的每个样例，删除类重叠样例，更新C′_min为C″_min；

12)定义当前的输入数据集为{C″_min，C′_max}；

13)计算更新完成以后的当前少数类集合与多数类集合的比值，

14)使用标准K-means算法将数据集分为k簇；

15)循环遍历每个簇；

16)在每个簇中计算少数类集合与多数类集合的比值，

17)如果当前的比值

则删除当前簇中少数类；

18)如果当前的比值

则删除当前簇中多数类；

19)合并所有簇中剩余的样例为新的输出集合T′。

有益效果：本发明采用混合式最近邻清理策略来缓解深度学***衡问题与类重叠问题，对数据的统计分析结果表明该策略能够提升基于深度语义学习的软件缺陷预测的性能，使用混合式最近邻清理策略能够比不处理类重叠问题情况下，AUC指标最多在中值上提升14.8％。

附图说明

图1是本发明的面向类重叠的跨版本软件缺陷深度特征学习方法CnnSncr流程图；

图2是本发明的采用的具有代表性的语法树节点示意图；

图3是本发明的深度特征语义向量生成过程示意图；

图4是本发明的不同数据处理策略的性能对比小提琴图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，以使本领域的技术人员能够更好的理解本发明的优点和特征，从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明包括跨版本软件缺陷预测中面向深度语义学习的整体框架、基于卷积神经网络的语义特征学习模型和面向深度语义学习的混合式最近邻清理策略。

1.跨版本软件缺陷预测中面向深度语义学习的整体框架

针对软件缺陷预测过程中未充分使用源代码语义特征以及训练数据集中类重叠问题，提出一种面向类重叠的跨版本软件缺陷深度特征学习方法CnnSncr，该方法采用混合式最近邻清理策略处理深度语义特征学习过程中的类重叠。使用该方法可以自动的从源代码中学习语义和结构特征，为分类器提供基于深度语义学习的特征向量。该方法的整体流程如图1所示。

该方法首先从训练数据集和测试数据集出发，构建抽象语法树(Abstract SyntaxTrees),具体实验中，采用软件开发过程中发布的前一个版本的历史数据作为训练数据集，下一个版本的软件开发数据作为测试数据集。构建抽象语法树过程中，选择具有代表性的语法树节点表示软件模块，每个软件模块构筑符号向量。采用的具有代表性的语法树节点如图2所示。

符号向量采用one-hot编码方式进行编码，对输入向量进行词嵌入，作为卷积神经网络的输入。卷积神经网络随后从输入向量中自动学***衡问题，对训练数据进行过采样，过采样完的数据集可能会带来更多的类重叠。从近邻出发，对多数类与少数类同时进行清理，处理潜在的重叠软件模块向量。经过预处理的深度语义特征，作为传统分类器，比如Logistic Regression分类器的输入。在Logistic Regression分类器上训练分类模型，并对测试数据集进行测试。

2.基于卷积神经网络的语义特征学习模型

卷积神经网络(Convolutional Neural Networks,CNN)拥有深度特征提取的能力，基于源代码使用one-hot编码以后的特征向量具有内在的语义和语法结构，通过引入CNN能够创建表征语义信息的新的深度特征向量。考虑到不同的源代码之间拥有较大的文件大小差异，本文提出的基于卷积神经网络的语义特征学习模型采用的是有监督的深度语义学习范式，通过对训练数据集的优化能够生成更加适合当前项目的语义。

假定当前软件项目有文件数目为n，X＝{x₁x₂，..x_n}，软件缺陷预测问题可以被形式化为学习任务，该学习任务从训练数据集中学习预测函数：

F：X→Y，y_i∈Y＝{1，0} (1)

其中y_i∈Y，指示软件模块是否含有软件缺陷；

max表示为该文件中最大特征标记数目；该标记指的是具有代表性的语法树节点，同时剔除了文件中数目小于3的标记；经过word2vec模型处理完以后，得到具有固定长度的词嵌入向量，该向量为：v_i∈R^p×q；v_i表示对应于项目文件x_i的词嵌入向量。

训练过的词嵌入向量作为CNN的输入。在输入方向设置多个一维卷积核，从词嵌入向量中提取单词的特征，并将输出结果输入到池化层。为了对优化过程中的参数加以约束，引入正则化，采用dropout方法在反向传播误差更新权值时候随机删除部分神经元。

对池化层输出展开为全连接层，多次迭代训练得到语义特征向量。训练过程中采用minibatch stochastic gradient descent算法，优化器选用Adam optimizer。基于该语义特征向量来判断当前模块是否存在缺陷。

3.面向深度语义学习的混合式最近邻清理策略

基于卷积神经网络的深度语义学习模型，能够从软件开发过程中的源代码学习到语义特征。软件缺陷模块标注存在特征相同却拥有不同标记的情况，这种情况被称作类重叠(class overlap)，类重叠问题同样存在于文本分类等领域。本发明使用混合式的策略来解决类重叠问题，该策略为special neighborhood cleaning rule(SNCR)。该策略的伪代码如算法1所示。

算法1混合式最近邻策略

输出：清理完成的数据集T′＝{C″′_max，C″′_min}；

2)遍历Cmin.集合中的每个样例；

3)利用欧氏距离选择k最近邻；

4)选择样例x_i(nn)，生成随机数δ，δ∈{0，1}；

5)利用当前样例与x_i(nn)生成新样例：x_i1＝x_i+δ，*(x_i(nn)-x_i)；

6)将新生成样例加入到C_min集合，更新集合为C′_min；

8)根据预定义的欧式距离计算与当前样例最近的N_x个样例；

9)如果N_x中任意一个样例包含于集合C_max，则删除；

10)更新集合C_max为C′_max；

11)同理，遍历Cmax集合中的每个样例，删除类重叠样例，更新C′_min为C″_min；

12)定义当前的输入数据集为{C″_min，C′_max}；

14)使用标准K-means算法将数据集分为k簇；

15)循环遍历每个簇；

16)在每个簇中计算少数类集合与多数类集合的比值，

17)如果当前的比值

则删除当前簇中少数类；

18)如果当前的比值

则删除当前簇中多数类；

19)合并所有簇中剩余的样例为新的输出集合T′。

第二个步骤是在新生成的少数类集合C′_min与多数类集合C_max上分别进行迭代，依据欧式距离计算得到与样例最近的N_x近邻；如果该近邻的标记与当前的标记不一致，则最终删除，实现对多数类与少数类潜在类重叠模块的清理：

提出SNCR策略的动机是，从直观上讲软件缺陷深度语义数据集包含大量数据，并且类重叠的问题是不可避免的，仅对大多数类别进行欠采样来解决类别不平衡的问题是不合理的。因此，首先应使用过采样来使不同类型直接达到数据平衡。同时，过采样也可能导致更多的类重叠。此时，同时对当前多数类和少数类执行最近邻居学习，并消除了潜在的类重叠实例。由于深度语义数据量相对较大，除了使用上述最近邻方法查找潜在的类重叠实例外，还可以通过引入标准K-Means算法来分析当前数据集。对数据集执行聚类分析，并删除每个集群中的异常实例。

实验测试例1

本发明的实验测试如下：本发明的实验过程包括实验数据集、评价指标以及数据统计分析方法和实验中用以进行比较的类重叠处理策略等。所有实验基于至强E5-2670的CPU与16G内存的工作站上完成，同时在NVIDIA GeForce RTX 2070上的GPU上训练深度神经网络并进行分析处理。实验中使用的相关分类器来源于scikit-learn，深度神经网络库采用TensofFlow 2.0稳定版本。

1.实验数据集

该实验采用的软件缺陷预测数据集来源于PROMISE数据仓库，该数据集为公开的数据集，在软件缺陷预测问题上被广泛使用。该数据集中七个开源的JAVA软件项目被选择以完成实验，因为每个软件项目的版本号、类名称、相关的标记都是确定的，与类名称相对应的源代码从GitHub上下载并进行分析处理。表I简要的描述了实验中用到的七个项目，包括项目描述，版本号，缺陷模块比例等。为了获取项目中用到的训练数据集和测试数据集，将前一个版本的源代码作为训练数据集，而将下一个相邻版本的源代码作为测试数据集。本实验中没有使用传统的基于统计的软件缺陷特征。

表I数据集描述

2.评价指标以及数据统计分析方法

鉴于软件缺陷预测数据集中常见的类不平衡问题，AUC(area under thereceiver operating characteristic curve)被作为分类器性能的评价指标。AUC定义为ROC曲线和坐标轴所包围的区域。最大值不能超过1，AUC值越接近1，则分类器检测的真实性越高。相反，当它接近最小值0.5时，表示没有应用价值。为了对详细的预测结果进行统计评估，我们首先使用Friedman test确定不同的数据处理策略之间是否存在统计学上的显着差异。如果存在统计学上的显着差异，则应用post-hoc Nemenyi test比较差异。

3.实验中用到的类重叠处理策略

为了比较类重叠对基于深度语义的软件缺陷预测分类性能的影响，将SNCR策略与IKMCCA策略，以及NCR策略进行了比较。为了公平起见，将以上种数据预处理策略与没有数据预处理的情况进行了比较，该策略被记为noclean策略。

4.结果分析

对实验结果进行展示以对比在使用了数据处理策略以后与未使用数据处理策略情况下的性能差别。使用IKMCCA与SNCR策略的时候，算法中的超参数值p％被设定为少数类与多数类之间的比值。不同数据处理策略的性能对比小提琴图如图4所示。从图中，可以观察到，使用SNCR策略可以获得Logistic Regression分类器上AUC度量的最佳中值。也就是说，(1)与noclean策略相比，最好考虑使用清洗策略来解决类重叠问题；(2)与IKMCCA与NCR相比，SNCR方法在七个开源项目组成的数据集上表现更好。

评价指标的图形显示不能量化表明不同策略的直接差异；同时，为了从统计角度比较差异训练数据集上不同策略的性能，使用置信度为95％的非参数Friedman test对结果进行统计分析。首先，我们定义Null和Alternative Hypotheses，如下所示：

H0：基于深度学习学出的语义特征，不同针对类重叠问题的数据预处理方法不存在性能差异。

H1：基于深度学习学出的语义特征，不同针对类重叠问题的数据预处理方法存在性能差异。

其次，设置显着性水平α＝0.05，通过计算发现计算值小于临界值，因此NullHypotheses被拒绝，这四种策略之间存在统计差异。为了揭示不同策略之间的差异，进一步采用post-hoc Nemenyi test分析方法。表II显示了使用AUC指标的四种数据处理策略的平均排名结果。

表II基于AUC指标的不同策略的平均排名

本发明中的类重叠问题的结果是语义特征向量在特征空间中重叠，这种模糊性削弱了分类器的边界，并导致分类器的性能下降。鉴于此，从解决深度语义特征学***衡问题与类重叠问题，对数据的统计分析结果表明该策略能够提升基于深度语义学习的软件缺陷预测的性能，使用混合式最近邻清理策略能够比不处理类重叠问题情况下，AUC指标最多在中值上提升14.8％。

Claims

1.一种可缓解类重叠问题的跨版本深度缺陷预测方法，其特征在于：包括如下：1、跨版本软件缺陷预测中面向深度语义学习的整体框架；2、基于卷积神经网络的语义特征学习模型；3、面向深度语义学习的混合式最近邻清理策略；

具体如下：

1.跨版本软件缺陷预测中面向深度语义学习的整体框架：

2.基于卷积神经网络的语义特征学习模型：

F：X→Y，y_i∈Y＝{1，0} (1)

其中y_i∈Y，指示软件模块是否含有软件缺陷；

表示为该文件中最大特征标记数目；该标记指的是具有代表性的语法树节点，同时剔除了文件中数目小于3的标记；经过word2vec模型处理完以后，得到具有固定长度的词嵌入向量，该向量为v_i∈R^p×q；v_i表示对应于项目文件x_i的词嵌入向量；

3.面向深度语义学习的混合式最近邻清理策略：

1)输入：训练数据集T＝{Cmax,Cmin},其中Cmax属于多数类,Cmin属于少数类,d表示有缺陷模块与所有模块数目的比值；

输出：清理完成的数据集T′＝{C″′_max，C″′_min}；

2)遍历Cmin.集合中的每个样例；

3)利用欧氏距离选择k最近邻；

4)选择样例x_i(nn)，生成随机数δ，δ∈{0，1}；

5)利用当前样例与x_i(nn)生成新样例：x_i1＝x_i+δ*(x_i(nn)-x_i)；

6)将新生成样例加入到Cmin集合，更新集合为C′_min；

8)根据预定义的欧式距离计算与当前样例最近的N_x个样例；

9)如果N_x中任意一个样例包含于集合C_max，则删除；

10)更新集合C_max为C′_max；

12)定义当前的输入数据集为{C″_min，C′_max}；

14)使用标准K-means算法将数据集分为k簇；

15)循环遍历每个簇；

16)在每个簇中计算少数类集合与多数类集合的比值，

17)如果当前的比值

则删除当前簇中少数类；

18)如果当前的比值

则删除当前簇中多数类；

19)合并所有簇中剩余的样例为新的输出集合T′。