CN108038056B

CN108038056B - 一种基于不对称分类评估的软件缺陷检测***

Info

Publication number: CN108038056B
Application number: CN201711281802.4A
Authority: CN
Inventors: 马樱; 朱顺痣; 翁伟; 王琰
Original assignee: Xiamen University of Technology
Current assignee: Xiamen University of Technology
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2020-07-03
Anticipated expiration: 2037-12-07
Also published as: CN108038056A

Abstract

本发明提供一种基于不对称分类评估的软件缺陷检测***，该***包括软件数据输入接口、控制器以及检测结果输出端口，所述控制器用于：首先对接收的软件模块进行检测，获取原始软件度量数据集，对原始软件度量数据集的数据进行预处理，将数据分为训练样本和测试样本，对训练样本数据进行字典学***衡问题带来的误差，准确定位软件缺陷位置。

Description

一种基于不对称分类评估的软件缺陷检测***

【技术领域】

本发明涉及计算机***，特别涉及一种基于不对称分类评估的软件缺陷检测***。

【背景技术】

计算机***包括软件***与硬件***，而面对庞大复杂的软件***，软件缺陷是计算机软件经常出现问题，在软件整个生命周期里，软件缺陷成为影响软件质量的一个重要因素，发现和排查软件缺陷是一项重要的工作，然而，发现和排除软件缺陷需要耗费大量的人力和物力。2006年，在与软件缺陷相关的费用方面，美国花费大约780 亿美元。根据美国国防部的数据显示，用在与软件相关的工作上的资金大约占整个IT产品的42％，据美国调查研究结果表示，在整个软件花费中，美国在软件测试上的花费就占了53％-87％。因此合理预测缺陷能够有助于及时找出未被发现但是真实存在的缺陷以及缺陷分布，因此，不仅可以节约大量的成本，提高产品质量，还能够客观地评价测试结果，让开发者合理的权衡潜在预测风险和测试成本之间的关系，便于科学的进行软件检测工作。虽然不同度元的数据采集方法不同，但是在预测算法中对不同的度量元并不区分处理，预测算法却具有通用性，现有技术中将字典学习方法用于软件缺陷检测中，但是常规的字典学习算法不能有效利用数据集中不同类型本的判别性质，同时在分类评估时没有考虑到算法中不对称性，因此，提供一种具有有效数据处理的软件检测***势在必行。

【发明内容】

本发明旨在提供一种基于不对称分类评估的软件缺陷检测***，能够通过在传统的字典学习模型中通过加入判别约束项、在分类器性能评估中考虑到不对称性，来提高数据性能，更好的完成软件检测。

技术方案为：一种基于不对称分类评估的软件缺陷检测***，所述***包括软件数据输入接口、控制器以及检测结果输出端口，所述软件数据输入接口用于接收要检测的软件数据，所述控制器用于对所述软件数据进行检测，并通过所述检测结果输出端口将结果输出，所述软件数据为要检测的软件的软件模块。

进一步的，所述控制器被构造为实现以下步骤：

步骤(1)，对接收的软件模块进行检测；

步骤(2)，获取原始软件度量数据集，对原始软件度量数据集的数据进行预处理；

步骤(3)，将数据分为训练样本和测试样本，定义A＝[A₁，A₂， A₃……，A_i，……，A_c]为的训练样本集合，其中A_i为第i类的子样本集合，定义X＝[X₁，X₂，X₃……，X_i，……，X_c]为A关于字典集合D的表示系数矩阵；

步骤(4)，对训练样本数据代入至字典学习模型，并判别；

步骤(5)，通过元数据固定对所述步骤(4)中判别后的数据进行结构化；步骤(5)具体包括以下步骤，

步骤501，初始化字典集合D，对D每一列以随机矢量l₁范式项进行初始化；

步骤502，固定字典集合D，通过IMP以迭代的形式进行求解系数集合X；

步骤503，通过元数据固定步骤502中的X，更新D，得到最终的结构化的字典，更新D方法如下：

其中d为字典的元数据，稀疏系数X为系数矩阵，X＝ [β₁，β₂，…₁，β_P]，这里β_j，j＝1，2，……，p，是矩阵的行向量，逐个更新，当更新到d_j时，其他字典集合D的列被固定，比如，d_l，l≠j，然后，J_D被转化为下述公式，

设置C＝A-∑_l≠jd_lβ_l，则

使用拉格朗日乘子，

等价于

其中γ是一个可变量，积分

考虑d_j，使其变0，得到

所以

的约束下，解答等式(2)，

这里||·||₂是l₁范式项，

继而更新所有的d_j的元数据。返回公式(1)，一直到J_D，X的迭代最大数已经达到，最后输出D；

步骤(6)，使用非对称分类器对步骤(5)中结构化后的数据进行性能评估；

步骤(7)，检测转入所述测试样本；

步骤(8)，对测试样本使用步骤(4)、(5)、(6)进行性能评估，即对软件检测模块进行缺陷检测；

步骤(9)，将评估结果反馈给测试者，完成检测。

更进一步的，步骤(6)中非对称分类器设计为：

步骤601，执行非线性映射φ：

对高维特征空间生成一个输入变量，在该空间进行线性偏最小二乘法。

定义为具有数目l的标签样本，和

定义为有数目u的未标签样本。对于标签样本，Y＝{+1，-1}，有缺陷模块被标记为‘+1’，没有缺陷的模块标记为‘-1’，软件缺陷数据设置为高度不平衡的状态，该状态为少数类样本(缺陷模块)相比与多数样本 (非缺陷模块)数目相差悬殊；

步骤602，在类区r范围设定中心M和重叠参数ε，少数类样本与多数类样本可以被表示为M₊₁-M_-1＝ε(r₊₁-r_-1)，参数ε表示两个区域的重叠等级，如果重叠度高，设定特征值等式：

φφ^Tψψ^Tτ＝μτ (3)

这里φ、ψ分别定义为X空间的映射矩阵和Y空间的映射矩阵，而X、Y空间均在特征空间

中，为了减少不平衡问题带来的亏损，使用偏差

非对称分类器可以表示为

设定

其中k是潜在变量的计数值，t_i是测试数据第i个得分向量，m_i表示第i个得分向量的方位，偏差b等于m₁(M₊₁-r₊₁ε)，回归分析

/是标记样本的技术，k(x_i，x)是内核函数，不对称分类器在此推算为：

a_i是双重回归系数，可以从最小二乘法获得，

是分类器的偏差。

c₁是第一得分τ₁的位置，根据τ₁计算中心值(M₊₁，M_-1)和半径 (r₊₁，r_-1)，τ可以根据等式(3)获得。

其中，本发明与现有技术相比，本发明提供的软件检测***，能够将建模过程、检测过程和软件模块开发过程融合，有效处理数据，将数据样本预处理和处理有效融合，同时利用不对称分类对数据处理结果进行性能评估，以提升整个过程的测试性能。

【附图说明】

图1为本发明的***结构示意图。

图2为本发明软件检测***工作流程示意图。

图3为本发明数据进行结构化的流程示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。根据结合附图进行的对示例性实施例的以下描述，上述和/或其他方面将变得清楚并且更容易被理解。

实施例一。

一种基于不对称分类评估的软件缺陷检测***，所述***包括软件数据输入接口、控制器以及检测结果输出端口，所述软件数据输入接口用于接收要检测的软件数据，所述控制器用于对所述软件数据进行检测，并通过所述检测结果输出端口将结果输出，所述软件数据为要检测的软件的软件模块。

所述控制器被构造为实现以下步骤：

步骤(1)，对接收的软件模块进行检测；

步骤(4)，对训练样本数据代入至字典学习模型，并判别；

设置C＝A-∑_l≠jd_lβ_l，则

使用拉格朗日乘子，

等价于

其中γ是一个可变量，积分

考虑d_j，使其变0，得到

所以

的约束下，解答等式(2)，

这里||·||₂是l₁范式项，

步骤(7)，检测转入所述测试样本；

步骤(9)，将评估结果反馈给测试者，完成检测。

更进一步的，步骤(6)中非对称分类器设计为：

步骤601，执行非线性映射φ：

定义为具有数目l的标签样本，和

φφ^Tψψ^Tτ＝μτ (3)

中，为了减少不平衡问题带来的亏损，使用偏差

非对称分类器可以表示为

设定

a_i是双重回归系数，可以从最小二乘法获得，

是分类器的偏差。

实施例二。

首先通过接口对接收的软件模块进行检测，获取原始软件度量数据集的数据，对原始软件度量数据集的数据进行预处理，定义A＝[A₁，A₂，A₃……，A_i，……，A_c]为的训练样本集合，其中A_i为第i类的子样本集合，定义X＝[X₁，X₂，X₃……，X_i，……，X_c]为A关于字典集合D的表示系数矩阵，对样本集合进行线性组合表示：

A≈DX

其中，X_i是第i类样本A_i关于D集合训练得到的表示系数。

基于上述内容，将数据分为训练样本和测试样本，此处为本领域中常用的技术方法，在此不在赘述。

建立字典判别项的学习模型，其数学模型如下：

P_(D，X)＝arg_(D，X)min{r(A，D，X)+λ||X||₁}

其中r(A，D，X)是判别精确项，其能够较好地衡量样本的判别能力，||X||₁为稀疏表示系数，参数是一个平衡因子，对于某一类样本的稀疏表示系数X_i可以表示为

其中

是A_i关于字典D_j的编码矩阵。定义D_k对于A_i的稀疏表示为：

判别字典学习模型首先需要使用整体字典集合D能够尽可能近似地表示出任一类样本集合A，因此需要满足下式：

其次，由于子字典D_i是关于第i类的，显然希望尽可能地使得第i类样本A_i也能够由相应类的子字典D_i(非D_j)进行近似表示，此时误差项

及

均应最小化；而由不同类的字典表示的值

较小。根据以上的分析，最终本发明的判别项定义为：

在此基础上，改善字典集合D的判别能力，在稀疏表示项中添加多元统计分析判别约束项f(X)，以使得使用字典集合D对图像集A进行表示时有着较好的区分能力。因此可以定义表示系数矩阵X的类内、类间散度矩阵如下：

其中m_i表示第i类表示系数的均值，x_k表示第i类中一样本表示系数，m表示为总的样本，表示均值，n_i是第i类样本的个数。

多元统计分析判别准则的目标函数可以简化为tr(S_W(X))/tr(S_B(X))的形式，其中tr()表示矩阵的迹。

判别后，通过固定字典集合D来更新系数矩阵X，然后通过固定系数矩阵X来更新字典集合D，通过这种模式来求解所需的结构化字典，及对数据进行元数据固定法来结构化。具体步骤如下：

步骤502，固定字典集合，通过IMP以迭代的形式进行求解系数集合X；迭代方式为本领域中常用的方法，在此不在扩展描述。

步骤503，固定步骤502中的X，通过下述更新D，得到最终的结构化的字典。更新D方法如下：

其中d为字典的元数据，稀疏系数X为系数矩阵，X＝ [β₁，β₂，…₁，β_P]，这里β_j，j＝1，2，……，p，是矩阵的行向量，逐个更新，当更新到d_j时，其他字典集合D的列被固定，比如，d_l，l≠j。然后，J_D被转化为下述公式：

这里让C＝A-∑_l≠jd_lβ_l，则上面等式变为：

使用拉格朗日乘子，

等价于下述

这里γ是一个可变量，积分

考虑d_j，使其变0，得到

所以

的约束下，解答等式(2)，

这里||·||₂是l₁范式项。

使用上面的程序，可以更新所有的d_j的元数据。返回公式(1)，一直到J_D，X的迭代最大数已经达到，最后输出D。

对数据进行结构化后，一般情况使用SRC分类器对样本进行重构，本发明使用非对称分类器进行性能评，可以使数据分析更加准确。

对数据进行线性转换，执行子集上的回归，提取潜在变量，预测软件缺陷。第一步，首先执行非线性映射φ：

对高维特征空间生成一个输入变量。然后，在这个空间进行线性偏最小二乘法。

在软件缺陷检测中，

定义为具有数目l 的标签样本，和

定义为有数目u的未标签样本。对于标签样本，Y＝{+1，-1}，有缺陷模块被标记为‘+1’，没有缺陷的模块标记为‘-1’，软件缺陷数据设置为高度不平衡的状态，比如一些少数类样本(缺陷模块)相比与多数样本(非缺陷模块)数目相差悬殊。

在类区r范围设定中心M和重叠参数ε，两个分类可以被表示为M₊₁-M_-1＝ε(r₊₁-r_-1)。参数ε表示两个区域的重叠等级。如果重叠度高，特别数据设置已经是非线性可分开的。为了克服这种重叠问题，设定如下特征值等式：

φφ^Tψψ^Tτ＝μτ (3)

中。而非线性特征特征选择方法可以减少两个区域的重叠，但是类的不平衡问题可以导致不能够准确识别少数类。为了减少不平衡问题带来的亏损，在数学模型中使用偏差

。非对称分类器可以表示为

这个可以从线性回归模型导出，设定

其中k是潜在变量的计数值，t_i是测试数据第i个得分向量，m_i表示第i个得分向量的方位，偏差b等于 m₁(M₊₁-r₊₁ε)。回归分析

这里l 是标记样本的技术，k(x_i，x)是内核函数，而a_i是双重回归系数。那么分类器在此推算为：

这里a_i是双重回归系数，可以从最小二乘法获得，

是分类器的偏差。

这里c₁是第一得分τ₁的位置，根据τ₁计算中心值(M₊₁，M_-1) 和半径(r₊₁，r_-1)，τ可以根据等式(3)获得。

根据上述步骤，得到软件缺陷位置，用上述设计好的整套模型对软件检测模块进行缺陷检测；步骤将评估结果反馈给测试者，完成检测。

以上所述仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，不应理解为对本发明的限制。本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于不对称分类评估的软件缺陷检测***，所述***包括软件数据输入接口、控制器以及检测结果输出端口，所述软件数据输入接口用于接收要检测的软件数据，所述控制器用于对所述软件数据进行检测，并通过所述检测结果输出端口将结果输出，所述软件数据为要检测的软件的软件模块；

其特征在于，所述控制器被构造为实现以下步骤：

步骤(1)，对接收的软件模块进行检测；

步骤(3)，将数据分为训练样本和测试样本，定义A＝[A₁，A₂，A₃......，A_i，......，A_c]的训练样本集合，其中A_i为第i类的子样本集合，定义X＝[X₁，X₂，X₃......，X_i，......，X_c]为A关于字典集合D的表示系数矩阵；

步骤(4)，将训练样本数据代入至字典学习模型，并判别；

其中d为字典的元数据，稀疏系数X为系数矩阵，X＝[β₁，β₂，…，β_P]，这里β_j，j＝1，2，......，p，是矩阵的行向量，逐个更新，当更新到d_j时，其他字典集合D的列被固定，然后，J_D被转化为下述公式，

设置C＝A-∑_l≠jd_lβ_l，则

使用拉格朗日乘子将

等价于

其中γ是一个可变量，积分

考虑d_j，使

变0，得到

所以

的约束下，解答等式(2)，

这里||·||₂是l₁范式项，

继而更新所有的d_j的元数据；返回公式(1)，一直到J_D，X的迭代最大数已经达到，最后输出D；

步骤(7)，检测转入所述测试样本；

步骤(9)，将评估结果反馈给测试者，完成检测。

2.如权利要求1所述的软件缺陷检测***，其特征在于：步骤(6)中非对称分类器设计为：

步骤601，执行非线性映射φ：

对高维特征空间生成一个输入变量，在该空间进行线性偏最小二乘法；

定义为具有数目l的标签样本，和

定义为有数目u的未标签样本；对于标签样本，Y＝{+1，-1}，有缺陷模块被标记为‘+1’，没有缺陷的模块标记为‘-1’，软件缺陷数据设置为高度不平衡的状态，该状态为缺陷模块的数量相比于非缺陷模块的数量相差悬殊；

步骤602，在类区r范围设定中心M和重叠参数ε，少数类样本与多数类样本被表示为M₊₁-M_-1＝ε(r₊₁-r_-1)，参数ε表示两个区域的重叠等级，如果重叠度高，设定特征值等式：

φφ^Tψψ^Tτ＝μτ (3)

中，为了减少不平衡问题带来的亏损，使用偏差

非对称分类器表示为

设定

l是标记样本的技术，k(x_i，x)是内核函数，不对称分类器在此推算为：

a_i是双重回归系数，其从最小二乘法获得，

是分类器的偏差；

c₁是第一得分τ₁的位置，根据τ₁计算中心值(M₊₁，M_-1)和半径(r₊₁，r_-1)，τ根据等式(3)获得。