CN110287124A

CN110287124A - 一种自动标记软件错误报告并进行严重性识别的方法

Info

Publication number: CN110287124A
Application number: CN201910595620.7A
Authority: CN
Inventors: 李辉; 杨溪; 张天伦; 李阳; 李博; 陈荣; 葛新
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-09-27
Anticipated expiration: 2039-07-03
Also published as: CN110287124B

Abstract

本发明公开了一种自动标记软件错误报告并进行严重性识别的方法，包括以下步骤：S1：对软件错误报告进行编码并将错误报告标记为严重或不严重；S2：采用严重报告和不严重报告训练分类器，获得每个输入报告的后验概率，其中后验概率为输入报告分类的概率分布；S3：采用完成训练的分类器对无标记报告的数据集进行分类，并获得该数据集中每个样例的后验概率；S4：根据S3中求得的后验概率求解每个无标记报告的模糊度；S5：将无标记报告按照模糊度的升序排列，选取前k个无标记报告填充到原数据集中扩充数据集，对扩充后的数据集重新训练分类器。

Description

一种自动标记软件错误报告并进行严重性识别的方法

技术领域

本发明涉及宽度学习技术领域，尤其涉及一种自动标记软件错误报告并进行严重性识别的方法。

背景技术

深度学习在许多应用中受到了广泛的欢迎，同时除了深度神经网络之外，还提出了其他几种连接模型并成功应用于某些问题。其中一种模型是极限学习机ELM它是一种随机权重神经网络，由于其突出的泛化能力和快速的训练速度而引起关注。另一种类型的模型是宽度学习模型BLS，它也是一种连接模型，并提供了构建神经网络的另一种方法。该方法通过增加特征神经元和增强神经元的数量来促进神经网络的泛化能力。由于在开发软件***的过程中会生成错误报告，以指导开发人员确保软件可靠性。识别bug报告的严重性是软件工程中的重要研究。现有技术中所有识别错误报告严重性的方法和相关工作均基于错误报告和相应标签组成的样本。虽然错误报告的手动标注是费时费力的，但据我们所知，没有标签的错误报告很少能用于严重性识别。此外，由于训练数据不足，大多数连接型分类器都会受到过度拟合的影响。具体地说，过度拟合的分类模型是与特定数据集关联过于紧密，因此可能无法适应其他数据或预测出可靠的分类结果。

发明内容

根据现有技术存在的问题，本发明公开了一种自动标记软件错误报告并进行严重性识别的方法，具体包括如下步骤：

S1：对软件错误报告进行编码并将错误报告标记为严重或不严重；

S2：采用严重报告和不严重报告训练分类器，获得每个输入报告的后验概率，其中后验概率为输入报告分类的概率分布；

S3：采用完成训练的分类器对无标记报告的数据集进行分类，并获得该数据集中每个样例的后验概率；

S4：根据S3中求得的后验概率求解每个无标记报告的模糊度；

S5：将无标记报告按照模糊度的升序排列，选取前k个无标记报告填充到原数据集中扩充数据集，对扩充后的数据集重新训练分类器。

进一步的，所述S2具体采用如下方式：

S21：将极限学习机宽度学习***作为分类器，采用随机赋权机制训练该分类器，其中极限学习机输入层表达公式为：

H＝σ(XW+B)

其中隐层权重根据特定分布随机赋权，通过最小化实际输出与标签之间的距离求得输出层权重，W、B分别表示权重矩阵和偏置矩阵，由预设的分布随机采样得出W和B，H为隐层矩阵经过激活函数σ处理后输出；

极限学习机输出层公式为：

O＝Hβ

隐层矩阵H与输出层权重β结合产生结果矩阵O，其中输出层权重β通过最小二值问题解决：

其解为：其中表示隐层矩阵的广义逆；

增加增强神经元，通过对隐层输出矩阵进一步做非线性变换得到，即：

通过将增强神经元与隐层神经元结合连接输出层权重得到网络输出：

Y＝[H,E]W_out

S22：使用softmax函数对S21中分类器的输出进行处理，使输出结果变为分类的后验概率p(c|x)：

进一步的，S4具体采用如下方式：

根据S3中获得的后验概率结合模糊度计算模型求出各输入报告的模糊度，其中模糊度计算模型为：

所述模糊度计算模型满足如下条件：是一个确定集合，F(μ)取得最大值如果μ≤_sσ，那么F(μ)≥F(σ)，当μ′(x)＝1-μ(x)时，F(μ)＝F(μ′)，

F(μ∩σ)+F(μ∪σ)＝F(μ)+F(σ)其中μ和σ分别表示两个定义在离散有限空间X上的模糊集，其中x代表离散的有限空间，x是X的一部分。

由于采用了上述技术方案，本发明提供的一种自动标记软件错误报告并进行严重性识别的方法，该方法中提出了自动注释错误报告的基于模糊度的增量学习方法，基于该方法，我们提出了半监督学习和转移学习两种不同的应用方式，半监督学习用于解一种自动标记软件错误报告并进行严重性识别的方法决自动标记错误报告严重性的问题，转移学习方法用转移的样本增加训练数据集，本申请概括的方法将用于软件工程的其他任务的应用，并促进其他类型的分类器的泛化能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的一种自动标记软件错误报告并进行严重性识别的方法，具体包括以下步骤：

S1：使用word2vec对软件错误报告进行编码，并将报告分为严重与不严重两种，具体包括如下步骤：

S11：获得软件错误报告数据集，包括有标签数据集，无标签数据集。

S12：将有标签数据集重新划分为严重错误与不严重错误。

S13：使用word2vec将软件错误报告中的编码为相同维度的向量。

S14：将有标签数据集中的标签进行one-hot编码。

S2：使用S1处理好的有标签数据训练一个弱分类器：将该分类器的结果使用softmax函数处理得到每个输入样例的后验概率。每个输入报告的后验概率大于每个输入报告分类的概率分布；

S21：使用极限学习机实现宽度学习***作为分类器：

极限学习机是一个前向传播的网络，使用随机赋权机制训练：隐层权重根据特定分布随机赋权，输出层权重可以通过最小化实际输出与标签之间的距离来求得。极限学习机输入层可以公式化表示为：

H＝σ(XW+B)

W,B分别表示权重矩阵与偏置矩阵，其值如上所述，由预设的分布随机采样得出。H为隐层矩阵经过激活函数σ处理后的输出。

极限学习机输出层公式化表示为：

O＝Hβ

隐层矩阵H与输出层权重β结合产生结果矩阵O。其中输出层权重β可以通过一个最小二值问题解决：

其解为：其中表示隐层矩阵的广义逆。

宽度学习***通过增加特征神经元与增强神经元的数量来提升网络模型的泛化能力。在宽度学习***中，除了通过对输入数据进行非线性变换得到的隐层输出矩阵外，还增加了增强神经元，通过对隐层输出矩阵进一步做非线性变换得到，即：

最后，通过将增强神经元与隐层神经元结合连接输出层权重得到网络输出：

Y＝[H,E]W_out

S22：使用softmax函数对S21中模型的输出进行处理，使输出结果变为分类的后验概率p(c|x)：

S3：使用S2训练好的分类器对S1编码后的无标签的数据进行分类，并使用softmax函数得到该数据集中每个样例的后验概率。

S31：使用S2中已训练好的模型对S1中无标签但已编码的数据进行预测，得到输出矩阵。

S32：将S31中获得的输出矩阵使用S2提到的softmax函数进行处理，获得关于无标签数据的后验概率矩阵。对每个输入样例来说，对应该后验概率为一个向量，分别代表属于各类的概率，同时这些概率相加为1。

S4：根据S3求得的后验概率求解每个样例的模糊度，即，每个样例分类的不确定性。根据S3获得的后验概率矩阵，结合模糊度计算模型，求出各输入样例的模糊度：

模糊度的计算模型需要满足：

1：是一个确定集合。

2：F(μ)取得最大值

3：如果μ≤_sσ，那么F(μ)≥F(σ)

4：当μ′(x)＝1-μ(x)时，F(μ)＝F(μ′)，

5：F(μ∩σ)+F(μ∪σ)＝F(μ)+F(σ)

其中μ和σ分别表示两个定义在离散有限空间X上的模糊集，x是X的一部分。操作≤_s定义如下：

S42：样例的模糊度表示决策的确定性，模糊度越低，则表示对该样例的判断越确定，反之，越不确定。当后验概率为0.5时，样例的模糊度最高。

S5：将S3中的无标签数据按S4得到的模糊度升序排序，选取前k个模糊度小的样例填充到原数据集中扩充数据集。

S51：将无标签样例根据其模糊度升序排序，也就是说模糊度越小的样例越靠前。

S52：根据S4中模糊度的性质，因为模糊度可以表示样例分类的不确定性。所以从排好序的样例序列中选取前k个根据其各自所述分类添加到原训练数据集中。

S53：S52中使用的k为经验值，对所构建的增强数据集起重大作用。

S6：使用S5扩充后的数据集重新训练分类器，得到一个分类效果更好地分类器。使用增强数据集训练的分类器分类能力因为数据集的扩充而得到提高，理想情况下，会将所有无标签数据集中的数据全部标注，得到最好的分类器。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种自动标记软件错误报告并进行严重性识别的方法，其特征在于包括：以下步骤：

S4：根据S3中求得的后验概率求解每个无标记报告的模糊度；

2.根据权利要求1所述的一种自动标记软件错误报告并进行严重性识别的方法，其特征还在于：所述S2具体采用如下方式：

H＝σ(XW+B)

极限学习机输出层公式为：

O＝Hβ

其解为：其中表示隐层矩阵的广义逆；

Y＝[H,E]W_out

3.根据权利要求1所述的一种自动标记软件错误报告并进行严重性识别的方法，其特征还在于：S4具体采用如下方式：

F(μ∩σ)+F(μ∪σ)＝F(μ)+F(σ)其中μ和σ分别表示两个定义在离散有限空间X上的模糊集；其中x代表离散的有限空间，x是X的一部分。