CN110516722B

CN110516722B - 一种基于主动学习的需求与代码之间可追踪性的自动生成方法

Info

Publication number: CN110516722B
Application number: CN201910752552.0A
Authority: CN
Inventors: 沈国华; 杜天保; 喻垚慎; 黄志球; 吴德香
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2023-08-22
Anticipated expiration: 2039-08-15
Also published as: CN110516722A

Abstract

本发明公开了一种基于主动学***衡技术平衡训练集中数据；利用随机森林分类算法在训练集上训练出分类器；通过分类器将追踪链自动的分类为有效和无效；实现了在减少追踪链标记数量的同时，可以保持较高的追踪链创建的准确性，本发明给出了文本预处理的过程及训练分类器所需的特征，同时也给出了如何运用主动学习的方法训练分类器。

Description

一种基于主动学习的需求与代码之间可追踪性的自动生成方法

技术领域

本发明属于软件工程技术领域，尤其涉及一种基于主动学习的需求与代码之间可追踪性的自动生成方法。

背景技术

软件的可追性生成(Traceability Link Recovery)是指在源制品S(例如，需求)和目标制品T(例如，代码)之间建立关系，软件可追性支持的活动包括变更影响分析、依赖影响分析、程序分析、测试用例覆盖、需求覆盖等。软件的可追性生成通常需要人在S×T条可能的追踪链(Possible traceability links)中识别出有效的(Valid)追踪链(即，两个制品之间存在关联)。一个大型的项目可能存在成百上千的可能的追踪链，因此，人工的去识别追踪链的有效性是十分困难的。为了应对这一挑战，众多的研究团队通过信息检索，即IR技术，进行可追踪性的自动生成。虽然经过多年的研究，基于IR的方法准确性依然不是很高。

因此，一些团队开始提出使用机器学习的方法进行可追性的自动生成。他们利用项目中已经存在追踪链训练分类器。然后，通过分类器把可能的追踪链分类为有效和无效(Invalid)(即，两个制品之间不存在关联)。

目前比较成熟的基于机器学习进行可追踪性生成的研究主要有：Cleland-Huang等人提出了一种概率分类器，该分类器针对非功能需求的一组指示词进行训练，随后用于建立需求和代码之间的关联关系。Mills等人利用IR相关特征训练出分类器，随后用于识别每条追踪链的有效性。虽然上述方法明显优于传统的基于IR的方法，但它们都依赖于项目中已存在的大量追踪链，需要大量的去标记用于训练的追踪链。

发明内容

本发明的目的是提供一种基于主动学习的需求与代码之间可追踪性的自动生成方法，解决了在减少追踪链标记数量的同时，可以保持较高的追踪链创建的准确性的技术问题。

为实现上述目的，本发明采用如下技术方案：

一种基于主动学习的需求与代码之间可追踪性的自动生成方法，包括如下步骤：

步骤1：建立服务器集群，在服务器集群中建立文本提取模块、文本预处理模块、训练集生成模块、特征提取模块、数据平衡模块、分类器模块和标识模块；

步骤2：文本提取模块从需求和代码中提取文本；

步骤3：文本预处理模块采用信息检索中的文本预处理方法对文本进行预处理；

步骤4：训练集生成模块分析需求和代码间可能存在的追踪链，将每一条追踪链均视为样本，训练模块标记并选取一部分追踪链作为初始训练样本，然后，通过主动学习的方法选择新的样本标识后加入初始的训练集，生成完整的训练集；

步骤5：在特征提取模块中预设一组可以表现追踪链的有效性的特征，特征包括信息检索特征和查询质量特征；

步骤6：数据平衡模块对完整训练集中的样本进行再平衡，使训练集中的有效追踪链与无效追踪链之间的数量得到更平衡的表示；

步骤7：分类器模块采用RandomForest算法在完整训练集上训练出一个可以预测追踪链有效性的分类器；

步骤8：标识模块根据步骤7中得出的分类器对所有追踪链进行分类，标识出有效追踪链和无效追踪链。

优选的，在执行步骤2时，所述文本预处理方法包括标识符拆分、特殊字段与停用词消除以及词性还原和词根获取。

优选的，在执行步骤6时，使用少数类过采样技术对所述完整训练集中的样本进行数据的再平衡。

优选的，在执行步骤4时，采用基于池的主动学习方法，根据已标记的样本生成分类器，再根据分类器的反馈自动从样本池中选择样本进行标记，所述样本池为未标记的样本集合。

本发明所述的一种基于主动学习的需求与代码之间可追踪性的自动生成方法，在减少追踪链标记数量的同时，可以保持较高的追踪链创建的准确性，本发明给出了文本预处理过程及训练分类器所需的特征，同时也给出了如何运用主动学习的方法训练分类器，相对于传统的基于机器学习的方法，本发明的需要更少的人工参与，并且其准确性要优于基于IR的方法。

附图说明

图1是本发明的数据预处理流程图；

图2是本发明的基于主动学习的方法的流程图；

图3是基于流的主动学习的流程图；

图4是本发明的基于池的主动学习的流程图；

图5是本发明的“插值”示例的示意图。

具体实施方式

如图1-图5所示的一种基于主动学习的需求与代码之间可追踪性的自动生成方法，包括如下步骤：

步骤2：文本提取模块从需求和代码中提取文本；

对于代码中的每个类，文本提取模块抽取一个包含类名、函数名、注释的文档；

对于每条需求，文本提取模块抽取一个包含题目和内容的文档；对于有结构的需求抽取其前置条件、主要流程、以及分支流程，对于无结构的需求直接引入所有文本信息。

对所有文本都使用IR技术进行预处理，包括标识符拆分、特殊字段与停用词消除以及词性还原和词根获取。

使用scikit-learn提供的算法随机选择样本建立初始训练集；

主动学习的方法需要设置初始的训练集，初始训练集的大小需要人为的设置，本实施例将初始的训练集大小设置为总的可能的追踪链条数的6％，然后，使用scikit-learn算法随机选择出6％的样本建立初始训练集。

主动学习允许专家迭代地标记未标记的样本，并且可以在每次迭代过程中改进分类器。对于样本集D＝{x₁，x₂，…，x_n}，首先，随机选择少量样本进行标记以初始化一个标记样本集合。本实施例用D_l表示该标记的样本集合，那么未标记的样本集合D_u＝D\D_l。主动学习***通常可以分为两部分：学习引擎和选择引擎。在每次迭代时，学习引擎在D_l上训练分类器。然后，选择引擎从D_u中选择样本x_i，对x_i进行标记后提交给学习引擎。学习引擎和选择引擎交替工作，分类器的准确性逐步提高。当满足终止条件时，迭代将停止。

目前，主动学习大致分为两种类型：基于流和基于池。基于流的主动学习(如图3所示)，未标记的样本按顺序一个接一个地提供给选择引擎，选择引擎决定是否标记当前提供的样本。基于流的方法通过设置阈值来选择要标记的样本。不同的任务需要设置不同的阈值，因此将其用作一般方法是很困难的。

与基于流的方法相比，基于池的方法(如图4所示)不需要设置阈值，而是根据已标记的样本生成的分类器的反馈自动从样本池(未标记的样本集)中选择样本交给专家标记。为了提高方法的适用性，本发明选择不需要设置阈值的基于池的样本选择策略，根据基于池的样本选择策略又选择6％的新的样本加入初始的训练集中，训练集的样本的数量变为总的可能的追踪链的数量12％。

信息检索特征用于计算两个制品之间的相似度，相似程度部分反映了可能的追踪链的有效性，例如，给定两个制品集S₁和S₂，以及制品d₁和d₂，其中，d₁∈S₁和d₂∈S₂。应用IR引擎两次。首先，使用d₁作为查询，并使用S₂中的制品作为语料库。IR结果列表中的d₂排名作为第一个特征。然后使用d₂作为查询，S₁中的制品作为语料库，重复上面的过程。IR结果列表中d₁的排名为第二个特征。考虑这两个方向的原因主要是因为之前的工作表明查询方向的选择会影响查询结果。

由于IR的准确性受到查询质量的影响，本实施例的第二个特征集是关于查询质量的查询质量特征，虽然两个IR排名特征提供了文本相似性的信息，但先前的研究表明查询的质量高度影响IR的结果。例如，如果d₁用作查询的质量很差，虽然IR的排名表示d₁和d₂是关联的，但实际上它们并没有。

为了克服这个潜在问题，本实施例为每个可能的链接生成8个不同的查询质量特征指标，完整的查询质量特征指标见表1；

8个查询质量特征指标就是本发明训练分类器用的特征。

表1

本实施例对来自5个***的7个项目进行统计(统计结果如图2所示)，发现有效的追踪链的数量远小于无效追踪链的数量(比例大约为1:11)。这种数据的不平衡可能会使得少数类样本难以识别。为了解决这个问题，本发明对训练集数据进行再平衡，从而使多数类和少数类更平衡的表示。本繁忙使用不同的再平衡技术和分类算法结合，求出最适合的再平衡技术。

本发明选择的再平衡技术是：

SMOTE技术(Synthetic Minority Oversampling Technique)。

SMOTE的执行过程如下：设训练集的一个少数类的样本数为T，那么SMOTE算法将为这个少数类合成NT个新样本。这里要求N必须是正整数，如果给定的N<1那么算法将“认为”少数类的样本数T＝NT，并将强制N＝1。

考虑该少数类的一个样本i，其特征向量为x_i,i∈{1，...，T}：

步骤S1：首先从该少数类的全部T个样本中找到样本x_i的k个近邻(例如用欧氏距离)，记为x_i(near)，near∈{1，...，k}；

步骤S2：然后从这k个近邻中随机选择一个样本x_i(nn)，再生成一个0到1之间的随机数ζ₁，从而合成一个新样本x_i1：

x_i1＝x₁+ζ₁·(x_i(nn)-x_i)；

步骤S3：将步骤S2重复进行N次，从而可以合成N个新样本：x_inew,new∈1，...，N。那么，对全部的T个少数类样本进行上述操作，便可为该少数类合成NT个新样本。

如果样本的特征维数是2维，那么每个样本都可以用二维平面上的一个点来表示。SMOTE算法所合成出的一个新样本x_i1相当于是表示样本x_i的点和表示样本x_i(nn)的点之间所连线段上的一个点。所以说该算法是基于“插值”来合成新样本(如图5所示)。

RandomForset的执行过程如下：

步骤A1：从原始训练集中使用Bootstraping方法随机有放回采样选出m个样本，共进行n_tree次采样，生成n_tree个训练集。

步骤A2：对于n_tree个训练集，我们分别训练n_tree个决策树模型。

步骤A3：对于单个决策树模型，假设训练样本特征的个数为n，那么每次***时根据信息增益/信息增益比/基尼指数选择最好的特征进行***。

步骤A4：每棵树都一直这样***下去，直到该节点的所有训练样本都属于同一类。在决策树的***过程中不需要剪枝。

步骤A5：将生成的多棵决策树组成随机森林。对于分类问题，按多棵树分类器投票决定最终分类结果；对于回归问题，由多棵树预测值的均值决定最终预测结果。

Claims

1.一种基于主动学习的需求与代码之间可追踪性的自动生成方法，其特征在于：包括如下步骤：

步骤2：文本提取模块从需求和代码中提取文本；

步骤4：训练集生成模块分析预处理后的文本中的需求和代码间存在的追踪链，将每一条追踪链均视为样本，训练集生成模块标记并选取一部分追踪链作为初始训练样本，建立初始的训练集，然后，通过主动学习的方法选择新的样本标识后加入初始的训练集，生成完整的训练集；

使用scikit-learn提供的算法随机选择样本建立初始训练集；

主动学习的方法需要设置初始的训练集，初始训练集的大小需要人为的设置；将初始的训练集大小设置为总的可能的追踪链条数的6％，然后，使用scikit-learn算法随机选择出6％的样本建立初始训练集；

主动学习允许专家迭代地标记未标记的样本，并且在每次迭代过程中改进分类器；对于样本集D＝{x₁,x₂,…,x_n}，首先，随机选择少量样本进行标记以初始化一个标记样本集合；用D_l表示该标记的样本集合，那么未标记的样本集合D_u＝D\D_l；主动学习分为两部分：学习引擎和选择引擎；在每次迭代时，学习引擎在D_l上训练分类器；然后，选择引擎从D_u中选择样本x_i，对x_i进行标记后提交给学习引擎；学习引擎和选择引擎交替工作，分类器的准确性逐步提高；当满足终止条件时，迭代将停止；

主动学习分为两种类型：基于流和基于池；采用基于池的主动学习方法，不需要设置阈值，根据已标记的样本生成的分类器的反馈自动从样本池，即未标记的样本集中选择样本交给专家标记；选择不需要设置阈值的基于池的样本选择策略，根据基于池的样本选择策略又选择6％的新的样本加入初始的训练集中，训练集的样本的数量变为总的可能的追踪链的数量12％；

2.如权利要求1所述的一种基于主动学习的需求与代码之间可追踪性的自动生成方法，其特征在于：在执行步骤2时，所述文本预处理方法包括标识符拆分、特殊字段与停用词消除以及词性还原和词根获取。

3.如权利要求1所述的一种基于主动学***衡。

4.如权利要求1所述的一种基于主动学习的需求与代码之间可追踪性的自动生成方法，其特征在于：在执行步骤4时，采用基于池的主动学习方法，根据已标记的样本生成分类器，再根据分类器的反馈自动从样本池中选择样本进行标记，所述样本池为未标记的样本集合。