CN113377422B

CN113377422B - 一种基于深度学习识别自我承认技术债务方法

Info

Publication number: CN113377422B
Application number: CN202110642380.9A
Authority: CN
Inventors: 李辉; 曲阳; 戚学欣; 刘勇; 赵娇茹; 郭世凯; 陈荣
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2024-04-05
Anticipated expiration: 2041-06-09
Also published as: CN113377422A

Abstract

本发明公开了一种基于深度学***均值F1。

Description

一种基于深度学习识别自我承认技术债务方法

技术领域

本发明涉及软件处理技术领域，尤其涉及一种基于深度学习识别自我承认技术债务方法。

背景技术

在实际的软件开发过程中，最重要的目标之一是确保交付的软件具有高质量和无缺陷的。但在很多情况下，由于资源和时间的限制，开发人员不得不采取权变措施，提交不完整或临时的补丁代码，这种现象称之为技术债务。故意引入的技术债务是开发人员为了使项目能在短期快速开发出来，导致在未来需要进行维护。因此，为确保软件质量和减轻维护自我承认技术债务的代价，提升软件开发过程中的软件质量，我们需要研究的重点是准确识别自我承认技术债务，识别技术债务问题比较常见的方法是通过传统神经网络方法进行识别，目前，尽管对自我承认技术债务预测技术已经有了一些研究和进展，但还存在一些问题有待解决。目前的研究工作认为自我承认技术债务是一系列的标记来进行文本序列化，自我承认技术债务由不同的开发语言或自然语言的混合物组成，所以很难组成图；并且先前工作中只关注到自我承认技术债务是少量的，并没有观察到自我承认技术债务包含大量的容易区分的数据，因此模型的拟合速度过快，使得模型难以有效地识别自我承认技术债务。

发明内容

根据现有技术存在的问题，本发明公开了一种基于深度学习识别自我承认技术债务方法，，具体包括如下步骤：

构建文本的图形结构：读取技术债务文本信息并对其进行预处理，预处理包括标记化和删除停用词将剩余的文本转化为模型学习的词嵌入向量，使用Word2vec模型通过上下文本之间的关系来获得词嵌入向量，将文本的单词作为图的单词节点，通过滑动窗口来捕获窗口中出现的单词之间的联系作为图的边从而将技术债务文本转化为图结构的技术债务；

基于图形的单词交互：将词嵌入向量作为门控图神经网络中图的节点特征的隐藏状态，当节点初始状态的维数小于D维时，其余位置添加0作为补充，图表示中的不同节点通过边进行传输和接收信息，将节点接收到的信息通过更新门确定有多少前一时刻和当前时刻的信息需要传递到下一时刻，节点接收到的信息通过重置门确定有多少前一时刻和当前的时刻的信息需要被舍弃，最终将获得重置门输出的信息和更新门输出的信息、以及自身节点的信息三者进行合并，再通过Sigmoid激活函数输出节点激活值，作为最终时刻的节点状态，在节点特征被充分更新后，节点向量合并成图表示向量；

使用Focal loss函数使损失值最小化，获得准确的预测结果；

使用神经网络模型对预测结果进行预测，得到精确度、召回率以及精确度和召回率的调和平均值F1。

所述词嵌入是通过学习大量未标记的文本来表示单词的一种形式。

不同节点通过边进行传输和接收信息进行相互作用，相互作用的公式为

其中矩阵A∈R^D|v|×2D|v|决定了节点之间的通信方式，在门控图神经网络中，更新门被计算为

其中是时间步t的输入向量，并持有时间步t-1的前一刻的信息。

在门控图神经网络中，重置门计算为

其中为输入向量，/>为上一时间步长t-1的信息，复位门将这两个信息相加，新产生的信息/>计算为

在获得门控信号后，使用复位门控来获得复位数据与当前输入/>相接并使用tanh激活函数得到激活值/>

最终更新的节点状态的计算为

其中，更新门是选择从上一个t-1时刻中遗忘多少过去的信息，/>是选择多少新产生的信息被保留；

在节点特征被充分更新后，节点被合并成图表示形式，用图表示的表示作为最终的预测结果读出函数定义如下

其中f₁和f₂是两个多层感知机，f₁是注意力机制，f₂是一个非线性特征转换。

由于采用了上述技术方案，本发明提供的一种基于深度学***衡模型；最后是使用神经网络模型对预测结果进行预测，得到精确度、召回率以及精确度和召回率的调和平均值F1。该方法通过使用深度学习方法门控图神经网络来训练识别自我承认技术债务分类模型，捕捉自我承认技术债务中一些重要结构特性，在一个公共数据集上进行性能调查，结果表明，本发明在检测自我承认技术债务方面取得了良好的效果，解决了在软件开发过程中的自我承认技术债务检测的优化问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中自我承认技术债务文本转换为图的过程示意图；

图2为本发明中节点之间的信息传递与接收过程示意图；

图3为本发明方法的流程图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图3所示的一种基于深度学习识别自我承认技术债务方法，具体包括如下步骤：

S1:构建文本的图形结构:在传统的神经网络模型中，自我承认技术债务被用作分析单元。因此，在使用图神经网络时，我们需要将注释转换为向量。词嵌入是通过学习大量未标记的文本来表示词的一种常见形式，可以有效地捕捉词的语义和句法特征，由于其维度较小，可以加快计算速度。以前的研究提出了不同的获取词嵌入的方法，并验证了这些方法的有效性，如Word2vec和Glove。使用Word2vec从训练集中学习词嵌入，因为Word2vec通过上下文之间的***训练词向量，更适合于识别自我承认技术债务。把唯一的词作为图中的节点来表示代码注释，把词与词之间的共现作为边，然后把出现在一个固定大小的滑动窗口内的词的关系描述为共现。以标准的方式对文本进行预处理，包括标记化(tokenization)和删除停顿词(stop word)。节点的嵌入是用单词特征初始化的。因为每个单独的图代表了一条技术债务，在词的交互阶段，注释中的词的特征信息可以在整个注释中传播和聚集起来，滑动窗口的大小被设定为3。滑动窗口中的一个词被当作一个节点，并计算每个节点与当前滑动窗口中其他节点的共现次数。将结果与前一个滑动窗口中相同节点之间的共同出现次数相加，作为节点之间边缘的初始特征。如图1所示。

S2:基于图形的单词交互：采用门控图神经网络(GGNN)来学习单词节点的嵌入，图中的节点可以捕捉来自相邻节点的信息，并将其与自身的特征信息相融合。由于GGNN的一个层只能捕捉来自一阶相邻节点的信息，但是可以将GGNN层堆叠t次，以实现高阶特征交互，即一个节点可以与更远的节点的信息交互。在初始化步骤中，输入节点特征并将其作为隐藏状态。节点的初始状态是一个D维的向量，其公式为

其中v是节点输入特征的维度。如果v的维度低于D，剩下的位置就用0来填充。图2中不同节点通过接收和传输相互作用的步骤。相互作用的公式为

其中矩阵A∈R^D|v|×2D|v|决定了节点之间的通信方式。在门控图神经网络中，更新门可以被计算为

其中是时间步t的输入向量，并持有时间步t-1的前一刻的信息。更新门将这两块信息加在一起，并将其输入到sigmoid激活函数中，输出激活值。更新门帮助模型确定有多少过去的信息需要传递到未来，或者有多少前一阶段和当前阶段的信息需要传递。因为模型可以决定保留过去的一些信息，以减少梯度消失的风险。

在门控图神经网络中，重置门可以计算为

其中为输入向量，/>为上一时间步长t-1的信息。复位门将这两个信息相加，输入σsigmoid激活函数并输出激活值。除了参数和使用的线性变换外，其表达式与更新门相同。从本质上讲，复位门主要决定了有多少过去的信息实际上需要被遗忘，新产生的信息/>可以计算为

在获得门控信号后，使用复位门控来获得“复位”数据然后与当前输入/>相接，并使用tanh激活函数得到激活值/>

最终更新的节点状态的计算为

其中，更新门是选择从上一个t-1时刻中遗忘多少过去的信息，/>是选择多少新产生的信息被保留。这就是最终更新节点状态/>

在节点特征被充分更新后，节点被合并成图表示形式，用图表示的表示作为最终的预测结果。读出函数定义如下

其中f₁和f₂是两个多层感知机，前者是注意力机制，后者是一个非线性特征转换。除了单词特征的加权平均外，还对图形表示法h_g应用了一个最大池化函数。这样做的目的是让每个节点在图中都发挥作用。

S3:不平衡模型：预测标签使用图形向量输入到Softmax层进行预测。使用Focalloss函数最小化损失值

其中，W和b是权重和偏差，是i样本的真实标签，α是控制正负样本对损失的共享权重，γ是调节系数，减少容易分类的样本的损失，把更多注意力放在困难分类的样本上。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习识别自我承认技术债务方法，其特征在于包括：

使用Focalloss函数使损失值最小化，获得准确的预测结果；

使用神经网络模型对预测结果进行预测，得到精确度、召回率以及精确度和召回率的调和平均值F1；

其中矩阵A∈决定了节点之间的通信方式，在门控图神经网络中，更新门被计算为

其中是时间步t的输入向量，并持有时间步t-1的前一刻的信息；

在门控图神经网络中，重置门计算为

最终更新的节点状态的计算为

2.根据权利要求1所述的一种基于深度学习识别自我承认技术债务方法，其特征在于：所述词嵌入是通过学习大量未标记的文本来表示单词的一种形式。