CN111061864B

CN111061864B - 基于特征提取的开源社区Fork摘要自动生成方法、***及介质

Info

Publication number: CN111061864B
Application number: CN201911338392.1A
Authority: CN
Inventors: 毛新军; 张超; 卢遥
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2022-10-18
Anticipated expiration: 2039-12-23
Also published as: CN111061864A

Abstract

本发明公开了一种基于特征提取的开源社区Fork摘要自动生成方法、***及介质，本发明针对输入的提交数据；通过预先训练好的机器学习分类模型得到对应的特性分类，并针对提交数据进行提交内容生成得到对应的提交内容；将提交数据的特性分类、提交内容生成提交摘要；根据提交摘要生成自然语言式的Fork摘要，能够基于大量的开源社区项目数据针对当前开源社区Fork信息不透明的缺陷，从开源项目中提取Fork相关的数据并进行筛选和优化提取项目贡献特征，通过机器学习的算法自动生成自然语言式的Fork摘要。

Description

基于特征提取的开源社区Fork摘要自动生成方法、***及介质

技术领域

本发明涉及开源软件开发领域，具体涉及一种基于特征提取的开源社区Fork摘要自动生成方法、***及介质，用于基于大量的开源社区项目数据针对当前开源社区Fork信息不透明的缺陷提取项目贡献特征，通过机器学习的算法自动生成自然语言式的Fork摘要。

背景技术

在开源软件（OSS）开发中，基于Fork（复刻，又译作派生、分支））的开发已经成为群体化开发的重要组成部分。Fork的目的是对一个代码仓库进行全面复制，Fork机制允许开发者在未经作者同意的情况下复制其代码仓库。开发人员可以自由地Fork公共存储库，并在Fork的存储库中进行更改。Fork是一种开始新项目的方法。

然而，OSS社区的快速发展也给基于Fork的开发带来了一些挑战。一方面，贡献者的快速增长导致了大量的分支和贡献，尤其是很多流行的项目，这丰富了开放源码社区生态的多样性。另一方面，随着Fork数量不断增加，现有Fork可视化工具不能够维持一个好的Fork信息概览，尤其是对于单个Fork的变化。然而一个开源项目的发展离不开大量Fork数据作为参考，由于现有工具无法满足开发人员对Fork信息透明性的需求，开发人员必须依靠人工方法来检索Fork。此外，由于开发人员的经验和习惯的巨大差异，大量的Fork含有不完整的注释、不鲜明的特性和不透明的信息。这些Fork可能会在某种程度上消耗开发人员的时间和精力，使他们无法有效地理解其他开发人员基于Fork的贡献的目标和特性。因此，不透明的Fork信息和缺乏合适的工具使得手工方法很难有效地识别许多Fork，核心开发人员很难做出正确的决策。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于特征提取的开源社区Fork摘要自动生成方法、***及介质，本发明能够基于大量的开源社区项目数据针对当前开源社区Fork信息不透明的缺陷，从开源项目中提取Fork相关的数据并进行筛选和优化提取项目贡献特征，通过机器学习的算法自动生成自然语言式的Fork摘要。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于特征提取的开源社区Fork摘要自动生成方法，实施步骤包括：

1）获取输入的提交数据；

2）将提交数据通过预先训练好的机器学习分类模型得到起对应的特性分类，并针对提交数据进行提交内容生成得到对应的提交内容；

3）将提交数据的特性分类、提交内容生成提交摘要；

4）根据提交摘要生成自然语言式的Fork摘要。

可选地，步骤2）之前还包括训练机器学习分类模型的步骤，详细步骤包括：

S1）进行数据预处理：首先分别对问题数据中含有链接的数据、重复问题数据、非标准格式数据进行清洗，对含有指定特殊字段的问题数据进行标记和停止单词删除；然后对剩余的问题数据标记为特征标签feature、问题标签bug、贡献contribution三种特性分类标签；

S2）将预处理后的问题数据转换为多维向量；

S3）将转换得到的多维向量及其对应的特性分类标签训练机器学习分类模型。

可选地，步骤S2）将预处理后的数据转换为多维向量的详细步骤包括：

S2.1）对预处理后的问题数据进行文本特征提取得到数据中单词的单词频率计数矩阵；

S2.2）采用词频统计方法TF-IDF评估单词频率计数矩阵中每一个单词的权重，将权重将单词频率矩阵转换得到TF-IDF矩阵形式的多维向量。

可选地，所述机器学习分类模型为基于随机森林的机器学习分类模型。

可选地，步骤2）中针对提交数据进行提交内容生成得到对应的提交内容具体是指将提交数据采用提取关键词算法生成对应的提交内容。

可选地，步骤3）中根据提交特征的分类、生成的提交内容生成提交摘要具体是指采用指定的模板来生成包含提交特征的分类、生成的提交内容的提交摘要，所述指定的模板包括下述信息：@ commiti表示Fork中的第i个提交；@author表示提交者；@feature是得到的提交特征的分类，包含问题标签feature、没有问题标签bug、贡献contribution三种特性分类标签；@content是得到的提交内容；@status是从提交中提取的状态信息；@change是从提交中提取的改变信息。

可选地，步骤4）的详细步骤包括：

3.1）将多个提交摘要数据打散分类、重新统计，分别得到问题标签feature、没有问题标签bug、贡献contribution三种特性分类标签所对应的提交摘要的内容和数量；

3.2）按照预设的规则将得到特征标签feature、问题标签bug、贡献contribution三种特性分类标签所对应的提交摘要放在Fork摘要模板的相应位置并获得最终的Fork摘要。

此外，本发明还提供一种基于特征提取的开源社区Fork摘要自动生成***，包括：

输入程序单元，用于获取输入的提交数据；

输入处理程序单元，用于将提交数据通过预先训练好的机器学习分类模型得到起对应的特性分类，并针对提交数据进行提交内容生成得到对应的提交内容；

提交摘要生成程序单元，用于将提交数据的特性分类、提交内容生成提交摘要；

Fork摘要生成程序单元，用于根据提交摘要生成自然语言式的Fork摘要。

此外，本发明还提供一种基于特征提取的开源社区Fork摘要自动生成***，包括计算机设备，该计算机设备被编程或配置以执行所述基于特征提取的开源社区Fork摘要自动生成方法的步骤，或该计算机设备的存储器上存储有被编程或配置以执行所述基于特征提取的开源社区Fork摘要自动生成方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行所述基于特征提取的开源社区Fork摘要自动生成方法的计算机程序。

和现有技术相比，本发明具有下述优点：本发明针对输入的提交数据；将提交数据通过预先训练好的机器学习分类模型得到起对应的特性分类，并针对提交数据进行提交内容生成得到对应的提交内容；将提交数据的特性分类、提交内容生成提交摘要；根据提交摘要生成自然语言式的Fork摘要，从而能够基于大量的开源社区项目数据针对当前开源社区Fork信息不透明的缺陷，从开源项目中提取Fork相关的数据并进行筛选和优化提取项目贡献特征，通过机器学习的算法自动生成自然语言式的Fork摘要。

附图说明

图1为本发明实施例方法的基本原理示意图。

图2为本发明实施例方法的基本流程示意图。

图3为本发明实施例中生成的提交内容的模板示意图。

图4为本发明实施例中步骤4）的流程示意图。

图5为本发明实施例中Fork摘要模板示意图。

图6为本发明实施例中构建匹配不同默认数据的规则图。

图7为本发明实施例中提交数据分类准确度和Fork摘要精确度测试结果。

具体实施方式

下文将以python编程语言为例，对本发明基于特征提取的开源社区Fork摘要自动生成方法、***及介质进行进一步的详细说明。毫无疑问，在此基础上，本领域技术人员也可以将该实施例移植到其他编程语言，同样也可以实现本发明基于特征提取的开源社区Fork摘要自动生成方法、***及介质。

如图1和图2所示，本实施例基于特征提取的开源社区Fork摘要自动生成方法的实施步骤包括：

1）获取输入的提交数据；

3）将提交数据的特性分类、提交内容生成提交摘要；

4）根据提交摘要生成自然语言式的Fork摘要。

训练机器学习分类模型可使用GitHub项目中带有特性分类标签的数据与输入提交数据之间的特性关系来对提交特性进行分类。因此，可将将问题数据作为训练机器学习分类模型的输入进行预处理，以训练训练机器学习分类模型。最后，将用户输入的提交数据到经过训练的训练机器学习分类模型以预测其特性分类的类别。本实施例中，步骤2）之前还包括训练机器学习分类模型的步骤，详细步骤包括：

S1）进行数据预处理：首先分别对问题数据（issue）中含有链接的数据、重复问题数据、非标准格式数据进行清洗，对含有指定特殊字段的问题数据进行标记和停止单词删除；然后对剩余的问题数据标记为问题标签feature、没有问题标签bug、贡献contribution三种特性分类标签；本实施例中，针对问题标签feature、没有问题标签bug、贡献contribution三种特性分类标签分别采用“feature”、“bug”、“contribution”三种标签。最后，常见的停止词(例如“the”和“a”)将被重新移动，它们频繁出现，对区分不同的文档几乎没有影响。

S2）将预处理后的问题数据转换为多维向量；

本实施例中，步骤S2）将预处理后的数据转换为多维向量的详细步骤包括：

进行文本特征提取可以根据需要采用公知的文本特征提取算法，例如本实施例中采用CountVectorizer模型将文本中的单词转换为单词频率计数矩阵，例如包含元素text[i][j]的矩阵，表示类型i文本下的j单词的单词频率；

S2.2）采用词频统计方法TF-IDF(Term Frequency- reverse DocumentFrequency)评估单词频率计数矩阵中每一个单词的权重，将权重将单词频率矩阵转换得到TF-IDF矩阵形式的多维向量，从而将CountVectorizer处理的计数矩阵转换为标准化的TF-IDF矩阵

考虑到本发明所适用的数据大多为文本形式、数据长度较短。根据数据的特点，本实施例中机器学习分类模型为基于随机森林（RandomForest）的机器学习分类模型，并对实验效果进行了修正。作为一种可选的实施方式，本实施例中利用管道技术将矢量化、采集系数和机器学习分类模型训练等功能等模块结合成一个整体，并在循环调试参数的过程中反复执行，最终形成一个完成的分类模型，该模型能够根据输入的提交数据的自动分类。

本实施例中，步骤2）中针对提交数据进行提交内容生成得到对应的提交内容具体是指将提交数据采用提取关键词算法生成对应的提交内容。作为一种可选的实施方式，本实施例中采用提取关键词算法为TextRank算法，此外也可采用其他公知的提取关键词算法。

本实施例中，步骤3）中根据提交特征的分类、生成的提交内容生成提交摘要具体是指采用指定的模板来生成包含提交特征的分类、生成的提交内容的提交摘要，指定的模板包括下述信息：@ commiti表示Fork中的第i个提交；@author表示提交者；@feature是得到的提交特征的分类，包含特征标签feature、问题标签bug、贡献标签contribution三种特性分类标签；@content是得到的提交内容；@status是从提交中提取的状态信息；@change是从提交中提取的改变信息。作为一种可选的实施方式，本实施例中的模板的形式如图3所示。

如图4所示，本实施例步骤4）的详细步骤包括：

3.1）将多个提交摘要数据打散分类、重新统计，分别得到特征标签feature、问题标签bug、贡献contribution三种特性分类标签所对应的提交摘要的内容和数量；

本实施例中的Fork摘要模板如图5所示，其包括Template1和Template2两部分子模块，子模块Template1显示了最终想要的最终结果fork summary的结构和元素，子模块Template 2表示fork的内容是如何形成的。根据对开源社区开发者的调查，人们普遍关注fork摘要能否准确的表达fork信息，没有遗漏重要数据，能够凸显每一个提交节点的变化和一段贡献的特征，因此在设计fork摘要模板时，重点考虑了其组成结构由一段提交节点组成，包含fork特征和内容，因此，采用此设计。

在子模块Template1中：

@fork_summary是最终想要的最终结果；

@b_commit和@e_commit表示用户选择的起始提交数据和结束提交数据。为了方便起见，本实施例通常使用提交数据的sha验证码的最后四位数字来表示提交数据的地址。

@fork_name是本实施例从输入数据中获得的fork的名称；

@fork_content是本实施例生成的fork的特定内容描述。

在子模块Template2中：

k是feature、bug和contribution三个元素的组合。变量@numk和@contentk对应于每个k条件的数量和内容，这是之前统计过程中得到的数据。

@feature是提交的特性类别。

@feature _content是每个特性的内容；

@fork_content是所有特性的总和。

总的来说，Template 2显示了fork对特定特性所做的详细工作。

为解决生成Fork摘要的各种错误情况，本实施例考虑到Fork类别为空、Fork特征为空、提交数据的特征重复等情况，构建了以下规则来匹配不同的默认数据，以确保最终想要的最终结果fork summary的自然语言流畅性，如图6所示，其中：

规则Rule1表示：

如果Fork类别@num_k为0，则所有特性的总和@fork_content为空；

规则Rule2表示：

如果Fork特征@content_k为空，则所有特性的总和@fork_content为空；

规则Rule3表示：

如果提交数据b_commit和提交数据e_commit特征重复（倒数第4位与倒数第1位之间的字符相同），则截取e_commit的前4位同时赋值给提交数据b_commit和提交数据e_ commit；

规则Rule4表示：

如果Fork类别@num_k的总和为0，则最终想要的最终结果fork summary为生成的“对不起，没有贡献”的字符串。

为了对本实施例基于特征提取的开源社区Fork摘要自动生成方法进行进一步的验证，本实施例通过进行30组人工测试和问卷测试，以及对GitHub中17名开发人员的实例测试，得到的提交数据分类准确度和Fork摘要精确度如表1和图7所示。

表1：提交数据分类准确度和Fork摘要精确度表。

Label	Precision	Recall	F1-score	support
					Contribution	0.59	0.79	0.67	448
Feature	0.66	0.78	0.58	343
					Bug	0.64	0.67	0.72	200

表1中，Label、Precision、Recall、F1-score、support分别表示标签类别、准确率、召回率、准确率与召回率的平均数、支持标签的数量，Contribution、Feature、Bug分别表示贡献contribution、特征标签feature、问题标签bug三种特性分类标签。结合表1和图7可知，本实施例基于特征提取的开源社区Fork摘要自动生成方法可以实现0.672的fork摘要生成精度，对开发人员的开发具有47%的帮助。

综上所述，本实施例基于特征提取的开源社区Fork摘要自动生成方法能够自动生成Fork摘要，本实施例基于特征提取的开源社区Fork摘要自动生成方法经过简单的初始化设置，以提交地址作为输入，就可以立即输出fork摘要。本实施例将使用此工具在真实的OSS社区中测试项目的生产摘要。

此外，本实施例还提供一种基于特征提取的开源社区Fork摘要自动生成***，包括：

输入程序单元，用于获取输入的提交数据；

Fork摘要生成程序单元，用于根据提交摘要生成自然语言式的Fork摘要

此外，本实施例还提供一种基于特征提取的开源社区Fork摘要自动生成***，包括计算机设备，该计算机设备被编程或配置以执行前述基于特征提取的开源社区Fork摘要自动生成方法的步骤，或该计算机设备的存储器上存储有被编程或配置以执行前述基于特征提取的开源社区Fork摘要自动生成方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行前述基于特征提取的开源社区Fork摘要自动生成方法的计算机程序。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于特征提取的开源社区Fork摘要自动生成方法，其特征在于实施步骤包括：

1）获取输入的提交数据；

3）将提交数据的特性分类、提交内容生成提交摘要；

4）根据提交摘要生成自然语言式的Fork摘要；

步骤2）之前还包括训练机器学习分类模型的步骤，详细步骤包括：

S1）进行数据预处理：首先分别对问题数据中含有链接的数据、重复问题数据、非标准格式数据进行清洗，对含有指定特殊字段的问题数据进行标记和停止单词删除；然后对剩余的问题数据标记为问题标签feature、没有问题标签bug、贡献contribution三种特性分类标签；

S2）将预处理后的问题数据转换为多维向量；

2.根据权利要求1所述的基于特征提取的开源社区Fork摘要自动生成方法，其特征在于，步骤S2）将预处理后的数据转换为多维向量的详细步骤包括：

3.根据权利要求1所述的基于特征提取的开源社区Fork摘要自动生成方法，其特征在于，所述机器学习分类模型为基于随机森林的机器学习分类模型。

4.根据权利要求1所述的基于特征提取的开源社区Fork摘要自动生成方法，其特征在于，步骤2）中针对提交数据进行提交内容生成得到对应的提交内容具体是指将提交数据采用提取关键词算法生成对应的提交内容。

5.根据权利要求1所述的基于特征提取的开源社区Fork摘要自动生成方法，其特征在于，步骤3）中根据提交特征的分类、生成的提交内容生成提交摘要具体是指采用指定的模板来生成包含提交特征的分类、生成的提交内容的提交摘要，所述指定的模板包括下述信息：@ commiti表示Fork中的第i个提交；@author表示提交者；@feature是得到的提交特征的分类，包含问题标签feature、没有问题标签bug、贡献contribution三种特性分类标签；@content是得到的提交内容；@status是从提交中提取的状态信息；@change是从提交中提取的改变信息。

6.根据权利要求1所述的基于特征提取的开源社区Fork摘要自动生成方法，其特征在于，步骤4）的详细步骤包括：

7.一种基于特征提取的开源社区Fork摘要自动生成***，其特征在于包括：

输入程序单元，用于获取输入的提交数据；

输入处理程序单元，用于将提交数据通过预先训练好的机器学习分类模型得到起对应的特性分类，并针对提交数据进行提交内容生成得到对应的提交内容；所述机器学习分类模型的训练步骤包括：S1）进行数据预处理：首先分别对问题数据中含有链接的数据、重复问题数据、非标准格式数据进行清洗，对含有指定特殊字段的问题数据进行标记和停止单词删除；然后对剩余的问题数据标记为问题标签feature、没有问题标签bug、贡献contribution三种特性分类标签；S2）将预处理后的问题数据转换为多维向量；S3）将转换得到的多维向量及其对应的特性分类标签训练机器学习分类模型；

8.一种基于特征提取的开源社区Fork摘要自动生成***，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～6中任意一项所述基于特征提取的开源社区Fork摘要自动生成方法的步骤，或该计算机设备的存储器上存储有被编程或配置以执行权利要求1～6中任意一项所述基于特征提取的开源社区Fork摘要自动生成方法的计算机程序。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～6中任意一项所述基于特征提取的开源社区Fork摘要自动生成方法的计算机程序。