CN109885776A

CN109885776A - 开源社区pr评审者可解释推荐模型

Info

Publication number: CN109885776A
Application number: CN201910143846.3A
Authority: CN
Inventors: 蒋尚华; 郁松
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-06-14

Abstract

对于开源社区Pull Request(PR)Reviewer推荐模型，传统上着重于通过开发新的算法或通过整合新的数据源来提高推荐的预测准确性。本发明主要集中精力研究推荐模型领域的一个未知的方面：解释和透明度。推荐模型需要进一步提高透明度，让用户更加信任和满意。解释对于用户驱动的推荐算法融合的模型来说尤其重要，模型中要以有意义的方式解释推荐来源，用户根据特定方面以及综合排名清单，对被推荐人排名高低的原因有深入的了解，做出最优的决策。

Description

开源社区PR评审者可解释推荐模型

技术领域

本发明为开源社区PR评审者可解释推荐模型，属于数据挖掘与机器学习和大数据可视化领域。

背景技术

对于开源社区PullRequest(PR)Reviewer推荐，传统上着重于通过开发新的算法或通过整合新的数据源来提高推荐的预测准确性。然而，一些研究表明，准确性并不总是与更好的用户体验相关联，向用户有效解释其推荐的能力是推荐模型的另一个重要方面。一个推荐模型能够以使其推理更加透明的方式向用户解释其推荐算法，可以显着地促进用户对推荐模型的信任和推荐结果的满意。一个很好的可解释推荐模型是准确地说明推荐背后的原因，并允许用户正确区分合理的建议和没有充分合理的选择。可以说，解释的最重要的贡献并不是说服用户采用推荐，而是让他们做出更加明确和有效的决定。近年来，研究人员越来越意识到推荐的有效性超出了推荐的准确性。因此，对这些人为因素的研究已经引起了越来越多的兴趣，例如将交互式可视化技术与推荐技术相结合，以支持推荐过程的透明度和可控性。可视化利用视觉表示来促进人类的感知，而交互则强调用户通过与发明的对话来参与到推荐的过程。

发明内容

本发明为开源社区PR评审者可解释推荐模型，该模型具体流程如下：

①当贡献者(用户)提交新的PR时，推荐算法首先分析历史数据，并找到曾经发表过评论的Reviewer。这些Reviewer成为候选推荐人选。

②从历史数据中提取每个Reviewer以前的评论和相应的PR。

③从先前的评论和PR中提取属性值。

④根据该Reviewer评论过的PR属性值计算Reviewer的评分。

⑤我们根据评分对Reviewer进行排序，找到评分靠前的Reviewer，并生成一个推荐列表。

⑥使用可视化交互式图形展示推荐算法，提高推荐模型的透明度。使用户对推荐结果排名深入了解，做最优的决策。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图对本发明具体实施步骤作进一步详细的说明。

本发明构建了开源社区PR评审者可解释推荐模型，将交互式可视化技术与推荐技术相结合，以支持推荐模型的可解释性。具体而言，本发明包含以下步骤：

Step₁:基于PR文本相似的推荐相似度计算

文本信息经常在开发人员推荐的bug解决方案中使用。当用户提交PR时，他们会用标题来简要介绍他们所做的代码更改。语义信息在Reviewer推荐中起重要作用。类似的PR通常以类似的方式描述，并且Reviewer可以在类似的PR中发表评论。我们使用PR的“title”和“body”来衡量拉请求之间的文本相似度。对于PR的文本，我们做分词，删除停用词和词干。所有剩余的单词构成词汇。我们使用向量空间模型来表示每个PR作为加权向量。矢量的长度是词汇表中单词的数量。向量中的每个元素都是一个单词，值表示该单词出现在请求标题中的次数。对于PR，其文本向量表示为。对于一个新的PR，我们计算了文本相似度如下所示：

公式(1)对于PR，我们使用余弦相似度来计算和之间的文本相似度。然后，我们计算Reviewer留下评论的PR的总和。如果Reviewer对类似文本新PR提供的评审，则Reviewer将具有较高的文本相似性。

Step₂:基于评审网络的推荐相似度计算

开发者评审网络通常用于PR质量预测，bug分类与修复。以前的工作使用评论来建立社交关系，并预测PR合适的Reviewer。一般来说与PR提交者(用户)有共同兴趣的开发者是合适的Reviewer。开发者之间的共同兴趣可以通过Reviewer和贡献者之间的评论关系直接反映出来。我们考虑社会关系属性，并在本节中作基本的介绍。给定新的PRP_new，其贡献者被定义为C_new。Cset包括在新的PRP_new之前由贡献者C_new提交的请求。其中Rset_i包含Reviewer i曾留下评论的PR的集合，Cset_new∩Rset_i包括由贡献者C_new提交的PR，以及Reviewer R_i曾留下的评论的交集。Cset_new∩Rset_i反映了贡献者与Reviewer的共同兴趣。如果Reviewer R_i经常对由贡献者C_new提交的PR留言，则Reviewer R_i可能对该贡献者感兴趣并且喜欢对他的PR发表评论。Reviewer可以多次对PR发表评论，我们考虑对于PRP_j，RevieweR_i留下了n_{i_j}个评论。对于对于一个新的PRP _new，我们计算Reviewer R_i的社交关系，计算如下：

公式(2)中β评审网络的权重，设置为0.8，k为评审的次数。如果Reviewer之前对贡献者提交的请求留下许多评论，则两者之间有密切的关系。

Step₃:综合推荐

两种PR Reviewer推荐算法存在缺陷但互补，所以本发明将两种算法的融合进行混合推荐。由于开源社区的人员流动比较大，只考虑基于PR文本相似度的推荐过于单一，准确度不高。而基于社交网络的推荐存在冷启动问题，为解决以上问题，结合之前的算法，构建混合推荐模型如下：

hybrid(P_new,R_i)＝α×textSimilarity(P_new,R_i)+(1-α)×relation(P_new,R_i)(3)

公式(3)中两种推荐算法的权重之和等1，且权重大于零。默认权重分配是通过实验验证之后得到最佳的结果，用户也可以根据自己的喜爱偏好进行算法融合的权重设置，达到用户满意的个性化推荐。

Step₄:推荐结果可视化

基于PR文本相似和基于评审网络推荐分别采用词云和桑基图等交互式可视化技术展示，可视化利用视觉可以来促进用户的感知，从而增强推荐模型的可解释性。

附图说明

图1本发明的推荐模型实现步骤图

图2PR文本词云可视化效果展示图

图3基于评审网络推荐的桑基图效果展示图。

Claims

1.开源社区PR评审者可解释推荐模型。针对开源社区Github中pull request(PR)评审者传统的推荐只有推荐结果，用户对推荐结果存在不信任问题，本发明采用可视化技术对推荐结果进行合理的解释，让用户对推荐结果更加信任和满意。

2.根据权利要求1所述的方法，需要提取PR的文本内容，并将PR文本内容以词云的方式解释基于PR文本相似的推荐结果。

3.根据权利要求1所述的方法，需要提取PR提交者和评审者的评审关系，采用桑基图的方式向用户解释提交的PR分别被哪些评审者评审，并且将推荐的评审者在桑基图中高亮显示。

4.根据权利要求1所述的方法，分别计算PR文本相似性和PR评审网络相似性进行综合推荐，并根据推荐算法对推荐结果恰当的解释，因此提高推荐过程中的用户体验和推荐结果的信任度。