CN106529562A - 一种基于Email网络的开源软件项目开发者预测方法 - Google Patents

一种基于Email网络的开源软件项目开发者预测方法 Download PDF

Info

Publication number
CN106529562A
CN106529562A CN201610813058.7A CN201610813058A CN106529562A CN 106529562 A CN106529562 A CN 106529562A CN 201610813058 A CN201610813058 A CN 201610813058A CN 106529562 A CN106529562 A CN 106529562A
Authority
CN
China
Prior art keywords
node
network
sample
score value
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610813058.7A
Other languages
English (en)
Inventor
宣琦
李甫宪
周鸣鸣
陈风雷
李嘉南
吴哲夫
傅晨波
翔云
俞立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201610813058.7A priority Critical patent/CN106529562A/zh
Publication of CN106529562A publication Critical patent/CN106529562A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于Email网络的开源软件项目开发者预测方法,包括以下步骤:1)搭建不同类型的Email网络;2)采用不同网络节点排序算法对网络中各个节点进行计算得到相应特征分值,同时利用网络拓扑性质得出每个节点的特征向量中心性和聚类系数;3)对各个算法得出的特征分值和拓扑性质参数的排名分别做归一化处理,作为样本的特征;4)将部分节点作为样本输入到机器学习分类器中,采用Bayesian算法进行学习;5)对剩余节点样本进行预测。本发明针对OSS项目参与人数众多而核心开发者少量的特点提出的,可以有效地预测出各个OSS项目中的开发者人员,相比网络节点排序算法在准确率上有了显著的提高。

Description

一种基于Email网络的开源软件项目开发者预测方法
技术领域
本发明涉及网络科学、机器学习领域,特别是涉及一种基于Email网络的开源软件项目开发者预测方法。
背景技术
随着科技发展,开源软件(Open Source Software,OSS)项目的众多优势逐渐被人们所认可,参考文献1(Q.Xuan,M.Gharehyazie,P.T.Devanbu,and V.Filkov,"Measuringthe Effect of Social Communications on Individual Working Rhythms:A CaseStudy of Open Source Software,"in International Conference on SocialInformatics,2012,pp.78-85.1,即Q.Xuan,M.Gharehyazie,P.T.Devanbu,and V.Filkov,社交情况对工作节奏的影响研究:以开源软件项目为例,in International Conferenceon Social Informatics,2012,pp.78-85.1)。为有效地保持一个OSS项目的成功,利用其公开的项目数据信息进行可靠的判断和预测显得尤为重要。近些年网络科学的发展,可以让我们更好地计算人与人之间的社会行为信息,比如链路预测,参考文献2(M.Fire,L.Tenenboim,O.Lesser,R.Puzis,L.Rokach,and Y.Elovici,"Link Prediction inSocial Networks Using Computationally Efficient Topological Features,"inPASSAT/SocialCom 2011,Privacy,Security,Risk and Trust(PASSAT),2011 IEEE ThirdInternational Conference on and 2011 IEEE Third International Confernece onSocial Computing(SocialCom),Boston,MA,USA,9-11 Oct.,2011,2011,pp.73-80.0,即M.Fire,L.Tenenboim,O.Lesser,R.Puzis,L.Rokach,and Y.Elovic,在社交网络中使用计算有效的拓扑特性的链路预测,in PASSAT/SocialCom 2011,Privacy,Security,Risk andTrust(PASSAT),2011 IEEE Third International Conference on and 2011 IEEE ThirdInternational Confernece on Social Computing(SocialCom),Boston,MA,USA,9-11Oct.,2011,2011,pp.73-80.0),节点重要性判断,参考文献3(L.Lü,D.Chen,X.-L.Ren,Q.-M.Zhang,Y.-C.Zhang,and T.Zhou,"Vital nodes identification in complexnetworks,"Physics Reports,2016.0,即L.Lü,D.Chen,X.-L.Ren,Q.-M.Zhang,Y.-C.Zhang,and T.Zhou,复杂网络中的重要节点识别,Physics Reports,2016.0),社区发现,参考文献4(B.Cai,H.Wang,H.Zheng,and H.Wang,"An improved random walk basedclustering algorithm for community detection in complex networks,"in IEEEInternational Conference on Systems,Man,and Cybernetics,2011,pp.2162-2167,即B.Cai,H.Wang,H.Zheng,and H.Wang,一种改进的基于随机游走的复杂网络聚类检测算法,in IEEE International Conference on Systems,Man,and Cybernetics,2011,pp.2162-2167)等,然而很多时候这些单一的分析方法在复杂的环境中均不能很好地适用。因此,结合其他领域的技术来进行分析预测成为当前较为有效的方法。
如今,机器学习已应用于多个领域。例如:Bing N曾利用机器学习方法预测医药领域中药物与酶相互作用网络关系,参考文献5(Bing N,Zhang Y,Ding J,et al.Predictingnetwork of drug–enzyme interaction based on machine learning method[J].Biochimica Et BiophysicaActa,2014,1844(1):214-223,即Bing N,Zhang Y,Ding J,etal.,基于机器学习方法的药物-酶相互作用的网络预测,Biochimica Et BiophysicaActa,2014,1844(1):214-223);Robles J A T利用机器学习对股票市场的波动性进行分析从而预警金融危机的出现,参考文献6(Son I S,Oh K J,Kim T Y,et al.An early warningsystem for global institutional investors at emerging stock markets based onmachine learning forecasting[J].Expert Systems with Applications,2009,36(3):4951-4957,即Son I S,Oh K J,Kim T Y,et al.,基于机器学习的全球新兴股票投资预警***,Expert Systems with Applications,2009,36(3):4951-4957);Facebook,亚马逊等网页利用机器学习识别出用户真正感兴趣的信息等等。只要给定的数据集覆盖的范围足够广,数量足够大,机器学习就能训练出很好的模型,从而能够更好的实现分析预测。
因此,结合网络科学中的节点排序算法以及机器学习算法来对OSS项目中开发者的预测成为一种可行性较高的方法。
发明内容
为了克服现有的机器学习方法的无法准确预测某位程序员是否晋升为项目实际开发者的不足,本发明的目的是基于OSS项目中的Email通讯数据来预测项目当前晋升的开发者(从一个单纯的讨论者变成一个实际的代码贡献者)。本发明提出一种基于Email网络的开源软件项目开发者预测方法,根据Apache项目中程序员之间的邮件交流信息,搭建不同种类的网络,应用不同的网络节点排序算法获得多个特征,然后应用机器学习算法训练分类器,用于预测某位程序员是否晋升为项目实际开发者。
本发明实现上述发明目的所采用的技术方案为:
一种基于Email网络的开源软件项目开发者预测方法,包括以下步骤:
S1:根据OSS项目获得的Email数据,同时结合项目的时效特性,分别搭建六种不同的网络:无向无权网络、无向有权网络、无向时效网络、有向无权网络、有向有权网络和有向时效网络;
S2:采用节点排序算法Degree-Based,PageRank,LeaderRank,Hits得出不同网络中各个节点的分值,同时利用网络拓扑结构,得到每个节点的特征向量中心性和聚类系数;
S3:将同种类型的Email网络合并,每个节点即作为一个样本,将上述步骤S2不同算法和网络特性得到的分值排名作为特征,样本标签为是或者不是开发者,构成一个分类器,同时,用欠采样的方法预处理样本数据;
S4:随机抽取处理后的总样本的80%作为训练样本,20%作为测试样本,采用Bayesian算法进行机器学习,并对测试样本进行测试。
进一步,所述步骤S1中,无向无权网络Nc(V,L,A,T),V表示网络中n个节点集合,L表示节点与节点的连边集合,A表示网络的邻接矩阵,T表示每个开发者出现的时刻;
无向有权网络Nc(V,L,W,T)中V,L,T与上述相同,W表示网络的权重邻接矩阵,与矩阵A不同在于,Wij等于节点i与节点j之间的Email数量;
无向时效网络Nσ(V,L,Uσ,T)中V,L,T与上述相同,Uσ是时间窗σ内的一个矩阵
对于给定的σ,主要考虑[T-σ,T]的时间段内节点之间的相互通信;
有向无权网络中V,T与上述相同,表示有向边集合,即表示的是节点i存在指向节点j的有向边,而仅且表示节点j存在指向节点i的有向边,在中如果仅有节点i向节点j发送邮件,则
有向有权网络与上述相同,表示节点j向节点i发送的邮件数,表示的是节点i向节点j发送的邮件数;
有向时效网络与上述相同,表示在时间窗σ内的一个矩阵,其中
再进一步,所述步骤S2中,在算法Degree-Based中,考虑节点的直接影响力,节点的度指与该节点直接相连的边的数目,度的大小即作为该项特征的分值;
在算法PageRank中,以有向无权网络为例,特征分值为
其中
为节点j的出边的数量,则
X=PX
其中X=[x1,x2,…,xn],P=[pij]n×n
为了防止非连通网络引起的非唯一排列问题,矩阵P被替换为Q:
其中得到X=QX。为得更一般的结果,同时防止数值过大,对该式采用如此迭代计算:
在算法LeaderRank中,以有向无权网络为例,在原有网络中增加一个背景节点,与其他所有节点做双向连接,特征分值为
同样的经过迭代运算:
得到一般性结果,之后将增加的背景节点分值平均分配个原网络中的所有节点,得到特征分值:
在Hits算法中,给每个节点赋予了两个参数:权威中心性xi和核心中心性yi
其中α,β均为常数;
因为两个参数都与指向性有关,所以Hits算法只针对有向网络进行分析。为使结果归一化,同时保持数量级不变,进行迭代计算:
在无向网络中,由于节点的边没有方向性,指向一个节点与被一个节点指向并没有区别,定义一个等同于权威中心性和核心中心性的重要分数zi,zi在无向无权网络、无向有权网络、无向时效网络中,分别表示为:
在特征向量中心性中,特征分值为
为得到一般性结果同时保持数量级相等,进行迭代计算:
在聚类系数中,描述的是网络中节点的邻居中实际存在的边与该点邻居中可能存在的边的比值,特征分值为
更进一步,所述步骤S3中,网络合并后的节点个数多于原有所有项目用户数总和,因为不同时刻网络存在同一个节点。考虑到了在一个时刻里只存在一个刚晋升的开发者,即在一个时刻,正标签的样本只有一个,导致数据样本不均衡,因此采用欠采样随机删除部分负标签样本。同时,对特征分值进行归一化处理来消除不同算法分值不同而影响结果,采用的是每个分值排名的百分比作为样本的特征值。
所述步骤S4中,利用Matlab机器学习工具包,对预处理之后的数据样本总量的80%采用Bayesian算法进行学习,然后对剩余数据进行测试,测试预测准确率。
本发明的技术构思为:鉴于网络节点排序算法预测准确性不高,本发明提出一种基于Email网络的开源软件项目开发者预测方法,利用多种网络节点排序算法得到各个节点相应算法的特征分值,同时结合网络的拓扑性质得到参数特征向量中心性和聚类系数,对特征分值和参数排名分别做归一化处理,将处理后的分值排名作为每个节点的特征值,输入机器学习分类器,采用Bayesian算法对样本进行学习,达到良好的预测效果。
与现有的技术相比,本发明的有益效果是:采用网络节点排序算法和机器学习方法相结合的方法,通过对现有的数据进行分析,有效的预测出开源软件项目中的开发者,相比单一的节点排序算法,显著的提高了预测的准确率。
附图说明
图1为本发明实施例的基于Email网络的开源软件项目开发者预测方法流程图。
图2为Bayesian算法和节点排名算法在无向时效网络(时间窗1月)下的ROC。
图3为Bayesian算法和节点排名算法在无向时效网络(时间窗1月)下的误差率。
具体实施方式
下面结合说明书附图对本发明做进一步说明。
参照图1~图3,一种基于Email网络的开源软件项目开发者预测方法,本发明使用Apache上的OSS项目相关数据预测项目的开发者。表1为OSS项目主要数据信息,其中To是项目第一封邮件发送时刻,Tf是项目目结束时刻,Nu是项目总程序员数量,Nd开发者数量,Ne是邮件总数量。附图2中采用ROC曲线和曲线下的面积AUC作为评价指标的各种算法预测结果图,其中X轴为“假正例率”(False Positive Rate,简称FPR),Y轴为“真正例率”(TruePositive Rate,简称TPR),预测效果更好的算法将会有更大的AUC值。
表1
本发明包括以下步骤:
S1:根据OSS项目获得的Email数据,同时结合项目的时效特性,分别搭建六种不同的网络:无向无权网络、无向有权网络、无向时效网络、有向无权网络、有向有权网络、有向时效网络。
S2:采用节点排序算法Degree-Based,PageRank,LeaderRank,Hits得出不同网络中各个节点的分值,同时利用网络拓扑结构,得到每个节点的特征向量中心性和聚类系数。
S3:将同种类型的Email网络合并,每个节点即作为一个样本,将上述步骤S2不同算法和网络特性得到的分值排名作为特征,样本标签为是或者不是开发者,构成一个分类器。同时,用欠采样的方法预处理样本数据。
S4:随机抽取处理后的总样本的80%作为训练样本,20%作为测试样本,采用Bayesian算法进行机器学习,并对测试样本进行测试。
进一步,所述步骤S1中,无向无权网络Nc(V,L,A,T),V表示网络中n个节点集合,L表示节点与节点的连边集合,A表示网络的邻接矩阵,T表示每个开发者出现的时刻;
无向有权网络Nc(V,L,W,T)中V,L,T与上述相同,W表示网络的权重邻接矩阵,与矩阵A不同在于,Wij等于节点i与节点j之间的Email数量;
无向时效网络Nσ(V,L,Uσ,T)中V,L,T与上述相同,Uσ是时间窗σ内的一个矩阵
对于给定的σ,主要考虑[T-σ,T]的时间段内节点之间的相互通信;
有向无权网络中V,T与上述相同,表示有向边集合,即表示的是节点i存在指向节点j的有向边,而仅且表示节点j存在指向节点i的有向边,在中如果仅有节点i向节点j发送邮件,则
有向有权网络与上述相同,表示节点j向节点i发送的邮件数,表示的是节点i向节点j发送的邮件数;
有向时效网络与上述相同,表示在时间窗σ内的一个矩阵,其中
所述步骤S2中,在算法Degree-Based中,考虑节点的直接影响力,节点的度指与该节点直接相连的边的数目,度的大小即作为该项特征的分值;
在算法PageRank中,以有向无权网络为例,特征分值为
其中
为节点j的出边的数量,则
X=PX
其中X=[x1,x2,…,xn],P=[pij]n×n
为了防止非连通网络引起的非唯一排列问题,矩阵P被替换为Q:
其中得到X=QX。为得更一般的结果,同时防止数值过大,对该式采用如此迭代计算:
在算法LeaderRank中,以有向无权网络为例,在原有网络中增加一个背景节点,与其他所有节点做双向连接,特征分值为
同样的经过迭代运算:
得到一般性结果,之后将增加的背景节点分值平均分配个原网络中的所有节点,得到特征分值:
在Hits算法中,给每个节点赋予了两个参数:权威中心性xi和核心中心性yi
其中α,β均为常数。
因为两个参数都与指向性有关,所以Hits算法只针对有向网络进行分析。为使结果归一化,同时保持数量级不变,进行迭代计算:
在无向网络中,由于节点的边没有方向性,指向一个节点与被一个节点指向并没有区别,定义一个等同于权威中心性和核心中心性的重要分数zi,zi在无向无权网络、无向有权网络、无向时效网络中,分别表示为:
在特征向量中心性中,特征分值为
为得到一般性结果同时保持数量级相等,进行迭代计算:
在聚类系数中,描述的是网络中节点的邻居中实际存在的边与该点邻居中可能存在的边的比值,特征分值为
所述步骤S3中,网络合并后的节点个数多于原有所有项目用户数总和,因为不同时刻网络存在同一个节点。考虑到了在一个时刻里只存在一个刚晋升的开发者,即在一个时刻,正标签的样本只有一个,导致数据样本不均衡,因此采用欠采样随机删除部分负标签样本。同时,对特征分值进行归一化处理来消除不同算法分值不同而影响结果,采用的是每个分值排名的百分比作为样本的特征值。
所述步骤S4中,利用Matlab机器学习工具包,对预处理之后的数据样本总量的80%采用Bayesian算法进行学习,然后对剩余数据进行测试,测试预测准确率。
如上所述为本发明在OSS项目开发者预测的实施例介绍,本发明通过OSS项目中的Email数据搭建网络,利用多种网络节点排序算法得到各个节点相应算法的特征分值,同时结合网络的拓扑性质得到参数特征向量中心性和聚类系数,对特征分值和参数排名分别做归一化处理,将处理后的分值排名作为每个节点的特征值,输入机器学习分类器,采用Bayesian算法对样本进行学习,而后对测试样本进行预测。最终的预测结果相比当前各类网络节点排序算法在准确率上有了显著的提高。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (5)

1.一种基于Email网络的开源软件项目开发者预测方法,其特征在于:所述方法包括如下步骤:
S1:根据OSS项目获得的Email数据,同时结合项目的时效特性,分别搭建六种不同的网络:无向无权网络、无向有权网络、无向时效网络、有向无权网络、有向有权网络、有向时效网络;
S2:采用节点排序算法Degree-Based,PageRank,LeaderRank,Hits得出不同网络中各个节点的分值,同时利用网络拓扑结构,得到每个节点的特征向量中心性和聚类系数;
S3:将同种类型的Email网络合并,每个节点即作为一个样本,将上述步骤S2不同算法和网络特性得到的分值排名作为特征,样本标签为是或者不是开发者,构成一个分类器,同时,用欠采样的方法预处理样本数据;
S4:随机抽取处理后的总样本的80%作为训练样本,20%作为测试样本,采用Bayesian算法进行机器学习,并对测试样本进行测试。
2.如权利要求1所述的一种基于Email网络的开源软件项目开发者预测方法,其特征在于:所述步骤S1中,无向无权网络Nc(V,L,A,T),V表示网络中n个节点集合,L表示节点与节点的连边集合,A表示网络的邻接矩阵,T表示每个开发者出现的时刻;
无向有权网络Nc(V,L,W,T)中V,L,T与上述相同,W表示网络的权重邻接矩阵,与矩阵A不同在于,Wij等于节点i与节点j之间的Email数量;
无向时效网络Nσ(V,L,Uσ,T)中V,L,T与上述相同,Uσ是时间窗σ内的一个矩阵
u i j = Σ k = 1 W i j e - ( t i j k - T ) 2 2 σ 2
对于给定的σ,主要考虑[T-σ,T]的时间段内节点之间的相互通信;
有向无权网络中V,T与上述相同,表示有向边集合,即表示的是节点i存在指向节点j的有向边,而仅且表示节点j存在指向节点i的有向边,在中如果仅有节点i向节点j发送邮件,则
有向有权网络中V,T与上述相同,表示节点j向节点i发送的邮件数,表示的是节点i向节点j发送的邮件数;
有向时效网络中V,T与上述相同,表示在时间窗σ内的一个矩阵,其中
u i j = Σ k = 1 W → i j e - ( t i j k - T ) 2 2 σ 2
3.如权利要求1或2所述的一种基于Email网络的开源软件项目开发者预测方法,其特征在于:所述步骤S2中,在算法Degree-Based中,考虑节点的直接影响力,节点的度指与该节点直接相连的边的数目,度的大小即作为该项特征的分值;
在算法PageRank中,以有向无权网络为例,特征分值为
x i = Σ j = 1 n p i j x j = Σ j = 1 n A → i j x j k j o u t
其中
p i j = A → i j k j o u t
为节点j的出边的数量,则
X=PX
其中X=[x1,x2,…,xn],P=[pij]n×n
为了防止非连通网络引起的非唯一排列问题,矩阵P被替换为Q:
Q = ( 1 - β ) P + β δ Σ i = 1 n [ ( 1 - β ) P + β δ ]
其中β=0.1,得到X=QX,为得更一般的结果,同时防止数值过大,对该式采用如此迭代计算:
X ( s + 1 ) = Q X ( s ) | | Q X ( s ) | |
在算法LeaderRank中,以有向无权网络为例,在原有网络中增加一个背景节点,与其他所有节点做双向连接,特征分值为
x i = Σ j = 1 n + 1 A → i j x j k j o u t
同样的经过迭代运算:
X ( s + 1 ) = Q X ( s ) | | Q X ( s ) | |
得到一般性结果,之后将增加的背景节点分值平均分配个原网络中的所有节点,得到特征分值:
x i = x i ( s ) + x g ( s ) n
在Hits算法中,给每个节点赋予了两个参数:权威中心性xi和核心中心性yi
x i = α Σ j A → i j y i
y i = β Σ j A → j i x i
其中α,β均为常数;
因为两个参数都与指向性有关,所以Hits算法只针对有向网络进行分析,为使结果归一化,同时保持数量级不变,进行迭代计算:
X ( s + 1 ) = A Y ( s ) s u m ( A Y ( s ) )
Y ( s + 1 ) = A T X ( s ) s u m ( A T X ( s ) )
在无向网络中,由于节点的边没有方向性,指向一个节点与被一个节点指向并没有区别,定义一个等同于权威中心性和核心中心性的重要分数zi,zi在无向无权网络、无向有权网络、无向时效网络中,分别表示为:
Z ( s + 1 ) = A Z ( s ) s u m ( A Z ( s ) )
Z ( s + 1 ) = W Z ( s ) s u m ( W Z ( s ) )
Z ( s + 1 ) = U σ Z ( s ) s u m ( U σ Z ( s ) )
在特征向量中心性中,特征分值为
x i = Σ j A i j x j
为得到一般性结果同时保持数量级相等,进行迭代计算:
X ( s ) = ( A | | A | | ) s X ( 0 )
在聚类系数中,描述的是网络中节点的邻居中实际存在的边与该点邻居中可能存在的边的比值,特征分值为
4.如权利要求1或2所述的一种基于Email网络的开源软件项目开发者预测方法,其特征在于:所述步骤S3中,网络合并后的节点个数多于原有所有项目用户数总和,因为不同时刻网络存在同一个节点,考虑到了在一个时刻里只存在一个刚晋升的开发者,即在一个时刻,正标签的样本只有一个,导致数据样本不均衡,因此采用欠采样随机删除部分负标签样本,同时,对特征分值进行归一化处理来消除不同算法分值不同而影响结果,采用的是每个分值排名的百分比作为样本的特征值。
5.如权利要求1或2所述的一种基于Email网络的开源软件项目开发者预测方法,其特征在于:所述步骤S4中,利用Matlab机器学习工具包,对预处理之后的数据样本总量的80%采用Bayesian算法进行学习,然后对剩余数据进行测试,测试预测准确率。
CN201610813058.7A 2016-09-09 2016-09-09 一种基于Email网络的开源软件项目开发者预测方法 Pending CN106529562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610813058.7A CN106529562A (zh) 2016-09-09 2016-09-09 一种基于Email网络的开源软件项目开发者预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610813058.7A CN106529562A (zh) 2016-09-09 2016-09-09 一种基于Email网络的开源软件项目开发者预测方法

Publications (1)

Publication Number Publication Date
CN106529562A true CN106529562A (zh) 2017-03-22

Family

ID=58344910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610813058.7A Pending CN106529562A (zh) 2016-09-09 2016-09-09 一种基于Email网络的开源软件项目开发者预测方法

Country Status (1)

Country Link
CN (1) CN106529562A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644268A (zh) * 2017-09-11 2018-01-30 浙江工业大学 一种基于多特征的开源软件项目孵化状态预测方法
CN112347373A (zh) * 2020-11-13 2021-02-09 浙江工业大学 一种基于开源软件邮件网络的角色推荐方法
CN113364748A (zh) * 2021-05-25 2021-09-07 浙江工业大学 一种基于交易子图网络的以太坊钓鱼节点检测方法及***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254250A (zh) * 2011-07-13 2011-11-23 武汉大学 一种开源软件开发过程中开发者贡献度的度量方法
CN103198396A (zh) * 2013-03-28 2013-07-10 南通大学 基于社会网络行为特征的邮件分类方法
CN103530428A (zh) * 2013-11-04 2014-01-22 武汉大学 一种基于开发者实践技能相似性的同行推荐方法
CN104484365A (zh) * 2014-12-05 2015-04-01 华中科技大学 一种多源异构网络中社会关系的预测方法与***
CN105117849A (zh) * 2015-08-28 2015-12-02 湖南大学 基于电气LeaderRank算法的电网节点重要度评估方法
CN105183796A (zh) * 2015-08-24 2015-12-23 同济大学 一种基于聚类的分布式链路预测方法
CN105245362A (zh) * 2015-09-14 2016-01-13 河南工业大学 一种sdn环境中重要节点信息采集方法
CN105243593A (zh) * 2015-08-04 2016-01-13 电子科技大学 基于混合测度的加权网络社区聚类方法
CN105335892A (zh) * 2015-10-30 2016-02-17 南京邮电大学 一种社交网络重要用户发现的实现方法
CN105913323A (zh) * 2016-05-06 2016-08-31 浙江大学 一种GitHub开源社区的PullRequest评审者推荐方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254250A (zh) * 2011-07-13 2011-11-23 武汉大学 一种开源软件开发过程中开发者贡献度的度量方法
CN103198396A (zh) * 2013-03-28 2013-07-10 南通大学 基于社会网络行为特征的邮件分类方法
CN103530428A (zh) * 2013-11-04 2014-01-22 武汉大学 一种基于开发者实践技能相似性的同行推荐方法
CN104484365A (zh) * 2014-12-05 2015-04-01 华中科技大学 一种多源异构网络中社会关系的预测方法与***
CN105243593A (zh) * 2015-08-04 2016-01-13 电子科技大学 基于混合测度的加权网络社区聚类方法
CN105183796A (zh) * 2015-08-24 2015-12-23 同济大学 一种基于聚类的分布式链路预测方法
CN105117849A (zh) * 2015-08-28 2015-12-02 湖南大学 基于电气LeaderRank算法的电网节点重要度评估方法
CN105245362A (zh) * 2015-09-14 2016-01-13 河南工业大学 一种sdn环境中重要节点信息采集方法
CN105335892A (zh) * 2015-10-30 2016-02-17 南京邮电大学 一种社交网络重要用户发现的实现方法
CN105913323A (zh) * 2016-05-06 2016-08-31 浙江大学 一种GitHub开源社区的PullRequest评审者推荐方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
QI XUAN等: "RANKING DEVELOPER CANDIDATES BY SOCIAL LINKS", 《ADVANCES IN COMPLEX SYSTEMS》 *
曹璨等: "不均衡数据下的电信客户流失方法研究综述", 《第17届中国***仿真技术及其应用学术年会论文集(17TH CCSSTA 2016)》 *
李奋华: "一种新的链接预测方法在复杂网络中的应用", 《电脑知识与技术》 *
苏树清等: "LeaderRank与PageRank算法比较研究", 《信息技术》 *
赵悦阳: "PageRank算法与HITS算法比较研究", 《医学信息学杂志》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644268A (zh) * 2017-09-11 2018-01-30 浙江工业大学 一种基于多特征的开源软件项目孵化状态预测方法
CN112347373A (zh) * 2020-11-13 2021-02-09 浙江工业大学 一种基于开源软件邮件网络的角色推荐方法
CN113364748A (zh) * 2021-05-25 2021-09-07 浙江工业大学 一种基于交易子图网络的以太坊钓鱼节点检测方法及***

Similar Documents

Publication Publication Date Title
Zhao et al. A machine learning based framework for identifying influential nodes in complex networks
Deng et al. An evidential game theory framework in multi-criteria decision making process
CN106131017A (zh) 基于可信计算的云计算信息安全可视化***
Yu et al. Detecting group concept drift from multiple data streams
Tomani et al. Towards trustworthy predictions from deep neural networks with fast adversarial calibration
CN106529562A (zh) 一种基于Email网络的开源软件项目开发者预测方法
Kalyani et al. Privacy-preserving classification rule mining for balancing data utility and knowledge privacy using adapted binary firefly algorithm
Muhsen et al. Enhancing NoC-based MPSoC performance: a predictive approach with ANN and guaranteed convergence arithmetic optimization algorithm
Jekel et al. Diagnostic task selection for strategy classification in judgment and decision making: Theory, validation, and implementation in R
Colliri et al. A network-based high level data classification technique
Rabbi et al. An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects
Fang et al. Locating the source of asynchronous diffusion process in online social networks
Kamkhad et al. Toward semantic data imputation for a dengue dataset
Jeyasudha et al. An intelligent centrality measures for influential node detection in COVID-19 environment
CN112560105B (zh) 保护多方数据隐私的联合建模方法及装置
Begum et al. Software Defects Identification: Results Using Machine Learning and Explainable Artificial Intelligence Techniques
Li et al. Learning, analyzing and predicting object roles on dynamic networks
CN108536776A (zh) 一种社交网络中的统一用户恶意行为检测方法和***
Trawiński et al. Evaluation of fuzzy system ensemble approach to predict from a data stream
Kumar et al. CFLP: A new cost based feature for link prediction in dynamic networks
Srinivas et al. Hybrid Approach for Prediction of Cardiovascular Disease Using Class Association Rules and MLP.
Charlier et al. Profiling smart contracts interactions with tensor decomposition and graph mining
Chien et al. Multi-objective evolutionary approach to prevent premature convergence in Monte Carlo localization
CN106161458A (zh) 基于双加权在线极限学习机的网络入侵检测方法
CN108876210A (zh) 一种土地***变化因果结构的识别方法、***和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170322

WD01 Invention patent application deemed withdrawn after publication