CN101425008A

CN101425008A - 基于编辑距离的源代码相似度度量方法

Info

Publication number: CN101425008A
Application number: CNA2007101766889A
Authority: CN
Inventors: 李虎; 曹羽中; 刘超; 金茂忠
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2007-11-01
Filing date: 2007-11-01
Publication date: 2009-05-06

Abstract

本发明提供一种基于编辑距离的源代码相似度度量方法，包括：输入第一源代码块和第二源代码块；识别第一源代码块和第二源代码块中的符号；判断所述符号的类型，根据所述类型设置相应的增加值；逐一比较第一源代码块与第二源代码块中的符号，利用编辑距离公式采用动态规划法计算编辑距离，得出相似度度量值，其中所述编辑距离公式被定义，以使得第一源代码块与第二源代码块的编辑距离取决于所述符号、对所述符号的编辑操作以及所述符号对应的增加值。利用本发明所提供的方法，可以在进行源代码相似度度量或源代码相似性判断时，提供更高的精确度。

Description

基于编辑距离的源代码相似度度量方法

技术领域

本发明涉及源代码相似度度量方法，更具体而言，涉及基于编辑距离的源代码相似度度量方法。

背景技术

随着软件行业的高速发展，常常会出现源代码复用，也就是对已有的源代码进行拷贝并粘贴到新的上下文环境中，并且为了适应新的上下文环境，而对原有的源代码进行少量的修改。为了判断源代码的复用率，常常需要度量这两块源代码的相似度，也就是判断这两块源代码的相似性。目前，业界通常利用传统的编辑距离方法来计算源代码之间的编辑距离，从而给出相似度的度量值。在此，所述编辑距离是指将字符串s1和字符串s2变成相同字符串而需要进行：(1)把字符串s1中的字符ch1替换成字符串s2中的字符ch2或相反操作；(2)删除字符串s1中的字符ch1或删除字符串s2中的字符ch2以及(3)向字符串s1中***字符ch2或向字符串s2中***字符ch1这三种操作的最小次数。

然而，这种传统的编辑距离方法中的三种编辑操作均是针对字符，并且对于任意字符使用三种编辑操作之一时，均是累加一次编辑次数，从未考虑到源代码特有的词法和语法结构，因此在判断源代码的相似性或度量源代码的相似度时，所给出的判断或度量的精确度很低。例如对一段源代码进行几个关键字的修改以及进行几个变量名的修改，尽管前者的修改会对程序的功能造成更大的影响，然而传统的编辑距离方法对这两种修改后的源代码与原有源代码相比后所给出的编辑距离是相同的。由此，当用户利用这种编辑距离进行源代码相似度度量或源代码相似性判断时，会得出一些不正确的结论，尤其是当原有的源代码被通过非正当手段进行复用，也就是被剽窃而需要精确地确定源代码的相似度时，这种传统的编辑距离方法无法满足精确度的需求。因此，需要一种能够针对源代码特有的词法和语法结构，在进行源代码相似度度量或源代码相似性判断时，能提供更高精确度的基于编辑距离的源代码相似度度量方法。

发明内容

本发明的目的是针对利用传统的编辑距离方法进行源代码相似度度量时产生度量精确度不高的问题，而提供一种针对源代码特有的词法和语法结构，在进行源代码相似度度量或源代码相似性判断时，能提供更高的精确度的改进的基于编辑距离的源代码相似度度量方法。

本发明提供一种基于编辑距离的源代码相似度度量方法，包括：输入第一源代码块和第二源代码块；识别第一源代码块和第二源代码块中的符号；判断所述符号的类型，根据所述类型设置相应的增加值；逐一比较第一源代码块与第二源代码块中的符号，利用编辑距离公式采用动态规划法计算编辑距离，得出相似度度量值，其中所述编辑距离公式被定义，以使得第一源代码块与第二源代码块的编辑距离取决于所述符号、对所述符号的编辑操作以及所述符号对应的增加值。

利用本发明所提供的方法，可以在进行源代码相似度度量或源代码相似性判断时，提供更高的精确度。

附图说明

为了更好地理解本发明，下面结合附图仅以举例的方式对本发明的实施方案作详细说明，其中：

图1示出了根据本发明的一个实施方案计算编辑距离的流程图。

具体实施方式

在下面描述中，为说明起见，描述了很多具体细节以便全面理解本发明的实施方案。然而，对于本领域的技术人员来说，显而易见的是本发明可不采用这些具体细节进行实施。

在本说明书中以及随后的权利要求书中，将涉及到若干术语，这些术语将被定义具有下述含义。

符号(token)：一个程序设计语言的基本语法符号。

关键字：也称基本字，如PASCAL语言中的begin、end、if、while和var等。

标识符：用来表示各种名字，如常量名、变量名和过程名等。

字面量：各种类型的常数，如25、3.1415、TRUE和“ABC”等。

访问修饰符：可以限制类和结构，以便只有声明它们的程序或命名空间才能使用它们的符号，如private、static、public、this和const等。

其它：不属于关键字、标识符、字面量和访问修饰符的其他符号，如运算符、界符等。

基于上文所述，已知判断两个字符串s1和字符串s2的差别，可以通过计算这两个字符串之间的编辑距离来实现。虽然上文已经介绍了编辑距离，但是为了更加清楚地理解编辑距离，此处将通过公式的形式，对编辑距离进行定义。假设d(s1，s2)表示字符串s1和s2的编辑距离，″表示一个空字符串，ch1和ch2分别表示串s1和s2中的字符，|s|表示字符串s的长度，则编辑距离的计算满足以下定义：

d(″，″)＝0 (1)，

d(s，″)＝d(″，s)＝|s| (2)，

d(s1+ch1，s2+ch2)＝

min(d(s1，s2)+ifch1＝ch2 then 0 else 1，//修改操作

d(s1+ch1，s2)+1， //***操作

d(s1，s2+ch2)+1) //删除操作 (3)。

本发明所述的编辑距离对上述编辑距离进行了改进，其中d(cs1，cs2)表示源代码块cs1和cs2的编辑距离，″表示一个空源代码块，tc1和tc2分别表示源代码块cs1和cs2中的符号，|cs|表示源代码块cs的长度(即源代码块cs中符号的个数)，score表示符号所对应的增加值，则本发明所述的编辑距离满足以下定义：

d(″，″)＝0 (1)，

d(cs，″)＝d(″，cs)＝|cs| (2)，

d(s1+tc1，s2+tc2)＝

min(d(cs1，cs2)+if tc1＝tc2 then 0 else score，//修改操作

d(cs1+tc1，cs2)+score， //***操作

d(cs1，cs2+tc2)+score) //删除操作 (3)。

在上文中已经简单介绍了传统的编辑距离方法，在此，将通过举例的方式利用伪代码对此作进一步的说明，以便更好地理解本发明。

作为例子，用动态规划法来计算两个源代码块f1和f2的编辑距离，即相似度值。首先，传统的编辑距离方法：

输入：源代码块f1，源代码块f2

输出：f1，f2的相似度值

computeSimilarity(f1，f2){

len_f1＝源代码块f1中的字符个数

len_f2＝源代码块f2中的字符个数

//d[i][j]表示f1中的字符1至字符i和f2中的字符1至

字符j之间的编辑距离

d[0][0]＝0；

for(int i＝0；i<len_f1；i++)

d[i+1][0]＝d[i][0]；

for(int j＝0；j<len_f2；j++)

d[0][j+1]＝d[0][j]；

for(int i＝0；i<len_f1；i++){

for(intj＝0；j<len_f2；j++){

float d1，d2，d3；

if(f1的第i个字符与f2的第j个字符相等)

d1＝d[i][j]；//无需任何编辑操作

else

d1＝d[i][j]+1；//修改

d2＝d[i][j+1]+1；//删除

d3＝d[i+1][j]+1；//***

d[i+1][j+1]＝d1，d2，d3之中的最小值；

}

return d[len_f1][len_f2]；//返回相似度值

}

本发明所提出的改进的编辑距离方法是指在计算编辑距离时，三种编辑操作均是针对一个符号，而不是针对一个字符，并且在一次具体的编辑操作中是针对该符号相应的类型。也就是说，一个符号可以是单个字符，也可以是两个或多个字符，并且不同的符号的增加值不同，该增加值根据编辑该类型的符号对源代码块的影响度设置，影响度越高，增加值越大，优选地，增加值是不大于1的正数。例如，上述增加值可以如表1中所示。

符号的类型	增加值
符号的类型	增加值	关键字	1.0
标识符及字面量	0.2	关键字	1.0
标识符及字面量	0.2	访问修饰符	0.1
其它	0.5	访问修饰符	0.1

表1

因此，考虑符号以及符号类型，参照图1，上述传统的编辑距离方法可以被修改成：

输入：源代码块f1，源代码块f2

输出：f1，f2的相似度值

computeSimilarity(f1，f2){

len_f1＝源代码块f1中的符号个数

len_f2＝源代码块f2中的符号个数

//d[i][j]表示f1中的符号1至符号i和f2中的符号1至符号j之间的编辑距离

d[0][0]＝0；

for(int i＝0；i<len_f1；i++)

d[i+1][0]＝d[i][0]+f1的第i个符号的增加值；

for(int j＝0；j<len_f2；j++)

d[0][j+1]＝d[0][j]+f2的第j个符号的增加值；

for(int i＝0；i<len_f1；i++){

for(int j＝0；j<len_f2；j++){

float d1，d2，d3；

if(f1的第i个t oken与f2的第j个符号相等)

d1＝d[i][j]；//无需任何编辑操作

else

d1＝d[i][j]+两个符号中较大的那个增加值

//修改

d2＝d[i][j+1]+f1中第i个符号的增加值；//删除

d3＝d[i+1][j]+f2中第j个符号的增加值；//***

d[i+1][j+1]＝d1，d2，d3之中的最小值；

}

return d[len_f1][len_f2]；//返回相似度值

}

例如，在上述修改后的方法的任意状态，对于一个关键字来说无论是做修改、***还是删除编辑操作，其编辑距离增加值均是1；而对于一个访问修饰符来说，其编辑距离增加值则为0.1。

下面将以两个源代码块为例，分别利用上述传统的编辑距离方法和改进的编辑距离方法计算相似度值。

code1：

public class Foo{

protected String name；

private int count；

public String getName(){

return name；

}

public int getCount(){

return count；

}

code2：

public class Counter{

private String counterName；

protected int count；

protected String getCounterName(){

return this.counterName；

}

protected int getCount(){

return this.count；

}

利用传统的编辑距离方法的计算结果(忽略代码中的多余空格，空行)：

D(code1，code2)＝65，

其中Len(code1)＝145，Len(code2)＝183，

那么：

computeSimilarity(code1，code2)

＝1-D(code1，code2)/Min(Len(code1)，Len(code2))

＝1-65/Min(145，183)＝1-65/145＝0.5517。

利用本发明的改进的编辑距离方法的计算结果((忽略代码中的多余空格，空行)：

D(code1，code2)＝2.8，

其中Len(code1)＝32，Len(code2)＝36，

computeSimilarity(code1，code2)

＝1-D(code1，code2)/Min(Len(code1)，Len(code2))

＝1-2.8/Min(32，36)＝1-2.8/32＝0.9125

事实上，这两个代码块非常相似，但是利用传统的编辑距离方法计算的相似度值却远远小于利用本发明的改进的编辑距离方法计算的相似度值，由此可见，本发明的改进的编辑距离方法计算出来的相似度值更符合实际情况。

本发明提供了一种针对源代码特有的词法和语法结构，在计算源代码的编辑距离时，利用符号和符号类型来补偿编辑距离增加值，从而得出更高的精确度的编辑距离的方法，利用该方法可以更加精确地对程序源代码进行相似度度量。

另外，尽管表1中示出了不同类型的符号的增加值，但这仅是出于示例的目的，并不是为了限定，因此，在其它的实施方式中可以根据具体的应用而对这些增加值进行修改。并且，尽管上文以伪代码的形式示出了一种编辑距离的计算过程，但这仅是出于示例的目的，并不是出于限定，因此，任何能够基于符号和符号类型来补偿编辑距离增加值，从而计算出编辑距离的过程都可以采用。显而易见，在此描述的本发明可以有许多变化，这种变化不能认为偏离本发明的精神和范围。因此，所有对本领域技术人员来说显而易见的改变，都包括在本权利要求书的涵盖范围之内。

Claims

1.一种基于编辑距离的源代码相似度度量方法，包括：

输入第一源代码块和第二源代码块；

识别第一源代码块和第二源代码块中的符号；

判断所述符号的类型，根据所述类型设置相应的增加值；

逐一比较第一源代码块与第二源代码块中的符号，利用编辑距离公式采用动态规划法计算编辑距离，得出相似度度量值，

其中所述编辑距离公式被定义，以使得第一源代码块与第二源代码块的编辑距离取决于所述符号、对所述符号的编辑操作以及所述符号对应的增加值。

2.根据权利要求1所述的方法，其特征在于，所述符号的类型根据编辑该符号对所述源代码相似度的影响度确定。

3.根据权利要求1所述的方法，其特征在于，所述增加值是不大于1的正数。

4.根据权利要求1所述的方法，其特征在于，所述符号的类型为关键字，其相应的增加值为1。

5.根据权利要求1所述的方法，其特征在于，所述符号的类型为标识符和字面量，其相应的增加值为0.2。

6.根据权利要求1所述的方法，其特征在于，所述符号的类型为访问修饰符，其相应的增加值为0.1。