CN116738963A

CN116738963A - 基于多头注意力机制的深度学习代码抄袭检测方法

Info

Publication number: CN116738963A
Application number: CN202310257808.7A
Authority: CN
Inventors: 张恒华; 张凌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-09-12

Abstract

本发明公开了一种基于多头注意力机制的深度学习代码抄袭检测方法，包括：1)使用代码解析工具将源代码解析成抽象语法树；2)以语句节点作为分解粒度，将抽象语法树以深度优先遍历的方式分解成一组抽象语法子树；3)使用递归神经网络生成抽象语法子树的代码向量，使用多头自注意力机制、残差网络获取抽象语法子树的代码向量的特征，采用全连接网络将抽象语法子树的代码向量表示成一个固定长度的向量，通过余弦相似性计算两份代码的相似性，相似性超过阈值的代码判定为抄袭，未超过阈值的判定为未抄袭；4)使用注意力机制，将判定为抄袭的两份代码进行源代码相似性的标注。本发明实现了端到端的源代码抄袭检测算法，可实现更灵活和精确的下游应用。

Description

基于多头注意力机制的深度学习代码抄袭检测方法

技术领域

本发明涉及代码相似性和代码抄袭检测的技术领域，尤其是指一种基于多头注意力机制的深度学习代码抄袭检测方法。

背景技术

代码抄袭检测是指检测出存在于代码库中两个及两个以上相同或者相似的源代码片段，并进行代码相似性标注的过程，在使用在线判别***(Online Judge System)的大学编程课程中起着重要作用。

在典型的大学编程课程中，代码抄袭检测工具一般使用非机器学***铺(Greedy StringTiling)等方法计算代码对的相似性，这类方法不需要训练模型，但易受代码结构的影响，同时难以识别语句的等价替换，其检测精度仍然需要完善。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于多头注意力机制的深度学习代码抄袭检测方法，能够使用源代码的句法信息进行代码抄袭检测，缓解对代码结构敏感和语句的等价替换的问题，同时为检测语义抄袭提供了一个探索方向，进一步可以实现更灵活和精确的下游应用。

为实现上述目的，本发明所提供的技术方案为，基于多头注意力机制的深度学习代码抄袭检测方法，包括以下步骤：

1)使用代码解析工具将源代码解析成抽象语法树；

2)以语句节点作为分解粒度，将抽象语法树以深度优先遍历的方式分解成一组抽象语法子树；

3)使用递归神经网络生成抽象语法子树的代码向量，使用多头自注意力机制、残差网络获取抽象语法子树的代码向量的特征，采用全连接网络的方式将抽象语法子树的代码向量表示成一个固定长度的向量，最后通过余弦相似性计算两份代码的相似性，相似性超过阈值的代码判定为抄袭，未超过阈值的判定为未抄袭；

4)使用注意力机制，将判定为抄袭的两份代码进行源代码相似性的标注。

进一步，在步骤1)中，抽象语法树指的是编译原理中语法分析的结果，语法分析以词法分析的结果为输入，语法检查的同时并输出一棵语法树；给定一段代码text，生成抽象语法树ast的过程由公式定义为：

tokens＝lexer(text)

ast＝parser(tokens)

式中，lexer是指词法分析器，tokens是指词法分析的结果即单词序列，parser是指语法分析器，ast即抽象语法树。

进一步，在步骤2)中，根据步骤1)所得抽象语法树ast，将抽象语法树ast分解成一组抽象语法子树sub_asts，具体分解的过程如下：

A)初始化语句节点集S＝{}，令节点node指向抽象语法树ast的根节点；

B)访问节点node，如果当前节点node∈Logics，那么S＝node∪S；

C)访问当前节点node的子节点；

D)重复B)和C)，直至遍历完抽象语法树；

Logics＝{MethodDeclaration,LocalVariable,ForStatement,TryStatement,WhileStatement,ReturnStatement}

式中，Logics指的是语句节点集合，MethodDeclaration指的是方法声明语句、LocalVariable指的是变量声明语句、ForStatement指的是for语句、TryStatement指的是try语句、WhileStatement指的是while语句、ReturnStatement指的是return语句；

一棵抽象语法树ast的分解结果为一组抽象语法子树sub_asts：

sub_asts＝[sub_ast₁,sub_ast₂,sub_ast₃,...,sub_ast_i]

式中，sub_ast_i指的是第i棵抽象语法子树。

进一步，所述步骤3)包括以下步骤：

3.1)使用bigclonebench和***jam4数据集，生成抽象语法树的语料库，然后使用无监督的word2vec算法模型对抽象语法树的节点生成对应的向量：

asts＝parser(codes)

sequences＝dfs(asts)

w_e＝word2vec(sequences)

式中，codes是指bigclonebench和***jam4数据集中的所有代码片段，dfs是指以深度优先遍历的方式生成抽象语法树的节点序列，sequences是dfs生成的所有的序列，word2vec是指使用词嵌入的算法模型生成抽象语法树节点的向量表示，w_e∈R^v×d是指词向量矩阵，其中v是指词汇量的大小，d是向量维度，R是指向量空间；

3.2)使用递归神经网络生成抽象语法子树sub_ast的向量，具体为：

给定一棵抽象语法子树sub_ast，用n表示非叶子节点，用m表示节点n的子节点数量，那么节点n的向量表示为：

式中，x_n是指节点n的独热编码，νec_n是指节点n对应的向量，w_e ^T是指向量矩阵w_e的转置；

式中，w_n∈R^d×k是指可学习的权重矩阵，k是输出维度，b_n是节点n的偏置项，h_i是节点n第i个子节点的隐藏状态，h是更新之后的隐藏状态，σ是激活函数；通过上式，就能够自底向上递归地计算抽象语法子树中所有节点的向量，从而提取所有节点的词法和语法信息，生成抽象语法子树sub_ast的向量h，那么步骤3.1)中的一组抽象语法子树sub_asts就转换成了向量h_t：

h_t＝[h₁,h₂,h₃,...,h_i]

式中，h_i表示第i棵抽象语法子树的向量；

3.3)使用位置编码生成时序信息，具体为：

式中，pos是指抽象语法子树在一组抽象语法子树中从左到右的位置，u是指节点向量的第u个维度，sin和cos分别指正弦函数和余弦函数，PE_cos和PE_sin分别指以正弦函数和余弦函数的方式生成时序信息，正弦函数和余弦函数能够将位置外推到比训练期间遇到的序列长度更长的序列，从而使得位置编码拥有更好的泛化性，那么步骤3.2)所得向量h_t就转换成了h_p：

h_pi＝PE_sin(h_i)+PE_cos(h_i)

h_p＝[h_p1,h_p2,h_p3,...,h_pi]

式中，h_pi指的是h_i经过转换后所得的向量；

3.4)使用注意力机制进一步提取特征，可缩放注意力机制的数学定义：

Q_i'＝QW_i' ^Q

K_i'＝KW_i' ^K

V_i'＝VW_i' ^V

式中，Q是指查询query，指的是抽象语法子树的向量；K是指键key，V是指值value，K和V相同，且在可缩放注意力机制它们的值与Q相同，Q_i'、K_i'、V_i'分别对应Q、K、V经过转化后的向量；分别对应Q、K、V的中第i'个可学习的权重矩阵，d_o是指向量的输出维度，d_model是指矩阵中的第一个维度，d_model由d_model/h＝d_o确定；head_i'是指第i'个注意力头；

多头注意力机制是可缩放注意力机制的扩展，能够不同向量空间学习向量的特征，具体为：

multihead(Q,K,V)＝Concat(head₁,head₂,head₃,...,head_i')

式中，是一个可学习的权重矩阵，Concat是向量连接运算；multihead是指多头注意力计算；多头注意力机制即使用多个可缩放注意力对抽象语法子树的向量进行特征深化，最后将多个可缩放注意力的计算结果连接在一起；

经过多头注意力机制后，步骤3.3)所得向量h_p转成了向量h_a，具体如下：

h_ai＝multihead(h_pi,h_pi,h_pi)

h_a＝[h_a1,h_a2,h_a3,...,h_ai]

式中，h_ai是指h_pi经过多头注意力机制转换后所得的向量；

3.5)使用残差网络，连接步骤3.2)中的向量h_t和经过注意力机制的向量h_a，具体如下：

res＝h_a+h_t

式中，h_a和h_t两个向量相加即得到残差网络的输出res；

3.6)使用线性网络层将步骤3.5)的输出投影到一维向量，所得的一维向量即为代码对的相似值，即：

s＝add(res_x,-res_y)W_l

式中，res_x和res_y是指代码x和代码y经过残差网络所得的两个特征向量，add是指线性相加，s是代码x和代码y的相似值，W_l∈R^d是指线性网络层可学习的权重矩阵。

进一步，在步骤4)中，使用注意力机制将判定为相似的两个代码进行标注，相似性标注阶段使用的是递归神经网络所得输出h_t；相似性标注以抽象语法子树为单位，计算代码对的子树之间的相似度超过阈值的代码片段，即：

scores_ij＝h_txih_tyj

pairs＝mark(scores_ij)

式中，h_txi是指代码x的向量h_t的第i个向量分量，h_tyj是指代码y的向量h_t的第j个向量分量，scores_ij是指h_txi和h_tyj相似性得分，mark是指将超过阈值ε的抽象语法子树标记出来，pairs是指被标记的两个代码中的片段。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明首次采用多头注意力机制进行代码抄袭检测，缓解对代码结构敏感的问题，同时为检测语义抄袭提供了一个方案。

2、本发明可以学习代码的词法和语法信息，为代码的向量表示提供了更完善的信息。

3、本发明与代码抄袭检测的相似性标定方法相比，提高了语义解释。

4、本发明可通过数据集扩充识别新的代码抄袭手段。

5、本发明方法在代码抄袭检测任务中具有广泛的使用空间，操作简单、适应性强，具有广阔的应用前景。

附图说明

图1为本发明逻辑流程示意图。

图2为本发明的架构示意图。图中parse指的是词法分析和语法分析，splits指的是抽象语法树的划分，RvNN指的是递归神经网络，PE指的是位置编码，MultiHead指的是多头注意力，residual指的是残差连接，add指的是线性相加。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1和图2所示，本实施例提供了一种基于多头注意力机制的深度学习代码抄袭检测方法，使用了抽象语法树的语法信息及多头注意力机制，其包括以下步骤：

1)使用代码解析工具将源代码解析成抽象语法树；

抽象语法树指的是编译原理中语法分析的结果，语法分析以词法分析的结果为输入，语法检查的同时并输出一棵语法树；给定一段代码text，生成抽象语法树ast的过程由公式可定义为：

tokens＝lexer(text)

ast＝parser(tokens)

2)根据步骤1)所得抽象语法树ast，进一步将抽象语法树ast分解成一组抽象语法子树sub_asts，具体分解的过程如下：

A)初始化语句节点集S＝{}，令节点node指向抽象语法树ast的根节点。

B)访问节点node，如果当前节点node∈Logics，那么S＝node∪S。

C)访问当前节点node的子节点。

D)重复B)和C)，直至遍历完抽象语法树。

式中，Logics指的是语句节点集合，MethodDeclaration指的是方法声明语句、LocalVariable指的是变量声明语句、ForStatement指的是for语句、TryStatement指的是try语句、WhileStatement指的是while语句、ReturnStatement指的是return语句。

一颗抽象语法树ast的分解结果为一组抽象语法子树sub_asts：

sub_asts＝[sub_ast₁,sub_ast₂,sub_ast₃,...,sub_ast_i]

式中，sub_ast_i指的是第i棵抽象语法子树。

3)使用递归神经网络生成抽象语法子树的代码向量，使用多头自注意力机制、残差网络获取抽象语法子树的代码向量的特征，采用全连接网络的方式将抽象语法子树的代码向量表示成一个固定长度的向量，最后通过余弦相似性计算两份代码的相似性，相似性超过阈值的代码判定为抄袭，未超过阈值的判定为未抄袭，包括以下步骤：

asts＝parser(codes)

sequences＝dfs(asts)

w_e＝word2vec(sequences)

给定一棵抽象语法子树sub_ast,用n表示非叶子节点，用m表示节点n的子节点数量，那么节点n的向量可表示为：

式中，x_n是指节点n的独热编码，νec_n是指节点n对应的向量，w_e ^T是指向量矩阵w_e的转置。

式中，w_n∈R^d×k是指可学习的权重矩阵，其中d是向量维度、k是输出维度，b_n是节点n的偏置项，h_i是节点n第i个子节点的隐藏状态，h是更新之后的隐藏状态，σ是激活函数。通过上式，就可以自底向上递归地计算抽象语法子树中所有节点的向量，从而提取所有节点的词法和语法信息，生成抽象语法子树sub_ast的向量h，那么步骤3.1)中的一组抽象语法子树sub_asts就转换成了向量h_t：

h_t＝[h₁,h₂,h₃,...,h_i]

式中，h_i表示第i棵抽象语法子树的向量；

3.3)使用位置编码生成时序信息，具体为：

h_pi＝PE_sin(h_i)+PE_cos(h_i)

h_p＝[h_p1,h_p2,h_p3,...,h_pi]

式中，h_pi指的是h_i经过转换后所得的向量。

3.4)使用注意力机制进一步提取特征，具体而言，可缩放注意力机制的数学定义：

Q_i'＝QW_i' ^Q

K_i'＝KW_i' ^K

V_i'＝VW_i' ^V

多头注意力机制是可缩放注意力机制的扩展，可以不同向量空间学习向量的特征，具体而言：

multihead(Q,K,V)＝Concat(head₁,head₂,head₃,...,head_i')

经过多头注意力机制后，步骤3.3)所得h_p转成了h_a，具体如下：

h_ai＝multihead(h_pi,h_pi,h_pi)

h_a＝[h_a1,h_a2,h_a3,...,h_ai]

式中，h_ai是指h_pi经过多头注意力机制转换后所得的向量。

res＝h_a+h_t

h_a和h_t两个向量相加即得到残差网络的输出res。

3.6)使用线性网络层步骤3.5)的输出投影到一维向量，所得的一维向量即为该代码对的相似值，即：

s＝add(res_x,-res_y)W_l

4)使用注意力机制将判定为相似的两个代码进行标注，相似性标注阶段主要使用的是步骤3.2)递归神经网络所得输出h_t。相似性标注以抽象语法子树为单位，计算代码对的子树之间的相似度超过阈值的代码片段，即

scores_ij＝h_txih_tyj

pairs＝mark(scores_ij)

式中，h_txi是指代码x的向量h_t的第i个向量分量，h_tyj是指代码y的向量h_t的第j个向量分量，scores_ij是指h_txi和h_tyj相似性得分，mark是指将超过阈值ε的抽象语法子树标记出来，ε的取值为35.0，pairs是指被标记的两个代码中的片段。

由以上公式可知，本方法的代码相似性标注是以子树为粒度的。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于多头注意力机制的深度学习代码抄袭检测方法，其特征在于，包括以下步骤：

1)使用代码解析工具将源代码解析成抽象语法树；

2.根据权利要求1所述的基于多头注意力机制的深度学习代码抄袭检测方法，其特征在于，在步骤1)中，抽象语法树指的是编译原理中语法分析的结果，语法分析以词法分析的结果为输入，语法检查的同时并输出一棵语法树；给定一段代码text，生成抽象语法树ast的过程由公式定义为：

tokens＝lexer(text)

ast＝parser(tokens)

3.根据权利要求2所述的基于多头注意力机制的深度学习代码抄袭检测方法，其特征在于，在步骤2)中，根据步骤1)所得抽象语法树ast，将抽象语法树ast分解成一组抽象语法子树sub_asts，具体分解的过程如下：

B)访问节点node，如果当前节点node∈Logics，那么S＝node∪S；

C)访问当前节点node的子节点；

D)重复B)和C)，直至遍历完抽象语法树；

一棵抽象语法树ast的分解结果为一组抽象语法子树sub_asts：

sub_asts＝[sub_ast₁,sub_ast₂,sub_ast₃,...,sub_ast_i]

式中，sub_ast_i指的是第i棵抽象语法子树。

4.根据权利要求3所述的基于多头注意力机制的深度学习代码抄袭检测方法，其特征在于，所述步骤3)包括以下步骤：

asts＝parser(codes)

sequences＝dfs(asts)

w_e＝word2vec(sequences)

h_t＝[h₁,h₂,h₃,...,h_i]

式中，h_i表示第i棵抽象语法子树的向量；

3.3)使用位置编码生成时序信息，具体为：

h_pi＝PE_sin(h_i)+PE_cos(h_i)

h_p＝[h_p1,h_p2,h_p3,...,h_pi]

式中，h_pi指的是h_i经过转换后所得的向量；

Q_i'＝QW_i' ^Q

K_i'＝KW_i' ^K

V_i'＝VW_i' ^V

multihead(Q,K,V)＝Concat(head₁,head₂,head₃,...,head_i')

h_ai＝multihead(h_pi,h_pi,h_pi)

h_a＝[h_a1,h_a2,h_a3,...,h_ai]

式中，h_ai是指h_pi经过多头注意力机制转换后所得的向量；

res＝h_a+h_t

式中，h_a和h_t两个向量相加即得到残差网络的输出res；

s＝add(res_x,-res_y)W_l

5.根据权利要求4所述的基于多头注意力机制的深度学习代码抄袭检测方法，其特征在于，在步骤4)中，使用注意力机制将判定为相似的两个代码进行标注，相似性标注阶段使用的是递归神经网络所得输出h_t；相似性标注以抽象语法子树为单位，计算代码对的子树之间的相似度超过阈值的代码片段，即：

scores_ij＝h_txih_tyj

pairs＝mark(scores_ij)