CN115859307A

CN115859307A - 基于树型注意力和加权图匹配的相似漏洞检测方法

Info

Publication number: CN115859307A
Application number: CN202211678532.1A
Authority: CN
Inventors: 苏小红; 郑伟宁; 魏宏巍; 魏子越; 陶文鑫; 蒋远; 王甜甜; 张彦航
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-03-28

Abstract

本发明公开了一种基于树型注意力和加权图匹配的相似漏洞检测方法，首先，分别为目标函数、漏洞函数和补丁函数生成FCG、vSCG、pSCG。其次，利用语句节点嵌入网络分别提取FCG、vSCG和pSCG语句节点的语义和语法信息。接着，利用图神经网络和加权图匹配方法构成的图匹配模型，学习并计算FCG和vSCG之间以及FCG和pSCG之间的相似度，然后利用计算的三元组损失函数调整网络参数，训练检测模型。最后，利用训练好的模型检测软件中的相似漏洞。本发明可以在捕获代码中与漏洞相关的语法和语义特征的同时，有效利用补丁信息区分仅有细微差异的漏洞和补丁函数，从而提高相似漏洞检测的准确率。

Description

基于树型注意力和加权图匹配的相似漏洞检测方法

技术领域

本发明涉及一种软件相似漏洞检测方法，具体涉及一种基于树型注意力和加权图匹配的相似漏洞检测方法。

背景技术

近年来，随着软件规模和复杂度的快速增加，代码重用越来越频繁，导致软件中出现的相似漏洞越来越多。检测软件中的相似漏洞正成为软件安全领域的一个重要问题。采用自动化的方式将正在处理的漏洞确定为与已知漏洞相似的漏洞，不仅可以避免新的漏洞被作为未知漏洞来处理，还可以为开发者提供修复漏洞的参考，加快软件漏洞修复的效率。目前，基于代码相似性的相似漏洞检测方法主要是通过比较待测代码和已知漏洞代码之间的相似性来判定相似漏洞，通常采用基于哈希函数的漏洞签名直接计算相似性。然而，现有的基于哈希函数的漏洞签名或指纹的方法不能表示漏洞相关的深层语义特征，难以适用于软件中语义相似的漏洞检测。

在相似漏洞检测任务中，存在以下挑战：1)代码的漏洞实例和补丁之间只有较小的差异，难以区分目标函数究竟相似于漏洞还是补丁。2)在真实项目的漏洞代码中，往往存在大量和漏洞无关的语句。为此，一种有效的相似漏洞检测方法应具备如下两个特性：1)它能够识别真实项目中漏洞代码和已打补丁的代码之间的细微差别。2)它能够关注漏洞和补丁中的关键信息和差异信息，而忽略甚至消除多余的与漏洞无关的信息对检测造成的干扰。

发明内容

本发明的目的是提供一种基于树型注意力和加权图匹配的相似漏洞检测方法，该方法主要由三个部分组成：(1)能够表征代码的语法和语义信息的切片复合图(SliceComposite Graph,SCG)作为代码表示；(2)基于CodeBERT模型和树型注意机制的语句节点嵌入网络来学习语句特征向量表示；(3)由图神经网络和加权图匹配方法构成的图匹配模型作为两个漏洞代码相似度的计算方法。本发明可以在捕获代码中与漏洞相关的语法和语义特征的同时，有效利用补丁信息区分仅有细微差异的漏洞和补丁函数，从而提高相似漏洞检测的准确率。

本发明的目的是通过以下技术方案实现的：

一种基于树型注意力和加权图匹配的相似漏洞检测方法，包括如下步骤：

步骤1：利用静态解析工具解析源代码，并生成代码属性图(Code PropertyGraph,CPG)，该代码属性图将抽象语法树(Abstract Syntax Tree,AST)、控制流图(Control Flow Graph,CFG)和程序依赖图(Program Dependency Graph,PDG)合并为一个数据结构；

步骤2：分别为目标函数、漏洞函数和补丁函数生成函数复合图(FunctionComposite Graph,FCG)、漏洞切片复合图(Vulnerability Slice Composite Graph,vSCG)、补丁切片复合图(Patch Slice Composite Graph,pSCG)；

步骤3：利用由CodeBERT模型和树型注意力机制构成的语句节点嵌入网络，分别提取FCG、vSCG和pSCG语句节点的语义和语法信息，生成由语义特征向量和语法特征向量组成的语句节点初始嵌入向量；

步骤4：利用图神经网络分别对FCG、vSCG、pSCG进行表示学习，学习每个节点的向量表示；

步骤5：利用加权图匹配方法分别计算FCG和vSCG之间、FCG和pSCG之间的相似度；

步骤6：利用标签信息和步骤5计算得到的相似度，计算三元组损失函数，根据误差反向传播调整语句节点嵌入网络和由图神经网络和加权图匹配方法构成的图匹配模型的参数，直到语句节点嵌入网络和图匹配模型对输入的响应达到预定的目标范围为止，训练结束，得到由语句节点嵌入网络和图匹配模型构成的相似漏洞检测模型；

步骤7：用训练好的相似漏洞检测模型对代码进行相似漏洞检测。

相比于现有技术，本发明具有如下优点：

(1)本发明提出的新的代码中间表示方法SCG，可以将漏洞代码和补丁代码表示为包含语法和语义信息的复合图数据结构，并尽可能地消除与漏洞和补丁无关的冗余信息。与其他代码中间表示方法相比，本发明提出的SCG不仅保留了与漏洞和补丁相关的丰富的语法和语义信息，而且还尽可能地消除了与漏洞不相关的信息，能够减少其对学习过程的干扰。

(2)本发明提出了一种树型注意力机制，并将其与CodeBERT模型相结合，学习SCG中语句节点的特征向量表示。在检测相似漏洞时，该树型注意力机制能够对AST(AbstractSyntax Tree)中包含与漏洞相关的语法子树给予更多的关注，从而使从这些关键语法结构提取的特征对SCG的匹配结果产生更大的影响。

(3)本发明使用了加权图匹配方法检测软件中的相似漏洞。与目前流行的基于漏洞签名或者使用深度学习模型先学习代码表征再通过余弦相似度计算来检测相似漏洞的方法不同的是，本发明使用加权图匹配方法，通过设置不同的权重来描述节点的漏洞相关性，能够在避免代码语法和语义信息损失的情况下实现SCG之间的有效匹配，从而提高相似漏洞检测的准确性。

(4)本发明为SCG提出了由CodeBERT和树型注意力机制构成的语句节点嵌入网络，该网络可以高效、准确地捕获语句中漏洞相关的语法和语义特征。

(5)本发明提出了由图神经网络和加权图匹配机制组成的图匹配模型，该模型使用图神经网络学习代码中的结构和语义信息，使用加权图匹配方法来计算待测代码与漏洞和补丁代码之间的结构和语义相似性，在计算代码的结构和语义相似性时充分考虑了补丁的信息、漏洞代码和补丁代码之间的差异、代码中不同语句节点的重要性，从而提高相似漏洞检测的准确率。

附图说明

图1是本发明基于树型注意力和加权图匹配的相似漏洞检测方法的流程示意图。

图2是相似漏洞代码实例。

图3是相似漏洞实例对应的FCG、vSCG、pSCG。

图4是树型注意力过程。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供了一种基于树型注意力和加权图匹配的相似漏洞检测方法，首先，分别为目标函数、漏洞函数和补丁函数生成FCG、vSCG、pSCG。其次，利用由CodeBERT模型和树型注意力机制构成的语句节点嵌入网络，分别提取FCG、vSCG和pSCG语句节点的语义和语法信息。接着，利用图神经网络和加权图匹配方法构成的图匹配模型，学习并计算FCG和vSCG之间以及FCG和pSCG之间的相似度，然后利用计算的三元组损失函数调整网络参数，训练检测模型。最后，利用训练好的模型检测软件中的相似漏洞。如图1所示，具体包括如下步骤：

步骤1：利用静态解析工具解析源代码，并生成CPG，由于该图将AST、CFG和PDG合并为了一个数据结构，因此从CPG中可以为每个函数提取AST和PDG。

步骤2：分别为目标函数、漏洞函数和补丁函数生成FCG、vSCG、pSCG，具体步骤如下：

步骤21：对于待测的目标函数，首先提取其对应的PDG，然后将语句对应的AST扩展到PDG的每个节点，最后形成FCG。

步骤22：对于需要与目标函数进行匹配的漏洞函数，首先通过分析漏洞和补丁(即diff文件)找到被删除的语句，将删除的语句视为漏洞语句，将漏洞语句作为切片准则，使用程序切片技术在PDG中找到切片节点，然后通过数据依赖和控制依赖将这些节点连接起来，再以切片中的每个节点作为根节点，展开其对应的AST，形成漏洞函数的切片复合图，记为vSCG；若diff文件中只有添加的语句而没有删除语句，则通过从漏洞函数的PDG及其对应的补丁函数的pSCG中提取相同的节点和边来生成vSCG。

步骤23：生成pSCG的过程与vSCG的过程相似，对于需要与目标函数进行匹配的补丁函数，通过分析漏洞和补丁(即diff文件)找到添加的语句，将添加语句视为补丁语句，将补丁语句作为切片准则，使用程序切片技术在PDG中找到切片节点，然后通过数据依赖和控制依赖将这些节点连接起来，再以切片中的每个节点作为根节点，展开其对应的AST，形成补丁函数的切片复合图，记为pSCG；如果在diff文件中只有删除的语句而没有添加的语句，则通过从漏洞函数的PDG及在步骤22中生成的vSCG中提取相同的节点和边来生成pSCG。

步骤3：利用由CodeBERT模型和树型注意力机制构成的语句节点嵌入网络，分别提取FCG、vSCG和pSCG语句节点的语义和语法信息，生成由语义特征向量和语法特征向量组成的语句节点初始嵌入向量，具体步骤如下：

步骤31：对于FCG、vSCG、pSCG中任一语句节点v_i，使用经过漏洞数据训练微调后的CodeBERT模型，来学习语句中token之间的依赖关系，以获得节点v_i对应的语义特征向量表示，记为

步骤32：利用树型注意力机制生成节点v_i的语法特征向量，具体步骤如下：

步骤321：通过深度优先遍历AST获得节点序列；

步骤322：使用word2vec模型获得所有节点的数字向量，计算节点的位置编码并添加到节点的数字向量中；

步骤323：提取AST中拥有多个孩子节点的非叶子节点，并将其作为子树的根节点；

步骤324：用子树掩码来隐藏子树根节点的兄弟节点和父节点，只计算其与自身和子节点的注意力值，将其相加得到子树的隐藏向量表示；

步骤325：利用软注意力机制求出对所有AST子树的重要性，再将这些重要性作为权重进行加权求和，从而得到语句的语法特征向量表示。

本发明使用的位置编码有三个主要部分：层序编码、父级编码和层次编码。层序编码按照AST的层序遍历顺序对当前节点进行编号，父级编码记录当前节点父亲节点的编号，层次编码记录当前节点的深度。在获得上述初始编码后，将其送入可学习的全连接网络中，以获得最终的位置编码。

本发明使用的子树掩码是一种屏蔽当前节点的兄弟节点和父节点的方法，用于实现并行计算，提高计算效率。

树型注意力机制的具体计算公式如下：

Q_i＝B_iW^Q,K_i＝T_iW^K,V_i＝T_iW^v

其中，Q_i、K_i、V_i分别表示树型注意力机制中节点v_i对应的查询向量、目标向量和值向量；T_i＝[t_i,1,t_i,2,…,t_i,m]∈R^m×d则是节点v_i对应的语法树T_i的节点嵌入矩阵，m表示T_i中包含的树节点数量，t_i,m表示T_i中第m个树节点对应的特征向量，d表示节点的向量维度；B_i＝[b_i,1,b_i,2,…,b_i,n]∈R^n×d表示T_i对应的子树根节点的嵌入矩阵，n为T_i中子树根节点的数量，b_i,n表示T_i中第n个子树根节点对应的特征向量；W^Q、W^K、W^V为可学习的权重矩阵；M_i则为T_i对应的子树掩码，S_i＝[s_i,1,s_i,2,…,s_i,n]^T为得到的所有子树的向量矩阵，其中s_i,j表示语法树T_i中第j个子树的嵌入向量；u为可学习的随机初始化向量，a_i,j表示s_i,j对应的注意力分数，

为语句节点v_i最终的语法特征向量。

步骤33：将语义特征向量和语法特征向量进行拼接并送入全连接网络将其映射到同一个语义空间，最终得到节点的初始嵌入向量表示。

步骤4：利用图神经网络分别对FCG、vSCG、pSCG进行表示学习，学习每个节点的向量表示，具体步骤如下：

步骤41：对于图g^G＝(V_G,E_G,X_G,D_G)的任一节点v_i∈V_G，根据邻居节点的信息，利用GNN模型更新当前节点的状态，具体计算公式如下：

/>

其中，h_i和o_i表示其对应的隐藏向量表示和输出向量表示；

和/>

分别是l-1和l层GNN后得到的节点v_i的隐藏向量表示，/>

是节点v_j的隐藏向量表示；v_j是v_i的邻居，v_j∈N(v_i)，存在一条从v_j到v_i的边，特征向量为d_ji，N(v_i)表示v_i的邻居节点集合；f是GNN模型的传播函数，用于收集邻近节点的信息以更新当前节点的状态；z是输出函数，用于计算节点的最终输出特征向量；

步骤42：用GNN模型获得FCG、vSCG和pSCG的输出图数据结构：

其中，V_F、V_V和V_P为/>

和/>

中包含的节点的集合，E_F、E_V和E_P为/>

和/>

中包含的边的集合，O_F、O_V和O_P为/>

和/>

中节点的输出特征向量集，D_F、D_V和D_P为

和/>

中边的特征向量集。

步骤5：利用加权图匹配方法即改进的二部图匹配法分别计算FCG和vSCG之间、FCG和pSCG之间的相似度，具体步骤如下：

步骤51：将

和/>

组合成一个二部图/>

其中V_FV＝V_F∪V_V，

同样，将/>

和/>

也合并为一个二部图/>

其中V_FP＝V_F∪V_P，/>

步骤52：对两个二部图

和/>

中的节点进行两两匹配，并根据相互匹配的两个节点之间的距离来计算最低匹配成本，作为两个二部图的相似度。具体地，按照以下公式计算两个节点/>

和/>

之间的匹配成本，以及节点/>

和/>

之间的匹配成本：

其中，

是节点/>

和/>

之间的匹配成本，/>

是节点/>

和

之间的匹配成本；/>

表示节点/>

和/>

之间的距离，/>

表示节点/>

和

之间的距离；/>

和/>

分别表示vSCG中节点/>

的数据依赖权重、控制依赖权重和综合权重；/>

和/>

则表示pSCG中节点/>

的数据依赖权重、控制依赖权重和综合权重；

和/>

为节点/>

和/>

对应的输出特征向量。/>

权重的计算方法如下：

对于vSCG，我们使用漏洞节点作为根节点，其数据依赖权重为

设存在一节点/>

假设该节点至少可以通过k条数据依赖边连接到根节点，则/>

的数据依赖权重为/>

其中，L_α∈(0,1)为超参数，表示数据依赖权重的衰减率。根节点的控制依赖权重为/>

假设该节点至少可以通过k条控制依赖边连接到根节点，则

的控制依赖权重为/>

其中，L_β∈(0,1)为超参数，表示控制依赖权重的衰减率。根节点的综合权重为/>

假设该节点至少可以通过k条边连接到根节点，则

的综合权重为/>

其中，L_γ∈(0,1)为超参数，表示综合权重的衰减率。

以类似的方式计算pSCG的权重，这里我们不设置FCG的权重，因为目标函数中漏洞的位置是未知的。

步骤53：对匹配成本进行标准化，具体步骤如下：为每个复合图创建一个结构相同的空图φ，其节点的特征向量设为0向量，通过与空图进行比较，得到标准化后的匹配成本C，具体计算公式如下：

其中，

和/>

分别表示FCG和vSCG之间，FCG和pSCG之间的匹配成本；/>

为节点/>

和/>

之间的匹配成本，/>

为节点/>

和/>

之间的匹配成本；/>

为节点/>

和0向量节点之间的匹配成本，/>

为节点/>

和0向量节点之间的匹配成本，/>

为节点/>

和0向量节点之间的匹配成本。

步骤54：利用匹配成本计算得到图的相似度，其计算公式如下：

其中，

和/>

分别表示FCG和vSCG之间、FCG和pSCG之间的图相似度。

步骤6：利用标签信息和步骤5计算得到的相似度，计算三元组损失函数，根据误差反向传播调整语句节点嵌入网络和由图神经网络和加权匹配方法构成的图匹配模型的参数，直到语句节点嵌入网络和图匹配模型对输入的响应达到预定的目标范围为止，训练结束，得到由语句节点嵌入网络和图匹配模型构成的相似漏洞检测模型，其中：

三元组损失函数的具体计算公式如下：

其中，Loss为三元组损失；Sim表示基准样本和正样本的相似度，Diff表示基准样本和负样本的相似度。在相似漏洞检测任务中，当基准样本为漏洞代码时，正样本对应漏洞代码，负样本对应非漏洞代码；当基准样本为非漏洞代码时，正样本对应非漏洞代码，负样本对应漏洞代码。

作为惩罚项，用于提高基准样本和正样本的相似度，∈、c和λ都是超参数。

步骤7：用训练好的相似漏洞检测模型对代码进行相似漏洞检测，当同时满足如下两个条件时，判定目标函数与已知的漏洞函数相似：

(1)目标函数与漏洞函数之间的相似度超过某个阈值；

(2)目标函数与漏洞函数之间的相似度超过其与补丁函数的相似度。

实施例：

以图2所示的漏洞代码为例，其中图2(a)为待测代码，图2(b)为与其相似的漏洞代码及其补丁。在图2(b)代码中第7行为漏洞语句，第8行为补丁语句。

针对这一实例，可以首先提取待测代码的FCG，再以相似漏洞代码中的漏洞语句和补丁语句为切片准则，提取其对应的vSCG和pSCG，如图3所示。

然后，利用语句节点嵌入网络学习FCG、vSCG和pSCG语句节点中的语义和语法信息。具体来说，首先利用CodeBERT模型，根据语句代码中的token序列生成其对应的语义特征向量。同时，利用树型注意力机制来提取语句节点对应抽象语法树的语法特征向量。

图4(a)表示图2代码中信息泄露漏洞语句的AST，其中圆角矩形节点为语句节点，矩形节点为非叶节点，椭圆节点为叶节点。图4(b)表示(a)所示AST对应的位置编码。整个AST包含三个子树，如图4(c)所示，子树的根节点为灰色节点。这些子树的根节点被选中的条件是它们包含两个或更多的非叶子节点。对于子树1，分别计算根节点对自己和其他节点的注意力值，然后根据注意力值对所有节点进行加权求和，得到子树1的隐藏向量表示。通过子树掩码掩盖子树根节点的兄弟姐妹和父节点，可以得到其余的子树。然后，这两个剩余子树的向量表示也通过上述过程得到。最后，对三个子树的向量表示加权求和，得到最终的语法特征向量。

将语义特征向量和语法特征向量拼接后，可以得到FCG、vSCG和pSCG中语句节点的初始特征向量。利用图神经网络学习FCG、vSCG和pSCG中节点的隐藏向量表示，再利用加权图匹配方法分别计算FCG和vSCG、FCG和pSCG的相似度，分别为0.9623和0.9413。将阈值设为0.8的情况下，由于0.9623>0.8，满足判别条件1；并且由于0.9623>0.9413满足判别条件2。因此，判定待测代码为与已知漏洞函数相似的漏洞。

Claims

1.一种基于树型注意力和加权图匹配的相似漏洞检测方法，其特征在于所述方法包括如下步骤：

步骤1：利用静态解析工具解析源代码，并生成CPG，CPG将AST、PDG合并为一个数据结构；

步骤2：分别为目标函数、漏洞函数和补丁函数生成FCG、vSCG、pSCG；

2.根据权利要求1所述的基于树型注意力和加权图匹配的相似漏洞检测方法，其特征在于所述步骤2的具体步骤如下：

步骤21：对于待测的目标函数，首先提取其对应的PDG，然后将语句对应的AST扩展到PDG的每个节点，最后形成FCG；

步骤22：对于需要与目标函数进行匹配的漏洞函数，首先通过分析漏洞和diff文件找到被删除的语句，将删除的语句视为漏洞语句，将漏洞语句作为切片准则，使用程序切片技术在PDG中找到切片节点，然后通过数据依赖和控制依赖将这些节点连接起来，再以切片中的每个节点作为根节点，展开其对应的AST，形成漏洞函数的切片复合图，记为vSCG；若diff文件中只有添加的语句而没有删除语句，则通过从漏洞函数的PDG及其对应的补丁函数的pSCG中提取相同的节点和边来生成vSCG；

步骤23：对于需要与目标函数进行匹配的补丁函数，通过分析漏洞和diff文件找到添加的语句，将添加语句视为补丁语句，将补丁语句作为切片准则，使用程序切片技术在PDG中找到切片节点，然后通过数据依赖和控制依赖将这些节点连接起来，再以切片中的每个节点作为根节点，展开其对应的AST，形成补丁函数的切片复合图，记为pSCG；如果在diff文件中只有删除的语句而没有添加的语句，则通过从漏洞函数的PDG及在步骤22中生成的vSCG中提取相同的节点和边来生成pSCG。

3.根据权利要求1所述的基于树型注意力和加权图匹配的相似漏洞检测方法，其特征在于所述步骤3的具体步骤如下：