CN114036516A

CN114036516A - 一种基于两阶段类比推理的未知敏感函数发现方法

Info

Publication number: CN114036516A
Application number: CN202111257776.8A
Authority: CN
Inventors: 梁文韬; 王璐; 曹壮
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-02-11
Anticipated expiration: 2041-10-27
Also published as: CN114036516B

Abstract

本发明涉及一种基于两阶段类比推理的未知敏感函数发现方法，包括对待检测的目标***代码进行预处理，得到函数调用序列；根据函数调用序列，通过频繁模式挖掘，得到若干频繁函数对；利用函数调用序列训练得到的词向量模型，得到每个频繁函数对对应的嵌入向量；计算初始种子函数与每个频繁函数对之间的第一相似度，根据计算结果选取至少一个频繁函数对作为二次种子函数对；计算每个二次种子函数对与每个频繁函数对之间的第二相似度，根据计算结果得到每个二次种子函数对的潜在敏感函数对候选集；根据潜在敏感函数对候选集，合并去重后得到潜在敏感函数对集合。本方法，通过两阶段类比推理，能够逐步扩充种子函数对集合，发现更多潜在敏感函数对。

Description

一种基于两阶段类比推理的未知敏感函数发现方法

技术领域

本发明属于网络安全技术领域，具体涉及一种基于两阶段类比推理的未知敏感函数发现方法。

背景技术

敏感函数是一类容易导致各种潜在缺陷的函数。敏感函数往往配对出现，例如对于free函数这样的资源释放类函数，有着malloc函数这样的资源分配函数与之配对。当开发者不恰当的使用这些函数时，有可能引发诸如敏感信息泄露，数据损坏，甚至是执行任意代码等危险后果。不幸的是，有大量的敏感函数在大型软件***中并不为人们所熟知，事实上这些敏感函数往往只被部分程序开发者所知。而相关缺陷检测、***安全防护等工作必须知晓这些敏感函数才能有效地进行。因此发现这些敏感函数对于相关工作至关重要。

在自然语言处理领域，词嵌入技术能将一个高维的独热向量嵌入到一个在实数域上连续的低维稠密向量中，从而较好地支持语义搜索和情感分析等下游任务。除了可以直接比较相似度外，嵌入后的词向量还有一个重要的特征，依据向量间的相似度能支持类比推理(Analogical Reasoning)，回答诸如“如果man对应着woman，那么king应该对应什么？”一类的问题。倘若将程序设计语言看作是一种特殊的语言，那么程序中的函数调用便可以看作是词语，便也可以将函数嵌入到向量中。因此，假设我们已知有一小部分敏感函数(称为种子函数)，那么应用基于词向量的类比推理技术便可以发现潜在的未知敏感函数。

然而在实际应用中直接使用类比推理，少量的种子函数对往往无法完整覆盖该种类敏感函数的语义，导致类比推理出的潜在敏感函数往往与种子函数具有同质性，对与种子函数存在一定异质性的敏感函数检测效果不佳。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于两阶段类比推理的未知敏感函数发现方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供了一种基于两阶段类比推理的未知敏感函数发现方法，包括：

对待检测的目标***代码进行预处理，得到函数调用序列；

根据所述函数调用序列，通过频繁模式挖掘，得到若干频繁函数对；

利用所述函数调用序列训练得到的词向量模型，得到每个所述频繁函数对对应的嵌入向量；

计算初始种子函数与每个所述频繁函数对之间的第一相似度，根据计算结果选取至少一个所述频繁函数对作为二次种子函数对；

计算每个所述二次种子函数对与每个所述频繁函数对之间的第二相似度，根据计算结果得到每个所述二次种子函数对的潜在敏感函数对候选集；

根据所述潜在敏感函数对候选集，合并去重后得到潜在敏感函数对集合。

在本发明的一个实施例中，对待检测的目标***代码进行预处理，得到函数调用序列，包括：

对所述待检测的目标***代码进行程序切片操作，得到若干切片；

遍历所述切片，收集函数调用，组成所述函数调用序列。

在本发明的一个实施例中，根据所述函数调用序列，得到若干频繁函数对，包括：

利用Apriori或FP-Growth频繁模式挖掘算法从所述函数调用序列中，挖掘出频繁同时出现的函数对，得到若干所述频繁函数对。

在本发明的一个实施例中，所述词向量模型通过以所述函数调用序列为训练集，采用FastText、Word2Vec或Bert算法训练得到。

在本发明的一个实施例中，计算初始种子函数与每个所述频繁函数对之间的第一相似度，根据计算结果选取至少一个所述频繁函数对作为二次种子函数对，包括：

采用3CosAvg算法计算所述初始种子函数与每个所述频繁函数对之间的相似度，计算公式如下：

sim1(avg_offset,(c1,c2))＝max(cos(v_c1,v_c2+v_{avg_offset}),cos(v_c2,v_c1+v_{avg_offset}))，

其中，sim1(·)表示第一相似度计算，avg_offset表示初始种子函数集合，(c1,c2)表示频繁函数对，v_c1和v_c2表示频繁函数对(c1,c2)对应的嵌入向量，v_{avg_offset}表示初始种子函数的平均偏移向量，cos(·)表示向量间余弦相似度计算操作,max(·)表示取最大值操作，n表示初始种子函数对的数量，A_i与B_i表示初始种子函数对对应的嵌入向量；

按照第一相似度从大到小排序，选取前k个第一相似度对应的所述频繁函数对作为二次种子函数对，k取值为正整数。

在本发明的一个实施例中，计算每个所述二次种子函数对与每个所述频繁函数对之间的第二相似度，根据计算结果得到每个所述二次种子函数对的潜在敏感函数对候选集，包括：

采用3CosAddExchange算法计算每个所述二次种子函数对与每个所述频繁函数对之间的第二相似度，计算公式如下：

其中，sim2(·)表示第二相似度计算，

表示二次种子函数对，(c1,c2)表示频繁函数对，

和

表示二次种子函数对

对应的嵌入向量，v_c1和v_c2表示频繁函数对(c1,c2)对应的嵌入向量，cos(·)表示向量间余弦相似度计算操作,max(·)表示取最大值操作；

对于每一个所述二次种子函数对，将其与所述频繁函数对之间的第二相似度从大到小排序，选取前m个第二相似度对应的所述频繁函数对组成该二次种子函数对的潜在敏感函数对候选集，m取值为正整数。

在本发明的一个实施例中，根据所述潜在敏感函数对候选集，合并去重后得到潜在敏感函数对集合，包括：

将每个二次种子函数对的潜在敏感函数对候选集进行合并去重处理，得到所述潜在敏感函数对集合。

与现有技术相比，本发明的有益效果在于：

1.本发明的基于两阶段类比推理的未知敏感函数发现方法，通过两阶段类比推理，能够逐步扩充种子函数对集合，从而发现更多的潜在敏感函数对；

2.本发明的基于两阶段类比推理的未知敏感函数发现方法，在第一阶段类比推理时，能够同时纳入多对已知敏感函数对构建初始种子函数，从而获得能够覆盖更广泛敏感函数语义的二次种子函数对，在第二阶段类比推理时，采用基于类比推理的交换公理性质的相似度计算，能够在计算时对齐二次种子函数对与频繁函数对，且可保留各个二次种子函数对的独特语义，从而有效提高推理准确度，降低漏报误报。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明实施例提供的一种基于两阶段类比推理的未知敏感函数发现方法的流程框图；

图2是本发明实施例提供的一种基于两阶段类比推理的未知敏感函数发现方法的具体步骤示意图；

图3是本发明实施例提供的预处理过程示意图；

图4是本发明实施例提供的第一阶段类比推理示意图；

图5是本发明实施例提供的第二阶段类比推理示意图。

具体实施方式

为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及具体实施方式，对依据本发明提出的一种基于两阶段类比推理的未知敏感函数发现方法进行详细说明。

有关本发明的前述及其他技术内容、特点及功效，在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明，可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解，然而所附附图仅是提供参考与说明之用，并非用来对本发明的技术方案加以限制。

实施例一

请结合参见图1和图2，图1是本发明实施例提供的一种基于两阶段类比推理的未知敏感函数发现方法的流程框图；图2是本发明实施例提供的一种基于两阶段类比推理的未知敏感函数发现方法的具体步骤示意图。如图所示，本实施例的基于两阶段类比推理的未知敏感函数发现方法，包括：

S1：对待检测的目标***代码进行预处理，得到函数调用序列；

S2：根据函数调用序列，通过频繁模式挖掘，得到若干频繁函数对；

S3：利用函数调用序列训练得到的词向量模型，得到每个频繁函数对对应的嵌入向量；

S4：计算初始种子函数与每个频繁函数对之间的相似度，根据计算结果选取至少一个频繁函数对作为二次种子函数对；

S5：计算每个二次种子函数对与每个频繁函数对之间的相似度，根据计算结果得到每个二次种子函数对的潜在敏感函数对候选集；

S6：根据潜在敏感函数对候选集，合并去重后得到潜在敏感函数对集合。

本实施例的基于两阶段类比推理的未知敏感函数发现方法，从初始种子函数对出发，基于函数嵌入向量从频繁函数对中类比推理出潜在的敏感函数相关函数，选取相似度高的作为二次种子函数对。然后，对每一个二次种子函数对，二次类比推理出与其相似度较高的潜在敏感函数对的候选集。通过两阶段类比推理，能够逐步扩充种子函数对集合，可以发现更多的潜在敏感函数对。

具体地，结合参见图3，图3是本发明实施例提供的预处理过程示意图，如图所示，步骤S1包括：

S11：对待检测的目标***代码进行程序切片操作，得到若干切片；

在本实施例中，对待检测的目标***代码中的各个函数，以其参数和变量为切片条件，依据依赖关系进行程序切片操作，得到若干切片。

S12：遍历切片，收集函数调用，组成函数调用序列。

进一步地，在步骤S2中，具体利用Apriori或FP-Growth等频繁模式挖掘算法从函数调用序列中，挖掘出频繁同时出现的函数对，得到若干频繁函数对。

进一步地，在步骤S3中，通过以函数调用序列为训练集，采用FastText、Word2Vec或Bert算法进行训练得到词向量模型，该词向量模型可将输入的函数嵌入为一个向量。

需要说明的是，在其他实施例中，还可以采用其它算法，以函数调用序列为训练集进行训练得到词向量模型，具体算法在此不做限制。

进一步地，请参见图4，图4是本发明实施例提供的第一阶段类比推理示意图，如图所示，在本实施例中，步骤S4包括：

S41：采用3CosAvg算法计算初始种子函数与每个频繁函数对之间的第一相似度，计算公式如下：

sim1(avg_offset,(c1,c2))＝max(cos(v_c1,v_c2+v_{avg_offset}),cos(v_c2,v_c1+v_{avg_offset})) (1)，

在本实施例中，初始种子函数对为常见的敏感函数和工具书中提到的敏感函数。

需要说明的是，由于敏感函数往往配对出现，在本实施例中，选取成对的敏感函数构建初始种子函数集合，在其他实施例中，也可以选取不成对的敏感函数构建初始种子函数集合，相应的在初始种子函数的平均偏移向量v_{avg_offset}的计算公式中的第一项与第二项中求和的敏感函数的数量不同。

S42：按照第一相似度从大到小排序，选取前k个第一相似度对应的频繁函数对作为二次种子函数对，k取值为正整数。

在第一阶段类比推理中，对所有的频繁函数对，一一计算其与初始种子函数的的平均偏移向量v_{avg_offset}之间的相似度，最后，选择其中相似度最高的对应的频繁函数对作为二次种子函数对。在本实施例中，k取10，即选取排名前10的相似度对应的频繁函数对作为二次种子函数对。

需要说明的是，k的取值根据第一相似度的计算结果选取合适的取值，在此不做限制。

在本实施例中，采用3CosAvg算法的目的在于可以同时将多对已知敏感函数对纳入相似度的评价中，拥有比采用单对种子敏感函数时更好的性能。

进一步地，请参见图5，图5是本发明实施例提供的第二阶段类比推理示意图，如图所示，在本实施例中，步骤S5包括：

S51：采用3CosAddExchange算法计算每个二次种子函数对与每个频繁函数对之间的第二相似度，计算公式如下：

其中，sim2(·)表示第二相似度计算，

表示二次种子函数对，(c1,c2)表示频繁函数对，

和

表示二次种子函数对

S52：对于每一个二次种子函数对，将其与频繁函数对之间的第二相似度从大到小排序，选取前m个第二相似度对应的频繁函数对组成该二次种子函数对的潜在敏感函数对候选集，m取值为正整数。

在第二阶段类比推理中，对于每一对二次种子函数对，进行上述类比推理相似度计算后，从中选择相似度最高的频繁函数对组成该二次种子函数对的潜在敏感函数对候选集，可选地，在本实施例中，m取200。

需要说明的是，m的取值根据第二相似度的计算结果选取合适的取值，在此不做限制。

在本实施例中，采用3CosAddExchange算法的目的在于在相似度计算时保证二次种子函数对与频繁函数对之间的对齐，避免有的潜在敏感函数对排列倒置所导致的相似度计算错误。此外，3CosAddExchange将针对每一对二次种子函数对，一一进行类比推理相似度计算，可保留各个二次种子函数对的独特语义，从而尽可能高效地发现潜在的敏感函数。而如果沿用3CosAvg算反，则可能会抹除掉个性的语义仅突出共性的语义，从而影响精度。

进一步地，步骤S6包括：将每个二次种子函数对的潜在敏感函数对候选集进行合并去重处理，得到潜在敏感函数对集合。

本实施例的基于两阶段类比推理的未知敏感函数发现方法，在第一阶段类比推理时，能够同时纳入多对已知敏感函数对构建初始种子函数，从而获得能够覆盖更广泛敏感函数语义的二次种子函数对，在第二阶段类比推理时，采用基于类比推理的交换公理性质的相似度计算，能够在计算时对齐二次种子函数对与频繁函数对，且可保留各个二次种子函数对的独特语义，从而有效提高推理准确度，降低漏报误报。

本实施例的基于两阶段类比推理的未知敏感函数发现方法，可以应用于多种与敏感函数相关的下游任务，例如为释放后使用缺陷静态检测工具提供资源释放敏感函数配置列表，或为代码匹配检索服务提供代码规范化支持等。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于两阶段类比推理的未知敏感函数发现方法，其特征在于，包括：

对待检测的目标***代码进行预处理，得到函数调用序列；

2.根据权利要求1所述的基于两阶段类比推理的未知敏感函数发现方法，其特征在于，对待检测的目标***代码进行预处理，得到函数调用序列，包括：

遍历所述切片，收集函数调用，组成所述函数调用序列。

3.根据权利要求1所述的基于两阶段类比推理的未知敏感函数发现方法，其特征在于，根据所述函数调用序列，得到若干频繁函数对，包括：

4.根据权利要求1所述的基于两阶段类比推理的未知敏感函数发现方法，其特征在于，所述词向量模型通过以所述函数调用序列为训练集，采用FastText、Word2Vec或Bert算法训练得到。

5.根据权利要求1所述的基于两阶段类比推理的未知敏感函数发现方法，其特征在于，计算初始种子函数与每个所述频繁函数对之间的第一相似度，根据计算结果选取至少一个所述频繁函数对作为二次种子函数对，包括：

sim1(avg_offset，(c1，c2))＝max(cos(v_c1，v_c2+v_{avg_offset})，cos(v_c2，v_c1+v_{avg_offset}))，

其中，sim1(·)表示第一相似度计算，avg_offset表示初始种子函数集合，(c1，c2)表示频繁函数对，v_c1和v_c2表示频繁函数对(c1，c2)对应的嵌入向量，v_{avg_offset}表示初始种子函数的平均偏移向量，cos(·)表示向量间余弦相似度计算操作，max(·)表示取最大值操作，n表示初始种子函数对的数量，A_i与B_i表示初始种子函数对对应的嵌入向量；

6.根据权利要求1所述的基于两阶段类比推理的未知敏感函数发现方法，其特征在于，计算每个所述二次种子函数对与每个所述频繁函数对之间的第二相似度，根据计算结果得到每个所述二次种子函数对的潜在敏感函数对候选集，包括：

其中，sim2(·)表示第二相似度计算，

表示二次种子函数对，(c1，c2)表示频繁函数对，

和

表示二次种子函数对

对应的嵌入向量，v_c1和v_c2表示频繁函数对(c1，c2)对应的嵌入向量，cos(·)表示向量间余弦相似度计算操作，max(·)表示取最大值操作；

7.根据权利要求1所述的基于两阶段类比推理的未知敏感函数发现方法，其特征在于，根据所述潜在敏感函数对候选集，合并去重后得到潜在敏感函数对集合，包括：