CN109597767A

CN109597767A - 一种基于遗传变异的模糊测试用例生成方法及***

Info

Publication number: CN109597767A
Application number: CN201811554639.9A
Authority: CN
Inventors: 卢凯; 周旭; 何兴陆; 张文喆; 王睿伯; 王鹏飞
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-04-09
Anticipated expiration: 2038-12-19
Also published as: CN109597767B

Abstract

本发明公开了一种基于遗传变异的模糊测试用例生成方法及***，方法包括选择两个种子测试用例，针对新测试用例的数据位置，如果两个种子数据相同则将数据遗传到新测试用例的当前数据位置，如果两个种子数据不同，且任意属于目标二进制文件进行静态分析提取的字符串比较集合，则将数据随机突变为预设的字符串比较集合中的数据，否则随机选择一方种子的数据遗传到新测试用例的当前数据位置。本发明继承了基于生成的测试用例生成方法和基于变异的测试用例生成方法各自的优点，又同时规避掉了他们相应的缺点，能够实现无需人工操作的大规模fuzzing目标程序的核心代码，具有生成测试用例有更大的可能性提升路径覆盖率、易于触发崩溃的优点。

Description

一种基于遗传变异的模糊测试用例生成方法及***

技术领域

本发明涉及计算机领域的漏洞挖掘领域，具体涉及一种基于遗传变异的模糊测试用例生成方法及***，用于为漏洞挖掘的目标程序提供漏洞挖掘的模糊测试用例。

背景技术

测试用例的生成方法大致分为两类，基于生成的测试用例生成和基于变异的测试用例生成。现有基于生成的测试用例生成方法是通过人工的编写测试用例生成规则，使得测试用例可以按照目标规则进行生成，保证生成的测试用例可以绕过目标程序的错误检查代码，从而fuzzing（基于缺陷注入的自动软件测试技术）目标程序的核心功能代码；但是，这种测试用例生成方法需要大量的人工干预，导致过高的人工成本，同时，不同的目标程序的规则并不相同，这会导致基于生成的测试用例生成的方法可扩展性较差，不适于对大量不同的目标程序进行fuzzing。现有基于变异的测试用例生成方法，是通过对现存的正常输入进行随机变异的方式产生新的测试用例，这样生成的测试用例可以利用现有的正常输入中的一些信息从而绕过错误检查代码，而且无需人工操作就可以直接运行，针对不同的程序只需更换正常输入即可达到有较高的扩展性的效果；但是，这种测试用例生成方法生成的测试用例，只能fuzzing到正常测试用例可达代码附近的一些代码，相对较远的或进入条件较为苛刻的代码则较难达到，这就导致了所生成的测试用例难以fuzzing目标程序的全部代码。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于遗传变异的模糊测试用例生成方法及***，本发明继承了基于生成的测试用例生成方法和基于变异的测试用例生成方法各自的优点，又同时规避掉了他们相应的缺点，能够实现无需人工操作的大规模fuzzing目标程序的核心代码，具有生成测试用例有更大的可能性提升路径覆盖率、易于触发崩溃的优点。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于遗传变异的模糊测试用例生成方法，实施步骤包括：

1）选择两个种子测试用例；

2）针对新测试用例的种子长度，选择一个数据位置作为当前数据位置；

3）针对当前数据位置，判断两个种子测试用例的数据是否相同，如果相同则跳转执行步骤4）；否则，跳转执行步骤5）；

4）将种子测试用例当前数据位置的数据遗传到新测试用例的当前数据位置；

5）判断两个种子测试用例的当前数据位置的数据中任意一个属于预设的字符串比较集合是否成立，预设的字符串比较集合为针对用于执行测试用例的目标二进制文件进行静态分析提取其中的字符串数据得到，如果成立则将新测试用例的当前数据位置的数据随机突变为预设的字符串比较集合中的数据，跳转执行步骤7）；否则，跳转执行步骤6）；

6）随机选择一方种子测试用例当前数据位置的数据遗传到新测试用例的当前数据位置；

7）判断种子长度是否已经遍历完毕，如果尚未遍历完毕，则继续选择下一个数据位置作为当前数据位置，跳转执行步骤3）；否则跳转执行下一步；

8）按照指定的比例对新测试用例进行随机突变，将完成随机突变后的新测试用例作为最终得到的新测试用例输出。

可选地，步骤5）中预设的字符串比较集合为针对用于执行测试用例的目标二进制文件进行静态分析提取其中的字符串数据得到。

可选地，所述字符串比较集合为根据用于执行测试用例的目标二进制文件中字符串数据所在位置的密集程度划分得到的第一子集PAC、第二子集PSC、第三子集CSP，第一子集PAC的密集程度比第二子集PSC、第三子集CSP两者的密集程度高，所述第二子集PSC、第三子集CSP两者的密集程度相同。

可选地，步骤5）的详细步骤包括：

5.1）判断两个种子测试用例的当前数据位置的数据中任意一个属于字符串比较集合中第一子集PAC是否成立，如果成立则将新测试用例的当前数据位置的数据按照第一概率优先随机突变为预设的字符串比较集合中第一子集PAC的数据、否则随机突变为第二子集PSC或第三子集CSP随机数据，跳转执行步骤7）；否则，跳转执行步骤5.2）；

5.2）判断两个种子测试用例的当前数据位置的数据中任意一个属于字符串比较集合中第二子集PSC是否成立，如果成立则将新测试用例的当前数据位置的数据按照第二概率优先随机突变为预设的字符串比较集合中第二子集PSC的数据、否则随机突变为随机数据，跳转执行步骤7）；否则，跳转执行步骤5.3）；

5.3）判断两个种子测试用例的当前数据位置的数据中任意一个属于字符串比较集合中第三子集CSP是否成立，如果成立则将新测试用例的当前数据位置的数据按照第二概率优先随机突变为预设的字符串比较集合中第三子集CSP的数据、否则随机突变为随机数据，跳转执行步骤7）；否则，跳转执行步骤6）。

可选地，所述第一概率比第二概率大。

可选地，所述字符串比较集合的提取生成步骤包括：

S1）提取用于执行测试用例的目标二进制文件中的所有字符串数据，并记录字符串数据所在位置，根据字符串所在位置的密集程度，将字符串分为不同的字符串组，此类字符串组集合称为P，其中每个字符串组成称为p，p∈P；

S2）获取目标二进制文件中的字符串比较信息，并记录记录字符串数据所使用时的比较代码位置，根据字符串比较代码位置的密集程度，将字符串分为不同的字符串组，此类字符串组集合称为C，其中的每个字符串组称为c，c∈C；

S3）将两类字符串集合中的字符串组进行与操作，获得p和c的并集，此类字符串组集合称为第一子集PAC，其中的每个字符串组称为pac，pac∈PC，pac=p∩c；

S4）将两类字符串集合中的字符串组进行差操作，获得p和c的差集与c和p的差集，此类字符串组集合称为第二子集PSC、第三子集CSP，其中每个字符串组分别称为psc和csp， psc∈PSC， csp∈CSP, psc=p-c, csp=c-p；

S5）将第二子集PSC、第三子集CSP中只有一个元素的字符串组从两集合中移除，并将所有单独的字符串组成一个新的第四子集S，最终得到由第一子集PAC、第二子集PSC、第三子集CSP、第四子集S构成的字符串比较集合。

可选地，步骤1）选择两个种子测试用例具体是指从种子集合中选择，且生成所述种子集合的详细步骤包括：

1.1）收集用于作为训练集的种子测试用例；

1.2）将种子测试用例放入目标二进制文件中执行，获取每个种子测试用例执行中的路径覆盖信息；

1.3）将路径覆盖信息为PS1、PS2的两个种子测试用例随机组合生成新的组合测试用例，将新的组合测试用例放入目标二进制文件中执行，获取新的组合测试用例的路径覆盖信息PN；

1.4）将两个种子测试用例的路径覆盖信息为PS1、PS2作为输入，将两个种子测试用例的对应新的组合测试用例的路径覆盖信息PN和路径覆盖信息为PS1、PS2两者的差别作为进行分类的依据，利用收集的种子测试用例构建训练集来完成训练机器学习模型，当新的组合测试用例的路径覆盖信息PN和路径覆盖信息为PS1、PS2两者的差别大于阀值时，将新测试用例和其路径覆盖信息加入种子集合；

1.5）将任意路径覆盖信息为PS1、PS2的两个种子测试用例输入训练机器学习模型进行分类，选择两个种子测试用例的对应新的组合测试用例的路径覆盖信息PN和路径覆盖信息为PS1、PS2两者的差别最大的一类的两个种子组合成新的测试用例放入目标二进制文件中执行，获取新的组合测试用例的路径覆盖信息PN，判断指定时间长度内路径覆盖率是否增加，如增加，跳转执行步骤1.4），否则判定种子集合生成完毕并退出。

本发明还提供一种基于遗传变异的模糊测试用例生成***，包括计算机设备，所述计算机设备被编程以执行本发明所述基于遗传变异的模糊测试用例生成方法的步骤。

和现有技术相比，本发明具有下述优点：

1、本发明预设的字符串比较集合为针对用于执行测试用例的目标二进制文件进行静态分析提取其中的字符串数据得到，通过静态分析目标程序的二进制代码，获取程序二进制代码中的部分信息，可以得到程序中用做字符串比较的相关信息。此信息在漏洞挖掘中是十分有用，而且经常被用在错误检查中。如果是纯随机的测试用例生成，很难随机的匹配到这些信息。例如，在浏览器程序中，解析模块就会根据html中的标签对html文件进行解析，这时就需要html文件严格的按照标签相应的字符串进行创建，否则，创建的测试用例就会被解析模块是为错误文本进行处理，从而无法挖掘到浏览器程序的核心功能模块。因此，通过静态分析得到这些信息，对后续指导测试用例生成方面具有重大意义。

2、种子对（两个种子测试用例）的处理方法也是本发明的核心内容，改方法对核心思路来源于遗传学中的基因重组思想，首先，通过分析种子文件中的数据信息，获取程序中的规则信息，种子中数据相同位置的数据相对稳定，代表此位置的数据更有可能是规则格式数据，不应该轻易被改变。如同在遗传学中，父系和母系共有的相同基因更有可能是比较重要的基因，应该被继承，而不是轻易改变。此过程模拟遗传学中的继承等操作。之后，判断不同位置数据是否属于字符串比较类，如果属于，则将会将此位置中的数据替换成字符串比较类中随机的一个。此过程模拟基因工程中对基因的定向改造。如果不属于字符串比较类，则选择一个种子中的数据进行继承。此过程模拟了遗传学中显性基因和隐形基因的所显示的性状的不同。最后，随机变异测试用例，提高目标程序代码覆盖率。此过程模拟遗传学中的基因突变。从而使得本发明基于遗传变异的模糊测试用例生成方法继承了基于生成的测试用例生成方法和基于变异的测试用例生成方法各自的优点，又同时规避掉了他们相应的缺点，能够实现无需人工操作的大规模fuzzing目标程序的核心代码。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例方法的遗传变异原理示意图。

具体实施方式

如图1所示，本实施例基于遗传变异的模糊测试用例生成方法的实施步骤包括：

1）选择两个种子测试用例；

本实施例中，步骤5）中预设的字符串比较集合为针对用于执行测试用例的目标二进制文件进行静态分析提取其中的字符串数据得到。对目标二进制文件进行静态分析，获得目标二进制文件的相关信息，辅助后续测试用例的生成，优化了变异过程中变异成什么值的问题。

本实施例中，字符串比较集合为根据用于执行测试用例的目标二进制文件中字符串数据所在位置的密集程度划分得到的第一子集PAC、第二子集PSC、第三子集CSP，第一子集PAC的密集程度比第二子集PSC、第三子集CSP两者的密集程度高，第二子集PSC、第三子集CSP两者的密集程度相同。

本实施例中，步骤5）的详细步骤包括：

本实施例中，第一概率比第二概率大。

本实施例中，字符串比较集合的提取生成步骤包括：

通过上述字符串比较集合的提取生成步骤的详细步骤，得到了4类集合PAC，PSC，CSP和S，将这些集合分为不同的优先级别，第一子集PAC为第一级，第二子集PSC、第三子集CSP为第二级，第四子集S为第三级，集合分级后，可以在后续的种子突变中，按照级别的不同，在测试用例生成时进行不同优先级的操作。

本实施例中，步骤1）选择两个种子测试用例具体是指从种子集合中选择，通过一个类型丰富的种子集合，可以从种子中获取大量的有关目标程序的规则格式信息，通过对这些规则信息的合理使用，可以指导我们的测试用例生成方法生成更为有效的测试用例。

本实施例中，生成种子集合的方式是利用机器学习模型进行迭代学习，通过机器学习的手段，进一步加强了种子选择中的合理性，可以进一步提升新生成的种子发现新路径的可能性。本实施例中，生成种子集合的详细步骤包括：

1.1）收集用于作为训练集的种子测试用例；

本实施例中前述生成种子集合的步骤是通过fuzzing工具实现的。

通过前述生成种子集合的不断强化学习，随着运行次数的增加，机器学习的能力会逐渐增强，大幅的提升机器学习模型所选择的种子所生成的测试用例的路径覆盖率。

本实施例步骤1.1）种收集用于作为训练集的种子测试用例时，收集大量合法的种子应包含：（1）常用的正常测试用例，例如，用视频处理程序为例，应该收集常见的一些视频，电视剧，mv等；（2）一些生成的测试用例，例如，用视频处理程序为例，应使用视频生成程序生成各种视频。而且，收集的种子种类应尽量丰富，例如，用视频处理程序为例，应包含各种视频格式文件的类型，如mp4、rmvb、avi、wma、rm、mpeg、mov、mkv、flv、f4v、m4v、3gp、dat、ts、mts、vob等。

如图2所示，图中A部分代表从目标程序静态分析中得出的字符串比较集合，此集合包括第一子集PAC、第二子集PSC、第三子集CSP。种子一和种子二两个种子测试用例中，数据相同的位置和数据不同的位置，对不同的情况会后续进行不同的操作如图所示，图中种子一和种子二的未标记字母区域的位置代表此位置种子数据相同，其他标记字母区域的位置代表种子数据不同。

图2中的未标记字母区域的位置代表种子中的数据相同，这说明此位置的数据相对稳定，代表此位置的数据更有可能是规则格式数据，不应该轻易被改变。如同在遗传学中，父系和母系共有的相同基因更有可能是比较重要的基因，应该被继承，而不是轻易改变。此过程模拟遗传学中的继承等操作；图中标记字母区域的位置的代表种子中的数据不同，许对其情况进行判断，判断这些不同位置的数据是否属于图中红色的字符串比较类。之后根据数据类型的不同，在生成新测试用例时对不同的位置数据进行不同操作。

图2中标记字母B部分的数据代表两个种子中相同位置的数据都属于字符串比较类，此时就可以从字符串比较类中随机选取一个字符串放入新生成的测试用例中，由于此位置的数据大多为字符串比较类的数据，因此，在此集合中对字符串比较操作进行随机选择，更有可以发现新的未知路径，并且此种未知路径是之前两个种子都为达到过得新的核心代码区域，此过程模拟基因工程中对基因的定向改造；

图2中标记字母D和C的部分分别代表两种子中相同位置的数据不属于字符串比较类，此时随机选择黄色部分或绿色部分中的一种进行遗传，此过程模拟了遗传学中显性基因和隐形基因的所显示的性状的不同；将生成的测试用例按照一定比例进行随机突变，此过程模拟遗传学中的基因突变，而后生成的新的测试用例就位本方法生成的最新的测试用例，并且可以定向的提高在模糊测试中的路径覆盖率。

由于本实施例前述基于遗传变异的模糊测试用例生成方法是一种基于遗传的测试用例生成方法，收集大量且种类丰富的合法种子后，丰富且优质的种子可以帮助测试用例生成方法更为高效的遗传各类种子种较为优良的数据，对提高fuzzing工具对代码覆盖率和帮助测试用例绕过程序前期的格式化检查执行更多的程序核心代码有极大的帮助；本实施例前述基于遗传变异的模糊测试用例生成方法通过对种子进行两两配对，由于不同的种子存在不同的执行路径，因此，种子的选择方式也很重要，本实施例前述基于遗传变异的模糊测试用例生成方法采取监督学习的方法选择测试用例中最有可能触发新路径的两个测试用例组合，对两种子进行或遗传或变异的操作，此操作会根据两种子的不同情况针对性的根据两个种子中的数据形成新的测试用例。

综上所述，本实施例前述基于遗传变异的模糊测试用例生成方法将两个已知的测试用例通过遗传学中的遗传变异的方法，将两个测试用例相同的位置进行遗传，对两个测试用例不同对位置进行或选择性遗传、或随机性变异的操作，使得两个测试用例中对fuzzing程序更高效、更稳定的部分遗传到后代，相对效率低、易变化的部分进行概率性的变异，从而大幅提升测试用例的有效性，具有生成测试用例有更大的可能性提升路径覆盖率、易于触发崩溃的优点。此外，本实施例还提供一种基于遗传变异的模糊测试用例生成***，包括计算机设备，该计算机设备被编程以执行本实施例前述基于遗传变异的模糊测试用例生成方法的步骤。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围的情况下，都可利用上述揭示的技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于遗传变异的模糊测试用例生成方法，其特征在于实施步骤包括：

1）选择两个种子测试用例；

2.根据权利要求1所述的基于遗传变异的模糊测试用例生成方法，其特征在于，步骤5）中预设的字符串比较集合为针对用于执行测试用例的目标二进制文件进行静态分析提取其中的字符串数据得到。

3.根据权利要求1所述的基于遗传变异的模糊测试用例生成方法，其特征在于，所述字符串比较集合为根据用于执行测试用例的目标二进制文件中字符串数据所在位置的密集程度划分得到的第一子集PAC、第二子集PSC、第三子集CSP，第一子集PAC的密集程度比第二子集PSC、第三子集CSP两者的密集程度高，所述第二子集PSC、第三子集CSP两者的密集程度相同。

4.根据权利要求3所述的基于遗传变异的模糊测试用例生成方法，其特征在于，步骤5）的详细步骤包括：

5.根据权利要求4所述的基于遗传变异的模糊测试用例生成方法，其特征在于，所述第一概率比第二概率大。

6.根据权利要求3所述的基于遗传变异的模糊测试用例生成方法，其特征在于，所述字符串比较集合的提取生成步骤包括：

7.根据权利要求3所述的基于遗传变异的模糊测试用例生成方法，其特征在于，步骤1）选择两个种子测试用例具体是指从种子集合中选择，且生成所述种子集合的详细步骤包括：

1.1）收集用于作为训练集的种子测试用例；

8.一种基于遗传变异的模糊测试用例生成***，包括计算机设备，其特征在于，所述计算机设备被编程以执行权利要求1～7中任意一项所述基于遗传变异的模糊测试用例生成方法的步骤。