CN109408810A

CN109408810A - 一种恶意pdf文档检测方法及装置

Info

Publication number: CN109408810A
Application number: CN201811142617.1A
Authority: CN
Inventors: 李薛; 李志�
Original assignee: East Sunda Technology (beijing) Co Ltd
Current assignee: East Sunda Technology (beijing) Co Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-03-01

Abstract

本发明实施例公开了一种恶意PDF文档检测方法及装置，该方法包括：对待测试的PDF文档进行解析，获取待测试的PDF文档中的物理结构，以及定位待测试的PDF文档中的Javascript代码；提取物理结构中第一特征数据；以及提取Javascript代码中第二特征数据；将第一特征数据和第二特征数据构成特征向量；利用预获取的机器学习算法最优模型对特征向量进行测试，确定待测试的PDF文档是否为恶意PDF文档。通过对待测试的PDF文档的物理结构解析，以及对文档中的Javascript代码进行定位，然后分别提取二者中符合预设条件的特征数据，将二者中提取出的特征数据构成特征向量代入机器学习算法最优模型中进行测试。通过上述方式，可以提高对恶意PDF文档识别的准确率。

Description

一种恶意PDF文档检测方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种恶意PDF文档检测方法及装置。

背景技术

便携式文档格式(Portable Document Format，简称)，是由Adobe公司所开发的一种独特的跨平台的文件格式。随着办公自动化的迅速普及，PDF文档逐渐成为人们生活和工作不可或缺的应用文档软件。PDF文档凭借其方便易用的特点，克服了电子文档共享过程中常见的识别问题，使用户可以在网上自由地浏览文档，方便地交换文档，成为现代电子文档分发的理想格式。然而，用户在享受PDF文档带来的很多便利的同时，也受到了恶意性攻击的PDF文档所造成的危害和影响。日益严重的PDF文档漏洞不仅给用户造成了巨大的经济损失，同时也使整个安全环境面临严重的挑战和威胁。

而由于PDF文档结构自身的独特性，目前大部分杀毒软件采用的基于启发式或字符串匹配的方法，或者采用基于签名的方法都无法应对新的攻击，并且已经被证明在应对多态攻击方面存在一定的不足。现有的PDF文档检测方案普遍存在准确度低的问题。

发明内容

本发明实施例的目的在于提供一种恶意PDF文档检测方法及装置，用以解决现有PDF文档检测方案准确度低的问题。

为实现上述目的，本发明实施例提供一种恶意PDF文档检测方法，该方法包括：

对待测试的PDF文档进行解析，获取待测试的PDF文档中的物理结构，以及定位待测试的PDF文档中的Javascript代码；

提取物理结构中第一特征数据，以及Javascript代码中第二特征数据；

将第一特征数据和第二特征数据构成特征向量；

利用预获取的机器学习算法最优模型对特征向量进行测试，确定待测试的PDF文档是否为恶意PDF文档。

本发明实施例具有如下优点：通过对待测试的PDF文档的物理结构解析，以及对文档中的Javascript代码进行定位，然后分别提取二者中符合预设条件的特征数据，将二者中提取出的特征数据构成特征向量代入机器学习算法最优模型中进行测试。通过上述方式，可以提高对恶意PDF文档识别的准确率。

为实现上述目的，本发明实施例提供一种恶意PDF文档检测装置，该装置包括：

处理单元，用于对待测试的PDF文档进行解析，获取待测试的PDF文档中的物理结构，以及定位待测试的PDF文档中的Javascript代码；

特征向量生成单元，用于将第一特征数据和第二特征数据构成特征向量；

测试单元，用于利用预获取的机器学习算法最优模型对特征向量进行测试，确定待测试的PDF文档是否为恶意PDF文档。

附图说明

图1为本发明实施例1提供的一种恶意PDF文档检测方法流程示意图；

图2为本发明提供的利用机器学习算法训练最优模型的流程框图；

图3为本发明提供的利用机器学习算法对待测试文档进行检测的流程框图；

图4为本发明实施例2提供的一种恶意PDF文档检测装置结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、右”、“中间”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例1

本发明实施例1提供了一种恶意PDF文档检测方法，具体如图1所示，图1为本发明实施例提供的一种恶意PDF文档检测方法流程示意图。

恶意文档指的是通过嵌入并执行恶意代码或利用其结构特性，以窃取敏感信息、监视和破坏用户正常活动等恶意行为为目的的PDF文档。本申请文件中，对恶意文档进行检测是通过对恶意文档的物理结构进行解析，确定其是否存在恶意性。一旦存在恶意性，则进行进一步的处理，从而防止用户因使用恶意PDF文档而造成敏感信息泄露等情况的发生。而具体的实现过程具体包括：

步骤110，对待测试的PDF文档进行解析，获取待测试的PDF文档中的物理结构，以及定位待测试的PDF文档中的Javascript代码。

步骤120，提取物理结构中第一特征数据，以及Javascript代码中第二特征数据。

步骤130，将第一特征数据和第二特征数据构成特征向量。

步骤140，利用预获取的机器学习算法最优模型对特征向量进行测试，确定待测试的PDF文档是否为恶意PDF文档，恶意PDF文档为存在。

具体的，对待测试的PDF文档进行解析获取待测试的PDF文档中的物理结构，主要是对PDF文档进行拆分，确定文件头、文件体、交叉引用表以及文件尾等物理结构。然后提取物理结构中第一特征数据。这里所说的特征数据实际是提取PDF文档中的关键字段信息，然后统计关键字段在PDF文档中出现的次数。

具体的，PDF文档的基本元素是PDF对象，对于PDF对象来说，其组成元素为直接对象或者间接对象。直接对象包含几种基本类型：布尔型、数值型、字符串型、名字型、数组型、字典型、流对象以及空对象，而间接对象和直接对象不同，间接对象标识是为了让当前的PDF对象引用其他的文档，间接对象通过间接对象ID标识PDF对象。在本实施例中，首先对PDF文档的结构进行静态分析，从中解析出所有的对象，并对PDF文档的关键字段进行提取并统计，也即提取第一特征数据。

可选的，根据人工对恶意PDF文档分析的经验总结，提取的关键字段至少可以包括如下中的一种或多种：/xref、/startxref、/trailer/Page对象的值、/JS、/JavaScript、/AA、/OpenAction、/AcroForm、/Launch，/Filter、/URI、/EmbeddefFiles、/RichMedia、/ObjStm对象；以及获取获取与每一个参数分别对应的计数统计。

另外，根据分析经验，绝大部分的恶意PDF文档都存在/obj与/endobj、/stream与/endstream不匹配的现象。因此，提取的第一类参数还包括：

/obj与/endobj，/stream与/endstream，以及与之分别对应的计数统计。

对参数/obj与/endobj，/stream与/endstream进行计数统计，其目的在于，可以判断参数/obj与/endobj的计数是否相等，和/或确定参数/stream的计数与/endstream的计数是否相等。

类似的道理，由于大部分恶意PDF样本又都是基于JavaScript攻击的，因此针对JavaScript攻击的恶意样本检测是非常有必要的。但是PDF文档中的JavaScript代码通常是经过编码压缩和对象间接引用处理后的。因此在提取JavaScript代码之前要对PDF文档结构进行分析，然后对定位的JavaScript流对象，调用相应的解码函数进行解压缩，最后才能将其提取出来。

PDF对象中经常出现/JavaScript，/JS等关键词或“JavaScript”字符串时，就表明该文档中包含了JavaScript代码。当然，由于一些正常的PDF文档也可能会有JavaScript，因此提取特征时应该排除一些正常的特征，减少误差。另外，为了躲避检测机构的恶意代码分析和检测，嵌入到PDF中的JavaScript代码大多数都使用了混淆技术。JavaScript混淆主要有四种类型：(1)使用ASCII码和Unicode混淆；(2)使用XOR操作；(3)***字符串；(4)字符串压缩和用无意义字符代替存在的字符串。虽然混淆掩盖了一些明文的代码，可以躲过某些检测，但是在这个过程中，代码必然因为混淆呈现新的特征，因此可以提取基于代码混淆后的第二特征数据。

在本实施例中，针对JavaScript代码提取的第二特征数据至少可以包括如下中的一种或多种：eval()函数、escape()函数、unescape()函数、replace()函数、split()函数的、unicode字符串数量、十六进制字符数量、字符串连接字符“+”、fromcharcode()函数；获取与每一个参数分别对应的计数统计；以及对字符串最大长度值、字符串最大熵值和整个JavaScript代码的熵值的统计。

可选的，当待测试的PDF文档中的Javascript代码位于待测试的PDF文档间接引用的对象中时，定位待测试的PDF文档中的Javascript代码，具体包括：

提取待测试的PDF文档中与间接引用的对象对应的ID；

根据ID提取间接引用的对象的内容；

从间接引用的对象的内容中定位Javascript代码。

然后从定位后的Javascript中按照上述方式提取第二特征数据。

最终，将第一特征数据和第二特征数据构成特征向量；

进一步可选的，在利用预获取的机器学习算法最优模型对特征向量进行测试，确定待测试的PDF文档是否为恶意PDF文档之前，该方法还包括：

提取样本PDF文档中的第一特征样本数据和第二特征样本数据；

根据第一特征样本数据和第二特征样本数据，确定机器学习算法最优模型。

其中，样本PDF文档中包括恶意PDF文档和正常的PDF文档。多个恶意PDF文档和正常的PDF文档可以分别进行标记，构成样本库。然后对样本库中的每一个PDF文档分别进行解析。获取文档的物理结构以及包含Javascript的代码。并抽取第一特征样本数据和第二特征样本数据，构成特征集。然后将第一特征样本数据和第二特征样本数据输入到机器学习算法模型中进行多次训练，最终获取机器学习算法最优模型。这里所说的第一特征样本数据和第二特征样本数据，分别和第一特征数据和第二特征数据是相同或者相似的数据。主要就是这些样本数据是从带有标识信息的PDF文档中提取出来，便于机器学习算法模型进行识别，然后进行分类，从而提升识别的准确率。才能保证利用机器学习算法模型对待测试PDF文档进行测试时，识别恶意PDF文档的准确率。具体的训练流程图如图2所示，可以包括输入样本PDF文档，特征样本数据提取(包括第一特征样本数据提取和第二特征样本数据提取，然后获取特征向量)，模型训练，确定是否符合检测标准。如果确定，则获取机器学习算法最优模型。否则，对机械学习算法训练模型中的参数进行优化，再次执行特征样本数据体提取，进行模型训练等循环过程，直至输出模型为最优模型。而测试待测试PDF文档的流程则如图3所示，具体包括：输入待测试PDF文档，对其进行特征数据提取(包括第一特征数据提取和第二特征数据提取，并构成特征向量)，输入机器学习算法最优模型，进行恶意性识别。也即判断待测试的PDF文档是否为恶意文档。

本发明实施例提供的一种恶意PDF文档检测方法，通过对待测试的PDF文档的物理结构解析，以及对文档中的Javascript代码进行定位，然后分别提取二者中符合预设条件的特征数据，将二者中提取出的特征数据构成特征向量代入机器学习算法最优模型中进行测试。通过上述方式，可以提高对恶意PDF文档识别的准确率。

实施例2

与上述实施例1相对应的，本发明实施例2提供了一种恶意PDF文档检测装置，具体如图4所示，图4为本发明实施例提供的一种恶意PDF文档检测装置结构示意图，该装置包括：处理单元401、特征向量生成单元402和测试单元403。

处理单元401，用于对待测试的PDF文档进行解析，获取待测试的PDF文档中的物理结构，以及定位待测试的PDF文档中的Javascript代码；

特征向量生成单元402，用于将第一特征数据和第二特征数据构成特征向量；

测试单元403，用于利用预获取的机器学习算法最优模型对特征向量进行测试，确定待测试的PDF文档是否为恶意PDF文档。

可选的，当待测试的PDF文档中的Javascript代码位于待测试的PDF文档间接引用的对象中时，处理单元401具体用于：

提取待测试的PDF文档中与间接引用的对象对应的ID；

根据ID提取间接引用的对象的内容；

从间接引用的对象的内容中定位Javascript代码。

可选的，第一特征数据至少包括如下中的一种或多种：

/xref、/startxref、/trailer/Page对象的值、/JS、/JavaScript、/AA、/OpenAction、/AcroForm、/Launch，/Filter、/URI、/EmbeddefFiles、/RichMedia、/ObjStm对象、/obj与/endobj，以及stream与/endstream；以及获取与每一个参数分别对应的计数统计。

可选的，第二特征数据至少包括如下中的一种或多种：

eval()函数、escape()函数、unescape()函数、replace()函数、split()函数的、unicode字符串数量、十六进制字符数量、字符串连接字符“+”、fromcharcode()函数；获取与每一个参数分别对应的计数统计；以及对字符串最大长度值、字符串最大熵值和整个JavaScript代码的熵值的统计。

可选的，处理单元401还用于，提取样本PDF文档中的第一特征样本数据和第二特征样本数据；

根据第一特征样本数据和第二特征样本数据，确定机器学习算法最优模型，其中样本PDF文档包括恶意PDF文档和正常的PDF文档。

本发明实施例提供的一种恶意PDF文档检测装置中各部件所执行的功能均已在实施例1所提供的一种恶意PDF文档检测方法中做了详细说明，这里将不再赘述。

本发明实施例提供的一种恶意PDF文档检测装置，通过对待测试的PDF文档的物理结构解析，以及对文档中的Javascript代码进行定位，然后分别提取二者中符合预设条件的特征数据，将二者中提取出的特征数据构成特征向量代入机器学习算法最优模型中进行测试。通过上述方式，可以提高对恶意PDF文档识别的准确率。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种恶意PDF文档检测方法，其特征在于，所述方法包括：

对待测试的PDF文档进行解析，获取所述待测试的PDF文档中的物理结构，以及定位所述待测试的PDF文档中的Javascript代码；

提取所述物理结构中第一特征数据，以及所述Javascript代码中第二特征数据；

将所述第一特征数据和所述第二特征数据构成特征向量；

利用预获取的机器学习算法最优模型对所述特征向量进行测试，确定所述待测试的PDF文档是否为恶意PDF文档。

2.根据权利要求1所述的方法，其特征在于，当所述待测试的PDF文档中的Javascript代码位于所述待测试的PDF文档间接引用的对象中时，所述定位所述待测试的PDF文档中的Javascript代码，具体包括：

提取所述待测试的PDF文档中与所述间接引用的对象对应的ID；

根据所述ID提取所述间接引用的对象的内容；

从所述间接引用的对象的内容中定位所述Javascript代码。

3.根据权利要求1或2所述的方法，其特征在于，所述第一特征数据至少包括如下中的一种或多种：/xref、/startxref、/trailer/Page对象的值、/JS、/JavaScript、/AA、/OpenAction、/AcroForm、/Launch，/Filter、/URI、/EmbeddefFiles、/RichMedia、/ObjStm对象、/obj与/endobj，stream与/endstream；以及获取与每一个参数分别对应的计数统计。

4.根据权利要求1或2所述的方法，其特征在于，所述第二特征数据至少包括如下中的一种或多种：

5.根据权利要求1或2所述的方法，其特征在于，所述利用机器学习算法模型对所述特征向量进行测试，确定所述待测试的PDF文档是否为恶意PDF文档之前，所述方法还包括：

根据所述第一特征样本数据和第二特征样本数据，确定机器学习算法最优模型，其中所述样本PDF文档包括恶意PDF文档和正常的PDF文档。

6.一种恶意PDF文档检测装置，其特征在于，所述装置包括：

处理单元，用于对待测试的PDF文档进行解析，获取所述待测试的PDF文档中的物理结构，以及定位所述待测试的PDF文档中的Javascript代码；

特征向量生成单元，用于将所述第一特征数据和所述第二特征数据构成特征向量；

测试单元，用于利用预获取的机器学习算法最优模型对所述特征向量进行测试，确定所述待测试的PDF文档是否为恶意PDF文档。

7.根据权利要求6所述的装置，其特征在于，当所述待测试的PDF文档中的Javascript代码位于所述待测试的PDF文档间接引用的对象中时，所述处理单元具体用于：

根据所述ID提取所述间接引用的对象的内容；

从所述间接引用的对象的内容中定位所述Javascript代码。

8.根据权利要求6或7所述的装置，其特征在于，所述第一特征数据至少包括如下中的一种或多种：/xref、/startxref、/trailer/Page对象的值、/JS、/JavaScript、/AA、/OpenAction、/AcroForm、/Launch，/Filter、/URI、/EmbeddefFiles、/RichMedia、/ObjStm对象、/obj与/endobj、stream与/endstream；以及获取与每一个参数分别对应的计数统计。

9.根据权利要求6或7所述的装置，其特征在于，所述第二特征数据至少包括如下中的一种或多种：

10.根据权利要求6或7所述的装置，其特征在于，所述处理单元还用于，提取样本PDF文档中的第一特征样本数据和第二特征样本数据；