CN109408810A - 一种恶意pdf文档检测方法及装置 - Google Patents

一种恶意pdf文档检测方法及装置 Download PDF

Info

Publication number
CN109408810A
CN109408810A CN201811142617.1A CN201811142617A CN109408810A CN 109408810 A CN109408810 A CN 109408810A CN 201811142617 A CN201811142617 A CN 201811142617A CN 109408810 A CN109408810 A CN 109408810A
Authority
CN
China
Prior art keywords
pdf document
tested
malice
feature data
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811142617.1A
Other languages
English (en)
Inventor
李薛
李志�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East Sunda Technology (beijing) Co Ltd
Original Assignee
East Sunda Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East Sunda Technology (beijing) Co Ltd filed Critical East Sunda Technology (beijing) Co Ltd
Priority to CN201811142617.1A priority Critical patent/CN109408810A/zh
Publication of CN109408810A publication Critical patent/CN109408810A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种恶意PDF文档检测方法及装置,该方法包括:对待测试的PDF文档进行解析,获取待测试的PDF文档中的物理结构,以及定位待测试的PDF文档中的Javascript代码;提取物理结构中第一特征数据;以及提取Javascript代码中第二特征数据;将第一特征数据和第二特征数据构成特征向量;利用预获取的机器学习算法最优模型对特征向量进行测试,确定待测试的PDF文档是否为恶意PDF文档。通过对待测试的PDF文档的物理结构解析,以及对文档中的Javascript代码进行定位,然后分别提取二者中符合预设条件的特征数据,将二者中提取出的特征数据构成特征向量代入机器学习算法最优模型中进行测试。通过上述方式,可以提高对恶意PDF文档识别的准确率。

Description

一种恶意PDF文档检测方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种恶意PDF文档检测方法及装置。
背景技术
便携式文档格式(Portable Document Format,简称),是由Adobe公司所开发的一种独特的跨平台的文件格式。随着办公自动化的迅速普及,PDF文档逐渐成为人们生活和工作不可或缺的应用文档软件。PDF文档凭借其方便易用的特点,克服了电子文档共享过程中常见的识别问题,使用户可以在网上自由地浏览文档,方便地交换文档,成为现代电子文档分发的理想格式。然而,用户在享受PDF文档带来的很多便利的同时,也受到了恶意性攻击的PDF文档所造成的危害和影响。日益严重的PDF文档漏洞不仅给用户造成了巨大的经济损失,同时也使整个安全环境面临严重的挑战和威胁。
而由于PDF文档结构自身的独特性,目前大部分杀毒软件采用的基于启发式或字符串匹配的方法,或者采用基于签名的方法都无法应对新的攻击,并且已经被证明在应对多态攻击方面存在一定的不足。现有的PDF文档检测方案普遍存在准确度低的问题。
发明内容
本发明实施例的目的在于提供一种恶意PDF文档检测方法及装置,用以解决现有PDF文档检测方案准确度低的问题。
为实现上述目的,本发明实施例提供一种恶意PDF文档检测方法,该方法包括:
对待测试的PDF文档进行解析,获取待测试的PDF文档中的物理结构,以及定位待测试的PDF文档中的Javascript代码;
提取物理结构中第一特征数据,以及Javascript代码中第二特征数据;
将第一特征数据和第二特征数据构成特征向量;
利用预获取的机器学习算法最优模型对特征向量进行测试,确定待测试的PDF文档是否为恶意PDF文档。
本发明实施例具有如下优点:通过对待测试的PDF文档的物理结构解析,以及对文档中的Javascript代码进行定位,然后分别提取二者中符合预设条件的特征数据,将二者中提取出的特征数据构成特征向量代入机器学习算法最优模型中进行测试。通过上述方式,可以提高对恶意PDF文档识别的准确率。
为实现上述目的,本发明实施例提供一种恶意PDF文档检测装置,该装置包括:
处理单元,用于对待测试的PDF文档进行解析,获取待测试的PDF文档中的物理结构,以及定位待测试的PDF文档中的Javascript代码;
提取物理结构中第一特征数据,以及Javascript代码中第二特征数据;
特征向量生成单元,用于将第一特征数据和第二特征数据构成特征向量;
测试单元,用于利用预获取的机器学习算法最优模型对特征向量进行测试,确定待测试的PDF文档是否为恶意PDF文档。
本发明实施例具有如下优点:通过对待测试的PDF文档的物理结构解析,以及对文档中的Javascript代码进行定位,然后分别提取二者中符合预设条件的特征数据,将二者中提取出的特征数据构成特征向量代入机器学习算法最优模型中进行测试。通过上述方式,可以提高对恶意PDF文档识别的准确率。
附图说明
图1为本发明实施例1提供的一种恶意PDF文档检测方法流程示意图;
图2为本发明提供的利用机器学习算法训练最优模型的流程框图;
图3为本发明提供的利用机器学习算法对待测试文档进行检测的流程框图;
图4为本发明实施例2提供的一种恶意PDF文档检测装置结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、右”、“中间”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例1
本发明实施例1提供了一种恶意PDF文档检测方法,具体如图1所示,图1为本发明实施例提供的一种恶意PDF文档检测方法流程示意图。
恶意文档指的是通过嵌入并执行恶意代码或利用其结构特性,以窃取敏感信息、监视和破坏用户正常活动等恶意行为为目的的PDF文档。本申请文件中,对恶意文档进行检测是通过对恶意文档的物理结构进行解析,确定其是否存在恶意性。一旦存在恶意性,则进行进一步的处理,从而防止用户因使用恶意PDF文档而造成敏感信息泄露等情况的发生。而具体的实现过程具体包括:
步骤110,对待测试的PDF文档进行解析,获取待测试的PDF文档中的物理结构,以及定位待测试的PDF文档中的Javascript代码。
步骤120,提取物理结构中第一特征数据,以及Javascript代码中第二特征数据。
步骤130,将第一特征数据和第二特征数据构成特征向量。
步骤140,利用预获取的机器学习算法最优模型对特征向量进行测试,确定待测试的PDF文档是否为恶意PDF文档,恶意PDF文档为存在。
具体的,对待测试的PDF文档进行解析获取待测试的PDF文档中的物理结构,主要是对PDF文档进行拆分,确定文件头、文件体、交叉引用表以及文件尾等物理结构。然后提取物理结构中第一特征数据。这里所说的特征数据实际是提取PDF文档中的关键字段信息,然后统计关键字段在PDF文档中出现的次数。
具体的,PDF文档的基本元素是PDF对象,对于PDF对象来说,其组成元素为直接对象或者间接对象。直接对象包含几种基本类型:布尔型、数值型、字符串型、名字型、数组型、字典型、流对象以及空对象,而间接对象和直接对象不同,间接对象标识是为了让当前的PDF对象引用其他的文档,间接对象通过间接对象ID标识PDF对象。在本实施例中,首先对PDF文档的结构进行静态分析,从中解析出所有的对象,并对PDF文档的关键字段进行提取并统计,也即提取第一特征数据。
可选的,根据人工对恶意PDF文档分析的经验总结,提取的关键字段至少可以包括如下中的一种或多种:/xref、/startxref、/trailer/Page对象的值、/JS、/JavaScript、/AA、/OpenAction、/AcroForm、/Launch,/Filter、/URI、/EmbeddefFiles、/RichMedia、/ObjStm对象;以及获取获取与每一个参数分别对应的计数统计。
另外,根据分析经验,绝大部分的恶意PDF文档都存在/obj与/endobj、/stream与/endstream不匹配的现象。因此,提取的第一类参数还包括:
/obj与/endobj,/stream与/endstream,以及与之分别对应的计数统计。
对参数/obj与/endobj,/stream与/endstream进行计数统计,其目的在于,可以判断参数/obj与/endobj的计数是否相等,和/或确定参数/stream的计数与/endstream的计数是否相等。
类似的道理,由于大部分恶意PDF样本又都是基于JavaScript攻击的,因此针对JavaScript攻击的恶意样本检测是非常有必要的。但是PDF文档中的JavaScript代码通常是经过编码压缩和对象间接引用处理后的。因此在提取JavaScript代码之前要对PDF文档结构进行分析,然后对定位的JavaScript流对象,调用相应的解码函数进行解压缩,最后才能将其提取出来。
PDF对象中经常出现/JavaScript,/JS等关键词或“JavaScript”字符串时,就表明该文档中包含了JavaScript代码。当然,由于一些正常的PDF文档也可能会有JavaScript,因此提取特征时应该排除一些正常的特征,减少误差。另外,为了躲避检测机构的恶意代码分析和检测,嵌入到PDF中的JavaScript代码大多数都使用了混淆技术。JavaScript混淆主要有四种类型:(1)使用ASCII码和Unicode混淆;(2)使用XOR操作;(3)***字符串;(4)字符串压缩和用无意义字符代替存在的字符串。虽然混淆掩盖了一些明文的代码,可以躲过某些检测,但是在这个过程中,代码必然因为混淆呈现新的特征,因此可以提取基于代码混淆后的第二特征数据。
在本实施例中,针对JavaScript代码提取的第二特征数据至少可以包括如下中的一种或多种:eval()函数、escape()函数、unescape()函数、replace()函数、split()函数的、unicode字符串数量、十六进制字符数量、字符串连接字符“+”、fromcharcode()函数;获取与每一个参数分别对应的计数统计;以及对字符串最大长度值、字符串最大熵值和整个JavaScript代码的熵值的统计。
可选的,当待测试的PDF文档中的Javascript代码位于待测试的PDF文档间接引用的对象中时,定位待测试的PDF文档中的Javascript代码,具体包括:
提取待测试的PDF文档中与间接引用的对象对应的ID;
根据ID提取间接引用的对象的内容;
从间接引用的对象的内容中定位Javascript代码。
然后从定位后的Javascript中按照上述方式提取第二特征数据。
最终,将第一特征数据和第二特征数据构成特征向量;
利用预获取的机器学习算法最优模型对特征向量进行测试,确定待测试的PDF文档是否为恶意PDF文档。
进一步可选的,在利用预获取的机器学习算法最优模型对特征向量进行测试,确定待测试的PDF文档是否为恶意PDF文档之前,该方法还包括:
提取样本PDF文档中的第一特征样本数据和第二特征样本数据;
根据第一特征样本数据和第二特征样本数据,确定机器学习算法最优模型。
其中,样本PDF文档中包括恶意PDF文档和正常的PDF文档。多个恶意PDF文档和正常的PDF文档可以分别进行标记,构成样本库。然后对样本库中的每一个PDF文档分别进行解析。获取文档的物理结构以及包含Javascript的代码。并抽取第一特征样本数据和第二特征样本数据,构成特征集。然后将第一特征样本数据和第二特征样本数据输入到机器学习算法模型中进行多次训练,最终获取机器学习算法最优模型。这里所说的第一特征样本数据和第二特征样本数据,分别和第一特征数据和第二特征数据是相同或者相似的数据。主要就是这些样本数据是从带有标识信息的PDF文档中提取出来,便于机器学习算法模型进行识别,然后进行分类,从而提升识别的准确率。才能保证利用机器学习算法模型对待测试PDF文档进行测试时,识别恶意PDF文档的准确率。具体的训练流程图如图2所示,可以包括输入样本PDF文档,特征样本数据提取(包括第一特征样本数据提取和第二特征样本数据提取,然后获取特征向量),模型训练,确定是否符合检测标准。如果确定,则获取机器学习算法最优模型。否则,对机械学习算法训练模型中的参数进行优化,再次执行特征样本数据体提取,进行模型训练等循环过程,直至输出模型为最优模型。而测试待测试PDF文档的流程则如图3所示,具体包括:输入待测试PDF文档,对其进行特征数据提取(包括第一特征数据提取和第二特征数据提取,并构成特征向量),输入机器学习算法最优模型,进行恶意性识别。也即判断待测试的PDF文档是否为恶意文档。
本发明实施例提供的一种恶意PDF文档检测方法,通过对待测试的PDF文档的物理结构解析,以及对文档中的Javascript代码进行定位,然后分别提取二者中符合预设条件的特征数据,将二者中提取出的特征数据构成特征向量代入机器学习算法最优模型中进行测试。通过上述方式,可以提高对恶意PDF文档识别的准确率。
实施例2
与上述实施例1相对应的,本发明实施例2提供了一种恶意PDF文档检测装置,具体如图4所示,图4为本发明实施例提供的一种恶意PDF文档检测装置结构示意图,该装置包括:处理单元401、特征向量生成单元402和测试单元403。
处理单元401,用于对待测试的PDF文档进行解析,获取待测试的PDF文档中的物理结构,以及定位待测试的PDF文档中的Javascript代码;
提取物理结构中第一特征数据,以及Javascript代码中第二特征数据;
特征向量生成单元402,用于将第一特征数据和第二特征数据构成特征向量;
测试单元403,用于利用预获取的机器学习算法最优模型对特征向量进行测试,确定待测试的PDF文档是否为恶意PDF文档。
可选的,当待测试的PDF文档中的Javascript代码位于待测试的PDF文档间接引用的对象中时,处理单元401具体用于:
提取待测试的PDF文档中与间接引用的对象对应的ID;
根据ID提取间接引用的对象的内容;
从间接引用的对象的内容中定位Javascript代码。
可选的,第一特征数据至少包括如下中的一种或多种:
/xref、/startxref、/trailer/Page对象的值、/JS、/JavaScript、/AA、/OpenAction、/AcroForm、/Launch,/Filter、/URI、/EmbeddefFiles、/RichMedia、/ObjStm对象、/obj与/endobj,以及stream与/endstream;以及获取与每一个参数分别对应的计数统计。
可选的,第二特征数据至少包括如下中的一种或多种:
eval()函数、escape()函数、unescape()函数、replace()函数、split()函数的、unicode字符串数量、十六进制字符数量、字符串连接字符“+”、fromcharcode()函数;获取与每一个参数分别对应的计数统计;以及对字符串最大长度值、字符串最大熵值和整个JavaScript代码的熵值的统计。
可选的,处理单元401还用于,提取样本PDF文档中的第一特征样本数据和第二特征样本数据;
根据第一特征样本数据和第二特征样本数据,确定机器学习算法最优模型,其中样本PDF文档包括恶意PDF文档和正常的PDF文档。
本发明实施例提供的一种恶意PDF文档检测装置中各部件所执行的功能均已在实施例1所提供的一种恶意PDF文档检测方法中做了详细说明,这里将不再赘述。
本发明实施例提供的一种恶意PDF文档检测装置,通过对待测试的PDF文档的物理结构解析,以及对文档中的Javascript代码进行定位,然后分别提取二者中符合预设条件的特征数据,将二者中提取出的特征数据构成特征向量代入机器学习算法最优模型中进行测试。通过上述方式,可以提高对恶意PDF文档识别的准确率。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种恶意PDF文档检测方法,其特征在于,所述方法包括:
对待测试的PDF文档进行解析,获取所述待测试的PDF文档中的物理结构,以及定位所述待测试的PDF文档中的Javascript代码;
提取所述物理结构中第一特征数据,以及所述Javascript代码中第二特征数据;
将所述第一特征数据和所述第二特征数据构成特征向量;
利用预获取的机器学习算法最优模型对所述特征向量进行测试,确定所述待测试的PDF文档是否为恶意PDF文档。
2.根据权利要求1所述的方法,其特征在于,当所述待测试的PDF文档中的Javascript代码位于所述待测试的PDF文档间接引用的对象中时,所述定位所述待测试的PDF文档中的Javascript代码,具体包括:
提取所述待测试的PDF文档中与所述间接引用的对象对应的ID;
根据所述ID提取所述间接引用的对象的内容;
从所述间接引用的对象的内容中定位所述Javascript代码。
3.根据权利要求1或2所述的方法,其特征在于,所述第一特征数据至少包括如下中的一种或多种:/xref、/startxref、/trailer/Page对象的值、/JS、/JavaScript、/AA、/OpenAction、/AcroForm、/Launch,/Filter、/URI、/EmbeddefFiles、/RichMedia、/ObjStm对象、/obj与/endobj,stream与/endstream;以及获取与每一个参数分别对应的计数统计。
4.根据权利要求1或2所述的方法,其特征在于,所述第二特征数据至少包括如下中的一种或多种:
eval()函数、escape()函数、unescape()函数、replace()函数、split()函数的、unicode字符串数量、十六进制字符数量、字符串连接字符“+”、fromcharcode()函数;获取与每一个参数分别对应的计数统计;以及对字符串最大长度值、字符串最大熵值和整个JavaScript代码的熵值的统计。
5.根据权利要求1或2所述的方法,其特征在于,所述利用机器学习算法模型对所述特征向量进行测试,确定所述待测试的PDF文档是否为恶意PDF文档之前,所述方法还包括:
提取样本PDF文档中的第一特征样本数据和第二特征样本数据;
根据所述第一特征样本数据和第二特征样本数据,确定机器学习算法最优模型,其中所述样本PDF文档包括恶意PDF文档和正常的PDF文档。
6.一种恶意PDF文档检测装置,其特征在于,所述装置包括:
处理单元,用于对待测试的PDF文档进行解析,获取所述待测试的PDF文档中的物理结构,以及定位所述待测试的PDF文档中的Javascript代码;
提取所述物理结构中第一特征数据,以及所述Javascript代码中第二特征数据;
特征向量生成单元,用于将所述第一特征数据和所述第二特征数据构成特征向量;
测试单元,用于利用预获取的机器学习算法最优模型对所述特征向量进行测试,确定所述待测试的PDF文档是否为恶意PDF文档。
7.根据权利要求6所述的装置,其特征在于,当所述待测试的PDF文档中的Javascript代码位于所述待测试的PDF文档间接引用的对象中时,所述处理单元具体用于:
提取所述待测试的PDF文档中与所述间接引用的对象对应的ID;
根据所述ID提取所述间接引用的对象的内容;
从所述间接引用的对象的内容中定位所述Javascript代码。
8.根据权利要求6或7所述的装置,其特征在于,所述第一特征数据至少包括如下中的一种或多种:/xref、/startxref、/trailer/Page对象的值、/JS、/JavaScript、/AA、/OpenAction、/AcroForm、/Launch,/Filter、/URI、/EmbeddefFiles、/RichMedia、/ObjStm对象、/obj与/endobj、stream与/endstream;以及获取与每一个参数分别对应的计数统计。
9.根据权利要求6或7所述的装置,其特征在于,所述第二特征数据至少包括如下中的一种或多种:
eval()函数、escape()函数、unescape()函数、replace()函数、split()函数的、unicode字符串数量、十六进制字符数量、字符串连接字符“+”、fromcharcode()函数;获取与每一个参数分别对应的计数统计;以及对字符串最大长度值、字符串最大熵值和整个JavaScript代码的熵值的统计。
10.根据权利要求6或7所述的装置,其特征在于,所述处理单元还用于,提取样本PDF文档中的第一特征样本数据和第二特征样本数据;
根据所述第一特征样本数据和第二特征样本数据,确定机器学习算法最优模型,其中所述样本PDF文档包括恶意PDF文档和正常的PDF文档。
CN201811142617.1A 2018-09-28 2018-09-28 一种恶意pdf文档检测方法及装置 Pending CN109408810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811142617.1A CN109408810A (zh) 2018-09-28 2018-09-28 一种恶意pdf文档检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811142617.1A CN109408810A (zh) 2018-09-28 2018-09-28 一种恶意pdf文档检测方法及装置

Publications (1)

Publication Number Publication Date
CN109408810A true CN109408810A (zh) 2019-03-01

Family

ID=65466448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811142617.1A Pending CN109408810A (zh) 2018-09-28 2018-09-28 一种恶意pdf文档检测方法及装置

Country Status (1)

Country Link
CN (1) CN109408810A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723373A (zh) * 2019-03-19 2020-09-29 国家计算机网络与信息安全管理中心 复合式二进制文档的漏洞利用文件检测方法及装置
CN112231645A (zh) * 2020-11-09 2021-01-15 北京理工大学 一种基于主动学习的恶意pdf文档检测方法
CN112287645A (zh) * 2020-11-09 2021-01-29 北京理工大学 一种基于生成式对抗网络的恶意pdf文档生成方法
CN112329012A (zh) * 2019-07-19 2021-02-05 中国人民解放军战略支援部队信息工程大学 针对包含JavaScript的恶意PDF文档的检测方法及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609649A (zh) * 2012-02-06 2012-07-25 北京百度网讯科技有限公司 一种自动采集恶意软件的方法和装置
CN102622543A (zh) * 2012-02-06 2012-08-01 北京百度网讯科技有限公司 一种动态检测恶意网页脚本的方法和装置
CN103221960A (zh) * 2012-12-10 2013-07-24 华为技术有限公司 恶意代码的检测方法及装置
CN103310150A (zh) * 2012-03-13 2013-09-18 百度在线网络技术(北京)有限公司 一种检测pdf漏洞的方法和装置
CN105095756A (zh) * 2015-07-06 2015-11-25 北京金山安全软件有限公司 可移植文档格式文档的检测方法和装置
CN106778278A (zh) * 2017-02-15 2017-05-31 中国科学院信息工程研究所 一种恶意文档检测方法及装置
CN107180192A (zh) * 2017-05-09 2017-09-19 北京理工大学 基于多特征融合的安卓恶意应用程序检测方法和***
CN107944273A (zh) * 2017-12-14 2018-04-20 贵州航天计量测试技术研究所 一种基于tf‑idf算法和svdd算法的恶意pdf文档检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609649A (zh) * 2012-02-06 2012-07-25 北京百度网讯科技有限公司 一种自动采集恶意软件的方法和装置
CN102622543A (zh) * 2012-02-06 2012-08-01 北京百度网讯科技有限公司 一种动态检测恶意网页脚本的方法和装置
CN103310150A (zh) * 2012-03-13 2013-09-18 百度在线网络技术(北京)有限公司 一种检测pdf漏洞的方法和装置
CN103221960A (zh) * 2012-12-10 2013-07-24 华为技术有限公司 恶意代码的检测方法及装置
CN105095756A (zh) * 2015-07-06 2015-11-25 北京金山安全软件有限公司 可移植文档格式文档的检测方法和装置
CN106778278A (zh) * 2017-02-15 2017-05-31 中国科学院信息工程研究所 一种恶意文档检测方法及装置
CN107180192A (zh) * 2017-05-09 2017-09-19 北京理工大学 基于多特征融合的安卓恶意应用程序检测方法和***
CN107944273A (zh) * 2017-12-14 2018-04-20 贵州航天计量测试技术研究所 一种基于tf‑idf算法和svdd算法的恶意pdf文档检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAVIDE MAIORCA等: "A Structural and Content-based Approach for a Precise and Robust Detection of Malicious PDF Files", 《2015 INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS SECURITY AND PRIVACY (ICISSP)》 *
DAVIDE MAIORCA等: "A Structural and Content-based Approach for a Precise and Robust Detection of Malicious PDF Files", 《2015 INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS SECURITY AND PRIVACY (ICISSP)》, 11 February 2015 (2015-02-11), pages 1 - 7 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723373A (zh) * 2019-03-19 2020-09-29 国家计算机网络与信息安全管理中心 复合式二进制文档的漏洞利用文件检测方法及装置
CN112329012A (zh) * 2019-07-19 2021-02-05 中国人民解放军战略支援部队信息工程大学 针对包含JavaScript的恶意PDF文档的检测方法及电子设备
CN112329012B (zh) * 2019-07-19 2023-05-30 中国人民解放军战略支援部队信息工程大学 针对包含JavaScript的恶意PDF文档的检测方法及电子设备
CN112231645A (zh) * 2020-11-09 2021-01-15 北京理工大学 一种基于主动学习的恶意pdf文档检测方法
CN112287645A (zh) * 2020-11-09 2021-01-29 北京理工大学 一种基于生成式对抗网络的恶意pdf文档生成方法

Similar Documents

Publication Publication Date Title
CN109408810A (zh) 一种恶意pdf文档检测方法及装置
CN109190372B (zh) 一种基于字节码的JavaScript恶意代码检测方法
CN109005145A (zh) 一种基于自动特征抽取的恶意url检测***及其方法
CN106682505A (zh) 一种病毒检测方法、终端、服务器及***
CN103106365B (zh) 一种移动终端上的恶意应用软件的检测方法
CN109462575B (zh) 一种webshell检测方法及装置
CN111639337B (zh) 一种面向海量Windows软件的未知恶意代码检测方法及***
US20120159625A1 (en) Malicious code detection and classification system using string comparison and method thereof
Fang et al. Research on malicious JavaScript detection technology based on LSTM
CN105224600B (zh) 一种样本相似度的检测方法及装置
CN105653984B (zh) 文件指纹校验方法及装置
CN103310150A (zh) 一种检测pdf漏洞的方法和装置
CN106572117A (zh) 一种WebShell文件的检测方法和装置
CN103678528B (zh) 基于段落抄袭检测的电子作业反抄袭***和方法
CN105046152B (zh) 基于函数调用图指纹的恶意软件检测方法
CN107066262A (zh) 源代码文件克隆邻接表合并检测方法
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN109063482B (zh) 宏病毒识别方法、装置、存储介质及处理器
CN109711163A (zh) 基于api调用序列的安卓恶意软件检测方法
CN110362995A (zh) 一种基于逆向与机器学习的恶意软件检测及分析***
CN110191096A (zh) 一种基于语义分析的词向量网页入侵检测方法
CN109858248A (zh) 恶意Word文档检测方法和装置
CN106203095A (zh) 一种webshell的检测方法和检测***
CN111159115A (zh) 相似文件检测方法、装置、设备及存储介质
CN105809034A (zh) 一种恶意软件识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190301