CN108718310B

CN108718310B - 基于深度学习的多层次攻击特征提取及恶意行为识别方法

Info

Publication number: CN108718310B
Application number: CN201810481076.9A
Authority: CN
Inventors: 秦浩; 蒲强; 叶志远; 李志浩; 谢科军; 薛伟; 陈绪宝; 黄云; 曹灿; 凡恒山; 倪鹏程; 王堃; 卢伟东; 邹保平; 陈金城; 杨清; 林为民; 张涛; 马媛媛; 张波
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Jiangsu Electric Power Co Ltd; Global Energy Interconnection Research Institute; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Jiangsu Electric Power Co Ltd; Global Energy Interconnection Research Institute; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2021-02-26
Anticipated expiration: 2038-05-18
Also published as: CN108718310A

Abstract

本发明公开了一种基于深度学习的多层次攻击特征提取及恶意行为识别方法，属于网络安全技术领域，包括利用深度学习方法对攻击行为数据库中的恶意代码进行训练，以构建恶意代码的攻击数据模型；基于攻击数据模型对网络层中的待测代码进行处理，得到待测代码的网络层数据特征；对物理层中的待测代码进行特征提取，得到待测代码的物理层数据特征；结合网络层数据特征和物理层数据特征，确定待测代码是否为恶意代码。本发明通过结合网路层数据特征和物理层数据特征对代码进行识别，有效的满足了***防御性高的要求，保证了***防御可靠性。有效的提高恶意代码检测准确率的同时有效的控制了***检测时间的消耗。

Description

基于深度学习的多层次攻击特征提取及恶意行为识别方法

技术领域

本发明涉及网络安全技术领域，特别涉及基于深度学习的多层次攻击特征提取及恶意行为识别方法。

背景技术

恶意代码具有破坏被感染电脑数据、运行具有入侵性或破坏性的程序、破坏被感染电脑数据的安全性和完整性等危害作用，成为个人、企业信息泄露的主要原因。

在恶意代码分析方面，现有的动态行为捕获的方法能够角全面地分析僵尸网络的行为操作，但是其***开销大、分析周期长。现有的静态反汇编方式获取僵尸网络函数调用图，比较指令信息与函数调用相似性的方法，由于一个恶意软件的函数调用图平均有上千个节点，尽管可以通过剪枝方式去掉其中一些无关节点，但仍存在大量噪声，因此其分析结果不够精确，防御性能不可靠。而且，无论是动态行为捕获方式还是静态反汇编方式，分析时所使用的各类特征都是人工预定义的特征，这些特征是否全面、是否正确完全是由人工预定来决定的，主观性较强。

发明内容

本发明的目的在于提供基于深度学习的多层次攻击特征提取及恶意行为识别方法，以兼顾可靠性和实时性的对恶意代码进行识别。

为实现以上目的，本发明采用基于深度学习的多层次攻击特征提取及恶意行为识别方法，包括如下步骤：

利用深度学习方法对攻击行为数据库中的恶意代码进行训练，以构建恶意代码的攻击数据模型，该攻击行为数据库中的恶意代码是事先通过静态分析、动态分析过的恶意代码；

基于攻击数据模型对网络层中的待测代码进行处理，得到待测代码的网络层数据特征；

对物理层中的待测代码进行特征提取，得到待测代码的物理层数据特征；

结合网络层数据特征和物理层数据特征，确定待测代码是否为恶意代码。

优选地，所述利用深度学习方法对攻击行为数据库中的恶意代码进行训练，以构建恶意代码的攻击数据模型，包括：

将所述攻击行为数据库中的恶意代码的必要攻击特征转换为约束条件；

根据约束条件构建恶意代码的攻击目标函数；

利用非线性迭代算法对攻击目标函数进行求解，得到恶意代码的攻击向量；

根据恶意代码的攻击向量构建所述攻击数据模型。

优选地，所述在网络层中，基于攻击数据模型对待测代码进行处理，得到待测代码的网络层数据特征，包括：

将所述待识别恶意代码行为作为所述攻击数据模型的输入，得到所述待识别恶意代码行为对应的网络层攻击向量；

将网络层攻击向量作为预先构建的神经网络模型的输入，得到网络层数据特征。

优选地，还包括：

对所述网络层数据特征进行匹配处理，并根据匹配结果将待测代码划分为正常代码、恶意代码以及未知代码。

优选地，所述在物理层中，对待测代码进行特征提取，得到待测代码的物理层数据特征，包括：

在防御等级要求高且防御实时性要求低时，采用基于主动机的攻击特征提取方法对所述正常代码的物理层数据和所述未知代码的物理层数据进行特征提取，分别得到正常代码的物理层数据特征和未知代码的物理层数据特征；

在防御等级要求高且防御实时性要求高时，采用基于主动机的攻击特征提取方法对所述未知代码的物理层数据进行特征提取，得到未知代码的物理层数据特征。

优选地，还包括：

在防御等级要求和防御实时性要求都低时，将所述待测代码的网络层数据特征与攻击特征数据库中的攻击特征进行比较；

在待测代码的网络层数据特征与攻击特征数据库中的攻击特征相匹配时，确定所述待测代码是否为恶意代码，该特征数据库中攻击特征为所述攻击行为数据库中恶意代码的特征。

优选地，所述预先构建的神经网络模型的构建过程包括：

将k个受限的波尔兹曼机堆叠成一个深度信念网络，k是正整数；

通过无监督方式对深度信念网络的第一层受限的波尔兹曼机中每个神经单元的数据特征分类参数进行训练；

将第一层受限的波尔兹曼机的隐藏层作为第二层的可视化层以对第二层受限的波尔兹曼机中每个神经单元的数据特征分类参数进行训练，依次向顶层完成对每层受限的波尔兹曼机参数的训练，得到神经网络模型的初始参数；

利用具有诱捕特征标签的数据对所述初始参数进行监督训练，确定每层受限的波尔兹曼机中神经单元的权重参数及相邻网络层之间的亲密度，构建所述神经网络模型。

优选地，所述将网络层攻击向量作为预先构建的神经网络模型的输入，得到网络层数据特征，包括：

在所述神经网络模型中，遍历待测代码中的可疑代码序列与***中记录的恶意代码序列，对两序列中的每个字符进行匹配，得到匹配结果；

遍历匹配结果，将最长的公共子序列作为网络层数据特征。

优选地，所述结合网络层数据特征和物理层数据特征，确定待测代码是否为恶意代码，包括：

将网络层数据特征和物理层数据特征分别与所述攻击特征数据库中的特征进行比较；

判断网络层数据特征是否与所述攻击特征数据库中的特征相匹配，以及判断物理层数据特征是否与所述攻击特征数据库中的特征相匹配；

在至少一个比较结果为相匹配时，确定待测代码是否为恶意代码。

优选地，还包括：

将所述确定为恶意代码的待测代码作为新增数据，添加至所述攻击行为数据库中，对所述攻击行为数据库进行更新；

利用深度学习方法对更新后的攻击行为数据库中的恶意代码进行训练，以对攻击数据模型进行更新。

与现有技术相比，本发明存在以下技术效果：本发明利用深度学习功能训练已知的恶意代码，得到恶意代码的特征，构建恶意代码的攻击数据模型，加强了***识别恶意代码的能力。在未知代码入侵***时，对未知代码进行识别即特征提取，判断未知代码的特征是否与恶意代码的特征相匹配，初步判断该未知代码是否是恶意代码。然后结合***不同的防御等级，对未知代码的物理层数据进行特征提取，有效的结合物理层数据的特征，确定未知代码是否为恶意代码。通过并行多层次特征提取的攻击防御方法，以最大程度的保证恶意代码识别的准确性。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是基于深度学习的多层次攻击特征提取及恶意行为识别方法的流程示意图；

图2是多层次深度学习的全局模型图；

图3是静态、动态特征提取示意图；

图4是未结合物理层分析的攻击防御模型图；

图5是结合物理层分析和参数协调的攻击防御模型图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

本实施例方案的基本思想是：在***受到待测代码入侵时，在待测代码通过网络的端到端传输过程中，在网络层中采用深度学习中的神经网络来提取网络层数据的特征，还采用基于物理主机的特征提取方法对待测代码在物理层的数据进行特征提取，根据***防御等级的要求，结合网络层数据特征和物理层数据特征确定待测代码的类别。下面结合具体技术方案进行说明：

如图1所示，本实施例公开了基于深度学习的多层次攻击特征提取及恶意行为识别方法，包括如下步骤S1至S4：

S1、利用深度学习方法对攻击行为数据库中的恶意代码进行训练，以构建恶意代码的攻击数据模型；

需要说明的是，该攻击行为数据库中的恶意代码是通过现有的静态分析和动态分析得到的。然后利用深度学习方法对这些已知的恶意代码进行训练，构建出的攻击数据模型，可加强恶意代码的识别能力和准确度。

S2、基于攻击数据模型对网络层中的待测代码进行处理，得到待测代码的网络层数据特征；

S3、对物理层中的待测代码进行特征提取，得到待测代码的物理层数据特征；

S4、结合网络层数据特征和物理层数据特征，确定待测代码是否为恶意代码。

需要说明的是，对同一待测代码分别在网络层中和物理层中进行特征提取，通过结合网络层数据特征和物理层数据特征，在***防御性要求较高时，可有效的保证恶意代码识别的准确性，提高***防御可靠性。

作为进一步的说明，上述步骤S1中构建恶意代码的攻击数据模型的具体过程为：

(1)构建约束条件：

首先对***中现有的攻击行为数据库中的恶意代码数据进行分析，得到恶意代码自身的必要攻击特征，本实施例中将恶意代码自身的必要攻击特征具体化如下：

特征1：攻击者对攻击***的网络拓扑结构具有一定的掌握；

特征2：攻击者对攻击***的检测机制存在一定的预知；

特征3：攻击者通过修改攻击***周围相关数据使自身的攻击收益达到最大。

以攻击***为智能电网为例，恶意代码自身的必要攻击特征具体化如下：

特征1：攻击者对智能电网中的网络拓扑结构具有一定的掌握；

特征2：攻击者对智能电网的检测机制存在一定的预知；

特征3：攻击者通过修改周围邻居电表测量数据使自身的攻击收益达到最大。

上述的三种攻击特征具有一定的普遍性，默认这三种特征为已知特征，将其转换为约束条件，具体为：

其中，a表示某一个阶段的攻击向量，H表示攻击者利用的雅克比矩阵(表示电力的拓扑结构H∈R^m×n)，

表示攻击评估的阈值，|| ||表示范数，T表示攻击向量a的转置。M、N表示操作者进行数据传输时使用的向量，本实施例M、N采用对角向量表示如下：

需要说明的是，不管攻击者执行怎样的改变，攻击本身的行为信号都会检测出来，若要保证攻击的隐秘性，攻击者必须要考虑这三个约束条件，因此该约束条件具有普遍性。

(2)通过约束条件对攻击目标函数进行约束：

根据约束条件将攻击目标函数表示为拉格朗日乘子，如下：

L(a,λ₁,λ₂,λ₃)＝U(a)+λ₁ ^Th₁(a)+λ₂ ^Th₂(a)+λ₃ ^Tg(a)，

其中，

h₂(a)＝N(a+L)，g(a)＝a^TMa，λ₁、λ₂、λ₃分别表示拉格朗日乘子法中的三个函数各自的权重，仅作为参数不需要求解，U(a)表示目标函数。

然后通过各个参数的偏导函数，将原来的目标函数最小值问题转化为导数问题，即求

函数取最小值时，相关参数的具体数值，使得目标函数满足：

其中，U(a_k)表示攻击者的目标函数，d_k表示每次迭代的更新权值，a_k表示目标函数中使用的k次迭代中的攻击向量，

表示二阶偏导数，L(α_k,λ_k)表示第k次迭代中的攻击目标函数，

表示一节偏导数，λ_k分别为拉格朗日乘子法中的三个函数权重λ₁、λ₂、λ₃在非线性迭代算法中第k次迭代所取的具体数值。

(3)利用非线性迭代算法以及特征约束条件下的攻击目标函数，求出可以表示攻击行为的攻击向量。恶意代码的攻击向量的迭代算法检测过程为：

(3-1)首先确定初始的参数值a₀,λ₀，以及矩阵H的初始化状态定值H₀，H₀是m×n矩阵，并且在给定的范围内选择参数η∈(0,0.5)，τ∈(0,1)；

(3-2)判断是否满足约束条件，如果满足继续执行步骤(3-3)，否则停止计算；

(3-3)通过转化的规划子问题求解出d_k值；

(3-4)将攻击向量α_k的初始值α₀＝1带入如下公式：

判断是否满足，若是则认为该参数取值可以使用，执行步骤(3-5)，

否则对攻击向量α_k进行更新。α_k更新满足公式α_k＝τ_kα_k，其中τ_k∈(0,τ)。

其中，D表示C阶纬度的对角矩阵，η表示一个选择的权值参数，

是用来调节步长的调节函数，可以表示为：

r₁、r₂、r₃为用于调节函数中各个参数所占比例的权重，其取值可以为集合

中的最大值，1≤r_i≤3。

(3-5)当攻击向量α_k满足约束条件以后，开始计算攻击向量a_k的迭代值a_k+1＝a_k+α_kd_k。

作为进一步地说明，上述步骤S2：在网络层中，基于攻击数据模型对待测代码进行处理，得到待测代码的网络层数据特征，具体包括：

具体地，神经网络模型的构建过程为：

将k个受限玻尔兹曼机通过堆叠的方式，可以构成一个深度信念网络，深度信念网络受限通过无监督方式对第一层受限的玻尔兹曼机中每个神经单元的数据特征分类参数进行训练，在以第一层受限玻尔兹曼机的隐藏层作为第二层的可视化层对第二层设定的特征参数进行训练，如此不断向上完成对每一层受限玻尔兹曼机中参数的训练，得到特征提取模型的初始参数。

然后利用具有诱捕特征标签的数据来对模型的初始参数进行有监督的训练，达到对初始参数的微调，从而确定最终每一层中神经单元的权重参数以及相邻网络层之间的亲密程度，至此构建出神经网络模型。

其中，神经网络中受限玻尔兹曼机的能量函数可以表示为：

其中，v_j表示可视层向量v的第j个元素，h_i表示隐藏层向量h的单位元素，w_ij表示可视层与隐藏层单元之间权重矩阵的元素，n表示隐藏层数量，m表示可视层中单位元的数量。c_j与d_i分别表示可视层与隐藏层之间各个元素占有的偏重，然后通过给定的隐藏层的权值来计算出分布在各个隐藏层单元中攻击特征识别的条件概率：

其中，sigm表示曲线函数，sigm(x)＝1/(1+e^-x)。

同理，已知可视层各个单元所占有的权重值可以计算出在可视层中的各个单元攻击特征识别的条件概率：

在进行初始训练之后，为了防止数据标签发生欠拟合或者过拟合的现象，需要对神经网络中的各个可视层与隐藏层的权重进行新一轮的更新。其中，可视层与隐藏层之间各个单元权重更新矩阵表示为：

w_ij＝w_ij-R(<h_iv_j>_m-<h_iv_j>_n)

其中，< >表示求得的期望值，R表示学习的速率。

相应的各个隐藏层与可视层之间的偏置更新可以表示为：

通过不断的参数更新，最终形成针对训练数据的神经网络参数，来保证攻击识别的准确率。

具体地，采用基于最长公共子序列的提取方法，将神经网络模型输出的字符串序列与攻击***中记录的攻击特征进行比较和匹配，最终选出最长的公共子序列作为最能代表攻击行为的攻击特征。该方法提取特征可极大的缩减攻击的识别时间。提取过程为：

定义1：对于序列P＝{p₁,p₂,...,p_m}和Q＝{q₁,q₂,...,q_n}，若存在一个序列L＝{L₁,L₂,...,L_t}满足L∈X,L∈Y且没有其他满足条件的子序列长度大于L，则序列L为P和Q的最长公共子序列。

定义2：对于长度为m的序列X和长度为n的序列Y，需要一个m×n的矩阵辅助完成。该矩阵记录两个字符串中字符之间的匹配情况，因此定义存储空间为C，C_ij表示序列X的第i个字符与序列Y的第j个字符。

具体匹配过程如下：

(1)遍历序列X和序列Y，对序列中的每一个字符进行匹配，匹配时需要遵循以下规则：

(2)匹配完成后，遍历匹配结果，找出存储空间中对角线全部为1的最大子矩阵，该子矩阵所对应的字符序列即为所要求的最长公共子序列。

如果神经网络模型中输出的字符串序列，并没有和数据库中具有相匹配的特征信息，那么就可以认为该攻击为未知攻击，并将神经网络模型当中输出最长的字符序列作为该未知攻击的攻击特征。

作为进一步的说明，在上述步骤S3：在物理层中，对待测代码进行特征提取，得到待测代码的物理层数据特征中，采用基于主机的攻击特征提取方法即白盒提取，提取过程与现有技术中的提取过程相同，即先将发起攻击的恶意程序反编译为汇编指令，然后通过跟踪分析汇编指令，找出攻击的指令片段，再从中提取攻击特征。

作为进一步地说明，上述步骤S4：结合网络层数据特征和物理层数据特征，确定待测代码是否为恶意代码。其具体过程为：

将网络层数据特征和物理层数据特征分别与所述攻击特征数据库中的特征进行比较，攻击特征数据库中的特征为攻击行为数据库中恶意代码的特征；

需要说明的是，本实施例中通过网络层数据特征和物理层数据特征结合，提高了待测代码识别的准确性，适用于防御要求等级高的***，充分提高了***的防御可靠性。

作为进一步地说明，在上述步骤S2：在网络层中，基于攻击数据模型对待测代码进行处理，得到待测代码的网络层数据特征。之后还包括如下步骤：

其中，正常代码指的是判断为无攻击威胁的代码；恶意代码指的是判断为具有攻击威胁的代码；未知代码指的是不是正常代码也不是恶意代码的“灰色地带”，需要进一步判别的代码。

作为进一步地说明，本实施例将网络层数据特征识别的代码类别作为初步识别结果，然后根据***防御性和实时性的要求，按照代码类别实现不同响应，具体为：

在防御等级要求高且防御实时性要求高时，采用基于主动机的攻击特征提取方法对所述未知代码的物理层数据进行特征提取，得到未知代码的物理层数据特征；

在防御等级要求和防御实时性要求都低时，将所述待测代码的网络层数据特征与攻击特征数据库中的攻击特征进行比较，在待测代码的网络层数据特征与攻击特征数据库中的攻击特征相匹配时，确定所述待测代码是否为恶意代码。

需要说明的是，如果网络层数据特征与攻击特征数据库中的特征不匹配时，可重新对网络层的待测代码进行特征提取，如果网络层数据特征与攻击特征数据库中的特征仍不匹配，则视该待测代码为未知代码。

需要说明的是，本实施例对网络层中的待测代码进行分类，根据***防御性等级及防御实时性的要求，对相应类别代码的进行分析，比如在***实时性要求较高时，只在物理层对未知代码进行特征提取，既减少时间耗费，又可在整体上减少***防御延迟。在***防御要求较高时，在物理层对未知代码和正常代码进行特征提取，通过结合网路层数据特征和物理层数据特征对代码进行识别，有效的满足了***防御性高的要求，保证了***防御可靠性。因此，本实施例方案可以有效的提高恶意代码检测准确率的同时有效的控制了***检测时间的消耗。

作为进一步地说明，对恶意代码的检测过程还包括：

需要说明的是，本实施例通过将识别为恶意代码的待测代码增加至攻击行为数据库中，以对攻击行为数据库中存储的恶意代码进行更新，进而对攻击数据模型进行更新，如此迭代更新，以提高网络层数据特征提取的准确性，提高恶意代码识别的准确率。

下面以电网中的待测代码检测过程为例，对本实施例方案进行进一步说明：

如图2所示，对于输入的已知攻击类型的历史数据集，我们首先进行数据预处理工作，包括在对输入数据集进行了攻击向量提取，生成告警事件序列，即将每个已知的攻击行为经过攻击向量提取后，执行相应的攻击特征提取，提取到的最长序列即生成为对应的告警事件序列。

结合电网网络中已知的可能出现的告警事件列表，为了有效使用告警时间日志集，首先对告警事件按攻击目的进行分类并序列编号。其中，对每一种告警事件event都属于一个告警事件类型type，而每个告警事件类型type都包含一种或多种告警事件event。告警事件分类表描述了一个告警事件的潜在影响程度以及范围，每种事件类别之间的影响是相对独立的，但对于一个实际中的异常行为，绝大多数情况下都会包含多种事件分类，来构成一种复杂行为描述。综上所述，依据多步攻击常见的三个阶段，可以将告警事件分为如下三个类型type，如告警事件分类表表1所示：

表1

本发明提出的防御过程具体可以分为四个阶段：

(1)如图3所示，提取基础的静态、动态特征：在不运行软件代码程序的前提下，分析软件程序中可能存在的漏洞，研究基于污点分析的符号执行分析技术，通过白名单，路径搜索优化，不相关状态清除等方法优化静态分析技术，提高效率。进一步地，研究基于控制流图的静态分析技术，通过控制流分析，数据流分析，指针分析深度。其中，静态分析，动态分析皆为传统的攻击特征提取方法，只作为攻击特征提取的一个参照，故不细讲。

(2)把提取的特征以及恶意代码二进制代码、反汇编后的汇编代码作为总的输入，提交到深度学习算法去获取恶意代码判定用的特征。

(3)最后根据不同的防御的可靠性和延迟性的要求，采用对应的服务响应，包括如下：

Ⅰ)利用深度学习提取攻击特征的优势，实现“点、线、面”不同层次网络的安全状态精确感知和全方位监控，并对网络安全态势进行动态预警，在网络层进行分析通过研究多协议流量监听、网络安全要素集成中间件、基于通信流量和业务逻辑的通信行为建模等技术，形成完整的溯源数据产生工具，实现对终端通信流量的异常识别，并进一步通过对连接关系、流量类型、访问时序等关键网络安全要素进行审计，关联与挖掘嵌入式终端网络攻击威胁的发生情况。

Ⅱ)当深度学习将未知的攻击特征进行提取以后，按照最长字符匹配划分为攻击和未知攻击，如果对于安全性能要求较高，而对实时性要求不高的***如图5，那么将对正常行为和未知行为在物理层的数据特性利用深度学习再次进行攻击特征提取，分析提取后的攻击特征，固件内部代码解码与信息预处理为了解决由于采用未知压缩算法，而使得终端固件内部的程序代码或数据难以获取的问题，通过二进制代码格式，识别其操作***和文件格式，从中提取指令集、编译优化选项、加载基址等信息，利用已知的二进制文件信息，训练学习机，对未知的嵌入式终端固件内部的程序代码进行分析，实现自动处理固件的二进制代码文件信息。再将网络层攻击特征参数取值和物理层特征参数取值进行综合分析，最后确定是否为攻击行为。

Ⅲ)当***对于安全性能要求较高如图4，并且对防御的实时性要求同样较高时，则只对网络层中提取的行为分类中的未知行为的物理层数据进行特征判断，结合网络层与物理层的特征参数取值进行综合分析，即经过深度学习进行特征分析后会存在一个和规定界限的阈值的参数值相比对，确定攻击行为。

Ⅳ)当***对于安全性能要求不高，并且对防御的实时性要求同不高时，则不启用认知识别，即网络层中使用深度学习判别的攻击行为类型即为最终的攻击行为类型。

本方案与现有提取特征方法对比如表2所示：

表2

如表2所示，分别展示了IASA，Muscle，IMuscle以及本实施例中基于深度学习的提取方法，对四种提取特征方法进行比较，可以发现对于同一攻击类型的最具有代表性的最长序列特征：“GET～*～～HTTP/1.1\r\n*；～*\nHost～*\r\n*；～*\r\nHost；～*\Xff\xBF*\r\n”，本实施例提出的基于深度学习的恶意代码识别方法在提取时间上以及提取准确率上都高于另外的三种提取方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的多层次攻击特征提取及恶意行为识别方法，其特征在于，包括：

利用深度学习方法对攻击行为数据库中的恶意代码进行训练，以构建恶意代码的攻击数据模型；

对所述网络层数据特征进行匹配处理，并根据匹配结果将待测代码划分为正常代码、恶意代码以及未知代码；

对物理层中的待测代码进行特征提取，得到待测代码的物理层数据特征，具体包括：

结合网络层数据特征和物理层数据特征，确定待测代码是否为恶意代码，具体包括：

在待测代码的网络层数据特征与攻击特征数据库中的攻击特征相匹配时，确定所述待测代码是否为恶意代码。

2.如权利要求1所述的基于深度学习的多层次攻击特征提取及恶意行为识别方法，其特征在于，所述利用深度学习方法对攻击行为数据库中的恶意代码进行训练，以构建恶意代码的攻击数据模型，包括：

根据约束条件构建恶意代码的攻击目标函数；

根据恶意代码的攻击向量构建所述攻击数据模型。

3.如权利要求1所述的基于深度学习的多层次攻击特征提取及恶意行为识别方法，其特征在于，所述基于攻击数据模型对网络层中的待测代码进行处理，得到待测代码的网络层数据特征，包括：

将所述待测代码作为所述攻击数据模型的输入，得到所述待测代码对应的网络层攻击向量；

4.如权利要求3所述的基于深度学习的多层次攻击特征提取及恶意行为识别方法，其特征在于，所述预先构建的神经网络模型的构建过程包括：

将k个有限的波尔兹曼机堆叠成一个深度信念网络，k是正整数；

5.如权利要求4所述的基于深度学习的多层次攻击特征提取及恶意行为识别方法，其特征在于，所述将网络层攻击向量作为预先构建的神经网络模型的输入，得到网络层数据特征，包括：

遍历匹配结果，将最长的公共子序列作为网络层数据特征。

6.如权利要求1所述的基于深度学习的多层次攻击特征提取及恶意行为识别方法，其特征在于，所述结合网络层数据特征和物理层数据特征，确定待测代码是否为恶意代码，包括：

将网络层数据特征和物理层数据特征分别与攻击特征数据库中的特征进行比较，该特征数据库中攻击特征为所述攻击行为数据库中恶意代码的特征；

7.一种如权利要求1-6任一项所述的基于深度学习的多层次攻击特征提取及恶意行为识别方法，其特征在于，在确定所述待测代码为恶意代码时，还包括：

将确定为恶意代码的所述待测代码作为新增数据，添加至所述攻击行为数据库中，对所述攻击行为数据库进行更新；