CN111191230A

CN111191230A - 一种基于卷积神经网络的快速网络攻击回溯挖掘方法和应用

Info

Publication number: CN111191230A
Application number: CN201911381821.3A
Authority: CN
Inventors: 何金; 赵迪; 董阳; 李妍; 张国强; 李洁
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-22
Anticipated expiration: 2039-12-27
Also published as: CN111191230B

Abstract

本发明提供了一种基于卷积神经网络的快速网络攻击回溯挖掘方法和应用，所述快速网络攻击回溯挖掘方法包括以下步骤：构建基于后向卷积神经网络的后向序列挖掘模型：通过高阶正向通道预先训练后向序列挖掘模型以获得每层的输出，构建损失函数并将其降至最低；构建确定性包标记模型:引入两个路由器负载阈值Min、Max；如果负载在Min和Max之间，则标记数据包，若不在则转发，判断目的地选项头DOH是否存在，若已经存在，路由器将只编码入口地址并转发该数据包，如果不存在，则应通过创建DOH对入口地址进行编码，并传输数据包；利用确定性包标记模型解决数据负载问题后，重建挖掘序列。本发明有利于主动发现潜伏在公司信息网络中的高级、持续性攻击行为。

Description

一种基于卷积神经网络的快速网络攻击回溯挖掘方法和应用

技术领域

本发明涉及电力信息安全技术领域，特别是涉及一种基于卷积神经网络的快速网络攻击回溯挖掘方法和应用。

背景技术

当前，网络攻击的复杂性在增加，企业、组织对网络***保护的意识也在进一步强化。企业开始使用网络安全技术解决或缓解网络安全威胁问题，由于网络及各类设备的普及应用，企业为了解决网络安全问题，在企业内部部署了许多安全产品，如入侵检测***(IDS)、入侵防御***(IPS)、防火墙、Web应用防护***(WAF)、VPN等，但这些产品的应用在满足了人们保护网络环境的目的的同时，还衍生了新的问题，总结起来表现为：在对全网范围的告警事件进行实时监测时，难度极大，既难从泛滥的实时攻击告警中分析出真正的威胁，也不能实时监测复杂攻击。针对上述问题，国网公司于2015年开始筹建网络与信息安全预警分析平台(即SG-S6000平台)，其总体目标是加强公司人员、组织、设备、应用四方面资源基础管理。预警分析平台规划实现网络设备、***主机、内外网及移动终端、应用***、网络流量、物理监控和公开情报等7大类的数据采集，具备漏洞分析、风险处理等能力，并规划基于大数据分析的实现攻击异常检测功能。目前，预警分析平台已具备数据采集和展示功能，但在大数据环境下的网络攻击溯源分析方面仍存在一些不足，缺乏对安全事件深入关联调查、源头溯源和根因分析的能力。

分析产生上述针对网络攻击缺乏溯源分析的原因，主要是现阶段各个安全设备都会产生大量的日志记录，并且这些日志记录直接缺乏显性的关联性。对于零散的海量告警日志，安全处置人员需要花费大量时间进行手动关联，导致对安全事件的响应效率低且准确率不高。

发明内容

本发明的目的是针对现有技术中存在的网络攻击缺乏溯源分的问题，而提供一种基于卷积神经网络的快速网络攻击回溯挖掘方法。

本发明的另一个目的是提供所述快速网络攻击回溯挖掘方法在网络攻击预警中的应用。

为实现本发明的目的所采用的技术方案是：

一种基于卷积神经网络的快速网络攻击回溯挖掘方法，包括以下步骤：

步骤1，构建基于后向卷积神经网络(TR-CNN)的后向序列挖掘模型：

通过高阶正向通道预先训练后向序列挖掘模型以获得每层的输出，构建损失函数并将其降至最低；

步骤2，构建确定性包标记模型:

S1，判断步骤1输出的数据包是否为负载，若是，则进行以下步骤，若不是直接将其转发接收新的数据包；

S2，引入两个路由器负载阈值，Min、Max；

S3，若所述负载低于Min或高于Max时，则标记为没有数据包并转发；如果负载在Min和Max之间，则标记数据包；

S4，判断目的地选项头DOH是否存在，如果已经存在，路由器将只编码入口地址，然后转发该数据包，如果不存在，则应通过创建DOH对入口地址进行编码，并传输数据包；

S5，在程序的重建过程中，应根据受到攻击的主机决定是否搜索DOH，如果存在，受攻击的主机将提取地址，然后将地址放入地址表中；

步骤3，利用步骤2的确定性包标记模型解决数据负载问题后，重建挖掘序列。

在上述技术方案中，所述步骤1中，利用截断的支持向量机压缩后向序列挖掘模型的输出层，以加速后向序列挖掘模型的计算速度。

在上述技术方案中，所述步骤1中，在挖掘模型更新过程中计算后向序列挖掘模型中每层参数的偏导数，以确定所述参数的修正方向最终提高所述参数的准确度。

在上述技术方案中，利用高阶反向传播计算偏导数。

在上述技术方案中，所述步骤1中的高阶正向通道为

其中X为通过正向计算后得到的数据矩阵，Q_IM为输入数据矩阵，

为正向传递权重矩阵的转置，l为正向传递的步数。

在上述技术方案中，所述损失函数为

其中(x；y)是张量对象，s_θ是指维度，m为当前张量对象的阶数，M为总阶数，将损失函数降到最低得到

在上述技术方案中，先将张量的权重指定为随机数，然后更新张量的权重以获得

在上述技术方案中，所述步骤2中，Max的值与路由器的属性正相关，Min的值与正常情况下路由器的平均负载性正相关。

本发明的另一方面，还包括所述基于卷积神经网络的快速网络攻击回溯挖掘方法在网络攻击预警中的应用。以主动发现潜伏的高级、持续性攻击行为。

与现有技术相比，本发明的有益效果是：

1.本发明基于卷积神经网络的快速网络攻击回溯挖掘方法，充分利用深度学习技术在对大数据分析上快速、高效等优势，实现对公司全网长时间周期内的攻击事件追溯、攻击溯源，有利于主动发现潜伏在公司信息网络中的高级、持续性攻击行为。

2.本发明利用卷积神经网络的特性，深度关联攻击行为特征，在一定的时间窗口内发现攻击造成的历史痕迹。同时，通过向后回溯技术，节省重构序列时间，提升大数据中攻击回溯挖掘速度，有利于公司开展针对性的网络安全事件回溯，具有广泛的工程实用价值。

3.引入卷积神经网络方法，采用将后向挖掘和TR-CNN算法结合，加快数据序列的重构，从算法上实现对历史数据中攻击回溯加速。利用确定性包标记模型，降低了网络设备在回溯过程中的负载压力。基于S6000现有的技术架构和数据基础，设计形成历史事件回溯挖掘模块，从技术实现方面进一步减少历史数据挖掘的时间开销。

附图说明

图1所示为基于后向卷积神经网络(TR-CNN)的后向快速回溯算法流程图。

图2所示为确定性包标记模型工作流程图。

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

构建后向序列挖掘模型

向后挖掘是数据挖掘方法的一种。在数据挖掘的过程中，数据往往会与静态数据库相连，而一旦数据库序列中的数据发生改变，那么就意味着之前挖掘结果的正确率下降，而为了保证挖掘的正确率就需要重新启动整个挖掘过程来更新序列数据库，但这样又会影响整体的挖掘效率。因此，为了解决数据库中序列数据改变的问题，本发明利用数据库中稳定序列的数量在更新的数据库过程中保持不变的特性，对数据库中的序列模式采用向后增量挖掘的方式，即在数据库各个序列计数的过程中可以识别低稳定性序列的基础上，利用反向扩展来生成候选序列，这样就可以利用递归来投影数据库中的序列，进而不断缩小需要挖掘空间，最终达到减少重构序列的时间，提高挖掘效率的目的。

实施例1

基于后向卷积神经网络(TR-CNN)的后向快速回溯算法，包括以下步骤：

步骤(1)：数据集构建。在卷积神经网络算法中引入截断支持向量机来加快高维大数据分析的训练速度。

步骤(2)：数据集训练。首先，我们使用高阶正向通道预先训练TR-CNN以获得每层的输出。然后，我们构建损失函数并尝试将其降至最低。具体而言，损失函数

表示为：

其中(x；y)是张量对象，s是指维度。获得最低

首先，我们将张量的权重指定为随机数。然后，张量的权重将被更新。

步骤(3)：利用确定性包标记模型解决数据负载问题，重建挖掘序列。

步骤(2)中，损失函数是用来衡量当前模型参数的值与期望值之间的差距，降低损失函数的过程即是更新模型参数的过程，当损失函数足够小时，说明此时模型的参数达到了期望值，即完成模型的训练。

实施例2

为了提高实施例1中步骤1中TR-CNN训练的精准度，优选的在TR-CNN训练过程中，关键步骤的相应计算分为三个部分：

第一部分是使用高阶正向传递计算以下序列：

然后，第二个是使用截断的支持向量机压缩输出层以加速训练速度。

最后一个是在更新过程中计算偏导数。通过有效地设计高阶反向传播来计算高阶偏导数。最后，可以将原始数据作为有用信息进行训练，这有助于防止入侵者进入网络。

实施例3

为了提高实施例1中数据负载的问题，作为优选方式，所述确定性包标记模型的处理过程包括以下步骤：

步骤(1)：引入两个路由器负载阈值，Min、Max。

步骤(2)：如果负载低于Min或高于Max时，模型将标记为没有数据包；如果负载在Min和Max之间，则每个数据包将被标记。

步骤(3)：判断目的地选项头(DOH)是否存在，如果它已经存在，路由器将只编码入口地址，然后转发该数据包。如果不存在，则应通过创建DOH对入口地址进行编码，并传输数据包。

步骤(4)：在程序的重建过程中，应根据受到攻击的主机决定是否搜索DOH。如果存在，受攻击的主机将提取地址，然后将地址放入地址表中。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。