CN115695027A

CN115695027A - 一种原始网络流威胁检测方法与装置

Info

Publication number: CN115695027A
Application number: CN202211379520.9A
Authority: CN
Inventors: 任传伦; 俞赛赛; 何明枢; 王小娟; 刘晓影; 张先国; 贾佳; 乌吉斯古愣; 刘文瀚; 孟祥頔
Original assignee: Beijing University of Posts and Telecommunications; CETC 15 Research Institute
Current assignee: Beijing University of Posts and Telecommunications; CETC 15 Research Institute
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-02-03

Abstract

本发明公开了一种原始网络流威胁检测方法与装置，该方法包括：获取原始网络流数据，利用原始网络流数据表征模型，对原始网络流数据进行处理,得到原始网络流数据的特征信息；划分原始网络流数据的特征信息，得到原始网络流数据的训练特征信息和原始网络流数据的测试特征信息；利用自动机器学***。

Description

一种原始网络流威胁检测方法与装置

技术领域

本发明涉及网络安全领域，尤其涉及一种原始网络流威胁检测方法与装置。

背景技术

现有的网络空间中数据转换和数据处理的方法中，基于语义的编码方式将网络流的所有语义字段集合在一个表示中且表示具有完整性和恒定的大小，但是该方法存在表示不确定性；基于原始二进制的编码方式保留了特征顺序，减少了对于人工设计特征的依赖，但是忽略了网络流中很多复杂的细节，导致该方法可能引入大量干扰。

现有的网络空间场景构建方法中，基于机器学习技术和深度神经网络技术的方法可实现构建单一模型并进行模型优化，但是对于多场景不同应用的网络空间构建存在方法适应性较低、模型效果较差、自动化程度较低的问题。

而在网络空间作战场景构建的实际问题中，由于不同网络空间存在较大差异且构建时对于特定网络空间具有不同的要求，因此以往的方法将引入诸多问题，包括：

(1)基于语义的编码方式没有保留每条网络流中报文选项字段的顺序，并且需要人工决定字段编码方式，导致经过该方法处理的网络流间存在特征排序不统一的问题，进而导致编码表示不适用于设备识别等任务。

(2)基于原始二进制的编码方式忽略了网络流中很多复杂的细节，包括网络流变化的长度和不同协议间的区别，这将导致每条网络流的编码长度不一致，编码表示结果不具有可解释性。

(3)基于机器学***较低，且在实际应用中场景适应性较差。

发明内容

本发明所要解决的技术问题在于，提供一种原始网络流威胁检测方法与装置，基于一种原始网络流数据表征模型，对网络空间的网络流进行数据转化和数据处理，使编码表示具有完整性、一致性和可扩展性，同时表示是标准化的且具有恒定的大小。此外，通过使用自动机器学习模型，可实现对于特定网络空间的最佳模型和超参数的自动选择，提升模型构建的自动化程度，并且自动机器学习模型可实现对于特定网络空间的多模型融合构建，使最终模型具有高环境适应性。

为了解决上述技术问题，本发明实施例第一方面公开了一种原始网络流威胁检测方法，所述方法包括：

S1，获取原始网络流数据，所述原始网络流数据包括若干条网络流数据；

S2，利用预设的原始网络流数据表征模型，对所述原始网络流数据进行处理,得到所述原始网络流数据的特征信息；

S3，划分所述原始网络流数据的特征信息，得到原始网络流数据的训练特征信息和原始网络流数据的测试特征信息；

S4，利用预设的自动机器学习模型，对所述原始网络流数据的训练特征信息进行处理，得到优化原始网络流威胁检测模型；

S5，利用所述优化原始网络流威胁检测模型，对所述原始网络流数据的测试特征信息进行处理，得到原始网络流威胁检测结果。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述原始网络流数据，包括但不限于正常流数据、DDos攻击网络流数据、WebAttack攻击网络流数据；

所述网络流数据为二进制形式的数据包。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述利用预设的原始网络流数据表征模型，对所述原始网络流数据进行处理,得到所述原始网络流数据的特征信息，包括：

所述原始网络流数据表征模型，对所述原始网络流数据进行数据转换和数据表示，得到所述原始网络流数据的特征信息；

所述原始网络流数据的特征信息为二维矩阵；所述二维矩阵的每一行代表一条网络流数据的特征信息。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述利用预设的自动机器学习模型，对所述原始网络流数据的训练特征信息进行处理，得到优化原始网络流威胁检测模型，包括：

所述自动机器学习模型，对所述原始网络流数据的训练特征信息进行数据预处理、特征训练、模型选择和超参数优化，得到优化原始网络流威胁检测模型。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述对所述原始网络流数据进行数据转换和数据表示，得到所述原始网络流数据的特征信息，包括：

对所述原始网络流数据进行数据转换，包括对所述原始网络流数据的数据对齐和数据内部填补；

对所述原始网络流数据进行数据表示，包括将所述原始网络流数据变成二维矩阵，得到所述原始网络流数据的特征信息。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述对所述原始网络流数据的数据对齐和数据内部填补，包括：

对所述二进制形式的数据包进行数据对齐，得到长度一致的原始网络流数据包；

对所述长度一致的原始网络流数据包进行数据内部填补，得到格式一致的原始网络流数据包；

所述格式一致的原始网络流数据包，包括若干个包，每个包有同样数量的特征和相同的大小。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述利用预设的自动机器学习模型，对所述原始网络流数据的训练特征信息进行数据预处理、特征训练、模型选择和超参数优化，得到优化原始网络流威胁检测模型，包括：

所述预设的自动机器学习模型，对所述原始网络流数据的训练特征信息进行处理，步骤包括：

S401,数据预处理；所述数据预处理，包括识别所述原始网络流数据的训练特征信息的类型、删除所述训练特征信息的无关特征、过滤所述训练特征信息的低频特征，得到预处理训练特征信息；

S402,特征训练；所述特征训练，包括对所述预处理训练特征信息进行训练；

所述训练包括：对所述预处理训练特征信息中的缺失值进行填充，得到填充训练特征信息；

对所述填充训练特征信息进行编码，得到编码训练特征信息；

对所述编码训练特征信息进行数据标准化处理，得到均值为0，标准差为1的标准化训练特征信息；

S403,模型选择；所述模型选择，包括利用所述标准化训练特征信息，对所述模型库中的模型进行训练，得到优化原始网络流威胁检测模型；

预设模型库，所述模型库包括N个基础模型。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述方法还包括，采用随机划分的方法，划分所述原始网络流数据的特征信息；

所述原始网络流数据的特征信息的70％为原始网络流数据的训练特征信息，所述原始网络流数据的特征信息的30％为原始网络流数据的测试特征信息。

本发明第二方面公开了一种原始网络流威胁检测装置，所述装置包括：

获取模块，用于获取原始网络流数据，所述原始网络流数据包括若干条网络流数据；

第一处理模块，用于利用预设的原始网络流数据表征模型，对所述原始网络流数据进行处理,得到所述原始网络流数据的特征信息；

第二处理模块，用于划分所述原始网络流数据的特征信息，得到原始网络流数据的训练特征信息和原始网络流数据的测试特征信息；

第三处理模块，用于利用预设的自动机器学习模型，对所述原始网络流数据的训练特征信息进行处理，得到优化原始网络流威胁检测模型；

第四处理模块，用于利用所述优化原始网络流威胁检测模型，对所述原始网络流数据的测试特征信息进行处理，得到原始网络流威胁检测结果。

作为一种可选的实施方式，在本发明实施例的第二方面中，所述原始网络流数据，包括但不限于正常流数据、DDos攻击网络流数据、WebAttack攻击网络流数据；

所述网络流数据为二进制形式的数据包。

作为一种可选的实施方式，在本发明实施例的第二方面中，所述利用预设的原始网络流数据表征模型，对所述原始网络流数据进行处理,得到所述原始网络流数据的特征信息，包括：

作为一种可选的实施方式，在本发明实施例的第二方面中，所述利用预设的自动机器学习模型，对所述原始网络流数据的训练特征信息进行处理，得到优化原始网络流威胁检测模型，包括：

作为一种可选的实施方式，在本发明实施例的第二方面中，所述对所述原始网络流数据进行数据转换和数据表示，得到所述原始网络流数据的特征信息，包括：

作为一种可选的实施方式，在本发明实施例的第二方面中，所述对所述原始网络流数据的数据对齐和数据内部填补，包括：

作为一种可选的实施方式，在本发明实施例的第二方面中，所述利用预设的自动机器学习模型，对所述原始网络流数据的训练特征信息进行数据预处理、特征训练、模型选择和超参数优化，得到优化原始网络流威胁检测模型，包括：

预设模型库，所述模型库包括N个基础模型。

作为一种可选的实施方式，在本发明实施例的第二方面中，所述方法还包括，采用随机划分的方法，划分所述原始网络流数据的特征信息；

本发明第三方面公开了另一种原始网络流威胁检测装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的原始网络流威胁检测方法中的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

(1)本发明方法无需对原始网络流进行语义提取，从而可以保留原始网络流的全部信息，同时保证每条数据表示中的特征顺序相同，可以保证表示完整性、一致性。

(2)本发明关注不同网络流之间的长度区别和不同协议间的编码区别，可以使不同网络流的数据表示具有可比性，使表示具有一致性和可解释性。

(3)本发明具有网络流数据处理速度快的优势，单线程下平均每分钟可转换150万个数据包；同时，具有可在线对动态网络流进行采集编码，也可离线进行网络流编码的优势。因此本发明可适用于多种不同网络空间作战场景下的网络流威胁检测分析模型的构建。

(4)本发明方法的优点在于无需依赖人工来筛选用于模型训练的特征，并且可以针对单个网络空间构建问题训练多模型融合的模型，从而实现自动、快速进行参数优化并输出最优融合模型。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种原始网络流威胁检测方法的流程示意图；

图2是本发明实施例公开的一种原始网络流威胁检测方法的原始网络流数据表征模型的流程图；

图3是本发明实施例公开的一种原始网络流威胁检测方法的原始网络流数据表示示意图；

图4是本发明实施例公开的一种原始网络流威胁检测方法的自动机器学习模型的神经网络体系结构；

图5是本发明实施例公开的一种原始网络流威胁检测方法的自动机器学习模型的多层堆叠策略；

图6是本发明实施例公开的一种原始网络流威胁检测装置的示意图；

图7是本发明实施例公开的另一种原始网络流威胁检测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种原始网络流威胁检测方法及装置，能够对原始网络流的语义结构直接进行编码，且使用内部填补的方法消除网络流间的不一致比特的影响；自动进行多模型选择、训练、融合的过程，无需人工干预；使网络流处理和网络空间模型构建有效结合，形成从原始网络流到网络空间模型的完整构建流程。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种原始网络流威胁检测方法的流程示意图。其中，图1所描述的原始网络流威胁检测方法的流程可以用于网络安全领域，如进行入侵检测和防御、防止信息窃取等。如图1所示，该原始网络流威胁检测方法可以包括以下操作：

可选的，所述划分可以按照7:3的比例进行，即原始网络流数据的训练特征信息占70％，原始网络流数据的测试特征信息占30％。

如图2所示，是本发明实施例公开的一种原始网络流威胁检测方法的原始网络流数据表征模型的流程图。由图2可知，原始网络流数据表征模型的流程包括原始网络流输入、数据转换和数据表示。

可选的，获取原始网络流数据，使用者可自行采集网络流原始数据集，并将原始网络流输入到原始网络流数据表征模型中进行处理。原始网络流数据都是有标签的，如标记为正常流、DDos攻击、WebAttack攻击等。

可选的，原始网络流数据表征模型以原始二进制的形式表示数据包并且以一种识别数据包本身具有的特定语义结构的方式对二进制数据进行对齐。原始网络流数据表征模型使用内部填补的方式减轻数据表示的不一致性，在减轻不一致比特表示的影响下保留选项特征的顺序。

原始网络流数据表征模型可保证数据表示完整性；原始网络流数据表征模型使用内部填补，每个包都有所有报头类型的位置，保证每个包的表示中有同样数量的特征，每个特征有同样的含义。使原始网络流数据表征模型在比特层面是可解释的，可以将原始网络流数据表征模型映射回语义领域来更好地理解特征；原始网络流数据表征模型的表示是标准化的，每比特只可能包含-1，0，1。不存在的报头信息用-1表示，-1可区别本身被置0的比特位和不存在值的比特位；经原始网络流数据表征模型表示的数据具有相同的大小，每个包有同样数量的特征。使用有效载荷使字节数可选。每条网络流数据形成一个特征向量，所有网络流数据的特征向量排列形成二维矩阵。用数据处理的方法实现原始网络流数据到二维矩阵数据的转换过程。

图3展示了包括IPV4协议、TCP协议、UDP协议和ICMP协议的报头占位的TCP网络流和UDP网络流的原始网络流数据表征格式。

利用预设的自动机器学习模型，对所述原始网络流数据的训练特征信息进行处理，得到优化原始网络流威胁检测模型。

可选的，自动机器学习模型可进行数据预处理、多模型融合训练寻找最佳参数的融合模型。在数据处理阶段，自动机器学习模型将自动识别特征类型并删除无关特征，过滤低频特征。自动机器学习模型对数据中的类别型特征分别训练表示向量，根据每个特征在所有输入数据中存在的表示的数量确定每个特征的向量长度。

自动机器学习模型对数据中的连续型特征的缺失值进行处理，使用中位数对缺失值进行填充，并对特定特征进行编码，然后进行数据标准化处理，使数据均值为0，标准差为1。最后，将类别型特征向量与连续型数据拼接起来，放入图4中左侧三层密集块中进行训练；在模型训练阶段，自动机器学习模型可测试超过50种模型，这些模型可分为6类基础模型类别，基础模型类别由树方法、深度神经网络、近邻算法演变而来，本发明不做限制。自动机器学习模型利用所有特征和定义好的多种不同类型的算法，训练多个基础模型，如图5中的模型1、模型2至模型n。然后，进行同一层的多模型交互，并更新模型的超参数，其中相同类型的模型(如若模型1、模型2的类型都为树模型)的超参数保持一致。模型超参数更新的目标是使每一轮训练的准确率逐渐提高。最后，输出层的堆叠利用加权的方式，对于高性能的模型赋更高的权重，之后进行多模型加权求和，生成多模型的融合体。自动机器学习模型可预设模型训练速度参数和模型大小参数，为了防止模型过拟合，自动机器学习模型可进行多次k折交叉验证训练。

k折交叉验证先将数据集随机划分为k个大小相同的互斥子集，每次随机的选择k-1份作为训练集，剩下的1份做测试集。当这一轮完成后，重新随机选择k份来训练数据。若干轮(小于k)之后，选择损失函数评估最优的模型和参数。

自动机器学习模型的由数值和分类特征组成的表格数据的神经网络体系结构如图4所示。自动机器学习模型的多层堆叠策略如图5所示，这里展示了两个堆叠层和不同类型的基础学习器。

实施例二

请参阅图6，图6是本发明实施例公开的一种原始网络流威胁检测装置的结构示意图。其中，图6所描述的原始网络流威胁检测装置的流程可以用于网络安全领域，如进行入侵检测和防御、防止信息窃取等。如图6所示，该装置包括：

S301，获取模块，用于获取原始网络流数据，所述原始网络流数据包括若干条网络流数据；

S302，第一处理模块，用于利用预设的原始网络流数据表征模型，对所述原始网络流数据进行处理,得到所述原始网络流数据的特征信息；

S303，第二处理模块，用于划分所述原始网络流数据的特征信息，得到原始网络流数据的训练特征信息和原始网络流数据的测试特征信息；

S304，第三处理模块，用于利用预设的自动机器学习模型，对所述原始网络流数据的训练特征信息进行处理，得到优化原始网络流威胁检测模型；

S305，第四处理模块，用于利用所述优化原始网络流威胁检测模型，对所述原始网络流数据的测试特征信息进行处理，得到原始网络流威胁检测结果。

实施例三

请参阅图7，图7是本发明实施例公开的另一种原始网络流威胁检测装置的结构示意图。其中，图7所描述的原始网络流威胁检测装置的流程可以用于网络安全领域，如进行入侵检测和防御、防止信息窃取等。如图7所示，该装置可以包括：

存储有可执行程序代码的存储器S401；

与存储器S401耦合的处理器S402；

处理器S402调用存储器S401中存储的可执行程序代码，用于执行实施例一或实施例二所描述的原始网络流威胁检测方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种原始网络流威胁检测方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种原始网络流威胁检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的原始网络流威胁检测方法，其特征在于，所述原始网络流数据，包括但不限于正常流数据、DDos攻击网络流数据、WebAttack攻击网络流数据；

所述网络流数据为二进制形式的数据包。

3.根据权利要求1所述的原始网络流威胁检测方法，其特征在于，所述利用预设的原始网络流数据表征模型，对所述原始网络流数据进行处理,得到所述原始网络流数据的特征信息，包括：

利用所述原始网络流数据表征模型，对所述原始网络流数据进行数据转换和数据表示，得到所述原始网络流数据的特征信息；

4.根据权利要求1所述的原始网络流威胁检测方法，其特征在于，所述利用预设的自动机器学习模型，对所述原始网络流数据的训练特征信息进行处理，得到优化原始网络流威胁检测模型，包括：

5.根据权利要求3所述的原始网络流威胁检测方法，其特征在于，所述对所述原始网络流数据进行数据转换和数据表示，得到所述原始网络流数据的特征信息，包括：

6.根据权利要求5所述的原始网络流威胁检测方法，其特征在于，对所述原始网络流数据的数据对齐和数据内部填补，包括：

对所述长度一致的原始网络流数据包进行数据内部填补，得到格式一致的原始网络流数据包；所述格式一致的原始网络流数据包，包括若干个包，每个包有同样数量的特征和相同的大小。

7.根据权利要求4所述的原始网络流威胁检测方法，其特征在于，所述利用预设的自动机器学习模型，对所述原始网络流数据的训练特征信息进行数据预处理、特征训练、模型选择和超参数优化，得到优化原始网络流威胁检测模型，包括：

预设模型库，所述模型库包括N个基础模型。

8.根据权利要求1所述的原始网络流威胁检测方法，其特征在于，所述方法还包括，采用随机划分的方法，划分所述原始网络流数据的特征信息；

9.一种原始网络流威胁检测装置，其特征在于，所述装置包括：

10.一种原始网络流威胁检测装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-8任一项所述的原始网络流威胁检测方法。