CN116170227A

CN116170227A - 一种流量异常的检测方法、装置、电子设备及存储介质

Info

Publication number: CN116170227A
Application number: CN202310188073.7A
Authority: CN
Inventors: 李蔚欣; 崔宝江
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-05-26

Abstract

本申请提供了一种流量异常的检测方法、装置、电子设备及存储介质，将所有流量数据和流量特征输入扫描探测模型，以输出每条流量数据的网元扫描识别结果，网元扫描识别结果用于指示目标流量数据对应的目的网元是否被扫描探测；将所有流量数据和流量特征输入参数检测模型，以输出每条流量数据的数据包检测结果，数据包检测结果用于指示目标流量数据的数据包是否存在封装异常；基于所有流量数据和流量特征，生成所有用户设备的网元通信序列树；针对每个用户设备的网元通讯序列树，将该网元通信序列树与对应的网元通讯序列树进行对比，以输出目标流量数据的路径异常检测结果，提高了对5G核心网的流量异常检测的准确性。

Description

一种流量异常的检测方法、装置、电子设备及存储介质

技术领域

本申请涉及通信技术领域，具体而言，涉及一种流量异常的检测方法、装置、电子设备及存储介质。

背景技术

网络流量是在网络空间中进行信息交互和传递的主要载体，基于网络流量的异常检测技术在入侵检测领域作为一项有效的主动防御技术，它通过对网络流量模式进行识别，及时发现网络流量中异常的流量模式和攻击行为。

5G核心网中的流量具备种类多样，流量大等特点，因此5G核心网对流量异常检测的精确性也有很大的要求。现有的流量异常检测技术，通常选取的特征单一，且检测对象主要是单流，而单流中数据包的时间序列、流速等容易受设备、网络的影响，经常出现误报等现象，并不适用于5G核心网的流量检测。

发明内容

有鉴于此，本申请的目的在于提供一种流量异常的检测方法、装置、电子设备及存储介质，通过多样化的特征检测设计，提高了对5G核心网的流量异常检测的准确性。

第一方面，本申请提供了一种流量异常的检测方法，方法包括对捕获到的核心网的多条流量数据进行解析，以获取流量数据中每条流量数据的流量特征并存储；将所有流量数据和流量特征输入扫描探测模型，以输出每条流量数据的网元扫描识别结果，网元扫描识别结果用于指示目标流量数据对应的目的网元是否被扫描探测；将所有流量数据和流量特征输入参数检测模型，以输出每条流量数据的数据包检测结果，数据包检测结果用于指示目标流量数据的数据包是否存在封装异常；基于所有流量数据和流量特征，生成所有用户设备的网元通信序列树；针对每个用户设备的网元通讯序列树，将该网元通信序列树与对应的网元通讯序列树进行对比，以输出目标流量数据的路径异常检测结果。

优选的，还包括将所有流量数据和流量特征输入网元识别模型，以输出网元识别结果，网元识别结果用于指示网元和IP之间的匹配关系。

优选的，还包括根据网元扫描识别结果、数据包检测结果、路径异常检测结果以及网元识别结果，确定所捕获到的多条流量数据中是否存在异常流量数据量；若存在异常流量数据，则生成异常流量报警信息；其中，异常流量报警信息包括异常流量数据以及与异常流量数据的传输路径，传输路径包括源端口、源IP、目的端口、目的IP。

优选的，将所有流量数据和流量特征输入扫描探测模型，以输出每条流量数据的网元扫描识别结果的步骤，具体包括：针对每条流量数据，基于该流量数据的流量特征，按照预设特征格式确定出多个流量特征参数组；针对每个流量特征参数组，根据该流量特征参数组的出现次数和流量数据的总数，计算出该流量特征参数组的信息熵；针对每条流量数据，根据该流量数据下所有流量特征参数组的信息熵，确定该流量数据对应的网元是否被扫描探测。

优选的，将所有流量数据和流量特征输入参数检测模型，以输出每条流量数据的数据包检测结果的步骤，具体包括：针对每条流量数据，提取出该流量数据的与第一目标流量特征对应的第一字段；针对每条流量数据，基于第一预设映射表，将提取到的第一字段进行编码，生成该条流量数据的十进制特征序列；通过训练好的隐马尔可夫模型对所有流量数据的十进制特征序列进行状态转移，以获取每个流量数据的检测值；根据每个流量数据的检测值与预设检测值的大小，确定每条流量的数据包是否存在封装异常。

优选的，每个用户设备对应至少一个网元通信序列树，通过以下方式生成每个用户设备的一个网元通信序列树：基于流量数据所形成的至少一条传输路径中的目标传输路径，目标传输路径的初始网元为该用户设备；针对目标传输路径上的每条流量数据，提取出该流量数据的与第二目标流量特征对应的第二字段；针对目标传输路径上的每条流量数据，基于第二预设映射表，将提取到的所有第二字段进行编码，生成该条流量数据的用户状态序列；针对流量数据所形成的每条传输路径，以该传输路径中的初始网元为根节点、结束网元为末端节点，构建该传输路径对应的网元通讯树；将所有用户状态序列与网元通讯树结构中对应的节点之间进行关联，以生成该用户设备的网元通讯序列树。

优选的，将所有流量数据和流量特征输入网元识别模型，以输出网元识别结果的步骤，具体包括：针对目标传输路径上的每条流量数据，统计出该条流量数据的预设字段的长度值，确定出多个流量长度特征参数值；通过训练好的分类器模型对多个流量长度特征参数值进行分类，以输出评价值，评价值用于指示目标传输路径上的目的IP与目标网元之间的匹配程度。

第二方面，本申请提供了一种流量异常的检测装置，装置包括：

分析模块，用于对捕获到的核心网的多条流量数据进行解析，以获取流量数据中每条流量数据的流量特征并存储；

第一检测模块，用于将所有流量数据和流量特征输入扫描探测模型，以输出每条流量数据的网元扫描识别结果，网元扫描识别结果用于指示目标流量数据对应的目的网元是否被扫描探测；

第二检测模块，用于将所有流量数据和流量特征输入参数检测模型，以输出每条流量数据的数据包检测结果，数据包检测结果用于指示目标流量数据的数据包是否存在封装异常；

第三检测模块，用于基于所有流量数据和流量特征，生成所有用户设备的网元通信序列树，针对每个用户设备的网元通讯序列树，将该网元通信序列树与对应的网元通讯序列树进行对比，以输出目标流量数据的路径异常检测结果。

第三方面，本申请还提供一种电子设备，包括：处理器、存储器和总线，存储器存储有处理器可执行的机器可读指令，当电子设备运行时，处理器与存储器之间通过总线通信，机器可读指令被处理器执行时执行如上述的流量异常的检测方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的流量异常的检测方法的步骤。

本申请提供的一种流量异常的检测方法、装置、电子设备及存储介质，包括对捕获到的核心网的多条流量数据进行解析，以获取流量数据中每条流量数据的流量特征并存储；将所有流量数据和流量特征输入扫描探测模型，以输出每条流量数据的网元扫描识别结果，网元扫描识别结果用于指示目标流量数据对应的目的网元是否被扫描探测；将所有流量数据和流量特征输入参数检测模型，以输出每条流量数据的数据包检测结果，数据包检测结果用于指示目标流量数据的数据包是否存在封装异常；基于所有流量数据和流量特征，生成所有用户设备的网元通信序列树；针对每个用户设备的网元通讯序列树，将该网元通信序列树与对应的网元通讯序列树进行对比，以输出目标流量数据的路径异常检测结果，通过基于行为基线生成的模型，能够在不需要异常流量样本数据的情况下完成模型的构建，从时间特征和空间特征等多方面进行异常检测，更适合于5G核心网的流量异常检测，提高了识别的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种流量异常的检测方法的流程图；

图2为本申请实施例所提供的一种用户状态序列的生成示例的流程图；

图3为本申请实施例所提供的一种检测***的生成方法的流程图；

图4为本申请实施例所提供的一种流量异常的检测装置的结构示意图；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于基于虚拟网络流量的5G核心网流量异常检测。

5G网络的目标是为移动设备之间的通信提供更高的速度与容量，并可以通过网络切片功能依据业务场景实现网络功能的定制化。为此，5G网络采用了软件定义网络、网络功能虚拟化以及网络切片技术、边缘计算等关键技术。这些技术在提高5G网络的灵活性的同时引入了新的安全风险。

网络流量是在网络空间中进行信息交互和传递的主要载体，基于网络流量的异常检测技术在入侵检测领域作为一项有效的主动防御技术，它通过对网络流量模式进行识别，及时发现网络流量中异常的流量模式和攻击行为。现有的流量异常检测方法主要是使用基于机器学习和深度学习的分类器算法。现有的流量异常检测技术，存在以下不足，第一点是没有针对5G核心网协议自身特性，在数据流的空间特征上，笼统选取TCP载荷或截取TCP载荷，虽然具备一定的识别效果，但经常出现误报等现象；第二点是现有的机器学习或深度学习在数据流的时间特征上，对象主要是单流，模型的输入对象较为单一，其次单流中包的时间序列、流速等易受设备、网络的影响。

基于此，本申请实施例提供了一种流量异常的检测方法、装置、电子设备及存储介质。

请参阅图1，图1为本申请实施例所提供的一种流量异常的检测方法的流程图。所如图1中所示，本申请实施例提供的流量异常的检测方法，包括：

S101、对捕获到的核心网的多条流量数据进行解析，以获取流量数据中每条流量数据的流量特征并存储。

该步骤中，可以采用被动嗅探的方式捕获5G核心网的流量并解析，存储至数据库中(存储为MySQL/JSON格式)。根据3gpp标准，分析核心网中的流量协议类型，包括HTTP2，NGAP等。比如，针对HTTP2流，可以提取到源IP，目的IP，源端口，目的端口，Method，URL，状态码，请求头，请求数据，响应头，响应数据等。具体可以通过与交换机的接口连接，以实时捕获流量数据。

S102、将所有流量数据和流量特征输入扫描探测模型，以输出每条流量数据的网元扫描识别结果，网元扫描识别结果用于指示目标流量数据对应的目的网元是否被扫描探测。

具体的，将所有流量数据和流量特征输入扫描探测模型，以输出每条流量数据的网元扫描识别结果的步骤，具体包括：

针对每条流量数据，基于该流量数据的流量特征，按照预设特征格式确定出多个流量特征参数组。针对每个流量特征参数组，根据该流量特征参数组的出现次数和流量数据的总数，计算出该流量特征参数组的信息熵。针对每条流量数据，根据该流量数据下所有流量特征参数组的信息熵，确定该流量数据对应的网元是否被扫描探测。

攻击者在尚未摸清网元服务的工作方式之前，往往要进行攻击试探，进而引发流量数据异常。这里针对攻击者前期的扫描探测，设计多个预设特征格式如下：(1)sip-dip-dpt：源IP-目的IP-目的端口；(2)sip-dip-len：源IP-目的IP-报文长度；(3)sip-dip-flags：源IP-目的IP-TCP标志；(4)sip-dpt-dip：源IP-目的端口-目的IP；(5)sip-dpt-len：源IP-目的端口-报文长度；(6)sip-dpt-flags：源IP-目的端口-TCP标志。

其中，TCP标志P_A/s的计算公式如下：

其中，C_ack|syn表示ACK标志和SYN标志同时出现的次数，C_syn表示SYN的总数。

针对每一条流量数据，可以确定出对应的六条流量特征参数组。不同的流量数据，可能确定出相同的流量特征参数组，例如流量数据A和流量数据B，若都是从第一目标IP的端口1发送到第二目标IP的端口3，则其对应的“源IP-目的IP-目的端口”的流量特征参数组都可以是“192.168.2.10-192.168.2.5-29507”，其中192.168.2.10为第一目标IP，192.168.2.5为第二目标IP，29507为目的端口。

对于每种流量特征参数组，如“192.168.2.10-192.168.2.5-29507”，通过以下方式计算其熵值：

其中，x_i代表一条流量特征参数组的记录，p(x_i)为其在所有流量也在参数组中出现的频率，N为TCP流量数据的总数。

具体的，根据该流量数据下所有流量特征参数组的信息熵，确定该流量数据对应的网元是否被扫描探测的步骤，具体包括：

针对每个流量数据，六个预设特征格式的信息熵的熵值分别记为v1、v2、v3、v4、v5、v6。接着对熵值进行归一化。在信息熵的计算中，信源越是集中，熵值就越小。对特征进行信息熵计算时，状态表现为集中的熵值小，归一化后近似于0，状态表现为分散的熵值小，归一化后近似于1。

如果归一化后的{v1,v2,v3}为{X,Y,Y}，则说明该流量数据对应的网元被扫描探测，且标记为垂直扫描类型异常。如果归一化后的{v4,v5,v6}为{X,Y,Y}，则说明该流量数据对应的网元被扫描探测，且将其标记为水平扫描类型异常。其中，X大于Y，X接近1，Y接近0，接近距离可依据正常流量所得到的经验动态设定。

这样，通过统计目的IP和目的端口的分散度，可以筛选出对应的攻击流量。由于5G核心网多采用微服务化部署，微服务的扩缩容可能会导致流量的突变，这里选取的流量特征参数能够提高算法准确率，降低误报带来的影响。

S103、将所有流量数据和流量特征输入参数检测模型，以输出每条流量数据的数据包检测结果，数据包检测结果用于指示目标流量数据的数据包是否存在封装异常。

具体的，将所有流量数据和流量特征输入参数检测模型，以输出每条流量数据的数据包检测结果的步骤，具体包括：

针对每条流量数据，提取出该流量数据的与第一目标流量特征对应的第一字段。针对每条流量数据，基于第一预设映射表，将提取到的第一字段进行编码，生成该条流量数据的十进制特征序列。

攻击者在尚未摸清网元服务API工作方式之前,往往要对API进行攻击性调用。由于5G核心网内部采用微服务化架构，针对攻击者的此类攻击，可以基于访问请求行为，设计第一目标流量特征。

第一目标流量特征包括多个特征字段，分别为Host(访问的服务IP与端口号)、Fpath(HTTP/2.0的URL中字符“？”前的访问路径的正则匹配式)、Params(包括name和value，name为HTTP/2.0的URL中字符“？”后的参数名称，value为HTTP/2.0的URL中字符“？”后的参数值)。

在生成十进制特征序列时，可以对value字符进行映射。按照字符分割API参数值，由于字母，数字与特殊字符的权重不同，需要将参数值转化为状态表示作为HMM的输入。其中，第一预设映射表中的映射关系如下：原字符为“A-Z”对应的映射值为“65”，原字符为“a-z”对应的映射值为“97”，原字符为“0-9”对应的映射值为“45”，原字符为“特殊字符”对应的映射值为其对应的ASCII码。

通过训练好的隐马尔可夫模型对所有流量数据的十进制特征序列进行状态转移，以获取每个流量数据的检测值；根据每个流量数据的检测值与预设检测值的大小，确定每条流量的数据包是否存在封装异常。

基于HMM(Hidden Markov Model，隐马尔可夫)的状态序列建模，首先需要将原始数据转化为状态表示，比如数字用0表示状态，小写字母用a表示状态，大写字母用A表示状态，特殊字符保持不变。这一步可以看做是原始数据的归一化(Normalization)，使得原始数据的状态空间被有效压缩，正常样本间的差距也进一步减小。对于每个状态，统计出后一个状态的概率分布。利用状态转移模型，就可以判断一个输入序列是否符合白样本的模式。这里的HMM需要两轮数据输入进行学习，第一轮生成HMM模型，第二轮将正常的数据输入HMM模型中，获取所有数据中输出的最低分数作为模型判断的阈值。

针对每一条流量数据，若HMM模型输出的该流量数据的检测值大于最低分数，则确定该流量数据正常，若检测值小于最低分数，则确定该流量数据的数据包存在封装异常。在本申请的一个实施例中，还可以利用正则表达式和机器学习结合的方法进行检测。通过自动化生成正则匹配模式的方式对参数值进行建模。将参数按照特殊符号分割，分割部分用通配符表示。将Host、Fpath以及每个Param的name进行编码生成key值以建模。

由于核心网中的用户设备(UE)的操作流程会对应不同的API，其中有一致的字段也有用户相关的特定字段。比如，对于访问行为

/nudm-sdm/v1/imsi-208930000000003/smf-select-data？plmn-id＝20893，访问路径的正则匹配式可以通过如下方式生成：

Path部分“/nudm-sdm/v1/imsi-”以及“/smf-select-data”是统一字段，“208930000000003”是特定字段。使用参数plmn-id与Host，将path归为一类，生成统一的模式/nudm-sdm/v1/imsi-(.*)/smf-select-data，作为Fpath。

针对每一条流量数据，若其正则表达式匹配，则确定该流量数据正常，若不匹配，则确定该流量数据的数据包存在封装异常。

核心网中的用户设备(UE)的操作流程会对应不同的API，其中有一致的字段也有用户相关的特定字段。针对这一特性，采用正则匹配式生成方法构建识别模型，提高了模型识别的准确度。针对攻击者对API进行的攻击性调用，还可以采用正则匹配式与隐马尔可夫两种模型相结合的方法，进一步提高模型的准确度。

S104、基于所有流量数据和流量特征，生成所有用户设备的网元通信序列树。

在步骤S104中，每个用户设备对应至少一个网元通信序列树，通过以下方式生成每个用户设备的一个网元通信序列树：

基于流量数据所形成的至少一条传输路径中的目标传输路径，目标传输路径的初始网元为该用户设备。针对目标传输路径上的每条流量数据，提取出该流量数据的与第二目标流量特征对应的第二字段。针对目标传输路径上的每条流量数据，基于第二预设映射表，将提取到的所有第二字段进行编码，生成该条流量数据的用户状态序列。

在5GC中,攻击者可以利用网元的漏洞攻陷某个网元，并从该网元对其他网元的开放接口发起请求，导致网元访问的序列出现异常。针对网元服务序列，以网元服务的调用行为作为标准建立基线。这里的第二目标流量特征包括如下特征字段：UE-ID(UE的唯一身份标识，串联起一个UE的所有操作)、Time(UE操作触发的时间)、URL(HTTP/2.0的操作码)、Method(HTTP/2.0的请求方法)、源IP：源端口、目的IP：目的端口、状态码(HTTP/2.0的返回状态码)、UE阶段(UE所处的阶段包括注册、PDU Session建立、注销等)等。

通过对上述特征提取的结果进行编码，将对应的编码作为UE状态。每个UE状态包含请求、响应两个部分，编码过程可以参照图2所提供的一种用户状态序列的生成示例的流程图。针对流量数据所形成的每条传输路径，以该传输路径中的初始网元为根节点、结束网元为末端节点，构建该传输路径对应的网元通讯树。将所有用户状态序列与网元通讯树结构中对应的节点之间进行关联，以生成该用户设备的网元通讯序列树。

S105、针对每个用户设备的网元通讯序列树，将该网元通信序列树与对应的预设通讯序列树进行对比，以输出目标流量数据的路径异常检测结果。

该步骤中，这里通过逐个遍历训练数据中的网元通信序列，根据树生成算法，将所有用户状态序列整合成一个多叉树结构的模型,即网元通讯序列树。树中的所有节点构成通信状态空间，根节点到任何节点的路径都是一个合法的通信序列。预设通讯序列树与网元通信序列树生成的流程相似，具体步骤如下：

(1)选取一个UE的网元通信序列，当前通信状态初始为通信序列的第一个通信状态，树的当前节点初始为根节点。树为空时，则新建树，否则第一个通信状态一定与根节点匹配。将树中的当前节点存于UE的已访问节点列表中，进入(2)。

(2)如果当前通信状态不是网元通信序列的最后一个通信状态，当前通信状态变为通信序列中的下一个通信状态，否则返回(5)。

(3)如果当前通信状态存在于已访问节点列表中，则序列树不继续向下生长，直接返回到最近的已访问节点，并重置已访问节点列表。序列树中每个节点存储一个可返回节点的列表，算法返回(2)。

(4)如果树的当前节点的孩子节点中有下一个通信状态，则向子节点移动；如果没有，则新建一个子节点，该子节点的值为下一个通信状态节点，并向该子节点移动。将树中的当前节点存于UE的已访问节点列表中，算法返回2。

(5)遍历完当前UE的网元通信序列，如果还有网元通信序列没有被遍历，则开始遍历下一个UE的网元通信序列，算法返回(1)；否则进入(6)。

(6)算法结束，存储生成的序列树。对于每个用户设备，根据其产生的流量数据的传输路径，确定对应的预设通讯序列树，并进行对比，若路径节点上有不同或某个节点上的网元通讯序列排序有不同，则说明目标流量数据的路径异常。通过捕获网元之间的HTTP2.0通信流量，并提取例如URL、HTTP2返回码等特征，构建网元通信序列树，能够对正常的网元通信序列进行建模，从而识别出异常的序列。

本申请实施例提供的流量异常的检测方法，采用基于行为基线的模型生成方法，能够在不需要异常流量样本数据的情况下完成模型的构建，更适用于缺少异常流量样本的情况，如内存形式的攻击等。同时，能够实时的从多维特征，统计特征，单流特征以及时间序列等多方面进行异常检测，提高了对5G核心网的流量异常的识别的准确性。

图3为本申请实施例所提供的一种检测***的生成方法的流程图。通过对模拟5G核心网正常通信流量中存在的协议分析，通过流量捕获与解析模块提取流量特征，并存储在数据库中。对特征进行二次处理后，利用端口扫描检测模块收集一段时间内流量的统计特征并建模，利用服务自动发现模块对网元进行自动化分类，并构造网元服务行为序列基线，从而生成正常样本模型。同时提出几种可能存在的异常以及异常流量生成方式，收集异常流量，并与正常样本模型比对，计算其相似度作为阈值，从而实现5G核心网流量的异常检测。

具体的，提供一种流量异常的检测***，包括分析单元、扫描探测单元、服务发现单元、API参数检测单元和网元通讯序列匹配单元和报警单元。其中，分析单元用于执行上述步骤S101，扫描探测单元用于执行步骤S102，API参数检测单元用于执行步骤S103，网元通讯序列匹配单元用于执行步骤S104和S105。

服务发现单元，用于执行将所有流量数据和流量特征输入网元识别模型，以输出网元识别结果，网元识别结果用于指示网元和IP之间的匹配关系的步骤。该步骤具体包括：

针对目标传输路径上的每条流量数据，统计出该条流量数据的预设字段的长度值，确定出多个流量长度特征参数值。通过训练好的分类器模型对多个流量长度特征参数值进行分类，以输出评价值，评价值用于指示目标传输路径上的目的IP与目标网元之间的匹配程度。

为进行自动化的服务识别，设计多个流量长度特征如下：(1)payload长度最大值：预设时间内以某个服务端口为目的地址的TCP流量的payload长度最大值；(2)payload长度最小值：预设时间内以某个服务端口为目的地址的TCP流量的payload长度最小值；(3)payload长度均值：预设时间内以某个服务端口为目的地址的TCP流量的payload长度均值。(4)payload长度/TCP上下文数量：预设时间内以某个服务端口为目的地址的TCP流量的payload长度(len_payload)和TCP上下文数量(count_context)之间的比值，其中TCP上下文指的是一次TCP连接。

这里可以采用监督算法(SVM、逻辑回归等)对核心网流量进行分析，以核心网HTTP/2.0流量统计特征作为有监督算法的输入，以网元类型作为算法的输出，得到分类器模型。

通过5G核心网中TCP连接的请求流量统计相关特征能够高效的识别核心网网元内部流量，将网元和IP之间进行匹配。当有不匹配的IP和网元产生流量数据时，则可以认为是流量异常。

基于5G核心网内部协议设计特定的流量特征，并根据多维特征，从统计特征，单流特征以及时间序列等多方面进行异常检测，采用基线的方式，在不需要异常流量样本的情况下，提高了其判定的准确度。

基于同一发明构思，本申请实施例中还提供了与流量异常的检测方法对应的流量异常的检测装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述流量异常的检测方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图4，图4为本申请实施例所提供的一种流量异常的检测装置的结构示意图。如图4中所示，所述流量异常的检测装置400包括：

分析模块410，用于对捕获到的核心网的多条流量数据进行解析，以获取流量数据中每条流量数据的流量特征并存储；

第一检测模块420，用于将所有流量数据和流量特征输入扫描探测模型，以输出每条流量数据的网元扫描识别结果，网元扫描识别结果用于指示目标流量数据对应的目的网元是否被扫描探测；

第二检测模块430，用于将所有流量数据和流量特征输入参数检测模型，以输出每条流量数据的数据包检测结果，数据包检测结果用于指示目标流量数据的数据包是否存在封装异常；

第三检测模块440，用于基于所有流量数据和流量特征，生成所有用户设备的网元通信序列树，针对每个用户设备的网元通讯序列树，将该网元通信序列树与对应的网元通讯序列树进行对比，以输出目标流量数据的路径异常检测结果。

在一优选实施例中，还包括第四检测模块450(图中未示出)，用于将所有流量数据和流量特征输入网元识别模型，以输出网元识别结果，网元识别结果用于指示网元和IP之间的匹配关系。

在一优选实施例中，还包括报警模块460，(图中未示出)用于根据网元扫描识别结果、数据包检测结果、路径异常检测结果以及网元识别结果，确定所捕获到的多条流量数据中是否存在异常流量数据量；若存在异常流量数据，则生成异常流量报警信息；其中，异常流量报警信息包括异常流量数据以及与异常流量数据的传输路径，传输路径包括源端口、源IP、目的端口、目的IP。

在一优选实施例中，第一检测模块420具体用于针对每条流量数据，基于该流量数据的流量特征，按照预设特征格式确定出多个流量特征参数组；针对每个流量特征参数组，根据该流量特征参数组的出现次数和流量数据的总数，计算出该流量特征参数组的信息熵；针对每条流量数据，根据该流量数据下所有流量特征参数组的信息熵，确定该流量数据对应的网元是否被扫描探测。

在一优选实施例中，第二检测模块430具体用于针对每条流量数据，提取出该流量数据的与第一目标流量特征对应的第一字段；针对每条流量数据，基于第一预设映射表，将提取到的第一字段进行编码，生成该条流量数据的十进制特征序列；通过训练好的隐马尔可夫模型对所有流量数据的十进制特征序列进行状态转移，以获取每个流量数据的检测值；根据每个流量数据的检测值与预设检测值的大小，确定每条流量的数据包是否存在封装异常。

在一优选实施例中，每个用户设备对应至少一个网元通信序列树，第三检测模块440通过以下方式生成每个用户设备的一个网元通信序列树：基于流量数据所形成的至少一条传输路径中的目标传输路径，目标传输路径的初始网元为该用户设备；针对目标传输路径上的每条流量数据，提取出该流量数据的与第二目标流量特征对应的第二字段；针对目标传输路径上的每条流量数据，基于第二预设映射表，将提取到的所有第二字段进行编码，生成该条流量数据的用户状态序列；针对流量数据所形成的每条传输路径，以该传输路径中的初始网元为根节点、结束网元为末端节点，构建该传输路径对应的网元通讯树；将所有用户状态序列与网元通讯树结构中对应的节点之间进行关联，以生成该用户设备的网元通讯序列树。

在一优选实施例中，第四检测模块450具体用于针对目标传输路径上的每条流量数据，统计出该条流量数据的预设字段的长度值，确定出多个流量长度特征参数值；通过训练好的分类器模型对多个流量长度特征参数值进行分类，以输出评价值，评价值用于指示目标传输路径上的目的IP与目标网元之间的匹配程度。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行如上述图1中的流量异常的检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1中的流量异常的检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种流量异常的检测方法，其特征在于，所述方法包括：

对捕获到的核心网的多条流量数据进行解析，以获取流量数据中每条流量数据的流量特征并存储；

将所有流量数据和流量特征输入扫描探测模型，以输出每条流量数据的网元扫描识别结果，所述网元扫描识别结果用于指示目标流量数据对应的目的网元是否被扫描探测；

将所有流量数据和流量特征输入参数检测模型，以输出每条流量数据的数据包检测结果，所述数据包检测结果用于指示目标流量数据的数据包是否存在封装异常；

基于所有流量数据和流量特征，生成所有用户设备的网元通信序列树；

针对每个用户设备的网元通讯序列树，将该网元通信序列树与对应的预设通讯序列树进行对比，以输出目标流量数据的路径异常检测结果。

2.根据权利要求1所述的方法，其特征在于，还包括：

将所有流量数据和流量特征输入网元识别模型，以输出网元识别结果，所述网元识别结果用于指示网元和IP之间的匹配关系。

3.根据权利要求2所述的方法，其特征在于，还包括：

根据所述网元扫描识别结果、数据包检测结果、路径异常检测结果以及网元识别结果，确定所捕获到的多条流量数据中是否存在异常流量数据量；

若存在异常流量数据，则生成异常流量报警信息；

其中，所述异常流量报警信息包括异常流量数据以及与异常流量数据的传输路径，传输路径包括源端口、源IP、目的端口、目的IP。

4.根据权利要求1所述的，其特征在于，所述将所有流量数据和流量特征输入扫描探测模型，以输出每条流量数据的网元扫描识别结果的步骤，具体包括：

针对每条流量数据，基于该流量数据的流量特征，按照预设特征格式确定出多个流量特征参数组；

针对每个流量特征参数组，根据该流量特征参数组的出现次数和流量数据的总数，计算出该流量特征参数组的信息熵；

针对每条流量数据，根据该流量数据下所有流量特征参数组的信息熵，确定该流量数据对应的网元是否被扫描探测。

5.根据权利要求1所述的方法，其特征在于，所述将所有流量数据和流量特征输入参数检测模型，以输出每条流量数据的数据包检测结果的步骤，具体包括：

针对每条流量数据，提取出该流量数据的与第一目标流量特征对应的第一字段；

针对每条流量数据，基于第一预设映射表，将提取到的第一字段进行编码，生成该条流量数据的十进制特征序列；

通过训练好的隐马尔可夫模型对所有流量数据的十进制特征序列进行状态转移，以获取每个流量数据的检测值；

根据每个流量数据的检测值与预设检测值的大小，确定每条流量的数据包是否存在封装异常。

6.根据权利要求1所述的方法，其特征在于，每个用户设备对应至少一个网元通信序列树，通过以下方式生成每个用户设备的一个网元通信序列树：

基于所述流量数据所形成的至少一条传输路径中的目标传输路径，所述目标传输路径的初始网元为该用户设备；

针对所述目标传输路径上的每条流量数据，提取出该流量数据的与第二目标流量特征对应的第二字段；

针对所述目标传输路径上的每条流量数据，基于第二预设映射表，将提取到的所有第二字段进行编码，生成该条流量数据的用户状态序列；

针对所述流量数据所形成的每条传输路径，以该传输路径中的初始网元为根节点、结束网元为末端节点，构建该传输路径对应的网元通讯树；

将所有用户状态序列与所述网元通讯树结构中对应的节点之间进行关联，以生成该用户设备的网元通讯序列树。

7.根据权利要求6所述的方法，其特征在于，所述将所有流量数据和流量特征输入网元识别模型，以输出网元识别结果的步骤，具体包括：

针对所述目标传输路径上的每条流量数据，统计出该条流量数据的预设字段的长度值，确定出多个流量长度特征参数值；

通过训练好的分类器模型对多个流量长度特征参数值进行分类，以输出评价值，所述评价值用于指示所述目标传输路径上的目的IP与目标网元之间的匹配程度。

8.一种流量异常的检测装置，其特征在于，所述装置包括：

第一检测模块，用于将所有流量数据和流量特征输入扫描探测模型，以输出每条流量数据的网元扫描识别结果，所述网元扫描识别结果用于指示目标流量数据对应的目的网元是否被扫描探测；

第二检测模块，用于将所有流量数据和流量特征输入参数检测模型，以输出每条流量数据的数据包检测结果，所述数据包检测结果用于指示目标流量数据的数据包是否存在封装异常；

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一所述流量异常的检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述流量异常的检测方法的步骤。