CN113743542A

CN113743542A - 一种基于加密流量的网络资产识别方法与***

Info

Publication number: CN113743542A
Application number: CN202111302660.1A
Authority: CN
Inventors: 刘东海; 徐育毅; 庞辉富
Original assignee: Hangzhou Youyun Software Co ltd; Beijing Guangtong Youyun Technology Co ltd
Current assignee: Hangzhou Youyun Software Co ltd; Beijing Guangtong Youyun Technology Co ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2021-12-03
Anticipated expiration: 2041-11-05
Also published as: CN113743542B

Abstract

本发明提供了一种基于加密流量的网络资产识别方法与***，首先获取组织中历史网络资产的信息，接下来通过人工标注网络资产的属性和必要信息，接下来使用基于加密流量的网络资产特征提取算法提取网络资产的加密流量指纹特征，接下来计算不同敏感数值下的特征准确度，最后确定模型的敏感数值，反哺到机器学习模型中，完成模型的训练，当网络资产需要更新、迭代时，使用已有模型对组织内新架构流量数据进行测绘，根据模型结果，形成网络资产分类识别结果。本发明的有益效果为：本发明基于加密流量提取生成网络资产指纹向量，再通过机器学习算法分类，实现对网络资产的自动化识别，使得网络运维人员实时深入了解本组织内的网络资产架构和动态，更方便快捷的运维。

Description

一种基于加密流量的网络资产识别方法与***

技术领域

本发明涉及IT运维***中的网络资产运维技术领域，尤其涉及一种基于加密流量的网络资产识别方法与***。

背景技术

IT运维中网络资产识别就是梳理企业组织内部全部硬件资产，当单位规模繁杂，大量业务***设备、数据库设备、网络设备、安全防护设备，会产生大量管理难题，且这些网络资产被闲置长期无人监管，容易受到网络攻击或造成安全隐患，当组织内部架构调整，网络资产更新周期来临等事件发生时，IT运维的工作巨大，传统网络中使用网络探测、指纹识别等技术进行识别，但随着加密技术的广泛应用，网络资产识别的效果不佳，急需改进。

故而，为了能够自动化，智能化的对IT***中的故障进行做信息网络资产识别，目前有一些专利试图引入人工智能算法来进行信息网络资产识别，比如专利CN109033471公开了一种信息网络资产识别方法及装置，该方法主要采用被动探测方法对流量中应用层HTTP,FTP,SMTP 等协议数据包中的特殊字段banner或IP、TCP三次握手、DHCP等协议数据包的指纹特征进行分析，从而实现对网络资产信息的被动探测。首先获取信息***中每一逻辑实体的网络资产特征数据，以此确定训练样本，并基于网络资产原始流量五元组及网络标识等特征直接构建特征向量，然后使用机器学习模型对样本进行训练，完成网络资产的识别与分类。这种方法较以往人工统计大大提升效率，且可以对逻辑层面的网络资产进行识别，但这种方法所述特征数据组合方式过于简单，没有考虑到不同网络环境下网络资产指纹特征向量归一化的问题，且没有考虑到加密流量环境下上述特征无法提取的问题，故而该方法在加密流量应用场景逐步上升的情况下，难以有效对网络资产进行全面识别。

在加密流量检测方面，CN111885083A提出了一种提取加密流量特征的方法，其通过对加密流量协议版本、可接受密码、扩展列表、椭圆曲线密码、等统计特征转换为第一特征向量，并将这些特征直接输入进后续检测的模型算法中，这种方式的问题在于在众多正常流量和异常流量之间主要关注恶意相关的流量检测建模，部分特征选取不够通用，且其需要对流量协议进行复杂解析，对性能要求极高，最重要的，该方案并未考虑用于网络资产指纹构建时的应用场景，无法针对复杂环境下的大量网络资产进行识别与运维。

随着IT基础设施的快速扩张，IT运维所管理的资产规模不断扩大，IT运维响应时效要求越来越高，比如运维中经常会存在一些由于版本变更、业务变化、代码逻辑或网络波动等带来的各种更新迁移问题，尤其是网络资产较为庞大、复杂时，重新进行摸排、清点网络资产就显得尤为困难。一旦网络资产清点与识别出现差错，将给企业带来重大的业务影响，造成巨大的业务损失。随着云时代下加密流量稳步提升，越来越多的网络资产难以通过传统非加密网络的方式进行识别，有效的做好网络资产识别是网络安全建设的基石，对于运维成熟度非常高的企业，通常会有一套有效的网络资产安全生命周期管理办法。但是，对于绝大部分企业的运维团队而言，这几乎是一项不可能完美完成的工作。同样对于部分国家政府部门或监管单位来说，其对属地网络资产监管范围太大，同样难以快速、全面、精准管理网络资产。

上述的问题引发“故障发生时，人工难以进行快速排查网络资产，更新周期来临时，网络资产的迁移变更，造成网络资产看不见，找不到，对不上”等诸多问题和痛点。首先，很多企业没有专门的网络资产管理部门负责梳理网络资产情况（实际上，即使有网络资产管理部门，通常也与安全团队各自独立，在管理过程中并不关注或极少去关注网络资产的安全状况）。其次，运维团队往往需要通过主动探测、被动流量监测、配置管理数据库（CMDB）、财务审批信息等多种网络资产识别方式的综合运用才能对网络资产信息进行全面识别。但现实情况，运维团队经常受到网络资产、人员、时间等因素掣肘，无法兼顾所有，急需一种有效的方案辅助运维团队快速识别定位管理网络资产。

发明内容

针对目前IT运维过程中，加密流量网络资产难以探测、嗅探，传统指纹识别、网络资产测绘等方法准确性低，效率低下等缺点，本发明提供了一种基于加密流量的网络资产识别方法与***。

本发明的目的是通过如下技术方案来完成的。一种基于加密流量的网络资产识别方法，首先获取组织中历史网络资产的信息，接下来通过人工标注网络资产的属性和必要信息，接下来使用基于加密流量的网络资产特征提取算法提取网络资产的加密流量指纹特征，接下来计算不同敏感数值下的特征准确度，最后确定模型的敏感数值，反哺到机器学习模型中，完成模型的训练，当网络资产需要更新、迭代时，使用已有模型对组织内新架构流量数据进行测绘，根据模型结果，形成网络资产分类识别结果。

作为优选，所述的基于加密流量的网络资产特征提取算法，首先会收集组织网络内各网络资产的加密会话数据，利用加密会话中TLS 握手原始字节的流量数据和TLS握手序列数据，构建网络资产指纹，再通过一维卷积、池化操作后，使用机器学习算法分类，实现对网络资产的自动化识别。

更进一步的，该方法具体步骤如下：

（1）、在生成网络资产指纹之前，首先应对组织机构内的流量数据进行数据清洗、检测单元划分、归一化表示这些预处理操作；网络数据清洗需要对接初始网络流量设备，在获取初始流量流后，选择在双向流的粒度上处理流量数据；

（2）、获取重组的加密流量数据流后，对加密流量进行特征向量的提取与标识；通过TLS握手原始字节的流量表示和基于TLS 记录长度序列的流量表示两种方法汇聚而成网络资产的指纹向量单一表示；

（3）、对比参数敏感性，包括TLS握手的原始字节大小和 TLS 记录的长度选择；

（4）、整合全部的训练分类过程，根据组织网络资产的标注和流量对应情况，利用指纹特征向量生成模块生成特征，完成组织内部加密流量的训练；在网络资产发生变更时对加密流量进行分类预测，确定每一个加密流量对应的网络资产类别。

所述的网络数据清洗包括滤波、拆分和重组三个步骤：

（1）、将所有未加密的会话过滤，同时也会过滤那些没有成功建立连接的加密会话，该部分流量会包括部分噪音和非正常流量；

（2）、将捕获到的连续的流量分割成独立的检测单元，每一个检测单元最终解析成一个网络五元组信息，网络五元组包括且仅包括源IP、源端口、目的IP、目的端口和协议五个类别，最终每个基本检测单元被解析成网络五元组相同的双向流数据包；

（3）、在检测单元的基础上对加密流量进行重组操作，单个TCP段可以包含多条TLS记录，同时一条TLS记录分别分布在多个TCP段中；在重组过程中，TCP会话和TLS记录将由离散的TCP段重建，当接收TCP报文时，根据TCP报文中对应的序号和方向进行重组。

本发明同时提供了一种基于设备网络行为的运维资产识别***，主要包括四个模块，流量数据清洗模块、指纹向量生成模块、敏感参数调优模块、***分类展示模块；其中，

流量数据清洗模块，用于对组织机构内的流量数据进行数据清洗、检测单元划分、归一化表示这些预处理操作；

指纹向量生成模块，用于在获取重组的加密流量数据流后，对加密流量进行特征向量的提取与标识；

敏感参数调优模块，用于对比参数敏感性，包括TLS握手的原始字节大小和 TLS记录的长度选择；

***分类展示模块，用于整合全部的训练分类过程，根据组织网络资产的标注和流量对应情况，利用指纹特征向量生成模块生成特征，完成组织内部加密流量的训练；在网络资产发生变更时对加密流量进行分类预测，确定每一个加密流量对应的网络资产类别。

本发明的有益效果为：本发明基于加密流量提取生成网络资产指纹向量，再通过机器学习算法分类，实现对网络资产的自动化识别，使得网络运维人员实时深入了解本组织内的网络资产架构和动态，更方便快捷的运维。

附图说明

图1为本发明的***结构示意图。

图2为本发明中流量数据清洗的流程示意图。

图3为本发明中对加密流量进行特征向量的提取与标识的流程示意图。

图4为本发明中敏感参数调优模块的流程示意图。

图5为本发明中***分类展示模块的流程示意图。

具体实施方式

下面将结合附图对本发明做详细的介绍：

本发明公开了一种基于加密流量分析的网络资产识别方法与***，基于加密流量提取生成网络资产指纹向量，再通过机器学习算法分类，实现对网络资产的自动化识别，使得网络运维人员实时深入了解本组织内的网络资产架构和动态，更方便快捷的运维。如图1所示，发明主要包括四个模块，流量数据清洗模块、指纹向量生成模块、敏感参数调优模块、***分类展示模块。

如图2所示，在生成网络资产指纹之前，首先应对组织机构内的流量数据进行数据清洗、检测单元划分、归一化表示等预处理操作，本发明中使用流量数据清洗模块来完成这一内容。网络数据清洗需要对接初始网络流量设备，在本发明中，不限制初始流量的来源形式，可通过核心交换机旁路镜像的方式，也可通过运营商流量牵引或直接通过主机流量截取等方式，在获取初始流量流后，我们选择在双向流的粒度上处理流量数据，即每一个检测单元都是一个共享相同五元组（即源IP、源端口、目的IP、目的端口和协议）的加密会话，在处理过程中，源和目的IP/端口可互换。这种方法充分利用了双向流表示方法在流量刻画上的独特优点：

（1）该方法可以描述客户端和服务器之间的细粒度交互行为；

（2）该方法可以将流量信息进行融合且在融合过程中不造成信息损失；

（3）该方法可以为数据流之间的相关性分析工作提供便利；

（4）该方法在分析过程中不需要聚合或划分不同的时间窗口。

具体来说，本发明使用的流量数据清洗模块包括滤波、拆分和重组三个步骤。首先，为提高本发明所处理流量的质量，本发明重点关注产生了交互的加密流量，因此会将所有未加密的会话过滤，该部分流量可采用传统网络资产指纹特征生成方法，直接识别，包括但不限于使用流量中应用层HTTP、FTP、SMTP 等协议数据包中的特殊字段banner或IP、TCP三次握手、DHCP等协议数据包的指纹特征进行分析，同时也会过滤那些没有成功建立连接的加密会话，该部分流量会包括部分噪音和非正常流量，从而减少***的内存和计算开销，在大规模网络环境下提高效率和空间使用率。

然后，将捕获到的连续的流量分割成独立的检测单元，本发明中不限分割成独立单元所使用的技术方案，可通过tcpdump、tcpreplay等公开方案也可通过科来网络回溯、深思网络回溯等商业方案完成流量单元的拆分，每一个检测单元最终解析成一个网络五元组信息，网络五元组包括且仅包括源IP、源端口、目的IP、目的端口和协议五个类别，最终每个基本检测单元被解析成网络五元组相同的双向流数据包。

最后，我们在检测单元的基础上对加密流量进行重组操作，考虑到网络流量MTU（最大传输单元）的限制和TLS（安全传输层协议）记录的多样性，单个TCP段可以包含多条TLS记录，同时一条TLS记录也可以分别分布在多个TCP段中。在重组过程中，TCP会话和TLS记录将由离散的TCP段重建，当接收TCP报文时，根据TCP报文中对应的序号和方向进行重组。本发明中不限制重组方案使用的底层实现方式，Snort、Suricata、linux内核中都有TCP重组的具体实现方案，同时，基于TCP协议的重传、乱序和丢包等问题也可以通过流量重组过程来梳理和解决。

如图3所示，获取重组的加密流量数据流后，需对加密流量进行特征向量的提取与标识，本发明中在指纹向量生成模块实现这一功能，通过TLS握手原始字节的流量表示和基于TLS 记录长度序列的流量表示两种方法汇聚而成网络资产的指纹向量单一表示。由于加密流量的有效载荷不可见，对于加密流量只能基于明文传输的握手消息和网络流量的固有统计特征（如数据包长度序列）进行特征指纹的生成。由于加密流量的特征提取工作需要大量专家知识，在复杂、混乱的大型组织内部会由于对于专家依赖性过强而无法开展。本发明中创新性的结合两种TLS标识方法，自动地学习加密会话的表示，同时对加密会话之间相关关系的考虑。基于上述考虑，在发明中，我们从两个方面对加密会话进行表征和定义。

首先基于TLS 握手原始字节的流量表示。TLS（安全传输层协议）作为SSL（安全套接字协议）的继任者为网络应用通信提供数据保密性与完整性保证，由于网络资产应用数据不可见，我们可以利用加密通信建立前协商的明文信息，也即握手阶段的TLS记录数据，在这一阶段的原始字节包含了加密通信时使用各种原始信息数据的版本、扩展、加密套件、证书等信息。由于各网络资产均具有安全性与正规性，且具有一定的证书特征和通信模式，因而可以使用 TLS握手中协商的各种字段来生成网络资产的指纹特征向量。此外，由于会话层以下的数据本身，如网络层的IP地址和传输层的各种TCP控制字段，不能有效反映加密网络流的特异性。为此，本发明中不对会话层以下的数据（网络层和传输层数据）进行处理，只保留 TLS 握手阶段的 TLS 记录的前N个字节。N的选择对检测结果至关重要，一方面，N必须足够长，保证前N个字节中包含TLS ClientHello、TLS ServerHello和部分Certificate消息；另一方面，选取的数据中尽量不要融入过多无效数据导致检测效率的降低，在本发明中可使用敏感参数调优模块来动态的根据网络拓扑生成N值，也可以通过本发明历史中曾经过大量的分析和实验，最终确定的N=1800来直接使用。相应地，单条加密会话的原始字节数据可以表示如公式（1）。

（1）

其中RawByte(i)表示第i条加密网络流，b_n ⁱ表示第i条加密记录的第n个16进制双字节，每个字节的范围是[0，255]。

在后续的处理中，我们首先利用词嵌入（embedding）操作将每个原始字节映射到固定长度的特征向量，然后使用一维卷积网络架构来对该向量进行处理，获取每个字节与其先后字节直接的上下文关联、每个字节在整段字节向量中的映射关系，通过这一操作，我们可以获取TLS握手过程中更加丰富的语义表示信息。

接下来使用基于TLS记录长度序列的流量表示，加密会话的数据包长度序列不仅可以刻画加密会话的通信模式，也可以反映其承载的应用程序类型。不同网络资产的TLS记录长度序列有很大差异。在预处理过程中，我们在使用TCP重组技术解决了网络问题导致的数据包重传和乱序问题的同时，也消除了MTU（1500）的限制还原了TLS记录，进而恢复了TLS加密会话的原貌。因此，我们利用TLS记录长度序列来代替数据包长度序列，这更适用于软件网络资产流量检测的任务。

基于上述分析，本发明选取加密会话的前M个TLS 记录长度。M的选值必须包含TLS记录中的Client Hello、ServerHello、Certificate和部分 Application Data，从而有效地反映加密会话的通信模式。在本发明中可使用敏感参数调优模块来动态的根据网络拓扑生成M值，也可使用我们经过了大量的分析和实验，最终确定的M=10。基于TLS 记录的长度序列的流量表示可以表示如公式（2）:

（2）

其中

表示第 i 条加密网络流的第 n 个 TLS 记录长度。TLS记录数据流向信息用

的符号表示：上行流量（客户端—>服务端）为正，下行流量（服务端—>客户端）为负。

此外，在建模加密会话间关系时，由于TLS 记录的长度序列可以帮助我们识别更多具有相似通信模式的相关加密会话，因此可以被应用于加密流量指纹的构建。而在检测过程中，也可以通过考虑相关加密会话差异来反映相关此类加密会话通信模式的平稳性。因此对TLS记录的长度序列进行z-score标准化，以消除不同类型加密会话记录长度的影响。

（3）

其中，l_n为标准化之后的TLS长度_，S_n与U_n为所有加密会话第n个TLS记录长度的标准差与均值。

最后在本发明中，我们聚合TLS握手原始字节特征和TLS记录长度序列特征，其中Sig（i）为最后的流量特征，RawBytes（i）为原始字节特征，Sequence（i）为TLS长度序列特征。

Sig（i）=RawBytes(i)+Sequence(i) （4）

如图4所示，在敏感参数调优模块中，本发明设计了一种对比参数敏感性的分析方法，包括TLS握手的原始字节大小和 TLS 记录的长度选择。

在现有的基于特征的工作中，Client Hello、Server Hello和Certificate三类TLS握手记录是最常用的加密流量信息，我们这里不提取特征，而是应用一维卷积神经网络从原始字节中自动学习最佳的特征表示。具体来说，TLS 握手的原始字节包含了 TLS 握手阶段为后续加密通信协商的安全参数，这是网络资产指纹生成算法中最有价值的信息。而原始字节大小决定了要利用的握手信息量。在 TLS 握手的不同原始字节大小取得了不同的性能。TLS 记录长度序列更好地反映了加密流量承载的应用程序类型和 TLS 会话的通信模式，它的影响小于原始字节大小对性能的影响。本发明中对这两种参数分别进行自适应调优，对TLS前N个字节采用300-3000字节遍历查找，步长为100，此处可选用SVM这类基础算法进行标准计算；对TLS记录同样采用遍历查找，范围是5-20，步长为1，分别遍历查找两种表示方法后选择最优数值传入分类检测模块中，用于生成最优的训练模型参数。

如图5所示，最后***分类展示模块将整合全部的训练分类过程，首先根据组织网络资产的标注和流量对应情况，利用指纹特征向量生成模块生成特征，完成组织内部加密流量的训练，接下来在网络资产发生变更时对加密流量进行分类预测，确定每一个加密流量对应的网络资产类别。本发明中同类型的网络资产均可复用，可A单位内的某一固定网络资产指纹训练模型，也可用于B单位的同类网络资产中，在越大型的组织网络中更能获得更丰富的加密流量网络资产指纹模型。

本发明采取全部已标注数据的60%作为训练数据，20%作为验证数据，20%作为测试数据的数据集划分方法，同时采用基于Python的Scikit Learn库所提供的封装分类器进行数据的分类，本发明选择了机器学***均值作为最终结果。需要说明的是，本发明所述机器学习算法不限于支持上述算法，LightGBM、XGboost算法、神经网络、自编码器算法，或者时序型循环神经网络算法均可经过适当适配使用本发明的方案。

本发明所述网络资产识别***中所包含的***分类展示模块的主要功能是：将原始的未经过处理的多维度网络资产流量信息展示到界面中，方便运维人员查看原生数据变化趋势。同时，实时对加密流量进行网络资产识别。另一方面，为了方便运维人员对算法进行调试，本***分类展示模块还可以提供交互界面，方便运维人员针对网络资产识别算法中输入不同算法的参数配置，并将该输入的参数配置保存到后端配置文件中，用于下次算法提升的参数选择。

可以理解的是，对本领域技术人员来说，对本发明的技术方案及发明构思加以等同替换或改变都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于加密流量的网络资产识别方法，其特征在于：首先获取组织中历史网络资产的信息，接下来通过人工标注网络资产的属性和必要信息，接下来使用基于加密流量的网络资产特征提取算法提取网络资产的加密流量指纹特征，接下来计算不同敏感数值下的特征准确度，最后确定模型的敏感数值，反哺到机器学习模型中，完成模型的训练，当网络资产需要更新、迭代时，使用已有模型对组织内新架构流量数据进行测绘，根据模型结果，形成网络资产分类识别结果。

2.根据权利要求1所述的基于加密流量的网络资产识别方法，其特征在于：所述的基于加密流量的网络资产特征提取算法，首先会收集组织网络内各网络资产的加密会话数据，利用加密会话中TLS 握手原始字节的流量数据和TLS握手序列数据，构建网络资产指纹，再通过一维卷积、池化操作后，使用机器学习算法分类，实现对网络资产的自动化识别。

3.根据权利要求1所述的基于加密流量的网络资产识别方法，其特征在于：该方法具体步骤如下：

4.根根据权利要求3所述的基于加密流量的网络资产识别方法，其特征在于：所述的网络数据清洗包括滤波、拆分和重组三个步骤：

（1）、将所有未加密的会话过滤，同时也会过滤那些没有成功建立连接的加密会话；

5.一种基于加密流量的网络资产识别***，其特征在于：主要包括四个模块，流量数据清洗模块、指纹向量生成模块、敏感参数调优模块、***分类展示模块；其中，

敏感参数调优模块，用于对比参数敏感性，包括TLS握手的原始字节大小和 TLS 记录的长度选择；