CN113743542A - 一种基于加密流量的网络资产识别方法与*** - Google Patents

一种基于加密流量的网络资产识别方法与*** Download PDF

Info

Publication number
CN113743542A
CN113743542A CN202111302660.1A CN202111302660A CN113743542A CN 113743542 A CN113743542 A CN 113743542A CN 202111302660 A CN202111302660 A CN 202111302660A CN 113743542 A CN113743542 A CN 113743542A
Authority
CN
China
Prior art keywords
network
flow
encrypted
network asset
organization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111302660.1A
Other languages
English (en)
Other versions
CN113743542B (zh
Inventor
刘东海
徐育毅
庞辉富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Youyun Software Co ltd
Beijing Guangtong Youyun Technology Co ltd
Original Assignee
Hangzhou Youyun Software Co ltd
Beijing Guangtong Youyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Youyun Software Co ltd, Beijing Guangtong Youyun Technology Co ltd filed Critical Hangzhou Youyun Software Co ltd
Priority to CN202111302660.1A priority Critical patent/CN113743542B/zh
Publication of CN113743542A publication Critical patent/CN113743542A/zh
Application granted granted Critical
Publication of CN113743542B publication Critical patent/CN113743542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种基于加密流量的网络资产识别方法与***,首先获取组织中历史网络资产的信息,接下来通过人工标注网络资产的属性和必要信息,接下来使用基于加密流量的网络资产特征提取算法提取网络资产的加密流量指纹特征,接下来计算不同敏感数值下的特征准确度,最后确定模型的敏感数值,反哺到机器学习模型中,完成模型的训练,当网络资产需要更新、迭代时,使用已有模型对组织内新架构流量数据进行测绘,根据模型结果,形成网络资产分类识别结果。本发明的有益效果为:本发明基于加密流量提取生成网络资产指纹向量,再通过机器学习算法分类,实现对网络资产的自动化识别,使得网络运维人员实时深入了解本组织内的网络资产架构和动态,更方便快捷的运维。

Description

一种基于加密流量的网络资产识别方法与***
技术领域
本发明涉及IT运维***中的网络资产运维技术领域,尤其涉及一种基于加密流量的网络资产识别方法与***。
背景技术
IT运维中网络资产识别就是梳理企业组织内部全部硬件资产,当单位规模繁杂,大量业务***设备、数据库设备、网络设备、安全防护设备,会产生大量管理难题,且这些网络资产被闲置长期无人监管,容易受到网络攻击或造成安全隐患,当组织内部架构调整,网络资产更新周期来临等事件发生时,IT运维的工作巨大,传统网络中使用网络探测、指纹识别等技术进行识别,但随着加密技术的广泛应用,网络资产识别的效果不佳,急需改进。
故而,为了能够自动化,智能化的对IT***中的故障进行做信息网络资产识别,目前有一些专利试图引入人工智能算法来进行信息网络资产识别,比如专利CN109033471公开了一种信息网络资产识别方法及装置,该方法主要采用被动探测方法对流量中应用层HTTP,FTP,SMTP 等协议数据包中的特殊字段banner或IP、TCP三次握手、DHCP等协议数据包的指纹特征进行分析,从而实现对网络资产信息的被动探测。首先获取信息***中每一逻辑实体的网络资产特征数据,以此确定训练样本,并基于网络资产原始流量五元组及网络标识等特征直接构建特征向量,然后使用机器学习模型对样本进行训练,完成网络资产的识别与分类。这种方法较以往人工统计大大提升效率,且可以对逻辑层面的网络资产进行识别,但这种方法所述特征数据组合方式过于简单,没有考虑到不同网络环境下网络资产指纹特征向量归一化的问题,且没有考虑到加密流量环境下上述特征无法提取的问题,故而该方法在加密流量应用场景逐步上升的情况下,难以有效对网络资产进行全面识别。
在加密流量检测方面,CN111885083A提出了一种提取加密流量特征的方法,其通过对加密流量协议版本、可接受密码、扩展列表、椭圆曲线密码、等统计特征转换为第一特征向量,并将这些特征直接输入进后续检测的模型算法中,这种方式的问题在于在众多正常流量和异常流量之间主要关注恶意相关的流量检测建模,部分特征选取不够通用,且其需要对流量协议进行复杂解析,对性能要求极高,最重要的,该方案并未考虑用于网络资产指纹构建时的应用场景,无法针对复杂环境下的大量网络资产进行识别与运维。
随着IT基础设施的快速扩张,IT运维所管理的资产规模不断扩大,IT运维响应时效要求越来越高,比如运维中经常会存在一些由于版本变更、业务变化、代码逻辑或网络波动等带来的各种更新迁移问题,尤其是网络资产较为庞大、复杂时,重新进行摸排、清点网络资产就显得尤为困难。一旦网络资产清点与识别出现差错,将给企业带来重大的业务影响,造成巨大的业务损失。随着云时代下加密流量稳步提升,越来越多的网络资产难以通过传统非加密网络的方式进行识别,有效的做好网络资产识别是网络安全建设的基石,对于运维成熟度非常高的企业,通常会有一套有效的网络资产安全生命周期管理办法。但是,对于绝大部分企业的运维团队而言,这几乎是一项不可能完美完成的工作。同样对于部分国家政府部门或监管单位来说,其对属地网络资产监管范围太大,同样难以快速、全面、精准管理网络资产。
上述的问题引发“故障发生时,人工难以进行快速排查网络资产,更新周期来临时,网络资产的迁移变更,造成网络资产看不见,找不到,对不上”等诸多问题和痛点。首先,很多企业没有专门的网络资产管理部门负责梳理网络资产情况(实际上,即使有网络资产管理部门,通常也与安全团队各自独立,在管理过程中并不关注或极少去关注网络资产的安全状况)。其次,运维团队往往需要通过主动探测、被动流量监测、配置管理数据库(CMDB)、财务审批信息等多种网络资产识别方式的综合运用才能对网络资产信息进行全面识别。但现实情况,运维团队经常受到网络资产、人员、时间等因素掣肘,无法兼顾所有,急需一种有效的方案辅助运维团队快速识别定位管理网络资产。
发明内容
针对目前IT运维过程中,加密流量网络资产难以探测、嗅探,传统指纹识别、网络资产测绘等方法准确性低,效率低下等缺点,本发明提供了一种基于加密流量的网络资产识别方法与***。
本发明的目的是通过如下技术方案来完成的。一种基于加密流量的网络资产识别方法,首先获取组织中历史网络资产的信息,接下来通过人工标注网络资产的属性和必要信息,接下来使用基于加密流量的网络资产特征提取算法提取网络资产的加密流量指纹特征,接下来计算不同敏感数值下的特征准确度,最后确定模型的敏感数值,反哺到机器学习模型中,完成模型的训练,当网络资产需要更新、迭代时,使用已有模型对组织内新架构流量数据进行测绘,根据模型结果,形成网络资产分类识别结果。
作为优选,所述的基于加密流量的网络资产特征提取算法,首先会收集组织网络内各网络资产的加密会话数据,利用加密会话中TLS 握手原始字节的流量数据和TLS握手序列数据,构建网络资产指纹,再通过一维卷积、池化操作后,使用机器学习算法分类,实现对网络资产的自动化识别。
更进一步的,该方法具体步骤如下:
(1)、在生成网络资产指纹之前,首先应对组织机构内的流量数据进行数据清洗、检测单元划分、归一化表示这些预处理操作;网络数据清洗需要对接初始网络流量设备,在获取初始流量流后,选择在双向流的粒度上处理流量数据;
(2)、获取重组的加密流量数据流后,对加密流量进行特征向量的提取与标识;通过TLS握手原始字节的流量表示和基于TLS 记录长度序列的流量表示两种方法汇聚而成网络资产的指纹向量单一表示;
(3)、对比参数敏感性,包括TLS握手的原始字节大小和 TLS 记录的长度选择;
(4)、整合全部的训练分类过程,根据组织网络资产的标注和流量对应情况,利用指纹特征向量生成模块生成特征,完成组织内部加密流量的训练;在网络资产发生变更时对加密流量进行分类预测,确定每一个加密流量对应的网络资产类别。
所述的网络数据清洗包括滤波、拆分和重组三个步骤:
(1)、将所有未加密的会话过滤,同时也会过滤那些没有成功建立连接的加密会话,该部分流量会包括部分噪音和非正常流量;
(2)、将捕获到的连续的流量分割成独立的检测单元,每一个检测单元最终解析成一个网络五元组信息,网络五元组包括且仅包括源IP、源端口、目的IP、目的端口和协议五个类别,最终每个基本检测单元被解析成网络五元组相同的双向流数据包;
(3)、在检测单元的基础上对加密流量进行重组操作,单个TCP段可以包含多条TLS记录,同时一条TLS记录分别分布在多个TCP段中;在重组过程中,TCP会话和TLS记录将由离散的TCP段重建,当接收TCP报文时,根据TCP报文中对应的序号和方向进行重组。
本发明同时提供了一种基于设备网络行为的运维资产识别***,主要包括四个模块,流量数据清洗模块、指纹向量生成模块、敏感参数调优模块、***分类展示模块;其中,
流量数据清洗模块,用于对组织机构内的流量数据进行数据清洗、检测单元划分、归一化表示这些预处理操作;
指纹向量生成模块,用于在获取重组的加密流量数据流后,对加密流量进行特征向量的提取与标识;
敏感参数调优模块,用于对比参数敏感性,包括TLS握手的原始字节大小和 TLS记录的长度选择;
***分类展示模块,用于整合全部的训练分类过程,根据组织网络资产的标注和流量对应情况,利用指纹特征向量生成模块生成特征,完成组织内部加密流量的训练;在网络资产发生变更时对加密流量进行分类预测,确定每一个加密流量对应的网络资产类别。
本发明的有益效果为:本发明基于加密流量提取生成网络资产指纹向量,再通过机器学习算法分类,实现对网络资产的自动化识别,使得网络运维人员实时深入了解本组织内的网络资产架构和动态,更方便快捷的运维。
附图说明
图1为本发明的***结构示意图。
图2为本发明中流量数据清洗的流程示意图。
图3为本发明中对加密流量进行特征向量的提取与标识的流程示意图。
图4为本发明中敏感参数调优模块的流程示意图。
图5为本发明中***分类展示模块的流程示意图。
具体实施方式
下面将结合附图对本发明做详细的介绍:
本发明公开了一种基于加密流量分析的网络资产识别方法与***,基于加密流量提取生成网络资产指纹向量,再通过机器学习算法分类,实现对网络资产的自动化识别,使得网络运维人员实时深入了解本组织内的网络资产架构和动态,更方便快捷的运维。如图1所示,发明主要包括四个模块,流量数据清洗模块、指纹向量生成模块、敏感参数调优模块、***分类展示模块。
如图2所示,在生成网络资产指纹之前,首先应对组织机构内的流量数据进行数据清洗、检测单元划分、归一化表示等预处理操作,本发明中使用流量数据清洗模块来完成这一内容。网络数据清洗需要对接初始网络流量设备,在本发明中,不限制初始流量的来源形式,可通过核心交换机旁路镜像的方式,也可通过运营商流量牵引或直接通过主机流量截取等方式,在获取初始流量流后,我们选择在双向流的粒度上处理流量数据,即每一个检测单元都是一个共享相同五元组(即源IP、源端口、目的IP、目的端口和协议)的加密会话,在处理过程中,源和目的IP/端口可互换。这种方法充分利用了双向流表示方法在流量刻画上的独特优点:
(1)该方法可以描述客户端和服务器之间的细粒度交互行为;
(2)该方法可以将流量信息进行融合且在融合过程中不造成信息损失;
(3)该方法可以为数据流之间的相关性分析工作提供便利;
(4)该方法在分析过程中不需要聚合或划分不同的时间窗口。
具体来说,本发明使用的流量数据清洗模块包括滤波、拆分和重组三个步骤。首先,为提高本发明所处理流量的质量,本发明重点关注产生了交互的加密流量,因此会将所有未加密的会话过滤,该部分流量可采用传统网络资产指纹特征生成方法,直接识别,包括但不限于使用流量中应用层HTTP、FTP、SMTP 等协议数据包中的特殊字段banner或IP、TCP三次握手、DHCP等协议数据包的指纹特征进行分析,同时也会过滤那些没有成功建立连接的加密会话,该部分流量会包括部分噪音和非正常流量,从而减少***的内存和计算开销,在大规模网络环境下提高效率和空间使用率。
然后,将捕获到的连续的流量分割成独立的检测单元,本发明中不限分割成独立单元所使用的技术方案,可通过tcpdump、tcpreplay等公开方案也可通过科来网络回溯、深思网络回溯等商业方案完成流量单元的拆分,每一个检测单元最终解析成一个网络五元组信息,网络五元组包括且仅包括源IP、源端口、目的IP、目的端口和协议五个类别,最终每个基本检测单元被解析成网络五元组相同的双向流数据包。
最后,我们在检测单元的基础上对加密流量进行重组操作,考虑到网络流量MTU(最大传输单元)的限制和TLS(安全传输层协议)记录的多样性,单个TCP段可以包含多条TLS记录,同时一条TLS记录也可以分别分布在多个TCP段中。在重组过程中,TCP会话和TLS记录将由离散的TCP段重建,当接收TCP报文时,根据TCP报文中对应的序号和方向进行重组。本发明中不限制重组方案使用的底层实现方式,Snort、Suricata、linux内核中都有TCP重组的具体实现方案,同时,基于TCP协议的重传、乱序和丢包等问题也可以通过流量重组过程来梳理和解决。
如图3所示,获取重组的加密流量数据流后,需对加密流量进行特征向量的提取与标识,本发明中在指纹向量生成模块实现这一功能,通过TLS握手原始字节的流量表示和基于TLS 记录长度序列的流量表示两种方法汇聚而成网络资产的指纹向量单一表示。由于加密流量的有效载荷不可见,对于加密流量只能基于明文传输的握手消息和网络流量的固有统计特征(如数据包长度序列)进行特征指纹的生成。由于加密流量的特征提取工作需要大量专家知识,在复杂、混乱的大型组织内部会由于对于专家依赖性过强而无法开展。本发明中创新性的结合两种TLS标识方法,自动地学习加密会话的表示,同时对加密会话之间相关关系的考虑。基于上述考虑,在发明中,我们从两个方面对加密会话进行表征和定义。
首先基于TLS 握手原始字节的流量表示。TLS(安全传输层协议)作为SSL(安全套接字协议)的继任者为网络应用通信提供数据保密性与完整性保证,由于网络资产应用数据不可见,我们可以利用加密通信建立前协商的明文信息,也即握手阶段的TLS记录数据,在这一阶段的原始字节包含了加密通信时使用各种原始信息数据的版本、扩展、加密套件、证书等信息。由于各网络资产均具有安全性与正规性,且具有一定的证书特征和通信模式,因而可以使用 TLS握手中协商的各种字段来生成网络资产的指纹特征向量。此外,由于会话层以下的数据本身,如网络层的IP地址和传输层的各种TCP控制字段,不能有效反映加密网络流的特异性。为此,本发明中不对会话层以下的数据(网络层和传输层数据)进行处理,只保留 TLS 握手阶段的 TLS 记录的前N个字节。N的选择对检测结果至关重要,一方面,N必须足够长,保证前N个字节中包含TLS ClientHello、TLS ServerHello和部分Certificate消息;另一方面,选取的数据中尽量不要融入过多无效数据导致检测效率的降低,在本发明中可使用敏感参数调优模块来动态的根据网络拓扑生成N值,也可以通过本发明历史中曾经过大量的分析和实验,最终确定的N=1800来直接使用。相应地,单条加密会话的原始字节数据可以表示如公式(1)。
Figure 915814DEST_PATH_IMAGE001
(1)
其中RawByte(i)表示第i条加密网络流,bn i表示第i条加密记录的第n个16进制双字节,每个字节的范围是[0,255]。
在后续的处理中,我们首先利用词嵌入(embedding)操作将每个原始字节映射到固定长度的特征向量,然后使用一维卷积网络架构来对该向量进行处理,获取每个字节与其先后字节直接的上下文关联、每个字节在整段字节向量中的映射关系,通过这一操作,我们可以获取TLS握手过程中更加丰富的语义表示信息。
接下来使用基于TLS记录长度序列的流量表示,加密会话的数据包长度序列不仅可以刻画加密会话的通信模式,也可以反映其承载的应用程序类型。不同网络资产的TLS记录长度序列有很大差异。在预处理过程中,我们在使用TCP重组技术解决了网络问题导致的数据包重传和乱序问题的同时,也消除了MTU(1500)的限制还原了TLS记录,进而恢复了TLS加密会话的原貌。因此,我们利用TLS记录长度序列来代替数据包长度序列,这更适用于软件网络资产流量检测的任务。
基于上述分析,本发明选取加密会话的前M个TLS 记录长度。M的选值必须包含TLS记录中的Client Hello、ServerHello、Certificate和部分 Application Data,从而有效地反映加密会话的通信模式。在本发明中可使用敏感参数调优模块来动态的根据网络拓扑生成M值,也可使用我们经过了大量的分析和实验,最终确定的M=10。基于TLS 记录的长度序列的流量表示可以表示如公式(2):
Figure 144539DEST_PATH_IMAGE002
(2)
其中
Figure 986593DEST_PATH_IMAGE003
表示第 i 条加密网络流的第 n 个 TLS 记录长度。TLS记录数据流向信息 用
Figure 194851DEST_PATH_IMAGE003
的符号表示:上行流量(客户端—>服务端)为正,下行流量(服务端—>客户端)为负。
此外,在建模加密会话间关系时,由于TLS 记录的长度序列可以帮助我们识别更多具有相似通信模式的相关加密会话,因此可以被应用于加密流量指纹的构建。而在检测过程中,也可以通过考虑相关加密会话差异来反映相关此类加密会话通信模式的平稳性。因此对TLS记录的长度序列进行z-score标准化,以消除不同类型加密会话记录长度的影响。
Figure 71540DEST_PATH_IMAGE005
(3)
其中,ln为标准化之后的TLS长度Sn与Un为所有加密会话第n个TLS记录长度的标准差与均值。
最后在本发明中,我们聚合TLS握手原始字节特征和TLS记录长度序列特征,其中Sig(i)为最后的流量特征,RawBytes(i)为原始字节特征,Sequence(i)为TLS长度序列特征。
Sig(i)=RawBytes(i)+Sequence(i) (4)
如图4所示,在敏感参数调优模块中,本发明设计了一种对比参数敏感性的分析方法,包括TLS握手的原始字节大小和 TLS 记录的长度选择。
在现有的基于特征的工作中,Client Hello、Server Hello和Certificate三类TLS握手记录是最常用的加密流量信息,我们这里不提取特征,而是应用一维卷积神经网络从原始字节中自动学习最佳的特征表示。具体来说,TLS 握手的原始字节包含了 TLS 握手阶段为后续加密通信协商的安全参数,这是网络资产指纹生成算法中最有价值的信息。而原始字节大小决定了要利用的握手信息量。在 TLS 握手的不同原始字节大小取得了不同的性能。TLS 记录长度序列更好地反映了加密流量承载的应用程序类型和 TLS 会话的通信模式,它的影响小于原始字节大小对性能的影响。本发明中对这两种参数分别进行自适应调优,对TLS前N个字节采用300-3000字节遍历查找,步长为100,此处可选用SVM这类基础算法进行标准计算;对TLS记录同样采用遍历查找,范围是5-20,步长为1,分别遍历查找两种表示方法后选择最优数值传入分类检测模块中,用于生成最优的训练模型参数。
如图5所示,最后***分类展示模块将整合全部的训练分类过程,首先根据组织网络资产的标注和流量对应情况,利用指纹特征向量生成模块生成特征,完成组织内部加密流量的训练,接下来在网络资产发生变更时对加密流量进行分类预测,确定每一个加密流量对应的网络资产类别。本发明中同类型的网络资产均可复用,可A单位内的某一固定网络资产指纹训练模型,也可用于B单位的同类网络资产中,在越大型的组织网络中更能获得更丰富的加密流量网络资产指纹模型。
本发明采取全部已标注数据的60%作为训练数据,20%作为验证数据,20%作为测试数据的数据集划分方法,同时采用基于Python的Scikit Learn库所提供的封装分类器进行数据的分类,本发明选择了机器学***均值作为最终结果。需要说明的是,本发明所述机器学习算法不限于支持上述算法,LightGBM、XGboost算法、神经网络、自编码器算法,或者时序型循环神经网络算法均可经过适当适配使用本发明的方案。
本发明所述网络资产识别***中所包含的***分类展示模块的主要功能是:将原始的未经过处理的多维度网络资产流量信息展示到界面中,方便运维人员查看原生数据变化趋势。同时,实时对加密流量进行网络资产识别。另一方面,为了方便运维人员对算法进行调试,本***分类展示模块还可以提供交互界面,方便运维人员针对网络资产识别算法中输入不同算法的参数配置,并将该输入的参数配置保存到后端配置文件中,用于下次算法提升的参数选择。
可以理解的是,对本领域技术人员来说,对本发明的技术方案及发明构思加以等同替换或改变都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.一种基于加密流量的网络资产识别方法,其特征在于:首先获取组织中历史网络资产的信息,接下来通过人工标注网络资产的属性和必要信息,接下来使用基于加密流量的网络资产特征提取算法提取网络资产的加密流量指纹特征,接下来计算不同敏感数值下的特征准确度,最后确定模型的敏感数值,反哺到机器学习模型中,完成模型的训练,当网络资产需要更新、迭代时,使用已有模型对组织内新架构流量数据进行测绘,根据模型结果,形成网络资产分类识别结果。
2.根据权利要求1所述的基于加密流量的网络资产识别方法,其特征在于:所述的基于加密流量的网络资产特征提取算法,首先会收集组织网络内各网络资产的加密会话数据,利用加密会话中TLS 握手原始字节的流量数据和TLS握手序列数据,构建网络资产指纹,再通过一维卷积、池化操作后,使用机器学习算法分类,实现对网络资产的自动化识别。
3.根据权利要求1所述的基于加密流量的网络资产识别方法,其特征在于:该方法具体步骤如下:
(1)、在生成网络资产指纹之前,首先应对组织机构内的流量数据进行数据清洗、检测单元划分、归一化表示这些预处理操作;网络数据清洗需要对接初始网络流量设备,在获取初始流量流后,选择在双向流的粒度上处理流量数据;
(2)、获取重组的加密流量数据流后,对加密流量进行特征向量的提取与标识;通过TLS握手原始字节的流量表示和基于TLS 记录长度序列的流量表示两种方法汇聚而成网络资产的指纹向量单一表示;
(3)、对比参数敏感性,包括TLS握手的原始字节大小和 TLS 记录的长度选择;
(4)、整合全部的训练分类过程,根据组织网络资产的标注和流量对应情况,利用指纹特征向量生成模块生成特征,完成组织内部加密流量的训练;在网络资产发生变更时对加密流量进行分类预测,确定每一个加密流量对应的网络资产类别。
4.根根据权利要求3所述的基于加密流量的网络资产识别方法,其特征在于:所述的网络数据清洗包括滤波、拆分和重组三个步骤:
(1)、将所有未加密的会话过滤,同时也会过滤那些没有成功建立连接的加密会话;
(2)、将捕获到的连续的流量分割成独立的检测单元,每一个检测单元最终解析成一个网络五元组信息,网络五元组包括且仅包括源IP、源端口、目的IP、目的端口和协议五个类别,最终每个基本检测单元被解析成网络五元组相同的双向流数据包;
(3)、在检测单元的基础上对加密流量进行重组操作,单个TCP段可以包含多条TLS记录,同时一条TLS记录分别分布在多个TCP段中;在重组过程中,TCP会话和TLS记录将由离散的TCP段重建,当接收TCP报文时,根据TCP报文中对应的序号和方向进行重组。
5.一种基于加密流量的网络资产识别***,其特征在于:主要包括四个模块,流量数据清洗模块、指纹向量生成模块、敏感参数调优模块、***分类展示模块;其中,
流量数据清洗模块,用于对组织机构内的流量数据进行数据清洗、检测单元划分、归一化表示这些预处理操作;
指纹向量生成模块,用于在获取重组的加密流量数据流后,对加密流量进行特征向量的提取与标识;
敏感参数调优模块,用于对比参数敏感性,包括TLS握手的原始字节大小和 TLS 记录的长度选择;
***分类展示模块,用于整合全部的训练分类过程,根据组织网络资产的标注和流量对应情况,利用指纹特征向量生成模块生成特征,完成组织内部加密流量的训练;在网络资产发生变更时对加密流量进行分类预测,确定每一个加密流量对应的网络资产类别。
CN202111302660.1A 2021-11-05 2021-11-05 一种基于加密流量的网络资产识别方法与*** Active CN113743542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111302660.1A CN113743542B (zh) 2021-11-05 2021-11-05 一种基于加密流量的网络资产识别方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111302660.1A CN113743542B (zh) 2021-11-05 2021-11-05 一种基于加密流量的网络资产识别方法与***

Publications (2)

Publication Number Publication Date
CN113743542A true CN113743542A (zh) 2021-12-03
CN113743542B CN113743542B (zh) 2022-03-01

Family

ID=78727534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111302660.1A Active CN113743542B (zh) 2021-11-05 2021-11-05 一种基于加密流量的网络资产识别方法与***

Country Status (1)

Country Link
CN (1) CN113743542B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422174A (zh) * 2021-12-09 2022-04-29 绿盟科技集团股份有限公司 一种网络流量过滤方法、装置、介质、产品和设备
CN114553939A (zh) * 2022-04-25 2022-05-27 北京广通优云科技股份有限公司 一种it智能运维***中基于加密流量的资源稳定切换方法
CN115174147A (zh) * 2022-06-01 2022-10-11 中国科学院信息工程研究所 基于对抗扰动的实时网络连接隐私保护方法和***
CN115242463A (zh) * 2022-06-30 2022-10-25 北京华顺信安科技有限公司 一种网络资产动态变更监测方法、***及计算机设备
CN115589362A (zh) * 2022-12-08 2023-01-10 中国电子科技网络信息安全有限公司 设备类型指纹的生成方法及识别方法、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016010872A1 (en) * 2014-07-16 2016-01-21 Microsoft Technology Licensing, Llc Recognition of behavioural changes of online services
CN105871832A (zh) * 2016-03-29 2016-08-17 北京理工大学 一种基于协议属性的网络应用加密流量识别方法及其装置
CN109726763A (zh) * 2018-12-29 2019-05-07 北京神州绿盟信息安全科技股份有限公司 一种信息资产识别方法、装置、设备及介质
CN110909224A (zh) * 2019-11-22 2020-03-24 浙江大学 一种基于人工智能的敏感数据自动分类识别方法及***
CN110991509A (zh) * 2019-11-25 2020-04-10 杭州安恒信息技术股份有限公司 基于人工智能技术的资产识别与信息分类方法
CN112671757A (zh) * 2020-12-22 2021-04-16 无锡江南计算技术研究所 一种基于自动机器学习的加密流量协议识别方法及装置
CN113162908A (zh) * 2021-03-04 2021-07-23 中国科学院信息工程研究所 一种基于深度学习的加密流量检测方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016010872A1 (en) * 2014-07-16 2016-01-21 Microsoft Technology Licensing, Llc Recognition of behavioural changes of online services
CN105871832A (zh) * 2016-03-29 2016-08-17 北京理工大学 一种基于协议属性的网络应用加密流量识别方法及其装置
CN109726763A (zh) * 2018-12-29 2019-05-07 北京神州绿盟信息安全科技股份有限公司 一种信息资产识别方法、装置、设备及介质
CN110909224A (zh) * 2019-11-22 2020-03-24 浙江大学 一种基于人工智能的敏感数据自动分类识别方法及***
CN110991509A (zh) * 2019-11-25 2020-04-10 杭州安恒信息技术股份有限公司 基于人工智能技术的资产识别与信息分类方法
CN112671757A (zh) * 2020-12-22 2021-04-16 无锡江南计算技术研究所 一种基于自动机器学习的加密流量协议识别方法及装置
CN113162908A (zh) * 2021-03-04 2021-07-23 中国科学院信息工程研究所 一种基于深度学习的加密流量检测方法及***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422174A (zh) * 2021-12-09 2022-04-29 绿盟科技集团股份有限公司 一种网络流量过滤方法、装置、介质、产品和设备
CN114422174B (zh) * 2021-12-09 2023-07-25 绿盟科技集团股份有限公司 一种网络流量过滤方法、装置、介质和设备
CN114553939A (zh) * 2022-04-25 2022-05-27 北京广通优云科技股份有限公司 一种it智能运维***中基于加密流量的资源稳定切换方法
CN114553939B (zh) * 2022-04-25 2022-07-19 北京广通优云科技股份有限公司 一种it智能运维***中基于加密流量的资源稳定切换方法
CN115174147A (zh) * 2022-06-01 2022-10-11 中国科学院信息工程研究所 基于对抗扰动的实时网络连接隐私保护方法和***
CN115174147B (zh) * 2022-06-01 2024-05-07 中国科学院信息工程研究所 基于对抗扰动的实时网络连接隐私保护方法和***
CN115242463A (zh) * 2022-06-30 2022-10-25 北京华顺信安科技有限公司 一种网络资产动态变更监测方法、***及计算机设备
CN115589362A (zh) * 2022-12-08 2023-01-10 中国电子科技网络信息安全有限公司 设备类型指纹的生成方法及识别方法、设备及介质
CN115589362B (zh) * 2022-12-08 2023-03-14 中国电子科技网络信息安全有限公司 设备类型指纹的生成方法及识别方法、设备及介质

Also Published As

Publication number Publication date
CN113743542B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN113743542B (zh) 一种基于加密流量的网络资产识别方法与***
Hu et al. GANFuzz: A GAN-based industrial network protocol fuzzing framework
CN112104570B (zh) 流量分类方法、装置、计算机设备和存储介质
Sija et al. A survey of automatic protocol reverse engineering approaches, methods, and tools on the inputs and outputs view
CN112073242A (zh) 一种网络协议模糊测试用例的生成及应用方法
Yu et al. An encrypted malicious traffic detection system based on neural network
JP2023530828A (ja) ネットワーク・トラフィック・パターンにおける違反および攻撃実行の高速識別
CN111147394A (zh) 一种远程桌面协议流量行为的多级分类检测方法
CN113923026A (zh) 一种基于TextCNN的加密恶意流量检测模型及其构建方法
US11093367B2 (en) Method and system for testing a system under development using real transaction data
Muhati et al. Asynchronous advantage actor-critic (a3c) learning for cognitive network security
CN114866310A (zh) 一种恶意加密流量检测方法、终端设备及存储介质
CN110858837B (zh) 一种网络管控方法、装置以及电子设备
CN115051874B (zh) 一种多特征的cs恶意加密流量检测方法和***
Abdalla et al. Log File Analysis Based on Machine Learning: A Survey: Survey
Gonzalez-Granadillo et al. An improved live anomaly detection system (i-lads) based on deep learning algorithm
Whalen et al. Hidden markov models for automated protocol learning
CN113177203B (zh) 一种识别加密恶意报文流的方法及装置
Zhou et al. Classification of botnet families based on features self-learning under network traffic censorship
Said et al. Attention-based CNN-BiLSTM deep learning approach for network intrusion detection system in software defined networks
CN107566187B (zh) 一种sla违例监测方法、装置和***
Naukudkar et al. Enhancing performance of security log analysis using correlation-prediction technique
CN114679308B (zh) 一种基于双路自编码的未知流量识别方法及***
Hohum et al. Scottishfold: Catboost-enabled lightweight autonomous smart home device classification
CN116668085B (zh) 基于lightGBM的流量多进程入侵检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant