CN109873708A - 一种基于流量特征和kmeans聚类的资产画像方法 - Google Patents

一种基于流量特征和kmeans聚类的资产画像方法 Download PDF

Info

Publication number
CN109873708A
CN109873708A CN201711262490.2A CN201711262490A CN109873708A CN 109873708 A CN109873708 A CN 109873708A CN 201711262490 A CN201711262490 A CN 201711262490A CN 109873708 A CN109873708 A CN 109873708A
Authority
CN
China
Prior art keywords
assets
kmeans
portrait
port
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711262490.2A
Other languages
English (en)
Inventor
何庆
邓晓东
林满佳
许敬伟
冯运波
江为强
安宝宇
李蒋俨
陶彦百
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Guangdong Co Ltd
Bluedon Information Security Technologies Co Ltd
Original Assignee
China Mobile Group Guangdong Co Ltd
Bluedon Information Security Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Guangdong Co Ltd, Bluedon Information Security Technologies Co Ltd filed Critical China Mobile Group Guangdong Co Ltd
Priority to CN201711262490.2A priority Critical patent/CN109873708A/zh
Publication of CN109873708A publication Critical patent/CN109873708A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于流量特征和kmeans聚类的资产画像方法,从单个资产和资产群组两个方向对资产进行画像。单资产方面,如果资产在不正确的时间、或使用了不正确的端口、或使用了不正确的协议、或流量异常、或连接数异常、或内网访问外网,该方法都会对这行异常进行告警,从而从多个角度描述单个资产的行为特征;从资产组方面,从多个相似资产了解资产的流量信息,总结出连接数和流量数的范围,对超出范围的数据行为进行告警。

Description

一种基于流量特征和kmeans聚类的资产画像方法
技术领域
本发明属于互联网通信技术的中数据业务领域,也属于互联网通信技术的中业务支撑领域。
背景技术
资产即是计算机网络或者是通讯网络中使用的各种设备,这些设备包括但不局限于计算机、交换机、路由器和安全设备等。例如一个IP地址算是资产,一台安全设备也算是一个资产。
计算机网络是当前社会发展的热门,如何***、有效的管理企业或者是个人资产显得尤为重要,而目前通常是运维管理人员在经过长时间的使用、观察和熟悉过后,才能真正了解各个资产的特征、合理分配各个资产的资源。因此,为资产打上一组能够准确描述资产相关属性的标签,用于刻画不同资产个体或者资产组的特征,或称作资产画像,具有非常重要的意义。
现有的画像技术大都针对于用户,例如社交网站、网上购物网站等的人群画像,这些都是给用户的属性和行为打上标签。用户画像、人群画像的方法已经很成熟了,但是给资产进行画像的方法现今才刚刚起步,业内对于这一方面还处于萌芽阶段,因此急需填补这一片的空白。
本发明旨在通过从海量资产行为数据中心中炼银挖金,尽可能全面细致地抽出一个资产的行为信息全貌,从而帮助解决如何把数据转化为对资产全方位的描述。
发明内容
通过在网络节点中部署专门的安全设备日志收集设备,日志进行捕捉分析、解析日志,关联netflow等协议解析工具,提取日志中的IP地址信息、端口信息、协议类型、流量的方向、一次传输数据流中包含的数据包数量以及总字节数等特征,将其存储到Hadoop的hdfs中备用。在获取日常的流量数据后,输入到模型中,利用spark集群进行分布式计算分析,单资产的模型会得到每个资产的行为基线,资产群组会得到多个资产的流量范围。
为了实现所述目的,本发明提供的一种基于流量特征和kmeans聚类的资产画像方法技术方案如下所述:
单个资产:
步骤S1:收集原始的数据,提取的信息包含IP地址信息、端口信息、协议类型、流量的方向、一次传输数据流中包含的数据包数量以及总字节数,并将这些数据存储到Hadoop的hdfs中。
步骤S2:利用前7天的数据,将数据划分为24个时段,根据IP统计每个IP下有开放了哪些端口,每个端口下有哪些协议,汇总每个时段该IP所有端口所有协议、不同端口不同协议下的传输包数量和总字节数。
步骤S3:根据S2汇总的结果,对每个IP下每个时段的传输包和总字节数,利用3σ原则计算出每个时段传输包数和总字节数的上限,作为该IP在所有端口所有协议、不同端口不同协议下传输包数量和总字节数的流量基线。
步骤S4:在获取新的日常流量数据后,判断源地址是否存在目的IP,如果目的IP出现在源地址里面,那么报出内网访问外网异常。
步骤S5:在获取新的日常流量数据后,判断目的IP的端口是否在历史开放过的端口中,如果不存在则报出端口异常;如果存在则继续判断该端口使用的协议是否在历史开放端口所使用的协议范围内,如果不存在则报出协议异常。如果新的日常流量数据在某个端口某个协议下的传输包数量大于流量基线的传输包数量,则报出连接次数异常;如果新的日常流量数据在某个端口某个协议下的总字节数大于流量基线的总字节数,则报出流量异常。
资产群组:
步骤S1:收集原始的数据,提取的信息包含IP地址信息、端口信息、协议类型、流量的方向、一次传输耗时、一次传输数据流中包含的数据包数量以及总字节数,并将这些数据存储到Hadoop的hdfs中。
步骤S2:利用前7天的数据,将每个IP的协议分类统计使用次数,代表该IP的连接数项;将每个IP的总字节数、包数量、传输时间分类统计和,代表该IP的流量数项。
步骤S3:利用min-max的方法对连接数项和流量数项的数据进行归一化处理,根据主成分分析法(PCA)计算连接数项中,各种协议所占的权重,以及流量数中各个特征所占的权重,根据权重计算分别出每个IP连接数项和流量数项的价值。
步骤S4:利用kmeans聚类算法对资产群组进行聚类,k值由轮廓系数计算而得。根据聚类得到的结果,每个簇中的资产连接数和流量数的范围为该簇的最大距离,这样就刻画出资产在资产群组的连接数和流量数的范围。
步骤S5:当在新的一天某个资产产生了新的数据,根据步骤S2、S3得到该资产的连接数和流量数,判断该连接数和流量数是否在S4中计算的范围内,如果不在则报出连接异常数或流量数异常。
本发明技术方案带来的有益效果:
本发明相对于以往运维管理人员在经过长时间的使用、观察和熟悉过后才能真正了解各个资产的特征、合理分配各个资产资源的方式,本方案能够大大的减少时间成本和金钱成本,为企业节省大量资源;相对于以往对资产维护的方式,本发明从一个新的角度出发,利用机器学习的刻画资产的流量特征和行为方式,对资产将要发生的安全事件进行实时检测,实时发现资产可能潜在的威胁。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明提出的图;
具体实施方式
下面将结合附图,对本发明进行详细说明。所描述的详细案例仅是本发明的一部分,而不是对本发明的限制。
单个资产:
步骤S1:收集原始的数据,提取的信息包含IP地址信息、端口信息、协议类型、流量的方向、一次传输数据流中包含的数据包数量以及总字节数,并将这些数据存储到Hadoop的hdfs中。
步骤S2:利用前7天的数据,将数据划分为24个时段,根据IP统计每个IP下有开放了哪些端口,每个端口下有哪些协议,汇总每个时段该IP所有端口所有协议、不同端口不同协议下的传输包数量和总字节数。例如某个IP开放了443和80端口,在80端口下有TCP和UDP协议,那么就分别统计80端口、TCP协议下的传输包数量和总字节数,以及80端口、UDP协议下的传输包数量和总字节数。同理,443端口也如此计算。而所有端口所有协议则是统计IP下所有的传输包数量和总字节数,不再区分端口和协议。
步骤S3:根据S2汇总的结果,每个IP下每个时段的传输包和总字节数服从正态分布,根据3σ原则可知,当数据的值超过μ+3σ时,取值的概率不到0.3%,这样的取值可以称之为小概率事件,即几乎不可能发生。利用3σ原则计算出每个时段传输包数和总字节数的上限,那么传输包数和总字节数的取值范围为[0,μ+3σ],其中μ为数据的均值,σ为数据的标准差,对于一组数据x1,x2,...,xn的标准差计算方式为:
步骤S4:在获取新的日常流量数据后,判断源地址是否存在目的IP,如果目的IP出现在源地址里面,那么报出内网访问外网异常。
步骤S5:在获取新的日常流量数据后,判断目的IP的端口是否在历史开放过的端口中,如果不存在则报出端口异常;如果存在则继续判断该端口使用的协议是否在历史开放端口所使用的协议范围内,如果不存在则报出协议异常。如果新的日常流量数据在某个端口某个协议下的传输包数量不在[0,μ+3σ]范围内,则报出连接次数异常,同理流量异常以根据此判断。
资产群组:
步骤S1:收集原始的数据,提取的信息包含IP地址信息、端口信息、协议类型、流量的方向、一次传输耗时、一次传输数据流中包含的数据包数量以及总字节数,并将这些数据存储到Hadoop的hdfs中。
步骤S2:利用前7天的数据,将每个IP的协议分类统计使用次数,代表该IP的连接数项;将每个IP的总字节数、包数量、传输时间分类统计和,代表该IP的流量数项。
步骤S3:对数据利用min-max的方法进行归一化处理,即存在一组数据x1,x2,...,xn,对于任何xi都有:
而在连接数或者流量数中,不同的特征对事件的解释性不同,这里使用主成分分析法(PCA)计算不同特征对事件的权重。假设有n个变量可以用来描述对象,分别用x1,x2,...,xn表示,则第m个对象的变量为xm1,xm2,...,xmn,变量的协方差矩阵∑为:
其中μ为样本的均值。计算协方差矩阵∑得到特征根λi,对应的特征向量αi为:
累计贡献率G(m)为:
当累计贡献率G(m)在85%-95%范围是,就能反映原来变量的信息了。此时主成分载荷为:
得到各个主成分得分矩阵Z为:
则最终计算出各个变量在主成分中的权重:
则每个变量的价值valuei
valuei=ωixi
步骤S4:由步骤S3可知,每个资产都有关于连接数和流量数的价值,利用kmeans算法对所有资产的价值进行聚类,其中聚类的K值需要轮廓系数计算确定,假设某个点xi到所有它属于的簇中其它点的平均距离为ai,到它非本身所在簇的点的平均距离为bi,则改点xi的轮廓系数为:
当所有点的轮廓系数的值越趋近于1,则说明内聚度和分离度较好,可以得到一个最优的K值。则每个资产的最大连接数和最大流量数为该簇的最大距离,这样就刻画出资产在资产群组的连接数和流量数的范围。
步骤S5:当在新的一天某个资产产生了新的数据,根据步骤S2、S3得到该资产的连接数和流量数,判断该连接数和流量数是否在S4中计算的范围内,如果不在则报出连接异常数或流量数异常。
以上对本发明实施例所提供的一种基于流量特征和kmeans聚类的资产画像方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (3)

1.一种基于流量特征和kmeans聚类的资产画像方法,该发明对单个资产刻画行为基线的方式,开创式地使用端口、协议、流量等数据,结合3σ原则,从不同端口、不同协议、所有端口、所有协议等多个角度刻画单个资产的行为基线,创造性的对单个资产的流量行为进行画像。
2.根据权利要求1所述的一种基于流量特征和kmeans聚类的资产画像方法,其特征在于,对资产群组构建特征集权重的方式;资产群组利用主成分分析法构建特征集的权重,区别于现有的静态人工基于业务主观的设定权重,降低了人工主观意识对结果的影响。
3.根据权利要求1所述的一种基于流量特征和kmeans聚类的资产画像方法,其特征在于,对资产群组构建特组合特征的方式;开创式地将协议分类统计使用次数,代表该IP的连接数项;将每个IP的总字节数、包数量、传输时间分类统计和,代表该IP的流量数项,从组合的角度加强资产群组的特征行为,降低了后期单个特征对kmeans聚类的噪声影响。
CN201711262490.2A 2017-12-04 2017-12-04 一种基于流量特征和kmeans聚类的资产画像方法 Pending CN109873708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711262490.2A CN109873708A (zh) 2017-12-04 2017-12-04 一种基于流量特征和kmeans聚类的资产画像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711262490.2A CN109873708A (zh) 2017-12-04 2017-12-04 一种基于流量特征和kmeans聚类的资产画像方法

Publications (1)

Publication Number Publication Date
CN109873708A true CN109873708A (zh) 2019-06-11

Family

ID=66915611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711262490.2A Pending CN109873708A (zh) 2017-12-04 2017-12-04 一种基于流量特征和kmeans聚类的资产画像方法

Country Status (1)

Country Link
CN (1) CN109873708A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111147305A (zh) * 2019-12-30 2020-05-12 成都科来软件有限公司 一种网络资产画像提取方法
CN112685510A (zh) * 2020-12-29 2021-04-20 成都科来网络技术有限公司 一种基于全流量标签的资产标签方法、计算机程序及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160149776A1 (en) * 2014-11-24 2016-05-26 Cisco Technology, Inc. Anomaly detection in protocol processes
CN106790050A (zh) * 2016-12-19 2017-05-31 北京启明星辰信息安全技术有限公司 一种异常流量检测方法及检测***
CN107196910A (zh) * 2017-04-18 2017-09-22 国网山东省电力公司电力科学研究院 基于大数据分析的威胁预警监测***、方法及部署架构
CN107404495A (zh) * 2017-09-01 2017-11-28 北京亚鸿世纪科技发展有限公司 一种基于ip地址画像的装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160149776A1 (en) * 2014-11-24 2016-05-26 Cisco Technology, Inc. Anomaly detection in protocol processes
CN106790050A (zh) * 2016-12-19 2017-05-31 北京启明星辰信息安全技术有限公司 一种异常流量检测方法及检测***
CN107196910A (zh) * 2017-04-18 2017-09-22 国网山东省电力公司电力科学研究院 基于大数据分析的威胁预警监测***、方法及部署架构
CN107404495A (zh) * 2017-09-01 2017-11-28 北京亚鸿世纪科技发展有限公司 一种基于ip地址画像的装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许晓东 等: "基于K_means聚类的网络流量异常检测", 《无线通信技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111147305A (zh) * 2019-12-30 2020-05-12 成都科来软件有限公司 一种网络资产画像提取方法
CN112685510A (zh) * 2020-12-29 2021-04-20 成都科来网络技术有限公司 一种基于全流量标签的资产标签方法、计算机程序及存储介质
CN112685510B (zh) * 2020-12-29 2023-08-08 科来网络技术股份有限公司 一种基于全流量标签的资产标签方法、计算机程序及存储介质

Similar Documents

Publication Publication Date Title
CN108228706A (zh) 用于识别异常交易社团的方法和装置
CN109525595A (zh) 一种基于时间流特征的黑产账号识别方法及设备
CN108805391A (zh) 确定高风险用户的方法及装置
CN108629413A (zh) 神经网络模型训练、交易行为风险识别方法及装置
US11087334B1 (en) Method and system for identifying potential fraud activity in a tax return preparation system, at least partially based on data entry characteristics of tax return content
CN108429718A (zh) 账号识别方法及装置
CN110880075A (zh) 一种员工离职倾向检测方法
CN112003920B (zh) 一种信息共享***
CN105069025A (zh) 一种大数据的智能聚合可视化与管控***
CN110458376A (zh) 一种可疑风险交易筛查方法与相应***
CN111652732A (zh) 一种基于交易图匹配的比特币异常交易实体识别方法
CN109561086A (zh) 一种利用人类行为学进行反爬虫的方法
CN106130806A (zh) 数据层实时监控方法
CN114186626A (zh) 一种异常检测方法、装置、电子设备及计算机可读介质
CN113379530A (zh) 用户风险的确定方法、装置和服务器
CN106375295A (zh) 数据存储监控方法
CN109951499A (zh) 一种基于网络结构特征的异常检测方法
CN109829721A (zh) 基于异质网络表征学习的线上交易多主体行为建模方法
CN106559498A (zh) 风控数据收集平台及其收集方法
Wang et al. An unsupervised strategy for defending against multifarious reputation attacks
CN106372171B (zh) 监控平台实时数据处理方法
CN109873708A (zh) 一种基于流量特征和kmeans聚类的资产画像方法
CN109284913A (zh) 一种大数据应用管理平台
CN103699546A (zh) 一种生成网吧ip数据库的方法及装置
CN105204869B (zh) 一种通信***的数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190611