CN103780588A - 数字家庭网络中用户异常行为检测方法 - Google Patents

数字家庭网络中用户异常行为检测方法 Download PDF

Info

Publication number
CN103780588A
CN103780588A CN201210407885.8A CN201210407885A CN103780588A CN 103780588 A CN103780588 A CN 103780588A CN 201210407885 A CN201210407885 A CN 201210407885A CN 103780588 A CN103780588 A CN 103780588A
Authority
CN
China
Prior art keywords
user
training
behavior
sample
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210407885.8A
Other languages
English (en)
Inventor
李祺
李钊
徐国爱
杨义先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201210407885.8A priority Critical patent/CN103780588A/zh
Publication of CN103780588A publication Critical patent/CN103780588A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

数字家庭网络中用户异常行为检测方法,操作步骤如下:(1)进行网络数据采集,对当前用户的网络行为进行相应的特征提取;(2)在所提取的特征的基础上进行粗粒度的异常行为检测;(3)先采用离线训练方式,用基于迁移学习的方法建立用户正常行为模型,在根据训练好的正常行为模型,用在线测试的方式判断当前的用户行为是否为异常事件。

Description

数字家庭网络中用户异常行为检测方法
技术领域
本发明涉及一种数字家庭网络中用户的异常行为检测方法,确切地说,涉及一种基于迁移学习的网络用户异常行为检测方法,属于网络信息的用户行为分析及其应用的信息安全技术领域。
背景技术
随着网络技术和应用的飞速发展,互联网日益呈现出复杂、异构等特点,当前的网络体系结构暴露出严重的不足,网络正面临着严峻的信息安全和服务质量保障等重大挑战。通过对用户行为进行分析和审计来评估以及保证互联网安全问题已经成为国内外研究界的共识,其中,如何对用户异常行为进行判断是该领域的一个研究热点。
用户异常行为分析方法大体分为两大类。其中一类是基于静态参数归纳的方法,首先提取用户每一时刻行为的特征参数,然后把这些特征中的设定字段与相应的阈值进行比较,从而判定该行为是否异常。另一类是基于动态行为分析的方法,首先需要选取大量的样本对各种用户行为分别进行训练,确定模型参数,然后利用已经建立好的模型对用户行为进行分类最终确定是否为异常行为。
基于静态参数归纳的方法具有简单、直观的优点。在这类方法中,特征参数以及其比对参数的选取尤为重要。近几年来,针对用户异常行为检测这一问题,研究者们提出了多种行为比对参数及其组合结果。如正常链接库、正常业务库、正常流量阈值等都被逐渐应用到异常行为检测技术中。此外,还有部分工作通过将几种特征结合起来进行判定,对用户行为的判断也由原来的单一匹配发展到多元匹配。
但是基于静态参数归纳的方法对于不同的对象,需要选定不同的阈值范围,因而不具备普遍性。此外,基于静态参数归纳的判断方法只能实现用户行为的粗层次识别,不便于根据用户的行为习惯进行动态调整。
基于动态行为分析的方法类似于模式识别领域的基于统计模型的判定。基于动态行为分析的方法要求事先给出一批具有类标记的训练样本,通过有指导的学习训练来生成行为分析器,进而对测试样本集合中的待分类样本进行分类。
但是,基于动态行为分析的方法极大程度的依赖于训练样本的完备性。随着网络技术的不断发展,以及网络业务的不断更新,用户数量不断增加,用户行为也随着新业务的推出而不断的发生变化。已有的样本库已经不能满足用户数量的增长以及用户行为的变化。如何充分的利用已有的样本,即利用现有行为样本对新加入的用户行为进行准确建模,或者利用已知用户的历史行为样本建立其变更后的行为模型,是用户异常检测过程中急需解决的问题。
目前较典型的动态行为分析算法主要包括最小参数检测法、决策树方法、隐马尔科夫模型法和支持向量机方法等。
最小参数间距法的优点是概念直观、方法简单,有利于建立多维空间分类方法的几何概念。在行为分类中应用的最小参数间距分类法主要有k近邻方法(k-Nearest Neighbor,k-NN)和最近特征线方法(Nearest Feature Line)等。
k近邻方法的思想是根据未知样本X最近邻的k个样本中多数点的类别来判定X的类别。为此需要计算X与所有样本Xi的距离,并从中选出距离最小的k个样本作为近邻样本集合k-NN,计算其中所有属于类别Wj的距离之和,并且根据如下规则进行分类:
C ( X ) = arg min W j ∈ C Σ X i ∈ k d ( X , X i ) NN , C ( X i ) = W j
其中,C为类别集合C=(W1,W2,...,Wn)。
当k=1时,k近邻方法就退化为最近邻方法。由于k近邻方法利用了更多的样本信息确定类别,所以k取大一些有利于减少噪声的影响。但是,由于k近邻方法需要计算所有样本的距离,因此,当样本数目非常大时,其计算量就相当可观。
决策树本质上其实是一种结构简单、搜索效率高的分类器。决策树分类方法以信息论为基础,对大量的实例选择重要的特征,建立决策树。
但是,决策树方法在多个类别区域存在覆盖现象,尤其是在类别数目非常多时,其存储和计算代价会过大,并且上层的分类错误会累积到下一层,从而形成“雪球”效应。
隐马尔科夫模型起源于20世纪60年代后期,属于信号统计理论模型,能够很好地处理随机时序数据识别与预测。HMM本质上是一种双重随机过程有限状态自动机,其中的双重随机过程之一是指满足Markov分布的状态转换Markov链,这是基本的随机过程,主要描述状态转移;另一个随机过程描述每一个状态和观察值之间的统计对应关系,即状态的观察输出概率密度函数。
支持向量机(Support Vector Machine,SVM)最初来自于对二值分类问题的处理,即在样本空间中,寻找一个能够将训练集中的正例和反例样本分割开来的超平面,并使其两侧的间隔最大。SVM利用二次规划方法将输入数据通过核函数映射到更高维空间,从而解决了线性不可分问题。
当用户行为参数较多时,我们可以对支持向量机法进行扩展,采取二次规划方法将输入的行为数据通过核函数映射到更高维空间,在用户特征维数较低时解决线性不可分问题。
但是,支持向量机法的训练时间比较长,并且要不断地调整以选取合适的核函数和参数。
发明内容
有鉴于此,本发明的目的是提供数字家庭网络中用户异常行为检测方法,使用该方法检测用户异常行为时,我们只需要利用较少的即时样本,在不浪费大量历史样本的前提下,就能够取得较好的检测效果,所以使用该方法分析用户异常行为时,更加全面和有效。
为了达到上述目的,本发明提供了一种基于迁移学习的用户异常行为检测的方法,其特征在于,所述方法包括下述操作步骤:
(1)进行网络数据采集,对当前用户的网络行为进行相应的特征提取;
(2)在所提取的特征的基础上进行粗粒度的异常行为检测;
(3)先采用离线训练方式,用基于迁移学习的方法建立用户正常行为模型,在根据训练好的正常行为模型,用在线测试的方式判断当前的用户行为是否为异常事件。
其中,所述步骤(1)进一步包括下列操作内容:
(11)流量捕获:从***硬件平台网卡上获取数据流量,对流量进行整形处理,进而进行下一步操作;
(12)利用深度包检测技术(Deep Packet Inspection,DPI)提取所捕获的流量的五元组信息,其中,五元组信息包括:源地址、目的地址、源端口号、目的端口号、协议类型;
(13)在五元组序列的基础上提取用户行为特征。其中,用户行为特征的提取是业界经常涉及的方法,本发明在这特征提取上没有进行独立创新。
所述步骤(2),主要特征为:
目前,本领域有多种粗粒度的用户异常行为检测方法,例如:根据***将用户访问特定网站的行为判定为异常行为;根据数据流量,将流量超出一定阈值的行为判定为异常行为等。在粗粒度用户行为检测这一方面,本发明没有进行独立创新。
所述步骤(3),具体包括如下操作内容
(31)采用离线训练的方式,采集训练样本,构成训练样本集合,将训练样本分为两类,即与测试样本分布不同的一类和与测试样本分布相同的一类;
具体包括如下操作:
设收集的样本集表示为混T={(xi,c(xi))}。
本发明中,训练样本集合由两个被标记的样本集构成,这两个样本集分别记为Td和Ts
表示历史样本集合,即与测试数据不同分布的样本集。
Figure BSA00000793576900052
表示即时样本集,即与测试数据同分布的样本集。
由此可知,
x i = x i d , i = 1 , . . . , n ; x i s , i = n + 1 , . . . , n + m .
上式中式n和m分别表示样本集Td和Ts的大小,c(x)指出了样本的类别
(32)采用离线训练的方式,基于训练样本集合,利用弱分类器(对弱分类器类型不加限定)作为基分类器,使得每一个用户特征对应于一个基分类器。
(33)采用离线训练的方式,利用TrAdaBoost方法,计算弱分类器的加权系数,形成TrAdaBoost分类器。
(331)训练权值初始化
Figure BSA00000793576900055
其中,
Figure BSA00000793576900056
表示第i个基分类器在第一轮时的权重值大小;
(332)权重值迭代计算,设共需要进行N轮迭代,则迭代过程为:
Figure BSA00000793576900061
(34)采用在线测试的方式,将用户行为特征参数输入到训练好的TrAdaboost分类器,判断当前用户行为是否为异常行为。
Figure BSA00000793576900062
本发明是数字家庭网络中用户异常行为检测方法,它在技术上的创新主要是从历史样本与测试样本不同分布的角度出发,通过较少的即时样本和已有的历史样本建立模型。弥补了以往的建立模型时即时样本数量不够所导致的训练不够全面的问题,下面进行详细的说明。
现有的技术在进行用户异常行为检测的过程中,通常假设测试样本同历史样本是同分布的。但是,随着网络技术的不断发展,以及网络业务的不断更新,用户数量不断增加,用户行为也随着新业务的推出而不断的发生变化。已有的样本库已经不能满足用户数量的增长以及用户行为的变化。如何充分的利用已有的样本,即利用现有行为样本对新加入的用户行为进行准确建模,或者利用已知用户的历史行为样本建立其变更后的行为模型,是用户异常检测过程中急需解决的问题。
附图说明
图1是本发明基于迁移学习的用户异常行为检测的操作步骤流程图。
图2是本发明是实验部署图
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例的试验情况对本发明作进一步的详细描述。
本发明是数字家庭网络中用户异常行为检测方法,该方法操作步骤如下:(1)进行网络数据采集,对当前用户的网络行为进行相应的特征提取;(2)在所提取的特征的基础上进行粗粒度的异常行为检测;(3)先采用离线训练方式,用基于迁移学习的方法建立用户正常行为模型,在根据训练好的正常行为模型,用在线测试的方式判断当前的用户行为是否为异常事件。
本发明在分析是否有用户异常行为发生时,能克服现有技术中要求测试样本与历史样本同分布的不足之处。
参见图1,说明本发明的操作步骤以及本发明的实施例和仿真情况:
(1)进行网络数据采集,对当前用户的网络行为进行相应的特征提取;
(2)在所提取的特征的基础上进行粗粒度的异常行为检测;
(3)先采用离线训练方式,用基于迁移学习的方法建立用户正常行为模型,在根据训练好的正常行为模型,用在线测试的方式判断当前的用户行为是否为异常事件。
其中,所述步骤(1)进一步包括下列操作内容:
(11)流量捕获:从***硬件平台网卡上获取数据流量,对流量进行整形处理,进而进行下一步操作;
(12)利用深度包检测技术(Deep Packet Inspection,DPI)提取所捕获的流量的五元组信息,其中,五元组信息包括:源地址、目的地址、源端口号、目的端口号、协议类型;
(13)在五元组序列的基础上提取用户行为特征。其中,用户行为特征的提取是业界经常涉及的方法,本发明在这特征提取上没有进行独立创新。
所述步骤(2),主要特征为:
目前,本领域有多种粗粒度的用户异常行为检测方法,例如:根据***将用户访问特定网站的行为判定为异常行为;根据数据流量,将流量超出一定阈值的行为判定为异常行为等。在粗粒度用户行为检测这一方面,本发明没有进行独立创新。
所述步骤(3),具体包括如下操作内容
(31)采用离线训练的方式,采集训练样本,构成训练样本集合,将训练样本分为两类,即与测试样本分布不同的一类和与测试样本分布相同的一类;
具体包括如下操作:
设收集的样本集表示为混T={(xi,c(xi))}。
本发明中,训练样本集合由两个被标记的样本集构成,这两个样本集分别记为Td和Ts
Figure BSA00000793576900081
表示历史样本集合,即与测试数据不同分布的样本集。
Figure BSA00000793576900082
表示即时样本集,即与测试数据同分布的样本集。
由此可知,
x i = x i d , i = 1 , . . . , n ; x i s , i = n + 1 , . . . , n + m .
上式中式n和m分别表示样本集Td和Ts的大小,c(x)指出了样本的类别
Figure BSA00000793576900092
(32)采用离线训练的方式,基于训练样本集合,利用弱分类器(对弱分类器类型不加限定)作为基分类器,使得每一个用户特征对应于一个基分类器。
(33)采用离线训练的方式,利用TrAdaBoost方法,计算弱分类器的加权系数,形成TrAdaBoost分类器。
(331)训练权值初始化
Figure BSA00000793576900093
其中,
Figure BSA00000793576900094
表示第i个基分类器在第一轮时的权重值大小;
(332)权重值迭代计算,设共需要进行N轮迭代,则迭代过程为:
Figure BSA00000793576900095
Figure BSA00000793576900101
(34)采用在线测试的方式,将用户行为特征参数输入到训练好的TrAdaboost分类器,判断当前用户行为是否为异常行为。
Figure BSA00000793576900102
总之,本发明的仿真实施例的试验是成功的,实现了发明目的。

Claims (7)

1.数字家庭网络中用户异常行为检测方法,其特征在于,所述方法包括下述操作步骤:
(1)进行网络数据采集,对当前用户的网络行为进行相应的特征提取;
(2)在所提取的特征的基础上进行粗粒度的异常行为检测;
(3)先采用离线训练方式,用基于迁移学习的方法建立用户正常行为模型,在根据训练好的正常行为模型,用在线测试的方式判断当前的用户行为是否为异常事件。
2.根据权利要求1所述的方法,其特征在于:
所述步骤(1)进一步包括下列操作内容:
(11)流量捕获:从***硬件平台网卡上获取数据流量,对流量进行整形处理,进而进行下一步操作;
(12)利用深度包检测技术(Deep Packet Inspection,DPI)提取所捕获的流量的五元组信息,其中,五元组信息包括:源地址、目的地址、源端口号、目的端口号、协议类型;
(13)在五元组序列的基础上提取用户行为特征。其中,用户行为特征的提取是业界经常涉及的方法,本发明在这特征提取上没有进行独立创新。
3.根据权利要求1所述的方法,其特征在于:
所述步骤(2),粗粒度的用户异常行为检测,其主要特征为:
目前,本领域有多种粗粒度的用户异常行为检测方法,例如:根据***将用户访问特定网站的行为判定为异常行为;根据数据流量,将流量超出一定阈值的行为判定为异常行为等。在粗粒度用户行为检测这一方面,本发明没有进行独立创新。
4.根据权利要求1所述的方法,其特征在于
所述步骤(3),具体包括如下操作内容 
(31)采用离线训练的方式,采集训练样本,构成训练样本集合,将训练样本分为两类,即与测试样本分布不同的一类和与测试样本分布相同的一类;
(32)采用离线训练的方式,基于训练样本集合,利用弱分类器(对弱分类器类型不加限定)作为基分类器,使得每一个用户特征对应于一个基分类器。
(33)采用离线训练的方式,利用TrAdaBoost方法,计算弱分类器的加权系数,形成TrAdaBoost分类器。
(34)采用在线测试的方式,将用户行为特征参数输入到训练好的TrAdaboost分类器,判断当前用户行为是否为异常行为。
5.根据权利要求4所述方法,其特征在于
所述步骤(31),具体包括如下操作:
设收集的样本集表示为混T={(xi,c(xi))}。
本发明中,训练样本集合由两个被标记的样本集构成,这两个样本集分别记为Td和Ts
Figure FSA00000793576800021
表示历史样本集合,即与测试数据不同分布的样本集。
Figure FSA00000793576800022
表示即时样本集,即与测试数据同分布的样本集。
由此可知,
上式中式n和m分别表示样本集Td和Ts的大小,c(x)指出了样本的类别
Figure FSA00000793576800024
6.根据权利要求4所述方法,其特征在于:
所述步骤(33),利用TrAdaBoost方法,计算弱分类器的加权系数,形成TrAdaBoost分类器,其具体操作包括如下步骤:
(331)训练权值初始化 
Figure FSA00000793576800025
其中, 
Figure FSA00000793576800031
表示第i个基分类器在第一轮时的权重值大小;
(332)权重值迭代计算,设共需要进行N轮迭代,则迭代过程为:
Figure FSA00000793576800032
7.根据权利要求4所述方法,其特征在于:
所述步骤(34),采用在线测试的方式,将用户行为特征参数输入到训练好的TrAdaboost分类器,判断当前用户行为是否为异常行为,其具体操作为:
Figure FSA00000793576800033
CN201210407885.8A 2012-10-24 2012-10-24 数字家庭网络中用户异常行为检测方法 Pending CN103780588A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210407885.8A CN103780588A (zh) 2012-10-24 2012-10-24 数字家庭网络中用户异常行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210407885.8A CN103780588A (zh) 2012-10-24 2012-10-24 数字家庭网络中用户异常行为检测方法

Publications (1)

Publication Number Publication Date
CN103780588A true CN103780588A (zh) 2014-05-07

Family

ID=50572421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210407885.8A Pending CN103780588A (zh) 2012-10-24 2012-10-24 数字家庭网络中用户异常行为检测方法

Country Status (1)

Country Link
CN (1) CN103780588A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485188A (zh) * 2015-08-27 2017-03-08 桂林信通科技有限公司 一种工业用交换机用户异常行为检测方法
CN106934462A (zh) * 2017-02-09 2017-07-07 华南理工大学 基于迁移的对抗性环境下的防御毒化攻击的学习方法
CN107276983A (zh) * 2017-05-12 2017-10-20 西安电子科技大学 一种基于dpi和云同步的流量安全控制方法及***
CN109962789A (zh) * 2017-12-14 2019-07-02 中国电信股份有限公司 基于网络数据构建物联网应用标签体系的方法和装置
CN110445808A (zh) * 2019-08-26 2019-11-12 杭州迪普科技股份有限公司 异常流量攻击防护方法、装置、电子设备
CN110943874A (zh) * 2018-09-21 2020-03-31 ***通信有限公司研究院 一种家庭宽带网络的故障检测方法、装置和可读介质
CN111953504A (zh) * 2019-05-15 2020-11-17 中国电信股份有限公司 异常流量检测方法和装置、计算机可读存储介质
CN115102736A (zh) * 2022-06-15 2022-09-23 天津市国瑞数码安全***股份有限公司 一种基于模式识别的网络安全评估的方法和***
CN117909912A (zh) * 2024-03-19 2024-04-19 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种两阶段异常用户行为分析的检测方法及***

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485188A (zh) * 2015-08-27 2017-03-08 桂林信通科技有限公司 一种工业用交换机用户异常行为检测方法
CN106934462A (zh) * 2017-02-09 2017-07-07 华南理工大学 基于迁移的对抗性环境下的防御毒化攻击的学习方法
CN107276983A (zh) * 2017-05-12 2017-10-20 西安电子科技大学 一种基于dpi和云同步的流量安全控制方法及***
CN109962789A (zh) * 2017-12-14 2019-07-02 中国电信股份有限公司 基于网络数据构建物联网应用标签体系的方法和装置
CN110943874A (zh) * 2018-09-21 2020-03-31 ***通信有限公司研究院 一种家庭宽带网络的故障检测方法、装置和可读介质
CN111953504A (zh) * 2019-05-15 2020-11-17 中国电信股份有限公司 异常流量检测方法和装置、计算机可读存储介质
CN111953504B (zh) * 2019-05-15 2023-03-24 中国电信股份有限公司 异常流量检测方法和装置、计算机可读存储介质
CN110445808A (zh) * 2019-08-26 2019-11-12 杭州迪普科技股份有限公司 异常流量攻击防护方法、装置、电子设备
CN115102736A (zh) * 2022-06-15 2022-09-23 天津市国瑞数码安全***股份有限公司 一种基于模式识别的网络安全评估的方法和***
CN115102736B (zh) * 2022-06-15 2024-04-26 天津市国瑞数码安全***股份有限公司 一种基于模式识别的网络安全评估的方法和***
CN117909912A (zh) * 2024-03-19 2024-04-19 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种两阶段异常用户行为分析的检测方法及***

Similar Documents

Publication Publication Date Title
CN102176698A (zh) 一种基于迁移学习的用户异常行为检测方法
CN103780588A (zh) 数字家庭网络中用户异常行为检测方法
CN111160401B (zh) 一种基于均值漂移和XGBoost的异常用电判别方法
Ren et al. Selection-based resampling ensemble algorithm for nonstationary imbalanced stream data learning
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN104767692B (zh) 一种网络流量分类方法
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
CN110147321A (zh) 一种基于软件网络的缺陷高风险模块的识别方法
CN101996241A (zh) 一种基于贝叶斯算法的内容过滤方法
CN107579846B (zh) 一种云计算故障数据检测方法及***
CN104598813A (zh) 一种基于集成学习和半监督svm的计算机入侵检测方法
Lu et al. Telecom fraud identification based on ADASYN and random forest
CN104408095A (zh) 一种基于改进的knn文本分类方法
Gu et al. [Retracted] Application of Fuzzy Decision Tree Algorithm Based on Mobile Computing in Sports Fitness Member Management
CN111556016A (zh) 一种基于自动编码器的网络流量异常行为识别方法
Chung et al. Automated machine learning for Internet of Things
CN109948730A (zh) 一种数据分类方法、装置、电子设备及存储介质
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
Graham et al. Finding and visualizing graph clusters using pagerank optimization
Yuan et al. Intrusion detection model based on improved support vector machine
CN117076871B (zh) 一种基于不平衡半监督对抗训练框架的电池故障分类方法
CN113506160A (zh) 一种面向不平衡财务文本数据的风险预警方法及***
CN106557983B (zh) 一种基于模糊多类svm的微博垃圾用户检测方法
CN102426598A (zh) 一种用于网络内容安全管理的中文文本聚类的方法
CN107770813A (zh) 基于pca与二维偏度特征的lte上行干扰分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140507