CN103780588A

CN103780588A - 数字家庭网络中用户异常行为检测方法

Info

Publication number: CN103780588A
Application number: CN201210407885.8A
Authority: CN
Inventors: 李祺; 李钊; 徐国爱; 杨义先
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2012-10-24
Filing date: 2012-10-24
Publication date: 2014-05-07

Abstract

数字家庭网络中用户异常行为检测方法，操作步骤如下：(1)进行网络数据采集，对当前用户的网络行为进行相应的特征提取；(2)在所提取的特征的基础上进行粗粒度的异常行为检测；(3)先采用离线训练方式，用基于迁移学习的方法建立用户正常行为模型，在根据训练好的正常行为模型，用在线测试的方式判断当前的用户行为是否为异常事件。

Description

数字家庭网络中用户异常行为检测方法

技术领域

本发明涉及一种数字家庭网络中用户的异常行为检测方法，确切地说，涉及一种基于迁移学习的网络用户异常行为检测方法，属于网络信息的用户行为分析及其应用的信息安全技术领域。

背景技术

随着网络技术和应用的飞速发展，互联网日益呈现出复杂、异构等特点，当前的网络体系结构暴露出严重的不足，网络正面临着严峻的信息安全和服务质量保障等重大挑战。通过对用户行为进行分析和审计来评估以及保证互联网安全问题已经成为国内外研究界的共识，其中，如何对用户异常行为进行判断是该领域的一个研究热点。

用户异常行为分析方法大体分为两大类。其中一类是基于静态参数归纳的方法，首先提取用户每一时刻行为的特征参数，然后把这些特征中的设定字段与相应的阈值进行比较，从而判定该行为是否异常。另一类是基于动态行为分析的方法，首先需要选取大量的样本对各种用户行为分别进行训练，确定模型参数，然后利用已经建立好的模型对用户行为进行分类最终确定是否为异常行为。

基于静态参数归纳的方法具有简单、直观的优点。在这类方法中，特征参数以及其比对参数的选取尤为重要。近几年来，针对用户异常行为检测这一问题，研究者们提出了多种行为比对参数及其组合结果。如正常链接库、正常业务库、正常流量阈值等都被逐渐应用到异常行为检测技术中。此外，还有部分工作通过将几种特征结合起来进行判定，对用户行为的判断也由原来的单一匹配发展到多元匹配。

但是基于静态参数归纳的方法对于不同的对象，需要选定不同的阈值范围，因而不具备普遍性。此外，基于静态参数归纳的判断方法只能实现用户行为的粗层次识别，不便于根据用户的行为习惯进行动态调整。

基于动态行为分析的方法类似于模式识别领域的基于统计模型的判定。基于动态行为分析的方法要求事先给出一批具有类标记的训练样本，通过有指导的学习训练来生成行为分析器，进而对测试样本集合中的待分类样本进行分类。

但是，基于动态行为分析的方法极大程度的依赖于训练样本的完备性。随着网络技术的不断发展，以及网络业务的不断更新，用户数量不断增加，用户行为也随着新业务的推出而不断的发生变化。已有的样本库已经不能满足用户数量的增长以及用户行为的变化。如何充分的利用已有的样本，即利用现有行为样本对新加入的用户行为进行准确建模，或者利用已知用户的历史行为样本建立其变更后的行为模型，是用户异常检测过程中急需解决的问题。

目前较典型的动态行为分析算法主要包括最小参数检测法、决策树方法、隐马尔科夫模型法和支持向量机方法等。

最小参数间距法的优点是概念直观、方法简单，有利于建立多维空间分类方法的几何概念。在行为分类中应用的最小参数间距分类法主要有k近邻方法(k-Nearest Neighbor，k-NN)和最近特征线方法(Nearest Feature Line)等。

k近邻方法的思想是根据未知样本X最近邻的k个样本中多数点的类别来判定X的类别。为此需要计算X与所有样本Xi的距离，并从中选出距离最小的k个样本作为近邻样本集合k-NN，计算其中所有属于类别Wj的距离之和，并且根据如下规则进行分类：

C (X) = \underset{W_{j} &Element; C}{\arg \min} \underset{X_{i} &Element; k}{Σ} \underset{NN, C (X_{i}) = W_{j}}{d (X, X_{i})}

其中，C为类别集合C＝(W₁，W₂，...，W_n)。

当k＝1时，k近邻方法就退化为最近邻方法。由于k近邻方法利用了更多的样本信息确定类别，所以k取大一些有利于减少噪声的影响。但是，由于k近邻方法需要计算所有样本的距离，因此，当样本数目非常大时，其计算量就相当可观。

决策树本质上其实是一种结构简单、搜索效率高的分类器。决策树分类方法以信息论为基础，对大量的实例选择重要的特征，建立决策树。

但是，决策树方法在多个类别区域存在覆盖现象，尤其是在类别数目非常多时，其存储和计算代价会过大，并且上层的分类错误会累积到下一层，从而形成“雪球”效应。

隐马尔科夫模型起源于20世纪60年代后期，属于信号统计理论模型，能够很好地处理随机时序数据识别与预测。HMM本质上是一种双重随机过程有限状态自动机，其中的双重随机过程之一是指满足Markov分布的状态转换Markov链，这是基本的随机过程，主要描述状态转移；另一个随机过程描述每一个状态和观察值之间的统计对应关系，即状态的观察输出概率密度函数。

支持向量机(Support Vector Machine，SVM)最初来自于对二值分类问题的处理，即在样本空间中，寻找一个能够将训练集中的正例和反例样本分割开来的超平面，并使其两侧的间隔最大。SVM利用二次规划方法将输入数据通过核函数映射到更高维空间，从而解决了线性不可分问题。

当用户行为参数较多时，我们可以对支持向量机法进行扩展，采取二次规划方法将输入的行为数据通过核函数映射到更高维空间，在用户特征维数较低时解决线性不可分问题。

但是，支持向量机法的训练时间比较长，并且要不断地调整以选取合适的核函数和参数。

发明内容

有鉴于此，本发明的目的是提供数字家庭网络中用户异常行为检测方法，使用该方法检测用户异常行为时，我们只需要利用较少的即时样本，在不浪费大量历史样本的前提下，就能够取得较好的检测效果，所以使用该方法分析用户异常行为时，更加全面和有效。

为了达到上述目的，本发明提供了一种基于迁移学习的用户异常行为检测的方法，其特征在于，所述方法包括下述操作步骤：

(1)进行网络数据采集，对当前用户的网络行为进行相应的特征提取；

(2)在所提取的特征的基础上进行粗粒度的异常行为检测；

(3)先采用离线训练方式，用基于迁移学习的方法建立用户正常行为模型，在根据训练好的正常行为模型，用在线测试的方式判断当前的用户行为是否为异常事件。

其中，所述步骤(1)进一步包括下列操作内容：

(11)流量捕获：从***硬件平台网卡上获取数据流量，对流量进行整形处理，进而进行下一步操作；

(12)利用深度包检测技术(Deep Packet Inspection，DPI)提取所捕获的流量的五元组信息，其中，五元组信息包括：源地址、目的地址、源端口号、目的端口号、协议类型；

(13)在五元组序列的基础上提取用户行为特征。其中，用户行为特征的提取是业界经常涉及的方法，本发明在这特征提取上没有进行独立创新。

所述步骤(2)，主要特征为：

目前，本领域有多种粗粒度的用户异常行为检测方法，例如：根据***将用户访问特定网站的行为判定为异常行为；根据数据流量，将流量超出一定阈值的行为判定为异常行为等。在粗粒度用户行为检测这一方面，本发明没有进行独立创新。

所述步骤(3)，具体包括如下操作内容

(31)采用离线训练的方式，采集训练样本，构成训练样本集合，将训练样本分为两类，即与测试样本分布不同的一类和与测试样本分布相同的一类；

具体包括如下操作：

设收集的样本集表示为混T＝{(x_i，c(x_i))}。

本发明中，训练样本集合由两个被标记的样本集构成，这两个样本集分别记为T_d和T_s。

表示历史样本集合，即与测试数据不同分布的样本集。

表示即时样本集，即与测试数据同分布的样本集。

由此可知，

x_{i} = \{\begin{matrix} x_{i}^{d}, i = 1, . . ., n; \\ x_{i}^{s}, i = n + 1, . . ., n + m . \end{matrix}

上式中式n和m分别表示样本集T_d和T_s的大小，c(x)指出了样本的类别

(32)采用离线训练的方式，基于训练样本集合，利用弱分类器(对弱分类器类型不加限定)作为基分类器，使得每一个用户特征对应于一个基分类器。

(33)采用离线训练的方式，利用TrAdaBoost方法，计算弱分类器的加权系数，形成TrAdaBoost分类器。

(331)训练权值初始化

其中，

表示第i个基分类器在第一轮时的权重值大小；

(332)权重值迭代计算，设共需要进行N轮迭代，则迭代过程为：

(34)采用在线测试的方式，将用户行为特征参数输入到训练好的TrAdaboost分类器，判断当前用户行为是否为异常行为。

本发明是数字家庭网络中用户异常行为检测方法，它在技术上的创新主要是从历史样本与测试样本不同分布的角度出发，通过较少的即时样本和已有的历史样本建立模型。弥补了以往的建立模型时即时样本数量不够所导致的训练不够全面的问题，下面进行详细的说明。

现有的技术在进行用户异常行为检测的过程中，通常假设测试样本同历史样本是同分布的。但是，随着网络技术的不断发展，以及网络业务的不断更新，用户数量不断增加，用户行为也随着新业务的推出而不断的发生变化。已有的样本库已经不能满足用户数量的增长以及用户行为的变化。如何充分的利用已有的样本，即利用现有行为样本对新加入的用户行为进行准确建模，或者利用已知用户的历史行为样本建立其变更后的行为模型，是用户异常检测过程中急需解决的问题。

附图说明

图1是本发明基于迁移学习的用户异常行为检测的操作步骤流程图。

图2是本发明是实验部署图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图和实施例的试验情况对本发明作进一步的详细描述。

本发明是数字家庭网络中用户异常行为检测方法，该方法操作步骤如下：(1)进行网络数据采集，对当前用户的网络行为进行相应的特征提取；(2)在所提取的特征的基础上进行粗粒度的异常行为检测；(3)先采用离线训练方式，用基于迁移学习的方法建立用户正常行为模型，在根据训练好的正常行为模型，用在线测试的方式判断当前的用户行为是否为异常事件。

本发明在分析是否有用户异常行为发生时，能克服现有技术中要求测试样本与历史样本同分布的不足之处。

参见图1，说明本发明的操作步骤以及本发明的实施例和仿真情况：