WO2018054342A1 - 一种网络数据流分类的方法及*** - Google Patents

一种网络数据流分类的方法及*** Download PDF

Info

Publication number
WO2018054342A1
WO2018054342A1 PCT/CN2017/102825 CN2017102825W WO2018054342A1 WO 2018054342 A1 WO2018054342 A1 WO 2018054342A1 CN 2017102825 W CN2017102825 W CN 2017102825W WO 2018054342 A1 WO2018054342 A1 WO 2018054342A1
Authority
WO
WIPO (PCT)
Prior art keywords
data stream
information
model
processed
static
Prior art date
Application number
PCT/CN2017/102825
Other languages
English (en)
French (fr)
Inventor
陈志堂
耿彦辉
乔治⋅简波尼亚斯
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2018054342A1 publication Critical patent/WO2018054342A1/zh
Priority to US16/362,135 priority Critical patent/US10999175B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Definitions

  • the feature stream is extracted by using the feature extraction, and then the machine class is used to learn the classifier according to the feature, and then the data stream is classified by the application type.
  • feature engineering needs to be performed in advance, such as simple statistics on the data packet length, calculation of the average value of the packet length, variance, maximum and minimum values, etc., but these features are not complete. Characterizing the behavior of the entire data stream, for example, data streams of two different application types may have the same mean and variance, so the application type classification of the data stream is not accurate.
  • the dynamic behavior model of the data stream refers to the conditional probability distribution of the variables in all dimensions of the information set of the data stream at two times before and after. Since the data stream can be regarded as a time sequence, the dynamic behavior of the time sequence is statistically related to the value of the variable before and after the time series. Therefore, in this embodiment, by characterizing the dynamic behavior of a time series, Use the conditional probability distribution of the variables of each dimension at two moments before and after.
  • FIG. 6 is a detailed structural diagram of a system for classifying network data streams composed of a server and a primary server in FIG. 2, wherein:

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种网络数据流分类的方法及***,方法包括:采集待处理的数据流的包含有多个维度信息的信息集合;建立信息集合中每个维度信息的静态行为模型及动态行为模型,静态行为模型表征维度信息的取值规律,动态行为模型表征维度信息在前后时刻之间的关联关系;利用静态行为模型及动态行为模型,分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离;基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型。

Description

一种网络数据流分类的方法及***
本申请要求于2016年9月22日提交中国专利局、申请号为201610842056.0、发明名称为“一种网络数据流分类的方法及***”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及数据处理领域,尤其涉及一种网络数据流分类的方法及***。
背景技术
随着互联网技术的日益普遍,特别是移动终端的普及,通信网络涌现出越来越多的应用类型的数据流,如交互类型、巨量数据传输类型、流应用的类型及异常流类型,等等。不同的应用类型的数据流对网络服务的要求不尽相同,因此,通常针对不同的应用类型的数据流需要提供不同的服务质量。例如,交互类型的数据,如远程登录等数据,对网络的延迟性要求较高,具有较高的实时性需求;巨量数据传输类型的数据,如文件、视频的下载等,虽然对实时性的需求不高,但需要足够的吞吐量保证;而流应用类型的数据,如在线视频观看、多媒体会议等,对实时性的需求较高,且对网络传输的抖动及丢包率等参数也有较高的要求;或者,异常的数据,而异常的数据可能属于恶意攻击并企图瘫痪网络,需要采取措施限制甚至禁止;等等。
为了实现对不同应用类型的数据流提供不同的服务质量,需要在提供服务之前准确的将网络中的数据流进行应用类型的准确分类。现有技术中通常采用以下两种方案实现:
一种方案中,根据数据流的服务器端口号或客户端端口号对数据流进行应用类型的分类。但是,这种方案需要预先基于IRNA(Internet Assigned Number Authority,网络分配数量权威)将端口号和数据流的应用类型进行关联,而IRNA无法定义所有应用类型的数据流,很多应用并不遵从IRNA的规则而是随机的分配端口号,因此,对应用类型的分类具有局限性;
另一种方案中,通过对数据流的报文内容进行深度的报文解析,以实现区分出异常数据流。但这种方案中,不能适用于对数据流报文加密的网络场景中,仍然存在局限性。
还有一种方案中,通过对数据流进行特征提取,然后利用机器学***均值、方差、最大值及最小值等作为特征,然而这些特征并不能完全的刻画整个数据流的行为,例如,两个不同应用类型的数据流可能具有相同的平均值和方差,因此,对数据流进行应用类型分类并不准确。
因此,亟需一种能够准确的将网络中的数据流进行应用类型分类的技术方案,以实现对不同应用类型的数据流提供不同的服务质量。
发明内容
有鉴于此,本申请的目的是提供一种网络数据流分类的方法及***,用以解决现有技术中对数据流进行应用类型分类不准确的技术问题。
本发明的第一方面提供了一种网络数据流分类的方法,其中包括以下步骤:采集待处理的数据流的包含有多个维度信息的信息集合,并建立信息集合中每个维度信息的静态行为模型及动态行为模型,再利用静态行为模型及动态行为模型,分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,最后再基于这些静态模型距离及动态模型距离,确定待处理的数据流的应用类型。可见,在对数据流进行应用类型的分类时,基于数据流的信息集合中每个维度信息,建立表征取值规律的静态行为模型及表征前后时刻之间的关联关系的动态行为模型,以此更加准确的反映数据流的本质区别,再与目标应用类型的数据流的相应的行为模型进行距离比较,实现数据流的分类,由此提高对数据流的应用类型进行分类的准确性。
本发明的第二方面提供了一种网络数据流分类的***,其中包括以下结构:包含用于采集终端传输的待处理的数据流的信息集合的信息采集模块的从服务器,以及,包含用于获得信息采集模块采集到的信息集合的数据接口、存储应用程序及应用程序运行所产生的数据的存储器及处理器的主服务器,处理器通过运行应用程序,建立信息集合中每个维度信息的静态行为模型及动态行为模型,再利用静态行为模型及动态行为模型,分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,最后再基于这些静态模型距离及动态模型距离,确定待处理的数据流的应用类型。由此可知,***在对数据流进行应用类型的分类时,首先由从服务器中的各个信息采集模块采集待处理的数据流的信息集合,再由主服务器基于数据流的信息集合中每个维度信息,建立表征取值规律的静态行为模型及表征前后时刻之间的关联关系的动态行为模型,以此准确的反映数据流的本质区别,再与目标应用类型的数据流的相应的行为模型进行距离比较,实现数据流的分类,由此提高对数据流的应用类型进行分类的准确性。
在一个实现方式中,信息集合中包括流层面的第一信息集合及链接层面的第二信息集合,而第一信息集合中至少包括以下维度信息:报文长度、报文到达时间间隔,第二信息集合中至少包括以下维度信息:数据流长度、数据流中的报文数目、数据流持续时间、数据流到达时间间隔。由此,基于报文长度、报文到达时间间隔,以及,数据流长度、数据流中的报文数目、数据流持续时间、数据流到达时间间隔所建立的静态行为模型及动态行为模型能够更加准确的反映数据流的本质区别,再与目标应用类型的数据流的相应的行为模型进行距离比较后,能够更加准确的对数据流的应用类型进行分类。
在一个实现方式中,处理器建立信息集合中每个维度信息的静态行为模型及动态行为模型,包括:获得第一信息集合中每个维度信息的表征维度信息的取值规律的边 缘概率分布,并基于第一信息集合中每个维度信息的边缘概率分布生成第一信息集合中每个维度信息的静态行为模型;获得第一信息集合中每个维度信息的表征维度信息在前后时刻之间的关联关系的条件概率分布,并基于第一信息集合中每个维度信息的条件概率分布生成第一信息集合中每个维度信息的动态行为模型;获得第二信息集合中每个维度信息的表征维度信息的取值规律的边缘概率分布,并基于第二信息集合中每个维度信息的边缘概率分布生成第二信息集合中每个维度信息的静态行为模型;获得第二信息集合中每个维度信息的表征维度信息在前后时刻之间的关联关系的条件概率分布,并基于第二信息集合中每个维度信息的条件概率分布,生成第二信息集合中每个维度信息的动态行为模型。可见,通过计算概率分布来对数据流的应用类型进行分类,使得刻画应用类型不同的行为模型准确性更高,进一步准确的对数据流的应用类型进行分类。
在一种实现方式中,处理器建立信息集合中每个维度信息的静态行为模型及动态行为模型,具体为:利用
Figure PCTCN2017102825-appb-000001
获得第一信息集合中每个维度信息的静态行为模型,其中,xi为第一信息集合
Figure PCTCN2017102825-appb-000002
中的第i个维度信息,n为第一信息集合
Figure PCTCN2017102825-appb-000003
中维度信息的个数,
Figure PCTCN2017102825-appb-000004
为核函数k(x,y)的特征函数向量;利用
Figure PCTCN2017102825-appb-000005
获得第一信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,
Figure PCTCN2017102825-appb-000006
且[Ktt]为第一信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第一信息集合
Figure PCTCN2017102825-appb-000007
中的第i个维度信息,n为第一信息集合
Figure PCTCN2017102825-appb-000008
中维度信息的个数,
Figure PCTCN2017102825-appb-000009
为核函数k(x,y)的特征函数向量,λ为预设参数,I为单位矩阵;利用
Figure PCTCN2017102825-appb-000010
获得第二信息集合
Figure PCTCN2017102825-appb-000011
中每个维度信息的静态行为模型,其中,xi为第二信息集合
Figure PCTCN2017102825-appb-000012
中的第i个维度信息,n为第二信息集合
Figure PCTCN2017102825-appb-000013
中维度信息的个数;利用
Figure PCTCN2017102825-appb-000014
获得第二信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,
Figure PCTCN2017102825-appb-000015
Figure PCTCN2017102825-appb-000016
且[Ktt]为所述第二信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第二信息集合
Figure PCTCN2017102825-appb-000017
中的第i个维度信息,n为第二信息集合
Figure PCTCN2017102825-appb-000018
中维度信息的个数,
Figure PCTCN2017102825-appb-000019
为核函数k(x,y)的特征函数向量。可见,通过计算概率分布来对数据流的应用类型进行分类,使得刻画应用类型不同的行为模型准确性更高,进一步准确的对数据流的应用类型进行分类。
在一种实现方式中,处理器利用静态行为模型及动态行为模型,分别获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,具体为:利用
Figure PCTCN2017102825-appb-000020
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的静态模型距离,其中,
Figure PCTCN2017102825-appb-000021
为待处理的数据流A的第一信息集合
Figure PCTCN2017102825-appb-000022
的静态行为模型,
Figure PCTCN2017102825-appb-000023
为目标应用类型所属的数据流B的流层面的静态行为模型,
Figure PCTCN2017102825-appb-000024
Figure PCTCN2017102825-appb-000025
i表示信息集合中的第i个维度信息;利用
Figure PCTCN2017102825-appb-000026
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的静态模型距离,其中,
Figure PCTCN2017102825-appb-000027
为待处理的数据流A的第二信息集合
Figure PCTCN2017102825-appb-000028
的静态行为模型,
Figure PCTCN2017102825-appb-000029
为目标应用类型所属的数据流B的链接层面的静态行为模型;利用
Figure PCTCN2017102825-appb-000030
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的动态模型距离,其中,
Figure PCTCN2017102825-appb-000031
为待处理的数据流A的第一信息集合
Figure PCTCN2017102825-appb-000032
的静态行为模型,
Figure PCTCN2017102825-appb-000033
为目标应用类型所属的数据流B的流层面的静态行为模型;利用
Figure PCTCN2017102825-appb-000034
获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的动态模型距离,其中,
Figure PCTCN2017102825-appb-000035
为待处理的数据流A的第二信息集合
Figure PCTCN2017102825-appb-000036
的动态行为模型,
Figure PCTCN2017102825-appb-000037
为目标应用类型所属的数据流B的链接层面的动态行为模型。可见,通过获得待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,进而基于距离来对数据流进行应用类型的分类,进一步的提高对数据流的应用类型进行分类的准确性。
在一种实现中,处理器基于待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定待处理的数据流的应用类型,具体为:对待 处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到待处理的数据流与各个所述目标数据流之间的特征距离;再利用分类算法,基于特征距离,确定所述待处理的数据流的应用类型。可见,利用不同维度在数据流分类中的重要性不同,使得不同维度的权重不同,因此,将权重考虑到对数据流的应用类型的分类中,进一步的提高对数据流的应用类型进行分类的准确性。
在一个实现方式中,处理器对待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离,具体为:基于各个目标应用类型的数据流的静态行为模型及动态行为模型,获得权重矩阵,权重矩阵使得从属于同一应用类型的数据流之间的特征距离最小,从属于不同应用类型的数据流之间的特征距离最大,再利用权重矩阵,对待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到待处理的数据流与各个所述目标数据流之间的特征距离。可见,通过最大化不同应用类型的数据流的静态模型距离及动态模型距离,并最小化同一应用类型的数据流的静态模型距离及动态模型距离,从而得到每个维度信息的特征距离的权重,组成权重矩阵,由此,将得到的权重矩阵加入到对数据流的应用类型的分类中,进一步的提高对数据流的应用类型进行分类的准确性。
在一种实现中,分类算法包括:K近邻分类算法或Naive Bayesian分类算法,则处理器利用分类算法,基于所述特征距离,确定述待处理的数据流的应用类型,具体为:基于K近邻分类算法或Naive Bayesian分类算法,将最小的特征距离所对应的目标应用类型确定为所述待处理的数据流的应用类型。由此,基于此处理器实现对数据流的应用类型的分类,更好的提高分类的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为通信网络中终端进行数据通信的示意图;
图2为本申请实施例的应用示例图;
图3为本申请实施例提供的一种网络数据流分类的方法的实现流程图;
图4a、图4b、图5a及图5b分别为本申请实施例的其他应用示例图;
图6为本申请实施例提供的一种网络数据流分类的***的结构示意图。
具体实施方式
图1所示为通信网络中终端进行数据通信的示意图,终端可以为各种网络设备,如手机、电脑、服务器等能够进行网络数据通信的设备,终端之间可以通过有线或无线进行连接,进而进行数据通信,形成通信网络,如WiFi、蓝牙、GPS(Global Positioning  System,全球移动通信)或卫星通信等。
本申请为实现对通信网络中终端进行数据通信的数据流进行应用类型的分类,可以通过以下方案实现:
图2所示为本实施例中利用服务器群对终端进行数据通信过程中的数据流进行采集并分类的示例图,服务器群中可以包括有从服务器及主服务器。图3为本申请实施例提供的一种网络数据流分类的方法的实现流程图,服务器群为实现对通信网络中的数据流的应用类型的分类,在各个终端的传输接口将数据流进行传输之后,服务器群可以执行如下步骤:
S301:从服务器对经过各个终端上的传输接口进行传输的数据流进行筛选,以筛去已经完成传输的数据流。
S302:从服务器将其余的未完成传输的数据流的信息集合进行采集。
S303:从服务器将这些采集到的信息集合传输给主服务器。
这里的已经完成传输的数据流是指,数据流中的所有的报文都到达目的地的数据流,数据流的目的地可以是传输接口所属的终端,或者与传输接口所属终端之间有数据链接进行数据传输的其他终端。
在终端进行传输数据流时,本实施例中,利用从服务器对各个终端进行传输且未传输到目的地的数据流进行应用类型的分类,进而根据分类结果对未传输到目的地的数据流提供相应服务性能或服务质量的传输服务,以将数据流传输到目的地。
例如,对交互类型的数据流提供快速的传输服务性能,以保证其实时性需求;对巨量数据传输类型的数据流提供足够的数据吞吐量,以保证文件或视频等数据的下载顺畅;对流应用类型的数据流提供较大的传输带宽及数据吞吐量,以保证其实时性的需求及对网络传输的抖动及丢包率等参数的要求;对异常类型的数据流采取措施限制甚至禁止,以保证网络安全及稳定,等等。
从服务器在筛去已经完成传输的数据流时,可以通过以下方式实现:
基于TCP数据流在传输完成时的最后一个报文为FIN报文,从服务器根据目前为止经过传输接口的最后一个报文是否为FIN报文,来确定这个报文所属的数据流是否已经传输完成;
或者,基于UDP数据流在传输完成时的最后一个报文的时间戳与当前***时间的差值超过预设的阈值,从服务器根据最后传输的报文的时间戳与当前***时间的差值是否超过预设的阈值,来确定这个报文所属的数据流是否已经老化,即是否传输完成。
从服务器通过对各个终端的传输接口进行监测,以监测到有数据流到来时,本实施例对数据流中的各个报文的报文信息进行采集并对各个数据流的数据流信息进行采集,并生成对应的信息集合,再将这些信息集合实时上传给主服务器。例如:
对于每个终端的传输接口,数据流中各个报文的到来可以看成一个时间序列,数据流中的报文依次经过传输接口,随着时间的推移,数据流中的第1个至第n个报文的到达,从服务器对这些报文的报文信息进行采集,并生成一个信息集合,如图4a中所示,以
Figure PCTCN2017102825-appb-000038
表示,这个信息集合
Figure PCTCN2017102825-appb-000039
中每个报文信息包括但不仅限于如下的信息:
报文长度(packet size)及与上一个报文之间到达时间的时间间隔(packet inter-arrival time)。
而对于每个终端的传输接口,串行传输的各个数据流的到来可以看成一个时间序列,各个数据流依次经过传输接口,而随着时间的推移,第1个数据流至第n个数据流的到达,从服务器对这些数据流的数据流信息进行采集,并生成一个信息集合,如图4b中所示,以
Figure PCTCN2017102825-appb-000040
表示,这个信息集合
Figure PCTCN2017102825-appb-000041
中每个数据流信息包括但不仅限于如下的信息:
数据流长度(flow length)、数据流中报文的数目(packet number)、数据流的传输持续时间(flow duration)及与上个数据流之间到达时间的时间间隔(flow inter-arrival time)。
其中,报文信息的信息集合
Figure PCTCN2017102825-appb-000042
可以理解为数据流层面数据报文之间的时序信息集合,而数据流信息的信息集合
Figure PCTCN2017102825-appb-000043
可以理解为在链接层面上数据流之间的时序信息集合,其中的P与C用以区分数据流层面packet与链接层面connection。
主服务器在接收到从服务器所上传的信息集合之后,对每个待处理的数据流的信息集合执行以下操作,以确定每个待处理的数据流的应用类型:
S304:基于待处理的数据流的信息集合中的各项维度信息,建立每个维度信息的静态行为模型及动态行为模型。
这里的维度信息可以理解为待处理的数据流的信息集合中每个报文信息或每个数据流信息中的信息项目的信息,如报文长度及与上一个报文到达时间的时间间隔,这两个项目信息即为报文信息的信息集合中的两个维度信息,而数据流长度、数据流中报文的数目、数据流的传输持续时间及与上个数据流之间到达时间的时间间隔,这些项目信息即为数据流信息的信息集合中的几个维度信息,等等。
在建立静态行为模型时,主服务器首先获得待处理的数据流的信息集合中每个维度信息的边缘概率分布,这里每个维度信息的边缘概率分布表征该维度信息的规律,也就是这个维度信息的取值规律(不同的应用类型的数据流在每个维度上的取值具有不同的规律),之后,将边缘概率分布映射到可再生核空间,成为一个向量,即为静态行为模型。
在建立动态行为模型时,主服务器首先获得待处理的数据流的前后两个时刻的信息集合中每个维度信息的条件概率分布,这里每个维度信息的条件概率分布表征待处理的数据流前后时刻的维度信息的关联关系(不同的应用类型的数据流中每个维度上在前后时刻之间的维度信息关联关系不同),之后,将条件概率分布映射到可再生核空间成为一个操作子,即为动态行为模型。
以下对待处理的数据流的信息集合中每个维度信息的静态行为模型及动态行为模型的建立进行详述:
对于待处理的数据流的信息集合,包括流层面的信息集合
Figure PCTCN2017102825-appb-000044
和链接层面的信息集合
Figure PCTCN2017102825-appb-000045
流层面的信息集合
Figure PCTCN2017102825-appb-000046
包括但不仅限于如下的变量(维度信息):
数据报文长度(packet size):p;
数据报文到达时间间隔(packet inter-arrival time):Δtp
而链接层面的信息集合
Figure PCTCN2017102825-appb-000047
包含但不仅限于如下的变量:
数据流长度(flow length):l;
数据流报文数目(packet number):n;
数据流持续时间(flow duration):d;
数据流到达时间间隔(flow inter-arrival time):Δtf
本实施例中,主服务器对数据流的静态行为模型的建模是通过对上述各个变量进行边缘概率分布的建模。这里可以采用可再生核希尔伯特空间嵌入(Reproducing Kernel Hilbert Space Embedding)的方案,也可以采用其他参数化或者非参数化的方案,比如基于K近邻的概率密度函数估计法(k nearest neighbor based probability density estimation)。本实施例中,可再生核希尔伯特空间嵌入方案将每个变量(维度信息)的边缘概率分布映射到可再生核空间成为一个变量,即可得到每个变量的静态行为模型,也就是RKHS嵌入,如图5a中映射关系所示:
流层面的信息集合
Figure PCTCN2017102825-appb-000048
每个维度的变量的静态行为模型如下:
Figure PCTCN2017102825-appb-000049
其中,μp,i即为流层面(P)的信息集合
Figure PCTCN2017102825-appb-000050
中每个维度信息i的静态行为模型。
链接层面的信息集合
Figure PCTCN2017102825-appb-000051
中每个维度的变量的静态行为模型如下:
Figure PCTCN2017102825-appb-000052
其中,μc,i即为流层面(C)的信息集合
Figure PCTCN2017102825-appb-000053
中每个维度信息i的静态行为模型。
以数据流的流层面的信息集合的第i个维度的变量(维度信息)为例,以下为建模过程:
设采集到的数据流的流层面的信息集合的第i个维度信息为:
Figure PCTCN2017102825-appb-000054
那么,该数据流关于报文长度这一维度信息的静态行为模型可以利用如下公式(1)计算获得:
Figure PCTCN2017102825-appb-000055
其中,
Figure PCTCN2017102825-appb-000056
为核函数k(x,y)的特征函数向量。
而数据流的动态行为模型是指数据流的信息集合的所有维度上的变量在前后两个时刻的条件概率分布。由于数据流可以看做是一个时间时序,而时间时序的动态行为反应在该时间序列前后时刻变量取值在统计上的相关性,因此,本实施例中通过刻画一个时间序列的动态行为,可以用前后两个时刻的每个维度的变量的条件概率分布。
这里可以采用可再生核希尔伯特空间嵌入(Reproducing Kernel Hilbert Space Embedding)的方案,也可以采用其他参数化或者非参数话的方案。本实施例中,可再生核希尔伯特空间嵌入方案将每个变量(维度信息)的条件概率分布映射到可再生核 空间成为一个操作子,也就是RKHS嵌入,如图5b中映射关系所示:
流层面的信息集合
Figure PCTCN2017102825-appb-000057
每个维度的变量的动态行为模型如下:
Figure PCTCN2017102825-appb-000058
其中,Up,i即为流层面(P)的信息集合
Figure PCTCN2017102825-appb-000059
中前后两个时刻t与t+1每个维度信息i的动态行为模型。
链接层面的信息集合
Figure PCTCN2017102825-appb-000060
中每个维度的变量的动态行为模型如下:
Figure PCTCN2017102825-appb-000061
其中,Uc,i即为流层面(C)的信息集合
Figure PCTCN2017102825-appb-000062
中前后两个时刻t与t+1每个维度信息i的动态行为模型。
以数据流的流层面的信息集合的第i个维度的变量(维度信息)为例,以下为建模过程:
设采集到的数据流的流层面的信息集合的t时刻第i个维度信息为:
Figure PCTCN2017102825-appb-000063
t+1时刻第i个维度信息为:
Figure PCTCN2017102825-appb-000064
那么,该数据流关于报文长度这一维度信息前后两个时刻的动态行为模型可以利用如下公式(2)计算获得:
Figure PCTCN2017102825-appb-000065
其中,
Figure PCTCN2017102825-appb-000066
且[Ktt]ij=k(xi,xj),
Figure PCTCN2017102825-appb-000067
为核函数k(x,y)的特征函数向量,Ktt为流层面的信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,λ为规则化参数,可以由用户根据需求进行定义,I为单位矩阵,即为对角线上矩阵元素为1的对角矩阵。
S305:主服务器计算每个维度信息的静态行为模型分别与预设的各个应用类型相应维度上的目标静态行为模型之间的静态模型距离,并计算每个维度信息的动态行为模型分别与预设的各个应用类型相应维度上的目标动态行为模型之间的动态模型距离。
这里的目标静态行为模型及目标动态行为模型是由主服务器通过预先定期收集网络中不同的目标应用类型的数据流的信息集合,并进行建模所得到的,主服务器获得这些目标静态行为模型及目标动态行为模型的具体方案可以参考前文中主服务器获得待处理的数据流的每个维度信息的静态行为模型及动态行为模型的实现方案。
这里的目标应用类型的数据流的信息集合,是指已知应用类型的数据流的信息集合,这里的目标应用类型可以为根据业务需要进行定义的,如大象流(流量巨大的数据流)、老鼠流(流量小的数据流)、视频流,或者Skype、Edonkey、FTP、SSH等等类型。
静态模型距离为待处理的数据流每个维度信息的静态行为模型与各个目标应用相应维度上的目标静态行为模型之间的距离,也就是每个维度信息的边缘概率分布的距离,以下对静态模型距离的计算进行举例说明:
以待处理的数据流A及目标应用类型所属的数据流B为例,A具有信息集合
Figure PCTCN2017102825-appb-000068
Figure PCTCN2017102825-appb-000069
B具有信息集合
Figure PCTCN2017102825-appb-000070
Figure PCTCN2017102825-appb-000071
主服务器计算数据流A与B的静态行为模型
Figure PCTCN2017102825-appb-000072
Figure PCTCN2017102825-appb-000073
以及
Figure PCTCN2017102825-appb-000074
之后,通过以下公式(3)及(4)计算两个数据流在静态行为模型上的静态模型距离:
Figure PCTCN2017102825-appb-000075
Figure PCTCN2017102825-appb-000076
这里,以数据流的流层面的信息集合的第i个维度的变量如报文长度为例,数据流A与B的静态行为模型分别为:
Figure PCTCN2017102825-appb-000077
Figure PCTCN2017102825-appb-000078
数据流A与B在报文长度的静态行为模型之间的静态模型距离为:
Figure PCTCN2017102825-appb-000079
其中:
Figure PCTCN2017102825-appb-000080
动态模型距离为待处理的数据流每个维度信息的动态行为模型与各个目标应用相应维度上的目标动态行为模型之间的距离,也就是每个维度信息前后两个时刻的条件概率分布的距离,以下对动态模型距离的计算进行举例说明:
以待处理的数据流A及目标应用类型所属的数据流B为例,A具有信息集合
Figure PCTCN2017102825-appb-000081
Figure PCTCN2017102825-appb-000082
B具有信息集合
Figure PCTCN2017102825-appb-000083
Figure PCTCN2017102825-appb-000084
主服务器计算数据流A与B的动态行为模型
Figure PCTCN2017102825-appb-000085
Figure PCTCN2017102825-appb-000086
以及
Figure PCTCN2017102825-appb-000087
之后,通过以下公式(5)及(6)计算两个数据流在动态行为模型上的动态模型距离:
Figure PCTCN2017102825-appb-000088
Figure PCTCN2017102825-appb-000089
这里,以数据流的流层面的信息集合的第i个维度的变量如报文长度为例:数据流A与B的动态行为模型分别为:
Figure PCTCN2017102825-appb-000090
Figure PCTCN2017102825-appb-000091
数据流A与B在报文长度前后两个时刻的动态行为模型之间的动态模型距离为:
Figure PCTCN2017102825-appb-000092
其中:
Figure PCTCN2017102825-appb-000093
基于以上方案可知,以矩阵表示待处理的数据流A及目标应用类型所属的数据流B之间:
静态模型距离向量:
Figure PCTCN2017102825-appb-000094
动态模型距离向量:
Figure PCTCN2017102825-appb-000095
特征距离向量:
Figure PCTCN2017102825-appb-000096
S306:主服务器对待处理的数据流与各个目标应用类型所属数据流之间的静态模型距离及动态模型距离进行加权处理,得到待处理的数据流与各个目标应用类型所属的数据流之间的特征距离。
主服务器预先通过训练学习,获得一个最佳距离权重矩阵,即能够使得从属于同一应用类型的数据流之间的特征距离最小,从属于不同应用类型的数据流之间的特征距离最大。
具体的,主服务器周期性的收集各个目标应用类型的数据流的静态行为模型及动态行为模型,并计算任意两个数据流之间的静态模型距离及动态模型距离,通过最小化同一应用类型的数据流的静态模型距离及动态模型距离,最大化不同应用类型的数据流的静态模型距离及动态模型距离,找到最佳的权重矩阵。
例如,将训练样本的数据流按照是否属于同一应用类型,分为如下两个数据流对集合:
S:(fi,fj)∈S,fi和fj从属于同一应用类型;
D:(fi,fj)∈D,fi和fj从属于不同应用类型。
由此,找到半正定矩阵X,使得以下目标函数最小化:
Figure PCTCN2017102825-appb-000097
这里,
Figure PCTCN2017102825-appb-000098
表示了任意两个数据流的特征距离的目标函数,目标函数最小化后所得到的权重矩阵X即为最佳矩阵,能够使得从属于同一应用类型的数据流之间的特征距离最小,从属于不同应用类型的数据流之间的特征距离最大。
基于以上方案所得到的最佳的权重矩阵X,与特征距离向量进行矩阵计算,得到最终的特征距离。
S307:利用分类算法,基于待处理的数据流与各个目标应用类型所属的数据流之间的特征距离,确定待处理的数据流的应用类型。
本实施例中可以利用KNN(K-Nearest Neighbor,K近邻)、Naive Bayesian(朴素贝页斯)等进行分类,将最小的特征距离所对应的目标应用类型确定为待处理的数据流的应用类型,实现对数据流的应用类型的分类。
由上述方案可知,本申请实施例提供的一种网络数据流分类的方法,通过计算概率分布来对数据流的应用类型进行分类,使得刻画应用类型不同的行为模式准确性更高,避免了复杂低效的特征设计。
进一步的,本申请通过应用类型在静态和动态的行为模式差异,提供更准确的信息用于应用类型的分类。
另外,本申请利用历史训练数据学习出每一个维度的特征距离的重要性,进一步的,周期性的学习可以实现方案的自适应性。
图6所示为图2中从服务器及主服务器所组成的网络数据流分类的***的细节结构图,其中:
从服务器601,至少包括:信息采集模块611,用于采集各种终端传输的待处理的数据流的信息集合,信息集合包括有多个维度信息;
主服务器602,可以包括有:
数据接口621,用于获得信息采集模块611采集到的信息集合;
存储器622,用于存储应用程序及应用程序运行所产生的数据。
处理器623,与数据接口621相连接,用于运行应用程序,以建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。

Claims (16)

  1. 一种网络数据流分类的方法,其特征在于,包括:
    采集待处理的数据流的信息集合,所述信息集合包括有多个维度信息;
    建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,所述静态行为模型表征所述维度信息的取值规律,所述动态行为模型表征所述维度信息在前后时刻之间的关联关系;
    利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离;
    基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型。
  2. 根据权利要求1所述的方法,其特征在于,所述信息集合包括流层面的第一信息集合及链接层面的第二信息集合;
    所述第一信息集合至少包括以下维度信息:报文长度、报文到达时间间隔;
    所述第二信息集合至少包括以下维度信息:数据流长度、数据流中的报文数目、数据流持续时间、数据流到达时间间隔。
  3. 根据权利要求2所述的方法,其特征在于,所述建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,包括:
    获得所述第一信息集合中每个维度信息的边缘概率分布,所述边缘概率分布表征所述维度信息的取值规律,并基于所述第一信息集合中每个维度信息的边缘概率分布,生成所述第一信息集合中每个维度信息的静态行为模型;
    获得所述第一信息集合中每个维度信息的条件概率分布,所述条件概率分布表征所述维度信息在前后时刻之间的关联关系,并基于所述第一信息集合中每个维度信息的条件概率分布,生成所述第一息集合中每个维度信息的动态行为模型;
    获得所述第二信息集合中每个维度信息的边缘概率分布,所述边缘概率分布表征所述维度信息的取值规律,并基于所述第二信息集合中每个维度信息的边缘概率分布,生成所述第二信息集合中每个维度信息的静态行为模型;
    获得所述第二信息集合中每个维度信息的条件概率分布,所述条件概率分布表征所述维度信息在前后时刻之间的关联关系,并基于所述第二信息集合中每个维度信息的条件概率分布,生成所述第二信息集合中每个维度信息的动态行为模型。
  4. 根据权利要求2所述的方法,其特征在于,所述建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,包括:
    利用
    Figure PCTCN2017102825-appb-100001
    获得第一信息集合中每个维度信息的静态行为模型,其中,xi为第一信息集合
    Figure PCTCN2017102825-appb-100002
    中的第i个维度信息,n为第一信息集合
    Figure PCTCN2017102825-appb-100003
    中维度信息的个数,
    Figure PCTCN2017102825-appb-100004
    为核函数k(x,y)的特征函数向量;
    利用
    Figure PCTCN2017102825-appb-100005
    获得第一信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,
    Figure PCTCN2017102825-appb-100006
    Figure PCTCN2017102825-appb-100007
    且Ktt为所述第一信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第一信息集合
    Figure PCTCN2017102825-appb-100008
    中的第i个维度信息,n为第一信息集合
    Figure PCTCN2017102825-appb-100009
    中维度信息的个数,
    Figure PCTCN2017102825-appb-100010
    为核函数k(x,y)的特征函数向量,λ为预设参数,I为单位矩阵;
    利用
    Figure PCTCN2017102825-appb-100011
    获得第二信息集合
    Figure PCTCN2017102825-appb-100012
    中每个维度信息的静态行为模型,其中,xi为第二信息集合
    Figure PCTCN2017102825-appb-100013
    中的第i个维度信息,n为第二信息集合
    Figure PCTCN2017102825-appb-100014
    中维度信息的个数;
    利用
    Figure PCTCN2017102825-appb-100015
    获得第二信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,
    Figure PCTCN2017102825-appb-100016
    Figure PCTCN2017102825-appb-100017
    且Ktt为所述第二信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第二信息集合
    Figure PCTCN2017102825-appb-100018
    中的第i个维度信息,n为第二信息集合
    Figure PCTCN2017102825-appb-100019
    中维度信息的个数,
    Figure PCTCN2017102825-appb-100020
    为核函数k(x,y)的特征函数向量。
  5. 根据权利要求2所述的方法,其特征在于,利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,包括:
    利用
    Figure PCTCN2017102825-appb-100021
    获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的静态模型距离,其中,
    Figure PCTCN2017102825-appb-100022
    为待处理的数据流A的第一信息集合
    Figure PCTCN2017102825-appb-100023
    的静态行为模型,
    Figure PCTCN2017102825-appb-100024
    为目标应用类型所属的数据流B的流层面的静态行为模型,
    Figure PCTCN2017102825-appb-100025
    Figure PCTCN2017102825-appb-100026
    i表示信息集合中的第i个维度信息;
    利用
    Figure PCTCN2017102825-appb-100027
    获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的静态模型距离,其中,
    Figure PCTCN2017102825-appb-100028
    为待处理的数据流A的第二信息集合
    Figure PCTCN2017102825-appb-100029
    的静态行为模型,
    Figure PCTCN2017102825-appb-100030
    为目标应用类型所属的数据流B的链接层面的静态行为模型;
    利用
    Figure PCTCN2017102825-appb-100031
    获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的动态模型距离,其中,
    Figure PCTCN2017102825-appb-100032
    为待处理的数据流A的第一信息集合
    Figure PCTCN2017102825-appb-100033
    的静态行为模型,
    Figure PCTCN2017102825-appb-100034
    为目标应用类型所属的数据流B的流层面的静态行为模型;
    利用
    Figure PCTCN2017102825-appb-100035
    获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的动态模型距离,其中,
    Figure PCTCN2017102825-appb-100036
    为待处理的数据流A的第二信息集合
    Figure PCTCN2017102825-appb-100037
    的动态行为模型,
    Figure PCTCN2017102825-appb-100038
    为目标应用类型所属的数据流B的链接层面的动态行为模型。
  6. 根据权利要求1至5任一项所述的方法,其特征在于,基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型,包括:
    对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离;
    利用分类算法,基于所述特征距离,确定所述待处理的数据流的应用类型。
  7. 根据权利要求6所述的方法,其特征在于,对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离,包括:
    基于各个目标应用类型的数据流的静态行为模型及动态行为模型,获得权重矩阵,所述权重矩阵使得从属于同一应用类型的数据流之间的特征距离最小,从属于不同应用类型的数据流之间的特征距离最大;
    利用所述权重矩阵,对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离。
  8. 根据权利要求6所述的方法,其特征在于,所述分类算法包括:K近邻分类算法或Naive Bayesian分类算法;
    利用分类算法,基于所述特征距离,确定述待处理的数据流的应用类型,包括:
    基于K近邻分类算法或Naive Bayesian分类算法,将最小的特征距离所对应的目标应用类型确定为所述待处理的数据流的应用类型。
  9. 一种网络数据流分类的***,其特征在于,包括:
    从服务器及主服务器;
    所述从服务器,包括信息采集模块,所述信息采集模块用于采集终端传输的待处理的数据流的信息集合,所述信息集合包括有多个维度信息;
    所述主服务器,包括:
    数据接口,用于获得所述信息采集模块采集到的信息集合;
    存储器,用于存储应用程序及应用程序运行所产生的数据;
    处理器,用于运行所述应用程序,以实现以下功能:建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,所述静态行为模型表征所述维度信息的取值规律,所述动态行为模型表征所述维度信息在前后时刻之间的关联关系,利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型。
  10. 根据权利要求9所述的***,其特征在于,所述信息集合包括流层面的第一信息集合及链接层面的第二信息集合;
    所述第一信息集合至少包括以下维度信息:报文长度、报文到达时间间隔;
    所述第二信息集合至少包括以下维度信息:数据流长度、数据流中的报文数目、数据流持续时间、数据流到达时间间隔。
  11. 根据权利要求10所述的***,其特征在于,所述处理器建立所述信息集合中每个维度信息的静态行为模型及动态行为模型,具体为:
    获得所述第一信息集合中每个维度信息的边缘概率分布,所述边缘概率分布表征所述维度信息的取值规律,并基于所述第一信息集合中每个维度信息的边缘概率分布,生成所述第一信息集合中每个维度信息的静态行为模型;
    获得所述第一信息集合中每个维度信息的条件概率分布,所述条件概率分布表征所述维度信息在前后时刻之间的关联关系,并基于所述第一信息集合中每个维度信息的条件概率分布,生成所述第一信息集合中每个维度信息的动态行为模型;
    获得所述第二信息集合中每个维度信息的边缘概率分布,所述边缘概率分布表征所述维度信息的取值规律,并基于所述第二信息集合中每个维度信息的边缘概率分布,生成所述第二信息集合中每个维度信息的静态行为模型;
    获得所述第二信息集合中每个维度信息的条件概率分布,所述条件概率分布表征所述维度信息在前后时刻之间的关联关系,并基于所述第二信息集合中每个维度信息的条件概率分布,生成所述第二信息集合中每个维度信息的动态行为模型。
  12. 根据权利要求10所述的***,其特征在于,所述处理器建立所述信息集合中 每个维度信息的静态行为模型及动态行为模型,具体为:
    利用
    Figure PCTCN2017102825-appb-100039
    获得第一信息集合中每个维度信息的静态行为模型,其中,xi为第一信息集合
    Figure PCTCN2017102825-appb-100040
    中的第i个维度信息,n为第一信息集合
    Figure PCTCN2017102825-appb-100041
    中维度信息的个数,
    Figure PCTCN2017102825-appb-100042
    为核函数k(x,y)的特征函数向量;
    利用
    Figure PCTCN2017102825-appb-100043
    获得第一信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,
    Figure PCTCN2017102825-appb-100044
    Figure PCTCN2017102825-appb-100045
    且Ktt为所述第一信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第一信息集合
    Figure PCTCN2017102825-appb-100046
    中的第i个维度信息,n为第一信息集合
    Figure PCTCN2017102825-appb-100047
    中维度信息的个数,
    Figure PCTCN2017102825-appb-100048
    为核函数k(x,y)的特征函数向量,λ为预设参数,I为单位矩阵;
    利用
    Figure PCTCN2017102825-appb-100049
    获得第二信息集合
    Figure PCTCN2017102825-appb-100050
    中每个维度信息的静态行为模型,其中,xi为第二信息集合
    Figure PCTCN2017102825-appb-100051
    中的第i个维度信息,n为第二信息集合
    Figure PCTCN2017102825-appb-100052
    中维度信息的个数;
    利用
    Figure PCTCN2017102825-appb-100053
    获得第二信息集合中每个维度信息前后两个时刻的动态行为模型,其中,t为时刻,
    Figure PCTCN2017102825-appb-100054
    Figure PCTCN2017102825-appb-100055
    且Ktt为所述第二信息集合中维度信息所组成的矩阵,[Ktt]ij为矩阵中第i行第j个矩阵元素,[Ktt]ij=k(xi,xj),xi为第二信息集合
    Figure PCTCN2017102825-appb-100056
    中的第i个维度信息,n为第二信息集合
    Figure PCTCN2017102825-appb-100057
    中维度信息的个数,
    Figure PCTCN2017102825-appb-100058
    为核函数k(x,y)的特征函数向量。
  13. 根据权利要求10所述的***,其特征在于,所述处理器利用所述静态行为模型及所述动态行为模型,分别获得所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,具体为:
    利用
    Figure PCTCN2017102825-appb-100059
    获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的静态模型距离,其中,
    Figure PCTCN2017102825-appb-100060
    为待处理的数据流A的第一信息集合
    Figure PCTCN2017102825-appb-100061
    的静态行为模型,
    Figure PCTCN2017102825-appb-100062
    为目标应用类型所属的数据流B的流层面的静态行为模型,
    Figure PCTCN2017102825-appb-100063
    Figure PCTCN2017102825-appb-100064
    i表示信息集合中的第i个维度信息;
    利用
    Figure PCTCN2017102825-appb-100065
    获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的静态模型距离,其中,
    Figure PCTCN2017102825-appb-100066
    为待处理的数据流A的第二信息集合
    Figure PCTCN2017102825-appb-100067
    的静态行为模型,
    Figure PCTCN2017102825-appb-100068
    为目标应用类型所属的数据流B的链接层面的静态行为模型;
    利用
    Figure PCTCN2017102825-appb-100069
    获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于流层面的动态模型距离,其中,
    Figure PCTCN2017102825-appb-100070
    为待处理的数据流A的第一信息集合
    Figure PCTCN2017102825-appb-100071
    的静态行为模型,
    Figure PCTCN2017102825-appb-100072
    为目标应用类型所属的数据流B的流层面的静态行为模型;
    利用
    Figure PCTCN2017102825-appb-100073
    获得待处理的数据流A与各个目标应用类型所属的数据流B之间的关于链接层面的动态模型距离,其中,
    Figure PCTCN2017102825-appb-100074
    为待处理的数据流A的第二信息集合
    Figure PCTCN2017102825-appb-100075
    的动态行为模型,
    Figure PCTCN2017102825-appb-100076
    为目标应用类型所属的数据流B的链接层面的动态行为模型。
  14. 根据权利要求9~13任一项所述的***,其特征在于,所述处理器基于所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离,确定所述待处理的数据流的应用类型,具体为:
    对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离;
    利用分类算法,基于所述特征距离,确定所述待处理的数据流的应用类型。
  15. 根据权利要求14所述的***,其特征在于,所述处理器对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离,具体为:
    基于各个目标应用类型的数据流的静态行为模型及动态行为模型,获得权重矩阵, 所述权重矩阵使得从属于同一应用类型的数据流之间的特征距离最小,从属于不同应用类型的数据流之间的特征距离最大;
    利用所述权重矩阵,对所述待处理的数据流与各个目标应用类型所属的数据流之间的静态模型距离及动态模型距离进行加权处理,得到所述待处理的数据流与各个所述目标数据流之间的特征距离。
  16. 根据权利要求14所述的***,其特征在于,所述分类算法包括:K近邻分类算法或Naive Bayesian分类算法;
    所述处理器利用分类算法,基于所述特征距离,确定述待处理的数据流的应用类型,具体为:
    基于K近邻分类算法或Naive Bayesian分类算法,将最小的特征距离所对应的目标应用类型确定为所述待处理的数据流的应用类型。
PCT/CN2017/102825 2016-09-22 2017-09-22 一种网络数据流分类的方法及*** WO2018054342A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/362,135 US10999175B2 (en) 2016-09-22 2019-03-22 Network data flow classification method and system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610842056.0A CN107864168B (zh) 2016-09-22 2016-09-22 一种网络数据流分类的方法及***
CN201610842056.0 2016-09-22

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/362,135 Continuation US10999175B2 (en) 2016-09-22 2019-03-22 Network data flow classification method and system

Publications (1)

Publication Number Publication Date
WO2018054342A1 true WO2018054342A1 (zh) 2018-03-29

Family

ID=61690728

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/102825 WO2018054342A1 (zh) 2016-09-22 2017-09-22 一种网络数据流分类的方法及***

Country Status (3)

Country Link
US (1) US10999175B2 (zh)
CN (1) CN107864168B (zh)
WO (1) WO2018054342A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116260636A (zh) * 2023-02-15 2023-06-13 昆明学院 一种基于移动窗口的数据流安全动态监测方法

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180219765A1 (en) 2017-01-31 2018-08-02 Waltz Networks Method and Apparatus for Network Traffic Control Optimization
US10778528B2 (en) 2017-02-11 2020-09-15 Nicira, Inc. Method and system of connecting to a multipath hub in a cluster
US10546143B1 (en) * 2017-08-10 2020-01-28 Support Intelligence, Inc. System and method for clustering files and assigning a maliciousness property based on clustering
US10721134B2 (en) 2017-08-30 2020-07-21 Citrix Systems, Inc. Inferring radio type from clustering algorithms
US10686625B2 (en) 2017-10-02 2020-06-16 Vmware, Inc. Defining and distributing routes for a virtual network
US11115480B2 (en) 2017-10-02 2021-09-07 Vmware, Inc. Layer four optimization for a virtual network defined over public cloud
US10999100B2 (en) 2017-10-02 2021-05-04 Vmware, Inc. Identifying multiple nodes in a virtual network defined over a set of public clouds to connect to an external SAAS provider
US11223514B2 (en) 2017-11-09 2022-01-11 Nicira, Inc. Method and system of a dynamic high-availability mode based on current wide area network connectivity
AU2017439697B2 (en) * 2017-11-16 2023-08-31 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Network configuration method, apparatus, network element, and system
CN109905328B (zh) 2017-12-08 2021-06-01 华为技术有限公司 数据流的识别方法和装置
CN110008976A (zh) * 2018-12-05 2019-07-12 阿里巴巴集团控股有限公司 一种网络行为分类方法和装置
CN111953552B (zh) * 2019-05-14 2022-12-13 华为技术有限公司 数据流的分类方法和报文转发设备
CN112564991A (zh) * 2019-09-10 2021-03-26 华为技术有限公司 应用识别方法、装置及存储介质
CN113079102A (zh) * 2020-01-03 2021-07-06 ***通信有限公司研究院 一种大象流多分级调度方法及装置、设备、存储介质
US11722925B2 (en) 2020-01-24 2023-08-08 Vmware, Inc. Performing service class aware load balancing to distribute packets of a flow among multiple network links
US20210357190A1 (en) * 2020-05-12 2021-11-18 Sap Se Aesthetic visualizations by auto-optimizing connectors in workflows
CN113837210A (zh) * 2020-06-23 2021-12-24 腾讯科技(深圳)有限公司 小程序分类方法、装置、设备及计算机可读存储介质
US11711307B2 (en) * 2020-07-03 2023-07-25 Vmware, Inc. Network resource selection for flows using flow classification
CN112532453A (zh) * 2020-11-30 2021-03-19 成都思酷智能科技有限公司 网络异常信息处理方法及装置
US11929903B2 (en) 2020-12-29 2024-03-12 VMware LLC Emulating packet flows to assess network links for SD-WAN
US11979325B2 (en) 2021-01-28 2024-05-07 VMware LLC Dynamic SD-WAN hub cluster scaling with machine learning
CN112799603B (zh) * 2021-03-02 2024-05-14 王希敏 多数据流驱动的信号处理***的任务行为模型
US12009987B2 (en) 2021-05-03 2024-06-11 VMware LLC Methods to support dynamic transit paths through hub clustering across branches in SD-WAN
US12015536B2 (en) 2021-06-18 2024-06-18 VMware LLC Method and apparatus for deploying tenant deployable elements across public clouds based on harvested performance metrics of types of resource elements in the public clouds
US12047282B2 (en) * 2021-07-22 2024-07-23 VMware LLC Methods for smart bandwidth aggregation based dynamic overlay selection among preferred exits in SD-WAN
US11943146B2 (en) 2021-10-01 2024-03-26 VMware LLC Traffic prioritization in SD-WAN
US11909815B2 (en) 2022-06-06 2024-02-20 VMware LLC Routing based on geolocation costs
US12034587B1 (en) 2023-03-27 2024-07-09 VMware LLC Identifying and remediating anomalies in a self-healing network

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080082475A1 (en) * 2006-09-12 2008-04-03 International Business Machines Corporation System and method for resource adaptive classification of data streams
CN101599895A (zh) * 2008-06-04 2009-12-09 华为技术有限公司 数据处理方法及宽带网络网关、策略控制器装置和接入节点设备
CN103678512A (zh) * 2013-12-26 2014-03-26 大连民族学院 一种动态数据环境下的数据流混合分类方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457241B2 (en) * 2004-02-05 2008-11-25 International Business Machines Corporation Structure for scheduler pipeline design for hierarchical link sharing
US20060239219A1 (en) 2005-04-22 2006-10-26 At&T Corporation Application signature based traffic classification
JP4717533B2 (ja) 2005-07-06 2011-07-06 株式会社 日立ディスプレイズ 表示装置
US7685115B2 (en) * 2006-07-21 2010-03-23 Mitsubishi Electronic Research Laboratories, Inc. Method for classifying private data using secure classifiers
CN100595782C (zh) * 2008-04-17 2010-03-24 中国科学院地理科学与资源研究所 一种融合光谱信息和多点模拟空间信息的分类方法
US20100203876A1 (en) * 2009-02-11 2010-08-12 Qualcomm Incorporated Inferring user profile properties based upon mobile device usage
CN101977146B (zh) * 2010-10-25 2013-04-17 成都飞鱼星科技开发有限公司 一种网络流量智能控制器及其实现方法
US8817655B2 (en) * 2011-10-20 2014-08-26 Telefonaktiebolaget Lm Ericsson (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
US20130148513A1 (en) * 2011-12-08 2013-06-13 Telefonaktiebolaget Lm Creating packet traffic clustering models for profiling packet flows
CN102724317B (zh) 2012-06-21 2016-05-25 华为技术有限公司 一种网络数据流量分类方法和装置
CN103235928A (zh) * 2013-01-08 2013-08-07 沈阳理工大学 一种具有监督机制的步态识别方法
US10187297B2 (en) * 2014-10-27 2019-01-22 Hewlett Packard Enterprise Development Lp Classification with a switch
CN105809958A (zh) * 2016-03-29 2016-07-27 中国科学院深圳先进技术研究院 一种基于交叉口群的交通控制方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080082475A1 (en) * 2006-09-12 2008-04-03 International Business Machines Corporation System and method for resource adaptive classification of data streams
CN101599895A (zh) * 2008-06-04 2009-12-09 华为技术有限公司 数据处理方法及宽带网络网关、策略控制器装置和接入节点设备
CN103678512A (zh) * 2013-12-26 2014-03-26 大连民族学院 一种动态数据环境下的数据流混合分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116260636A (zh) * 2023-02-15 2023-06-13 昆明学院 一种基于移动窗口的数据流安全动态监测方法
CN116260636B (zh) * 2023-02-15 2024-03-12 昆明学院 一种基于移动窗口的数据流安全动态监测方法

Also Published As

Publication number Publication date
US20190222499A1 (en) 2019-07-18
US10999175B2 (en) 2021-05-04
CN107864168A (zh) 2018-03-30
CN107864168B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
WO2018054342A1 (zh) 一种网络数据流分类的方法及***
Shafiq et al. A machine learning approach for feature selection traffic classification using security analysis
Chen et al. Seq2img: A sequence-to-image based approach towards ip traffic classification using convolutional neural networks
Salman et al. A review on machine learning–based approaches for Internet traffic classification
Iliyasu et al. Semi-supervised encrypted traffic classification with deep convolutional generative adversarial networks
Zeng et al. $ Deep-Full-Range $: a deep learning based network encrypted traffic classification and intrusion detection framework
Dong et al. Novel feature selection and classification of Internet video traffic based on a hierarchical scheme
CN110445653B (zh) 网络状态预测方法、装置、设备及介质
Zhang et al. Network traffic classification using correlation information
CN111464485A (zh) 一种加密代理流量检测方法和装置
CN110324260B (zh) 一种基于流量识别的网络功能虚拟化智能调度方法
Lin et al. MFFusion: A multi-level features fusion model for malicious traffic detection based on deep learning
CN116346418A (zh) 基于联邦学习的DDoS检测方法及装置
CN111526101A (zh) 一种基于机器学习的物联网动态流量分类方法
Zaki et al. GRAIN: Granular multi-label encrypted traffic classification using classifier chain
Zeng et al. Test: an end-to-end network traffic classification system with spatio-temporal features extraction
Tan et al. An Internet Traffic Identification Approach Based on GA and PSO-SVM.
Zhao et al. Research on lightweight anomaly detection of multimedia traffic in edge computing
CN113128626A (zh) 基于一维卷积神经网络模型的多媒体流细分类方法
Zeng et al. TEST: An end-to-end network traffic examination and identification framework based on spatio-temporal features extraction
Mo et al. Encrypted traffic classification using graph convolutional networks
Wang et al. Network traffic classification based on federated semi-supervised learning
Li et al. High performance flow feature extraction with multi-core processors
Ma et al. A summary of traffic identification method depended on machine learning
Lu et al. TCFOM: a robust traffic classification framework based on OC-SVM combined with MC-SVM

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17852410

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17852410

Country of ref document: EP

Kind code of ref document: A1