CN112350956B - 一种网络流量识别方法、装置、设备及机器可读存储介质 - Google Patents

一种网络流量识别方法、装置、设备及机器可读存储介质 Download PDF

Info

Publication number
CN112350956B
CN112350956B CN202011147234.0A CN202011147234A CN112350956B CN 112350956 B CN112350956 B CN 112350956B CN 202011147234 A CN202011147234 A CN 202011147234A CN 112350956 B CN112350956 B CN 112350956B
Authority
CN
China
Prior art keywords
service
class
decision tree
service class
tree model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011147234.0A
Other languages
English (en)
Other versions
CN112350956A (zh
Inventor
程万里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN202011147234.0A priority Critical patent/CN112350956B/zh
Publication of CN112350956A publication Critical patent/CN112350956A/zh
Application granted granted Critical
Publication of CN112350956B publication Critical patent/CN112350956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种网络流量识别方法、装置、设备及机器可读存储介质,可以通过将当前业务的业务特征值分别输入至N个二分类决策树模型中得到每一二分类决策树模型输出的业务类别概率,以根据每一二分类决策树模型输出的业务类别概率确定当前业务所属的目标业务类别。每一二分类决策树模型输出的业务类别概率对应该二分类决策树模型对应的业务类别,以及,基于二分类决策树模型的特性,即使针对业务所使用新的IP地址或是遇到训练集中未存在的业务类别时,也能够依据不同业务类别对应业务特征值间的相似性,获得当前业务对应的业务类别概率,进而以通过对输出的业务类别概率进行分析,确定出当前业务所属的业务类别,从而能够提高流量的识别率。

Description

一种网络流量识别方法、装置、设备及机器可读存储介质
技术领域
本申请涉及业务分析技术领域,尤其涉及一种网络流量识别方法、装置、设备及机器可读存储介质。
背景技术
随着计算机网络技术的飞速发展,互联网已经覆盖了生活的方方面面,与此同时,网络规模的不断扩大引起业务的爆发式增长,复杂多变的互联网新应用也伴随着技术的革新层出不穷。然而,由于传输控制协议/互联协议TCP/IP架构的开放性,各种针对网络协议和应用程序漏洞的攻击可能会造成国民经济的损失。因此,业务分类技术作为网络安全的基础,对保障网络合理运行、维护信息安全具有重要作用。
现阶段,基于机器学习的网络流量识别方法,以其轻量级和灵活性成为了如今业务分类技术研究的方向。然而,目前大多数基于机器学习的业务识别方案,都是基于应用时当前业务传输所使用的IP地址和训练时样本流量传输所使用的IP地址相同的前提下进行识别,然而在实际应用中,不可能获取所有IP地址传输的业务数据,这就造成在真实网络环境中,当同一应用程序输出的业务在传输时使用新的IP地址或遇到训练集中未存在的业务类别时,不能有效地对当前业务进行识别。
发明内容
有鉴于此,本申请提供网络流量识别方法、装置、设备及机器可读存储介质,以提高流量的识别率。
具体地,本申请是通过如下技术方案实现的:
一方面,本申请实施例提供一种网络流量识别方法,所述方法包括:
获得当前业务的网络流量的业务特征值;所述业务特征值的数量大于或等于1;
将获得的业务特征值分别输入至N个二分类决策树模型中,得到每一所述二分类决策树模型输出的当前业务所属该二分类决策树模型对应的业务类别的业务类别概率;所述N大于或等于1;
根据每一二分类决策树模型输出的业务类别概率确定所述当前业务所属的目标业务类别。
另一方面,基于相同的构思,本申请实施例还提供一种网络流量识别装置,所述装置包括:
业务特征值获取单元,用于获取获得当前业务的网络流量的业务特征值;所述业务特征值的数量大于或等于1;
信息获得单元,用于将获得的业务特征值分别输入至N个二分类决策树模型中,得到每一所述二分类决策树模型输出的当前业务所属该二分类决策树模型对应的业务类别的业务类别概率;所述N大于或等于1;
业务类别确定单元,用于根据每一二分类决策树模型输出的业务类别概率确定所述当前业务所属的目标业务类别。
再一方面,本申请实施例提供一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现上述实施例所述的网络流量识别方法的方法步骤。
再一方面,本申请实施例还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现上述实施例所述的网络流量识别方法的方法步骤。
由以上技术方案可以看出,本申请实施例中,可以通过将当前业务的业务特征值分别输入至N个二分类决策树模型中,得到每一二分类决策树模型输出的业务类别概率,以根据每一二分类决策树模型输出的业务类别概率确定当前业务所属的目标业务类别。可见,在本申请中,每一二分类决策树模型输出的业务类别概率对应该二分类决策树模型对应的业务类别,这样,多个二分类决策树模型能够尽可能较大概率地识别出当前业务所属的业务类别。基于二分类决策树模型的特性,即使针对当前业务所使用新的IP地址或是遇到训练集中未存在的业务类别时,也能够依据不同业务类别对应业务特征值间的相似性,获得当前业务对应的业务类别概率,进而以通过对输出的业务类别概率进行分析,确定出当前业务所属的业务类别,从而能够提高流量的识别率。
附图说明
图1本申请实施例提供的一种网络流量识别方法的流程示意图;
图2本申请实施例提供的通过训练得到类型识别模型的流程示意图;
图3本申请实施例提供的一种业务类别识别装置的结构示意图;
图4本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本申请中,业务分类可以理解为将业务归类至特定的业务类别,例如:可以将流量归类至某一类应用,如聊天类、视频类、邮件类、即时通讯类等。
而对于业务分类技术而言,一方面,通过对流量的精准识别可以减少不必要的网络连接,规避网络攻击风险。另一方面,网络管理者通过流量识别能够合理有效地分配网络资源,提供更好的网络服务。可见,对业务进行精准分类的重要性。
相关技术中,业务分类技术主要分为以下三种网络流量识别方法:
第一种网络流量识别方法为:基于端口号映射的流量识别,具体为:通过从流量数据包的包头中提取端口号信息,然后,基于互联网地址指派机构制定的端口号映射表,查找与提取的端口号相同的固定端口号对应的网络应用。
第二种网络流量识别方法为:基于DPI(Deep Packet Inspection,深度数据包检测)的流量识别,具体为:通过对当前流量数据包的应用层所负载的业务数据进行分析,得到流量数据包应用层的业务特征值,从而实现了对该当前业务所属的业务类别的识别。
第三种网络流量识别方法为:基于机器学习的流量识别方法,具体为:采用监督学习或者半监督学习,但是无论是监督学习还是半监督学习均能够识别已知业务所属业务类别,且无法识别未知业务类别。
基于上述描述,第一种网络流量识别方法会随着大量动态端口的广泛应用,已逐渐无法满足实际应用的需求。第二种网络流量识别方法难以处理加密的业务。而且上述两种类型识别方法本质上都是解析识别方法,即需要按照人为设定的规则对业务所属的业务类别进行识别,不具备智能识别能力。第三种类型识别方法即机器学习能够克服前两种方法的固有缺陷,可以挖掘业务的隐含的特征,能准确识别加密网络流并且对流量传输行为特征的变化有一定的适应性。
然而,目前大多数基于机器学习的流量识别方案都是基于应用时当前业务网络传输所使用的IP地址和训练时样本业务传输所使用IP地址相同的前提下进行识别,然而在实际应用中,不可能获取所有IP地址传输的业务数据,这就造成在真实网络环境中,当同一应用程序出现新的IP或遇到训练集中未存在的业务类别时,不能有效地对当前业务进行识别。为解决这一技术问题,本申请实施例提供了一种网络流量识别方法、装置、设备及机器可读存储介质。
本申请的一个实施例中,提供了一种网络流量识别方法,该方法具体包括:获得当前业务的网络流量的业务特征值;业务特征值的数量大于或等于1;将获得的业务特征值分别输入至N个二分类决策树模型中,得到每一二分类决策树模型输出的当前业务所属该二分类决策树模型对应的业务类别的业务类别概率;上述N大于或等于1;根据每一二分类决策树模型输出的业务类别概率确定当前业务所属的目标业务类别。
由以上可见,在本申请实施例提供的技术方案中,每一二分类决策树模型输出的业务类别概率对应该二分类决策树模型对应的业务类别,这样,多个二分类决策树模型能够尽可能较大概率地识别出当前业务所属的业务类别。基于二分类决策树模型的特性,即使针对当前业务所使用新的IP地址或是遇到训练集中未存在的业务类别时,也能够依据不同业务类别对应业务特征值间的相似性,获得当前业务对应的业务类别概率,进而以通过对输出的业务类别概率进行分析,确定出当前业务所属的业务类别,从而能够提高流量的识别率。
参见图1,图1为本申请实施例提供的一种网络流量识别方法的流程示意图,该方法可以包括如下步骤:
步骤101、获得当前业务的网络流量的业务特征值;上述业务特征值的数量大于或等于1。
业务在网络传输过程中的一些行为特征隐含该业务可能所属的业务类别。基于此,作为一个实施例,上述业务特征可以是通过对表示业务网络传输行为特征的特征数据进行统计处理得到的。
这些特征数据包括表示业务传输路径的行为特征的数据,如源IP、目的IP、源端口和目的端口,表示业务传输用时的行为特征,如最大时延和最小时延如大小,表示业务传输遵循传输约定的行为特征,如网络协议,表示业务传输速度的行为特征,如上行流量、下行流量、上行包数和下行包数。
为了便于统计处理,则将上述数据特征进行如下处理:以源IP、目的IP、源端口、目的端口和网络协议为依据,将当前业务分为双向流和单向流,对双向流对应的上述特征数据进行聚合,得到聚合后表示单向流的特征数据,作为一个实施例,可以将源IP和目的IP进行交换,以及,源端口和目的端口进行交换,交换后形成单向流,仍属于同一流。
为了便于类型识别模型进行识别,对源IP、目的IP、源端口或目的端口进行统计处理的一个实施例可以为:将源IP、目的IP、源端口或目的端口分成四部分,第一部分进行哈希计算,得到哈希值,第二部分乘以第一预设值如2、第三部分乘以第二预设值如3和第四部分乘以第三预设值如4,然后将上述每一部分处理的结果进行拼接,得到最终源IP、目的IP、源端口或目的端口对应的特征值。
对网络协议进行统计处理的一个实施例为:统计网络协议的数量,并对每个网络协议进行编号。
对上述表示业务传输用时的行为特征对应的特征数据进行统计计算,得到平均时延、最大时延、最小时延。
对上述表示业务传输速度的行为特征对应的特征数据进行统计处理,得到上行包数、下行包数、上下行流量比、上行流量占比、下行流量占比、上下行包数比、上行包数占比、下行包数占比、上下行流量差、上行流量与包数的比值和下行流量与包数比值。
作为一个实施例,当前业务的业务特征值可以包括基础业务特征值与其它特征值中的一项或多项任意组合:其中,基础业务特征值包括:网络协议、上下行流量比、上行流量占比、下行流量占比、上下行包数比、上行包数占比、下行包数占比、上下行流量差、上行流量与包数的比值和下行流量与包数比值;其它业务特征值包括:源IP地址、目的IP地址、源端口、目的端口、平均时延、最大时延、最小时延、上行包数、下行包数。
步骤102,将获得的业务特征值分别输入至N个二分类决策树模型中得到每一二分类决策树模型输出的当前业务所属该二分类决策树模型对应的业务类别的业务类别概率;上述N大于或等于1。
本步骤中,针对每一个二分类决策树模型构建时所使用的业务类别不通,这也就意味着,每一个二分类决策树模型所属的业务类别均不同。
示例性的,假设二分类决策树模型有三个,分别记为模型A1、模型A2和模型A3,在训练时,模型A1训练时所使用的二分类决策树模型是基于业务类别为聊天类构建的模型,则模型A1是用于识别业务所属的业务类别为聊天类的模型,同理,模型A2训练时所使用的二分类决策树模型是基于业务类别为视频类构建的模型,则模型A2是用于识别业务所属的业务类别为视频类的模型,而模型A3训练时所使用的二分类决策树模型是基于业务类别为邮件类构建的模型,则模型A3是用于识别业务所属的业务类别为邮件类的模型。
上述N表示二分类决策树模型的个数,是自然数。
需要说明的是,当前业务所属该二分类决策树模型对应的业务类别的业务类别概率可以是大于或等于0,业务类别概率大于0,则表示该二分类决策树模型识别当前业务所属的业务类别是该二分类决策树模型对应的业务类别的几率。业务类别概率等于0,则表示该二分类决策树模型识别出当前业务所属的业务类别不属于该二分类决策树模型对应的业务类别。
在本实施例中,该二分类决策树模型对应的业务类别可以是构建该二分类决策树模型所使用训练时的正样本所属的业务类别。
具体的,针对每一二分类决策树模型,该二分类决策树模型输出正样本所属业务类别概率P0,以及,输出负样本所属业务类别概率P1,若P0大于或等于P1,则该二分类决策树模型输出的业务类别概率大于或等于50%,若P0小于或等于P1,则该二分类决策树模型输出的业务类别概率小于50%。
基于上述示例,设当前业务B为从应用程序QQ传输的流量,将当前业务B对应的业务特征值分别输入到业务类别为聊天类的模型A1、业务类别为短信类的模型A2和业务类别为邮件类的模型A3中,获得模型A1输出的表示聊天类的业务类别概率为90%;模型A2输出的表示短信类的业务类别概率为20%和模型A3输出的表示邮件类的识别结果为80%。
步骤103,根据每一二分类决策树模型输出的业务类别概率确定上述当前业务所属的目标业务类别。
在通过步骤102中多个二分类决策树模型输出当前业务所属业务类别的业务类别概率后,鉴于每一二分类决策树模型对应的业务类别均不同,基于此,需要对这些业务类别概率进行分析,以确定出一个作为当前业务所属的业务类别,确定出的业务类别就是本步骤的目标业务类别。
作为一个实施例,实现本步骤103的一种实现方式可以包括如下步骤A和步骤B:
步骤A,如果每一二分类决策树模型输出的业务类别概率中存在大于或等于预设值的业务类别概率,则从输出的业务类别概率中选择一个业务类别概率最高的业务类别作为所述目标业务类别。
基于此,上述预设值可以是50%,为了提高识别对准确率,该预设值也可以是60%,本实施例对此不限定。
示例性的,针对每一二分类决策树模型,若该二分类决策树模型输出的业务类别概率大于或等于50%,则就意味着,业务所属的业务类别属于该二分类决策树模型对应的业务类别的概率大于或等于50%。
针对每一二分类决策树模型,若该二分类决策树模型输出的业务类别概率小于50%,则就意味着,业务所属的业务类别不属于该二分类决策树模型对应的业务类别大于50%。
相应地,根据选择出的业务类别概率对应的业务类别,从选择出的业务类别概率中确定一个业务类别概率最高的对业务类别作为目标业务类别。
作为一个实施例,如果每一二分类决策树模型输出的业务类别概率存在概率大于或等于预设值的业务类别概率,则从每一二分类决策树模型输出的业务类别概率中选择概率最高的业务类别概率,若所选择的概率最高的业务类别概率的数量为至少两个以上,则可以从概率最高的业务类别概率中任选择一个业务类别概率包括的业务类别作为目标业务类别。
步骤B,如果每一二分类决策树模型输出的业务类别概率均小于预设值,则将用于表示无法识别业务类别的类别信息作为目标业务类别。
如果每一二分类决策树模型还会输出第一识别值或第二识别值,第一识别值表示业务类别概率大于或等于预设值,第二识别值表示业务类别概率小于预设值。作为一个实施例,实现步骤103的另一个实现方式可以包括如下步骤:
统计各二分类决策树模型输出第一识别值的数量,则,
如果上述第一识别值的数量等于1,则将第一识别值对应的业务类别确定为目标业务类别;
如果上述第一识别值的数量大于1,则将第一识别值所属二分类决策树模型输出的业务类别概率最高的业务类别确定为目标业务类别;
如果上述第一识别值的数量等于0,则将当前业务所属业务类别确定为表示无法识别业务类别的类别信息。
在本实施例中,统计各二分类决策树模型输出第一识别值的数量,如果第一识别值的数量等于1,则表示所获得的业务类别概率中仅有一个二分类决策树模型输出该二分类决策树模型对应的业务类别的概率大于其他业务类别的概率。上述其他业务类别概率就是训练该二分类决策树模型负样本所属业务类别的概率,后续将会对二分类决策树模型的详细训练过程进行描述,在此不再赘述。
如果第一识别值的数量大于1,则表示所获得的业务类别概率中存在多个二分类决策树模型对应的业务类别概率大于其他业务类别的概率,则可以对包括第一识别值的业务类别概率中的概率进行排序,得到排序序列,从得到的排序序列中确定出一个概率最高对应的业务类别作为该当前业务所属的业务类别即目标业务类别。
基于上述示例,对模型A1、模型A2和模型A3均输出的业务类别概率进行分析,可见,模型A1输出当前业务B所属的业务类别为聊天类的业务类别概率(90%)高于模型A3输出的业务类别为邮件类的业务类别概率(80%),由此,可以确定出当前业务B的业务类别为聊天类。
如果第一识别值的数量等于0,则表示每一二分类决策树模型输出的业务类别概率为第二识别值,也就是说,每一二分类决策树模型识别出当前业务所属业务类别均为负样本所属业务类别,还需要进一步确定该当前业务,基于此,可以将标记该当前业务所属类型为其他类型。
由此可见,在本申请实施例的技术方案中,每一二分类决策树模型输出的业务类别概率对应该二分类决策树模型对应的业务类别,这样,多个二分类决策树模型能够尽可能较大概率地识别出当前业务所属的业务类别。基于二分类决策树模型的特性,即使针对当前业务所使用新的IP地址或是遇到训练集中未存在的业务类别时,也能够依据不同业务类别对应业务特征值间的相似性,获得当前业务对应的业务类别概率,进而以通过对输出的业务类别概率进行分析,确定出当前业务所属的业务类别,从而能够提高流量的识别率。
本申请的一个实施例中,如图2所示,通过如下步骤训练得到每一二分类决策树模型,具体为:
步骤201,获得属于第一业务类别的M个正样本业务特征值;M大于或等于1。
上述第一业务类别可以是指样本业务类别的任一业务类别。
上述正样本业务特征值可以是从网络流量***已经识别出所属第一业务类别的业务的业务特征值。
可以从本网络流量***中采集器产生的流量会话日志中获取正样本各自表示网络传输行为特征的样本特征数据;
这些样本特征数据是已识别流量在网络传输过程中的一些行为特征隐含该流量可能所属的业务类别的特征数据。
这些样本特征数据包括表示业务传输路径的行为特征的数据,如源IP、目的IP、源端口和目的端口,表示业务传输用时的行为特征,如最大时延和最小时延如大小,表示业务传输遵循传输约定的行为特征,如网络协议,表示业务传输速度的行为特征,如上行流量、下行流量、上行包数和下行包数。
步骤202,获得M个负样本业务特征值,上述M个负样本业务特征值中任一负样本业务特征值所属的业务类别不同于所述第一业务类别。
负样本所属的业务类别可以各不同,也可以是部分不同,但负样本所属的业务类别均与第一业务类别均不同。
为了便于统计处理,则将上述样本数据特征进行如下处理:以源IP、目的IP、源端口、目的端口和网络协议为依据,将当前业务分为双向流和单向流,对双向流对应的上述特征数据进行聚合,得到聚合后表示单向流的特征数据,作为一个实施例,可以将源IP和目的IP进行交换,以及,源端口和目的端口进行交换,交换后形成单向流,仍属于同一流。
为了便于二分类决策树模型进行识别,对源IP、目的IP、源端口或目的端口进行统计处理的一个实施例可以为:将源IP、目的IP、源端口或目的端口分成四部分,第一部分进行哈希计算,得到哈希值,第二部分乘以第一预设值如2、第三部分乘以第二预设值如3和第四部分乘以第三预设值如4,然后将上述每一部分处理的结果进行拼接,得到最终源IP、目的IP、源端口或目的端口对应的特征值。
对网络协议进行统计处理的一个实施例为:统计网络协议的数量,并对每个网络协议进行编号。
对上述表示正样本和负样本各自传输用时的行为特征对应的特征数据进行统计计算,得到平均时延、最大时延、最小时延。
对上述表示正样本和负样本各自传输速度的行为特征对应的特征数据进行统计处理,得到上行包数、下行包数、上下行流量比、上行流量占比、下行流量占比、上下行包数比、上行包数占比、下行包数占比、上下行流量差、上行流量与包数的比值和下行流量与包数比值。
作为一个实施例,上述样本特征值包括样本基础业务特征值与样本其它特征值中的一项或多项任意组合;其中,样本基础业务特征值包括:网络协议、上下行流量比、上行流量占比、下行流量占比、上下行包数比、上行包数占比、下行包数占比、上下行流量差、上行流量与包数的比值和下行流量与包数比值;样本其它业务特征值包括:源IP地址、目的IP地址、源端口、目的端口、平均时延、最大时延、最小时延、上行包数、下行包数。
步骤203,采用二分类决策树算法、上述M个正样本数据、上述M个负样本数据构建第一业务类别对应的二分类决策树模型。
在本申请中,将业务所属业务类别分类看作一个分类问题,在此,选择决策树模型作为初始的、待训练的分类模型,这样,本实施例可以基于决策树分类算法,构建与正样本所属业务类别为同一业务类别(第一类业务类别)的二分类决策树模型。
其中,决策树分类算法是一种基于实例的归纳学习方法,该算法能从给定的无序的训练样本中,提炼出树型的分类模型。树中的每个非叶子节点记录了使用哪个样本特征值进行类型识别的判断过程,每个叶子节点表示最终判断的样本所属业务类别。根节点到每个叶子节点均形成一条对应流量所属业务类别分类的路径规则。而对新的样本进行测试时,只需要从根节点开始,在每个分支节点进行测试,沿着相应的分支递归地进入子树再测试,一直到达叶子节点,该叶子节点表示的业务类别就是当前测试样本预测的流量所属业务类别。
与其他机器学习分类算法相比较,决策树分类算法相对简单,只要训练样本集合能够使用特征向量和类别进行表示,就可以构造决策树分类算法。同时,决策树分类算法的复杂度仅与决策树的层数有关,是线性的,这样,数据处理效率高,适合实时分类的场合,基于此,本申请采用决策树分类算法构建二分类决策树模型。
在训练时,将所获得的样本特征值输入到二分类决策树模型中,对上述二分类决策树模型进行训练,以获得用于识别业务所属业务类别为正样本所属业务类别的二分类决策树模型。
示例性的,在对样本特征数据进行统计处理后,每一个正样本和负样本均可以表示为20维的特征向量(如上实施例中的特征值)。在此,假设有N种业务类别,每种业务类别有M个样本,这样,每一业务类别对应的样本特征值可以表示为M×20维的矩阵,然后,将当前业务类别对应的样本流量作为正样本,从其他业务类别中随机抽样出等量的样本流量作为负样本,最后将正、负样本合并起来用于模型的训练,可以得到N个用于识别业务所属业务类别的二分类决策树模型。
需要说明的是,随着网络规模的不断扩大,伴随着业务所属业务类别的不断增多,可能会出现一些未知业务类别,可以将这些未知业务类别按照上述步骤201~步骤203进行训练,并更新二分类决策树模型,获得更新后的类二分类决策树模型,以在原有已经训练好的二分类决策树模型的基础上,扩充二分类决策树模型规模,使得扩充后的二分类决策树模型识别业务所属业务类别的准确率更高。
可见,在本申请实施例提供的技术方案中,每一二分类决策树模型是采用二分类决策树算法、正样本数据、负样本数据构建的与正样本所属业务类别对应的二分类决策树模型,本申请实施例所使用正样本和负样本既丰富又全面,且二分类决策树算法训练的二分类决策树模型,处理数据即简单又效率高,从而使得利用训练获得的二分类决策树模型能够准确地识别业务所属业务类别,进而进一步提高了业务所属业务类别的识别率。
基于与上述方法同样的申请构思,本申请实施例还提出一种网络流量识别装置300,参见图3所示,为该装置的结构图,该装置包括:
业务特征值获取单元301,用于获取获得当前业务的网络流量的业务特征值;所述业务特征值的数量大于或等于1;
信息获得单元302,用于将获得的业务特征值分别输入至N个二分类决策树模型中,得到每一所述二分类决策树模型输出的当前业务所属该二分类决策树模型对应的业务类别的业务类别概率;所述N大于或等于1;
业务类别确定单元303,用于根据每一二分类决策树模型输出的业务类别概率确定当前业务所属的目标业务类别。
作为一个实施例,上述装置还可以包括:模型训练单元,模型训练单元,用于训练每一二分类决策树模型;
其中,所述模型训练单元,具体用于:
获得属于第一业务类别的M个正样本业务特征值;M大于或等于1;
获得M个负样本业务特征值,所述M个负样本业务特征值中任一负样本业务特征值所属的业务类别不同于所述第一业务类别;
采用二分类决策树算法、所述M个正样本数据、所述M个负样本数据构建第一业务类别对应的二分类决策树模型。
作为一个实施例,上述业务类别确定单元303,具体用于:
如果每一二分类决策树模型输出的业务类别概率中存在大于或等于预设值的业务类别概率,则从输出的业务类别概率中选择一个概率业务类别概率最高的业务类别作为所述目标业务类别;
如果每一二分类决策树模型输出的业务类别概率均小于预设值,则将用于表示无法识别业务类别的类别信息作为目标业务类别。
作为一个实施例,上述当前业务的业务特征值可以包括以下特征值中的任一组合:
源IP地址、目的IP地址、源端口、目的端口、网络协议、平均时延、最大时延、最小时延、上行包数、下行包数、上下行流量比、上行流量占比、下行流量占比、上下行包数比、上行包数占比、下行包数占比、上下行流量差、上行流量与包数的比值和下行流量与包数比值。
综上所述,在本申请实施例提供的技术方案中,每一二分类决策树模型输出的业务类别概率对应该二分类决策树模型对应的业务类别,这样,多个二分类决策树模型能够尽可能较大概率地识别出当前业务所属的业务类别。基于二分类决策树模型的特性,即使针对当前业务所使用新的IP地址或是遇到训练集中未存在的业务类别时,也能够依据不同业务类别对应业务特征值间的相似性,获得当前业务对应的业务类别概率,进而以通过对输出的业务类别概率进行分析,确定出当前业务所属的业务类别,从而能够提高流量的识别率。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
本申请实施例提供的电子设备,从硬件层面而言,硬件架构示意图可以参见图4所示。包括:机器可读存储介质和处理器,其中:所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现上述示例公开的网络流量识别操作。
本申请实施例提供的机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现上述示例公开的网络流量识别操作。
这里,机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(RadomAccess Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (8)

1.一种网络流量识别方法,其特征在于,所述方法包括:
获得当前业务的网络流量的业务特征值;所述业务特征值的数量大于或等于1;
将获得的业务特征值分别输入至N个二分类决策树模型中,得到每一所述二分类决策树模型输出的当前业务所属该二分类决策树模型对应的业务类别的业务类别概率;所述N大于或等于1;
根据每一二分类决策树模型输出的业务类别概率确定所述当前业务所属的目标业务类别;
所述根据每一二分类决策树模型输出的业务类别概率确定所述当前业务所属的目标业务类别包括:
如果每一二分类决策树模型输出的业务类别概率中存在大于或等于预设值的业务类别概率,则从输出的业务类别概率中选择一个业务类别概率最高的业务类别作为所述目标业务类别;
如果每一二分类决策树模型输出的业务类别概率均小于预设值,则将用于表示无法识别业务类别的类别信息作为目标业务类别;
其中,所述当前业务的业务特征值包括基础业务特征值的一项或多项任意组合;
所述基础业务特征值包括:网络协议、上下行流量比、上行流量占比、下行流量占比、上下行包数比、上行包数占比、下行包数占比、上下行流量差、上行流量与包数的比值和下行流量与包数比值。
2.根据权利要求1所述的方法,其特征在于,通过以下方式训练每一二分类决策树模型:
获得属于第一业务类别的M个正样本业务特征值;M大于或等于1;
获得M个负样本业务特征值,所述M个负样本业务特征值中任一负样本业务特征值所属的业务类别不同于所述第一业务类别;
采用二分类决策树算法、所述M个正样本数据、所述M个负样本数据构建第一业务类别对应的二分类决策树模型。
3.根据权利要求1~2中任一项所述的方法,其特征在于,所述当前业务的业务特征值包括基础业务特征值与其它特征值中的一项或多项任意组合;
其中,所述其它业务特征值包括:源IP地址、目的IP地址、源端口、目的端口、平均时延、最大时延、最小时延、上行包数、下行包数。
4.一种网络流量识别装置,其特征在于,所述装置包括:
业务特征值获取单元,用于获取获得当前业务的网络流量的业务特征值;所述业务特征值的数量大于或等于1;
信息获得单元,用于将获得的业务特征值分别输入至N个二分类决策树模型中,得到每一所述二分类决策树模型输出的当前业务所属该二分类决策树模型对应的业务类别的业务类别概率;所述N大于或等于1;
业务类别确定单元,用于根据每一二分类决策树模型输出的业务类别概率确定所述当前业务所属的目标业务类别;
所述业务类别确定单元,具体用于:
如果每一二分类决策树模型输出的业务类别概率中存在大于或等于预设值的业务类别概率,则从输出的业务类别概率中选择一个业务类别概率最高的业务类别作为所述目标业务类别;
如果每一二分类决策树模型输出的业务类别概率均小于预设值,则将用于表示无法识别业务类别的类别信息作为目标业务类别;
其中,所述当前业务的业务特征值包括基础业务特征值中的一项或多项任意组合;所述基础业务特征值包括:网络协议、上下行流量比、上行流量占比、下行流量占比、上下行包数比、上行包数占比、下行包数占比、上下行流量差、上行流量与包数的比值和下行流量与包数比值。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:模型训练单元,用于训练每一二分类决策树模型;
其中,所述模型训练单元,具体用于:
获得属于第一业务类别的M个正样本业务特征值;M大于或等于1;
获得M个负样本业务特征值,所述M个负样本业务特征值中任一负样本业务特征值所属的业务类别不同于所述第一业务类别;
采用二分类决策树算法、所述M个正样本数据、所述M个负样本数据构建第一业务类别对应的二分类决策树模型。
6.根据权利要求4~5中任一项所述的装置,其特征在于,所述当前业务的业务特征值包括基础业务特征值与其它特征值中的一项或多项任意组合;其中,所述其它业务特征值包括:源IP地址、目的IP地址、源端口、目的端口、平均时延、最大时延、最小时延、上行包数、下行包数。
7.一种电子设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现权利要求1-3任一所述的方法步骤。
8.机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-3任一所述的方法步骤。
CN202011147234.0A 2020-10-23 2020-10-23 一种网络流量识别方法、装置、设备及机器可读存储介质 Active CN112350956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011147234.0A CN112350956B (zh) 2020-10-23 2020-10-23 一种网络流量识别方法、装置、设备及机器可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011147234.0A CN112350956B (zh) 2020-10-23 2020-10-23 一种网络流量识别方法、装置、设备及机器可读存储介质

Publications (2)

Publication Number Publication Date
CN112350956A CN112350956A (zh) 2021-02-09
CN112350956B true CN112350956B (zh) 2022-07-01

Family

ID=74359984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011147234.0A Active CN112350956B (zh) 2020-10-23 2020-10-23 一种网络流量识别方法、装置、设备及机器可读存储介质

Country Status (1)

Country Link
CN (1) CN112350956B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113055307B (zh) * 2021-03-31 2023-03-24 中国工商银行股份有限公司 一种网络流量分配方法及装置
CN114040272B (zh) * 2021-10-09 2023-05-02 中国联合网络通信集团有限公司 一种路径确定方法、装置和存储介质
CN114338436A (zh) * 2021-12-28 2022-04-12 深信服科技股份有限公司 一种网络流量文件的识别方法、装置、电子设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111814A (zh) * 2010-12-29 2011-06-29 华为技术有限公司 一种识别业务类型的方法、装置及***
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
WO2017143919A1 (zh) * 2016-02-26 2017-08-31 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
CN107819646A (zh) * 2017-10-23 2018-03-20 国网冀北电力有限公司信息通信分公司 一种分布式传输的网络流量分类***和方法
CN110516748A (zh) * 2019-08-29 2019-11-29 泰康保险集团股份有限公司 业务处理方法、装置、介质及电子设备
CN111245667A (zh) * 2018-11-28 2020-06-05 ***通信集团浙江有限公司 网络业务识别方法及装置
CN111325550A (zh) * 2018-12-13 2020-06-23 ***通信集团广东有限公司 一种欺诈交易行为识别方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309840B (zh) * 2018-03-27 2023-08-11 创新先进技术有限公司 风险交易识别方法、装置、服务器及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111814A (zh) * 2010-12-29 2011-06-29 华为技术有限公司 一种识别业务类型的方法、装置及***
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
WO2017143919A1 (zh) * 2016-02-26 2017-08-31 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
CN107819646A (zh) * 2017-10-23 2018-03-20 国网冀北电力有限公司信息通信分公司 一种分布式传输的网络流量分类***和方法
CN111245667A (zh) * 2018-11-28 2020-06-05 ***通信集团浙江有限公司 网络业务识别方法及装置
CN111325550A (zh) * 2018-12-13 2020-06-23 ***通信集团广东有限公司 一种欺诈交易行为识别方法和装置
CN110516748A (zh) * 2019-08-29 2019-11-29 泰康保险集团股份有限公司 业务处理方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN112350956A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112350956B (zh) 一种网络流量识别方法、装置、设备及机器可读存储介质
US11915104B2 (en) Normalizing text attributes for machine learning models
US20150242429A1 (en) Data matching based on hash table representations of hash tables
CN111565205A (zh) 网络攻击识别方法、装置、计算机设备和存储介质
CN113328994B (zh) 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN105959175B (zh) 基于GPU加速的kNN算法的网络流量分类方法
WO2015154484A1 (zh) 流量数据分类方法及装置
CN117081858B (zh) 一种基于多决策树入侵行为检测方法、***、设备及介质
CN113486339A (zh) 一种数据处理方法、装置、设备及机器可读存储介质
CN113591924A (zh) 一种网络诈骗号码检测方法、***、存储介质及终端设备
Xiao et al. A traffic classification method with spectral clustering in SDN
CN116260642A (zh) 一种基于知识蒸馏时空神经网络的轻量化物联网恶意流量识别方法
CN111435369B (zh) 音乐推荐方法、装置、终端及存储介质
Yujie et al. End-to-end android malware classification based on pure traffic images
CN113438123A (zh) 网络流量监控方法、装置、计算机设备和存储介质
CN107256130A (zh) 基于Cuckoo哈希计算的数据存储优化方法及***
Tyagi et al. Twitter bot detection using machine learning models
Yang et al. Deep learning-based reverse method of binary protocol
Kaur et al. A comparison of two blending-based ensemble techniques for network anomaly detection in Spark distributed environment
CN115348190A (zh) 一种物联网设备检测方法、***和设备
Pise et al. Enhancing IoT Device Classification with Hybrid Stacked Ensembles of Machine Learning Classifiers
CN114900835A (zh) 恶意流量智能检测方法、装置及存储介质
Sinadskiy et al. Formal Model and Algorithm for Zero Knowledge Complex Network Traffic Analysis
CN114398887A (zh) 一种文本分类方法、装置及电子设备
CN109543024B (zh) 一种文本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant