CN109644184B

CN109644184B - 用于从ipfix数据检测云上的ddos僵尸网络的聚类方法

Info

Publication number: CN109644184B
Application number: CN201780050602.XA
Authority: CN
Inventors: O·卡琳; R·罗南; H·纽沃斯; R·维尔奈
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-08-31
Filing date: 2017-08-24
Publication date: 2021-10-01
Anticipated expiration: 2037-08-24
Also published as: CN109644184A; EP3507960A1; WO2018044659A1; EP3507960B1; US20180063188A1; US10129295B2

Abstract

使用机器学习训练分类器以用于标识或分类实体，从而增加关于实体是分布式拒绝服务攻击的一部分的置信度。该方法包括训练分类器使用第一分类方法，以标识来自实体集合的实体正在执行拒绝服务攻击的概率。该方法还包括使用分类器来标识满足执行拒绝服务攻击的阈值概率的实体子集。该方法还包括使用第二分类方法来标识实体子集中实体的相似度。该方法还包括基于相似度对个体实体进行分类。

Description

用于从IPFIX数据检测云上的DDOS僵尸网络的聚类方法

背景技术

分布式拒绝服务(DDoS)攻击是计算***中最常见的恶意网络活动的形式之一。这些攻击由许多实体(例如，机器)执行，这些实体被组织成利用网络流量同时泛洪目标实体的僵尸网络。在一些环境中，云服务上受损的实体可以执行DDoS攻击。这些攻击要求许多攻击方同时向特定受害方实体发送大量的流量。这种恶意流量经常被混淆在发自实体的正常、合法流量中。然而，僵尸网络被配置为从云上的大量未受损的实体高效取回。

本文要求保护的主题不限于解决任何缺点或者仅在诸如上文所描述的那些环境的环境中操作的实施例。相反，该背景技术仅被提供以说明其中可以实践在此所描述的一些实施例的一个示例性技术领域。

发明内容

本文所描述的一个实施例包括计算机实现的用于训练分类器来分类实体以增加关于实体是分布式拒绝服务攻击的一部分的置信度的方法。该方法包括训练分类器使用第一分类方法以标识来自实体集合的实体正在执行拒绝服务攻击的概率。该方法还包括使用分类器来标识满足执行拒绝服务攻击的阈值概率的实体子集。该方法还包括使用第二分类方法来标识实体子集中实体的相似度。该方法还包括基于相似度对个体实体进行分类。

提供本发明内容以引入以在具体实施方式中下面进一步描述的简化形式的概念的选择。本发明内容不旨在标识要求保护的主题的关键特征或基本特征，其也不旨在被用作帮助确定要求保护的主题的范围。

附加特征和优点将从下面的描述中被阐述并且部分地将从描述显而易见或者可以由本文中的教导的实践来学习。可以借助于在所附权利要求书中特别地指出的部件和组合实现和获得本发明的特征和优点。本发明的特征将从以下描述和所附权利要求变得更充分地明显，或者可以通过如在下文中所阐述的本发明的实践来学习。

附图说明

为了描述可以获得上述和其他优点和特征的方式，将通过参考附图中所图示出的特定实施例来呈现上面简要描述的主题的更特定的描述。应理解，这些附图仅描绘了典型的实施例，并且因此不应被认为是对范围的限制，将通过使用附图以利用附加特征和细节来描述和解释实施例，其中

图1图示了具有执行DDoS攻击的实体和僵尸网络分类器的云***；

图2图示了示出用于确定为僵尸分类网络返回多个簇的功能性的图；以及

图3图示了对实体进行标识或分类以增加关于实体是分布式拒绝服务攻击的一部分的置信度的方法。

具体实施方式

本文所描述的一些实施例能够从IPFix记录中检测僵尸网络实体。为了这样做，实施例聚类概要矩阵，针对该概要矩阵，矩阵中的条目表示在每个实体和每个目的地IP之间连接的数目。聚类可以使用例如分层聚类而被执行。

实施例可以使用被预训练的分类器以为每个实体确定其正在执行DDoS的概率。包括具有进行DDoS的高概率的实体的簇被标记为是僵尸网络的一部分。

这种经组合的方法使得实施例能够在云上的成百上千的实体中高效地检测僵尸网络。

附加细节将被图示。

现在参考图1对云环境100进行图示。云环境可以托管多个实体102。多个实体102中的实体可以是虚拟机或被配置以为对由云环境100提供的服务的订阅者执行工作的其他云实体。

多个实体102中的实体中的一些可以通过将恶意软件加载到其上而受损。这些受损的实体随后可以形成僵尸网络104。僵尸网络104通常是受命令和控制106的控制。命令和控制106可以引导僵尸网络104的个体实体或僵尸网络作为整体执行各种动作。例如，命令和控制106可以标识待攻击的目标实体108。特别地，命令和控制106可以指挥僵尸网络对目标实体108执行分布式拒绝服务(DDoS)攻击。本文所描述的示例中，DDoS攻击可以是TCP泛洪或UDP泛洪攻击。

应注意的是，尽管实体在云100中被示出，僵尸网络可以是云上的虚拟实体，和/或可以是在数据中心处的户内实体。因此，本文所描述的实施例可以被用在云环境中、机房内环境、或两者的组合。

图1图示了云环境100托管僵尸网络分类器部分110，其被配置为从作为僵尸网络(诸如僵尸网络104)的一部分的实体集合102中标识实体。

实施例可以实现有监督的(即，机器学习)和无监督的方法的组合，以用于对僵尸网络分类器部分110上的实体进行分类。

以此方法，可以实现改进的计算机***，其自动地对云计算***中的实体进行分组。当实体被自动标识为僵尸网络的一部分时，那些实体可以具有被执行以防止***继续参与在僵尸网络中的补救措施。这得到了改进的云***，其可以使用计算和云资源执行有用任务而非与僵尸网络相关联的有害任务。

针对有监督的方式，实施例可以使用机器学习来训练僵尸网络分类器部分110中的一个或多个有监督的分类器部分112，该僵尸网络分类器部分110基于从数据流协议信息(诸如IPFix数据)获得的特征来分类实体。实施例可以包括针对各种类型DDoS攻击的分类器。例如，实施例可以包括针对TCP(同步(SYN))泛洪和/或UDP泛洪的分类器。为了训练分类器部分，实施例可以使用训练数据集合和测试数据集合来创建模型。训练数据集和测试数据集合可以是基于针对下述各种特征的被捕获的数据。特别地，训练数据集合被用于训练计算机实现的分类器(即，模型)。并且，测试集合可以被用于验证分类器。分类器随后可以被用于自动分类过程中，以基于它们的被生成的网络流量或其他特性来对实体进行分类。

为了创建这样的实体，实施例可以提取各种特征。例如，这样的特征可以包括传出流与传入流之间的比例、SYN消息在TCP流量和/或目标IP数目之间的比例。

下面示出一些可以被使用的特定TCP特征：

–具有仅SYN标记有效的传出消息的百分比

–具有仅SYN标记有效的传出消息的数目

–具有仅SYN标记有效的消息的数目的自然对数

–传入TCP消息和传出TCP消息的比例

–TCP流量的量的每小时标准偏差

–传出TCP流的数目

–每小时最大TCP流量的自然对数

–传出流量和目的地IP(TCP)的数目的比例

–每小时最大TCP流量

–TCP流量的每小时标准偏差的自然对数

下列示出了可以被使用的各种UDP特征：

–每小时最大UDP流量

–传出UDP流的数目

–每小时最大UDP流量的自然对数

–传出流量和目的地IP(UDP)的数目的比例

–传出UDP流的数目的自然对数

–被寻址的不同目的地IP的数目的自然对数

–被寻址的不同目的地IP的数目

–传入UDP流的数目的自然对数

–传入UDP消息和传出UDP消息的比例

–UDP流量的量的每小时标准偏差

针对无监督的方式，针对每个分类器，为有监督的实体分类器部分114选择最高数目的特征。例如，可以通过随机森林特征重要性排列和在被标注的数据集上训练随机森林来实现，虽然多个不同的特征选择和分类算法中的任何一个可以被使用。通常，可以通过使用多个不同统计测试中的任何一个进行过滤来选择特征。例如，通常可以选择t-测试。在针对二进制分类算法的另一示例中，可以使用逻辑回归。多个特征可以被选择为分类器。这些分类器之后可以被用于为每个实体计算概率分数(在本文中被称为DDoS_概率(PROB))。该概率是该实体正在执行DDoS攻击的概率。

在本文图示的实施例中，针对每个实体存在两个概率--一个用于TCP泛洪，一个用于UDP泛洪。这些概率被用于独立地检测TCP DDoS僵尸网络和UDP DDoS僵尸网络两者。

僵尸网络分类器部分110基于它们的输出流量来检查簇实体。为了这样做，实施例首先过滤掉具有比某个预定阈值小的DDOS_PROB的实体，在本文被描述为SCAN_THRESHOLD。这允许实施例极大地降低候选实体的数目，并且避免错误肯定。

假设在过滤以后，实施例标识了M个实体。附加地，存在N个目的地IP的集合，这些实体具有到这N个IP的传出流量。实施例构建概要矩阵，以使得第i、j条目表示从实体(j，在此示例中经常是以千为量级)到IP(i，在此示例中经常是以百万为量级)的消息的数目。实施例过滤掉小于某个预定阈值(在本文中被称为MIN_THRESHOLD)的条目，并且移除具有少于某个预定目标(在本文中被称为MIN_TARGETS)的非零条目的行。

此矩阵可以被用于执行分层聚类以将相似的条目聚类在一起。因此，关于实体簇中的一个实体的特性可以被用于表征实体簇中的其他实体。因此，例如实施例可能能够标识以下实体簇，其中簇中的所有实体均是特定僵尸网络的一部分簇。备选地或附加地，实施例可能能够标识均在相同命令和控制(例如，命令和控制106)下的实体簇。备选地或附加地，实施例可能能够标识均被相同恶意软件感染的实体簇。等等。一些实施例使用相关性作为距离度量，并且使用平均作为链接准则。

实施例可以尝试找到最佳簇数目。在一些实施例中，这可以例如使用各种数据聚类算法来执行。

然而，此最佳簇数目是启发式的。因此，其他实施例可以包括通过一些视觉化人工地选择数目。然而，使用如上的数字分析的自动化可能更高效。实施例可以假设每个簇是僵尸网络。如果太少的簇数目被使用，则实施例将多余一个僵尸网络分组到簇中。反之，当实施例使用太多的簇数目时，则实施例将把相同僵尸网络拆开到多个簇中。注意到，就算具有正确的簇数目，两种类型的错误仍可能发生，但是将理想地被最小化。

一种这样的方法使用由Salvador和Chan提议的L-方法。在图2中图示了一个示例。如在图200中所描述的，优选簇数目由两条线204和206的交叉点202获取，这两条线分别最佳匹配合并距离和簇数目的图。

附加地或可选地，可以使用各种其他方法。例如，一些实施例可以使用肘部法则(elbow method)，其尝试基于作为簇数目的函数的方差的百分比进行聚类。备选地或附加地，实施例可以使用x-均值聚类，其根据一些预定准则通过尝试子划分和保持所需的子划分来进行聚类。备选地或附加地，实施例可以使用信息准则方法(诸如Akaike信息准则、贝叶斯信息准则，或偏差信息准则)来标识用于聚类模型的似然函数。备选地或附加地，实施例可以通过根据某些信息理论标准尝试最小化错误的同时，尝试确定多个簇来使用信息理论方式。备选地或附加地，实施例可以使用廓影法，其检查簇内数据的相似度和它和邻居簇匹配地多松散。备选地或附加地，实施例可以使用交叉验证。备选地或附加地，实施例可以分析内核矩阵。

之后实施例可以再次使用有监督的实体分类器部分112，以将簇分类为DDoS僵尸网络。特别地，包括至少一个实体的簇被分类为DDoS僵尸网络，针对该至少一个实体，一些被标识的概率(在本文中被称为DDOS_PROB)大于阈值(在本文中被称为CONFIDENT_DDOS)。

因此，实施例包括用以在云***中高效检测DDoS僵尸网络的功能性。具体地，实施例将有监督的方法和非有监督的方法进行合并，以高效地从协议数据(诸如，潜在地位于成百上千的条目上的IPFix数据)取回僵尸网络。此方法支持难以仅通过依靠单个实体分类来标识的受损实体的标识。这对于云上或户内网络上的攻击流的调查也是有用的。附加地，通过返回一组簇，簇可以由各种相似度标识，如将要在下面更详细地描述。例如，实施例可以标识簇中的全部相似实体都正在执行DDoS攻击。备选地或附加地，实施例可以标识簇中的全部相似实施例都在相同僵尸网络中。备选地或附加地，实施例可以标识簇中的相似实体都在相同命令和控制下。备选地或附加地，实施例可以标识簇中的相似实体都被感染有相同病毒软件。

一些实施例可以使用可用外部数据来标识特定的僵尸网络。附加地，实施例可以当簇中的一个或多个其他实体展示某些特点时针对簇中的实体执行补救动作。例如，一些实施例可以使用威胁情报(TI)流。因此，例如如果在给定簇中的一些机器上存在TI命中，则实施例可以向簇中的剩余的机器告警相同威胁。备选地或附加地，如果簇中存在一些机器执行某些种类的传出活动(像蛮力破解)，则相同簇中的其他机器可能在不久的将来开始执行相同的活动。补救措施(诸如网络流量阻塞、通知管理员等)可以被执行以防止这些活动。

以下讨论现在涉及可能被执行的多个方法和方法动作。虽然方法动作可以以某个的顺序被讨论或者在特定顺序发生的流程图中被图示，但是除非特别地陈述或因为一个动作依靠在该动作被执行之前被完成的另一动作，否则并不需要特别的顺序。

现在参考图3，示出了一种方法300。方法300可以是计算机执行的方法，其包括用于训练分类器以用于标识或分类实体以提高关于实体是分布式拒绝服务攻击的一部分的置信度的动作。方法300包括使用第一分类方法标识来自实体集合的实体正在执行拒绝服务攻击的概率(动作302)。例如，在一些实施例中，分类方法可以是有监督的分类方法。特别地，实施例可以使用机器学习技术来训练分类器，以使用第一分类方法来标识来自实体集合的实体正在执行拒绝服务攻击的概率。

方法300还包括标识满足执行拒绝服务攻击的阈值概率的实体子集(动作304)。在一些实施例中，中概率到高概率可以满足阈值。

方法300还包括使用第二分类方法标识实体子集中实体的相似度(动作306)。在一些实施例中，第二分类方法可以是非有监督的方法。

方法300还包括基于相似度对个体实体进行分类(动作308)。

可以实践方法300，其中第二分类方法将相似实体聚类到相似度簇中。在一些这样的实施例中，方法300可以还包括将簇标识为被受损实体的集合。例如，相似度簇可以被标识，其中该簇中的所有实体已经受损，并且正在执行DDoS攻击。因此，方法300可以被实践，其中对个体实体进行分类包括将实体标识为执行拒绝服务。

可以实现实施例，其中可以为被组合到相似度簇中的实体标识相似度。例如，方法300可以还包括基于相似度标识特别的僵尸网络中的实体。因此，实施例可能能够基于相似度来标识僵尸网络的全部或部分。

备选地或附加地，方法300可以还包括基于相似度标识被相同手段感染的实体。因此，例如，实施例可能能够标识使用相同恶意软件(诸如相同病毒软件)感染的实体。备选地或附加地，实施例可能能够标识被感染并且具有相同命令和控制的实体(即，实体是被或由于相同的攻击者感染)。

方法300可以被实践，其中使用第二分类方法标识实体子集中实体的相似度包括使用L-方法。

备选地或附加地，方法300可以被实践，其中使用第二分类方法(例如，无监督的方法)标识实体子集中实体的相似度包括使用分层聚类。在一些这样的实施例中，方法300还包括关联实体活动。在一些这样的实施例中，使用分层聚类是基于经关联的实体活动。

而且，方法可以由包括一个或多个处理器和计算机可读介质(诸如计算机存储器)的计算机***实践。特别地，计算机存储器可以存储计算机可执行指令，当由一个或多个处理器执行时引起各种功能(诸如实施例中被叙述的动作302)将被执行。

本发明的实施例可以包括或利用包括计算机硬件的专用或通用计算机，如下面更详细地讨论的。本发明范围内的实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理计算机可读介质和其他计算机可读介质。这种计算机可读介质可以是由通用计算机***或专用计算机***访问的任何可用介质。存储计算机可执行指令的计算机可读介质是物理储存介质。携带计算机可执行指令的计算机可读介质是传输介质。因此，作为示例而非限制，本发明的实施例可以包括至少两种完全不同的计算机可读介质：物理计算机可读储存介质和传输计算机可读介质。

物理计算机可读储存介质包括RAM、ROM、EEPROM、CD-ROM或其他光盘储存器(诸如CD、DVD等)、磁盘储存器或其他磁储存设备、或者是可以被用于计算机可执行指令或数据结构的形式存储所需程序代码的部件并且可由通用计算机或专用计算机访问的任何其他介质。

“网络”被定义为能够在计算机***和/或模块和/或其他电子设备之间传送电子数据的一个或多个数据链路。当通过网络或其他通信连接(硬连线、无线、或硬连线或无线的组合)向计算机传送或提供信息时，计算机将连接正确地视为传输介质。传输介质可以包括网络链路和/或数据链路，其可以被用于计算机可执行指令或数据结构的形式携带所需程序代码部件，并且可以由通用或专用计算机访问。上述的组合也包括在计算机可读介质的范围内。

此外，在到达各种计算机***组件时，计算机可执行指令或数据结构形式的程序代码装置可以自动地从传输计算机可读介质传送到物理计算机可读储存介质(或者，反之亦然)。例如，通过网络或数据链路接收的计算机可执行指令或数据结构可以被缓冲在网络接口模块(例如，“NIC”)内的RAM中，然后最终被传送到计算机***RAM和/或传送到计算机***中的较不易失性的计算机可读物理储存介质。因此，计算机可读物理储存介质可以被包括在也(或甚至主要)利用传输介质的计算机***组件中。

计算机可执行指令包括例如使得通用计算机、专用计算机或专用处理设备执行特定功能或功能组的指令和数据。计算机可执行指令可以是：例如二进制文件、诸如汇编语言的中间格式指令、或甚至是源代码。尽管已经利用结构特征和/或方法动作专用的语言描述了本主题，但应理解，所附权利要求书中定义的主题不必限于上述所描述的特征或动作。而是，所描述的特征和动作作为实现权利要求的示例形式而被公开。

本领域技术人员将理解，可以在具有许多类型的计算机***配置的网络计算环境中实践本发明，包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器***、基于微处理器或可编程的消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等。还可以在分布式***环境中实践本发明，其中通过网络链接(通过硬连线数据链路、无线数据链路或通过硬连线和无线数据链路的组合)的本地和远程计算机***来执行任务。在分布式***环境中，程序模块可以位于本地和远程存储器储存设备中。

备选地或附加地，本文所描述的功能性可以至少部分地由一个或多个硬件逻辑组件执行。作为示例而非限制，可以使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、程序专用集成电路(ASIC)、程序专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑器件(CPLD)等。

在不脱离本发明的精神或特性的情况下，可以以其他特定形式具化本发明。所描述的实施例在所有方面都应被视为仅是说明性的而非限制性的。因此，本发明的范围由所附权利要求而不是前面的描述来指示。在权利要求的含义和等同范围内的所有变化都被包含在其范围内。

Claims

1.一种***，所述***被配置为训练和使用分类器来分类实体以确定所述实体是否是分布式拒绝服务DDoS攻击的一部分，所述***包括：

一个或多个硬件处理器；以及

一个或多个计算机可读存储设备，所述一个或多个计算机可读存储设备具有被存储在其上的指令，所述指令由所述一个或多个硬件处理器可执行以配置所述***执行至少以下操作的指令：

训练分类器以使用第一分类方法来标识实体正在执行拒绝服务攻击的概率，所述训练包括应用捕获的数据集，所述捕获的数据集包括与已知DDoS攻击相关联的数据流协议信息；

使用经训练的所述分类器来从候选实体集中标识实体子集，所述实体子集满足或者超过执行拒绝服务攻击的阈值概率；

使用第二分类方法来标识经标识的所述实体子集中实体的相似度；以及

基于所述相似度，将所述实体子集的个体实体分类为属于一个或多个相似度子组，每个相似度子组包括可能参与相同DDoS的实体。

2.根据权利要求1所述的***，其中所述第二分类方法将相似的实体聚类到相似度簇中。

3.根据权利要求2所述的***，其中所述一个或多个计算机可读存储设备还具有被存储在其上的指令，所述指令由所述一个或多个硬件处理器可执行以将所述计算机***配置为：将簇标识为受损实体的集合。

4.根据权利要求1所述的***，其中对个体实体进行分类包括：将实体标识为执行拒绝服务。

5.根据权利要求1所述的***，其中所述一个或多个计算机可读存储设备还具有被存储在其上的指令，所述指令由所述一个或多个硬件处理器可执行以将所述计算机***配置为：基于相似度来标识特定僵尸网络中的实体。

6.根据权利要求1所述的***，其中所述一个或多个计算机可读存储设备还具有被存储在其上的指令，所述指令由所述一个或多个硬件处理器可执行以将所述计算机***配置为：基于相似度来标识被相同的手段感染的实体。

7.根据权利要求6所述的***，其中所述相同的手段包括相同的恶意软件。

8.根据权利要求6所述的***，其中所述相同的手段包括相同的命令和控制。

9.根据权利要求1所述的***，其中使用所述第二分类方法来标识所述实体子集中实体的相似度包括：使用L-方法。

10.根据权利要求1所述的***，其中使用所述第二分类方法来标识所述实体子集中实体的相似度包括：使用分层聚类。

11.根据权利要求10所述的***，其中所述一个或多个计算机可读存储设备还具有被存储在其上的指令，所述指令由所述一个或多个硬件处理器可执行以将所述计算机***配置为：关联实体活动，并且其中使用分层聚类是基于经关联的实体活动。

12.根据权利要求1所述的***，其中所述一个或多个计算机可读存储设备还具有被存储在其上的指令，所述指令由所述一个或多个硬件处理器可执行以将所述计算机***配置为：使用可用外部数据来标识特定僵尸网络。

13.一种计算机实现的用于训练分类器来分类实体以确定所述实体是否是分布式拒绝服务DDoS攻击的一部分方法，所述方法包括：

14.根据权利要求13所述的方法，其中所述第二分类方法将相似的实体聚类到相似度簇中。

15.根据权利要求14所述的方法，还包括将簇标识为受损实体的集合。

16.根据权利要求13所述的方法，其中对个体实体分类包括将实体标识为执行拒绝服务。

17.根据权利要求13所述的方法，还包括：基于相似度将实体标识为在特定的僵尸网络中。

18.根据权利要求13所述的方法，还包括：基于相似度标识被相同手段感染的实体。

19.根据权利要求18所述的方法，其中所述相同手段包括相同的恶意软件。

20.一种计算机***，所述计算机***被配置为使用经训练的分类器来分类实体以确定所述实体是否是分布式拒绝服务DDoS攻击的一部分，所述***包括：

耦合到多个计算实体的僵尸网络分类器，所述僵尸网络分类器包括一个或多个计算机处理器，其中所述僵尸网络分类器被配置为：

从所述多个实体中的所述实体捕获数据流协议信息；

向经训练的分类器提供来自所述实体的捕获的所述数据流协议信息，所述经训练的分类器已经通过应用先前捕获的数据而被训练，所述先前捕获的数据包括与已知DDoS攻击相关联的数据流协议信息；

所述经训练的分类器实施第一分类方法以基于捕获的所述数据流协议信息来标识实体正在执行拒绝服务攻击的概率；

从候选实体集中标识实体子集，所述实体子集满足或者超过执行拒绝服务攻击的阈值概率；

使用第二分类方法标识经标识的所述实体子集中的实体的相似度；以及