CN1677940B

CN1677940B - 高速业务量测量和分析方法

Info

Publication number: CN1677940B
Application number: CN200510059593XA
Authority: CN
Inventors: 穆拉里哈瑞·S.·科迪拉姆; 蒂鲁尼尔·V.·拉克斯汉姆; 刘永昌
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 2004-03-31
Filing date: 2005-03-30
Publication date: 2010-08-11
Anticipated expiration: 2025-03-30
Also published as: KR101123020B1; US20080219181A1; JP4727275B2; KR20060044844A; EP1583281A1; US7808923B2; US20050220023A1; CN1677940A; US7397766B2; EP1583281B1; DE602005001965D1; DE602005001965T2; JP2005295562A

Abstract

我们将网络范围的业务量测量/分析问题描述为一系列的集合基数确定问题。通过利用近来在概率独特采样计数技术中的一些进展，可以以分布式的方式、经由在网络节点中交换极轻量级的业务量摘要(TD)来计算集合基数，因计算网络范围内感兴趣的业务量测量。N个分组的一个TD仅需要O(loglogN)比特的存储器。并且对这种O(loglogN)比特尺寸的TD的计算也遵从以线速度为10Gbps或者更大的线速度来执行的有效硬件实施。对于小尺寸的TD，则可以通过携带它们作为在现有控制消息中的不透明消息对象，从而将节点的TD分布给域内所有的路由器。一旦接收到所需的TD，路由器就可以通过解决一系列的集合基数确定问题，来为它的每条本地链路估计感兴趣的业务量测量。

Description

高速业务量测量和分析方法

相关申请的交叉引用

本申请要求于2004年3月31日提交的临时申请序列号No.60/558230的优先权，其内容在此引入仅作参考。

技术领域

本发明一般涉及通信网络，尤其涉及数据分组通信网络的测量和分析。

技术背景

近年来，整个社会都看到了高速数据网络的增长以及支持这些网络的协议/服务组的快速扩充。网络监控和业务量测量技术的发展迄今为止还未能赶上这些网络的运行速度及其大规模的部署。因为这些不足，网络运营者正在日益失去对网络中出现的问题的控制。反过来，这已经危及到正确和有效地操作和管理网络的能力。对于大规模的高速网络来说，迫切需要一种全面的又是可部署的网络监控和端到端业务量分析基础结构。这种基础结构对于诸如因特网这样的无连接的数据网络来说尤其重要，在因特网中，由于预期或者意外事件的不同类型，所以业务量流的路由可能在会话过程中动态地不可预见地改变。所述事件包括网络组件故障，非确定性的负载均衡策略(例如，等成本多路径(Equal Cost Multiple Path：ECMP))，软件/硬件故障和协议误配置。目前，大多数网络运营者仅能够依靠诸如“跟踪路由(Traceroute)”这样的基本诊断工具，来获得网络中各业务量流端到端路由的少得可怜的采样。

对一些关键性实际应用(如，对大规模ISP的源到目的地(O-D对)业务量矩阵估计，以及在基于IP的网络中对反跟踪服务的支持以处理欺骗DDoS攻击)的需求强有力地推动了在业务量测量/分析方法和基础结构方面的最新研究。如以下文章中所讨论的业务量矩阵估计问题：A.Medina，N.Traft，K.Salamatian，S.Bhattacharyya和C.Diot，“Traffic Matrix estimation：Existing Techniques and new direction”，Procs.of ACM Sigcomm，2002年8月[MEDi 2]；在ACM SigmetricsProcs.中的Y.Zhang，M.Roughan，N，Duffield，A.Greenberg的“FastAccurate Computation of Large-Scale IP Traffic Matrices FromLink Loads”，2003年6月[Zhang 03a]；以及在ACM Sigcomm Procs.中的Y.Zhang，M.Roug C.Lund和D.Donoho的“AnInformation-Theoretic Approach In Traffic Matrix Estimation”，2003年8月[Zhang 03b]，其目的是在仅使用链路负载测量在大规模IP网络中估计多个O-D节点对之间的业务量需求。这个问题源于市场上的廉价且可缩放的流计数器缺少最商用的吉比特路由器的支持。例如，尽管Cisco Netflow技术(Cisco，IOS Netflow

Http://www.cisco.com/warp/public/732/Tech/nmp/netflow/index.shtml)可以用于收集精细的每个流业务量的统计，但是其巨大的存储器和带宽要求使得它不适合10Gbps网络。为了解决测量基础结构中的这种不充分/不足，研究人员采取将链路负载测量和对O-D对业务量分布的附加假设合并起来，以便估计所要求的O-D对业务量矩阵。例如，在[Medi 02，Zhan 03a，Zhan 03b]中，从传输领域(fleld)改写重力模型的不同变量，以构造所有O-D对之间的网络业务量分布的模型；在[Vard 96]Y.Vardi的“Network Tomagraphy：estimatingsource-destination traffic Intensities from link data)”(Journal ofAmerican Statistics Association，91，pp.365-377，1996[Vard 95])中，泊松假设被用于使二阶链路负载统计和O-D对业务量分布联系起来。由J.Cao，D.Davis，S.V.Wiel和B.Yu在Journal of AmericanStatistics Association，95，pp.1063-1075，2000[Cao 00]，“Time-varying network tomography”中做出了相似的高斯假设。事实上，仅在链路负载测量的情况下估计O-D业务量矩阵的问题已经导致了被称为“网络X线体层照相术(Network Tomography)”的新领域研究的形成。不幸的是，相对于其业务量分布假设的有效性而言，至今所建议的大部分基于网络X线体层照相术的解决方案是非常敏感的，即不健壮。基于X线体层照相术的方法还严重依赖于必须从中提取和整理测量/配置信息的多个操作性数据库间的正确性、同步以及一致性。(这些数据库中包括路由器中的转发表，路由器配置文件，还有用于链路负载的SNMP MIB。)前面提到的建模和操作性假设还使基于X线体层照相术的业务量测量/估计方案对网络故障检测/诊断(其中既不可以对网络元件/数据库的正确功能进行假设，也不可以对业务量分布的常态进行假设)没有用处。

近来，可选择的基于分组轨迹的业务量监视/分析方法由以下文章提出：N.G.Duffield，M.Grassglauser，“Trajectory Sampling forDirect Traffic Observation”Procs.of ACM Sigcomm，2000年8月，pg.271-282[Duff00]和A.C.Snoeren，C.Partridge，L.A.Sanchez，C.E.jones，F.Tchakountio，S.T.Kent和W.T.strayer，“Hash-Based IPTraceback”Procs.of ACM Sigcomm，2001年8月，pg.3-14[Snoe 01]，其中每个节点(路由器)保持它近期处理的所有分组的被压缩的概要或者摘要。在[Duff00]和[Snoe 01]中，该摘要采取Bloom滤波器的形式，例如，参见以下文章：B.Bloom，“Space/Time trade-offs in hashcoding with allowable errors，”communications of the ACM 13，1970年7月，pp.422-426，[]Bloo 70]和A.Broder，M.Mitzenmacher，“NerworkApplications of Bloom Filters：a Survey，”Allerton Conference，2002，也可在http://www.eecs.harvard，edu/～michaelm，[brod 02]得到，该摘要对每个到达该节点的分组都进行更新，并且定期将该摘要上载到中央服务器，以支持将来的离线业务量分析以及归档目的。由于被提供有这些提供信息的节点的业务量摘要，所以中央服务器不仅可以构建整个网络的业务量流模式和按流/物品(commodity)的测量，而且还对关于(不久的)过去遍历网络的任何给定分组的端到端路径，或所谓的轨迹的查询进行答复。能够对任意给定的单个分组的轨迹查询进行答复伴随着高额费用：Bloom滤波器必须足够大以存储关于每一个输入分组的足够信息。即使是Bloom滤波器的有效存储器与假肯定之间的平衡，也要求O(N)比特的存储器来捕获并以高概率正确区分N个不同分组的签名。在[Snoe 01]中，估计这种***在存储器中每单位时间大约需要节点的链路容量的0.5％。对于10Gbps链路，这意味着每一秒监视时间50Mbit存储空间。这种重量级的业务量摘要方法不仅增加了存储器和***通信要求的压力，而且随着链路速度和/或监视时长的增加难以进行缩放。

发明内容

通过一种称之为经由轻量级业务量摘要进行业务量分析的分布式结构(Distributed Architecture for Traffic Analysis viaLIght-weight Traffic digEst：DATALITE)的有效网络业务量分析方法实现了对现有技术的改进。该方法引入一组新的分布式算法和协议，以支持用于大规模、10Gbps+的分组交换网络的一般业务量测量和分析(TMA)函数。这些函数包括，但不被局限于：

-业务量流模式/路由监视，诊断和网络论坛(forensic)；

-为了容量规划和业务量工程目的，对源到目的地(O-D)业务量负载矩阵的估计；

-用于端用户计费/计帐以及ISP(AS)之间费用结算目的的业务量测量；

-在分布式服务拒绝(DDoS)攻击中，在攻击分组的发端上的跟踪。

我们将网络范围的业务量测量/分析问题描述为一系列的集合基数确定(set-cardinality-determination：SCD)问题。通过利用近来在概率独特采样计数技术中的一些进展，可以以分布式的方式、经由在网络节点(即路由器)中交换极轻量级的业务量摘要(TD)来计算集合基数，因计算网络范围内感兴趣的业务量测量。N个分组的一个TD仅需要O(loglogN)比特的存储器。并且对这种O(loglogN)比特尺寸的TD的计算也遵从以线速度为10Gbps或者更大的线速度来执行的有效硬件实施。

对于小尺寸的TD，则可以通过携带它们作为在现有控制消息(诸如OSPF链路状态分组(LSP)或I-BGP控制消息)中的不透明消息对象，从而将节点的TD分布给域内所有的路由器。一旦接收到所需的TD，路由器就可以通过解决一系列的集合基数确定问题，来为它的每条本地链路估计感兴趣的业务量测量。如我们在后面部分将要讨论的，感兴趣的业务量测量一般是采取每条链路，每个业务量聚集(aggregate)分组计数(或流计数)的形式，其中聚集是由共享相同的源和/或目的地节点(或链路)和/或一些中间节点(或链路)的分组的组来定义的。然后将本地测量结果在域内分布出去，使得每个路由器可以构建不同业务量物品的路由/流模式的网络范围视图，其中物品被定义为共享相同的源和/或目的地节点或链路的一组分组。在接收到最初的网络范围的业务量测量之后，每个路由器基于网络范围的物品流保存约束条件，通过本地构建最小均方误差(MSN)优化，来进一步减少相关的测量/估计误差。

除支持“广播”模式(其中网络定期地充斥着轻量级TD和产生的本地业务量估计)之外，DATALITE还支持经由“查询和答复”模式的业务量测量/分析，在“查询和答复”模式中，TD的分布和本地业务量估计是通过网络中的相关节点子集在基于需求、需要知道的基础上执行的。查询和答复模式在支持需要额外细致、高度精确的业务量测量/分析的偶然特殊业务量研究时尤其有用。

总之，通过采用直接测量方法，DATALITE避免了由于破坏网络的X线体层照相术方法的非法业务量建立或操作性假设引起的问题。尽管在DATALITE方案和现有的基于轨迹的方案之间有一些高级别共性，但它们之间的关键区别是：第一，通过将业务量测量问题表示为一系列的集合基数确定问题，我们可以利用在独特采样计数(distinct sample counting)技术中的最新进展，用最小的通信开销以分布式方式来执行业务量分析。第二，通过集中于对业务量聚集行为而不是单个分组行为的测量和分析，可以大大减少DATALITE的***存储器和通信带宽需求。因此，对于DATALITE，可以采用与由现有的基于轨迹的***采用的重量级、集中式方法不同的分布式计算模型。

附图说明

对于本发明更完整的理解将从下面结合附图的详细说明中获得，相似的元件采用相似的标记，其中，

图1例示了根据本发明从分组集合中提取业务量摘要的示范性方法；

图2是利用本发明的业务量测量和分析技术通过网络节点执行的步骤的示范性实施例。

具体实施方式

本发明是用于改进数据分组网络中的网络测量和分析的效率的方法。尽管本发明的示范性实施例是结合传统的高速网络来描述的，但是对于本领域的技术人员可以显而易见地将其应用到其它网络，诸如无线网络或传输网络。

尽管对于在[Snoe 01]中的设计者，其认为对任意给定的单个分组的轨迹查询进行答复这种能力对支持IP反跟踪(traceback)是必要的，但是本发明人主张这对大多数业务量测量/分析应用(包括IP反跟踪)是矫枉过正的。这种主张基于如下观察，即：在大多数这些应用中，知道一组给定的分组或所谓的业务量聚集(而不是一系列单个孤立的分组)的轨迹和/或业务量就足够了。尽管可能有人主张[Snoe 01]中的***可以支持诸如跟踪单个特殊分组之类的更强大的网络论坛(forensic)应用，但是我们认为网络级的业务量分析/监视可能不是提供这种功能的最好方法。而是认为，特定的应用级论坛功能可以在端***附近的应用级上得到更好的支持。我们的观点是网络业务量监视/分析基础结构应该致力于支持网络/传输层来实现诸如路由选择诊断、业务量工程和流模式分析之类的功能。

在多数情况中，感兴趣的业务量聚集的定义被清楚地定义在应用的上下文中。在本发明中，经由轻量级业务量摘要进行业务量分析的分布式结构(DATALITE)，我们主要集中于根据以下定义的业务量聚集：

(1)它们的发起和/或终止节点(或链路)或者

(2)由那组业务量遍历的特定链路或节点集合。

我们决定把焦点放在聚集的这种定义，因为，如下面将示出的，这种业务量聚集对于大范围的实际业务量测量/分析(TMA)应用(包括业务量矩阵估计，路由检查，以及网络故障诊断)是重要的。除这些主要类型的业务量聚集之外，所建议的DATALITE基础结构也支持作为主业务量聚集的子集的更精细的业务量聚集，例如是给定协议类型和/或端口数量的分组的组。

作为交集集合基数确定问题的业务量测量/分析

在这部分，我们将业务量测量/分析(TMA)描述为一系列交集集合基数确定(ISCD)(intersection-set-cardinality-determination)问题。考虑网络的有向图表示法G＝(V，E)，其中V是节点的集合，E是定向链路的集合。让(i，j)∈E表示从节点i到节点j的定向链路。L_i，j表示在长度T秒的给定测量时段期间遍历链路(i，j)的分组的集合。现在，假设该测量时段比网络中的最大端到端延迟时间长很多，使得可以忽略由途中(in-flight)的分组引起的边缘效应。可以通过保持多个时间索引(time-indexed)的节点业务量摘要来解释路径延迟效应。事实上，时间索引的业务量摘要可用于支持网络路径延迟时间测量。让O_i(或D_i)表示在相同的测量时段期间在节点i上发起(或终止)的分组的集合。所谓“发起”(或“终止”)是指这些分组实际是从节点产生的(或从那里退出网络)。我们避免使用字“源(source)”或“目的地(desitination)”，因为，由于可能的源地址欺骗，分组可能实际上不是在它声称的源节点上产生的。同样，例如由于路由问题或丢失的原因，分组可能实际上不到达它所要到达的目的地节点。

在给定的测量时段期间，我们感兴趣的业务量聚集可以被容易地表示为上面所定义的分组集合的交集。为了说明我们的方法，让我们考虑以下两种常见的(并且是基本的)TMA任务：

采样TMA任务#1：

该任务的目的是确定网络中所有O-D节点对之间的路由模式和业务量。为了这个目的，考虑分组的集合F_i，j ^k，其通过链路(i，j)∈E，其中k＝(s，d)∈V×V作为它们的O-D节点对。注意到F_i，j ^k可以被表示为上面所定义的其它分组集合的交集，即

F_{i, j}^{k} = O_{s} \cap L_{i, j} \cap D_{d} .

应注意到，对于该任务(以及诸如业务量矩阵估计、流模式分析、业务量反跟踪、路由/网络故障/检测及业务量工程之类的大范围其它TMA应用)，知道F_i，j ^k的基数，即|F_i，j ^k|就足够了，而不是F_i，j ^k的全部细节。例如，通过仅知道每条链路(i，j)∈E和所有O-D节点对K＝(s，d)∈V×V的|F_i，j ^k|就可以达到采样TMA任务#1的目的。

采样TMA任务#2：

在该任务中，我们考虑反跟踪应用，在其中我们想确定发起节点、这些节点提供的业务量以及到达给定的下游节点d并终止的分组组(它们可能是一些DDoS牺牲品)的上游流模式。为了完成这个任务，我们仅需要为每条链路(i，j)∈E确定|F_i，j ^k|，其中

F_{i, j}^{k} = L_{i, j} \cap D_{d},

k＝(*，d)(其中*是通配符)。同样，通过为每条链路(i，j)∈E确定|F_i，j ^k|，其中

F_{i, j}^{k} = O_{s} \cap L_{i, j},

k＝(s，*)，可以跟踪从给定节点发起的分组的目的地、下游路由模式以及流量。

根据上面的观察，DATALITE的基本思想是提供一种基础结构来支持以网络范围形式的|F_i，j ^k|的分布式计算/估计，其中F_i，j ^k被表示为诸如上面提到的O_i，D_d和L_i，j之类的某些分组集合的交集的形式。如在此将要描述的，通过集中于|F_i，j ^k|而不是F_i，j ^k的全部细节(如[Duff 00，Snoe 01]的情况中)，DATALITE的***存储器和通信带宽要求可＝被大大降低，这使得DATALITE在10Gbps+网络中支持TMA。

通过将F_i，j ^k表示为一些特定分组集合的交集，我们的描述将TMA问题有效地转换为一系列的所谓交集集合基数确定(ISCD)问题。对分布在不同位置上的多个集合的交集的基数进行确定的问题已经在下面的语境中做了研究：(1)帮助搜索引擎在WWW上识别相似的网页，A.Broder，“On the resemblance and containment ofdocuments，”Compression and Complexity ofSequences(SEQUENCES)，意大利positano，97年6月，[Brod 97]和(2)设计支持对等网络上的有效的文件搜索/交换的协议，J.Byers，J.Considine，M.Mitzenmacher和S.Rost，“Informed Content DeliveryAcross Adaptive Overlay Networks”，Procs.of ACM Sigcomm，2002年8月，[Byer 02]。[Brod 97]和[Byer 02]都应用A.Broder，M.Charikar，A.M.Frieze和M.Mitzenmacher 的“Min-wiseindependent permutation”Journal of Computer and System Sciences，60(3)，2000，pp.630-659中提到的“Min-wise independent permutation”技术。[Brod 00]是为每对集合A和B估计|A∩B|/|A∪B|的相似比(resemblance ratio)。然而，通过这种技术所要求的信息交换量与所感兴趣的集合的尺寸成正比，即O(|A|)或O(|B|)。这对我们的高速TMA应用是不可行的，在高速TMA应用中，|A|或|B|对应于在测量时段期间遍历给定链路的分组的数量：对于具有40个字节分组的40Gbps链路，测量时段为10秒，|A|可以很容易地在数十亿范围内。基于节点Bloom滤波器交换的替代方法(在[Duff 00，Snoe 01]中间接提到)也是由于对应于Bloom滤波器的类似O(|A|)存储器要求，而陷入过大的存储/通信带宽问题。

经由独特采样计数的分布式交集集合基数确定

本发明，DATALITE，采用一种新的方法来解决分布式ISCD问题：我们首先将ISCD问题转换为一个或多个并集集合(union-set)基数确定(USCD)问题。然后我们将应用近来的O(loglog|A|)独特采样计数，以分布式的方式解决USCD问题。事实上，我们的方法可以用于前面提到的[Brod 97]和[Byer 02]中的应用来显著改进它们的性能和可缩放性。

如所说明的，再次调用采样TMA任务#2，其中

F_{i, j}^{k} = O_{s} \cap L_{i, j} .

根据元素集合理论，|F_i，j ^k|可以被表示为形式：

| F_{i, j}^{k} | = | O_{s} \cap L_{i, j} | = | O_{s} | + | L_{i, j} | - | O_{s} \cup L_{i, j} |

等式(1)

其中，|O_s|是在测量时段期间在节点s上发起的独特分组的数量。顾名思义，生成的每个分组都是独特的，因此|O_s|可以被保持为每一个发起网络节点的单独的分组计数器。|L_i，j|是遍历链路(i，j)的独特分组的数量。我们将应用概率独特采样计数技术来记录每条链路(i，j)∈E的|L_i，j|，该概率独特采样计数技术是在下面的文章中最先提出的：Flajolet，Martin和Durand，P.Flajolet，G.N.Martin，“Probabilisticcounting algorithms for database applications，”Journal of Computerand System Sciences，31(2)，1985，pp.182-209[Flaj 85]和M.Durand，P.Flajolet，Loglog Counting of Large Cardinalities，EuropeanSymposium on Algorithms，ESA’2003，2003年4月[Dura 03]。这种技术的关键的优点是仅需要一个来保持O(loglogN_max)比特的摘要以概括出分组集合L_i，j中的必要信息，其中N_max是L_i，j中独特采样的最大数量。在本发明的上下文中，我们将这个摘要称为L_i，j的业务量摘要(TD)，将其标记为TD_Li，j。除了保持TD_Li，j之外，我们还为每条链路(i，j)∈ E引入简单的分组计数器C_i，j，以跟踪在相同测量时段期间通过链路的分组(包括复制)的简单计数。C_i，j和|L_i，j|的值之间大的差异说明潜在的路由选择问题，如链路(i，j)可能成为路由环路的一部分。因此，在|F_i，j ^k|的估计中剩余的挑战是计算|O_s∪L_i，j |。顺便提及，用于估计|L_i，j|的概率独特采样计数技术还可以延伸到以分布式方式来计算|O_s∪L_i，j|。这基于用于分组集合O_s和L_i，j的O(loglogN_max)尺寸的TD的交换，被标记为TDO_s和TDL_i，j，并分别由节点s和节点i本地保持。类似地，采样TMA任务#1的|F_i，j ^k|可以表示为：

| F_{i, j}^{k} | = | O_{s} \cap L_{i, j} \cap D_{d} |

= | O_{s} | + | L_{i, j} | + | D_{d} | - | O_{s} \cup L_{i, j} | - | L_{i, j} \cup D_{d} | - | D_{d} \cup O_{s} | + | O_{s} \cup L_{i, j} \cup D_{d} |

等式(2)

此外，前面提到的O(loglogN_max)独特采样计数技术可以用来确定等式(2)的R.H.S.中的并集集合的基数。总之，TMA问题可以转换为确定一些特定分组集合的并集的基数。更重要地是，这种方法的每条链路仅需要单个轻量级TD，(加上每条链路一个简单分组计数器)以根据O-D节点对的分类，确定|V|²类型的分组的网络范围路由模式和每条链路的业务量。借助识别分组实际上通过其进入(离开)网络的路由器i的链路，可以根据那些链路的TD，推断出路由器i发起(终止)分组集合的TD。因此，不需要明确维护T_Oi和T_Di。

通常，可以根据一系列并集集合的基数来表示多个集合的交集的基数。具体地，对于集合列表S₁，S₂，......S_n，

| \cap_{i = l}^{n} S_{i} | = Σ_{i &NotEqual; l}^{n} | S_{i} | - \underset{i &NotEqual; j}{Σ} | S_{i} \cup S_{j} | + \underset{i &NotEqual; j &NotEqual; k}{Σ} | S_{i} \cup S_{j} \cup S_{k} | . . . + {(- 1)}^{n - 1} | \cup_{i = 1}^{n} S_{i} |

等式(3)

当应用附加的交集集合来细化感兴趣的业务量聚集的定义时，等式(3)将变得有用，例如具有遍历链路l_i，j的O-D对(s，d)的所有40字节TCP分组。根据等式(3)，ISCD问题总是可以转换为计算等式(3)的R.H.S.中的并集的基数。这又可以通过使用独特采样计数技术，以分布式方式来完成。总之，本发明的解决方法由以下步骤组成：

1.将感兴趣的TMA问题转换为对一些感兴趣的交集集合的基数进行确定的问题，或者是所谓的交集集合基数确定(ISCD)问题。

2.使用等式(3)，将ISCD问题转换为对一些感兴趣的并集集合的基数进行确定的问题，或者是所谓的并集集合基数确定(USCD)问题。

3.通过使用由Flajolet，Martin和Duran[Dura 03]最先提出的独特分组计数技术，以分布式方式解决USCD问题。

在以下部分中，我们将回顾由Flajolet，Martin和Duran提出的“Loglog独特采样计数”技术，并且解释它们如何被应用到DATALITE发明的上下文中。与此相关的，C.Estan，G.Varghese和M.Fisk的文章“Counting the number of active flows on a high speedlink，”ACM Computer Communication Review，vol.32，no.3，2002年7月[Esta 02]中设计了[Flaj 85]中的独特采样计数算法的变量，以估计高速链路上的本地网络流的计数。在DATALITE中，我们应用[Dura 03]中的技术来估计在地理上分布的位置观察的分组的某个并集集合中的独特分组的数量。用于分布式并集集合的备选独特分组计数技术还在下面文章中提出：P.B.Gibbons，S.Tirthapura，“EstimatingSimple Functions on the Union of Data Stresms”，Procs.of ACMSPAA，Crete Island，Greece，2001[Gibb 01]。然而，在[Gibb 01]中提出的方案的存储器要求不如[Dura 03]中提出的引人注目。

回顾Loglog独特采样计数技术

考虑采样集合S，其中每个分组s具有标识符ids。携带该相同标识符的采样被认为是复制品。[Dura 03]利用O(loglogN_max)比特的存储器解决了对S中的独特采样的数量进行计数的问题，即|S|，其中N_max是S中独特采样的最大数量。

他们的方案按如下工作：

首先，每个采样的标识符被用作散列函数h(·)的输入，散列函数h(·)输出均匀分布在[0，2^Rmax-1]范围上的随机非负整数，其中2^Rmax应当大于N_max。将散列输出的二进制表示考虑为R_max比特长度的随机二进制串。直观地，因为h(·)的输出是均匀分布的，所以如果S中有n个独特采样，则按平均，其中n/2^k个采样将具有来自h(·)的带有(k-1)个连续前导零和随后的1比特“1”的输出。(因为复制的采样在h(·)中具有相同的输出，他们共同仅导致一个随机实验。)

将r(x)定义为一个函数，该函数采用二进制串x作为输入，输出的值为(1+在x中连续前导零的最大数量)。例如，对于x＝00001XXX...，r(x)＝5；对于x＝1XXX...，r(x)＝1，其中X表示“不关心”。当将S中的所有采样标识符都看作是输入时，令

R (S) = \max_{s &Element; S} {r (h ({id}_{s}))}

是所获得的r(h(.))的最大值。因此，R(S)应该对log₂n的值给出粗略的指示。事实上，R以与1加参数1/2的n个独立几何变量的最大值相同的方式精确分布。可以看出R以1.33的附加偏置和1.87的标准偏差对log₂n进行估计。事实上，为了减少估计误差，可以使用不同散列函数来获得多个R的值，并使用平均值来估计log₂n。可选地，可以使用所谓的“随机平均算法(SAA)”，利用以下步骤来估计n(或等价为|S|)：

1.根据一个采样的散列输出的最后k比特，将集合S的采样分成m＝2^k个存储段(bucket)。

2.对于第j个存储段，令R_j为R的值。通过将每个采样的散列输出的(R_max-k)个前导比特输入到r(·)来计算R_j(1≤j≤m)。

3.计算

，即|S|的估计，要使用下面的公式，即：

\hat{n} = α_{m} m 2^{\frac{1}{m} Σ_{i = 1}^{m} R_{j}}

等式(4)

其中α_m是修正因子，是m的函数。

如[Dura 03]中所说明的，的标准误差σ由下式给出：

σ = 1.05 / \sqrt{m}

等式(5)

例如，通过设置m＝2048，可以得到2％的标准误差。

回顾N_max是S中的独特采样的最大数量，因为在每个存储段中的独特采样的平均数量大约是N_max/m，因此，我们应该规定R_j的最大值，标记为R_max，使得

2^{R_{\max}} > N_{\max} / m .

在[Dura 03]中已经说明，对于m个R_j的每一个的二进制表示法所需的比特数等于：

等式(6)

因此，对该概率独特采样计数方案，工作存储器要求M由下式给定：

M＝mlog₂ R_maxbits 等式(7)

应当注意上述的独特采样计数方案可容易地适用于如下分布式实施，即在所述分布式实施中，集合S的采样在分散的位置上被观察(或存储)：令

S = \cup_{p = 1}^{p} S_{p},

其中集合S_p被保持在P个分散的位置中。我们可以根据分布式最大合并算法(Distributed Max-merge Algorithm：DMA)，以分布式方式估计S中的独特采样的数量，将其标记为|S|(或者

| \cup_{p = 1}^{p} S_{p} |

)，利用以下步骤：

1.在每个位置p上，根据S_p中的采样，更新m个存储段中的每一个的R值。令R_j ^p为位置p中第j个存储段的R的值，其中1≤j≤m并且1≤p≤P，我们将R_j ^p的m个值的集合(collection)作为Sp的轻量级摘要。

2.在测量时段结束时，在所有的P个位置之间交换R_j ^p的集合(collection)，其中1≤j≤m并且1≤p≤P。

3.在每个位置上，通过设定

R_{j} = \max_{1 \leq p \leq P} R_{j}^{p}

采执行R_j ^p的最大合并，其中1≤j≤m。

4.在P个位置的任意一个上，通过将从步骤3得出的最大合并R_j代入上面讨论的SAA的等式(4)中，可以获得|S|(或者

| \cup_{p = 1}^{p} S_{p} |

)的估计。

参照图1，将描述上面的独特采样计数方案，即SAA和DMA是如何应用在本发明的上下文中的。在这种情况中，网络中感兴趣的各分组集合变成采样集合10。这些分组成为将被检查的采样，并且根据分组头中的一连串所选字段、可能还有如步骤20所示的有效负荷的某些特定部分，来构建该采样(即分组)标识符。分组标识符的关键要求是在分组遍历网络时，该标识符要保持不变。因此，诸如IP分组头中的TTL字段这样的字段最好不应该被包括为分组标识符的一部分。我们很清楚可能在分组遍历网络时不经意地修改分组标识符的实际问题，例如沿着分组路径的IP分段，或网络中额外的封装/隧道效应的使用。我们解决这些问题是通过将普遍影响作为特殊情况来处理分组，并且将剩余部分当作额外的业务量测量误差。

对于感兴趣的给定分组集合，m个R_j的集合(collection)(定义为SAA)成为该分组集合的业务量摘要(TD)。图1概括了分组集合的TD是如何从它的分组中被提取出来的。例如，在步骤30，每个分组的分组标识符(PID)被输入到散列函数以获得R_max比特的散列输出h(PID)。步骤30的输出在步骤40被输入到m路分离器。在此，根据h(PID)的最后log₂m比特发生m路分离。在步骤50，对于从1到m个存储段中的每一个，跟踪R_i，其中通过使用函数r()，将所有散列输出h(PID)中前(R_max-log₂m)个比特中的连续前导零的最大数量分配到第i个存储段。在测量时段结束时，R₁到R_m的集合成为感兴趣的分组集合S_p的轻量级TD，其中TD的尺寸是mlog₂R_max比特。

DATALITE的操作模式

我们现在描述在本发明的基于DATALITE的网络中为了支持TMA任务的操作步骤。我们将前面描述的采样TMA任务#1用作说明性示例1。在这种情况中，每个节点i∈V为它所感兴趣的每个本地分组集合保持一个轻量级业务量摘要(TD)(以SAA中m个Rj的集合的形式)，即，它发起的分组(O_i)、它终止的分组(D_i)和遍历其每条链路(i，j)∈E的分组的集合(L_i，j)，我们将这些分组集合的对应TD分别表示为TD_Oi，TD_Di和TD_Li，j。除使用简单计数器来跟踪按链路分组计数(C_ij)(不考虑分组复制)和分组生成计数(|O_i|)，每个路由器使用SAA连同包含在TD_Li，j和TD_Di中的信息来跟踪所感兴趣的本地独特分组计数，即|L_i，j|和|D_i|。此外，在从所有节点j∈V接收到TD_Oj和TD_Di之后，节点i可以为它所有的链路(i，j)∈E以及所有的k＝(s，d)∈V×V估计等式(2)中的|F_i，j ^k|的值。特别是，可通过将O_s，D_d和L_i，j代换为DMA(其中R_j ^p的交换分别由从节点s和d到节点i的TD_Os和TD _Dd分布来代换)中的S_p来估计等式(2)的R.H.S上的并集的基数。则一旦由节点i本地计算出|F_i，j ^k|，则可以将其经由定期广播或以按需查询答复的方式分布到其它网络节点。然后，每个节点就可以根据对|F_i，j ^k|的知识来构建感兴趣的业务量聚集的网络范围视图。为了进一步减少|F_i，j ^k|的测量/估计差错，例如由于[Dura03]中的方案的概率统计特性，每个节点可以根据以|F_i，j ^k|表示的节点和网络范围流节约约束条件，可选地执行最小均方误差(MSE)最优化。在下面的部分中将讨论这种MSE最优化的细节。图2概括了由启用了DATALITE的节点执行的上述操作步骤。

参照图2，示出了节点100的流程图，该节点100具有执行本发明的方法的一个或多个处理器。如图所示，在步骤1中，到来分组进入节点100并被前置滤波以确定感兴趣的分组集合。在步骤2，提取业务量摘要(TD)，例如以前面所解释的方式提取O(loglogN)尺寸的TD。然后分组在它们的数据路径上继续。在图2的步骤3，TD被分布到网络中的其它相关节点，例如，被分布到感兴趣的分组集合中。这些TD可以可选地以已知的方式被压缩和/或格式化为现有的路由协议控制消息的数据对象或新的专用查询协议。在步骤4，来自网络内其它相关节点的远端TD在节点100上被接收。在步骤5，根据本地TD和已经被分布的远端TD来确定给定聚集流|F_i，j ^k|的本地估计。然后该给定聚集流的本地估计也被分布到其它相关节点。在步骤7，网络中来自其它相关节点的被估计的聚集流|F_i，j ^k|在节点100上被接收。在步骤8，利用从网络中的其它相关节点接收的聚集流估计，根据本地和远端聚集流估计来确定业务量流模式和流量的网络范围视图的结构。在步骤9，发生后处理，例如是为了通过应用网络范围的流节约约束条件来进一步减少估计误差。在步骤10，最后的输出被提供给，例如网络范围的业务量路由模式、流量和/或可能的路径延迟统计。该输出也可以检测上面的一个或多个参数的变化。

注意到，通过仅分发发起或终止分组集合(即O_i和D_i，对所有的i∈V)的TD，而不是L_i，j的TD，我们充分地减少DATALITE的通信带宽要求。这是因为，即使对于TD_Li，j的轻量级特性，它们仍然不如|F_i，j ^k|小。而且，因为在实际的网络中，典型地是节点要比链路少得多，所以TD_Oi和TD_Di的数量也比TD_Li，j少得多。

考虑和最优化DATALITE的存储器和通信带宽要求

关键的设计/工程难题之一是将(1)用于TD的本地存储器要求和(2)节点间的通信带宽要求维持在可接受的水平上，同时满足感兴趣的TMA应用的估计误差要求。为了达到这个目的，我们建议以下的多方位(multi-prong)策略。

1.每个TD的存储器尺寸的审慎控制

考虑支持10Gbps+网络中TMA任务的TD的存储器要求。因为40Gbps的链路每秒可传送最多125兆个40字节的分组，对于N_max(等式(6)中)而言，10¹²或2⁴⁰的值应当足以支持长达8000秒长的测量时段了。根据等式(5)，为了达到独特采样计数估计的标准误差σ≤2％，m应该是≥2048。将N_mx＝2⁴⁰和m＝2048代入等式(6)，输出R_max＝32＝2⁵。换言之，分配5比特对TD中的每个R_j进行编码就足够了。因此，每个TD的存储器要求M＝mlog₂R_max(比特)由m的值来规定。对于m＝2048(与对应的独特采样计数估计的2％的标准误差相对应)，TD的尺寸大约是1.7K字节。我们将其作为每个TD的存储器要求的下限，以便考虑在对感兴趣的最终度量(例如，前面讨论的采样TMA任务|F_i，j ^k|)的估计期间可能的估计误差积累和/或“放大”。这是因为，根据等式(3)，等式(3)的L.H.S.上的项的估计误差是R.H.S.上的每项的估计误差的和。因此，在L.H.S.项中的集合交集的级越多，则当等式(3)的R.H.S.上的并集集合基数的估计误差积累时，估计误差就越大。此外，因为

σ = 1.05 / \sqrt{m}

是相对于等式(3)的R.H.S.中的每个并集集合基数的“相对”估计误差，所以对于等式(3)的L.H.S.上的交集项的对应相对估计误差(即，百分比方式)可能被“放大”，尤其当等式(3)的L.H.S.上的交集集合的基数(在绝对项中)比R.H.S.上的并集集合项的基数小得多的时候。

在实际中，根据TMA应用的估计误差要求来确定实际的m值，并且因此确定每个TD的存储器尺寸。对于那些其中粗略估计/测量就足够了的TMA应用，将使用比较粗略的较小TD，例如1.7K字节TD就足够了。这种类型的TMA应用的示例包括路由故障/误配置/变化检测以及DDoS攻击反跟踪，在这种情况下感兴趣的事件通常会导致业务量流模式中的急剧变化。因此，|F_i，j ^k|的值将严重偏离它们的标称值，而估计误差相对于这种突发偏离不重要。对于其中要求数量众多、高度精确的的TMA应用，我们可以在估计等式(3)的L.H.S.上的每个“并集方式”项的过程中增加m(并因此降低σ)。然而，因为σ的线性下降要求TD的尺寸以二次方式增加，所以应当审慎地处理存储器与精度之间的折中。幸运地是，由于TD固有的轻量级特性，所以有非常大的空间来按比例增大其存储器尺寸。例如，TD的尺寸从1.7K字节增大512倍到0.87兆字节可以将σ减到0.08％以下。然而，0.87兆字节的TD对于当前的快速存储器技术还是很合理的。也就是，现今用于10Gbps线卡(line-card)的典型存储器量大约是2G比特。这提供了相当于200毫秒的缓冲。使用此存储量的10％，即25兆字节，用于业务量测量/分析目的，则意味着每个线卡可以容纳超过280.87兆字节TD。在该项研究中，我们将研究并行支持多种尺寸的TD的方法。

2.有效支持每条链路的多个业务量聚集业务量聚集(或者分组集合)

在实际中，某些TMA应用可能要求分组集合的更精细定义(例如根据分组的协议类型和/或端口数量)，而不是为每条链路保持一个单独的分组集合，即L_i，j。每条链路的多个更精细分组集合的另一个有趣使用是使用“时间索引(time-indexed)”的分组集合(其中原始测量时段被分成多个更小的间隔)，使得可以通过计算属于网络中不同链路的时间索引的分组集合的交集的基数，来估计(不可否认具有有限的分辨率)网络中的路径时延。

为了支持每条链路的多个分组集合，一种简单的方法是为感兴趣的每个精细分组集合分配一个单独的TD。然而，通过引入一般化的分组集合交集技术，可以仅使用每线卡Q个TD来支持O(Q²)类型的更精细业务量聚集的网络范围TMA。这种技术的基本思想如下：

假设我们需要支持每条链路K＝2^k个分组集合。不是给K个分组集合的每一个(表示为P₁，P₂，......P_K)分配TD，而是构建Q个模拟(artificial)分组集合S₁，S₂，......S_Q的一个列表，其中

[\begin{matrix} Q \\ 2 \end{matrix}] = Q (Q - 1) / 2 &GreaterEqual; K .

S₁，S₂，......S_Q被这样定义，

i，1≤i≤K，存在1≤q1，q2≤Q，其中P_i＝S_q1∩S_q2。换言之，每个P_i都可以被从一对模拟集合的交集“恢复”。因此，通过仅保持Q个模拟分组S₁，S₂，......S_Q的每一个的TD，分别表示为TD_S1，TD_S2，......TD_SQ，我们就可以计算任意交集或并集集合的基数，而P_i作为其分量之一。首先将P_i表示为S_q1∩S_q2，然后应用等式(3)和前面讨论的独特采样计数技术。作为示例，利用此集合交集技术，仅需要每条链路保持24个TD，以便同时支持网络范围的276个更精细业务量聚集的TMA。即使有了高分辨率，0.87兆字节TD，用于这种配置的每个线卡的全部TD存储器需求仍小于21兆字节或现在已有的典型10Gbps线卡的存储量(2G比特，或相当于200毫秒的缓冲)的8.4％。

理论上，通过在2log₂K个模拟集合(每一个对应于log₂K比特二进制表示的比特值K)中应用log₂K级交集来恢复每个P_i，还可以将每个线卡所需的TD的数量减少到2log₂K。然而，由于等式(3)的R.H.S.上的项数量很大，所以积累的估计误差可能会很多。反过来，这会增加每个TD的存储器要求，以减少每级的估计误差。在交集的级数和每个TD的增加存储量要求之间的详细权衡将是我们研究的主题。

3.通过考虑网络范围的流节约约束条件来进一步减少估计误差

中的集合误差。令是|F_i，j ^k|的新估计值，该值满足节点流节约约束条件。由

e_{i, j}^{k} = f_{i, j}^{k} - {\hat{f}}_{i, j}^{k}

表示将

变为f_i，j ^k所要求的扰动(perturbation)。考虑下面的MSE最优化问题：

最小化

{\underset{\underset{k &Element; V \times V}{(i, j) &Element; E}}{Σ} {(e_{i, j}^{k})}^{2}}

条件是

\underset{(i, j) &Element; E}{Σ} ({\hat{f}}_{i, j}^{k} + e_{i, j}^{k}) = \underset{(i, j) &Element; E}{Σ} ({\hat{f}}_{i, j}^{k} + e_{j, l}^{k})

i∈V，k＝(s，d)∈V×V，s≠i，d≠i

\underset{(i, j) &Element; E}{Σ} ({\hat{f}}_{i, j}^{k} + e_{i, j}^{k}) = | O_{i} |

i∈V，

k＝(i，d)，d∈V

\underset{(j, i) &Element; E}{Σ} ({\hat{f}}_{j, i}^{k} + e_{j, i}^{k}) = | D_{i} |

i∈V，k＝(s，i)，s∈V

上述最优化解决方案将输出

的“共同”最小扰动，即e_i，j ^k，使得如在|F_i，j ^k|的真实值的情况下那样，新的估计

f_{i, j}^{k} = {\hat{f}}_{i, j}^{k} + e_{i, j}^{k}

将至少满足节点流节约约束条件。我们推测，通过考虑流节约约束条件， (其必须由|F_i，j ^k|的真实值满足)，我们将使得所述估计更接近它们的真实值。

4.节点间通信带宽最优化

关于本发明DATALITE的通信带宽要求的主要控制因素包括：

(1)待交换的TD的数量和尺寸，

(2)TD的交换频率和生成的业务量流估计器，和

(3)将TD和业务量流估计器分布到整个网络的方式。

我们前面已经描述了如何控制和减少(1)。在此，我们会注意到一些关于(1)的额外最优化机会。首先，取决于TMA应用的需求，即感兴趣的业务量测量，我们可能仅需要将选定的TD的集合分布到网络中的其它节点。例如，当采样TMA任务#1要求在网络中的所有节点之间进行TD_Oi和TD_Di的全网(full-mesh)交换时，采样任务#2仅要求下游DDoS攻击受害者节点的TD _Di的分布。我们还可以在将TD分布到其它相关节点之前，在测量时段结束时将其压缩。

由DATALITE支持的定期广播和按需查询答复这两种模式的操作也有助于控制(2)。实际上，TD的交换频率和所得到的业务量流估计器主要由应用需求来规定。例如，对于改变检测类型的应用(例如路由误配置/网络故障的检测)来说，为了减少检测时间，交换频率应该高很多。很幸运，这些也正是较低精度的测量/估计，即较小的TD，可能就足够了的应用，因为由感兴趣的事件引起的流模式上或每条链路的流值的结果变化比较重要。另一方面，要求较高精度的测量/估计的TMA应用(因此是较大的TD)仅在较长的测量间隔上才比较有意义，反过来，这帮助减小带宽要求。DATALITE方案的另一个优点是TD存储器要求随测量时段T非常缓慢地增长(O(loglogT))。如上所述，我们可以在长达8000秒的测量时段中有效地保持TD的尺寸不变，这对于大多数业务流测量应用都是足够的。

最后，TD的分布模式应该根据TD的数量和尺寸以及所需的分布频率来决定。为了便于说明，让我们考虑两种极端情况(或应用要求)。在第一种情况中，在业务量模式变化/故障检测应用或DDoS反跟踪中使用1.7K字节的TD。即使使用溢出每一秒种将每个节点的未压缩TD_Oi和TD_Di分布到其它所有节点(最贵的带宽方式选择)，对于一个100节点的网络而言，在网络中每条链路上产生的TD业务量也不会超过2×1.7×8×|V|Kbps，即每条链路2.72Mbps，或者少于10Gbps链路容量的0.03％。在第二种情况中，进行特殊的以钟点计算的业务量研究，以测量精细业务量类型的网络范围的一天内时间的统计和路由行为。在此，使用同一个网络中的所有节点之间的全I-BGP网络(mesh)，每小时分布24×2个较高分辨率、未被压缩的、每个为0.87M字节的TD，来分析网络范围的276种业务量聚集的行为(使用上述一般化的集合交集技术)。对应的每个节点的到来TD带宽是0.87×8×2×24×100/3600Mbps＝9.28Mbps，该值仍少于10Gbps链路容量的0.1％。

结论

总之，通过采用直接测量方法，本发明DATALITE避免了由于破坏网络X线体层照相术方法的非法业务量建模和操作假设引起的问题。尽管在本发明DATALITE方案和现有的基于轨迹的方案之间有一些高级别的共性，但它们之间有着关键的区别：第一，通过将业务量问题表示为一系列的集合基数确定问题，我们可以通过利用近来在独特采样计数技术中的进步，以最小的通信开销按照分布式的方式，来执行业务量分析。第二，通过集中于对业务量聚集行为而不是单个分组行为的测量和分析，与先前的方法相比，大大减少了DATALITE的***存储器和通信带宽要求。因此，对于DATALITE，可以采用分布式的计算模型，而不是由现有的基于轨迹的***采用的重量级集中式方法。

前面的描述仅仅说明了本发明的原理。应当理解，本领域的技术人员可以设计出各种方案，这些方方案尽管在此处没有明确描述和说明，但是体现本发明的原理，并且包括在本发明的精神和范围内。此外，所引用的所有示例和条件限制语言主要是为了指导性的目的，为了帮助读者理解本发明的原理和本发明人为了延深本技术所提出的概念，并且为了解释不要为这些具体引用示例和条件所限制。此外，对此处引用的原理、特征和本发明的实施例及其具体示例的所有叙述，都是为了包含其结构和功能的等价物。另外，目的是该等价物包括当前已知的等价物和今后要发展的等价物，即任何执行相同功能的被开发的元件，而不管其结构。

由此，在权利要求中，被表示为执行特定功能的任何元件旨在包含执行该功能的任何方式，包括，例如，a)执行该功能的多个电路元件的组合或b)任何形式的软件，因此包括，与适当的电路组合的固件、微码等，用于执行该软件来执行该功能。按这种权利要求限定的本发明存在的实际情况是，通过各种引用方式提供的功能被以权利要求所要求的方式组合和合并。因此，申请人将可以提供那些功能的任何方式看作是此处说明的方式的等价物。本发明的其它修改和应用对本领域的普通技术人员是显而易见的，并且通过此处的教导而被考虑。相应地，本发明的范围仅由所附的权利要求所限定。

Claims

1.一种在分组通信网络中执行业务量的分析的方法，所述方法包括：

关于感兴趣的分组集合，在所述网络中的指定节点上测量业务量聚集；

利用所述业务量聚集，为所述网络中待测的参数形成交集集合基数确定；

为所述待测的参数解出所述集合基数确定；

将所述交集集合基数确定形成为一系列并集集合基数确定；以及

应用一个或多个O(loglog|A|)独特采样计数算法，以分布式方式解出所述并集集合基数确定。

2.根据权利要求1的方法，其中实质上的O(loglogN_max)比特摘要被用于概括分组集合L_i，j中的必要信息，其中N_max是L_i，j中独特采样的最大数量。

3.根据权利要求1的方法，其中所述业务量的分析是从包括下述内容的组中选出的：对业务量路由模式的分析，对业务量流模式的分析，和跟踪由感兴趣分组的一给定组遍历的源、目的地、中间节点和链路。

4.一种在分组通信网络中执行业务量的分析的方法，所述方法包括：

根据给定的分组集合成员资格，从所述网络的选定节点提取基于聚集的业务量摘要；

将相关的本地业务量摘要分发到所述网络中所述选定节点中的其他节点；

从所述网络中所述选定节点中的其他节点接收相关的远端业务量摘要；

基于所述本地业务量摘要和所述远端业务量摘要，提供指定业务量流的本地估计；

从所述其他选定节点接收所述指定业务量流的远端估计；

基于所述本地和远端指定业务量流，解出所述网络中给定参数的集合基数确定问题。

5.根据权利要求4的方法，其中所述提取业务量摘要的步骤包括如下步骤：

从属于一指定分组集合的每个分组提取分组标识符；

将每个分组标识符输入到散列函数以接收R_max比特的散列输出，R_max比特的散列输出的log₂m比特被用于确定存储段索引；

根据所述存储段索引将所述散列输出分离成m个存储段；

对于所述m个存储段的每个存储段i，跟踪R_i，通过使用r()将所有散列输出的前(R_max-log₂m)比特中的连续前导零的最大数量分配到第i存储段；

利用R₁到R_m作为所述指定分组集合的业务量摘要。

6.根据权利要求4的方法，其中对于每条链路(i，j)∈E维护分组计数器C_i，j，以在与业务量摘要测量时段相同的测量时段期间，跟踪通过链路的分组的计数，其中C_i，j和|L_i，j|的值之间的显著差异说明潜在的路由问题。

7.根据权利要求4的方法，还包括使用时间索引的分组集合，其中原始测量时段被分为多个时间间隔，以借助使用Q模拟集合，通过计算属于网络中不同链路的时间索引的分组集合的交集的基数，来估计网络中的路径时延。

8.一种在分组通信网络中执行业务量的分析的方法，所述方法包括：

根据给定的分组集合成员资格，从所述网络中的选定节点提取基于聚集的业务量摘要；

从所述网络中所述选定节点中的其他节点分发相关的远端业务量摘要；

从所述其他选定节点分发所述指定业务量流的远端估计；