CN107302447A - 一种基于复杂***的多层数据分析方法 - Google Patents

一种基于复杂***的多层数据分析方法 Download PDF

Info

Publication number
CN107302447A
CN107302447A CN201710354863.2A CN201710354863A CN107302447A CN 107302447 A CN107302447 A CN 107302447A CN 201710354863 A CN201710354863 A CN 201710354863A CN 107302447 A CN107302447 A CN 107302447A
Authority
CN
China
Prior art keywords
msub
mrow
server
ponds
backup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710354863.2A
Other languages
English (en)
Other versions
CN107302447B (zh
Inventor
管海兵
汤之光
周海航
朱昱锦
�田润
姚建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201710354863.2A priority Critical patent/CN107302447B/zh
Publication of CN107302447A publication Critical patent/CN107302447A/zh
Application granted granted Critical
Publication of CN107302447B publication Critical patent/CN107302447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0894Packet rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了基于复杂***的多层数据分析方法,其使用Markov chain和Stochastic Reward Net来进行建模,将数据中心分为3层,为PDU、switch和server层,PDU采用集中式,也即整个数据中心只由单台PDU管理,Switch网络结构为简化的Fat Tree,分为Core Switch和Edge Switch层。Server分两类,逻辑上认为Server分别分布在主服务器集群池和备用服务器集群池。本发明中数据中心的可用性定义为主服务器集群池内可用server的台数。本发明通过对数据中心可用性的定量分析,为其确定合适的超配比,引入转移延迟,使得模型更加符合实际。

Description

一种基于复杂***的多层数据分析方法
技术领域
本发明涉及到***数据处理领域,具体涉及到一种基于复杂***的多层数据分析方法,使用Markov chain和Stochastic Reward Net来分析数据中心的可用性。
背景技术
可用性,即一个***处在可工作状态的时间比例。可用性的分析方法分为两类,一类是组合法,一类是状态法。组合法是基于***和组成器件之间逻辑关系的一种分析方法,包含可靠性框图法,可靠图法,故障树分析法;状态法包含基于Markov过程的方法和基于Petri网的方法,Petri网的方法又分为随机Petri网、随机回报网、广义随机Petri网。
随着科学技术的发展,***的规模越来越大,复杂程度越来越高,用组合法很难完整描述此类***;用状态法则求解的复杂性又难以克服。而且现在很多***都是刚性***,参数之间的数量级存在很大差别,使得***可靠性分析难度大大增加。针对这些问题,现有技术中有一些解决办法:一是采用分解技术和层次化结构。分解技术是将大模型分解成一些小的子模型来简化复杂性。层次化结构是将组合法或状态法中的一种或几种方法组合起来建立模型,以利用各个方法的长处;二是发展数值分析技术。数值分析技术使大规模模型和刚性***的分析变得可行;三是对原有方法进行扩展。对原有方法进行扩展,是现在针对原有方法的限制条件,在应用过程中提出了一些扩展方法。比如用半Markov模型来分析非指数分布的***,在故障树分析中增加各种逻辑门来增强模型的描述能力。
当前可用性研究中,大部分都停留在对server层的分析,而没有考虑数据中心的拓扑结构,然而上层设备的故障会导致底层Server的失效,从而影响数据中心的可用性。
发明内容
针对现有技术中的缺陷,本发明提出了一种基于复杂***的多层数据分析方法,本发明考虑了server的故障与修复,使用了Markov链和随机回报网,还考虑到了PDU(PowerDistribution Unit)超配的情况,将上层Core Switch的故障和修复建模为生灭过程。Main池内为正常运行的server,backup池内为备用的server;当main池内server故障时,backup池内若有可用的server,则其中的某一server在经历一定转移延迟以后,被转移到main池内代替故障的server。
为实现上述目的,本发明是根据以下技术方案实现的:
一种基于复杂***的多层数据分析方法,其特征在于,包括如下步骤:
步骤S1:给定某类工作负载,通过分析该负载的用电情况,可得出某负载用电的累计分布函数,最大用电量被标准化为1;
步骤S2:根据累计分布函数,得出PDU在不同超配比下的平均故障时间MTTFO,由于超配而故障的故障速率为fo=1/MTTFO,PDU自身的设备故障速率为fp,则PDU的总故障速率为fPDU=fp+fo
步骤S3:分析Switch的Core Switch层,将Core Switch的故障与修复,建模为生灭过程,并推出Core Switch层的故障速率fco
步骤S4:设定Edge Switch的故障速率为其设备故障速率fe,得出上层设备的总故障速率为:fsum=fPDU+fco+fe
步骤S5:将得到的上层设备故障速率总和加到底层server;
步骤S6:建立主服务器集群main池和备用服务器集群backup池的SRN模型;
步骤S7:通过模型之间的信息交换和迭代,使模型最后达到稳定状态;
步骤S8:记录在稳定状态下的可用性结果。
上述技术方案中,所述步骤S3中,设每个Core Switch层的故障速率为fr,当CoreSwitch层处于状态i时,该层的故障速率为fr·i;处于任意状态的修复速率定义为r,对于生灭过程,当***到达稳定时,处于状态i的概率为:
其中可由以下公式推出:
得出至少有一台Core Switch正常运行的概率为:
假设所有Core Switch均故障所需要的平均故障时间为MTTFco,对应的故障速率为fco=1/MTTFco,当所有Core Switch层均故障时,则pco表示为:
推算出fco为:
上述技术方案中,所述步骤S6中,在计算出fsum的情况下,将其作为参数代入main池的SRN模型,Nm表示main池,令牌数为表示main池内可用的server,设定main池内server自身故障速率为fm,则任一台server的综合故障速率为fsum+fm
设定backup池内有可用server的概率为pb,Fbm表示当backup池内有可用server时main池内有server发生故障,Fbm的触发速率为Fm表示当backup池内没有可用server时main池内有server发生故障,Fm的触发速率为
当Fm被触发时,一个令牌从Nm转移到Nfm,Nfm内的令牌数代表main池内等待修复的server数;当Fbm被触发时,一个令牌从Nm转移到Nbm,Nbm内的令牌数代表等待从backup池内转移到main池内,替代故障server的数目;
Rm表示一台故障server的修复过程,当Rm被触发时,一个令牌从Nfm转移到Nm,代表着被修复的server被送回到main池内,Rm的触发速率为r;
Mbm表示一台server的转移过程,当被触发时,一个令牌从Nbm转移到Nm,代表着一台server已成功从backup池转移到main池,Mbm的触发速率为mr
上述技术方案中,所述步骤S6中,将fsum作为参数代入backup池的SRN模型,Nb表示backup池,令牌数为表示backup池内可用的server,设定backup池内server自身故障速率为fb,则任一台server的综合故障速率为fsum+fb
Fbm表示当backup池内某台可用的server需要被转移到main池内,替代故障main池内的server。计算出main池内可用server数的期望:
其中为main池内有i台server可用的概率,通过对main池的统计得到,从而backup池内Fbm的触发速率为
当backup池内某台server故障时,Fb被触发,Fb的触发速率为
当Fbm被触发时,一个令牌从Nb转移到Nbm,Nbm的令牌数代表等待从backup池转移到main池的server数;当Fb被触发时,一个令牌从Nb转移到Nfb,Nfb的令牌数代表backup池自身发生故障的server数;
当Mbm被触发时,一个令牌从Nbm转移到Nbc,代表着一台server成功从backup池转移到main池;之后故障的server将被送去修复,而且在修复完成后被送返backup池;Nbc内的令牌数即代表等待被修复的server台数;当Nbc+Nfb>0,即表示至少有一台serve等待被修复,Rb才有可能被触发,Rb的触发速率为r,一旦被触发,一个令牌将被放入Nbr,如果Nbc和Nbr内均至少有一个令牌,瞬态跃迁rb1将被触发,Nbc和Nbr内各被取出一个令牌,Nb被放入一个令牌,代表一个故障server已经被修复,并被送回backup池;否则,如果Nfb和Nbr内均至少有一个令牌,瞬态跃迁rb2将被触发,Nfb和Nbr内各被取出一个令牌,Nb被放入一个令牌。
与现有技术相比,本发明具有如下的有益效果:
本发明在数据中心可用性分析中,将超配纳入考虑范围之内,此外对数据中心的研究不仅仅只集中于server层,还考虑了上层设备的故障及修复对数据中心可用性的影响。在此基础上建立了同时具有主服务器集群(main池)和备用服务器集群(backup池)的SRN模型,可以分析结构较复杂的数据中心可用性,并且引入了转移延迟,使得建立的模型更加符合实际。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为数据中心的结构示意图;
图2为Core Switch对应的生灭过程示意图;
图3为main池的SRN模型图;
图4为backup池的SRN模型图;
图5为Google Trace和Wiki Trace下,Job Size的累计分布函数图;
图6为在Google Trace下,超配比在20%~30%变化时,数据中心可用性的模拟和分析结果示意图;
图7为在Wiki Trace下,超配比在5.5%~6.5%变化时,数据中心可用性的模拟和分析结果示意图;
图8为在Google Trace下,超配比在20%~30%变化时,无转移延迟和有转移延迟情况下,数据中心可用性的模拟结果示意图;
图9为在Wiki Trace下,超配比在5.5%~6.5%变化时,无转移延迟和有转移延迟情况下,数据中心可用性的模拟结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
图1为数据中心的结构示意图;采用集中式PDU供电,网络拓扑为简化的二层FATTREE,Server被分为main server和backup server两类。
马尔科夫过程,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求下一状态的概率分布只能由当前状态决定,在此之前的事件对将来无影响,也即无记忆性。
马尔科夫过程又分为离散时间马尔科夫过程和连续时间马尔科夫过程。本发明采用的是连续时间马尔科夫过程中的生灭过程。
设随机过程{X(t),t≥0},状态空间I={in,n≥1},若对于任意的正数0≤t1<t2<···<tn+1及任意非负整数i1,i2,···,in+1∈I,条件概率满足
则称{X(t),t≥0}为连续时间马尔科夫过程。生灭过程为时间连续,状态离散的马尔科夫过程,某一状态到达相邻状态所需的时间都服从指数分布。对应的马尔科夫链见图2。
随机回报网是随机Petri网的一种变种,Petri网是由卡尔.亚当.佩特里发明的,适合于描述异步的、并发的计算机***模型。研究领域趋向认为Petri网是所有流程定义语言之母。
经典的Petri网是简单的过程模型,由库所、变迁、有向弧以及令牌等元素组成。根据本发明提供的,在超配情况下的,可用性分析模型,可用于分析具有复杂结构的多层数据中心。本发明的两个池对应的随机回报网模型如图3和4。本发明的一种基于复杂***的多层数据分析方法,包括如下步骤:
步骤S1:给定某类工作负载,通过分析该负载的用电情况,可得出某负载用电的累计分布函数,最大用电量被标准化为1;
步骤S2:根据累计分布函数,得出PDU在不同超配比下的平均故障时间MTTFO,由于超配而故障的故障速率为fo=1/MTTFO,PDU自身的设备故障速率为fp,则PDU的总故障速率为fPDU=fp+fo
步骤S3:分析Switch的Core Switch层,将Core Switch的故障与修复,建模为生灭过程,并推出Core Switch层的故障速率fco
步骤S4:由于Edge Switch和Server直接相连,而且每个Edge Switch均与其他Edge Switch独立设定Edge Switch的故障速率为其设备故障速率fe,得出上层设备的总故障速率为:fsum=fPDU+fco+fe
步骤S5:将得到的上层设备故障速率总和加到底层server;
步骤S6:建立主服务器集群main池和备用服务器集群backup池的SRN模型;
步骤S7:通过模型之间的信息交换和迭代,使模型最后达到稳定状态;
步骤S8:记录在稳定状态下的可用性结果。
步骤S3中,首先分析Switch的Core Switch层,因为是二层FAT TREE结构,所以只有当所有Core Switch都故障时,下层的Edge Switch和Server才会失效。Core Switch层的故障与修复,可看做一个生灭过程,如图2所示。设每个Core Switch层的故障速率为fr,当Core Switch层处于状态i时,该层的故障速率为fr·i;处于任意状态的修复速率定义为r,对于生灭过程,当***到达稳定时,处于状态i的概率为:
其中可由以下公式推出:
得出至少有一台Core Switch正常运行的概率为:
假设所有Core Switch均故障所需要的平均故障时间为MTTFco,对应的故障速率为fco=1/MTTFco,当所有Core Switch层均故障时,则pco表示为:
推算出fco为:
步骤S6中,在计算出fsum的情况下,将其作为参数代入main池的SRN模型,如图3所示,白色圆圈代表库所,白色长方形代表延时跃迁,黑色圆圈代表令牌,Nm表示main池,令牌数为表示main池内可用的server,设定main池内server自身故障速率为fm,则任一台server的综合故障速率为fsum+fm
设定backup池内有可用server的概率为pb,Fbm表示当backup池内有可用server时main池内有server发生故障,Fbm的触发速率为Fm表示当backup池内没有可用server时main池内有server发生故障,Fm的触发速率为
当Fm被触发时,一个令牌从Nm转移到Nfm,Nfm内的令牌数代表main池内等待修复的server数;当Fbm被触发时,一个令牌从Nm转移到Nbm,Nbm内的令牌数代表等待从backup池内转移到main池内,替代故障server的数目;
Rm表示一台故障server的修复过程,当Rm被触发时,一个令牌从Nfm转移到Nm,代表着被修复的server被送回到main池内,Rm的触发速率为r;
Mbm表示一台server的转移过程,当被触发时,一个令牌从Nbm转移到Nm,代表着一台server已成功从backup池转移到main池,Mbm的触发速率为mr
步骤S6中,将fsum作为参数代入backup池的SRN模型,如图4所示,白色圆圈代表库所,白色长方形代表延时跃迁,黑色圆圈代表令牌,黑色长方形代表瞬时跃迁。Nb表示backup池,令牌数为表示backup池内可用的server,设定backup池内server自身故障速率为fb,则任一台server的综合故障速率为fsum+fb
Fbm表示当backup池内某台可用的server需要被转移到main池内,替代故障main池内的server。计算出main池内可用server数的期望:
其中为main池内有i台server可用的概率,通过对main池的统计得到,从而backup池内Fbm的触发速率为
当backup池内某台server故障时,Fb被触发,Fb的触发速率为
当Fbm被触发时,一个令牌从Nb转移到Nbm,Nbm的令牌数代表等待从backup池转移到main池的server数;当Fb被触发时,一个令牌从Nb转移到Nfb,Nfb的令牌数代表backup池自身发生故障的server数;
当Mbm被触发时,一个令牌从Nbm转移到Nbc,代表着一台server成功从backup池转移到main池;之后故障的server将被送去修复,而且在修复完成后被送返backup池;Nbc内的令牌数即代表等待被修复的server台数;当Nbc+Nfb>0,即表示至少有一台serve等待被修复,Rb才有可能被触发,Rb的触发速率为r,一旦被触发,一个令牌将被放入Nbr,如果Nbc和Nbr内均至少有一个令牌,瞬态跃迁rb1将被触发,Nbc和Nbr内各被取出一个令牌,Nb被放入一个令牌,代表一个故障server已经被修复,并被送回backup池;否则,如果Nfb和Nbr内均至少有一个令牌,瞬态跃迁rb2将被触发,Nfb和Nbr内各被取出一个令牌,Nb被放入一个令牌。
步骤S7中,通过main池和backup池交互运行,并把一方的输出当成另一方的输入,若干次迭代后,最终使和pb的值达到稳定,从而整个***到达稳定状态;最后记录在稳定状态下的可用性结果。
本发明的一个具体实施例采用了Google Trace和Wiki Trace来作为工作负载进行分析,main池和backup池内可用server数,初始均设为100,数据中心的可用性定义为main池内可用server数不小于99的概率,图5为Google Trace和Wiki Trace下,Job Size的累计分布函数图。PDU的MTTF设为900万小时,Core Switch的MTTF为50万小时,Edge Switch的MTTF为20万小时。Main池内是运行的server,backup池内的server为处于关机状态的备用server,所以main池内server的MTTF要小一点,设为1000小时;backup池内server的MTTF设为3500小时。为了简化,设备修复的MTTR均设为3小时。
当忽略server从main池到backup池的转移延迟时,即将两个SRN中的Mbm改为瞬态跃迁,两个池的模型分别等价于两个生灭过程。生灭过程的分析类似于图2,此处不再赘述。通过SRN模型模拟所得的和经过对生灭过程的分析所得结果对比如图6-7。在图6中,本发明给出了使用Google Trace,超配比在20%~30%情况下,通过模拟所得出的和由分析得出的数据中心可用性结果。图7给出了使用Wiki Trace,超配比在5.5%~6.5%时,对应的结果。可以看出,模拟所得的结果和分析结果相差不大。
为了更贴近实际情况,本发明引入了转移延迟,在图8中,本发明给出了使用Google Trace,超配比在20%~30%情况下,模拟无转移延迟和有转移延迟的数据中心可用性结果。图9给出了使用Wiki Trace,超配比在5.5%~6.5%时,对应的结果。可以看出,在有转移延迟的情况下,数据中心可用性有所下降。这和实际情况时相符合的:当没有转移延迟时,一旦main池内server故障,backup池内可用的server将会立即代替故障server;若有转移延迟,那么故障的server经过一段时间才能被backup池内的server取代,这段时间也就导致可用性降低了。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (4)

1.一种基于复杂***的多层数据分析方法,其特征在于,包括如下步骤:
步骤S1:给定某类工作负载,通过分析该负载的用电情况,可得出某负载用电的累计分布函数,最大用电量被标准化为1;
步骤S2:根据累计分布函数,得出PDU在不同超配比下的平均故障时间MTTFO,由于超配而故障的故障速率为fo=1/MTTFO,PDU自身的设备故障速率为fp,则PDU的总故障速率为fPDU=fp+fo
步骤S3:分析Switch的Core Switch层,将Core Switch的故障与修复,建模为生灭过程,并推出Core Switch层的故障速率fco
步骤S4:设定Edge Switch的故障速率为其设备故障速率fe,得出上层设备的总故障速率为:fsum=fPDU+fco+fe
步骤S5:将得到的上层设备故障速率总和加到底层server;
步骤S6:建立主服务器集群main池和备用服务器集群backup池的SRN模型;
步骤S7:通过模型之间的信息交换和迭代,使模型最后达到稳定状态;
步骤S8:记录在稳定状态下的可用性结果。
2.根据权利要求1所述的一种基于复杂***的多层数据分析方法,其特征在于:所述步骤S3中,设每个Core Switch层的故障速率为fr,当Core Switch层处于状态i时,该层的故障速率为fr·i;处于任意状态的修复速率定义为r,对于生灭过程,当***到达稳定时,处于状态i的概率为:
<mrow> <msub> <mi>p</mi> <msub> <mi>r</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <mfrac> <mrow> <msup> <msub> <mi>f</mi> <mi>r</mi> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>n</mi> <mi>r</mi> </msub> <mo>-</mo> <mi>i</mi> </mrow> <mo>)</mo> </mrow> </msup> </mrow> <msup> <mi>r</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>n</mi> <mi>r</mi> </msub> <mo>-</mo> <mi>i</mi> </mrow> <mo>)</mo> </mrow> </msup> </mfrac> <mo>&amp;CenterDot;</mo> <mfrac> <mrow> <mo>(</mo> <msub> <mi>n</mi> <mi>r</mi> </msub> <mo>)</mo> <mo>!</mo> </mrow> <mrow> <mi>i</mi> <mo>!</mo> </mrow> </mfrac> <mo>&amp;CenterDot;</mo> <msub> <mi>p</mi> <msub> <mi>r</mi> <msub> <mi>n</mi> <mi>r</mi> </msub> </msub> </msub> <mo>,</mo> <mrow> <mo>(</mo> <mn>0</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <msub> <mi>n</mi> <mi>r</mi> </msub> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中可由以下公式推出:
<mrow> <msub> <mi>p</mi> <msub> <mi>r</mi> <msub> <mi>n</mi> <mi>r</mi> </msub> </msub> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>n</mi> <mi>r</mi> </msub> </msubsup> <mfrac> <mrow> <msup> <msub> <mi>f</mi> <mi>r</mi> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>n</mi> <mi>r</mi> </msub> <mo>-</mo> <mi>i</mi> </mrow> <mo>)</mo> </mrow> </msup> </mrow> <msup> <mi>r</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>n</mi> <mi>r</mi> </msub> <mo>-</mo> <mi>i</mi> </mrow> <mo>)</mo> </mrow> </msup> </mfrac> <mo>&amp;CenterDot;</mo> <mfrac> <mrow> <mo>(</mo> <msub> <mi>n</mi> <mi>r</mi> </msub> <mo>)</mo> <mo>!</mo> </mrow> <mrow> <mi>i</mi> <mo>!</mo> </mrow> </mfrac> </mrow> </mfrac> </mrow>
得出至少有一台Core Switch正常运行的概率为:
<mrow> <msub> <mi>p</mi> <mrow> <mi>c</mi> <mi>o</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>p</mi> <msub> <mi>r</mi> <mn>0</mn> </msub> </msub> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <msup> <msub> <mi>f</mi> <mi>r</mi> </msub> <msub> <mi>n</mi> <mi>r</mi> </msub> </msup> </mrow> <msup> <mi>r</mi> <msub> <mi>n</mi> <mi>r</mi> </msub> </msup> </mfrac> <mo>&amp;CenterDot;</mo> <mrow> <mo>(</mo> <msub> <mi>n</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>!</mo> <mo>&amp;CenterDot;</mo> <msub> <mi>p</mi> <msub> <mi>r</mi> <msub> <mi>n</mi> <mi>r</mi> </msub> </msub> </msub> </mrow>
假设所有Core Switch均故障所需要的平均故障时间为MTTFco,对应的故障速率为fco=1/MTTFco,当所有Core Switch层均故障时,则pco表示为:
<mrow> <msub> <mi>p</mi> <mrow> <mi>c</mi> <mi>o</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>MTTF</mi> <mrow> <mi>c</mi> <mi>o</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>MTTF</mi> <mrow> <mi>c</mi> <mi>o</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>MTTR</mi> <mrow> <mi>c</mi> <mi>o</mi> </mrow> </msub> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <mn>1</mn> <mo>/</mo> <msub> <mi>f</mi> <mrow> <mi>c</mi> <mi>o</mi> </mrow> </msub> </mrow> <mrow> <mn>1</mn> <mo>/</mo> <msub> <mi>f</mi> <mrow> <mi>c</mi> <mi>o</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> <mo>/</mo> <mi>r</mi> </mrow> </mfrac> <mo>=</mo> <mfrac> <mi>r</mi> <mrow> <msub> <mi>f</mi> <mrow> <mi>c</mi> <mi>o</mi> </mrow> </msub> <mo>+</mo> <mi>r</mi> </mrow> </mfrac> </mrow>
推算出fco为:
3.根据权利要求1所述的一种基于复杂***的多层数据分析方法,其特征在于:所述步骤S6中,在计算出fsum的情况下,将其作为参数代入main池的SRN模型,Nm表示main池,令牌数为表示main池内可用的server,设定main池内server自身故障速率为fm,则任一台server的综合故障速率为fsum+fm
设定backup池内有可用server的概率为pb,Fbm表示当backup池内有可用server时main池内有server发生故障,Fbm的触发速率为Fm表示当backup池内没有可用server时main池内有server发生故障,Fm的触发速率为
当Fm被触发时,一个令牌从Nm转移到Nfm,Nfm内的令牌数代表main池内等待修复的server数;当Fbm被触发时,一个令牌从Nm转移到Nbm,Nbm内的令牌数代表等待从backup池内转移到main池内,替代故障server的数目;
Rm表示一台故障server的修复过程,当Rm被触发时,一个令牌从Nfm转移到Nm,代表着被修复的server被送回到main池内,Rm的触发速率为r;
Mbm表示一台server的转移过程,当被触发时,一个令牌从Nbm转移到Nm,代表着一台server已成功从backup池转移到main池,Mbm的触发速率为mr
4.根据权利要求3所述的一种基于复杂***的多层数据分析方法,其特征在于:所述步骤S6中,将fsum作为参数代入backup池的SRN模型,Nb表示backup池,令牌数为表示backup池内可用的server,设定backup池内server自身故障速率为fb,则任一台server的综合故障速率为fsum+fb
Fbm表示当backup池内某台可用的server需要被转移到main池内,替代故障main池内的server。计算出main池内可用server数的期望:
<mrow> <mi>E</mi> <mo>&amp;lsqb;</mo> <msub> <mi>T</mi> <msub> <mi>N</mi> <mi>m</mi> </msub> </msub> <mo>&amp;rsqb;</mo> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>n</mi> <mi>m</mi> </msub> </munderover> <mi>i</mi> <mo>&amp;CenterDot;</mo> <msub> <mi>p</mi> <msub> <mi>m</mi> <mi>i</mi> </msub> </msub> <mo>;</mo> </mrow>
其中为main池内有i台server可用的概率,通过对main池的统计得到,从而backup池内Fbm的触发速率为
当backup池内某台server故障时,Fb被触发,Fb的触发速率为
当Fbm被触发时,一个令牌从Nb转移到Nbm,Nbm的令牌数代表等待从backup池转移到main池的server数;当Fb被触发时,一个令牌从Nb转移到Nfb,Nfb的令牌数代表backup池自身发生故障的server数;
当Mbm被触发时,一个令牌从Nbm转移到Nbc,代表着一台server成功从backup池转移到main池;之后故障的server将被送去修复,而且在修复完成后被送返backup池;Nbc内的令牌数即代表等待被修复的server台数;当Nbc+Nfb>0,即表示至少有一台serve等待被修复,Rb才有可能被触发,Rb的触发速率为r,一旦被触发,一个令牌将被放入Nbr,如果Nbc和Nbr内均至少有一个令牌,瞬态跃迁rb1将被触发,Nbc和Nbr内各被取出一个令牌,Nb被放入一个令牌,代表一个故障server已经被修复,并被送回backup池;否则,如果Nfb和Nbr内均至少有一个令牌,瞬态跃迁rb2将被触发,Nfb和Nbr内各被取出一个令牌,Nb被放入一个令牌。
CN201710354863.2A 2017-05-18 2017-05-18 一种基于复杂***的多层数据分析方法 Active CN107302447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710354863.2A CN107302447B (zh) 2017-05-18 2017-05-18 一种基于复杂***的多层数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710354863.2A CN107302447B (zh) 2017-05-18 2017-05-18 一种基于复杂***的多层数据分析方法

Publications (2)

Publication Number Publication Date
CN107302447A true CN107302447A (zh) 2017-10-27
CN107302447B CN107302447B (zh) 2021-02-12

Family

ID=60137238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710354863.2A Active CN107302447B (zh) 2017-05-18 2017-05-18 一种基于复杂***的多层数据分析方法

Country Status (1)

Country Link
CN (1) CN107302447B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108521352A (zh) * 2018-03-26 2018-09-11 天津大学 基于随机回报网的在线云服务尾延迟预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447569B1 (en) * 2009-09-15 2013-05-21 Hewlett-Packard Development Company, L.P. Determining sustainability of a data center
CN103270501A (zh) * 2011-08-19 2013-08-28 株式会社大塚商会 虚拟数据中心***
CN105743705A (zh) * 2016-03-31 2016-07-06 中国人民解放军国防科学技术大学 一种基于分级策略的数据中心网络可用性评估方法及评估装置
CN106096145A (zh) * 2016-06-15 2016-11-09 中国人民解放军国防科学技术大学 一种基于状态空间的复杂***图形化建模与分析环境

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447569B1 (en) * 2009-09-15 2013-05-21 Hewlett-Packard Development Company, L.P. Determining sustainability of a data center
CN103270501A (zh) * 2011-08-19 2013-08-28 株式会社大塚商会 虚拟数据中心***
CN105743705A (zh) * 2016-03-31 2016-07-06 中国人民解放军国防科学技术大学 一种基于分级策略的数据中心网络可用性评估方法及评估装置
CN106096145A (zh) * 2016-06-15 2016-11-09 中国人民解放军国防科学技术大学 一种基于状态空间的复杂***图形化建模与分析环境

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHIGUANG TANG,HAIHANG ZHOU,YUJIN ZHU,RUN TIAN,JIANGUO YAO: ""Quantitative Availability Analysis of Hierarchical Datacenter under Power Oversubscription"", 《IEEE》 *
汤之光: ""超配情况下多层数据中心可用性的量化分析"", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108521352A (zh) * 2018-03-26 2018-09-11 天津大学 基于随机回报网的在线云服务尾延迟预测方法
CN108521352B (zh) * 2018-03-26 2022-07-22 天津大学 基于随机回报网的在线云服务尾延迟预测方法

Also Published As

Publication number Publication date
CN107302447B (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN101615265B (zh) 一种基于多Agent技术的智能决策仿真实验***
US8549353B2 (en) Batch processing error handling modes
CN104050087B (zh) 一种基于uml模型的软件架构正确性验证方法
US8464229B2 (en) Creation of form-based software application in a graphical user interface (GUI) environment
CN105046327B (zh) 一种基于机器学习技术的智能电网信息***及方法
Ramaji et al. Interpreted information exchange: Systematic approach for BIM to engineering analysis information transformations
EP2343644A1 (en) Transformation of data between hierarchical data formats
CN110166285A (zh) 一种基于Docker的网络安全实验平台搭建方法
US20110161733A1 (en) Transaction regions in methods of processing data
CN104361169A (zh) 一种基于分解法建模的可靠性监测方法
CN102780583B (zh) 物联网业务描述、组合和服务质量评估的方法
US20110161917A1 (en) Processing collections of data items
CN110162297A (zh) 一种源代码段自然语言描述自动生成方法及***
US20230118325A1 (en) Method and apparatus having a memory manager for neural networks
CN108415740A (zh) 一种应用于数据分析任务的工作流调度方法
CN107301128A (zh) 基于Petri网模型的***仿真验证方法
Kontogiannis et al. Comprehension and maintenance of large-scale multi-language software applications
US20110161934A1 (en) Generating and monitoring data items
CN106951593A (zh) 一种生成保护测控装置的配置文件的方法和装置
CN107302447A (zh) 一种基于复杂***的多层数据分析方法
Fu et al. Modeling and performance analysis of product development process network
US20220284161A1 (en) Automated design hierarchy identification and simplified reduced model generation for static verification of circuit designs
Коваль et al. Data collection for analytical activities using adaptive micro-service architecture
KR100981145B1 (ko) 열수력 분석을 위한 자발적 분산 처리 시스템 및 그 방법
Demarest et al. Dynamic visualizations for violence prevention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant