CN103853627B - 由与物理机器相关地分析虚拟机器性能问题原因的方法和*** - Google Patents

由与物理机器相关地分析虚拟机器性能问题原因的方法和*** Download PDF

Info

Publication number
CN103853627B
CN103853627B CN201210551601.2A CN201210551601A CN103853627B CN 103853627 B CN103853627 B CN 103853627B CN 201210551601 A CN201210551601 A CN 201210551601A CN 103853627 B CN103853627 B CN 103853627B
Authority
CN
China
Prior art keywords
level
physical
event
application layer
event set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210551601.2A
Other languages
English (en)
Other versions
CN103853627A (zh
Inventor
王恩慈
阙志克
柯积忠
叶书峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of CN103853627A publication Critical patent/CN103853627A/zh
Application granted granted Critical
Publication of CN103853627B publication Critical patent/CN103853627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

根据一个示范性实施例,一种用于分析根本原因的方法施加应用级依赖发现和异常检测,以找到一个或多个虚拟机器(VM)中的应用级依赖,并生成带有异常的应用级拓扑;并且然后将该带有异常的应用级拓扑转换为VM级依赖,并且经由物理和虚拟资源映射将该VM级依赖转换到物理机器级(PM级)依赖,并且最终生成一组事件集。通过对该组事件集区分优先次序来生成优先次序化的事件列表。

Description

由与物理机器相关地分析虚拟机器性能问题原因的方法和 ***
技术领域
本公开一般涉及一种用于由与物理机器相关地分析虚拟机器当中的性能问题的根本原因的方法和***。
背景技术
网络通信和硬件/软件技术中的快速发展带来大量的电子服务以丰富人类的日常生活。随着虚拟技术的发展和进步,可以将这些服务移动到虚拟机器上运行。一些技术可以提供新的经济模型,新的经济模型提供诸如计算能力、数据存取和网络变换作为效用。例如,一种模型亦称为可以计算领域中的基础设施即服务(IAAS)。作为拥有物理数据中心的IAAS提供商,绝对需要监视整个物理数据中心以知晓所述设备的条件,例如冷却***和供电/UPS***或者所述物理设备的使用,并且很多现有的监视***,例如Zenoss和WhatsUp可以支持这些要求。
现有技术之一公开了集成在小规模数据中心上运行的Xen管理程序中以识别VM间的依赖的LWT方法。另一技术引入了使用虚拟化的服务器合并(consolidate)的概念。为了满足服务级别协议(SLA),该技术基于用于当检测到性能问题时在一组物理机器内迁移虚拟机器的算法。又另一种技术提供了一种虚拟环境中用于应用性能控制和动态资源分配的***。此技术预测满足应用级性能要求的资源需求。又另一种技术公开了一种基于TCP/IP模式的警报关联算法,并且所述警报关联(或事件关联)是网络管理***中的关键功能。此技术根据每一种TCP/IP协议类型的标识符,例如TCP中的端口号对所述警报分类,并且然后聚集所述警报以找到根本原因警报(rootcause alarm)。
存在一些关于应用性能问题的根本原因分析的工作。这些技术之一提到监视与多个组件的事务可以收集组件级信息。并且,对于超过门限的事务,可以分析从独立组件收集的数据以找到性能问题的可能的根本原因。另一种技术公开了一种包括代理组件的监视***,该监视***监视并报告性能参数,例如响应时间,并且可以使用基于网络的服务器来显示所收集的数据。此外,根本原因分析***应用统计算法来检测特定参数中的性能下降,并且使用一些预定义的参数依赖规则来使该性能下降与问题的根本原因相关。又在另一种技术中,从用于事务的代理处聚集的性能度量用于与基线度量比较以自动检测异常,并且监视***报告可接受范围之外的事务的组件作为根本原因。
一种技术公开了一种名为应用级依赖发现和维护的中心服务器,并且使用在管理程序之内集成的***模块来收集线程粒度中的应用轨迹和用于特定应用的应用级依赖图。在图1中示出带有浏览器的根节点、开始时间和结束时间的应用轨迹的例子。其中图1中的应用轨迹100从浏览器1开始,并且如果应用A与另一应用B具有数据交换并且应用A是A到B连接的客户端侧,那么应用A依赖于应用B。例如,如果负载均衡器(应用A)与应用服务器2(应用B)具有数据交换,那么负载均衡器依赖于应用服务器2。换言之,应用轨迹可以相当于轨迹的静态视图。可以将虚拟机器或物理机器的信息添加在应用轨迹上以帮助理解应用部署。
以上工作或技术要么仅关心物理机器的使用和工作负载而忽略对于虚拟机器资源分配的硬件问题,要么仅关心物理机器上的硬件问题或性能问题而没有结合虚拟化的概念。然而,现在的监视***或网络监视***(NMS)可能不诊断在物理数据中心上运行的虚拟机器当中的性能问题,并且这些性能问题的根本原因可能来自物理数据中心的硬件问题,例如错误很多(buggy)的磁盘或者交换机过载等等。因此,解决虚拟机器当中的性能问题很重要。
发明内容
本公开的示范性实施例可以提供一种由与物理机器相关地分析虚拟机器中的性能问题的根本原因的方法和***。
一个示范性实施例涉及一种适应于物理数据中心的方法,用于由与物理机器(PM)相关地分析虚拟机器(VM)当中的性能问题的根本原因。该方法包括:施加应用级依赖发现和异常检测以找到在物理数据中心中的多个PM上运行的一个或多个VM中的应用级依赖,并生成带有异常的应用级拓扑;将该带有异常的应用级拓扑转换到VM级依赖;经由物理和虚拟资源映射将该VM级依赖转换PM级依赖,并生成一组事件集;并且通过优先次序化该组事件集来生成优先次序化的事件列表。
另一示范性实施例涉及一种用于由与物理机器(PM)相关地分析虚拟机器(VM)当中的性能问题、的根本原因的***。该***可以适应于物理数据中心,并且可以包括应用级异常检测模块、提取模块以及事件生成和优先次序化模块。应用级异常检测模块被配置为找出在物理数据中心中的多个PM上运行的一个或多个VM中的应用级依赖,并且生成带有异常的应用级拓扑。提取模块被配置为从带有异常的应用级拓扑提取VM级依赖,然后将VM级依赖转换到PM级依赖。事件生成和优先次序化模块被配置为获得PM通信拓扑,通过使用该PM通信拓扑生成一组事件集,并且通过对该组事件集区分优先次序而生成优先次序化的事件列表。
附图说明
图1示出应用轨迹的例子;
图2示出根据示范性实施例的、用于由与物理机器相关地分析虚拟机器当中的性能问题的根本原因的方法的操作流;
图3示出根据示范性实施例,用于接收/响应PDCM请求的、在物理设备中安装的代理的示意图;
图4示出根据示范性实施例的虚拟数据中心中的示范性应用依赖拓扑的示意图;
图5示出图解根据示范性实施例的所述应用在其上运行的虚拟机器和在图4的应用级依赖图中检测的异常的示意图;
图6示出图解根据示范性实施例的用于图5的虚拟机器和虚拟卷当中的通信的示意图;
图7示出图解根据示范性实施例的从图6的虚拟机器级到物理机器级的提取的示意图;
图8示出图解根据示范性实施例的物理数据中心中的物理机器和物理网络存储器当中的通信的示意图;
图9示出根据示范性实施例的彼此进行通信的两个示范性物理机器之间的示范性路由路径,以及所得到的对应事件;
图10示出根据示范性实施例的、用于图8的物理机器通信拓扑的事件集的示范性组;
图11示出根据示范性实施例的、来自图10的事件集组的示范性优先次序化事件列表;
图12示出根据示范性实施例的用于根本原因分析的事件优先次序化的操作流;
图13示出根据示范性实施例的、用于由与物理机器相关地分析虚拟机器当中的性能问题的根本原因的***。
具体实施方式
下面,将参照附图详细描述示范性实施例,以便由本领域普通技术人员容易地实现该示范性实施例。可以在各种形式中具体化本发明构思,而不限于此处阐述的示范性实施例。为了清楚省略公知部分的描述,并且通篇相似的参考标号指代相似的元素。
示范性实施例公开了一种用于由与物理机器相关地分析虚拟机器当中的性能问题的根本原因的技术。在本公开中,使用基础设施即服务(IAAS),其中一个或多个虚拟机器可以在装备有诸如物理机器、网络存储器和交换机的物理设备的至少一个数据中心上运行,并且该数据中心可以指物理数据中心。考虑如下示范性情形。作为从该物理数据中心操作员租借资源以创建他/她自己的虚拟数据中心的用户的虚拟数据中心操作员,发现他/她的虚拟数据中心中的应用性能问题。应用性能问题可以是,但不限于,从网站的响应时间非常长。在该情形中,示范性实施例可以监视其中运行了大量虚拟机器的物理数据中心中的物理设备,并且通过使性能问题与硬件问题相关来弄清同一虚拟数据中心中的虚拟机器当中的性能问题的根本原因。
根据示范性实施例,使在一个或多个物理机器上运行的虚拟机器当中的性能问题与所述物理机器的硬件问题相关,可以包含诸如应用级依赖发现和异常检测、物理和虚拟资源映射、用于事件产生和合并的硬件监视、用于根本原因分析的事件优先次序化流程图等等的分步骤(component)。换言之,所述示范性实施例将虚拟机器上的性能问题转换为物理机器的硬件问题,用于帮助弄清并解决根本原因,并且通过使用应用级依赖、物理/虚拟资源映射和网络路由信息可以实现根本原因分析技术。
图2示出根据一示范性实施例的、用于由与物理机器相关地分析虚拟机器当中的性能问题的根本原因的方法的操作流。参照图2,该方法可以施加应用级依赖发现和异常检测来找出一个或多个虚拟机器(VM)中的应用级依赖(步骤210),并生成带有异常的应用级拓扑,并向VM级依赖转换该带有异常的应用级拓扑(步骤220)。该方法然后执行物理和虚拟资源映射以将VM级依赖转换为物理机器级依赖,并最终生成一组事件集(步骤230)。该方法还可以通过对该组事件集区分优先次序来进一步生成优先次序化的事件列表(步骤240)。图2中所示方法的操作流可以向物理数据中心的管理员推荐客户的虚拟机器当中的性能问题的根本原因。以下进一步描述了用于所包含的每一步骤的细节。
在步骤210中,可以使用称为ADDM(应用级依赖发现和维护)的中心服务器和在管理程序中集成的***模块,来收集用于特定应用的线程粒度中的应用轨迹和应用级依赖地图。可以在图1中示出具有浏览器的根节点、等于0:00的开始时间和等于4:00的结束时间的应用轨迹的例子。可以将虚拟机器或物理机器的信息添加在应用轨迹上以帮助理解应用部署。例如在所公开的实施例中,可以获得施加后向踪迹、延迟时间或与每一跳相关的延迟。在正常的环境下,它可以多次收集用于整个应用的开始和结束时间间隔,以找出与每一跳相关的平均延迟——这指的是训练阶段。换言之,在训练阶段可以找出应用轨迹上与每一跳相关的平均延迟。通过添加作为容差的相应的δ时间段到与每一跳相关的平均延迟(或者就使用与每一跳相关的平均延迟),可以产生每一跳的基线延迟。当请求ADDM服务器来收集用于整个特定应用的当前响应时间时,该ADDM服务器还可以检查以确定与每一跳相关的平均延迟是否超过它的对应基线延迟。将延迟超过它们对应的基线延迟的这些跳检测作为异常。
在步骤220中,虚拟机器的物理资源使用可以包括计算能力、数据存取和网络传输。在计算能力方面,所公开的实施例可以使用储存库(repository)来保存关于特定的虚拟机器在哪个物理机器上运行的信息。当创建虚拟机器时或者迁移虚拟机器之后,无论使用何种虚拟机器创建/迁移算法(诸如资源分配算法),都可以知道该虚拟机器在哪个物理机器上运行。在数据存取方面,所公开的实施例可以使用储存库来保存关于虚拟卷附属于哪个虚拟机器的信息,并且使用储存库来保存关于虚拟卷涉及哪些网络存储设备的信息。换言之,当创建虚拟卷并且然后将它们附属于特定的虚拟机器时,还可以在所述储存库中保存关于特定的虚拟机器使用哪些虚拟卷以及这些卷位于哪些网络存储器的信息。此外,保存此信息在所述储存库中可以与任何虚拟化算法结合。
另一方面,在网络传输方面,所公开的实施例可以使用至少一个储存库来保存关于如何向因特网传送虚拟机器的数据或者如何在同一虚拟数据中心中的两台虚拟机器之间传送数据的信息。为了知道答案,所公开的实施例保存多个物理机器的每一对之间的路由路径的信息,和所述多个物理机器的每一个和一个或多个物理设备的每一个之间的至少一条路由路径的信息。可以在至少一个储存库中保存该信息。物理设备可以是,但不限于网关或诸如交换机、物理存储器等的网络设备。一对物理机器之间的路由路径意思是物理机器沿着该路径向另一物理设备发送分组/帧。因为已知该虚拟机器在哪些物理机器上运行,所以可以知道两台虚拟机器之间如何传送数据。
如图3中所示,根据示范性实施例,可以在每一个被监视的物理设备中安装代理用于接收/响应物理数据中心管理(PDCM)请求。该代理可以收集物理设备信息,并在对应的储存库中保存该信息。该物理设备信息可以是,但不限于制造商、CPU/存储利用、空闲分区空间、接口的比特率/误比特率和其它信息。该代理可以通过IPMI、SMART或者甚至分析***记录和诸如“top”或“xentop”的***命令的结果来得到物理信息。当该代理从诸如PDCM服务器300的服务器的监视模块310接收请求时,它可以向该PDCM服务器300发回对应的值以得到在该PDCM服务器的物理设备信息。物理数据中心(PDC)的管理员可以设置探测时段,例如350秒,来向该PDC中的每一物理设备发送请求,并且每个探测时段(例如350秒)得到与每一物理设备对应的最后的值(例如在物理机器PM1,CPU温度50°C)。
在步骤230中,它也可以设置不同的门限,用于与不同物理设备对应的不同的最后值。当所获得的值超过它们对应的给定门限时,诸如PDCM服务器的服务器可以生成用于对应物理设备的对应事件以通知物理数据中心。此外,可以使用PING请求以检查物理设备是否可达到。已经使所述监视模块商业化,例如Zenoss或者WhatsUp。所产生的一些事件可以具有关联,其中一组事件可以具有同一根本原因。产生相关联的事件之后,所公开的示范性实施例可以施加现有的算法来合并该组事件。
在步骤240中,根据事件优先次序化算法可以对该组事件集区分优先次序,稍后将描述如下。在优先次序化的事件列表中,具有更靠前的顺序的事件可能具有较高的可能性成为该性能问题的根本原因,并且应该比具有更靠后顺序的事件更快地解决它们。合并步骤210~240中包含的以上分步骤,以下示出用于示范性应用的整体操作流,以通过使性能问题与硬件问题关联来分析同一虚拟数据中心中的虚拟机器当中的性能问题的根本原因。
根据步骤210,ADDM服务器可以用于被请求以得到虚拟数据中心中的应用的当前延迟并检测异常。所述虚拟数据中心中的示范性应用的应用依赖拓扑如图4中所示。从图4的应用依赖拓扑,该ADDM服务器还弄清所述应用在哪些虚拟机器上运行,并且进行检查以确定所获得的针对所述应用当中的每一跳的当前延迟是否超过它的对应基线。图5示出根据示范性实施例图解所述应用在其上运行的虚拟机器和在应用级依赖图中检测的异常的示意图。例如,针对从虚拟机器VM1中的浏览器到虚拟机器VM2中的DNS服务器的跳跃,检测到用虚线箭头表示的异常,并且在该应用级依赖图中检测到四个异常。可以向PDCM服务器发送用于所述四个异常的关于用VM1、VM2、VM3和VM4表示的对应虚拟机器的信息。
根据步骤220,从所述储存库可以获得针对VM的所使用的虚拟卷,并且从应用级提取VM级。因此,如图6中所示,找出每一虚拟机器VM1、VM2、VM3和VM4的附属虚拟卷,并且在该PDCM服务器中从应用级的视点提取虚假机级的视点。此外,任何两个虚拟机器,比如VMA和VMB彼此进行通信,意味着在它们上面运行的应用彼此进行通信。例如,图6中的VM2和VM3彼此进行通信。原因是VM2上的网络服务器对VM3上的负载均衡器进行通信。此外,认为这两个虚拟机器彼此进行通信,因此如图6中所示在VM2和VM3之间存在链接。虚拟机器和卷之间的链接指示该卷附属于该虚拟机器。例如,卷2附属于虚拟机器VM2
根据步骤230,可以从所述储存库获得关于物理机器和诸如存储器设备的物理设备的信息,并且从虚假机级提取物理机级。因此,进一步从图6中的虚拟机器级的视点提取物理机器级的视点。换言之,可以从至少一个储存库找到所述虚拟机器或虚拟卷运行在或保存在哪些物理机器或物理存储器上。图7示出图解根据示范性实施例从图6的虚拟机器级到物理机器级的提取的示意图。任何两个物理机器,比如PMA和PMB彼此进行通信,意味着在它们上面运行的虚拟机器彼此进行通信。例如,图7中的PM1和PM3彼此进行通信,因为PM1中的VM2和PM3中的VM3彼此进行通信。物理机器和物理存储器彼此进行通信,意味着在该物理机器上运行的虚拟机器和附属于该物理存储器的卷彼此进行通信。例如,PM3中的VM3和物理存储器2中的卷3彼此进行通信。
图7的提取过程之后,如图5中的虚拟数据中心中的初始的应用级依赖被转换成物理数据中心中的物理机器级依赖。图8示出图解根据示范性实施例的物理数据中心中的物理机器和物理网络存储器当中的通信的示意图。其中,在该PM通信拓扑800中,两个物理机器之间的链接意味着该两个物理机器彼此进行通信,并且一个物理机器和一个物理存储器之间的链接意味着该物理机器和该物理存储器彼此进行通信。
如前所述,所公开的实施例可以使用至少一个储存库来保存多个物理机器的每一对之间的路由路径的信息,和所述多个物理机器的每一个和一个或多个物理设备的每一个之间的至少一条路由路径的信息。因此,对于被认为彼此进行通信的任何两个物理机器,所公开的示范性实施例可以从所述储存库得到该两个物理机器之间的路由路径(即数据传输路径),并且得到相应的事件。例如,图9示出根据示范性实施例的彼此进行通信的两个示范性物理机器(比如PMA和PMB)之间的示范性路由路径910,以及所得到的对应事件920。如图9中所示,从PMA到PMB的路由路径910经过交换机A、交换机B以及然后的交换机C。收集与该数据传输路径中包含的物理设备相关的(已经合并了的)所有当前事件之后,形成PMA_PMB对的事件集。该PMA_PMB对的事件集包括PMA的事件、交换机A的事件、交换机B的事件、交换机C的事件和PMB的事件。
因此,对于被认为彼此进行通信的任何两个物理机器,所公开的示范性实施例可以得到对应的事件集。因此,通过使用物理机器通信拓扑可以形成一组事件集。图10示出根据示范性实施例的、用于图8的物理机器通信拓扑800的事件集的示范性组1000。在图10中,该事件集组1000可以包括PM1_PS1对的事件集、PM1_PM3对的事件集、PM2_PM3对的事件集、PM3_PS2对的事件集和PM2_PS3对的事件集,其中PM表示物理机器而PS表示物理存储器。正如可以看出的,该组事件集中的事件集数目等于物理机器通信拓扑中链接的数目。换言之,PM级依赖是PM通信拓扑,并且通过使用PM通信拓扑可以产生该组事件集。
根据步骤240,可以进一步根据事件优先次序化算法对一组事件集区分优先次序。根据事件优先次序化算法的一个示范性实施例,对于该组事件集中的事件,当它包含在两个事件集中时,定义针对此事件的支持计数(supportcount)。可以用该事件在其中出现的事件集的数目来定义用于事件的支持计数。因此,可以计算该组事件集中每个事件的支持计数,然后按支持计数的递减顺序对所有对应事件排好序。当存在具有相同的支持计数的两事件时,它可以根据事件严重性对它们排序。如图11中示出示范性优先次序化事件列表1100,可以进一步将其发送到物理数据中心。
如图11中所示,该优先次序化的事件列表1100中的每个事件可以关联诸如物理机器或物理设备的设备,并且具有与到该设备的硬件问题对应的关联消息。如前所述,在该列表中具有更靠前顺序的事件可以具有更高的可能性成为特定的性能问题的根本原因。并且最好是早于具有更靠后顺序的事件的特定性能问题,解决该事件的特定性能问题。例如,与称为交换机A的设备关联的事件A具有CPU利用率超过85%的消息,并且CPU利用率超过85%的性能问题具有最高的可能性成为根本原因。
以上用于对该组事件集1000区分优先次序的原理是:通常的硬件问题,例如交换机的过载可能是同一虚拟数据中心中的虚拟机器当中对应性能问题的瓶颈,并且最高优先地解决它们可以加速提高性能。对该组事件集中事件的超过次数计数是优先次序化的基本思想。用于优先次序化一组事件集的算法可以变化。例如,它可以将事件严重性和设备类型考虑到用于每一类事件的特定权重(而不是1)上,并且通过使用加权的支持计数来对所述事件进行优先次序化。
因此,根据示范性实施例,可以如图12中总结用于根本原因分析的事件优先次序化的操作流,其可以包括:得到带有异常的应用级拓扑的应用级异常检测(步骤1210);得到VM级依赖的从应用级到虚拟机器级(VM级)的第一提取过程(步骤1220);得到PM级依赖的从VM级到PM级的第二提取过程(步骤1230);从该PM级依赖生成一组事件集(步骤1240);以及以产生优先次序化的事件列表的事件优先次序化(步骤1250)。其中,至少一个储存库可以用于保存所述两个提取过程期间PM/VM映射信息并产生所述事件集组。监视模块可以用于生成该组事件集的每个事件。
用于根本原因分析的公开的示范性实施例可以适应于具有物理机器、一个或多个网络存储器以及一个或多个网络设备的物理数据中心(PDC)。可以使用物理数据中心管理模块以连续地监视该物理机器、网络存储器以及网络设备,并生成针对硬件组件的事件以分析与所述硬件组件对应的性能问题。可以使用至少一个储存库以保存虚拟机器在哪个物理机器上运行、虚拟卷附属于哪个虚拟机器、虚拟卷与哪个(些)网络存储器有关以及任何两个物理设备之间的路由路径的信息。
因此,可以如图13中示出用于由与物理机器关联地分析虚拟机器当中的性能问题的根本原因的***的一个示范性实施例。参照图13,该***1300可以适应于物理数据中心,并且可以包括应用级异常检测模块1310、提取模块1320以及事件生成和优先次序化模块1330。应用级异常检测模块1310被配置为找出在物理数据中心中的多个物理机器(PM)上运行的一个或多个虚拟机器(VM)中的应用级依赖,并且生成带有异常的应用级拓扑。提取模块1320被配置为从带有异常的应用级拓扑提取VM级依赖,然后将VM级依赖转换到PM级依赖。事件生成和优先次序化模块1330被配置为得到PM通信拓扑,通过使用该PM通信拓扑生成一组事件集,并且通过对该组事件集区分优先次序而生成优先次序化的事件列表。
可以将该***1300集成到物理数据中心管理***模块中,以连续地监视该物理数据中心中的多个PM和一个或多个物理设备。物理设备可以是,但不限于网关或诸如交换机、物理存储器等的网络设备。该***1300可以进一步包括至少一个储存库来保存所述多个物理机器的每一对之间的路由路径的信息,和所述多个物理机器的每一个和一个或多个物理设备的每一个之间的至少一条路由路径的信息。提取模块1320可以从该储存库得到用于VM的使用的虚拟卷的信息,用于从应用级提取VM级,并且可以从该储存库得到所述多个PM和一个或多个物理存储器的信息,用于从所述VM级依赖提取PM级依赖。事件生成和优先次序化模块可以从该储存库得到所述多个PM的每对PM之间的路由路径的信息,用于生成对应于该路由路径上多个物理设备的多个事件。之前已经描述了用于对该组事件集区分优先次序的示范性算法,并且在这里省略。
总之,所述示范性实施例提供了用于分析根本原因的技术,通过使用应用级依赖、物理/虚拟资源映射和网络路由信息实现该技术。该技术施加应用级异常检测以得到带有异常的应用级拓扑,执行(从应用级到VM级的)提取过程以得到VM级依赖,和执行(从VM级到PM级的)提取过程以得到PM通信拓扑,然后从该PM通信拓扑生成一组事件集。并且,通过执行优先次序化算法形成优先次序化的事件列表。
对本领域技术人员来说,显然可以对所公开的实施例进行各种修改和变化。旨在认为本说明书和例子仅是示范性的,本公开的真实范围由下面的权利要求及其等价内容指示。

Claims (18)

1.一种适应于物理数据中心的、用于由与物理机器(PM)相关地分析虚拟机器(VM)当中的性能问题的根本原因的方法,该方法包括:
施加应用级依赖发现和异常检测,以找出在该物理数据中心中多个PM上运行的VM中的应用级依赖,并且生成带有异常的应用级拓扑;
将该带有异常的应用级拓扑转换到VM级依赖;
在至少二个VM之间提供通信,使得在所述至少二个VM上面运行多个应用彼此进行通信;
经由物理和虚拟资源映射将该VM级依赖转换到PM级依赖,并且生成一组事件集;以及
通过对该组事件集区分优先次序来生成优先次序化的事件列表,
其中,该组事件集中的事件集数目等于该PM级依赖中PM通信拓扑链接的数目。
2.如权利要求1所述的方法,其中应用级依赖发现和异常检测进一步包括:
在训练阶段找到与应用轨迹上的多跳的每一跳相关的平均延迟;并且
添加作为容差的相应δ时间段到所述与每一跳相关的平均延迟,并且生成所述每一跳的对应基线延迟。
3.如权利要求2所述的方法,其中进一步确定与所述多跳的每一跳相关的平均延迟是否超过它的对应基线延迟,并且将其延迟超过它们的对应基线延迟的这些跳检测为异常。
4.如权利要求1所述的方法,其中使用储存库以保存关于一个或多个虚拟机器的物理资源使用的至少一信息。
5.如权利要求1所述的方法,其中所述方法进一步使用至少一个储存库以保存:多个物理机器的每对之间的路由路径的第一信息,和所述多个物理机器的每个和至少一个物理设备的每个之间的至少一条路由路径的第二信息。
6.如权利要求1所述的方法,其中所述优先次序化的事件列表中的每个事件与设备关联,并且具有与该设备的硬件问题对应的关联消息。
7.如权利要求6所述的方法,其中所述每个事件所关联的设备是物理机器和物理设备之一,并且所述物理设备是物理机器、网络存储器和网络设备之一。
8.如权利要求1所述的方法,其中所述物理和虚拟资源映射进一步包括:
从至少一个储存库获得关于至少一个物理机器和至少一个物理设备的信息,并且从VM级依赖提取PM级依赖。
9.如权利要求1所述的方法,其中生成所述组事件集的步骤进一步包括:
对于多个PM的每对PM,得到该PM对和该PM对的第一对应事件集之间的路由路径;以及
对于所述多个PM的一个PM和至少一个物理存储器的一个物理存储器(PS)的每一对,得到该PM和该PS的第二对应事件集。
10.如权利要求1所述的方法,其中所述PM级依赖是PM通信拓扑,并且通过使用该PM通信拓扑生成所述组事件集。
11.一种适应于物理数据中心的、用于由与物理机器(PM)相关地分析虚拟机器(VM)当中的性能问题的根本原因的***,该***包括:
第一服务器及***模块,被配置为找出在该物理数据中心中的多个PM上运行的VM中的应用级依赖,并且生成带有异常的应用级拓扑,所述第一服务器至少包括应用级异常检测模块,所述***模块集成于管理程序中,其中在至少二个VM之间提供通信,使得在所述至少二个VM上面运行多个应用彼此进行通信;以及
第二服务器,至少包括提取模块及事件生成和优先次序化模块,所述提取模块被配置为从该带有异常的应用级拓扑提取VM级依赖,然后将该VM级依赖转换到PM级依赖,以及
所述事件生成和优先次序化模块被配置为得到PM通信拓扑,通过使用该PM通信拓扑生成一组事件集,并且通过对该组事件集区分优先次序而生成优先次序化的事件列表,其中该组事件集中的事件集数目等于PM级依赖中PM通信拓扑链接的数目。
12.如权利要求11所述的***,其中在物理数据中心管理***模块中集成所述***,以连续地监视该物理数据中心中的所述多个PM和一个或多个物理设备。
13.如权利要求11所述的***,其中该***进一步包括至少一个储存库以保存:所述多个PM的每对之间的路由路径的第一信息,和所述多个PM的每个和一个或多个物理设备的每个之间的至少一条路由路径的第二信息。
14.如权利要求12所述的***,其中所述优先次序化的事件列表中的每个事件与该物理数据中心中的一个或多个物理设备的一个物理设备关联,并且具有与该物理设备的硬件问题对应的关联消息。
15.如权利要求11所述的***,其中提取模块从至少一个储存库得到对于所述一个或多个VM所使用的一个或多个虚拟卷的信息,用于从所述带有异常的应用级拓扑提取VM级依赖。
16.如权利要求11所述的***,其中提取模块从至少一个储存库得到所述多个PM和一个或多个物理存储器的信息,用于从所述VM级依赖提取PM级依赖。
17.如权利要求11所述的***,其中事件生成和优先次序化模块得到所述多个PM的每对PM之间的路由路径,用于生成与该路由路径上的多个物理设备对应的多个事件。
18.如权利要求11所述的***,其中提取模块将该VM级依赖转换到PM通信拓扑。
CN201210551601.2A 2012-12-06 2012-12-18 由与物理机器相关地分析虚拟机器性能问题原因的方法和*** Active CN103853627B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/707,038 2012-12-06
US13/707,038 US9183033B2 (en) 2012-12-06 2012-12-06 Method and system for analyzing root causes of relating performance issues among virtual machines to physical machines

Publications (2)

Publication Number Publication Date
CN103853627A CN103853627A (zh) 2014-06-11
CN103853627B true CN103853627B (zh) 2017-03-01

Family

ID=50861311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210551601.2A Active CN103853627B (zh) 2012-12-06 2012-12-18 由与物理机器相关地分析虚拟机器性能问题原因的方法和***

Country Status (3)

Country Link
US (1) US9183033B2 (zh)
CN (1) CN103853627B (zh)
TW (1) TWI497286B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779260B1 (en) 2012-06-11 2017-10-03 Dell Software Inc. Aggregation and classification of secure data
US10333820B1 (en) 2012-10-23 2019-06-25 Quest Software Inc. System for inferring dependencies among computing systems
US9405605B1 (en) * 2013-01-21 2016-08-02 Amazon Technologies, Inc. Correction of dependency issues in network-based service remedial workflows
US9183092B1 (en) * 2013-01-21 2015-11-10 Amazon Technologies, Inc. Avoidance of dependency issues in network-based service startup workflows
US9503341B2 (en) * 2013-09-20 2016-11-22 Microsoft Technology Licensing, Llc Dynamic discovery of applications, external dependencies, and relationships
US9519513B2 (en) * 2013-12-03 2016-12-13 Vmware, Inc. Methods and apparatus to automatically configure monitoring of a virtual machine
US9678731B2 (en) 2014-02-26 2017-06-13 Vmware, Inc. Methods and apparatus to generate a customized application blueprint
US11005738B1 (en) 2014-04-09 2021-05-11 Quest Software Inc. System and method for end-to-end response-time analysis
US20150378763A1 (en) 2014-06-30 2015-12-31 Vmware, Inc. Methods and apparatus to manage monitoring agents
EP2990950B1 (en) * 2014-08-25 2021-05-12 Tata Consultancy Services Limited Monitoring activities of a software application
TWI548236B (zh) * 2014-10-06 2016-09-01 研華股份有限公司 具置入型管理機制的網路裝置、系統與管理暨監控方法
CN105591784A (zh) * 2014-10-24 2016-05-18 中兴通讯股份有限公司 告警处理方法及装置
US10291493B1 (en) 2014-12-05 2019-05-14 Quest Software Inc. System and method for determining relevant computer performance events
CN105812170B (zh) 2014-12-31 2019-01-18 华为技术有限公司 基于数据中心的故障分析方法和装置
US9996577B1 (en) 2015-02-11 2018-06-12 Quest Software Inc. Systems and methods for graphically filtering code call trees
JP2017187813A (ja) * 2015-02-24 2017-10-12 株式会社野村総合研究所 稼働状況表示システム
US10326748B1 (en) 2015-02-25 2019-06-18 Quest Software Inc. Systems and methods for event-based authentication
US10417613B1 (en) 2015-03-17 2019-09-17 Quest Software Inc. Systems and methods of patternizing logged user-initiated events for scheduling functions
US10270668B1 (en) * 2015-03-23 2019-04-23 Amazon Technologies, Inc. Identifying correlated events in a distributed system according to operational metrics
US9842220B1 (en) 2015-04-10 2017-12-12 Dell Software Inc. Systems and methods of secure self-service access to content
US10592308B2 (en) * 2015-04-30 2020-03-17 Micro Focus Llc Aggregation based event identification
US10187260B1 (en) 2015-05-29 2019-01-22 Quest Software Inc. Systems and methods for multilayer monitoring of network function virtualization architectures
US10055275B2 (en) * 2015-07-14 2018-08-21 Sios Technology Corporation Apparatus and method of leveraging semi-supervised machine learning principals to perform root cause analysis and derivation for remediation of issues in a computer environment
US10536352B1 (en) 2015-08-05 2020-01-14 Quest Software Inc. Systems and methods for tuning cross-platform data collection
US10200252B1 (en) 2015-09-18 2019-02-05 Quest Software Inc. Systems and methods for integrated modeling of monitored virtual desktop infrastructure systems
US10157358B1 (en) 2015-10-05 2018-12-18 Quest Software Inc. Systems and methods for multi-stream performance patternization and interval-based prediction
US10218588B1 (en) 2015-10-05 2019-02-26 Quest Software Inc. Systems and methods for multi-stream performance patternization and optimization of virtual meetings
CN105446861A (zh) * 2015-11-11 2016-03-30 浪潮电子信息产业股份有限公司 一种基于linux的IPMI接口负载稳定性监测方法
US9537720B1 (en) * 2015-12-10 2017-01-03 International Business Machines Corporation Topology discovery for fault finding in virtual computing environments
EP3226493B1 (en) * 2015-12-21 2020-03-25 Huawei Technologies Co., Ltd. Method, device, and system for discovering the relationship of applied topology
CN106909436B (zh) * 2015-12-23 2020-07-21 财团法人工业技术研究院 产生虚拟机消息队列应用程序的相关关系的方法与***
US10142391B1 (en) * 2016-03-25 2018-11-27 Quest Software Inc. Systems and methods of diagnosing down-layer performance problems via multi-stream performance patternization
US10230601B1 (en) 2016-07-05 2019-03-12 Quest Software Inc. Systems and methods for integrated modeling and performance measurements of monitored virtual desktop infrastructure systems
US10261839B2 (en) * 2016-11-02 2019-04-16 International Business Machines Corporation Outlier and root cause determination of excessive resource usage in a virtual machine environment
GB2540902B (en) 2016-11-10 2017-07-19 Metaswitch Networks Ltd Optimising a mapping of virtualised network functions onto physical resources in a network using dependency models
GB2556132B (en) * 2016-11-10 2018-11-14 Metaswitch Networks Ltd Modelling a network by combining physical and virtual dependency models
US10873794B2 (en) * 2017-03-28 2020-12-22 Cisco Technology, Inc. Flowlet resolution for application performance monitoring and management
US11165856B2 (en) * 2017-04-25 2021-11-02 Citrix Systems, Inc. Detecting uneven load balancing through multi-level outlier detection
CN107231352A (zh) * 2017-05-27 2017-10-03 郑州云海信息技术有限公司 一种面向Xen虚拟化环境的***日志监控方法及装置
US10887156B2 (en) 2019-01-18 2021-01-05 Vmware, Inc. Self-healing Telco network function virtualization cloud
US10924329B2 (en) * 2019-01-18 2021-02-16 Vmware, Inc. Self-healing Telco network function virtualization cloud
US11126492B1 (en) 2019-11-05 2021-09-21 Express Scripts Stategic Development, Inc. Systems and methods for anomaly analysis and outage avoidance in enterprise computing systems
US11966319B2 (en) * 2021-02-23 2024-04-23 Mellanox Technologies, Ltd. Identifying anomalies in a data center using composite metrics and/or machine learning
TWI793910B (zh) * 2021-12-09 2023-02-21 中華電信股份有限公司 偵測異常及提供修復策略的微服務監控系統及其方法
CN116866154B (zh) * 2023-09-05 2023-11-28 湖北华中电力科技开发有限责任公司 一种基于虚拟机集群的配电网通讯服务智能调度管理***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2457344A (en) * 2007-07-20 2009-08-19 Eg Innovations Pte Ltd Monitoring system for virtual application enviroments
JP2014007609A (ja) * 2012-06-25 2014-01-16 Hitachi Ltd 仮想化システム、通信装置及びネットワーク障害監視方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738933B2 (en) 2001-05-09 2004-05-18 Mercury Interactive Corporation Root cause analysis of server system performance degradations
US20070271560A1 (en) * 2006-05-18 2007-11-22 Microsoft Corporation Deploying virtual machine to host based on workload characterizations
US8484336B2 (en) * 2006-11-15 2013-07-09 Cisco Technology, Inc. Root cause analysis in a communication network
US7818418B2 (en) 2007-03-20 2010-10-19 Computer Associates Think, Inc. Automatic root cause analysis of performance problems using auto-baselining on aggregated performance metrics
US8032867B2 (en) 2007-06-05 2011-10-04 Computer Associates Think, Inc. Programmatic root cause analysis for application performance management
US8208381B2 (en) * 2007-07-27 2012-06-26 Eg Innovations Pte. Ltd. Root-cause approach to problem diagnosis in data networks
US8180723B2 (en) 2008-01-14 2012-05-15 Hewlett-Packard Development Company, L.P. Root cause analysis in a system having a plurality of inter-related elements
TW201025065A (en) * 2008-12-29 2010-07-01 Lei Wang Expandable secure server alternate system
US8862727B2 (en) * 2012-05-14 2014-10-14 International Business Machines Corporation Problem determination and diagnosis in shared dynamic clouds

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2457344A (en) * 2007-07-20 2009-08-19 Eg Innovations Pte Ltd Monitoring system for virtual application enviroments
JP2014007609A (ja) * 2012-06-25 2014-01-16 Hitachi Ltd 仮想化システム、通信装置及びネットワーク障害監視方法

Also Published As

Publication number Publication date
US9183033B2 (en) 2015-11-10
TW201423398A (zh) 2014-06-16
US20140165054A1 (en) 2014-06-12
CN103853627A (zh) 2014-06-11
TWI497286B (zh) 2015-08-21

Similar Documents

Publication Publication Date Title
CN103853627B (zh) 由与物理机器相关地分析虚拟机器性能问题原因的方法和***
CN107544839B (zh) 虚拟机迁移***、方法及装置
US20200382362A1 (en) Alarm information processing method, related device, and system
CN104657250A (zh) 一种对云主机进行性能监控的监控方法
US9438493B2 (en) Monitoring network entities via a central monitoring system
US10445167B1 (en) Automated method and system for diagnosing load performance issues
WO2016017208A1 (ja) 監視システム、監視装置、および検査装置
US11032358B2 (en) Monitoring web applications including microservices
JP5229028B2 (ja) システム分析方法、装置及びプログラム
CN106470123A (zh) 日志收集方法、客户端、服务器和电子设备
US9760874B2 (en) Transaction tracing in a network environment
Wallschläger et al. Automated anomaly detection in virtualized services using deep packet inspection
JP5304689B2 (ja) 影響サービスを特定する監視システムおよびその方法
KR20190017947A (ko) 실시간 데이터 수집에서의 사용을 위한 계층적 데이터 수집기 및 관련된 기법들
CN103731365A (zh) 一种无瓶颈负载均衡网络服务器***及其构建方法
CN103457771B (zh) 一种ha的虚拟机集群的管理方法和设备
JP2017211806A (ja) 通信の監視方法、セキュリティ管理システム及びプログラム
JP6904155B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP5686001B2 (ja) 情報処理装置、メッセージ切分け方法およびメッセージ切分けプログラム
Chandra et al. Co-designing the failure analysis and monitoring of large-scale systems
Sangpetch et al. VDEP: VM dependency discovery in multi-tier Cloud applications
CN114422324B (zh) 一种告警信息的处理方法、装置、电子设备及存储介质
Anees et al. Performance evaluation of a service availability model
Liu et al. RAIN: Towards real-time core devices anomaly detection through session data in cloud network
Dasari et al. Application Performance Monitoring in Software Defined Networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant