CN108512673B - 一种云服务质量监控方法、装置及服务器 - Google Patents

一种云服务质量监控方法、装置及服务器 Download PDF

Info

Publication number
CN108512673B
CN108512673B CN201710103863.5A CN201710103863A CN108512673B CN 108512673 B CN108512673 B CN 108512673B CN 201710103863 A CN201710103863 A CN 201710103863A CN 108512673 B CN108512673 B CN 108512673B
Authority
CN
China
Prior art keywords
cloud
server
cloud service
defect
reason
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710103863.5A
Other languages
English (en)
Other versions
CN108512673A (zh
Inventor
马文霜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710103863.5A priority Critical patent/CN108512673B/zh
Publication of CN108512673A publication Critical patent/CN108512673A/zh
Application granted granted Critical
Publication of CN108512673B publication Critical patent/CN108512673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • H04L43/087Jitter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种云服务质量监控方法、装置及服务器,该方法包括:接收分别针对服务器及服务器中的云主机的网络测试检测包;根据针对服务器的网络测试检测包,确定服务器的云服务质量检测结果,及根据针对云主机的网络测试检测包,确定云主机的云服务质量检测结果;若所确定的服务器和云主机的云服务质量检测结果指示,当前存在云服务质量缺陷,根据预设定的引起云服务质量缺陷的各原因,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因;获取预设定的与所述目标原因相应的解决策略,执行所述解决策略。本发明实施例可提升云服务质量的监控效果,保障云服务质量。

Description

一种云服务质量监控方法、装置及服务器
技术领域
本发明涉及数据处理技术领域,具体涉及一种云服务质量监控方法、装置及服务器。
背景技术
云服务是在互联网基础上的一种增加服务,通常涉及通过互联网来提供动态易扩展的服务;云服务的典型应用场景如云物联、云安全、云存储等。目前云服务一般由云端的服务器提供,服务器上可以设置多个虚拟计算机(称为云主机,此处所指服务器可以认为是云主机的载体),将服务器虚拟成多个云主机,可通过云主机提供基于云计算模式的按需使用和按需付费的租用服务,实现动态易扩展的云服务,如可将不同的云主机分配给不同的用户,实现云服务资源的按需配置等。
云服务质量是指云服务的服务质量,良好的云服务质量对于提升用户使用云服务的体验具有重要意义,因此对云服务的服务质量进行监控,以在存在云服务质量缺陷时,对云服务质量缺陷进行解决,保障良好的云服务质量尤为必要。然而,目前云服务质量监控存在的问题是,由于云服务涉及服务器和服务器中的云主机,云服务质量缺陷可能出现在服务器上,也可能出现在云主机上,因此对引起云服务质量缺陷的原因进行精准的定位较为困难,导致解决策略也无法精准的匹配,致使云服务质量的监控效果较差;
可见,如何对引起云服务质量缺陷的原因进行精准的定位,并提供与所定位原因匹配的解决策略,以提升云服务质量的监控效果,成为了本领域技术人员需要考虑的问题。
发明内容
有鉴于此,本发明实施例提供一种云服务质量监控方法、装置及服务器,以对引起云服务质量缺陷的原因进行精准的定位,并提供与所定位原因匹配的解决策略,以提升云服务质量的监控效果。
为实现上述目的,本发明实施例提供如下技术方案:
一种云服务质量监控方法,包括:
接收分别针对服务器及服务器中的云主机的网络测试检测包;
根据针对服务器的网络测试检测包,确定服务器的云服务质量检测结果,及根据针对云主机的网络测试检测包,确定云主机的云服务质量检测结果;
若所确定的服务器和云主机的云服务质量检测结果指示,当前存在云服务质量缺陷,根据预设定的引起云服务质量缺陷的各原因,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因;
获取预设定的与所述目标原因相应的解决策略,执行所述解决策略。
本发明实施例还提供一种云服务质量监控装置,包括:
网络测试检测包接收模块,用于接收分别针对服务器及服务器中的云主机的网络测试检测包;
检测结果确定模块,用于根据针对服务器的网络测试检测包,确定服务器的云服务质量检测结果,及根据针对云主机的网络测试检测包,确定云主机的云服务质量检测结果;
目标原因确定模块,用于若所确定的服务器和云主机的云服务质量检测结果指示,当前存在云服务质量缺陷,根据预设定的引起云服务质量缺陷的各原因,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因;
解决策略执行模块,用于获取预设定的与所述目标原因相应的解决策略,执行所述解决策略。
本发明实施例还提供一种服务器,包括上述所述的云服务质量监控装置。
基于上述技术方案,本发明实施例提供的云服务质量监控方法中,服务器可接收分别针对服务器及服务器中的云主机的网络测试检测包,根据针对服务器的网络测试检测包,确定服务器的云服务质量检测结果,及根据针对云主机的网络测试检测包,确定云主机的云服务质量检测结果,从而根据服务器和云主机的云服务质量检测结果,确定当前存在云服务质量缺陷后,可根据预设定引起云服务质量缺陷的各原因,对云服务相应的运行数据进行分析,匹配出引起当前云服务质量缺陷的目标原因,实现引起云服务质量缺陷的原因的精准定位;进而获取预设定的与所述目标原因相应的解决策略并执行,提供出与所定位原因匹配的解决策略,对云服务质量缺陷进行解决,提升云服务质量的监控效果,保障云服务质量。
本发明实施例可通过ping检测包等网络测试检测包对服务器和云主机的云服务质量进行检测,得到服务器和云主机的云服务质量检测结果,从而在确定出当前存在云服务质量缺陷后,以引起云服务质量缺陷的各原因,对云服务的运行数据进行分析,定位出引起当前云服务质量缺陷的目标原因,实现引起云服务质量缺陷的原因的精准定位,并通过执行预设定的与所定位原因相应的解决策略,可以给出解决云服务质量缺陷的解决方案,提升云服务质量,达到提升云服务质量的监控效果,保障云服务质量的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的云服务质量监控方法的流程图;
图2为本发明实施例提供的云服务质量监控方法的另一流程图;
图3为本发明实施例提供的云服务质量监控方法的再一流程图;
图4为本发明实施例提供的云服务质量监控方法的又一流程图;
图5为本发明实施例提供的云服务质量监控方法的又另一流程图;
图6为本发明实施例提供的云服务质量监控方法的又再一流程图;
图7为本发明实施例提供的云服务质量监控方法的另又一流程图;
图8为本发明实施例提供的云服务质量监控装置的结构框图;
图9为本发明实施例提供的云服务质量监控装置的另一结构框图;
图10为服务器的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的云服务质量监控方法的流程图,该方法可应用于服务器,服务器可通过设置相应的程序功能,实现图1所示云服务质量监控方法,此处所指服务器可以认为是云主机的载体,通过在服务器中设置多个虚拟计算机实现云主机;参照图1,该云服务质量监控方法可以包括:
步骤S100、接收分别针对服务器及服务器中的云主机的网络测试检测包。
网络测试检测包可以用于测试网络连接量等网络信息,如网络测试检测包可以选用ping(Packet Internet Groper,因特网包探索器)检测包;
可选的,本发明实施例可利用ping工具向云端的服务器,及服务器中的各云主机分别发送ping检测包,ping工具可设置于用户端的用户设备上,从而服务器可接收到针对服务器的ping检测包,及针对服务器中的各云主机的ping检测包。
步骤S110、根据针对服务器的网络测试检测包,确定服务器的云服务质量检测结果,及根据针对云主机的网络测试检测包,确定云主机的云服务质量检测结果。
可选的,云服务检测结果可以由网络测试检测包(如ping检测包)相应的时延和抖动确定;网络测试检测包相应的时延是指,网络测试检测包从发送到被接收所耗费的时间,单位通常是毫秒,时延反映了网络的速度,越小越好;网络测试检测包相应的抖动是指时延的变化情况,如两个网络测试检测包时延的差值,抖动反映了网络的稳定性,越小越好。
可选的,针对服务器的网络测试检测包可由服务器处理,通过确定针对服务器的网络测试检测包相应的时延和抖动,可以判断服务器是否存在时延缺陷和抖动缺陷,得到服务器的云服务质量检测结果;
可选的,如果所确定的针对服务器的网络测试检测包相应的时延大于预定第一时延,则可认为服务器存在时延缺陷,否则(即针对服务器的网络测试检测包相应的时延不大于预定第一时延),认为服务器不存在时延缺陷;如果所确定的针对服务器的网络测试检测包相应的抖动大于预定第一抖动,则可认为服务器存在抖动缺陷,否则(即针对服务器的网络测试检测包相应的抖动不大于预定第一抖动),认为服务器不存在抖动缺陷。
可选的,针对服务器中的各云主机的网络测试检测包可分别由各云主机处理,通过确定针对云主机的网络测试检测包相应的时延和抖动,可以判断云主机是否存在时延缺陷和抖动缺陷,得到云主机的云服务器质量检测结果;
可选的,如果所确定的针对某一云主机的网络测试检测包相应的时延大于预定第二时延(第一时延与第二时延可能相同,也可能不同,具体可视实际情况设定),则认为该云主机存在时延缺陷,否则(即云主机的网络测试检测包相应的时延不大于预定第二时延),认为该云主机不存在时延缺陷;如果所确定的针对某一云主机的网络测试检测包相应的抖动大于预定第二抖动(第一抖动与第二抖动可能相同,也可能不同,具体可视实际情况设定),则认为该云主机存在抖动缺陷,否则(即云主机的网络测试检测包相应的抖动不大于预定第二抖动),认为该云主机不存在抖动缺陷。
步骤S120、若所确定的服务器和云主机的云服务质量检测结果指示,当前存在云服务质量缺陷,根据预设定的引起云服务质量缺陷的各原因,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因。
可选的,在确定服务器的云服务质量检测结果,和云主机的云服务质量检测结果后,本发明实施例可确定服务器是否存在时延缺陷和抖动缺陷,及云主机是否存在时延缺陷和抖动缺陷,从而判断出当前是否存在云服务质量缺陷;
可选的,所述服务器和云主机的云服务质量检测结果指示的当前存在云服务质量缺陷可能是如下情况:
服务器存在时延缺陷和/或抖动缺陷;
或者,服务器中的云主机存在时延缺陷和/或抖动缺陷;
或者,服务器和云主机存在时延缺陷和/或抖动缺陷。
可选的,云服务相应的运行数据,涉及提供云服务的网络,CPU(CentralProcessing Unit,中央处理器),内存,磁盘等运行数据,运行数据的一种可选形式可以是运行日志。
在根据服务器的云服务质量检测结果,和云主机的云服务质量检测结果,确定当前存在云服务质量缺陷后,本发明实施例需要定位该引起云服务器质量缺陷的原因,并对基于所定位的原因提供解决策略,实现云服务器质量的监控目的;
本发明实施例可以预先整理分析出引起云服务质量缺陷的各种原因,实现对引起云服务质量缺陷的各原因的预先设定;在确定当前存在云服务质量缺陷后,本发明实施例可以调取云服务相应的运行数据,及预设定的引起云服务质量缺陷的各种原因,根据预设定的引起云服务质量缺陷的各种原因,分析所述运行数据,从运行数据中匹配出目标原因,实现当前引起云服务质量缺陷的具体原因的定位;可选的,所确定的目标原因,属于预设定的引起云服务质量缺陷的各原因。
步骤S130、获取预设定的与所述目标原因相应的解决策略,执行所述解决策略。
可选的,对于引起云服务质量缺陷的各原因,本发明实施例可分别设定相应的解决策略,得到引起云服务质量缺陷的各原因所对应的解决策略;从而在确定出所述目标原因后,本发明实施例可从预设定的引起云服务质量缺陷的各原因对应的解决策略中,获取与所述目标原因相应的解决策略,进而执行该解决策略,对引起云服务质量缺陷的目标原因进行解决,提升云服务质量的监控效果,保障云服务质量。
本发明实施例提供的云服务质量监控方法中,服务器可接收分别针对服务器及服务器中的云主机的网络测试检测包,根据针对服务器的网络测试检测包,确定服务器的云服务质量检测结果,及根据针对云主机的网络测试检测包,确定云主机的云服务质量检测结果,从而根据服务器和云主机的云服务质量检测结果,确定当前存在云服务质量缺陷后,可根据预设定引起云服务质量缺陷的各原因,对云服务相应的运行数据进行分析,匹配出引起当前云服务质量缺陷的目标原因,实现引起云服务质量缺陷的原因的精准定位;进而获取预设定的与所述目标原因相应的解决策略并执行,提供出与所定位原因匹配的解决策略,对云服务质量缺陷进行解决,提升云服务质量的监控效果,保障云服务质量。
本发明实施例可通过ping检测包等网络测试检测包对服务器和云主机的云服务质量进行检测,得到服务器和云主机的云服务质量检测结果,从而在确定出当前存在云服务质量缺陷后,以引起云服务质量缺陷的各原因,对云服务的运行数据进行分析,定位出引起当前云服务质量缺陷的目标原因,实现引起云服务质量缺陷的原因的精准定位,并通过执行预设定的与所定位原因相应的解决策略,可以给出解决云服务质量缺陷的解决方案,提升云服务质量,达到提升云服务质量的监控效果,保障云服务质量的目的。
可选的,进一步,本发明实施例可在通过所确定的服务器和云主机的云服务质量检测结果,确定当前存在云服务质量缺陷时,进一步确定当前所存在的云服务器质量缺陷的缺陷形式;
缺陷形式是指发生时延缺陷和/或抖动缺陷的具体设备(设备如服务器和/或云主机)是什么,设备之间的关联是什么等,是对当前所存在的云服务质量缺陷的具体描述;即本发明实施例可在服务器和云主机的云服务质量检测结果指示当前存在云服务质量缺陷时,进一步确定当前存在云服务质量缺陷的设备,设备之间的关联等,得到当前所存在的云服务器质量缺陷的缺陷描述,确定出当前所存在的云服务器质量缺陷的缺陷形式;
相应的,本发明实施例可预设定引起各缺陷形式的云服务质量缺陷的各原因,从而在确定当前所存在的云服务器质量缺陷的缺陷形式后,根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因;
根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因,分析所述运行数据,确定目标原因,可以减小确定目标原因所涉及的数据处理量。
可选的,在根据预设定的各原因,分析运行数据时,本发明实施例可以预设定引起云服务质量缺陷的各原因相应的原因描述(可以是原因的文本描述,或者匹配条件描述等),在确定当前存在云服务质量缺陷后,可根据预设定的引起云服务质量缺陷的各原因相应的原因描述,从所述运行数据中分析出数据内容所匹配的原因描述相应的原因,得到目标原因;
可选的,引起云服务质量缺陷的各原因可能是多种的,如云主机在网络并发时瞬间带宽达到网络带宽上限,且占用了服务器所有带宽,又如服务器的vhost(虚拟主机)与vcpu(虚拟处理器)竞争导致网络包无法得不到即使处理,又如云主机对应的CPU(中央处理器)负载过高,导致网络包无法及时处理,又如云主机中断分布在服务器的各个处理核心上等,本发明实施例可以尽可能全面的整理分析出引起云服务质量缺陷的各种原因,并对引起云服务质量缺陷的各种原因的原因描述进行定义。
可选的,显然,本发明实施例也可预设定引起各缺陷形式的云服务质量缺陷的各原因相应的原因描述,在确定当前存在云服务质量缺陷时,可进一步确定当前所存在的云服务器质量缺陷的缺陷形式,从而可根据引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因。
下面分别针对六种云服务器质量缺陷的缺陷形式,及分别对应的引起云服务器质量缺陷的原因,对本发明实施例提供的云服务质量监控方法的流程进行介绍。
一、服务器存在抖动缺陷,且服务器上所有的云主机都存在抖动缺陷;引起这种云服务质量缺陷的原因可能是服务器中的单台云主机在网络并发时的瞬间带宽,达到网络带宽上限,且占用的服务器带宽比例达到带宽比例上限(可以认为该云主机占用了服务器几乎所有的带宽);如果服务器上的带宽被一个云主机占满,此时服务器上所有的云主机都将产生抖动;
对此,本发明实施例可以提供解决策略:限制云主机的带宽在设定带宽范围内。
可选的,以网络测试检测包为ping检测包为例,图2示出了本发明实施例提供的云服务质量监控方法的另一流程图,该方法可应用于服务器,参照图2,该云服务质量监控方法可以包括:
步骤S200、接收分别针对服务器及服务器中的云主机的ping检测包。
步骤S210、根据针对服务器的ping检测包,确定服务器的云服务质量检测结果,及根据针对云主机的ping检测包,确定云主机的云服务质量检测结果。
可选的,本发明实施例可根据针对服务器的ping检测包,确定服务器是否存在时延缺陷和/或抖动缺陷,可根据针对云主机的ping检测包,确定云主机是否存在时延缺陷和/或抖动缺陷。
步骤S220、若所确定的服务器和云主机的云服务质量检测结果指示,服务器存在抖动缺陷、且所述服务器上所有的云主机都存在抖动缺陷,则根据预设定的第一原因的原因描述,分析云服务相应的运行数据,判断服务器中的单台云主机在网络并发时的瞬间带宽,是否达到网络带宽上限,且占用的服务器带宽比例是否达到带宽比例上限。
可选的,本发明实施例可预设定服务器存在抖动缺陷,且所述服务器上所有的云主机都存在抖动缺陷所相应的第一原因,并定义第一原因的原因描述;第一原因的原因描述包括:服务器中的单台云主机在网络并发时的瞬间带宽,达到网络带宽上限,且该单台云主机占用的服务器带宽比例达到带宽比例上限;
从而根据该预设定的第一原因的原因描述,分析运行数据,判断运行数据的数据内容是否与第一原因的原因描述匹配,并在匹配时,确定目标原因为该第一原因;即目标原因为服务器中的单台云主机占用了服务器几乎所有的带宽,具体表现为服务器中的单台云主机在网络并发时的瞬间带宽,达到网络带宽上限,且该单台云主机占用的服务器带宽比例达到带宽比例上限。
可选的,本发明实施例可通过服务器的网卡设备获取云服务相应的运行数据。
步骤S230、若服务器中的单台云主机在网络并发时的瞬间带宽,达到网络带宽上限,且占用的服务器带宽比例达到带宽比例上限,则确定所述目标原因为所述第一原因。
步骤S240、获取预设定的所述第一原因相应的第一解决策略,执行所述第一解决策略;所述第一解决策略包括:限制云主机的带宽在设定带宽范围内。
可选的,本发明实施例可利用服务器操作***上的网络工具限制云主机的带宽,云主机的设定带宽范围可以参考用户购买云主机时的网络配置而定,具体可视实际情况设定。
二、服务器存在时延缺陷和抖动缺陷,此时可分析服务器的numa(Non-uniformmemory access,非统一内存访问架构)结点的负载所占的CPU使用比例,以及云主机的网络包量(云主机接收和发送的网络包数量),如果服务器的numa结点的负载所占的CPU使用比例,大于设定的CPU使用比例,且云主机的网络包量大于设定网络包量,则引起这种云服务质量缺陷的原因可能是服务器的vhost与vcpu竞争资源,导致网络包得不到及时处理导致;
相应的,本发明实施例可在服务器存在时延缺陷和抖动缺陷时,通过运行数据分析服务器的numa结点的负载所占的CPU使用比例,及云主机的网络包量,在服务器的numa结点的负载所占的CPU使用比例,大于设定的CPU使用比例,且云主机的网络包量大于设定网络包量时,通过运行数据分析vhost与vcpu的资源使用变化情况,在该资源使用变化情况反映vhost与vcpu竞争服务器资源时,确定引起这种云服务质量缺陷的原因是服务器的vhost与vcpu竞争服务器资源导致;
对此,发明实施例可以提供解决策略:迁移云主机,或者,提升vhost的处理优先级至实时优先级。
可选的,图3示出了本发明实施例提供的云服务质量监控方法的再一流程图,该方法可应用于服务器,参照图3,该云服务质量监控方法可以包括:
步骤S300、接收分别针对服务器及服务器中的云主机的ping检测包。
步骤S310、根据针对服务器的ping检测包,确定服务器的云服务质量检测结果,及根据针对云主机的ping检测包,确定云主机的云服务质量检测结果。
步骤S320、若所确定的服务器和云主机的云服务质量检测结果指示,服务器存在时延缺陷和抖动缺陷,则分析云服务相应的运行数据,判断服务器的numa结点的负载所占的CPU使用比例,是否大于设定的CPU使用比例,且云主机的网络包量是否大于设定网络包量。
numa结点是一种为多处理器的电脑设计的内存,内存访问时间取决于内存相对于处理器的位置。
可选的,设定网络包量可以结合云主机自身的配置设定。
步骤S330、若服务器的numa结点的负载所占的CPU使用比例,大于设定的CPU使用比例,且云主机的网络包量大于设定网络包量,根据预设定的第二原因的原因描述,分析云服务相应的运行数据,确定服务器的vhost与vcpu的资源使用变化情况;所述第二原因的原因描述包括:服务器的vhost与vcpu竞争服务器资源。
如果vhost与vcpu竞争服务器资源,将导致网络包(包括ping检测包)无法得到即时处理,这样会导致ping检测包的时延很大,使得服务器和云主机均存在时延缺陷。
步骤S340、若所述vhost与vcpu的资源使用变化情况反映,所述vhost与vcpu竞争服务器资源,确定所述目标原因为所述第二原因。
步骤S350、获取预设定的所述第二原因相应的第二解决策略,执行所述第二解决策略;所述第二解决策略包括:迁移云主机,或者,提升vhost的处理优先级至实时优先级。
可选的,迁移云主机是指将云主机从服务器中迁移出。
可选的,Linux的进程分普通进程和实时进程,普通进程即非实时进程SCHED_OTHER或SCHED_NORMAL,而实时进程又分SCHED_FIFO与SCHED_RR,实时进程的优先级(0~99)都比普通进程的优先级(100~139)高,且直到死亡之前始终是活动进程;当***中有实时进程运行时,普通进程几乎是无法分到时间片的(只能分到5%的CPU时间)。
本发明实施例提高vhost的处理优先级至实时优先级之后,服务器时延和抖动均将减小,比如提高vhost的处理优先级至实时优先级之前,服务器时延为1.18毫秒,而提高vhost的处理优先级至实时优先级之后,服务器时延可降低至0.261毫秒。
三、云主机存在时延缺陷和抖动缺陷,此时可分析云主机对应的CPU的使用率,以及云主机的网络包量,如果云主机对应的CPU的使用率大于设定使用率,且云主机的网络包量大于设定网络包量,则引起这种云服务质量缺陷的原因可能是云主机对应的CPU的使用率过高,导致网络包无法及时处理,使得云主机存在时延缺陷和抖动缺陷;
对此,本发明实施例可以提供解决策略:将云主机对应的CPU按逻辑核绑定,缓解云主机对应的CPU的使用率过高情况;
可选的,图4示出了本发明实施例提供的云服务质量监控方法的又一流程图,该方法可应用于服务器,参照图4,该云服务质量监控方法可以包括:
步骤S400、接收分别针对服务器及服务器中的云主机的ping检测包。
步骤S410、根据针对服务器的ping检测包,确定服务器的云服务质量检测结果,及根据针对云主机的ping检测包,确定云主机的云服务质量检测结果。
步骤S420、若所确定的服务器和云主机的云服务质量检测结果指示,云主机存在时延缺陷和抖动缺陷,则根据预设定的第三原因的原因描述,分析云服务相应的运行数据,判断云主机对应的CPU的使用率,是否大于设定使用率,且云主机的网络包量是否大于设定网络包量。
可选的,所述第三原因的原因描述包括:云主机对应的CPU的使用率大于设定使用率,且云主机的网络包量大于设定网络包量。
可选的,云主机对应的CPU的使用率大于设定使用率,说明云主机对应的CPU的使用率过高,可能是由于进程数过多,云主机进行大量计算等造成;而云主机自身CPU被占满,将导致网络包无法得到及时处理,产生云主机的时延缺陷和抖动缺陷。
步骤S430、若云主机对应的CPU的使用率大于设定使用率,且云主机的网络包量大于设定网络包量,确定所述目标原因为所述第三原因。
步骤S440、获取预设定的所述第三原因相应的第三解决策略,执行所述第三解决策略;所述第三解决策略包括:将云主机对应的CPU按逻辑核绑定。
可选的,本发明实施例可以在服务器操作***上,将云主机的线程绑定到指定的cpu上,使得云主机对应的CPU按逻辑核绑定;可选的,可以使用taskset和vcpupin命令将云主机对应的CPU按逻辑核绑定。
本发明实施例将云主机对应的CPU按逻辑核绑定之后,可降低了云主机的抖动和时延情况;比如将云主机对应的CPU按逻辑核绑定前,时延最大达到119毫秒,而将云主机对应的CPU按逻辑核绑定后,时延最大只有19.5毫秒,这极大的降低了云主机的抖动和时延情况。
四、服务器存在抖动缺陷,且存在抖动缺陷的服务器的操作***相同,此时可分析云主机对应的CPU的使用率,以及云主机的网络包量,如果云主机对应的CPU的使用率不大于设定使用率,且云主机的网络包量不大于设定网络包量,则引起这种云服务质量缺陷的原因可能是云主机中断分布在服务器的各个处理核心上,从而导致服务器存在抖动缺陷;
对此,发明实施例可以提供解决策略:将云主机中断绑定在服务器的第零CPU上。
可选的,图5示出了本发明实施例提供的云服务质量监控方法的又另一流程图,该方法可应用于服务器,参照图5,该云服务质量监控方法可以包括:
步骤S500、接收分别针对服务器及服务器中的云主机的ping检测包。
步骤S510、根据针对服务器的ping检测包,确定服务器的云服务质量检测结果,及根据针对云主机的ping检测包,确定云主机的云服务质量检测结果。
步骤S520、若所确定的服务器和云主机的云服务质量检测结果指示,服务器存在抖动缺陷,且存在抖动缺陷的服务器的操作***相同,则分析运行数据,判断云主机对应的CPU的使用率是否大于设定使用率,且云主机的网络包量是否大于设定网络包量。
步骤S530、如果云主机对应的CPU的使用率不大于设定使用率,且云主机的网络包量不大于设定网络包量,则根据预设定的第四原因的原因描述,分析云服务相应的运行数据,判断云主机是否中断分布在服务器的各个处理核心上。
所述第四原因的原因描述包括:云主机中断分布在服务器的各个处理核心上。
可选的,云主机对应的CPU的使用率不大于设定使用率,且云主机的网络包量不大于设定网络包量,说明云主机对应的CPU使用率及云主机的网络包量均不高,可能是由于云主机中断分布在服务器的各个处理核心上,导致存在抖动缺陷的服务器的操作***相同。
步骤S540、若云主机中断分布在服务器的各个处理核心上,确定所述目标原因为所述第四原因。
步骤S550、获取预设定的所述第四原因相应的第四解决策略,执行所述第四解决策略;所述第四解决策略包括:将云主机中断绑定在服务器的第零CPU上。
可选的,本发明实施例可通过在服务器操作***上,执行命令echo 1>/proc/irq/47/smp_affinity,将云主机中断绑定在服务器的第零CPU上,其中,47是virtio0-input中断号,表示将这个中断绑定到CPU0(服务器的第零CPU)上;
需要说明的是,中断请求(IRQ)是用于服务的请求,在硬件层发出,可使用专用硬件线路或者跨硬件总线的信息数据包(消息信号中断,MSI)发出中断。IRQ有一个关联的“类似”属性smp_affinity,该参数可以定义允许为IRQ执行ISR的CPU核;这个属性还可用来提高程序性能,方法是为一个或者多个具体CPU核分配中断类似性和程序线程类似性,这可让缓存可在指定的中断和程序线程之间共享。具体IRQ的中断近似性值,可以保存在相关的/proc/irq/IRQ_NUMBER/smp_affinity文件中,root用户可以查看并修改该值。保存在这个文件中的值是一个十六进制字节掩码,代表了操作******中所有的CPU核。
本发明实施例将云主机中断绑定在服务器的第零CPU之后,服务器的抖动缺陷可得以减小;比如将云主机中断绑定在服务器的第零CPU之前,服务器的抖动为36.4毫秒,而将云主机中断绑定在服务器的第零CPU之后,服务器的抖动为2.9毫秒,服务器的抖动缺陷得以减小。
五、服务器中的单台云主机存在时延缺陷,且该单台云主机对应的时延大于设定时延上限,引起这种云服务质量缺陷的原因可能是,该单台云主机的硬盘IO(输入输出)是native(原生)方式,因此当硬盘使用率过高时,该单台云主机的操作阻塞在硬盘操作上,导致该单台云主机存在非常大的时延;
对此,发明实施例可以提供解决策略:取消该单台云主机的硬盘IO的native方式,并重启该单台云主机。
可选的,图6示出了本发明实施例提供的云服务质量监控方法的又再一流程图,该方法可应用于服务器,参照图6,该云服务质量监控方法可以包括:
步骤S600、接收分别针对服务器及服务器中的云主机的ping检测包。
步骤S610、根据针对服务器的ping检测包,确定服务器的云服务质量检测结果,及根据针对云主机的ping检测包,确定云主机的云服务质量检测结果。
步骤S620、若所确定的服务器和云主机的云服务质量检测结果指示,服务器中的单台云主机存在时延缺陷,且该单台云主机对应的时延大于设定时延上限,则根据预设定的第五原因的原因描述,分析云服务相应的运行数据,判断该单台云主机的硬盘IO是否为native方式。
所述第五原因的原因描述包括:单台云主机的硬盘IO为native方式。
步骤S630、若该单台云主机的硬盘IO是native方式,确定所述目标原因为所述第五原因。
步骤S640、获取预设定的所述第五原因相应的第五解决策略,执行所述第五解决策略;所述第五解决策略包括:取消该单台云主机的硬盘IO的native方式,并重启该单台云主机。
本发明实施例更改单台云主机的磁盘IO方式不为native方式之后,云主机的操作没有阻塞在硬盘操作上,时延缺陷得以减小;比如更改单台云主机的磁盘IO方式不为native方式之后,可将时延从上万毫秒降低至个位数毫秒。
六、云主机存在抖动缺陷,且存在抖动缺陷的云主机之间没有共性,此时可以分析云主机对应的CPU的使用率,以及云主机的网络包量,如果云主机对应的CPU的使用率不大于设定使用率,且云主机的网络包量不大于设定网络包量,则引起这种云服务质量缺陷的原因可能是,服务器上大量内存被消耗,导致云主机被交换出去;
对此,发明实施例可以提供解决策略:取消服务器上的交换分区。
可选的,图7示出了本发明实施例提供的云服务质量监控方法的另又一流程图,该方法可应用于服务器,参照图7,该云服务质量监控方法可以包括:
步骤S700、接收分别针对服务器及服务器中的云主机的ping检测包。
步骤S710、根据针对服务器的ping检测包,确定服务器的云服务质量检测结果,及根据针对云主机的ping检测包,确定云主机的云服务质量检测结果。
步骤S720、若所确定的服务器和云主机的云服务质量检测结果指示,云主机存在抖动缺陷,且存在抖动缺陷的云主机之间没有共性,则分析运行数据,判断云主机对应的CPU的使用率是否大于设定使用率,且云主机的网络包量是否大于设定网络包量。
步骤S730、如果云主机对应的CPU的使用率不大于设定使用率,且云主机的网络包量不大于设定网络包量,则根据预设定的第六原因的原因描述,分析云服务相应的运行数据,判断服务器的内存消耗比例是否大于设定消耗比例,且云主机是否被交换出去。
所述第六原因的原因描述包括:服务器的内存消耗比例大于设定消耗比例,且云主机被交换出去。
服务器的内存消耗比例大于设定消耗比例说明,服务器上大量内存被消耗,可能导致云主机被交换出去,致使服务器中个别的云主机存在抖动缺陷。
步骤S740、若服务器的内存消耗比例大于设定消耗比例,且云主机被交换出去,确定所述目标原因为所述第六原因。
步骤S750、获取预设定的所述第六原因相应的第六解决策略,执行所述第六解决策略;所述第六解决策略包括:取消服务器上的交换分区。
将服务器上的交换分区取消,则在没有交换分区的情况下,即使因其他原因造成服务器的磁盘IO延迟高,也可降低服务器中个别云主机存在抖动缺陷的现象。
上文针对六种云服务器质量缺陷的缺陷形式,及分别对应的引起云服务器质量缺陷的原因,介绍了本发明实施例提供的云服务质量监控方法。可见,每在服务器分析出当前存在云服务质量缺陷,且确定出当前所存在的云服务器质量缺陷的缺陷形式后,可根据预设定的引起该缺陷形式的云服务器质量缺陷所对应的各原因的原因描述,分析运行数据,确定出引起该缺陷形式的云服务器质量缺陷的目标原因,并执行相应的解决策略,实现云服务质量的监控;
可选的,云服务器质量缺陷的缺陷形式如上文六种情况所指的:
服务器存在抖动缺陷、且所述服务器上所有的云主机都存在抖动缺陷;
或,服务器存在时延缺陷和抖动缺陷;
或,云主机存在时延缺陷和抖动缺陷;
或,服务器存在抖动缺陷,且存在抖动缺陷的服务器的操作***相同;
或,单台云主机存在时延缺陷,且该单台云主机对应的时延大于设定时延上限;
或,云主机存在抖动缺陷,且存在抖动缺陷的云主机之间没有共性等。
本发明实施例提供的云服务质量监控方法,可以实现引起云服务质量缺陷的原因的精准定位,并通过执行预设定的与所定位原因相应的解决策略,给出云服务质量缺陷的解决方案,提升云服务质量,达到提升云服务质量的监控效果,保障云服务质量的目的。
下面对本发明实施例提供的云服务质量监控装置进行介绍,下文描述的云服务质量监控装置可以认为是,服务器为实现本发明实施例提供的云服务质量监控方法,所需设置的功能模块架构;下文描述内容可与上文描述的云服务质量监控方法相互对应参照。
图8为本发明实施例提供的云服务质量监控装置的结构框图,该云服务质量监控装置可以应用于服务器,参照图8,该云服务质量监控装置可以包括:
网络测试检测包接收模块100,用于接收分别针对服务器及服务器中的云主机的网络测试检测包;
检测结果确定模块110,用于根据针对服务器的网络测试检测包,确定服务器的云服务质量检测结果,及根据针对云主机的网络测试检测包,确定云主机的云服务质量检测结果;
目标原因确定模块120,用于若所确定的服务器和云主机的云服务质量检测结果指示,当前存在云服务质量缺陷,根据预设定的引起云服务质量缺陷的各原因,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因;
解决策略执行模块130,用于获取预设定的与所述目标原因相应的解决策略,执行所述解决策略。
可选的,图9示出了本发明实施例提供的云服务质量监控装置的另一结构框图,结合图8和图9所示,该云服务质量监控装置还可以包括:
缺陷形式确定模块140,用于确定当前所存在的云服务器质量缺陷的缺陷形式。
相应的,目标原因确定模块120,用于根据预设定的引起云服务质量缺陷的各原因,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,具体包括:
根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因。
可选的,缺陷形式确定模块140所确定的缺陷形式包括:
服务器存在抖动缺陷、且所述服务器上所有的云主机都存在抖动缺陷;
或,服务器存在时延缺陷和抖动缺陷;
或,云主机存在时延缺陷和抖动缺陷;
或,服务器存在抖动缺陷,且存在抖动缺陷的服务器的操作***相同;
或,单台云主机存在时延缺陷,且该单台云主机对应的时延大于设定时延上限;
或,云主机存在抖动缺陷,且存在抖动缺陷的云主机之间没有共性。
可选的,目标原因确定模块120,用于根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,具体包括:
若所确定的服务器和云主机的云服务质量检测结果指示,服务器存在抖动缺陷、且所述服务器上所有的云主机都存在抖动缺陷,则根据预设定的第一原因的原因描述,分析云服务相应的运行数据,判断服务器中的单台云主机在网络并发时的瞬间带宽,是否达到网络带宽上限,且占用的服务器带宽比例是否达到带宽比例上限;
若服务器中的单台云主机在网络并发时的瞬间带宽,达到网络带宽上限,且占用的服务器带宽比例达到带宽比例上限,则确定所述目标原因为所述第一原因;
相应的,解决策略执行模块130,用于获取预设定的与所述目标原因相应的解决策略,执行所述解决策略,具体包括:
获取预设定的所述第一原因相应的第一解决策略,执行所述第一解决策略;所述第一解决策略包括:限制云主机的带宽在设定带宽范围内。
可选的,目标原因确定模块120,用于根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,具体包括:
若所确定的服务器和云主机的云服务质量检测结果指示,服务器存在时延缺陷和抖动缺陷,则分析云服务相应的运行数据,判断服务器的numa结点的负载所占的CPU使用比例,是否大于设定的CPU使用比例,且云主机的网络包量是否大于设定网络包量;
若服务器的numa结点的负载所占的CPU使用比例,大于设定的CPU使用比例,且云主机的网络包量大于设定网络包量,根据预设定的第二原因的原因描述,分析云服务相应的运行数据,确定服务器的vhost与vcpu的资源使用变化情况;所述第二原因的原因描述包括:服务器的vhost与vcpu竞争服务器资源;
若所述vhost与vcpu的资源使用变化情况反映,所述vhost与vcpu竞争服务器资源,确定所述目标原因为所述第二原因;
相应的,解决策略执行模块130,用于获取预设定的与所述目标原因相应的解决策略,执行所述解决策略,具体包括:
获取预设定的所述第二原因相应的第二解决策略,执行所述第二解决策略;所述第二解决策略包括:迁移云主机,或者,提升vhost的处理优先级至实时优先级。
可选的,目标原因确定模块120,用于根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,具体包括:
若所确定的服务器和云主机的云服务质量检测结果指示,云主机存在时延缺陷和抖动缺陷,则根据预设定的第三原因的原因描述,分析云服务相应的运行数据,判断云主机对应的CPU的使用率,是否大于设定使用率,且云主机的网络包量是否大于设定网络包量;
若云主机对应的CPU的使用率大于设定使用率,且云主机的网络包量大于设定网络包量,确定所述目标原因为所述第三原因;
相应的,解决策略执行模块130,用于获取预设定的与所述目标原因相应的解决策略,执行所述解决策略,具体包括:
获取预设定的所述第三原因相应的第三解决策略,执行所述第三解决策略;所述第三解决策略包括:将云主机对应的CPU按逻辑核绑定。
可选的,目标原因确定模块120,用于根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,具体包括:
若所确定的服务器和云主机的云服务质量检测结果指示,服务器存在抖动缺陷,且存在抖动缺陷的服务器的操作***相同,则分析运行数据,判断云主机对应的CPU的使用率是否大于设定使用率,且云主机的网络包量是否大于设定网络包量;
如果云主机对应的CPU的使用率不大于设定使用率,且云主机的网络包量不大于设定网络包量,则根据预设定的第四原因的原因描述,分析云服务相应的运行数据,判断云主机是否中断分布在服务器的各个处理核心上;
若云主机中断分布在服务器的各个处理核心上,确定所述目标原因为所述第四原因;
相应的,解决策略执行模块130,用于获取预设定的与所述目标原因相应的解决策略,执行所述解决策略,具体包括:
获取预设定的所述第四原因相应的第四解决策略,执行所述第四解决策略;所述第四解决策略包括:将云主机中断绑定在服务器的第零CPU上。
可选的,目标原因确定模块120,用于根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,具体包括:
若所确定的服务器和云主机的云服务质量检测结果指示,服务器中的单台云主机存在时延缺陷,且该单台云主机对应的时延大于设定时延上限,则根据预设定的第五原因的原因描述,分析云服务相应的运行数据,判断该单台云主机的硬盘IO是否为native方式;
若该单台云主机的硬盘IO是native方式,确定所述目标原因为所述第五原因;
相应的,解决策略执行模块130,用于获取预设定的与所述目标原因相应的解决策略,执行所述解决策略,具体包括:
获取预设定的所述第五原因相应的第五解决策略,执行所述第五解决策略;所述第五解决策略包括:取消该单台云主机的硬盘IO的native方式,并重启该单台云主机。
可选的,目标原因确定模块120,用于根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,具体包括:
若所确定的服务器和云主机的云服务质量检测结果指示,云主机存在抖动缺陷,且存在抖动缺陷的云主机之间没有共性,则分析运行数据,判断云主机对应的CPU的使用率是否大于设定使用率,且云主机的网络包量是否大于设定网络包量;
如果云主机对应的CPU的使用率不大于设定使用率,且云主机的网络包量不大于设定网络包量,则根据预设定的第六原因的原因描述,分析云服务相应的运行数据,判断服务器的内存消耗比例是否大于设定消耗比例,且云主机是否被交换出去;
若服务器的内存消耗比例大于设定消耗比例,且云主机被交换出去,确定所述目标原因为所述第六原因;
相应的,解决策略执行模块130,用于获取预设定的与所述目标原因相应的解决策略,执行所述解决策略,具体包括:
获取预设定的所述第六原因相应的第六解决策略,执行所述第六解决策略;所述第六解决策略包括:取消服务器上的交换分区。
本发明实施例提供的云服务质量监控装置,可以实现引起云服务质量缺陷的原因的精准定位,并通过执行预设定的与所定位原因相应的解决策略,给出云服务质量缺陷的解决方案,提升云服务质量,达到提升云服务质量的监控效果,保障云服务质量的目的。
本发明实施例还提供一种服务器,该服务器可以包括上述所述的云服务质量监控装置。
可选的,图10示出了服务器的可选硬件结构,参照图10,该服务器可以包括:处理器1,通信接口2,存储器3和通信总线4;
其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,处理器1具体用于:
接收分别针对服务器及服务器中的云主机的网络测试检测包;
根据针对服务器的网络测试检测包,确定服务器的云服务质量检测结果,及根据针对云主机的网络测试检测包,确定云主机的云服务质量检测结果;
若所确定的服务器和云主机的云服务质量检测结果指示,当前存在云服务质量缺陷,根据预设定的引起云服务质量缺陷的各原因,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因;
获取预设定的与所述目标原因相应的解决策略,执行所述解决策略。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种云服务质量监控方法,其特征在于,应用于服务器,所述方法包括:
接收分别针对服务器及服务器中的云主机的网络测试检测包,所述网络测试检测包用于测试网络连接量;
根据针对服务器的网络测试检测包,确定服务器的云服务质量检测结果,及根据针对云主机的网络测试检测包,确定云主机的云服务质量检测结果;
若所确定的服务器和云主机的云服务质量检测结果指示,当前存在云服务质量缺陷,调取云服务相应的运行数据,及预设定的引起云服务质量缺陷的原因,根据预设定的引起云服务质量缺陷的原因,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,其中,所述目标原因属于所述预设定的引起云服务质量缺陷的原因,所述预设定的引起云服务质量缺陷的原因是通过预先整理分析出引起云服务质量缺陷的原因;
确定当前存在所述云服务质量缺陷的设备,以及确定所述设备之间的关联,得到当前存在所述云服务质量缺陷的缺陷描述,确定当前所存在的云服务器质量缺陷的缺陷形式;
获取预设定的与所述目标原因相应的解决策略,执行所述解决策略,其中,具体包括:获取预设定的第五原因相应的第五解决策略,执行所述第五解决策略;所述第五解决策略包括:取消单台云主机的硬盘输入输出的原生方式,并重启所述单台云主机;
所述根据预设定的引起云服务质量缺陷的原因,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,包括:
根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,其中,具体包括:若所确定的服务器和云主机的云服务质量检测结果指示,服务器中的单台云主机存在时延缺陷,且所述单台云主机对应的时延大于设定时延上限,则根据预设定的第五原因的原因描述,分析云服务相应的运行数据,判断所述单台云主机的硬盘输入输出是否为原生方式,所述第五原因的原因描述为所述单台云主机的硬盘输入输出为原生方式;若所述单台云主机的硬盘输入输出是原生方式,确定所述目标原因为所述第五原因。
2.根据权利要求1所述的云服务质量监控方法,其特征在于,所述缺陷形式包括:
服务器存在抖动缺陷、且所述服务器上所有的云主机都存在抖动缺陷;
或,服务器存在时延缺陷和抖动缺陷;
或,云主机存在时延缺陷和抖动缺陷;
或,服务器存在抖动缺陷,且存在抖动缺陷的服务器的操作***相同;
或,单台云主机存在时延缺陷,且该单台云主机对应的时延大于设定时延上限;
或,云主机存在抖动缺陷,且存在抖动缺陷的云主机之间没有共性。
3.根据权利要求2所述的云服务质量监控方法,其特征在于,所述根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因包括:
若所确定的服务器和云主机的云服务质量检测结果指示,服务器存在抖动缺陷、且所述服务器上所有的云主机都存在抖动缺陷,则根据预设定的第一原因的原因描述,分析云服务相应的运行数据,判断服务器中的单台云主机在网络并发时的瞬间带宽,是否达到网络带宽上限,且占用的服务器带宽比例是否达到带宽比例上限;
若服务器中的单台云主机在网络并发时的瞬间带宽,达到网络带宽上限,且占用的服务器带宽比例达到带宽比例上限,则确定所述目标原因为所述第一原因;
所述获取预设定的与所述目标原因相应的解决策略,执行所述解决策略包括:
获取预设定的所述第一原因相应的第一解决策略,执行所述第一解决策略;所述第一解决策略包括:限制云主机的带宽在设定带宽范围内。
4.根据权利要求2所述的云服务质量监控方法,其特征在于,所述根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因包括:
若所确定的服务器和云主机的云服务质量检测结果指示,服务器存在时延缺陷和抖动缺陷,则分析云服务相应的运行数据,判断服务器的非统一内存访问架构结点的负载所占的CPU使用比例,是否大于设定的CPU使用比例,且云主机的网络包量是否大于设定网络包量;
若服务器的非统一内存访问架构结点的负载所占的CPU使用比例,大于设定的CPU使用比例,且云主机的网络包量大于设定网络包量,根据预设定的第二原因的原因描述,分析云服务相应的运行数据,确定服务器的虚拟主机与虚拟处理器的资源使用变化情况;所述第二原因的原因描述包括:服务器的虚拟主机与虚拟处理器竞争服务器资源;
若所述虚拟主机与虚拟处理器的资源使用变化情况反映,所述虚拟主机与虚拟处理器竞争服务器资源,确定所述目标原因为所述第二原因。
5.根据权利要求4所述的云服务质量监控方法,其特征在于,所述获取预设定的与所述目标原因相应的解决策略,执行所述解决策略包括:
获取预设定的所述第二原因相应的第二解决策略,执行所述第二解决策略;所述第二解决策略包括:迁移云主机,或者,提升虚拟主机的处理优先级至实时优先级。
6.根据权利要求2所述的云服务质量监控方法,其特征在于,所述根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因包括:
若所确定的服务器和云主机的云服务质量检测结果指示,云主机存在时延缺陷和抖动缺陷,则根据预设定的第三原因的原因描述,分析云服务相应的运行数据,判断云主机对应的CPU的使用率,是否大于设定使用率,且云主机的网络包量是否大于设定网络包量;
若云主机对应的CPU的使用率大于设定使用率,且云主机的网络包量大于设定网络包量,确定所述目标原因为所述第三原因;
所述获取预设定的与所述目标原因相应的解决策略,执行所述解决策略包括:
获取预设定的所述第三原因相应的第三解决策略,执行所述第三解决策略;所述第三解决策略包括:将云主机对应的CPU按逻辑核绑定。
7.根据权利要求2所述的云服务质量监控方法,其特征在于,所述根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因包括:
若所确定的服务器和云主机的云服务质量检测结果指示,服务器存在抖动缺陷,且存在抖动缺陷的服务器的操作***相同,则分析运行数据,判断云主机对应的CPU的使用率是否大于设定使用率,且云主机的网络包量是否大于设定网络包量;
如果云主机对应的CPU的使用率不大于设定使用率,且云主机的网络包量不大于设定网络包量,则根据预设定的第四原因的原因描述,分析云服务相应的运行数据,判断云主机是否中断分布在服务器的各个处理核心上;
若云主机中断分布在服务器的各个处理核心上,确定所述目标原因为所述第四原因;
所述获取预设定的与所述目标原因相应的解决策略,执行所述解决策略包括:
获取预设定的所述第四原因相应的第四解决策略,执行所述第四解决策略;所述第四解决策略包括:将云主机中断绑定在服务器的第零CPU上。
8.根据权利要求2所述的云服务质量监控方法,其特征在于,所述根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因包括:
若所确定的服务器和云主机的云服务质量检测结果指示,云主机存在抖动缺陷,且存在抖动缺陷的云主机之间没有共性,则分析运行数据,判断云主机对应的CPU的使用率是否大于设定使用率,且云主机的网络包量是否大于设定网络包量;
如果云主机对应的CPU的使用率不大于设定使用率,且云主机的网络包量不大于设定网络包量,则根据预设定的第六原因的原因描述,分析云服务相应的运行数据,判断服务器的内存消耗比例是否大于设定消耗比例,且云主机是否被交换出去;
若服务器的内存消耗比例大于设定消耗比例,且云主机被交换出去,确定所述目标原因为所述第六原因。
9.根据权利要求8所述的云服务质量监控方法,其特征在于,所述获取预设定的与所述目标原因相应的解决策略,执行所述解决策略包括:
获取预设定的所述第六原因相应的第六解决策略,执行所述第六解决策略;所述第六解决策略包括:取消服务器上的交换分区。
10.一种云服务质量监控装置,其特征在于,应用于服务器,所述装置包括:
网络测试检测包接收模块,用于接收分别针对服务器及服务器中的云主机的网络测试检测包,所述网络测试检测包用于测试网络连接量;
检测结果确定模块,用于根据针对服务器的网络测试检测包,确定服务器的云服务质量检测结果,及根据针对云主机的网络测试检测包,确定云主机的云服务质量检测结果;
目标原因确定模块,用于若所确定的服务器和云主机的云服务质量检测结果指示,当前存在云服务质量缺陷,调取云服务相应的运行数据,及预设定的引起云服务质量缺陷的原因,根据预设定的引起云服务质量缺陷的原因,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,其中,所述目标原因属于所述预设定的引起云服务质量缺陷的原因,所述预设定的引起云服务质量缺陷的原因是通过预先整理分析出引起云服务质量缺陷的原因;
解决策略执行模块,用于获取预设定的与所述目标原因相应的解决策略,执行所述解决策略;
所述解决策略执行模块,具体用于获取预设定的第五原因相应的第五解决策略,执行所述第五解决策略;所述第五解决策略包括:取消单台云主机的硬盘输入输出的原生方式,并重启所述单台云主机;
缺陷形式确定模块,用于确定当前所存在的云服务器质量缺陷的缺陷形式;
所述目标原因确定模块,用于根据预设定的引起云服务质量缺陷的各原因,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,具体包括:
根据预设定的引起所述缺陷形式的云服务质量缺陷的各原因相应的原因描述,分析云服务相应的运行数据,确定从所述运行数据中匹配出的目标原因,其中,具体包括:若所确定的服务器和云主机的云服务质量检测结果指示,服务器中的单台云主机存在时延缺陷,且所述单台云主机对应的时延大于设定时延上限,则根据预设定的第五原因的原因描述,分析云服务相应的运行数据,判断所述单台云主机的硬盘输入输出是否为原生方式,所述第五原因的原因描述为所述单台云主机的硬盘输入输出为原生方式;若所述单台云主机的硬盘输入输出是原生方式,确定所述目标原因为所述第五原因;
所述装置,还用于确定当前存在所述云服务质量缺陷的设备,以及确定所述设备之间的关联,得到当前存在所述云服务质量缺陷的缺陷描述,确定当前所存在的云服务器质量缺陷的缺陷形式。
11.根据权利要求10所述的云服务质量监控装置,其特征在于,所述缺陷形式包括:
服务器存在抖动缺陷、且所述服务器上所有的云主机都存在抖动缺陷;
或,服务器存在时延缺陷和抖动缺陷;
或,云主机存在时延缺陷和抖动缺陷;
或,服务器存在抖动缺陷,且存在抖动缺陷的服务器的操作***相同;
或,单台云主机存在时延缺陷,且该单台云主机对应的时延大于设定时延上限;
或,云主机存在抖动缺陷,且存在抖动缺陷的云主机之间没有共性。
12.一种服务器,其特征在于,包括权利要求10-11任一项所述的云服务质量监控装置。
13.一种计算机可读存储介质,其特征在于,包括若干指令用以执行如权利要求1-9任一项所述的方法。
CN201710103863.5A 2017-02-24 2017-02-24 一种云服务质量监控方法、装置及服务器 Active CN108512673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710103863.5A CN108512673B (zh) 2017-02-24 2017-02-24 一种云服务质量监控方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710103863.5A CN108512673B (zh) 2017-02-24 2017-02-24 一种云服务质量监控方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN108512673A CN108512673A (zh) 2018-09-07
CN108512673B true CN108512673B (zh) 2021-08-03

Family

ID=63373810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710103863.5A Active CN108512673B (zh) 2017-02-24 2017-02-24 一种云服务质量监控方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN108512673B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110740078B (zh) * 2019-09-26 2023-08-22 平安科技(深圳)有限公司 一种服务器的代理监测方法及相关产品
CN110784337B (zh) * 2019-09-26 2023-08-22 平安科技(深圳)有限公司 一种云服务质量监控方法及相关产品
CN111913660B (zh) * 2020-07-15 2022-11-18 郑州阿帕斯数云信息科技有限公司 打点数据处理方法和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1777126A (zh) * 2005-12-12 2006-05-24 史文勇 一种对时延、丢包进行综合测量及关联分析的***和方法
CN1897547A (zh) * 2005-07-14 2007-01-17 华为技术有限公司 通信网络中Qos检测的方法
CN104038392A (zh) * 2014-07-04 2014-09-10 云南电网公司 一种云计算资源服务质量评估方法
CN105760230A (zh) * 2016-02-18 2016-07-13 广东睿江云计算股份有限公司 一种自动调整云主机运行的方法及装置
CN106411647A (zh) * 2016-10-13 2017-02-15 腾讯科技(深圳)有限公司 一种通信质量检测方法及检测服务器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101409651B (zh) * 2008-11-26 2012-11-07 中国电信股份有限公司 软交换承载网络质量的监测方法、***和设备
CN102035691A (zh) * 2009-09-28 2011-04-27 ***通信集团公司 网络链路质量检测的方法及装置
CN102692896B (zh) * 2011-11-17 2013-12-11 上海理工大学 基于虚拟现实技术的印刷机实时远程维护***
CN106130809B (zh) * 2016-09-07 2019-06-25 东南大学 一种基于日志分析的IaaS云平台网络故障定位方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1897547A (zh) * 2005-07-14 2007-01-17 华为技术有限公司 通信网络中Qos检测的方法
CN1777126A (zh) * 2005-12-12 2006-05-24 史文勇 一种对时延、丢包进行综合测量及关联分析的***和方法
CN104038392A (zh) * 2014-07-04 2014-09-10 云南电网公司 一种云计算资源服务质量评估方法
CN105760230A (zh) * 2016-02-18 2016-07-13 广东睿江云计算股份有限公司 一种自动调整云主机运行的方法及装置
CN106411647A (zh) * 2016-10-13 2017-02-15 腾讯科技(深圳)有限公司 一种通信质量检测方法及检测服务器

Also Published As

Publication number Publication date
CN108512673A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN106302434B (zh) 服务器适配方法、装置和***
US11876731B2 (en) System and methods for sharing memory subsystem resources among datacenter applications
CN108512673B (zh) 一种云服务质量监控方法、装置及服务器
CN112003797B (zh) 一种虚拟化dpdk网络性能提高方法、***、终端及存储介质
CN110224943B (zh) 基于url的流量服务限流方法、电子设备及计算机存储介质
CN113067875B (zh) 基于微服务网关动态流控的访问方法和装置以及设备
US11048632B2 (en) Data storage system with performance-based distribution of I/O requests to processing cores
JP5796722B2 (ja) Cpuの仮想化を支援することが可能なコンピュータサーバ
CN112732501B (zh) 一种测试方法及多处理器soc芯片
CN110557432B (zh) 一种缓存池均衡优化方法、***、终端及存储介质
CN114138481A (zh) 一种数据处理方法、装置及介质
CN111597041B (zh) 一种分布式***的调用方法、装置、终端设备及服务器
CN108804152B (zh) 配置参数的调节方法及装置
CN110309036B (zh) 一种cpu占用率检测方法及检测设备
CN115858114A (zh) 空闲任务的调度方法、装置、电子设备及可读存储介质
CN115576698A (zh) 一种网卡中断聚合方法、装置、设备及介质
CN112685174A (zh) 一种容器创建方法、装置、设备及介质
CN111427673B (zh) 一种负载均衡方法、装置及设备
CN111352710A (zh) 进程管理方法及装置、计算设备、存储介质
CN109491948B (zh) 一种针对固态硬盘双端口的数据处理方法和装置
CN116431327B (zh) 一种任务限流处理方法及堡垒机
CN108289084B (zh) 访问流量的阻断方法和装置及非暂态计算机可读存储介质
CN115033390B (zh) 一种负载均衡的方法及装置
CN114338169B (zh) 请求处理方法、装置、服务器及计算机可读存储介质
CN116501450B (zh) 翻译控制方法、二进制翻译方法、指令执行方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant