CN111708654A - 一种虚拟机故障修复的方法和设备 - Google Patents

一种虚拟机故障修复的方法和设备 Download PDF

Info

Publication number
CN111708654A
CN111708654A CN202010478771.7A CN202010478771A CN111708654A CN 111708654 A CN111708654 A CN 111708654A CN 202010478771 A CN202010478771 A CN 202010478771A CN 111708654 A CN111708654 A CN 111708654A
Authority
CN
China
Prior art keywords
repair
virtual machine
alarm information
scheme
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010478771.7A
Other languages
English (en)
Inventor
张源升
何万县
王晓通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010478771.7A priority Critical patent/CN111708654A/zh
Publication of CN111708654A publication Critical patent/CN111708654A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种虚拟机故障修复的方法和设备,该方法包括以下步骤:响应于监控到虚拟机故障的告警信息,将告警信息在告警数据库中进行模糊检索;将告警信息与模糊检索得到的多种修复方案进行精准匹配,并使用精准匹配得到的修复方案修复虚拟机;响应于虚拟机修复成功,将精准匹配得到的修复方案进行标记;为带有标记的修复方案建立缓存。通过使用本发明的方案,能够提高虚拟资源的使用率和使用寿命,降低人工运维成本和设备成本,提高生产率。

Description

一种虚拟机故障修复的方法和设备
技术领域
本领域涉及计算机领域,并且更具体地涉及一种虚拟机故障修复的方法和设备。
背景技术
当前的运维现状,大多还停留在人工维护或者软件进行管理但依旧由人工进行排查具体故障并修复的阶段。由于资源数量众多,人工维护的效率有限,导致资源的使用寿命和使用效率下降,造成资源使用成本上升。因此如何提高资源的维护效率、提高资源的使用率和使用寿命就是一个需要面临解决的问题。
发明内容
有鉴于此,本发明实施例的目的在于提出一种虚拟机故障修复的方法和设备,通过使用本发明的方法,能够提高虚拟资源的使用率和使用寿命,降低人工运维成本和设备成本,提高生产率。
基于上述目的,本发明的实施例的一个方面提供了一种虚拟机故障修复的方法,包括以下步骤:
响应于监控到虚拟机故障的告警信息,将告警信息在告警数据库中进行模糊检索;
将告警信息与模糊检索得到的多种修复方案进行精准匹配,并使用精准匹配得到的修复方案修复虚拟机;
响应于虚拟机修复成功,将精准匹配得到的修复方案进行标记;
为带有标记的修复方案建立缓存。
根据本发明的一个实施例,将所述告警信息与所述模糊检索得到的多种修复方案进行精准匹配还包括:
将模糊检索得到的不同方案利用机器学习算法对不同方案进行训练以得到唯一的修复方案。
根据本发明的一个实施例,还包括:
响应于监控到虚拟机故障的告警信息,将告警信息发送给运维人员。
根据本发明的一个实施例,还包括:
响应于精准匹配得到的修复方案不能修复虚拟机,将修复方案发送到运维人员并进行标记;
在修复虚拟机后将对应的修复方案上传到告警数据库中,并将对应的修复方案与告警信息进行关联。
根据本发明的一个实施例,基于告警信息的关键字进行模糊检索,精准匹配为关联规则推荐算法匹配。
本发明的实施例的另一个方面,还提供了一种虚拟机故障修复的设备,设备包括:
检索模块,检索模块配置为响应于监控到虚拟机故障的告警信息,将告警信息在告警数据库中进行模糊检索;
匹配模块,匹配模块配置为将告警信息与模糊检索得到的多种修复方案进行精准匹配,并使用精准匹配得到的修复方案修复虚拟机;
标记模块,标记模块配置为响应于虚拟机修复成功,将精准匹配得到的修复方案进行标记;
缓存模块,缓存模块配置为为带有标记的修复方案建立缓存。
根据本发明的一个实施例,匹配模块进一步配置为将模糊检索得到的不同方案利用机器学习算法对不同方案进行训练以得到唯一的修复方案。
根据本发明的一个实施例,还包括传输模块,传输模块配置为响应于监控到虚拟机故障的告警信息,将告警信息发送给运维人员。
根据本发明的一个实施例,还包括关联模块,关联模块配置为:
响应于精准匹配得到的修复方案不能修复虚拟机,将修复方案发送到运维人员并进行标记;
运维人员修复虚拟机后将对应的修复方案上传到告警数据库中,并将对应的修复方案与告警信息进行关联。
根据本发明的一个实施例,基于告警信息的关键字进行模糊检索,精准匹配为关联规则推荐算法匹配。
本发明具有以下有益技术效果:本发明实施例提供的虚拟机故障修复的方法,通过响应于监控到虚拟机故障的告警信息,将告警信息在告警数据库中进行模糊检索;将告警信息与模糊检索得到的多种修复方案进行精准匹配,并使用精准匹配得到的修复方案修复虚拟机;响应于虚拟机修复成功,将精准匹配得到的修复方案进行标记;为带有标记的修复方案建立缓存的技术方案,能够提高虚拟资源的使用率和使用寿命,降低人工运维成本和设备成本,提高生产率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明一个实施例的虚拟机故障修复的方法的示意性流程图;
图2为根据本发明一个实施例的虚拟机故障修复的设备的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例的第一个方面,提出了一种虚拟机故障修复的方法的一个实施例。图1示出的是该方法的示意性流程图。
如图1中所示,该方法可以包括以下步骤:
S1响应于监控到虚拟机故障的告警信息,将告警信息在告警数据库中进行模糊检索,运维人员可以通过执行脚本定时任务进行自动监控资源,主要检测虚拟机状态和运行在虚拟机上服务的状态,故障自动修复方案的关键在于告警入库后并不是直接将告警进行上报,而是利用数据库的形式建立告警修复方案库,该数据库采用SQL Server 2005对海量数据进行存储;
S2将告警信息与模糊检索得到的多种修复方案进行精准匹配,并使用精准匹配得到的修复方案修复虚拟机,告警数据库的数据量越来越大后会遇到检索效率低的问题,而检索效率问题直接关系到告警上报是否及时、告警修复效率的问题,因此提高检索效率需要通过建立广泛的索引来提高,利用模糊查询对方案进行检索,再通过精准匹配的方法最终确定一条执行方案;
S3响应于虚拟机修复成功,将精准匹配得到的修复方案进行标记;
S4为带有标记的修复方案建立缓存,可以更好的提高检索效率。
本发明包括资源监控、资源修复和信息反馈。运维人员可以通过管理平台统一对资源进行查看、操作。对于虚拟资源在运行过程中产生的故障、告警等问题,运维人员可通过管理平台第一时间知晓。对于部分故障原因,管理平台在上报给运维人员信息的同时触发自动修复功能对资源进行主动修复。
通过本发明的技术方案,能够提高虚拟资源的使用率和使用寿命,降低人工运维成本和设备成本,提高生产率。
在本发明的一个优选实施例中,将告警信息与模糊检索得到的多种修复方案进行精准匹配还包括:
将模糊检索得到的不同方案利用机器学习算法对不同方案进行训练以得到唯一的修复方案。
通过建立告警数据库的方式,对运维的操作不断进行积累,对执行后服务恢复正常的方案进行标记,同时对执行后服务无法恢复正常的方案进行标记并降低其优先级,避免下次在相同问题出现时执行到不可行的方案。对于查询到的不同方案,利用机器学习算法对其进行训练,这个训练过程需要在脱离正式业务的环境中进行。即在测试的环境中进行训练最终达到的效果是:告警修复方案库中的每一条方案都唯一对应一个问题且是该问题的最佳修复方案。达到该效果后将告警修复方案库导入正常运维的业务中,实现自动化运维。
在本发明的一个优选实施例中,还包括:
响应于监控到虚拟机故障的告警信息,将告警信息发送给运维人员。运维人员需要第一时间了解告警情况,并对后续的修复情况进行监控。
在本发明的一个优选实施例中,还包括:
响应于精准匹配得到的修复方案不能修复虚拟机,将修复方案发送到运维人员并进行标记;
在修复虚拟机后将对应的修复方案上传到告警数据库中,并将对应的修复方案与告警信息进行关联。对于无法在告警修复方案库中找到的情况,该***会上报告警至运维人员处并进行标记,标记的目的是在下次遇到相同告警时可以提高检索效率,从而使告警上报更加及时和准确。当该方案被运维人员实现后,可以录入到告警修复方案库中。
在本发明的一个优选实施例中,基于告警信息的关键字进行模糊检索。
以虚拟机的磁盘超阈值告警为例,当获取到虚拟机磁盘超过阈值后触发告警后,将该告警存入数据库,同时根据“磁盘超阈值”关键字在告警修复方案库中进行模糊查询。根据关键字模糊查询后若结果为空,则直接上报告警给运维人员。若结果为单个则生成该方案的可执行指令进行自动修复。若结果为多个,可以利用关联规则推荐算法(Association Rule Based Recommendaion)对所查询到的多个结果进行处理并排序。关联规则就是通过对数据的挖掘和分析,找出数据与数据之间的关联性。即先将“磁盘超阈值”所有匹配到的数据找出并进行分析,开始计算关联规则支持度。在得出关联性后计算关联规则的置信度。最后分析关联规则的提升度,最终判断关联规则推荐效果就依据关联规则的提升度,这个提升度同时依赖该方案是否可执行,执行后是否恢复服务的结果。
通过本发明的技术方案,能够提高虚拟资源的使用率和使用寿命,降低人工运维成本和设备成本,提高生产率。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
基于上述目的,本发明的实施例的第二个方面,提出了一种虚拟机故障修复的设备,如图2所示,设备200包括:
检索模块,检索模块配置为响应于监控到虚拟机故障的告警信息,将告警信息在告警数据库中进行模糊检索;
匹配模块,匹配模块配置为将告警信息与模糊检索得到的多种修复方案进行精准匹配,并使用精准匹配得到的修复方案修复虚拟机;
标记模块,标记模块配置为响应于虚拟机修复成功,将精准匹配得到的修复方案进行标记;
缓存模块,缓存模块配置为为带有标记的修复方案建立缓存。
在本发明的一个优选实施例中,匹配模块进一步配置为将模糊检索得到的不同方案利用机器学习算法对不同方案进行训练以得到唯一的修复方案。
在本发明的一个优选实施例中,还包括传输模块,传输模块配置为响应于监控到虚拟机故障的告警信息,将告警信息发送给运维人员。
在本发明的一个优选实施例中,还包括关联模块,关联模块配置为:
响应于精准匹配得到的修复方案不能修复虚拟机,将修复方案发送到运维人员并进行标记;
在修复虚拟机后将对应的修复方案上传到告警数据库中,并将对应的修复方案与告警信息进行关联。
在本发明的一个优选实施例中,基于告警信息的关键字进行模糊检索。
需要特别指出的是,上述***的实施例采用了上述方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到上述方法的其他实施例中。
此外,上述方法步骤以及***单元或模块也可以利用控制器以及用于存储使得控制器实现上述步骤或单元或模块功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个***的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
上述实施例,特别是任何“优选”实施例是实现的可能示例,并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。

Claims (10)

1.一种虚拟机故障修复的方法,其特征在于,包括以下步骤:
响应于监控到所述虚拟机故障的告警信息,将所述告警信息在告警数据库中进行模糊检索;
将所述告警信息与所述模糊检索得到的多种修复方案进行精准匹配,并使用所述精准匹配得到的修复方案修复所述虚拟机;
响应于所述虚拟机修复成功,将所述精准匹配得到的修复方案进行标记;
为带有所述标记的修复方案建立缓存。
2.根据权利要求1所述的方法,其特征在于,将所述告警信息与所述模糊检索得到的多种修复方案进行精准匹配还包括:
将所述模糊检索得到的不同方案利用机器学习算法对所述不同方案进行训练以得到唯一的修复方案。
3.根据权利要求1所述的方法,其特征在于,还包括:
响应于监控到所述虚拟机故障的告警信息,将所述告警信息发送给运维人员。
4.根据权利要求1所述的方法,其特征在于,还包括:
响应于所述精准匹配得到的修复方案不能修复所述虚拟机,将所述修复方案发送到所述运维人员并进行标记;
在修复所述虚拟机后将对应的修复方案上传到所述告警数据库中,并将所述对应的修复方案与告警信息进行关联。
5.根据权利要求1所述的方法,其特征在于,基于所述告警信息的关键字进行模糊检索,所述精准匹配为关联规则推荐算法匹配。
6.一种虚拟机故障修复的设备,其特征在于,所述设备包括:
检索模块,所述检索模块配置为响应于监控到所述虚拟机故障的告警信息,将所述告警信息在告警数据库中进行模糊检索;
匹配模块,所述匹配模块配置为将所述告警信息与所述模糊检索得到的多种修复方案进行精准匹配,并使用所述精准匹配得到的修复方案修复所述虚拟机;
标记模块,所述标记模块配置为响应于所述虚拟机修复成功,将所述精准匹配得到的修复方案进行标记;
缓存模块,所述缓存模块配置为为带有所述标记的修复方案建立缓存。
7.根据权利要求6所述的设备,其特征在于,所述匹配模块进一步配置为将所述模糊检索得到的不同方案利用机器学习算法对所述不同方案进行训练以得到唯一的修复方案。
8.根据权利要求6所述的设备,其特征在于,还包括传输模块,所述传输模块配置为响应于监控到所述虚拟机故障的告警信息,将所述告警信息发送给运维人员。
9.根据权利要求6所述的设备,其特征在于,还包括关联模块,所述关联模块配置为:
响应于所述精准匹配得到的修复方案不能修复所述虚拟机,将所述修复方案发送到所述运维人员并进行标记;
在修复所述虚拟机后将对应的修复方案上传到所述告警数据库中,并将所述对应的修复方案与告警信息进行关联。
10.根据权利要求6所述的设备,其特征在于,基于所述告警信息的关键字进行模糊检索,所述精准匹配为关联规则推荐算法匹配。
CN202010478771.7A 2020-05-29 2020-05-29 一种虚拟机故障修复的方法和设备 Withdrawn CN111708654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010478771.7A CN111708654A (zh) 2020-05-29 2020-05-29 一种虚拟机故障修复的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010478771.7A CN111708654A (zh) 2020-05-29 2020-05-29 一种虚拟机故障修复的方法和设备

Publications (1)

Publication Number Publication Date
CN111708654A true CN111708654A (zh) 2020-09-25

Family

ID=72538464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010478771.7A Withdrawn CN111708654A (zh) 2020-05-29 2020-05-29 一种虚拟机故障修复的方法和设备

Country Status (1)

Country Link
CN (1) CN111708654A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112816240A (zh) * 2021-02-20 2021-05-18 格力电器(合肥)有限公司 暖通设备的故障识别方法、装置、设备和存储介质
CN113179180A (zh) * 2021-04-23 2021-07-27 杭州安恒信息技术股份有限公司 一种玄武盾客户端灾难故障修复方法、装置和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112816240A (zh) * 2021-02-20 2021-05-18 格力电器(合肥)有限公司 暖通设备的故障识别方法、装置、设备和存储介质
CN112816240B (zh) * 2021-02-20 2023-08-15 格力电器(合肥)有限公司 暖通设备的故障识别方法、装置、设备和存储介质
CN113179180A (zh) * 2021-04-23 2021-07-27 杭州安恒信息技术股份有限公司 一种玄武盾客户端灾难故障修复方法、装置和存储介质

Similar Documents

Publication Publication Date Title
CN111209131B (zh) 一种基于机器学习确定异构***的故障的方法和***
KR102483025B1 (ko) 운영 유지 시스템 및 방법
US7467145B1 (en) System and method for analyzing processes
US20190361759A1 (en) System and method to identify failed points of network impacts in real time
CN113935497A (zh) 智能运维故障处理方法、装置、设备及其存储介质
US10489711B1 (en) Method and apparatus for predictive behavioral analytics for IT operations
CN110806743A (zh) 基于人工智能的设备故障检测与预警***及方法
CN112686402A (zh) 一种日常巡检与智慧运维管理平台结合的方法
KR20190021560A (ko) 빅데이터를 활용한 고장예지보전시스템 및 고장예지보전방법
CN112380089A (zh) 一种数据中心监控预警方法及***
CN111290900A (zh) 一种基于微服务日志的软件故障检测方法
EP3207432A1 (en) A method for managing subsystems of a process plant using a distributed control system
CN111708654A (zh) 一种虚拟机故障修复的方法和设备
EP3885854B1 (en) Data analysis method, device and system
CN109062723A (zh) 服务器故障的处理方法和装置
US11263072B2 (en) Recovery of application from error
CN115421950B (zh) 一种基于机器学习的自动化***运维管理方法及***
CN113468022B (zh) 一种对产品集中监控的自动化运维方法
CN112966056B (zh) 一种信息处理方法、装置、设备、***及可读存储介质
CN112988843B (zh) 一种基于SQL Server数据库的SMT贴片机故障管理及诊断***
CN111858352B (zh) 自动化测试监控的方法、装置、设备及存储介质
CN117194154A (zh) 一种基于微服务的apm全链路监控***及方法
JP2009245154A (ja) シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
CN115185792A (zh) 故障硬件处理方法、装置和***
CN115903720A (zh) 用于轨道交通的故障诊断***及方法和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200925

WW01 Invention patent application withdrawn after publication