CN112579383A - 模拟***故障的方法及装置 - Google Patents

模拟***故障的方法及装置 Download PDF

Info

Publication number
CN112579383A
CN112579383A CN201910944656.1A CN201910944656A CN112579383A CN 112579383 A CN112579383 A CN 112579383A CN 201910944656 A CN201910944656 A CN 201910944656A CN 112579383 A CN112579383 A CN 112579383A
Authority
CN
China
Prior art keywords
data
fault
cluster
shadow cluster
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910944656.1A
Other languages
English (en)
Inventor
郭俊民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201910944656.1A priority Critical patent/CN112579383A/zh
Publication of CN112579383A publication Critical patent/CN112579383A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/261Functional testing by simulating additional hardware, e.g. fault simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种模拟***故障的方法及装置。其中,该方法包括:获取***的线上数据,所述线上数据包括外部设备与所述***的交互数据;将所述线上数据映射到影子集群中,得到检测数据;按照预设规则对所述检测数据进行修改,得到模拟数据;利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障。本申请解决了现有技术中,通过人工设置故障进行故障演练的方式,较浪费时间,故障演练效率较低的技术问题。

Description

模拟***故障的方法及装置
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种模拟***故障的方法及装置。
背景技术
目前,任何一个业务***想做到不出现故障是不可能的,故障无法避免,因此,“故障模拟演练”应运而生。
现有技术中的故障演练方式为:运维工程师通过SSH(Secure Shell,安全外壳协议)或telnet的方式登录服务器,登录服务器后按预先制定的方案手动停止服务实例,创造故障;故障处理完成后人工做相关记录,并最终由人工制作编写故障演练总结报告;演练结束后,运维工程师通过SSH或telnet的方式登录服务器将停掉的服务恢复。
现有技术中的故障演练中的故障需要逐一通过手工模拟,无法通过组合的形式出现,场景设计受限;如果演练结束后,有遗漏的故障没有进行恢复,那势必会对业务***可用性造成影响;故障均需手工操作模拟,效率低,导致演练整体进度缓慢,节奏拖沓。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种模拟***故障的方法及装置,以至少解决现有技术中,通过人工设置故障进行故障演练的方式,较浪费时间,故障演练效率较低的技术问题。
根据本申请实施例的一个方面,提供了一种模拟***故障的方法,包括:获取***的线上数据,所述线上数据包括外部设备与所述***的交互数据;将所述线上数据映射到影子集群中,得到检测数据;按照预设规则对所述检测数据进行修改,得到模拟数据;利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障。
可选地,按照预设规则对所述检测数据进行修改包括:增大和/或减少所述检测数据中预设节点对应的运行数据的流量,所述预设节点包括以下至少之一:数据库、外部接口、缓存、应用程序。
可选地,通过复制将客户端设备上的所述***的线上数据映射到所述影子集群中,其中,所述影子集群为镜像所述***后的集群数据或设备群。
可选地,增大所述检测数据中预设节点对应的运行数据的流量之后,所述方法还包括:若利用所述模拟数据在所述影子集群中进行测试时,测试结果指示所述影子集群故障,则获取对应所述预设节点的降级方案。
可选地,在将所述线上数据映射到影子集群中,得到检测数据之后,所述方法还包括:基于所述检测数据对所述影子集群进行压力测试,获取所述影子集群的抗压极值,其中,所述抗压极值用于表征所述影子集群承受的所述压力测试上限值。
可选地,利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障之后,所述方法还包括:记录故障测试的报告,并将所述影子集群中由于故障而停掉的服务进行自动恢复。
根据本申请实施例的一个方面,提供了一种模拟***故障的装置,包括:获取模块,用于获取***的线上数据,所述线上数据包括外部设备与所述***的交互数据;映射模块,用于将所述线上数据映射到影子集群中,得到检测数据;修改模块,用于按照预设规则对所述检测数据进行修改,得到模拟数据;测试模块,用于利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障。
可选地,按照预设规则对所述检测数据进行修改包括:增大和/或减少所述检测数据中预设节点对应的运行数据的流量,所述预设节点包括以下至少之一:数据库、外部接口、缓存、应用程序。
根据本申请实施例的一个方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的模拟***故障的方法。
根据本申请实施例的一个方面,提供了一种电子设备,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行权利要求1至6中任意一项所述的模拟***故障的方法。
在本申请实施例中,采用获取***的线上数据,所述线上数据包括外部设备与所述***的交互数据;将所述线上数据映射到影子集群中,得到检测数据;按照预设规则对所述检测数据进行修改,得到模拟数据;利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障的方式,通过将***的线上数据映射至影子集群,在影子集群中进行测故障演练,实现了自动在影子集群实现故障演练,避免人工参与演练,提高故障演练速度,提高故障演练效率的技术效果,进而解决了现有技术中,通过人工设置故障进行故障演练的方式,较浪费时间,故障演练效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的模拟***故障的方法的流程示意图;
图2是根据本申请实施例的一种可选的模拟***故障的装置的结构示意图;
图3是根据本申请实施例的一种可选的模拟***故障的装置的结构示意图;
图4是根据本申请实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种模拟***故障的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的模拟***故障的方法的流程示意图,如图1所示,该方法至少包括如下步骤:
步骤S102,获取***的线上数据,所述线上数据包括外部设备与所述***的交互数据;
可选地,上述***可以为服务器,外部设备可以为移动终端,也可以为计算机终端。
步骤S104,将所述线上数据映射到影子集群中,得到检测数据;
可选地,将线上数据映射到影子集群中的映射过程可以为复制过程。可通过复制将客户端设备上的所述***的线上数据映射到所述影子集群中,其中,所述影子集群为镜像所述***后的集群数据或设备群。其中,检测数据中为影子集群中与线上数据相同的数据。
步骤S106,按照预设规则对所述检测数据进行修改,得到模拟数据;
可选地,模拟数据可以为用于制造故障的数据。
步骤S108,利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障。
可选地,故障类型可以为:影子集群异常关闭,影子集群中预设节点的网络丢包、网络延迟,以及某些服务不可用等。
在本申请的一些可选的实施例中,按照预设规则对所述检测数据进行修改可以通过以下方式进行实现:增大和/或减少所述检测数据中预设节点对应的运行数据的流量,所述预设节点包括以下至少之一:数据库、外部接口、缓存、应用程序。
可选地,数据库对应的数据,可以为影子集群中其他模块与数据库进行交互的数据,外部接口对应的数据可以为影子集群与外部设备进行交互时的数据,缓存对应的数据,可以为缓存中存储的数据,应用程序对应的数据可以为影子集群中应用程序正常运行时的相关参数。
可选地,增大所述检测数据中预设节点对应的运行数据的流量之后,所述方法还需执行以下步骤:若利用所述模拟数据在所述影子集群中进行测试时,测试结果指示所述影子集群故障,则获取对应所述预设节点的降级方案。
在本申请的一些可选的实时例中,降级方案可以存储于影子集群中,或者存储于与影子集群连接的其他设备中,当检测到由于预设节点对应的运行数据的流量过大而导致影子集群故障时,可直接获取与预设节点对应的降级方案。
可选地,获取对应所述预设节点的降级方案之后,可对降级方案是否能解决对应的影子集群故障,若能,则对可解决对应的影子集群故障的方案进行存储,并可将可解决对应的影子集群故障的方案发送至管理员终端,供管理员查看。
可选地,在将所述线上数据映射到影子集群中,得到检测数据之后,所述方法还需执行以下步骤:基于所述检测数据对所述影子集群进行压力测试,获取所述影子集群的抗压极值,其中,所述抗压极值用于表征所述影子集群承受的所述压力测试上限值。
可选地,按照预设规则对所述检测数据进行修改还可以为:增大和/或减少所述检测数据的总流量。
在本申请的一些可选的实施例中,检测数据可用于模拟高流量,例如:可以对检测数据进行一次或多次复制,得到流量值为原线上数据的流量值的数倍的模拟数据。
可选地,抗压极值的获取有利于使用户知晓原***对数据的承载量,有利于合理安排用于处理线上数据的数据处理设备的数目。
可选地,利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障之后,所述方法还需执行以下步骤:记录故障测试的报告,并将所述影子集群中由于故障而停掉的服务进行自动恢复。
在本申请的一些可选的实施例中,故障测试的报告可以包括以下至少之一:故障发生时模拟数据的流量、故障发生的时间、发生故障的节点、故障类型、解决故障的降级方案。
本申请的方案摆脱了全流程人工操作所带来的低效率,解决了遗漏恢复故障的问题。
在本申请实施例中,采用获取***的线上数据,所述线上数据包括外部设备与所述***的交互数据;将所述线上数据映射到影子集群中,得到检测数据;按照预设规则对所述检测数据进行修改,得到模拟数据;利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障的方式,通过将***的线上数据映射至影子集群,在影子集群中进行测故障演练,实现了自动在影子集群实现故障演练,避免人工参与演练,提高故障演练速度,提高故障演练效率的技术效果,进而解决了现有技术中,通过人工设置故障进行故障演练的方式,较浪费时间,故障演练效率较低的技术问题。
图2是根据本申请实施例的模拟***故障装置的结构示意图,如图2所示,该装置至少包括生产过程模块22、应用程序模块222、数据库模块224、缓存模块226、影子集群模块24、模拟应用程序模块242;模拟数据库模块244;模拟缓存模块246;其中:
生产过程模块22;
可选地,该生产过程模块22中需包括数据的每秒查询率和/或线上数据,该生产过程模块22可以位于服务器中;
可选地,所述线上数据包括外部设备与***的交互数据,***可以为服务器。
生产过程模块22可包括:应用程序模块222、数据库模块224、缓存模块226;
其中,预设节点还可以为外部接口。
在故障演练过程中,需将生产过程中的线上数据复制至影子集群,即将生产过程模块22中的线上数据复制至影子集群模块24中。
可选地,将线上数据映射到影子集群模块24中后,得到检测数据。
可选地,影子集群模块24可以为与生产过程模块22的功能相同的设备群。
可选地,将生产过程模块22中的线上数据复制至影子集群模块24中之后,可按照预设规则对所述检测数据进行修改,得到模拟数据;然后利用所述模拟数据在所述影子集群模块24中进行测试,确定是否导致故障。
可选地,故障类型可以为:影子集群模块24异常关闭,影子集群模块24中预设节点的网络丢包、网络延迟,以及某些服务不可用等。
在本申请的一些可选的实施例中,按照预设规则对所述检测数据进行修改可以通过以下方式进行实现:增大和/或减少所述检测数据中预设节点对应的运行数据的流量。
可选地,模拟应用程序模块242、模拟数据库模块244、模拟缓存模块246可以为预设节点。
可选地,模拟数据库模块244对应的数据,可以为影子集群模块24中其他模块与模拟数据库模块244进行交互的数据,外部接口对应的数据可以为影子集群模块24与外部设备进行交互时的数据,模拟缓存模块246对应的数据,可以为缓存中存储的数据,模拟应用程序模块242对应的数据可以为影子集群模块24中应用程序正常运行时的相关参数。
在本申请的一些可选的实施例中,当检测到模拟数据在影子集群模块24中导致故障时,可在影子集群模块24上测试发生故障时的降级方案、进行演练,并将可解决故障的降级方案进行存储和/或输出。
可选地,降级方案可以存储于影子集群模块24中,或者存储于与影子集群模块24连接的其他设备中,当检测到由于预设节点对应的运行数据的流量过大而导致影子集群模块24故障时,可直接获取与预设节点对应的降级方案。
可选地,获取对应所述预设节点的降级方案之后,可对降级方案是否能解决对应的影子集群模块24的故障进行判断,若能,则对可解决对应的影子集群模块24故障的方案进行存储,并可发送至管理员终端,供管理员查看。
可选地,在具体对故障进行演练时,还可将增加每秒查询率,以检测影子集群模块24的抗压极值。
可选地,可基于所述检测数据对所述影子集群模块24进行压力测试,获取所述影子集群模块24的抗压极值,其中,所述抗压极值用于表征所述影子集群模块24承受的所述压力测试上限值。
可选地,按照预设规则对所述检测数据进行修改包括:增大和/或减少所述检测数据的总流量。
在本申请的一些可选的实施例中,检测数据可用于模拟高流量,例如:可以对检测数据进行一次或多次复制,得到流量值为原线上数据的流量值的数倍的模拟数据。
可选地,抗压极值的获取有利于使用户知晓原***对数据的承载量,有利于合理安排用于处理线上数据的数据处理设备的数目。
可选地,影子集群模块24中的模拟应用程序模块242;模拟数据库模块244;模拟缓存模块246分别与生产过程模块22中的应用程序模块222、数据库模块224、缓存模块226对应。
可选地,影子集群模块24中的模拟应用程序模块242;模拟数据库模块244;模拟缓存模块246分别为生产过程模块22中的应用程序模块222、数据库模块224、缓存模块226的镜像。
可选地,利用所述模拟数据在所述影子集群模块24中进行测试,确定是否导致故障之后,还需记录故障测试的报告,并将所述影子集群模块24中由于故障而停掉的服务进行自动恢复。
在本申请的一些可选的实施例中,故障测试的报告可以包括以下至少之一:故障发生时模拟数据的流量、故障发生的时间、发生故障的节点、故障类型、解决故障的降级方案。
本申请的方案摆脱了全流程人工操作所带来的低效率,解决了遗漏恢复故障的问题。
其次,本申请的方案有利于容量规划,即在已知服务器的抗压极值的条件下,可在稳定与性能保证的基础上尽可能的节约资源;有利于核心链路梳理,强弱依赖区分,并做到服务之间松耦合,可具体至不同的故障发生节点,查找不同故障的解决方案;有利于查找***瓶颈,在真实请求流量加倍下暴露服务的具体瓶颈点,即具体的故障节点;各个模块之间可实现故障独立,可实现不同模块的容灾降级演练等等。
根据本申请实施例,还提供了一种用于实施上述模拟***故障的方法的模拟***故障的装置,如图3所示,该装置包括:获取模块32、映射模块34、修改模块36、测试模块38;其中:
获取模块32,用于获取***的线上数据,所述线上数据包括外部设备与所述***的交互数据;
映射模块34,用于将所述线上数据映射到影子集群中,得到检测数据;
修改模块36,用于按照预设规则对所述检测数据进行修改,得到模拟数据;
测试模块38,用于利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障。
可选地,按照预设规则对所述检测数据进行修改包括:增大和/或减少所述检测数据中预设节点对应的运行数据的流量,所述预设节点包括以下至少之一:数据库、外部接口、缓存、应用程序。
可选地,通过复制将客户端设备上的所述***的线上数据映射到所述影子集群中,其中,所述影子集群为镜像所述***后的集群数据或设备群。
可选地,增大所述检测数据中预设节点对应的运行数据的流量之后,所述装置还用于:若利用所述模拟数据在所述影子集群中进行测试时,测试结果指示所述影子集群故障,则获取对应所述预设节点的降级方案。
可选地,在将所述线上数据映射到影子集群中,得到检测数据之后,所述装置还用于:基于所述检测数据对所述影子集群进行压力测试,获取所述影子集群的抗压极值,其中,所述抗压极值用于表征所述影子集群承受的所述压力测试上限值。
可选地,利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障之后,所述装置还用于:记录故障测试的报告,并将所述影子集群中由于故障而停掉的服务进行自动恢复。
需要说明的是,图3所示实施例的优选实施方式可以参见图1所示实施例的相关描述,此处不再赘述。
所述模拟***故障的装置包括处理器和存储器,上述获取模块32、映射模块34、修改模块36、测试模块38等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决现有技术中,通过人工设置故障进行故障演练的方式,较浪费时间,故障演练效率较低的技术问题。
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述模拟***故障的方法。
本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述模拟***故障的方法。
本申请实施例提供了一种电子设备的结构图,如图4所示,该电子设备包括至少一个处理器401、以及与处理器401连接的至少一个存储器402、总线403;其中,处理器401、存储器402通过总线403完成相互间的通信;处理器401用于调用存储器402中的程序指令,以执行上述的模拟***故障的方法。本文中的电子设备40可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取***的线上数据,所述线上数据包括外部设备与所述***的交互数据;将所述线上数据映射到影子集群中,得到检测数据;按照预设规则对所述检测数据进行修改,得到模拟数据;利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障。
可选地,按照预设规则对所述检测数据进行修改包括:增大和/或减少所述检测数据中预设节点对应的运行数据的流量,所述预设节点包括以下至少之一:数据库、外部接口、缓存、应用程序。
可选地,通过复制将客户端设备上的所述***的线上数据映射到所述影子集群中,其中,所述影子集群为镜像所述***后的集群数据或设备群。
可选地,增大所述检测数据中预设节点对应的运行数据的流量之后,若利用所述模拟数据在所述影子集群中进行测试时,测试结果指示所述影子集群故障,则获取对应所述预设节点的降级方案。
可选地,在将所述线上数据映射到影子集群中,得到检测数据之后,基于所述检测数据对所述影子集群进行压力测试,获取所述影子集群的抗压极值,其中,所述抗压极值用于表征所述影子集群承受的所述压力测试上限值。
可选地,利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障之后,记录故障测试的报告,并将所述影子集群中由于故障而停掉的服务进行自动恢复。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种模拟***故障的方法,其特征在于,包括:
获取***的线上数据,所述线上数据包括外部设备与所述***的交互数据;
将所述线上数据映射到影子集群中,得到检测数据;
按照预设规则对所述检测数据进行修改,得到模拟数据;
利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障。
2.根据权利要求1所述的方法,其特征在于,按照预设规则对所述检测数据进行修改包括:
增大和/或减少所述检测数据中预设节点对应的运行数据的流量,所述预设节点包括以下至少之一:数据库、外部接口、缓存、应用程序。
3.根据权利要求1所述的方法,其特征在于,通过复制将客户端设备上的所述***的线上数据映射到所述影子集群中,其中,所述影子集群为镜像所述***后的集群数据或设备群。
4.根据权利要求3所述的方法,其特征在于,增大所述检测数据中预设节点对应的运行数据的流量之后,所述方法还包括:
若利用所述模拟数据在所述影子集群中进行测试时,测试结果指示所述影子集群故障,则获取对应所述预设节点的降级方案。
5.根据权利要求1所述的方法,其特征在于,在将所述线上数据映射到影子集群中,得到检测数据之后,所述方法还包括:
基于所述检测数据对所述影子集群进行压力测试,获取所述影子集群的抗压极值,其中,所述抗压极值用于表征所述影子集群承受的所述压力测试上限值。
6.根据权利要求1所述的方法,其特征在于,利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障之后,所述方法还包括:
记录故障测试的报告,并将所述影子集群中由于故障而停掉的服务进行自动恢复。
7.一种模拟***故障的装置,其特征在于,包括:
获取模块,用于获取***的线上数据,所述线上数据包括外部设备与所述***的交互数据;
映射模块,用于将所述线上数据映射到影子集群中,得到检测数据;
修改模块,用于按照预设规则对所述检测数据进行修改,得到模拟数据;
测试模块,用于利用所述模拟数据在所述影子集群中进行测试,确定是否导致故障。
8.根据权利要求7所述的装置,其特征在于,按照预设规则对所述检测数据进行修改包括:
增大和/或减少所述检测数据中预设节点对应的运行数据的流量,所述预设节点包括以下至少之一:数据库、外部接口、缓存、应用程序。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的模拟***故障的方法。
10.一种电子设备,其特征在于,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行权利要求1至6中任意一项所述的模拟***故障的方法。
CN201910944656.1A 2019-09-30 2019-09-30 模拟***故障的方法及装置 Pending CN112579383A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910944656.1A CN112579383A (zh) 2019-09-30 2019-09-30 模拟***故障的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910944656.1A CN112579383A (zh) 2019-09-30 2019-09-30 模拟***故障的方法及装置

Publications (1)

Publication Number Publication Date
CN112579383A true CN112579383A (zh) 2021-03-30

Family

ID=75117321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910944656.1A Pending CN112579383A (zh) 2019-09-30 2019-09-30 模拟***故障的方法及装置

Country Status (1)

Country Link
CN (1) CN112579383A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205210A (zh) * 2021-12-14 2022-03-18 北京字节跳动网络技术有限公司 一种故障演练方法、装置、电子设备及储存介质
CN115081410A (zh) * 2022-07-19 2022-09-20 中电金信软件有限公司 一种实验报告的自动生成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778123A (zh) * 2015-03-30 2015-07-15 微梦创科网络科技(中国)有限公司 一种检测***性能的方法及装置
CN106934554A (zh) * 2017-03-20 2017-07-07 广东电网有限责任公司电力调度控制中心 一种智能调度自动化***中镜像***的实现方法及装置
CN107026760A (zh) * 2017-05-03 2017-08-08 联想(北京)有限公司 一种故障修复方法及监控节点
CN107659595A (zh) * 2016-07-25 2018-02-02 阿里巴巴集团控股有限公司 一种评估分布式集群处理指定业务的能力的方法和装置
US20190131784A1 (en) * 2017-10-27 2019-05-02 Operation Technology Incorporated Model driven estimation of faulted area in electric distribution systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778123A (zh) * 2015-03-30 2015-07-15 微梦创科网络科技(中国)有限公司 一种检测***性能的方法及装置
CN107659595A (zh) * 2016-07-25 2018-02-02 阿里巴巴集团控股有限公司 一种评估分布式集群处理指定业务的能力的方法和装置
CN106934554A (zh) * 2017-03-20 2017-07-07 广东电网有限责任公司电力调度控制中心 一种智能调度自动化***中镜像***的实现方法及装置
CN107026760A (zh) * 2017-05-03 2017-08-08 联想(北京)有限公司 一种故障修复方法及监控节点
US20190131784A1 (en) * 2017-10-27 2019-05-02 Operation Technology Incorporated Model driven estimation of faulted area in electric distribution systems

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205210A (zh) * 2021-12-14 2022-03-18 北京字节跳动网络技术有限公司 一种故障演练方法、装置、电子设备及储存介质
CN114205210B (zh) * 2021-12-14 2024-06-18 抖音视界有限公司 一种故障演练方法、装置、电子设备及储存介质
CN115081410A (zh) * 2022-07-19 2022-09-20 中电金信软件有限公司 一种实验报告的自动生成方法及装置

Similar Documents

Publication Publication Date Title
US10649838B2 (en) Automatic correlation of dynamic system events within computing devices
US10824372B2 (en) Data recovery method and device, and cloud storage system
CN110955550B (zh) 一种云平台故障定位方法、装置、设备及存储介质
CN110309130A (zh) 一种用于主机性能监控的方法及装置
CN102355368B (zh) 一种网络设备的故障处理方法及***
CN105095052B (zh) Soa环境下的故障检测方法及装置
CN108628717A (zh) 一种数据库***及监控方法
CN103812699A (zh) 基于云计算的监控管理***
CN110377459A (zh) 一种容灾***、容灾处理方法、监控节点和备份集群
CN110750458A (zh) 大数据平台测试方法、装置、可读存储介质及电子设备
CN105589782A (zh) 基于浏览器的用户行为采集方法
CN113626238B (zh) ctdb服务健康状态监控方法、***、装置及存储介质
CN109039787A (zh) 日志处理方法、装置及大数据集群
CN107102928A (zh) 一种应用程序崩溃信息上报方法和装置
CN112579383A (zh) 模拟***故障的方法及装置
CN106878038A (zh) 一种通信网络中故障定位方法及装置
CN116560889A (zh) 数据链路的管理方法、装置、计算机设备及存储介质
CN108647118A (zh) 基于存储集群的副本异常恢复方法、装置及计算机设备
CN109962823B (zh) 一种网络应用场景的自动化测试***及方法
CN114675791A (zh) 一种磁盘处理方法、***及电子设备
CN104407806B (zh) 独立磁盘冗余阵列组硬盘信息的修改方法和装置
CN117493179A (zh) 流量录制回放方法、装置、存储介质及电子设备
CN116566873A (zh) 一种基于elk的自动化日志分析方法、***及存储介质
CN111694752B (zh) 应用测试方法、电子设备及存储介质
CN115240759A (zh) 一种固态硬盘检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination