CN115344437A - 容灾切换方法、装置、电子设备及存储介质 - Google Patents

容灾切换方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115344437A
CN115344437A CN202210827826.XA CN202210827826A CN115344437A CN 115344437 A CN115344437 A CN 115344437A CN 202210827826 A CN202210827826 A CN 202210827826A CN 115344437 A CN115344437 A CN 115344437A
Authority
CN
China
Prior art keywords
data node
data
client
accessing
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210827826.XA
Other languages
English (en)
Inventor
郭志强
王世明
韩立伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202210827826.XA priority Critical patent/CN115344437A/zh
Publication of CN115344437A publication Critical patent/CN115344437A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2064Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring while ensuring consistency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2082Data synchronisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明实施例提供了一种容灾切换方法、装置、电子设备及存储介质,所述方法包括:获取各个客户端访问第一数据节点的访问指标数据,其中,所述访问指标数据包括成功次数与失败次数;根据各个所述客户端访问所述第一数据节点的所述访问指标数据,确定所有所述客户端访问所述第一数据节点的故障率;在所述故障率达到预设的故障率阈值的情况下,生成所述第一数据节点对应的失效转移指令;将所述失效转移指令下发至各个所述客户端,以使各个所述客户端根据所述失效转移指令访问第二数据节点。如此各个客户端同一时刻读的数据一致,避免产生脏读的现象。

Description

容灾切换方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种容灾切换方法、装置、电子设备及存储介质。
背景技术
分布式***中,数据节点偶发故障不可避免,为了避免因数据节点偶发故障而导致的数据节点切换情况的发生,通常情况下,由各个客户端各自统计最近一段时间内数据节点的故障率,各个客户端根据各自统计的最近一段时间内数据节点的故障率,以便于决定是否自动切换至其他数据节点。其中,通常情况下,不同数据节点之间通过异步方式保持数据一致性。
由于各个客户端各自统计最近一段时间内数据节点的故障率,故障率统计的时间段可能不一致,故障率统计的也可能不一致,有可能导致同一时刻各个客户端访问不同的数据节点,而由于不同数据节点之间通过异步方式保持数据一致性,不同数据节点之间可能数据不一致,导致各个客户端同一时刻读的数据不一致,产生脏读的现象。
发明内容
为了解决上述由于各个客户端各自统计最近一段时间内数据节点的故障率,故障率统计的时间段可能不一致,故障率统计的也可能不一致,有可能导致同一时刻各个客户端访问不同的数据节点,而由于不同数据节点之间通过异步方式保持数据一致性,不同数据节点之间可能数据不一致,导致各个客户端同一时刻读的数据不一致,产生脏读的现象的技术问题,本发明实施例提供了一种容灾切换方法、装置、电子设备及存储介质。具体技术方案如下:
在本发明实施例的第一方面,首先提供了一种容灾切换方法,所述方法包括:
获取各个客户端访问第一数据节点的访问指标数据,其中,所述访问指标数据包括成功次数与失败次数;
根据各个所述客户端访问所述第一数据节点的所述访问指标数据,确定所有所述客户端访问所述第一数据节点的故障率;
在所述故障率达到预设的故障率阈值的情况下,生成所述第一数据节点对应的失效转移指令;
将所述失效转移指令下发至各个所述客户端,以使各个所述客户端根据所述失效转移指令访问第二数据节点。
在一个可选的实施方式中,所述根据各个所述客户端访问所述第一数据节点的所述访问指标数据,确定所有所述客户端访问所述第一数据节点的故障率,包括:
获取各个所述客户端访问所述第一数据节点的所述成功次数与所述失败次数之和,得到各个所述客户端访问所述第一数据节点的访问次数;
获取各个所述客户端访问所述第一数据节点的所述访问次数之和,得到所有所述客户端访问所述第一数据节点的总访问次数;
获取各个所述客户端访问所述第一数据节点的所述失败次数之和,得到所有所述客户端访问所述第一数据节点的总失败次数;
获取所述总失败次数与所述总访问次数之商,得到所有所述客户端访问所述第一数据节点的故障率。
在一个可选的实施方式中,所述获取各个所述客户端访问所述第一数据节点的所述失败次数之和,得到所有所述客户端访问所述第一数据节点的总失败次数,包括:
确定各个所述客户端访问所述第一数据节点的所述失败次数对应的访问请求;
查找所述访问请求对应的访问失败原因,并判断所述访问失败原因是否是目标原因,所述目标原因包括所述第一数据节点故障;
若所述访问失败原因为所述目标原因,则获取各个所述客户端访问所述第一数据节点的所述失败次数之和,得到所有所述客户端访问所述第一数据节点的总失败次数。
在一个可选的实施方式中,所述获取各个所述客户端访问所述第一数据节点的所述失败次数之和,得到所有所述客户端访问所述第一数据节点的总失败次数,还包括:
若所述访问请求中存在所述访问失败原因非所述目标原因的访问请求,则从各个所述客户端访问所述第一数据节点的所述失败次数中,剔除所述访问失败原因非所述目标原因的访问请求对应的次数;
获取各个所述客户端访问所述第一数据节点的剩余失败次数之和,得到所有所述客户端访问所述第一数据节点的总失败次数。
在一个可选的实施方式中,所述方法还包括:
将禁止写指令下发至各个所述客户端,以使各个所述客户端根据所述禁止写指令,禁止写操作;
监测同步队列中的待同步数据,其中,所述同步队列用于实现所述第一数据节点与所述第二数据节点之间的数据同步;
若所述同步队列中的待同步数据满足预设要求,将恢复写指令下发至各个所述客户端,以使各个所述客户端根据所述恢复写指令,恢复写操作。
在一个可选的实施方式中,所述若所述同步队列中的待同步数据满足预设要求,将恢复写指令下发至各个所述客户端,以使各个所述客户端根据所述恢复写指令,恢复写操作,包括:
若所述同步队列中的待同步数据全部同步到所述第二数据节点,将恢复写指令下发至各个所述客户端,以使各个所述客户端根据所述恢复写指令,恢复写操作;
或者,
若所述同步队列的待同步数据中,超过预设比例的待同步数据同步到所述第二数据节点,将恢复写指令下发至各个所述客户端,以使各个所述客户端根据所述恢复写指令,恢复写操作。
在一个可选的实施方式中,所述确定所有所述客户端访问所述第一数据节点的故障率之后,所述方法还包括:
获取所述第一数据节点中数据的数据类别,查找与所述数据类别对应的预设的故障率阈值;
或者,
确定所述第一数据节点中数据的重要程度,查找与所述重要程度对应的预设的故障率阈值。
在本发明实施例的第二方面,还提供了一种容灾切换装置,所述装置包括:
数据获取模块,用于获取各个客户端访问第一数据节点的访问指标数据,其中,所述访问指标数据包括成功次数与失败次数;
故障率确定模块,用于根据各个所述客户端访问所述第一数据节点的所述访问指标数据,确定所有所述客户端访问所述第一数据节点的故障率;
指令生成模块,用于在所述故障率达到预设的故障率阈值的情况下,生成所述第一数据节点对应的失效转移指令;
指令下发模块,用于将所述失效转移指令下发至各个所述客户端,以使各个所述客户端根据所述失效转移指令访问第二数据节点。
在本发明实施例的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的容灾切换方法。
在本发明实施例的第四方面,还提供了一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面中任一所述的容灾切换方法。
在本发明实施例的第五方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的容灾切换方法。
本发明实施例提供的技术方案,获取各个客户端访问第一数据节点的访问指标数据,其中,访问指标数据包括成功次数与失败次数,根据各个客户端访问第一数据节点的访问指标数据,确定所有客户端访问第一数据节点的故障率,在故障率达到预设的故障率阈值的情况下,生成第一数据节点对应的失效转移指令,将失效转移指令下发至各个客户端,以使各个客户端根据失效转移指令访问第二数据节点。如此各个客户端数据节点访问切换的时机不再取决于各个客户端各自统计的第一数据节点的故障率,而是将各个客户端访问第一数据节点的访问指标数据进行汇总,以此确定所有客户端访问第一数据节点的故障率,在故障率达到预设的故障率阈值的情况下,通过失效转移指令以使各个客户端访问第二数据节点,达到各个客户端数据节点访问切换的目的,从而各个客户端同一时刻读的数据一致,避免产生脏读的现象。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中示出的一种容灾切换***的架构示意图;
图2为本发明实施例中示出的一种容灾切换方法的实施流程示意图;
图3为本发明实施例中示出的另一种容灾切换方法的实施流程示意图;
图4为本发明实施例中示出的另一种容灾切换***的架构示意图;
图5为本发明实施例中示出的一种容灾切换装置的结构示意图;
图6为本发明实施例中示出的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例提供的一种容灾切换***的架构示意图,该容灾切换***包括控制中心、多个客户端以及数据节点1和数据节点2,对于数据节点1和数据节点2,可以是两个数据集群,当然也可以是数据集群中的两个实例,本发明实施例对此不作限定。其中,各个客户端初始均访问数据节点1,而对于控制中心而言,可以获取各个客户端访问第一数据节点的访问指标数据,由此将各个客户端访问第一数据节点的访问指标数据进行汇总。
对于控制中心而言,将各个客户端访问第一数据节点的访问指标数据进行汇总之后,可以根据各个客户端访问第一数据节点的访问指标数据,确定所有客户端访问第一数据节点的故障率,在故障率达到预设的故障率阈值的情况下,通过失效转移指令以使各个客户端访问第二数据节点,达到各个客户端数据节点访问切换的目的,从而各个客户端同一时刻读的数据一致,避免产生脏读的现象。
具体地,如图2所示,为本发明实施例提供的一种容灾切换方法的实施流程示意图,该方法应用于上述控制中心,具体可以包括以下步骤:
S201,获取各个客户端访问第一数据节点的访问指标数据,其中,所述访问指标数据包括成功次数与失败次数。
在本发明实施例中,对于各个客户端而言,均访问第一数据节点,访问第一数据节点意味着要对第一数据节点进行读写操作,相应的会产生访问指标数据。其中,访问指标数据包括成功次数与失败次数,表征各个客户端访问第一数据节点,对第一数据节点进行读写操作的成功次数与失败次数。
对于各个客户端而言,可以将各自的访问指标数据投递给控制中心,由控制中心获取各个客户端访问第一数据节点的访问指标数据,从而对各个客户端访问第一数据节点的访问指标数据进行汇总。例如,控制中心对客户端1、客户端2访问Data1的访问数据指标进行汇总。
此外,在本发明实施例中,可以预先设置一个获取周期,例如每间隔1小时,由此控制中心可以周期性的获取各个客户端访问第一数据节点的访问指标数据,从而周期性的对各个客户端访问第一数据节点的访问指标数据进行汇总。
S202,根据各个所述客户端访问所述第一数据节点的所述访问指标数据,确定所有所述客户端访问所述第一数据节点的故障率。
在本发明实施例中,由控制中心对各个客户端访问第一数据节点的访问指标数据进行汇总,从而可以根据各个客户端访问第一数据节点的访问指标数据,确定所有客户端访问第一数据节点的故障率。
具体地,获取各个客户端访问第一数据节点的成功次数与失败次数之和,得到各个客户端访问第一数据节点的访问次数,获取各个客户端访问第一数据节点的访问次数之和,得到所有客户端访问第一数据节点的总访问次数。
获取各个客户端访问第一数据节点的失败次数之和,得到所有客户端访问第一数据节点的总失败次数,如此可以得到所有客户端访问第一数据节点的总访问次数,以及所有客户端访问第一数据节点的总失败次数,获取总失败次数与总访问次数之商,得到所有客户端访问第一数据节点的故障率。
例如,客户端1访问Data1的成功次数98,失败次数2,客户端2访问访问Data1的成功次数98,失败次数2,获取客户端1访问Data1的成功次数与失败次数之和,得到客户端1访问Data1的访问次数100,获取客户端2访问Data1的成功次数与失败次数之和,得到客户端2访问Data1的访问次数100。
获取客户端1、客户端2访问Data1的访问次数之和,得到所有客户端(客户端1、客户端2)访问Data1的总访问次数200,获取客户端1、客户端2访问Data1的失败次数之和,得到所有客户端(客户端1、客户端2)访问Data1的总失败次数4,获取总失败次数与总访问次数之商,得到所有客户端(客户端1、客户端2)访问第一数据节点的故障率2%。
其中,对于各个客户端而言,导致客户端访问第一数据节点失败的原因有多种,例如第一数据节点故障,或者访问第一数据节点时读写的数据不存在,诸如此类。如此各个客户端访问第一数据节点的失败次数,包括因第一数据节点故障而统计的失败次数,也包括因读写的数据不存在而统计的失败次数,导致最终计算的所有客户端访问第一数据节点的故障率有误差,不够精确,因此需要剔除因读写的数据不存在而统计的失败次数,仅仅使用因第一数据节点故障而统计的失败次数来计算所有客户端访问第一数据节点的故障率有误差。
为此,在本发明实施例中,可以确定各个客户端访问第一数据节点的失败次数对应的访问请求,查找访问请求对应的访问失败原因,并判断访问失败原因是否是目标原因,目标原因包括第一数据节点故障,若访问失败原因为目标原因,则获取各个客户端访问第一数据节点的失败次数之和,得到所有客户端访问第一数据节点的总失败次数,从而获取总失败次数与总访问次数之商,得到所有客户端访问第一数据节点的故障率。
例如,确定客户端1、客户端2访问Data1的失败次数对应的访问请求,查找访问请求对应的访问失败原因,并判断访问失败原因是否是目标原因,若访问失败原因为目标原因,则可以说明客户端1、客户端2访问Data1的失败次数,均包括因第一数据节点故障而统计的失败次数,并没有包括因读写的数据不存在而统计的失败次数,从而可以获取客户端1、客户端2访问Data1的失败次数之和,得到所有客户端访问Data1的总失败次数4,获取总失败次数与总访问次数之商,得到所有客户端访问第一数据节点的故障率2%。
此外,对于各个客户端访问第一数据节点的失败次数对应的访问请求,若访问请求中存在访问失败原因非目标原因的访问请求,则从各个客户端访问第一数据节点的失败次数中,剔除访问失败原因非目标原因的访问请求对应的次数,获取各个客户端访问第一数据节点的剩余失败次数之和,得到所有客户端访问第一数据节点的总失败次数,从而获取总失败次数与总访问次数之商,得到所有客户端访问第一数据节点的故障率。
例如,对于客户端1、客户端2访问Data1的失败次数对应的访问请求,若访问请求中存在访问失败原因非目标原因的访问请求,则可以说明客户端1、客户端2访问Data1的失败次数,即包括因第一数据节点故障而统计的失败次数,也包括因读写的数据不存在而统计的失败次数,从而对于客户端1、客户端2访问Data1的失败次数,剔除访问失败原因非目标原因的访问请求对应的次数,获取各个客户端访问第一数据节点的剩余失败次数之和,得到所有客户端访问第一数据节点的总失败次数2,从而获取总失败次数与总访问次数之商,得到所有客户端访问第一数据节点的故障率1%。
另外,对于各个客户端访问第一数据节点的失败次数对应的访问请求,若访问请求对应的访问失败原因非目标原因,则说明各个客户端访问第一数据节点的失败次数,均包括因读写的数据不存在而统计的失败次数,不包括因第一数据节点故障而统计的失败次数,此时可以确定第一数据节点无故障,不再执行后续步骤。
其中,控制中心按照预先设置的获取周期,周期性的对各个客户端访问第一数据节点的访问指标数据进行汇总,从而可以根据各个客户端访问第一数据节点的访问指标数据,周期性的确定所有客户端访问第一数据节点的故障率。
S203,在所述故障率达到预设的故障率阈值的情况下,生成所述第一数据节点对应的失效转移指令。
在本发明实施例中,对于所有客户端访问第一数据节点的故障率,在故障率达到预设的故障率阈值的情况下,此时就需要进行数据节点切换,由此可以生成第一数据节点对应的失效转移指令。
其中,在本发明实施例中,对于故障率阈值的设置,可以参考第一数据节点中数据的数据类别或者重要程度,设置不同的故障率阈值,以便于适应不同场景的需求。
例如,对于Data1中数据的数据类别,假设其为A类,意味着Data1中存储金融数据,对于故障率的要求比较严格,一般设置故障率为1%以下,而如果数据类别为B类,意味着Data1中存储设备运行数据,对于故障率的要求没有那么严格,一般设置故障率为5%以下。
又例如,对于Data1中数据的重要程度,可以根据业务场景划分等级,假设其为A类,代表Data1中存储的数据比较重要,对于故障率的要求比较严格,一般设置故障率为1%以下,而如果其为B类,代表Data1中存储的数据没有那么重要,对于故障率的要求没有那么严格,一般设置故障率为5%以下。
基于此,在本发明中,可以获取第一数据节点中数据的数据类别,查找与数据类别对应的预设的故障率阈值,或者,确定第一数据节点中数据的重要程度,查找与重要程度对应的预设的故障率阈值,在故障率达到预设的故障率阈值的情况下,生成第一数据节点对应的失效转移指令。
S204,将所述失效转移指令下发至各个所述客户端,以使各个所述客户端根据所述失效转移指令访问第二数据节点。
在本发明实施例中,可以将失效转移指令下发至各个客户端,如此各个客户端可以根据失效转移指令访问第二数据节点,如此可以完成数据节点的访问切换,从而各个客户端同一时刻读的数据一致,避免产生脏读的现象。
例如,在本发明实施例中,将failover指令下发至客户端1、客户端2,如此客户端1、客户端2根据failover指令访问Data2,如此客户端1、客户端2完成数据节点的访问切换。
通过上述对本发明实施例提供的技术方案的描述,获取各个客户端访问第一数据节点的访问指标数据,其中,访问指标数据包括成功次数与失败次数,根据各个客户端访问第一数据节点的访问指标数据,确定所有客户端访问第一数据节点的故障率,在故障率达到预设的故障率阈值的情况下,生成第一数据节点对应的失效转移指令,将失效转移指令下发至各个客户端,以使各个客户端根据失效转移指令访问第二数据节点。
如此各个客户端数据节点访问切换的时机不再取决于各个客户端各自统计的第一数据节点的故障率,而是将各个客户端访问第一数据节点的访问指标数据进行汇总,以此确定所有客户端访问第一数据节点的故障率,在故障率达到预设的故障率阈值的情况下,通过失效转移指令以使各个客户端访问第二数据节点,达到各个客户端数据节点访问切换的目的,从而各个客户端同一时刻读的数据一致,避免产生脏读的现象。
此外,在本发明实施例中,由于各个客户端各自统计最近一段时间内数据节点的故障率,故障率统计的时间段可能不一致,故障率统计的也可能不一致,有可能导致同一时刻各个客户端访问不同的数据节点,而由于不同数据节点之间通过异步方式保持数据一致性,不同数据节点之间可能数据不一致,导致各个客户端同一时刻写的数据不一致,产生脏写的现象。
为此,为了避免数据脏写问题或者写操作冲突等问题,在自动failover期间,通过短暂的禁止写操作,可以解决数据脏写问题或者写操作冲突等问题,最大程度保证读操作可用性。基于此,如图3所示,为本发明实施例提供的另一种容灾切换方法的实施流程示意图,该方法应用于上述控制中心,具体可以包括以下步骤:
S301,获取各个客户端访问第一数据节点的访问指标数据,其中,所述访问指标数据包括成功次数与失败次数。
在本发明实施例中,本步骤与上述步骤S201类似,本发明实施例在此不再一一赘述。
S302,根据各个所述客户端访问所述第一数据节点的所述访问指标数据,确定所有所述客户端访问所述第一数据节点的故障率。
在本发明实施例中,本步骤与上述步骤S201类似,本发明实施例在此不再一一赘述。
S303,在所述故障率达到预设的故障率阈值的情况下,将禁止写指令下发至各个所述客户端,以使各个所述客户端根据所述禁止写指令,禁止写操作。
S304,生成所述第一数据节点对应的失效转移指令,将所述失效转移指令下发至各个所述客户端,以使各个所述客户端根据所述失效转移指令访问第二数据节点。
在本发明实施例中,在故障率达到预设的故障率阈值的情况下,控制中心一方面将禁止写指令下发至各个客户端,以使各个客户端根据禁止写指令,禁止写操作,另一方面生成第一数据节点对应的失效转移指令,将失效转移指令下发至各个客户端,以使各个客户端根据失效转移指令访问第二数据节点。
例如,在故障率达到预设的故障率阈值的情况下,控制中心一方面将禁止写指令下发至客户端1、客户端2,如此客户端1、客户端2根据禁止写指令,禁止写操作,所有客户端均停止写操作,另一方面生成Data1对应的failover指令,并下发至客户端1、客户端2,如此客户端1、客户端2根据failover指令访问Data2。
需要说明的是,对于上述步骤S303与步骤304,可以先执行步骤S303,再执行步骤S304,当然也可以同时执行,本发明实施例对此不作限定。
S305,监测同步队列中的待同步数据,其中,所述同步队列用于实现所述第一数据节点与所述第二数据节点之间的数据同步。
S306,若所述同步队列中的待同步数据满足预设要求,将恢复写指令下发至各个所述客户端,以使各个所述客户端根据所述恢复写指令,恢复写操作。
在本发明实施例中,对于各个客户端而言,访问第一数据节点,数据更新操作会通过同步队列,同步给第二数据节点,如图4所示。由此,控制中心可以监测同步队列中的待同步数据,这里同步队列用于实现第一数据节点与第二数据节点之间的数据同步,根据同步队列中的待同步数据,决定是否恢复各个客户端的写操作。
其中,对于同步队列中的待同步数据,若其满足预设要求,则可以将恢复写指令下发至各个所述客户端,以使各个所述客户端根据所述恢复写指令,恢复写操作,如此从第一数据节点自动failover到第二数据节点完成。在自动failover期间,通过短暂的禁止写操作,可以解决数据脏写问题或者写操作冲突等问题,最大程度保证读操作可用性。
具体的,对于同步队列中的待同步数据,若同步队列中的待同步数据全部同步到第二数据节点,将恢复写指令下发至各个客户端,以使各个客户端根据恢复写指令,恢复写操作,或者,若同步队列的待同步数据中,超过预设比例(例如95%)的待同步数据同步到第二数据节点,将恢复写指令下发至各个客户端,以使各个客户端根据恢复写指令,恢复写操作。
通过上述对本发明实施例提供的技术方案的描述,在自动failover期间,通过短暂的禁止写操作,可以解决数据脏写问题或者写操作冲突等问题,最大程度保证读操作可用性。
与上述方法实施例相对应,本发明实施例还提供了一种容灾切换装置,如图5所示,该装置可以包括:数据获取模块510、故障率确定模块520、指令生成模块530、指令下发模块540。
数据获取模块510,用于获取各个客户端访问第一数据节点的访问指标数据,其中,所述访问指标数据包括成功次数与失败次数;
故障率确定模块520,用于根据各个所述客户端访问所述第一数据节点的所述访问指标数据,确定所有所述客户端访问所述第一数据节点的故障率;
指令生成模块530,用于在所述故障率达到预设的故障率阈值的情况下,生成所述第一数据节点对应的失效转移指令;
指令下发模块540,用于将所述失效转移指令下发至各个所述客户端,以使各个所述客户端根据所述失效转移指令访问第二数据节点。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器61、通信接口62、存储器63和通信总线64,其中,处理器61,通信接口62,存储器63通过通信总线64完成相互间的通信,
存储器63,用于存放计算机程序;
处理器61,用于执行存储器63上所存放的程序时,实现如下步骤:
获取各个客户端访问第一数据节点的访问指标数据,其中,所述访问指标数据包括成功次数与失败次数;根据各个所述客户端访问所述第一数据节点的所述访问指标数据,确定所有所述客户端访问所述第一数据节点的故障率;在所述故障率达到预设的故障率阈值的情况下,生成所述第一数据节点对应的失效转移指令;将所述失效转移指令下发至各个所述客户端,以使各个所述客户端根据所述失效转移指令访问第二数据节点。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种存储介质,该存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的容灾切换方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的容灾切换方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中,或者从一个存储介质向另一个存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种容灾切换方法,其特征在于,所述方法包括:
获取各个客户端访问第一数据节点的访问指标数据,其中,所述访问指标数据包括成功次数与失败次数;
根据各个所述客户端访问所述第一数据节点的所述访问指标数据,确定所有所述客户端访问所述第一数据节点的故障率;
在所述故障率达到预设的故障率阈值的情况下,生成所述第一数据节点对应的失效转移指令;
将所述失效转移指令下发至各个所述客户端,以使各个所述客户端根据所述失效转移指令访问第二数据节点。
2.根据权利要求1所述的方法,其特征在于,所述根据各个所述客户端访问所述第一数据节点的所述访问指标数据,确定所有所述客户端访问所述第一数据节点的故障率,包括:
获取各个所述客户端访问所述第一数据节点的所述成功次数与所述失败次数之和,得到各个所述客户端访问所述第一数据节点的访问次数;
获取各个所述客户端访问所述第一数据节点的所述访问次数之和,得到所有所述客户端访问所述第一数据节点的总访问次数;
获取各个所述客户端访问所述第一数据节点的所述失败次数之和,得到所有所述客户端访问所述第一数据节点的总失败次数;
获取所述总失败次数与所述总访问次数之商,得到所有所述客户端访问所述第一数据节点的故障率。
3.根据权利要求2所述的方法,其特征在于,所述获取各个所述客户端访问所述第一数据节点的所述失败次数之和,得到所有所述客户端访问所述第一数据节点的总失败次数,包括:
确定各个所述客户端访问所述第一数据节点的所述失败次数对应的访问请求;
查找所述访问请求对应的访问失败原因,并判断所述访问失败原因是否是目标原因,所述目标原因包括所述第一数据节点故障;
若所述访问失败原因为所述目标原因,则获取各个所述客户端访问所述第一数据节点的所述失败次数之和,得到所有所述客户端访问所述第一数据节点的总失败次数。
4.根据权利要求3所述的方法,其特征在于,所述获取各个所述客户端访问所述第一数据节点的所述失败次数之和,得到所有所述客户端访问所述第一数据节点的总失败次数,还包括:
若所述访问请求中存在所述访问失败原因非所述目标原因的访问请求,则从各个所述客户端访问所述第一数据节点的所述失败次数中,剔除所述访问失败原因非所述目标原因的访问请求对应的次数;
获取各个所述客户端访问所述第一数据节点的剩余失败次数之和,得到所有所述客户端访问所述第一数据节点的总失败次数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将禁止写指令下发至各个所述客户端,以使各个所述客户端根据所述禁止写指令,禁止写操作;
监测同步队列中的待同步数据,其中,所述同步队列用于实现所述第一数据节点与所述第二数据节点之间的数据同步;
若所述同步队列中的待同步数据满足预设要求,将恢复写指令下发至各个所述客户端,以使各个所述客户端根据所述恢复写指令,恢复写操作。
6.根据权利要求5所述的方法,其特征在于,所述若所述同步队列中的待同步数据满足预设要求,将恢复写指令下发至各个所述客户端,以使各个所述客户端根据所述恢复写指令,恢复写操作,包括:
若所述同步队列中的待同步数据全部同步到所述第二数据节点,将恢复写指令下发至各个所述客户端,以使各个所述客户端根据所述恢复写指令,恢复写操作;
或者,
若所述同步队列的待同步数据中,超过预设比例的待同步数据同步到所述第二数据节点,将恢复写指令下发至各个所述客户端,以使各个所述客户端根据所述恢复写指令,恢复写操作。
7.根据权利要求1所述的方法,其特征在于,所述确定所有所述客户端访问所述第一数据节点的故障率之后,所述方法还包括:
获取所述第一数据节点中数据的数据类别,查找与所述数据类别对应的预设的故障率阈值;
或者,
确定所述第一数据节点中数据的重要程度,查找与所述重要程度对应的预设的故障率阈值。
8.一种容灾切换装置,其特征在于,所述装置包括:
数据获取模块,用于获取各个客户端访问第一数据节点的访问指标数据,其中,所述访问指标数据包括成功次数与失败次数;
故障率确定模块,用于根据各个所述客户端访问所述第一数据节点的所述访问指标数据,确定所有所述客户端访问所述第一数据节点的故障率;
指令生成模块,用于在所述故障率达到预设的故障率阈值的情况下,生成所述第一数据节点对应的失效转移指令;
指令下发模块,用于将所述失效转移指令下发至各个所述客户端,以使各个所述客户端根据所述失效转移指令访问第二数据节点。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7中任一所述的方法步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202210827826.XA 2022-07-13 2022-07-13 容灾切换方法、装置、电子设备及存储介质 Pending CN115344437A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210827826.XA CN115344437A (zh) 2022-07-13 2022-07-13 容灾切换方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210827826.XA CN115344437A (zh) 2022-07-13 2022-07-13 容灾切换方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115344437A true CN115344437A (zh) 2022-11-15

Family

ID=83948528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210827826.XA Pending CN115344437A (zh) 2022-07-13 2022-07-13 容灾切换方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115344437A (zh)

Similar Documents

Publication Publication Date Title
CN111913667B (zh) 一种基于Ceph的OSD阻塞检测方法、***、终端及存储介质
US10581668B2 (en) Identifying performance-degrading hardware components in computer storage systems
CN111767270A (zh) 数据迁移方法、装置、服务器及存储介质
CN114189429A (zh) 一种服务器集群故障的监测***、方法、装置及介质
CN114138838A (zh) 数据处理方法及装置、设备和介质
CN111708783A (zh) 数据存储和数据恢复方法、装置及电子设备
CN110837428B (zh) 存储设备管理方法及装置
CN110928945B (zh) 一种针对数据库的数据处理方法及装置,数据处理***
CN111130856A (zh) 一种服务器配置方法、***、设备及计算机可读存储介质
CN112671590B (zh) 数据传输方法、装置、电子设备及计算机存储介质
CN110955587A (zh) 一种待更换设备确定方法及装置
CN115344437A (zh) 容灾切换方法、装置、电子设备及存储介质
CN107154960B (zh) 用于确定分布式存储***的服务可用性信息的方法与设备
CN110968456A (zh) 分布式存储***中故障磁盘的处理方法及装置
CN113485872A (zh) 故障处理方法、装置及分布式存储***
CN115150253A (zh) 一种故障根因确定方法、装置及电子设备
CN113568781A (zh) 一种数据库错误处理方法、装置及数据库集群访问***
CN115700549A (zh) 模型训练方法、故障确定方法、电子设备和程序产品
CN110113187B (zh) 一种配置更新方法、装置、配置服务器及配置***
CN111949479A (zh) 交互***和索引创建情况的确定方法、设备
CN112579384B (zh) 一种sas域的节点监控方法、装置、***及节点
CN113609104B (zh) 一种部分故障的键值对分布式存储***访问方法及装置
CN113176967B (zh) 数据的处理方法及装置、电子设备和计算机可读存储介质
CN112543213B (zh) 一种数据处理方法及装置
CN111639089B (zh) 事务处理方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination