CN111459698A - 一种数据库集群故障自愈方法及装置 - Google Patents

一种数据库集群故障自愈方法及装置 Download PDF

Info

Publication number
CN111459698A
CN111459698A CN202010243067.3A CN202010243067A CN111459698A CN 111459698 A CN111459698 A CN 111459698A CN 202010243067 A CN202010243067 A CN 202010243067A CN 111459698 A CN111459698 A CN 111459698A
Authority
CN
China
Prior art keywords
fault
log
preset
database
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010243067.3A
Other languages
English (en)
Inventor
胡俊军
杨波
闫润珍
王琼
俞俊
林开云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Gansu Electric Power Co Ltd
Nari Technology Co Ltd
State Grid Electric Power Research Institute
Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Original Assignee
State Grid Gansu Electric Power Co Ltd
Nari Technology Co Ltd
State Grid Electric Power Research Institute
Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Gansu Electric Power Co Ltd, Nari Technology Co Ltd, State Grid Electric Power Research Institute, Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd filed Critical State Grid Gansu Electric Power Co Ltd
Priority to CN202010243067.3A priority Critical patent/CN111459698A/zh
Publication of CN111459698A publication Critical patent/CN111459698A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种数据库集群故障自愈方法,包括:监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;若运行状态参数超出预先设定的对应监测阈值,则对相应的进程或线程执行终止操作;根据预先设定的时间算法启动故障查找,生成查找日志;将监测日志和查找日志中的报错记录进行解析,对故障信息进行处理形成查询条件;根据查询条件,在知识库中查询故障问题,获得相应的解决方案,进行故障修复。本申请还提供另一种数据库集群故障自愈装置。本申请的方法和装置在查找过程中避免死等待,保证了自查程序的自启动和数据库集群健康状态;且通过构建标准知识库的方式进行不断更新解决方案,增强自愈能力。

Description

一种数据库集群故障自愈方法及装置
技术领域
本发明涉及数据库故障修复,具体涉及一种数据库集群故障自愈方法及装置。
背景技术
随着各个领域数据化和信息化的发展,业务数据的价值越来越受到行业重视。数据库是云计算的核心,云平台能够存储体量较大的数据,通过对数据的挖掘可以从中获取社会规律、经济规律等信息,应用至行业发展的分析预测中。数据库集群可以更加深入地挖掘数据的价值。
但是数据库集群在使用的过程中,可能因为***原因或人为操作关闭,导致数据集群不可用或者数据丢失。现有的修复方法,通常需要数据库管理人员及时监控数据库运行情况,并及时对数据库集群进行修复,修复效率低。
发明内容
发明目的:本申请的目的在于提供一种数据库集群故障自愈方法及装置,解决数据库集群故障修复效率低的缺陷。
技术方案:本发明一方面提供了一种数据库集群故障自愈方法,包括:
监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;
若任一运行状态参数超出预先设定的对应的监测阈值,则对导致运行状态参数超出预先设定的对应监测阈值的进程或线程执行终止操作;
根据各个服务器的运行状态,在集群上查找未运行的程序或硬件,并按照未运行的程序或硬件优先的原则,根据预先设定的时间算法启动故障查找,生成查找日志;
将监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件;
根据查询条件,在预先构建的标准知识库中查询故障问题,获得相应的解决方案,并在当前数据库集群中运行解决方案对应的脚本,进行故障修复。
进一步地,根据预先设定的时间算法启动故障查找,包括以下步骤:
获取程序或硬件当前的运行状态参数;
若运行状态参数均未超出预先设定的第一查找阈值,则以预先设定的故障查找启动概率来启动故障查找;
若任一运行状态参数超出预先设定的第一查找阈值,则对导致参数超出第一查找阈值的线程或进程执行终止操作,每执行终止操作一次逻辑时钟累计一次;
在故障查找的过程中,若运行状态参数均未超出预先设定的第二查找阈值,则故障查找过程执行完毕;否则,对导致参数超出第二查找阈值的线程或进程执行终止操作,每执行终止操作一次逻辑时钟累计一次。
进一步地,根据预先设定的时间算法启动故障查找,还包括:
若逻辑时钟达到或超出预先设定的逻辑时钟最大值,则检查点后暂停当前运行的数据库事务。
进一步地,将监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件,包括:
对监测日志和查找日志中的报错记录进行解析,得到故障信息;
根据预先设置的停用词,对故障信息中的停用词进行删除,对删除停用词的故障信息进行分词,得到查询词;
将查询词转化为sparkSQL查询条件,查询条件适用于知识语义搜索引擎。
进一步地,标准知识库通过以下步骤构建:
搜集现有数据库中存在的软硬件问题及解决方案,生成数据库运维日志;
对数据库运维日志中的数据进行规范化处理,形成规范化的数据库问题清单及解决方案;
参照规范化的解决方案,将规范化的数据库问题在指定环境中进行仿真,直至问题得以解决;
将仿真得到的解决方案编写脚本,得到与规范化问题对应的解决脚本;
将规范化的问题及解决脚本对应存储,形成标准知识库。
本申请另一方面提供了一种数据库集群故障自愈装置,包括:
监测模块,监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;
监测执行模块,被配置为若任一运行状态参数超出预先设定的对应监测阈值,则对导致运行状态参数超出预先设定的对应监测阈值的进程或线程执行终止操作;
故障查找模块,被配置为根据各个服务器的运行状态,在集群上查找未运行的程序或硬件,并按照未运行的程序或硬件优先的原则,根据预先设定的时间算法启动故障查找,生成查找日志;
查询条件生成模块,被配置为将监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件;
知识库查询模块,被配置为在预先构建的标准知识库中查询故障问题,获得相应的解决方案,并在当前数据库集群中运行解决方案对应的脚本,进行故障修复。
进一步地,故障查找模块,包括:
参数获取单元,被配置为获取程序或硬件当前的运行状态参数;
启动查找单元,被配置为若运行状态参数均未超出预先设定的第一查找阈值,则以预先设定的故障查找启动概率来启动故障查找;
第一操作单元,被配置为若任一运行状态参数超出预先设定的第一查找阈值,则对导致参数超出第一查找阈值的线程或进程执行终止操作,每执行终止操作一次对逻辑时钟进行一次累计;
终止查找单元,被配置为在故障查找的过程中,若运行状态参数均未超出预先设定的第二查找阈值,则故障查找过程执行完毕;
第二操作单元,被配置为在故障查找的过程中,若任一运行状态参数超出预先设定的第二查找阈值,则对导致参数超出第二查找阈值的线程或进程执行终止操作,每执行终止操作一次对逻辑时钟进行一次累计。
进一步地,故障查找模块,还包括:
时钟控制单元,被配置为若逻辑时钟达到或超出预先设定的逻辑时钟最大值,则检查点后暂停当前运行的数据库事务。
进一步地,查询条件生成模块包括:
日志解析单元,被配置为对监测日志和查找日志中的报错记录进行解析,得到故障信息;
查询词确定单元,被配置为根据预先设置的停用词,对故障信息中的停用词进行删除,并对删除停用词的故障信息进行分词,得到查询词;
查询条件确定单元,被配置为将查询词转化为sparkSQL查询条件,查询条件可适用于知识语义搜索引擎。
进一步地,本申请的装置还包括:标准知识库构建模块,标准知识库构建模块包括:
搜集单元,被配置为搜集现有数据库中存在的软硬件问题及解决方案,生成数据库运维日志;
处理单元,被配置为对数据库运维日志中的数据进行规范化处理,形成规范化的数据库问题清单及解决方案;
仿真单元,被配置为参照规范化的解决方案,将规范化的数据库问题在指定环境中进行仿真,直至问题得以解决;
脚本生成单元,被配置为将仿真得到的解决方案编写脚本,得到与规范化问题对应的解决脚本;
存储单元,被配置为将规范化的问题及解决脚本对应存储,形成标准知识库。
有益效果:与现有技术相比,本申请用脚本实现数据库管理员排查问题的模式,无需数据管理员进行人工逐一排查,提高效率和准确率,可快速解决大部分典型的数据库故障问题,修复效率高。
附图说明
图1为本发明的数据库集群故障自愈方法的流程图;
图2为本发明的自我查找程序启动时间算法的流程图;
图3为本发明的数据库集群故障自愈装置的***框图。
具体实施方式
下面结合附图和实施例对本发明做进一步描述:
本发明提供了一种数据库集群故障自愈方法,如图1所示,包括:
S101监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;运行状态参数包括CPU、内存、磁盘、网络的使用率。具体地,这些数据可通过接口的形式为其他程序提供访问和获取途径。数据格式在这里可以是json,接口可以为cpuState、ioState等,里面封装的各种属性和方法供调用。比如cpuState中的cpuUsage主要提供cpu的使用率。
S102若任一运行状态参数超出预先设定的对应监测阈值,则对导致运行状态参数超出预先设定的对应监测阈值的进程或线程执行终止操作。在本申请的实施例中,可根据具体需求设定相应的监测阈值。如果问题比较严重,例如可设置连续超出监测阈值的次数,如果连续出现超出监测阈值的情形,则可重启数据库集群。
S103根据各个服务器的运行状态,在集群上查找未运行的程序或硬件,并按照未运行的程序或硬件优先的原则,根据预先设定的时间算法(TDSH,Time algorithm ofdatabase self-healing)启动故障查找,生成查找日志。时间算法如图2所示,可设定故障查找参数,包括:第一查找阈值、第二查找阈值、故障查找启动概率、逻辑时钟t的初始值t0和逻辑时钟最大值Tmax,其中t0≤Tmax/2;时间算法包括以下步骤:
(31)获取程序或硬件当前的运行状态参数;
(32)根据运行状态参数与预先设定的第一查找阈值之间的关系决定是否启动故障查找:
若运行状态参数均未超出预先设定的第一查找阈值,则以预先设定的故障查找启动概率来启动故障查找;
若任一运行状态参数超出预先设定的第一查找阈值,则对导致参数超出第一查找阈值的线程或进程执行终止操作,返回步骤(31),每执行终止操作一次逻辑时钟累计一次,即t=t+1;
(33)在故障查找的过程中,若运行状态参数均未超出预先设定的第二查找阈值,则故障查找过程执行完毕;否则,对导致参数超出第二查找阈值的线程或进程执行终止操作,返回步骤(31),每执行终止操作一次逻辑时钟累计一次,即t=t+1;
(34)在启动故障查找的过程中,通过逻辑时钟的变化控制故障查找一个循环内的尝试次数:
若逻辑时钟达到或超出预先设定的逻辑时钟最大值,即t≥Tmax,则检查点后暂停当前运行的数据库事务,返回步骤(31)继续尝试启动故障查找。
在故障查找过程中,通过获取监测的json数据,选择选择相应的自查逻辑,尽可能以最小的代价完成自查。自查逻辑包括:软件部分有最近最久未使用、最小排队代价损失等,硬件部分有goto程序实现、最小存储法等。
根据上述时间算法,在故障查找时,依据硬件和网络的运行参数来决定何时启动自查,且在查找过程中不必然终止所有程序,避免死等待,保证了查找程序的自启动,能够保障一定时间内的数据库集群健康状态,提高软硬件的利用率。
S104将监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件。具体地,步骤S104包括:
(41)对监测日志和查找日志中的报错记录进行解析,得到故障信息;
(42)根据预先设置的停用词,对故障信息中的停用词进行删除,对删除停用词的故障信息进行分词,得到查询词。具体地,停用词可根据数据库集群的具体情况进行确定,可采用分词接口或者分词软件进行分词。
(43)将查询词转化为sparkSQL查询条件,查询条件适用于知识语义搜索引擎。在本申请的实施例中,可以将查询条件数据以RDF三元组的格式建成本体,导入语义数据库中(比如virtuoso)完成初始化。问题的查询应当具有相同的sparkSQL语法,不同之处应当为关键字的差异。
S105根据查询条件,在预先构建的标准知识库中查询故障问题,获得相应的解决方案,并在当前数据库集群中运行解决方案对应的脚本,进行故障修复。
具体地,标准知识库通过以下步骤构建:
(51)搜集现有数据库中存在的软硬件问题及解决方案,生成数据库运维日志。知识库的问题来源有从已有的数据和数据收集,已有数据包括历史数据库运维日志、以前记录下来的问题以及常见的数据库问题。数据搜集可从一些数据库论坛或者数据库学习较活跃的社区去寻找问题。这些收集到的问题一般会有各种不同的格式问题,需要对其进行形式化表达。
(52)对数据库运维日志中的数据进行规范化处理,形成规范化的数据库问题清单及解决方案。规范化处理包括:语义整合、统一描述格式及删除重复内容。在本实施例中,语义整合是指把意思相近的词语整合为同一个词语;统一描述格式是指对于不同的问题表述统一进行主谓宾陈述句形式化描述;针对统一描述格式的问题中重复的问题进行删除。
(53)参照规范化的解决方案,将规范化的数据库问题在指定环境中进行仿真,直至问题得以解决。具体地,指定环境可采用模拟环境,例如搭建好的分布式数据库集群,该集群未导入完整的业务数据,只有测试数据,把数据库运维日志中的问题以问题的方式重现在集群中。
(54)将仿真得到的解决方案编写脚本,得到与规范化问题对应的解决脚本;
(55)将规范化的问题及解决脚本对应存储,形成标准知识库。
在本申请的实施例中,标准知识库的构建是一个动态完善的过程,若监控过日志和自我查找日志中解析出的问题在标准知识库中没有解决方案,则根据标准知识库的上述构建过程,得到与其对应的解决方案运行脚本。
另一方面,本申请还公开了一种数据库集群故障自愈装置,如图3所示,包括:
监测模块301,被配置为监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;运行状态参数包括CPU、内存、磁盘、网络的使用率。
监测执行模块302,被配置为若任一运行状态参数超出对应的监测阈值,则对导致参数超出监测阈值的进程或线程执行终止操作。
故障查找模块303,被配置为根据各个服务器的运行状态,在集群上查找未运行的程序或硬件,并按照未运行的程序或硬件优先的原则,根据预先设定的时间算法启动故障查找,生成查找日志。
具体地,故障查找模块,包括:
参数获取单元,被配置为获取程序或硬件当前的运行状态参数;
启动查找单元,被配置为若运行状态参数均未超出预先设定的第一查找阈值,则以预先设定的故障查找启动概率来启动故障查找;
第一操作单元,被配置为若任一运行状态参数超出预先设定的第一查找阈值,则对导致参数超出第一查找阈值的线程或进程执行终止操作,每执行终止操作一次对逻辑时钟进行一次累计;
终止查找单元,被配置为在故障查找的过程中,若运行状态参数均未超出预先设定的第二查找阈值,则故障查找过程执行完毕;
第二操作单元,被配置为在故障查找的过程中,若任一运行状态参数超出预先设定的第二查找阈值,则对导致参数超出第二查找阈值的线程或进程执行终止操作,每执行终止操作一次对逻辑时钟进行一次累计。
时钟控制单元,被配置为若逻辑时钟t达到或超出预先设定的逻辑时钟最大值Tmax,则检查点后暂停当前运行的数据库事务。在本实施例中,逻辑时钟的初始值t0≤Tmax/2。
在故障查找过程中,通过获取监测的json数据,选择选择相应的自查逻辑,尽可能以最小的代价完成自查。自查逻辑包括:软件部分有最近最久未使用、最小排队代价损失等,硬件部分有goto程序实现、最小存储法等。
利用上述算法进行在故障查找时,依据硬件和网络的运行参数来决定何时启动自查,且在查找过程中不必然终止所有程序,避免死等待,保证了查找程序的自启动,能够保障一定时间内的数据库集群健康状态,提高软硬件的利用率。
查询条件生成模块304,被配置为将监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件;具体地,查询条件生成模块304包括:
日志解析单元,被配置为对监测日志和查找日志中的报错记录进行解析,得到故障信息;
查询词确定单元,被配置为根据预先设置的停用词,对故障信息中的停用词进行删除,并对删除停用词的故障信息进行分词,得到查询词;
查询条件确定单元,被配置为将查询词转化为sparkSQL查询条件,查询条件可适用于知识语义搜索引擎。
知识库查询模块305,被配置为在预先构建的标准知识库中查询故障问题,获得相应的解决方案,并在当前数据库集群中运行解决方案对应的脚本,进行故障修复。
标准知识库构建模块306,包括:
搜集单元,被配置为搜集现有数据库中存在的软硬件问题及解决方案,生成数据库运维日志;
处理单元,被配置为对数据库运维日志中的数据进行规范化处理,形成规范化的数据库问题清单及解决方案;
仿真单元,被配置为参照规范化的解决方案,将规范化的数据库问题在指定环境中进行仿真,直至问题得以解决;
脚本生成单元,被配置为将仿真得到的解决方案编写脚本,得到与规范化问题对应的解决脚本;
存储单元,被配置为将规范化的问题及解决脚本对应存储,形成标准知识库。
在本申请的实施例中,标准知识库的构建是一个动态完善的过程,若监控过日志和自我查找日志中解析出的问题在标准知识库中没有解决方案,则根据标准知识库的上述构建过程,得到与其对应的解决方案运行脚本。随着标准知识库的不断更新,数据集群的自愈能力不断增强。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (10)

1.一种数据库集群故障自愈方法,其特征在于,包括:
监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;
若任一运行状态参数超出预先设定的对应的监测阈值,则对导致运行状态参数超出预先设定的对应监测阈值的进程或线程执行终止操作;
根据各个服务器的运行状态,在集群上查找未运行的程序或硬件,并按照未运行的程序或硬件优先的原则,根据预先设定的时间算法启动故障查找,生成查找日志;
将所述监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件;
根据查询条件,在预先构建的标准知识库中查询故障问题,获得相应的解决方案,并在当前数据库集群中运行所述解决方案对应的脚本,进行故障修复。
2.根据权利要求1所述的方法,其特征在于,所述根据预先设定的时间算法启动故障查找,包括以下步骤:
获取程序或硬件当前的运行状态参数;
若所述运行状态参数均未超出预先设定的第一查找阈值,则以预先设定的故障查找启动概率来启动故障查找;
若任一运行状态参数超出预先设定的第一查找阈值,则对导致参数超出所述第一查找阈值的线程或进程执行终止操作,每执行终止操作一次逻辑时钟累计一次;
在故障查找的过程中,若所述运行状态参数均未超出预先设定的第二查找阈值,则故障查找过程执行完毕;否则,对导致参数超出所述第二查找阈值的线程或进程执行终止操作,每执行终止操作一次逻辑时钟累计一次。
3.根据权利要求2所述的方法,其特征在于,所述根据预先设定的时间算法启动故障查找,还包括:
若所述逻辑时钟达到或超出预先设定的逻辑时钟最大值,则检查点后暂停当前运行的数据库事务。
4.根据权利要求1所述的方法,其特征在于,所述将所述监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件,包括:
对所述监测日志和查找日志中的报错记录进行解析,得到故障信息;
根据预先设置的停用词,对故障信息中的停用词进行删除,对删除停用词的故障信息进行分词,得到查询词;
将查询词转化为sparkSQL查询条件,所述查询条件适用于知识语义搜索引擎。
5.根据权利要求1所述的方法,其特征在于,所述标准知识库通过以下步骤构建:
搜集现有数据库中存在的软硬件问题及解决方案,生成数据库运维日志;
对数据库运维日志中的数据进行规范化处理,形成规范化的数据库问题清单及解决方案;
参照规范化的解决方案,将规范化的数据库问题在指定环境中进行仿真,直至问题得以解决;
将仿真得到的解决方案编写脚本,得到与规范化问题对应的解决脚本;
将规范化的问题及解决脚本对应存储,形成标准知识库。
6.一种数据库集群故障自愈装置,其特征在于,包括:
监测模块,监测分布式数据库集群中各个服务器的运行状态参数,并生成监测日志;
监测执行模块,被配置为若任一运行状态参数超出预先设定的对应监测阈值,则对导致运行状态参数超出预先设定的对应监测阈值的进程或线程执行终止操作;
故障查找模块,被配置为根据各个服务器的运行状态,在集群上查找未运行的程序或硬件,并按照未运行的程序或硬件优先的原则,根据预先设定的时间算法启动故障查找,生成查找日志;
查询条件生成模块,被配置为将所述监测日志和查找日志中的报错记录进行解析,得到故障信息,对故障信息进行处理形成查询条件;
知识库查询模块,被配置为在预先构建的标准知识库中查询故障问题,获得相应的解决方案,并在当前数据库集群中运行所述解决方案对应的脚本,进行故障修复。
7.根据权利要求6所述的装置,其特征在于,所述故障查找模块,包括:
参数获取单元,被配置为获取程序或硬件当前的运行状态参数;
启动查找单元,被配置为若所述运行状态参数均未超出预先设定的第一查找阈值,则以预先设定的故障查找启动概率来启动故障查找;
第一操作单元,被配置为若任一运行状态参数超出预先设定的第一查找阈值,则对导致参数超出所述第一查找阈值的线程或进程执行终止操作,每执行终止操作一次对逻辑时钟进行一次累计;
终止查找单元,被配置为在故障查找的过程中,若所述运行状态参数均未超出预先设定的第二查找阈值,则故障查找过程执行完毕;
第二操作单元,被配置为在故障查找的过程中,若任一运行状态参数超出预先设定的第二查找阈值,则对导致参数超出所述第二查找阈值的线程或进程执行终止操作,每执行终止操作一次对逻辑时钟进行一次累计。
8.根据权利要求7所述的装置,其特征在于,所述故障查找模块,还包括:
时钟控制单元,被配置为若所述逻辑时钟达到或超出预先设定的逻辑时钟最大值,则检查点后暂停当前运行的数据库事务。
9.根据权利要求6所述的装置,其特征在于,所述查询条件生成模块包括:
日志解析单元,被配置为对所述监测日志和查找日志中的报错记录进行解析,得到故障信息;
查询词确定单元,被配置为根据预先设置的停用词,对故障信息中的停用词进行删除,并对删除停用词的故障信息进行分词,得到查询词;
查询条件确定单元,被配置为将查询词转化为sparkSQL查询条件,所述查询条件可适用于知识语义搜索引擎。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:标准知识库构建模块,所述标准知识库构建模块包括:
搜集单元,被配置为搜集现有数据库中存在的软硬件问题及解决方案,生成数据库运维日志;
处理单元,被配置为对数据库运维日志中的数据进行规范化处理,形成规范化的数据库问题清单及解决方案;
仿真单元,被配置为参照规范化的解决方案,将规范化的数据库问题在指定环境中进行仿真,直至问题得以解决;
脚本生成单元,被配置为将仿真得到的解决方案编写脚本,得到与规范化问题对应的解决脚本;
存储单元,被配置为将规范化的问题及解决脚本对应存储,形成标准知识库。
CN202010243067.3A 2020-03-31 2020-03-31 一种数据库集群故障自愈方法及装置 Pending CN111459698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010243067.3A CN111459698A (zh) 2020-03-31 2020-03-31 一种数据库集群故障自愈方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010243067.3A CN111459698A (zh) 2020-03-31 2020-03-31 一种数据库集群故障自愈方法及装置

Publications (1)

Publication Number Publication Date
CN111459698A true CN111459698A (zh) 2020-07-28

Family

ID=71679397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010243067.3A Pending CN111459698A (zh) 2020-03-31 2020-03-31 一种数据库集群故障自愈方法及装置

Country Status (1)

Country Link
CN (1) CN111459698A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913825A (zh) * 2020-07-31 2020-11-10 赵鑫飚 一种基于大数据的解决方案推荐***及方法
CN111932799A (zh) * 2020-08-19 2020-11-13 中国银行股份有限公司 一种银行网点的自助设备的应急处理方法及装置
CN112068981A (zh) * 2020-09-24 2020-12-11 中国人民解放军国防科技大学 Linux操作***中基于知识库的故障扫描恢复方法及***
CN112559284A (zh) * 2020-12-08 2021-03-26 爱信诺征信有限公司 集群运维***、方法及相关产品
CN113010339A (zh) * 2021-03-03 2021-06-22 中国工商银行股份有限公司 联机交易测试中故障自动处理方法及装置
CN113360308A (zh) * 2021-05-31 2021-09-07 珠海大横琴科技发展有限公司 一种异常事件处理方法和装置
CN113778994A (zh) * 2021-09-15 2021-12-10 京东科技信息技术有限公司 数据库检测方法、装置、电子设备和计算机可读介质
CN115396291A (zh) * 2022-08-23 2022-11-25 度小满科技(北京)有限公司 一种基于kubernetes托管的redis集群故障自愈方法
CN113672456B (zh) * 2021-08-06 2024-06-11 济南浪潮数据技术有限公司 应用平台的模块化自监听方法、***、终端及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复***
CN109271272A (zh) * 2018-10-15 2019-01-25 江苏物联网研究发展中心 基于非结构化日志的大数据组件故障辅助修复***
CN110795262A (zh) * 2019-10-09 2020-02-14 苏州浪潮智能科技有限公司 一种程序故障修复方法、装置、设备及计算机存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复***
CN109271272A (zh) * 2018-10-15 2019-01-25 江苏物联网研究发展中心 基于非结构化日志的大数据组件故障辅助修复***
CN110795262A (zh) * 2019-10-09 2020-02-14 苏州浪潮智能科技有限公司 一种程序故障修复方法、装置、设备及计算机存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913825A (zh) * 2020-07-31 2020-11-10 赵鑫飚 一种基于大数据的解决方案推荐***及方法
CN111932799A (zh) * 2020-08-19 2020-11-13 中国银行股份有限公司 一种银行网点的自助设备的应急处理方法及装置
CN112068981A (zh) * 2020-09-24 2020-12-11 中国人民解放军国防科技大学 Linux操作***中基于知识库的故障扫描恢复方法及***
CN112068981B (zh) * 2020-09-24 2022-06-21 中国人民解放军国防科技大学 Linux操作***中基于知识库的故障扫描恢复方法及***
CN112559284A (zh) * 2020-12-08 2021-03-26 爱信诺征信有限公司 集群运维***、方法及相关产品
CN113010339A (zh) * 2021-03-03 2021-06-22 中国工商银行股份有限公司 联机交易测试中故障自动处理方法及装置
CN113360308A (zh) * 2021-05-31 2021-09-07 珠海大横琴科技发展有限公司 一种异常事件处理方法和装置
CN113672456B (zh) * 2021-08-06 2024-06-11 济南浪潮数据技术有限公司 应用平台的模块化自监听方法、***、终端及存储介质
CN113778994A (zh) * 2021-09-15 2021-12-10 京东科技信息技术有限公司 数据库检测方法、装置、电子设备和计算机可读介质
CN113778994B (zh) * 2021-09-15 2024-05-17 京东科技信息技术有限公司 数据库检测方法、装置、电子设备和计算机可读介质
CN115396291A (zh) * 2022-08-23 2022-11-25 度小满科技(北京)有限公司 一种基于kubernetes托管的redis集群故障自愈方法

Similar Documents

Publication Publication Date Title
CN111459698A (zh) 一种数据库集群故障自愈方法及装置
EP3798846B1 (en) Operation and maintenance system and method
US10515002B2 (en) Utilizing artificial intelligence to test cloud applications
CN110287052B (zh) 一种异常任务的根因任务确定方法及装置
CN111177178B (zh) 一种数据处理方法及相关设备
US20160253229A1 (en) Event log analysis
US20170300532A1 (en) Event log analysis
CN106293891B (zh) 多维投资指标监督方法
CN110716539B (zh) 一种故障诊断分析方法和装置
CN112835924A (zh) 实时计算任务处理方法、装置、设备及存储介质
CN108108445A (zh) 一种智能数据处理方法和***
CN116009428A (zh) 基于流式计算引擎的工业数据监控***和方法、介质
CN113360722A (zh) 一种基于多维数据图谱的故障根因定位方法及***
CN114201328A (zh) 基于人工智能的故障处理方法、装置、电子设备及介质
WO2021191702A1 (en) Offloading statistics collection
CN116010452A (zh) 基于流式计算引擎的工业数据处理***和方法、介质
KR101830936B1 (ko) 데이터베이스와 애플리케이션을 위한 웹기반 성능개선 시스템
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
CN117436591A (zh) 一种光伏新能源监管平台算法的深度优化方法
CN111522705A (zh) 一种工业大数据智能运维解决方法
CN111752918A (zh) 一种历史数据交互***及其配置方法
CN115510139A (zh) 数据查询方法和装置
CN113535560B (zh) 测试执行方法、装置、存储介质和计算设备
CN113220530B (zh) 数据质量监控方法及平台
CN115525392A (zh) 容器监控方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200728

RJ01 Rejection of invention patent application after publication