CN109542742A - 基于专家模型的数据库服务器硬件健康评估方法 - Google Patents

基于专家模型的数据库服务器硬件健康评估方法 Download PDF

Info

Publication number
CN109542742A
CN109542742A CN201811352658.3A CN201811352658A CN109542742A CN 109542742 A CN109542742 A CN 109542742A CN 201811352658 A CN201811352658 A CN 201811352658A CN 109542742 A CN109542742 A CN 109542742A
Authority
CN
China
Prior art keywords
index
hardware
expert model
database server
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811352658.3A
Other languages
English (en)
Inventor
夏飞
钱琳
俞俊
朱广新
强润皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information And Communication Branch Of Jiangsu Electric Power Co Ltd
NARI Group Corp
Nari Technology Co Ltd
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Information And Communication Branch Of Jiangsu Electric Power Co Ltd
NARI Group Corp
Nari Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information And Communication Branch Of Jiangsu Electric Power Co Ltd, NARI Group Corp, Nari Technology Co Ltd filed Critical Information And Communication Branch Of Jiangsu Electric Power Co Ltd
Priority to CN201811352658.3A priority Critical patent/CN109542742A/zh
Publication of CN109542742A publication Critical patent/CN109542742A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于专家模型的数据库服务器硬件健康评估方法,该评估方法包括采集操作***硬件指标,将硬件指标分成专家模型内指标,为专家模型内指标分配分数权重,并且制定多级阈值和扣分标准,指标值落在不同阈值范围扣除相应等级的分数;自动周期性采集硬件指标;根据专家模型规则计算数据库服务器硬件指标,输出数据库服务器硬件的健康得分。上述评估方法选取了数据库硬件的关键指标,解决了指标选取可靠性问题;将指标组合配比,构建数据库硬件健康模型,通过为模型内指标分配权重,以及设置动态阈值,解决评估单一性问题;通过自动采集和模型计算,对数据库硬件健康度进行评估,解决人工评估成本高问题。

Description

基于专家模型的数据库服务器硬件健康评估方法
技术领域
本发明涉及数据库的运维领域,特别是涉及一种基于专家模型的数据库服务器硬件健康评估方法。
背景技术
数据库运行问题一方面来自于数据库软件自身,还有很大一部分原因是源于数据库的硬件问题。在分析数据库硬件问题时,通常由DBA通过手动或使用工具采集硬件关键指标,结合自身经验对硬件健康程度进行评估,以及根据现象结合指标分析问题。
目前大型数据库监控工具虽然非常多样,但通常这些工具只会定期获取一些数据库硬件的关键指标,工具预制了这些指标的阈值,当数据库指标劣化时,产生一些阈值告警。运维人员巡检时通过收集日,周,月的指标数据,整合之后进行分析,人工对硬件健康度进行评估。
由于当前运维工具只是采集部分关键指标,展示关键指标在采样点的值或绘制变化曲线,在指标劣化时产生告警。普通运维工具的指标阈值设定往往是指标值超过某个常量即产生告警,规则过于简单,无法应对复杂的动态阈值。
数据库硬件的健康程度的变化是由多指标共同作用造成的,单个指标的变化无法体现对数据库影响的大小,普通运维工具缺少对数据库硬件健康程度进行***性评估的能力,只起到了指标采集器的作用,最终还是需要DBA进行人工分析。
因此,需要一种新的技术方案以解决上述技术问题。
发明内容
为解决现有技术的不足,本发明提出一种基于专家模型的数据库服务器硬件健康评估方法,能够***性得评估数据库服务器硬件,评估结果准确,可靠性高。
为了实现上述目标,本发明采用如下的技术方案:一种基于专家模型的数据库服务器硬件健康评估方法,所述方法包括:
建立专家模型:采集操作***硬件指标,将硬件指标分成专家模型内指标,为专家模型内指标分配分数权重,并且制定多级阈值和扣分标准,指标值落在不同阈值范围扣除相应等级的分数;
将专家模型应用到数据库服务器硬件对象,自动周期性采集硬件指标;
根据专家模型规则计算数据库服务器硬件指标,实现自动健康评估,输出数据库服务器硬件的健康得分。
在一个具体的实施例中,操作***提供基本的专家模型,用户可以根据操作***特点,对基本的专家模型进行复制和参数调节建立专家模型;
在一个具体的实施例中,所述周期性采集硬件指标之后还包括,将硬件指标值写入数据库,周期性获取数据库内最近一段时间内录入的指标,按照专家模型规则计算得到健康分数。
在一个具体的实施例中,所述指标的阈值设定支持常量值和表达式。
在一个具体的实施例中,所述专家模型评估方法包括:
步骤S11:获取评估周期内指标数据;
步骤S12:获取专家模型内指标类型;
步骤S13:判断是否为原始值,若否,进入步骤S14’:计算平均值或差值,再进入步骤S14:将得到的指标值,专家模型内指标阈值输入规则引擎;若是,直接进入步骤S14;
步骤S15:判断阈值是否为常量,若否,进入步骤S16’:表达式运算获得常量阈值,进入步骤S16:判断是否超出阈值;若步骤S15的判断结果为是,则直接进入步骤S16;若步骤S16的判断结果为是,则进入步骤S17:扣除阈值等级对应的分数,进入步骤S18:专家模型总分减去扣分得到硬件健康得分;若步骤S16的判断结果为否,则直接进入步骤S18。
在一个具体的实施例中,所述评估周期要大于采集周期。
在一个具体的实施例中,所述评估周期内包括2次采样,评估周期为2分钟,采样周期为30秒。
在一个具体的实施例中,所述专家模型的总分计算方式为100-指标扣分之和,指标扣分之和超过100时,专家模型总分按照0分处理。
在一个具体的实施例中,所述指标包括CPU使用率,物理内存剩余量,磁盘I/O读写延迟,CPU iowait百分比,业务和操作***核心目录使用率,网卡丢包错包数,网卡状态,CPU核数,操作***运行进程数。
在一个具体的实施例中,所述指标类型包括:
原始值:取评估周期内最近一次采样点的指标值;
平均值:评估周期内多个采样点的指标值之和/采样点个数;
差值:评估周期内最近一次采样点指标值-最早一次采样点指标值。
本发明提出的上述评估方法选取了数据库硬件的关键指标,解决了指标选取可靠性问题。将指标组合配比,构建数据库硬件健康模型,通过为模型内指标分配权重,以及设置动态阈值,解决评估单一性问题。通过自动采集和模型计算,对数据库硬件健康度进行评估,解决人工评估成本高问题。同时,在数据库发生负载升高,性能劣化场景下,通过分数的形式,可直观地展示服务器硬件的健康状态,给运维人员提供充分的参考,避免了生产***故障所带来的经济损失。
附图说明
图1为本发明的基于专家模型的数据库服务器硬件健康评估方法的方案总流程图;
图2是本发明的基于专家模型的数据库服务器硬件健康评估方法的模型评估流程图。
具体实施方式
下面结合附图对本发明装置和方法的优选实施方式作进一步的详细描述。
一、总体方案
本发明提出了一种基于专家模型的数据库服务器硬件健康评估方法,该评估方法包括采集操作***硬件指标,包括从CPU,内存,I/O,文件***,网络进行指标选取,将硬件指标分成专家模型内指标和辅助分析指标;
制定专家模型规则:为专家模块内指标分配分数权重,并且制定多级阈值和扣分标准,指标值落在不同阈值范围扣除相应等级的分数;
将专家模型应用到数据库服务器硬件对象,操作***将自动周期性采集硬件指标;
根据专家模型规则计算数据库服务器硬件指标,实现自动健康评估,输出数据库服务器硬件的健康得分。
在一个具体的实施例中,操作***提供基本的专家模型,用户可以根据操作***特点,对基本的专家模型进行复制和参数调节建立专家模型。
如图1所示,该评估方法的总体评估流程包括:周期性采集硬件指标,将硬件指标值写入数据库,周期性获取数据库内最近一段时间内录入的指标,按照专家模型规则计算得到健康分数。例如,将硬件指标存入分析数据库,从分析数据库中提取评估周期内多个采样时间的硬件指标数据,按照新的专家模型规则进行计算,得到数据库服务器硬件的健康得分的步骤。
如图2所示,专家模型评估方法流程具体包括:
步骤S11:获取评估周期内指标数据;
步骤S12:获取专家模型内指标类型;
步骤S13:判断是否为原始值,若否,进入步骤S14’:计算平均值或差值,再进入步骤S14:将得到的指标值,专家模型内指标阈值输入规则引擎;若是,直接进入步骤S14;
步骤S15:判断阈值是否为常量,若否,进入步骤S16’:表达式运算获得常量阈值,进入步骤S16:判断是否超出阈值;若步骤S15的判断结果为是,则直接进入步骤S16;若步骤S16的判断结果为是,则进入步骤S17:扣除阈值等级对应的分数,进入步骤S18:专家模型总分减去扣分得到硬件健康得分;若步骤S16的判断结果为否,则直接进入步骤S18。
在一个具体的实施例中,评估周期要大于采集周期。例如,评估周期内包括2次采样,评估周期为2分钟,采样周期为30秒。
二、采集原始数据
结合本发明的数据库服务器运维实践总结,分析得出了会影响数据库运行指标,目前从数据库所在硬件设备上获取指标如下:CPU使用率,物理内存剩余量,磁盘I/O读写延迟,CPU iowait百分比,业务和操作***核心目录使用率,网卡丢包错包数,网卡状态,CPU核数,操作***运行进程数。
三、健康模型
1.评估周期内至少需要包含两次采样,推荐的评估周期为2分钟,采样周期为30秒。
2.健康模型总分100分。
3.模型指标,类型及指标分数如下:
a.CPU使用率,类型:平均值,分数:20
b.物理内存剩余量,类型:原始值,分数:15
c.磁盘I/O读写延迟,类型:平均值,分数:15
d.CPU iowaitb百分比,类型:原始值,分数:15
e.业务和操作***核心目录使用率,类型:原始值,分数:15
f.网卡丢包错包数,类型:差值,分数:20
4.指标类型计算说明
原始值:取评估周期内最近一次采样点的指标值
平均值:评估周期内多个采样点的指标值之和/采样点个数
差值:评估周期内最近一次采样点指标值-最早一次采样点指标值
5.指标阈值及扣分
指标阈值的设定可以支持常量值,也可以是复杂规则,例如为规则表达式。阈值分成多个级别,不同级别对应的触发条件和扣分不同,本方案的指标阈值与扣分设置如下:
a.CPU使用率
一级:>80%,扣分:10
二级:>90%,当且仅当操作***运行进程数超过CPU核数2倍时成立成立,否则降为一级,扣分:20
三级:>99%,当且仅当操作***运行进程数超过CPU核数3倍时成立,否则降为二级,扣分:100
b.物理内存剩余量
一级:<2G,扣分:10
二级:<1G,扣分:20
三级:<500M,扣分:100
c.磁盘I/O读写延迟
一级:>15ms,扣分:10
二级:>30ms,扣分:15
d.iowait百分比
一级:>30%,扣分10
二级:>40%,扣分15
e.和操作***核心目录使用率
一级:>80%,扣分10
二级:>90%,扣分15
三级:=100%,扣分100
f.网卡丢包错包数
一级:>=10*评估周期内采样点个数,扣分20
二级:网卡状态非UP,扣分100
6.健康模型总分为计算方式为100-指标扣分之和,指标扣分之和超过100时,模型总分按照0分处理。
7.模型总分落在[90,100],认为数据库服务器硬件较为健康,[75,90)为一般,[60,75)需要进行进行预警,[0,60)这种情况一般表示数据库硬件存在故障。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围。

Claims (10)

1.一种基于专家模型的数据库服务器硬件健康评估方法,其特征在于,所述方法包括:
建立专家模型:采集操作***硬件指标,将硬件指标分成专家模型内指标,为专家模型内指标分配分数权重,并且制定多级阈值和扣分标准,指标值落在不同阈值范围扣除相应等级的分数;
将专家模型应用到数据库服务器硬件对象,自动周期性采集硬件指标;
根据专家模型规则计算数据库服务器硬件指标,实现自动健康评估,输出数据库服务器硬件的健康得分。
2.根据权利要求1所述的数据库服务器硬件健康评估方法,其特征在于,操作***提供基本的专家模型,用户可以根据操作***特点,对基本的专家模型进行复制和参数调节建立专家模型。
3.根据权利要求1所述的数据库服务器硬件健康评估方法,其特征在于,所述周期性采集硬件指标之后还包括,将硬件指标值写入数据库,周期性获取数据库内最近一段时间内录入的指标,按照专家模型规则计算得到健康分数。
4.根据权利要求1所述的数据库服务器硬件健康评估方法,其特征在于,所述指标的阈值设定支持常量值和表达式。
5.根据权利要求1所述的数据库服务器硬件健康评估方法,其特征在于,所述专家模型评估方法包括:
步骤S11:获取评估周期内指标数据;
步骤S12:获取专家模型内指标类型;
步骤S13:判断是否为原始值,若否,进入步骤S14’:计算平均值或差值,再进入步骤S14:将得到的指标值,专家模型内指标阈值输入规则引擎;若是,直接进入步骤S14;
步骤S15:判断阈值是否为常量,若否,进入步骤S16’:表达式运算获得常量阈值,进入步骤S16:判断是否超出阈值;若步骤S15的判断结果为是,则直接进入步骤S16;若步骤S16的判断结果为是,则进入步骤S17:扣除阈值等级对应的分数,进入步骤S18:专家模型总分减去扣分得到硬件健康得分;若步骤S16的判断结果为否,则直接进入步骤S18。
6.根据权利要求5所述的数据库服务器硬件健康评估方法,其特征在于,所述评估周期要大于采集周期。
7.根据权利要求6所述的数据库服务器硬件健康评估方法,其特征在于,所述评估周期内包括2次采样,评估周期为2分钟,采样周期为30秒。
8.根据权利要求1所述的数据库服务器硬件健康评估方法,其特征在于,所述专家模型的总分计算方式为100-指标扣分之和,指标扣分之和超过100时,专家模型总分按照0分处理。
9.根据权利要求1所述的数据库服务器硬件健康评估方法,其特征在于,所述指标包括CPU使用率,物理内存剩余量,磁盘I/O读写延迟,CPU iowait百分比,业务和操作***核心目录使用率,网卡丢包错包数,网卡状态,CPU核数,操作***运行进程数。
10.根据权利要求1所述的数据库服务器硬件健康评估方法,其特征在于,所述指标类型包括:
原始值:取评估周期内最近一次采样点的指标值;
平均值:评估周期内多个采样点的指标值之和/采样点个数;
差值:评估周期内最近一次采样点指标值-最早一次采样点指标值。
CN201811352658.3A 2018-11-14 2018-11-14 基于专家模型的数据库服务器硬件健康评估方法 Pending CN109542742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811352658.3A CN109542742A (zh) 2018-11-14 2018-11-14 基于专家模型的数据库服务器硬件健康评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811352658.3A CN109542742A (zh) 2018-11-14 2018-11-14 基于专家模型的数据库服务器硬件健康评估方法

Publications (1)

Publication Number Publication Date
CN109542742A true CN109542742A (zh) 2019-03-29

Family

ID=65847202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811352658.3A Pending CN109542742A (zh) 2018-11-14 2018-11-14 基于专家模型的数据库服务器硬件健康评估方法

Country Status (1)

Country Link
CN (1) CN109542742A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581045A (zh) * 2020-03-18 2020-08-25 平安科技(深圳)有限公司 数据库异常监测方法、装置、计算机装置及存储介质
CN112596991A (zh) * 2020-12-27 2021-04-02 卡斯柯信号有限公司 一种基于机器健康状态的热备倒切方法
CN112890816A (zh) * 2020-12-11 2021-06-04 万达信息股份有限公司 一种个人用户的健康指数评分方法和装置
CN113094245A (zh) * 2021-03-26 2021-07-09 四川新网银行股份有限公司 一种数据库集群健康性度量的方法
CN114647551A (zh) * 2022-03-11 2022-06-21 成都飞机工业(集团)有限责任公司 一种数据库自动化巡检方法、装置、设备及介质
CN115794590A (zh) * 2023-01-30 2023-03-14 麒麟软件有限公司 一种国产Linux操作***的健康评估方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103139007A (zh) * 2011-12-05 2013-06-05 阿里巴巴集团控股有限公司 应用服务器性能检测方法及***
CN104573984A (zh) * 2015-01-27 2015-04-29 国网四川省电力公司电力科学研究院 一种基于健康树的b/s信息***状态划分方法
CN106411609A (zh) * 2016-11-08 2017-02-15 上海新炬网络信息技术有限公司 一种it软硬件运行状态监控***
CN106776214A (zh) * 2016-12-12 2017-05-31 广州市申迪计算机***有限公司 一种服务器健康度评估方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103139007A (zh) * 2011-12-05 2013-06-05 阿里巴巴集团控股有限公司 应用服务器性能检测方法及***
CN104573984A (zh) * 2015-01-27 2015-04-29 国网四川省电力公司电力科学研究院 一种基于健康树的b/s信息***状态划分方法
CN106411609A (zh) * 2016-11-08 2017-02-15 上海新炬网络信息技术有限公司 一种it软硬件运行状态监控***
CN106776214A (zh) * 2016-12-12 2017-05-31 广州市申迪计算机***有限公司 一种服务器健康度评估方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581045A (zh) * 2020-03-18 2020-08-25 平安科技(深圳)有限公司 数据库异常监测方法、装置、计算机装置及存储介质
CN111581045B (zh) * 2020-03-18 2024-05-28 平安科技(深圳)有限公司 数据库异常监测方法、装置、计算机装置及存储介质
CN112890816A (zh) * 2020-12-11 2021-06-04 万达信息股份有限公司 一种个人用户的健康指数评分方法和装置
CN112596991A (zh) * 2020-12-27 2021-04-02 卡斯柯信号有限公司 一种基于机器健康状态的热备倒切方法
CN112596991B (zh) * 2020-12-27 2023-09-08 卡斯柯信号有限公司 一种基于机器健康状态的热备倒切方法
CN113094245A (zh) * 2021-03-26 2021-07-09 四川新网银行股份有限公司 一种数据库集群健康性度量的方法
CN113094245B (zh) * 2021-03-26 2023-06-06 四川新网银行股份有限公司 一种数据库集群健康性度量的方法
CN114647551A (zh) * 2022-03-11 2022-06-21 成都飞机工业(集团)有限责任公司 一种数据库自动化巡检方法、装置、设备及介质
CN115794590A (zh) * 2023-01-30 2023-03-14 麒麟软件有限公司 一种国产Linux操作***的健康评估方法和装置
CN115794590B (zh) * 2023-01-30 2023-10-31 麒麟软件有限公司 一种国产Linux操作***的健康评估方法和装置

Similar Documents

Publication Publication Date Title
CN109542742A (zh) 基于专家模型的数据库服务器硬件健康评估方法
CN106154209B (zh) 基于决策树算法的电能表故障预测方法
CN105588995B (zh) 一种电力计量自动化***线损异常检测方法
CN110988422A (zh) 一种窃电识别方法、装置及电子设备
CN102692615B (zh) 自动采集电量数据***
CN112946483B (zh) 电动汽车电池健康的综合评估方法及存储介质
CN107330540B (zh) 一种考虑电压质量的配电网台区缺供电量预测方法
CN109816031A (zh) 一种基于数据不均衡度量的变压器状态评估聚类分析方法
CN109472293A (zh) 一种基于机器学习的电网设备档案数据纠错方法
CN110738346A (zh) 一种基于威布尔分布的批次电能表可靠度预测方法
CN110927654A (zh) 一种智能电能表批次运行状态评价方法
CN116914917A (zh) 一种基于大数据的配电柜运行状态监测管理***
CN110968703B (zh) 基于lstm端到端抽取算法的异常计量点知识库构建方法及***
CN114290960A (zh) 获取动力电池的电池健康度的方法、装置和车辆
CN111552686A (zh) 一种电力数据质量评估方法及其装置
CN106682383B (zh) 一种计量***中对采集表码值精确的统计处理方法
CN108596450B (zh) 电网风险预警方法和***
CN110738415A (zh) 基于用电采集***和离群点算法的窃电用户分析方法
CN106709623B (zh) 一种基于风险计算模型的电网营销稽查风险管控方法
CN112345972A (zh) 基于停电事件的配电网线变关系异常诊断方法、装置及***
CN114665610B (zh) 一种基于无功功率采集的电容器监测方法、***及设备
CN110866696A (zh) 商铺掉铺风险评估模型训练方法及装置
US20180046927A1 (en) Data analysis device and analysis method
CN205643673U (zh) 基于计量器具质量跟踪评价***的计量装置报废告警装置
CN114168662A (zh) 一种基于多数据源的配电网问题梳理分析方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190329