CN111897802B

CN111897802B - 数据库容器故障定位方法及***

Info

Publication number: CN111897802B
Application number: CN202010794362.8A
Authority: CN
Inventors: 张晓娜; 暨光耀; 张�浩; 傅媛媛
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2023-08-04
Anticipated expiration: 2040-08-10
Also published as: CN111897802A

Abstract

本发明提供一种数据库容器故障定位方法及***，属于人工智能技术领域。该数据库容器故障定位方法包括：获取位于同一时间窗口的当前数据库容器性能特征和当前SQL特征；将当前数据库容器性能特征输入基于历史数据库容器性能特征和历史数据库容器识别结果创建的数据库容器决策树模型中，得到当前数据库容器识别结果；将当前SQL特征输入基于历史SQL特征和历史SQL识别结果创建的SQL决策树模型中，得到当前SQL识别结果；当当前数据库容器识别结果为异常时，判断当前SQL识别结果是否异常；当当前SQL识别结果为正常时，上传第一故障定位信息，否则上传第二故障定位信息。本发明可以精准高效地识别定位数据库容器故障。

Description

数据库容器故障定位方法及***

技术领域

本发明涉及人工智能技术领域，具体地，涉及一种数据库容器故障定位方法及***。

背景技术

目前，生产运维人员对数据库性能问题的分析一般分为两步：首先，通过监控发现相关性能指标超过所设定的经验阀值，确定数据库容器存在性能瓶颈；然后，由专人分析可能存在问题的低效SQL(Structured Query Language，结构化查询语言)，进一步定位问题原因。在实际应用中，这种方式能基本满足数据库的日常运维。然而，数据库容器的性能是否存在问题，不仅仅是单个指标超过阈值或多个指标超过阈值的简单组合，而是数据库容器相关性能指标的综合体现。所以，通过设定经验阈值的方式去判断数据库容器的性能问题，可能存在误判漏判的情况，准确率难以保证。此外，数据库的性能问题常有一定的复杂性，其中涉及的SQL语句可能成百上千，要从中识别出导致性能瓶颈的低效SQL并非易事。因此，最终性能问题原因能否精确定位，很大程度上依赖相关运维人员的经验积累和技术能力。对于小部分经验丰富且技术能力超强的高级生产运维人员而言，可能绝大部分性能问题都能精准定位并迎刃而解；但是对于大部分普通的一线生产运维人员来说，情况也许没有想象中乐观，可能出现耗时费力后仍然无法定位具体问题原因或分析不准确的情况。

发明内容

本发明实施例的主要目的在于提供一种数据库容器故障定位方法及***，以精准高效地识别定位数据库容器故障。

为了实现上述目的，本发明实施例提供一种数据库容器故障定位方法，包括：

获取位于同一时间窗口的当前数据库容器性能特征和当前SQL特征；

将当前数据库容器性能特征输入在随机森林算法下基于历史数据库容器性能特征和历史数据库容器识别结果创建的数据库容器决策树模型中，得到当前数据库容器识别结果；

将当前SQL特征输入在随机森林算法下基于历史SQL特征和历史SQL识别结果创建的SQL决策树模型中，得到当前SQL识别结果；

当当前数据库容器识别结果为异常时，判断当前SQL识别结果是否异常；

当当前SQL识别结果为正常时，上传第一故障定位信息，否则上传第二故障定位信息。

本发明实施例还提供一种数据库容器故障定位***，包括：

获取单元，用于获取位于同一时间窗口的当前数据库容器性能特征和当前SQL特征；

数据库容器识别结果单元，用于将当前数据库容器性能特征输入在随机森林算法下基于历史数据库容器性能特征和历史数据库容器识别结果创建的数据库容器决策树模型中，得到当前数据库容器识别结果；

SQL识别结果单元，用于将当前SQL特征输入在随机森林算法下基于历史SQL特征和历史SQL识别结果创建的SQL决策树模型中，得到当前SQL识别结果；

判断单元，用于当当前数据库容器识别结果为异常时，判断当前SQL识别结果是否异常；

上传单元，用于当当前SQL识别结果为正常时，上传第一故障定位信息，否则上传第二故障定位信息。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，处理器执行计算机程序时实现所述的数据库容器故障定位方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现所述的数据库容器故障定位方法的步骤。

本发明实施例的数据库容器故障定位方法及***将同一时间窗口的当前数据库容器性能特征和当前SQL特征分别输入各自的决策树模型中，得到当前数据库容器识别结果和当前SQL识别结果，当当前数据库容器识别结果异常时根据当前SQL识别结果上传故障定位信息，可以精准高效地识别定位数据库容器故障。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中数据库容器故障定位方法的流程图；

图2是本发明实施例中创建数据库容器决策树模型的流程图；

图3是本发明实施例中创建SQL决策树模型的流程图；

图4是本发明实施例中确定数据库容器性能特征的流程图；

图5是本发明实施例中确定SQL特征的流程图；

图6是本发明另一实施例中数据库容器故障定位方法的流程图；

图7是本发明实施例中数据采集的流程图；

图8是本发明实施例中确定数据库容器性能特征的流程图；

图9是本发明实施例中确定SQL特征的流程图；

图10是本发明另一实施例中创建数据库容器决策树模型的流程图；

图11是本发明又一实施例中数据库容器故障定位方法的流程图；

图12是本发明实施例中故障定位信息的示意图；

图13是本发明实施例中数据库容器故障定位***的结构框图；

图14是本发明实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本领域技术人员知道，本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

鉴于现有技术存在无法定位具体问题原因或分析不准确的情况，本发明实施例提供一种数据库容器故障定位方法，以精准高效地识别定位数据库容器故障。以下结合附图对本发明进行详细说明。

图1是本发明实施例中数据库容器故障定位方法的流程图。图6是本发明另一实施例中数据库容器故障定位方法的流程图。图11是本发明又一实施例中数据库容器故障定位方法的流程图。图12是本发明实施例中故障定位信息的示意图。如图1、图6、图11和图12所示，数据库容器故障定位方法包括：

S101：获取位于同一时间窗口的当前数据库容器性能特征和当前SQL特征。

具体实施时，数据分析模块分别从“数据库容器性能特征记录表”和“SQL特征记录表”中选取位于同一时间窗口T_Intv_i内的数据。例如，从数据库容器性能特征记录表中选取的数据为Data4DB，从SQL特征记录表中选取的数据为Data4MYSQL，其中Data4DB中只有一条数据，Data4MYSQL可能有多条数据，这些数据都属于同一个时间窗口，例如都属于时间窗口T₃₁-T₆₀。

S102：将当前数据库容器性能特征输入在随机森林算法下基于历史数据库容器性能特征和历史数据库容器识别结果创建的数据库容器决策树模型中，得到当前数据库容器识别结果。

具体实施时，数据库容器决策树模型的m个决策树可以得到m个数据库容器识别结果，根据m个数据库容器识别结果以少数服从多数的原则投票决定最终的当前数据库容器识别结果。例如，数据库容器识别结果为异常的数量大于数据库容器识别结果为正常的数量，则当前数据库容器识别结果为异常。

S103：将当前SQL特征输入在随机森林算法下基于历史SQL特征和历史SQL识别结果创建的SQL决策树模型中，得到当前SQL识别结果。

具体实施时，SQL决策树模型的m’个决策树可以得到m’个SQL识别结果，根据m’个SQL识别结果以少数服从多数的原则投票决定最终的当前SQL识别结果。例如，SQL识别结果为异常的数量大于SQL识别结果为正常的数量，则当前SQL识别结果为异常。

S104：当当前数据库容器识别结果为异常时，判断当前SQL识别结果是否异常。

S105：当当前SQL识别结果为正常时，上传第一故障定位信息，否则上传第二故障定位信息。

具体实施时，可通过电话、短信和邮件等方式将识别结果发送给相关运维人员，识别结果由以下数据信息组成：

时间|数据库容器ID|是否存在性能瓶颈|可疑低效SQL。

其中，时间为出现性能瓶颈问题(当前数据库容器识别结果为异常)的时间点，数据库容器ID唯一标识了存在性能瓶颈的数据库容器，是否存在性能瓶颈用于标识该数据库容器是否存在性能问题，可疑低效SQL为造成数据库容器性能问题的低效SQL语句(异常的SQL识别结果)。

当当前数据库容器识别结果为异常但当前SQL识别结果为正常时，可能是由于数据库请求量太高，导致数据库资源使用过高，此时上传的第一故障定位信息包括数据库容器的性能分析结果、容器实际线程数、容器设定的最大线程数、数据库实际连接数和数据库设定的最大连接数，用于提醒运维人员评估业务交易压力，及时为数据库容器进行扩容。

当当前数据库容器识别结果和当前SQL识别结果均为异常时，上传的第二故障定位信息包括存在性能问题的数据库容器、存在低效SQL的数据库实例的IP端口、低效的SQL以及低效SQL相关的表的索引名、索引字段、索引字段排序等。当当前数据库容器识别结果为正常但当前SQL识别结果为异常时，也可以上传第二故障定位信息至运维人员。

图1所示的数据库容器故障定位方法的执行主体可以为计算机。由图1所示的流程可知，本发明实施例的数据库容器故障定位方法将同一时间窗口的当前数据库容器性能特征和当前SQL特征分别输入各自的决策树模型中，得到当前数据库容器识别结果和当前SQL识别结果，当当前数据库容器识别结果异常时根据当前SQL识别结果上传故障定位信息，可以精准高效地识别定位数据库容器故障。

例如，当性能数据分析模块从数据库容器性能特征记录表中选取T时间窗口的数据作为输入以识别是否存在性能瓶颈(当前数据库容器识别结果为异常)时，MYSQL慢日志分析模块也从SQL特征记录表中选取T时间窗口的数据作为输入，识别此时是否存在低效SQL(当前SQL识别结果为异常)，如果识别出低效SQL，则此低效SQL为导致数据库容器出现性能瓶颈的SQL，如此可大大提高数据库容器性能问题的识别定位及处理效率。

图2是本发明实施例中创建数据库容器决策树模型的流程图。图10是本发明另一实施例中创建数据库容器决策树模型的流程图。如图2和图10所示，创建数据库容器决策树模型包括：

S201：获取历史数据库容器样本。

其中，历史数据库容器样本包括历史数据库容器性能特征和历史数据库容器识别结果。

表1是历史数据库容器样本表。如表1所示，历史数据库容器样本包括CPU_Ratio、Disk_IO、Disk_RT、Memory_Ratio、Network_IO、Thread_Number、Max_Thread和Y1/N1，分别表示CPU使用率、磁盘IO、磁盘IO响应时间、内存使用率、网络IO、实际线程数、最大线程数和历史数据库容器识别结果。Y1表示该历史数据库容器性能特征对应的数据库容器存在性能瓶颈(数据库容器识别结果为异常)，N1表示没有性能瓶颈(数据库容器识别结果为正常)。

表1

S202：从历史数据库容器样本中选取第一预设数量的样本作为数据库容器训练集。

例如，可以采取有放回随机采样的方式，从历史数据库容器样本中随机选择n个样本作为数据库容器训练集。

S203：根据数据库容器训练集中的历史数据库容器识别结果和历史数据库容器性能特征确定数据库容器决策树的分割节点。

S204：根据数据库容器决策树的分割节点创建数据库容器决策树模型。

具体实施时，可以使用ID3算法进行特征选择，生成数据库容器决策树模型。对于数据库容器训练集，可以从CPU使用率、磁盘IO、磁盘IO响应时间、内存使用率、网络IO、实际线程数和最大线程数这七个特征中选择四个特征，其中CPU使用率和内存使用率为必选项，另两个特征从另外的五个特征中随机选择。

在选择特征后，利用ID3算法从中选择信息增益最大的特征作为分割节点构建一颗决策树。数据库容器决策树模型包括m个数据库容器决策树(m为奇数)。ID3算法是指计算数据库容器训练集中每个特征的条件熵，得出它们信息增益的大小，最后从中选择信息增益最大的特征作为节点对样本进行***。

对于信息熵，假定n个样本中识别结果为第i类的样本所占的比例为p_i，则信息熵定义如下：

其中，Info(n)为n个样本的信息熵，c为样本的种类数量。Info(n)的值越小，则样本的纯度越高。例如，对于数据库容器训练集，若历史数据库容器识别结果为Y1的记录占20％，历史数据库容器识别结果为N1的记录占80％，则：

Info(n)＝-(0.2×log₂0.2+0.8×log₂0.8)＝0.7219。

对于条件熵，假定n个样本中以特征A划分数据，将n个样本划分为k部分，每部分对应特征A的一个属性，第j部分的样本数为n_j，则n个样本在特征A条件下的条件熵定义如下：

其中，Info_A(n)为n个样本在特征A条件下的条件熵，Info(n_j)为第j部分样本数据的信息熵。例如，在对数据库容器训练集进行特征分割时选取CPU利用率这一特征，将CPU利用率划分为5部分，分别为0-20％,21％-40％,41％-60％,61％-80％和81％-100％，对应的样本分别为n₁、n₂、n₃、n₄和n₅，用|n_i|表示第i个样本n_i的数据量，则以CPU利用率这一特征为条件进行样本分割得到的条件熵为：

以特征A分割数据时，其信息增益定义如下：

Gain(A)＝Info(n)-Info_A(n)。

递归执行上述步骤可以生成一个数据库容器决策树。

图3是本发明实施例中创建SQL决策树模型的流程图。如图3所示，创建SQL决策树模型包括：

S301：获取历史SQL样本。

其中，历史SQL样本包括历史SQL特征和历史SQL识别结果。

表2是历史SQL样本表。如表2所示，历史SQL样本包括SQL_Duration、SQL_LockTime、SQL_LowNum、SQL_Scan_LowNum和Y2/N2，分别表示SQL耗时、SQL锁定时间、SQL所发送的行数、SQL所扫描的行数和历史SQL识别结果。Y2表示该历史SQL特征对应的SQL是低效SQL(SQL识别结果为异常)，N2表示不是低效SQL(SQL识别结果为正常)。

表2

S302：从历史SQL样本中选取第二预设数量的样本作为SQL训练集。

例如，可以采取有放回随机采样的方式，从历史SQL样本中随机选择n’个样本作为SQL训练集。

S303：根据SQL训练集中的历史SQL识别结果和历史SQL特征确定SQL决策树的分割节点。

S304：根据SQL决策树的分割节点创建SQL决策树模型。

具体实施时，可以使用ID3算法进行特征选择，生成SQL决策树模型。对于SQL训练集，可以从SQL耗时、SQL锁定时间、SQL所发送的行数和SQL所扫描的行数这四个特征中选择三个特征，其中SQL耗时和SQL锁定时间为必选项，另一个特征从SQL所发送的行数和SQL所扫描的行数中随机选择一个。SQL决策树模型的创建流程可以参考如上所述的数据库容器决策树模型的创建流程。SQL决策树模型包括m’个SQL决策树(m’为奇数)。

图4是本发明实施例中确定数据库容器性能特征的流程图。图7是本发明实施例中数据采集的流程图。图8是本发明实施例中确定数据库容器性能特征的流程图。如图4、图7和图8所示，数据库容器故障定位方法还包括：

S401：采集数据库容器性能数据。

其中，数据库容器性能数据包括历史数据库容器性能数据和当前数据库容器性能数据。用于采集数据库容器性能数据的数据采集模块随数据库容器自启动，启动后创建数据库容器性能数据采集线程以采集数据库容器性能数据。

具体实施时，可以在数据库容器中部署数据采集代理(agent)，采集数据库容器性能数据传输给数据存储模块。数据采集代理包含一个数据库实例配置文件，用于配置该容器下数据库实例的实例名和端口。数据采集周期可根据应用实际进行设置，比如设置为每10秒采集1次；数据库容器性能数据包括容器IP地址、CPU(中央处理器)使用率、磁盘IO(输入输出)、磁盘IO响应时间、内存使用率、网络IO、实际线程数和最大线程数。

数据存储模块接收并缓存数据采集代理采集的数据库容器性能数据，按采集时间升序存储在数据库容器性能数据记录表，每一条数据库容器性能数据都有对应的采集时间。所存储的数据库容器性能数据由***管理员设定清理周期，定期清理。比如，设定为每周清理，则每周清理一次数据，只保留最近一周的数据，以避免占用过多磁盘空间。表3是数据库容器性能数据记录表。如表3所示，T₁、Host_IP1、CPU_Ratio、Disk_IO、Disk_RT、Memory_Ratio、Network_IO、Thread_Number和Max_Thread分别表示数据库容器性能数据采集时间，容器IP地址，CPU使用率、磁盘IO、磁盘IO响应时间、内存使用率、网络IO、实际线程数和最大线程数。

表3

S402：对数据库容器性能数据进行去噪处理和中值填充处理。

其中，可以采用正态分布3σ原则进行数据去噪，把采集到的数据库容器性能数据理想化为正态分布，其模型如下：

其中，σ为数据库容器性能数据的标准差，μ为数据库容器性能数据的均值，x为数据库容器性能数据。

相对于正常数据，噪声数据可以理解为小概率数据。通过利用正态分布的“x落在(μ-3σ，μ+3σ)以外的概率小于千分之三”的特点，对每一个数据库容器性能数据进行处理，计算数据库容器性能数据的标准差，把小于μ-3σ和大于μ+3σ的数据作为噪声数据剔除。

中值填充处理即取其左右相邻的两个数据均值进行填充。例如，在T₁至T₁₀这段时间内，缺失T₆时刻的数据，则取T₅和T₇时刻数据的均值填充作为T₆时刻的数据；若缺失T₆、T₇和T₈三个时刻的数据，则取T₅和T₉时刻数据的均值填充T₇时刻数据，然后取T₅和T₇时刻数据的均值填充T₆时刻数据，取T₇和T₉时刻数据的均值填充T₈时刻数据。

S403：按照预设的时间窗口划分经过去噪处理和中值填充处理的数据库容器性能数据。

由于数据库容器性能数据由数据采集代理周期地采集，因此所采集的数据库容器性能数据属于有时序的离散数据。在实际应用中，数据库容器性能瓶颈的识别周期(例如5分钟识别一次)通常远小于数据采集周期，所以需要对所采集的数据库容器性能数据做进一步离散处理。时间窗口的大小等于数据库容器性能瓶颈的识别周期，例如，若识别周期为5分钟，则将时间窗口设置为5分钟。

S404：根据划分后的数据库容器性能数据确定数据库容器性能特征。

其中，数据库容器性能特征包括历史数据库容器性能特征和当前数据库容器性能特征。

具体实施时，可以将每一时间窗口的数据的均值作为所在时间窗口的数据库容器性能特征，最后按时序组织各时间窗口的数据库容器性能特征存入数据库容器性能特征记录表。当前数据库容器性能特征会作为后续数据分析模块的输入。表4是数据库容器性能特征记录表。如表4所示，T_Intv表示时间窗口的起止时刻，如T₁-T₃₀、T₃₁-T₆₀和T₆₁-T₉₀等，Host_IP1为容器IP地址，CPU_Ratio、Disk_IO、Disk_RT、Memory_Ratio、Network_IO、Thread_Number和Max_Thread分别表示T_Intv时间窗口内CPU使用率的均值、磁盘IO的均值、磁盘IO响应时间的均值、内存使用率的均值、网络IO的均值、实际线程数的均值和最大线程数的均值。

表4

图5是本发明实施例中确定SQL特征的流程图。图9是本发明实施例中确定SQL特征的流程图。如图5、图7和图9所示，数据库容器故障定位方法还包括：

S501：采集SQL数据。

其中，SQL数据包括SQL数据和当前SQL数据。用于采集SQL数据的数据采集模块随数据库容器自启动，启动后创建SQL数据采集线程以采集SQL数据。

具体实施时，可以在数据库容器中部署数据采集代理(agent)，采集SQL数据(MYSQL(关系型数据库管理***)慢日志)传输给数据存储模块。数据采集周期可根据应用实际进行设置，比如设置为每10秒采集1次；SQL数据包括SQL文本、SQL执行时间、执行SQL的数据库容器IP地址、SQL耗时、SQL锁定时间、SQL所发送的行数和SQL所扫描的行数。为了使SQL数据中记录更多的SQL信息，可根据实际需要，在数据采集前把采集阈值定义得比实际需要更低一些，以避免遗漏潜在的低效SQL。

数据存储模块接收并缓存数据采集代理采集的SQL数据，按采集时间升序存储在SQL数据记录表，每一条SQL数据都有对应的采集时间。所存储的SQL数据由***管理员设定清理周期，定期清理。比如，设定为每周清理，则每周清理一次数据，只保留最近一周的数据，以避免占用过多磁盘空间。表5是SQL数据记录表。如表5所示，T₂、SQL、SQL_exeTime、Host_IP2、SQL_Duration、SQL_LockTime、SQL_LowNum和SQL_Scan_LowNum分别表示SQL数据采集时间，SQL文本、SQL执行时间、执行SQL的数据库容器IP地址、SQL耗时、SQL锁定时间、SQL所发送的行数和SQL所扫描的行数。

表5

S502：按照时间窗口划分SQL数据。

由于SQL数据由数据采集代理周期地采集，因此所采集的SQL数据属于有时序的离散数据。在实际应用中，低效SQL的识别周期(例如5分钟识别一次)通常远小于数据采集周期，所以需要对所采集的SQL数据做进一步离散处理。时间窗口的大小等于低效SQL的识别周期，例如，若识别周期为5分钟，则将时间窗口设置为5分钟。

另外，由于一条SQL语句(SQL文本)可能被执行多次，从而有多条SQL数据，因此需要对SQL数据进行处理，将同一条SQL语句的相关特征合并。

S503：根据划分后的SQL数据确定SQL特征。

其中，SQL特征包括历史SQL特征和当前SQL特征。

具体实施时，可以对SQL执行时间取中值，对SQL耗时、SQL锁定时间、SQL所发送的行数和SQL所扫描的行数取均值。对SQL执行时间取中值即从时间窗口内取同一SQL文本的最早SQL执行时间和最晚SQL执行时间的中值。例如，最早SQL执行时间为T₁时刻，最晚SQL执行时间为T_n时刻，则取值为：

按时序组织各时间窗口的SQL特征并存入SQL特征记录表。当前SQL特征会作为后续数据分析模块的输入。表6是SQL特征记录表。如表6所示，T_Intv表示时间窗口的起止时刻，如T₁-T₃₀、T₃₁-T₆₀和T₆₁-T₉₀等，SQL和Host_IP2分别为SQL文本和执行SQL的数据库容器IP地址，SQL_exeTime为时间窗口T_Intv内该SQL文本执行时间的中值，SQL_Duration、SQL_LockTime、SQL_LowNum和SQL_Scan_LowNum分别表示T_Intv时间窗口内SQL耗时的均值、SQL锁定时间的均值、SQL所发送的行数的均值和SQL所扫描的行数的均值。

表6

本发明实施例的具体流程如下：

1、采集历史数据库容器性能数据和历史SQL数据。

2、对历史数据库容器性能数据进行去噪处理和中值填充处理。

3、按照预设的时间窗口划分经过去噪处理和中值填充处理的历史数据库容器性能数据，根据划分后的历史数据库容器性能数据确定历史数据库容器性能特征。按照时间窗口划分历史SQL数据，根据划分后的历史SQL数据确定历史SQL特征。

4、获取历史数据库容器识别结果，根据历史数据库容器性能特征和历史数据库容器识别结果构成历史数据库容器样本。

5、从历史数据库容器样本中选取第一预设数量的样本作为数据库容器训练集，根据数据库容器训练集中的历史数据库容器识别结果和历史数据库容器性能特征确定数据库容器决策树的分割节点，根据数据库容器决策树的分割节点创建数据库容器决策树模型。

6、获取历史SQL识别结果，根据历史SQL特征和历史SQL识别结果构成历史SQL样本。

7、从历史SQL样本中选取第二预设数量的样本作为SQL训练集，根据SQL训练集中的历史SQL识别结果和历史SQL特征确定SQL决策树的分割节点，根据SQL决策树的分割节点创建SQL决策树模型。

8、采集当前数据库容器性能数据和当前SQL数据。

9、对当前数据库容器性能数据进行去噪处理和中值填充处理。

10、按照预设的时间窗口划分经过去噪处理和中值填充处理的当前数据库容器性能数据，根据划分后的当前数据库容器性能数据确定当前数据库容器性能特征。按照时间窗口划分当前SQL数据，根据划分后的当前SQL数据确定当前SQL特征。

11、获取位于同一时间窗口的当前数据库容器性能特征和当前SQL特征。

12、将当前数据库容器性能特征输入数据库容器决策树模型中，得到当前数据库容器识别结果；将当前SQL特征输入SQL决策树模型中，得到当前SQL识别结果。

13、当当前数据库容器识别结果为异常时，判断当前SQL识别结果是否异常。

14、当当前SQL识别结果为正常时，上传第一故障定位信息，否则上传第二故障定位信息。

综上，为了更精准、高效地识别数据库容器的性能瓶颈及相关的低效SQL，本发明公开了一种数据库容器故障定位方法。该方法基于随机森林算法，通过将数据库容器性能数据和SQL数据以固定的时间窗口划分并处理，建立数据库容器性能数据和SQL数据的统一时序关系，能精准、高效地识别各时间窗口下存在的数据库容器性能瓶颈及造成该性能瓶颈的相关低效SQL，并实时发送故障定位给运维人员，为数据库的日常生产运维提供决策依据。一方面可提高数据库容器性能瓶颈的识别效率，加快生产运维人员对数据库容器性能问题的响应速度；另一方面可提高对低效SQL的识别精准度，帮助生产运维人员快速定位问题原因，加速问题解决。

基于同一发明构思，本发明实施例还提供了一种数据库容器故障定位***，由于该***解决问题的原理与数据库容器故障定位方法相似，因此该***的实施可以参见方法的实施，重复之处不再赘述。

图13是本发明实施例中数据库容器故障定位***的结构框图。如图13所示，数据库容器故障定位***包括：

在其中一种实施例中，还包括：数据库容器决策树模型创建单元，用于：

获取历史数据库容器样本；其中，历史数据库容器样本包括历史数据库容器性能特征和历史数据库容器识别结果；

从历史数据库容器样本中选取第一预设数量的样本作为数据库容器训练集；

根据数据库容器训练集中的历史数据库容器识别结果和历史数据库容器性能特征确定数据库容器决策树的分割节点；

根据数据库容器决策树的分割节点创建数据库容器决策树模型。

在其中一种实施例中，还包括：SQL决策树模型创建单元，用于：

获取历史SQL样本；其中，历史SQL样本包括历史SQL特征和历史SQL识别结果；

从历史SQL样本中选取第二预设数量的样本作为SQL训练集；

根据SQL训练集中的历史SQL识别结果和历史SQL特征确定SQL决策树的分割节点；

根据SQL决策树的分割节点创建SQL决策树模型。

在其中一种实施例中，还包括：

数据库容器性能数据采集单元，用于采集数据库容器性能数据；其中，数据库容器性能数据包括历史数据库容器性能数据和当前数据库容器性能数据；

预处理单元，用于对数据库容器性能数据进行去噪处理和中值填充处理；

第一划分单元，用于按照预设的时间窗口划分经过去噪处理和中值填充处理的数据库容器性能数据；

数据库容器性能特征确定单元，用于根据划分后的数据库容器性能数据确定数据库容器性能特征；其中，数据库容器性能特征包括历史数据库容器性能特征和当前数据库容器性能特征。

在其中一种实施例中，还包括：

SQL数据采集单元，用于采集SQL数据；其中，SQL数据包括历史SQL数据和当前SQL数据；

第二划分单元，用于按照时间窗口划分SQL数据；

SQL特征确定单元，用于根据划分后的SQL数据确定SQL特征；其中，SQL特征包括历史SQL特征和当前SQL特征。

综上，本发明实施例的数据库容器故障定位***将同一时间窗口的当前数据库容器性能特征和当前SQL特征分别输入各自的决策树模型中，得到当前数据库容器识别结果和当前SQL识别结果，当当前数据库容器识别结果异常时根据当前SQL识别结果上传故障定位信息，可以精准高效地识别定位数据库容器故障。

本发明实施例还提供能够实现上述实施例中的数据库容器故障定位方法中全部步骤的一种计算机设备的具体实施方式。图14是本发明实施例中计算机设备的结构框图，参见图14，所述计算机设备具体包括如下内容：

处理器(processor)1401和存储器(memory)1402。

所述处理器1401用于调用所述存储器1402中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的数据库容器故障定位方法中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

综上，本发明实施例的计算机设备将同一时间窗口的当前数据库容器性能特征和当前SQL特征分别输入各自的决策树模型中，得到当前数据库容器识别结果和当前SQL识别结果，当当前数据库容器识别结果异常时根据当前SQL识别结果上传故障定位信息，可以精准高效地识别定位数据库容器故障。

本发明实施例还提供能够实现上述实施例中的数据库容器故障定位方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的数据库容器故障定位方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

综上，本发明实施例的计算机可读存储介质将同一时间窗口的当前数据库容器性能特征和当前SQL特征分别输入各自的决策树模型中，得到当前数据库容器识别结果和当前SQL识别结果，当当前数据库容器识别结果异常时根据当前SQL识别结果上传故障定位信息，可以精准高效地识别定位数据库容器故障。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个***的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元，或装置都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

Claims

1.一种数据库容器故障定位方法，其特征在于，包括：

将所述当前数据库容器性能特征输入在随机森林算法下基于历史数据库容器性能特征和历史数据库容器识别结果创建的数据库容器决策树模型中，得到当前数据库容器识别结果；

将所述当前SQL特征输入在随机森林算法下基于历史SQL特征和历史SQL识别结果创建的SQL决策树模型中，得到当前SQL识别结果；

当所述当前数据库容器识别结果为异常时，判断所述当前SQL识别结果是否异常；

当所述当前SQL识别结果为正常时，上传第一故障定位信息，否则上传第二故障定位信息；

其中，所述第一故障定位信息包括数据库容器的性能分析结果、容器实际线程数、容器设定的最大线程数、数据库实际连接数和数据库设定的最大连接数；所述第二故障定位信息包括存在性能问题的数据库容器、存在异常SQL的数据库实例的IP端口、异常的SQL以及异常SQL相关的表的索引名、索引字段、索引字段排序。

2.根据权利要求1所述的数据库容器故障定位方法，其特征在于，创建数据库容器决策树模型包括：

获取历史数据库容器样本；其中，所述历史数据库容器样本包括历史数据库容器性能特征和历史数据库容器识别结果；

从所述历史数据库容器样本中选取第一预设数量的样本作为数据库容器训练集；

根据所述数据库容器训练集中的历史数据库容器识别结果和历史数据库容器性能特征确定数据库容器决策树的分割节点；

根据所述数据库容器决策树的分割节点创建所述数据库容器决策树模型。

3.根据权利要求1所述的数据库容器故障定位方法，其特征在于，创建SQL决策树模型包括：

获取历史SQL样本；其中，所述历史SQL样本包括历史SQL特征和历史SQL识别结果；

从所述历史SQL样本中选取第二预设数量的样本作为SQL训练集；

根据所述SQL训练集中的历史SQL识别结果和历史SQL特征确定SQL决策树的分割节点；

根据所述SQL决策树的分割节点创建所述SQL决策树模型。

4.根据权利要求1所述的数据库容器故障定位方法，其特征在于，还包括：

采集数据库容器性能数据；其中，所述数据库容器性能数据包括历史数据库容器性能数据和当前数据库容器性能数据；

对所述数据库容器性能数据进行去噪处理和中值填充处理；

按照预设的时间窗口划分经过去噪处理和中值填充处理的数据库容器性能数据；

根据划分后的数据库容器性能数据确定数据库容器性能特征；其中，所述数据库容器性能特征包括所述历史数据库容器性能特征和所述当前数据库容器性能特征。

5.根据权利要求4所述的数据库容器故障定位方法，其特征在于，还包括：

采集SQL数据；其中，所述SQL数据包括历史SQL数据和当前SQL数据；

按照所述时间窗口划分所述SQL数据；

根据划分后的SQL数据确定SQL特征；其中，所述SQL特征包括历史SQL特征和所述当前SQL特征。

6.一种数据库容器故障定位***，其特征在于，包括：

数据库容器识别结果单元，用于将所述当前数据库容器性能特征输入在随机森林算法下基于历史数据库容器性能特征和历史数据库容器识别结果创建的数据库容器决策树模型中，得到当前数据库容器识别结果；

SQL识别结果单元，用于将所述当前SQL特征输入在随机森林算法下基于历史SQL特征和历史SQL识别结果创建的SQL决策树模型中，得到当前SQL识别结果；

判断单元，用于当所述当前数据库容器识别结果为异常时，判断所述当前SQL识别结果是否异常；

上传单元，用于当所述当前SQL识别结果为正常时，上传第一故障定位信息，否则上传第二故障定位信息；

7.根据权利要求6所述的数据库容器故障定位***，其特征在于，还包括：数据库容器决策树模型创建单元，用于：

8.根据权利要求6所述的数据库容器故障定位***，其特征在于，还包括：SQL决策树模型创建单元，用于：

根据所述SQL决策树的分割节点创建所述SQL决策树模型。

9.根据权利要求6所述的数据库容器故障定位***，其特征在于，还包括：

数据库容器性能数据采集单元，用于采集数据库容器性能数据；其中，所述数据库容器性能数据包括历史数据库容器性能数据和当前数据库容器性能数据；

预处理单元，用于对所述数据库容器性能数据进行去噪处理和中值填充处理；

数据库容器性能特征确定单元，用于根据划分后的数据库容器性能数据确定所述数据库容器性能特征；其中，所述数据库容器性能特征包括所述历史数据库容器性能特征和所述当前数据库容器性能特征。

10.根据权利要求9所述的数据库容器故障定位***，其特征在于，还包括：

SQL数据采集单元，用于采集SQL数据；其中，所述SQL数据包括历史SQL数据和当前SQL数据；

第二划分单元，用于按照所述时间窗口划分所述SQL数据；

SQL特征确定单元，用于根据划分后的SQL数据确定所述SQL特征；其中，所述SQL特征包括历史SQL特征和所述当前SQL特征。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的数据库容器故障定位方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一项所述的数据库容器故障定位方法的步骤。