CN113608909B - 数据处理方法、装置、设备、***、存储介质及程序产品 - Google Patents

数据处理方法、装置、设备、***、存储介质及程序产品 Download PDF

Info

Publication number
CN113608909B
CN113608909B CN202110864262.2A CN202110864262A CN113608909B CN 113608909 B CN113608909 B CN 113608909B CN 202110864262 A CN202110864262 A CN 202110864262A CN 113608909 B CN113608909 B CN 113608909B
Authority
CN
China
Prior art keywords
data
database system
abnormal
flow
suspected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110864262.2A
Other languages
English (en)
Other versions
CN113608909A (zh
Inventor
杨科
沈春辉
杨成虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202110864262.2A priority Critical patent/CN113608909B/zh
Publication of CN113608909A publication Critical patent/CN113608909A/zh
Application granted granted Critical
Publication of CN113608909B publication Critical patent/CN113608909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据处理方法、装置、设备、***、存储介质及程序产品。该方法包括:针对预定义的至少一种异常问题,根据异常问题对应的数据类别,从数据库***运行产生的数据中,获取分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据;根据异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定数据库***中存在异常问题的疑似对象。本申请实施例能够减小对于数据库***进行分析时所消耗的计算资源。

Description

数据处理方法、装置、设备、***、存储介质及程序产品
技术领域
本申请涉及数据库技术领域,尤其涉及一种数据处理方法、装置、设备、***、存储介质及程序产品。
背景技术
数据库***(Database System),是由数据库及其管理软件组成的***。数据库***包括集中式数据库***和分布式数据库***。
通常,可以对数据库***运行中存在的问题进行分析、定位甚至自动修复。具体的,可以采集数据库***运行产生的全量查询请求数据、全量写入请求数据以及全量日志数据等,在对采集到的全量数据进行清洗、分析等处理的基础上,确定出数据库***存在的问题。然而,这种方式存在对计算资源的消耗较大的问题。
发明内容
本申请实施例提供一种数据处理方法、装置、设备、***、存储介质及程序产品,用以解决现有技术中对于数据库***进行分析时***对计算资源的消耗较大的问题。
第一方面,本申请实施例提供一种数据处理方法,包括:
针对预定义的至少一种异常问题,根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,获取分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据;所述目标部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度大的疑似对象,所述全部数据中的其他部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度小的疑似对象;
根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象。
第二方面,本申请实施例提供一种数据处理装置,包括:
获取模块,用于针对预定义的至少一种异常问题,根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,获取分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据;所述目标部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度大的疑似对象,所述全部数据中的其他部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度小的疑似对象;
处理模块,用于根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象。
第三方面,本申请实施例提供一种数据处理装置,包括:
采集模块,用于针对预定义的至少一种异常问题,根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,采集分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据;所述目标部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度大的疑似对象,所述全部数据中的其他部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度小的疑似对象;
处理模块,用于根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象。
第四方面,本申请实施例提供一种计算机设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如第一方面中任一项所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序指令,当所述指令由处理器执行时,用于实现如第一方面中任一项所述的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被执行时,实现如权利要求第一方面任一项所述的方法。
在本申请实施例中,从数据库的客户角度,预定义了与客户侧异常对应的至少一种异常问题,异常问题存在对应的数据类别以及数据分析逻辑,计算机设备根据数据类别从数据库***运行产生的数据中获取分析对应异常问题所需的全部数据中的目标部分数据作为待处理数据,并根据数据分析逻辑对对应的待处理数据进行处理,以确定数据库***中存在异常问题的疑似对象,由于全部数据中的目标部分数据能够用于确定存在异常问题且对数据库***运行的影响程度大的疑似对象,而全部数据中的其他部分数据能够用于确定存在异常问题且对数据库***运行的影响程度小的疑似对象,因此通过获取目标部分数据作为待处理数据,能够从需要确定出对数据库***运行影响较大的疑似对象的目的出发,使得可以仅对全部数据中的部分数据进行数据采集,实现了轻量化的数据采集,进一步的,由于只需要对目标部分数据进行处理,因此实现了轻量化的数据处理,与重量化的数据采集和重量化的数据处理相比,节省了计算资源,减少了对于计算资源的消耗。另外,由于处理结果为确定出存在异常问题的疑似对象,使得对于数据库普通客户而言,能够获知是否存在疑似某一种或多种异常问题的疑似对象,从而能指导客户进一步进行问题处理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的应用场景示意图;
图2为本申请一实施例提供的数据处理方法的流程示意图;
图3为本申请一实施例提供针对请求热点问题的框图;
图4为本申请一实施例提供针对流量热点问题的框图;
图5为本申请一实施例提供针对大查询请求问题的框图;
图6为本申请一实施例提供的数据处理装置的结构示意图;
图7为本申请一实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者***中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
为了方便本领域技术人员理解本申请实施例提供的技术方案,下面先对技术方案实现的技术环境进行说明。
相关技术中,对于数据库***进行分析常用的数据处理方法,主要包括采集数据库***运行产生的全量日志数据等,在对采集到的全量数据进行清洗、分析等处理的基础上,确定出数据库***存在的问题,全量数据采集以及针对全量数据的处理,对计算资源的消耗较大,因此相关技术中亟需一种能够减小对计算资源消耗的数据处理方式。
基于类似于上文所述的实际技术需求,本申请提供的数据处理方法可以利用技术化的手段减小对于数据库***进行分析时所消耗的计算资源。
下面通过一个示例性的应用场景具体说明本申请各个实施例提供的数据处理方法。
图1为本申请一实施例提供的数据处理方法的应用场景示意图。如图1所示,该应用场景中可以包括数据库***11和数据处理***12。数据库***11中可以包括控制者(master)节点以及多个数据节点,控制者节点可以负责调度,数据节点可以负责提供对外的数据的读写请求等。在数据库***11运行的过程中,数据库***11可以透出其运行产生的一些数据,例如日志数据等。
数据处理***12位于数据库***11之上,数据处理***12可以包括用于采集数据库***11运行产生的数据进行数据采集的采集模块121,以及用于对采集模块所采集到的数据进行数据处理的处理模块122,部署处理模块122的计算机设备(记为计算机设备X)可以执行本申请实施例提供的数据处理方法。
通常,在对数据库***进行分析时,需要从数据库***获取数据库***运行产生的全量日志数据、全量查询请求数据以及全量写入请求等类型的全量数据,并对获取到的全量数据进行清洗、分析等处理,以确定出数据库***存在的问题。由于需要进行全量数据的采集以及针对全量数据的数据处理,即数据采集以及数据处理均是重量化的,因此存在对计算资源的消耗较大的问题。
并且,由于数据采集以及数据处理均需要消耗较大的计算资源,因此用于进行数据处理的处理模块与数据库***通常是部署在不同的计算机设备,并由此该处理模块通常是作为中心化的处理模块,对应多个数据库***。然而,中心化的处理模块可以为部署在公有云上的数据库***提供分析服务,但无法为部署在网络隔离的专有云上的数据库***提供分析服务,适用的服务对象非常受限。
另外,如果通过数据库实例中的进程来运行采集模块对应的代码,由于传统技术中采集模块需要进行重量化的数据采集,对于计算资源的消耗较大,资源规格较小的数据库实例自身的计算资源非常有限,不能支持重资源消耗的数据采集,因此只能在资源规格较大的数据库实例中运行采集模块,而不能在资源规格较小的数据库实例中运行采集模块,适用的实例也非常有限。
此外,传统技术中,通过对采集到的全量数据进行处理,所得到的处理结果是数据库***的***内部指标,适合经验丰富的***管理者进行问题排查,从数据库普通客户视角显得不足,缺少能指导客户进一步问题处理的分析结论。
为了解决对于数据库***进行分析时对计算资源的消耗较大的技术问题,在图1所示的应用场景中,从数据库的客户角度,预定义了与客户侧异常对应的至少一种异常问题,异常问题存在对应的数据类别以及数据分析逻辑,计算机设备X根据数据类别从数据库***运行产生的数据中获取分析对应异常问题所需的全部数据中的目标部分数据作为待处理数据,并根据数据分析逻辑对对应的待处理数据进行处理,以确定数据库***中存在异常问题的疑似对象,由于全部数据中的目标部分数据能够用于确定存在异常问题且对数据库***运行的影响程度大的疑似对象,而全部数据中的其他部分数据能够用于确定存在异常问题且对数据库***运行的影响程度小的疑似对象,因此通过获取目标部分数据作为待处理数据,能够从需要确定出对数据库***运行影响较大的疑似对象的目的出发,使得可以仅对全部数据中的部分数据进行数据采集,实现了轻量化的数据采集,进一步的,由于只需要对目标部分数据进行处理,因此实现了轻量化的数据处理,与重量化的数据采集和重量化的数据处理相比,节省了计算资源。另外,由于处理结果为确定出存在异常问题的疑似对象,使得对于数据库普通客户而言,能够获知是否存在疑似某一种或多种异常问题的疑似对象,从而能指导客户进一步进行问题处理。
基于上述,在图1所示的应用场景中,计算机设备X针对预定义的至少一种异常问题,根据异常问题对应的数据类别,从数据库***运行产生的数据中,获取分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据,并根据异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定数据库***中存在异常问题的疑似对象。
由于本申请实施例中是通过轻量化的数据采集以及轻量化的数据处理来实现对数据库***的分析,对计算资源的消耗均较小,因此一个实施例中,数据处理***12中的采集模块121和处理模块122可以部署在同一计算机设备,即获取分析对应异常问题所需的目标部分数据具体可以包括采集分析对应异常问题所需的目标部分数据,使得数据处理***12与数据库***11可以位于同一网络环境中,从而使得数据处理***12不但可以为部署在公有云上的数据库***提供分析服务,还可以为部署在网络隔离的专有云上的数据库***提供分析服务。
进一步的,由于数据采集以及数据处理对于计算资源的消耗均较小,因此对于运行数据处理***12对应代码的数据库实例的资源规格要求较低,从而使得能够在资源规格较小的数据库实例中运行,扩大的适用的实例范围,满足不同资源规格实例的需求。
另一个实施例中,数据处理***12中的采集模块121和处理模块122可以部署在不同的计算机设备,即获取分析对应异常问题所需的目标部分数据具体可以包括接收其他设备采集并发送的分析对应异常问题所需的目标部分数据。
需要说明的是,以下主要以由计算机设备X进行数据采集为例进具体说明。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图2为本申请一实施例提供的数据处理方法的流程示意图,如图2所示,本实施例的方法可以包括:
步骤21,针对预定义的至少一种异常问题,根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,获取分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据;
步骤22,根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象。
本申请实施例中,所述目标部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度大的疑似对象,所述全部数据中的其他部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度小的疑似对象。即,目标部分数据能够用于确定对数据库***运行的影响程度较大的疑似对象,其他部分数据能够用于确定对数据库***运行的影响程度较小疑似对象。
考虑到从客户使用数据库***的角度,客户比较关注数据库***的运行情况,因此本申请实施例中在对数据库***进行分析时,分析目的可以为需要确定出对数据库***运行影响较大的疑似对象,而不关心对数据库***运行影响较小的疑似对象。基于此,虽然其他部分数据也能够用于确定存在异常问题的疑似对象,但是从需要确定出对数据库***运行影响较大的疑似对象的目的出发,由于其他部分数据能够用于确定的疑似对象对数据库***运行的影响程度较小,因此可以仅对全部数据中的目标部分数据进行数据采集,而不对其他部分数据进行数据采集,实现了轻量化的数据采集,并由此实现了轻量化的数据处理。
所述至少一种问题可以根据需要灵活定义。本申请发明人从客户使用数据库***的角度出发,提出了客户侧异常问题这一个概念,并提出了客户侧异常问题包括三种异常问题,分别为请求热点问题、流量异常增长问题以及大查询请求问题,这三种异常问题基本能覆盖到生产环境下,数据库***客户异常使用的各类场景。
其中,请求热点问题,是指由于主键设计不合理,导致数据读写存在严重倾斜,例如读或者写集中在表的某一分片(Region),将数据库分布式的能力退化成单节点形态。
流量异常增长(Abnormal Flow)问题,是指由于表流量的异常增长,导致超出数据库***整体的处理能力。
大查询请求(big call)问题,是指由于表查询方式不合理,导致单次查询请求扫描大量底层存储数据块,消耗大量的计算资源以及输入输出资源,影响单机的请求处理吞吐。
一个实施例中,所述至少一种异常问题可以包括请求热点问题、流量异常增长问题或大查询请求问题中的一种或多种。
其中,请求热点问题对应的数据类别具体是指分析请求热点问题所需的数据类别。一个实施例中,请求热点问题对应的数据类别可以包括分片流量数据类别,即可以根据分片流量数据分析请求热点问题。其中,分片(Region)与表的关系为:一张表是由多个分片组成,每个分片存储表的部分记录,所有分片的记录一起共同组成表。
本申请实施例中,可以通过获取分片流量较高的分片的流量数据的方式,即头部分片流量获取方式,实现获取分析请求热点问题所需的全部数据中的目标部分数据,以得到请求热点问题对应的待处理数据。
示例性的,可以周期性的进行头部分片流量获取,基于此,步骤21具体可以包括:从所述数据库***运行产生的分片流量数据中,周期性获取满足预设要求的多张表中的每张表内,流量排名靠前的多个分片的分片流量数据,作为所述请求热点问题对应的待处理数据,所述满足预设要求的多张表包括表流量排名靠前的多张表。其中,表的流量具体可以是针对表的读写请求的请求量,分片的流量具体是指针对分片的读写请求的请求量。
需要说明的是,在由图1中的计算机设备X进行数据采集时,步骤21例如可以包括:周期性采集满足预设要求的多张表中的每张表内,流量排名靠前的多个分片的分片流量数据,作为所述请求热点问题对应的待处理数据。
可选的,可以采用快照方式进行头部分片流量采集,即可以采用头部快照方式,采集分析请求热点问题所需的部分分片流量数据,以得到请求热点问题对应的待处理数据。
一个实施例中,在单次快照中,可以记录流量排名前FTNtable的表中流量排名前FTNregion分片的分片流量数据。以下定义Ti为第i张表,Ri,j为表Ti的第j个分片。
举例1,假设数据库***中有表T1,T2,T3,T4,……,Tm,Ti中包含分片Ri,1,Ri,2,Ri,3,……Ri,n,tk时刻表流量关系T1>T2>T3>T4>……Tm,tk时刻Ti表的分片流量关系为Ri,1>Ri,2>Ri,3>……Ri,n,则可以采用头部快照方式,在tk时刻快照选择记录流量排名靠前FTNtable的表中,流量排名靠前FTNregion分片的分片流量数据,其中FTNtable小于m,FTNregion小于n,tk时刻进行头部快照所采集的请求热点问题对应的待处理数据可以包含:
……
进一步的,假设FTNtable等于p,FTNregion等于q,其中p小于m,q小于n,则如图3所示,tk时刻快照中可以记录表T1至表Tm中的灰色填充的T1至Tp中,灰色填充的分片R1,1至R1,q的分片流量数据,灰色填充的分片R2,1至R2,q的分片流量数据,……,以及灰色填充的分片Rp,1至Rp,q的分片流量数据,而不记录白色填充的分片R1,q+1至R1,n的分片流量数据,白色填充的分片R2,q+1至R2,n的分片流量数据,……,以及白色填充的分片Rp,q+1至Rp,n的分片流量数据,也不记录白色填充的Tp+1至Tm中分片的分片流量数据。另外,需要说明的是,图4中的t1时刻快照、t2时刻快照、t3时刻快照,……,可以理解为tk时刻之前时刻的快照。其中,tk时刻快照例如可以采用如下表1所示的方式记录数据。
表1
T1 R1,1的分量流量数据 R1,2的分量流量数据 …… R1,q的分量流量数据
T2 R2,1的分量流量数据 R2,2的分量流量数据 …… R2,q的分量流量数据
…… …… …… …… ……
Tp Rp,1的分量流量数据 Rp,2的分量流量数据 …… Rp,q的分量流量数据
可选的,满足预设要求的多张表还可以包括所述数据库***的每个数据节点中流量排名靠前的分片对应的表。考虑到可能存在请求流量分布不合理,导致虽然某个表的表流量没有在前FTNtable中,但是该表中的某个分片访问存在严重倾斜产生分片热点,出现该分片无法被在前FTNtable中被识别的情况,通过预设满足要求的多张表还包括每个数据节点中流量排名靠前的分片对应的表,能够识别表的流量未在FTNtable,但是表中分片访问存在严重倾斜前的情况,有利于提高准确性。
可以理解的是,数据节点中流量排名靠前的分片对应的表,与前述表流量排名靠前的表可能重复,也可能不重复,针对重复的表,其表内流量排名靠前的多个分片的分片流量数据可以只获取一份。
例如,在举例1的基础上,假设对于数据库***中的第r个存储节点Hr,存在分片Ra,m,Rb,n,Rt,p,……,Ru,q,且tk时刻的分片流量关系为:Ra,m>Rb,n>Rt,p>……Ru,q,则tk时刻快照还可以选择记录节点Hr中分片流量排名靠前的例如3个分片对应的表Ta,Tb,Tt中,流量排名靠前的FTNregion个分片的分片流量数据。由此,tk时刻进行头部快照所采集的请求热点问题对应的待处理数据可以包含:
……
……
……
可以理解的是,Ta、Tb、Tc与T1不重复。
本申请实施例中,在从数据库***运行产生的数据中,获取到分析请求热点问题所需的待处理数据之后,可以根据请求热点问题对应的数据分析逻辑,对请求热点问题对应的待处理数据进行处理,以确定所述数据库***中存在请求热点问题的疑似对象。
示例性的,可以通过对表内分片的流量数据进行均衡度分析的方式,实现对请求热点问题对应的待处理数据进行处理,即请求热点问题对应的数据分析逻辑具体可以为通过对表内分片的流量数据进行均衡度分析以确定疑似对象的分析逻辑。一个实施例中,步骤22具体可以包括:根据每次获取到的每张表内流量排名靠前的多个分片的分片流量数据,对每张表内的分片流量数据进行均衡度分析,确定每张表的分片流量均衡度;以及,根据每张表的分片流量均衡度,确定存在所述请求热点问题的疑似热点表及对应的疑似热点分片。需要说明的是,对于均衡度分析的具体方式,本申请不做限定。
示例性的,针对每张表的分片流量均衡度,如果某张表的分片流量均衡度小于均衡度阈值,则可以将该表确定为疑似热点表,进一步的还可以将该表中分片流量热度排名靠前的至少一个分片确定为对应的疑似热点分片。
例如,假设表T2的分片R2,1的分量流量数据为1000,分片R2,2的分量流量数据980,其余分片的分片流量数据为10以内,则通过对T2中分片的流量均衡度进行分析,可以确定流量集中在了R2,1和R2,2中,从而可以确定表T2为疑似热点表,T2的分片R2,1和R2,2为对应的疑似热点分片。
又例如,假设表T3的分片R3,1的分量流量数据为1000,其余分片的分片流量数据为10以内,则通过对T3中分片的流量均衡度进行分析,可以确定流量集中在了R3,1中,从而可以确定表T3为疑似热点表,T3的分片R3,1为对应的疑似热点分片。
通过该方法,能够确定疑似热点表以及表内疑似热点分片,同时还能有效降低数据采集复杂度以及数据的存储量,降低热点计算识别的资源开销。
本申请实施例中,流量异常增长问题对应的数据类别具体是指分析流量异常增长问题所需的数据类别。一个实施例中,流量异常增长问题对应的数据类别可以包括***负载类别+表流量数据类别,即可以根据***负载以及表流量分析流量异常增长问题。其中,负载可以是指CPU负载。
本申请实施例中,可以通过获取表流量较高的表的流量数据的方式,即头部表流量获取方式,获取分析流量异常增长问题所需的部分表流量数据,以得到流量异常增长问题对应的待处理数据。
示例性的,可以周期性的进行头部表流量获取,基于此,步骤21具体可以包括:从所述数据库***运行产生的表流量数据以及***负载中,周期性获取所述数据库***的***负载以及流量排名靠前的多张表中每张表的表流量数据,作为所述流量异常增长问题对应的待处理数据。其中,表的流量具体可以是针对表的读写请求的请求量。
需要说明的是,在由图1中的计算机设备X进行数据采集时,步骤21例如可以包括:从所述数据库***运行产生的表流量数据以及***负载中,周期性采集所述数据库***的***负载以及流量排名靠前的多张表中每张表的表流量数据,作为所述流量异常增长问题对应的待处理数据。
可选的,可以采用快照方式进行头部表流量采集,即可以采用头部快照方式,采集分析流量异常增长问题所需的部分表流量数据,以得到流量异常增长问题对应的待处理数据。
一个实施例中,在单次快照中,可以记录流量排名前多个表的表流量数据以及***负载。以下定义Ti为第i张表,Lk为数据库***在tk时刻的***负载。举例2,假设数据库***中有表T1、T2、T3、……、Tp、……、Tq……,Tm,如果t1时刻表流量关系为T1>T2>T3>……>Tp……>Tq……>Tm,则如图4所示,t1时刻快照可以记录表T1至Tm中,T1、T2、T3、……、Tp、……和Tq的表流量数据,以及t1时刻的***负载L1。如果t2时刻和t3时刻的表流量关系也为T1>T2>T3>……>Tp……>Tq……>Tm,则如图4所示,t2时刻快照可以记录表T1至Tm中,T1、T2、T3、……、Tp、……和Tq的表流量数据,以及t2时刻的***负载L2,t3时刻快照也可以记录表T1至Tm中,T1、T2、T3、……、Tp、……和Tq的表流量数据,以及t3时刻的***负载L3。如果tk时刻表流量关系均为Tp>T1>T2>……>Tk……>Tq……>Tm,则如图4所示,tk时刻快照可以记录表T1至Tm中,Tq、T1、T2、……、Tk、……和Tq的表流量数据,以及tk时刻的***负载Lk
本申请实施例中,在从数据库***运行产生的数据中,获取到分析流量异常增长问题所需的待处理数据之后,可以根据流量异常增长问题对应的数据分析逻辑,对流量异常增长问题对应的待处理数据进行处理,以确定所述数据库***中存在流量异常增长问题的疑似对象。
示例性的,可以通过***负载的异常触发对表流量进一步分析的方式,实现对流量异常增长问题对应的待处理数据进行处理,即流量异常增长问题对应的数据分析逻辑具体可以为通过***负载的异常触发对表流量进一步分析的分析逻辑。一个实施例中,可以定义数据库***的安全负载(Safety Load Value),用于描述数据库***安全的负载水位阈值。步骤22具体可以包括:确定每次获取到的所述***负载是否大于负载阈值,并在某次获取的所述***负载大于所述负载阈值时,根据该次获取及之前多次获取的流量排名靠前的多张表中每张表的表流量,确定存在所述流量异常增长问题的疑似异常增长表。
例如,如图4所示,假设tk时刻***负载Lk大于负载阈值,则可以根据tk时刻快照的表流量以及tk时刻之前时刻(例如t1时刻至tk-1时刻)快照的表流量,确定疑似异常增长表。具体的,可以根据表Ti(i等于1、2、3、……、p、……q)在t1时刻至tk时刻的表流量,分析表Ti是否为表流量存在非预期增长的流量异常增长表。图4中,通过对(Tp,1,Tp,2,Tp,3,…Tp,n)进行分析,可以确定图4中灰色填充的表Tp为存在流量异常增长问题的疑似异常增长表,其中,Tp,1表示t1时刻Tp的表流量,Tp,2表示t2时刻Tp的表流量,Tp,3表示t3时刻Tp的表流量,Tp,n表示tn时刻Tp的表流量。
通过该方法,能够在较少计算的基础上,通过数据库***的***负载反馈触发对于表流量的进一步分析,快速确定流量异常增长的表。
本申请实施例中,大查询请求问题对应的数据类别具体是指分析大查询请求问题所需的数据类别。一个实施例中,可以在日志中记录单次查询请求扫描的底层数据块数量,大查询请求问题对应的数据类别可以包括日志数据类别,即可以根据日志数据分析大查询请求问题。
本申请实施例中,考虑到大查询请求问题如果存在的话,是会持续存在的,因此可以通过获取最近一段时间内扫描块数量大于数量阈值的查询记录的方式,实现获取分析大查询请求问题所需的全部数据中的目标部分数据。
示例性的,可以周期性的进行最近一段时间内扫描块数量大于数量阈值的查询记录的获取,基于此,步骤21具体可以包括:从所述数据库***运行产生的日志数据中,周期性获取最近一段时间内扫描块数量大于数量阈值的目标查询记录,作为所述大查询请求问题对应的待处理数据。
需要说明的是,在由图1中的计算机设备X进行数据采集时,步骤21例如可以包括:从所述数据库***运行产生的日志数据中,周期性采集最近一段时间内扫描块数量大于数量阈值的目标查询记录,作为所述大查询请求问题对应的待处理数据。
例如,如图5所示,日志中可以记录有t1时刻至当前时刻的日志记录项(logrecord item),图5中灰色填充表示的日志记录项表示最近一段时间内(即,tm时刻至当前时刻)的日志记录项。
可以理解的是,扫描数据块数量大于数量阈值的查询请求可以认为是扫描的数据块数量较多的查询请求。从图5所示的tm至当前时刻的日志记录项中过滤出的目标查询记录例如可以为:
tm big call who has read xxx blocks,table=T1 dml=select*from T1where xxx
……
tn big call who has read xxx blocks,table=T1 dml=select*from T1where xxx
……
假设图5中[t1,tn)时间段,表Tx的扫描数据块数量较多的查询请求的次数为Cu,扫描数据块数量较多的查询请求的速率为Su,[tm,tn)时间段,表Tx的扫描数据块数量较多的查询请求的次数为Cv,扫描数据块数量较多的查询请求的速率为Sv,则在流量稳定的场景,可以得到Cu>Cv,与此同时Su≈Sv。基于此理论分析,可以看出,随着时间的推移,扫描数据块数量较多的查询请求的累加次数会不断增加,且在流量稳定场景下扫描数据块数量较多的查询请求的速率基本不变,扫描数据块数量较多的情况是持续存在,日志数据中最近一段时间内的目标查询记录可以作为分析大查询请求问题所需的待处理数据。
本申请实施例中,在从数据库***运行产生的数据中,获取到分析大查询请求问题所需的待处理数据之后,可以根据大查询请求问题对应的数据分析逻辑,对大查询请求问题对应的待处理数据进行处理,以确定所述数据库***中存在大查询请求问题的疑似对象。一个实施例中,步骤22具体可以包括:根据所述最近一段时间内的所述目标查询记录,确定所述数据库***中存在所述大查询请求问题的疑似大查询请求表及对应的大查询请求语句。
可选的,可以根据目标查询记录中扫描数据块数量较多的查询请求的次数以及速率,来确定存在大查询请求问题的疑似对象。一个实施例中,所述根据所述最近一段时间内的所述目标查询记录,确定所述数据库***中存在所述大查询请求问题的疑似大查询请求表及对应的大查询请求语句,具体可以包括:计算所述最近一段时间内的所述目标查询记录所涉及的每张表的查询请求次数和查询请求速率;以及,将查询请求次数大于次数阈值且查询请求速率大于速率阈值的表,确定为存在所述大查询请求问题的疑似大查询请求表,并将所述目标查询记录中的用于查询所述疑似大查询请求表所对应的查询语句中,扫描数据块数量排名靠前的至少一个查询语句作为所述疑似大查询请求表对应的大查询请求语句。
例如,可以计算图5中T1的查询请求次数和查询请求速率,并将计算得到的T1的查询请求次数和查询请求速率以及T1对应的查询语句,记录在图5中T1对应的一行;可以计算图5中T2的查询请求次数和查询请求速率,还可以将计算得到的T2的查询请求次数和查询请求速率以及T2对应的查询语句记录在图5中T2对应的一行中;……;还可以计算图5中Tp的查询请求次数和查询请求速率,还可以将计算得到的Tp的查询请求次数和查询请求速率以及Tp对应的大查询语句记录在图5中Tp对应的一行中。假设T1和T2的查询请求次数均大于次数阈值,且T1和T2的查询请求速率均大于速率阈值,则可以确定T1和T2为疑似大查询请求表,使用图5中灰色填充表示。
通过该方法,使用少量的日志进行轻量化的分析,能够确定存在大查询请求问题的大查询请求表及对应的大查询请求语句,并且不依赖重量的日志采集、清洗、存储服务,达到轻量化处理的效果。
本申请实施例中,在确定所述数据库***中存在所述异常问题的疑似对象之后,进一步的还可以标注存在所述异常问题的疑似对象,以便于客户能够直观的获知所述疑似对象。
本申请实施例提供的数据处理方法,通过从数据库的客户角度,预定义了与客户侧异常对应的至少一种异常问题,异常问题存在对应的数据类别以及数据分析逻辑,根据数据类别从数据库***运行产生的数据中获取分析对应异常问题所需的目标部分数据作为待处理数据,并根据数据分析逻辑对对应的待处理数据进行处理,以确定数据库***中存在异常问题的疑似对象,实现了轻量化的数据采集以及轻量化的数据处理,从而能够节省计算资源。
图6为本申请一实施例提供的数据处理装置的结构示意图;参考附图6所示,本实施例提供了一种数据处理装置,该装置可以执行上述方法实施例所述的方法,具体的,该装置可以包括:
获取模块61,用于针对预定义的至少一种异常问题,根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,获取分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据;所述目标部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度大的疑似对象,所述全部数据中的其他部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度小的疑似对象;
处理模块62,用于根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象。
可选的,所述至少一种异常问题包括下述中的一种或多种:请求热点问题、流量异常增长问题或大查询请求问题。
可选的,所述获取模块61具体用于:从所述数据库***运行产生的分片流量数据中,周期性获取满足预设要求的多张表中的每张表内,流量排名靠前的多个分片的分片流量数据,作为所述请求热点问题对应的待处理数据,所述满足预设要求的多张表包括表流量排名靠前的多张表。
可选的,所述处理模块62具体用于:根据每次获取到的每张表内流量排名靠前的多个分片的分片流量数据,对每张表内的分片流量进行均衡度分析,确定每张表的分片流量均衡度;以及,根据每张表的分片流量均衡度,确定存在所述请求热点问题的疑似热点表及对应的疑似热点分片。
可选的,所述获取模块61具体用于:从所述数据库***运行产生的表流量数据以及***负载中,周期性获取所述数据库***的***负载以及流量排名靠前的多张表中每张表的表流量数据,作为所述流量异常增长问题对应的待处理数据。
可选的,所述处理模块62具体用于:确定每次获取到的所述***负载是否大于负载阈值,并在某次获取的所述***负载大于所述负载阈值时,根据该次获取及之前多次获取的流量排名靠前的多张表中每张表的表流量,确定存在所述流量异常增长问题的疑似异常增长表。
可选的,所述获取模块61具体用于:从所述数据库***运行产生的日志数据中,周期性获取最近一段时间内扫描块数量大于数量阈值的目标查询记录,作为所述大查询请求问题对应的待处理数据。
可选的,所述处理模块62具体用于:根据所述最近一段时间内的所述目标查询记录,确定所述数据库***中存在所述大查询请求问题的疑似大查询请求表及对应的疑似大查询请求语句。
可选的,所述处理模块62用于根据所述最近一段时间内的所述目标查询记录,确定所述数据库***中存在所述大查询请求问题的疑似大查询请求表及对应的疑似大查询请求语句,具体包括:计算所述最近一段时间内,所述目标查询记录所涉及的每张表的查询请求次数和查询请求速率;以及,将查询请求次数大于次数阈值且查询请求速率大于速率阈值的表,确定为存在所述大查询请求问题的疑似大查询请求表,并将所述目标查询记录中的用于查询所述疑似大查询请求表所对应的查询语句中,扫描数据块数量排名靠前的至少一个查询语句确定为所述疑似大查询请求表对应的大查询请求语句。
可选的,所述处理模块62还用于标注存在所述异常问题的疑似对象。
图6所示装置可以执行图2所示实施例的方法,本实施例未详细描述的部分,可参考对图2所示实施例的相关说明。该技术方案的执行过程和技术效果参见图2所示实施例中的描述,在此不再赘述。
在一个可能的实现中,图6所示装置的结构可实现为一计算机设备。如图7所示,该计算机设备可以包括:处理器71和存储器72。其中,存储器72用于存储支持计算机设备执行上述图2所示实施例中提供的方法的程序,处理器71被配置为用于执行存储器72中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被处理器71执行时能够实现如下步骤:
针对预定义的至少一种异常问题,根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,获取分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据;所述目标部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度大的疑似对象,所述全部数据中的其他部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度小的疑似对象;
根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象。
可选地,处理器71还用于执行前述图2所示实施例中的全部或部分步骤。
其中,计算机设备的结构中还可以包括通信接口73,用于计算机设备与其他设备或通信网络通信。
本申请实施例还提供一种如图1所示的数据处理***12,其中,采集模块121,用于针对预定义的至少一种异常问题,根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,采集分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据;所述目标部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度大的疑似对象,所述全部数据中的其他部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度小的疑似对象;处理模块122,用于根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象。
可选的,所述采集模块121具体用于:从所述数据库***运行产生的分片流量数据中,周期性采集满足预设要求的多张表中的每张表内,流量排名靠前的多个分片的分片流量数据,作为所述请求热点问题对应的待处理数据,所述满足预设要求的多张表包括表流量排名靠前的多张表。
可选的,所述处理模块122具体用于:根据每次采集到的每张表内流量排名靠前的多个分片的分片流量数据,对每张表内的分片流量进行均衡度分析,确定每张表的分片流量均衡度;以及,根据每张表的分片流量均衡度,确定存在所述请求热点问题的疑似热点表及对应的疑似热点分片。
可选的,所述采集模块121具体用于:从所述数据库***运行产生的表流量数据以及***负载中,周期性采集所述数据库***的***负载以及流量排名靠前的多张表中每张表的表流量数据,作为所述流量异常增长问题对应的待处理数据。
可选的,所述处理模块122具体用于:确定每次采集到的所述***负载是否大于负载阈值,并在某次采集的所述***负载大于所述负载阈值时,根据该次采集及之前多次采集的流量排名靠前的多张表中每张表的表流量,确定存在所述流量异常增长问题的疑似异常增长表。
可选的,所述采集模块121具体用于:从所述数据库***运行产生的日志数据中,周期性采集最近一段时间内扫描块数量大于数量阈值的目标查询记录,作为所述大查询请求问题对应的待处理数据。
可选的,所述处理模块122具体用于:根据所述最近一段时间内的所述目标查询记录,确定所述数据库***中存在所述大查询请求问题的疑似大查询请求表及对应的疑似大查询请求语句。
可选的,所述处理模块122用于根据所述最近一段时间内的所述目标查询记录,确定所述数据库***中存在所述大查询请求问题的疑似大查询请求表及对应的疑似大查询请求语句,具体包括:计算所述最近一段时间内,所述目标查询记录所涉及的每张表的查询请求次数和查询请求速率;以及,将查询请求次数大于次数阈值且查询请求速率大于速率阈值的表,确定为存在所述大查询请求问题的疑似大查询请求表,并将所述目标查询记录中的用于查询所述疑似大查询请求表所对应的查询语句中,扫描数据块数量排名靠前的至少一个查询语句确定为所述疑似大查询请求表对应的大查询请求语句。
可选的,所述处理模块122还用于标注存在所述异常问题的疑似对象。
另外,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被执行时,实现如图2所示方法实施例所述的方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序指令,当所述指令由处理器执行时,实现如图2所示方法实施例所述的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、链表、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (13)

1.一种数据处理方法,包括:
针对预定义的至少一种异常问题,根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,获取分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据;所述异常问题是从客户使用数据库***的角度出发所定义的客户访问数据库***的流量存在异常的问题,所述目标部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度大的疑似对象,所述全部数据中的其他部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度小的疑似对象;
根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象。
2.根据权利要求1所述的方法,所述至少一种异常问题包括下述中的一种或多种:请求热点问题、流量异常增长问题或大查询请求问题。
3.根据权利要求2所述的方法,所述根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,获取分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据,包括:
从所述数据库***运行产生的分片流量数据中,周期性获取满足预设要求的多张表中的每张表内,流量排名靠前的多个分片的分片流量数据,作为所述请求热点问题对应的待处理数据,所述满足预设要求的多张表包括表流量排名靠前的多张表。
4.根据权利要求3所述的方法,所述根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象,包括:
根据每次获取到的每张表内流量排名靠前的多个分片的分片流量数据,对每张表内的分片流量进行均衡度分析,确定每张表的分片流量均衡度;
根据每张表的分片流量均衡度,确定存在所述请求热点问题的疑似热点表及对应的疑似热点分片。
5.根据权利要求2所述的方法,所述根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,获取分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据,包括:
从所述数据库***运行产生的表流量数据以及***负载中,周期性获取所述数据库***的***负载以及流量排名靠前的多张表中每张表的表流量数据,作为所述流量异常增长问题对应的待处理数据。
6.根据权利要求5所述的方法,所述根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象,包括:
确定每次获取到的所述***负载是否大于负载阈值,并在某次获取的所述***负载大于所述负载阈值时,根据该次获取及之前多次获取的流量排名靠前的多张表中每张表的表流量,确定存在所述流量异常增长问题的疑似异常增长表。
7.根据权利要求2所述的方法,所述根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,获取分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据,包括:
从所述数据库***运行产生的日志数据中,周期性获取最近一段时间内扫描块数量大于数量阈值的目标查询记录,作为所述大查询请求问题对应的待处理数据。
8.根据权利要求7所述的方法,所述根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象,包括:
根据所述最近一段时间内的所述目标查询记录,确定所述数据库***中存在所述大查询请求问题的疑似大查询请求表及对应的疑似大查询请求语句。
9.根据权利要求8所述的方法,所述根据所述最近一段时间内的所述目标查询记录,确定所述数据库***中存在所述大查询请求问题的疑似大查询请求表及对应的疑似大查询请求语句,包括:
计算所述最近一段时间内,所述目标查询记录所涉及的每张表的查询请求次数和查询请求速率;
将查询请求次数大于次数阈值且查询请求速率大于速率阈值的表,确定为存在所述大查询请求问题的疑似大查询请求表,并将所述目标查询记录中的用于查询所述疑似大查询请求表所对应的查询语句中,扫描数据块数量排名靠前的至少一个查询语句确定为所述疑似大查询请求表对应的大查询请求语句。
10.一种数据处理装置,包括:
获取模块,用于针对预定义的至少一种异常问题,根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,获取分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据;所述异常问题是从客户使用数据库***的角度出发所定义的客户访问数据库***的流量存在异常的问题,所述目标部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度大的疑似对象,所述全部数据中的其他部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度小的疑似对象;
处理模块,用于根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象。
11.一种数据处理***,包括:
第一计算机设备,用于针对预定义的至少一种异常问题,根据所述异常问题对应的数据类别,从数据库***运行产生的数据中,采集分析对应异常问题所需的全部数据中的目标部分数据,作为待处理数据;所述异常问题是从客户使用数据库***的角度出发所定义的客户访问数据库***的流量存在异常的问题,所述目标部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度大的疑似对象,所述全部数据中的其他部分数据能够用于确定存在所述异常问题且对所述数据库***运行的影响程度小的疑似对象;
第二计算机设备,用于根据所述异常问题对应的数据分析逻辑,对对应的待处理数据进行处理,以确定所述数据库***中存在所述异常问题的疑似对象。
12.一种计算机设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时,实现如权利要求1至9中任一项所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被执行时,实现如权利要求1至9任一项所述的方法。
CN202110864262.2A 2021-07-29 2021-07-29 数据处理方法、装置、设备、***、存储介质及程序产品 Active CN113608909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110864262.2A CN113608909B (zh) 2021-07-29 2021-07-29 数据处理方法、装置、设备、***、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110864262.2A CN113608909B (zh) 2021-07-29 2021-07-29 数据处理方法、装置、设备、***、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN113608909A CN113608909A (zh) 2021-11-05
CN113608909B true CN113608909B (zh) 2024-02-02

Family

ID=78306006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110864262.2A Active CN113608909B (zh) 2021-07-29 2021-07-29 数据处理方法、装置、设备、***、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN113608909B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6224193B1 (ja) * 2016-09-26 2017-11-01 みずほ情報総研株式会社 テスト工程管理システム、テスト工程管理方法及びテスト工程管理プログラム
CN109542868A (zh) * 2018-09-28 2019-03-29 中国平安人寿保险股份有限公司 定位异常sql语句的方法、装置、电子设备及存储介质
CN110908974A (zh) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 数据库管理方法、装置、设备及存储介质
CN111061588A (zh) * 2019-12-13 2020-04-24 北京奇艺世纪科技有限公司 一种定位数据库异常来源的方法及装置
WO2021023053A1 (zh) * 2019-08-05 2021-02-11 阿里巴巴集团控股有限公司 数据处理方法、设备及存储介质
US11012452B1 (en) * 2018-01-09 2021-05-18 NortonLifeLock, Inc. Systems and methods for establishing restricted interfaces for database applications

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003641B2 (en) * 2017-09-22 2021-05-11 Microsoft Technology Licensing, Llc Automatic database troubleshooting
US11093642B2 (en) * 2019-01-03 2021-08-17 International Business Machines Corporation Push down policy enforcement

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6224193B1 (ja) * 2016-09-26 2017-11-01 みずほ情報総研株式会社 テスト工程管理システム、テスト工程管理方法及びテスト工程管理プログラム
US11012452B1 (en) * 2018-01-09 2021-05-18 NortonLifeLock, Inc. Systems and methods for establishing restricted interfaces for database applications
CN110908974A (zh) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 数据库管理方法、装置、设备及存储介质
CN109542868A (zh) * 2018-09-28 2019-03-29 中国平安人寿保险股份有限公司 定位异常sql语句的方法、装置、电子设备及存储介质
WO2021023053A1 (zh) * 2019-08-05 2021-02-11 阿里巴巴集团控股有限公司 数据处理方法、设备及存储介质
CN111061588A (zh) * 2019-12-13 2020-04-24 北京奇艺世纪科技有限公司 一种定位数据库异常来源的方法及装置

Also Published As

Publication number Publication date
CN113608909A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN111356148A (zh) 一种实现网络优化的方法及相关设备
CN103425756B (zh) 一种hdfs中数据块的副本管理策略
US20100153431A1 (en) Alert triggered statistics collections
CN102150150A (zh) 用于跨数据中心的资源定位和迁移的技术
CN110147470B (zh) 一种跨机房数据比对***及方法
CN106649687A (zh) 大数据联机分析处理方法及装置
CN105491117A (zh) 面向实时数据分析的流式图数据处理***及方法
CN109165207B (zh) 基于Hadoop的饮用水海量数据存储管理方法和***
CN117971488A (zh) 分布式数据库集群的存储管理方法及相关装置
US20200293543A1 (en) Method and apparatus for transmitting data
CN113608909B (zh) 数据处理方法、装置、设备、***、存储介质及程序产品
CN114036410A (zh) 数据存储、查询方法、设备、***、程序及介质
CN114048186A (zh) 一种基于海量数据的数据迁移方法及***
CN115442262B (zh) 一种资源评估方法、装置、电子设备及存储介质
CN103902614A (zh) 一种数据处理方法、设备和***
CN115994029A (zh) 容器资源调度方法及装置
CN112650931B (zh) 一种内容推荐方法
US20190156262A1 (en) System and method for evaluating a corporate strategy in a data network
KR102054068B1 (ko) 그래프 스트림에 대한 실시간 분산 저장을 위한 분할 방법 및 분할 장치
CN113723710B (zh) 一种客户流失预测方法、***、存储介质及电子设备
CN118158092B (zh) 一种算力网络调度方法、装置及电子设备
CN113129075B (zh) 一种房产线上线下销售同步跟踪数据追溯***
CN107862006A (zh) 数据源切换的实现方法和装置
CN113326402B (zh) 有向无环图生成方法及***
CN118193503B (zh) 一种服务器中心数据的分级管理***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant