CN112818003A - 一种查询任务的执行风险预估方法及装置 - Google Patents

一种查询任务的执行风险预估方法及装置 Download PDF

Info

Publication number
CN112818003A
CN112818003A CN202110051294.0A CN202110051294A CN112818003A CN 112818003 A CN112818003 A CN 112818003A CN 202110051294 A CN202110051294 A CN 202110051294A CN 112818003 A CN112818003 A CN 112818003A
Authority
CN
China
Prior art keywords
task
information
index
estimated
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110051294.0A
Other languages
English (en)
Other versions
CN112818003B (zh
Inventor
杨春雨
卫军
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Mengshang Consumer Finance Co ltd
Original Assignee
Inner Mongolia Mengshang Consumer Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia Mengshang Consumer Finance Co ltd filed Critical Inner Mongolia Mengshang Consumer Finance Co ltd
Priority to CN202110051294.0A priority Critical patent/CN112818003B/zh
Publication of CN112818003A publication Critical patent/CN112818003A/zh
Application granted granted Critical
Publication of CN112818003B publication Critical patent/CN112818003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种查询任务的执行风险预估方法及装置。包括:获取待查询任务关联的表分析统计;对待查询任务的查询计划进行分析,生成待查询任务对应的层级嵌套有向图;根据表分析统计信息对层级嵌套有向图进行统计信息的填充;在填充后的层级嵌套有向图存在缺失的统计信息的情况下,自动填充层级嵌套有向图中缺失的统计信息,生成填充信息有向图;根据填充信息有向图,从内层到外层分析表操作关系,结合指标预估模型,得到待查询任务各层级的预估计算指标;在各层级的预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息。本申请可以将出问题概率降到尽可能低,辅助人工审核,使审核变得高效,降低了人力成本的投入。

Description

一种查询任务的执行风险预估方法及装置
技术领域
本申请涉及查询任务执行风险预估技术领域,特别是涉及一种查询任务的执行风险预估方法及装置。
背景技术
SQL(Structured Query Language,结构化查询语言)的性能对于***的可用性至关重要,因此一个不好的SQL会拖慢整个***,甚至导致***宕机。
目前,在SQL执行前要建立一套有效的人工审核流程,在执行前排查出SQL的潜在问题。虽然人工审核能在SQL执行前发现SQL的潜在性能问题,但是还离不开人工的依赖,因此对人的能力有一定的要求。大量的审核SQL,人工审核存在资源瓶颈,也容易出现问题。
发明内容
本申请提供一种查询任务的执行风险预估方法及装置,以解决现有技术中的问题。
为了解决上述问题,本申请实施例提供了一种查询任务的执行风险预估方法,包括:
获取与待查询任务关联的表分析统计信息;
对所述待查询任务的查询计划进行分析,生成所述待查询任务对应的层级嵌套有向图;
根据所述表分析统计信息,对所述层级嵌套有向图进行统计信息的填充;
在填充后的层级嵌套有向图中存在缺失的统计信息的情况下,自动填充所述层级嵌套有向图中缺失的统计信息,生成填充信息有向图;
根据所述填充信息有向图,从内层到外层分析表操作关系,并结合预先训练的指标评估模型,得到所述待查询任务各个层级的预估计算指标;
在各个层级的所述预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息。
可选地,在所述获取与待查询任务关联的表分析统计信息之前,还包括:
获取距离当前时间为设定时长的时段内的所述本地数据表中的数据状况参数;所述数据状况参数包括:唯一键参数、数据条数、文件个数、数据占用磁盘空间、连接条件数据分布和分组类统计参数;
根据预先编写的查询操作对应的测试数据、所述数据状况参数、历史查询计划和所述历史查询计划对应的查询结果信息对初始指标预估模型进行训练,得到训练结果;
在所述训练结果满足预设条件的情况下,将训练后的初始指标预估模型作为所述指标预估模型。
可选地,所述自动填充所述层级嵌套有向图中缺失的统计信息,生成填充信息有向图,包括:
通过业务人员对所述层级嵌套有向图中缺失的统计信息进行手动填充,生成所述填充信息有向图;或者
通过***自动检测所述层级嵌套有向图中缺失的统计信息,并对所述层级嵌套有向图进行统计信息的填充,生成所述填充信息有向图。
可选地,所述预估计算指标包括:预估数据条数、预估执行时间和预估磁盘空间中的至少一种。
可选地,所述在各个层级的所述预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息,包括:
在所述预估数据条数大于设定数据条数的情况下,生成并发送所述查询风险提示信息;和/或
在所述预估执行时间大于设定执行时间的情况下,生成并发送所述查询风险提示信息;和/或
在所述预估磁盘空间大于设定磁盘空间的情况下,生成并发送所述查询风险提示信息。
可选地,在所述生成并发送查询风险提示信息之后,还包括:
在所述待查询任务执行完成之后,获取所述待查询任务对应的实际查询指标;
根据所述实际查询指标和所述预估计算指标对所述指标预估模型进行再次训练,得到训练指标预估模型。
为了解决上述技术问题,本申请实施例还提供了一种查询任务的执行风险预估装置,包括:
统计信息获取模块,用于获取与待查询任务关联的表分析统计信息;
层级有向图生成模块,用于对所述待查询任务的查询计划进行分析,生成所述待查询任务对应的层级嵌套有向图;
统计信息填充模块,用于根据所述表分析统计信息,对所述层级嵌套有向图进行统计信息的填充;
填充有向图生成模块,用于填充后的层级嵌套有向图中存在缺失的统计信息的情况下,自动填充所述层级嵌套有向图中缺失的统计信息,生成填充信息有向图;
预估计算指标预估模块,用于根据所述填充信息有向图,,从内层到外层分析表操作关系,并结合预先训练的指标评估模型,得到所述待查询任务各个层级的预估计算指标;
风险提示信息生成模块,用于在各个层级的所述预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息。
可选地,还包括:
数据状况参数获取模块,用于获取距离当前时间为设定时长的时段内的所述本地数据表中的数据状况参数;所述数据状况参数包括:唯一键参数、数据条数、文件个数、数据占用磁盘空间、连接条件数据分布和分组类统计参数;
训练结果获取模块,用于根据预先编写的查询操作对应的测试数据、所述数据状况参数、历史查询计划和所述历史查询计划对应的查询结果信息对初始指标预估模型进行训练,得到训练结果;
指标预估模型获取模块,用于在所述训练结果满足预设条件的情况下,将训练后的初始指标预估模型作为所述指标预估模型。
可选地,所述填充有向图生成模块包括:
第一有向图生成单元,用于通过业务人员对所述层级嵌套有向图中缺失的统计信息进行手动填充,生成所述填充信息有向图;
第二有向图生成单元,用于通过***自动检测所述层级嵌套有向图中缺失的统计信息,并对所述层级嵌套有向图进行统计信息的填充,生成所述填充信息有向图。
可选地,所述预估计算指标包括:预估数据条数、预估执行时间和预估磁盘空间中的至少一种。
可选地,所述风险提示信息生成模块包括:
第一风险提示信息生成单元,用于在所述预估数据条数大于设定数据条数的情况下,生成并发送所述查询风险提示信息;
第二风险提示信息生成单元,用于在所述预估执行时间大于设定执行时间的情况下,生成并发送所述查询风险提示信息;
第三风险提示信息生成单元,用于在所述预估磁盘空间大于设定磁盘空间的情况下,生成并发送所述查询风险提示信息。
可选地,还包括:
实际查询指标获取模块,用于在所述待查询任务执行完成之后,获取所述待查询任务对应的实际查询指标;
训练预估模型获取模块,用于根据所述实际查询指标和所述预估计算指标对所述指标预估模型进行再次训练,得到训练指标预估模型。
与现有技术相比,本申请包括以下优点:
本申请实施例提供了一种查询任务的执行风险预估方法及装置,通过获取与待查询任务关联的表分析统计信息,对待查询任务的查询计划进行分析,生成待查询任务对应的层级嵌套有向图,根据表分析统计信息对层级嵌套有向图进行统计信息的填充,在填充后的层级嵌套有向图中存在缺失的统计信息的情况下,自动填充层级嵌套有向图中缺失的统计信息,生成填充信息有向图,根据填充信息有向图从内层到外层分析表操作关系,并结合预先训练的指标评估模型,得到所述待查询任务各个层级的预估计算指标,在各个层级的预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息。本申请实施例通过结合指标预估模型对数据表查询任务的执行风险进行预估,可以将出问题概率降到尽可能低,辅助人工审核,使审核变得高效,降低了人力成本的投入。
附图说明
图1为本申请实施例提供的一种查询任务的执行风险预估方法的步骤流程图;
图2为本申请实施例提供的另一种查询任务的执行风险预估方法的步骤流程图;
图3为本申请实施例提供的一种查询任务的执行风险预估装置的结构示意图;
图4为本申请实施例提供的另一种查询任务的执行风险预估装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
参照图1,示出了本申请实施例提供的一种查询任务的执行风险预估方法的步骤流程图,如图1所示,该查询任务的执行风险预估方法具体可以包括如下步骤:
步骤101:获取与待查询任务关联的表分析统计信息。
本申请实施例可以应用于对SQL执行过程进行预估,自动审核SQL执行风险的场景中。
待查询任务(即SQL)是指需要进行数据表操作的任务,在本示例中,待查询任务可以为一系列数据表查询操作的组合,如两连接操作、分组条件、去重操作、开窗函数、过滤条件等操作。
在需要进行SQL执行风险预估时,可以获取与待查询任务关联的表分析统计信息。
在获取到与待查询任务关联的表分析统计信息之后,执行步骤102。
步骤102:对所述待查询任务的查询计划进行分析,生成所述待查询任务对应的层级嵌套有向图。
层级嵌套有向图是指根据待查询任务中包含的数据表操作形成的层级的有向图。
在获取到与的待查询任务之后,可以对待查询任务的查询计划进行分析,以得出待查询任务中包含的数据表操作,如连接操作、分组条件、去重操作、开窗函数、过滤条件等对计算影响较大的操作,进而可以对列信息与聚合操作等进行特征化,形成层级嵌套的有向图,层号由内到外层级递增。
在对待查询任务的查询计划进行分析,生成待查询任务对应的层级嵌套有向图之后,执行步骤103。
步骤103:根据所述表分析统计信息,对所述层级嵌套有向图进行统计信息的填充。
在得到层级嵌套有向图之后,可以根据表分析统计信息对层级嵌套有向图进行统计信息的填充,具体地,可以由***根据表分析统计信息对层级嵌套有向图自动进行统计信息的填充处理。
在根据表分析统计信息对层级嵌套有向图进行统计信息的填充之后,执行步骤104。
步骤104:在填充后的层级嵌套有向图中存在缺失的统计信息的情况下,自动填充所述层级嵌套有向图中缺失的统计信息,生成填充信息有向图。
根据表分析统计信息对层级嵌套有向图进行统计信息的填充之后,可以检测填充后的层级嵌套有向图中是否存在缺失的统计信息。
在检测到填充后的层级嵌套有向图中缺失的统计信息的情况下,可以自动填充层级嵌套有向图中缺失的统计信息,即将层级嵌套有向图中缺失的统计信息进行填充,从而可以得到填充信息有向图。
在本实施例中,缺失的统计信息的填充方式可以采用手动填充的方式,也可以采用自动填充的方式,具体地,可以结合下述具体实现方式进行详细描述。
在本申请实施例的一种具体实现方式中,上述步骤103可以包括:
子步骤A1:通过业务人员对所述层级嵌套有向图中缺失的统计信息进行手动填充,生成所述填充信息有向图;或者
子步骤A2:通过***自动检测所述层级嵌套有向图中缺失的统计信息,并对所述层级嵌套有向图进行统计信息的填充,生成所述填充信息有向图。
在本申请实施例中,在统计信息的填充方式为手动填充的方式时,可以由业务人员对层级嵌套有向图进行检测,以确定层级嵌套有向图中缺失的统计信息,并由业务人员对层级嵌套有向图中缺失的统计信息进行手动填充,以得到填充信息有向图。
在统计信息的填充方式为***自动填充的方式时,可以通过***自动检测层级嵌套有向图中缺失的统计信息,并对层级嵌套有向图中缺失的统计信息进行填充,以得到填充信息有向图。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本申请实施例的唯一限制。
在自动填充层级嵌套有向图中缺失的统计信息生成填充信息有向图之后,执行步骤105。
步骤105:根据所述填充信息有向图,从内层到外层分析表操作关系,并结合预先训练的指标评估模型,得到所述待查询任务各个层级的预估计算指标。
指标预估模型是指预先训练好的用于对SQL执行指标进行预估的模型。
对于指标预估模型的训练过程将在下述实施例二中进行详细描述,本实施例在此不再加以赘述。
预估计算指标是指通过指标预估模型对填充信息有向图中包含的数据表操作进行预估得到的预估指标,在本实施例中,预估计算指标可以包括:预估数据条数、预估执行时间和预估磁盘空间等指标中的至少一种。
在对层级嵌套有向图进行统计信息的填充处理生成填充信息生成填充信息有向图之后,可以根据填充信息有向图,从内层到外层分析表操作关系,并结合预先训练的指标预估模型,预估得到待查询任务各个层级的预估计算指标,具体地,可以根据填充信息有向图的层级关系由内向外逐层进行数据分析,即由内向外获取各层级的数据表操作数据,以输入至指标预估模型,在所有数据表操作数据均执行完成之后,即可得到待查询任务各个层级的预估计算指标。
在预估得到待查询任务各个层级的预估计算指标之后,执行步骤106。
步骤106:在各个层级的所述预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息。
设定阈值是指由业务人员预先设置的用于判定是否需要进行SQL任务执行存在风险提示的阈值,对于设定阈值的具体数值可以根据业务需求而定,本实施例对此不加以限制。
查询风险提示信息是指用于提示业务人员执行待查询任务存在风险的提示信息。
在某些示例中,查询风险提示信息可以为文本提示信息,例如,在业务人员所使用的客户端界面弹出一个文本框,在该文本框内显示待查询任务对应的执行风险提示文本。
在某些示例中,查询风险提示信息可以为声音提示信息,例如,告警铃声信息、特殊音频信息等等。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,对于查询提示信息的具体提示方式可以根据业务需求而定,本实施例对此不加以限制。
在预估得到待查询任务各个层级的预估计算指标之后,可以将各个层级的预估计算指标与设定阈值进行比较。
在各个层级的预估计算指标中存在大于设定阈值的指标的情况下,可以生成查询风险提示信息,并向业务人员发送该查询风险提示信息,以由业务人员及时进行处理,避免出现查询故障的问题。
在本实施例中,可以结合下述具体实现方式对根据预估计算指标对生成查询风险提示信息的过程进行详细描述。
在本申请实施例的另一种具体实现方式中,所述预估计算指标包括预估数据条数、预估执行时间和预估磁盘空间中的至少一种,上述步骤106可以包括:
子步骤B1:在所述预估数据条数大于设定数据条数的情况下,生成并发送所述查询风险提示信息。
在本实施例中,预估计算指标可以包括预估数据条数。
设定数据条数是指由业务人员预先设置的用于判定是否需要进行查询风险提示的数据条数,对于设定数据条数的具体数值可以根据业务需求而定,本实施例对此不加以限制。
在通过指标预估模型预估到待查询任务的预估数据条数之后,可以将预估数据条数与设定数据条数进行比较。
在预估数据条数大于设定数据条数的情况下,则生成查询风险提示信息,并将查询风险提示信息发送给业务人员,当然,在发送提示信息的同时,可以标注查询风险的原因,如数据条数过大等。
子步骤B2:在所述预估执行时间大于设定执行时间的情况下,生成并发送所述查询风险提示信息。
预估计算指标可以包括预估执行时间。
设定执行时间是指由业务人员预先设置的用于判定是否需要进行查询风险提示的执行时间,可以理解地,此处设定执行时间即为一个时长,对于设定执行时间的具体数值可以根据业务需求而定,本实施例对此不加以限制。
在通过指标预估模型预估到待查询任务的预估执行时间之后,可以将预估执行时间与设定执行时间进行比较。
在预估执行时间大于设定执行时间的情况下,则生成查询风险提示信息,并将查询风险提示信息发送给业务人员,当然,在发送提示信息的同时,可以标注查询风险的原因,如执行时间过长等。
子步骤B3:在所述预估磁盘空间大于设定磁盘空间的情况下,生成并发送所述查询风险提示信息。
预估计算指标可以包括预估磁盘空间。
设定内存是指由业务人员预先设置的用于判定是否需要进行查询风险提示的磁盘空间,对于设定内存的具体数值可以根据业务需求而定,本实施例对此不加以限制。
在通过指标预估模型预估到待查询任务的预估磁盘空间之后,可以将预估磁盘空间与设定磁盘空间进行比较。
在预估磁盘空间大于设定磁盘空间的情况下,则生成查询风险提示信息,并将查询风险提示信息发送给业务人员,当然,在发送提示信息的同时,可以标注查询风险的原因,如剩余内存不足等。
当然,在本实施例中,预估计算指标还可以包括其它指标,在这些预估指标中存在至少一项指标不满足设定阈值时,则触发查询风险的提示。
本申请实施例通过结合指标预估模型对数据表查询任务的执行风险进行预估,可以将出问题概率降到尽可能低,辅助人工审核,使审核变得高效,降低了人力成本的投入。
本申请实施例提供的查询任务的执行风险预估方法,通过获取与待查询任务关联的表分析统计信息,对待查询任务的查询计划进行分析,生成待查询任务对应的层级嵌套有向图,根据表分析统计信息对层级嵌套有向图进行统计信息的填充,在填充后的层级嵌套有向图中存在缺失的统计信息的情况下,自动填充层级嵌套有向图中缺失的统计信息,生成填充信息有向图,根据填充信息有向图,从内层到外层分析表操作关系,并结合预先训练的指标评估模型,预估得到待查询任务各个层级的预估计算指标,在各个层级的预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息。本申请实施例通过结合指标预估模型对数据表查询任务的执行风险进行预估,可以将出问题概率降到尽可能低,辅助人工审核,使审核变得高效,降低了人力成本的投入。
实施例二
参照图2,示出了本申请实施例提供的另一种查询任务的执行风险预估方法的步骤流程图,如图2所示,该查询任务的执行风险预估方法具体可以包括如下步骤:
步骤201:获取距离当前时间为设定时长的时段内的所述本地数据表中的数据状况参数。
本申请实施例可以应用于对SQL执行过程进行预估,自动审核SQL执行风险的场景中。
数据状况参数是指用于反应本地数据表中的数据状况的参数,在本示例中,数据状况参数包括:唯一键参数、数据条数、文件个数、数据占用磁盘空间、连接条件数据分布和分组类统计参数等。
设定时长是指由业务人员预先设置的用于获取本地数据表中的数据状况参数的时长,对于设定时长的具体数值可以根据业务需求而定,本实施例对此不加以限制。
在需要对指标预估模型进行训练时,可以获取距离当前时间为设定时长的时段内的本地数据表中的数据状况参数,进而,执行步骤202。
步骤202:根据预先编写的查询操作对应的测试数据、所述数据状况参数、历史查询计划和所述历史查询计划对应的查询结果信息对初始指标预估模型进行训练,得到训练结果。
测试数据(即测试代码)是指由业务人员根据数据表查询操作预先编写的测试代码数据。
在本示例中,查询操作可以包括:条件过滤操作、两表join操作、单表分组聚合操作、单表去重操作、单表开窗函数操作等操作。
在实际应用中,可以由业务人员对条件过滤操作、两表join操作、单表分组聚合操作、单表去重操作、单表开窗函数操作等,编写程序生成各种规格的测试数据,在编写的测试数据中包含有元数据信息。
在获取到测试数据之后,可以根据测试数据、数据状况参数、历史查询计划及历史查询计划对应的查询结果信息,并集合上述获取的统计信息(即数据状况参数)对初始指标预估模型进行训练,以得到训练结果。
在获取到训练结果之后,执行步骤203。
步骤203:在所述训练结果满足预设条件的情况下,将训练后的初始指标预估模型作为所述指标预估模型。
在获取到训练结果之后,可以判断训练结果是否满足预设条件。
在训练结果不满足预设条件时,则可以对初始指标预估模型继续进行训练。
而在训练结果满足预设条件时,则将训练后的初始指标预估模型作为指标预估模型。
在得到指标预估模型之后,则可以进行后续的查询任务风险的预估过程。
步骤204:获取与待查询任务关联的表分析统计信息。
待查询任务(即SQL)是指需要进行数据表操作的任务,在本示例中,待查询任务可以为一系列数据表查询操作的组合,如两连接操作、分组条件、去重操作、开窗函数、过滤条件等操作。
在需要进行SQL执行风险预估时,可以获取与待查询任务关联的表分析统计信息。
在获取到与待查询任务关联的表分析统计信息之后,执行步骤205。
步骤205:对所述待查询任务的查询计划进行分析,生成所述待查询任务对应的层级嵌套有向图。
层级嵌套有向图是指根据待查询任务中包含的数据表操作形成的层级的有向图。
在获取到待查询任务之后,可以对待查询任务的查询计划进行分析,以得出待查询任务中包含的数据表操作,如连接操作、分组条件、去重操作、开窗函数、过滤条件等对计算影响较大的操作,进而可以对列信息与聚合操作等进行特征化,形成层级嵌套的有向图,层号由内到外层级递增。
在对待查询任务的查询计划进行分析,生成待查询任务对应的层级嵌套有向图之后,执行步骤206。
步骤206:根据所述表分析统计信息,对所述层级嵌套有向图进行统计信息的填充。
在得到层级嵌套有向图之后,可以根据表分析统计信息对层级嵌套有向图进行统计信息的填充,具体地,可以由***根据表分析统计信息对层级嵌套有向图自动进行统计信息的填充处理。
在根据表分析统计信息对层级嵌套有向图进行统计信息的填充之后,执行步骤207。
步骤207:在填充后的层级嵌套有向图中存在缺失的统计信息的情况下,自动填充所述层级嵌套有向图中缺失的统计信息,生成填充信息有向图。
根据表分析统计信息对层级嵌套有向图进行统计信息的填充之后,可以检测填充后的层级嵌套有向图中是否存在缺失的统计信息。
在检测到填充后的层级嵌套有向图中缺失的统计信息的情况下,可以自动填充层级嵌套有向图中缺失的统计信息,即将层级嵌套有向图中缺失的统计信息进行填充,从而可以得到填充信息有向图。
在本实施例中,缺失的统计信息的填充方式可以采用手动填充的方式,也可以采用自动填充的方式,具体地,可以结合下述具体实现方式进行详细描述。
在本申请实施例的一种具体实现方式中,上述步骤207可以包括:
子步骤C1:通过业务人员对所述层级嵌套有向图中缺失的统计信息进行手动填充,生成所述填充信息有向图;或者
子步骤C2:通过***自动检测所述层级嵌套有向图中缺失的统计信息,并对所述层级嵌套有向图进行统计信息的填充,生成所述填充信息有向图。
在本申请实施例中,在统计信息的填充方式为手动填充的方式时,可以由业务人员对层级嵌套有向图进行检测,以确定层级嵌套有向图中缺失的统计信息,并由业务人员对层级嵌套有向图中缺失的统计信息进行手动填充,以得到填充信息有向图。
在统计信息的填充方式为***自动填充的方式时,可以通过***自动检测层级嵌套有向图中缺失的统计信息,并对层级嵌套有向图中缺失的统计信息进行填充,以得到填充信息有向图。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本申请实施例的唯一限制。
在对层级嵌套有向图进行统计信息的填充处理生成填充信息有向图之后,执行步骤208。
步骤208:根据所述填充信息有向图,从内层到外层分析表操作关系,并结合预先训练的指标预估模型,得到所述待查询任务各层级的预估计算指标。
指标预估模型是指预先训练好的用于对SQL执行指标进行预估的模型。
预估计算指标是指通过指标预估模型对填充信息有向图中包含的数据表操作进行预估得到的预估指标,在本实施例中,预估计算指标可以包括:预估数据条数、预估执行时间和预估磁盘空间等指标中的至少一种。
在对层级嵌套有向图进行统计信息的填充处理生成填充信息生成填充信息有向图之后,可以根据填充信息有向图,从内层到外层分析表操作关系,并结合预先训练的指标预估模型,预估得到待查询任务各层级的预估计算指标,具体地,可以根据填充信息有向图的层级关系由内向外逐层进行数据分析,即由内向外获取各层级的数据表操作数据,以输入至指标预估模型,在所有数据表操作数据均执行完成之后,即可得到待查询任务各层级的预估计算指标。
在根据填充信息有向图中各层级的数据表操作数据和预先训练的指标预估模型,预估得到待查询任务对应的预估计算指标之后,执行步骤209。
步骤209:在各层级的所述预估计算指标大于设定阈值的情况下,生成并发送查询风险提示信息。
设定阈值是指由业务人员预先设置的用于判定是否需要进行SQL任务执行存在风险提示的阈值,对于设定阈值的具体数值可以根据业务需求而定,本实施例对此不加以限制。
查询风险提示信息是指用于提示业务人员执行待查询任务存在风险的提示信息。
在某些示例中,查询风险提示信息可以为文本提示信息,例如,在业务人员所使用的客户端界面弹出一个文本框,在该文本框内显示待查询任务对应的执行风险提示文本。
在某些示例中,查询风险提示信息可以为声音提示信息,例如,告警铃声信息、特殊音频信息等等。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,对于查询提示信息的具体提示方式可以根据业务需求而定,本实施例对此不加以限制。
在预估得到待查询任务各层级的预估计算指标之后,可以将各层级的预估计算指标与设定阈值进行比较。
在各层级的预估计算指标中存在大于设定阈值的指标的情况下,可以生成查询风险提示信息,并向业务人员发送该查询风险提示信息,以由业务人员及时进行处理,避免出现查询故障的问题。
在本实施例中,可以结合下述具体实现方式对根据预估计算指标对生成查询风险提示信息的过程进行详细描述。
在本申请实施例的另一种具体实现方式中,所述预估计算指标包括预估数据条数、预估执行时间和预估磁盘空间中的至少一种,上述步骤209可以包括:
子步骤D1:在所述预估数据条数大于设定数据条数的情况下,生成并发送所述查询风险提示信息。
在本实施例中,预估计算指标可以包括预估数据条数。
设定数据条数是指由业务人员预先设置的用于判定是否需要进行查询风险提示的数据条数,对于设定数据条数的具体数值可以根据业务需求而定,本实施例对此不加以限制。
在通过指标预估模型预估到待查询任务的预估数据条数之后,可以将预估数据条数与设定数据条数进行比较。
在预估数据条数大于设定数据条数的情况下,则生成查询风险提示信息,并将查询风险提示信息发送给业务人员,当然,在发送提示信息的同时,可以标注查询风险的原因,如数据条数过大等。
在本申请实施例中,预估数据条数可以更好的预估执行时间和磁盘空间,下面将详细说明如何进行数据条数预估,在进行机器学习之前,需要对一些操作进行计算规则处理,下面将介绍一些规则,其它的规则以同样的思路进行处理,具体地规则可以包括:条件过滤、分组聚合、连接操作,具体地:
1、条件过滤
条件过滤主要发生在where过滤、join on过滤,然而大多情况是根据类型、是否非空、数值比较、日期比较等,或者它们之间组合过滤,对于特殊的过滤可以考虑人工填写概率或者影响不大直接忽略。对于单独的过滤条件,可以根据统计信息估算,假设条件发生的概率为P,总的数据量为RowCount,预估行数=P*RowCount;对于条件组合,假设每个条件发生的概率分别为P0、P1…PN,其中or的条件概率需要转化为and,比如:P0 orP1=not((notP0)and(not P1))=1-(1-P0)and(1-P1),假设条件影响参数为R,则预估行数=P0*P1*R1*…*PN*RN,对于R的确定需要通过机器学习训练。
2、分组聚合:
分组一般都会导致数据降维,从而导致数据量减少。如何估算降维的比率非常重要。分组的常用字段为唯一健、类别、时间等,对于单独的分组,根据数据透视信息,可以很容易估算出降维的比率,假设降维的比率为P,总的数据量为RowCount,预估行数=P*RowCount,对于多个分组条件组合时:
分组条件一对一,这种是分组之间存在包含关系,降维的比率从大到小存在如下关系:唯一健P0>小类P1(种类数目)>大类P2(种类数目)【种类数目小可忽略】,预估行数=P*RowCount;对于分组条件存在一对多关系,二次分组可能会导致数据膨胀,预估行数=max(P0,P1)*ExtendRate*RowCount,其中extend_rate可由用户输入或是由***生成。
3、连接操作
根据连接操作的不同,数据可能不变,也可能减少,也可能增多,常常根据id进行连接,可以增加一些条件过滤。下面对不同的连接类型加以说明:
内连接:一对一内连接,会导致数据下降,min(T0_RowCount,T1_RowCount)*ReduceRate,T0_RowCount、T1_RowCount分别代表两张表的数据量,ReduceRate为数据表的缩减率;一对多内连接,数据量不能确定,预估行数=min(T0_RowCount,T1_RowCount)*ReduceRate*ExtendRate;
左连接:一对一左连接,预估行数=TL_RowCount,TL_RowCount代表左表的数据量;一对多左连接,预估行数=TL_RowCount*ExtendRate。
笛卡尔积:TL_RowCount*TR_RowCount,TR_RowCount代表右表的数据量;
局部笛卡尔积:max(TL_RowCount,TR_RowCount)*ExtendRate。
操作的计算优先级依据查询计划的从内层到外层的优先级,其中ExtendRate、ReduceRate可由机器学习训练出与分析统计数据的关系,进而估算出它们的值。
子步骤D2:在所述预估执行时间大于设定执行时间的情况下,生成并发送所述查询风险提示信息。
预估计算指标可以包括预估执行时间。
设定执行时间是指由业务人员预先设置的用于判定是否需要进行查询风险提示的执行时间,可以理解地,此处设定执行时间即为一个时长,对于设定执行时间的具体数值可以根据业务需求而定,本实施例对此不加以限制。
在通过指标预估模型预估到待查询任务的预估执行时间之后,可以将预估执行时间与设定执行时间进行比较。
在预估执行时间大于设定执行时间的情况下,则生成查询风险提示信息,并将查询风险提示信息发送给业务人员,当然,在发送提示信息的同时,可以标注查询风险的原因,如执行时间过长等。
子步骤D3:在所述预估磁盘空间大于设定磁盘空间的情况下,生成并发送所述查询风险提示信息。
预估计算指标可以包括预估磁盘空间。
设定内存是指由业务人员预先设置的用于判定是否需要进行查询风险提示的磁盘空间,对于设定内存的具体数值可以根据业务需求而定,本实施例对此不加以限制。
在通过指标预估模型预估到待查询任务的预估磁盘空间之后,可以将预估磁盘空间与设定磁盘空间进行比较。
在预估磁盘空间大于设定磁盘空间的情况下,则生成查询风险提示信息,并将查询风险提示信息发送给业务人员,当然,在发送提示信息的同时,可以标注查询风险的原因,如剩余内存不足等。
当然,在本实施例中,预估计算指标还可以包括其它指标,在这些预估指标中存在至少一项指标不满足设定阈值时,则触发查询风险的提示。
本申请实施例通过结合指标预估模型对数据表查询任务的执行风险进行预估,可以将出问题概率降到尽可能低,辅助人工审核,使审核变得高效,降低了人力成本的投入。
步骤210:在所述待查询任务执行完成之后,获取所述待查询任务对应的实际查询指标。
实际查询指标是指在待查询任务执行完成之后得到的查询指标。
在待查询任务执行完成之后,则可以获取待查询任务对应的实际查询任务。
在获取到待查询任务的实际查询指标之后,执行步骤211。
步骤211:根据所述实际查询指标和所述预估计算指标对所述指标预估模型进行再次训练,得到训练指标预估模型。
在获取到待查询任务的实际查询指标之后,可以结合时间查询指标和预估计算指标对指标预估模型进行再次训练,以得到训练指标预估模型。
本申请实施例利用历史执行任务采集的数据和SQL的特征,使用机器学习算法,生成SQL整体执行状况预估模型,并不断迭代优化,进而能够进一步提升模型训练效果。
本申请实施例提供的查询任务的执行风险预估方法,通过获取与待查询任务关联的表分析统计信息,对待查询任务的查询计划进行分析,生成待查询任务对应的层级嵌套有向图,根据表分析统计信息对层级嵌套有向图进行统计信息的填充,在填充后的层级嵌套有向图中存在缺失的统计信息的情况下,自动填充层级嵌套有向图中缺失的统计信息,生成填充信息有向图,根据填充信息有向图,从内层到外层分析表操作关系,并结合预先训练的指标评估模型,预估得到待查询任务各个层级的预估计算指标,在各个层级的预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息。本申请实施例通过结合指标预估模型对数据表查询任务的执行风险进行预估,可以将出问题概率降到尽可能低,辅助人工审核,使审核变得高效,降低了人力成本的投入。
实施例三
参照图3,示出了本申请实施例提供的一种查询任务的执行风险预估装置的结构示意图,如图3所示,该查询任务的执行风险预估装置300具体可以包括如下模块:
统计信息获取模块310,用于获取与待查询任务关联的表分析统计;
层级有向图生成模块320,用于对所述待查询任务的查询计划进行分析,生成所述待查询任务对应的层级嵌套有向图;
统计信息填充模块330,用于根据所述表分析统计信息,对所述层级嵌套有向图进行统计信息的填充;
填充有向图生成模块340,用于在填充后的所述层级嵌套有向图中存在缺失的统计信息的情况下,自动填充所述层级嵌套有向图中缺失的统计信息,生成填充信息有向图;
预估计算指标预估模块350,用于根据所述填充信息有向图,从内层到外层分析表操作关系,并结合预先训练的指标预估模型,得到所述待查询任务各个层级的预估计算指标;
风险提示信息生成模块360,用于在各个层级的所述预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息。
本申请实施例提供的查询任务的执行风险预估装置,通过获取与待查询任务关联的表分析统计信息,对待查询任务的查询计划进行分析,生成待查询任务对应的层级嵌套有向图,根据表分析统计信息对层级嵌套有向图进行统计信息的填充,在填充后的层级嵌套有向图中存在缺失的统计信息的情况下,自动填充层级嵌套有向图中缺失的统计信息,根据填充信息有向图,从内层到外层分析表操作关系,并结合预先训练的指标评估模型,预估得到待查询任务各个层级的预估计算指标,在各个层级的预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息。本申请实施例通过结合指标预估模型对数据表查询任务的执行风险进行预估,可以将出问题概率降到尽可能低,辅助人工审核,使审核变得高效,降低了人力成本的投入。
实施例四
参照图4,示出了本申请实施例提供的另一种查询任务的执行风险预估装置的结构示意图,如图4所示,该查询任务的执行风险预估装置具体可以包括如下模块:
数据状况参数获取模块410,用于获取距离当前时间为设定时长的时段内的所述本地数据表中的数据状况参数;所述数据状况参数包括:唯一键参数、数据条数、文件个数、数据占用磁盘空间、连接条件数据分布和分组类统计参数;
训练结果获取模块420,用于根据预先编写的查询操作对应的测试数据、所述数据状况参数、历史查询计划和所述历史查询计划对应的查询结果信息对初始指标预估模型进行训练,得到训练结果;
指标预估模型获取模块430,用于在所述训练结果满足预设条件的情况下,将训练后的初始指标预估模型作为所述指标预估模型;
统计信息获取模块440,用于获取与待查询任务关联的表分析统计信息;
层级有向图生成模块450,用于对所述待查询任务的查询计划进行分析,生成所述待查询任务对应的层级嵌套有向图;
统计信息填充模块460,用于根据所述表分析统计信息,对所述层级嵌套有向图进行统计信息的填充;
填充有向图生成模块470,用于在填充后的所述层级嵌套有向图中存在缺失的统计信息的情况下,自动填充所述层级嵌套有向图中缺失的统计信息,生成填充信息有向图;
预估计算指标预估模块480,用于根据所述填充信息有向图,从内层到外层分析表操作关系,并结合预先训练的指标预估模型,得到所述待查询任务各个层级的预估计算指标;
风险提示信息生成模块490,用于在各个层级所述预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息;
实际查询指标获取模块4100,用于在所述待查询任务执行完成之后,获取所述待查询任务对应的实际查询指标;
训练预估模型获取模块4110,用于根据所述实际查询指标和所述预估计算指标对所述指标预估模型进行再次训练,得到训练指标预估模型。
可选地,所述填充有向图生成模块470包括:
第一有向图生成单元,用于通过业务人员对所述层级嵌套有向图中缺失的统计信息进行手动填充,生成所述填充信息有向图;
第二有向图生成单元,用于通过***自动检测所述层级嵌套有向图中缺失的统计信息,并对所述层级嵌套有向图进行统计信息的填充,生成所述填充信息有向图。
可选地,所述预估计算指标包括:预估数据条数、预估执行时间和预估磁盘空间中的至少一种。
可选地,所述风险提示信息生成模块490包括:
第一风险提示信息生成单元,用于在所述预估数据条数大于设定数据条数的情况下,生成并发送所述查询风险提示信息;
第二风险提示信息生成单元,用于在所述预估执行时间大于设定执行时间的情况下,生成并发送所述查询风险提示信息;
第三风险提示信息生成单元,用于在所述预估磁盘空间大于设定磁盘空间的情况下,生成并发送所述查询风险提示信息。
本申请实施例提供的查询任务的执行风险预估装置,通过获取与待查询任务关联的表分析统计信息,对待查询任务的查询计划进行分析,生成待查询任务对应的层级嵌套有向图,根据表分析统计信息对层级嵌套有向图进行统计信息的填充,在填充后的层级嵌套有向图中存在缺失的统计信息的情况下,自动填充层级嵌套有向图中缺失的统计信息,根据填充信息有向图,从内层到外层分析表操作关系,并结合预先训练的指标评估模型,预估得到待查询任务各个层级的预估计算指标,在各个层级的预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息。本申请实施例通过结合指标预估模型对数据表查询任务的执行风险进行预估,可以将出问题概率降到尽可能低,辅助人工审核,使审核变得高效,降低了人力成本的投入。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
另外地,本申请实施例还提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的查询任务的执行风险预估方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种查询任务的执行风险预估方法和一种查询任务的执行风险预估装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种查询任务的执行风险预估方法,其特征在于,包括:
获取与待查询任务关联的表分析统计信息;
对所述待查询任务的查询计划进行分析,生成所述待查询任务对应的层级嵌套有向图;
根据所述表分析统计信息,对所述层级嵌套有向图进行统计信息的填充;
在填充后的层级嵌套有向图中存在缺失的统计信息的情况下,自动填充所述层级嵌套有向图中缺失的统计信息,生成填充信息有向图;
根据所述填充信息有向图,从内层到外层分析表操作关系,并结合预先训练的指标评估模型,得到所述待查询任务各个层级的预估计算指标;
在各个层级的所述预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息。
2.根据权利要求1所述的方法,其特征在于,在所述获取与待查询任务关联的表分析统计信息之前,还包括:
获取距离当前时间为设定时长的时段内的所述本地数据表中的数据状况参数;所述数据状况参数包括:唯一键参数、数据条数、文件个数、数据占用磁盘空间、连接条件数据分布和分组类统计参数;
根据预先编写的查询操作对应的测试数据、所述数据状况参数、历史查询计划和所述历史查询计划对应的查询结果信息对初始指标预估模型进行训练,得到训练结果;
在所述训练结果满足预设条件的情况下,将训练后的初始指标预估模型作为所述指标预估模型。
3.根据权利要求1所述的方法,其特征在于,所述自动填充所述层级嵌套有向图中缺失的统计信息,生成填充信息有向图,包括:
通过业务人员对所述层级嵌套有向图中缺失的统计信息进行手动填充,生成所述填充信息有向图;或者
通过***自动检测所述层级嵌套有向图中缺失的统计信息,并对所述层级嵌套有向图进行统计信息的填充,生成所述填充信息有向图。
4.根据权利要求1所述的方法,其特征在于,所述预估计算指标包括:预估数据条数、预估执行时间和预估磁盘空间中的至少一种。
5.根据权利要求4所述的方法,其特征在于,所述在各个层级的所述预估计算指标中存在大于设定阈值的情况下,生成并发送查询风险提示信息,包括:
在所述预估数据条数大于设定数据条数的情况下,生成并发送所述查询风险提示信息;和/或
在所述预估执行时间大于设定执行时间的情况下,生成并发送所述查询风险提示信息;和/或
在所述预估磁盘空间大于设定磁盘空间的情况下,生成并发送所述查询风险提示信息。
6.根据权利要求1所述的方法,其特征在于,在所述生成并发送查询风险提示信息之后,还包括:
在所述待查询任务执行完成之后,获取所述待查询任务对应的实际查询指标;
根据所述实际查询指标和所述预估计算指标对所述指标预估模型进行再次训练,得到训练指标预估模型。
7.一种查询任务的执行风险预估装置,其特征在于,包括:
统计信息获取模块,用于获取与待查询任务关联的表分析统计信息;
层级有向图生成模块,用于对所述待查询任务的查询计划进行分析,生成所述待查询任务对应的层级嵌套有向图;
统计信息填充模块,用于根据所述表分析统计信息,对所述层级嵌套有向图进行统计信息的填充;
填充有向图生成模块,用于填充后的层级嵌套有向图中存在缺失的统计信息的情况下,自动填充所述层级嵌套有向图中缺失的统计信息,生成填充信息有向图;
预估计算指标预估模块,用于根据所述填充信息,从内层到外层分析表操作关系,并结合预先训练的指标评估模型,得到所述待查询任务各个层级的预估计算指标;
风险提示信息生成模块,用于在各个层级的所述预估计算指标中存在大于设定阈值的指标的情况下,生成并发送查询风险提示信息。
8.根据权利要求7所述的装置,其特征在于,还包括:
数据状况参数获取模块,用于获取距离当前时间为设定时长的时段内的所述本地数据表中的数据状况参数;所述数据状况参数包括:唯一键参数、数据条数、文件个数、数据占用磁盘空间、连接条件数据分布和分组类统计参数;
训练结果获取模块,用于根据预先编写的查询操作对应的测试数据、所述数据状况参数、历史查询计划和所述历史查询计划对应的查询结果信息对初始指标预估模型进行训练,得到训练结果;
指标预估模型获取模块,用于在所述训练结果满足预设条件的情况下,将训练后的初始指标预估模型作为所述指标预估模型。
9.根据权利要求7所述的装置,其特征在于,所述填充有向图生成模块包括:
第一有向图生成单元,用于通过业务人员对所述层级嵌套有向图中缺失的统计信息进行手动填充,生成所述填充信息有向图;
第二有向图生成单元,用于通过***自动检测所述层级嵌套有向图中缺失的统计信息,并对所述层级嵌套有向图进行统计信息的填充,生成所述填充信息有向图。
10.根据权利要求7所述的装置,其特征在于,所述预估计算指标包括:预估数据条数、预估执行时间和预估磁盘空间中的至少一种。
11.根据权利要求10所述的装置,其特征在于,所述风险提示信息生成模块包括:
第一风险提示信息生成单元,用于在所述预估数据条数大于设定数据条数的情况下,生成并发送所述查询风险提示信息;
第二风险提示信息生成单元,用于在所述预估执行时间大于设定执行时间的情况下,生成并发送所述查询风险提示信息;
第三风险提示信息生成单元,用于在所述预估磁盘空间大于设定磁盘空间的情况下,生成并发送所述查询风险提示信息。
12.根据权利要求7所述的装置,其特征在于,还包括:
实际查询指标获取模块,用于在所述待查询任务执行完成之后,获取所述待查询任务对应的实际查询指标;
训练预估模型获取模块,用于根据所述实际查询指标和所述预估计算指标对所述指标预估模型进行再次训练,得到训练指标预估模型。
CN202110051294.0A 2021-01-14 2021-01-14 一种查询任务的执行风险预估方法及装置 Active CN112818003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110051294.0A CN112818003B (zh) 2021-01-14 2021-01-14 一种查询任务的执行风险预估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110051294.0A CN112818003B (zh) 2021-01-14 2021-01-14 一种查询任务的执行风险预估方法及装置

Publications (2)

Publication Number Publication Date
CN112818003A true CN112818003A (zh) 2021-05-18
CN112818003B CN112818003B (zh) 2023-03-31

Family

ID=75869311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110051294.0A Active CN112818003B (zh) 2021-01-14 2021-01-14 一种查询任务的执行风险预估方法及装置

Country Status (1)

Country Link
CN (1) CN112818003B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092265A (zh) * 2021-10-20 2022-02-25 横琴人寿保险有限公司 保单新业务价值的确定方法、装置、存储介质及服务器
CN114356985A (zh) * 2021-12-24 2022-04-15 深圳市傲天科技股份有限公司 信息估计方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040101876A1 (en) * 2002-05-31 2004-05-27 Liat Mintz Methods and systems for annotating biomolecular sequences
CN104539487A (zh) * 2015-01-20 2015-04-22 成都益联科创科技有限公司 一种基于云平台的***测试及可靠性评估方法
US20160283254A1 (en) * 2015-03-23 2016-09-29 Dell Software, Inc. Automatic Optimization of Continuous Processes
CN106447173A (zh) * 2016-09-05 2017-02-22 北京理工大学 一种支持任意流程结构的云工作流调度方法
CN108304517A (zh) * 2018-01-23 2018-07-20 西南大学 基于复杂事件处理***的高效嵌套查询方法
CN108804459A (zh) * 2017-05-02 2018-11-13 杭州海康威视数字技术股份有限公司 数据查询方法及装置
CN109117258A (zh) * 2018-07-24 2019-01-01 合肥工业大学 一种基于任务移动的多核***静态任务调度方法
CN110119403A (zh) * 2019-04-03 2019-08-13 北京三快在线科技有限公司 Sql优化方法、装置、电子设备及可读存储介质
CN110297701A (zh) * 2019-05-16 2019-10-01 平安科技(深圳)有限公司 数据处理作业调度方法、装置、计算机设备及存储介质
CN110458697A (zh) * 2019-08-19 2019-11-15 北京百度网讯科技有限公司 用于评估风险的方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040101876A1 (en) * 2002-05-31 2004-05-27 Liat Mintz Methods and systems for annotating biomolecular sequences
CN104539487A (zh) * 2015-01-20 2015-04-22 成都益联科创科技有限公司 一种基于云平台的***测试及可靠性评估方法
US20160283254A1 (en) * 2015-03-23 2016-09-29 Dell Software, Inc. Automatic Optimization of Continuous Processes
CN106447173A (zh) * 2016-09-05 2017-02-22 北京理工大学 一种支持任意流程结构的云工作流调度方法
CN108804459A (zh) * 2017-05-02 2018-11-13 杭州海康威视数字技术股份有限公司 数据查询方法及装置
CN108304517A (zh) * 2018-01-23 2018-07-20 西南大学 基于复杂事件处理***的高效嵌套查询方法
CN109117258A (zh) * 2018-07-24 2019-01-01 合肥工业大学 一种基于任务移动的多核***静态任务调度方法
CN110119403A (zh) * 2019-04-03 2019-08-13 北京三快在线科技有限公司 Sql优化方法、装置、电子设备及可读存储介质
CN110297701A (zh) * 2019-05-16 2019-10-01 平安科技(深圳)有限公司 数据处理作业调度方法、装置、计算机设备及存储介质
CN110458697A (zh) * 2019-08-19 2019-11-15 北京百度网讯科技有限公司 用于评估风险的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈诗雅等: "基于信息网模型的动态数据划分策略", 《计算机应用与软件》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092265A (zh) * 2021-10-20 2022-02-25 横琴人寿保险有限公司 保单新业务价值的确定方法、装置、存储介质及服务器
CN114092265B (zh) * 2021-10-20 2022-12-13 横琴人寿保险有限公司 提高保单新业务价值确定效率的方法、装置及存储介质
CN114356985A (zh) * 2021-12-24 2022-04-15 深圳市傲天科技股份有限公司 信息估计方法、装置、设备及存储介质
CN114356985B (zh) * 2021-12-24 2024-04-02 深圳市傲天科技股份有限公司 信息估计方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112818003B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN103513983B (zh) 用于预测性警报阈值确定工具的方法和***
US9659042B2 (en) Data lineage tracking
EP3836041A1 (en) Interpretation of machine learning results using feature analysis
EP3475888A1 (en) System and method for ontology induction through statistical profiling and reference schema matching
CN110442516B (zh) 信息处理方法、设备及计算机可读存储介质
US9934330B2 (en) Query generation
CN112818003B (zh) 一种查询任务的执行风险预估方法及装置
CN102609406B (zh) 学习装置、判断装置、学习方法和判断方法
CN111459698A (zh) 一种数据库集群故障自愈方法及装置
CN108052542B (zh) 一种基于presto的数据的多维数据的分析方法
CN110287188B (zh) 通话详单数据的特征变量生成方法及装置
US20220076151A1 (en) Computer-implemented system and method having a digital twin and a graph-based structure
CN109522193A (zh) 一种运维数据的处理方法、***及装置
CN109062769B (zh) It***性能风险趋势预测的方法、装置和设备
Pandey et al. Association rules network: Definition and applications
US20140317066A1 (en) Method of analysing data
Zaman et al. Prefix imputation of orphan events in event stream processing
Corea et al. A taxonomy of business rule organizing approaches in regard to business process compliance
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
US20130124484A1 (en) Persistent flow apparatus to transform metrics packages received from wireless devices into a data store suitable for mobile communication network analysis by visualization
CN112416904A (zh) 电力数据规范化处理方法及装置
CN114706856A (zh) 故障处理方法及装置、电子设备和计算机可读存储介质
CN113760864A (zh) 数据模型的生成方法和装置
CN113495831A (zh) 基于关键字生成测试用例的方法、***、设备及介质
CN111352824A (zh) 测试方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant