CN116483663A - 用于平台的异常告警方法和装置 - Google Patents
用于平台的异常告警方法和装置 Download PDFInfo
- Publication number
- CN116483663A CN116483663A CN202310528732.7A CN202310528732A CN116483663A CN 116483663 A CN116483663 A CN 116483663A CN 202310528732 A CN202310528732 A CN 202310528732A CN 116483663 A CN116483663 A CN 116483663A
- Authority
- CN
- China
- Prior art keywords
- platform
- information
- data processing
- abnormal
- abnormality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005856 abnormality Effects 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 118
- 230000002159 abnormal effect Effects 0.000 claims abstract description 75
- 238000012423 maintenance Methods 0.000 claims description 33
- 230000004044 response Effects 0.000 claims description 26
- 238000012544 monitoring process Methods 0.000 claims description 24
- 238000011282 treatment Methods 0.000 claims description 17
- 230000001629 suppression Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013524 data verification Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 16
- 238000007726 management method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000002547 anomalous effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000011664 signaling Effects 0.000 description 2
- 241000579895 Chlorostilbon Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本说明书的实施例提供了一种用于平台的异常告警方法和装置。在该用于平台的异常告警方法中,若监测到用于指示运行于平台的数据处理任务出现异常的异常信息,确定异常原因;根据所述异常原因,判断是否满足向所述数据处理任务对应的用户进行告警的条件;以及若不满足向所述数据处理任务对应的用户进行告警的条件,对所述异常信息进行告警抑制。
Description
技术领域
本说明书实施例通常涉及智能运维技术领域,尤其涉及用于平台的异常告警方法和装置。
背景技术
随着互联网和大数据技术的飞速发展,各种平台(如计算平台、研发运维平台、数据服务平台等)也应运而生。通过平台,可以高效地执行各种数据处理任务。为了及时发现并处理执行异常的数据处理任务,需要更加合适的任务告警***将任务异常情况进行准确告知。
发明内容
鉴于上述,本说明书实施例提供了一种用于平台的异常告警方法和装置。利用该方法、装置,可以实现减少向用户发送不必要的告警,提高了告警的效果。
根据本说明书的实施例的一个方面,提供一种用于平台的异常告警方法,包括:响应于监测到用于指示运行于平台的数据处理任务出现异常的异常信息,确定异常原因;根据所述异常原因,判断是否满足向所述数据处理任务对应的用户进行告警的条件;以及若不满足向所述数据处理任务对应的用户进行告警的条件,对所述异常信息进行告警抑制。
根据本说明书的实施例的另一个方面,提供一种用于平台的异常告警装置,包括:异常原因确定单元,被配置为响应于监测到用于指示运行于平台的数据处理任务出现异常的异常信息,确定异常原因;告警条件判断单元,被配置为根据所述异常原因,判断是否满足向所述数据处理任务对应的用户进行告警的条件;告警抑制单元,被配置为若不满足向所述数据处理任务对应的用户进行告警的条件,对所述异常信息进行告警抑制。
根据本说明书的实施例的再一方面,提供一种用于平台的异常告警装置,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的用于平台的异常告警方法。
根据本说明书的实施例的另一方面,提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的用于平台的异常告警方法。
根据本说明书的实施例的另一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如上所述的用于平台的异常告警方法。
附图说明
通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1示出了根据本说明书的实施例的用于平台的异常告警方法和装置的示例性架构。
图2示出了根据本说明书的实施例的用于平台的异常告警方法的一个示例的流程图。
图3示出了根据本说明书的实施例的是否满足向数据处理任务对应的用户进行告警的条件的判断过程的一个示例的流程图。
图4示出了根据本说明书的实施例的是否满足向数据处理任务对应的用户进行告警的条件的判断过程的又一个示例的流程图。
图5示出了根据本说明书的实施例的用于平台的异常告警方法的又一个示例的信令图。
图6示出了根据本说明书的实施例的用于平台的异常告警装置的一个示例的方框图。
图7示出了根据本说明书的实施例的用于平台的异常告警装置中告警条件判断单元的一个示例的方框图。
图8示出了根据本说明书的实施例的用于平台的异常告警装置中告警条件判断单元的又一个示例的方框图。
图9示出了根据本说明书的实施例的用于平台的异常告警装置的一个示例的方框图。
图10示出了根据本说明书的实施例的用于平台的异常告警装置的又一个示例的方框图。
图11示出了本说明书的实施例的用于平台的异常告警装置的示意图。
具体实施方式
以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书实施例内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在本说明书中,术语“运行于平台的数据处理任务”可以包括各种依托于平台的资源的数据加工任务。在一个示例中,平台的使用方可以向平台提供待加工数据。平台可以依托于计算资源、存储资源等,按照各种预定义或使用方自定义的数据处理方式进行数据加工,得到数据处理结果,并将数据处理结果反馈给平台的使用方。可以理解,“运行于平台的数据处理任务”能否顺利执行,既与平台的使用方所提供的数据和指定的数据处理方式有关,也依赖于平台本身是否正常运行。
下面将结合附图来详细描述根据本说明书实施例的用于平台的异常告警方法和装置。
图1示出了根据本说明书实施例的用于平台的异常告警方法和装置的示例性架构100。
在图1中,网络110被应用于在终端设备121、122和平台130以及异常告警装置150之间进行互连。网络160被应用于在平台130、维护端设备140和异常告警装置150之间进行互连。
网络110、160可以是能够对网络实体进行互连的任何类型的网络。网络110、160可以是单个网络或各种网络的组合。在覆盖范围方面,网络110、160可以是局域网(LAN)、广域网(WAN)等。在承载介质方面,网络110、160可以是有线网络、无线网络等。在数据交换技术方面,网络110、160可以是电路交换网络、分组交换网络等。
终端设备121、122可以是能够连接到网络110、访问网络110上的服务器或网站、处理数据或信号等的任何类型的电子计算设备。例如,终端设备121、122可以是台式计算机、笔记本电脑、平板电脑、智能电话等。可以理解,可以有不同数量的终端设备连接到网络110。
在一种实施方式中,终端设备121、122可以由用户使用。终端设备121、122可以与平台130进行交互。例如,终端设备121、122可以将用户输入的消息传送到平台130,并且从平台130接收与上述消息相关联的响应。在本文中,“消息”可以指任何输入信息,例如来自用户输入的原始数据。相应地,与上述消息相关联的响应也可以指各种信息,例如与输入的原始数据对应的数据处理结果。
平台130可以是各种能够进行大规模数据处理的平台。在一个示例中,平台130可以是高性能计算(High performance computing,HPC)平台。在一个示例中,平台130可以是ODPS(Open Data Processing Service)等云计算平台。在一个示例中,平台130可以是HBase、Lindorm等数据平台。在一个示例中,平台130可以是各种研发运维平台。在一个示例中,平台130可以包括计算引擎131、调度***132和存储引擎133等。计算引擎131可以执行各种数据计算任务。调度***132可以负责各种资源的调度。存储引擎133可以执行各种数据库操作。
维护端设备140可以由平台130的运维人员使用。维护端设备140可以与平台130进行交互,用以支持平台130上计算引擎131、调度***132和存储引擎133等的正常运行。
异常告警装置150可以用于针对运行于平台130的数据处理任务进行异常告警,其可以根据异常原因将告警信息发送至指定设备,以提高告警的针对性。可选地,异常告警装置150也可以集成于上述平台130。异常告警装置150的具体描述可以参考下面各个实施例的相关说明。
应当理解,图1中所示的所有网络实体都是示例性的,根据具体的应用需求,架构100中可以涉及任何其它网络实体。
图2示出了根据本说明书的实施例的用于平台的异常告警方法200的流程图。
如图2所示,在210,响应于监测到用于指示运行于平台的数据处理任务出现异常的异常信息,确定异常原因。
在本实施例中,可以判断是否监测到用于指示运行于平台的数据处理任务出现异常的异常信息。若监测到用于指示运行于平台的数据处理任务出现异常的异常信息,可以确定用于指示该异常信息出现的异常原因。
在智能运维技术领域,通常可以预先定义各种用于监测运行于平台的数据处理任务的监测任务。若监测任务出现异常,可以生成用于指示该数据处理任务出现异常的异常信息。在一个示例中,异常信息可以用于指示所监控的自定义任务触发报警。在一个示例中,异常信息可以用于指示集群资源使用率异常(例如内存使用率或CPU使用率大于相应的预设阈值)。在一个示例中,异常信息可以用于指示时间窗口内(例如每小时)成功运行的实例数目的波动大于预设幅度阈值。在一个示例中,可以直接创建监测任务对运行于平台的数据处理任务进行监测,从而可以在监测任务出现异常时生成用于指示该数据处理任务出现异常的异常信息。在一个示例中,上述监测任务可以由上述平台本身的告警***来创建及执行。从而可以监测上述平台本身的告警***是否生成用于指示运行于平台的数据处理任务出现异常的异常信息。
在一个示例中,监测任务可以包括基线(Base Line)监测任务。对于被添加到基线上的任务,若根据任务运行情况判断所计算出的基线任务的预计完成时间可能超过预定的承诺时间,可以生成用于指示该基线任务出现异常的异常信息。在一个示例中,监测任务可以包括数据校验监测任务。若在数据处理任务的执行过程中发现数据内容不满足数据要求,可以生成用于指示该数据校验监测任务出现异常的异常信息。其中,上述数据要求例如可以包括数据表非空、主键不重复、字符类型均为可接收类型等。在一个示例中,上述监测任务可以定时轮询(例如每日23点)执行监测。在一个示例中,上述监测任务可以响应于满足触发条件来执行监测。
在一个示例中,可以根据上述监测到的异常信息确定异常原因。在一个示例中,上述异常原因可以用于指示是否平台导致报警。例如,若异常信息指示集群资源使用率异常,则异常原因可以用于指示平台导致报警。例如,若异常信息指示数据校验任务异常,则异常原因可以用于指示非平台导致报警。例如,若异常信息指示基线任务异常,则可以根据对该基线任务的日志解析结果确定是否用于指示平台导致报警的异常原因。
在220,根据异常原因,判断是否满足向数据处理任务对应的用户进行告警的条件。
在本实施例中,数据处理任务对应的用户可以为待接收告警的用户,通常为平台的使用方。在一个示例中,数据处理任务对应的用户可以是该数据处理任务的创建者。在一个示例中,数据处理任务对应的用户可以是该数据处理任务所对应的告警信息接收者。其中,上述告警信息接收者的相关信息(例如手机号、邮箱、即时通讯账号等)例如可以由该任务的创建者在创建数据处理任务时提供。
在一个示例中,若异常原因用于指示平台导致报警,则不满足向数据处理任务对应的用户进行告警的条件。
可选地,继续参见图3,图3示出了根据本说明书的实施例的是否满足向数据处理任务对应的用户进行告警的条件的判断过程300的一个示例的流程图。
在310,根据异常原因,判断是否满足任务自愈策略。
在本实施例中,任务自愈策略可以预先得到。可选地,任务自愈策略也可以随着维护数据的积累而更新。在一个示例中,若异常原因用于指示非平台导致报警,则不满足任务自愈策略。在一个示例中,若异常原因用于指示平台导致报警,则获取该异常的相关信息以及根据所获取的相关信息确定是否满足任务自愈策略。例如,可以根据所获取的相关信息是否命中自愈知识库来确定是否满足任务自愈策略。例如,可以根据该异常的发生时间是否位于允许重跑的时间段之内来确定是否满足任务自愈策略。
若判断为是,执行以下步骤320-330。
在320,对数据处理任务执行自愈操作。
在本实施例中,可以根据自愈策略对上述数据处理任务执行自愈操作。在一个示例中,可以重新执行出错的数据处理任务。在一个示例中,可以为执行出错的数据处理任务分配更多的资源(例如内存)再重新执行该数据处理任务。
在330,响应于数据处理任务从异常状态恢复为正常状态,确定不满足向数据处理任务对应的用户进行告警的条件。
在本实施例中,可以确定执行上述自愈操作后的数据处理任务是否从异常状态恢复为正常状态。在一个示例中,若出错的数据处理任务执行上述自愈操作后的得到处理结果,则可以确定该数据处理任务从异常状态恢复为正常状态。在一个示例中,若变慢的数据处理任务执行上述自愈操作后的本次任务执行时间与常规执行时间(例如过去一段时间内该周期性任务的平均运行时间)相匹配,则可以确定该数据处理任务从异常状态恢复为正常状态。
基于此,本方案可以根据异常原因结合自愈策略过滤一部分告警信息,从而有助于避免“告警风暴”的出现,实现更为准确、精细化的异常告警。
可选地,继续参见图4,图4示出了根据本说明书的实施例的是否满足向数据处理任务对应的用户进行告警的条件的判断过程400的又一个示例的流程图。
在410,根据异常原因,判断是否满足任务自愈策略。
在本实施例中,可以参见上述步骤310的相关描述。
若判断为否,执行以下步骤420-430。
在420,判断异常原因是否指示平台导致异常。
若判断为是,在430,确定不满足向数据处理任务对应的用户进行告警的条件。
可选地,若判断为是,还可以继续执行步骤440-460。
在440,确定平台的异常发生位置。
在本实施例中,可以进一步确定异常信息所指示的异常发生在平台上的位置,即异常发生位置。在一个示例中,可以获取与该异常相关的信息(例如任务执行日志信息)。通过对上述与该异常相关的信息的解析结果来确定异常发生在平台上的具***置。在一个示例中,异常信息还可以包括异常类别代码。可以根据预定的对应关系通过识别上述异常类别代码来确定平台的异常发生位置。
在本实施例中,上述平台的异常发生位置可以与平台的架构相关联,例如可以是某个模块。在一个示例中,平台的异常发生位置可以包括但不限于以下至少一项:调度***,告警***,数据校验***,计算引擎(例如MaxComputer),存储引擎。其中,上述平台的异常发生位置可以进一步细化为以下至少一项:存储引擎中的数据同步工具(例如DataX),存储引擎中的分布式事务管理器(例如DTM),存储引擎中的操作数据存储(例如ODS(Operational Data Store))。可选地,平台的异常发生位置还可以包括未列示的其他位置。
在450,从平台获取与异常发生位置相匹配的维护人员信息。
在本实施例中,平台可以存储有与平台各个部分相对应的维护人员信息。在一个示例中,维护人员信息可以包括维护人员的手机号、邮箱、即时通讯账号等。在一个示例中,与调度***、告警***、数据校验***相匹配的维护人员例如可以是平台维护负责人。在一个示例中,与计算引擎相匹配的维护人员例如可以是计算模块维护人员。在一个示例中,与存储引擎相匹配的维护人员例如可以是存储模块维护人员。可选地,与数据同步工具相匹配的维护人员例如可以是数据同步维护人员。与分布式事务管理器相匹配的维护人员例如可以是事务管理维护人员。与操作数据存储相匹配的维护人员例如可以是操作数据存储维护人员。
可选地,在一个示例中,维护人员信息还可以包括各个维护人员对应的值班时间。从而,可以结合上述异常发生位置和异常发生时间确定相匹配的维护人员信息。
在460,向相匹配的维护人员发送异常告警信息。
在本实施例中,可以根据步骤450所确定的相匹配的维护人员信息向相应的维护人员发送异常告警信息。在一个示例中,异常告警信息可以包括异常基本信息。其中,异常基本信息例如可以包括但不限于以下至少一项:告警对象、告警原因、相关日志。在一个示例中,上述告警对象例如可以是上述监测任务所针对的对象。上述告警原因可以包括但不限于以下至少一项:数据校验结果异常,基线预警,基线任务事件报警(例如任务出错、任务变慢等),任务事件报警(例如任务出错、任务变慢、任务未完成、任务运行超时等),资源使用率(例如内存使用率、CPU使用率、CPU负载等)异常。相关日志可以包括异常所涉及的运行日志。
基于此,本方案可以通过异常原因指示平台导致异常来确定不满足向数据处理任务对应的用户进行告警的条件,进而阻止将该由平台导致的异常发送至数据处理任务对应的用户,从而可以避免用户收到告警信息却无能为力的情况的发生,提高了告警的针对性和效果。并且还可以根据平台的异常发生位置将告警信息发送给相匹配的维护人员,保证了告警信息的准确传达。
回到图2,若判断为否,在230,对异常信息进行告警抑制。
在本实施例中,若不满足向数据处理任务对应的用户进行告警的条件,对异常信息进行告警抑制,即不将上述异常信息发送给上述数据处理任务对应的用户。
下面参考图5,图5示出了根据本说明书的实施例的用于平台的异常告警方法500的又一个示例的信令图。
在510,监测是否产生用于指示运行于平台的数据处理任务出现异常的异常信息。
在520,响应于监测到用于指示运行于平台的数据处理任务出现异常的异常信息,确定异常原因。
可选地,异常信息可以包括用于指示以下至少一项的信息:数据校验结果异常,基线预警,基线任务事件报警,任务事件报警,资源使用率异常。
在530,根据异常原因,判断是否满足向数据处理任务对应的用户进行告警的条件。
若判断为否,在540,对异常信息进行告警抑制。
需要说明的是,上述步骤510-540可以参考前述图2实施例中210-230的相关描述。
若判断为是,执行以下步骤550-580。
在550,向数据处理任务对应的用户发送异常告警信息。
在本实施例中,数据处理任务对应的用户可以参考前述图2实施例中220的相关描述。在一个示例中,可以通过短信、邮件、即时通信工具等向该数据处理任务对应的用户发送异常告警信息。
可选地,异常告警信息可以包括以下至少一项:异常基本信息,异常影响评估信息,异常根因分析信息,异常处置推荐信息。在一个示例中,异常告警信息可以前述图4实施例中460的相关描述。在一个示例中,异常影响评估信息可以用于指示该异常的影响范围,例如可以当前任务进度判断是否会对上下游任务产生影响。在一个示例中,可以利用各种根因分析(Root Cause Analysis)工具对该异常进行分析,从而得到异常根因分析信息。在一个示例中,可以根据预设知识库查询与该异常相匹配的处置方式,生成异常处置推荐信息。
在560,接收来自数据处理任务对应的用户的、与异常告警信息对应的指示无法自行处理的反馈信息。
在本实施例中,若数据处理任务对应的用户判断无法自行处理该异常告警信息所指示的问题,可以发送指示无法自行处理的反馈信息。
在570,根据异常告警信息生成应急处理信息。
在本实施例中,若接收到上述反馈信息,可以根据异常告警信息生成应急处理信息。在一个示例中,上述应急处理信息可以包括上述异常基本信息。可选地,上述应急处理信息还可以包括所获取到的与该异常相关的更多详细信息,例如异常发生前后一段时间内的日志、相似异常的历史记录及相应处置记录等。可选地,上述应急处理信息还可以包括异常紧急度。上述异常紧急度例如可以根据上述异常影响评估信息来确定。
在580,将应急处理信息上报至应急处理平台。
在本实施例中,应急处理平台可以包括各种支持异常处理的平台。可选地,应急处理平台也可以集成于上述平台。在一个示例中,应急处理平台可以包括应急流程管理模块、应急运维执行模块、应急历史管理模块等。在一个示例中,应急流程管理模块可以根据所上报的应急处理信息匹配相应的应急处理策略。应急运维执行模块可以执行所匹配的应急处理策略,例如转接给相应的技术人员、自动执行匹配的异常回复策略等。应急历史管理模块可以对每次应急处理过程进行记录。可选地,应急历史管理模块还可以对历史记录进行分析,从而为优化应急处理提供数据支持。
基于此,本方案可以向数据处理任务对应的用户提供全流程的异常处置服务,在过滤掉不恰当的告警信息(例如由平台导致的异常)的基础上向用户提供更为有效的告警信息,并可以协助用户处置异常。
利用图1-图5中公开的用于平台的异常告警方法,可以根据检测到的异常信息确定异常原因,并在判断异常原因不满足向数据处理任务对应的用户进行告警的条件时进行告警抑制,从而通过对不同原因的告警信息进行区分,减少了不必要的向用户告警的次数,提高了告警的针对性和效果,以使用户能够专注于真正需要解决的问题,进而有助于计算任务的顺利进行。
图6示出了根据本说明书的实施例的用于平台的异常告警装置600的一个示例的方框图。该装置实施例可以与图2-图5所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,用于平台的异常告警装置600可以包括异常原因确定单元610、告警条件判断单元620和告警抑制单元630。
异常原因确定单元610,被配置为响应于监测到用于指示运行于平台的数据处理任务出现异常的异常信息,确定异常原因。异常原因确定单元610的操作可以参考上面图2描述的210的操作。
告警条件判断单元620,被配置为根据所述异常原因,判断是否满足向所述数据处理任务对应的用户进行告警的条件。告警条件判断单元620的操作可以参考上面图2描述的220的操作。
可选地,下面参考图7,图7示出了根据本说明书的实施例的用于平台的异常告警装置中告警条件判断单元700的一个示例的方框图。
如图7所示,告警条件判断单元700可以包括:自愈条件判断模块710,被配置为根据所述异常原因,判断是否满足任务自愈策略;自愈执行模块720,被配置为响应于满足所述任务自愈策略,对所述数据处理任务执行自愈操作;告警条件判断模块730,被配置为响应于所述数据处理任务从异常状态恢复为正常状态,确定不满足向所述数据处理任务对应的用户进行告警的条件。
上述自愈条件判断模块710、自愈执行模块720、告警条件判断模块730的操作可以参考上面图3描述的是否满足向数据处理任务对应的用户进行告警的条件的判断过程310-330。
可选地,下面参考图8,图8示出了根据本说明书的实施例的用于平台的异常告警装置中告警条件判断单元800的又一个示例的方框图。
如图8所示,告警条件判断单元800可以包括:自愈条件判断模块810,被配置为根据所述异常原因,判断是否满足任务自愈策略;异常原因定位模块820,被配置为响应于不满足所述任务自愈策略,判断所述异常原因是否指示所述平台导致所述异常;告警条件判断模块830,被配置为响应于所述异常原因指示所述平台导致所述异常,确定不满足向所述数据处理任务对应的用户进行告警的条件。
上述自愈条件判断模块810、异常原因定位模块820、告警条件判断模块830的操作可以参考上面图4描述的是否满足向数据处理任务对应的用户进行告警的条件的判断过程410-430。
回到图6,告警抑制单元630,被配置为若不满足向所述数据处理任务对应的用户进行告警的条件,对所述异常信息进行告警抑制。告警抑制单元630的操作可以参考上面图2描述的230的操作。
继续参考图9,图9示出了根据本说明书的实施例的用于平台的异常告警装置900的一个示例的方框图。
如图9所示,用于平台的异常告警装置900可以包括:异常原因确定单元910、告警条件判断单元920、告警抑制单元930和第一告警单元940。
在本实施例中,第一告警单元940,被配置为响应于所述异常原因指示所述平台导致所述异常,确定所述平台的异常发生位置;从所述平台获取与所述异常发生位置相匹配的维护人员信息;向相匹配的维护人员发送异常告警信息。第一告警单元940的操作可以参考上面图4描述的440-460的操作。
需要说明的是,异常原因确定单元910、告警条件判断单元920、告警抑制单元930的操作可以参考前述实施例中异常原因确定单元610、告警条件判断单元800和告警抑制单元630的相关描述,此处不再赘述。
继续参考图10,图10示出了根据本说明书的实施例的用于平台的异常告警装置1000的又一个示例的方框图。
如图10所示,用于平台的异常告警装置1000可以包括:异常原因确定单元1010、告警条件判断单元1020、告警抑制单元1030、第二告警单元1040和应急信息上报单元1050。
在本实施例中,第二告警单元1040,被配置为若满足向所述数据处理任务对应的用户进行告警的条件,向所述数据处理任务对应的用户发送异常告警信息。
应急信息上报单元1050,被配置为响应于接收到与所述异常告警信息对应的指示无法自行处理的反馈信息,根据所述异常告警信息生成应急处理信息;以及将所述应急处理信息上报至应急处理平台。
需要说明的是,第二告警单元1040和应急信息上报单元1050的操作可以参考上面图5描述的540-580的操作。异常原因确定单元1010、告警条件判断单元1020、告警抑制单元1030的操作可以参考前述图6-9实施例中异常原因确定单元、告警条件判断单元和告警抑制单元的相关描述,此处不再赘述。
以上参照图1到图10,对根据本说明书实施例的用于平台的异常告警方法和装置的实施例进行了描述。
本说明书实施例的用于平台的异常告警装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中,用于平台的异常告警装置例如可以利用电子设备实现。
图11示出了本说明书的实施例的用于平台的异常告警装置1100的示意图。
如图11所示,用于平台的异常告警装置1100可以包括至少一个处理器1110、存储器(例如,非易失性存储器)1120、内存1130和通信接口1140,并且至少一个处理器1110、存储器1120、内存1130和通信接口1140经由总线1150连接在一起。至少一个处理器1110执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器1110:响应于监测到用于指示运行于平台的数据处理任务出现异常的异常信息,确定异常原因;根据所述异常原因,判断是否满足向所述数据处理任务对应的用户进行告警的条件;以及若不满足向所述数据处理任务对应的用户进行告警的条件,对所述异常信息进行告警抑制。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1110进行本说明书的各个实施例中以上结合图1-5描述的各种操作和功能。
根据一个实施例,提供了一种例如计算机可读介质的程序产品。计算机可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被计算机执行时,使得计算机执行本说明书的各个实施例中以上结合图1-5描述的各种操作和功能。
具体地,可以提供配有可读存储介质的***或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写,包括面向对象编程语言,如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB、NET以及Python等,常规程序化编程语言如C语言、Visual Basic 2003、Perl、COBOL 2002、PHP以及ABAP,动态编程语言如Python、Ruby和Groovy,或者其他编程语言等。该程序编码可以在用户计算机上运行,或者作为独立的软件包在用户计算机上运行,或者部分在用户计算机上运行另一部分在远程计算机运行,或者全部在远程计算机或服务器上运行。在后一种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或者在云计算环境中,或者作为服务使用,比如软件即服务(SaaS)。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
上述各流程和各***结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
以上结合附图详细描述了本说明书的实施例的可选实施方式,但是,本说明书的实施例并不限于上述实施方式中的具体细节,在本说明书的实施例的技术构思范围内,可以对本说明书的实施例的技术方案进行多种简单变型,这些简单变型均属于本说明书的实施例的保护范围。
本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说,对本说明书内容进行的各种修改是显而易见的,并且,也可以在不脱离本说明书内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本说明书内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。
Claims (12)
1.一种用于平台的异常告警方法,包括:
响应于监测到用于指示运行于平台的数据处理任务出现异常的异常信息,确定异常原因;
根据所述异常原因,判断是否满足向所述数据处理任务对应的用户进行告警的条件;以及
若不满足向所述数据处理任务对应的用户进行告警的条件,对所述异常信息进行告警抑制。
2.如权利要求1所述的方法,其中,所述根据所述异常原因,判断是否满足向所述数据处理任务对应的用户进行告警的条件包括:
根据所述异常原因,判断是否满足任务自愈策略;
响应于满足所述任务自愈策略,
对所述数据处理任务执行自愈操作;以及
响应于所述数据处理任务从异常状态恢复为正常状态,确定不满足向所述数据处理任务对应的用户进行告警的条件。
3.如权利要求1所述的方法,其中,所述根据所述异常原因,判断是否满足向所述数据处理任务对应的用户进行告警的条件包括:
根据所述异常原因,判断是否满足任务自愈策略;
响应于不满足所述任务自愈策略,
判断所述异常原因是否指示所述平台导致所述异常;以及
响应于所述异常原因指示所述平台导致所述异常,确定不满足向所述数据处理任务对应的用户进行告警的条件。
4.如权利要求3所述的方法,其中,所述方法还包括:
响应于所述异常原因指示所述平台导致所述异常,
确定所述平台的异常发生位置;
从所述平台获取与所述异常发生位置相匹配的维护人员信息;以及
向相匹配的维护人员发送异常告警信息。
5.如权利要求1到4中任一所述的方法,其中,所述方法还包括:
若满足向所述数据处理任务对应的用户进行告警的条件,
向所述数据处理任务对应的用户发送异常告警信息;
响应于接收到与所述异常告警信息对应的指示无法自行处理的反馈信息,
根据所述异常告警信息生成应急处理信息;以及
将所述应急处理信息上报至应急处理平台。
6.如权利要求5所述的方法,其中,所述异常告警信息包括以下至少一项:异常基本信息,异常影响评估信息,异常根因分析信息,异常处置推荐信息;
所述异常信息包括用于指示以下至少一项的信息:数据校验结果异常,基线预警,基线任务事件报警,任务事件报警,资源使用率异常。
7.一种用于平台的异常告警装置,包括:
异常原因确定单元,被配置为响应于监测到用于指示运行于平台的数据处理任务出现异常的异常信息,确定异常原因;
告警条件判断单元,被配置为根据所述异常原因,判断是否满足向所述数据处理任务对应的用户进行告警的条件;
告警抑制单元,被配置为若不满足向所述数据处理任务对应的用户进行告警的条件,对所述异常信息进行告警抑制。
8.如权利要求7所述的装置,其中,所述告警条件判断单元包括:
自愈条件判断模块,被配置为根据所述异常原因,判断是否满足任务自愈策略;
自愈执行模块,被配置为响应于满足所述任务自愈策略,对所述数据处理任务执行自愈操作;
告警条件判断模块,被配置为响应于所述数据处理任务从异常状态恢复为正常状态,确定不满足向所述数据处理任务对应的用户进行告警的条件。
9.如权利要求7所述的装置,其中,所述告警条件判断单元包括:
自愈条件判断模块,被配置为根据所述异常原因,判断是否满足任务自愈策略;
异常原因定位模块,被配置为响应于不满足所述任务自愈策略,判断所述异常原因是否指示所述平台导致所述异常;
告警条件判断模块,被配置为响应于所述异常原因指示所述平台导致所述异常,确定不满足向所述数据处理任务对应的用户进行告警的条件。
10.如权利要求9所述的装置,其中,所述装置还包括:
第一告警单元,被配置为响应于所述异常原因指示所述平台导致所述异常,确定所述平台的异常发生位置;从所述平台获取与所述异常发生位置相匹配的维护人员信息;向相匹配的维护人员发送异常告警信息。
11.如权利要求7到10中任一所述的装置,其中,所述装置还包括:
第二告警单元,被配置为若满足向所述数据处理任务对应的用户进行告警的条件,向所述数据处理任务对应的用户发送异常告警信息;
应急信息上报单元,被配置为响应于接收到与所述异常告警信息对应的指示无法自行处理的反馈信息,根据所述异常告警信息生成应急处理信息;以及将所述应急处理信息上报至应急处理平台。
12.一种用于平台的异常告警置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如权利要求1到6中任一所述的用于平台的异常告警方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310528732.7A CN116483663A (zh) | 2023-05-09 | 2023-05-09 | 用于平台的异常告警方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310528732.7A CN116483663A (zh) | 2023-05-09 | 2023-05-09 | 用于平台的异常告警方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116483663A true CN116483663A (zh) | 2023-07-25 |
Family
ID=87225082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310528732.7A Pending CN116483663A (zh) | 2023-05-09 | 2023-05-09 | 用于平台的异常告警方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116483663A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117057783A (zh) * | 2023-10-09 | 2023-11-14 | 巴斯夫一体化基地(广东)有限公司 | 用于确定工厂内的维护路线的方法和装置 |
-
2023
- 2023-05-09 CN CN202310528732.7A patent/CN116483663A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117057783A (zh) * | 2023-10-09 | 2023-11-14 | 巴斯夫一体化基地(广东)有限公司 | 用于确定工厂内的维护路线的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110661659B (zh) | 一种告警方法、装置、***及电子设备 | |
CN110224858B (zh) | 基于日志的告警方法及相关装置 | |
CN107992398A (zh) | 一种业务***的监控方法和监控*** | |
CN112162878A (zh) | 数据库故障发现方法、装置、电子设备及存储介质 | |
JP4892367B2 (ja) | 異常兆候検出システム | |
US20140195670A1 (en) | Automated alert management | |
AU2007261542B2 (en) | Method and system for monitoring non-occurring events | |
US10896073B1 (en) | Actionability metric generation for events | |
CN109861856B (zh) | ***故障信息的通知方法、装置、存储介质及计算机设备 | |
CN111475369A (zh) | 日志监控的添加方法、装置、计算机设备及存储介质 | |
EP3343421A1 (en) | System to detect machine-initiated events in time series data | |
CN116483663A (zh) | 用于平台的异常告警方法和装置 | |
CN111934913A (zh) | 一种智能网络管理*** | |
CN111510339A (zh) | 一种工业互联网数据监测方法和装置 | |
CN115001989A (zh) | 一种设备预警方法、装置、设备及可读存储介质 | |
CN112910733A (zh) | 一种基于大数据的全链路监控***及方法 | |
CN110677271B (zh) | 基于elk的大数据告警方法、装置、设备及存储介质 | |
US20230291657A1 (en) | Statistical Control Rules for Detecting Anomalies in Times Series Data | |
CN111949421A (zh) | Sdk调用方法、装置、电子设备和计算机可读存储介质 | |
CN111367934A (zh) | 数据一致性的检验方法、装置、服务器和介质 | |
CN115102838B (zh) | 服务器宕机风险的应急处理方法和装置、电子设备 | |
CN109508356B (zh) | 数据异常预警方法、装置、计算机设备及存储介质 | |
CN114296979A (zh) | 一种检测物联网设备异常状态的方法及装置 | |
CN113342596A (zh) | 一种设备指标的分布式监控方法、***及装置 | |
EP4091084A1 (en) | Endpoint security using an action prediction model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |