CN114090367A - ***运维数据的处理方法、装置、设备、介质及程序产品 - Google Patents

***运维数据的处理方法、装置、设备、介质及程序产品 Download PDF

Info

Publication number
CN114090367A
CN114090367A CN202110552311.9A CN202110552311A CN114090367A CN 114090367 A CN114090367 A CN 114090367A CN 202110552311 A CN202110552311 A CN 202110552311A CN 114090367 A CN114090367 A CN 114090367A
Authority
CN
China
Prior art keywords
database
model
detection
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110552311.9A
Other languages
English (en)
Inventor
胡凯涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110552311.9A priority Critical patent/CN114090367A/zh
Publication of CN114090367A publication Critical patent/CN114090367A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种***运维数据的处理方法、装置、设备、介质及程序产品,该方法包括:电子设备通过获取待检测的运维数据流,之后将待检测的运维数据流与在线缓存数据库中的历史数据进行拼接,得到数据序列。再然后,电子设备从模型参数数据库中获取检测模型的模型参数,并从离线预测数据库中获取离线预测结果,并根据检测模型的模型参数,离线预测结果以及检测模型,对数据序列进行异常检测,得到检测结果。该技术方案中,电子设备通过利用检测模型、离线预测结果以及检测模型的模型参数对数据序列进行异常检测,能够代替人工配置过程,节省人工成本,进一步提高了检测的准确性和效率。

Description

***运维数据的处理方法、装置、设备、介质及程序产品
技术领域
本申请涉及数据处理技术领域,尤其涉及一种***运维数据的处理方法、装置、设备、介质及程序产品。
背景技术
运维***通过对实例(如服务器、交换机等)进行监控,从而获取实例的运行情况。获取实例的运行情况,能够在实例出现问题的时候对其进行及时修复。且由于实例能够为如计算机、智能手机等终端提供服务,还能够进一步保证终端的正常工作。因此,如何通过运维***获取实例的运行情况是关键。
目前,通过运维***获取实例的运行情况主要是运维***收集被监控的实例的***运维数据,并对该***运维数据进行分析。之后对分析后的***运维数据进行异常检测,判断分析后的***运维数据是否偏离阈值,若偏离阈值则说明该实例运行存在异常。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:当一个业务模块/业务功能的运行存在异常时,运维人员需要通过对大量的***运维数据进行检测,从而定位到有问题的实例,人工成本较高,检测的准确率和效率较低。
发明内容
本申请提供一种***运维数据的处理方法、装置、设备、介质及程序产品,以解决现有技术中当多个实例间的运行存在异常时,运维人员需要通过对大量的***运维数据进行处理,从而定位到有问题的实例,人工成本较高,处理的效率较低的问题。
第一方面,本申请实施例提供一种***运维数据的处理方法,包括:
获取待检测的运维数据流;
将所述待检测的运维数据流与在线缓存数据库中的历史数据进行拼接,得到数据序列;
从模型参数数据库中获取检测模型的模型参数,并从离线预测数据库中获取离线预测结果,其中,所述模型参数数据库用于存储根据离线数据库中的数据训练得到的不同检测模型对应的模型参数,所述离线预测数据库用于存储根据所述离线数据库中数据预测得到的对运维指标的预测结果;
根据所述检测模型的模型参数,所述离线预测结果以及检测模型,对所述数据序列进行异常检测,得到检测结果。
在第一方面的一种可能设计中,所述方法还包括:
将所述待检测的运维数据流存储至离线数据库,所述离线数据库用于保存用于离线模型训练的运维数据。
在第一方面的另一种可能设计中,所述方法还包括:
根据预警模型数据库中存储的预警规则,对所述检测结果进行预警过滤,确定是否所述检测结果中是否存在异常;
若所述检测结果中存在异常,则将所述异常存储至预警数据库,并向用户推送预警信息,所述预警信息用于指示所述待检测的运维数据流的检测结果出现异常以及异常类型。
在第一方面的再一种可能设计中,所述方法还包括:
将所述检测结果存储至异常数据库,所述异常数据库用于存储异常数据记录以及所述数据序列的瞬时特征描述信息;
其中,所述瞬时特征描述信息包括以下至少一个信息:周期性信息,分布信息,自相关信息,偏度信息以及峰值信息。
可选的,所述方法还包括:
响应于所述用户的操作,获取用户针对所述预警信息的反馈信息;
将所述反馈信息存储至用户反馈数据库。
可选的,所述方法还包括:
根据所述预警信息以及所述用户反馈数据库中的反馈信息,采用半监督学习算法更新所述预警模型数据库中的预警规则。
在第一方面的又一种可能设计中,所述方法还包括:
根据所述离线数据库中存储的数据,对每个检测模型的模型参数进行机器学习训练,得到新的模型参数;
将每个检测模型的新的模型参数存储至所述模型参数数据库。
在第一方面的又一种可能设计中,所述方法还包括:
根据所述离线数据库中存储的数据,对运维指标进行长期分布预测,得到所述预测结果,其中,所述运维指标包括CPU信息,内存信息,网卡监控数据,服务的每秒查询率,请求延时以及网站登录信息中的至少一种;
将所述预测结果存储至所述离线预测数据库。
第二方面,本申请实施例提供一种***运维数据的处理装置,包括:
获取模块,用于获取待检测的运维数据流;
处理模块,用于将所述待检测的运维数据流与在线缓存数据库中的历史数据进行拼接,得到数据序列;
所述处理模块,还用于从模型参数数据库中获取检测模型的模型参数,并从离线预测数据库中获取离线预测结果,其中,所述模型参数数据库用于存储根据离线数据库中的数据训练得到的不同检测模型对应的模型参数,所述离线预测数据库用于存储根据所述离线数据库中数据预测得到的对运维指标的预测结果;
所述处理模块,还用于根据所述检测模型的模型参数,所述离线预测结果以及检测模型,对所述数据序列进行异常检测,得到检测结果。
在第二方面的一种可能设计中,所述处理模块,还用于:
将所述待检测的运维数据流存储至离线数据库,所述离线数据库用于保存用于离线模型训练的运维数据。
在第二方面的另一种可能设计中,所述处理模块,还用于:
根据预警模型数据库中存储的预警规则,对所述检测结果进行预警过滤,确定是否所述检测结果中是否存在异常;
若所述检测结果中存在异常,则将所述异常存储至预警数据库,并向用户推送预警信息,所述预警信息用于指示所述待检测的运维数据流的检测结果出现异常以及异常类型。
在第二方面的再一种可能设计中,所述处理模块,还用于:
将所述检测结果存储至异常数据库,所述异常数据库用于存储异常数据记录以及所述数据序列的瞬时特征描述信息;
其中,所述瞬时特征描述信息包括以下至少一个信息:周期性信息,分布信息,自相关信息,偏度信息以及峰值信息。
可选的,所述处理模块,还用于:
响应于所述用户的操作,获取用户针对所述预警信息的反馈信息;
将所述反馈信息存储至用户反馈数据库。
可选的,所述处理模块,还用于:
根据所述预警信息以及所述用户反馈数据库中的反馈信息,采用半监督学习算法更新所述预警模型数据库中的预警规则。
在第二方面的又一种可能设计中,所述处理模块,还用于:
根据所述离线数据库中存储的数据,对每个检测模型的模型参数进行机器学习训练,得到新的模型参数;
将每个检测模型的新的模型参数存储至所述模型参数数据库。
在第二方面的又一种可能设计中,所述处理模块,还用于:
根据所述离线数据库中存储的数据,对运维指标进行长期分布预测,得到所述预测结果,其中,所述运维指标包括CPU信息,内存信息,网卡监控数据,服务的每秒查询率,请求延时以及网站登录信息中的至少一种;
将所述预测结果存储至所述离线预测数据库。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,所述处理器执行所述计算机程序指令时用于实现第一方面以及各可能设计提供的方法。
第四方面,本申请实施例可提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面以及各可能设计提供的方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时用于实现第一方面以及各可能设计提供的方法。
本申请实施例提供的***运维数据的处理方法、装置、设备、介质及程序产品,电子设备通过获取待检测的运维数据流,之后将待检测的运维数据流与在线缓存数据库中的历史数据进行拼接,得到数据序列。再然后,电子设备从模型参数数据库中获取检测模型的模型参数,并从离线预测数据库中获取离线预测结果,并根据检测模型的模型参数,离线预测结果以及检测模型,对数据序列进行异常检测,得到检测结果。电子设备通过利用检测模型、离线预测结果以及检测模型的模型参数对数据序列进行异常检测,能够代替人工配置过程,节省人工成本。电子设备还能够快速定位到有问题的运维数据流对应的实例,有效提高了检测的准确率和效率。
附图说明
图1为本申请实施例提供的***运维数据的处理方法的一种应用场景示意图;
图2为本申请实施例提供的***运维数据的处理方法实施例一的流程示意图;
图3为本申请实施例提供的***运维数据的处理方法实施例二的流程示意图;
图4为本申请实施例提供的***运维数据的处理装置实施例的结构示意图;
图5为本申请实施例提供的电子设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在介绍本申请的实施例之前,首先对本申请实施例的应用场景进行解释:
服务器在网络中为普通计算机、智能手机等终端提供计算或应用服务,具有较高的中央处理器(Central Processing Unit,CPU)运算能力、强大的输入/输出(Input/Output,I/O)外部数据吞吐能力以及更好的扩展性,服务器的正常运行能够进一步保证其服务的终端的正常工作。
对于数据中心的应用场景来说,运维***通过对数据中心的实例(如服务器、交换机等)进行监控,从而获取实例的运行情况。获取实例的运行情况,能够在实例出现问题的时候对其进行及时修复,还能够进一步保证终端的正常工作,最大程度的减少损失。因此,如何通过运维***获取实例的运行情况是关键。
目前,运维***通过对单个实例进行监控,收集被监控的实例的***运维数据,并对该***运维数据进行分析。之后对分析后的***运维数据进行异常检测,判断分析后的***运维数据是否偏离阈值,若偏离阈值则说明该实例运行存在异常。
但是,随着业务的扩展,使得各服务之间多个实例间的调用依赖越来越复杂,上述方案中对单个实例进行监控已经不能满足监控需求,无法获知各服务器的运行情况。因此运维***需要对一个业务模块/业务功能进行监控,其中每个业务模块/业务功能包括了多个服务,每个服务包括了多个实例。
然而,当一个业务模块/业务功能的***运维数据出现异常时,运维人员需要通过对大量的***运维数据进行检测,从而定位到有问题的实例,人工成本较高,检测的准确率和效率较低。当出现线上事故时,由于无法进行处理可能还会造成巨大的损失。
针对上述问题,本申请的发明构思如下:在目前的方案中,由于运维人员对大量的***运维数据进行处理时无法保证处理过程的严谨性,导致处理的准确度较低。基于此,发明人发现,若能获取多个检测模型,能够利用检测模型代替运维人员人工对运维数据进行处理,则能够解决人工处理的准确度较低的问题,从而可以减少人工成本,缩短处理时间,提高处理的效率。
示例性的,本申请实施例提供的***运维数据的处理方法可以应用于图1所示的一种应用场景示意图中。图1为本申请实施例提供的***运维数据的处理方法的一种应用场景示意图,用以解决上述技术问题。如图1所示,该应用场景可以包括:终端设备和服务器,还可以包括与服务器连接的数据存储设备。
可选的,数据存储设备可以包括在线缓存数据库,离线数据库,预警模型数据库,预警数据库,异常数据库,用户反馈数据库。
示例性的,在图1所示的应用场景中,服务器既可以获取待检测的运维数据流,并存储至离线数据库;服务器还可以通过网络接收用户通过终端设备发出的针对预警信息的反馈信息,并将该反馈信息存储至用户反馈数据库中。
在本实施例中,在线缓存数据库可以储存大量的历史数据;离线数据库可以存储用于离线模型训练的运维数据以及待检测的运维数据流;预警模型数据库可以存储用于对检测结果进行预警过滤的预警规则;预警数据库用于存储异常的检测结果;异常数据库用于存储异常数据记录以及所述数据序列的瞬时特征描述信息,用户反馈数据库用于存储用户针对预警信息的反馈信息。
示例性的,服务器可以基于离线数据库中的待检测的运维数据流,执行***运维数据的处理方法的程序代码,以得到检测结果;服务器可以基于用户反馈数据库中的用户针对预警信息的反馈信息,采用半监督学习算法更新预警模型数据库中的预警规则。
需要说明的是,附图1仅是本申请实施例提供的一种应用场景的示意图,本申请实施例不对图1中包括的设备进行限定,也不对图1中设备之间的位置关系进行限定,例如,在图1中,数据存储设备相对服务器可以是外部存储器,在其它情况下,也可以将数据存储设备置于服务器中。
同样,在线缓存数据库,离线数据库,预警模型数据库,预警数据库,异常数据库,用户反馈数据库可以采取其他形式实现,如,仅设置一个运维数据库,分块存储不同的数据,用以实现在线缓存数据库,离线数据库,预警模型数据库,预警数据库,异常数据库,用户反馈数据库的功能,或者将预警模型数据库和预警数据库通过一个运维预警数据库实现,利用运维预警数据库对数据进行分类存储。
在实际应用中,由于终端设备也是具有数据处理能力的处理设备,因而,上述图1所示应用场景中的服务器也可以终端设备实现。在本申请的实施例中,可以将服务器和用于数据处理的终端设备统称为电子设备。可选的,本申请实施例以***运维数据的处理方法的执行主体为电子设备,例如,后台的服务平台等进行解释说明。
下面,通过具体实施例对本申请的技术方案进行详细说明。
需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图2为本申请实施例提供的***运维数据的处理方法实施例一的流程示意图。如图2所示,该***运维数据的处理方法可以包括如下步骤:
S101:获取待检测的运维数据流。
在本申请实施例中,电子设备需要实现对待检测的运维数据流的采集功能以及对待检测的运维数据流的处理功能,其中,采集功能以及处理功能可以通过两个不同的***实现,也可以通过一个***实现,本方案对此不进行具体限制。
可选的,电子设备上可以运行智能运维***,智能运维***可以对数据中心的网络***中的服务器或计算资源等设备的运维数据流进行异常检测,从而获取检测结果。
在本步骤中,对于给定的某个服务平台,当有***运维数据处理需求时,电子设备需要获取待检测的运维数据流。
在一种可能的实施方式中,以数据中心的应用场景为例进行举例说明,电子设备可以采集数据中心的运维数据流,将其中需要检测的运维数据流作为待检测的运维数据流。
其中,电子设备可以通过kafka实现采集功能,kafka是一种高吞吐量的分布式发布订阅消息***。
进一步的,电子设备还可以对待检测的运维数据流进行登记,以便于后续针对登记的运维数据流进行检测。
示例性的,对于数据中心的应用场景中,运维数据流可以包括计算机的CPU、内存、网卡监控数据、服务器的每秒查询率、请求延时、网站登录信息,还可以为其他运维数据,可以根据实际情况进行选择,本方案实施例对此不进行具体限制。
可选的,电子设备还可以将待检测的运维数据流存储至离线数据库,离线数据库用于保存用于离线模型训练的运维数据。
其中,在现有技术中,电子设备大量采集运维数据流,导致服务平台的后端压力很大。同时,也可能会出现运维数据流漏采的情况,需要运维人员进行人工配置,十分依赖运维人员的经验,人工成本较大。在本方法中,电子设备可以通过采集功能,实现对运维数据流的智能过滤,获取待检测的运维数据流,同时,还可以调节采集密度,采集频率,保持采集性能平衡,从而能够提高获取待检测的运维数据流的准确性,减少了人工干预过程,节省了人工成本。
S102:将待检测的运维数据流与在线缓存数据库中的历史数据进行拼接,得到数据序列。
在本步骤中,由于电子设备后续需要根据离线预测结果对待检测的运维数据流进行检测,但待检测的运维数据流中的运维数据是某个时刻的数据或某个较小时间段的数据,因此无法直接根据离线预测结果对其进行检测。因此,电子设备需要将待检测的运维数据流与对应的历史数据进行拼接,以便于后续对拼接后的数据序列进行检测。
示例性的,对于数据中心的应用场景中,运维数据流可以包括计算机的CPU、内存、网卡监控数据、服务器的每秒查询率、请求延时、网站登录信息。电子设备获取到待检测的运维数据流后,如该待检测的运维数据流为计算机的CPU,则从在线缓存数据库中找到对应的计算机的CPU历史数据,将该待检测的运维数据流与对应的历史数据进行拼接,获取数据序列。
S103:从模型参数数据库中获取检测模型的模型参数,并从离线预测数据库中获取离线预测结果。
在本步骤中,由于不同的运维数据流具有各自的特性,因此需要不同的检测模型。而电子设备后续利用检测模型对数据序列进行异常检测时,还需要模型参数,因此电子设备还需要从模型参数数据库中获取检测模型的模型参数。
进一步的,电子设备需要获取数据序列对应的检测模型,便于获取该检测模型对应的模型参数。如,在使用检测模型A对该种数据序列进行异常检测时,若检测结果存在异常,根据该检测结果向用户发送预警信息。电子设备获取到用户对该预警信息的反馈信息多数为不感兴趣,则说明该检测模型A不适合对该数据序列进行异常检测,需要进行更换。同样,若使用检测模型B对该种数据序列进行异常检测时,电子设备获取的反馈信息为非常有帮助,则针对该类型的数据序列使用检测模型B进行异常检测,检测模型B即为该数据序列对应的检测模型。
进一步的,检测模型还需要利用离线预测结果对数据序列进行异常检测,因此电子设备还需要获取离线预测结果。
在一种具体的实现方式中,由于运维数据流中的每种运维数据与时间有关。如,对于没有故障的数据中心,对于数据中心中的每秒查询率在每周5晚8点为300,而其余时间均为100。那么电子设备可以预先获取每秒查询率的离线预测结果,如离线预测结果为每周5晚8点为300,而其余时间均为100,以便于后续根据离线预测结果该对每秒查询率进行处理。
其中,模型参数数据库用于存储根据离线数据库中的数据训练得到的不同检测模型对应的模型参数。
离线预测数据库用于存储根据离线数据库中数据预测得到的对运维指标的预测结果。
S104:根据检测模型的模型参数,离线预测结果以及检测模型,对数据序列进行异常检测,得到检测结果。
在本步骤中,电子设备可以将模型参数,离线预测结果以及数据序列输入到检测模型中,对数据序列进行异常检测,得到检测结果。
示例性的,检测模型根据模型参数,离线预测结果以及数据序列,将数据序列中具有周期性的数据进行时间序列分解(Seasonal and Trend decomposition using Loess,STL),并对残余项通过GEN—ESD算法与分位数统计量进行异常检测,将超过预设阈值的数据序列判断为异常数据序列。
应理解,上述检测模型中的检测算法仅作为一种示例,实际应用中不同的检测模型可以具有不同的算法,可以根据实际情况对检测模型中的检测算法进行设定,本方案不对检测模型中的检测算法进行具体限定。
本申请实施例提供的***运维数据的处理方法,电子设备通过获取待检测的运维数据流,之后将待检测的运维数据流与在线缓存数据库中的历史数据进行拼接,得到数据序列。再然后,电子设备从模型参数数据库中获取检测模型的模型参数,并从离线预测数据库中获取离线预测结果,并根据检测模型的模型参数,离线预测结果以及检测模型,对数据序列进行异常检测,得到检测结果。电子设备通过利用检测模型、离线预测结果以及检测模型的模型参数对数据序列进行异常检测,能够代替人工配置过程,节省人工成本。电子设备还能够快速定位到有问题的运维数据流对应的实例,有效提高了检测的准确率和效率。
在上述实施例的基础上,图3为本申请实施例提供的***运维数据的处理方法实施例二的流程示意图。如图3所示,在S104之后,该***运维数据的处理方法还可以包括如下步骤:
S201:根据预警模型数据库中存储的预警规则,对检测结果进行预警过滤,确定是否检测结果中是否存在异常。
在本步骤中,电子设备获取到检测结果后,需要对检测结果进行预警过滤,从而判断该检测结果中是否存在异常,便于对存在异常的检测结果进行处理。
在一种具体的实施方式中,电子设备可以根据预警模型数据库中存储的预警规则对检测结果进行预警过滤。电子设备获取检测结果,并判断该检测结果是否满足预警规则,若满足,则认为该检测结果为存在异常。
其中,预警规则可以通过用户进行制定。
S202:若检测结果中存在异常,则将异常存储至预警数据库,并向用户推送预警信息。
在本步骤中,在检测结果存在异常时,需要通知用户对该异常进行处理,还可以将异常存储在预警数据库中。
其中,预警信息用于指示待检测的运维数据流的检测结果出现异常以及异常类型。
示例性的,电子设备可以通过短信、邮件、应用程序的推送消息等方式向用户发送预警信息,电子设备还可以根据其他方式向用户发送预警信息,本方案对此不进行具体限定。
进一步的,电子设备还可以响应用户的操作,获取用户针对预警信息的反馈信息,并将反馈信息存储至用户反馈数据库。
示例性的,用户接收到预警信息后,可以访问应用程序编程接口(ApplicationProgramming Interface,API)或网页对预警信息作出反馈。如忽略此预警信息,或根据该预警信息对异常进行处理。电子设备响应用户的操作,获取用户的反馈信息,如该预警信息是否为误报,该用户是否对该类型的预警信息感兴趣等。
进一步的,电子设备可以根据预警信息以及用户反馈数据库中的反馈信息,采用半监督学习算法更新预警模型数据库中的预警规则。
其中,电子设备根据预警信息以及反馈信息,利用半监督学习算法学习用户是否对该类预警信息感兴趣,从而更新预警模型数据库中的预警规则;电子设备还可以根据用户的身份信息,更新该用户对应的预警规则,可以根据实际情况进行限定,本方案实施例对此不进行具体限制。
其中,半监督学习是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题主要分为半监督分类,半监督回归,半监督聚类和半监督降维算法。
其中,预警模型数据库用于储存预警规则。
本申请实施例提供的***运维数据的处理方法,电子设备通过根据预警模型数据库中存储的预警规则,对检测结果进行预警过滤,确定是否检测结果中是否存在异常。若检测结果中存在异常,电子设备则将异常存储至预警数据库,并向用户推送预警信息。电子设备对待检测的运维数据流进行异常检测,得到检测结果并判断该检测结果中是否存在异常。电子设备在判断出检测结果中存在异常时,不仅向用户发出预警信息,还会根据用户的反馈信息更新预警规则,从而可过滤用户不感兴趣的异常,从而减轻用户的负担,降低误报率。
同时,电子设备可以智能分析检测结果是否存在异常,弥补了现有技术中通过手动设置固定值来判断是否异常的不足。在电子设备被移植到新的坏境中也可以对检测结果进行智能分析,从而做出判断,还能够通过相关性、相似度等判断条件对冗余告警信息合并,提供更关键有效的信息。
进一步的,在现有技术中,对检测结果的异常进行处理非常依赖用的经验和技术能力。本申请提供的***运维数据的处理方法,电子设备根据经过预警过滤的存在异常的检测结果,向用户发送预警信息,可以对日常出现较频繁的异常问题进行自动处理,将出现次数较少的异常问题生成预警信息发送给用户。因此,可以大大缩短用户处理异常问题的时间,使得用户能更专注的解决处理起来较复杂的异常问题,减少对普通的异常问题的关注度。
在上述任一实施例的基础上,该***运维数据的处理方法还可以包括:
将检测结果存储至异常数据库。
其中,异常数据库用于存储异常数据记录以及数据序列的瞬时特征描述信息。
其中,瞬时特征描述信息包括以下至少一个信息:周期性信息,分布信息,自相关信息,偏度信息以及峰值信息。
应理解,瞬时特征描述信息还可以包括其他信息,可以在实际应用中进行限定,本申请实施例对此不进行具体限制。
在上述任一实施例的基础上,该***运维数据的处理方法还可以包括:电子设备根据离线数据库中存储的数据,对每个检测模型的模型参数进行机器学习训练,得到新的模型参数,并将每个检测模型的新的模型参数存储至模型参数数据库。
示例性的,具体的模型参数与使用的算法有关。
其中,算法可以为GEN—ESD算法、基于局部加权回归平滑的分位数统计方法、基于数据降维的检测算法、阈值判断法,还可以为其他算法,可以根据实际情况进行设定,本方案对此不进行具体设置。
在上述任一实施例的基础上,该***运维数据的处理方法还可以包括:
根据离线数据库中存储的数据,对运维指标进行长期分布预测,得到预测结果,将预测结果存储至离线预测数据库。
其中,分布预测可以包括各运维指标在不同时刻的取值的分布情况以及具有周期性的运维指标在未来几个周期内的期望数值。
示例性的,几个周期可以为未来一天,也可以为未来两天,未来一周等,本申请实施例对此不进行限制。
其中,运维指标包括CPU信息,内存信息,网卡监控数据,服务的每秒查询率,请求延时以及网站登录信息中的至少一种。
应理解,运维指标还可以包括其他指标,可以根据实际情况进行设定,本申请实施例对此不进行具体限定。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图4为本申请实施例提供的***运维数据的处理装置实施例的结构示意图。参照图4所示,该***运维数据的处理装置可以包括:
获取模块41,用于获取待检测的运维数据流;
处理模块42,用于将待检测的运维数据流与在线缓存数据库中的历史数据进行拼接,得到数据序列;
处理模块42,还用于从模型参数数据库中获取检测模型的模型参数,并从离线预测数据库中获取离线预测结果,其中,模型参数数据库用于存储根据离线数据库中的数据训练得到的不同检测模型对应的模型参数,离线预测数据库用于存储根据离线数据库中数据预测得到的对运维指标的预测结果;
处理模块42,还用于根据检测模型的模型参数,离线预测结果以及检测模型,对数据序列进行异常检测,得到检测结果。
示例性的,在本申请实施例的一种可能设计中,处理模块42,还用于:
将待检测的运维数据流存储至离线数据库,离线数据库用于保存用于离线模型训练的运维数据。
示例性的,在本申请实施例的另一种可能设计中,处理模块42,还用于:
根据预警模型数据库中存储的预警规则,对检测结果进行预警过滤,确定是否检测结果中是否存在异常;
若检测结果中存在异常,则将异常存储至预警数据库,并向用户推送预警信息,预警信息用于指示待检测的运维数据流的检测结果出现异常以及异常类型。
示例性的,在本申请实施例的再一种可能设计中,处理模块42,还用于:
将检测结果存储至异常数据库,异常数据库用于存储异常数据记录以及数据序列的瞬时特征描述信息;
其中,瞬时特征描述信息包括以下至少一个信息:周期性信息,分布信息,自相关信息,偏度信息以及峰值信息。
可选的,处理模块,还用于:
响应于用户的操作,获取用户针对预警信息的反馈信息;
将反馈信息存储至用户反馈数据库。
可选的,处理模块,还用于:
根据预警信息以及用户反馈数据库中的反馈信息,采用半监督学习算法更新预警模型数据库中的预警规则。
示例性的,在本申请实施例的又一种可能设计中,处理模块,还用于:
根据离线数据库中存储的数据,对每个检测模型的模型参数进行机器学习训练,得到新的模型参数;
将每个检测模型的新的模型参数存储至模型参数数据库。
示例性的,在本申请实施例的又一种可能设计中,处理模块,还用于:
根据离线数据库中存储的数据,对运维指标进行长期分布预测,得到预测结果,其中,运维指标包括CPU信息,内存信息,网卡监控数据,服务的每秒查询率,请求延时以及网站登录信息中的至少一种;
将预测结果存储至离线预测数据库。
本申请实施例提供的***运维数据的处理装置,可用于执行上述实施例中的***运维数据的处理方法,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上***运维数据的处理装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。此外,这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
图5为本申请实施例提供的电子设备的结构示意图。如图5所示,该电子设备可以包括:处理器51、存储器52及存储在所述存储器52上并可在处理器51上运行的计算机程序指令,所述处理器51执行所述计算机程序指令时实现前述任一实施例提供的***运维数据的处理方法。
可选的,电子设备还可以包括与其他设备进行交互的接口。
可选的,该电子设备的上述各个器件之间可以通过***总线连接。
存储器52可以是单独的存储单元,也可以是集成在处理器中的存储单元。处理器的数量为一个或者多个。
应理解,处理器51可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
***总线可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。***总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。存储器可能包含随机存取存储器(randomaccess memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储器(存储介质)包括:只读存储器(英文:read-only memory,简称:ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetic tape)、软盘(英文:floppydisk)、光盘(英文:optical disc)及其任意组合。
本申请实施例提供的电子设备,可用于执行上述任一方法实施例提供的***运维数据的处理方法,其实现原理和技术效果类似,在此不再赘述。
本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行上述***运维数据的处理方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
可选的,将可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,至少一个处理器可以从该计算机可读存储介质中读取该计算机程序,所述至少一个处理器执行所述计算机程序时可实现上述***运维数据的处理方法。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (12)

1.一种***运维数据的处理方法,其特征在于,包括:
获取待检测的运维数据流;
将所述待检测的运维数据流与在线缓存数据库中的历史数据进行拼接,得到数据序列;
从模型参数数据库中获取检测模型的模型参数,并从离线预测数据库中获取离线预测结果,其中,所述模型参数数据库用于存储根据离线数据库中的数据训练得到的不同检测模型对应的模型参数,所述离线预测数据库用于存储根据所述离线数据库中数据预测得到的对运维指标的预测结果;
根据所述检测模型的模型参数,所述离线预测结果以及检测模型,对所述数据序列进行异常检测,得到检测结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述待检测的运维数据流存储至离线数据库,所述离线数据库用于保存用于离线模型训练的运维数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据预警模型数据库中存储的预警规则,对所述检测结果进行预警过滤,确定是否所述检测结果中是否存在异常;
若所述检测结果中存在异常,则将所述异常存储至预警数据库,并向用户推送预警信息,所述预警信息用于指示所述待检测的运维数据流的检测结果出现异常以及异常类型。
4.根据权利要求1或3所述的方法,其特征在于,所述方法还包括:
将所述检测结果存储至异常数据库,所述异常数据库用于存储异常数据记录以及所述数据序列的瞬时特征描述信息;
其中,所述瞬时特征描述信息包括以下至少一个信息:周期性信息,分布信息,自相关信息,偏度信息以及峰值信息。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
响应于所述用户的操作,获取用户针对所述预警信息的反馈信息;
将所述反馈信息存储至用户反馈数据库。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述预警信息以及所述用户反馈数据库中的反馈信息,采用半监督学习算法更新所述预警模型数据库中的预警规则。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
根据所述离线数据库中存储的数据,对每个检测模型的模型参数进行机器学习训练,得到新的模型参数;
将每个检测模型的新的模型参数存储至所述模型参数数据库。
8.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
根据所述离线数据库中存储的数据,对运维指标进行长期分布预测,得到所述预测结果,其中,所述运维指标包括CPU信息,内存信息,网卡监控数据,服务的每秒查询率,请求延时以及网站登录信息中的至少一种;
将所述预测结果存储至所述离线预测数据库。
9.一种***运维数据的处理装置,其特征在于,包括:
获取模块,用于获取待检测的运维数据流;
处理模块,用于将所述待检测的运维数据流与在线缓存数据库中的历史数据进行拼接,得到数据序列;
所述处理模块,还用于从模型参数数据库中获取检测模型的模型参数,并从离线预测数据库中获取离线预测结果,其中,所述模型参数数据库用于存储根据离线数据库中的数据训练得到的不同检测模型对应的模型参数,所述离线预测数据库用于存储根据所述离线数据库中数据预测得到的对运维指标的预测结果;
所述处理模块,还用于根据所述检测模型的模型参数,所述离线预测结果以及检测模型,对所述数据序列进行异常检测,得到检测结果。
10.一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,其特征在于,所述处理器执行所述计算机程序指令时用于实现如权利要求1至8任一项所述的***运维数据的处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的***运维数据的处理方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时用于实现如权利要求1至8任一项所述的***运维数据的处理方法。
CN202110552311.9A 2021-05-20 2021-05-20 ***运维数据的处理方法、装置、设备、介质及程序产品 Pending CN114090367A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110552311.9A CN114090367A (zh) 2021-05-20 2021-05-20 ***运维数据的处理方法、装置、设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110552311.9A CN114090367A (zh) 2021-05-20 2021-05-20 ***运维数据的处理方法、装置、设备、介质及程序产品

Publications (1)

Publication Number Publication Date
CN114090367A true CN114090367A (zh) 2022-02-25

Family

ID=80295973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110552311.9A Pending CN114090367A (zh) 2021-05-20 2021-05-20 ***运维数据的处理方法、装置、设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN114090367A (zh)

Similar Documents

Publication Publication Date Title
CN110708204B (zh) 一种基于运维知识库的异常处理方法、***、终端及介质
CN110661659B (zh) 一种告警方法、装置、***及电子设备
CN110321371B (zh) 日志数据异常检测方法、装置、终端及介质
CN108923952B (zh) 基于服务监控指标的故障诊断方法、设备及存储介质
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
CN110928718A (zh) 一种基于关联分析的异常处理方法、***、终端及介质
CN106844138A (zh) 运维报警***及方法
CN112052111B (zh) 服务器异常预警的处理方法、装置、设备及存储介质
CN110955586A (zh) 一种基于日志的***故障预测方法、装置和设备
CN108984376B (zh) 一种***异常检测方法、装置及设备
CN111694718A (zh) 内网用户异常行为识别方法、装置、计算机设备及可读存储介质
CN113656168A (zh) 一种流量的自动容灾和调度的方法、***、介质和设备
US20210097433A1 (en) Automated problem detection for machine learning models
CN109656786B (zh) 日志获取方法及装置
JP2019049802A (ja) 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム
CN114095333A (zh) 一种网络排障方法、装置、设备及可读存储介质
CN111611097A (zh) 故障检测方法、装置、设备及存储介质
CN110807050B (zh) 性能分析方法、装置、计算机设备及存储介质
CN108039971A (zh) 一种告警方法及装置
CN115766402A (zh) 服务器故障根因的过滤方法和装置、存储介质及电子装置
KR101960755B1 (ko) 미취득 전력 데이터 생성 방법 및 장치
CN113123955B (zh) 柱塞泵异常检测方法、装置、存储介质及电子设备
CN114090367A (zh) ***运维数据的处理方法、装置、设备、介质及程序产品
CN116755974A (zh) 云计算平台运维方法、装置、电子设备及存储介质
CN115567371A (zh) 一种异常检测方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination