CN114090385A - 一种针对服务运行状态的监控预警方法、装置及设备 - Google Patents

一种针对服务运行状态的监控预警方法、装置及设备 Download PDF

Info

Publication number
CN114090385A
CN114090385A CN202111402758.4A CN202111402758A CN114090385A CN 114090385 A CN114090385 A CN 114090385A CN 202111402758 A CN202111402758 A CN 202111402758A CN 114090385 A CN114090385 A CN 114090385A
Authority
CN
China
Prior art keywords
early warning
historical
time period
abnormal
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111402758.4A
Other languages
English (en)
Inventor
苗璐
白雪珂
苏迪
***
林文辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN202111402758.4A priority Critical patent/CN114090385A/zh
Publication of CN114090385A publication Critical patent/CN114090385A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种针对服务运行状态的监控预警方法、装置、设备及计算机可读存储介质,解决采用现有的监控预警方法使得运行状态判定结果不够客观准确可能导致产生误警的问题。方法包括:获取目标服务在目标时段对应的多维特征数据;将多维特征数据输入训练好的预警模型,以触发预警模型识别目标时段的时段类型;若预警模型识别出目标时段的时段类型为异常时段或异常时段的相邻时段,则执行针对目标服务的运行状态异常预警操作。采用本申请公开的方案,可以提升服务的运行状态判定结果的准确性。

Description

一种针对服务运行状态的监控预警方法、装置及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种针对服务运行状态的监控预警方法、装置、设备及计算机可读存储介质。
背景技术
随着各行各业信息化进程的推进,互联共享成为社会发展的主旋律。为了更好的实现共享,企业推出了服务类平台,包括官网、应用(Application,APP)、公共开放平台(如微服务平台)等,提供信息查询、自助服务办理、技术资源共享等服务,在不同程度上实现了信息和服务的交互。
当前,服务类平台承载的各类服务日益丰富,为了保证服务质量的稳定性,服务开发者要对各类服务进行实时监控和维护,因此,服务类平台在提供服务的同时,需要收集点击率、服务调用频率等行为日志数据进行服务运行状态的分析。
举例来说,服务类平台的各类服务因其个异性而拥有不同的用户数、点击率、调用量、流量等用户行为特征,且部分用户行为特征随时间动态变化,在一些特殊时刻,如用户在调用密集的时段点击服务,可能会超出软件负载能力,得到错误反馈提示。针对这样的情况,为了优化用户体验、降低错误率,服务开发者在提高负载能力的同时也要监控服务运行的状态,以便及时发现服务出现异常而发出预警,进而采取一定的手段解决出现的问题。
按照现有技术,针对服务运行状态的监控与预警,是通过针对单个用户行为特征设置一定阈值,通过比对用户行为特征值与阈值的大小关系,来判断服务在某时段是否出现运行状态异常,进而确定是否需要采取行动(比如发出预警等)。这样的方式虽使得服务运行状态判定结果可以在一定程度上反映服务的运行状态,但缺乏较为综合的数据分析,从而存在片面性,使得运行状态判定结果不够客观准确,可能导致产生误警。
发明内容
本申请实施例提供一种针对服务运行状态的监控预警方法,用以解决采用现有技术的服务运行状态的监控预警方法,使得运行状态判定结果不够客观准确,可能导致产生误警的问题。
本申请实施例还提供一种针对服务运行状态的监控预警装置、设备及计算机可读存储介质,用以解决采用现有技术的服务运行状态的监控预警方法,使得运行状态判定结果不够客观准确,可能导致产生误警的问题。
本申请实施例采用下述技术方案:
一种针对服务运行状态的监控预警方法,包括:
获取目标服务在目标时段对应的多维特征数据;所述多维特征数据,包括:服务调用特征数据以及服务状态特征数据;
将所述多维特征数据输入训练好的预警模型,以触发所述预警模型识别所述目标时段的时段类型;所述预警模型能够识别的时段类型包括:异常时段、异常时段的相邻时段、非异常时段;所述预警模型,利用所述目标服务在历史异常时段、所述历史异常时段的相邻时段、历史非异常时段的历史多维特征数据训练得到;
若所述预警模型识别出所述目标时段的时段类型为异常时段或异常时段的相邻时段,则执行针对所述目标服务的运行状态异常预警操作。
可选的,所述服务调用特征数据,包括下述数据中的至少一种:
用户活跃度;调用频率;调用流量;
所述服务状态特征数据,包括下述数据中的至少一种:
响应速度;错误率。
可选的,所述预警模型,采用下述方式训练得到:
获取所述目标服务在所述历史时段所分别对应的所述历史多维特征数据;其中,所述历史时段的类型包括:历史异常时段、所述历史异常时段的相邻时段、历史非异常时段;
对分别对应于不同类型的所述历史时段的历史多维特征数据分别进行聚类,以得到不同画像类别的历史多维特征数据集合;其中,所述不同画像类别,至少包括:运行状态异常、运行状态正常;
以所述不同画像类别的历史多维特征数据集合作为模型训练样本,以所述历史时段的类型作为所述模型训练样本的标签,训练所述预警模型。
可选的,所述预警模型,还用于识别所述多维特征数据对应的画像类别;
执行针对所述目标服务的运行状态异常预警操作,包括:
若所述预警模型识别出所述多维特征数据对应的画像类别为运行状态异常,则在可视化界面,按照与所述运行状态异常的画像类别相匹配的展现方式,进行异常预警内容的展示。
可选的,所述方法还包括:
若所述多维特征数据中的第一指定特征数据对应的数据统计值均分别大于相应的预设统计阈值,执行统计指标预警;
若所述多维特征数据中的第二指定特征数据对应的数据增长值均分别大于相应的预设统计增长值,执行增速预警。
一种针对服务运行状态的监控预警装置,包括:
多维数据获取模块,用于获取目标服务在目标时段对应的多维特征数据;所述多维特征数据,包括:服务调用特征数据以及服务状态特征数据;
识别模块,用于将所述多维特征数据输入训练好的预警模型,以触发所述预警模型识别所述目标时段的时段类型;所述预警模型能够识别的时段类型包括:异常时段、异常时段的相邻时段、非异常时段;所述预警模型,利用所述目标服务在历史异常时段、所述历史异常时段的相邻时段、历史非异常时段的历史多维特征数据训练得到;
预警操作执行模块,用于若所述预警模型识别出所述目标时段的时段类型为异常时段或异常时段的相邻时段,则执行针对所述目标服务的运行状态异常预警操作。
可选的,所述预警模型,采用下述方式训练得到:
获取所述目标服务在所述历史时段所分别对应的所述历史多维特征数据;其中,所述历史时段的类型包括:历史异常时段、所述历史异常时段的相邻时段、历史非异常时段;
对分别对应于不同类型的所述历史时段的历史多维特征数据分别进行聚类,以得到不同画像类别的历史多维特征数据集合;其中,所述不同画像类别,至少包括:运行状态异常、运行状态正常;
以所述不同画像类别的历史多维特征数据集合作为模型训练样本,以所述历史时段的类型作为所述模型训练样本的标签,训练所述预警模型。
可选的,所述装置还包括:
统计指标预警模块,用于若所述多维特征数据中的第一指定特征数据对应的数据统计值均分别大于相应的预设统计阈值,执行统计指标预警;
增速预警,用于若所述多维特征数据中的第二指定特征数据对应的数据增长值均分别大于相应的预设统计增长值,执行增速预警。
一种计算设备,包括:存储器及处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于执行上述任意一种方法。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述任意一种方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
由于在针对目标服务的服务运行状态进行监控预警时,以包括服务调用特征数据和服务状态特征数据在内的多维特征数据,共同作为服务运行状态的判断依据,并利用基于目标服务在历史异常时段、历史异常时段的相邻时段、历史非异常时段的历史多维特征数据训练得到预警模型,来识别目标服务的异常时段及异常时段的相邻时段,从而相比于现有技术针对单个用户行为特征设置一定阈值,通过比对用户行为特征值与阈值的大小关系,来判断服务在某时段是否出现运行状态异常的方式,本申请实施例提供的方法的判断依据更为全面,从而提升了服务运行状态判定结果的客观性和准确性,降低了误警概率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例1提供的一种针对服务运行状态的监控预警方法的具体实现流程示意图;
图2为本申请实施例中一种训练预警模型的具体方式的实施流程示意图;
图3为本申请实施例中基于获取的五维特征数据进行图像展示的界面示意图;
图4为应用本申请实施例2提供的一种基于多维画像的监控预警方法的***架构示意图;
图5为本申请实施例2提供的一种基于多维画像的监控预警方法的具体实现流程示意图;
图6为本申请实施例3提供的一种针对服务运行状态的监控预警装置的具体结构示意图;
图7为本申请实施例4提供的一种计算设备的具体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例1
为解决采用现有技术的服务运行状态的监控预警方法,使得运行状态判定结果不够客观准确,可能导致产生误警的问题,本申请实施例1提供一种针对服务运行状态的监控预警方法。
该方法的执行主体,可以为服务器或服务器集群,也可以为用户终端,包括手机、个人电脑、可穿戴设备等各类计算设备。
为便于描述,本申请实施例以背景技术中所述的服务类平台的监控预警服务器为执行主体为例,对本申请实施例1提供的该方法进行详细介绍。
如图1所示,为本申请实施例1提供的该方法的具体实现流程图,包括如下步骤:
步骤11:监控预警服务器获取目标服务在目标时段对应的多维特征数据;
目标服务,可以是服务平台上承载的任何服务,具体可以是一个服务,也可以是一类服务,或者是多个服务或多类服务。
如背景技术所述,为了保证服务质量的稳定性,要对各类服务进行实时监控和维护,并适时做出预警。本申请实施例中,监控预警服务器可以以任意的服务作为目标服务,获取目标服务在目标时段对应的多维特征数据作为分析目标服务在目标时段的运行状态是否存在异常的判断依据。
目标时段,视实际需求,可以是当前时段,也可以是历史时段。但凡可以产生目标服务对应的多维特征数据的时段,都可以作为目标时段。
目标时段的长度,是实际需求,可以是任何时间长度,比如:十分钟、半小时、一小时或者一天,等。
为准确评估目标服务在目标时段是否可能出现运行状态的异常,本申请实施例中所述的目标服务在目标时段对应的多维特征数据,可以包括目标服务在目标时段对应的服务调用特征数据以及服务状态特征数据。
其中,服务调用特征数据,是指用以表征用户对于服务的调用情况的数据。在本申请的一个实施例中,服务调用特征数据可以包括但不限于:用户活跃度;调用频率和调用流量中的至少一种。
服务状态特征数据,是指用以表征服务响应于用户的调用而运行的运行状态的数据。在本申请的一个实施例中,可以包括但不限于:响应速度和错误率中的至少一种。
在一个实施例中,为了能够尽可能全面考虑到各项数据,进而基于各项数据,针对目标服务得出比较准确的运行状态判断结果,在步骤11中,监控预警服务器可以获取上述所有数据,即:用户活跃度、调用频率、调用流量、响应速度和错误率。这五类数据,可共同称为五维特征数据。
步骤12:监控预警服务器将获取到的多维特征数据输入训练好的预警模型,以触发预警模型识别目标时段的时段类型;若预警模型识别出所述目标时段的时段类型为异常时段或异常时段的相邻时段,则执行步骤13;若预警模型识别出所述目标时段的时段类型为非异常时段,则可以直接结束流程。
其中,预警模型,可以是利用目标服务在历史异常时段、历史异常时段的相邻时段、历史非异常时段的历史多维特征数据训练得到。
该预警模型可以是机器学习模型,具体比如可以包括但不限于是:神经网络模型或逻辑(logitstic)回归模型,等等。
历史异常时段,是指目标服务历史发生运行状态异常时,该运行状态异常所持续的时段。本申请实施例中,对于历史异常时段,视实际需求,可以设置其额定长度。比如,额定长度为1分钟,则若目标服务发生的运行状态异常持续的时段为10分钟,该10分钟可以划分为10个历史异常时段。
类似的,异常时段,是指目标服务发生运行状态异常时,该运行状态异常所持续的时段。
所述的历史异常时段的相邻时段,具体可以是历史异常时段的前、后相邻时段中的至少一种。历史异常时段,视实际需求,也可以设置其额定长度。
上述额定长度,可以与目标时段的长度相同,也可以不同。
类似的,异常时段的相邻时段,是指异常时段的前、后相邻时段中的至少一种。
历史非异常时段,是指目标服务历史运行时段中,除上述历史异常时段和历史异常时段的相邻时段之外的其他运行时段,即,一般是指目标服务历史运行时段中处于正常运行状态的时段。
类似的,非异常时段,是指目标服务的运行时段中,除异常时段和异常时段的相邻时段之外的其他运行时段,即,一般是指目标服务运行时段中处于正常运行状态的时段。
历史多维特征数据,与前文所述的目标时段的多维特征数据类似,也可以包括服务调用特征数据以及服务状态特征数据。
步骤12中,监控预警服务器将获取到的多维特征数据输入训练好的预警模型,具体可以是基于获取到的多维特征数据构建多维特征向量后,将多维特征向量输入训练好的预警模型。
在一种实施方式中,本申请实施例中所述的预警模型,可以采用如图2所示的下述方式训练得到:
子步骤121:获取目标服务在历史时段所分别对应的历史多维特征数据;
其中,历史时段的类型包括:历史异常时段、历史异常时段的相邻时段、历史非异常时段。
子步骤122:对分别对应于不同类型的历史时段的历史多维特征数据分别进行聚类,以得到不同画像类别的历史多维特征数据集合;
其中,所述不同画像类别,至少包括:运行状态异常、运行状态正常。
若对聚类得到的类别做进一步细化,针对“运行状态异常”这一类别,可细分为比如高错误率类型、低响应速度类型、高用户活跃度类型,等等。这些类别,都可以称为目标服务的“画像类别”。
本申请实施例中,可以将历史多维特征数据中的各维数据进行预处理和归一化后,构建历史多维特征向量;进而,对分别对应于不同类型的历史时段的历史多维特征向量分别进行聚类,以得到不同画像类别的历史多维特征数据集合。可以理解,每个历史多维特征数据集合中包含彼此之间具备一定相似度的历史多维特征向量。
子步骤123:以聚类得到的不同画像类别的历史多维特征数据集合作为模型训练样本,以所述历史时段的类型(即历史异常时段、历史异常时段的相邻时段、历史非异常时段)作为所述模型训练样本的标签,训练预警模型,最终得到训练好的预警模型。采用这样的方式训练得到的预警模型,不仅能够识别目标服务在目标时段是否可能出现运行状态异常,还能够具体识别出目标服务运行状态异常对应哪种画像类别。
需要说明的是,本申请实施例中,也可以直接将分别对应于不同类型的历史时段的历史多维特征数据作为模型训练样本,以所述历史时段的类型(即历史异常时段、历史异常时段的相邻时段、历史非异常时段)作为所述模型训练样本的标签,训练预警模型。这样的预警模型,可以识别目标服务在目标时段是否可能出现运行状态异常,即,识别目标时段属于异常时段、异常时段的相邻时段还是非异常时段。
本申请实施例中,预警模型的训练,可以是在离线的情况下进行。离线训练好的预警模型,可以设置在监控预警服务器中,作为监控预警服务器可以调用并运行的一种工具。
步骤13:若预警模型识别出目标时段的时段类型为异常时段或异常时段的相邻时段,则监控预警服务器执行针对目标服务的运行状态异常预警操作。
沿用前文的例子,在一种实施方式中,监控预警服务器可以获取五维特征数据。若基于获取的五维特征数据,预警模型识别出目标时段的时段类型为异常时段或异常时段的相邻时段,则,在这样的情况下,一方面,监控预警服务器可以直接发出用于警示目标服务在目标时段的运行状态已经出现异常(或将要出现异常,取决于识别出的目标时段的时段类型)的告警消息;另一方面,为了直观呈现目标服务在目标时段的五维特征,可以按照如图3所示的展示方式,在监控预警服务器所连接的显示屏幕上,基于获取的五维特征数据进行图像展示,以便让监控人员能够直观地观察到目标服务的五维特征。
具体地,图3所示的五维特征的展示图,可以基于归一化后的五维特征数据的值自动绘制生成。
当然,若监控预警服务器获取的不是五维特征数据,但也识别出目标时段的时段类型为异常时段或异常时段的相邻时段,在这样的情况下,监控预警服务器也会执行针对目标服务的运行状态异常预警操作,比如,向预留的监控人员的手机号码或者邮箱发送预警通知,等。
采用如图1所示的本申请实施例1提供的该方法,由于在针对目标服务的服务运行状态进行监控预警时,以包括服务调用特征数据和服务状态特征数据在内的多维特征数据,共同作为服务运行状态的判断依据,并利用基于目标服务在历史异常时段、历史异常时段的相邻时段、历史非异常时段的历史多维特征数据训练得到预警模型,来识别目标服务的异常时段及异常时段的相邻时段,从而相比于现有技术针对单个用户行为特征设置一定阈值,通过比对用户行为特征值与阈值的大小关系,来判断服务在某时段是否出现运行状态异常的方式,本申请实施例提供的方法的判断依据更为全面,从而提升了服务运行状态判定结果的客观性和准确性,降低了误警概率。
采用本申请实施例提供的上述方法,可以实现对目标时段是否可能出现目标服务运行状态异常进行识别,即,识别目标时段属于异常时段、异常时段的相邻时段还是非异常时段。由前文对于预警模型训练方式的介绍可知,预警模型还可以识别出目标服务运行状态异常对应哪种画像类别。
当预警模型具备用于识别所述多维特征数据对应的画像类别的功能时,步骤13中执行针对所述目标服务的运行状态异常预警操作,具体可以包括:
若预警模型识别出多维特征数据对应的画像类别为运行状态异常,则在可视化界面,按照与运行状态异常的画像类别相匹配的展现方式,进行异常预警内容的展示。比如,若目标服务为服务1,识别出服务1在目标时段的多维特征数据对应的画像类别为运行状态异常,则可以对图3中与服务1对应的显示区域,进行高亮显示,以便比较明确地向监控人员区分呈现运行状态异常的服务1的具体五维特征。其中,图3中每个五边形区域,为一个服务对应的显示区域,该五边形的每个顶点,即某一维特征数据(如调用频率)的归一化后的具体数据值。
可选的,考虑到在实际情况中,运行状态出现异常的服务可能存在一些异常表象,比如:运行状态出现异常时,可能出现某些统计指标的值超标,或者,指标的增长幅度超标。对于监控人员来说,可能会有获知服务的不同异常表象的需求。因此,在一种实施方式中,针对运行状态出现异常的服务,对于不同的异常表象,可以采用不同的预警方式。
以目标服务为例,监控预警服务器可以基于获取到的该目标服务在目标时段对应的多维特征数据,对该目标服务是否存在异常表象进行监控,进而进行预警:
具体地,若多维特征中的第一指定特征数据(比如调用频率、调用流量、响应速度和错误率)对应的数据统计值均分别大于相应的预设统计阈值,执行统计指标预警。监控预警服务器执行统计指标预警,具体比如可以是通过发送邮件、短信的方式,将预警信息发送至预先指定的预警信息接收对象(如监控人员或用户等),同时,将预警信息存储到Mysql数据库中以便后续查询。
而,若所述多维特征数据中的第二指定特征数据(比如调用频率和调用流量)对应的数据增长值均分别大于相应的预设统计增长值,执行增速预警。类似的,监控预警服务器执行增速预警,具体比如也可以是通过发送邮件、短信的方式,将预警信息发送至预先指定的预警信息接收对象(如监控人员或用户等),同时,将预警信息存储到Mysql数据库中以便后续查询。
实施例2
基于本申请实施例1的发明构思,本申请实施例2提供一种基于多维画像的监控预警方法,应用于如图4所示的***架构中,旨在说明实施例1提供的方法在实际场景中的一种运用方式。
首先需要介绍的是,多维画像技术,是指通过对各类数据采集、清洗、处理,从多个维度提取事物表征向量,建立数学模型分析因素相互关系,从而汇聚结果,综合描述事物特点,解决了单一指标数据不能准确反映或评价某个事物的问题。
为了综合分析服务的运行情况、给出灵活的监控方案,本申请实施例2提供的该基于多维画像的监控预警方法中:
首先,收集软件服务日志数据,并将日志数据通过logstash(一款轻量级的日志搜集处理框架,可以方便的把分散的、多样化的日志搜集起来,并进行自定义的处理,然后传输到指定的位置,比如某个服务器或者文件)输出到ElasticSearch搜索引擎(一个分布式多用户能力的全文搜索引擎)进行日志存储;
然后,把存储的日志进行数据处理,分为离线处理和实时处理。
离线处理,包括时间序列分析、构建多维画像和评分模型等。针对监控企业软件服务情况,全面构建软件服务指标体系,采用聚类分析和机器学习等方法,汇聚多维画像结果,综合分析预警,训练评分模型。
实时处理,包括实时统计指标预警和增速预警双层异常预警服务,实时计算反馈异常时间点及异常类型。
如图4所示,用于实施该方法的***架构包括五个组成部分,分别为:日志采集模块、算法模型模块、构建画像模块、画像应用模块和数据存储模块。
以下结合图5所示的该基于多维画像的监控预警方法的实现流程图,说明上述各模块的具体功能:
步骤51:日志采集与处理;
由日志采集模块获取服务的历史调用日志数据,存储到数据存储模块所包含的ElasticSearch搜索引擎。
对发布未满1年的服务,从历史日志数据中,整理出每个服务的基本信息、用户数、访问量、流量、请求时间、响应时间、错误码等数据,作为历史调用日志数据。对发布及历史日志记录超过1年的,可以选取近一年的上述数据,作为历史调用日志数据。
步骤52:多维画像;
多维画像是将多维信息标签化。
具体来说,由算法模型模块从数据存储模块中获取存储至ElasticSearch搜索引擎的包括:用户活跃度、调用频率、调用流量、响应速度、错误率和对应的服务运行时间等在内的多个维度数据,进而刻画服务特征属性,并对这些特征分析统计挖掘潜在价值信息,从而监控服务运行情况。
用户活跃度、调用频率、调用流量、响应速度和错误率这五个维度之间相互联系,共同构成对服务的一个整体描述。
用户活跃度,是指使用服务的用户数占总用户数的比例,包括:日活跃用户度、月活跃用户度、季度活跃用户度等。在画像中我们定义用户活跃度指标为一个综合分数,通过计算月活跃用户度、年活跃用户度、用户付费情况的综合评分得出。
当服务需要付费时,付费意愿更强烈的用户更活跃,根据付费金额和使用时间分为高付费用户、较高付费用户、中等付费用户、低付费用户和未付费用户。
分数计算时,将不同的用户度量化为等距离的数值,如4、3、2、1、0。当服务无需付费时,无需考虑付费情况指标。
在本申请实施例2中,对于服务i的用户活跃度ai计算公式如下:
Figure BDA0003370488380000141
其中,λ为小于1的数值,根据实际情况设定;max(a)为所有服务中用户活跃度的最大值。
采用公式[1]进行计算得到的用户活跃度ai的数值保持在0~1之间,数值越大,表征用户活跃度越高;反正表征用户活跃度越低。
服务的调用频率,为服务的调用量除以相应时间段长度。
服务的调用流量,为服务的调用流量除以相应时间段长度。
响应速度,为一定时间段内响应时间倒数的平均值。
错误率,为一定时间段内错误数除以调用总数。
调用频率、调用流量、响应速度、错误率在进行上述计算后,均需进行归一化处理,使分数值均保持在0~1之间。
以调用频率的归一化为例,具体归一化方式可以为:
将每个服务的调用频率除以在所有服务中调用频率出现过的最大值。
类似的,调用流量、响应速度、错误率都分别除以对应的最大值。
针对调用频率、调用流量、响应速度、错误率中某项最新记录超过最大值的特殊情况,相应服务指标设为1。用户活跃度、调用频率、调用流量、响应速度、错误率的多维度展示图如附图3所示。
步骤53:画像聚类;
每项服务的多维画像指标在动态变化,用户活跃度设为每月更新,调用频率、调用流量、响应速度、错误率指标可设置不同的时间计算单元,例如以每分钟、每十分钟、每三十分钟、每小时、每天等时间段为基本单元,动态更新服务画像,重点关注包含服务调用异常时刻的画像指标。
列出服务调用异常、需要预警的情况,包括部分调用错误、响应速度过慢等,分析异常情况出现前后时刻的服务调用特征。
算法模型模块中包含的“聚类分析”模块,对异常及其前后时刻的画像指标进行离线聚类分析,得到一些典型的异常调用情况,包括高错误率、低响应速度、高用户活跃度等情况的组合,以便后续依据命中的典型用户画像类型进行预警。
步骤54:时间序列分析;
构建画像模块中的“时间序列分析”模块,分析调用频率、调用流量、响应速度、错误率指标的周期性,利用序列的相似度计算判断周期性。
分析指标的连续性,分别以每分钟、每十分钟、每三十分钟、每小时、每天等时间段为基本单位做画像指标统计,得到不同时间单元一年内的统计指标,挖掘调用量波动规律和不同时间单元统计数据特点。
步骤55:评分预警模型;
算法模型模块中包含的“机器学习”模块,利用机器学习的方法构建预警模型,机器学习引擎比如可以基于spark分布式计算框架实现,包括从ElasticSearch中提取数据、数据分析处理、模型训练及模型评估。
首先,把异常时刻、异常情况前后时刻、非异常时刻标注为不同类别,作为预测目标,然后收集输入的特征值,包括上述用户活跃度、调用频率、调用流量、响应速度、错误率这五维数据。
其中,调用频率、调用流量、响应速度和错误率在不同时间段动态变化,因此,“机器学习”模块根据时间序列周期性和连续性分析结果,选取不同时间段的统计值作为特征值,通过关联规则分析和主成分分析发现并排除高度相关的特征,把最初的特征集降维,选择有效特征及其标注类别输入到logistic回归或神经网络等机器学习模型中进行模型训练,得到异常预警模型(即图4中所示的“评分模型”)。
异常预警模型的模型参数,存储到数据存储模块的Mysql数据库中,以便“机器学习”模块定期更新维护模型的需求——即,根据预警反馈调整预警参数,从而促成提供优质预警服务。
步骤56:离线预警任务;
构建画像模块中的“离线处理”模块获取实时数据(实时获取的服务的五维数据)与历史数据(服务的历史五维数据),并调用异常预警模型进行预测——预测当前时间单元是否属于异常时刻或异常情况前后时刻。
如预测结果为当前时间单元属于异常时刻或异常情况前后时刻,则及时预警,并标明预警类型。
同时,将此时间单元的历史数据输入到异常预警模型中,判断是否为典型的异常调用情况,预测为典型的异常调用情况时,可调用“多维画像可视化展示”模块在可视化界面展示预警,如附图3所示,可以将相应的服务(如服务1)的五维数据显示区域进行标亮处理,并将预警结果存储到Mysql数据库中。
以上离线预警任务涉及的分析计算、模型训练均依据ElasticSearch中提取的历史数据离线实现。
步骤57:实时预警任务。
实时预警处理实时数据,包括统计指标预警和增速预警两种情况。
统计指标预警,要监测当前时刻的调用频率、调用流量、响应速度和错误率指标,由“实时处理”模块获取该些指标,并在判断出各项指标均超出预设值时,触发“实时预警”模块进行预警。
其中,某个服务对应的上述预设值,依据该服务的历史异常时刻的统计平均值设定。
将各项指标的历史异常时刻的平均值记录到Mysql中,定期更新维护参数,实时判断,触发统计指标预警时通过短信、邮件形式告知用户,并将预警结果存储到Mysql数据库中。
增速预警,需要计算调用量和调用流量的增速。比如,由“指标增速统计”模块分别以10分钟和30分钟为单位,统计总调用量和调用流量;进而判断调用量和调用流量的增速是否存在均连续N次(N的数值根据历史异常情况设定)超过调用情况平均数的情况;若判断为是,则认为增长过快,需要触发“实时预警”模块进行实时预警。具体地,“实时预警”模块可以告知用户预警类型,并将预警信息存储到Mysql数据库。
本申请实施例2提供的该基于多维画像的监控预警方法,提出离线预警和实时预警方案,通过离线计算活跃用户数、调用频率、调用流量、响应速度、错误率指标,构建一种多维画像,多角度度监控服务调用情况,给出多维画像可视化展示。通过时间序列分析、聚类分析和机器学习等离线分析、训练模型,具有完善的存储更新机制,综合全面分析,多维画像直观展示服务调用情况。实时预警方案提供统计指标预警和增速预警双层异常预警服务,实现实时高效预警。
实施例3
出于与本申请实施例1相同的发明构思,本申请实施例3提供一种基于多维画像的监控预警装置,以解决采用现有技术的服务运行状态的监控预警方法,使得运行状态判定结果不够客观准确,可能导致产生误警的问题。
如图6所示,为本申请实施例3提供的一种针对服务运行状态的监控预警装置的具体结构示意图,包括如下功能模块:
多维数据获取模块61,用于获取目标服务在目标时段对应的多维特征数据;所述多维特征数据,包括:服务调用特征数据以及服务状态特征数据;
识别模块62,用于将所述多维特征数据输入训练好的预警模型,以触发所述预警模型识别所述目标时段的时段类型;所述预警模型能够识别的时段类型包括:异常时段、异常时段的相邻时段、非异常时段;所述预警模型,利用所述目标服务在历史异常时段、所述历史异常时段的相邻时段、历史非异常时段的历史多维特征数据训练得到;
预警操作执行模块63,用于若所述预警模型识别出所述目标时段的时段类型为异常时段或异常时段的相邻时段,则执行针对所述目标服务的运行状态异常预警操作。
可选的,所述服务调用特征数据,可以包括但不限于下述数据中的至少一种:
用户活跃度;调用频率;调用流量;
可选的,所述服务状态特征数据,可以包括但不限于下述数据中的至少一种:
响应速度;错误率。
在一种实施方式中,所述预警模型,可以采用下述方式训练得到:
获取所述目标服务在所述历史时段所分别对应的所述历史多维特征数据;其中,所述历史时段的类型包括:历史异常时段、所述历史异常时段的相邻时段、历史非异常时段;
对分别对应于不同类型的所述历史时段的历史多维特征数据分别进行聚类,以得到不同画像类别的历史多维特征数据集合;其中,所述不同画像类别,至少包括:运行状态异常、运行状态正常;
以所述不同画像类别的历史多维特征数据集合作为模型训练样本,以所述历史时段的类型作为所述模型训练样本的标签,训练所述预警模型。
可选的,所述预警模型,还可以用于识别所述多维特征数据对应的画像类别。在这样的情况下,预警操作执行模块63,具体可以用于:若所述预警模型识别出所述多维特征数据对应的画像类别为运行状态异常,则在可视化界面,按照与所述运行状态异常的画像类别相匹配的展现方式,进行异常预警内容的展示。
可选的,本申请实施例提供的该装置还可以包括:
统计指标预警模块,用于若所述多维特征数据中的第一指定特征数据对应的数据统计值均分别大于相应的预设统计阈值,执行统计指标预警;
增速预警,用于若所述多维特征数据中的第二指定特征数据对应的数据增长值均分别大于相应的预设统计增长值,执行增速预警。
采用本申请实施例提供的该装置,由于在针对目标服务的服务运行状态进行监控预警时,以包括服务调用特征数据和服务状态特征数据在内的多维特征数据,共同作为服务运行状态的判断依据,并利用基于目标服务在历史异常时段、历史异常时段的相邻时段、历史非异常时段的历史多维特征数据训练得到预警模型,来识别目标服务的异常时段及异常时段的相邻时段,从而相比于现有技术针对单个用户行为特征设置一定阈值,通过比对用户行为特征值与阈值的大小关系,来判断服务在某时段是否出现运行状态异常的方式,本申请实施例提供的方法的判断依据更为全面,从而提升了服务运行状态判定结果的客观性和准确性,降低了误警概率。
实施例4
出于与本申请实施例1相同的发明构思,本申请实施例4提供一种计算设备,以解决采用现有技术的服务运行状态的监控预警方法,使得运行状态判定结果不够客观准确,可能导致产生误警的问题。
如图7所示,所述计算设备包括:存储器71及处理器72。存储器71可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器71可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器72,与存储器71耦合,用于执行存储器71中存储的程序,以用于执行本申请实施例1中所述的一种针对服务运行状态的监控预警方法。
处理器72在执行存储器71中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步的,如图7所示,计算设备还包括:显示器74、通信组件73、电源组件75、音频组件76等其它组件。图7中仅示意性给出部分组件,并不意味着计算设备只包括图7所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的方法的步骤或功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种针对服务运行状态的监控预警方法,其特征在于,包括:
获取目标服务在目标时段对应的多维特征数据;所述多维特征数据,包括:服务调用特征数据以及服务状态特征数据;
将所述多维特征数据输入训练好的预警模型,以触发所述预警模型识别所述目标时段的时段类型;所述预警模型能够识别的时段类型包括:异常时段、异常时段的相邻时段、非异常时段;所述预警模型,利用所述目标服务在历史异常时段、所述历史异常时段的相邻时段、历史非异常时段的历史多维特征数据训练得到;
若所述预警模型识别出所述目标时段的时段类型为异常时段或异常时段的相邻时段,则执行针对所述目标服务的运行状态异常预警操作。
2.如权利要求1所述的方法,其特征在于:
所述服务调用特征数据,包括下述数据中的至少一种:
用户活跃度;调用频率;调用流量;
所述服务状态特征数据,包括下述数据中的至少一种:
响应速度;错误率。
3.如权利要求1所述的方法,其特征在于,所述预警模型,采用下述方式训练得到:
获取所述目标服务在所述历史时段所分别对应的所述历史多维特征数据;其中,所述历史时段的类型包括:历史异常时段、所述历史异常时段的相邻时段、历史非异常时段;
对分别对应于不同类型的所述历史时段的历史多维特征数据分别进行聚类,以得到不同画像类别的历史多维特征数据集合;其中,所述不同画像类别,至少包括:运行状态异常、运行状态正常;
以所述不同画像类别的历史多维特征数据集合作为模型训练样本,以所述历史时段的类型作为所述模型训练样本的标签,训练所述预警模型。
4.如权利要求3所述的方法,其特征在于,所述预警模型,还用于识别所述多维特征数据对应的画像类别;
执行针对所述目标服务的运行状态异常预警操作,包括:
若所述预警模型识别出所述多维特征数据对应的画像类别为运行状态异常,则在可视化界面,按照与所述运行状态异常的画像类别相匹配的展现方式,进行异常预警内容的展示。
5.如权利要求1~4任一权项所述的方法,其特征在于,所述方法还包括:
若所述多维特征数据中的第一指定特征数据对应的数据统计值均分别大于相应的预设统计阈值,执行统计指标预警;
若所述多维特征数据中的第二指定特征数据对应的数据增长值均分别大于相应的预设统计增长值,执行增速预警。
6.一种针对服务运行状态的监控预警装置,其特征在于,包括:
多维数据获取模块,用于获取目标服务在目标时段对应的多维特征数据;所述多维特征数据,包括:服务调用特征数据以及服务状态特征数据;
识别模块,用于将所述多维特征数据输入训练好的预警模型,以触发所述预警模型识别所述目标时段的时段类型;所述预警模型能够识别的时段类型包括:异常时段、异常时段的相邻时段、非异常时段;所述预警模型,利用所述目标服务在历史异常时段、所述历史异常时段的相邻时段、历史非异常时段的历史多维特征数据训练得到;
预警操作执行模块,用于若所述预警模型识别出所述目标时段的时段类型为异常时段或异常时段的相邻时段,则执行针对所述目标服务的运行状态异常预警操作。
7.如权利要求6所述的装置,其特征在于,所述预警模型,采用下述方式训练得到:
获取所述目标服务在所述历史时段所分别对应的所述历史多维特征数据;其中,所述历史时段的类型包括:历史异常时段、所述历史异常时段的相邻时段、历史非异常时段;
对分别对应于不同类型的所述历史时段的历史多维特征数据分别进行聚类,以得到不同画像类别的历史多维特征数据集合;其中,所述不同画像类别,至少包括:运行状态异常、运行状态正常;
以所述不同画像类别的历史多维特征数据集合作为模型训练样本,以所述历史时段的类型作为所述模型训练样本的标签,训练所述预警模型。
8.如权利要求6或7所述的装置,其特征在于,所述装置还包括:
统计指标预警模块,用于若所述多维特征数据中的第一指定特征数据对应的数据统计值均分别大于相应的预设统计阈值,执行统计指标预警;
增速预警,用于若所述多维特征数据中的第二指定特征数据对应的数据增长值均分别大于相应的预设统计增长值,执行增速预警。
9.一种计算设备,其特征在于,包括:存储器及处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于执行权利要求1~5任一权项所述的方法。
10.一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现权利要求1~5任一权项所述的方法。
CN202111402758.4A 2021-11-23 2021-11-23 一种针对服务运行状态的监控预警方法、装置及设备 Pending CN114090385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111402758.4A CN114090385A (zh) 2021-11-23 2021-11-23 一种针对服务运行状态的监控预警方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111402758.4A CN114090385A (zh) 2021-11-23 2021-11-23 一种针对服务运行状态的监控预警方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114090385A true CN114090385A (zh) 2022-02-25

Family

ID=80303948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111402758.4A Pending CN114090385A (zh) 2021-11-23 2021-11-23 一种针对服务运行状态的监控预警方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114090385A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273411A (zh) * 2022-09-29 2022-11-01 江西飞尚科技有限公司 地质灾害监测预警方法、***、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273411A (zh) * 2022-09-29 2022-11-01 江西飞尚科技有限公司 地质灾害监测预警方法、***、电子设备及存储介质
CN115273411B (zh) * 2022-09-29 2023-02-07 江西飞尚科技有限公司 地质灾害监测预警方法、***、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110070391B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN108170580A (zh) 一种基于规则的日志报警方法、装置及***
CN110830438A (zh) 一种异常日志告警方法、装置及电子设备
CN108364233A (zh) 一种保单风险评估方法、装置、终端设备及存储介质
CN109544399B (zh) 基于多源异构数据的输电设备状态评价方法及装置
CN109191283A (zh) 风险预警方法及***
CN108053087A (zh) 反洗钱监测方法、设备及计算机可读存储介质
CN111754241A (zh) 一种用户行为感知方法、装置、设备及介质
CN113343058B (zh) 语音会话监管方法、装置、计算机设备及存储介质
CN116865994A (zh) 一种基于大数据的网络数据安全预测方法
CN114090385A (zh) 一种针对服务运行状态的监控预警方法、装置及设备
CN107480703B (zh) 交易故障检测方法及装置
CN115719283A (zh) 一种智能化会计管理***
CN112948223A (zh) 一种监测运行情况的方法和装置
CN111325422B (zh) 一种工单派发方法及***
CN110928859A (zh) 模型监控方法、装置、计算机设备和存储介质
CN114154866A (zh) 一种上市企业财务风险预警方法和***
CN111428963B (zh) 一种数据处理方法及装置
CN107357703B (zh) 一种终端应用耗电检测方法及服务器
CN115659351A (zh) 一种基于大数据办公的信息安全分析方法、***及设备
CN115277472A (zh) 一种多维工控***网络安全风险预警***及方法
CN113111139A (zh) 一种基于物联传感器的告警检测方法和装置
CN114463117A (zh) 用户行为预测方法、***及其装置
CN114189585A (zh) 骚扰电话异常检测方法、装置及计算设备
CN112801788A (zh) 一种互联网股权融资平台监控***及监控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination