CN115967649A - 一种基于服务拓扑关系的业务健康度检查方法及*** - Google Patents
一种基于服务拓扑关系的业务健康度检查方法及*** Download PDFInfo
- Publication number
- CN115967649A CN115967649A CN202211397396.9A CN202211397396A CN115967649A CN 115967649 A CN115967649 A CN 115967649A CN 202211397396 A CN202211397396 A CN 202211397396A CN 115967649 A CN115967649 A CN 115967649A
- Authority
- CN
- China
- Prior art keywords
- service
- index
- health degree
- health
- topological structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种基于服务拓扑关系的业务健康度检查方法及***,方法包括:基于注册中心数据构建服务关联拓扑结构;获取服务关联拓扑结构各节点的指标数据;获取基础服务健康度指标及对应的指标值,并基于指标值递归计算服务健康度评分;建立自动化定时巡检报警机制对服务健康度评分小于预设健康阈值的服务进行定向报警通知。本发明通过构建包含基于服务依赖关系的拓扑结构的各服务健康度评分***,建立自动化巡检报警机制,能够更全面体现出当前业务***运行状态,提高发现问题的效率。
Description
技术领域
本发明涉及微服务管理技术领域,具体涉及一种基于服务拓扑关系的业务健康度检查方法及***。
背景技术
微服务是一种新兴的软件架构风格,每个微服务是一个专注于单一责任与功能的小型功能区块,若干个微服务组合出复杂的大型应用程序。掌握微服务健康度对整个***正常运行意义重大。一般服务的健康度评估方法包含以下层面:服务硬件资源使用率情况,包括CPU、内存、Load值及磁盘IO等指标;服务对外提供的接口情况,包括总体接口请求QPS、接口请求平均耗时AVG值、耗时P99值及接口成功率;服务总体异常情况,包括接口失败率、接口失败数等。
上述方法在微服务框架下存在以下问题:服务健康度的最终目标是要为评估业务流程的处理情况是否正常,但在微服务架构下,往往一条业务链路的处理是贯穿多个服务的,单个服务的运行健康,并不能代表业务流程被正常处理。
目前业内一般通过入口层的接口统一监控来观察业务服务的接口健康情况,当发现问题后,跟踪调用请求链路,来逐步观察请求链路上的服务的健康情况定位影响业务接口健康度的微服务,但采用此方法所获得的服务健康状况不够全面,且发现问题的效率很低,如果不能及时处理会造成线上业务影响的持续受损。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的微服务框架下的业务健康度检查缺陷,从而提供一种基于服务拓扑关系的业务健康度检查方法及***。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明提供了一种基于服务拓扑关系的业务健康度检查方法,包括以下步骤:
基于注册中心数据构建服务关联拓扑结构;
获取服务关联拓扑结构各节点的指标数据;
根据所述指标数据和预设基础服务健康度指标规则获取基础服务健康度指标及对应的指标值,并基于所述指标值,按照预设定时周期依次从服务关联拓扑结构叶子结点递归计算全部节点的服务健康度评分;
建立自动化定时巡检报警机制对所述服务健康度评分小于预设健康阈值的服务进行定向报警通知。
本发明实施例提供的基于服务拓扑关系的业务健康度检查方法,通过构建服务关系拓扑结构,按照预设定时周期依次从服务关联拓扑结构叶子结点递归计算全部节点的服务健康度评分,建立自动化定时巡检报警机制进行定向报警通知,进行基于服务拓扑关系的业务健康度检查,能够较为全面且动态地体现出当前业务***可能存在问题的业务链路,对当前业务健康度进行评估,提高了发现问题效率,减轻了***维护人员工作量。
可选地,展示所述服务关联拓扑结构中各服务的所述服务健康度评分及评分依据。
本发明通过展示服务关系拓扑结构中的各***评分及评分依据,使***维护人员能更直观看到***运行状况,了解业务***可能存在的问题链路,提高了***维护人员定位问题的效率。
可选地,所述服务关联拓扑结构的构建方法,包括:通过扫描注册中心所有接口的三元关系,形成第一关系表;对第一关系表中全量数据的重复服务依赖关系进行去重,得到服务依赖二元关系的第二关系表;将所述第二关系表中没有下游依赖的服务标记为叶子结点,从所述叶子结点出发向上递归,形成所述服务关联拓扑结构。
本发明通过注册中心所存储接口信息进行服务关联拓扑结构的构建,更能准确得到业务***中服务依赖关系,在后续服务健康度评分计算过程中提供可靠数据参考。
可选地,所述指标数据,包括:单独服务水位、服务变更日志、接口请求统计日志及服务异常日志。
可选地,所述基础服务健康度指标,包括:服务水位指标,表征当前服务器的CPU使用率的健康情况;服务变更指标,表征当前服务在预设时间段内是否发生过变更;接口健康度指标,表征当前服务提供的每个接口的处理耗时的健康情况;接口错误率指标,表征当前服务提供的每个接口的处理是否出现异常的情况;关联***健康度指标,表征当前服务所依赖的其他服务的情况。
本发明通过定义多种指标类型,能够更全面计算出当前服务的健康度评分,提高了计算结果的可靠性。
可选地,所述预设基础服务健康度指标规则,包括:根据指标数据确定基础服务健康度指标,根据基础服务健康度指标对业务健康度的影响重要程度确定其对应的权重,根据基础服务健康度指标的权重确定其占服务健康度总分的比例。
本发明根据基础服务健康度指标对业务健康度的影响重要程度确定所对应权重,并且根据基础服务健康度指标的权重确定其占服务健康度总分的比例,能够更全面、更准确地分析出***可能存在的问题,得到的评估结果更可靠。
可选地,计算所述服务健康度评分的过程包括:对所述基础服务健康度指标的指标值求和;当所述求和结果大于0,则所述求和结果即为服务健康度评分;当所述求和结果小于0,则对所述求和结果进行归零化处理,获得服务健康度评分。
本发明将计算得到的服务健康度评分进行归零化处理,使最终展示结果更简洁易懂。
第二方面,本发明提供了一种基于服务拓扑关系的业务健康度检查***,包括:
拓扑结构构建模块,用于基于注册中心数据构建服务关联拓扑结构;
指标数据获取模块,用于获取服务关联拓扑结构各节点的指标数据;
健康度评分计算模块,用于根据所述指标数据和预设基础服务健康度指标规则获取基础服务健康度指标及对应的指标值,并基于所述指标值,按照预设定时周期依次从服务关联拓扑结构叶子结点递归计算全部节点的服务健康度评分;
巡检报警模块,用于建立自动化定时巡检报警机制对服务健康度评分小于预设健康阈值的服务进行定向报警通知。
本发明实施例提供的基于服务拓扑关系的业务健康度检查***,通过构建服务关系拓扑结构,按照预设定时周期依次从服务关联拓扑结构叶子结点递归计算全部节点的服务健康度评分,建立定时巡检报警机制进行定向报警通知,进行基于服务拓扑关系的业务健康度检查,能够较为全面且动态地体现出当前业务***可能存在问题的业务链路,对当前业务健康度进行评估,提高了发现问题效率,减轻了***维护人员工作量。
第三方面,本发明实施例提供了一种计算机设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于服务拓扑关系的业务健康度检查方法的流程示意图;
图2为本发明实施例提供的一种基于服务拓扑关系的业务健康度检查方法的服务依赖关系示意图;
图3为本发明实施例提供的一种基于服务拓扑关系的业务健康度检查方法的服务水位指标对应函数变化趋势示意图;
图4为本发明实施例提供的一种基于服务拓扑关系的业务健康度检查方法的服务变更指标对应函数变化趋势示意图;
图5为本发明实施例提供的一种基于服务拓扑关系的业务健康度检查方法的接口健康度指标对应函数变化趋势示意图;
图6为本发明实施例提供的一种基于服务拓扑关系的业务健康度检查方法的接口错误率指标对应函数变化趋势示意图;
图7为本发明实施例提供的一种基于服务拓扑关系的业务健康度检查方法的拓扑结构示意图;
图8为本发明实施例提供的一种基于服务拓扑关系的业务健康度检查***的结构示意图;
图9为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例提供一种基于服务拓扑关系的业务健康度检查方法,如图1所示,包括如下步骤:
步骤S1:基于注册中心数据构建服务关联拓扑结构。
具体地,一般微服务体系架构下,存在基于服务治理的注册中心组件,各方服务提供的接口能力是通过注册中心进行暴露的,暴露服务的一方为Provider,使用服务的一方为Consumer,是通过注册中心订阅到的对应接口相关服务信息。注册中心一般基于Zookeeper、Nacos等中间件进行构建,其中保留了Provider的服务信息,也保留了Consumer的订阅信息,形成了类似于服务A订阅接口i,接口i由服务B提供的关系数据,即对所有接口都存在一个三元关系(A-i-B)。
通过扫描注册中心所有接口的三元关系,形成第一关系表,在对全量数据中A-i1-B,A-i2-B等重复服务依赖关系进行去重,则得出服务依赖二元关系(A-B)的第二关系表。
将第二关系表中,没有下游依赖的服务标记为叶子结点,从叶子节点出发像上递归,即可形成全量的服务依赖关系拓扑图。以图2所示服务依赖关系示例图中的数据为例,第二关系表如下表所示:
A-B | A-C | B-E | B-D | C-E | C-F | J-F | J-G | J-H | I-J |
其中叶子结点为服务D、服务E、服务F、服务G、服务H,递归向上找到其父亲节点:服务B、服务C和服务J,再递归向上找到父亲节点:服务A和服务I,完成整个服务关系拓扑结构的构建。
S2:获取服务关联拓扑结构各节点的指标数据。
具体地,在本实施例中,通过获取微服务日志信息进行后续数据处理得到指标数据,在本发明实施例中各节点的指标数据包括:单独服务水位、服务变更日志、接口请求统计日志、服务异常日志。
S3:根据指标数据和预设基础服务健康度指标规则获取基础服务健康度指标及对应的指标值,并基于指标值,按照预设定时周期依次从服务关联拓扑结构叶子结点递归计算全部节点的服务健康度评分。
具体地,评估一个服务的健康情况,需要考虑在什么情况下该服务可能出现导致业务受损的非健康情况,一般来说当以下五种存在异常风险:
第一种,当服务器本身压力过大,无法承载对应流量时,可能造成服务宕机,服务完全不可用。
第二种,当服务出现变更时,比如服务部署、新增逻辑发布、内部配置更新等服务变更时,出现业务受损的风险会变高,可能导致业务受损。
第三种,当请求流量的处理出现变慢,耗时变长时,可能造成调用超时导致业务受损的情况发生,且因为耗时变长,会降低服务器的处理吞吐量,进一步放大服务器压力,诱发第一方面中的异常风险。
第四种,当请求流量的处理出现异常增多,对应调用失败的错误码的数量变多,表明内部逻辑处理可能存在异常错误,导致业务受损。
第五种,当前服务的关联服务出现健康情况异常时,即使当前服务的健康情况表面正常,但依然可能存在相关链路上的业务处理受损的情况产生。
因此,根据以上五种异常风险情况并基于***中获取的指标数据定义五种基础服务健康度指标,包括:服务水位指标、服务变更指标、接口健康度指标、接口错误率指标及关联***健康度指标。
本发明实施例基于基础服务健康度指标设置基础服务健康度指标规则为:根据基础服务健康度指标对业务健康度的影响重要程度确定其对应的权重,根据基础服务健康度指标的权重确定其占服务健康度总分的比例。本实施例根据实际应用中各基础服务健康度指标的重要程度,确定服务水位指标、服务变更指标、接口健康度指标、接口错误率指标及关联***健康度指标的权重分别为:24%、16%、24%、24%、12%,自定义服务健康度总分为125,因此满分为30,服务变更指标满分为20,接口健康度指标满分为30,接口错误率指标满分为30,关联***健康度指标满分15。需要说明的是以上权重和分数的具体数值仅作为举例说明,不以此为限。
具体各基础服务健康度指标的指标值计算过程如下:
服务水位指标:表征当前服务器的CPU使用率的健康情况。行业一般认为CPU使用率低于40%则处在健康状态,处于40%到60%之间属于低风险状态,高于60%处于高风险状态。因此,设置服务水位指标计算规则为:当前指标项总分在服务器水位低于40%时,该项指标满分30,若水位高于40%时,分数递减,超过60%开始为负值,所对应指标值计算公式为:
其中Score1表示服务水位指标的指标值,x表示当前服务水位,对应函数变化趋势如图3所示。
服务变更指标:表征当前服务是否最近发生过变更,一般认为30分钟内未发生变更则风险较低。因此,设置服务变更指标计算规则为:30分钟内未发生变更则满分20;30分钟内发生变更,则按变更时间距当前时间趋势递增,所对应指标值计算公式为:
其中,Score2表示服务变更指标的指标值,t表示服务发生变更的时间距当前的时间差,对应函数变化趋势如图4所示。
接口健康度指标:表征当前服务提供的每个接口的处理耗时的健康情况。一般来说,一个服务对外提供的接口中,某一个接口出现接口耗时在5%比例内波动是正常的,超过5%后即服务接口健康情况存在较低风险,超过30%即存在较高风险,超过100%后存在非常大的风险。其中指标定义为每个接口的处理耗时较基础设定值上涨比例的最大值,假设一个服务提供三个接口a、b、c,为a、b、c设立的基础耗时为RTa0、RTb0、RTc0,当前实际耗时为RTa1、RTb1、RTc1,其中:
则当前服务的接口耗时上涨比例指标因此,设置接口健康度指标计算规则为:接口耗时上涨比例指标在正常波动范围0%~105%内,该项指标满分30;在较低风险范围105%~130%内,该项指标值递减,超过130%后开始为负值;在较高风险范围130%~200%内,该项指标值递减,超过200%后存在非常大的风险,该项指标值为-50,所对应指标值计算公式为:
其中,Score3表示接口健康度指标的指标值,对应函数变化趋势如图5所示。
接口错误率指标:表示当前服务提供的每个接口的处理是否出现异常的情况。一般来说接口错误率的正常波动区间在5%以内,超过5%后即服务接口情况存在较低风险,超过30%即存在较高风险,超过100%后存在非常大的风险。其中指标定义为每个接口的错误率基础设定值上涨比例的最大值,假设一个服务提供三个接口a、b、c,为a、b、c设立的基础错误率为ERa0、ERb0、ERc0,当前实际错误率为ERa1、ERb1、ERc1,其中:
则当前服务的接口错误率上涨比例指标因此,设置接口错误率指标计算规则为:接口错误率上涨比例指标在正常波动范围0%~105%内,该项指标满分30;在较低风险范围105%~130%内,该项指标值递减,超过130%后开始为负值;在较高风险范围130%~200%内,该项指标值递减,超过200%后存在非常大的风险,该项指标值为-50。所对应指标值计算公式为:
其中,Score4表示接口错误率指标的指标值,对应函数变化趋势如图6所示。
关联***健康度指标:表达当前服务所依赖的其他服务的情况。
设置关联***健康度指标的指标值计算规则为:以当前服务依赖的所有服务中,分数最低的服务的健康分为准,若服务没有下游依赖服务,则此项默认满分15分,最低-30分。以下游服务60分为分割线,高于60分正值,依赖服务中分数最低的为100分则此项满分15分,若低于60分为负值,依赖服务中分数最低值为0分时此项分数为-30。所对应指标值计算公式为:
其中,Score5表示关联***健康度指标的指标值,r_min表示当前服务依赖的所有服务中,分数最低的服务健康度评分。
例如,以图7所示拓扑结构示意图,服务A依赖服务B、服务C,其中B无下有依赖服务,C依赖服务D,D无下游依赖服务。在计算时,服务B、服务D此项分数为满分15分,仅需计算服务水位指标、服务变更指标、接口健康度指标及接口错误率指标,即可算出服务B、服务D的健康分值ScoreB、ScoreD。在计算服务C的健康分时,依赖服务D,则此项分值按照公式计算得出服务C的Score5,进一步通过服务健康度评分公式得出ScoreC。假设当前ScoreC<coreB,则在计算服务A的关联服务健康指标时,使用ScoreC进行当前指标分值的计算项带入公式得出ScoreA。
所有以上指标,分值计算中存在负值,针对此情况本发明实施例计算服务健康度评分时进行归零化处理,对应公式为:
此外,本实施例设置5分钟定时任务依次从拓扑结构叶子结点递归计算全部节点的健康度评分。
S4:建立自动化定时巡检报警机制对服务健康度评分小于预设健康阈值的服务进行定向报警通知。
具体地,本实施例自动化定时任务设置为5分钟,预设健康阈值设置为60,因此***5分钟定时巡检报警机制对健康度评分低于60的服务进行定向报警通知。其中,巡检报警定时任务触发后,轮训最近所有服务的健康分数据,对于其中低于60分的服务,通过配置化的报警通道(支持邮件、钉钉消息、电话)的方式通知到服务的负责人。
此外,本发明实施例通过Web页面展示服务关系拓扑结构中的各***评分及评分依据。
具体地,本实施例通过Web页面展示服务关系拓扑结构中的各***评分及评分依据,使***维护人员能更直观看到***运行状况,了解业务***可能存在的问题链路,提高了***维护人员定位问题的效率。
本发明实施例提供的基于服务拓扑关系的业务健康度检查方法,通过构建服务关系拓扑结构,按照预设定时周期依次从服务关联拓扑结构叶子结点递归计算全部节点的服务健康度评分,建立定时巡检报警机制进行定向报警通知,进行基于服务拓扑关系的业务健康度检查,能够较为全面且动态地体现出当前业务***可能存在问题的业务链路,对当前业务健康度进行评估,提高了发现问题效率,减轻了***维护人员工作量。
本发明实施例还提供了一种基于服务拓扑关系的业务健康度检查***,如图8所示,***包括:
拓扑结构构建模块1,用于基于注册中心数据构建服务关联拓扑结构。详细内容参见上述方法实施例中步骤S1的相关描述,在此不再进行赘述。
指标数据获取模块2,用于获取服务关联拓扑结构各节点的指标数据。详细内容参见上述方法实施例中步骤S2的相关描述,在此不再进行赘述。
健康度评分计算模块3,用于根据所述指标数据和预设基础服务健康度指标规则获取基础服务健康度指标及对应的指标值,并基于所述指标值,按照预设定时周期依次从服务关联拓扑结构叶子结点递归计算全部节点的服务健康度评分。详细内容参见上述方法实施例中步骤S3的相关描述,在此不再进行赘述。
巡检报警模块4,用于建立自动化定时巡检报警机制对服务健康度评分小于预设健康阈值的服务进行定向报警通知。详细内容参见上述方法实施例中步骤S4的相关描述,在此不再进行赘述。
本发明实施例提供的基于服务拓扑关系的业务健康度检查设备,通过构建服务关系拓扑结构,按照预设定时周期依次从服务关联拓扑结构叶子结点递归计算全部节点的服务健康度评分,建立定时巡检报警机制进行定向报警通知,进行基于服务拓扑关系的业务健康度检查,能够较为全面且动态地体现出当前业务***可能存在问题的业务链路,对当前业务健康度进行评估,提高了发现问题效率,减轻了***维护人员工作量。
图9示出了本发明实施例中计算机设备的结构示意图,包括:处理器901和存储器902,其中,处理器901和存储器902可以通过总线或者其他方式连接,图9中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如上述方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。
上述计算机设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,实现的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种基于服务拓扑关系的业务健康度检查方法,其特征在于,包括如下步骤:
基于注册中心数据构建服务关联拓扑结构;
获取服务关联拓扑结构各节点的指标数据;
根据所述指标数据和预设基础服务健康度指标规则获取基础服务健康度指标及对应的指标值,并基于所述指标值,按照预设定时周期依次从服务关联拓扑结构叶子结点递归计算全部节点的服务健康度评分;
建立自动化定时巡检报警机制对服务健康度评分小于预设健康阈值的服务进行定向报警通知。
2.根据权利要求1所述的基于服务拓扑关系的业务健康度检查方法,其特征在于,还包括:
展示服务关联拓扑结构中各服务的所述服务健康度评分及评分依据。
3.根据权利要求1所述的基于服务拓扑关系的业务健康度检查方法,其特征在于,所述服务关联拓扑结构的构建方法,包括:
通过扫描注册中心所有接口的三元关系,形成第一关系表;
对第一关系表所包含全量数据的重复服务依赖关系进行去重,得到服务依赖二元关系的第二关系表;
将所述第二关系表中没有下游依赖的服务标记为叶子结点,从叶子结点出发向上递归,形成所述服务关联拓扑结构。
4.根据权利要求1所述的基于服务拓扑关系的业务健康度检查方法,其特征在于,所述指标数据,包括:单独服务水位、服务变更日志、接口请求统计日志及服务异常日志。
5.根据权利要求4所述的基于服务拓扑关系的业务健康度检查方法,其特征在于,所述基础服务健康度指标,包括:
服务水位指标,表征当前服务器的CPU使用率的健康情况;
服务变更指标,表征当前服务在预设时间段内是否发生过变更;
接口健康度指标,表征当前服务提供的每个接口的处理耗时的健康情况;
接口错误率指标,表征当前服务提供的每个接口的处理是否出现异常的情况;
关联***健康度指标,表征当前服务所依赖的其他服务的情况。
6.根据权利要求5所述的基于服务拓扑关系的业务健康度检查方法,其特征在于,所述预设基础服务健康度指标规则,包括:根据指标数据确定基础服务健康度指标,根据基础服务健康度指标对业务健康度的影响重要程度确定其对应的权重,根据基础服务健康度指标的权重确定其占服务健康度总分的比例。
7.根据权利要求5所述的基于服务拓扑关系的业务健康度检查方法,其特征在于,计算所述服务健康度评分的过程包括:
对所述基础服务健康度指标的指标值求和;
当所述求和结果大于0,则所述求和结果即为服务健康度评分;
当所述求和结果小于0,则对所述求和结果进行归零化处理,获得服务健康度评分。
8.一种基于服务拓扑关系的业务健康度检查***,其特征在于,包括:
拓扑结构构建模块,用于基于注册中心数据构建服务关联拓扑结构;
指标数据获取模块,用于获取服务关联拓扑结构各节点的指标数据;
健康度评分计算模块,用于根据所述指标数据和预设基础服务健康度指标规则获取基础服务健康度指标及对应的指标值,并基于所述指标值,按照预设定时周期依次从服务关联拓扑结构叶子结点递归计算全部节点的服务健康度评分;
巡检报警模块,用于建立自动化定时巡检报警机制对服务健康度评分小于预设健康阈值的服务进行定向报警通知。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的基于服务拓扑关系的业务健康度检查方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的基于服务拓扑关系的业务健康度检查方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211397396.9A CN115967649A (zh) | 2022-11-09 | 2022-11-09 | 一种基于服务拓扑关系的业务健康度检查方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211397396.9A CN115967649A (zh) | 2022-11-09 | 2022-11-09 | 一种基于服务拓扑关系的业务健康度检查方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115967649A true CN115967649A (zh) | 2023-04-14 |
Family
ID=87360605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211397396.9A Pending CN115967649A (zh) | 2022-11-09 | 2022-11-09 | 一种基于服务拓扑关系的业务健康度检查方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115967649A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116775364A (zh) * | 2023-08-16 | 2023-09-19 | 中国电子信息产业集团有限公司第六研究所 | 一种应用服务健康管理方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114385438A (zh) * | 2021-12-08 | 2022-04-22 | 国网电力科学研究院有限公司 | 业务运营风险预警方法、***及存储介质 |
-
2022
- 2022-11-09 CN CN202211397396.9A patent/CN115967649A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114385438A (zh) * | 2021-12-08 | 2022-04-22 | 国网电力科学研究院有限公司 | 业务运营风险预警方法、***及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116775364A (zh) * | 2023-08-16 | 2023-09-19 | 中国电子信息产业集团有限公司第六研究所 | 一种应用服务健康管理方法、装置、电子设备及存储介质 |
CN116775364B (zh) * | 2023-08-16 | 2023-12-05 | 中国电子信息产业集团有限公司第六研究所 | 一种应用服务健康管理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108833184B (zh) | 服务故障定位方法、装置、计算机设备及存储介质 | |
CN110166264B (zh) | 一种故障定位方法、装置及电子设备 | |
US8862119B2 (en) | Method and apparatus for telecommunications network performance anomaly events detection and notification | |
CN109739527B (zh) | 一种客户端灰度发布的方法、装置、服务器和存储介质 | |
CN115967649A (zh) | 一种基于服务拓扑关系的业务健康度检查方法及*** | |
CN116049146B (zh) | 一种数据库故障处理方法、装置、设备及存储介质 | |
CN113656252B (zh) | 故障定位方法、装置、电子设备以及存储介质 | |
CN109818808B (zh) | 故障诊断方法、装置和电子设备 | |
CN116418653A (zh) | 基于多指标根因定位算法的故障定位方法及装置 | |
CN114827168A (zh) | 告警聚合上报方法、装置、计算机设备及存储介质 | |
CN109462510B (zh) | 一种cdn节点质量评估的方法及装置 | |
JP2015210737A (ja) | 監視方法、監視装置および監視制御プログラム | |
CN111049664A (zh) | 一种网络告警处理方法、装置及存储介质 | |
CN114697247A (zh) | 流媒体***的故障检测方法、装置、设备和存储介质 | |
CN114095394A (zh) | 网络节点故障检测方法、装置、电子设备及存储介质 | |
CN112994976A (zh) | 一种网关测试方法、装置、电子设备及存储介质 | |
CN110309211B (zh) | 一种定位etl过程问题的方法及相关设备 | |
CN111367640B (zh) | 数据统计周期确定方法、装置、电子设备及存储介质 | |
CN112286949B (zh) | 应用列表更新方法、装置、计算机设备及存储介质 | |
CN117573481B (zh) | 接口监控方法、***、电子设备及计算机可读存储介质 | |
CN114513441B (zh) | 基于区块链的***维护方法、装置、设备及存储介质 | |
CN112631892B (zh) | 预测服务器健康状态的方法、计算设备和计算机介质 | |
CN113541979B (zh) | 基于时序数据的故障动态预测方法、装置及计算设备 | |
CN117170914A (zh) | 故障定位方法、装置、计算机***和可读存储介质 | |
CN117240749A (zh) | 用户状态确定方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |