CN112583640A - 一种基于知识图谱的服务故障检测方法及装置 - Google Patents

一种基于知识图谱的服务故障检测方法及装置 Download PDF

Info

Publication number
CN112583640A
CN112583640A CN202011401802.5A CN202011401802A CN112583640A CN 112583640 A CN112583640 A CN 112583640A CN 202011401802 A CN202011401802 A CN 202011401802A CN 112583640 A CN112583640 A CN 112583640A
Authority
CN
China
Prior art keywords
service
knowledge
operation information
related data
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011401802.5A
Other languages
English (en)
Inventor
洪万福
钱智毅
吴文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yuanting Information Technology Co ltd
Original Assignee
Xiamen Yuanting Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yuanting Information Technology Co ltd filed Critical Xiamen Yuanting Information Technology Co ltd
Priority to CN202011401802.5A priority Critical patent/CN112583640A/zh
Publication of CN112583640A publication Critical patent/CN112583640A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种基于知识图谱的服务故障检测方法、装置、可读存储介质及计算设备,用于实现服务故障智能诊断。方法包括:监控服务设备的运行相关数据;获取用户的业务操作信息;所述业务操作信息为可形成记录的运维管理业务的操作信息;将所述业务操作信息与所述运行相关数据关联,生成事件数据库;根据所述事件数据库,生成风险事件知识库;根据所述风险事件知识库和所述运行相关数据,进行服务故障诊断或者服务故障预警。本发明提供的技术方案,基于知识图谱的技术,通过对各类服务设备相关知识的抽取、融合、推理计算,可以有效地构建出高标准、高质量的知识体系,推动上层智能故障诊断应用的运行。

Description

一种基于知识图谱的服务故障检测方法及装置
技术领域
本发明涉及人工智能和自动机器学习技术领域,尤其涉及一种基于知识图谱的服务故障检测方法、装置、可读存储介质及计算设备。
背景技术
在市场竞争愈发激烈的情况下,互联网公司对其服务可靠性的要求越来越高。快速、准确的故障诊断可以直接提高服务的可靠性,并在根本上提高公司的竞争力和影响力,一个完善的故障诊断***可以大大提高故障诊断的效率。当前各大互联网公司的线上业务都非常复杂且关联度非常高,特别是随着当前微服务架构的发展,国内外许多公司都在尝试着微服务架构的引入,在这个背景下,对服务的链路跟踪以及故障快速诊断的需求都极为迫切。
随着这几年新一波人工智能浪潮的到来,人工智能相关技术被应用到诸多行业和领域,人工智能技术的发展,特别是基于知识的专家***和以并行分布处理为特征的人工神经网络等技术在智能故障诊断中的应用,使得故障诊断技术进入了一个新的智能化发展阶段,但是当前的智能诊断大多受到专家***的约束,需要由人工的方式进行标注训练,效率低下且准确率无法保障。
发明内容
为此,本发明提供了一种基于知识图谱的服务故障检测方法、装置、可读存储介质及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明实施例的一个方面,提供了一种基于知识图谱的服务故障检测方法,包括:
监控服务设备的运行相关数据;
获取用户的业务操作信息;所述业务操作信息为可形成记录的运维管理业务的操作信息;
将所述业务操作信息与所述运行相关数据关联,生成事件数据库;
根据所述事件数据库,生成风险事件知识库;
根据所述风险事件知识库和所述运行相关数据,进行服务故障诊断或者服务故障预警。
可选地,所述业务操作信息,包括:
资产管理***和/或IT服务管理***的故障登记处理工单、设备上/下架操作流水、机房割接、服务变更中的至少一种。
可选地,所述运行相关数据,包括:
设备端口、网络链路、***事件、服务进程、CDM监控、电源或电压数据、风扇或温度数据、***自检信息中的一种或多种。
可选地,根据所述事件数据库,生成风险事件知识库,包括:
根据所述事件数据库,通过知识抽取、知识融合、知识计算处理,生成风险事件知识库;
其中,知识抽取包括实体抽取、术语抽取、关系抽取、事件抽取及共指消解处理;知识融合包括本体构建、实体匹配、数据映射、本体融合处理;知识计算包括本体推理、规则推理、路径计算、链接预测、不一致检测、知识表征处理。
可选地,监控服务设备的运行相关数据,包括:
通过Prometheus组件监控服务设备的运行相关数据。
可选地,将所述业务操作信息与所述运行相关数据关联,生成事件数据库,包括:
基于kafak和flink组件,通过数据流方式实时处理,将所述业务操作信息与所述运行相关数据关联,生成事件数据库。
可选地,将所述业务操作信息与所述运行相关数据关联,生成事件数据库,包括:
根据所述业务操作信息的特定特征,将所述业务操作信息与所述运行相关数据关联;
对关联结果作聚类处理,生成事件数据库。
可选地,所述事件数据库包括如下类别:
监控告警事件、***日志事件、变更事件。
根据本发明实施例的又一方面,提供了一种基于知识图谱的服务故障检测装置,包括:
监控单元,用于监控服务设备的运行相关数据;
业务操作获取单元,用于获取用户的业务操作信息;所述业务操作信息为可形成记录的运维管理业务的操作信息;
事件数据库生成单元,用于将所述业务操作信息与所述运行相关数据关联,生成事件数据库;
知识库生成单元,用于根据所述事件数据库,生成风险事件知识库;
知识库应用单元,用于根据所述风险事件知识库和所述运行相关数据,进行服务故障诊断或者服务故障预警。
根据本发明的又一方面,提供一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行上述的基于知识图谱的服务故障检测方法。
根据本发明的又一方面,提供一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行上述的基于知识图谱的服务故障检测方法。
本发明提供的技术方案,基于知识图谱的技术,通过对各类事件进行自动学***台可自行做知识抽取与融合,并计算推理出本体之间的路径与链接,降低了知识图谱构建与应用的门槛,使得服务故障诊断的准确率将大大提高。
附图说明
附图示出了本发明的示例性实施方式,并与其说明一起用于解释本发明的原理,其中包括了这些附图以提供对本发明的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是示例性的计算设备的结构框图;
图2是根据本发明实施例的基于知识图谱的服务故障检测方法的流程示意图;
图3是根据本发明实施例的基于知识图谱的服务故障检测***的架构示意图;
图4是根据本发明实施例的基于知识图谱的服务故障检测装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是布置为实现根据本发明的基于知识图谱的服务故障检测方法的示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,***存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器106可以包括操作***120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以被配置为在操作***上由一个或者多个处理器104利用程序数据124执行指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、***接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示终端或者扬声器之类的各种外部设备进行通信。示例***接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机、服务器、由多台计算机组成的集群中的虚拟计算设备。
其中,计算设备100的一个或多个程序122包括用于执行根据本发明的一种基于知识图谱的服务故障检测方法的指令。
图2示例性示出根据本发明的一种基于知识图谱的服务故障检测方法的流程图,方法始于步骤S210。
在步骤S210中,监控服务设备的运行相关数据。
具体地,服务设备的运行相关数据包括:设备端口、网络链路、***事件、服务进程、CDM监控、电源或电压数据、风扇或温度数据、***自检信息中的一种或多种。例如,服务设备的运行相关数据可以是不同来源的服务器、路由、交换机等服务设备的运行相关数据,其中还包含服务配置、网络拓扑等信息。
随后,在步骤S220中,获取用户的业务操作信息,所述业务操作信息为可形成记录的运维管理业务的操作信息。
具体地,业务操作信息包括:资产管理***和/或IT服务管理***的故障登记处理工单、设备上/下架操作流水、机房割接、服务变更中的至少一种。
随后,在步骤S230中,将所述业务操作信息与所述运行相关数据关联,生成事件数据库。
具体地,将所述业务操作信息与所述运行相关数据关联,生成事件数据库,包括:根据所述业务操作信息的特定特征,将所述业务操作信息与所述运行相关数据关联;对关联结果作聚类处理,生成事件数据库。例如,业务操作信息中可以记录业务操作内容和对应的运行相关数据的变化,可以直接将业务操作内容和运行相关数据关联;又例如,业务操作信息中可以记录业务操作的时间信息和设备信息,可以提取业务操作的时间段内的相关设备的运行相关数据,通过时间信息将业务操作信息和运行相关数据进行关联。
进一步地,可对事件数据进行聚合分类,形成监控告警事件、***日志、变更事件等类别。其中,可通过开源监控组件Prometheus对目标进行数据监控,并通过对接kafak+flink等组件,通过数据流方式对上报数据进行实时计算并存入大数据平台,形成业务层面的各类事件数据库。
本发明实施例中,事件数据库实现了将实时的监控数据与日常业务操作行为进行事件关联,比如:当机房进行割接操作时,当前服务设备的数据状态变化情况是如何的,当服务设备宕机时,服务设备的运行数据又是如何,有了这些数据关联时,基于知识图谱的诊断模型经过大量的数据学习后,就可以基于后续的监控数据变化对故障进行诊断预测。
随后,在步骤S240中,根据所述事件数据库,生成风险事件知识库。
具体地,通过对事件数据作知识抽取、知识融合、知识计算处理,生成知识图谱。其中,知识抽取用于对管理的不同来源的服务器、路由、交换机等资源及相关的服务配置、网络拓扑等数据项进行抽取聚合与分类,形成结构化数据存入到知识图谱,可采用如D2RQ、光学字符识别(Optical Character Recognition,OCR)、自然语言处理(Natural LanguageProcessing,NLP)等工具进行实体命名识别;知识融合用于对抽取的知识进行本体对齐,消解术语、谓语、语义冲突,形成高质量的数据实体,例如,在知识融合过程中运用到EditSim等算法进行数据相似度的计算;知识计算用于对已获得的知识,经推理、预测、计算后产生新的知识,为上层知识服务的应用提供底层支持。
进一步地,知识抽取包含各类结构化、半结构化及文本数据的处理,其抽取技术包含实体抽取、术语抽取、关系抽取、事件抽取及共指消解等。
进一步地,知识融合用于将来自不同知识图谱中的同一实体进行融合,需要对等价实例、等价类/子类及等价属性/子属性等进行确认,其基本技术流程为数据预处理、分块、记录链接、结果评估及结果输出,其技术方法主要包含本体构建及管理、实体匹配、数据映射、本体融合等。
进一步地,知识计算包括本体推理、规则推理、路径计算、链接预测、不一致检测、知识表征等处理。
随后,在步骤S250中,根据所述风险事件知识库和所述运行相关数据,进行服务故障诊断或者服务故障预警。
根据本发明实施例,采用步骤S240生成的知识图谱实时对运行相关数据进行分析处理,能够及时地输出服务故障诊断结果或者进行服务故障预警,提高了运维的响应速度和工作效率。
下面结合具体实施例,对本发明技术方案作进一步地说明。
具体实施例一、本实施例提供了一种用于服务故障检测的知识图谱的构建方法,包括:
步骤1、用户配置好需要抽取的资源、配置及拓扑等信息所存放的数据源;
步骤2、知识图谱平台基于已管理的服务器资源信息、配置信息以及网络拓扑信息,从多源异构存储中经知识抽取出结构化数据存入知识图谱中;
步骤3、知识图谱平台对抽取到的数据进行知识融合,构建出等价实例、等价类/子类及等价属性/子属性等信息;
步骤4、知识图谱调用知识推理计算算法,对图谱中实体进行本体推理、规则推理,消除知识不一致性,以及相关联的路径计算及链接预测,构建出可用的,高质量的知识服务;
步骤5、用户可通过重复步骤1-步骤4,加入多类场景的知识图谱构建。
具体实施例二、本实施例提供了一个服务故障诊断的方法,包含如下步骤:
步骤1、用户基于业务要求,新增业务监控指标,主要可分为设备端口、网络链路、***事件、服务进程、CPU、内存、磁盘、电源、电压、风扇转速、温度以及***自检信息;
步骤2、由Prometheus监控平台对指标进行监控采集并上报,如表1所示;
Figure BDA0002812741010000101
表1
步骤3、大数据平台***利用kafak+flink对其采集的监控数据进行实时计算并分类,形成事件簇;
步骤4、用户接收到服务大面积无法响应的故障告警通知,登录平台客户端,发出服务故障诊断请求;
请求代码示例如下:
{
"url":"/rest/fault-diagnose",
"request_id":"090dda88-1b16-4476-8255-f0c075aaf30a",
"fault_type":"graph_serice_fault",
"fault_time":"2020-03-30 10:30:10"
}
步骤5、服务端接收到用户请求,调用知识服务对告警事件进行推理计算;
步骤6、知识服务计算分出本次故障发生的原因为某交换机网关因路由配置错误引发网络环路,导致其下挂服务器无法正常通信,服务大面积无法响应;
知识服务计算返回结果示例如下:
{
"success":"true",
"request_id":"090dda88-1b16-4476-8255-f0c075aaf30a",
"fault_reson":"switch-9028交换机路由配置错误"
}
步骤7、用户对错误配置进行修正,服务器通信正常,故障告警解除。
图3是本发明提供的基于知识图谱的服务故障检测***的架构示意图,其中包括:由知识计算、知识融合、知识抽取三个部分组成的知识图谱处理模块,对服务器集群进行数据采集的数据采集模块,以及基于采集的数据进行事件分类聚合形成事件库的事件管理模块,当服务设备发生风险事件时,本***能够基于知识图谱技术进行服务故障诊断或预警。
参见图4,本发明实施例还提供了一种基于知识图谱的服务故障检测装置,包括:
监控单元410,用于监控服务设备的运行相关数据;
业务操作获取单元420,用于获取用户的业务操作信息;所述业务操作信息为可形成记录的运维管理业务的操作信息;
事件数据库生成单元430,用于将所述业务操作信息与所述运行相关数据关联,生成事件数据库;
知识库生成单元440,用于根据所述事件数据库,生成风险事件知识库;
知识库应用单元450,用于根据所述风险事件知识库和所述运行相关数据,进行服务故障诊断或者服务故障预警。
可选地,知识库生成单元440具体用于:
根据所述事件数据库,通过知识抽取、知识融合、知识计算处理,生成风险事件知识库;
其中,知识抽取包括实体抽取、术语抽取、关系抽取、事件抽取及共指消解处理;知识融合包括本体构建、实体匹配、数据映射、本体融合处理;知识计算包括本体推理、规则推理、路径计算、链接预测、不一致检测、知识表征处理。
可选地,监控单元410具体用于:
通过Prometheus组件监控服务设备的运行相关数据。
可选地,所述事件数据库生成单元430具体用于:
基于kafak和flink组件,通过数据流方式实时处理,将所述业务操作信息与所述运行相关数据关联,生成事件数据库。
可选地,事件数据库生成单元具体用于:
根据所述业务操作信息的特定特征,将所述业务操作信息与所述运行相关数据关联;
对关联结果作聚类处理,生成事件数据库。
应当理解,这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被该机器执行时,该机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的该程序代码中的指令,执行本发明的各种方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面发明的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所发明的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中发明的所有特征以及如此发明的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中发明的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的发明是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种基于知识图谱的服务故障检测方法,其特征在于,包括:
监控服务设备的运行相关数据;
获取用户的业务操作信息;所述业务操作信息为可形成记录的运维管理业务的操作信息;
将所述业务操作信息与所述运行相关数据关联,生成事件数据库;
根据所述事件数据库,生成风险事件知识库;
根据所述风险事件知识库和所述运行相关数据,进行服务故障诊断或者服务故障预警。
2.如权利要求1所述的方法,其特征在于,所述业务操作信息,包括:
资产管理***和/或IT服务管理***的故障登记处理工单、设备上/下架操作流水、机房割接、服务变更中的至少一种。
3.如权利要求1所述的方法,其特征在于,所述运行相关数据,包括:
设备端口、网络链路、***事件、服务进程、CDM监控、电源或电压数据、风扇或温度数据、***自检信息中的一种或多种。
4.如权利要求1所述的方法,其特征在于,根据所述事件数据库,生成风险事件知识库,包括:
根据所述事件数据库,通过知识抽取、知识融合、知识计算处理,生成风险事件知识库;
其中,知识抽取包括实体抽取、术语抽取、关系抽取、事件抽取及共指消解处理;知识融合包括本体构建、实体匹配、数据映射、本体融合处理;知识计算包括本体推理、规则推理、路径计算、链接预测、不一致检测、知识表征处理。
5.如权利要求1所述的方法,其特征在于,监控服务设备的运行相关数据,包括:
通过Prometheus组件监控服务设备的运行相关数据。
6.如权利要求1所述的方法,其特征在于,将所述业务操作信息与所述运行相关数据关联,生成事件数据库,包括:
基于kafak和flink组件,通过数据流方式实时处理,将所述业务操作信息与所述运行相关数据关联,生成事件数据库。
7.如权利要求6所述的方法,其特征在于,将所述业务操作信息与所述运行相关数据关联,生成事件数据库,包括:
根据所述业务操作信息的特定特征,将所述业务操作信息与所述运行相关数据关联;
对关联结果作聚类处理,生成事件数据库。
8.一种基于知识图谱的服务故障检测装置,其特征在于,包括:
监控单元,用于监控服务设备的运行相关数据;
业务操作获取单元,用于获取用户的业务操作信息;所述业务操作信息为可形成记录的运维管理业务的操作信息;
事件数据库生成单元,用于将所述业务操作信息与所述运行相关数据关联,生成事件数据库;
知识库生成单元,用于根据所述事件数据库,生成风险事件知识库;
知识库应用单元,用于根据所述风险事件知识库和所述运行相关数据,进行服务故障诊断或者服务故障预警。
9.一种可读存储介质,其特征在于,其上具有可执行指令,当可执行指令被执行时,使得计算机执行如权利要求1-7中的任一项所述的方法。
10.一种计算设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行如权利要求1-7中的任一项所述的方法。
CN202011401802.5A 2020-12-02 2020-12-02 一种基于知识图谱的服务故障检测方法及装置 Pending CN112583640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011401802.5A CN112583640A (zh) 2020-12-02 2020-12-02 一种基于知识图谱的服务故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011401802.5A CN112583640A (zh) 2020-12-02 2020-12-02 一种基于知识图谱的服务故障检测方法及装置

Publications (1)

Publication Number Publication Date
CN112583640A true CN112583640A (zh) 2021-03-30

Family

ID=75128279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011401802.5A Pending CN112583640A (zh) 2020-12-02 2020-12-02 一种基于知识图谱的服务故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN112583640A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801426A (zh) * 2021-04-06 2021-05-14 浙江浙能技术研究院有限公司 一种基于关联参数挖掘的工业过程故障融合预测方法
CN114363149A (zh) * 2021-12-23 2022-04-15 上海哔哩哔哩科技有限公司 故障处理方法及装置
CN114867052A (zh) * 2022-06-10 2022-08-05 中国电信股份有限公司 无线网络故障诊断方法、装置、电子设备和介质
CN114978946A (zh) * 2022-05-17 2022-08-30 中国电信股份有限公司 节点故障诊断方法、装置、电子设备及存储介质
CN116054910A (zh) * 2022-12-20 2023-05-02 中国人民解放军63819部队 基于知识图谱构建的地球站设备故障分析及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006186633A (ja) * 2004-12-27 2006-07-13 Hitachi Ltd 障害経路診断システム、障害経路診断方法、および障害経路診断プログラム
CN107171819A (zh) * 2016-03-07 2017-09-15 北京华为数字技术有限公司 一种网络故障诊断方法及装置
CN107592223A (zh) * 2017-09-11 2018-01-16 北京富通东方科技有限公司 一种基于大数据的智能告警处理方法
CN110110870A (zh) * 2019-06-05 2019-08-09 厦门邑通软件科技有限公司 一种基于事件图谱技术的设备故障智能监控方法
CN110708204A (zh) * 2019-11-18 2020-01-17 上海维谛信息科技有限公司 一种基于运维知识库的异常处理方法、***、终端及介质
CN110955575A (zh) * 2019-11-14 2020-04-03 国网浙江省电力有限公司信息通信分公司 一种基于关联分析模型的业务***故障定位方法
CN111177400A (zh) * 2019-12-05 2020-05-19 国网能源研究院有限公司 基于知识图谱的设备、业务及数据的关联显示方法和装置
CN111709527A (zh) * 2020-06-15 2020-09-25 北京优特捷信息技术有限公司 运维知识图谱库的建立方法、装置、设备及存储介质
CN111722058A (zh) * 2020-06-17 2020-09-29 国网甘肃省电力公司信息通信公司 基于知识图谱的电力信息***故障检测方法、装置及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006186633A (ja) * 2004-12-27 2006-07-13 Hitachi Ltd 障害経路診断システム、障害経路診断方法、および障害経路診断プログラム
CN107171819A (zh) * 2016-03-07 2017-09-15 北京华为数字技术有限公司 一种网络故障诊断方法及装置
CN107592223A (zh) * 2017-09-11 2018-01-16 北京富通东方科技有限公司 一种基于大数据的智能告警处理方法
CN110110870A (zh) * 2019-06-05 2019-08-09 厦门邑通软件科技有限公司 一种基于事件图谱技术的设备故障智能监控方法
CN110955575A (zh) * 2019-11-14 2020-04-03 国网浙江省电力有限公司信息通信分公司 一种基于关联分析模型的业务***故障定位方法
CN110708204A (zh) * 2019-11-18 2020-01-17 上海维谛信息科技有限公司 一种基于运维知识库的异常处理方法、***、终端及介质
CN111177400A (zh) * 2019-12-05 2020-05-19 国网能源研究院有限公司 基于知识图谱的设备、业务及数据的关联显示方法和装置
CN111709527A (zh) * 2020-06-15 2020-09-25 北京优特捷信息技术有限公司 运维知识图谱库的建立方法、装置、设备及存储介质
CN111722058A (zh) * 2020-06-17 2020-09-29 国网甘肃省电力公司信息通信公司 基于知识图谱的电力信息***故障检测方法、装置及介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801426A (zh) * 2021-04-06 2021-05-14 浙江浙能技术研究院有限公司 一种基于关联参数挖掘的工业过程故障融合预测方法
CN114363149A (zh) * 2021-12-23 2022-04-15 上海哔哩哔哩科技有限公司 故障处理方法及装置
CN114363149B (zh) * 2021-12-23 2023-12-26 上海哔哩哔哩科技有限公司 故障处理方法及装置
CN114978946A (zh) * 2022-05-17 2022-08-30 中国电信股份有限公司 节点故障诊断方法、装置、电子设备及存储介质
CN114978946B (zh) * 2022-05-17 2023-10-03 中国电信股份有限公司 节点故障诊断方法、装置、电子设备及存储介质
CN114867052A (zh) * 2022-06-10 2022-08-05 中国电信股份有限公司 无线网络故障诊断方法、装置、电子设备和介质
CN114867052B (zh) * 2022-06-10 2023-11-07 中国电信股份有限公司 无线网络故障诊断方法、装置、电子设备和介质
CN116054910A (zh) * 2022-12-20 2023-05-02 中国人民解放军63819部队 基于知识图谱构建的地球站设备故障分析及装置
CN116054910B (zh) * 2022-12-20 2024-05-14 中国人民解放军63819部队 基于知识图谱构建的地球站设备故障分析及装置

Similar Documents

Publication Publication Date Title
CN112583640A (zh) 一种基于知识图谱的服务故障检测方法及装置
US11562304B2 (en) Preventative diagnosis prediction and solution determination of future event using internet of things and artificial intelligence
CN111930547B (zh) 一种故障定位方法、装置及存储介质
US9317829B2 (en) Diagnosing incidents for information technology service management
US20170109657A1 (en) Machine Learning-Based Model for Identifying Executions of a Business Process
US20170109676A1 (en) Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process
JP6643211B2 (ja) 異常検知システム及び異常検知方法
US20210224676A1 (en) Systems and methods for distributed incident classification and routing
US8626835B1 (en) Social identity clustering
Hasan et al. A machine learning approach to sparql query performance prediction
US8489441B1 (en) Quality of records containing service data
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
CN112165462A (zh) 基于画像的攻击预测方法、装置、电子设备及存储介质
US20170109639A1 (en) General Model for Linking Between Nonconsecutively Performed Steps in Business Processes
CN103513983A (zh) 用于预测性警报阈值确定工具的方法和***
Zhong et al. Multiple-aspect attentional graph neural networks for online social network user localization
CN113254833A (zh) 一种基于产教融合的信息推送的方法及服务***
CN115203435A (zh) 基于知识图谱的实体关系生成方法及数据查询方法
US20220329608A1 (en) Systems and methods for intelligently constructing a backbone network graph and identifying and mitigating digital threats based thereon in a machine learning task-oriented digital threat mitigation platform
CN115221337A (zh) 数据编织处理方法、装置、电子设备及可读存储介质
US20170109640A1 (en) Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process
CN114463072A (zh) 基于业务需求ai预测的电商服务优化方法及大数据***
CN114331698A (zh) 风险画像的生成方法、装置、终端及存储介质
WO2022018626A1 (en) Cross-environment event correlation using domain-space exploration and machine learning techniques
Zhu et al. An intelligent collaboration framework of IoT applications based on event logic graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination