CN110955550A - 一种云平台故障定位方法、装置、设备及存储介质 - Google Patents

一种云平台故障定位方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110955550A
CN110955550A CN201911161223.5A CN201911161223A CN110955550A CN 110955550 A CN110955550 A CN 110955550A CN 201911161223 A CN201911161223 A CN 201911161223A CN 110955550 A CN110955550 A CN 110955550A
Authority
CN
China
Prior art keywords
fault
knowledge
knowledge base
description information
cloud platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911161223.5A
Other languages
English (en)
Other versions
CN110955550B (zh
Inventor
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Jinan data Technology Co ltd
Original Assignee
Inspur Jinan data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Jinan data Technology Co ltd filed Critical Inspur Jinan data Technology Co ltd
Priority to CN201911161223.5A priority Critical patent/CN110955550B/zh
Publication of CN110955550A publication Critical patent/CN110955550A/zh
Application granted granted Critical
Publication of CN110955550B publication Critical patent/CN110955550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种云平台故障定位方法,该方法包括以下步骤:在云平台出现故障时,获得故障描述信息;在数据库中查找是否存在与故障描述信息对应的故障原因,数据库中记录结构化故障数据;如果在数据库中没有查找到,则基于故障描述信息在知识库中进行检索,知识库中包含多维度故障知识;如果在知识库中检索到,则输出检索到的故障原因。应用本申请实施例所提供的技术方案,有助于快速、准确地定位故障原因,以便及时进行故障处理,避免影响云平台的业务处理。本申请还公开了一种云平台故障定位装置、设备及存储介质,具有相应技术效果。

Description

一种云平台故障定位方法、装置、设备及存储介质
技术领域
本申请涉及计算机应用技术领域,特别是涉及一种云平台故障定位方法、装置、设备及存储介质。
背景技术
随着计算机技术和云计算技术的快速发展,云平台的应用越来越广泛,云平台逐渐向自动化、集成化、复杂化和智能化方向发展。由于云平台的规模日益庞大,业务逻辑日益复杂,使得云平台在运行过程中,故障发生频率越来越高。
当云平台发生故障时,目前多是通过人工进行分析并定位故障原因。
这样,不仅需要占用较多的人力资源,而且,过多依赖于人员经验,容易产生错误定位,而且定位时间较长,容易影响云平台的业务处理。
发明内容
本申请的目的是提供一种云平台故障定位方法、装置、设备及存储介质,以在云平台发生故障时,快速、准确定位故障原因,避免影响云平台的业务处理。
为解决上述技术问题,本申请提供如下技术方案:
一种云平台故障定位方法,包括:
在云平台出现故障时,获得故障描述信息;
在数据库中查找是否存在与所述故障描述信息对应的故障原因,所述数据库中记录有结构化故障数据;
如果在所述数据库中没有查找到,则基于所述故障描述信息在知识库中进行检索,所述知识库中包含多维度故障知识;
如果在所述知识库中检索到,则输出检索到的故障原因。
在本申请的一种具体实施方式中,在所述基于所述故障描述信息在知识库中进行检索之后,还包括:
如果在所述知识库中未检索到,则输出提示信息,以使用户根据所述提示信息进行问题排查,确定故障原因;
在获得确定的故障原因后,基于所述故障描述信息和确定的故障原因,更新所述知识库。
在本申请的一种具体实施方式中,所述输出故障原因,包括:
将检索到的故障原因翻译成用户可识别语言后,输出翻译后的故障原因。
在本申请的一种具体实施方式中,通过以下步骤预先构建所述知识库:
根据所述云平台的拓扑结构,构建节点与节点之间、节点与服务之间、服务与服务之间的知识图谱;
在历史日志数据中抽取故障知识;
将抽取到的故障知识表示成三元组形式;
通过实体对齐将三元组形式的故障知识融合到所述知识图谱中,获得知识库。
在本申请的一种具体实施方式中,所述在历史日志数据中抽取故障知识,包括:
在历史日志数据中进行实体识别;
基于实体之间的关系,在所述历史日志数据中进行实体之间的关系抽取,获得故障知识。
在本申请的一种具体实施方式中,所述通过实体对齐将三元组形式的故障知识融合到所述知识图谱中,包括:
基于实体相似度和关系相似度,将三元组形式的故障知识中的实体和所述知识图谱中的实体进行对齐。
在本申请的一种具体实施方式中,所述基于所述故障描述信息在知识库中进行检索,包括:
基于所述故障描述信息,在知识库中确定所述故障描述信息与实体之间的关系相似度;
根据所述关系相似度,确定在所述知识库中是否检索到故障原因。
一种云平台故障定位装置,包括:
信息获得模块,用于在云平台出现故障时,获得故障描述信息;
数据库查找模块,用于在数据库中查找是否存在与所述故障描述信息对应的故障原因,所述数据库中记录有结构化故障数据;
知识库检索模块,用于如果在所述数据库中没有查找到,则基于所述故障描述信息在知识库中进行检索,所述知识库中包含多维度故障知识;
故障原因输出模块,用于如果在所述知识库中检索到,则输出检索到的故障原因。
一种云平台故障定位设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一项所述云平台故障定位方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述云平台故障定位方法的步骤。
应用本申请实施例所提供的技术方案,在云平台出现故障时,获得故障描述信息,先在数据库中查找是否存在与故障描述信息对应的故障原因,数据库中记录有结构化故障数据,如果在数据库中没有查找到,则基于故障描述信息在知识库中进行检索,知识库中包含多维度故障知识,如果在知识库中检索到,则输出检索到的故障原因。通过构建包含比数据库中更加全面的故障知识的知识库,在有故障发生时,先在数据库中查找,如果没有查找到则到知识库中进一步检索,有助于快速、准确地定位故障原因,以便及时进行故障处理,避免影响云平台的业务处理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种云平台故障定位方法的实施流程图;
图2为本申请实施例中一种知识库构建流程示意图;
图3为本申请实施例中一种云平台故障定位装置的结构示意图;
图4为本申请实施例中一种云平台故障定位设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1所示,为本申请实施例所提供的一种云平台故障定位方法的实施流程图,该方法可以包括以下步骤:
S110:在云平台出现故障时,获得故障描述信息。
在实际应用中,云平台在正常运行,进行业务处理过程中,可能会出现故障,如数据存储报错、无法进行数据处理等。
在云平台出现故障时,可以获得故障描述信息,该故障描述信息可以是用户基于当前发生的故障输入的信息,还可以是在监测到云平台出现故障时自动生成的信息。故障描述信息即为对当前发生的故障进行描述的信息,如上面所说的数据存储报错、无法进行数据处理等。
S120:在数据库中查找是否存在与故障描述信息对应的故障原因。
数据库中记录有结构化故障数据。
在本申请实施例中,在明确故障时,可以将故障数据,如故障原因和故障描述信息记录到数据库中。即数据库中记录有多条故障数据。这些故障数据对应的故障属于常见故障类型。
在获得故障描述信息后,可以在数据库中查找是否存在与故障描述信息对应的故障原因。具体的,可以将获得故障描述信息与数据库中记录的故障描述信息进行对比,根据信息相似度确定数据库中哪个故障描述信息与之匹配,如果查找到,则可以输出数据库中该故障描述信息对应的故障原因。
S130:如果在数据库中没有查找到,则基于故障描述信息在知识库中进行检索。
知识库中包含多维度故障知识。
在本申请实施例中,可以预先构建一个知识库,该知识库中包含多维度故障知识,其所包含的故障知识相较于数据库中记录的故障信息规模更大、更加全面。如可包含故障发生的时间、故障涉及到的节点、服务、故障描述信息等多种维度的知识,属于更复杂的故障类型。
也就是说,知识库中不仅包含节点与节点、节点与服务、服务与服务之间的关联关系,还包含发生故障的时间、故障类型、故障信息之间的关联关系。知识库就是将可收集到的信息进行整合,更完整、更庞大。
在数据库中查找是否存在与故障描述信息对应的故障原因,如果在数据库中没有查找到,则可以基于故障描述信息在知识库中进行进一步检索。确定能否检索到。
S140:如果在知识库中检索到,则输出检索到的故障原因。
基于故障描述信息在知识库中进行检索,知识库中包含的故障知识相较于数据库更加全面,如果在知识库中检索到,则可以输出检索到的故障原因。以便基于该故障原因进行故障处理。
本申请实施例中的故障数据本身是被感知的,是通过已发生故障的记录统计出来的,而故障知识是经过大数据分析,获得某些实体之间的关联关系,从而提取出的知识。数据库和知识库为存放不同内容的载体,数据库中存放的是故障数据,知识库中存放的是故障知识。
应用本申请实施例所提供的方法,在云平台出现故障时,获得故障描述信息,先在数据库中查找是否存在与故障描述信息对应的故障原因,数据库中记录有结构化故障数据,如果在数据库中没有查找到,则基于故障描述信息在知识库中进行检索,知识库中包含多维度故障知识,如果在知识库中检索到,则输出检索到的故障原因。通过构建包含比数据库中更加全面的故障知识的知识库,在有故障发生时,先在数据库中查找,如果没有查找到则到知识库中进一步检索,有助于快速、准确地定位故障原因,以便及时进行故障处理,避免影响云平台的业务处理。
在本申请的一个实施例中,在基于故障描述信息在知识库中进行检索之后,还包括以下步骤:
步骤一:如果在知识库中未检索到,则输出提示信息,以使用户根据提示信息进行问题排查,确定故障原因;
步骤二:在获得确定的故障原因后,基于故障描述信息和确定的故障原因,更新知识库。
在本申请实施例中,在基于故障描述信息在知识库中进行检索,如果未检索到,则可以输出提示信息,表明当前在数据库和知识库中均未查找到与该故障描述信息对应的故障原因。在这种情况下,用户可以根据该提示信息主动进行问题排查,进行故障诊断,确定故障原因。
在获得确定的故障原因后,可以基于故障描述信息和确定的故障原因,更新知识库,将故障描述原因和确定的故障原因融合到知识库中,更新故障知识。以便知识库中的故障知识越来越丰富,为后续进行故障定位提供依据。
在本申请的一个实施例中,在输出故障原因时,可以将检索到的故障原因翻译成用户可识别语言后,输出翻译后的故障原因。
在本申请实施例中,如果在知识库中检索到故障原因,则可以将检索到的故障原因翻译成用户可识别语言,再将翻译后的故障原因输出出来,这样便于用户查看,节省用户故障处理时间。
在本申请的一个实施例中,可以通过以下步骤预先构建知识库:
步骤一:根据云平台的拓扑结构,构建节点与节点之间、节点与服务之间、服务与服务之间的知识图谱;
步骤二:在历史日志数据中抽取故障知识;
步骤三:将抽取到的故障知识表示成三元组形式;
步骤四:通过实体对齐将三元组形式的故障知识融合到知识图谱中,获得知识库。
为便于描述,将上述四个步骤结合起来进行说明。
本申请实施例从节点与节点之间,节点与服务之间,服务与服务之间三个维度构建多模态知识图谱形式的知识库。
如图2所示,首先根据云平台的拓扑结构,构建节点与节点之间、节点与服务之间、服务与服务之间的知识图谱。
然后进行知识提取。在日志***中获取历史日志数据,历史日志数据包括半结构化数据和非结构化数据,在历史日志数据中抽取故障知识。具体的,可以在历史日志数据中进行实体识别,如使用biLSTM-CRF模型来进行实体识别,在历史日志数据中识别出节点、服务、时间戳、错误级别等信息。基于实体之间的关系,在历史日志数据中进行实体之间的关系抽取,如采用Bootstrapping方法进行实体之间的关系抽取,获得故障知识。实体之间的关系也就是服务何时在节点上发生故障、故障等级如何、故障信息为何等。比如,实体为两个应用,应用1和应用2,这两个应用之间连接异常,报错,通过查看报错的应用1,可以得到具体的报错原因。
抽取到故障知识后,进行知识表示,将抽取到的故障知识表示成三元组形式,三元组形式为(subject,predicate,object)。其中,subject为主体,predicate为关系,object为客体。举例而言,如果三元组形式为:主体:应用1,关系:连接异常,客体:应用2,所表示的故障知识为:主体应用1和客体应用2之间有连接异常的错误关系。
通过实体对齐可以将三元组形式的故障知识融合到知识图谱中,获得知识库。具体的,可以基于实体相似度和关系相似度,将三元组形式的故障知识中的实体和知识图谱中的实体进行对齐。相似度的计算可以采用皮尔逊相关系数的方法进行。
举例而言,假设知识图谱中有一个实体,为应用1,当前抽取到的实体为应用2,如果要将抽取到的实体应用2对齐到知识图谱,则可以用相似度来衡量应用1和应用2之间的相似程度。
通过知识抽取、知识表示、知识融合等最终构建得到的知识库为多模态知识图谱形式。基于知识图谱可进行知识推理,再使用知识推理结果丰富知识图谱。
在本申请的一个实施例中,步骤S130可以包括以下步骤:
第一个步骤:基于故障描述信息,在知识库中确定故障描述信息与实体之间的关系相似度;
第二个步骤:根据关系相似度,确定在知识库中是否检索到故障原因。
在本申请实施例中,当云平台出现故障时,首先在数据库中查找是否存在与故障描述信息匹配的故障,若存在相同故障,则输出故障原因,若不存在,则使用知识库进行检索。在使用知识库进行检索时,基于故障描述信息,在知识库中寻找故障描述信息与实体之间的关系相似度,确定关系相似度高于预设相似度阈值的三元组进行推断故障原因,确定能否在知识库中检索到故障原因。
可以理解的是,当云平台发生故障时,可以知晓的是哪个实体出现了故障,具体发生的什么故障,构成一种关系。将这种关系与知识库中的关系进行比较,可以得到关系相似度。如果高于预设相似度阈值,则认为有可能是因为这个故障原因导致的故障。关系相似度可通过皮尔逊相关系数的公式求得。
本申请实施例在云平台出现故障时,可以快速进行诊断并定位故障原因,保证了故障定位的时效性和准确性,可以有效减少因误操作带来的损失。
相应于上面的方法实施例,本申请实施例还提供了一种云平台故障定位装置,下文描述的一种云平台故障定位装置与上文描述的一种云平台故障定位方法可相互对应参照。
参见图3所示,该装置包括以下模块:
信息获得模块310,用于在云平台出现故障时,获得故障描述信息;
数据库查找模块320,用于在数据库中查找是否存在与故障描述信息对应的故障原因,数据库中记录有结构化故障数据;
知识库检索模块330,用于如果在数据库中没有查找到,则基于故障描述信息在知识库中进行检索,知识库中包含多维度故障知识;
故障原因输出模块340,用于如果在知识库中检索到,则输出检索到的故障原因。
应用本申请实施例所提供的装置,在云平台出现故障时,获得故障描述信息,先在数据库中查找是否存在与故障描述信息对应的故障原因,数据库中记录有结构化故障数据,如果在数据库中没有查找到,则基于故障描述信息在知识库中进行检索,知识库中包含多维度故障知识,如果在知识库中检索到,则输出检索到的故障原因。通过构建包含比数据库中更加全面的故障知识的知识库,在有故障发生时,先在数据库中查找,如果没有查找到则到知识库中进一步检索,有助于快速、准确地定位故障原因,以便及时进行故障处理,避免影响云平台的业务处理。
在本申请的一种具体实施方式中,还包括知识库更新模块,用于:
在基于故障描述信息在知识库中进行检索之后,如果在知识库中未检索到,则输出提示信息,以使用户根据提示信息进行问题排查,确定故障原因;
在获得确定的故障原因后,基于故障描述信息和确定的故障原因,更新知识库。
在本申请的一种具体实施方式中,故障原因输出模块340,具体用于:
将检索到的故障原因翻译成用户可识别语言后,输出翻译后的故障原因。
在本申请的一种具体实施方式中,还包括知识库构建模块,用于通过以下步骤预先构建知识库:
根据云平台的拓扑结构,构建节点与节点之间、节点与服务之间、服务与服务之间的知识图谱;
在历史日志数据中抽取故障知识;
将抽取到的故障知识表示成三元组形式;
通过实体对齐将三元组形式的故障知识融合到知识图谱中,获得知识库。
在本申请的一种具体实施方式中,知识库构建模块,具体用于:
在历史日志数据中进行实体识别;
基于实体之间的关系,在历史日志数据中进行实体之间的关系抽取,获得故障知识。
在本申请的一种具体实施方式中,知识库构建模块,具体用于:
基于实体相似度和关系相似度,将三元组形式的故障知识中的实体和知识图谱中的实体进行对齐。
在本申请的一种具体实施方式中,知识库检索模块330,具体用于:
基于故障描述信息,在知识库中确定故障描述信息与实体之间的关系相似度;
根据关系相似度,确定在知识库中是否检索到故障原因。
相应于上面的方法实施例,本申请实施例还提供了一种云平台故障定位设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现上述云平台故障定位方法的步骤。
如图4所示,为云平台故障定位设备的组成结构示意图,云平台故障定位设备可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
在本申请实施例中,处理器10可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行云平台故障定位方法的实施例中的操作。
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,存储器11中至少存储有用于实现以下功能的程序:
在云平台出现故障时,获得故障描述信息;
在数据库中查找是否存在与故障描述信息对应的故障原因,数据库中记录有结构化故障数据;
如果在数据库中没有查找到,则基于故障描述信息在知识库中进行检索,知识库中包含多维度故障知识;
如果在知识库中检索到,则输出检索到的故障原因。
在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作***,以及至少一个功能(比如声音播放功能、图像播放功能)所需的应用程序等;存储数据区可存储使用过程中所创建的数据,如故障数据、检索结果数据等。
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
通信接口13可以为通信模块的接口,用于与其他设备或者***连接。
当然,需要说明的是,图4所示的结构并不构成对本申请实施例中云平台故障定位设备的限定,在实际应用中云平台故障定位设备可以包括比图4所示的更多或更少的部件,或者组合某些部件。
相应于上面的方法实施例,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述云平台故障定位方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种云平台故障定位方法,其特征在于,包括:
在云平台出现故障时,获得故障描述信息;
在数据库中查找是否存在与所述故障描述信息对应的故障原因,所述数据库中记录有结构化故障数据;
如果在所述数据库中没有查找到,则基于所述故障描述信息在知识库中进行检索,所述知识库中包含多维度故障知识;
如果在所述知识库中检索到,则输出检索到的故障原因。
2.根据权利要求1所述的方法,其特征在于,在所述基于所述故障描述信息在知识库中进行检索之后,还包括:
如果在所述知识库中未检索到,则输出提示信息,以使用户根据所述提示信息进行问题排查,确定故障原因;
在获得确定的故障原因后,基于所述故障描述信息和确定的故障原因,更新所述知识库。
3.根据权利要求1所述的方法,其特征在于,所述输出故障原因,包括:
将检索到的故障原因翻译成用户可识别语言后,输出翻译后的故障原因。
4.根据权利要求1至3之中任一项所述的方法,其特征在于,通过以下步骤预先构建所述知识库:
根据所述云平台的拓扑结构,构建节点与节点之间、节点与服务之间、服务与服务之间的知识图谱;
在历史日志数据中抽取故障知识;
将抽取到的故障知识表示成三元组形式;
通过实体对齐将三元组形式的故障知识融合到所述知识图谱中,获得知识库。
5.根据权利要求4所述的方法,其特征在于,所述在历史日志数据中抽取故障知识,包括:
在历史日志数据中进行实体识别;
基于实体之间的关系,在所述历史日志数据中进行实体之间的关系抽取,获得故障知识。
6.根据权利要求4所述的方法,其特征在于,所述通过实体对齐将三元组形式的故障知识融合到所述知识图谱中,包括:
基于实体相似度和关系相似度,将三元组形式的故障知识中的实体和所述知识图谱中的实体进行对齐。
7.根据权利要求4所述的方法,其特征在于,所述基于所述故障描述信息在知识库中进行检索,包括:
基于所述故障描述信息,在知识库中确定所述故障描述信息与实体之间的关系相似度;
根据所述关系相似度,确定在所述知识库中是否检索到故障原因。
8.一种云平台故障定位装置,其特征在于,包括:
信息获得模块,用于在云平台出现故障时,获得故障描述信息;
数据库查找模块,用于在数据库中查找是否存在与所述故障描述信息对应的故障原因,所述数据库中记录有结构化故障数据;
知识库检索模块,用于如果在所述数据库中没有查找到,则基于所述故障描述信息在知识库中进行检索,所述知识库中包含多维度故障知识;
故障原因输出模块,用于如果在所述知识库中检索到,则输出检索到的故障原因。
9.一种云平台故障定位设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述云平台故障定位方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述云平台故障定位方法的步骤。
CN201911161223.5A 2019-11-24 2019-11-24 一种云平台故障定位方法、装置、设备及存储介质 Active CN110955550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911161223.5A CN110955550B (zh) 2019-11-24 2019-11-24 一种云平台故障定位方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911161223.5A CN110955550B (zh) 2019-11-24 2019-11-24 一种云平台故障定位方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110955550A true CN110955550A (zh) 2020-04-03
CN110955550B CN110955550B (zh) 2022-07-08

Family

ID=69976830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911161223.5A Active CN110955550B (zh) 2019-11-24 2019-11-24 一种云平台故障定位方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110955550B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111580495A (zh) * 2020-04-29 2020-08-25 北京绪水互联科技有限公司 一种用于医疗器械的远程故障处理方法、装置和***
CN111680027A (zh) * 2020-06-08 2020-09-18 赛特斯信息科技股份有限公司 基于知识驱动实现智能云管理的方法及其***
CN112052296A (zh) * 2020-08-24 2020-12-08 中国水电工程顾问集团有限公司 一种风电故障诊断知识库构建方法
CN112148887A (zh) * 2020-09-16 2020-12-29 珠海格力电器股份有限公司 设备故障诊断方法、装置、存储介质和电子设备
CN112804079A (zh) * 2020-12-10 2021-05-14 北京浪潮数据技术有限公司 云计算平台告警分析方法、装置、设备及存储介质
CN114676860A (zh) * 2022-03-29 2022-06-28 东风汽车集团股份有限公司 一种发动机故障分析方法及装置、存储介质
CN115687580A (zh) * 2022-09-22 2023-02-03 广州视嵘信息技术有限公司 搜索提醒补全的生成和重排序方法、装置、设备及介质
CN116414999A (zh) * 2022-12-01 2023-07-11 北京首都在线科技股份有限公司 基于知识图谱的管理方法、装置、电子设备及存储介质
CN116643906A (zh) * 2023-06-01 2023-08-25 北京首都在线科技股份有限公司 云平台故障的处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0746755A (ja) * 1993-08-05 1995-02-14 Meidensha Corp 一次変電所の事故判定方法
CN104954181A (zh) * 2015-06-08 2015-09-30 北京集奥聚合网络技术有限公司 一种分布式集群设备故障预警方法
CN106503439A (zh) * 2016-10-21 2017-03-15 国网福建省电力有限公司 一种基于数据挖掘的采集故障预警***的方法
CN107341068A (zh) * 2017-06-28 2017-11-10 北京优特捷信息技术有限公司 通过自然语言处理进行运维排障的方法和装置
CN108452526A (zh) * 2017-11-28 2018-08-28 腾讯科技(上海)有限公司 游戏故障原因的查询方法和装置、存储介质、电子装置
CN109711062A (zh) * 2018-12-28 2019-05-03 广东电网有限责任公司 一种基于云服务的设备故障诊断方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0746755A (ja) * 1993-08-05 1995-02-14 Meidensha Corp 一次変電所の事故判定方法
CN104954181A (zh) * 2015-06-08 2015-09-30 北京集奥聚合网络技术有限公司 一种分布式集群设备故障预警方法
CN106503439A (zh) * 2016-10-21 2017-03-15 国网福建省电力有限公司 一种基于数据挖掘的采集故障预警***的方法
CN107341068A (zh) * 2017-06-28 2017-11-10 北京优特捷信息技术有限公司 通过自然语言处理进行运维排障的方法和装置
CN108452526A (zh) * 2017-11-28 2018-08-28 腾讯科技(上海)有限公司 游戏故障原因的查询方法和装置、存储介质、电子装置
CN109711062A (zh) * 2018-12-28 2019-05-03 广东电网有限责任公司 一种基于云服务的设备故障诊断方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHUNLIN LI ET AL: "Energy-efficient fault-tolerant replica management policy with deadline and budget constraints in edge-cloud environment", 《JOURNAL OF NETWORK AND COMPUTER APPLICATIONS》 *
李嘉伟等: "基于软件定义网络的网络故障诊断方法研究", 《网络与信息安全学报》 *
闫新河: "云计算下自主诊断与自我修复研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111580495A (zh) * 2020-04-29 2020-08-25 北京绪水互联科技有限公司 一种用于医疗器械的远程故障处理方法、装置和***
CN111680027A (zh) * 2020-06-08 2020-09-18 赛特斯信息科技股份有限公司 基于知识驱动实现智能云管理的方法及其***
CN112052296A (zh) * 2020-08-24 2020-12-08 中国水电工程顾问集团有限公司 一种风电故障诊断知识库构建方法
CN112052296B (zh) * 2020-08-24 2024-01-09 中国水电工程顾问集团有限公司 一种风电故障诊断知识库构建方法
CN112148887A (zh) * 2020-09-16 2020-12-29 珠海格力电器股份有限公司 设备故障诊断方法、装置、存储介质和电子设备
CN112148887B (zh) * 2020-09-16 2024-05-03 珠海格力电器股份有限公司 设备故障诊断方法、装置、存储介质和电子设备
CN112804079A (zh) * 2020-12-10 2021-05-14 北京浪潮数据技术有限公司 云计算平台告警分析方法、装置、设备及存储介质
CN114676860A (zh) * 2022-03-29 2022-06-28 东风汽车集团股份有限公司 一种发动机故障分析方法及装置、存储介质
CN115687580A (zh) * 2022-09-22 2023-02-03 广州视嵘信息技术有限公司 搜索提醒补全的生成和重排序方法、装置、设备及介质
CN116414999A (zh) * 2022-12-01 2023-07-11 北京首都在线科技股份有限公司 基于知识图谱的管理方法、装置、电子设备及存储介质
CN116643906A (zh) * 2023-06-01 2023-08-25 北京首都在线科技股份有限公司 云平台故障的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110955550B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN110955550B (zh) 一种云平台故障定位方法、装置、设备及存储介质
CN106656536B (zh) 一种用于处理服务调用信息的方法与设备
CN110661659B (zh) 一种告警方法、装置、***及电子设备
CN112631913B (zh) 应用程序的运行故障监控方法、装置、设备和存储介质
CN113391943B (zh) 一种基于因果推断的微服务故障根因定位方法及装置
CN107124289B (zh) 网络日志时间对齐方法、装置及主机
EP3413512A1 (en) Alarm information processing method, apparatus and system, and computer storage medium
CN110088744B (zh) 一种数据库维护方法及其***
CN111722952A (zh) 业务***的故障分析方法、***、设备和存储介质
CN110515758B (zh) 一种故障定位方法、装置、计算机设备及存储介质
CN111314158B (zh) 大数据平台监控方法、装置及设备、介质
CN113157536A (zh) 一种告警分析方法、装置、设备和存储介质
CN116049146A (zh) 一种数据库故障处理方法、装置、设备及存储介质
CN112966056B (zh) 一种信息处理方法、装置、设备、***及可读存储介质
CN111767213A (zh) 数据库检查点的测试方法、装置、电子设备及存储介质
CN111324516A (zh) 自动记录异常事件的方法及装置、存储介质、电子设备
CN112579383A (zh) 模拟***故障的方法及装置
CN113626236B (zh) 一种分布式文件***的故障诊断方法、装置、设备及介质
CN115766402A (zh) 服务器故障根因的过滤方法和装置、存储介质及电子装置
CN115767601A (zh) 一种基于多维数据的5gc网元自动化纳管方法及装置
CN115185778A (zh) 数据库的监控方法及装置
CN111694752B (zh) 应用测试方法、电子设备及存储介质
CN113037521B (zh) 识别通讯设备状态的方法、通讯***及存储介质
CN114500249A (zh) 一种根因定位方法和装置
CN111953544B (zh) 一种服务器的故障检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant