WO2016188279A1

WO2016188279A1 - 一种故障谱的生成、基于故障谱的检测方法和装置

Info

Publication number: WO2016188279A1
Application number: PCT/CN2016/080015
Authority: WO
Inventors: 刘迅
Original assignee: 阿里巴巴集团控股有限公司; 刘迅
Priority date: 2015-05-25
Filing date: 2016-04-22
Publication date: 2016-12-01
Also published as: CN106294038A; CN106294038B

Abstract

一种故障谱的生成、基于故障谱的检测方法和装置，该生成方法包括：获取一个或多个类别的第一工单数据(101)；每个第一工单数据中包括故障信息与检测信息；针对每类第一工单数据，从所述检测信息中提取公共特征词，作为特征向量(102)；针对每类第一工单数据，学习所述故障信息与所述特征向量之间的逻辑关系，获得每类故障谱模型(103)；对每类故障谱模型进行修剪处理，获得每类故障谱(104)。通过建立故障谱，使得后续检测时支持并发依据该一个或多个检测路径进行检测，减少了检测耗时，提高检测的效率，同时，应用故障谱的检测操作简单，大大减少了人工参与的频次，减少用户精力的耗费。

Description

一种故障谱的生成、基于故障谱的检测方法和装置

技术领域

本申请涉及计算机的技术领域，特别是涉及一种故障谱的生成方法、一种基于故障谱的检测方法、一种故障谱的生成装置和一种基于故障谱的检测装置。

背景技术

随着科技的快速发展，各种产品，如虚拟主机、云平台等等，广泛进入人们的生活、学习、工作等领域。

通常，在产品出现故障时，用户会向工单***提交工单，进行检测、维护，进而解决故障。

现有的工单***主要由两个子***组成：自主解答***和客服解答***。

在工单***中，用户需要自己查阅帮助中心文档或根据向导提示来解决故障。

由于用户需要根据文档或提示一步一步操作排查，即串行排查，耗费较多的时间，故障检测的速度慢；并且，工单***所累积的技术文档一般数量很多，操作复杂，需要耗费用户大量的精力；此外，阅读技术文档需要多需要对领域内的知识有积累，技术门槛较高，对于技术功底弱的用户或客服很难独自解决问题。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种故障谱的生成方法、一种基于故障谱的检测方法和相应的一种故障谱的生成装置、一种基于故障谱的检测装置。

为了解决上述问题，本申请实施例公开了一种故障谱的生成方法，包括：

获取一个或多个类别的第一工单数据；每个第一工单数据中包括故障信息与检测信息；

针对每类第一工单数据，从所述检测信息中提取公共特征词，作为特征向量；

针对每类第一工单数据，学习所述故障信息与所述特征向量之间的逻辑关系，获得每类故障谱模型；

对每类故障谱模型进行修剪处理，获得每类故障谱。

优选地，所述故障谱中包括相连的根节点与叶子节点，所述根节点表征故障信息，所述叶子节点表征检测信息，至少部分叶子节点之间具有逻辑关系，所述叶子节点具有一个或多个父节点。

优选地，所述从所述检测信息中提取公共特征词的步骤包括：

对所述检测信息进行分词处理，获得一个或多个第一分词；

统计所述第一分词的词频；

通过所述第一分词的词频计算所述第一分词的权重；

按照所述权重提取至少部分第一分词作为公共特征词。

优选地，所述从所述检测信息中提取公共特征词的步骤还包括：

采用所述一个或多个第一分词在预置的停用词库中进行匹配；

移除匹配成功的第一分词。

优选地，所述对每类故障谱模型进行修剪处理的步骤包括：

在所述故障谱模型中查找相同的子树；所述子树为一个或多个叶子节点的集合；

当查找到时，将相同的子树的父节点连接至其中一个子树；

在相同的子树中，剪去已连接的子树之外的其他的子树。

优选地，所述对每类故障谱模型进行修剪处理的步骤还包括：

按照预设的剪枝方式对所述故障谱模型进行修剪处理。

从所述故障谱模型剪去逻辑关系不合法的叶子节点。

本申请实施例还公开了一种基于故障谱的检测方法，包括：

当接收到第二工单数据时，从所述第二工单数据中提取关键词；

查找所述第二工单数据所属类别对应的故障谱；

在所述故障谱中，根据所述关键词查找一个或多个检测路径；

依据所述一个或多个检测路径进行检测，获得检测结果。

优选地，所述从所述第二工单数据中提取关键词的步骤包括：

对所述第二工单数据进行分词处理，获得一个或多个第二分词；

识别所述一个或多个第二分词的词性；

按照所述词性从所述一个或多个第二分词中提取关键词。

优选地，所述从所述第二工单数据中提取关键词的步骤还包括：

移除匹配成功的第二分词。

优选地，所述在所述故障谱中，根据所述特征词查找一个或多个检测路径的步骤包括：

在所述故障谱中，查找与所述关键词匹配的根节点；

遍历与所述根节点相连的一个或多个叶子节点，获得一个或多个检测路径。

优选地，所述依据所述一个或多个检测路径进行检测，获得检测结果的步骤包括：

针对每个检测路径，获取所述检测路径中的一个或多个叶子节点表征的检测信息；

按照当前叶子节点表征的检测信息进行检测，获得候选检测结果；

查找逻辑关系与所述候选检测结果匹配的下一叶子节点，返回执行按照当前叶子节点表征的检测信息进行检测的步骤，直至执行至最终的叶子节点；

将最终的叶子节点的候选检测结果设置为检测结果。

优选地，所述故障谱通过以下方式生成：

对每类故障谱模型进行修剪处理，获得每类故障谱。

本申请实施例还公开了一种故障谱的生成装置，包括：

工单数据获取模块，用于获取一个或多个类别的第一工单数据；每个第一工单数据中包括故障信息与检测信息；

公共特征词提取模块，用于针对每类第一工单数据，从所述检测信息中提取公共特征词，作为特征向量；

故障谱模型学习模块，用于针对每类第一工单数据，学习所述故障信息与所述特征向量之间的逻辑关系，获得每类故障谱模型；

故障谱模型修剪模块，用于对每类故障谱模型进行修剪处理，获得每类故障谱。

优选地，所述公共特征词提取模块包括：

第一分词处理模块，用于对所述检测信息进行分词处理，获得一个或多个第一分词；

词频统计模块，用于统计所述第一分词的词频；

权重计算模块，用于通过所述第一分词的词频计算所述第一分词的权重；

第一分词提取子模块，用于按照所述权重提取至少部分第一分词作为公共特征词。

优选地，所述公共特征词提取模块还包括：

第一匹配子模块，用于采用所述一个或多个第一分词在预置的停用词库中进行匹配；

第一移除子模块，用于移除匹配成功的第一分词。

优选地，所述故障谱模型修剪模块包括：

子树查找子模块，用于在所述故障谱模型中查找相同的子树；所述子树为一个或多个叶子节点的集合；

连接子模块，用于在查找到时，将相同的子树的父节点连接至其中一个子树；

第一修剪子模块，用于在相同的子树中，剪去已连接的子树之外的其他的子树。

优选地，所述故障谱模型修剪模块还包括：

第二修剪子模块，用于按照预设的剪枝方式对所述故障谱模型进行修剪处理。

优选地，所述故障谱模型修剪模块还包括：

第三修剪子模块，用于从所述故障谱模型剪去逻辑关系不合法的叶子节点。

本申请实施例还公开了一种基于故障谱的检测装置，包括：

关键词提取模块，用于在接收到第二工单数据时，从所述第二工单数据中提取关键词；

故障谱查找模块，用于查找所述第二工单数据所属类别对应的故障谱；

检测路径查找模块，用于在所述故障谱中，根据所述关键词查找一个或多个检测路径；

检测模块，用于依据所述一个或多个检测路径进行检测，获得检测结果。

优选地，所述关键词提取模块包括：

第二分词处理子模块，用于对所述第二工单数据进行分词处理，获得一个或多个第二分词；

词性识别子模块，用于识别所述一个或多个第二分词的词性；

第二分词提取子模块，用于按照所述词性从所述一个或多个第二分词中提取关键词。

优选地，所述关键词提取模块还包括：

第二匹配子模块，用于采用所述一个或多个第一分词在预置的停用词库中进行匹配；

第二移除子模块，用于移除匹配成功的第二分词。

优选地，所述检测路径查找模块包括：

根节点匹配子模块，用于在所述故障谱中，查找与所述关键词匹配的根节点；

叶子节点遍历子模块，用于遍历与所述根节点相连的一个或多个叶子节点，获得一个或多个检测路径。

优选地，所述检测模块包括：

检测信息获取子模块，用于针对每个检测路径，获取所述检测路径中的一个或多个叶子节点表征的检测信息；

候选检测结果获取子模块，用于按照当前叶子节点表征的检测信息进行检测，获得候选检测结果；

叶子节点查找子模块，用于查找逻辑关系与所述候选检测结果匹配的下一叶子节点，返回调用候选检测结果获取子模块，直至执行至最终的叶子节点；

检测结果设置子模块，用于将最终的叶子节点的候选检测结果设置为检测结果。

优选地，所述故障谱通过调用以下模块生成：

本申请实施例包括以下优点：

本申请实施例通过建立故障谱，使得后续检测时支持并发依据该一个或多个检测路径进行检测，减少了检测耗时，提高检测的效率，同时，应用故障谱的检测操作简单，大大减少了人工参与的频次，减少用户精力的耗费，同时，利用海量的工单数据所形成的知识库中的知识点处理故障，大大降低了技术门槛，方便技术功底弱的用户或客服独自解决问题。

附图说明

图1是本申请的一种故障谱的生成方法实施例的步骤流程图；

图2A和图2B是本申请的一种故障谱模型的修剪示例图；

图3A和图3B是本申请的一种故障谱模型的修剪示例图；

图4是本申请的一种基于故障谱的检测方法实施例的步骤流程图；

图5是本申请的一种检测路径的示例图；

图6A是现有的一种检测示例图；

图6B是本申请的一种检测示例图；

图7是本申请的一种故障谱的生成装置实施例的结构框图；

图8是本申请的一种基于故障谱的检测装置实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种故障谱的生成方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取一个或多个类别的第一工单数据；

在实际应用中，可以对历史中海量的第一工单数据进行存储，对该海量的第一工单数据分析总结后，把典型的第一工单数据写成知识点，保存在知识库中。

一般而言，每个第一工单数据可以包括：日期、用户ID、产品、问题分类、问题(故障信息)、解决办法(检测信息)、沟通记录等要素。

其中，故障信息可以为记载所发生的故障的信息，检测信息可以为记载如何进行检测解决该故障的信息，两者是相对应的。

例如，在某个工单数据中，故障信息为“DB(Database，数据库)访问慢”，检测信息为“请您首先对网络拥塞检测吧”。

通过问题分类可以提取足够数量的、同属一个类别的第一工单数据，作为训练样本。

步骤102，针对每类第一工单数据，从所述检测信息中提取公共特征词，作为特征向量；

公共特征词，为该类中部分第一工单数据中所共有的词，可以用于表征检测信息的特征，作为训练样本的参数。

在本申请的一种优选实施例中，步骤102可以包括如下子步骤：

子步骤S11，对所述检测信息进行分词处理，获得一个或多个第一分词；

在具体实现中，可以通过以下方式进行分词处理：

1、基于字符串匹配的分词方法：是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。

2、基于特征扫描或标志切分的分词方法：是指优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词；或者将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整。

3、基于理解的分词方法：是指通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。

4、基于统计的分词方法：对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息，以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。

当然，上述分词处理方式只是作为示例，在实施本申请实施例时，可以根据实际情况设置其他分词处理方式，本申请实施例对此不加以限制。另外，除了上述分词处理方式外，本领域技术人员还可以根据实际需要采用其它分词处理方式，本申请实施例对此也不加以限制。

子步骤S12，统计所述第一分词的词频；

子步骤S13，通过所述第一分词的词频计算所述第一分词的权重；

在实际应用中，可以通过TF-IDF(term frequency–inverse document frequency，一种用于资讯检索与资讯探勘的常用加权技术)计算第一分词的权重。

具体而言，TF-IDF可以用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

子步骤S14，按照所述权重提取至少部分第一分词作为公共特征词。

若通过TF-IDF计算第一分词的权重，则可以提取权重最高的前N(N为正整数，如10)个第一分词作为公共特征词。

对于整体而言，会获得每个分类的故障信息及其公共特征词。

例如：对于连接失败的分类，提取的公共特征词如下：

拦截，错误日志，部分失败，…，白名单；

报错，验证失败，…，密码；

连接失败，访问拒绝，…，端口。

在本申请的另一种优选实施例中，步骤102还可以包括如下子步骤：

子步骤S15，采用所述一个或多个第一分词在预置的停用词库中进行匹配；

子步骤S16，移除匹配成功的第一分词。

停用词库中可以存储出现频率很高，但实际意义又不大的词，主要指副词、虚词、语气词等，如“是”、“而是”等。

在本申请实施例中，在子步骤S12之前，可以通过停用词滤去第一分词中无意义的词。

例如，检测信息“请您首先对网络拥塞检测吧”可以划分为“请”、“您”、“首先”、“对”、“网络拥塞”、“检测”、“吧”等第一分词，通过停用词库，可以去除“请”、“您”、“首先”、“对”、“吧”等无意义的词。

步骤103，针对每类第一工单数据，学习所述故障信息与所述特征向量之间的逻辑关系，获得每类故障谱模型；

应用本申请实施例，可以预先设置训练器，可以用于学习各个维度的数据(即故障信息、特征向量)的逻辑关系，如支持向量机(Support Vector Machine，SVM)、决策树(Decision Tree)、随机森林(Random Forest)等等，本申请实施例对此不加以限制。

其中，支持向量机是通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间)，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。

随机森林，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类(对于分类算法)，然后看看哪一类被选择最多，就预测这个样本为那一类。

决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

在训练器训练时，可以对故障谱模型进行拟合，若误差(CP)小于一个预先设定的误差阈值(如0.001)，停止拟合，所训练处的故障谱模型如图2A所示，是树形结构，包括根节点与叶子节点，至少部分叶子节点之间具有逻辑关系。

如图2A所示，如“2.5”、“3.1”为节点(包括根节点、叶子节点)，表征特征向量，“mmax＜6100”、“syct＞＝360”等表征逻辑关系。

此外，根节点表征故障信息，叶子节点表征检测信息。

具体而言，如图3A所示，“A：DB连接失败”为根节点，表征故障信息，“E：本地检测”、“B：网络断”为叶子节点，表征检测信息，与根节点“A：DB连接失败”不存在逻辑关系。

而“H：配置排查”、“C：修复网络”为“B：网络断”的子节点，即“B：网络断”为“H：配置排查”、“C：修复网络”的父节点，“H：配置排查”、“C：修复网络”与“B：网络断”存在逻辑关系(图上未示出)。

步骤104，对每类故障谱模型进行修剪处理，获得每类故障谱。

在实际应用中，可以按照实际需求对故障谱模型进行修剪处理，获得故障谱。

其中，故障谱中可以包括相连的根节点与叶子节点，根节点可以表征故障信息，叶子节点可以表征检测信息，至少部分叶子节点之间可以具有逻辑关系，叶子节点可以具有一个或多个父节点。

修剪好的故障谱，可以存储在故障谱仓库(数据库)中。

在本申请的一种优选实施中，步骤104可以包括如下子步骤：

子步骤S21，在所述故障谱模型中查找相同的子树；

其中，所述子树可以为一个或多个叶子节点的集合；

子步骤S22，当查找到时，将相同的子树的父节点连接至其中一个子树；

子步骤S23，在相同的子树中，剪去已连接的子树之外的其他的子树。

在本申请实施例中，由于某些子树可能有重复，因此，可以递归检查有重复的子树，发现后，在一个节点指向另一个子树，同时删除本身的子树，使得某些叶子节点具有多个父节点(表示一个现象可能由多种原因造成)，形成类树形结构，即有向无环图(DAG，指一个有向图无法从某个顶点出发经过若干条边回到该点)。

类树形结构的故障谱并非树形结构，如二叉树，二叉树中某些子树可能会其他子树重复，造成二叉树的结构冗长，分支过多，逻辑关系不清晰；但在DAG中不存在重复的子树，因为如果重复了，父节点可以删除本子树，并指向其他重复的子树，因此，相对于二叉树等树形结构层次较少，逻辑较清晰。

需要说明的是，相同(即重复)是指叶子节点相同、叶子节点之间的逻辑关系相同。

如图3A所示，“H：配置排查”、“F：白名单”、“D：检测密码”和“J：检测端口”这四个叶子节点组成的子树重复，如图3B所示，可以删除其中一个子树，使得该子树的父节点“B：网络断”和“E：本地检测”指向同一个子树。

在本申请的另一种优选实施中，步骤104还可以包括如下子步骤：

子步骤S24，按照预设的剪枝方式对所述故障谱模型进行修剪处理。

一般情况下，训练出来的故障谱模型可能含有较深的层次，可能造成检测的步骤繁多。

在本申请实施例中，可以通过预设的剪枝方式，如prune()函数，对故障谱模型进行修剪处理，在可接受检测误差的范围内，把故障谱模型的层次减低，减少故障谱模型的复杂度，减少检测的步骤。

例如，如图2A所示的故障谱模型的层次为6层，通过剪枝方式修剪之后，获得如图2B所示的4层故障谱模型。

子步骤S25，从所述故障谱模型剪去逻辑关系不合法的叶子节点。

在本申请实施例中，可以通过人工确认或者通过合法逻辑关系排查，剪去对一些逻辑关系不合法的叶子节点，提高准确率。

参照图4，示出了本申请的一种基于故障谱的检测方法实施例的步骤流程图，具体可以包括如下步骤：

步骤401，当接收到第二工单数据时，从所述第二工单数据中提取关键词；

本申请实施例可以应用在虚拟客服***中，该虚拟克服***可以使用流式实时处理框架strom，保证在极小的延迟完成检测。

当然，除了strom，还可以应用S4(Simple Scalable Streaming System)、MillWheel、Kinesis等流式实时处理框架中，本申请实施例对此不加以限制。

在具体实现中，用户可以通过浏览器、独立的应用等方式提交第二工单数据给虚拟客服***，虚拟客服***可以会去除无关干扰信息、净化第二工单数据。

通常，该第二工单数据中允许包含一个故障信息，解决一个问题，若用户提出了一个问题，与此问题无关的信息可以认为是干扰信息。

进一步而言，在某种情况下，第二工单数据可以根据产品分类，与当前产品无关的信息可以第二工单数据。

例如，在某个第二工单数据中，用户询问：“我的SQL中的UDF函数为什么不能执行？”虚拟客服***回答：“因为现在对外没有开放UDF的权限，因此你的UDF不能执行。”此外，用户再次询问：“明白。另一个问题：我的日志怎么下载呀？”

此示例中，用户的第2个问题与第一个问题无关，属于干扰信息。

对于过滤干扰信息后的第二工单数据，可以提取关键词，该关键词可以为体现第二工单数据(即故障信息)特征的信息。

在本申请的一种优选实施例中，步骤401可以包括如下子步骤：

子步骤S31，对所述第二工单数据进行分词处理，获得一个或多个第二分词；

在具体实现中，可以通过以下方式进行分词处理：

1、基于字符串匹配的分词方法。

2、基于特征扫描或标志切分的分词方法。

3、基于理解的分词方法。

4、基于统计的分词方法。

子步骤S32，识别所述一个或多个第二分词的词性；

子步骤S33，按照所述词性从所述一个或多个第二分词中提取关键词。

在本申请实施例中，可以对第二分词进行词性分析，获得各第二分词的词性，如名词、动词、形容词、副词、介词、连词、助词等等。

其中，可以通过名词与动词组成关键词，名词可以用于确定目标对象，动词可以推测出主要语义。

例如，在某个第二工单数据中，用户A询问“有没有最大值的UDF函数”，此示例中，动词为“有没有”，名词为“UDF函数”，即用户A的问题(即关键词)是问，“有没有UDF函数”。

又例如，在某个第二工单数据中，用户B询问“如何调试UDF函数”，此示例中，动词为“调试”，名词为“UDF函数”，即用户B的问题(即关键词)是问，“调试UDF函数”的方法。

在本申请的一种优选实施例中，步骤401还可以包括如下子步骤：

子步骤S34，采用所述一个或多个第一分词在预置的停用词库中进行匹配；

子步骤S35，移除匹配成功的第二分词。

在本申请实施例中，在子步骤S32之前，可以通过停用词滤去第二分词中无意义的词。

步骤402，查找所述第二工单数据所属类别对应的故障谱；

应用本申请实施例，可以预先训练故障谱，存储在故障谱仓库(数据库)中。

在实际应用中，可以通过文本相似度查找第二工单数据所属类别对应的故障谱，即在故障谱仓库中查找与第二工单数据中的关键词相似的故障谱。

例如，如果关键词是：“DB”、“查询”、“等待”、“慢”等，则可以根据文本相似度匹配上“DB访问慢”这个类目的故障谱。

在本申请实施例中，故障谱中可以包括相连的根节点与叶子节点，根节点可以表征故障信息，叶子节点可以表征检测信息，至少部分叶子节点之间可以具有逻辑关系，叶子节点可以具有一个或多个父节点。

步骤403，在所述故障谱中，根据所述关键词查找一个或多个检测路径；

在具体实现中，该检测路径可以记载检测方式及检测顺序的信息。

在本申请的一种优选实施例中，步骤403可以包括如下子步骤：

子步骤S41，在所述故障谱中，查找与所述关键词匹配的根节点；

子步骤S42，遍历与所述根节点相连的一个或多个叶子节点，获得一个或多个检测路径。

在本申请实施例中，故障谱是一个类树形结构(有向无环图DAG)，因此，检索检测路径时可以从上致下地进行使用“节点”匹配。

根据关键词可以在故障谱中定位根节点，是从该根节点向下遍历所经过的所有叶子节点，组成检测路径。

例如，如图3B所示的故障谱中存在两个检测路径，分布为“A→E→H→F/D/J”和“A→B→C/H→F/D/J”。

由于根节点与下一层的叶子节点一般不存在逻辑关系，因此，该下一层叶子节点的数量与检测路径的数量一般相同。

需要说明的是，相连可以指根节点与子节点直接相连，也可以指根节点与子节点间接相连。

例如，如图3B所示，叶子节点“E：本地检测”与根节点“A：DB连接失败”直接相连，叶子节点“H：配置排查”与根节点“A：DB连接失败”间接相连。

步骤404，依据所述一个或多个检测路径进行检测，获得检测结果。

在申请实施例中，支持并发依据该一个或多个检测路径进行检测，减少了检测耗时，提高检测的效率。

在本申请的一种优选实施例中，步骤404可以包括如下子步骤：

子步骤S51，针对每个检测路径，获取所述检测路径中的一个或多个叶子节点表征的检测信息；

子步骤S52，按照当前叶子节点表征的检测信息进行检测，获得候选检测结果；

子步骤S53，查找逻辑关系与所述候选检测结果匹配的下一叶子节点，返回执行子步骤S51，直至执行至最终的叶子节点；

子步骤S54，将最终的叶子节点的候选检测结果设置为检测结果。

在本申请实施例中，逻辑关系和叶子节点表征的检测信息可以称之为规则，即当符合某个条件(逻辑关系)就做执行某个操作(检测信息)。

例如，当DB访问慢时，就检查网络的带宽及流量，这就是一条逻辑关系。

规则是预先定义在规则引擎(rule engine)中的，如JBoss Rules(业务规则引擎)，一旦条件触发，规则引擎会执行这条规则，如：执行网络状态检测命令ifstat。

在具体实现中，在检测路径按照逻辑关系逐层检测，直至最终的叶子节点，可以避免执行不符合逻辑关系的部分子节点。其中，最终的叶子节点可以指没有下一层叶子节点的叶子节点，并不一定是检测路径中最底层的叶子节点。

例如，在如图5所示的检测路径中，根节点“A：DB访问慢”表征故障信息，要素是网络，DB负载，SQL(Structured Query Language，结构化查询语言)。

首先要按照子节点“B：网络拥塞检测”确定网络是否有问题，若网络有问题(即“Y”)，其余的要素都很难起作用(即无需执行“C：DB负载检测”)，按照子节点“H：联系网工”进行人工解决；其次，如果网络没有问题(即“N”)，则按照子节点“C：DB负载检测”判断DB负载是否高，如果“DB负载高”，即使SQL本身没有问题(即无需执行“D：慢SQL检测”)，对外也会展现出访问慢的情况，则按照子节点“J：SQL线程检测”确认SQL 线程是否运行正常；如果“DB负载低”，则按照子节点“D：慢SQL检测”进行检测，分布为叶子节点“K：索引”的检测、“M：执行计划”的检测和“N：锁”的检测。

若执行到子节点“H：联系网工”、“J：SQL线程检测”、“K：索引”、“M：执行计划”和“N：锁”，则可以终止检测，获得检测结果。

据某项数据统计表明，70％的工单数据是很基本的常见问题，有较大的重复性，以现有的工单***处理这些问题需占用50％以上的客服资源，花费大量重复劳动，效率很低，本申请实施例的目的之一是自动化解决这70％的常见问题。

现有的工单***一般是用户根据自己的经验来引导问题排查，即导向方向为“人→问题”，操作复杂，需要耗费用户大量的精力，并且，技术门槛高。

本申请实施例是让***引导排查过程，是由海量的工单数据生成的故障谱来指导用户排查问题，是逆向引导，即导向方向为“***→问题→人”，操作简单，大大减少了人工参与的频次，减少用户精力的耗费，同时，利用海量的工单数据锁形成的知识库中的知识点处理问题，大大降低了技术门槛，方便技术功底弱的用户或客服独自解决问题。

如图6A所示，现有的工单***在串行排查时，即没有任何内在逻辑关系地进行排查，需要对图6A中所有的节点一一进行乱序排查，如：A→B→C→D→E，直到发现问题。因此，时间复杂度时O(N)，N为节点的数量，即所有的节点都要进行排查。

在本申请实施例中，如图6B所示，通过故障谱进行并发排查(如并发执行B、C)时，因为节点间是有逻辑关系的，一般不需要对所有的节点一一排查，节省了很多排查步骤，如，若在C检测导向D，则不需要执行E，反之，若在C检测导向E，则不需要执行D。对于故障谱的结构，利用分支结构(每次除以2)，可以省去很多排查步骤，排查复杂度最低可达O(log2N)，N为节点的数量。

在本申请的一种优选实施例中，所述故障谱可以通过以下方式生成：

子步骤S61，获取一个或多个类别的第一工单数据；每个第一工单数据中包括故障信息与检测信息；

子步骤S62，针对每类第一工单数据，从所述检测信息中提取公共特征词，作为特征向量；

子步骤S63，针对每类第一工单数据，学习所述故障信息与所述特征向量之间的逻辑关系，获得每类故障谱模型；

子步骤S64，对每类故障谱模型进行修剪处理，获得每类故障谱。

在实际应用中，所述故障谱中可以包括相连的根节点与叶子节点，所述根节点可以表征故障信息，所述叶子节点可以表征检测信息，至少部分叶子节点之间可以具有逻辑关系，所述叶子节点可以具有一个或多个父节点。

在本申请的一种优选实施例中，子步骤S62可以包括如下子步骤：

子步骤S621，对所述检测信息进行分词处理，获得一个或多个第一分词；

子步骤S622，统计所述第一分词的词频；

子步骤S623，通过所述第一分词的词频计算所述第一分词的权重；

子步骤S624，按照所述权重提取至少部分第一分词作为公共特征词。

在本申请的另一种优选实施例中，子步骤S62还可以包括如下子步骤：

子步骤S625，采用所述一个或多个第一分词在预置的停用词库中进行匹配；

子步骤S626，移除匹配成功的第一分词。

在本申请的一种优选实施例中，子步骤S64可以包括如下子步骤：

子步骤S641，在所述故障谱模型中查找相同的子树；所述子树为一个或多个叶子节点的集合；

子步骤S642，当查找到时，将相同的子树的父节点连接至其中一个子树；

子步骤S643，在相同的子树中，剪去已连接的子树之外的其他的子树。

在本申请的另一种优选实施例中，子步骤S64还可以包括如下子步骤：

子步骤S644，按照预设的剪枝方式对所述故障谱模型进行修剪处理。

子步骤S645，从所述故障谱模型剪去逻辑关系不合法的叶子节点。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图7，示出了本申请的一种故障谱的生成装置实施例的结构框图，具体可以包括如下模块：

工单数据获取模块701，用于获取一个或多个类别的第一工单数据；每个第一工单数据中包括故障信息与检测信息；

公共特征词提取模块702，用于针对每类第一工单数据，从所述检测信息中提取公共特征词，作为特征向量；

故障谱模型学习模块703，用于针对每类第一工单数据，学习所述故障信息与所述特征向量之间的逻辑关系，获得每类故障谱模型；

故障谱模型修剪模块704，用于对每类故障谱模型进行修剪处理，获得每类故障谱。

在具体实现中，所述故障谱中可以包括相连的根节点与叶子节点，所述根节点可以表征故障信息，所述叶子节点可以表征检测信息，至少部分叶子节点之间可以具有逻辑关系，所述叶子节点可以具有一个或多个父节点。

在本申请的一种优选实施例中，所述公共特征词提取模块702可以包括如下子模块：

词频统计模块，用于统计所述第一分词的词频；

在本申请的一种优选实施例中，所述公共特征词提取模块702还可以包括如下子模块：

匹配子模块，用于采用所述一个或多个第一分词在预置的停用词库中进行匹配；

移除子模块，用于移除匹配成功的第一分词。

在本申请的一种优选实施例中，所述故障谱模型修剪模块704可以包括如下子模块：

在本申请的一种优选实施例中，所述故障谱模型修剪模块704还可以包括如下子模块：

参照图8，示出了本申请的一种基于故障谱的检测装置实施例的结构框图，具体可以包括如下模块：

关键词提取模块801，用于在接收到第二工单数据时，从所述第二工单数据中提取关键词；

故障谱查找模块802，用于查找所述第二工单数据所属类别对应的故障谱；

检测路径查找模块803，用于在所述故障谱中，根据所述关键词查找一个或多个检测路径；

检测模块804，用于依据所述一个或多个检测路径进行检测，获得检测结果。

在本申请的一种优选实施例中，所述关键词提取模块801可以包括如下子模块：

在本申请的一种优选实施例中，所述关键词提取模块801还可以包括如下子模块：

第二移除子模块，用于移除匹配成功的第二分词。

在本申请的一种优选实施例中，所述检测路径查找模块803可以包括如下子模块：

在本申请的一种优选实施例中，所述检测模块804可以包括如下子模块：

在本申请的一种优选实施例中，所述故障谱可以通过调用以下模块生成：

词频统计模块，用于统计所述第一分词的词频；

在本申请的一种优选实施例中，所述公共特征词提取模块还可以包括如下子模块：

移除子模块，用于移除匹配成功的第一分词。

在本申请的一种优选实施例中，所述故障谱模型修剪模块可以包括如下子模块：

在本申请的一种优选实施例中，所述故障谱模型修剪模块还可以包括如下子模块：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种故障谱的生成方法、一种基于故障谱的检测方法、一种故障谱的生成装置和一种基于故障谱的检测装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种故障谱的生成方法，其特征在于，包括：

获取一个或多个类别的第一工单数据；每个第一工单数据中包括故障信息与检测信息；

针对每类第一工单数据，从所述检测信息中提取公共特征词，作为特征向量；

针对每类第一工单数据，学习所述故障信息与所述特征向量之间的逻辑关系，获得每类故障谱模型；

对每类故障谱模型进行修剪处理，获得每类故障谱。
根据权利要求1所述的方法，其特征在于，所述故障谱中包括相连的根节点与叶子节点，所述根节点表征故障信息，所述叶子节点表征检测信息，至少部分叶子节点之间具有逻辑关系，所述叶子节点具有一个或多个父节点。
根据权利要求1或2所述的方法，其特征在于，所述从所述检测信息中提取公共特征词的步骤包括：

对所述检测信息进行分词处理，获得一个或多个第一分词；

统计所述第一分词的词频；

通过所述第一分词的词频计算所述第一分词的权重；

按照所述权重提取至少部分第一分词作为公共特征词。
根据权利要求3所述的方法，其特征在于，所述从所述检测信息中提取公共特征词的步骤还包括：

采用所述一个或多个第一分词在预置的停用词库中进行匹配；

移除匹配成功的第一分词。
根据权利要求1或2或4所述的方法，其特征在于，所述对每类故障谱模型进行修剪处理的步骤包括：

在所述故障谱模型中查找相同的子树；所述子树为一个或多个叶子节点的集合；

当查找到时，将相同的子树的父节点连接至其中一个子树；

在相同的子树中，剪去已连接的子树之外的其他的子树。
根据权利要求5所述的方法，其特征在于，所述对每类故障谱模型进行修剪处理的步骤还包括：

按照预设的剪枝方式对所述故障谱模型进行修剪处理。
根据权利要求5所述的方法，其特征在于，所述对每类故障谱模型进行修剪处理的步骤还包括：

从所述故障谱模型剪去逻辑关系不合法的叶子节点。
一种基于故障谱的检测方法，其特征在于，包括：

当接收到第二工单数据时，从所述第二工单数据中提取关键词；

查找所述第二工单数据所属类别对应的故障谱；

在所述故障谱中，根据所述关键词查找一个或多个检测路径；

依据所述一个或多个检测路径进行检测，获得检测结果。
根据权利要求8所述的方法，其特征在于，所述故障谱中包括相连的根节点与叶子节点，所述根节点表征故障信息，所述叶子节点表征检测信息，至少部分叶子节点之间具有逻辑关系，所述叶子节点具有一个或多个父节点。
根据权利要求8所述的方法，其特征在于，所述从所述第二工单数据中提取关键词的步骤包括：

对所述第二工单数据进行分词处理，获得一个或多个第二分词；

识别所述一个或多个第二分词的词性；

按照所述词性从所述一个或多个第二分词中提取关键词。
根据权利要求10所述的方法，其特征在于，所述从所述第二工单数据中提取关键词的步骤还包括：

采用所述一个或多个第一分词在预置的停用词库中进行匹配；

移除匹配成功的第二分词。
根据权利要求9所述的方法，其特征在于，所述在所述故障谱中，根据所述特征词查找一个或多个检测路径的步骤包括：

在所述故障谱中，查找与所述关键词匹配的根节点；

遍历与所述根节点相连的一个或多个叶子节点，获得一个或多个检测路径。
根据权利要求12所述的方法，其特征在于，所述依据所述一个或多个检测路径进行检测，获得检测结果的步骤包括：

针对每个检测路径，获取所述检测路径中的一个或多个叶子节点表征的检测信息；

按照当前叶子节点表征的检测信息进行检测，获得候选检测结果；

查找逻辑关系与所述候选检测结果匹配的下一叶子节点，返回执行按照当前叶子节点表征的检测信息进行检测的步骤，直至执行至最终的叶子节点；

将最终的叶子节点的候选检测结果设置为检测结果。
根据权利要求8或9或10或11或12或13所述的方法，其特征在于，所述故障谱通过以下方式生成：

获取一个或多个类别的第一工单数据；每个第一工单数据中包括故障信息与检测信息；

针对每类第一工单数据，从所述检测信息中提取公共特征词，作为特征向量；

针对每类第一工单数据，学习所述故障信息与所述特征向量之间的逻辑关系，获得每类故障谱模型；

对每类故障谱模型进行修剪处理，获得每类故障谱。
一种故障谱的生成装置，其特征在于，包括：

工单数据获取模块，用于获取一个或多个类别的第一工单数据；每个第一工单数据中包括故障信息与检测信息；

公共特征词提取模块，用于针对每类第一工单数据，从所述检测信息中提取公共特征词，作为特征向量；

故障谱模型学习模块，用于针对每类第一工单数据，学习所述故障信息与所述特征向量之间的逻辑关系，获得每类故障谱模型；

故障谱模型修剪模块，用于对每类故障谱模型进行修剪处理，获得每类故障谱。
根据权利要求15所述的装置，其特征在于，所述故障谱中包括相连的根节点与叶子节点，所述根节点表征故障信息，所述叶子节点表征检测信息，至少部分叶子节点之间具有逻辑关系，所述叶子节点具有一个或多个父节点。
根据权利要求15或16所述的装置，其特征在于，所述公共特征词提取模块包括：

第一分词处理模块，用于对所述检测信息进行分词处理，获得一个或多个第一分词；

词频统计模块，用于统计所述第一分词的词频；

权重计算模块，用于通过所述第一分词的词频计算所述第一分词的权重；

第一分词提取子模块，用于按照所述权重提取至少部分第一分词作为公共特征词。
根据权利要求17所述的装置，其特征在于，所述公共特征词提取模块还包括：

第一匹配子模块，用于采用所述一个或多个第一分词在预置的停用词库中进行匹配；

第一移除子模块，用于移除匹配成功的第一分词。
根据权利要求15或16或18所述的装置，其特征在于，所述故障谱模型修剪模块包括：

子树查找子模块，用于在所述故障谱模型中查找相同的子树；所述子树为一个或多个叶子节点的集合；

连接子模块，用于在查找到时，将相同的子树的父节点连接至其中一个子树；

第一修剪子模块，用于在相同的子树中，剪去已连接的子树之外的其他的子树。
根据权利要求19所述的装置，其特征在于，所述故障谱模型修剪模块还包括：

第二修剪子模块，用于按照预设的剪枝方式对所述故障谱模型进行修剪处理。
根据权利要求19所述的装置，其特征在于，所述故障谱模型修剪模块还包括：

第三修剪子模块，用于从所述故障谱模型剪去逻辑关系不合法的叶子节点。
一种基于故障谱的检测装置，其特征在于，包括：

关键词提取模块，用于在接收到第二工单数据时，从所述第二工单数据中提取关键词；

故障谱查找模块，用于查找所述第二工单数据所属类别对应的故障谱；

检测路径查找模块，用于在所述故障谱中，根据所述关键词查找一个或多个检测路径；

检测模块，用于依据所述一个或多个检测路径进行检测，获得检测结果。
根据权利要求22所述的装置，其特征在于，所述故障谱中包括相连的根节点与叶子节点，所述根节点表征故障信息，所述叶子节点表征检测信息，至少部分叶子节点之间具有逻辑关系，所述叶子节点具有一个或多个父节点。
根据权利要求22所述的装置，其特征在于，所述关键词提取模块包括：

第二分词处理子模块，用于对所述第二工单数据进行分词处理，获得一个或多个第二分词；

词性识别子模块，用于识别所述一个或多个第二分词的词性；

第二分词提取子模块，用于按照所述词性从所述一个或多个第二分词中提取关键词。
根据权利要求24所述的装置，其特征在于，所述关键词提取模块还包括：

第二匹配子模块，用于采用所述一个或多个第一分词在预置的停用词库中进行匹配；

第二移除子模块，用于移除匹配成功的第二分词。
根据权利要求23所述的装置，其特征在于，所述检测路径查找模块包括：

根节点匹配子模块，用于在所述故障谱中，查找与所述关键词匹配的根节点；

叶子节点遍历子模块，用于遍历与所述根节点相连的一个或多个叶子节点，获得一个或多个检测路径。
根据权利要求25所述的装置，其特征在于，所述检测模块包括：

检测信息获取子模块，用于针对每个检测路径，获取所述检测路径中的一个或多个叶子节点表征的检测信息；

候选检测结果获取子模块，用于按照当前叶子节点表征的检测信息进行检测，获得候选检测结果；

叶子节点查找子模块，用于查找逻辑关系与所述候选检测结果匹配的下一叶子节点，返回调用候选检测结果获取子模块，直至执行至最终的叶子节点；

检测结果设置子模块，用于将最终的叶子节点的候选检测结果设置为检测结果。
根据权利要求22或23或24或25或26或27所述的装置，其特征在于，所述故障谱通过调用以下模块生成：

工单数据获取模块，用于获取一个或多个类别的第一工单数据；每个第一工单数据中包括故障信息与检测信息；

公共特征词提取模块，用于针对每类第一工单数据，从所述检测信息中提取公共特征词，作为特征向量；

故障谱模型学习模块，用于针对每类第一工单数据，学习所述故障信息与所述特征向量之间的逻辑关系，获得每类故障谱模型；

故障谱模型修剪模块，用于对每类故障谱模型进行修剪处理，获得每类故障谱。