CN111309928A

CN111309928A - 一种基于贝叶斯和语义分析的运维知识库构建方法

Info

Publication number: CN111309928A
Application number: CN202010108850.9A
Authority: CN
Inventors: 莫穗江; 梁英杰; 李瑞德; 王�锋; 张欣欣; 温志坤; 黄定威; 廖振朝; 杨玺; 高国华; 张欣; 汤铭华; 陈嘉俊; 李伟雄; 童捷; 张天乙
Original assignee: Guangdong Power Grid Co Ltd; Jiangmen Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Jiangmen Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-06-19

Abstract

本发明涉及电力通信网运维技术领域，更具体地，涉及一种基于贝叶斯和语义分析的运维知识库构建方法，包括：S1.在所述数据库中采集运维数据，然后对采集的运维数据按照类别设置属性；S2.基于贝叶斯分类算法对步骤S1中得到的运维数据进行预处理，然后对完成预处理的运维数据进行挖掘，得到运维知识数据；S3.构建运维知识库，并在所述运维知识库内建立检索引擎，采用产生式表示法将步骤S2中得到的运维知识数据存储至所述运维知识库中；S4.基于语义分析算法，计算出所述运维知识数据与向所述检索引擎输入的检索词间的相近程度，并按权值大小的顺序显示检索结果。本发明能够让运维人员自主解决问题，提高电力通信网的运维水平和效率。

Description

一种基于贝叶斯和语义分析的运维知识库构建方法

技术领域

本发明涉及电力通信网运维技术领域，更具体地，涉及一种基于贝叶斯和语义分析的运维知识库构建方法。

背景技术

电力通信网是支撑我国电力企业生产经营的核心网络，是建设我国智能电网的重要平台，是电力***中的信息网络，在电力***安全稳定运行中发挥着至关重要的作用。因此，保证电力通信网高效运行是运维工作的重中之重，但目前由于电力通信网运维***中的现场实践信息管理缺失、运维人员知识水平和业务能力参差不齐、运维标准不统一等问题，电力通信网运维***一直处于运维成本高而效率提升不明显的困境中，而信息***的建设为运维服务提供了新的发展道路，信息化、智能化的运维服务要求信息***数据库具备丰富的电力通信网领域运维知识数据。

运维知识库作为知识的核心部分，是管理中心，发挥着关键作用，运维知识库的本质就是知识遵循一定的规则表示方法存放的数据库，它是一个完整的知识管理解决方案中不可替代的部分，具备极强的知识处理功能，可分为集成、分类、存储、发布、决策支持等功能。构建运维知识库可以方便人们进行知识的交流、积累、共享、增值、利用和保存，同时也有利于促成基于运维知识库的运维人员自主解决问题。因此，需要结合电力通信网的特点，构建合理的运维知识库，实现运维知识库在电力通信网中的应用。

目前已有采用基于极大似然法进行数据预处理的方法、采用逻辑表表示法对知识库中的知识进行存储的方法、采用基于TextRank算法抽取关键词的方法，但以上方法均不适用于在电力通信网中对于运维知识库的构建。

发明内容

本发明的目的在于克服目前没有适用于在电力通信网中构建运维知识库的不足，提供一种基于贝叶斯和语义分析的运维知识库构建方法，能够让运维人员自主解决问题，提高电力通信网的运维水平和效率。

为解决上述技术问题，本发明采用的技术方案是：

提供一种基于贝叶斯和语义分析的运维知识库构建方法，包括电力通信网，所述电力通信网中包括数据库，包括以下步骤：

S1.在所述数据库中采集运维数据，然后对采集的运维数据按照类别设置属性；

S2.基于贝叶斯分类算法对步骤S1中得到的运维数据进行预处理，然后对完成预处理的运维数据进行挖掘，得到运维知识数据；

S3.构建运维知识库，并在所述运维知识库内建立检索引擎，采用产生式表示法将步骤S2中得到的运维知识数据存储至所述运维知识库中；

S4.基于语义分析算法，计算出所述运维知识数据与向所述检索引擎输入的检索词间的相近程度，并按权值大小的顺序显示检索结果。

本发明为一种基于贝叶斯和语义分析的运维知识库构建方法，通过在数据库中采集运维数据，对运维数据按照类别设置属性，便于下一步骤中对运维数据进行预处理。利用贝叶斯分类算法对运维数据进行预处理，使运维数据更加具有可信度，接着再对完成预处理的运维数据进行挖掘得到运维知识数据。对于运维知识数据，采用产生式表示法进行存储，由于产生表示法表示知识的单位是规则，具有良好的自然性，能够描述的范围较广泛，且具有良好的推理能力，容易理解；再有，产生式规则既可以表示确定性知识，又可表示不确定性知识，使知识表示更灵活，更具有科学性和指导性，对于运维知识库来说不仅更易于管理，而且更符合电力通信网的运维指导要求。接着，基于语义分析算法来计算运维知识数据与在检索引擎输入的检索词间的相近程度，再按权值大小的顺序显示检索结果。语义分析算法可根据异常类型、异常特点、故障装置等相关关键词进行检索，对符合要求的运维知识数据按照摘要的形式展现，供用户查看，该优势在于能够采用关键词的组合精确地检索到匹配信息，同时还可根据异常描述采用运维知识库的检索引擎对全文施行检索，将相关信息按照相关度大小排序，呈现给用户，从而使用户得到更加想要得到的检索结果，有利于用户对电力通信网的运维，提高电力通信网现场运维的质量和效率。

优选地，所述步骤S2的具体步骤如下：

S21.关联规则挖掘阶段：基于关联规则挖掘算法对采集的运维数据通过置信度和支持度挖掘关联规则；

S22.预处理阶段：通过MapReduce框架对采集的运维数据进行预处理；

S23.模型训练阶段：计算各个属性的先验概率和联合概率；

S24.权值计算阶段：根据关联规则的置信度计算各个属性对应的权值，然后通过贝叶斯分类算法对所述关联规则进行分类；

S25.数据填充阶段的MapReduce实现：根据各个属性的值和权值对缺失的状态值进行填充。

优选地，在步骤S21中，通过以下公式进行关联规则的计算：

Support(X→Y)＝P(XUY)；

Confidence(X→Y)＝P(X|Y)；

其中，X＝{x₁，x₂，...，x_k}，Y＝{y₁，y₂，...，y_k}，

式中，X表示关联规则的前提，Y表示关联规则的结论事实，Support(X→Y)表示X→Y的支持度，Confidence(X→Y)表示X→Y的置信度，P(X∪Y)表示采集的运维数据中包含X∪Y的百分比，P(X|Y)表示采集的运维数据中既包含X又包含Y的运维数据的百分比，I表示频繁项集。

优选地，所述步骤S3的具体步骤如下：

S31.知识获取：通过所述运维知识数据构建运维知识库，然后在所述运维知识库内建立检索引擎；

S32.知识类聚：对步骤S2中得到的运维知识数据按照实体概念进行整理、抽取、划分、聚类；

S33.知识评审：对运维知识数据进行质量评估，确认运维知识数据是否具有价值，同时检查知识的冗余性、多义性、相容性与完整性，保证运维知识库无冗余、无二义性；

S34.知识表示：采用产生式表示法对运维知识数据进行存储。

优选地，所述步骤S31的具体步骤如下：

S311.在所述运维知识库中建立规则表，所述规则表包括所述关联规则；

S312.在所述运维知识库中建立故障表，所述故障表包括故障的基本信息。

优选地，所述步骤S4的具体步骤如下：

S41.关键词提取：通过LDA主题模型生成文档，并在所述文档中提取关键词；

S42.语义分析：对所述运维知识数据设置属性，并根据属性赋予权值，再根据所述检索词构成元素的权值，然后与运维知识数据的各个属性进行匹配，并计算权值和，再依据权值和与各属性的匹配关系选择相关的运维知识数据进行检索；

S43.计算语义相似度：根据所述检索词和关键词之间的相似度确定待选概念集，然后根据词语名称相似度、词语实例相似度、属性相似度、依据词语关系的相似度得到所述检索词和关键词之间的相似度；

S44.处理检索结果：通过TF-IDF法求出所述检索词与文档的相似度，然后按照权值由大到小的顺序排列检索结果。

优选地，在步骤S41中，提取关键词的公式为：

式中，H表示关键词，β表示单词，v、α表示主题，B表示文档中的主题总数，

表示主题v中单词β的数量，

表示所述文档中分配给主题α的数目，β_ε、α_v表示先验参数，

表示单词β属于主题v的概率，

表示主题α属于当前文档的概率。

优选地，在步骤S42中，所述运维知识数据与检索词之间的相似度的计算公式为：

式中，C表示运维知识库中的运维知识数据，D表示输入的检索词，N表示特征属性的个数，ω_i表示第i个特征属性的权值，s(C_i，D_i)表示第i个特征值的语义相似度函数。

优选地，在步骤S43中，词语名称相似度的计算公式为：

式中，X₁、X₂表示词语，A_pp(X₁)表示词语X₁的名称，A_pp(X₂)表示词语X₂的名称，L[A_pp(X₁)]+L[A_pp(X₂)]表示词语X₁与词语X₂的名称长度和，L{max[A_pp(X₁)，A_pp(X₂)]}表示词语X₁与词语X₂中较长的词语名称的长度；

词语实例相似度的计算公式为：

式中，P(X₁∩X₂)表示词语X₁与词语X₂相交的概率，P(X₁∪X₂)表示同时含有示词语X₁与词语X₂的概率，P(X₁，X₂)表示既含词语X₁又含词语X₂的概率，

表示只含词语X₂的概率，

表示只含词语X₁的概率；

属性相似度的计算公式为：

式中，M表示要比较的属性的对数，λ表示词语的对数，X_1j表示词语X₁的属性，X_2j表示词语X₂的属性，S(X_1j，X_2j)表示属性X_1j与属性X_2j间的相似度，ω^λ表示相似度S(X_1j，X_2j)的权重；

依据词语关系的相似度的计算公式为：

式中，M表示要比较的属性的对数，γ表示关系的对数，y_i表示词语X₁的关系，z_j表示词语X₂的关系，S(y_i，z_j)表示关系y_i与关系z_j间的相似度，ω^γ表示相似度S(y_i，z_j)的权重；

然后归并得到：

S_z(X₁，X₂)＝ω_aS_ins(X₁，X₂)+ω_bS_att(X₁，X₂)+ω_cS_rel(X₁，X₂)；

式中，S_z(X₁，X₂)表示词语X₁与词语X₂间的相似度，S_ins(X₁，X₂)表示词语实例相似度，S_att(X₁，X₂)表示属性相似度，S_rel(X₁，X₂)表示依据词语关系的相似度，ω_a表示词语实例相似度S_ins(X₁，X₂)的系数，ω_b表示属性相似度S_att(X₁，X₂)的系数，ω_c表示依据词语关系的相似度S_rel(X₁，X₂)的系数。

优选地，在步骤S44中，所述检索词与文档的相似度的计算公式为：

式中，d_j表示文档，ω_i表示检索词，k_i，j表示文档d_j中检索词ω_i出现的频度；max_nk_n，j表示文档d_j中频度最大检索词ω_i的频度；M_d表示检索结果形成的文档中包含的文档个数；m_j表示检索结果形成的文档集中出现检索词ω_i的文档个数；

由此获取检索词ω_i与文档d_j的权值向量为：

f_j＝(f_1j，f_2j，...，f_mj)；

式中，f_1j表示第一个权值向量，f_2j表示第二个权值向量，f_mj表示第m个权值向量。

与现有技术相比，本发明的有益效果是：

本发明首先通过关联规则挖掘算法对电力通信网中的运维数据挖掘关联规则，通过关联规则的置信度对不同的属性赋予不同的权值，接着通过在MapReduce框架内实现利用贝叶斯分类算法对关联规则进行分类，通过MapReduce实现运维数据的预处理，能够增强运维数据的完整性，可以更直接地得到运维数据中的运维信息，为电力通信网运维人员提供数据参考，提高电力通信网运维人员的工作效率，还可减少数据挖掘和知识发现前数据处理的工作量，同时还能够提高数据挖掘和知识发现结果的质量；接着，将预处理后的运维数据进行数据挖掘，采用产生式表示法将挖掘出来的规则表和事实表进行存储。运维知识库中的检索引擎根据运维人员输入的检索信息，先采用文档主题生成模型LDA获取关键词，然后通过语义分析算法计算语义相似度，最后通过关键词权重量化法将检索结果按照权值由大到小的顺序进行显示。

附图说明

图1为本发明一种基于贝叶斯和语义分析的运维知识库构建方法的流程图。

图2为本发明数据预处理表。

图3为本发明数据预处理表。

图4为本发明规则表。

图5为本发明故障表。

图6为本发明三种方法和人工标注计算结果比较表。

图7为本发明三种方法提取关键词比较表。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

如图1至图7所示为本发明一种基于贝叶斯和语义分析的运维知识库构建方法的第一实施例，包括电力通信网，所述电力通信网中包括数据库，包括以下步骤：

其中，预处理是在对数据进行挖掘前对原始运维数据进行转换、规约、离散、集成和清理等处理，达到知识获取或数据挖掘所要求的最低标准；

通过在数据库中采集运维数据，对运维数据按照类别设置属性，便于下一步骤中对运维数据进行预处理。利用贝叶斯分类算法对运维数据进行预处理，使运维数据更加具有可信度，接着再对完成预处理的运维数据进行挖掘得到运维知识数据。对于运维知识数据，采用产生式表示法进行存储，由于产生表示法表示知识的单位是规则，具有良好的自然性，能够描述的范围较广泛，且具有良好的推理能力，容易理解；再有，产生式规则既可以表示确定性知识，又可表示不确定性知识，使知识表示更灵活，更具有科学性和指导性，对于运维知识库来说不仅更易于管理，而且更符合电力通信网的运维指导要求。接着，基于语义分析算法来计算运维知识数据与在检索引擎输入的检索词间的相近程度，再按权值大小的顺序显示检索结果。语义分析算法可根据异常类型、异常特点、故障装置等相关关键词进行检索，对符合要求的运维知识数据按照摘要的形式展现，供用户查看，该优势在于能够采用关键词的组合精确地检索到匹配信息，同时还可根据异常描述采用运维知识库的检索引擎对全文施行检索，将相关信息按照相关度大小排序，呈现给用户，从而使用户得到更加想要得到的检索结果，有利于用户对电力通信网的运维，提高电力通信网现场运维的质量和效率。需要说明的是，本实施例中的贝叶斯分类算法采用朴素贝叶斯算法。

如图2和图3所示，在步骤S1中，采集的运维数据包括以下四类数据，同类数据设置同一属性：

通信巡视类：通信设备巡视PATROL-A、通信网管巡视PATROL-B、通信线路巡视POTROL-C；

通信检修类：通信光传输设备检修OVERHAUL-A、通信网管设备检修OVERHAUL-B、通信数据网设备检修OVERHAUL-C、机动应急通信***检修OVERHAUL-D、电视电话会议设备检修OVERHAUL-E、通信时钟同步设备检修OVERHAUL-F、通信电源设备检修OVERHAUL-G、通信交换设备检修OVERHAUL-H、通信接入设备检修OVERHAUL-I、通信载波设备检修OVERHAUL-J、通信电缆线路检修OVERHAUL-K、通信光缆线路检修OVERHAUL-L；

通信实施类：方式开通SERVICEFULFILLMENT、通信设备工程实施IMPLEMENTATION-A、通信线路工程实施IMPLEMENTATION-B；

通信验收类：通信设备工程验收ACCEPTANCECHECK-A、通信线路工程验收ACCEPTANCECHECK-B。

其中，步骤S2的具体步骤如下：

其中，预处理阶段的任务是找出条件属性的个数、类别的个数、每个条件属性取值的集合和类别状态的集合；

S23.模型训练阶段：计算各个属性的先验概率P(C_i)和联合概率P(A_j|C_i)；

其中，MapReduce是一种编程模型，用于大规模数据集的并行运算；Map函数表示映射函数，Reduce函数表示规约函数，Map函数用于把一对键值对映射成一组新的键值对，指定并发的Reduce函数，用于保证所有映射的键值对中的每一个共享相同的键组。

具体地，步骤S21可分解为如下步骤：

S211.扫描数据库；

S212.设置最小支持度(Min_Sup)阈值，生成频繁1-项集；

S213.利用频繁K-1-项集，连接与剪枝共同进行，生成频繁K-项集；

S214.重复步骤S213，直到剪枝后，无频繁项集符合连接条件时，执行结束，得到全部的频繁项集；

S215.对所有频繁项集进行计算，产生关联规则。

设I＝{I₁，I₂}是项的集合，关联规则是形如X→Y的蕴含式，其中X＝{x₁，x₂，...，x_k}，Y＝{y₁，y₂，...，y_k}，X∩Y＝，X，Y∈I，X表示关联规则的前提，Y表示关联规则的结论事实，I表示频繁项集。关联规则是既满足于最小置信度阈值又满足最小支持度阈值的规则。支持度以及置信度是衡量规则的两种方法，支持度反映了所发现的规则的有用性，置信度反映了所发现的规则的确定性。X→Y的支持度是采集的运维数据中包含X∪Y的百分比，即概率P(X∪Y)，X→Y的置信度是采集的运维数据中既包含X又包含Y的运维数据的百分比，即概率P(X|Y)，公式如下：

Support(X→Y)＝P(X∪Y)；

Confidence(X→Y)＝P(X|Y)；

Support(X→Y)表示X→Y的支持度，Confidence(X→Y)表示X→Y的置信度；

关联规则的计算方法为：

对于每个频繁项集I的每个非空子集s，若有

则可得出关联规则“s→(I-s)”。

具体地，步骤S22可分解为如下步骤：

S221.设计Map函数：读取训练集数据文件，将相应的数值区间化，生成所有出现的样本类名和属性出现的所有可能取值，把它们放入Context集合；输入的数据键/值对为(行号，样本)，输出的数据键/值对为(列号，属性值)；

S222.设计Reduce函数：进行规约操作，将列名相同的键/值对规约组成一组键/值对；即，首先接受Map节点输出的键/值对，将其放入HashMap中，如果HashMap中没有对应的值，则追加到HashMap中该key值对应的值的后面；Reduce函数输入的键/值对为Map函数输入的键/值对(列名，属性值)，输出的键/值对(列名，属性值)；

具体地，步骤S23可分解为如下步骤：

S231.设计Map函数：进行统计和累加，调用统计程序对输入的键/值对进行计数，生成中间结果的键/值对，中间结果键/值对包括<类别，计数>和<(类别，属性)，计数>；其中，<类别，计数>表示各个类别的样本总数；<(类别，属性)，计数>表示该类别下各属性值出现的次数；输入的键/值对为<行号，样本>，输出的键/值对为<类别，计数>或<(类别，属性)，计数>。

S232.设计Reduce函数：根据Map函数的输出，计算出先验概率P(C_i)和联合概率p(A_j|C_i)；Reduce函数的输入为<类别，计数>和<(类别，属性)，计数>，输出为<key，概率>。

步骤S24可分解为两个阶段，第一阶段是包含类标号的关联规则的属性的权值计算，第二个阶段是计算不包含类标号关联规则的属性的计算；具体地，步骤S24可分解为如下步骤：

S241.设计Map函数(第一阶段)：完成对包含类标号的关联规则的属性的计数，对输入每个规则的属性进行计数；Map函数的输入为<行号，规则>，输出为<属性，计数>；

S242.设计Reduce函数(第一阶段)：通过对Map函数的输出的计算，完成各个相关属性权值的计算，Reduce函数的输入为<属性，计数>，输出为<属性，权值>；

即，对于包含类标号的关联规则，将该类关联规则每个条件属性除以在包含类标号的关联规则中出现的频率除以包含类标号的关联规则的总数，得到每个条件属性在第一类规则中的概率，即

式中，S(x_i)表示包含x_i的规则数，S表示包含类标号的关联规则的总数，概率ω_i表示该条件属性的权值；

S243.设计Map函数(第二阶段)：对输入的不含类标号的规则进行提取，提取出剩下的属性对应的第一类规则的属性和置信度；Map函数的输入为<行号，规则>，输出为<属性，权值>；

S244.设计Reduce函数(第二阶段)：对Map函数的输出进行属性权值平均值计算，完成对剩下属性权值的计算；Reduce函数的输入为<属性，权值>，函数的输出为<属性，权值>；

即，对于不包含类标号的关联规则，首先找出仅存在与不包含类标号的关联规则的条件属性，然后找出与其在同一规则且存在于包含类标号的关联规则的条件属性，最后通过计算该条件属性相关的包含类标号的关联规则中的条件属性的权值与该规则的置信度乘积的均值，得到该属性的权值：

式中，n表示条件属性的个数，k表示第k个条件属性，ω_k表示该属性相关的包含类标号的关联规则中的条件属性的权值，c_k表示练习两个条件属性的规则的置信度；

改进后的基于关联规则的置信度的加权贝叶斯分类算法公式如下：

式中，C_i表示类标号，x_k表示样本X的第k个属性，w_k表示第k个属性的权值，P(x_k|C_i)表示属性x_k对于类标号C_i的类条件概率，P(X)表示用于归一化的“证据”因子且与类标号无关，P(C_i)表示属性x_k的类先验概率；

具体地，步骤S25可分解为如下步骤：

S251.设计Map函数：计算待填充部件状态属于各个状态的概率值；Map的具体过程如下：根据样本的各个属性，读取该属性的先验概率、属于各个状态的联合概率和权值，计算属于各个状态的概率值；Map函数的输入的键/值对为<行号，样本>，输出为<样本，(状态，概率)>；

S252.设计Reduce函数：找出Map函数输入的待分类样本的概率最大值所属的类别，完成对该样本的分类。Reduce函数的输入为<样本，(状态，概率)>，输出为<样本，状态>。

实施例2

本实施例与实施例1类似，所不同之处在于，本实施例中，步骤S3的具体步骤如下：

S34.知识表示：采用产生式表示法对运维知识数据进行存储；产生式表示法也可以称为规则表示法，主要用于描述知识和陈述各种过程知识之间的控制，及其相互作用的机制；一般来说，基于产生式表示法的知识库就是一个规则库，包含大量的业务知识规则。产生式表示法的基本形式是：IF P THEN Q。其中P是产生式的前提条件，即前件，有事实的逻辑组合构成，Q是结论或动作，即产生式的后件，它表示当前件P满足时应当推出的结论或应当执行的动作。

其中，运维知识库的构建需先明确运维知识库数据类别，步骤S31的具体步骤如下：

S311.在运维知识库中建立规则表，所述规则表包括所述关联规则，如图4所示；其中，规则的前提条件列表存放的是该规则前提条件的变量编号，变量编号映射变量表中的变量内容；表中的状态字段表示规则的状态，总共有五个值：分别是新增、修改、删除、正常、审核未通过；当专家审核通过该条规则后，规则状态由审核未通过变为正常；如果规则状态是删除，并且专家审核通过的话，则将该规则从规则表中删除；规则来源有三种分别是：一是对电力通信网中的数据进行挖掘，挖掘出来的规则；二是运维人员对一种没有出现过并且***不能给出解决方案的故障提出比较好的处理策略，完成维修后，将其通过人工录入到知识库中；三是在推理过程中，通过机器学习得到的新知识；

S312.在运维知识库中建立故障表，所述故障表包括故障的基本信息，运维人员进行故障应对措施录入与查询等，如图5所示。

实施例3

本实施例与实施例2类似，所不同之处在于，在步骤S4中，对运维知识数据进行检索时，检索引擎通过计算语义相似度求出知识与检索词间的相近程度，相似度越高，则表明检索结果与目标结果越相近；运维数据关联知识库中的知识对象可通过结构化形式描述，公式为：

U＝{O₁，O₂，...，O_m}

O_i＝{g_i1，g_i2，...，g_im}

c＝{g₁，g₂，...，g_m}

式中，O_i表示运维知识库U中的一个知识对象，由多个特征向量组成。其中任意特征向量g_ij与第j个属性值相对应；c表示检索条件，其值g_i为用户输入对应的检索值。

步骤S4的具体步骤如下：

S41.关键词提取：通过LDA主题模型生成文档，并在所述文档中提取关键词；LDA(Latent Dirichlet Allocation)是一种文档主题生成模型，包含词、主题和文档三层结构，LDA可用于识别大规模文档集或语料库中潜藏的主题信息；把词项-文档分布矩阵化分成词项-主题与主题-文档两个矩阵，在文档主题中辨识关键词，假定主题数V＝1，则认为仅存在一篇文档，此时LDA模型可视为一个有监督的主题模型，通过该模型对关键词进行提取，提取关键词的公式为：

表示主题v中单词β的数量，

表示单词β属于主题v的概率，

表示主题α属于当前文档的概率。

其中，运维知识数据与检索词之间的相似度的计算公式为：

式中，C表示运维知识库中的运维知识数据，D表示输入的检索词，N表示特征属性的个数，ω_i表示第i个特征属性的权值，s(C_i，D_i)表示第i个特征值的语义相似度函数，且s(C_i，D_i)∈[0，1]；采用训练集合中全部的本文训练SVM分类器，利用SVM分类器计算全部运维数据的相关性参数S，依照相关性参数从大到小选区n个样本，将其加入局部区域，形成局部语义空间；

S43.计算语义相似度：根据所述检索词和关键词之间的相似度确定待选概念集，然后根据词语名称相似度、词语实例相似度、属性相似度、依据词语关系的相似度得到所述检索词和关键词之间的相似度；语义相似度是两个词语在语义上的近似度，相似度越大，匹配度也越大；语义相似度可通过语义距离衡量；

其中，词语名称相似度的计算公式为：

词语实例相似度的计算公式为：

表示只含词语X₂的概率，

表示只含词语X₁的概率；

属性相似度的计算公式为：

依据词语关系的相似度的计算公式为：

然后归并得到：

其中，ω_a+ω_b+ω_c＝1，根据实际挑出的概念对权重值进行设定；

S44.处理检索结果：通过TF-IDF法求出所述检索词与文档的相似度，然后按照权值由大到小的顺序排列检索结果；TF-IDF法，即Term Frequency-Inverse DocumentFrequency(词频-逆文档频度)，用来估计一个词在一个文档中的重要程度；

其中，所述检索词与文档的相似度的计算公式为：

由此获取检索词ω_i与文档d_i的权值向量为：

f_j＝(f_1j，f_2j，...，f_mj)；

在运维知识库中，关键词提取及语义相似度计算非常关键。下列是在相同的数据内，将本发明的LDA主题模型、TF-IDF法和TextRank法进行对比的实验：

首先进行语义相似度计算实验，概念间的语义相似度计算，将本发明方法的计算结果、随机游走方法计算结果、sym-KL方法计算结果和人工标注计算结果进行比较，计算结果如图6所示。在此基础上，通过LDA主题模型、TF-IDF法和TextRank法对“电源设备故障”这一检索词进行运维语义相似性检索，结果如图7所示，LDA主题模型对“通信电源设备故障”这一检索词的检索结果最符合运维人员想要获取的信息，明显优于TF-IDF法和TextRank法。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。