CN107368521B

CN107368521B - 一种基于大数据和深度学习的知识推介方法及***

Info

Publication number: CN107368521B
Application number: CN201710417583.1A
Authority: CN
Inventors: 孔祥明; 蔡禹; 贾义动; 朱容虎
Original assignee: Guangdong Guangye Kaiyuan Technology Co ltd
Current assignee: Guangdong Guangye Kaiyuan Technology Co ltd
Priority date: 2017-06-06
Filing date: 2017-06-06
Publication date: 2020-04-14
Anticipated expiration: 2037-06-06
Also published as: CN107368521A

Abstract

本发明公开了一种基于大数据和深度学习的知识推介方法及***，方法包括：根据场景数据信息进行场景分析；采用深度学习的方法对运维人员数据信息进行处理，生成运维人员画像；根据场景分析的结果和运维人员画像进行知识选取，得到知识推介集；根据知识推介集进行知识推介；***包括场景分析模块、运维人员画像生成模块、知识选取模块和知识推介模块。本发明综合了场景分析的结果和运维人员画像来进行知识选取和知识推介，从实时使用场景和使用用户这二个维度提升了知识推荐的准确率；采用了深度学习的方法来对运维人员的操作行为等数据信息进行学习，使得运维人员画像越来越准确。本发明可广泛应用于计算机应用领域。

Description

一种基于大数据和深度学习的知识推介方法及***

技术领域

本发明涉及计算机应用领域，尤其是一种基于大数据和深度学习的知识推介方法及***。

背景技术

在知识经济到来的今天，知识已被企业提升到战略资源的位置，企业采用知识管理势在必行。随着业务***越来越庞大、业务逻辑越来越复杂、***变更越来越频繁、工作要求越来越高，在业务支撑网运营管理工作的难度也越来越大。通过建设内容丰富和人人参与的统一知识库，可达到为企业建立知识上传和下达的渠道、打造学习型业务支撑团队、助力公司长期可持续健康发展的目的。

知识管理(KM,Knowledge Management)是网络新经济时代的新兴管理思潮与方法，管理学者彼得.杜拉克早在一九六五年即预言：“知识将取代土地、劳动、资本与机器设备，成为最重要的生产因素。”受到20世纪90年代的信息化(资讯化)蓬勃发展影响，知识管理的观念结合网际网络构建的入口网站、数据库以及应用电脑软件***等工具，成为累积知识财富，创造更多竞争力的新世纪利器。

所谓的知识管理，其定义为：在组织中建构一个人文与技术兼备的知识***，让组织中的信息与知识，透过获得、创造、分享、整合、记录、存取、更新等过程，达到知识不断创新的最终目的，并回馈到知识***中，个人与组织的知识得以永不间断的累积，从***的角度进行思考这将成为组织的智慧资本，有助于企业做出正确的决策，以适应市场的变迁。

在知识管理中，关于知识如何应用也成为其中一个很重要的课题。目前对知识的应用，以人工检索和目录树展示为主，这些应用方式均需要较多的人力和时间投入，并且准确率不高。知识推介技术的出现使得知识的获取方式由“搜索”变为“推荐”，解决了该问题。

目前已有部分知识应用会针对“流程”或者“场所”进行分析，并根据分析结果进行知识的推荐。这种方式与人工检索和目录树展示的方式相比，不仅在人力和时间投入上大大减少，而且还能提高知识推荐的准确率。然而，这种方式未能考虑知识应用的使用用户(如知识运维人员等)这一关键信息，准确率未够理想。同时，这种方式也无法不断进行学习和自我修正以适应不断变化的情况，随着时间的推移，其准确率会越来越低。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种准确率高的，基于大数据和深度学习的知识推介方法。

本发明的另一目的在于：提供一种准确率高的，基于大数据和深度学习的知识推介***。

本发明所采取的技术方案是：

一种基于大数据和深度学习的知识推介方法，包括以下步骤：

根据场景数据信息进行场景分析；

采用深度学习的方法对运维人员数据信息进行处理，生成运维人员画像；

根据场景分析的结果和运维人员画像进行知识选取，得到知识推介集；

根据知识推介集进行知识推介。

进一步，所述根据场景数据信息进行场景分析这一步骤，其包括：

进行场景数据信息实时采集，获取当前运维人员操作的场景数据；

对获取的场景数据进行数据清洗；

对数据清洗后的场景数据进行实时场景分析和打标签操作，得到场景标记。

进一步，所述采用深度学习的方法对运维人员数据信息进行处理，生成运维人员画像这一步骤，其包括：

进行运维人员数据信息采集，所述运维人员数据信息包括从运维人员账号注册的信息中获取的数据和实时采集的运维人员的操作行为数据；

对采集的运维人员数据信息进行数据清洗；

对数据清洗后的运维人员数据信息采用融合弱模型训练和Boosting的方法进行运维人员模型训练，得到运维人员画像；

根据运维人员画像进行运维人员与知识标签间的相似度计算，得到运维人员-知识相似度。

进一步，所述对数据清洗后的运维人员数据信息采用融合弱模型训练和Boosting的方法进行运维人员模型训练，得到运维人员画像这一步骤，其包括：

进行文本建模，从而将数据清洗后的运维人员数据信息划分为静态信息数据和动态信息数据；

根据文本建模的要求对给定的训练样本进行弱模型训练，得到多个弱模型；

对多个弱模型采用Boosting方法进行准确性提升，得到运维人员模型的结果分类器；

对运维人员模型的结果分类器采用给定的测试样本进行模型验证；

对通过模型验证后的运维人员模型进行保存，并实时获取数据清洗后的新运维人员数据信息来不断修正运维人员模型和对应的运维人员画像。

进一步，所述根据运维人员画像进行运维人员与知识标签间的相似度计算，得到运维人员-知识相似度这一步骤，其包括：

根据运维人员画像进行名称相似度计算，所述名称相似度的计算公式为：

其中，S_name(U,C)为运维人员画像中概念U与知识标签中概念C间的名称相似度，u_i(1≤i≤n)为概念U中名称u的字符串语义分词结果，c_j(1≤j≤m)为概念C中名称c的字符串语义分词结果，n为概念U中名称u的字符串总数，m为概念C中名称c的字符串总数，Sim(u_i,c_j)为u_i与c_j间的相似度；

根据运维人员画像进行属性相似度计算，所述属性相似度计算公式为：

其中，S_attri(U,C)为运维人员画像中概念U与知识标签中概念C间的属性相似度，U_a和C_a分别表示U和C的属性集，f为给定的非负度量函数，U_a∩C_a表示U和C这两个概念中拥有相同属性的集合，U_a-C_a表示只是运维人员画像中有而知识标签中没有的属性集，C_a-U_a表示只是知识标签中有而运维人员画像中没有的属性集，λ和μ均为给定的权重系数；

根据运维人员画像进行实例相似度计算，所述实例相似度计算公式为：

其中，S_inst(U,C)为运维人员画像中概念U与知识标签中概念C间的实例相似度，P(U,C)表示从实例空间随机抽取的一个实例同时从属于概念U和C的概率，

表示从实例空间随机抽取的一个实例只属于概念U而不属于概念C的概率，

表示从实例空间随机抽取的一个实例只属于概念C而不属于概念U的概率；

根据运维人员画像进行关系相似度计算，得到运维人员画像中概念U与知识标签中概念C间的关系相似度S_relat(U,C)，其中，关系包括同义关系、继承关系和包含关系，同义关系的权重大于继承关系的权重，且同义关系的权重大于包含关系的权重；

根据名称相似度S_name(U,C)、属性相似度S_attri(U,C)、实例相似度S_inst(U,C)和关系相似度S_relat(U,C)计算运维人员-知识相似度，所述运维人员-知识相似度Sim(U,C)的计算公式为：Sim(U,C)＝αS_name(U,C)+βS_attri(U,C)+εS_inst(U,C)+δS_relat(U,C)，其中，α、β、ε和δ分别为给定的名称相似度系数、属性相似度系数、实例相似度系数和关系相似度系数。

进一步，所述根据场景分析的结果和运维人员画像进行知识选取，得到知识推介集这一步骤，其包括：

根据运维人员画像检索运维人员特性，并结合运维人员画像计算运维相似知识集；

根据场景分析的结果实时获取场景特性，并根据场景特性计算场景相似知识集；

判断场景相似知识集与运维相似知识集是否有交集，若是，则根据交集形成推介知识集，反之，则重新获取场景特性，并重新训练运维人员模型来得到新运维人员画像。

对运维人员进行用户场景检索，所述用户场景U_m包含场景u，且

其中，U_T为全量用户场景；

采用设定的相似度计算方法计算出与用户场景U_m相似的知识场景并进行排序，得到相似场景集C_n：

其中，U_m≈C_u表示运维人员的用户场景U_m与知识场景C_u相似，∧为交集符号，C_T为全量知识场景集；

检索给定的场景知识关系模型O^R，得到含场景C_n的知识-场景关系对P_i,j：

其中，P_T为全量知识-场景关系对，C_i为知识场景，R₁为场景C_i的属性，

表示P_i,j通过R₁与C_i相连；

检索给定的知识领域集O^D，得到含有与P_i,j相关联的领域知识集D_k：

其中，D_T为全量知识领域，R₂为领域知识D_k的属性，

表示P_i,j通过R₂与D_k相连；

从全量领域知识推介集

中得到知识推介集K_S：

本发明所采取的另一技术方案是：

一种基于大数据和深度学习的知识推介***，包括：

场景分析模块，用于根据场景数据信息进行场景分析；

运维人员画像生成模块，用于采用深度学习的方法对运维人员数据信息进行处理，生成运维人员画像；

知识选取模块，用于根据场景分析的结果和运维人员画像进行知识选取，得到知识推介集；

知识推介模块，用于根据知识推介集进行知识推介。

进一步，所述运维人员画像生成模块包括：

信息采集单元，用于进行运维人员数据信息采集，所述运维人员数据信息包括从运维人员账号注册的信息中获取的数据和实时采集的运维人员的操作行为数据；

数据清洗单元，用于对采集的运维人员数据信息进行数据清洗；

模型训练单元，用于对数据清洗后的运维人员数据信息采用融合弱模型训练和Boosting的方法进行运维人员模型训练，得到运维人员画像；

相似度计算单元，用于根据运维人员画像进行运维人员与知识标签间的相似度计算，得到运维人员-知识相似度。

进一步，所述相似度计算单元包括：

名称相似度计算子单元，用于根据运维人员画像进行名称相似度计算，所述名称相似度的计算公式为：

属性相似度计算子单元，用于根据运维人员画像进行属性相似度计算，所述属性相似度计算公式为：

实例相似度计算子单元，用于根据运维人员画像进行实例相似度计算，所述实例相似度计算公式为：

关系相似度计算子单元，用于根据运维人员画像进行关系相似度计算，得到运维人员画像中概念U与知识标签中概念C间的关系相似度S_relat(U,C)，其中，关系包括同义关系、继承关系和包含关系，同义关系的权重大于继承关系的权重，且同义关系的权重大于包含关系的权重；

运维人员-知识相似度计算子单元，用于根据名称相似度S_name(U,C)、属性相似度S_attri(U,C)、实例相似度S_inst(U,C)和关系相似度S_relat(U,C)计算运维人员-知识相似度，所述运维人员-知识相似度Sim(U,C)的计算公式为：Sim(U,C)＝αS_name(U,C)+βS_attri(U,C)+εS_inst(U,C)+δS_relat(U,C)，其中，α、β、ε和δ分别为给定的名称相似度系数、属性相似度系数、实例相似度系数和关系相似度系数。

本发明的方法的有益效果是：包括根据场景分析的结果和运维人员画像进行知识选取，得到知识推介集以及根据知识推介集进行知识推介的步骤，综合了场景分析的结果和运维人员画像来进行知识选取和知识推介，不仅能根据知识应用的实时使用场景来进行知识推荐，而且在进行知识推荐时考虑了运维人员画像这一知识应用的使用用户信息，从而从实时使用场景和使用用户这二个维度提升了知识推荐的准确率；包括采用深度学习的方法对运维人员数据信息进行处理，生成运维人员画像的步骤，采用了深度学习的方法来对运维人员的操作行为等数据信息进行学习，能训练出运维人员画像，并能结合运维人员后续的操作行为数据不断对运维人员画像模型进行修正，使得运维人员画像越来越准确。

本发明的***的有益效果是：包括用于根据场景分析的结果和运维人员画像进行知识选取，得到知识推介集的知识选取模块以及用于根据知识推介集进行知识推介的知识推介模块，综合了场景分析的结果和运维人员画像来进行知识选取和知识推介，不仅能根据知识应用的实时使用场景来进行知识推荐，而且在进行知识推荐时考虑了运维人员画像这一知识应用的使用用户信息，从而从实时使用场景和使用用户这二个维度提升了知识推荐的准确率；包括运维人员画像生成模块，在运维人员画像生成模块中采用了深度学习的方法来对运维人员的操作行为等数据信息进行学习，能训练出运维人员画像，并能结合运维人员后续的操作行为数据不断对运维人员画像模型进行修正，使得运维人员画像越来越准确。

附图说明

图1为本发明一种基于大数据和深度学习的知识推介方法的整体流程图；

图2为本发明实施例一知识推介方法的具体流程图；

图3为本发明实施例一运维人员图像生成过程的流程图；

图4为本发明实施例一知识选取过程的流程图。

具体实施方式

参照图1，一种基于大数据和深度学习的知识推介方法，包括以下步骤：

根据场景数据信息进行场景分析；

根据知识推介集进行知识推介。

进一步作为优选的实施方式，所述根据场景数据信息进行场景分析这一步骤，其包括：

对获取的场景数据进行数据清洗；

进一步作为优选的实施方式，所述采用深度学习的方法对运维人员数据信息进行处理，生成运维人员画像这一步骤，其包括：

对采集的运维人员数据信息进行数据清洗；

进一步作为优选的实施方式，所述对数据清洗后的运维人员数据信息采用融合弱模型训练和Boosting的方法进行运维人员模型训练，得到运维人员画像这一步骤，其包括：

进一步作为优选的实施方式，所述根据运维人员画像进行运维人员与知识标签间的相似度计算，得到运维人员-知识相似度这一步骤，其包括：

进一步作为优选的实施方式，所述根据场景分析的结果和运维人员画像进行知识选取，得到知识推介集这一步骤，其包括：

其中，U_T为全量用户场景；

表示P_i,j通过R₁与C_i相连；

其中，D_T为全量知识领域，R₂为领域知识D_k的属性，

表示P_i,j通过R₂与D_k相连；

从全量领域知识推介集

中得到知识推介集K_S：

其中，场景知识关系模型O^R和知识领域集O^D在知识选取前已计算出来或预先给定。本发明在进行知识选取时依次经过用户场景检索、用户场景相似度匹配、知识-场景关系匹配和知识领域匹配，最终找出知识推介集。

本发明一种基于大数据和深度学习的知识推介***，包括：

场景分析模块，用于根据场景数据信息进行场景分析；

知识推介模块，用于根据知识推介集进行知识推介。

进一步作为优选的实施方式，所述运维人员画像生成模块包括：

进一步作为优选的实施方式，所述相似度计算单元包括：

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。

实施例一

针对现有技术知识推荐的准确率不高的问题，本发明提出了一种应用于运维环境的高效的知识推介技术。该知识推介技术通过增强学习等深度学习算法对知识库的使用场景和使用用户(即运维人员)进行建模，进而基于建立的模型进行精准的知识推广应用。该推介技术具备以下特点：

(1)该技术通过对运维人员的历史操作行为进行离线学习，训练出运维人员画像，并结合运维人员后续的操作行为数据不断对该运维人员画像模型进行修正，使得运维人员画像越来越准确。

(2)该技术对运维工作的***操作场景进行实时分析，并结合训练出的运维人员画像进行评估(即知识选取)，能精准地进行知识推介。

下面从名词解释和实现过程这两方面对本发明的知识推介的具体实现过程进行详细说明。

(一)名词解释

本发明涉及到的专有名词如下：

知识推介：针对知识数据的推荐。知识推介通过对运维平台***用户的处理内容及用户模型来推送并介绍相关知识给用户，一方面能帮助其加快工作的处理，另一方面也提供了更深入的相关信息来增强用户能力。

深度学习：源于人工神经网络的研究，通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

知识库：知识工程中结构化、易操作、易利用和全面有组织的知识集群，是针对某一(或某些)领域问题求解的需要，采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的相互联系的知识片集合。这些知识片包括与领域相关的理论知识，事实数据，由专家经验得到的启发式知识(如某领域内有关的定义、定理和运算法则等)，以及常识性知识等。一般的应用程序与基于知识的***之间的区别在于：一般的应用程序是把问题求解的知识隐含地编码在程序中，而基于知识的***则将应用领域的问题求解知识显式地表达，并单独地组成一个相对独立的程序实体。

运维信息化***：以IT部门在日常的运行维护管理流程为核心，以事件跟踪为主线，以解决IT运维管理中的八大管理问题(流程管理、事件管理、问题管理、变更管理、发布管理、运行管理、知识管理、综合分析管理)为目的，为IT部门提供了一个高效、规范的IT运维管理平台。该***不仅实现了与目前企业内部使用的业务***的接口，而且整合了客服、运维和业务管理等***功能，并可以通过邮件、手机短信等形式对责任人进行阶段提示，提高了***维护的服务响应效率；通过信息的整合，实现了对各种资源的综合管理，包括各种静态资源、基础资料、备品备件资源的有效管理，从而全面提高了IT部门运行维护的快速响应能力，同时也为IT部门的业务知识积累和业务考核建立了完善的数据模型。

Boosting方法：是一种用来提高弱分类算法准确度的方法，这种方法能把若干个分类器整合为一个分类器。

(二)知识推介方法的具体实现过程

如图2所示，以运维信息化***的知识库应用为例，本发明的知识推介方法的具体包括以下步骤：

步骤一：进行场景分析，生成场景模式。

为了实时获取运维人员操作的场景信息，并进行场景-知识相关性分析来提升知识推介的准确率，本发明提出了新的场景分析算法。如图1所示，该新的场景分析算法的具体细化步骤如下：

Step1：场景数据信息采集：获取当前运维人员操作的场景数据P。

Step2：数据清洗：针对场景数据P进行数据清洗，其目的是对场景数据P进行审查和校验，删除重复信息，纠正存在的错误，并保证数据一致性。

Step3：场景模式生成：这一过程简单来说就是针对采集并清洗后的场景数据进行分析，并打上标签的过程，其最终可得到场景标记O^C。

步骤二：运维人员画像生成。

本发明提出了新的运维人员分析算法，通过获取运维人员的静态数据信息和动态数据信息，运用增强学习等机器学习算法来构建运维人员画像，并能运用运行中获取的新运维人员数据对运维人员画像模型进行修正和调整，提升了运维人员画像的精准率。

如图2和图3所示，运维人员分析算法的具体细化步骤如下：

Step1：进行运维人员数据信息采集：一方面从运维人员账号注册的信息中获取数据，另一方面实时采集运维人员的操作行为数据。

Step2：数据清洗：对采集的运维人员数据信息进行数据清洗，其目的是对维人员数据信息进行审查和校验，删除重复信息，纠正存在的错误，并保证数据一致性。

Step3：文本建模：针对采集并数据清洗后的数据进行分类，主要将数据清洗后的数据分为静态信息数据和动态信息数据这两类。静态信息数据指运维人员相对稳定的信息，比如姓名、出生日期和性别等。动态信息数据指运维人员不断变化的行为信息，包括每日操作行为和浏览行为等。

Step4：训练多个弱模型：利用SVM等机器学***面的间隔为：δ_i＝y_i(wx_i+b)。

Step5：对多个弱模型进行Boosting准确性提升：通过对训练样本集的操作获得训练样本子集，然后用弱分类算法在训练样本子集上训练生成一系列的基分类器，最后通过Boosting方法得到运维人员模型的结果分类器。

本发明将除了Step4之外的其它弱分类算法作为基分类算法放到Boosting框架中，通过Boosting框架对训练样本集的操作，得到不同的训练样本子集，然后用训练样本子集去训练生成基分类器(每得到一个训练样本子集就用一个基分类算法在该训练样本子集上产生一个基分类器，这样在给定训练轮数n₀后，就可产生n₀个基分类器)，再通过Boosting框架算法将这n₀个基分类器进行加权融合，产生一个最后的结果分类器。

Step6：模型验证：针对训练出的运维人员画像模型进行模型验证(模型验证可通过抽样或给定的测试样本的方式完成)，以确保模型的准确性。

Step7：保存模型：将通过模型验证后的初步运维人员画像模型进行保存，之后会在运行过程中实时地采集新的运维人员数据信息来不断修正运维人员画像模型和运维人员画像结果。

Step8：进行运维人员-知识相似度计算：针对运维人员画像中的概念名称、属性、实例和关系计算出运维人员-知识相似度Sim(U,C)。

进行运维人员-知识相似度计算的过程可进一步细分为：

1)进行名称相似度计算：

2)进行属性相似度计算，所述属性相似度计算公式为：

3)进行实例相似度计算：

4)根据运维人员画像进行关系相似度计算，得到运维人员画像中概念U与知识标签中概念C间的关系相似度S_relat(U,C)。其中，关系包括同义关系、继承关系和包含关系。在进行关系相似度计算时，同义关系的权重大于继承关系的权重，且同义关系的权重大于包含关系的权重；

5)根据名称相似度S_name(U,C)、属性相似度S_attri(U,C)、实例相似度S_inst(U,C)和关系相似度S_relat(U,C)计算运维人员-知识相似度，所述运维人员-知识相似度Sim(U,C)的计算公式为：Sim(U,C)＝αS_name(U,C)+βS_attri(U,C)+εS_inst(U,C)+δS_relat(U,C)，其中，α、β、ε和δ分别为给定的名称相似度系数、属性相似度系数、实例相似度系数和关系相似度系数。

步骤三：知识选取：根据场景分析的结果和运维人员画像进行知识选取，得到知识推介集。

如图4所示，知识选取可进一步细化为以下过程：

1)根据运维人员画像检索运维人员特性，并结合运维人员画像计算运维相似知识集；

2)根据场景分析的结果实时获取场景特性，并根据场景特性计算场景相似知识集；

3)判断场景相似知识集与运维相似知识集是否有交集，若是，则根据交集形成推介知识集，反之，则重新获取场景特性，并重新训练运维人员画像模型来得到新运维人员画像。

若设知识标签为U_k，则推介的知识服务集合可表示为K_S。此时，知识选取的具体细化步骤如下：

Step1：对运维人员进行用户场景检索，所述用户场景U_m包含场景u，且

其中，U_T为全量用户场景；

Step2：采用设定的相似度计算方法计算出与用户场景U_m相似的知识场景并进行排序，得到相似场景集C_n：

Step3：检索给定的场景知识关系模型O^R，得到含场景C_n的知识-场景关系对P_i,j：

表示P_i,j通过R₁与C_i相连；

Step4：检索给定的知识领域集O^D，得到含有与P_i,j相关联的领域知识集D_k：

其中，D_T为全量知识领域，R₂为领域知识D_k的属性，

表示P_i,j通过R₂与D_k相连；

Step5：从全量领域知识推介集

中得到知识推介集K_S：

与现有技术相比，本发明具有以下优点：

(1)高准确率和高效率：采用了知识推介技术，避免了因为个人对知识的理解表达不同导致的知识检索命中率差异很大，并减少了人工检索知识的时间消耗，能实时推广知识应用，加快用户的处理效率。

(2)提供了运维人员画像：引入了用户的操作行为作为输入，创建了运维人员画像模型这一用户模型，并根据用户模型进行知识推送，提升了知识推荐的准确率。

(3)具备自学习能力：通过基于机器学习的深度学习算法，让运维人员画像模型不断获取运维人员的操作行为来对模型进行修正，使得运维人员画像模型随着时间推进和运维人员操作次数增加，准确率越来越高。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。