CN111143448A

CN111143448A - 一种知识库构建方法

Info

Publication number: CN111143448A
Application number: CN201911221375.XA
Authority: CN
Inventors: 孙晓光; 刘为民; 张利达
Original assignee: Beijing Borui Tongyun Technology Co Ltd
Current assignee: Beijing Borui Tongyun Technology Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-05-12
Anticipated expiration: 2039-12-03
Also published as: CN111143448B

Abstract

本发明涉及一种知识库构建方法，所述方法包括：确定数据源；根据数据源获取本体数据；根据本体数据；根据数据源抓取本体数据生成待处理数据；确定待处理数据是否为半结构化数据；如果待处理数据不为半结构化数据，则对待处理数据进行知识信息提取，得到结果数据；如果待处理数据为半结构化数据，则对待处理数据进行统一化处理，得到统一处理后的数据；对统一处理后的数据进行知识信息提取，得到结果数据；如果待处理数据不为半结构化数据，则对待处理数据进行知识信息提取，得到结果数据；将结果数据添加至知识库中。

Description

一种知识库构建方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种知识库构建方法。

背景技术

一个比较好的语音交互***除了要准确解析到用户的问话外，还需要大量的底层数据支持，在健康知识表达方面，由于健康知识很难用关系数据库来定义与概念相关的各种关系，特别是概念之间的关系可能需要动态的维护，采用关系数据库的表结构很难实现。

发明内容

本发明的目的是针对现有技术的缺陷，提供一种知识库构建方法，使得无论数据是否为半结构化数据，都可实现知识信息的提取。

为实现上述目的，本发明提供了一种知识库构建方法，所述方法包括：

确定数据源；

根据所述数据源获取本体数据；

根据所述本体数据；

根据所述数据源抓取本体数据生成待处理数据；

确定所述待处理数据是否为半结构化数据；

如果所述待处理数据不为所述半结构化数据，则对所述待处理数据进行知识信息提取，得到结果数据；

如果所述待处理数据为所述半结构化数据，则对所述待处理数据进行统一化处理，得到统一处理后的数据；

对所述统一处理后的数据进行所述知识信息提取，得到结果数据；

将所述结果数据添加至知识库中。

优选的，在所述获取本体数据之前，所述方法还包括：

获取调研信息；

所述调研信息包括：本体的领域、复用现有本体的概率、本体的术语、类层次、类属性以及属性的约束信息；

根据所述调研信息构建所述本体数据。

优选的，所述统一化处理具体为：

确定是否存在与当前待处理数据的名称相同的实施例；

如果存在与当前待处理数据的名称相同的实施例，则对当前待处理数据和当前实施例进行属性规则映射，并将当前待处理数据添加至实例库；

如果不存在与当前待处理数据的名称相同的实施例，则确定当前待处理数据的属性向量空间与所述实例库是否相对应；

如果当前待处理数据的属性向量空间与所述实例库相对应，则添加当前待处理数据的名称，并将当前待处理数据添加至实例库；

如果当前待处理数据的属性向量空间与所述实例库是不对应，则将当前待处理数据添加至实例库。

进一步优选的，所述确定当前待处理数据的属性向量空间与所述实例库是否相对应具体为：

根据所述当前待处理数据的属性名设置为关键词；

建立所述关键词的关键词向量；

计算得到所述关键词向量的夹角余弦值确定当前待处理数据的属性向量空间与所述实例库是否相对应。

优选的，所述对所述待处理数据进行知识信息提取具体为：

通过学习模型进行知识信息提取。

进一步优选的，所述通过学习模型进行知识信息提取具体为：

对训练数据集进行类标注，得到标注信息；

根据所述标注信息通过对数似然比算法确定关键词；

通过FP-Growth算法确定所述关键词的组合，根据组合结果生成匹配规则模式串；

根据所述匹配规则模式串对所述待处理数据通过正则模板进行知识信息提取。

进一步优选的，所述根据所述标注信息通过对数似然比算法确定关键词具体为：

确定所述训练数据集中包含当前关键词的目标特征的第一样本数、不包含当前目标关键词的特征的第二样本数，以及所述训练数据集中含有目标当前关键词的特征和目标单词的第三样本数；

对所述第一样本数和、所述第二样本数和第三样本数进行最大似然计算，得到第一似然函数和第二似然函数；

根据所述第一似然函数和所述第二似然函数得到最终似然比；

根据所述最终似然比确定所述关键词。

进一步优选的，所述通过FP-Growth算法确定所述关键词的组合具体为：

对所述关键词构建FP树；

根据所述FP树挖掘频繁项组合；

计算所述频繁项组合的Kulc值和IR值，

如果存在Kulc值大于第一阈值并且IR值小于第二阈值的频繁项，则对所述频繁项进行筛选，根据所述筛选结果确定所述关键词的组合。

进一步优选的，所述对所述关键词构建FP树具体为：

遍历根据所述标注信息通过对数似然比算法确定关键词，得到所述关键词的全集，以及每个关键词的支持度；

根据所述全集和所述关键词的支持度得到频繁项列表；

根据频繁项列表对每个关键词进行排序，得到频繁项；

确定已构建的FP树中的节点是否与所述频繁项相同，且所述已构建的FP树中的节点的前缀是否与所述频繁项的前缀相同；

如果所述已构建的FP树中的节点与频繁项相同，且所述已构建的FP树中的节点的前缀与所述频繁项的前缀相同，则所述已构建的FP树中的节点计数加一；

如果所述已构建的FP树中的节点与频繁项不同，或所述已构建的FP树中的节点的前缀与所述频繁项的前缀不同；则生成新节点，并将所述新节点***到与当前频繁项的链表表尾。

进一步优选的，根据所述FP树挖掘频繁项组合具体为：

根据所述头指针列表获取每个所述频繁项的条件模式基；

根据所述频繁项的条件模式基生成条件树；

通过所述条件树递归查找频繁项集，得到所述频繁项组合。

本发明实施例提供的知识库构建方法，通过对半结构化和非半结构化的数据进行区别处理，使得无论数据是否为半结构化数据，都可实现知识信息的提取，从而提高了对于健康领域知识库构建的准确性。

附图说明

图1为本发明实施例提供的知识库构建方法的流程图；

图2为本发明实施例提供的对待处理数据进行统一化处理方法的流程图；

图3为本发明实施例提供的对待处理数据进行知识信息提取方法的流程图；

图4为本发明实施例提供的对关键词构建FP树方法的流程图；

图5为本发明实施例提供的根据所述FP树挖掘频繁项组合方法的流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明实施例提供的一种知识库构建方法，该方法应用于服务器。为了更好的理解本申请中的内容，下面首先对本申请中所涉及的关键术语的定义进行解释说明：

本体(Ontology)：给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延规则的定义。

知识库：为方便和有效地使用与管理大量的知识，而把人类已经具有的知识以一定的形式表示存储到计算机中所构成的***。

实体对齐：也叫实体匹配或者实体解析，是判定在同一个数据集或者数据集不相同的情况下，这两个命名实体是不是同时表示现实世界中的同一个事物的过程。

支持度：表示前项与后项在一个数据集中同时出现的频率。以百分比表示。

如图1所示，本申请实施例的知识库构建方法，包括：

步骤101，服务器确定数据源；

具体的，数据来源的多样性，能够保证最终构建的健康知识既有广度又有深度。健康领域知识表示的范围比较广泛，更需要采用多个数据来源进行数据的采集。

在一个具体的例子中，本申请中的数据源包括以下几类：

权威部门门户网站数据，这类网站数据可以提取到健康规范，本体类的权威解释。比如中国疾控中心，中华医学会。

健康方面的知名网站，这类网站健康信息丰富，能很好的体现健康本体类、属性、关系，在数据表现上是半结构化数据。

健康相关的资讯网站，比如在线病例，在线问诊等，此部分作为本体的补充资源。

步骤102，根据数据源获取本体数据；

具体的，通过爬虫技术根据数据源中目标网站的特点对目标数据进行抓取，将目标数据作为本体数据添加到临时处理结果库中。

步骤103，根据本体数据生成待处理数据；

具体的，从临时处理结果库中提取本体数据并对本体数据进行编写，生成待处理数据。

在一个具体的例子中，服务器采用斯坦福大学提出的七步法来实现本体数据的编写，获取包括本体的领域、复用现有本体的概率、本体的术语、类层次、类属性以及属性的约束信息的调研信息，并根据调研信息构建所述本体数据。

获取本体数据的过程可以采用软件进行。优选的，可采用Protégé软件进行，与同类***相比，其优势在于：图形化的界面，可以让用户进行可视化编辑，支持多种本体表示语言，中文插件对用户友好，支持Unicode字符集输入等。

在一个具体的实施例中，本申请采用网络本体语言(Web Ontology Language，OWL)作为本体数据获取后选择的语言模式，OWL是W3C推荐的本体描述语言，具有较强的表达能力，它采用面向对象的方式来描述领域知识，即通过类和属性描述对象，并通过公理(Axioms)来描述这些类和属性的特征和关系。

步骤104，确定待处理数据是否为半结构化数据；

具体的，通常，知识表达分为四个层次：L1：非机构化；L2：半结构化；L3：结构化，也就是数据元素是结构化和语义化，其表达逻辑能够被计算机读懂，如XML或UML；L4：可执行，也就是计算机可以直接根据知识库的定义进行推理。能被计算机理解执行的知识表达需要L3或L4两个层次。

如果待处理数据为半结构化数据，则执行步骤105。如果待处理数据不为半结构化数据，则执行步骤106；

步骤105，对待处理数据进行统一化处理；

具体的，在一个例子中，如图2所示，对待处理数据进行统一化处理可以包括：

步骤201，确定是否存在与当前待处理数据的名称相同的实施例；

具体的，如果存在则执行步骤202，如果不存在则执行步骤203。

步骤202，对当前待处理数据和当前实施例进行属性规则映射，并将当前待处理数据添加至实例库；

具体的，因为待处理数据有可能是多个数据源，同一事物的数据有可能有多条，但有不同属性表述，把这些数据处理为***中同一个事物的过程，也就是实体对齐。而本申请中的当前待处理数据和当前实施例进行属性规则映射的过程，可以理解为一个实体对齐的过程。

步骤203，确定当前待处理数据的属性向量空间与所述实例库是否相对应；

具体的，服务器首先根据当前待处理数据的属性名设置为关键词，然后建立关键词的关键词向量得到式1。

(S＝{w1,w2,...,wn}) 式1，

其中上述表达式，S表示实体w的非结构化文本关键词向量。

然后，在根据式1和式2，计算得到关键词向量的夹角余弦值，根据关键词向量的夹角余弦值确定当前待处理数据的属性向量空间与实例库是否相对应。

sim(s1,s2)＝cos(s1,s2) 式2

其中，S1表示实体1的非结构化文本关键词向量，S2表示实体2的非结构化文本关键词向量，cos(S1,S2)表示实体1和2非机构化文本关键词向量的夹角余弦值。

如果当前待处理数据的属性向量空间与所述实例库相对应，则执行步骤204；如果当前待处理数据的属性向量空间与实例库不对应，则执行步骤205。

步骤204，添加当前待处理数据的名称，并将当前待处理数据添加至实例库；

具体的，如果当前待处理数据的属性向量空间与所述实例库相对应，则添加当前待处理数据的名称后，对当前待处理数据和当前实施例进行属性规则映射，并将当前待处理数据添加至实例库。此时，当前待处理数据已为统一处理后的数据。

步骤205，将当前待处理数据添加至实例库；

具体的，此时，当前待处理数据已为统一处理后的数据。

步骤106，对待处理数据进行知识信息提取；

具体的，知识信息提取是针对非结构数据的处理，因为这些数据主要是从非结构化健康源中发现新知识过程，比如在线问诊类，电子病历等。这些数据实体和关系隐藏在文本中，这部分数据通过机器学习的方法进行处理，也就是通过学习模型进行知识信息提取。

在一个例子中，如图3所示，对待处理数据进行知识信息提取可以包括：

步骤301，对训练数据集进行类标注，得到标注信息；

步骤302，根据所述标注信息通过对数似然比算法确定关键词；

具体的，对数似然比是一种用来比较两个模型拟合程度的假设检验方法，用来确定进行比较的模型在当前数据上哪个更可靠。

服务器确定训练数据集中包含目标特征的第一样本数、不包含目标特征的第二样本数，以及所述训练数据集中含有目标特征和目标单词的第三样本数，对第一样本数、第二样本数和第三样本数进行最大似然计算，得到第一似然函数(也就是(训练样本中包含当前关键词的样本数据的)和第二似然函数(也就是不包含当前特征的样本数的)，根据第一似然函数和第二似然函数得到最终似然比，最后根据最终似然比确定关键词。

在一个具体的实施例中，

首先做两个假设：下述假设1表示单词w和特征F同时出现的概率和单词w与没有特征F出现的概率相同，也就是表示单词w和特征F没有相关性。下述假设2表示单词w和特征F同时出现的概率和单词w与没有特征F出现的概率不同，也就是表示当F出现后会影响w出现的概率，两者具有相关性。例如：我们在统计时发现“喜马”出现时“拉雅”就会伴随出现，那“喜马”和“拉雅”同时出现的概率和只有“喜马”出现的概率就不相同，满足第2个假设。再例如，统计“天气”和“足球”同时出现的概率，和只有“天气”的概率相同，这就满足第1个假设说明“足球”对天气的统计不构成影响，两者没有相关性。假设1如式1：

假设2如式2：

假设2是算法提取关键词的核心，即某个单词w在特征F中不是随机出现的。对单词w的概率有影响的可以视为特征，在此可以理解为对单词w有影响的字或词，如上例中“拉雅”就是“喜马”的特征。

根据对训练语料的分析，可以得到：

c₁＝N(F)，c₂＝N(w)，c_1，2＝N（w∧F) (式3)

上述表达式中，用c表示出现次数，c1表示的是特征F出现的次数，c2表示单词w出现的次数，c1,2表示单词w和特征F同时出现的次数，这样通过统计出来的次数就可以计算概率。N(F)和

分别表示第一样本数和第二样本数，N(w∧F)表示第三样本数。

对p，p1，p2进行最大似然估计，得到

已知二项式按如下分布：

式5表示随机变量x具有两个参数k和n，可得到假设1的似然函数，也就是第一似然函数：

L(H₁)＝b(c_1，2；c₁，p)b(c₂-c₁；N-c₁，p) (式6)

假设2的似然函数，第二似然函数：

L(H₂)＝b(c_1，2；c₁，p₁)b(c₂-c1；N-c₁，p₂) (式7)

最终似然比定义如下：

Wilks(两个广义方差之比的统计量)已经证明，当样本足够大时，-2logλ服从χ2分布，对上述的表达式进行带入和化简最后得到概念和单词的对数似然比：

当单词w在非特征F中出现的频率越高，说明特征F的区分度越小，选定为关键词的概率越小。为尽可能获取纯度高的关键词集合，引入参数ε(ε＞1)修改上式得到：

上述L(w，F)值越大，说明单词在此类特征中权重越高，可以作为该类特征关键词。

步骤303，通过FP-Growth算法确定所述关键词的组合，根据组合结果生成匹配规则模式串；

具体的，服务器对关键词构建FP树，根据所述FP树挖掘频繁项组合，计算频繁项组合的Kulc值和IR值，如果存在Kulc值大于第一阈值并且IR值小于第二阈值的频繁项，则对该频繁项进行筛选，根据筛选结果确定所述关键词的组合。

Kulc的定义如下：

Kulc＝1/2(P(A|B)+P(B|A)) (式11)

其中，A和B理解为表示两个频繁项(频繁出现的关键词)，用此式表示两个频繁出现的关键词是否相关，参数取值范围为0-1，值越大，表示相关性越大。

IR的定义如下：

IR为0，两方向相同，两者之差越大，不平衡比越大。

优选的，第一阈值为0.5；第二阈值为0.1。

在一个具体的例子中，如图4所示，对关键词构建FP树可以包括：

步骤401，遍历根据标注信息通过对数似然比算法确定关键词，得到关键词的全集，以及每个关键词的支持度；

步骤402，根据全集和关键词的支持度得到频繁项列表；

步骤403，根据频繁项列表对每个关键词进行排序，得到频繁项；

步骤404，确定已构建的FP树中的节点是否与频繁项相同，且已构建的FP树中的节点的前缀是否与频繁项的前缀相同；

具体的，如果已构建的FP树中的节点与频繁项相同，且已构建的FP树中的节点的前缀与频繁项的前缀相同，则执行步骤405；如果已构建的FP树中的节点与频繁项不同，或已构建的FP树中的节点的前缀与频繁项的前缀不同；则执行步骤406。

再此步骤之前，还可以先创建FP树根节点，值为null。

步骤405，已构建的FP树中的节点计数加一；

步骤406，生成新节点，并将新节点***到与当前频繁项的链表表尾；

步骤407，建立一个额外的头指针列表；

具体的，在构建FP树的同时，还需建立一个额外的头指针列表，记录每个频繁项，按支持度排序，每一项通过链表记录其在树中的位置。

在一个具体的例子中，如图5所示，根据所述FP树挖掘频繁项组合可以具体为：

步骤501，根据头指针列表获取每个所述频繁项的条件模式基；

具体的，这一过程可以理解为所查找元素为结尾的路径集合。

步骤502，根据频繁项的条件模式基生成条件树；

具体的，这一过程可以理解为过滤掉支持度低的非频繁项；

步骤503，通过条件树递归查找频繁项集，得到频繁项组合；

具体的，对头指针列表中每个频繁项和前缀路径组合，添加到结果集中，然后计算该频繁项的条件树，当条件树不为空时，构建新的条件树和头指针，并进行递归调用，直到构建的条件树为空停止。

步骤304，根据匹配规则模式串对待处理数据进行知识信息提取；

步骤107，将结果数据添加至知识库中；

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、用户终端执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种知识库构建方法，其特征在于，所述方法包括：