CN112131401B

CN112131401B - 一种概念知识图谱构建方法和装置

Info

Publication number: CN112131401B
Application number: CN202010961659.9A
Authority: CN
Inventors: 陈灿宇; 赵瑞辉; 赵博
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2024-02-13
Anticipated expiration: 2040-09-14
Also published as: CN112131401A

Abstract

本申请实施例提供一种概念知识图谱构建方法和装置，该方法包括：获取目标领域的文本数据；对文本数据进行实体识别，以提取出文本数据中的概念实体；获取概念实体之间待提取的关联关系的类型；调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的关联关系；根据概念实体和关联关系，构建目标领域对应的概念知识图谱。本申请实施例通过有针对性的提取出概念实体之间的隐含的且难以提取的关联关系，提高了关联关系提取的效率和准确率，并根据关联关系构建目标领域的概念知识图谱，提高构建概念知识图谱的效率和准确率。

Description

一种概念知识图谱构建方法和装置

技术领域

本申请涉及数据处理领域，具体涉及一种概念知识图谱构建方法和装置。

背景技术

目前，知识图谱在问答***，检索***，个人助手等领域取得了广泛的应用，然而具体领域的概念知识图谱的构建成本依然非常昂贵，因为概念实体之间的关系一般较为抽象，难以从一句话中识别出来。因此目前概念知识图谱的构建往往依赖于专家的参与，比如在教育领域概念知识图谱的构建，往往需要具有丰富经验的教育专家或高级教师参与，并且只能小规模应用，无法适用于大型网上授课***的需求；在医疗领域概念知识图谱的构建，往往需要有丰富知识的医生或医学专家进行构建，并且无法满足从庞大医疗数据集中构建可用概念知识图谱的需要。由此可知，目前概念知识图谱的构建，普遍依赖于专家的参与，需耗费大量成本，且降低了概念知识图谱构建的效率。另一方面，目前的概念实体关系提取方法大都为基于深度学习的关系提取方法，基于深度学习的关系提取方法只能提取文本中概念实体之间较为明显的关系，而对于一些不明显的关系，基于深度学习的关系提取方法并不适用，造成关系提取的准确性降低。

发明内容

本申请实施例提供一种概念知识图谱构建方法和装置，可提高关联关系提取的准确性，提高概念知识图谱构建的效率和准确率。

本申请实施例提供了一种概念知识图谱构建方法，包括：

获取目标领域的文本数据；

对文本数据进行实体识别，以提取出文本数据中的概念实体；

获取概念实体之间待提取的关联关系的类型；

调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的关联关系；

根据概念实体和关联关系，构建目标领域对应的概念知识图谱。

本申请实施例还提供了一种概念知识图谱构建装置，包括：

文本获取单元，用于获取目标领域的文本数据；

实体提取单元，用于对文本数据进行实体识别，以提取出文本数据中的概念实体；

类型获取单元，用于获取概念实体之间待提取的关联关系的类型；

关系提取单元，用于调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的关联关系；

构建单元，用于根据概念实体和关联关系，构建目标领域对应的概念知识图谱。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一种概念知识图谱构建方法。

本申请实施例还提供了一种计算机设备，该计算机设备包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中所述处理器和所述存储器相连接，所述一个或多个计算机程序被存储于所述存储器中，并配置为由所述处理器执行以实现上述任一种概念知识图谱构建方法。

本申请实施例通过获取目标领域的文本数据，并自动提取出文本数据中的概念实体，在得到概念实体之后，根据待提取的关联关系的类型，调用类型对应的识别方式提取出概念实体之间的关联关系，再根据提取出的概念实体和概念实体之间的关联关系，构建概念知识图谱。本申请实施例根据待提取的关联关系的类型，调用类型对应的识别方式提取出概念实体之间的关联关系，可有针对性的提取出概念实体之间的隐含的(距离比较远)且难以提取的关联关系，提高了关联关系提取的效率和准确率，并根据关联关系构建目标领域的概念知识图谱，提高构建概念知识图谱的效率和准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的概念知识图谱构建***的场景示意图；

图2是本申请实施例提供的概念知识图谱构建方法的流程示意图；

图3是本申请实施例提供的概念知识图谱构建方法的流程示意图；

图4是本申请实施例提供的概念实体提取方法的流程示意图；

图5是本申请实施例提供的概念实体提取方法的流程示意图；

图6是本申请实施例提供的前置关系提取方法的流程示意图；

图7是本申请实施例提供的前置关系提取方法的流程示意图；

图8是本申请实施例提供的前置关系提取方法的流程示意图；

图9是本申请实施例提供的前置关系提取方法的流程示意图；

图10是本申请实施例提供的医疗领域概念知识图谱构建方法的流程示意图；

图11是本申请实施例提供的教育领域概念知识图谱构建方法的流程示意图；

图12是本申请实施例提供的概念知识图谱构建装置的结构示意图；

图13是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请涉及自然语言处理技术中的知识图谱，具体地，涉及概念知识图谱。

其中，概念知识图谱，指的是由『概念实体-关联关系-概念实体』三元组构成的知识图谱，用可视化的方式描述概念实体以及概念实体之间的相互联系。

实体，指的是客观存在并可相互区别的事物。概念实体，指的是特定领域的需要官方定义的抽象实体，且抽象实体之间可相互区别。比如教育领域的“线性代数”“有理数”等，医疗领域的“癌症”“肺癌”等。

关联关系，指的是概念实体与概念实体之间的关系，概念实体与概念实体之间的关系包括多种，如前置关系，包含关系等，还包括本申请实施例中未提到的一些关系。前置关系、包含关系为隐含的关联关系，隐含的关联关系中的两个概念实体之间的距离(词距)比较远。

其中，前置关系指的是两个概念实体之间的出现有一定的先后关系，将这种先后关系作为前置关系。比如在教育领域，先有“实数”，再有“有理数”，因为“有理数”是基于“实数”来进行定义的；如此，“实数”和“有理数”构成前置关系。再比如，“乘法运算”和“方程”构成前置关系；“倒数”和“微分”构成前置关系，等等。

包含关系指的是一个概念实体包括另一个概念实体的关系。比如，在教育领域，“实数”和“有理数”构成包含关系，理解为“实数”包括“有理数”；“微积分”和“积分”构成包含关系，理解为“微积分”包括“积分”。再比如，在医疗领域，“癌症”和“肺癌”构成包含关系，理解为“癌症”包括“肺癌”，等等。

本申请实施例提供一种概念知识图谱构建方法、装置、计算机设备和存储介质。本申请实施例提供的概念知识图谱构建装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端设备，包括台式机、智能手机、便携式电脑、掌上电脑(PersonalDigital Assistant，PDA)、穿戴式设备、机器人、嵌入式设备等。

本申请实施例还提供了一种概念知识图谱构建***，如图1所示。该概念知识图谱构建***中包括计算机设备和终端设备。计算机设备和终端设备通过网络连接。网络中包括路由器、网关等网络实体。计算机设备向终端设备发送网页爬取请求，以爬取对应网页中的目标领域的文本数据，终端设备将所对应的文本数据返回至计算机设备中。终端设备的网页上包括目标领域的文本数据。计算机设备获取该目标领域的文本数据，并对文本数据进行实体识别，以提取出文本数据中的概念实体；获取概念实体之间待提取的关联关系的类型；调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的关联关系；根据概念实体和关联关系，构建目标领域对应的概念知识图谱。

计算机设备根据待提取的关联关系的类型，调用类型对应的识别方式提取出概念实体之间的关联关系，可有针对性的提取出概念实体之间的隐含的(距离比较远)且难以提取的关联关系，提高了关联关系提取的效率和准确率。

图2是本申请实施例提供的概念知识图谱构建方法流程示意图，该方法应用于计算机设备中，该概念知识图谱构建方法的具体流程可以如下：

101，获取目标领域的文本数据。

目标领域包括医疗领域、教育领域、网络领域、计算机技术等领域，这些领域都较为专业，涉及较多的概念实体。

获取目标领域中的大量的文本数据。比如，在教育领域，可获取教科书、考试试卷、阅读材料、课堂笔记，等等文本数据。在医疗领域，可获取医疗专业的教科书、杂志、专家发表的论文、医疗网站上的专业知识，等等文本数据。该处的目标领域的文本数据只是举例说明，只要是涉及到目标领域的文本数据都可以获取。

具体地，计算机设备获取目标领域的文本数据的方式根据具体场景而有所不同。例如，可以通过网页爬取的方式，从目标领域的网站对应的服务器中获取目标领域的文本数据，如图1中的所示。还可以预先将目标领域的文本数据保存至计算机设备中的存储器中，如此，获取目标领域的文本数据，即为获取计算机设备的存储器中保存的目标领域的文本数据。还可以是其他设备获取目标领域的文本数据，如通过网页爬取的方式获取或者通过其他方式获取，当计算机设备需要获取目标领域的文本数据时，通过网络连接其他设备，并从该其他设备中获取对应的目标领域的文本数据。计算机设备还可以通过其他的方式获取目标领域的文本数据。

所获取的目标领域的文本数据可以是已经过预处理的文本数据，也可以是未经过预处理的文本数据。若所获取的目标领域的文本数据是未经过预处理的文本数据，该概念知识图谱构建方法还包括将所获取的目标领域的文本数据进行预处理的步骤。如图3所示，是本申请实施例提供的概念知识图谱构建方法的另一流程示意图。在提取概念实体的过程中，先确定目标领域之后，获取目标领域的文本数据，紧接着对所获取的目标领域的文本数据进行预处理。具体地，将所获取的目标领域的文本数据进行预处理，包括：将所获取的目标领域的文本数据进行数据清洗，并转换为统一的文本格式。其中，数据清洗包括检查文本数据的一致性，处理无效值和缺失值，处理重复数据等。如检查文本数据的一致性，包括：找出超出正常范围、逻辑上不合理或者相互矛盾的数据。无效值和缺失值的处理，包括：数据估算，整例删除，等等。重复数据的处理通常是删除重复数据等。

将所获取的目标领域的文本数据进行数据清洗，以避免文本数据本身存在的缺陷导致的后续处理出现误差的情况。将所获取的目标领域的文本数据进行数据清洗后，将经过数据清洗的文本数据转换为统一的文本格式，以便于后续的统一处理。

102，对文本数据进行实体识别，以提取出文本数据中的概念实体。

因为概念实体的实体识别的准确性对后续处理的影响极大，因此实体识别是目标领域的概念知识图谱构建的一个非常关键的部分。

目前实体提取的方式包括以下二种。一，人工预定义实体分类体系，再采用对应算法实现对实体的自动分类，然而随着互联网内容的动态变化，采用人工预定义实体分类体系的方式已经很难适应时代的需求。二，利用搜索引擎的服务器日志，事先并不给出实体分类等信息，而是基于实体的语义特征从搜索日志中识别出实体对象，然后采用聚类算法对识别出的实体对象进行聚类，以得到对应的实体。这些实体提取的方法较为粗糙，无法满足从大规模的目标领域的文本数据中提取出概念实体的需求。

本申请实施例针对概念实体的特点采用了一种结合注意力机制、预训练模型和基于神经网络的实体识别方法，能够满足从大规模医疗或教育文本中提取出概念实体。下面将详细的介绍本申请实施例中的实体提取的方法。

具体地，步骤102，包括：利用预设的预训练模型对文本数据进行特征提取，以得到词嵌入向量；基于注意力机制，对词嵌入向量进行实体识别，以得到文本数据中的概念实体。

其中，预设的预训练模型可以是Bert(Bidirectional Encoder Representationsfrom Transformers)模型，还可以是其他的预训练模型。

预训练模型的目标是利用大规模无标注语料训练，获得文本的包含丰富语义信息的表示，即：文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。本申请实施例中利用大规模无标注语料训练，得到文本的语义表示后，将文本的语义表示在目标领域的文本数据中做微调，最后用于对目标领域的文本数据进行特征提取，得到词嵌入向量。即利用预训练模型把对目标领域的文本数据的处理简化为向量空间中的向量运算，最后输出对应的融合全文语义信息的向量表示。利用预设的预训练模型可以很好的实现将目标领域的文本数据转换为对应语义信息的表示。

在一种情况下，利用预设的预训练模型对文本数据进行特征提取，以得到词嵌入向量的步骤，包括：获取目标领域中专业词汇的知识库；利用预设的预训练模型，基于知识库对文本数据进行特征提取，以得到词嵌入向量。

目标领域中专业词汇的知识库中包括了该目标领域中的很多专业词汇，利用预设的预训练模型，基于知识库对文本数据进行特征提取，可以得到目标领域中专业的知识。另一方面，根据不同的目标领域，该专利词汇的知识库是对应目标领域的知识库，如此，可应用于具体细分领域的文本数据的特征提取，以进一步实现对细分领域中的概念知识图谱的构建。

其中，基于注意力机制，对词嵌入向量进行实体识别，以得到文本数据中的概念实体的步骤，包括：将词嵌入向量输入至预设神经网络层进行特征处理，以得到文本特征序列；基于注意力机制，对文本特征序列进行权重处理，以得到包括权重信息的文本特征序列；将包括权重信息的文本特征序列输入至激活函数中进行激活处理，以得到文本特征序列的概率分布结果；将概率分布结果输入至条件随机场(conditional random field，CRF)层进行识别处理，以得到目标领域的文本数据中的概念实体。

其中，预设神经网络层可以是双向长短时记忆神经网络(Bi-directional LongShort-Term Memory，Bi-LSTM)层、也可以是其他的神经网络层，如长短时记忆神经网络(Long Short-Term Memory，LSTM)层、循环神经网络(Recurrent Neural Network，RNN)层等。

将词嵌入向量输入至预设神经网络层进行特征处理，以得到文本特征序列，并对文本特征序列进行权重处理，以得到包括权重信息的文本特征序列。

具体地，基于注意力机制，对文本特征序列进行权重处理，以得到包括权重信息的文本特征序列的步骤，包括：获取注意力权重矩阵；根据注意力权重矩阵和文本特征序列，确定文本特征序列对应的权重信息；对文本特征序列和权重信息进行拼接处理，以得到包括权重信息的文本特征序列。其中，可以理解地，结合了注意力机制，以在预设神经网络层的输出上加上不同的权重信息，以得到不同权重信息的文本特征序列。

其中，获取注意力权重矩阵的步骤，包括：确定文本特征序列中词与词之间的相似度；根据相似度，确定注意力权重矩阵。

假设注意力权重矩阵为A，注意力权重矩阵A表示目标词与文本特征序列中的所有词的相似度。注意力权重矩阵A中的每个注意力权重值a_t,j是通过比较文本特征序列中的第t个词x_t和文本特征序列中的第j个词x_j之间的相似度得到。相似度可以通过距离来确定。其中，a_t,j的值的计算公式如公式(1)：

其中，x_k指的是文本特征序列中的每一个词。score函数可以是文档中的第t个词x_t和文档中的第j个词x_j之间的距离函数。距离函数可以是曼哈顿距离(manhattandistance)函数、欧式距离(euclildean distance)函数、余弦距离(cosine distance)函数、感知机(perceptron)函数等，分别如公式(2)所示。

其中，Wa是模型的一个参数，Wa|x_t-x_j|表示曼哈顿距离，Wa(x_t-x_j)^T(x_t-x_j)表示欧式距离，表示余弦距离，/>表示感知机距离。

需要注意得是，若使用曼哈顿距离计算相似度，则每个注意力权重值a_t,j都使用曼哈顿距离，以得到注意力权重矩阵A；若使用欧式距离计算相似度，则每个注意力权重值a_t,j都使用欧式距离，以得到注意力权重矩阵A；以此类推。

其中，根据注意力权重矩阵和文本特征序列，确定文本特征序列对应的权重信息的步骤，包括：获取文本特征序列和注意力权重矩阵，按照公式(3)计算文本特征序列对应的权重信息。其中，文本特征序列即为预设神经网络层的输出，用h_t表示。

其中，h_j为预设神经网络层第j个的输出，g_t即为文本特征序列对应的权重信息，N为文本特征序列中的词的数量。从公式(3)可以看出，计算出的权重信息包括了文本特征序列中的每个词的权重，即计算出的权重信息融合了文本特征序列中的每个词的重要程度信息，以使得计算结果更为准确。

得到文本特征序列对应的权重信息后，对文本特征序列和权重信息进行拼接处理，以得到包括权重信息的文本特征序列。具体地，将预设神经网络层的输出结果h_t和所计算出的权重信息g_t进行拼接，以得到权重信息的文本特征序列。其中，假设h_t的维度为m维，g_t的维度也为m维，则拼接后的维度为2m维。可以理解地，经过注意力机制层的处理后，输出的是包括权重信息的文本特征序列。

将包括权重信息的文本特征序列输入至预设激活函数中进行激活处理，以得到文本特征序列的概念实体标签的概率分布结果。其中，预设激活函数可以是tanh激活函数，还可以是其他的激活函数。得到概率分布结果后，将概率分布结果输入至条件随机场层进行识别处理，以得到本数据中的概念实体。

下文中以预设的预训练模型为Bert模型、预设神经网络层为Bi-LSTM层、激活函数为tanh激活函数为例进行说明。图4是本申请实施例提供的提取概念实体的方法流程示意图，图5是本申请实施例提供的提取概念实体的结构示意图。请结合图4和图5来参看提取概念实体的实现过程。

具体地，请参阅图4，步骤102，包括：

201，利用Bert模型对文本数据进行特征提取，以得到词嵌入向量。

利用Bert模型可以更好的实现将目标领域的文本数据转换为对应语义信息的表示，即得到更高质量的词向量表示，得到的词嵌入向量更准确。

202，将词嵌入向量输入至Bi-LSTM层进行特征处理，以得到文本特征序列。

具体地，将词嵌入向量输入至Bi-LSTM层中的前向LSTM和后向LSTM中分别进行从前向后、从后向前的向量变换，以得到前向LSTM的前向特征序列和后向LSTM的后向特征序列，结合前向特征序列和后向特征序列，就可以得到Bi-LSTM层的输出结果，即文本特征序列。该文本特征序列同时考虑前向和后向信息的抽象语言表达，或者也可以理解为该文本特征序列学习了上下文信息。

可以理解地，将词嵌入向量输入至前向LSTM中学习词嵌入向量的上文信息，得到前向特征序列；将词嵌入向量输入至后向LSTM中学习词嵌入向量的下文信息，得到后向特征序列，再将前向特征序列和后向特征序列进行合并，以得到文本特征序列。

其中，在前向LSTM中的每个时间点，输入词嵌入向量，每个时间点的输出包括一个隐向量，其中隐向量输入下一个时间点的LSTM中，和下一个时间点输入的词嵌入向量共同产生下一个时间点的输出。对于后向LSTM，则会反方向地完成前向LSTM中的操作。

在一种情况下，为了得到更好的文本特征向量，可以设计多个预设神经网络层，即在将词嵌入向量输入至一个Bi-LSTM层中进行处理得到文本特征序列后，再将文本特征序列输入至下一个Bi-LSTM层中进行处理，.......，最后以得到一个更准确的文本特征序列。

203，基于注意力机制，利用注意力层，对文本特征序列进行权重处理，以得到包括权重信息的文本特征序列。

具体地，该步骤的实现方式请参看上文中的“基于注意力机制，对文本特征序列进行权重处理，以得到包括权重信息的文本特征序列”对应步骤的描述，在此不再赘述。

204，将包括权重信息的文本特征序列输入至tanh激活函数中进行激活处理，以得到文本特征序列中的概念实体标签的概率分布结果。

205，将概率分布结果输入至CRF层进行识别处理，以得到文本数据中的概念实体。

CRF层可以加入一些约束来保证最终得到的概念实体的预测结果是有效的。这些约束可以在训练数据时被CRF层自动学习得到，即CRF层可以学习到文本数据中的约束条件。如此，通过加入CRF层以提高概念实体的预测结果的准确性。

上述实施例利用Bert模型来进行预训练，可以使得到的词嵌入向量更准确、更精确，将更准确、更精确的词嵌入向量输入Bi-LSTM层进行处理，在Bi-LSTM层的输出中加上不同的权重信息，最后再经过CRF层处理，使得到的概念实体的结果更加准确和精确，提高了概念实体提取的准确性，从而有效地从大规模医疗领域或教育领域或者其他领域的文本数据中识别出概念实体。

文本数据经过概念实体提取后，得到的是一系列离散的概念实体，为了为了得到语义信息，还需要从相关的文本数据中提取出概念实体之间的关联关系。

103，获取概念实体之间待提取的关联关系的类型。

概念实体之间的关系往往比较复杂，可能会存在很多类型。如果每种不同类型的关联关系都使用同一种方式进行处理，会使得的概念实体之间的关联关系不准确，降低了构建的概念知识图谱的准确性；且有些概念实体在文本数据中出现的距离比较远，其所对应的隐含关系难以被发现。

本申请实施例中的概念实体之间待提取的关联关系的类型包括前置关系、包含关系等隐含关系，还可以是其他的关联关系等，如图3所示。获取概念实体之间待提取的关联关系的类型，其中，前置关系和包含关系是不同类型的关联关系。

104，调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的关联关系。

如图3所示，将所获取的目标领域的文本数据和文本数据的概念实体输入至关系提取的部分中，以对其进行关系识别，提取出概念实体之间的关联关系。关系提取的部分中，针对概念实体之间不同的关联关系分别设计了不同的提取方法。如对于前置关系，则采用基于概率分析的提取方法；对于包含关系，则采用内容列表解析的提取方法。

若待提取的关联关系为前置关系，则步骤104，包括：基于概率分析的方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的前置关系。

若概念实体之间的关系为前置关系，如概念实体a是概念实体b的前置，可以认为如果出现概念实体a不一定会出现概念实体b，但是概念实体b出现则概念实体a一定出现了。需要注意的是，本申请实施例中的概念实体a和概念实体b可看作是两个变量。假设第一概念实体为E_a，第二概念实体为E_b，因此，从文本数据中可依照公式(4)挖掘概念实体之间的前置关系：

其中，可理解为概念实体a出现，概念实体b也出现，/>可理解为概念实体概念实体b不出现，概念实体a也不出现。

具体地，如图6所示，基于概率分析的方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的前置关系的步骤，包括301～303。图7是本申请实施例提供的提取前置关系的流程示意图，请结合图6和图7来理解前置关系的提取步骤。

301，根据文本数据和文本数据中的概念实体，确定文本数据中概念实体之间的第一支持度值和第一置信度值。

若概念实体包括第一概念实体和第二概念实体，则该第一支持度值为文本数据的概念实体中的第一概念实体和第二概念实体同时出现的概率值，第一置信度值为文本数据的概念实体中第一概念实体出现时第二概念实体出现的概率值。

定义满足前置关系的两个变量：支持度值Supp和置信度值Conf。第一支持度值定义为概念实体a和概念实体b在文本数据所对应的数据集中同时出现的概率，第一置信度值/>定义为概念实体a出现的时候概念实体b出现的概率。

需要提醒的是，确定概念实体a和概念实体b之间的第一支持度值和第一置信度值时，以文本数据中的每个独立文本为一个单元来计算。下面将列出一种计算概念实体a和概念实体b之间的第一支持度值和第一置信度值的一种方案。还可以按照其他的方法来计算概念实体a和概念实体b之间的第一支持度值和第一置信度值。

在文本数据的所有独立文本中，设概念实体a出现、b未出现的频次为概念实体a出现、概念实体b也出现的频次为total(E_aE_b)；概念实体b出现的频次为total(E_b)；概念实体a未出现、概念实体b也未出现的频次为/>

概念实体a和概念实体b之间的第一支持度值可按照公式(5)来进行计算：

概念实体a和概念实体b之间的第一置信度值可按照公式(6)来进行计算：

可理解地，概念实体a和概念实体b之间的第一置信度值为概念实体a和概念实体b同时出现的频次除以概念实体a出现的频次。

其中，确定概念实体a和概念实体b同时出现的频次，包括：确定一个距离阈值；计算概念实体a和概念实体b之间的距离，该距离可理解为词距，可按照公式(2)中的方式来计算概念实体a和概念实体b之间的距离，还可以按照其他方式来计算概念实体a和概念实体b之间的距离；若概念实体a和概念实体b的距离在距离阈值之内，则认为概念实体a和概念实体b在该独立文本中同时出现，将该概念实体a和概念实体b同时出现的次数加1。

302，确定文本数据中概念实体之间的预设第一支持度阈值和预设第一置信度阈值。

预设第一支持度阈值和预设第一置信度阈值可以是根据经验得到的参数值，还可以是按照文本数据的数据量大小确定的参数值，还可以是根据所需的前置关系的大小确定的参数值，还可以是根据所需的前置关系的精确度等来确定的参数值。

如若所需的前置关系的集合较小，则将预设第一支持度阈值和预设第一置信度阈值设置为较大值；如若所需的前置关系的集合较大，则将预设第一支持度阈值和预设第一置信度阈值设置为较小值。如若所需的前置关系的精确度较高，则将预设第一支持度阈值和预设第一置信度阈值设置为较大值，如此，提取出的前置关系的集合就越小；如若所需的前置关系的精确度较低，则将预设第一支持度阈值和预设第一置信度阈值设置为较小值，如此，提取出的前置关系的集合就越大。

可将确定的预设第一支持度阈值设置为minSupp1，预设第一置信度阈值设置为minConf1。

303，根据第一支持度值、第一置信度值、预设第一支持度阈值和预设第一置信度阈值确定概念实体之间的前置关系。

具体地，步骤303，包括：将第一支持度值和预设第一支持度阈值，第一置信度值和预设第一置信度阈值分别进行比对；将第一支持度值不小于预设第一支持度阈值，且第一置信度值不小于预设第一置信度阈值的概念实体之间的关系确定为概念实体之间的前置关系。

具体地，按照公式(7)，确定概念实体a和概念实体b的前置关系。

可以理解地，在该实施例中，只要概念实体a和概念实体b之间的第一支持度值和第一置信度值满足公式(7)，则将概念实体a和概念实体b之间的关系确定为前置关系。

以此类推，可根据确定概念实体a和概念实体b之间的前置关系的方式，确定文本数据中其他概念实体之间的前置关系。

图6所示的实施例，将第一支持度值不小于预设支持度阈值，且第一置信度值不小于预设置信度阈值的概念实体之间的关系确定为概念实体之间的前置关系。

在一种情况下，还可以设置参数来调节所得到概念实体之间前置关系的精度。请参阅图8，基于概率分析的方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的前置关系的步骤，包括401～405。图9是本申请实施例提供的提取前置关系的流程示意图，请结合图8和图9来理解前置关系的提取步骤。

401，根据文本数据和文本数据中的概念实体，确定文本数据中概念实体之间的第一支持度值和第一置信度值。

具体地，确定文本数据中概念实体之间的第一支持度值和第一置信度值请参看上文中对应的描述，或者也可以采用其他方式来确定概念实体之间的第一支持度值和第一置信度值。

402，确定文本数据中概念实体之间的预设第一支持度阈值、预设第一置信度阈值。

403，将第一支持度值不小于预设第一支持度阈值且第一置信度值不小于预设第一置信度阈值中所对应的第一支持度值、第一置信度值分别作为目标第一支持度值和目标第一置信度值。

即将利用公式(7)得到的概念实体a和概念实体b之间的第一支持度值和第一置信度值，作为目标第一支持度值和目标第一置信度值。如此，利用公式(7)过滤一部分的第一支持度值和第一置信度值。

404，根据目标第一支持度值和目标第一置信度值确定前置概率值。

其中，可将目标第一支持度值和目标第一置信度值相乘以得到前置概率值。概念实体a和概念实体b之间的前置概率值可利用公式(8)来计算。在其他情况下，还可以按照其他的方式来确定概念实体a和概念实体b之间的前置概率值。

在计算出了前置概率值之后，将前置概率值不小于预设前置概率值的概念实体之间的关系确定为前置关系。

其中，再利用预设前置概率值再进一步地进行过滤，以得到对应的前置关系，以提高前置关系的精度，使得到的前置关系更为准确。

在一些情况下，如图8所示，在步骤401～404的基础上，还包括以下步骤：

405，确定文本数据中概念实体之间的第二支持度值和第二置信度值，并根据第二支持度值和第二置信度值确定文本数据中概念实体之间的第一概率值。

其中，第二支持度值为文本数据的概念实体中的第一概念实体和第二概念实体同时未出现的概率值，第二置信度值为文本数据的概念实体中第二概念实体未出现时第一概念实体也未出现的概率值。

若第一概念实体为概念实体a，第二概念实体为概念实体b，则第二支持度值定义为概念实体a和概念实体b在文本数据所对应的数据集中未同时出现的概率，第二置信度值/>定义为概念实体b未出现的时候概念实体a也未出现的概率。

概念实体a和概念实体b之间的第二支持度值可按照公式(9)来进行计算：

概念实体a和概念实体b之间的第二置信度值可按照公式(10)来进行计算：

可理解地，概念实体a和概念实体b之间的第二置信度值为概念实体a和概念实体b同时未出现的频次除以概念实体b未出现的频次。

其中，步骤405中的所述根据第二支持度值和第二置信度值确定文本数据中概念实体之间的第一概率值的步骤，包括：确定文本数据中概念实体之间的预设第二支持度阈值、预设第二置信度阈值；将第二支持度值不小于预设第二支持度阈值且第二置信度值不小于预设第二置信度阈值中所对应的第二支持度值、第二置信度值分别作为目标第二支持度值和目标第二置信度值；根据目标第二支持度值和目标第二置信度值确定第一概率值。

其中，确定预设第二支持度阈值、预设第二置信度阈值的方式与确定预设第一支持度阈值、预设第一置信度阈值的方式类似，可将确定的预设第二支持度阈值设置为minSupp2，预设第二置信度阈值设置为minConf2。

可利用公式(11)来计算目标第二支持度值和目标第二置信度值。将利用公式(11)得到的概念实体a和概念实体b之间的第二支持度值和第二置信度值，作为目标第二支持度值和目标第二置信度值。

再利用目标第二支持度值和目标第二置信度值确定第一概率值。其中，可将目标第二支持度值和目标第二置信度值相乘以得到第一概率值。概念实体a和概念实体b之间的第一概率值可利用公式(12)来计算。在其他情况下，还可以按照其他的方式来确定概念实体a和概念实体b之间的第一概率值。

406，根据前置概率值和第一概率值，确定文本数据中概念实体之间的第二概率值。

具体地，可将前置概率值和第一概率值相乘以得到第二概率值，可使用公式(13)来计算第二概率值。

/>

407，确定预设前置概率值、第一支持度最小阈值和第二支持度最小阈值。

确定第一支持度最小阈值和第二支持度最小阈值的方式与确定预设第一支持度阈值、预设第一置信度阈值的方式类似，具体可参看上文中的对应描述。

可将确定的第一支持度最小阈值设置为minProb1，第二支持度最小阈值设置为minProb2、预设前置概率值设置为minProb3。

根据前置概率值、第一概率值、第二概率值、预设前置概率值、第一支持度最小阈值和第二支持度最小阈值确定概念实体之间的前置关系。

408，将前置概率值与预设前置概率值、第一概率值和第一支持度最小阈值，以及第二概率值和第二支持度最小阈值分别进行比对。

409，将前置概率值不小于预设前置概率值，且第一概率值不小于第一支持度最小阈值，且第二概率值不小于第二支持度最小阈值的概念实体之间的关系确定为概念实体之间的前置关系。

其中，第一概率值不小于第一支持度最小阈值的对应关系，请参看公式(14)，第二概率值不小于第二支持度最小阈值的对应关系，请参看公式(15)，前置概率值不小于预设前置概率值的对应关系，请参看公式(16)。

可以理解地，该实施例中，概念实体之间的前置关系除了满足公式(7)之外，还需要满足公式(14)(15)(16)。利用公式(14)(15)(16)来调节精度，提高了所确定的前置关系的精度。需要注意的是，还可使用(14)(15)(16)中任一一个或者二个来调节精度。

上述基于概率分析的方式，即基于关联规则的Apriori方法进行修改的text-Apriori的方法，可以提取出文本数据中的前置关系，该类关联关系中的两个概念在文档中的距离比较远，很难被发现，且对应的关联关系很难被提取。基于概率分析的方式大大提高了识别前置关系的准确率和效率。

若待提取的关联关系为包含关系，则步骤104，包括：基于内容解析的方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的包含关系。

具体地，基于内容解析的方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的包含关系的步骤，包括：获取目标领域的文本数据中的预设类型的目标文本数据和目标文本数据中的目标概念实体；解析目标文本数据的内容和目标概念实体，以提取出概念实体之间的上下级关系；将上下级关系确定为概念实体之间的包含关系。

其中，预设类型的目标文本数据包括目标领域的书籍目录、目标领域的百度百科的内容、***的内容等文本数据。其中，获取预设类型的目标文本数据的方法可以与获取目标领域的文本数据的方法一致，如使用网页爬取的方式来获取，在此不再赘述。因为预设类型的目标文本数据中已经蕴含了概念实体之间的上下级关系，因此解析目标文本数据的内容和目标概念实体，以提取出概念实体之间的上下级关系，将上下级关系作为概念实体之间的包含关系。

其中，对于目录来说，上一级目录和下一级目录之间是上下级关系。如对于链接来说，一个链接指向另一个链接，则也可以理解为，一个链接和另一个链接是上下级关系，该一个链接包含另一个链接。

例如，在教育领域，可获取教育领域的教材书籍目录、百科全书目录、百度百科中的相关内容、***中的相关内容等。

该基于内容解析的方式可以提取出文本数据中的包含关系，该类关联关系中的两个概念在文档中的距离比较远，很难被发现，且对应的关联关系很难被提取。基于内容解析的方式大大提高了识别包含关系的准确率和效率。

针对概念实体之间其他的隐含关系也可以针对性的涉及算法，然后再进行对应的关联关系的识别。

105，根据概念实体和关联关系，构建目标领域对应的概念知识图谱。

在创建概念知识图谱时，将目标领域中提取的概念实体作为节点，将关联关系作为边，根据节点和边来创建概念知识图谱。可以理解地，关联关系包括多种，因此，每一条边可以包括多种关联关系，也可以仅包括一种关联关系。

具体地，每条边中可根据关联关系的数量来设置不同的格式，以进行区分。如若一条边包括两种关联关系，则使用粗边来表示，若一条边包括一种关联关系，则使用细边来表示。进一步地，当每条边中关联关系的数量相同时，不同关联关系也可以使用不同的格式来进行区分。如当一条边的关联关系为前置关系时，使用第一颜色的边来表示；当一条边的关联关系为包含关系时，使用第二颜色的边来表示，其中，第一颜色和第二颜色不相同。如此，使得概念知识图谱中的节点之间的关联关系更明显，提升用户体验。

上述方法实施例中获取目标领域的文本数据，并自动提取出文本数据中的概念实体，在得到概念实体之后，根据待提取的关联关系的类型，调用类型对应的识别方式提取出概念实体之间的关联关系，再根据提取出的概念实体和概念实体之间的关联关系，构建概念知识图谱。本申请实施例根据待提取的关联关系的类型，调用类型对应的识别方式提取出概念实体之间的关联关系，可有针对性的提取出概念实体之间的隐含(距离比较远)的且难以提取的关联关系，提高了关联关系提取的效率和准确率，并根据关联关系构建目标领域的概念知识图谱，提高构建概念知识图谱的效率和准确率。

图10是本申请实施例提供的医疗领域概念知识图谱构建方法的流程示意图。该医疗领域概念知识图谱构建方法应用于计算机设备中，所涉及的流程包括如下步骤：

501，获取医疗领域的文本数据。

获取医疗专业的教科书、杂志、专家发表的论文、医疗网站上的专业知识、百度百科上的专业知识、***上的专业知识，等等文本数据。只要是涉及到医疗领域的文本数据都可以获取。

计算机设备可以通过网页爬取的方式，从杂志网站、医疗领域论文网站、其他医疗网站上、百度百科、***等所对应的网页上获取医疗领域的文本数据。还可以预先将医疗领域的文本数据保存至计算机设备中的存储器中，如此，获取医疗领域的文本数据，即为获取计算机设备的存储器中保存的医疗领域的文本数据。还可以是其他设备获取医疗领域的文本数据，具体地，通过网络连接其他设备，并从该其他设备中获取对应的医疗领域的文本数据。计算机设备还可以通过其他的方式获取医疗领域的文本数据。

所获取的医疗领域的文本数据可以是已经过预处理的文本数据，也可以是未经过预处理的文本数据。若所获取的医疗领域的文本数据是未经过预处理的文本数据，该概念知识图谱构建方法还包括将所获取的医疗领域的文本数据进行预处理的步骤。具体地，请参看上文中将所获取的目标领域的文本数据进行预处理的步骤的对应描述，在此不再赘述。

502，对文本数据进行实体识别，以提取出文本数据中的概念实体。

具体地，提取医疗领域的文本数据中的概念实体的步骤与上文中的提取目标领域的文本数据中的概念实体的步骤一致，具体请参看上文中的对应描述。

提取出的医疗领域的文本数据中的概念实体包括：癌症、肠癌、肺结核、肝硬化、支气管炎、胃肠炎、肺炎、恶性肿瘤、脑中风、风湿病.......，等等。

503，获取概念实体之间待提取的关联关系的类型。

其中，待提取的关联关系包括前置关系、包含关系等。前置关系和包含关系是不同类型的关联关系。

504，调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的关联关系。

其中，前置关系对应的是基于概率分析的提取方法，包含关系对应的是基于内容解析的提取方法。调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的关联关系。所提取概念实体之间的关联关系包括前置关系、包含关系等等。

如癌症和肠癌是前置关系，如恶性肿瘤和肉瘤是包含关系等。

505，根据概念实体和关联关系，构建医疗领域对应的概念知识图谱。

在创建医疗领域对应的概念知识图谱时，将医疗领域中提取的概念实体作为节点，将关联关系作为边，根据节点和边来创建概念知识图谱。可以理解地，关联关系包括多种，因此，每一条边可以包括多种关联关系，也可以仅包括一种关联关系。

本申请实施例获取医疗领域的文本数据，并提取文本数据中的概念实体，在得到概念实体之后，根据待提取的关联关系的类型，调用类型对应的识别方式提取出概念实体之间的关联关系，再根据提取出的概念实体和概念实体之间的关联关系，构建医疗领域的概念知识图谱。本申请实施例可有针对性的提取出医疗领域中的概念实体之间的隐含的且难以提取的关联关系，提高了关联关系提取的效率和准确率，并根据关联关系构建医疗领域的概念知识图谱，提高构建概念知识图谱的效率和准确率。

图11是本申请实施例提供的教育领域概念知识图谱构建方法的流程示意图。该教育领域概念知识图谱构建方法应用于计算机设备中，所涉及的流程包括如下步骤：

601，获取教育领域的文本数据。

获取教育专业的教科书、考试试卷、阅读材料、课堂笔记、专家发表的论文、教育网站上的专业知识、百度百科上的专业知识、***上的专业知识，等等文本数据。只要是涉及到教育领域的文本数据都可以获取。

计算机设备可以通过网页爬取的方式，从杂志网站、教育领域论文网站、其他教育网站上、百度百科、***等所对应的网页上获取教育领域的文本数据。还可以预先将教育领域的文本数据保存至计算机设备中的存储器中，如此，获取教育领域的文本数据，即为获取计算机设备的存储器中保存的教育领域的文本数据。还可以是其他设备获取教育领域的文本数据，具体地，通过网络连接其他设备，并从该其他设备中获取对应的教育领域的文本数据。计算机设备还可以通过其他的方式获取教育领域的文本数据。

所获取的教育领域的文本数据可以是已经过预处理的文本数据，也可以是未经过预处理的文本数据。若所获取的教育领域的文本数据是未经过预处理的文本数据，该概念知识图谱构建方法还包括将所获取的教育领域的文本数据进行预处理的步骤。具体地，请参看上文中将所获取的目标领域的文本数据进行预处理的步骤的对应描述，在此不再赘述。

602，对文本数据进行实体识别，以提取出文本数据中的概念实体。

具体地，提取教育领域的文本数据中的概念实体的步骤与上文中的提取目标领域的文本数据中的概念实体的步骤一致，具体请参看上文中的对应描述。

提取出的教育领域的文本数据中的概念实体包括：线性代数、积分、微分、欧氏几何学、微分方程、线性插值、贝叶斯统计、线性规划、决策论、球形、三角形，等等。

603，获取概念实体之间待提取的关联关系的类型。

其中，待提取的关联关系包括前置关系、包含关系等，前置关系、包含关系为不同的关联关系。

604，调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的关联关系。

如倒数和微分是前置关系、几何形状和三角形是包含关系等。

605，根据概念实体和关联关系，构建教育领域对应的概念知识图谱。

在创建教育领域对应的概念知识图谱时，将教育领域中提取的概念实体作为节点，将关联关系作为边，根据节点和边来创建概念知识图谱。可以理解地，关联关系包括多种，因此，每一条边可以包括多种关联关系，也可以仅包括一种关联关系。

本申请实施例获取教育领域的文本数据，并提取文本数据中的概念实体，在得到概念实体之后，根据待提取的关联关系的类型，调用类型对应的识别方式提取出概念实体之间的关联关系，再根据提取出的概念实体和概念实体之间的关联关系，构建教育领域的概念知识图谱。本申请实施例可有针对性的提取出教育领域中的概念实体之间的隐含的且难以提取的关联关系，提高了关联关系提取的效率和准确率，并根据关联关系构建教育领域的概念知识图谱，提高构建概念知识图谱的效率和准确率。

根据上述实施例所描述的方法，本实施例将从概念知识图谱构建装置的角度进一步进行描述，该概念知识图谱构建装置具体可以作为独立的实体来实现，也可以集成在计算机设备中来实现。

如图12所示，该概念知识图谱构建装置可以包括文本获取单元701、实体提取单元702、类型获取单元703、关系提取单元704以及构建单元705。

文本获取单元701，用于获取目标领域的文本数据。

目标领域包括医疗领域、教育领域、网络领域、计算机技术等领域。

实体提取单元702，用于对文本数据进行实体识别，以提取出文本数据中的概念实体。

实体提取单元702，具体用于利用预设的预训练模型对文本数据进行特征提取，以得到词嵌入向量；基于注意力机制，对词嵌入向量进行实体识别，以得到文本数据中的概念实体。

实体提取单元702，在执行所述利用预设的预训练模型对文本数据进行特征提取，以得到词嵌入向量的步骤时，具体执行：获取目标领域中专业词汇的知识库；利用预设的预训练模型，基于知识库对文本数据进行特征提取，以得到词嵌入向量。

体提取单元702，在执行所述基于注意力机制，对词嵌入向量进行实体识别，以得到文本数据中的概念实体的步骤时，具体执行：将词嵌入向量输入至预设神经网络层进行特征处理，以得到文本特征序列；基于注意力机制，对文本特征序列进行权重处理，以得到包括权重信息的文本特征序列；将包括权重信息的文本特征序列输入至激活函数中进行激活处理，以得到文本特征序列的概率分布结果；将概率分布结果输入至CRF层进行识别处理，以得到目标领域的文本数据中的概念实体。

其中，所述基于注意力机制，对文本特征序列进行权重处理，以得到包括权重信息的文本特征序列的步骤，包括：获取注意力权重矩阵；根据注意力权重矩阵和文本特征序列，确定文本特征序列对应的权重信息；对文本特征序列和权重信息进行拼接处理，以得到包括权重信息的文本特征序列。

所述，获取注意力权重矩阵的步骤，包括：确定文本特征序列中词与词之间的相似度；根据相似度，确定注意力权重矩阵。

类型获取定单元703，用于获取概念实体之间待提取的关联关系的类型。待提取的关联关系包括前置关系、包含关系等隐含关系，还可以是其他的关联关系。前置关系和包含关系是不同类型的关联关系。

关系提取单元704，用于调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的关联关系。

若待提取的关联关系的类型为前置关系，关系提取单元704，用于基于概率分析的方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的前置关系。

在一种情况下，关系提取单元704，具体用于根据文本数据和文本数据中的概念实体，确定文本数据中概念实体之间的第一支持度值和第一置信度值；该第一支持度值为文本数据的概念实体中的第一概念实体和第二概念实体同时出现的概率值，第一置信度值为文本数据的概念实体中第一概念实体出现时第二概念实体出现的概率值；确定文本数据中概念实体之间的预设第一支持度阈值和预设第一置信度阈值；根据第一支持度值、第一置信度值、预设第一支持度阈值和预设第一置信度阈值确定概念实体之间的前置关系。其中，根据第一支持度值、第一置信度值、预设第一支持度阈值和预设第一置信度阈值确定概念实体之间的前置关系的步骤，包括：将第一支持度值和预设第一支持度阈值，第一置信度值和预设第一置信度阈值分别进行比对；将第一支持度值不小于预设第一支持度阈值，且第一置信度值不小于预设第一置信度阈值的概念实体之间的关系确定为概念实体之间的前置关系。

在一种情况下，关系提取单元704，具体用于根据文本数据和文本数据中的概念实体，确定文本数据中概念实体之间的第一支持度值和第一置信度值；确定文本数据中概念实体之间的预设第一支持度阈值、预设第一置信度阈值；将第一支持度值不小于预设第一支持度阈值且第一置信度值不小于预设第一置信度阈值中所对应的第一支持度值、第一置信度值分别作为目标第一支持度值和目标第一置信度值；根据目标第一支持度值和目标第一置信度值确定前置概率值；将前置概率值不小于预设前置概率值的概念实体之间的关系确定为前置关系。

在一种情况下，关系提取单元704，具体用于根据文本数据和文本数据中的概念实体，确定文本数据中概念实体之间的第一支持度值和第一置信度值；确定文本数据中概念实体之间的预设第一支持度阈值、预设第一置信度阈值；将第一支持度值不小于预设第一支持度阈值且第一置信度值不小于预设第一置信度阈值中所对应的第一支持度值、第一置信度值分别作为目标第一支持度值和目标第一置信度值；根据目标第一支持度值和目标第一置信度值确定前置概率值；确定文本数据中概念实体之间的第二支持度值和第二置信度值，并根据第二支持度值和第二置信度值确定文本数据中概念实体之间的第一概率值；根据前置概率值和第一概率值，确定文本数据中概念实体之间的第二概率值；确定预设前置概率值、第一支持度最小阈值和第二支持度最小阈值；将前置概率值与预设前置概率值、第一概率值和第一支持度最小阈值，以及第二概率值和第二支持度最小阈值分别进行比对；将前置概率值不小于预设前置概率值，且第一概率值不小于第一支持度最小阈值，且第二概率值不小于第二支持度最小阈值的概念实体之间的关系确定为概念实体之间的前置关系。

若待提取的关联关系的类型为包含关系，关系提取单元704，用于基于内容解析的方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的包含关系。

具体地，关系提取单元704在执行基于内容解析的方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的包含关系的步骤时，具体执行：获取目标领域的文本数据中的预设类型的目标文本数据和目标文本数据中的目标概念实体；解析目标文本数据的内容和目标概念实体，以提取出概念实体之间的上下级关系；将上下级关系确定为概念实体之间的包含关系。

构建单元705，用于根据概念实体和关联关系，构建目标领域对应的概念知识图谱。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现。以上装置和各单元的具体实现过程，以及所达到的有益效果，可以参考前述应用于区块链的节点中的方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

本申请实施例还提供一种计算机设备，如图13所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、射频(Radio Frequency，RF)电路803、电源804、输入单元805、以及显示单元806等部件。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器801是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器802内的软件程序和/或模块，以及调用存储在存储器802内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体检测。可选的，处理器801可包括一个或多个处理核心；优选的，处理器801可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器801中。

存储器802可用于存储软件程序(计算机程序)以及模块，处理器801通过运行存储在存储器802的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器802还可以包括存储器控制器，以提供处理器801对存储器802的访问。

RF电路803可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器801处理；另外，将涉及上行的数据发送给基站。通常，RF电路803包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路803还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GSM，Global System of Mobilecommunication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband CodeDivision Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

计算机设备还包括给各个部件供电的电源804(比如电池)，优选的，电源804可以通过电源管理***与处理器801逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源804还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元805，该输入单元805可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元805可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器801，并能接收处理器801发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元805还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

该计算机设备还可包括显示单元806，该显示单元806可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元806可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器801以确定触摸事件的类型，随后处理器801根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

尽管未示出，计算机设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，计算机设备中的处理器801会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中，并由处理器801来运行存储在存储器802中的应用程序，从而实现各种功能，如下：

获取目标领域的文本数据；对文本数据进行实体识别，以提取出文本数据中的概念实体；获取概念实体之间待提取的关联关系的类型；调用类型对应的识别方式对文本数据和文本数据中的概念实体进行关系识别，以提取出概念实体之间的关联关系；根据概念实体和关联关系，构建目标领域对应的概念知识图谱。

该计算机设备可以实现本申请实施例所提供的应用于计算机设备中的概念知识图谱构建方法任一实施例中的步骤，因此，可以实现本申请实施例所提供的应用于计算机设备中的任一概念知识图谱构建方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令(计算机程序)来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的应用于计算机设备端的概念知识图谱构建方法中任一实施例的步骤。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一概念知识图谱构建方法实施例中的步骤，因此，可以实现本发明实施例所提供的任一概念知识图谱构建方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种概念知识图谱构建方法、装置、计算机设备以及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种概念知识图谱构建方法，其特征在于，包括：

获取目标领域的文本数据；

对所述文本数据进行实体识别，以提取出所述文本数据中的概念实体；

获取所述概念实体之间待提取的关联关系的类型；

调用所述类型对应的识别方式对所述文本数据和所述文本数据中的概念实体进行关系识别，以提取出所述概念实体之间的关联关系；

根据所述概念实体和所述关联关系，构建所述目标领域对应的概念知识图谱；

其中，所述关联关系包括前置关系时，所述调用所述类型对应的识别方式对所述文本数据和所述文本数据中的概念实体进行关系识别，以提取出所述概念实体之间的关联关系的步骤，包括：

根据所述文本数据和所述文本数据中的概念实体，确定所述文本数据中概念实体之间的第一支持度值和第一置信度值；其中，所述第一支持度值为文本数据的概念实体中的第一概念实体和第二概念实体同时出现的概率值，所述第一置信度值为文本数据的概念实体中第一概念实体出现时第二概念实体出现的概率值；

确定所述文本数据中概念实体之间的预设第一支持度阈值和预设第一置信度阈值；

根据所述第一支持度值、所述第一置信度值、所述预设第一支持度阈值和所述预设第一置信度阈值确定所述概念实体之间的前置关系；其中，所述前置关系指的是两个概念实体之间的出现有一定的先后关系，将这种先后关系作为前置关系。

2.根据权利要求1所述的概念知识图谱构建方法，其特征在于，所述对所述文本数据进行实体识别，以提取出所述文本数据中的概念实体的步骤，包括：

利用预设的预训练模型对所述文本数据进行特征提取，以得到词嵌入向量；

基于注意力机制，对所述词嵌入向量进行实体识别，以得到所述文本数据中的概念实体。

3.根据权利要求2所述的概念知识图谱构建方法，其特征在于，所述利用预设的预训练模型对所述文本数据进行特征提取，以得到词嵌入向量的步骤，包括：

获取所述目标领域中专业词汇的知识库；

利用预设的预训练模型，基于所述知识库对所述文本数据进行特征提取，以得到词嵌入向量。

4.根据权利要求2所述的概念知识图谱构建方法，其特征在于，所述基于注意力机制，对所述词嵌入向量进行实体识别，以得到所述文本数据中的概念实体的步骤，包括：

将所述词嵌入向量输入至预设神经网络层进行特征处理，以得到文本特征序列；

基于注意力机制，对所述文本特征序列进行权重处理，以得到包括权重信息的文本特征序列；

将包括权重信息的文本特征序列输入至预设激活函数中进行激活处理，以得到文本特征序列的概念实体标签的概率分布结果；

将所述概率分布结果输入至条件随机场层进行识别处理，以得到所述文本数据中的概念实体。

5.根据权利要求4所述的概念知识图谱构建方法，其特征在于，所述基于注意力机制，对所述文本特征序列进行权重处理，以得到包括权重信息的文本特征序列的步骤，包括：

获取注意力权重矩阵；

根据注意力权重矩阵和所述文本特征序列，确定所述文本特征序列对应的权重信息；

对所述文本特征序列和所述权重信息进行拼接处理，以得到包括权重信息的文本特征序列。

6.根据权利要求1所述的概念知识图谱构建方法，其特征在于，所述根据所述第一支持度值、所述第一置信度值、所述预设第一支持度阈值和所述预设第一置信度阈值确定所述概念实体之间的前置关系的步骤，包括：

将所述第一支持度值和所述预设第一支持度阈值，所述第一置信度值和所述预设第一置信度阈值分别进行比对；

将所述第一支持度值不小于所述预设第一支持度阈值，且所述第一置信度值不小于所述预设第一置信度阈值的概念实体之间的关系确定为所述概念实体之间的前置关系。

7.根据权利要求1所述的概念知识图谱构建方法，其特征在于，所述根据所述第一支持度值、所述第一置信度值、所述预设第一支持度阈值和所述预设第一置信度阈值确定所述概念实体之间的前置关系的步骤，包括：

将所述第一支持度值不小于所述预设第一支持度阈值且所述第一置信度值不小于所述预设第一置信度阈值中所对应的所述第一支持度值、所述第一置信度值分别作为目标第一支持度值和目标第一置信度值；

根据所述目标第一支持度值和所述目标第一置信度值确定前置概率值；

将所述前置概率值不小于预设前置概率值的概念实体之间的关系确定为概念实体之间的前置关系。

8.根据权利要求1所述的概念知识图谱构建方法，其特征在于，所述关联关系包括包含关系，所述调用所述类型对应的识别方式对所述文本数据和所述文本数据中的概念实体进行关系识别，以提取出所述概念实体之间的关联关系的步骤，包括：

获取目标领域的文本数据中的预设类型的目标文本数据和所述目标文本数据中的目标概念实体；

解析所述目标文本数据的内容和所述目标概念实体，以提取出所述概念实体之间的上下级关系；

将所述上下级关系确定为所述概念实体之间的包含关系。

9.一种概念知识图谱构建装置，其特征在于，包括：

文本获取单元，用于获取目标领域的文本数据；

实体提取单元，用于对所述文本数据进行实体识别，以提取出所述文本数据中的概念实体；

类型获取单元，用于获取所述概念实体之间待提取的关联关系的类型；

关系提取单元，用于调用所述类型对应的识别方式对所述文本数据和所述文本数据中的概念实体进行关系识别，以提取出所述概念实体之间的关联关系；

构建单元，用于根据所述概念实体和所述关联关系，构建所述目标领域对应的概念知识图谱；

其中，所述关联关系包括前置关系时，所述关系提取单元，具体用于：根据所述文本数据和所述文本数据中的概念实体，确定所述文本数据中概念实体之间的第一支持度值和第一置信度值；确定所述文本数据中概念实体之间的预设第一支持度阈值和预设第一置信度阈值；根据所述第一支持度值、所述第一置信度值、所述预设第一支持度阈值和所述预设第一置信度阈值确定所述概念实体之间的前置关系；其中，所述第一支持度值为文本数据的概念实体中的第一概念实体和第二概念实体同时出现的概率值，所述第一置信度值为文本数据的概念实体中第一概念实体出现时第二概念实体出现的概率值；所述前置关系指的是两个概念实体之间的出现有一定的先后关系，将这种先后关系作为前置关系。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-8任一项所述概念知识图谱构建方法。

11.一种计算机设备，其特征在于，所述计算机设备包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中所述处理器和所述存储器相连接，所述一个或多个计算机程序被存储于所述存储器中，并配置为由所述处理器执行以实现如权利要求1-8任一项所述概念知识图谱构建方法。