CN115859989A

CN115859989A - 基于远程监督的实体识别方法及***

Info

Publication number: CN115859989A
Application number: CN202310106608.1A
Authority: CN
Inventors: 刘硕; 杨雅婷; 白焜太; 宋佳祥; 许娟; 史文钊
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-03-28

Abstract

本发明提供了基于远程监督的实体识别方法及***，包括以下步骤：S1：对目标语句进行分词处理；S2：将分词处理得到的词语与已有知识图谱中的实体进行匹配，并使用预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别；S3：将能够与现有知识图谱中的实体匹配的词语作为输入数据，输入到深度学习模型LSTM进行实体抽取；S4：将每个词语从深度学习模型LSTM的输出结果与该词语与已有知识图谱中所对应的实体信息进行拼接，完成实体抽取。本发明提供的基于远程监督的实体识别方法及***，能够在小领域场景中，充分利用现有的知识图谱信息，为实体抽取任务提供额外的特征知识，进而提高在小领域场景中的实体识别准确率。

Description

基于远程监督的实体识别方法及***

技术领域

本发明属于数据处理技术领域，具体涉及基于远程监督的实体识别方法及***。

背景技术

随着机器学习与人工智能的快速发展，自然语言处理被广泛应用于不同的领域之中，例如，机器翻译、数据分析等。而实体识别是自然语言处理NLP任务中极为重要的一环。

目前，实现实体识别的手段主要有基于无监督词典规则方法的实体抽取和基于有监督特征序列标注方法的实体识别。基于无监督词典规则方法的实体抽取，其核心思想为利用词汇、词语模式以及在大语料上计算的统计特性来推断实体的出现；而基于有监督特征序列标注方法的实体识别，则包括由输入层、编码层和解码层三层结构，其中输入层解决字符序列到分布式序列的转换，编码层用于特征建模和语义编码，学习整个句子和实体的语义表示，解码层用于预测实体的边界以及实体的类型。

然而，根据上述两种实体识别手段的特点可知，以上两种手段在在大样本场景中能够有较高的实体识别准确率，同时也依赖大样本的知识库，在小领域场景中应用不佳。

发明内容

本方案利用知识图谱进行远程监督实体抽取，能够充分利用已有的知识图谱信息，在小领域场景中，为实体抽取任务提供额外的特征知识，从而能够解决上述技术问题。

本发明具体的技术方案如下：

第一方面，本发明提供了基于远程监督的实体识别方法，包括以下步骤：

S1：将需要进行实体识别的语句作为目标语句，并对目标语句进行分词处理；

S2：将分词处理得到的词语与已有知识图谱中的实体进行匹配，并使用预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别；

S3：将能够与现有知识图谱中的实体匹配的词语作为输入数据，输入到深度学习模型LSTM进行实体抽取；

S4：将每个词语从深度学习模型LSTM的输出结果与该词语与已有知识图谱中所对应的实体信息进行拼接，完成实体抽取。

在一些实施例中，所述S1包括：

S11：获取需要进行实体识别的语句，并将获取到的语句作为目标语句；

S12：根据结巴分词，对目标语句进行分词处理，将目标语句切分成由词语组成的形式。

在一些实施例中，所述S2包括：

S21：构建预训练bert模型，包括输入层、embedding层、多头注意力机制层以及前向计算层；

S22：将目标语句和已有知识图谱中的实体以及实体节点作为数据集，输入预训练bert模型；

S23：将从预训练bert模型输出的多维向量表示，输入MLP多层感知机中进行二分类。

在一些实施例中，所述S22包括：

S221：将已获得的目标语句和已有知识图谱中的实体以及实体节点作为数据集，并按照8:2的比例将数据集划分为训练集和测试集，将训练集转化为数字id映射后输入预训练bert模型；

S222：将embedding权重矩阵与输入的训练集数字ID进行矩阵相乘，得到向量维度为768维的embedding词向量特征矩阵；

S223：将embedding词向量特征矩阵分别经过三个线性层做矩阵特征提取，得到每个输入数据融合了注意力信息的768维向量表示；

S224：将S223中输出的每个数据经过两层线性层，并经过激活层激活后，得到每个数据最终的768维向量表示。

在一些实施例中，所述S23包括：

S231：将S224中得到的每个数据最终的768维向量表示输入MLP多层感知机；

S232：利用softmax函数计算目标语句中的词语和知识图谱中的实体所匹配的概率。

第二方面，本发明提供了基于远程监督的实体识别***，包括：

分词模块，用于将需要进行实体识别的语句作为目标语句，并对目标语句进行分词处理；

实体链接模块，用于将分词处理得到的词语与已有知识图谱中的实体进行匹配，并使用预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别；

实体抽取模块，用于将能够与现有知识图谱中的实体匹配的词语作为输入数据，输入到深度学习模型LSTM进行实体抽取；

特征拼接模块，用于将每个词语从深度学习模型LSTM的输出结果与该词语与已有知识图谱中所对应的实体信息进行拼接，完成实体抽取。

在一些实施例中，所述分词模块包括：

目标语句获取子模块，用于获取需要进行实体识别的语句，并将获取到的语句作为目标语句；

结巴分词子模块，用于根据结巴分词，对目标语句进行分词处理，将目标语句切分成由词语组成的形式。

在一些实施例中，所述实体链接模块包括：

预训练bert模型构建子模块，用于构建预训练bert模型，包括输入层、embedding层、多头注意力机制层以及前向计算层；

数据处理子模块，用于将目标语句和已有知识图谱中的实体以及实体节点作为数据集，输入预训练bert模型；

二分类判别子模块，用于将从预训练bert模型输出的多维向量表示，输入MLP多层感知机中进行二分类。

在一些实施例中，所述数据处理子模块包括：

数字映射单元，用于将已获得的目标语句和已有知识图谱中的实体以及实体节点作为数据集，并按照8:2的比例将数据集划分为训练集和测试集，将训练集转化为数字id映射后输入预训练bert模型；

数据输入单元，用于将embedding权重矩阵与输入的训练集数字ID进行矩阵相乘，得到向量维度为768维的embedding词向量特征矩阵；

注意力融合单元，用于将embedding词向量特征矩阵分别经过三个线性层做矩阵特征提取，得到每个输入数据融合了注意力信息的768维向量表示；

数据输出单元，用于将注意力融合单元中输出的每个数据经过两层线性层，并经过激活层激活后，得到每个数据最终的768维向量表示。

在一些实施例中，所述二分类判别子模块包括：

多层感知输入单元，用于将S224中得到的每个数据最终的768维向量表示输入MLP多层感知机；

概率计算单元，用于利用softmax函数计算目标语句中的词语和知识图谱中的实体所匹配的概率。

本申请的有益效果是：

本申请提供的基于远程监督的实体识别方法及***，能够在小领域场景中，充分利用现有的知识图谱信息，为实体抽取任务提供额外的特征知识，进而提高在小领域场景中的实体识别准确率。

附图说明

图1为本申请基于远程监督的实体识别方法流程图；

图2为本申请步骤S1的子流程图；

图3为本申请步骤S2的子流程图；

图4为本申请步骤S22的子流程图；

图5为本申请步骤S23的子流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本申请基于远程监督的实体识别方法流程图。

基于远程监督的实体识别方法，结合图1，包括以下步骤：

在一些实施例中，结合图2即本申请步骤S1的子流程图，所述步骤S1包括：

具体的，在实体识别任务中，首先需要对需要进行实体识别的语句进行分词处理，将其切分成由词语组成的形式。在本方案中，采用了结巴分词器对目标语句进行分词处理，从而得到目标语句的词语组成形式。

具体的，为了利用现有的知识图谱信息，为实体抽取任务提供额外的特征知识，需要对分词处理得到的词语与已有知识图谱中的实体进行匹配，只有在分词处理得到的词语能够匹配到已有知识图谱中的实体时，才能够为该词语提供知识图谱中的实体特征。本方案利用了预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别，若能够匹配，则进入步骤S21，若不能匹配，则对下一个词语进行判别。

在一些实施例中，结合图3即本申请步骤S2的子流程图，所述S2包括：

在一些实施例中，结合图4即本申请步骤S22的子流程图，所述S22包括：

具体的，本步骤对应了预训练bert模型中的输入层，将目标语句和已有知识图谱中的实体以及实体节点作为数据集，按照8:2的比例将数据集划分为训练集和测试集，将训练集转化为数字id映射后作为预训练bert模型的输入。

具体的，本步骤对应了预训练bert模型中的embedding层。通过embedding权重矩阵和输入数据映射的id进行矩阵相乘，得出embedding词向量作为输入数据的embedding矩阵表示，向量维度为768维。

具体的，本步骤对应了预训练bert模型中的多头注意力机制层。通过多头注意力机制层，对embedding层输出的768维特征向量分别经过三个线性层做矩阵特征提取，经过矩阵乘法计算得出每个输入数据融合了注意力信息的768维向量表示。

具体的，本步骤对应了预训练bert模型中的向前计算层。将多头注意力机制层每个输出经过两层线性层，并经过激活层激活后输出每个数据最终的768维向量表示。

在一些实施例中，结合图5即本申请步骤S23的子流程图，所述S23包括：

具体的，将经过bert模型获得的768维度的向量表示输入MLP多层感知机，经过多层感知机MLP进行二分类，并使用softmax函数计算0和1的概率，得到最终的实体链接结果。若模型结果为1，则目标语句中的词语和知识图谱中对应的实体之间判断为相同；若模型结果为0，则目标语句中的词语和知识图谱中对应的实体之间判断为不同。

S3：将能够与现有知识图谱中的实体匹配的词语作为输入数据，输入到深度学习模型LSTM进行实体抽取。

具体的，此时，已经得到了目标语句中与现有知识图谱存在实体链接的词语，接下来将利用到知识图谱的信息来完成实体识别，本方案中使用深度学习模型LSTM来实现实体抽取，对于和知识图谱中的实体存在匹配关系的词语，将该词语在知识图谱中对应实体的节点信息作为额外特征输入模型得到向量表示，与目标语句中的词语经过深度学习模型LSTM后得到的向量表示进行拼接，从而扩大了词语的额外特征信息，同时也完成了实体抽取任务。

本发明第二方面还提供了基于远程监督的实体识别***，该***包括：

在一些实施例中，所述分词模块包括：

在一些实施例中，所述实体链接模块包括：

在一些实施例中，所述数据处理子模块包括：

在一些实施例中，所述二分类判别子模块包括：

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.基于远程监督的实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于远程监督的实体识别方法，其特征在于，所述S1包括：

3.根据权利要求1所述的基于远程监督的实体识别方法，其特征在于，所述S2包括：

4.根据权利要求3所述的基于远程监督的实体识别方法，其特征在于，所述S22包括：

5.根据权利要求4所述的基于远程监督的实体识别方法，其特征在于，所述S23包括：

6.基于远程监督的实体识别***，其特征在于，包括：

7.根据权利要求6所述的基于远程监督的实体识别***，其特征在于，所述分词模块包括：

8.根据权利要求6所述的基于远程监督的实体识别***，其特征在于，所述实体链接模块包括：

9.根据权利要求8所述的基于远程监督的实体识别***，其特征在于，所述数据处理子模块包括：

10.根据权利要求9所述的基于远程监督的实体识别***，其特征在于，所述二分类判别子模块包括：