CN114201967A

CN114201967A - 一种基于候选实体分类的实体识别方法、***及装置

Info

Publication number: CN114201967A
Application number: CN202210146462.9A
Authority: CN
Inventors: 韩瑞峰; 杨红飞; 金霞
Original assignee: Hangzhou Firestone Technology Co ltd
Current assignee: Huoshi Creation Technology Co ltd
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-03-18
Anticipated expiration: 2042-02-17
Also published as: CN114201967B

Abstract

本发明公开了一种基于候选实体分类的实体识别方法、***及装置，首先进行分词栅格构造，对输入文本逐字遍历，记录每个分词的位置区间，作为文本的分词结果并进行分词和去重处理；然后进行候选实体构造，对分词栅格按照位置区间中的起始位置由小到大排序，由每个文字位置取得1到K个连续词作为K个候选实体，最后构造检测时的输入样本：对于分句后的文本，根据候选实体所在位置进行截断，并记录截断起始位置构成输入文本，通过语言模型进行检测，在检测后将检测结果位置加上该截断起始位置，得到在原文本中的位置。本发明基于候选实体分类进行实体识别，经过对分词方法的改进和融合，极大减少了候选词的数量，提高了计算速度，同时保证高召回率。

Description

一种基于候选实体分类的实体识别方法、***及装置

技术领域

本发明涉及文本实体识别领域，尤其涉及一种基于候选实体分类的实体识别方法、***及装置。

背景技术

在文本信息抽取的应用场景中，场景多样、细化，缺少标注样本，标注样本获取成本高是工业应用上面临的现状，目前的技术针对少量标注样本的场景还没有成熟的方案，面对这样的现状，如何更有效的对实体识别进行建模，是一个热门的研究方向。

目前的文本信息抽取方法中，基于模型训练的方法需要大量的标注样本，虽然有一些深度模型呈现准确度越来越高，需要的标注样本量越来越少的趋势，但仍然需要一定量的标注样本才能训练得到可用的模型，在获得样本前，无法开展工作，这样的过程相当于将开发成本转嫁到样本的标注上，整体开发效率仍然低下。将掩码语言模型的方法应用到实体识别时，遇到的最大问题是候选词过多，计算效率低。

发明内容

本发明目的在于针对现有技术的不足，提出了一种基于对候选实体词的分类来进行文本实体识别的方法、***及装置，利用改进的分词方法构造，进而构造候选实体，减少传统方法固有的计算量大的问题，在对召回影响极小的同时，大大提升了计算速度。同时可处理嵌套实体等特殊情形。

本发明的目的是通过以下技术方案来实现的：第一方面，本发明提供了一种基于候选实体分类的实体识别方法，该方法包括以下步骤：

（1）进行分词栅格构造：首先对文本进行分句，对分句后的文本进行分词，具体为：对输入文本逐字遍历，得到每个文字位置上的位置集合形成的所有分词，同时记录每个分词的位置区间，作为文本的分词结果，对分词结果进行遍历，检查每个分词与其他分词的位置是否重合，如果存在位置重合，则进行切割，将位置重合的部分、不重合的部分切分成新的分词，使得每个分词均能在分词结果中找到位置连续的分词；最后对相同位置区间的分词进行去重；由全部的分词形成分词栅格；

（2）候选实体构造：基于分词栅格构造候选实体，设定连续分词个数阈值为K，对分词栅格按照位置区间中的起始位置由小到大排序，由文字位置i取得连续词作为K个候选实体，连续分词分别为[i]，[i,i+1],..., [i,i+1,..,i+k]；[i]表示第i个文字位置的连续分词，所述连续分词的前一个分词的结束位置与下一个分词的起始位置相同；

（3）构造检测时的输入样本：对于分句后的文本，根据候选实体所在位置进行截断，取包含候选实体的不超过最大长度MAX_TEXT_LEN的文本，并记录截断起始位置构成输入文本，将输入文本后面加上“候选实体是[UNK]…[UNK]实体”作为语言模型的输入，[UNK]的个数由实体类型名称的长度决定，通过语言模型进行检测，其中[UNK]为待预测的掩模，表示实体类型，通过比较掩模位置上各类型所表示文本的概率得到其类型，在检测后将检测结果位置加上该截断起始位置，得到在原文本中的位置。

进一步地，步骤（1）中，所述对文本进行分句具体过程为：基于预定义的表示连续句中应当包含的字符类型的正则表达式，遇到没有包含在句子中的字符则在相应位置进行句子分隔；或者基于序列标注模型进行分句，之后采用自定义的分隔符进行进一步划分。

进一步地，步骤（1）中，对文本逐字遍历，对每个位置k，与后面位置连续的字[k+1,k+2,…]构成的词如果在预定义分词词典中，则记录k对应的位置[k+i,k+j,…]，得到每个位置上对应的位置集合，构成文本的DAG有向无环图；对DAG有向无环图遍历，得到每个位置上的位置集合形成的所有分词；所述预定义分词词典通过语料进行分字，进行连续分词个数统计，将出现次数大于N的词扩充到分词词典中。

进一步地，步骤（1）中，通过序列模型对分句后的文本进行分词，将序列模型的分词结果增加到步骤（1）的分词结果中，再对融合后的分词结果作切割和去重处理。

进一步地，步骤（2）中，对于候选词进行筛选与去重，具体为：用领域停止词词典和正则去掉一部分不可能成为领域内实体的候选词。

进一步地，步骤（3）中，当文本中出现多个相同候选实体时，将文本截断，使得输入文本只包含一个候选实体；当多个候选实体相连时，同时将各个候选实体和相连后形成的候选实体均作为单独的候选实体；候选实体存在嵌套时，即有一个实体被另一个实体包含时，两个实体都作为单独的实体形成两个样本。

进一步地，步骤（3）中，对于嵌套在其他实体中的实体作为不同的候选实体，在检测时设置置信度阈值来区分嵌套实体和错误实体，检测结果中发生嵌套的两个实体，如果置信度均在阈值之上，则视为嵌套实体同时作为检测结果，如果有一个实体检测结果的置信度在阈值之下，则依据非最大抑制方法选取置信度较大的实体作为检测结果，如果发生嵌套的两个候选实体的置信度均在阈值之下，则删除不作为检测结果。

进一步地，步骤（3）中，语言模型的输入还能够构造如下形式：

a. 输入文本后面加上“候选实体是实体类型A的实体”作为语言模型的输入文本，输出0或1表示“对”或“错”，从而得到候选实体的类型；

b. 基于GPT类模型的条件概率模型，或填槽式问答模型，在“输入文本”的条件下，计算“候选实体为实体类型A”和“候选实体为实体类型B”的概率，或对“候选实体为___”中的槽位用“实体类型A”“实体类型B”进行填充。

第二方面，本发明还提供了一种基于候选实体分类的实体识别***，该***包括分词栅格构造模块、候选实体构造模块和检测输入样本构造模块；

所述分词栅格构造模块用于对文本进行分词构造分词栅格，首先对文本进行分句，对分句后的文本进行分词，具体为：对输入文本逐字遍历，得到每个文字位置上的位置集合形成的所有分词，同时记录每个分词的位置区间，作为文本的分词结果，对分词结果进行遍历，检查每个分词与其他分词的位置是否重合，如果存在位置重合，则进行切割，将位置重合的部分、不重合的部分切分成新的分词，使得每个分词均能在分词结果中找到位置连续的分词；最后对相同位置区间的分词进行去重；由全部的分词形成分词栅格；

所述候选实体构造模块用于基于分词栅格构造候选实体，设定连续分词个数阈值为K，对分词栅格按照位置区间中的起始位置由小到大排序，由文字位置i取得连续词作为K个候选实体，连续分词分别为[i]，[i,i+1],..., [i,i+1,..,i+k]；[i]表示第i个文字位置的连续分词，所述连续分词的前一个分词的结束位置与下一个分词的起始位置相同；

所述检测输入样本构造模块用于构造检测时的输入样本，对于分句后的文本，根据候选实体所在位置进行截断，取包含候选实体的不超过最大长度MAX_TEXT_LEN的文本，并记录截断起始位置构成输入文本，将输入文本后面加上“候选实体是[UNK]…[UNK]实体”作为语言模型的输入，[UNK]的个数由实体类型名称的长度决定，通过语言模型进行检测，其中[UNK]为待预测的掩模，表示实体类型，通过比较掩模位置上各类型所表示文本的概率得到其类型，在检测后将检测结果位置加上该截断起始位置，得到在原文本中的位置。

第三方面，本发明还提供了一种基于候选实体分类的实体识别装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现所述的基于候选实体分类的实体识别方法的步骤。

本发明的有益效果：本发明基于候选实体分类进行实体识别，经过对分词方法的改进构造分词栅格和融合，以及对分词结果的切割与去重处理，极大减少了候选词的数量，提高了计算速度，同时保证高召回率。

附图说明

图1为本发明方法流程图；

图2为本发明***框图

图3为本发明一种基于候选实体分类的实体识别装置的结构图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

如图1所示，本发明提供的一种基于候选实体分类的实体识别方法，该方法包括以下步骤：

1.样本准备

1.1 分词栅格构造

分句：首先对文本进行分句，可基于预定义的表示连续句中应当包含的字符类型的正则表达式，即遇到没有包含在其中的字符则在该位置进行句子分隔；或基于序列标注模型进行分句，并用自定义分隔符进行补充，如“

！。”。将句子最大长度限定为MAX_TEXT_LEN，如128，将过短的句子连接，如当文本分割后相邻分割相连后长度小于MAX_TEXT_LEN，则将其连接，目的是为了保证有足够长的上下文来作为判断一个实体的依据。

分词栅格构造：对分句后的文本进行分词，形成分词栅格，在减少逐字遍历的连续分词个数方式形成的实体候选实体的数量级的同时，保证足够的召回率，即尽量保证实体存在于候选实体集合中。具体分词栅格构造包括：

基于词频统计的分词：如结巴分词，对文本逐字遍历，对每个文字位置k，与后面位置连续的字[k+1,k+2,…]构成的词如果在预定义分词词典中，则记录k对应的位置[k+i,k+j,…]，得到每个文字位置上对应的位置集合，构成文本的DAG有向无环图。对DAG图遍历，得到每个文字位置上的位置集合形成的所有分词，同时记录每个分词的位置区间，作为该文本的分词结果。

对分词结果进行切割：对分词结果进行遍历，检查每个分词与其他分词的位置是否重合，如果存在位置重合，则进行切割，将位置重合的部分、不重合的部分切分形成新的分词，使得每个分词均能在分词结果中找位置连续的词。最后对相同位置区间的分词进行去重。由全部的分词形成分词栅格。

对预定义分词词典进行扩展：对语料进行分字，即把中文字、标点、英文单词作为单个字，进行连续分词个数统计，将出现次数大于N的词扩充到分词词典中，如N=2。可选的，结合短语挖掘方法进行词典扩展。

基于序列模型的分词：如ltp等，为了保证足够的召回，结合多种分词模型进行分词，将序列模型的分词结果增加到上述分词结果中，再对融合后的分词结果作上述切割处理。

1.2 候选实体构造：由以上分词栅格构造候选词，设定连续分词个数阈值为K，如K=6，对分词栅格按照位置区间中的起始位置由小到大排序，由文字位置i取得连续词作为K个候选实体，连续分词分别为[i]，[i,i+1],..., [i,i+1,..,i+k]；[i]表示第i个文字位置的连续分词，例如，连续分词[i]为第一个候选实体，连续分词[i,i+1]为第二个候选实体，依次类推，连续分词即前一个分词的结束位置与下一个分词的起始位置相同，由上述分词栅格构造时的切割处理保证了每个分词都能取到位置连续的分词。基于分词栅格构造的候选词可极大的减少候选词的数量，且用较小的连续分词个数阈值可以得到高召回率，即实体覆盖率。

候选词的筛选：用领域停止词词典和正则去掉一部分不可能成为该领域实体的候选词。

1.3 样本构造

构造训练和检测时的输入样本，对于分句后仍然过长的文本，根据候选实体所在位置进行截断，即取包含候选实体的不超过最大长度为MAX_TEXT_LEN的文本，并记录截断起始位置，通过语言模型检测后将检测结果位置加上该截断起始位置，得到在原文本中的位置。

当文本中出现多个相同候选实体时，将文本截断，使得文本只包含一个实体，目的是区分相同的候选实体在不同上下文中可能表示不同类型的实体。如“胰岛素分泌如何调节，注射胰岛素效果也不行”，两个“胰岛素”分别为“激素”和“药物”类型实体。

特殊实体的处理：多个候选实体相连时，同时将各个候选实体和相连后形成的实体都作为单独的候选实体。候选实体存在嵌套时，即有一个实体被另一个实体包含时，两个实体都作为单独的实体形成两个样本。

2.建模和预测

将文本和文本中的候选实体作为输入，判断该候选实体在文本中是否为某一类型的实体，即构造分类语言模型来实现实体判断。可选的建模方式如下：

1）输入文本+“候选实体是实体类型A的实体”作为语言模型的输入，输出0或1表示“对”或“错”，从而得到候选实体的类型。

2）输入文本+“候选实体是[UNK]…[UNK]实体”作为模型的输入，[UNK]的个数由实体类型名称的长度决定，其中[UNK]为待预测的掩模，表示实体类型A、B等，通过比较掩模位置上各类型所表示文本的概率得到其类型。

3）基于GPT类模型的条件概率模型，或填槽式问答模型，即在“输入文本”的条件下，计算“候选实体为实体类型A”和“候选实体为实体类型B”的概率，或对“候选实体为___”中的槽位用“实体类型A”“实体类型B”进行填充。

3.检测结果的后处理

相连实体的处理：当多个候选实体相连时，由于标注规范不统一和文本表达的复杂性，可能被检测为一个实体，也可能被检测为多个实体，根据场景需求和模型准确率的实际情况，可分为2个不同的配置。一种配置方式是把相连的候选实体作为一个实体，另一种配置方式是把相连的候选实体分割后分别作为多个实体，需采取同一种统一的配置。如“伏格列波糖片格列齐特格华止”为“伏格列波糖片”、“格列齐特”、“格华止”3个实体相连。

嵌套实体的处理：嵌套在其他实体中的实体作为不同的候选实体，构造为一个不同的样本。在检测时设置阈值来区分嵌套实体和错误实体，如检测结果中发生嵌套的两个实体，如果置信度都在阈值之上，则视为嵌套实体同时作为检测结果，如果有一个实体检测结果的置信度在阈值之下，则按非最大抑制方法选取置信度较大的实体作为检测结果。如果发生嵌套的两个候选实体的置信度均在阈值之下，则删除不作为检测结果。

重合实体的处理：对以上特殊类型的实体处理后，剩余实体结果中如果有位置重合的，按照非最大抑制方法选取置信度较大的实体作为检测结果。

实施例：

输入文本：病情描述（发病时间、主要症状、症状变化等）：今年我查出患了糖尿病，曾经服过，格列美尿片，二甲双胍片曾经治疗情况和效果：口服格列美尿片8MG二甲双胍片日服0.8g。

候选实体：格列美尿片，实***置区间[61, 66]，文本中出现了2次“格列美尿片”，此处为第2个。实体类型真实值为“药物”。

截取文本片段：二甲双胍片曾经治疗情况和效果：口服格列美尿片8MG二甲双胍片日服0.8g。

语言模型输入：“二甲双胍片曾经治疗情况和效果：口服格列美尿片8MG二甲双胍片日服0.8g；格列美尿片是[UNK][UNK]。”，预测[UNK][UNK]的最大概率值的标签作为候选实体的预测结果。

对于整个输入文本，得到的“药物”实体为：

实体1：格列美尿片，位置区间[38, 43]，概率值0.9934；

实体2：格列美尿，位置区间[38, 42]，概率值0.4122；

实体3：美尿片，位置区间[40, 43]，概率值0.2755；

实体4：二甲双胍片，位置区间[44, 49]，概率值0.9784；

实体5：二甲双胍，位置区间[44, 48]，概率值0.9198；

实体5：二甲双胍片，位置区间[69, 74]，概率值0.9879；

实体5：二甲双胍，位置区间[69, 73]，概率值0.6156；

实体5：格列美尿片，位置区间[61, 66]，概率值0.9691；

对于位置重合的结果进行非最大抑制后处理，最终结果为：

实体1：格列美尿片，位置区间[38, 43]，概率值0.9934；

实体2：二甲双胍片，位置区间[44, 49]，概率值0.9784；

实体3：二甲双胍片，位置区间[69, 74]，概率值0.9879；

实体4：格列美尿片，位置区间[61, 66]，概率值0.9691；

如图2所示，另一方面，本发明还提供了一种基于候选实体分类的实体识别***，该***包括分词栅格构造模块、候选实体构造模块和检测输入样本构造模块；

所述分词栅格构造模块用于对文本进行分词构造分词栅格，首先对文本进行分句，对分句后的文本进行分词，具体为：对输入文本逐字遍历，得到每个文字位置上的位置集合形成的所有分词，同时记录每个分词的位置区间，作为文本的分词结果，对分词结果进行遍历，检查每个分词与其他分词的位置是否重合，如果存在位置重合，则进行切割，将位置重合的部分、不重合的部分切分成新的分词，使得每个分词均能在分词结果中找到位置连续的分词；最后对相同位置区间的分词进行去重；由全部的分词形成分词栅格；具体细节参考基于候选实体分类的实体识别方法的步骤描述。

所述候选实体构造模块用于基于分词栅格构造候选实体，设定连续分词个数阈值为K，对分词栅格按照位置区间中的起始位置由小到大排序，由文字位置i取得连续词作为K个候选实体，连续分词分别为[i]，[i,i+1],..., [i,i+1,..,i+k]；[i]表示第i个文字位置的连续分词，所述连续分词的前一个分词的结束位置与下一个分词的起始位置相同；具体细节参考基于候选实体分类的实体识别方法的步骤描述。

所述检测输入样本构造模块用于构造检测时的输入样本，对于分句后的文本，根据候选实体所在位置进行截断，取包含候选实体的不超过最大长度MAX_TEXT_LEN的文本，并记录截断起始位置构成输入文本，将输入文本后面加上“候选实体是[UNK]…[UNK]实体”作为语言模型的输入，[UNK]的个数由实体类型名称的长度决定，通过语言模型进行检测，其中[UNK]为待预测的掩模，表示实体类型，通过比较掩模位置上各类型所表示文本的概率得到其类型，在检测后将检测结果位置加上该截断起始位置，得到在原文本中的位置。具体细节参考基于候选实体分类的实体识别方法的步骤描述。

与前述基于候选实体分类的实体识别方法的实施例相对应，本发明还提供了基于候选实体分类的实体识别装置的实施例。

参见图3，本发明实施例提供的一种基于候选实体分类的实体识别装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述实施例中的基于候选实体分类的实体识别方法。

本发明基于候选实体分类的实体识别识别装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本发明基于候选实体分类的实体识别装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于候选实体分类的实体识别方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于候选实体分类的实体识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于候选实体分类的实体识别方法，其特征在于，步骤（1）中，所述对文本进行分句具体过程为：基于预定义的表示连续句中应当包含的字符类型的正则表达式，遇到没有包含在句子中的字符则在相应位置进行句子分隔；或者基于序列标注模型进行分句，之后采用自定义的分隔符进行进一步划分。

3.根据权利要求1所述的一种基于候选实体分类的实体识别方法，其特征在于，步骤（1）中，对文本逐字遍历，对每个位置k，与后面位置连续的字[k+1,k+2,…]构成的词如果在预定义分词词典中，则记录k对应的位置[k+i,k+j,…]，得到每个位置上对应的位置集合，构成文本的DAG有向无环图；对DAG有向无环图遍历，得到每个位置上的位置集合形成的所有分词；所述预定义分词词典通过语料进行分字，进行连续分词个数统计，将出现次数大于N的词扩充到分词词典中。

4.根据权利要求1所述的一种基于候选实体分类的实体识别方法，其特征在于，步骤（1）中，通过序列模型对分句后的文本进行分词，将序列模型的分词结果增加到步骤（1）的分词结果中，再对融合后的分词结果作切割和去重处理。

5.根据权利要求1所述的一种基于候选实体分类的实体识别方法，其特征在于，步骤（2）中，对于候选词进行筛选与去重，具体为：用领域停止词词典和正则去掉一部分不可能成为领域内实体的候选词。

6.根据权利要求1所述的一种基于候选实体分类的实体识别方法，其特征在于，步骤（3）中，当文本中出现多个相同候选实体时，将文本截断，使得输入文本只包含一个候选实体；当多个候选实体相连时，同时将各个候选实体和相连后形成的候选实体均作为单独的候选实体；候选实体存在嵌套时，即有一个实体被另一个实体包含时，两个实体都作为单独的实体形成两个样本。

7.根据权利要求6所述的一种基于候选实体分类的实体识别方法，其特征在于，步骤（3）中，对于嵌套在其他实体中的实体作为不同的候选实体，在检测时设置置信度阈值来区分嵌套实体和错误实体，检测结果中发生嵌套的两个实体，如果置信度均在阈值之上，则视为嵌套实体同时作为检测结果，如果有一个实体检测结果的置信度在阈值之下，则依据非最大抑制方法选取置信度较大的实体作为检测结果，如果发生嵌套的两个候选实体的置信度均在阈值之下，则删除不作为检测结果。

8.根据权利要求1所述的一种基于候选实体分类的实体识别方法，其特征在于，步骤（3）中，语言模型的输入还能够构造如下形式：

9.一种基于候选实体分类的实体识别***，其特征在于，该***包括分词栅格构造模块、候选实体构造模块和检测输入样本构造模块；

10.一种基于候选实体分类的实体识别装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，用于实现如权利要求1-8中任一项所述的基于候选实体分类的实体识别方法的步骤。