CN114036950A

CN114036950A - 一种医疗文本命名实体识别方法及***

Info

Publication number: CN114036950A
Application number: CN202111327160.3A
Authority: CN
Inventors: 薛付忠; 胡锡峰; 季晓康; 陈耀祖; 张琪; 王永超; 仉率杰; 潘威; 张健
Original assignee: Jinan Xingteng Information Technology Co ltd; Shandong University
Current assignee: Jinan Xingteng Information Technology Co ltd; Shandong University
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-11
Anticipated expiration: 2041-11-10
Also published as: CN114036950B

Abstract

本发明公开了一种医疗文本命名实体识别方法及***，所述方法包括以下步骤：获取待识别医疗文本；基于预训练的命名实体识别模型，对所述待识别医疗文本进行命名实体识别；其中，所述命名实体识别模型训练方法包括：获取已进行实体标注的医疗文本训练数据集，对每个训练数据均进行字符级编码、实***置编码和实体类别编码；根据选定中文预训练模型，根据所述字符级编码及相应的实***置编码和实体类别编码，训练得到所述命名实体识别模型。本发明通过改进实***置编码和实体类别编码方法，能够快速高效的进行命名实体预测。

Description

一种医疗文本命名实体识别方法及***

技术领域

本发明属于医学文本处理技术领域，尤其涉及一种医疗文本命名实体识别方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

命名实体识别任务主要为识别文本中的实体，目前所采用的主流模型包括softmax逻辑回归模型、条件随机场(ConditionalRandom Field，CRF)、span等几种模式。其中，softmax与CRF的数据输入格式一致，一般采用BIO、BIEO等格式对文本输出进行编码。softmax将标签预测当作传统分类问题，将归一化后概率最高的输出对应的类别作为分类器输出。CRF则加入相邻字符之间的类别转移概率，与softmax相比准确率更高，但是因其不能并行，故效率较softmax低。前两者往往擅长处理实体较短的文本，因其对实体的正确判断需要依赖于实体中每个字符均判断正确，当实体较长时，其正确率显著下降。

基于span模式的命名实体识别，主要是通过模型预测实体的起止位置。这种模式下模型预测一个实体只需要预测起始和结束位置，而不是组成实体的每一个字符，所以其设计模式对于长文本非常友好。目前业界也有较多种实现方式，如枚举文本种所有可能的字符组合，判断该组合是否为实体及其可能的实体类别。或者为对文本中每一个字符进行多个二分类，判断是否为某一类别的起止位置。第一种方法会产生大量实体组合，对于长文本复杂度较高。而第二种方式会导致标签空间稀疏，同时收敛速度较慢。

发明内容

为克服上述现有技术的不足，本发明提供了一种医疗文本命名实体识别方法及***，通过对实***置编码和实体类别进行编码，采用中文预训练模型学习原始文本字符编码与位置编码、类别编码之间的关联，能够快速高效的进行命名实体预测。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种医疗文本命名实体识别方法，包括以下步骤：

获取待识别医疗文本；

基于预训练的命名实体识别模型，对所述待识别医疗文本进行命名实体识别；其中，所述命名实体识别模型训练方法包括：

获取已进行实体标注的医疗文本训练数据集，对每个训练数据均进行字符级编码、实***置编码和实体类别编码；

根据选定中文预训练模型，根据所述字符级编码及相应的实***置编码和实体类别编码，训练得到所述命名实体识别模型。

进一步地，对训练数据进行字符级别编码包括：对每个字符进行编码，得到相应编码ID；基于预设最大长度，对每个编码ID进行截断或补全操作，得到所述训练数据的字符编码序列。

进一步地，对训练数据进行实***置编码包括：对于每个实体，均获取该实体的起始字符所在位置和长度，将所述起始字符编码为该实体的长度，其他字符均编码为0，得到所述训练数据的位置编码序列。

进一步地，对训练数据进行体类别编码包括：对于每个实体，均获取该实体的起始字符所在位置，并根据预设的实体类别映射关系获取该实体相应的类别编码，将所述起始字符编码为该实体的类别编码，其他字符均编码为0，得到所述训练数据的类别编码序列。

进一步地，所述中文预训练模型为RoBERTa模型，训练过程包括：

以字符编码序列为输入，取模型最后一层输出的隐藏状态矩阵，将所述隐藏状态矩阵与其转置矩阵融合得到实体起止位置概率矩阵；

对所述实体起止位置概率矩阵，根据标注实体的长度进行相对位置掩码，得到实***置预测矩阵；

对所述实体起止位置概率矩阵进行线性变换，并与所述隐藏状态矩阵进行融合，得到实体类别预测矩阵；

基于交叉熵损失函数计算实***置预测矩阵与位置编码序列之间的损失，以及实体类别预测矩阵与类别编码序列之间的损失，以两个损失之和最小化为目标对模型进行训练直至收敛。

进一步地，对所述待识别医疗文本进行命名实体识别包括：

将所述待识别医疗文本输入命名实体识别模型，得到实***置预测矩阵和实体类别预测矩阵，分别按行取概率最大位置的索引，得到每个实体的起始位置、长度及类别。

一个或多个实施例提供了一种医疗文本命名实体识别***，包括：

数据获取模块，用于获取待识别医疗文本；

命名实体识别模块，用于基于预训练的命名实体识别模型，对所述待识别医疗文本进行命名实体识别；其中，所述命名实体识别模型训练方法包括：

一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述医疗文本命名实体识别方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述医疗文本命名实体识别方法。

以上一个或多个技术方案存在以下有益效果：

通过对实***置编码和实体类别进行编码，采用中文预训练模型学习原始文本字符编码与位置编码、类别编码之间的关联，能够快速高效的进行命名实体预测。

提供了一种位置编码和类别编码方法，将实体开始的字符编码为该实体的长度和类别，其他字符均编码为0，数据结构简单，提高了后续运算效率，并且，基于此种编码方法根据模型得到的预测结果，通过求最大值即可快速得到字符位置和类别。

在中文预训练模型中，参考注意力矩阵，通过将输出矩阵与其转置矩阵融合，将序列特征输出矩阵转化为方阵，因方阵中行列维度相等，所以矩阵中横轴和纵轴坐标可以代表对应的实体的起止位置，即每一行代表文本中每一个字符，该行对应的每一列代表以该字符起始的实体的结束位置，具有更强的感知位置的能力。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明一个或多个实施例中医疗文本命名实体识别方法流程图；

图2为本发明一个或多个实施例中医疗文本命名实体识别模型训练方法流程图；

图3为本发明一个或多个实施例中医疗文本命名实体识别模型解码层的数据处理示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于span模式的医疗文本命名实体识别方法，如图1所示，包括以下步骤：

步骤1：获取待识别医疗文本；

步骤2：基于预训练的命名实体识别模型，对所述医疗文本进行命名实体识别。

其中，所述命名实体识别模型包括编码层和解码层。

本实施例中，所述命名实体识别模型采用RoBERTa模型训练得到。如图2所示，训练过程具体包括：

(1)获取经标注的医疗文本样本作为训练集；

本实施例中，所述医疗文本从电子病历获取，包括入院记录、首程、出院记录在内的多种医疗文本，将医疗文本按照特定标注规范进行标注，例如标注躯体部位、临床表现等。

获取经标注的医疗文本后，还对医疗文本进行预处理：将医疗文本按照段落进行拆分，拆分后每条数据为一个样本。将标注样本划分为训练集、验证集、测试集，取训练集数据进行训练。

通过编码层获取医疗文本样本的位置编码序列、类别编码序列和字符编码序列。包括以下步骤(2)-(3)。

(2)对所述医疗文本样本进行实体起止位置和实体类别的判断，并对其进行位置编码和类别编码，得到位置编码序列和类别编码序列。

位置编码规则为：如文本中字符为实体的起始位置，获取该实体的长度，将该起始位置编码为该实体长度，如非实体的起始位置，则编码为0。

类别编码规则为：获取该实体类别，并将该实体的起始位置按照实体类别进行编码，其他位置编码为0。具体地，预先设置实体类别映射关系。举例如下：

文本样本示例：[‘左侧肢体不自主震颤5年，加重伴右侧肢体震颤1个月。’]

位置编码序列：[2,0,2,0,3,0,0,2,0,2,0,0,0,0,0,2,0,2,0,2,0,3,0,0,0]

类别编码序列：[1,0,2,0,4,0,0,3,0,5,0,0,0,0,0,1,0,2,0,3,0,5,0,0,0]

其中类别编码字典为：

[‘o’,’pos’,’bod’,’sym’,’pro’,’dur’]

对应位置含义：‘o’:该位置非实体的起始位置；’pos’：方位；’bod’：躯体部位；’sym’：临床表现；’pro’：性质；’dur’：持续时间。

(3)根据预设字典，对所述医疗文本样本进行字符级别编码，得到字符编码序列。

对所述医疗文本样本进行字符级别编码(本实施例中采用WordPiece编码)，得到字符对应的编码ID。对编码ID执行以下操作：设置输入最大长度为maxLen，对超过maxLen长度的输入进行截断处理，对未达到maxLen长度的输入添加’[PAD]’补全；对出现的英文单词进行小写转换；并将未出现在字典中的字符替换为’[UNK]’，在文本起始处添加’[CLS]’。

根据字符编码序列的长度，将步骤(2)中生成的位置编码序列和类别编码序列起始处及结尾处填充0，以与字符编码序列的长度相对应，即，每个字在位置编码序列、类别编码序列和字符编码序列中对应的字符相同。

通过解码层对实***置和实体类别进行解码，并结合步骤(1)和(2)得到的实际实***置编码和实体类别编码计算损失函数。如图3所示，包括以下步骤(4)-(6)。

(4)将字符编码序列输入到经过预训练的RoBERTa模型，获取模型最后一层输出的隐藏状态为矩阵H，H∈R^S×E，其中S为输入的最大长度，E为隐藏层的维度。

(5)将模型输出矩阵与其转置矩阵进行融合，并经过Performer层，得到实体起止位置概率矩阵H_XY。

融合后矩阵可以融合行和列两个维度的信息，即实体起始和可能结尾的信息，融合的方式是对输出矩阵和其转置矩阵进行矩阵相乘，具体公式为：

H_XY＝Softmax(Performer(H*H^T))

其中，T为转置操作，H_XY∈R^S×S。

参考标注实体的长度，设置截断长度n，对融合矩阵H_XY进行相对位置掩码，掩码矩阵为M，具体公式为：

其中M_i,j表示输入的掩码矩阵中第i个字符和第j维度。取M中值为1的部分得到特征向量H_E∈R^S×N，其中S为输入的最大长度，n为设置的截断长度。矩阵H_Es,n中表示输入的第s个字符以及以第s个字符为起始的长度为n的实体存在的可能性。

以交叉熵为损失函数，计算H_E与第(2)步得到的真实位置编码entity_label的损失，得到entity_loss。公式为：

entity_loss＝Cross_entropy(H_E,entity_labell)

(6)将第(5)步得到的融合矩阵H_XY经过线性层进行线性变换，并与矩阵H融合，防止H_XY与编码层输出距离过远损失信息，得到矩阵H_T，具体公式为：

H_T＝MLP(H+MLP(H_XY))＝f(W_T(H+f(H_XYW_XY+b))+b)

H_XY∈R^S×S，其中S为输入的最大长度；W_XY∈R^S×E，为权重矩阵；W_T∈R^E×T，T为类别编码的数量；b为偏置项；H_T∈R^S×T，f为激活函数tanh或者relu。

以交叉熵为损失函数，计算H_T与真实类别编码type_label之间的损失，得到type_loss。公式为：

type_loss＝Cross_entropy(H_T,type_labell)

将步骤(5)和步骤(6)中的loss按照任务难度加权求和得到模型总loss，通过使验证集loss最小化对模型进行训练直到模型收敛。

loss＝γ*entity_loss+(1-γ)*type_loss

γ∈(0,1)，为模型超参，loss为模型总损失。

所述步骤2具体包括：将医疗文本输入训练后模型进行预测，得到位置预测矩阵H_E和类别预测矩阵H_T，分别按行取概率最大位置的索引，得到每个实体的起始位置、长度及类别。

具体地，对矩阵H_E按行进行argmax取最大值，最大值对应的非0索引即为该实体的长度；对矩阵H_T按行进行argmax取最大值，最大值索引对应的值即为实体类别。

本实施例参考注意力矩阵，将序列特征输出矩阵转化为方阵，因方阵中行列维度相等，所以矩阵中横轴和纵轴坐标可以代表对应的实体的起止位置，即每一行代表文本中每一个字符，该行对应的每一列代表以该字符起始的实体的结束位置。假设矩阵为M，M_i，j(i＜j)中代表i位置起始字符与j位置结束字符之间的关系，而M_j，i可以代表从结束字符到起始字符之间的关系，故对该矩阵进行转置后融合，可使其得到更多的感知位置的能力。由于融合矩阵为方阵，当设置输入文本较长时，也对应着有较多结束位置的类别，类别的增多，会导致模型精度降低。而实际情况中，结束位置只能在起始位置或起止位置之后有限的长度内，因此本实施例对结束位置进行一定限制。并且通过对融合矩阵进行相对位置编码，将预测实体结束字符的绝对位置改为预测结束字符到起始字符的相对距离。对于特定的实体，其相对位置是固定的，而绝对位置则随着该实体在文中出现的位置的变化而变化，将绝对位置改为相对位置后，可有效降低标签类别，降低复杂度，提高模型精度。

实施例二

本实施例的目的是提供一种医疗文本命名实体识别***，所述***包括：

数据获取模块，用于获取待识别医疗文本；

实施例三

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例一种所述医疗文本命名实体识别方法。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一种所述医疗文本命名实体识别方法。

以上实施例二至四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

以上一个或多个实施例具有以下技术效果：

通过对实***置编码和实体类别进行编码，采用中文预训练模型学习原始文本字符编码与位置编码、类别编码之间的关联，能够快速高效的进行命名实体预测。并且模型中，参考注意力矩阵，通过将输出矩阵与其转置矩阵融合，将序列特征输出矩阵转化为方阵，具有更强的感知位置的能力，提高了位置预测精度。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种医疗文本命名实体识别方法，其特征在于，包括以下步骤：

获取待识别医疗文本；

2.如权利要求1所述的一种医疗文本命名实体识别方法，其特征在于，对训练数据进行字符级别编码包括：对每个字符进行编码，得到相应编码ID；基于预设最大长度，对每个编码ID进行截断或补全操作，得到所述训练数据的字符编码序列。

3.如权利要求1所述的一种医疗文本命名实体识别方法，其特征在于，对训练数据进行实***置编码包括：对于每个实体，均获取该实体的起始字符所在位置和长度，将所述起始字符编码为该实体的长度，其他字符均编码为0，得到所述训练数据的位置编码序列。

4.如权利要求3所述的一种医疗文本命名实体识别方法，其特征在于，对训练数据进行进行实体类别编码包括：对于每个实体，均获取该实体的起始字符所在位置，并根据预设的实体类别映射关系获取该实体相应的类别编码，将所述起始字符编码为该实体的类别编码，其他字符均编码为0，得到所述训练数据的类别编码序列。

5.如权利要求3或4所述的一种医疗文本命名实体识别方法，其特征在于，得到位置编码序列和类别编码序列后，对位置编码序列和类别编码序列中每个字符对应的编码长度通过填补0进行扩充，使得长度与字符编码序列一致。

6.如权利要求1所述的一种医疗文本命名实体识别方法，其特征在于，所述中文预训练模型为RoBERTa模型，训练过程包括：

7.如权利要求4所述的一种医疗文本命名实体识别方法，其特征在于，对所述待识别医疗文本进行命名实体识别包括：

8.一种医疗文本命名实体识别***，其特征在于，包括：

数据获取模块，用于获取待识别医疗文本；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述医疗文本命名实体识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述医疗文本命名实体识别方法。