CN113948217A

CN113948217A - 一种基于局部特征整合的医学嵌套命名实体识别方法

Info

Publication number: CN113948217A
Application number: CN202111392829.7A
Authority: CN
Inventors: 王进; 蒋诗琪; 王利蕾; 孙开伟; 方阳
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-01-18
Anticipated expiration: 2041-11-23
Also published as: CN113948217B

Abstract

本发明属于自然语言处理的命名实体识别领域，具体涉及一种基于局部特征整合的医学嵌套命名实体识别方法，该方法包括：该方法包括：对文本实体进行打标；通过双向长短期记忆网络来捕捉正向文本特征和反向文本特征；使用卷积神经网络提取局部特征，并采用匹配度评分矩阵为双向特征进行打分；重复上述过程，直到设定的最大实体长度，得到所有的预测实体；本发明采用了BiLSTM采集文本关键信息，将正向信息与反向信息剥离开，对他们进行分开操作；采用局部特征整合，将实体所处在的前后语义背景信息与实体内部的信息链接相区分，保证实体的产生是具有语义环境，并使得内部紧密有序。

Description

一种基于局部特征整合的医学嵌套命名实体识别方法

技术领域

本发明属于自然语言处理的命名实体识别领域，具体涉及一种基于局部特征整合的医学嵌套命名实体识别方法。

背景技术

随着信息时代的飞速发展，人们对信息的提取不再限制在人工或纸质渠道，而是期望有一个模型能识别诊断记录或者医学文献中的命名实体，实现文本的结构化，为患者建档立卡，个性化决策，或者将医学文献的新实体抽取出来，为数据化管理提供了更多的可能性。

对于一般的命名实体识别，通常采用序列标注的方法，但这样只能选出平面命名实体，不能解决嵌套命名实体的问题。解决嵌套命名实体识别目前有三种主流思路，一是通过遍历头尾指针，找出表现较好的跨度表示预测出的实体，但这种方法没有考虑实体内部的联系，也没考虑实体后文对实体边界的影响，同时耗费时间长。第二种方法是采用阅读理解的方式，找出数据中符合问题的实体，可以理解为将一个嵌套命名实体识别拆分为n个平面命名实体，n代表实体类别个数，但这是基于同类别实体种不存在嵌套的情况，是一种较为理想的状态。第三种是固定长度，每次找对应长度的实体。为了预测多种长度的实体，采用了多个LSTM，使得训练的时长大大增加，并且没有考虑实体外的文本对实体边界的影响。

综上所述，传统的序列标注不能解决嵌套命名实体识别，而目前存在的解决嵌套命名实体识别方法普遍存在网络结构深，且耗费时间长的问题。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于局部特征整合的医学嵌套命名实体识别方法，该方法包括：获取待识别的医学嵌套命名实体，将该命名实体输入到医学文本嵌套命名实体识别模型中，得到识别结果；

对医学文本嵌套命名实体识别模型进行训练的过程包括：

S1：获取原始医学文本数据和标签数据，根据文本数据的实体长度采用标签数据对医学文本数据进行标注；将标注的数据集划分为训练集和测试集；

S2：将训练集中的文本数据转化为对应的词向量，将词向量输入到基于注意力机制的BiLSTM模型中，得到一组包含前向信息和后向信息的向量；将该向量划分为正向文本信息和反向文本信息；

S3：将正向文本信息和反向文本信息分别输入到局部特征匹配模型中，提取文本的局部信息，并对正向信息和反向信息的匹配度进行评分；

S4：根据文本的局部信息、正向信息匹配度评分以及反向信息匹配度评分对实体长度进行预测；

S5：根据预测的实体长度计算模型的损失函数；

S6：将测试集中的数据输入到模型中，不断重复步骤S3～步骤S5，直到得到最大的实体长度，完成模型的训练。

优选的，采用标签数据对医学文本数据进行标注的过程包括：

步骤1：对原始医学文本数据进行整理，得到医学文本数据的实体，每个实体由三元组表示；

步骤2：对二维标注矩阵进行初始化；

步骤3：根据每个实体的长度和在文本的起始位置在二维标注矩阵中获取对应的位置，并打算类别标签；

步骤4：将所有的文本进行信息标注。

优选的，采用基于自注意力机制的BiLSTM模型对词向量进行处理的过程包括：

步骤1：将文本放入word2vec和fasttext进行训练，得到对应的词向量，将对应的词向量与Bert预训练的词向量进行结合，得到融合后的词向量，该向量为[word2vec；fasttext；Bert]；

步骤2：将得到的融合词向量输入到BiLSTM模型中，并将最后一层的输出拆分为正向信息与反向信息；

步骤3：分别对正向信息和反向信息做自注意力机制，对正向信息和反向信息做自注意力机制的过程包括：正向信息和反向信息均为三维向量为v，将v的二三维交换得到v′，并将v与v′相乘，得到经过自注意力机制后的向量。

优选的，采用局部特征匹配模型对文本信息进行处理的过程包括：

步骤1：确定当前实体的长度item_len；

步骤2：采用卷积核大小为item_len的CNN分别对正向信息和反向信息进行局部整合，得到局部特征；

步骤3：对正向和反向信息的匹配度进行评分，得到头尾指针匹配度矩阵；

步骤4：根据头尾指针匹配度矩阵将基于注意力机制的BiLSTM模型输出的特征与局部特征进行融合，将融合后的特征进行分类，得到预测的实体长度；

步骤5：根据预测的实体长度和真实实体长度计算模型的损失值，并保留当前的损失值；

步骤6：将当前实体长度item_len，并返回步骤2，直到item_len大于最大的实体长度时，得到最长的实体。

进一步的，采用CNN分别对正向信息和反向信息进行局部整合的过程包括：

步骤21：对正向信息V_for和反向信息V_rev进行零向量拼接操作，得到拼接后的正向信息V_for1和拼接后的反向信息V_rev1；

步骤22：将拼接后的正向信息V_for1和拼接后的反向信息V_rev1的二三维对调，得到变形后的正向信息V_for2和反向信息V_rev2；

步骤23：使用Conv1d分别处理变形后的V_for2和V_rev2，得到V′_for和V′_rev；

步骤24：将经过Conv1d处理后的V′_for和V′_rev调换第二维和第三维，得到局部特征。

进一步的，对正向和反向信息的匹配度进行评分的过程包括：设定可学习参数α，β，match_score_matrix；其中，α和β参数分别为区分正反向量的重要程度；match_score_matrix为每个头尾指针的匹配度评分，采用头尾指针匹配度矩阵计算公式对每个头尾指针的匹配度评分进行计算，得到头尾指针匹配度矩阵output。

进一步的，头尾指针匹配度矩阵计算公式为：

output＝α*V′_for+V′_rev+match_score_matrix

其中，α表示正向向量的重要程度，β表示反向向量的重要程度，match_score_matrix表示每个头尾指针的匹配度评分，V′_for表示正向信息的局部特征，V′_rev表示反向信息的局部特征。

进一步的，预测的实体长度的过程包括：

步骤41：将头尾匹配度矩阵output与BiLSTM模型的输出特征相结合；

步骤42：将结合后的特征输入到soft Linear层，使得输入的两个语义特征融合；

步骤43：将融合后的特征输入到到classify Linear层，输出维度为标签类别数N的矩阵predict_matrix；

步骤44：根据矩阵predict_matrix得到实体长度。

进一步的，根据矩阵predict_matrix得到实体长度包括：矩阵predict_matrix的每个位置predict_matrix_ij都代表当前字是否为实体开头，若predict_matrix_ij＝0，则不为实体，若predict_matrix_ij＝k，则ij位置为第k个类别的实体开头，并且长度为当该模块设定的长度item_len。

优选的，模型的损失函数为：

其中，M表示总样本数，N表示类别数，y_ic表示样本i对于类别c的期望输出，p_ic表示样本i对于类别c的实际输出。

本发明采用了BiLSTM网络采集文本关键信息，将正向信息与反向信息剥离开，对他们进行分开操作；采用局部特征整合，将实体所处在的前后语义背景信息与实体内部的信息链接相区分，保证实体的产生是具有语义环境，且内部紧密有序；同时采用match_score_matrix对头尾字符进行优化匹配，让头尾信息在具有重要性区分度的同时，能匹配到对的实体分解边界；除此之外使用了一种新的打标方式，对比普通标注方式更简单，更使用于嵌套命名实体识别。

附图说明

图1为本发明的基于局部特征整合的医学嵌套命名实体识别方法的流程图；

图2为本发明的医学文本嵌套命名实体识别模型结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于局部特征整合的医学嵌套命名实体识别方法，如图1所示，该方法包括：将收集到的医疗文本信息送入多个预训练模型，得到对应的词向量；通过BiLSTM来捕捉正向文本特征和反向文本特征；使用CNN将固定长度区域的语义信息赋给头字符和尾字符，采用匹配度评分矩阵，为头尾信息的匹配度打分，得到预测实体长度等于卷积步长的实体；重复上一步骤，一直到设定的最大实体长度，得到所有的预测实体。

一种基于局部特征整合的医学嵌套命名实体识别方法，该方法包括：获取待识别的医学嵌套命名实体，将该命名实体输入到医学文本嵌套命名实体识别模型中，得到识别结果。

如图2所示，对医学文本嵌套命名实体识别模型进行训练的过程包括：

S3：将正向文本信息和反向文本信息分别输入到局部特征匹配模型中，提取文本的局部信息，并对正向信息和反向信息的匹配度进行评分；该局部特征匹配模型为CNN模型，该CNN模型用于将局部区域信息赋给头字符或尾字符；

S4：根据文本的局部信息、正向信息匹配度评分以及反向信息匹配度评分对实体长度进行预测；具体的，创建可学习参数，将CNN输出的局部特征与可学习参数进行加权，对头尾字符的匹配度进行评分，预测长度等于卷积步长的实体；

S5：根据预测的实体长度计算模型的损失函数；

采用标签数据对医学文本数据进行标注的过程包括：

步骤1：对原始医学文本数据进行整理，得到医学文本数据的实体，每个实体由三元组表示；其中三元组表示为：(实体在文本的起始位置，实体类别，实体长度)。

步骤2：对二维标注矩阵进行初始化；即初始化一个MAX_LABEL_LEN*MAX_LEN的二维标注矩阵label_matrix，初始化值为0，MAX_LABEL_LEN是所有实体的最大实体长度，MAX_LEN是模型允许输入的固定文本长度。

具体的，按照每个实体的长度和它在文本的起始位置，在label_matrix找到对应位置，并按照它的类别打上标。例如长度为x，起始位置为y的实体，它的类别是2，在label_matrix的标注为：label_matrix[x][y]＝2。

步骤4：将所有的文本进行信息标注，即按顺序处理每条文本的标注信息，一直到所有实体都处理完，假设有n条文本，那么一共有n个二维标注矩阵。

用LSTM提取文本数据的双向文本信息：

步骤1：将文本放入word2vec和fasttext进行训练，得到对应的词向量，并将与Bert预训练的词向量结合在一起，得到的向量为[word2vec；fasttext；Bert]；

步骤2：将得到的向量放入BiLSTM，并将最后一层的输出拆分为正向信息与反向信息；

步骤3：分别对正向信息和反向信息做自注意力机制，自注意力机制的过程如下，存在一个三维向量为v，将v的二三维交换得到v′，并将v与v′相乘，得到经过自注意力机制后的向量。

采用局部特征匹配模型对文本信息进行处理的过程包括：

步骤1：当前模块需要预测的实体长度为item_len，初始化为1；

步骤2：对BiLSTM的正向信息和反向信息分别采用CNN做局部整合，CNN的卷积核大小为item_len，并对正反向信息的匹配度进行评分；

步骤3：将BiLSTM的原始输出和整合后的输出拼接在一起，对其进行N分类，N代表实体类别总数，得到实体长度等于item_len的实体；

步骤4：将预测的实体和相同长度的真实实体一起计算损失值，保留当前损失值；

步骤5：item_len加一，重复该模块，一直到item_len大于MAX_LABEL_LEN，停止遍历。

按正向信息和反向信息的特征进行局部整合与匹配的过程包括：

步骤1：为了保证经过局部特征提取后的向量大小不发生变化，对BiLSTM的输出做padding，将0向量拼接在V_for和V_rev最后，得到V_for1和V_rev1；

步骤2：将V_for1和V_rev1的二三维对调，得到V_for2和V_rev2；

步骤3：使用Conv1d分别处理变形后的V_for2和V_rev2，Conv1d将指定跨度的特征提取整合在跨度的头指针位置，跨度会随着模型的需求做不断的改变；

步骤4：经过Conv1d处理后的V′_for和V′_rev，再调换第二维和第三维。

步骤5：设定可学习参数α，β，match_score_matrix，α和β参数为了区分正反向量的重要程度，match_score_matrix为每个头尾指针的匹配度评分，得到头尾指针匹配度矩阵output：

output＝α*V′_for+β*V′_rev+match_score_matrix

预测的实体长度的过程包括：

步骤1：将头尾匹配度矩阵output与BiLSTM的输出结合起来，保证原始语义不丢失；

步骤2：经过一层soft Linear层，soft Linear层输入与输出的维度相同，让两个语义能做到平缓的融合；

步骤3：经过classify Linear层，输出维度为标签类别数N。该输出矩阵predict_matrix的每个位置predict_matrix_ij都代表当前字是否为实体开头，若predict_matrix_ij＝0，则不为实体，如predict_matrix_ij＝k，则ij位置为第k个类别的实体开头，并且长度为当前模块设定的长度item_len。

计算模型的损失函数为：

步骤1：将predict_matrix处理为[-1,N]的形状，计算predict_matrix和label_matrix的交叉熵损失函数，其中i是样本；

p_ic＝predict_matrix[i][c]

其中，M表示总样本数，N表示类别数，y_ic表示样本i对于类别c的期望输出，p_ic表示样本i对于类别c的实际输出，predict_matrix表示输出矩阵，c表示当前类别，label_matrix表示实际标签矩阵，[i]表示第i个样本，[c]表示样本在类别为c时概率值。

步骤2：将当前长度的样本数量与总样本数量的比值与损失值相乘，因为实体长度越长，标签分布越稀疏，loss值越容易走偏，给较短的实体以较高的权重，保证模型学习效果。

发明采用CNN和匹配度评分矩阵解决了预测医学嵌套命名实体的困难，首先利用BiLSTM将实体的前后文信息利用起来，用来确定实体边界；其次是用卷积神经网络CNN将对应长度区域的信息赋给头字符和尾字符，方便后面对头尾字符的匹配，同时也结合了区域内部的信息；最后是采用了匹配度评分矩阵，将头尾字符的信息进行打分；该模型在考虑实体内部关联度的前提下，还利用实体的前后文划分实体边界；本发明只采用用了一个BiLSTM模型，减小了训练耗时。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于局部特征整合的医学嵌套命名实体识别方法，其特征在于，包括：获取待识别的医学嵌套命名实体，将该命名实体输入到医学文本嵌套命名实体识别模型中，得到识别结果；

对医学文本嵌套命名实体识别模型进行训练的过程包括：

S5：根据预测的实体长度计算模型的损失函数；

2.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法，其特征在于，采用标签数据对医学文本数据进行标注的过程包括：

步骤2：对二维标注矩阵进行初始化；

步骤4：将所有的文本进行信息标注。

3.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法，其特征在于，采用基于自注意力机制的BiLSTM模型对词向量进行处理的过程包括：

4.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法，其特征在于，采用局部特征匹配模型对文本信息进行处理的过程包括：

步骤1：确定当前实体的长度item_len；

5.根据权利要求4所述的一种基于局部特征整合的医学嵌套命名实体识别方法，其特征在于，采用CNN分别对正向信息和反向信息进行局部整合的过程包括：

6.根据权利要求4所述的一种基于局部特征整合的医学嵌套命名实体识别方法，其特征在于，对正向和反向信息的匹配度进行评分的过程包括：设定可学习参数α，β，match_score_matrix；其中，α和β参数分别为区分正反向量的重要程度；match_score_matrix为每个头尾指针的匹配度评分，采用头尾指针匹配度矩阵计算公式对每个头尾指针的匹配度评分进行计算，得到头尾指针匹配度矩阵output。

7.根据权利要求6所述的一种基于局部特征整合的医学嵌套命名实体识别方法，其特征在于，头尾指针匹配度矩阵计算公式为：

output＝α*V′_for+β*V′_rev+match_score_matrix

8.根据权利要求4所述的一种基于局部特征整合的医学嵌套命名实体识别方法，其特征在于，预测的实体长度的过程包括：

步骤44：根据矩阵predict_matrix得到实体长度。

9.根据权利要求8所述的一种基于局部特征整合的医学嵌套命名实体识别方法，其特征在于，根据矩阵predict_matrix得到实体长度包括：矩阵predict_matrix的每个位置predict_matrix_ij都代表当前字是否为实体开头，若predict_matrix_ij＝0，则不为实体，若predict_matrix_ij＝k，则ij位置为第k个类别的实体开头，并且长度为当该模块设定的长度item_len。

10.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法，其特征在于，模型的损失函数为：