CN114781387A

CN114781387A - 一种医学命名实体识别方法、装置、电子设备及存储介质

Info

Publication number: CN114781387A
Application number: CN202210694213.3A
Authority: CN
Inventors: 张卓仁; 王实; 张奇
Original assignee: Beijing Huimeiyun Technology Co ltd
Current assignee: Beijing Huimeiyun Technology Co ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-07-22
Anticipated expiration: 2042-06-20
Also published as: CN114781387B

Abstract

本申请提供了一种医学命名实体识别方法、装置、电子设备及存储介质，属于自然语言处理技术领域，该方法包括：将待预测中文序列输入至预设模型获取字符转移矩阵以及标签转移矩阵；从人工标注的命名实体识别数据中确定多个有效标签；对字符转移矩阵中的字符分数以及标签转移矩阵中多个有效标签对应的转移分数进行运算，获得前向分数矩阵以及回溯记录矩阵；基于路径向量最后一个元素的取值以及回溯记录矩阵中目标元素的取值，从后向前依次确定路径向量中每个元素的取值；对待预测中文序列进行标注，确定命名实体结果。通过采用上述医学命名实体识别方法、装置、电子设备及存储介质，解决了在进行命名实体识别时，识别时间长以及识别效率低的问题。

Description

一种医学命名实体识别方法、装置、电子设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，具体而言，涉及一种医学命名实体识别方法、装置、电子设备及存储介质。

背景技术

随着互联网的飞速发展，网络上的信息越发丰富，这意味着在海量数据中快速精准地找到有效信息越来越困难。我们把网络中的文本称为自然语言，由于中文文本的组成结构，致使理解文本的前提是提取文本中的词的特征，即从非结构化文本中提取到有用的结构化数据的特征，而命名实体识别是从海量的自然语言文本中抽取如人名、地名、机构名等专有名词的任务，因此，对它的研究具有重要的研究意义和价值。目前，在进行命名实体识别时，需要对条件随机场（Conditional Random Field，CRF）层进行解码，采用的解码方式是遍历计算每一条路径的分数或者概率，然后选取分数或者概率最大的那一条路径作为预测路径。

然而，采用上述命名实体识别方法时，如果类别标签有N个，解码的句子长度是L，则需要进行

次运算，造成识别时间长以及识别效率低的问题。

发明内容

有鉴于此，本申请的目的在于提供一种医学命名实体识别方法、装置、电子设备及存储介质，以解决在进行命名实体识别时，识别时间长以及识别效率低的问题。

第一方面，本申请实施例提供了一种医学命名实体识别方法，包括：

将待预测中文序列输入至预设模型获取字符转移矩阵以及标签转移矩阵，字符转移矩阵用于表征待预测中文序列中字符被标注为每个命名实体标签的概率，标签转移矩阵用于表征命名实体标签之间相互转移的概率；

从人工标注的命名实体识别数据中确定多个有效标签；

对字符转移矩阵中的字符分数以及标签转移矩阵中多个有效标签对应的转移分数进行运算，获得前向分数矩阵以及回溯记录矩阵；

将前向分数矩阵最后一列中数值最大的前向分数对应的列号作为路径向量最后一个元素的取值，基于路径向量最后一个元素的取值以及回溯记录矩阵中目标元素的取值，从后向前依次确定路径向量中每个元素的取值；

按照路径向量中命名实体标签对应的序号对待预测中文序列进行标注，确定待预测中文序列的命名实体结果。

可选地，对字符转移矩阵中的字符分数以及标签转移矩阵中多个有效标签对应的转移分数进行运算，获得前向分数矩阵以及回溯记录矩阵，包括：设置初始行号为1；将初始行号作为第一目标行号；确定前向分数矩阵中第一目标行号对应的多个元素的取值以及回溯记录矩阵中第一目标行号对应的多个元素的取值；将第一目标行号加1后得到的数值作为更新后的初始行号，确定更新后的初始行号是否小于目标长度，目标长度为比待预测中文序列的字符数多2的数值；若小于目标长度，则返回执行将初始行号作为第一目标行号的步骤。

可选地，确定前向分数矩阵中第一目标行号对应的多个元素的取值以及回溯记录矩阵中第一目标行号对应的多个元素的取值，包括：设置初始列号为1；将初始列号作为第一目标列号；将前向分数矩阵中第一目标行号前一行中多个有效标签所在列对应的取值分别与标签转移矩阵中小于或者等于第一目标列号的每一列中多个有效标签所在行对应的取值之和，确定为多个候选衍生转移分数；从多个候选衍生转移分数中选取数值最大的候选衍生转移分数作为目标衍生转移分数；将目标衍生转移分数与字符转移矩阵中目标元素的取值之和作为前向分数矩阵中目标元素的取值，目标元素是第一目标行号及第一目标列号对应的元素；将目标衍生转移分数对应的有效标签对应的序号作为回溯记录矩阵中目标元素的取值；将第一目标列号加1后得到的数值作为更新后的初始列号，确定更新后的初始列号是否小于目标标签数，目标标签数是比设定命名实体标签的数量多2的数值；若小于目标标签数，则返回执行将初始列号作为第一目标列号的步骤；

可选地，将前向分数矩阵最后一列中数值最大的前向分数对应的列号作为路径向量最后一个元素的取值，基于路径向量最后一个元素的取值以及回溯记录矩阵中目标元素的取值，从后向前依次确定路径向量中每个元素的取值，包括：将比待预测中文序列的字符数多1的数值作为初始序号；将初始序号作为第二目标行号；将初始序号作为元素序号，将路径向量中元素序号对应的取值作为第二目标列号；将回溯记录矩阵中第二目标行号以及第二目标列号对应元素的取值作为路径向量中目标序号对应的元素的取值，目标序号是比初始序号少1的数值；将目标序号作为更新后的初始序号，确定更新后的初始序号是否大于0；若大于0，则返回执行将初始序号作为第二目标行号的步骤。

可选地，从人工标注的命名实体识别数据中确定多个有效标签，包括：从人工标注的命名实体识别数据中，统计不同命名实体标签之间的转移次数，获取人工标注标签转移表；将人工标注标签转移表中大于0的取值对应的行号作为有效标签序号；将有效标签序号对应的命名实体标签作为有效标签。

可选地，人工标注的命名实体识别数据中不包括与待预测中文序列对应的命名实体识别数据。

可选地，按照路径向量中命名实体标签对应的序号对待预测中文序列进行标注，确定待预测中文序列的命名实体结果，包括：获取路径向量中从第二个元素开始至最后一个元素分别对应的命名实体标签的序号；确定与命名实体标签的序号对应的命名实体标签；将确定的命名实体标签作为待预测中文序列的命名实体结果。

第二方面，本申请实施例还提供了一种医学命名实体识别装置，所述装置包括：

分数预测模块，用于将待预测中文序列输入至预设模型获取字符转移矩阵以及标签转移矩阵，字符转移矩阵用于表征待预测中文序列中字符被标注为每个命名实体标签的概率，标签转移矩阵用于表征命名实体标签之间相互转移的概率；

标签确定模块，用于从人工标注的命名实体识别数据中确定多个有效标签；

运算模块，用于对字符转移矩阵中的字符分数以及标签转移矩阵中多个有效标签对应的转移分数进行运算，获得前向分数矩阵以及回溯记录矩阵；

回溯模块，用于将前向分数矩阵最后一列中数值最大的前向分数对应的列号作为路径向量最后一个元素的取值，基于路径向量最后一个元素的取值以及回溯记录矩阵中目标元素的取值，从后向前依次确定路径向量中每个元素的取值；

标注模块，用于按照路径向量中命名实体标签对应的序号对待预测中文序列进行标注，确定待预测中文序列的命名实体结果。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的医学命名实体识别方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的医学命名实体识别方法的步骤。

本申请实施例带来了以下有益效果：

本申请实施例提供的一种医学命名实体识别方法、装置、电子设备及存储介质，能够利用预设模型对待预测中文序列进行分数预测获取字符转移矩阵以及标签转移矩阵，并利用多个有效标签对应的转移分数以及字符分数进行运算，以获得前向分数矩阵以及回溯记录矩阵，根据前向分数矩阵以及回溯记录矩阵确定待预测中文序列的命名实体结果，并非遍历计算每一条路径的分数或者概率，与现有技术中的医学命名实体识别方法相比，解决了在进行命名实体识别时，识别时间长以及识别效率低的问题。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的医学命名实体识别方法的流程图；

图2示出了本申请实施例所提供的医学命名实体识别装置的结构示意图；

图3示出了本申请实施例所提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

值得注意的是，在本申请提出之前，随着互联网的飞速发展，网络上的信息越发丰富，这意味着在海量数据中快速精准地找到有效信息越来越困难。我们把网络中的文本称为自然语言，由于中文文本的组成结构，致使理解文本的前提是提取文本中的词的特征，即从非结构化文本中提取到有用的结构化数据的特征，而命名实体识别是从海量的自然语言文本中抽取如人名、地名、机构名等专有名词的任务，因此，对它的研究具有重要的研究意义和价值。目前，在进行命名实体识别时，需要对CRF层进行解码，采用的解码方式是遍历计算每一条路径的分数或者概率，然后选取分数或者概率最大的那一条路径作为预测路径。然而，采用上述命名实体识别方法时，如果类别标签有N个，解码的句子长度是L，则需要进行

次运算，造成识别时间长以及识别效率低的问题。

基于此，本申请实施例提供了一种医学命名实体识别方法，以提高识别效率，缩短识别时间。

请参阅图1，图1为本申请实施例所提供的一种医学命名实体识别方法的流程图。如图1所示，本申请实施例提供的医学命名实体识别方法，包括：

步骤S101，将待预测中文序列输入至预设模型获取字符转移矩阵以及标签转移矩阵。

该步骤中，待预测中文序列可指待标注命名实体标签的中文序列。

作为示例，待预测中文序列可以包括标点符号，也可以不包括标点符号。

预设模型可指经过训练的可以输出字符转移矩阵以及标签转移矩阵的模型，预设模型用于确定字符转移矩阵以及标签转移矩阵。

作为示例，预设模型可以是神经网络模型。

字符转移矩阵用于表征待预测中文序列中字符被标注为每个命名实体标签的概率，字符转移矩阵的行数由待预测中文序列的字符数决定，列数由命名实体标签的数量决定。

标签转移矩阵用于表征命名实体标签之间相互转移的概率，标签转移矩阵的行数和列数均由命名实体标签的数量决定。

在本申请实施例中，以待预测中文序列为：“肝脏边缘光滑，各叶大小比例正常”为例，每一个中文字为一个字符，标点符号也算为1个字符，则该待预测中文序列的字符数为15。在确定命名实体标签的数量前，先确定命名实体类别，以命名实体类别共5类为例，命名实体类别分别为方位（POS）、解剖部位（BDY）、症状（SYM）、观察对象（WAT）、属性（ATT），在不同的标注***中最细粒度是不同的，在“BIOES”标注***中时间类别的最细粒度的标签为B-TIM、I-TIM、E-TIM、S-TIM这4种命名实体标签，其中，符号“-”前的B、I、E、S用于表征词语中的每个字符的具***置，例如：B代表Begin、E代表End，以词语肝脏为例，肝为该词语中的首个字，标注为B-BDY，脏为该词语中的结束字，标注为 E-BDY。假设，每个命名实体类别的最细粒度均为4种，则5个命名实体类别共有4×5+1=21个命名实体标签，其中，标点符号以及特殊字符对应的命名实体标签为0，因此要在20个命名实体标签的基础上加1。可见，字符转移矩阵为15×21的矩阵，标签转移矩阵为21×21的矩阵。

需要说明的是，字符转移矩阵中各列的索引的顺序与标签转移矩阵中各行的索引以及各列的索引的顺序是一致的，例如：字符转移矩阵中各列的索引依次为B-BDY、E-EDY、B-POS、E-POS,则标签转移矩阵的第一行至第四行的索引依次为B-BDY、E-EDY、B-POS、E-POS,标签转移矩阵的第一列至第四列的索引依次为B-BDY、E-EDY、B-POS、E-POS。

步骤S102，从人工标注的命名实体识别数据中确定多个有效标签。

该步骤中，人工标注的命名实体识别数据可指人工标注的历史命名实体识别数据。

人工标注的命名实体识别数据中包含了不同的中文序列对应的命名实体标签，可以将人工标注的命名实体识别数据作为标注参考，以确定多个有效标签。

多个有效标签可指待预测中文序列中存在转移关系的命名实体标签的集合，多个有效标签用于表征预测路径的数量，即缩小了待预测中文序列对应的预测路径的搜索范围。

在本申请实施例中，先获取历史的人工标注的命名实体识别数据，从这些历史数据中可以确定待预测中文序列对应的多个有效标签，利用这些有效标签、字符转移矩阵以及标签转移矩阵可以确定出待预测中文序列的命名实体结果。

在一可选实施例中，执行步骤S102包括：从人工标注的命名实体识别数据中，统计不同命名实体标签之间的转移次数，获取人工标注标签转移表；将人工标注标签转移表中大于0的取值对应的行号作为有效标签序号；将有效标签序号对应的命名实体标签作为有效标签。

这里，以命名实体标签A转移至命名实体标签B为例，转移次数可指在某个中文序列中，出现命名实体标签A的下一个标签为命名实体标签B的次数，转移次数用于表征命名实体标签A相邻的下一标签为命名实体标签B的概率，转移次数越多说明下一标签为命名实体标签B的概率越高，转移次数越少说明下一标签为命名实体标签B的概率越低。

以中文序列为“肝脏边缘光滑”为例，人工标注的命名实体标签依次为B-BDY、E-BDY、B-POS、E-POS、B-SYM、E-SYM，即，肝被标注为B-BDY，脏被标注为E-BDY、边被标注为B-POS、缘被标注为E-POS、光被标注为B-STM、滑E-STM，则可以得到如表1所示的人工标注标签转移表。

表1为“肝脏边缘光滑”对应的人工标注标签转移表。

如表1所示，由于中文序列“肝脏边缘光滑”中肝字的后面为脏，也就是说命名实体标签B-BDY的后面是命名实体标签E-BDY，因此，从B-BDY转移到E-BDY的次数为1次，同理，从E-BDY转移到B-POS的次数为1次，从B-POS转移到E-POS的次数为1次，从E-POS转移到B-SYM的次数为1次，从B-SYM转移到E-SYM的次数为1次。

可以理解的，在表1中由于E-SYM对应的所有转移次数均为0，表明中文序列“肝脏边缘光滑”中不存在从E-SYM向其他命名实体标签进行转移的路径，因此，无需对该命名实体标签对应的预测路径进行遍历。

在一可选实施例中，人工标注的命名实体识别数据中不包括与待预测中文序列对应的命名实体识别数据。

这里，由于人工标注的命名实体识别数据决定了人工标注标签转移表，而人工标注标签转移表决定了有效标签，有效标签决定了待预测中文序列被标注的命名实体标签的种类。因此，如果人工标注的命名实体识别数据中已经包括了待预测中文序列对应的命名实体识别数据，则会影响预设模型对待预测中文序列的预测准确性。

步骤S103，对字符转移矩阵中的字符分数以及标签转移矩阵中多个有效标签对应的转移分数进行运算，获得前向分数矩阵以及回溯记录矩阵。

该步骤中，字符分数可指字符转移矩阵中的取值，字符分数用于表征待预测中文序列中字符被标注为对应命名实体标签的概率的高低，字符分数越大表明待预测中文序列中字符被标注为对应命名实体标签的概率越高，字符分数越小表明待预测中文序列中字符被标注为对应命名实体标签的概率越低。

转移分数可指标签转移矩阵中的取值，转移分数用于表征当前命名实体标签转移至对应命名实体标签的概率的高低，转移分数越大表明当前命名实体标签转移至对应命名实体标签的概率越高，转移分数越小表明当前命名实体标签转移至对应命名实体标签的概率越低。

前向分数矩阵可指记录前向分数的矩阵，前向分数矩阵用于记录待预测中文序列中的字符被标注为对应命名实体标签的概率。

前向分数矩阵是矩阵大小为（L+1）×（N+1）的二维矩阵，其中，L代表待预测中文序列的字符数，N代表命名实体标签数量。

回溯记录矩阵可指记录命名实体标签位置的矩阵，回溯记录矩阵用于记录分数最大路径对应的命名实体标签在前向分数矩阵中的位置。

回溯记录矩阵是矩阵大小为（L+1）×（N+1）的二维矩阵。

前向分数可指前向分数矩阵中的取值，前向分数用于表征待预测中文序列中的字符被标注为对应命名实体标签的概率的高低。

作为示例，前向分数矩阵中第x行第y列的前向分数代表了第x行前面的所有行对应的最大分数的路径到达第x行第y列的累积值。

回溯记录值可指回溯记录矩阵中的取值，回溯记录值用于表征在前向分数矩阵中当前行的上一行最大分数路径对应的命名实体标签的位置。

作为示例，回溯记录矩阵中第x行第y列的回溯记录值代表了前向分数矩阵中第x行第y列的前向分数是从前向分数矩阵中第x-1行的哪一列的前向分数计算得到的，即，回溯记录矩阵中第x行第y列的回溯记录值代表了前向分数矩阵中第x行第y列的前向分数是由前向分数矩阵中第x-1的哪一列的前向分数被使用，然后加上转移分数和字符分数得到的。

在一可选实施例中，执行步骤S103包括：设置初始行号为1；将初始行号作为第一目标行号；确定前向分数矩阵中第一目标行号对应的多个元素的取值以及回溯记录矩阵中第一目标行号对应的多个元素的取值；将第一目标行号加1后得到的数值作为更新后的初始行号，确定更新后的初始行号是否小于目标长度，目标长度为比待预测中文序列的字符数多2的数值；若小于目标长度，则返回执行将初始行号作为第一目标行号的步骤。

这里，第一目标行号可指目标行对应的编号，不同矩阵中第一行对应的第一目标行号是不同的，在前向分数矩阵第一行对应的第一目标行号是0，第二行对应的第一目标行号为1，依此类推。

在字符转移矩阵、标签转移矩阵以及回溯记录矩阵中第一行对应的第一目标行号是1，第二行对应的第一目标行号是2，依此类推。其中，回溯记录矩阵中第一行的取值为空。

第一目标列号可指目标列对应的编号，第一目标列号用于在相同取值的情况下确定不同矩阵中对应的列序。

以上述示例为例L代表待预测中文序列的字符数，则目标长度为L+2。

具体的，先确定前向分数矩阵中的第一行的所有元素的数值，然后确定第二行中所有元素的取值，依此类推，确定前向分数矩阵中所有元素的取值。其中，每确定前向分数矩阵中一个元素的取值，也同时确定回溯记录矩阵中对应位置的元素的取值。

在一可选实施例中，确定前向分数矩阵中第一目标行号对应的多个元素的取值以及回溯记录矩阵中第一目标行号对应的多个元素的取值，包括：设置初始列号为1；将初始列号作为第一目标列号；将前向分数矩阵中第一目标行号前一行中多个有效标签所在列对应的取值分别与标签转移矩阵中小于或者等于第一目标列号的每一列中多个有效标签所在行对应的取值之和，确定为多个候选衍生转移分数；从多个候选衍生转移分数中选取数值最大的候选衍生转移分数作为目标衍生转移分数；将目标衍生转移分数与字符转移矩阵中目标元素的取值之和作为前向分数矩阵中目标元素的取值，目标元素是第一目标行号及第一目标列号对应的元素；将目标衍生转移分数对应的有效标签对应的序号作为回溯记录矩阵中目标元素的取值；将第一目标列号加1后得到的数值作为更新后的初始列号，确定更新后的初始列号是否小于目标标签数，目标标签数是比设定命名实体标签的数量多2的数值；若小于目标标签数，则返回执行将初始列号作为第一目标列号的步骤。

这里，前向分数矩阵的行号是从0开始算的，因此，当初始行号为1时，第一目标行号也为1，第一目标行号此时指示的是前向分数矩阵的第二行。

需要说明的是，前向分数矩阵的第一行中的每个元素的取值是设定数值，例如：均为-1000，在计算前向分数矩阵中各元素的取值时，是从第二行第一列的元素开始计算的。

下面参照表2、表3、表4来介绍前向分数矩阵中元素取值的计算过程。

这里，假设共有4个命名实体标签，待预测中文序列为3个字符，则可将前向分数矩阵如表2的形式表示。

表2为前向分数矩阵。

如表2所示，前向分数矩阵中第一行的行号为0，从1开始前向分数矩阵中的行号代表字符在待预测中文序列中的序号。前向分数矩阵中第一行元素和最后一列的取值均为-1000，其中，从第二行开始最后一列元素的取值是在计算过程中直接赋值得到的。

表3为标签转移矩阵。

如表3所示，标签转移矩阵的各行索引以及各列索引均为命名实体标签的名称，且行和列的命名实体标签的顺序相同。

假设，多个有效标签为B-BDY以及E-BDY，则在计算前向分数矩阵中的

元素时，将前向分数矩阵中前一行的有效标签B-BDY对应的取值

与标签转移矩阵第一列中B-BDY所在行的取值20相加，确定一个候选衍生转移分数，将前向分数矩阵中前一行的有效标签E-BDY对应的取值

与标签转移矩阵第一列中E-BDY所在行的取值18相加，确定另一个候选衍生转移分数。

在计算前向分数矩阵中的

与标签转移矩阵第一列中B-BDY所在行的取值20相加，确定第一个候选衍生转移分数，将前向分数矩阵中前一行的有效标签E-BDY对应的取值

与标签转移矩阵第一列中E-BDY所在行的取值18相加，确定第二个候选衍生转移分数，将前向分数矩阵中前一行的有效标签B-BDY对应的取值

与标签转移矩阵第二列中B-BDY所在行的取值65相加，确定第三个候选衍生转移分数，将前向分数矩阵中前一行的有效标签E-BDY对应的取值

与标签转移矩阵第二列中E-BDY所在行的取值90相加，确定第四个候选衍生转移分数。

表4为字符转移矩阵。

如表4所示，字符转移矩阵的初始行号为1，字符转移矩阵的行号代表字符在待预测中文序列中的序号。标签（即，实体命名标签）的顺序与标签转移矩阵中各行索引以及各列索引的顺序相同。在计算前向分数矩阵中的

元素时，从上述四个候选衍生转移分数中选取数值最大的候选衍生转移分数作为目标衍生转移分数，然后，将目标衍生转移分数与字符转移矩阵中目标元素之和作为前向分数矩阵

元素的取值，即，将目标衍生转移分数与字符转移矩阵中第二行第二列的取值50相加所得的结果作为前向分数矩阵

元素的取值。

在确定前向分数矩阵中的

元素后，可确定回溯记录矩阵中对应位置处的元素的取值。以上述示例为例，假设目标衍生转移分数对应的候选衍生转移分数为第三个候选衍生转移分数，则将有效标签B-BDY对应的序号2作为回溯记录矩阵中第二行第二列的取值。其中，序号指的是命名实体标签的序号，在确定命名实体标签时，会为每个命名实体标签分配一个序号，作为命名实体标签的唯一标识。

参照上述确定前向分数矩阵中

元素的取值以及回溯记录矩阵中对应位置的元素的取值的方式，可以确定前向分数矩阵以及回溯记录中每个元素的取值。

在具体实施时，可通过如下步骤A至步骤I来确定前向分数矩阵以及回溯记录矩阵中元素的取值。其中，步骤A至步骤I在图中未示出。

步骤A，设置变量r，r的初始值为2，设置前向分数矩阵为（L+1）×（N+1）的二维矩阵，将前向分数矩阵第一行中所有元素的取值设置为-1000，设置回溯记录矩阵为（L+1）×（N+1）的二维矩阵。

步骤B，设置变量c，c的初始值为1。

步骤C，设置变量max_v以及变量max_i，max_v的初始值为-1000000，max_i的初始值为1，设置变量k，k的初始值为1，确定人工标注标签转移表中所有取值大于0的元素所对应的行号，将这些行号按照从小到大的顺序组成一个行向量，命名为valid_last_tags，其中valid_last_tags[1]代表行向量valid_last_tags的第一个元素。

步骤D，确定valid_last_tags[k]的取值，将该取值赋值给变量i，计算前向分数矩阵第r-1行、第i列的取值与标签转移矩阵中第i行、第c列的取值之和，将和值赋值给变量tmp，确定tmp是否大于max_v，如果大于max_v则将tmp的取值赋值给max_v，将i的取值赋值给max_i。

步骤E，利用k加1所得的数值更新k的取值，确定更新后的k的取值是否大于N，若大于N则执行步骤F，若不大于N则返回执行D。

步骤F，确定c的取值是否等于N+1，若等于N+1则将前向分数矩阵中第r行、第c列的取值改变为-1000，若不等于N+1则将max_v与字符转移矩阵中第r-1行、第c列的取值之和作为前向分数矩阵中第r行、第c列的取值。

步骤G，将max_i的取值作为回溯记录矩阵中第r行、第c列的取值。

步骤H，利用c加1所得的数值更新c的取值，确定更新后的c的取值是否等于N+2，若等于N+2则执行步骤I，若不等于N+2则返回执行步骤C。

步骤I，利用r加1所得的数值更新r的取值，确定更新后的r的取值是否等于L+2，若等于L+2则结束流程，若不等于L+2则返回执行步骤B。

步骤S104，将前向分数矩阵最后一列中数值最大的前向分数对应的列号作为路径向量最后一个元素的取值，基于路径向量最后一个元素的取值以及回溯记录矩阵中目标元素的取值，从后向前依次确定路径向量中每个元素的取值。

该步骤中，路径向量可指记录最大分数的路径的向量，路径向量用于记录待预测中文序列对应的命名实体标签的序号。

路径向量是长度为L+1的一维向量。

在一可选实施例中，将前向分数矩阵最后一列中数值最大的前向分数对应的列号作为路径向量最后一个元素的取值，基于路径向量最后一个元素的取值以及回溯记录矩阵中目标元素的取值，从后向前依次确定路径向量中每个元素的取值，包括：将比待预测中文序列的字符数多1的数值作为初始序号；将初始序号作为第二目标行号；将初始序号作为元素序号，将路径向量中元素序号对应的取值作为第二目标列号；将回溯记录矩阵中第二目标行号以及第二目标列号对应元素的取值作为路径向量中目标序号对应的元素的取值，目标序号是比初始序号少1的数值；将目标序号作为更新后的初始序号，确定更新后的初始序号是否大于0；若大于0，则返回执行将初始序号作为第二目标行号的步骤。

这里，第二目标行号可指目标行的编号，第二目标列号可指目标列的编号。

具体的，可通过下述步骤M至步骤S完成路径向量中元素取值的确定过程，其中，步骤M至步骤S在图中未示出。

步骤M，创建路径向量path。设定路径向量的长度为L+1。

步骤N，确定前向分数矩阵最后一行中数值最大的前向分数对应的列号，将该列号赋值给last_index。

步骤O，将last_index的值作为路径向量最后一个元素的取值。

步骤P，设置变量j，将j的取值设置为L+1，j为实数。

步骤Q，将path[j-1]的值改变为回溯记录矩阵中第j行、第path[j]列的值。

步骤R，将j的取值改变为比自身小1的数值。

步骤S，判断j的取值是否等于0，如果等于0则执行步骤H，否则返回执行步骤Q。

在一可选实施例中，按照路径向量中命名实体标签对应的序号对待预测中文序列进行标注，确定待预测中文序列的命名实体结果，包括：获取路径向量中从第二个元素开始至最后一个元素分别对应的命名实体标签的序号；确定与命名实体标签的序号对应的命名实体标签；将确定的命名实体标签作为待预测中文序列的命名实体结果。

这里，假设：待预测中文序列为“混合痔伴出血”，路径向量path中第二个元素至最后一个元素的取值依次为2、3、4、10、2、4，序号2对应的命名实体标签为B-SYM、序号3对应的命名实体标签为I-SYM、序号4对应的命名实体标签为E-SYM、序号10对应的命名实体标签为S-CNJ。可得到待预测中文序列“混合痔伴出血”的命名实体结果为如表5所示的结果。

表5为“混合痔伴出血”的命名实体结果。

如表5所示，根据“BIOES”***的标注法，可以得到“混合痔伴出血”中有以下命名实体：“混合痔”为SYM（症状），“伴”为CNJ（附加），“出血”为SYM（症状）。

本申请提供的技术方案相较于现有技术中的遍历方法进行解码，能够提高解码速度以及解码效率。

假设要被命名实体识别的待预测中文序列的字符数为L，一共有X种命名实体类别，N种命名实体标签。那么，在本申请提供的技术方案中，在解码阶段，根据实际测试结果来看，时间复杂度是

。

然而，采用遍历的解码方式，在解码阶段其时间复杂度约为

。由于L和N在实际使用过程中不会趋于无穷大，因此上述的1/3无需省略。

那么当

时，使用本申请方法可以大幅度提高解码效率，减少计算机的运算时间。假如实际使用过程中平均L为500，N为200，那么通过计算，使用本申请提供的技术方案进行解码比遍历的解码方法快约

倍。

与现有技术中医学命名实体识别方法相比，本申请能够利用预设模型对待预测中文序列进行分数预测获取字符转移矩阵以及标签转移矩阵，并利用多个有效标签对应的转移分数以及字符分数进行运算，以获得前向分数矩阵以及回溯记录矩阵，根据前向分数矩阵以及回溯记录矩阵确定待预测中文序列的命名实体结果，并非遍历计算每一条路径的分数或者概率，解决了在进行命名实体识别时，识别时间长以及识别效率低的问题。

基于同一发明构思，本申请实施例中还提供了与医学命名实体识别方法对应的医学命名实体识别装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述医学命名实体识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图2，图2为本申请实施例所提供的一种医学命名实体识别装置的结构示意图。如图2中所示，所述医学命名实体识别装置200包括：

分数预测模块201，用于将待预测中文序列输入至预设模型获取字符转移矩阵以及标签转移矩阵，字符转移矩阵用于表征待预测中文序列中字符被标注为每个命名实体标签的可能性，标签转移矩阵用于表征命名实体标签之间相互转移的可能性；

标签确定模块202，用于从人工标注的命名实体识别数据中确定多个有效标签；

运算模块203，用于对字符转移矩阵中的字符分数以及标签转移矩阵中多个有效标签对应的转移分数进行运算，获得前向分数矩阵以及回溯记录矩阵；

回溯模块204，用于将前向分数矩阵最后一列中数值最大的前向分数对应的列号作为路径向量最后一个元素的取值，基于路径向量最后一个元素的取值以及回溯记录矩阵中目标元素的取值，从后向前依次确定路径向量中每个元素的取值；

标注模块205，用于按照路径向量中命名实体标签对应的序号对待预测中文序列进行标注，确定待预测中文序列的命名实体结果。

请参阅图3，图3为本申请实施例所提供的一种电子设备的结构示意图。如图3中所示，所述电子设备300包括处理器310、存储器320和总线330。

所述存储器320存储有所述处理器310可执行的机器可读指令，当电子设备300运行时，所述处理器310与所述存储器320之间通过总线330通信，所述机器可读指令被所述处理器310执行时，可以执行如上述图1所示方法实施例中的医学命名实体识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的医学命名实体识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种医学命名实体识别方法，其特征在于，包括：

将待预测中文序列输入至预设模型获取字符转移矩阵以及标签转移矩阵，所述字符转移矩阵用于表征所述待预测中文序列中字符被标注为每个命名实体标签的概率，所述标签转移矩阵用于表征命名实体标签之间相互转移的概率；

从人工标注的命名实体识别数据中确定多个有效标签；

对所述字符转移矩阵中的字符分数以及所述标签转移矩阵中多个有效标签对应的转移分数进行运算，获得前向分数矩阵以及回溯记录矩阵；

将所述前向分数矩阵最后一列中数值最大的前向分数对应的列号作为路径向量最后一个元素的取值，基于路径向量最后一个元素的取值以及回溯记录矩阵中目标元素的取值，从后向前依次确定路径向量中每个元素的取值；

按照所述路径向量中所述命名实体标签对应的序号对所述待预测中文序列进行标注，确定所述待预测中文序列的命名实体结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述字符转移矩阵中的字符分数以及所述标签转移矩阵中多个有效标签对应的转移分数进行运算，获得前向分数矩阵以及回溯记录矩阵，包括：

设置初始行号为1；

将所述初始行号作为第一目标行号；

确定所述前向分数矩阵中第一目标行号对应的多个元素的取值以及所述回溯记录矩阵中第一目标行号对应的多个元素的取值；

将所述第一目标行号加1后得到的数值作为更新后的初始行号，确定更新后的初始行号是否小于目标长度，所述目标长度为比所述待预测中文序列的字符数多2的数值；

若小于目标长度，则返回执行将初始行号作为第一目标行号的步骤。

3.根据权利要求2所述的方法，其特征在于，所述确定所述前向分数矩阵中第一目标行号对应的多个元素的取值以及所述回溯记录矩阵中第一目标行号对应的多个元素的取值，包括：

设置初始列号为1；

将初始列号作为第一目标列号；

将所述前向分数矩阵中所述第一目标行号前一行中多个有效标签所在列对应的取值分别与标签转移矩阵中小于或者等于所述第一目标列号的每一列中多个有效标签所在行对应的取值之和，确定为多个候选衍生转移分数；

从所述多个候选衍生转移分数中选取数值最大的候选衍生转移分数作为目标衍生转移分数；

将所述目标衍生转移分数与所述字符转移矩阵中目标元素的取值之和作为前向分数矩阵中目标元素的取值，所述目标元素是所述第一目标行号及所述第一目标列号对应的元素；

将所述目标衍生转移分数对应的有效标签对应的序号作为回溯记录矩阵中目标元素的取值；

将所述第一目标列号加1后得到的数值作为更新后的初始列号，确定更新后的初始列号是否小于目标标签数，所述目标标签数是比设定命名实体标签的数量多2的数值；

若小于目标标签数，则返回执行所述将初始列号作为第一目标列号的步骤。

4.根据权利要求1所述的方法，其特征在于，所述将所述前向分数矩阵最后一列中数值最大的前向分数对应的列号作为路径向量最后一个元素的取值，基于路径向量最后一个元素的取值以及回溯记录矩阵中目标元素的取值，从后向前依次确定路径向量中每个元素的取值，包括：

将比所述待预测中文序列的字符数多1的数值作为初始序号；

将所述初始序号作为第二目标行号；

将所述初始序号作为元素序号，将路径向量中元素序号对应的取值作为第二目标列号；

将所述回溯记录矩阵中第二目标行号以及第二目标列号对应元素的取值作为路径向量中目标序号对应的元素的取值，所述目标序号是比初始序号少1的数值；

将所述目标序号作为更新后的初始序号，确定更新后的初始序号是否大于0；

若大于0，则返回执行所述将所述初始序号作为第二目标行号的步骤。

5.根据权利要求1所述的方法，其特征在于，所述从人工标注的命名实体识别数据中确定多个有效标签，包括：

从人工标注的命名实体识别数据中，统计不同命名实体标签之间的转移次数，获取人工标注标签转移表；

将所述人工标注标签转移表中大于0的取值对应的行号作为有效标签序号；

将所述有效标签序号对应的命名实体标签作为有效标签。

6.根据权利要求5所述的方法，其特征在于，所述人工标注的命名实体识别数据中不包括与所述待预测中文序列对应的命名实体识别数据。

7.根据权利要求1所述的方法，其特征在于，所述按照所述路径向量中所述命名实体标签对应的序号对所述待预测中文序列进行标注，确定所述待预测中文序列的命名实体结果，包括：

获取所述路径向量中从第二个元素开始至最后一个元素分别对应的命名实体标签的序号；

确定与所述命名实体标签的序号对应的命名实体标签；

将确定的命名实体标签作为待预测中文序列的命名实体结果。

8.一种医学命名实体识别装置，其特征在于，包括：

分数预测模块，用于将待预测中文序列输入至预设模型获取字符转移矩阵以及标签转移矩阵，所述字符转移矩阵用于表征所述待预测中文序列中字符被标注为每个命名实体标签的概率，所述标签转移矩阵用于表征命名实体标签之间相互转移的概率；

运算模块，用于对所述字符转移矩阵中的字符分数以及所述标签转移矩阵中多个有效标签对应的转移分数进行运算，获得前向分数矩阵以及回溯记录矩阵；

回溯模块，用于将所述前向分数矩阵最后一列中数值最大的前向分数对应的列号作为路径向量最后一个元素的取值，基于路径向量最后一个元素的取值以及回溯记录矩阵中目标元素的取值，从后向前依次确定路径向量中每个元素的取值；

标注模块，用于按照所述路径向量中所述命名实体标签对应的序号对所述待预测中文序列进行标注，确定所述待预测中文序列的命名实体结果。

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7中任一项所述的医学命名实体识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7中任一项所述的医学命名实体识别方法的步骤。