CN115270792A

CN115270792A - 一种医疗实体识别方法及装置

Info

Publication number: CN115270792A
Application number: CN202210795182.0A
Authority: CN
Inventors: 王亦宁; 刘升平; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-11-01

Abstract

本发明涉及一种医疗实体识别方法,包括:获取待识别的实体,通过特殊符号将实体和实体标签进行标注,根据实体和实体标签构建文本生成模型的输出模板；构建文本生成模型的输入和输出；输入为待识别文本序列和第一矩阵,第一矩阵为对待识别文本预处理后所得到的；输出为识别结果和第二矩阵，第二矩阵为对识别结果预处理后所得到的，识别结果根据输出模板进行展示；通过编码器对第一矩阵进行编码,得到待识别文本序列的编码表示；通过解码器对编码表示进行计算,得到解码表示；根据编码表示和解码表示,对文本生成模型进行训练,得到最终解码表示。

Description

一种医疗实体识别方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种医疗实体识别方法及装置。

背景技术

医疗实体识别通常使用序列标注的方法，为每个字符定义BME标签，分别表示该类实体的开头、实体中间位置和实体末尾的字符，O标签代表非实体内部的字符；然后训练神经网络模型拟合每个元素的标签，最后针对预测结果进行后处理，将BME标签进行合并，得到最终的抽取结果。

现有技术存在的问题为：使用序列标注方法时，文本粒度必须为字符，而且该方法无法处理非连续医疗实体和嵌套医疗实体的识别任务。

发明内容

本发明的目的是提供一种医疗实体识别方法及装置，以解决现有技术中所存在的使用序列标注方法时，文本粒度必须为字符，而且该方法无法处理非连续医疗实体和嵌套医疗实体的识别任务的问题，

本发明第一方面提供了一种医疗实体识别方法,所述方法包括:

获取待识别的实体,通过特殊符号将所述实体和实体标签进行标注,根据所述实体和实体标签构建文本生成模型的输出模板；

构建所述文本生成模型的输入和输出；所述输入为待识别文本序列和第一矩阵,所述第一矩阵为对所述待识别文本预处理后所得到的；所述输出为识别结果和第二矩阵，所述第二矩阵为对所述识别结果预处理后所得到的，所述识别结果根据所述输出模板进行展示；

通过编码器对所述第一矩阵进行编码,得到待识别文本序列的编码表示；通过解码器对所述编码表示进行计算,得到解码表示；

根据所述编码表示和所述解码表示,对所述文本生成模型进行训练,得到最终解码表示。

在一种可能的实现方式中，根据下列方法确定第一矩阵：

对待识别文本序列经过预训练语言模型BART进行预处理，得到第一矩阵。

在一种可能的实现方式中，所述通过编码器对所述待识别文本序列进行编码,得到待识别文本序列的编码表示具体包括：

通过公式

计算待识别文本序列中的每个字的编码表示；

其中，

表示第n层中第t个字的编码表示，

在一种可能的实现方式中，所述根据所述编码表示和所述解码表示,对所述文本生成模型进行训练,得到最终解码表示具体包括：

通过第一函数，对每个字解码表示进行计算，得到生成概率；

对解码表示进行矩阵变换，得到第一矩阵转换结果；

对编码表示进行矩阵变换，得到第二矩阵转换结果；

根据第一矩阵转换结果和第二矩阵转换结果，计算拷贝机制的分数；

根据第一矩阵转换结果和第二矩阵转换结果，计算平衡因子；

根据平衡因子、分数和生成概率，计算融合打分；

根据融合打分，确定最大概率对应的字作为生成结果；

依次将每个字的生成结果进行组合，得到最终解码表示；

根据特殊符号，提取识别结果。

在一种可能的实现方式中，所述通过第一函数，对每个字所述解码表示进行计算，得到生成概率具体包括：

通过第一函数，对解码表示进行线性变化，得到线性变化结果；

根据所述线性变化结果，计算概率分布。

在一种可能的实现方式中，所述通过编码器对所述第一矩阵进行编码,得到待识别文本序列的编码表示；通过解码器对所述编码表示进行计算,得到解码表示具体包括：

编码表示通过公式

计算；

其中，

表示第n层中第t个字序列的编码表示，最顶层的编码表示h^N，h^N表示第n层中所有字的编码表示，v_t表示t时刻编码器的输入；

解码表示通过公式

计算；

其中，h^N表示编码器得到的隐状态，

为第n层中第t个字序列的解码表示， u_t表示t时刻解码器的输入。

第二方面，本发明提供了一种医疗实体识别装置,所述装置包括:

获取模块，所述获取模块用于获取待识别的实体,通过特殊符号将所述实体和实体标签进行标注；

输出模板构建模块，所述输出模板构建模块用于根据所述实体和实体标签构建文本生成模型的输出模板；

输入输出构建模块，所述输入输出构建模块用于构建所述文本生成模型的输入和输出；所述输入为待识别文本序列和第一矩阵,所述第一矩阵为对所述待识别文本预处理后所得到的；所述输出为识别结果和第二矩阵，所述第二矩阵为对所述识别结果预处理后所得到的，所述识别结果根据所述输出模板进行展示；

编解码模块，所述编解码模块用于通过编码器对所述第一矩阵进行编码, 得到待识别文本序列的编码表示；通过解码器对所述编码表示进行计算,得到解码表示；

模型训练模块，所述模型训练模块用于根据所述编码表示和所述解码表示,对所述文本生成模型进行训练,得到最终解码表示。

第三方面，本发明提供了一种芯片***，包括处理器，所述处理器与存储器的耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现第一方面任一项所述的医疗实体识别方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行第一方面任一项所述的医疗实体识别方法。

第五方面，本发明提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面任一项所述的医疗实体识别方法。

通过应用本发明提供的实体识别方法，通过构建模板，将实体识别建模为文本生成任务，打破了使用序列标注任务进行识别的壁垒，同时该方法还融合了指针网络中的拷贝机制，能够直接将原句子中的实体拷贝到模板中，可以解决实体识别中的非连续医疗实体和嵌套医疗实体任务。

附图说明

图1为本发明实施例一提供的医疗实体识别方法流程示意图；

图2为原句和结果示意图；

图3为图1中的步骤140的流程图；

图4为本发明实施例二提供的医疗实体识别装置结构示意图；

图5为本发明实施例三提供的芯片***结构示意图；

图6为本发明实施例四提供的计算机可读存储介质示意图；

图7为本发明实施例五提供的计算机程序产品示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二” 等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和 “具有”以及它们任何变形，意图在于覆盖不排他的包括。例如包括了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的医疗实体识别方法流程示意图；该方法应用在对医疗实体进行识别时的场景，如图1所示，该方法包括以下步骤：

步骤110，获取待识别的实体,通过特殊符号将实体和实体标签进行标注, 根据实体和实体标签构建文本生成模型的输出模板；

具体的，将待识别的实体使用括号将其进行标记，并在括号内部加入实体类型的标签信息。参见图2，实体包括症状和时间，实体标签依次为发热、三天、腹泻，输出模板中将原句中的发热和腹泻标记成症状标签，将原句中三天标记成时间标签，特殊符号为括号，可以使用括号将标签：实体放到一起，这样便于后续通过抽取括号中的内容即可得到识别结果。

步骤120，构建文本生成模型的输入和输出；输入为待识别文本序列和第一矩阵,第一矩阵为对待识别文本预处理后所得到的；输出为识别结果和第二矩阵，第二矩阵为对识别结果预处理后所得到的，识别结果根据输出模板进行展示；

具体的，在步骤110中，说明了文本生成模型的输出模板的结构，步骤 120对文本生成模型的输入和输出进行说明。

比如，X＝[x₁，x₂...，x_n]表示输入的待识别文本字序列，而V＝[v₁，v₂，...，v_n]表示待识别文本字序列经过生成式预训练语言模型BART预处理得到的第一矩阵。

文本生成模型的输出即为图2中的结果部分，可以表示为Y＝[y₁，y₂...，y_m]，可以使用预训练模型BART对Y预处理得到输出端的第二矩阵，即为 U＝[u₁，u₂...，u_m]。由于Y中和X有部分重合，因此，输出结果可以表示为entity_i＝(name：x_i...x_i+k)，其中，x_i...x_i+k表示Y中和X对应的字。Name表示实体名称，即上文所述的实体。

步骤130，通过编码器对第一矩阵进行编码,得到待识别文本序列的编码表示；通过解码器对编码表示进行计算,得到解码表示；

具体的，使用编码器对X进行编码，得到输入序列信息的编码表示。定义 Self_enc()为基于自注意力机制的编码器计算单元，每个字经过编码器的编码表示可以由以下公式计算得到：

其中，

表示第n层中第t个字序列的编码表示，使用编码器，可以得到最顶层的编码表示h^N，h^N表示第n层中所有字的编码表示，v_t表示t时刻编码器的输入，比如，可以是第二矩阵中的一个向量。

解码器网络依赖h^N和卷积注意力机制模块，得到解码表示。定义Self_dec()为基于自注意力的解码器计算单元，解码器在t时刻的输出隐状态

由下式计算得到：

其中，h^N表示编码器得到的隐状态,其中隐状态就是编码表示或者解码表示，比如，编码器得到的隐状态就是编码表示，解码器得到的隐状态就是解码表示，

为第n层中第t个字序列的解码表示，u_t表示t时刻解码器的输入，可以是t时刻解码器的输入，比如，可以是第一矩阵中的一个向量。

步骤140，根据编码表示和解码表示,对文本生成模型进行训练,得到最终解码表示。

其中，参见图3，步骤140包括以下步骤：

步骤1401，通过第一函数，对每个字解码表示进行计算，得到生成概率；

其中，通过第一函数，对解码表示进行线性变化，得到线性变化结果；根据线性变化结果，计算概率分布。

具体的，解码器输出的最上层隐状态

经过一层线性变换linear()，如下所示：

其中，O_t为softmax层的输入表示，第一函数为softmax函数。

对于线性变化结果O_t，再通过第一函数softmax来输出每个时刻t在目标词汇集合Z中的概率分布。其中，目标词汇集合Z指的是模型输出所生成的所有词的候选集，然后softmax用来计算这些候选词语集合中的概率分布。

Prob_gen＝softmax(W·Ot+b)

其中，Prob_gen为概率分布，W和b是模型的训练参数，W维度与词表集合Z维度相同。

步骤1402，对解码表示进行矩阵变换，得到第一矩阵转换结果；

具体的，将得到的解码器当前隐层状态

进行矩阵变换，得到第一矩阵转换结果，如下式所示：

其中，q_t为第一矩阵转换结果，

为用来进行第一矩阵转换的可训练的第一参数矩阵。

步骤1403，对编码表示进行矩阵变换，得到第二矩阵转换结果；

具体的，将到的编码器最上层隐层状态h^N进行矩阵变换，得到第二矩阵转换结果，如下式所示：

其中，K和V为第二矩阵转换结果，

为用来进行第二矩阵转换的可训练的第二参数矩阵，

为为用来进行第二矩阵转换的可训练的第三参数矩阵。

步骤1404，根据第一矩阵转换结果和第二矩阵转换结果，计算拷贝机制的分数；

具体的，得到的q_t，K，V计算拷贝机制的分数：

其中，Prob_copy为分数。

步骤1405，根据第一矩阵转换结果和第二矩阵转换结果，计算平衡因子；

其中，通过如下公式计算平衡因子：

其中，将每次计算得到的q_t，K，V进行求和后，再和W^T相乘，再通过第二函数，sigmoid函数进行计算，可以得到平衡因子

W^T为可训练的变换矩阵。

步骤1406，根据平衡因子、分数和生成概率，计算融合打分；

具体的，根据如下公式计算融合打分；

其中，Prob_final为融合打分，即为每个字序列最终得到一个融合打分。

步骤1407，根据融合打分，确定最大概率对应的字作为生成结果；

具体的，选择最大概率对应的字作为时刻t的生成结果，如下公式所示：

y_t＝Max(Prob_final)

其中，y_t为时刻t的生成结果。

步骤1408，依次将每个字的生成结果进行组合，得到最终解码表示；

步骤1409，根据特殊符号，提取识别结果。

具体的，根据上述1401-1407，依次得到多个字的生成结果，并将该些字的生成结果进行组合，得到最终解码表示，比如，可以将最终解码表示表示为Y＝[y₁，y₂...，y_m]，其中，y₁，y₂...，y_m依次按照步骤1401-1407得到的多个生成结果的组合，可以称之为最终解码表示，而对于最终解码表示，可以通过括号提取出相应的识别结果entity_i。

实施例二

本发明实施例二提供了一种医疗实体识别装置,如图4所示，该装置包括：获取模块410，输出模板构建模块420，输入输出构建模块430，编解码模块 440和模型训练模块450。

获取模块410用于获取待识别的实体,通过特殊符号将实体和实体标签进行标注；

输出模板构建模块420用于根据实体和实体标签构建文本生成模型的输出模板；

输入输出构建模块430用于构建文本生成模型的输入和输出；输入为待识别文本序列和第一矩阵,第一矩阵为对待识别文本预处理后所得到的；输出为识别结果和第二矩阵，第二矩阵为对识别结果预处理后所得到的，识别结果根据输出模板进行展示；

编解码模块440用于通过编码器对第一矩阵进行编码,得到待识别文本序列的编码表示；通过解码器对编码表示进行计算,得到解码表示；

模型训练模块450用于根据编码表示和解码表示,对文本生成模型进行训练,得到最终解码表示。

进一步的，输入输出构建模块430根据下列方法确定第一矩阵：对待识别文本序列经过预训练语言模型BART进行预处理，得到第一矩阵。

进一步的，编解码模块440通过编码器对待识别文本序列进行编码,得到待识别文本序列的编码表示具体包括：

通过公式

计算待识别文本序列中的每个字的编码表示；其中，

表示第n层中第t个字的编码表示，

进一步的，模型训练模块450根据编码表示和解码表示,对文本生成模型进行训练,得到最终解码表示具体包括：通过第一函数，对每个字解码表示进行计算，得到生成概率；对解码表示进行矩阵变换，得到第一矩阵转换结果；对编码表示进行矩阵变换，得到第二矩阵转换结果；根据第一矩阵转换结果和第二矩阵转换结果，计算拷贝机制的分数；根据第一矩阵转换结果和第二矩阵转换结果，计算平衡因子；根据平衡因子、分数和生成概率，计算融合打分；根据融合打分，确定最大概率对应的字作为生成结果；依次将每个字的生成结果进行组合，得到最终解码表示；根据特殊符号，提取识别结果。

进一步的，模型训练模块450通过第一函数，对每个字解码表示进行计算，得到生成概率具体包括：通过第一函数，对解码表示进行线性变化，得到线性变化结果；根据线性变化结果，计算概率分布。

进一步的，编解码模块440通过编码器对第一矩阵进行编码,得到待识别文本序列的编码表示；通过解码器对编码表示进行计算,得到解码表示具体包括：

编码表示通过公式

计算；

其中，

解码表示通过公式

计算；

其中，h^N表示编码器得到的隐状态，

本发明实施例二提供的装置，可以执行上述方法实施例一中的方法步骤，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，确定模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所描述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，ASIC)，或，一个或多个微处理器(Digital Signal Processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA) 等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，CPU) 或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上***(System-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路((Digital Subscriber Line，DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

实施例三

本发明实施例三供了一种芯片***，如图5所示，包括处理器，处理器与存储器的耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时实现如实施例一提供的任意一种医疗实体识别方法。

实施例四

本发明实施例四提供一种计算机可读存储介质，如图6所示，包括程序或指令，当所述程序或指令在计算机上运行时，实现如实施例一提供的任意一种医疗实体识别方法。

实施例五

实施例五提供一种包含指令的计算机程序产品，如图7所示，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如实施例一提供的任意一种医疗实体识别方法。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器 (RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。