CN113435200A

CN113435200A - 实体识别模型训练、电子病历处理方法、***及设备

Info

Publication number: CN113435200A
Application number: CN202110689977.9A
Authority: CN
Inventors: 郑涛; 陈珊黎; 丁海明; 司丹丹; 孙孝坤; 胡豪
Original assignee: WONDERS INFORMATION CO Ltd; Renji Hospital Shanghai Jiaotong University School of Medicine
Current assignee: WONDERS INFORMATION CO Ltd; Renji Hospital Shanghai Jiaotong University School of Medicine
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-09-24

Abstract

本发明公开了一种实体识别模型训练、电子病历处理方法、***及设备，包括以下步骤：获取病历文本数据；根据预定义的病历文本数据结构化所需的实体类型对病历文本数据进行标注，以生成具有实体类型标注的样本数据集；根据序列标注规则，转换样本数据集为具有实体信息和对应实体类型标签的训练病历标签样本数据集；根据训练病历标签样本数据集训练深度学习实体识别模型，以生成实体识别模型。根据本发明的实体识别模型训练、电子病历处理方法、***及设备，针对性强，识别效果好，结构化效果好。

Description

实体识别模型训练、电子病历处理方法、***及设备

技术领域

本发明属于医疗文本处理领域，具体涉及一种实体识别模型训练、电子病历处理方法、***及设备。

背景技术

结构化电子病历是指从医学信息学角度，将以自然语言方式录入的医疗文书按照医学术语要求进行结构化分析，并将这些语义结构最终以面向对象的方式保存至数据库。

电子病历数据结构用于规范描述电子病历中数据的层次结构关系，即将电子病历数据分解至最小化结构并作为一个单元。由此，电子病历数据能够分别定位在相应的层级结构中，最终实现结构化的录入、存储、查询和共享。

医学文本中记录着患者在诊断与治疗过程中所产生的非结构化文本报告。非结构化文本报告通常包括了超声检查文本报告、CT检查文本报告、MRI文本报告和病理报告等，其蕴含着非常丰富的医学事实知识。中文医疗文档中存在大量的非结构化自然语言文本数据。非结构化自然语言文本数据不能直接运用于AI数据分析算法。

为使医疗平台中的文本信息、文本记录和检查报告等非结构化数据能被有效的检索和利用，使汇集的医学信息发挥更大的价值。基于AI技术，技术人员采用医学自然语言技术处理医疗文本数据从而实现对电子病历文本的处理。然而有些电子病历处理方法只是简单的抽取出了实体数据，没有建立实体之间的关系，不能满足结构化的要求。

早期的电子病历结构化方法是基于词典库的，该方法需要在前期构建一个专业的词典库，通过检索匹配词典库对病历文本结构化。由于专业的词典库都是领域专业人士构建的，虽然该方法准确率高，但是过度依赖领域专业人士，并且需要消耗大量的人力和时间成本。现有的电子病历结构化方法有些方法技术过于陈旧，对病历文本实体的识别效果欠缺。有些方法过于依赖专业领域数据，对非领域数据结构化效果不理想。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出了一种对病历文本结构化所需的实体类型和实体信息识别效果好、针对性强的实体识别模型。

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明提出一种能够快速准确地从电子病历海量信息中抽取出重要信息并结构化电子病历且结构化效果好的电子病历处理方法。

本发明还提出了一种实体识别模型的训练方法，包括以下步骤：获取病历文本数据；根据预定义的实体类型集合对所述病历文本数据进行标注，其中，所述预定义的实体类型集合满足所述病历文本数据的结构化需求，以生成具有实体类型标注的样本数据集；根据序列标注规则，转换所述样本数据集为具有实体信息和对应实体类型标签的训练病历标签样本数据集；以及，根据所述训练病历标签样本数据集训练深度学习实体识别模型，以使所述深度学习实体识别模型学习所述实体信息和所述对应实体类型标签之间的对应关系，以生成实体识别模型。

另外，根据本发明的实体识别模型的训练方法，还可以具有如下附加的技术特征：

根据本发明的一些实施例，所述标注之前还预处理病历文本数据，所述预处理包括以下步骤：将所述病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符，以生成规范病历文本数据；以及，删除所述规范病历文本数据中的空格符、换行符和脏字符串，以生成预处理病历文本数据。

根据本发明的一些实施例，还包括采用测试样本测试所述实体识别模型，若测试满足预设条件，则输出所述实体识别模型；若不满足预设条件，则重新获取所述病历文本数据进行训练；所述测试样本来自于所述预处理病历文本数据，所述测试样本和所述训练病历标签样本数据集具有的样本的数量比为3:7。

本发明还提出了一种训练***，包括：获取模块，用于获取病历文本数据；标注模块，用于根据预定义的所述病历文本数据结构化所需的实体类型对所述病历文本数据进行标注，以生成具有实体类型标注的样本数据集；转换模块，用于根据序列标注规则，转换所述样本数据集为具有实体信息和对应实体类型标签的训练病历标签样本数据集，以及，训练模块，用于根据所述训练病历标签样本数据集训练深度学习实体识别模型，以生成实体识别模型。

本发明还提出了一种电子病历处理方法，包括以下步骤：获取待处理病历文本数据；采用实体识别模型识别所述待处理病历文本数据的实体信息和对应的实体类型标签，以生成待处理病历标签样本数据集，所述实体识别模型是如上所述的训练方法训练生成的；以及，根据预定义的结构化规则，结构化所述待处理病历标签样本数据集，以生成结构化电子病历。

另外，根据本发明的电子病历处理方法，还可以具有如下附加的技术特征：

根据本发明的一些实施例，所述待处理病历文本数据在所述识别之前进行预处理，所述预处理包括以下步骤：将所述待处理病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符，以生成待处理规范病历文本数据；以及，删除所述待处理规范病历文本数据中的空格符、换行符和脏字符串。

本发明还提出了一种电子病历处理***，包括：获取模块，用于获取待处理病历文本数据；识别模块，用于识别所述待处理病历文本数据的实体信息和对应的实体类型标签，以生成待处理病历标签样本数据集；以及，结构化模块，用于根据预定义的结构化规则，结构化所述待处理病历标签样本数据集，以生成结构化电子病历。

另外，根据本发明的电子病历处理***，还可以具有如下附加的技术特征：

根据本发明的一些实施例，还包括预处理模块，用于先将所述待处理病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符，以生成所述待处理规范病历文本数据，然后删除所述待处理规范病历文本数据中的空格符、换行符和脏字符串。

本发明还提出了一种计算机设备，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如上所述的训练方法。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的训练方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

具体实施方式

下面详细描述本发明的实施例，所述实施例旨在用于解释本发明，而不能理解为对本发明的限制。

一种实体识别模型的训练方法，包括以下步骤：

步骤11：获取病历文本数据。

举例来说，获取的病历文本数据为包含患者某些疾病的医学信息的电子文本，例如：面对患者的心内科疾病，可获得心内科疾病方面的医学信息：心腔大小和室壁厚度：左房面积：2527mm²，长轴横径：42.6mm，右房面积：2211mm²。

步骤12：根据预定义的实体类型集合对病历文本数据进行标注，其中，预定义的实体类型集合满足病历文本数据的结构化需求，以生成具有实体类型标注的样本数据集。

从医学角度出发，可以按照某些疾病病历结构化的具体需求，预定义病历文本数据结构化所需的实体类型形成实体类型集合。举例来说，面对心内科疾病的电子病历的结构化需求，如心腔大小和室壁厚度：左房面积：2527mm²，长轴横径：42.6mm，右房面积：2211mm²。由于心内科疾病的病历结构化时需要展现出第一层级观察项目数据(即心腔大小和室壁厚度)、对应第一层级观察项目数据的具体观察项目数据(即左房面积、长轴横径和右房面积)、对应具体观察项目数据的数值数据(即2527、42.6和2211)以及对应数值数据的数值单位数据(mm²、mm和mm²)等信息。由此，可以预定义心内科病历文本数据的实体类型包括“观察项目”、“具体项目名称”、“数值”、“单位”和“描述”。

然后根据预定义的实体类型集合对病历文本数据中出现的每个实体对应标注实体类型，以生成具有实体类型标注的样本数据集。举例来说，如“心腔大小和室壁厚度”上标注“观察项目”，“左房面积”、“长轴横径”和“右房面积”上标注“具体项目名称”，“2527”、“42.6”和“2211”上标注“数值”，“mm²”“mm”“mm²”上标注“单位”。

步骤13：根据序列标注规则，转换样本数据集为具有实体信息和对应实体类型标签的训练病历标签样本数据集。序列标注规则将标注后的病历文本数据转换为后续深度学习实体识别模型可学习的格式。举例来说，例如采用BIO规则将已经标注过实体类型的病历文本数据：左房面积：2527mm²，长轴横径：42.6mm，右房面积：2211mm²转换为BIO标注规则格式后如下表1所示，B表示实体开始，I表示实体中间及结尾，O表示非实体：

表1

步骤14：根据训练病历标签样本数据集训练深度学习实体识别模型，以生成实体识别模型，也就是说，将训练病历标签样本数据集作为训练样本，训练深度学习实体识别模型，使深度学习实体识别模型学习实体信息和对应实体类型标签之间的对应关系，以生成实体识别模型。深度学习实体识别模型可以根据实际需要选择。

本发明方法预先根据病历结构化需要预定义实体类型，接着根据预定义的实体类型标注生成样本数据集，为深度学习实体识别模型的学习提供了可靠的样本来源，使得训练样本含有丰富的病历结构化所需的实体类型信息和实体信息，进而使得训练得到的实体识别模型对病历结构化所需的实体类型和实体信息的识别效果好。因此，该实体识别模型识别出的内容能够更好的满足病历文本数据的结构化需求，针对性强，相应领域人员可更及时地从后续结构化电子病历中获得有效信息，解决了电子病历文本的结构化效果不理想的问题，也有助于提高病历文本数据的结构化效率。

具体地，序列标注规则可为BIO标注规则、BIOES标注规则、IOB标注规则、BILOU标注规则或BMEWO标注规则，能满足规则后生成的训练病历标签样本数据集能够被深度学习实体识别模型学习即可。

深度学习实体识别模型可以为卷积神经网络模型、循环神经网络模型和递归神经网络模型等，能够学习识别训练病历标签样本数据集中的实体信息和对应实体类型标签之间的对应关系即可。

除上述举例的心内科外，本领域技术人员也根据其他医学科目结构化需求，获取和训练面向其他医学科目的实体识别模型如眼科、耳鼻喉科和血液内科等。

在本发明的一些示例中，标注之前还预处理病历文本数据，预处理包括以下步骤：

步骤121：将病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符，以生成规范病历文本数据。

步骤122：删除规范病历文本数据中的空格符、换行符和脏字符串，以生成预处理病历文本数据。预处理病历文本数据的目的是为了减小后续采用序列标注规则转换样本数据集时的噪音，使得生成的训练病历标签样本数据集的无用信息更少，从而提高实体识别模型识别的准确率。

在本发明的一些示例中，上述实体识别模型的训练方法还包括采用测试样本测试实体识别模型，若测试满足预设条件，则输出实体识别模型；若不满足预设条件，则重新获取病历文本数据进行训练；测试样本来自于预处理病历文本数据，测试样本和训练病历标签样本数据集具有的训练样本的数量比为3:7。采用测试样本测试训练样本训练深度学习实体识别模型，能够更好的保证实体识别模型预测的准确性。

一种训练***，包括获取模块、标注模块、转换模块和训练模块。获取模块用于获取病历文本数据。标注模块用于根据预定义的实体类型集合对病历文本数据进行标注，其中预定义的实体类型集合满足病历文本数据的结构化需求，以生成具有实体类型标注的样本数据集。转换模块用于根据序列标注规则，转换样本数据集为具有实体信息和对应实体类型标签的训练病历标签样本数据集。训练模块用于根据训练病历标签样本数据集对深度学习实体识别模型进行训练，以生成实体识别模型。

在本发明的一些示例中，训练***还包括训练预处理模块，训练预处理模块用于先将病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符，以生成规范病历文本数据，然后删除规范病历文本数据中的空格符、换行符和脏字符串。

关于上述实施例中的训练***，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

一种电子病历处理方法，包括以下步骤：

步骤21：获取待处理病历文本数据。

举例来说，获取的待处理病历文本数据为包含患者某些疾病的医学信息的电子文本，例如：面对患者的心内科疾病，可获得心内科疾病方面的医学信息，获得的待处理心内科疾病的病历文本数据如下表2所示：

表2

步骤22：采用实体识别模型识别待处理病历文本数据的实体信息和对应的实体类型标签，以生成待处理病历标签样本数据集，实体识别模型是根据上述训练方法训练生成的。由于实体识别模型是对应电子病历的结构化需要训练的。因此，实体识别模型可准确识别该病历结构化所需的实体类型和实体信息等信息，并将其抽取出来。举例来说，对应上述心内科病历训练出来的实体识别模型识别上述待处理心内科病历，由上述表2生成的待处理病历标签样本数据集如下表3所示：

表3

步骤23：根据预定义的结构化规则，结构化待处理病历标签样本数据集得到结构化电子病历。即按照待处理病历文本数据结构化的具体需求，结合待处理病历文本数据的具体数据，从医学角度出发，预定义面向待处理病历的结构化规则，然后采用预定义的结构化规则结构化处理待处理病历标签样本数据集即得到待处理病历的结构化电子病历。举例来说，对应上述待处理心内科病历文本数据，根据需要预定义出心内科疾病的结构化规则，采用该结构化规则结构化待处理病历标签得到的结构化电子病历如下表4所示：

表4

本发明的电子病历处理方法，由于实体识别模型对结构化所需的实体类型和实体信息等信息的识别效果好，因此能够快速准确地从患者的电子病历中抽取出重要信息并且对应结构化，针对性强，一定程度上解决了电子病历结构化效果不理想的问题，能够更好的满足电子病历的结构化需求。

在本发明的一些示例中，待处理病历文本数据在识别之前进行预处理，预处理包括以下步骤：

步骤221：将待处理病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符，以生成待处理规范病历文本数据。

步骤222：删除待处理规范病历文本数据中的空格符、换行符和脏字符串。预处理待处理病历文本数据的目的是为了减小实体识别模型识别待处理病历文本数据的实体信息和对应的实体类型标签时的噪音，使得生成的结构化电子病历的结构化效果更好。

一种电子病历处理***，包括获取模块、识别模块和结构化模块。获取模块用于获取待处理病历文本数据。识别模块用于识别待处理病历文本数据的实体信息和对应的实体类型标签，以生成待处理病历标签样本数据集。结构化模块用于根据预定义的结构化规则，结构化待处理病历标签样本数据集，以生成结构化电子病历。

在本发明的一些示例中，电子病历处理***还包括预处理模块，预处理模块用于先将待处理病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符，以生成待处理规范病历文本数据，然后删除待处理规范病历文本数据中的空格符、换行符和脏字符串。

关于上述实施例中的***，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

一种计算机设备，包括处理器和存储器；其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如上述的训练方法。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的训练方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

下面描述本发明的电子病历处理方法的一个具体实施例。

一种面向心内科专病数据分析的电子病历处理方法，包括以下步骤：

步骤1：训练实体识别模型，包括以下步骤：

步骤S11：获取病历文本数据，具体的，病历文本数据来源于心内科的病历文本。

步骤S12：预处理病历文本数据，具体如下：

步骤121：将获取的病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符。

步骤122：删除规范病历文本数据中的空格符、换行符和脏字符串，以生成预处理病历文本数据。

步骤S13：将预处理病历文本数据按照7:3的比例划分为训练病历文本数据集和测试病历文本数据集。

步骤S14：预定义病历文本数据结构化所需的实体类型并建立实体类型集合。具体地，按照面向心内科专病数据分析的电子病历结构化的具体需求，结合实际的具体数据，从医学角度出发，预定义面向心内科专病数据分析的电子病历结构化需要的实体类型，建立面向心内科专病数据分析的电子病历结构化需要的实体类型集合，如根据心内科病历常见的实体类型如观察项目、具体的项目名称、描述、数值和单位等构建形成面向心内科的实体类型集合。

步骤S15：根据实体类型集合人工标注训练病历文本数据集中出现的每个实体的实体类型，以生成样本数据集。

步骤S16：采用BIO标注规则将样本数据集转换为具有实体信息和对应实体类型标签的训练病历标签样本数据集，B表示实体开始，I表示实体中间及结尾，O表示非实体；训练病历标签样本数据集如下表1所示：

表1

步骤S17：根据具有实体信息和对应实体类型标签的训练病历标签样本数据集训练深度学习实体识别模型，以使深度学习实体识别模型学习训练病历标签样本数据集中实体信息和实体类型之间的对应关系，以生成训练实体识别模型，具体的，深度学习实体识别模型为：双向长短期记忆网络-注意力机制-条件随机场(Bilstm-Attention-CRF)。

步骤S18：采用步骤13测试病历文本数据集作为测试样本对训练实体识别模型进行测试，若满足测试条件则输出实体识别模型，若不满足，则重新回到步骤11直至满足测试条件为止。

步骤2：处理电子病历，包括以下步骤：

步骤S21：线上获取待处理病历文本数据。

待处理病历文本数据如下表2所示：

表2

步骤S22：预处理待处理病历文本数据，包括以下步骤：

步骤222：删除待处理规范病历文本数据中的空格符、换行符和脏字符串。

步骤S23：将待处理病历文本数据输入实体识别模型即生成待处理病历标签样本数据集，该病历标签样本数据集包括待处理病历文本数据中出现的实体信息以及对应的实体类型标签，待处理病历标签样本数据集如下表3所示：

表3

步骤S24：预定义结构化规则并采用该结构化规则结构化待处理病历标签样本数据集生成结构化后的电子病历。具体地，按照面向心内科专病数据分析的电子病历结构化的具体需求，结合实际的具体数据，从医学角度出发，预定义面向心内科专病数据分析的电子病历结构化需要的结构化规则，用结构化规则结构化实体识别模型识别后的待处理病历标签样本数据集，得到结构化电子病历，结构化电子病历如下表4所示：

表4

综上，本发明的电子病历处理方法可以面向心内科专病数据分析的电子病历的结构化，简单而高效，对面向心内科专病数据分析的电子病历结构化起到了重要的作用。

在本说明书的描述中，参考术语“一些实施例”、“可选地”、“进一步地”或“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种实体识别模型的训练方法，其特征在于，包括以下步骤：

获取病历文本数据；

根据预定义的实体类型集合对所述病历文本数据进行标注，其中，所述预定义的实体类型集合满足所述病历文本数据的结构化需求，以生成具有实体类型标注的样本数据集；

根据序列标注规则，转换所述样本数据集为具有实体信息和对应实体类型标签的训练病历标签样本数据集；以及，

根据所述训练病历标签样本数据集训练深度学习实体识别模型，以生成实体识别模型。

2.根据权利要求1所述的实体识别模型的训练方法，其特征在于，所述标注之前还预处理所述病历文本数据，所述预处理包括以下步骤：

将所述病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符，以生成规范病历文本数据；以及，

删除所述规范病历文本数据中的空格符、换行符和脏字符串，以生成预处理病历文本数据。

3.根据权利要求2所述的实体识别模型的训练方法，其特征在于，还包括采用测试样本测试所述实体识别模型，若测试满足预设条件，则输出所述实体识别模型；若不满足预设条件，则重新获取所述病历文本数据进行训练；所述测试样本来自于所述预处理病历文本数据，所述测试样本和所述训练病历标签样本数据集具有的样本的数量比为3:7。

4.一种训练***，其特征在于，包括：

获取模块，用于获取病历文本数据；

标注模块，用于根据预定义的实体类型集合对所述病历文本数据进行标注，其中，所述预定义的实体类型集合满足所述病历文本数据的结构化需求，以生成具有实体类型标注的样本数据集；

转换模块，用于根据序列标注规则，转换所述样本数据集为具有实体信息和对应实体类型标签的训练病历标签样本数据集；以及，

训练模块，用于根据所述训练病历标签样本数据集训练深度学习实体识别模型，以生成实体识别模型。

5.一种电子病历处理方法，其特征在于，包括以下步骤：

获取待处理病历文本数据；

采用实体识别模型识别所述待处理病历文本数据的实体信息和对应的实体类型标签，以生成待处理病历标签样本数据集，所述实体识别模型是根据权利要求1～3任一项所述的训练方法训练生成的；以及，

根据预定义的结构化规则，结构化所述待处理病历标签样本数据集，以生成结构化电子病历。

6.根据权利要求5所述的电子病历处理方法，其特征在于，所述待处理病历文本数据在所述识别之前进行预处理，所述预处理包括以下步骤：

将所述待处理病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符，以生成待处理规范病历文本数据；以及，

删除所述待处理规范病历文本数据中的空格符、换行符和脏字符串。

7.一种电子病历处理***，其特征在于，包括：

获取模块，用于获取待处理病历文本数据；

识别模块，用于识别所述待处理病历文本数据的实体信息和对应的实体类型标签，以生成待处理病历标签样本数据集；以及，

结构化模块，用于根据预定义的结构化规则，结构化所述待处理病历标签样本数据集，以生成结构化电子病历。

8.根据权利要求7所述的电子病历处理***，其特征在于，还包括预处理模块，用于先将所述待处理病历文本数据中的转义字符替换为对应的数字字符以及英文字符替换为对应的中文字符，以生成所述待处理规范病历文本数据，然后删除所述待处理规范病历文本数据中的空格符、换行符和脏字符串。

9.一种计算机设备，其特征在于，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-3中任一项所述的训练方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一项所述的训练方法。