CN111341404B

CN111341404B - 一种基于ernie模型的电子病历数据组解析方法及***

Info

Publication number: CN111341404B
Application number: CN202010118524.6A
Authority: CN
Inventors: 刘文丽
Original assignee: Shandong Langchao Intelligent Medical Technology Co ltd
Current assignee: Shandong Langchao Intelligent Medical Technology Co ltd; Tianjin Health Care Big Data Co ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2023-07-14
Anticipated expiration: 2040-02-26
Also published as: CN111341404A

Abstract

本发明公开了一种基于ernie模型的电子病历数据组解析方法及***，属于自然语言处理领域，本发明要解决的技术问题为如何克服电子病历数据组提取过程对关键字及规则的依赖而导致的提取规则反复更新、无法解析无关键字文本，采用的技术方案为：该方法是根据电子病历中每句话的含义进行数据组判别，克服电子病历解析过程中对关键字及规则的依赖；具体如下：S1、确定不同类别文本数据组：根据不同类型电子病历确定提取数据组；S2、提取及标记数据组样本：在确定不同类型文档所要提取的电子病历数据组后，采集并标注样本构建样本集；S3、基于ernie预训练模型的文本分类模型再训练；S4、提取数据组内容：使用步骤S3中训练的模型将相应数据组的内容提取出来。

Description

一种基于ernie模型的电子病历数据组解析方法及***

技术领域

本发明涉及自然语言处理领域，具体地说是一种基于ernie模型的电子病历数据组解析方法及***。

背景技术

电子病历是一个人在医疗机构历次就诊过程中产生和被记录的完整、详细的临床信息资源，是目前医疗数据主要的组成部分。但是目前电子病历多以文本形式为主，并不能直接用于分析研究。因此，如何将电子病历准确有效解析，并提取出数据组内容用于分析研究是医疗数据治理中亟待解决的问题。

目前，常用的数据组解析的方法是关键字提取、正则表达式匹配的方法，该方法具体如下：

首先，根据电子病历中的关键字，确定提取数据组的位置；

然后，使用正则表达式等规则匹配方式，将数据组内容提取出来。

例如，从入院记录文本中提取主诉信息：首先，根据“主诉”二字，确定入院记录文本中这组数据组的位置；然后，根据回车符、句号等分隔符将主诉内容提取出来。

虽然，通过这种方法可以快速的进行电子病历数据组解析，但由于电子病历为半结构化内容，大量段落为自由填写。且不同医院不同厂家的电子病历模板也不尽相同。因此，存在如下问题：

①、在确定关键字、制定提取规则时，需要根据不同厂家、不同类型的病历逐一制定，通用性较差；

②、在提取过程中，需要根据实际内容，反复打磨规则，准确率较低；

③、一旦***出现升级或更换厂家，需重新确定关键字及提取规则，故通用性较差；

④、通过该方法无法解析文本中关键字缺失的情况，对关键字依赖性太强。

综上所述，如何克服电子病历数据组提取过程对关键字及规则的依赖而导致的提取规则反复更新、无法解析无关键字文本，有效降低解析成本是目前医疗数据治理中亟待解决的问题。

发明内容

本发明的技术任务是提供一种基于ernie模型的电子病历数据组解析方法及***，来解如何克服电子病历数据组提取过程对关键字及规则的依赖而导致的提取规则反复更新、无法解析无关键字文本，有效降低解析成本的问题。

本发明的技术任务是按以下方式实现的，一种基ernie模型的电子病历数据组解析方法，该方法是根据电子病历中每句话的含义进行数据组判别，克服电子病历解析过程中对关键字及规则的依赖；具体如下：

S1、确定不同类别文本数据组：根据不同类型电子病历确定提取数据组，再根据不同厂家电子病历文本的情况进行数据组映射或微调；

S2、提取及标记数据组样本：在确定不同类型文档所要提取的电子病历数据组后，采集并标注样本构建样本集；

S3、基于ernie预训练模型的文本分类模型再训练：对样本集中M个子样本集分别进行模型训练；

S4、提取数据组内容：使用步骤S3中训练的模型将相应数据组的内容提取出来。

作为优选，所述步骤S2中提取及标记数据组样本具体如下：

S201、分别从各类待解析样本中随机抽取N个文本；

S202、根据实际文本情况，选择合理分隔符(一般为句号或回车符，也可多分隔符联合使用)进行文本分块；

S203、去除每块文本中的脏字符，脏字符是指影响语义判断的字符；

S204、根据步骤S1中确定的数据组进行人工标注。

作为优选，所述构建样本集具体如下：

(1)、从各类型文档中分别抽取N份文档；

(2)、结合实际待解析数据情况，确定数据组类别；

(3)、人工或借助标注平台标注N份文档中的数据组；

(4)、以公式1和公式2的样本模型结构组成总样本集，具体如下：

S＝{s₁,s₂,s₃…s_M}；公式1

s_i＝{n_i1,n_i2,n_i3，…，n_id,n_id+1}；公式2

其中，S表示为总样本集，总样本集是由M类待解析文档的子样本集s构成；每个子样本集s中包含d个子类别，即该类文档中包含的数据组种类数；尽管在样本采集时，每个子样本集是由该类文本中随机抽取的N个文本提取标注而成；但为了消除模型对关键字的依赖，在构成样本集的过程中，对每个数据组中的实际文本进行了分块处理，因此d个子类别中包含的样本数并不相等，最小值为N个样本；另外，一般在一份解析文档中总会有许多模板类语句，这些语句不属于任何一类，因此在每个子样本集中加入其他类n_id+1用于区分其他类文本。

更优地，所述样本集构建时需要注意如下内容：

①、采样过程中，应对全样本集进行随机采样，保证样本的全面性；

②、应对原数据组的完整文本进行分块后放入样本集，使模型摆脱对关键字的依赖，尽量保证样本集内容的多样性。

作为优选，所述步骤S3中基于ernie预训练模型的文本分类模型再训练的过程中对模型的最大序列长度(Maximum Sequence Length)、批次大小(Batch Size)及学习率(Learning Rate)三个参数进行调参；具体如下：

S301、选择最大序列长度搜索值max_len_num个，批次大小搜索值batch_size_num个，学习率搜索值learn_rate_num个，分别组合为max_len_num*batch_size_num*learn_rate_num组；

S302、从步骤S301中选择一种参数组合，采用留一法交叉验证模型，计算该模型的平均识别率；

S303、循环步骤S302直至处理完全部组参数，选择平均识别率最高的一组参数，作为模型的最优参数，最优参数训练的模型作为最优模型输出；

S304、通过步骤S301到步骤S303分别对M个子样本集进行训练，得到M个子模型。

作为优选，所述步骤S4中提取数据组内容具体如下：

S401、对所有待测文本进行去脏字符及分块处理；

S402、将分块文本输入相应文本模型对每块文本进行分类；

S403、按输入顺序组合，每个数据组中分得的文本内容作为文档的数据组提取结果，除其他类外的各类别组合结果就是该篇文档的数据组提取结果。

更优地，所述步骤S401中分块处理的具体过程如下：

S40101、使用句号或回车符对待解析文档进行分块处理；

S40102、去除每块语句的脏字符，脏字符是指影响语义判断的字符；

S40103、将分块语句分别按顺序输入对应文档类型的子模型中，判断文本块类别；

S40104、将该文档各类别的分类结果按解析顺序重新组合，组合过程通过回车或空格进行连接。

一种基于ernie模型的电子病历数据组解析***，该***包括，

数据组确定单元，用于根据不同类型电子病历确定提取数据组，再根据不同厂家电子病历文本的情况进行数据组映射或微调；

数据组样本提取及标记单元，用于在确定不同类型文档所要提取的电子病历数据组后，采集并标注样本构建样本集；数据组样本提取及标记单元包括，

文本随机抽取模块，用于分别从各类待解析样本中随机抽取N个文本；

文本分块模块，用于根据实际文本情况，选择合理分隔符(一般为句号或回车符，也可多分隔符联合使用)进行文本分块；

脏字符去除模块，用于去除每块文本中的脏字符，脏字符是指影响语义判断的字符；

人工标注模块，用于根据数据组确定模块中确定的数据组进行人工标注；

文本分类模型再训练单元，用于对样本集中M个子样本集分别进行模型训练；文本分类模型在训练单元包括，

组合模块，用于选择最大序列长度搜索值max_len_num个，批次大小搜索值batch_size_num个，学习率搜索值learn_rate_num个，分别组合为max_len_num*batch_size_num*learn_rate_num组；

平均识别率计算模块，用于从组合模块中选择一种参数组合，采用留一法交叉验证模型，计算该模型的平均识别率；

最优模型输出模块，用于循环平均识别率计算模块直至处理完全部组参数，选择平均识别率最高的一组参数，作为模型的最优参数，最优参数训练的模型作为最优模型输出；

子模型获取模块，用于通过组合模块、平均识别率计算模块和最优模型输出模块分别对M个子样本集进行训练，得到M个子模型；

数据组内容提取单元，使用训练的模型将相应数据组的内容提取出来；数据组内容提取单元包括，

去脏字符及分块处理模块，用于对所有待测文本进行去脏字符及分块处理；

分块文本分类模块，用于将分块文本输入相应文本模型对每块文本进行分类；

数据组结果提取模块，用于按输入顺序组合，每个数据组中分得的文本内容作为文档的数据组提取结果，除其他类外的各类别组合结果就是该篇文档的数据组提取结果。

一种存储介质，其中存储有多条指令，所述指令由处理器加载，执行上述的基于ernie模型的电子病历数据组解析方法的步骤。

一种电子设备，所述电子设备包括：

上述的存储介质；以及

处理器，用于执行所述存储介质中的指令。

本发明的基于ernie模型的电子病历数据组解析方法及***具有以下优点：

(一)本发明根据电子病历中每句话的意思进行数据组判别，克服了电子病历解析过程中对关键字及规则的依赖，解决了规则反复更新、无关键字无法解析的问题，降低了解析成本；

(二)本发明解决了电子病历数据组解析过程中对关键字及规则过度依赖的问题，节省了关键字规则磨合及更新的时间；与传统的电子病历数据组解析方法相比，本发明更具有通用性；

(三)本发明使用语义分析技术，语义分析技术即为文本分类模型，文本分类模型为paddlepadle框架中的ernie模型，实现了不依赖关键字对电子病历中的每块文本进行数据组分类；

(四)文本分块时可根据实际文本内容进行自定义分隔符分块，能满足不同文本的分块需求，确保准确性。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于ernie模型的电子病历数据组解析方法的流程框图；

附图2为基于ernie模型的电子病历数据组解析***的结构框图。

具体实施方式

参照说明书附图和具体实施例对本发明的一种基于ernie模型的电子病历数据组解析方法及***作以下详细地说明。

实施例1：

如附图1所示，本发明的基于ernie模型的电子病历数据组解析方法,该方法是根据电子病历中每句话的含义进行数据组判别，克服电子病历解析过程中对关键字及规则的依赖；具体如下：

S1、确定不同类别文本数据组：根据《电子病历数据组与数据元》所述，数据组(Data Group)是将相关信息项聚集起来而形成的一种复合的数据结构。不同类型的电子病历文本包含不同的数据组；不同厂家及医院的电子病历文本，数据组的内容也略有不同；因此数据确定的具体如下：

S101、根据不同类型电子病历确定提取数据组；

S102、根据不同厂家电子病历文本的情况进行数据组映射或微调；

S2、提取及标记数据组样本：在确定不同类型文档所要提取的电子病历数据组后，采集并标注样本构建样本集；具体如下：

S201、分别从各类待解析样本中随机抽取N个文本；

S204、根据步骤S1中确定的数据组进行人工标注。

其中，构建样本集具体如下：

(1)、从各类型文档中分别抽取N份文档；

(2)、结合实际待解析数据情况，确定数据组类别；

(3)、人工或借助标注平台标注N份文档中的数据组；

S＝{s₁,s₂,s₃…s_M}；公式1

s_i＝{n_i1,n_i2,n_i3，…，n_id,n_id+1}；公式2

样本集构建时需要注意如下内容：

S3、基于ernie预训练模型的文本分类模型再训练：Ernie预训练模型是paddleNLP中最典型的语义模型，由多NLP任务训练而成。因此，Ernie模型具有可小样本训练，预处理简单的优势。鉴于前期的样本均为人工标注，样本量较少的特点，该处选用具有较强语义能力的ernie模型作为文本分类的预训练模型。对样本集中M个子样本集分别进行模型训练；其中，基于ernie预训练模型的文本分类模型再训练的过程中对模型的最大序列长度(Maximum Sequence Length)、批次大小(Batch Size)及学习率(Learning Rate)三个参数进行调参；具体如下：

S4、提取数据组内容：使用步骤S3中训练的模型将相应数据组的内容提取出来；具体如下：

S401、对所有待测文本进行去脏字符及分块处理；分块处理的具体过程如下：

S40101、使用句号或回车符对待解析文档进行分块处理；

S402、将分块文本输入相应文本模型对每块文本进行分类；

实施例2：

本发明的基于ernie模型的电子病历数据组解析***，该***包括，

实施例3：

本发明的存储介质，其中存储有多条指令，指令由处理器加载，执行基于实施例1的基于ernie模型的电子病历数据组解析方法的步骤。

实施例4：

本发明的电子设备，电子设备包括：

基于实施例3的存储介质；以及

处理器，用于执行实施例3中存储介质中的指令。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于ernie模型的电子病历数据组解析方法，其特征在于，该方法是根据电子病历中每句话的含义进行数据组判别，克服电子病历解析过程中对关键字及规则的依赖；具体如下：

S3、基于ernie预训练模型的文本分类模型再训练：对样本集中M个子样本集分别进行模型训练；其中，基于ernie预训练模型的文本分类模型再训练的过程中对模型的最大序列长度、批次大小及学习率三个参数进行调参；具体如下：

S304、通过步骤S301到步骤S303分别对M个子样本集进行训练，得到M个子模型；

2.根据权利要求1所述的基于ernie模型的电子病历数据组解析方法，其特征在于，所述步骤S2中提取及标记数据组样本具体如下：

S201、分别从各类待解析样本中随机抽取N个文本；

S202、根据实际文本情况，选择合理分隔符进行文本分块；

S204、根据步骤S1中确定的数据组进行人工标注。

3.根据权利要求1所述的基于ernie模型的电子病历数据组解析方法，其特征在于，所述构建样本集具体如下：

（1）、从各类型文档中分别抽取N份文档；

（2）、结合实际待解析数据情况，确定数据组类别；

（3）、人工或借助标注平台标注N份文档中的数据组；

（4）、以公式1和公式2的样本模型结构组成总样本集，具体如下：

其中，S表示为总样本集，总样本集是由M类待解析文档的子样本集s构成；每个子样本集s中包含d个子类别，即第i类文档中包含的数据组种类数；在每个子样本集中加入其他类

用于区分其他类文本。

4.根据权利要求3所述的基于ernie模型的电子病历数据组解析方法，其特征在于，所述样本集构建时需要注意如下内容：

5.根据权利要求1所述的基于ernie模型的电子病历数据组解析方法，其特征在于，所述步骤S4中提取数据组内容具体如下：

S401、对所有待测文本进行去脏字符及分块处理；

S402、将分块文本输入相应文本模型对每块文本进行分类；

S403、按输入顺序组合，每个数据组中分得的文本内容作为文档的数据组提取结果。

6.根据权利要求5所述的基于ernie模型的电子病历数据组解析方法，其特征在于，所述步骤S401中分块处理的具体过程如下：

S40101、使用句号或回车符对待解析文档进行分块处理；

7.一种基于ernie模型的电子病历数据组解析***，其特征在于，该***包括，

文本分块模块，用于根据实际文本情况，选择合理分隔符进行文本分块；

数据组结果提取模块，用于按输入顺序组合，每个数据组中分得的文本内容作为文档的数据组提取结果。

8.一种存储介质，其中存储有多条指令，其特征在于，所述指令由处理器加载，执行权利要求1-6中任一项所述的基于ernie模型的电子病历数据组解析方法的步骤。

9.一种电子设备，其特征在于，所述电子设备包括：

权利要求8所述的存储介质；以及

处理器，用于执行所述存储介质中的指令。