CN112732900A

CN112732900A - 一种电子病历文本摘要抽取方法

Info

Publication number: CN112732900A
Application number: CN202110010116.3A
Authority: CN
Inventors: 张述睿; 吴军; 樊昭磊; 桑波; 李福友
Original assignee: Shandong Msunhealth Technology Group Co Ltd
Current assignee: Zhongyang Health Technology Group Co ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-04-30
Anticipated expiration: 2041-01-04
Also published as: CN112732900B

Abstract

一种电子病历文本摘要抽取方法，通过定义语义覆盖度损失函数，可以将以往医师总结出的抽象式摘要用作训练自动抽取式摘要模型，避免了数据标注。从原始电子病历文本中筛选出比较重要的句子作为候选集，缩小自动抽取式摘要的搜寻范围，再通过罗列候选集中句子的不同组合方式，找出对原始电子病历中语义覆盖度最高的句子组合作为抽取式摘要，在判定语义覆盖度时,结合候选集中所有句子的语义信息做出判断，降低了自动抽取式摘要中信息冗余和信息缺失的可能，提升了自动抽取式摘要的质量。

Description

一种电子病历文本摘要抽取方法

技术领域

本发明涉及医疗信息化技术领域，具体涉及一种电子病历文本摘要抽取方法。

背景技术

电子病历是病人在医院诊疗全过程的原始记录，也是为医师提供临床决策支持的重要***。虽然电子病历取代纸质病历，方便了相关数据的存储和查找，但是电子病历很多重要的信息仍然深深埋藏在大量的文本内容当中。医师在临床工作中如果需要全面阅读一个病人的电子病历，往往需要花费很长时间。所以，对电子病历进行摘要提取，对增加医师在临床中的工作效率有重要意义，尤其是在出院病历的录入当中，医师需要阅读病人该次入院以来所有的电子病历记录，然后总结病人该次入院的状况和治疗情况，并录入到出院病历当中，整个过程会花费医师很大的时间和精力，尤其是在出院病人众多的情况下，并且在电子病历的阅读和总结的过程中容易遗漏电子病历中的重要信息。

目前机器摘要抽取主要分为两种技术，分为自动抽象式摘要和自动抽取式摘要，抽象式摘要指的是对原文内容进行抽象总结，形成更简短的文本。但是自动抽象式摘要任务面临着很大的挑战，目前的技术瓶颈主要是生成的抽象式摘要与原文事实冲突和摘要生成的篇幅不可控，即使最领先的科研成果也无法避免该问题。医疗工作的容错率是很低的，自动抽象式摘要可能造成的与原文事实冲突，可能造成医疗后果，是无法接受的。所以使用自动抽取式摘要技术对电子病历的文本进行摘要生成是当前最稳妥的方法。

但是目前一般的抽取式摘要技术面临以下问题：1)目前常用的抽取式摘要技术一般以文本中的句子为抽取单位，依赖于文本相似度的判断，从而获取文本中比较重要的句子，即从原文的所有句子中抽取一个子集，但抽取的摘要中句子与句子之间语义上的联系较弱，所以抽取出的句子组合对原始文本的覆盖度不一定是最高的，仍然会产生信息冗余或关键信息缺失的情况。2)一般的无监督摘要抽取模型性能往往不理想，如果想获取高性能抽取式模型则需要数据标记，数据标记的目的是从原始电子病历中标记出重要的句子，医疗文本的数据标记是一项专业性强、成本高、费时、而且质量难以管理的工作。

发明内容

本发明为了克服以上技术的不足，提供了一种不需要数据标注、自监督、且可以从电子病历中抽取出高覆盖度摘要，且提升医师的工作效率，并可以控制抽取内容的多少的方法。

本发明克服其技术问题所采用的技术方案是：

一种电子病历文本摘要抽取方法，包括如下步骤：

a)获取整篇电子病历的文本内容，使用D表示一篇电子病历中除出院病历以外的文本内容，D∈{d_i＝1,d_i＝2,...,d_i＝|D|}，d_i为D中的一句话，|D|为D的总句数，使用S表示一篇电子病历出院病历，S∈{s_j＝1,s_j＝2,...,s_j＝|S|}，s_j为S中的一句话，|S|为S的总句数；

b)使用医学教科书语料训练BERT语言模型，训练完成后通过公式

使用该模型获取电子病历文本中d_i的向量表达

式中BERT(d_i)[CLS]为使用BERT模型对d_i进行建模并获取向量表达，得到向量化表达矩阵

c)通过公式

计算D中句子的相似度邻接矩阵A，h为BERT模型的维度，l为h所在的维度的索引，softmax(·)为softmax函数，T为向量或矩阵转置，初始化一个句子权重向量Q，其维度为

句子权重向量Q中的所有初始值均为

计算得到D中每个句子的得分

d)对得分

内的值按照从大到小进行排序，排序后取前|C|个最大的值对应的句子索引作为抽取式摘要的候选集并从向量化表达矩阵

取出这些句子索引所对应的向量，其中在模型训练阶段|C|＝|S|×2，0＜|C|＜|D|，|C|为正整数，C为候选集，C＝{c_i＝1,c_i＝2,...,c_i＝|C|}，c_i为候选集中的一个句子的向量表达；

e)枚举所有从候选集C中取出|S|个向量的所有组合，通过公式

计算所有组合的数量|G|，！为阶乘计算，G＝{g_n＝1,g_n＝2,...,g_n＝|G|}，g_n为一种句向量的组合；

f)对BERT语言模型进行训练，定义损失函数为L，使用梯度下降法将L最小化，直至其收敛，得到BERT模型的参数，获取可以自动抽取式摘要的模型参数；

g)使用公式

计算得到最佳的句子组合

式中g_n为最大的句子组合。

进一步的，步骤b)中BERT建模的步骤为：

b-1)将文本d_i按照字典中的索引将d_i中的每个文字转换成字典中的一个索引数字，完成d_i的索引化；

b-2)将BERT语言模型中的[CLS]和[SEP]添加到索引化的d_i中，将添加后的索引化的d_i输入到BERT模型中；

b-3)通过公式

得到电子病历文本中d_i的向量表达，该向量表达的维度为

为实数空间。

进一步的，步骤c)中计算D中每个句子的得分

的步骤为：

c-1)通过公式

计算得到D中每个句子的得分

c-2)用

的值替换Q中的值后重复步骤c-1)直到

与Q相等。

进一步的，步骤f)中，通过公式

计算损失函数为L，式中max函数表示求最大元素，

为S的向量表达，

的维度为

进一步的，λ＝0.05。

本发明的有益效果是：通过定义语义覆盖度损失函数，可以将以往医师总结出的抽象式摘要用作训练自动抽取式摘要模型，避免了数据标注。从原始电子病历文本中筛选出比较重要的句子作为候选集，缩小自动抽取式摘要的搜寻范围，再通过罗列候选集中句子的不同组合方式，找出对原始电子病历中语义覆盖度最高的句子组合作为抽取式摘要，在判定语义覆盖度时,结合候选集中所有句子的语义信息做出判断，降低了自动抽取式摘要中信息冗余和信息缺失的可能，提升了自动抽取式摘要的质量。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图1对本发明做进一步说明。

一篇电子病历主要包含入院病历、病程记录、检查检验结果、手术记录和出院病历等。本方法中提出的模型是在从入院病历、病程记录、检查检验结果、手术记录等部分中抽取出最主要内容，过滤掉冗余信息，形成抽取式摘要，从而帮助医师高效率而又精确地完成出院病历的书写。为了训练模型，需要从以往的电子病历库中提取完整的电子病历作为训练语料。具体建模步骤为：

(1)获取整篇电子病历的文本内容，使用D表示一篇电子病历中除出院病历以外的文本内容，D∈{d_i＝1,d_i＝2,...,d_i＝|D|}，d_i为D中的一句话，|D|为D的总句数，使用S表示一篇电子病历出院病历，出院病历可看作是医师对病人该次住院疾病和治疗情况的抽象式总结，即抽象式摘要，因为出院病历的内容可能使用不同的表达方式来描述前面病历中的内容，S∈{s_j＝1,s_j＝2,...,s_j＝|S|}，s_j为S中的一句话，|S|为S的总句数。本方法使用出院病历中的抽象式摘要来训练抽取式摘要模型。

(2)使用医学教科书语料训练BERT语言模型，之后可以使用该模型获取电子病历文本的向量表达，训练完成后通过公式

使用该模型获取电子病历文本中d_i的向量表达

(3)通过公式

句子权重向量Q中的所有初始值均为

计算得到D中每个句子的得分

(4)对得分

取出这些句子索引所对应的向量，其中在模型训练阶段|C|＝|S|×2，也就是说取相当于出院病历句数两倍的句数作为候选集，在使用模型进行摘要抽取时，医师可以根据实际需求认为指定|C|的值，人为指定|C|的取值范围为：0＜|C|＜|D|，|C|为正整数，C为候选集，C＝{c_i＝1,c_i＝2,...,c_i＝|C|}，c_i为候选集中的一个句子的向量表达。

(5)枚举所有从候选集C中取出|S|个向量的所有组合，通过公式

计算所有组合的数量|G|，！为阶乘计算，G＝{g_n＝1,g_n＝2,...,g_n＝|G|}，g_n为一种句向量的组合。

(6)对BERT语言模型进行训练，定义损失函数为L，使用梯度下降法将L最小化，直至其收敛，得到BERT模型的参数，获取可以自动抽取式摘要的模型参数。本步骤中损失函数的意义为，使用BERT模型提取原始文本和摘要候选集的隐含语义，以余弦相似度作为语义覆盖度的度量标准，以出院病历的抽象式摘要为金标准，从候选集G中选出对金标准语义覆盖度最高句子组合，本损失函数也可称之为“语义覆盖度损失”。使用梯度下降法将L最小化，直至其收敛，可以得到BERT模型的参数，从而获取可以自动抽取式摘要的模型参数。

(7)使用公式

计算得到最佳的句子组合

式中g_n为最大的句子组合。使用BERT模型提取原始文本和摘要候选集的隐含语义，以余弦相似度作为语义覆盖度的度量标准，从候选集G中选出对原始电子病历文本语义覆盖度最高句子组合作为最终的抽取式摘要。针对高性能抽取式摘要模型需要数据标记的问题，使用以往电子病历中的出院病历部分作为金标准，虽然该金标准相当于抽象式摘要，但是通过定义语义覆盖度损失函数，可以将以往医师总结出的抽象式摘要用作训练自动抽取式摘要模型，避免了数据标注。

针对一般的抽取式摘要技术抽取的摘要中句子与句子之间语义上的联系较弱的问题，提出先从原始电子病历文本中筛选出比较重要的句子作为候选集，缩小自动抽取式摘要的搜寻范围，再通过罗列候选集中句子的不同组合方式，找出对原始电子病历中语义覆盖度最高的句子组合作为抽取式摘要，在判定语义覆盖度时,结合候选集中所有句子的语义信息做出判断，降低了自动抽取式摘要中信息冗余和信息缺失的可能，提升了自动抽取式摘要的质量。

下面通过一个摘要抽取实例对本发明进行进一步说明：

(1)电子病历原文(约5000字)：

主诉：发现***口狭小10天。患者10天前因阴***部不适，检查发现***口狭小，不能上翻***显露阴***。在我院诊断为***，建议手术治疗。现来我院，为进一步治疗……。

(2)抽取式摘要，|S|＝5，218字：

1)患者发现***口狭小10天入院。

2)查体：***大小正常，***过长，***口狭小，直径不足0.1cm，***不能上翻显露***，睾丸无明显异常.

3)完善相关检查，积极术前准备，于20XX-XX-XX日在静脉麻醉下行***环切术，术中证实为***明确，环切***后间断缝合，无菌敷料包扎固定,手术顺利。

4)出院诊断：***.

5)者无发热，无腰腹部疼痛，大小便正常，食欲及入眠可。查体：神志清，精神可。心肺腹无异常。***部切口敷料清洁，切口无红肿及渗出液，已换药。

进一步的，步骤(2)中BERT建模的步骤为：

(2-1)将文本d_i按照字典中的索引将d_i中的每个文字转换成字典中的一个索引数字，完成d_i的索引化。

(2-2)将BERT语言模型中的[CLS]和[SEP]添加到索引化的d_i中，将添加后的索引化的d_i输入到BERT模型中，所需形式为：[CLS]+索引化的d_i+[SEP]，并输入到BERT模型内。

(2-3)BERT模型会在[CLS]这个特殊索引的位置输出一个向量，用来表示输入到BERT模型整段文本的隐含语义向量，通过公式

得到电子病历文本中d_i的向量表达，该向量表达的维度为

为实数空间。

进一步的，步骤(3)中计算D中每个句子的得分

的步骤为：

(3-1)通过公式

计算得到D中每个句子的得分

(3-2)用

的值替换Q中的值后重复步骤c-1)直到

与Q相等，也就是说

的值收敛了。

进一步的，步骤(6)中，通过公式

计算损失函数为L，式中max函数表示求最大元素，

为S的向量表达，

的维度为

BERT(g_n)[CLS]为g_n的向量表达，λ为超参数，λ＝0.05。实施该步骤时，优化器选用Adam，学习率被设置为5e-5，通过40小时训练损失函数收敛并得到BERT模型的参数，获取到自动抽取式摘要的BERT模型参数。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电子病历文本摘要抽取方法，其特征在于，包括如下步骤：

使用该模型获取电子病历文本中d_i的向量表达

c)通过公式

句子权重向量Q中的所有初始值均为

计算得到D中每个句子的得分

d)对得分

内的值按照从大到小进行排序，排序后取前|C|个最大的值对应的句子索引作为抽取式摘要的候选集并从向量化表达矩阵D取出这些句子索引所对应的向量，其中在模型训练阶段|C|＝|S|×2，0＜|C|＜|D|，|C|为正整数，C为候选集，C＝{c_i＝1,c_i＝2,...,c_i＝|C|}，c_i为候选集中的一个句子的向量表达；

e)枚举所有从候选集C中取出|S|个向量的所有组合，通过公式