CN117688927B

CN117688927B - 病历章节重配置方法、***、终端及存储介质

Info

Publication number: CN117688927B
Application number: CN202410145758.8A
Authority: CN
Inventors: 王兵卡; 马杰; 金剑; 邓小宁
Original assignee: North Health Medical Big Data Technology Co ltd
Current assignee: North Health Medical Big Data Technology Co ltd
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-04-30
Anticipated expiration: 2044-02-02
Also published as: CN117688927A

Abstract

本发明属于数据处理技术领域，具体提供一种病历章节重配置方法、***、终端及存储介质，包括：对电子病历进行文字识别，并将文字识别内容按照段落进行分割，得到多个段落；利用关键词提取技术从段落中提取关键词，并基于关键词在段落中的位置为关键词生成权重；计算段落的关键词与预设的多个章节的关键词组的加权相似度；筛选出相似度最高的章节作为段落所属章节，并将所属章节相同的相邻段落组合为同一章节的章节内容；基于需要配置的章节和章节顺序，调取相应章节内容并将相应章节内容按照所述章节顺序排列，得到重配置病历。本发明实现了病历的整合和有效分析，能够满足多种查询需求。

Description

病历章节重配置方法、***、终端及存储介质

技术领域

本发明属于数据处理技术领域，具体涉及一种病历章节重配置方法、***、终端及存储介质。

背景技术

在整理海量病历文书时，由于病历文书的格式不统一，数据之间的关联性较低，难以对病历文书中的信息进行整合和有效分析。此外，在查询病历数据时，只能输出整篇病历文书，不利于病历数据的有效利用。

发明内容

针对现有技术存在的问题，本发明提供一种病历章节重配置方法、***、终端及存储介质，以解决上述技术问题。

第一方面，本发明提供一种病历章节重配置方法，包括：

对电子病历进行文字识别，并将文字识别内容按照段落进行分割，得到多个段落；

利用关键词提取技术从段落中提取关键词，并基于关键词在段落中的位置为关键词生成权重；

计算段落的关键词与预设的多个章节的关键词组的加权相似度；

筛选出相似度最高的章节作为段落所属章节，并将所属章节相同的相邻段落组合为同一章节的章节内容；

基于需要配置的章节和章节顺序，调取相应章节内容并将相应章节内容按照所述章节顺序排列，得到重配置病历。

在一个可选的实施方式中，利用关键词提取技术从段落中提取关键词，并基于关键词在段落中的位置为关键词生成权重，包括：

根据段落中的字符在段落中的排列顺序依次为字符生成从小到大的序号；

获取最大序号；

获取关键词的序号，并计算关键词的序号的中间值；

关键词权重的计算公式为：；

其中，Q为关键词的权重，为关键词的序号的中间值，/>为最大序号。

在一个可选的实施方式中，计算段落的关键词与预设的多个章节的关键词组的加权相似度，包括：

预先在数据库中存储多个章节的名称及每个章节名称对应的关键词组；

计算段落的关键词与章节的关键词组中关键词的欧式距离，并筛选出最短欧式距离；

汇总段落的所有关键词与章节的关键词组的最短欧式距离，并将最短欧式距离转换为分词相似度；

基于段落的所有关键词的权重，计算段落的所有关键词的分词相似度的加权和，得到段落与章节的相似度。

在一个可选的实施方式中，筛选出相似度最高的章节作为段落所属章节，并将所属章节相同的相邻段落组合为同一章节的章节内容，包括：

基于段落在整体文档中的位置，依次为段落生成段号；

将所属章节相同且段号相邻的段落合并为同章节内容；

筛选出间隔段落，所述间隔段落的前一位段落与间隔段落的后一位段落均属于第一章节；

判断间隔段落与所属的第二章节的相似度是否超过设定的第一阈值：

若是，则判定所述间隔段落属于第二章节；

若否，则获取所述间隔段落与第一章节的关键词的相似度，若所述相似度达到设定的第二阈值，则判定所述间隔段落属于第一章节。

第二方面，本发明提供一种病历章节重配置***，包括：

文字识别模块，用于对电子病历进行文字识别，并将文字识别内容按照段落进行分割，得到多个段落；

特征提取模块，用于利用关键词提取技术从段落中提取关键词，并基于关键词在段落中的位置为关键词生成权重；

章节匹配模块，用于计算段落的关键词与预设的多个章节的关键词组的加权相似度；

内容组合模块，用于筛选出相似度最高的章节作为段落所属章节，并将所属章节相同的相邻段落组合为同一章节的章节内容；

章节配置模块，用于基于需要配置的章节和章节顺序，调取相应章节内容并将相应章节内容按照所述章节顺序排列，得到重配置病历。

在一个可选的实施方式中，所述特征提取模块包括：

获取最大序号；

获取关键词的序号，并计算关键词的序号的中间值；

关键词权重的计算公式为：；

在一个可选的实施方式中，所述章节匹配模块包括：

标准存储单元，用于预先在数据库中存储多个章节的名称及每个章节名称对应的关键词组；

距离计算单元，用于计算段落的关键词与章节的关键词组中关键词的欧式距离，并筛选出最短欧式距离；

距离转换单元，用于汇总段落的所有关键词与章节的关键词组的最短欧式距离，并将最短欧式距离转换为分词相似度；

加权计算单元，用于基于段落的所有关键词的权重，计算段落的所有关键词的分词相似度的加权和，得到段落与章节的相似度。

在一个可选的实施方式中，所述内容组合模块包括：

段号生成单元，用于基于段落在整体文档中的位置，依次为段落生成段号；

段落合并单元，用于将所属章节相同且段号相邻的段落合并为同章节内容；

目标筛选单元，用于筛选出间隔段落，所述间隔段落的前一位段落与间隔段落的后一位段落均属于第一章节；

阈值判断单元，用于判断间隔段落与所属的第二章节的相似度是否超过设定的第一阈值；

第一判定单元，用于若间隔段落与所属的第二章节的相似度超过设定的第一阈值，则判定所述间隔段落属于第二章节；

第二判定单元，用于若间隔段落与所属的第二章节的相似度未超过设定的第一阈值，则获取所述间隔段落与第一章节的关键词的相似度，若所述相似度达到设定的第二阈值，则判定所述间隔段落属于第一章节。

第三方面，提供一种终端，包括：

处理器、存储器，其中，

该存储器用于存储计算机程序，

该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述的终端的方法。

第四方面，提供了一种计算机存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明的有益效果在于，本发明提供的病历章节重配置方法、***、终端及存储介质，基于文字识别技术对病历进行段落划分，进一步对段落进行关键词提取和关键词匹配，从而为段落匹配章节，基于段落所属的章节对段落进行整合，从而实现对病历的快速拆解，拆解后的内容基于配置需求进行组合，从而实现病历的整合和有效分析，能够满足多种查询需求。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的***的示意性框图。

图3为本发明实施例提供的一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

图1是本发明一个实施例的方法的示意性流程图。其中，图1执行主体可以为一种病历章节重配置***。根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

如图1所示，该方法包括：

步骤110，对电子病历进行文字识别，并将文字识别内容按照段落进行分割，得到多个段落；

步骤120，利用关键词提取技术从段落中提取关键词，并基于关键词在段落中的位置为关键词生成权重；

步骤130，计算段落的关键词与预设的多个章节的关键词组的加权相似度；

步骤140，筛选出相似度最高的章节作为段落所属章节，并将所属章节相同的相邻段落组合为同一章节的章节内容；

步骤150，基于需要配置的章节和章节顺序，调取相应章节内容并将相应章节内容按照所述章节顺序排列，得到重配置病历。

为了便于对本发明的理解，下面以本发明病历章节重配置方法的原理，结合实施例中对病历章节进行重配置的过程，对本发明提供的病历章节重配置方法做进一步的描述。

具体的，所述病历章节重配置方法包括：

S1、对电子病历进行文字识别，并将文字识别内容按照段落进行分割，得到多个段落。

计算经过清晰度分析处理的图像的全部轮廓的外接矩形，根据字体轮廓的长和宽，设置外接矩形的尺寸阈值。自适应二值化后的图像的全部轮廓的位置已提取出来，图像的全部轮廓的位置包括字体轮廓的位置和字体轮廓外接矩形的位置，因此字体轮廓的位置和字体轮廓外接矩形的位置也提取出来。

获取每行的外接矩形总长度，计算所有行的外接矩形的平均长度，将外接矩形长度小于平均长度的行标记为段落起始行，基于段落起始行的位置将图片分割为多个段落的区域图片。

利用OCR识别引擎识别区域图片上的文字，即可得到段落内容。

S2、利用关键词提取技术从段落中提取关键词，并基于关键词在段落中的位置为关键词生成权重。

利用TextRank算法从段落中抽取关键词，TextRank算法是一种基于图的用于关键词抽取和文档摘要的排序算法，由网页重要性排序算法PageRank算法改进而来，它利用一篇文档内部的字/词间的共现信息(语义)便可以抽取关键词，它能够从一个给定的文档中抽取出该文档的关键词、关键词组，并使用抽取式的自动文摘方法抽取出该文本的关键句。

根据段落中的字符在段落中的排列顺序依次为字符生成从小到大的序号；获取最大序号；获取关键词的序号，并计算关键词的序号的中间值；

关键词权重的计算公式为：；

S3、计算段落的关键词与预设的多个章节的关键词组的加权相似度。

预先在数据库中存储多个章节的名称及每个章节名称对应的关键词组；设置章节名称及关键词组的方法包括：

基于病历文书类型和文档名称，基于名称语义匹配，自动对病历文书进行文档类性标准化对照；从每种类型的病历文书，按照文本长度、文本章节数量等特征标识，进行典型病历数据采样。提取典型病历数据的各章节的章节内容的关键词，将出现次数超过设定的次数阈值的关键词设置为章节的关键词，将章节的所有关键词保存为章节的关键词组。

计算段落的关键词与章节的关键词组中关键词的欧式距离，并筛选出最短欧式距离；汇总段落的所有关键词与章节的关键词组的最短欧式距离，并将最短欧式距离转换为分词相似度；基于段落的所有关键词的权重，计算段落的所有关键词的分词相似度的加权和，得到段落与章节的相似度。

以计算段落1和章节1的相似度为例，段落1保护关键词1和关键词2，关键词1的权重为Q1，关键词2的权重为Q2，章节1的关键词组包括关键词a和关键词b，先分别计算关键词1与关键词a的欧式距离L1，关键词1和关键词b的欧式距离L2，若L1＜L2，则认为关键词1与关键词组的欧式距离为L1，同理计算关键词2与关键词组的欧式距离L3。分别将L1和L3转换为相似度k1,k2，计算段落1和章节1的相似度为K=k1×Q1+k2×Q2；以此类推，计算段落与其他章节的相似度。

S4、筛选出相似度最高的章节作为段落所属章节，并将所属章节相同的相邻段落组合为同一章节的章节内容。

基于段落在整体文档中的位置，依次为段落生成段号；将所属章节相同且段号相邻的段落合并为同章节内容。例如第二段与第三段所属的章节相同，则将第二段与第三段合并。

筛选出间隔段落，间隔段落的前一位段落与间隔段落的后一位段落均属于第一章节；例如第三段与第五段所属的章节相同，第四段与第三段和第五段所属的章节不同，则第四段为间隔段落。

判断间隔段落与所属的第二章节的相似度是否超过设定的第一阈值，例如第一阈值为95%。若间隔段落与所属的第二章节的相似度超过设定的第一阈值，则判定间隔段落属于第二章节。

若间隔段落与所属的第二章节的相似度未超过设定的第一阈值，则获取间隔段落与第一章节的关键词的相似度，若相似度达到设定的第二阈值，则判定间隔段落属于第一章节；若相似度未达到设定的第二阈值，则将该间隔段落发送至人工处理终端，进行人工判断。

通过对间隔段落进行二次筛查处理，提升章节拆分的准确度，降低识别错误率。

S5、基于需要配置的章节和章节顺序，调取相应章节内容并将相应章节内容按照所述章节顺序排列，得到重配置病历。

例如接收到查询请求，查询请求仅保护小部分的关键章节并限制了章节顺序，调取到目标章节内容后对其进行排序，从而得到需要的病历。该种方法实现了病历文件的规范化，利于病历信息的有效整合分析。

在一些实施例中，所述病历章节重配置***可以包括多个由计算机程序段所组成的功能模块。所述病历章节重配置***中的各个程序段的计算机程序可以存储于计算机设备的存储器中，并由至少一个处理器所执行，以执行（详见图1描述）病历章节重配置的功能。

本实施例中，所述病历章节重配置***根据其所执行的功能，可以被划分为多个功能模块，如图2所示。***200的功能模块可以包括：文字识别模块210、特征提前模块220、章节匹配模块230、内容组合模块240和章节配置模块250。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

可选地，作为本发明一个实施例，特征提取模块包括：

获取最大序号；

获取关键词的序号，并计算关键词的序号的中间值；

关键词权重的计算公式为：；

可选地，作为本发明一个实施例，章节匹配模块包括：

可选地，作为本发明一个实施例，内容组合模块包括：

图3为本发明实施例提供的一种终端300的结构示意图，该终端300可以用于执行本发明实施例提供的病历章节重配置方法。

其中，该终端300可以包括：处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，该存储器320可以用于存储处理器310的执行指令，存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。当存储器320中的执行指令由处理器310执行时，使得终端300能够执行以下上述方法实施例中的部分或全部步骤。

处理器310为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit，简称IC) 组成，例如可以由单颗封装的IC 所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器310可以仅包括中央处理器(Central Processing Unit，简称CPU)。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

通信单元330，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体（英文：read-only memory，简称：ROM）或随机存储记忆体（英文：random access memory，简称：RAM）等。

因此，本发明通过基于文字识别技术对病历进行段落划分，进一步对段落进行关键词提取和关键词匹配，从而为段落匹配章节，基于段落所属的章节对段落进行整合，从而实现对病历的快速拆解，拆解后的内容基于配置需求进行组合，从而实现病历的整合和有效分析，能够满足多种查询需求，本实施例所能达到的技术效果可以参见上文中的描述，此处不再赘述。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端（可以是个人计算机，服务器，或者第二终端、网络终端等）执行本发明各个实施例所述方法的全部或部分步骤。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

在本发明所提供的几个实施例中，应该理解到，所揭露的***和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，***或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

Claims

1.一种病历章节重配置方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，利用关键词提取技术从段落中提取关键词，并基于关键词在段落中的位置为关键词生成权重，包括：

获取最大序号；

获取关键词的序号，并计算关键词的序号的中间值；

关键词权重的计算公式为：；

3.根据权利要求2所述的方法，其特征在于，计算段落的关键词与预设的多个章节的关键词组的加权相似度，包括：

4.根据权利要求1所述的方法，其特征在于，筛选出相似度最高的章节作为段落所属章节，并将所属章节相同的相邻段落组合为同一章节的章节内容，包括：

基于段落在整体文档中的位置，依次为段落生成段号；

将所属章节相同且段号相邻的段落合并为同章节内容；

若是，则判定所述间隔段落属于第二章节；

5.一种病历章节重配置***，其特征在于，包括：

6.根据权利要求5所述的***，其特征在于，所述特征提取模块包括：

获取最大序号；

获取关键词的序号，并计算关键词的序号的中间值；

关键词权重的计算公式为：；

7.根据权利要求6所述的***，其特征在于，所述章节匹配模块包括：

8.根据权利要求5所述的***，其特征在于，所述内容组合模块包括：

9.一种终端，其特征在于，包括：

存储器，用于存储病历章节重配置程序；

处理器，用于执行所述病历章节重配置程序时实现如权利要求1-4任一项所述病历章节重配置方法的步骤。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述可读存储介质上存储有病历章节重配置程序，所述病历章节重配置程序被处理器执行时实现如权利要求1-4任一项所述病历章节重配置方法的步骤。