CN109817339B

CN109817339B - 基于大数据的患者分组方法和装置

Info

Publication number: CN109817339B
Application number: CN201811536823.0A
Authority: CN
Inventors: 李濠辰
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Ping An Medical and Healthcare Management Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2023-07-04
Anticipated expiration: 2038-12-14
Also published as: CN109817339A

Abstract

本发明公开了一种基于大数据的患者分组方法和装置。该基于大数据的患者分组方法包括：在病案首页中提取至少两种目标患者特征；对至少两种目标患者特征进行相似度量学习，得到对应的度量矩阵；基于对应的度量矩阵对病案首页进行诊断相关分组，得到患者分组结果。采用该基于大数据的患者分组方法能够提高患者分组的准确性。

Description

基于大数据的患者分组方法和装置

【技术领域】

本发明涉及大数据处理领域，尤其涉及一种基于大数据的患者分组方法和装置。

【背景技术】

DRGs(Diagnosis Related Groups，诊断相关分类)的基本目标是基于病例的诊断、操作和其他特征将患者进行分组。目前常用的分组方法利用已有分组规则，例如主要疾病分类(Major Diagnostic Category,MDC)、主要并发症与合并症(Major Complicationand Comorbidity,MCC)等来进行分组。这类方法的分组规则基于现有知识，容易理解和解释，但仍存在分组准确性不高的问题。

【发明内容】

有鉴于此，本发明实施例提供了一种基于大数据的患者分组方法和装置，用以解决目前患者分组的准确性不够高的问题。

第一方面，本发明实施例提供了一种基于大数据的患者分组方法，包括：

在病案首页中提取至少两种目标患者特征；

对至少两种所述目标患者特征进行相似度量学习，得到对应的度量矩阵；

基于所述对应的度量矩阵对所述病案首页进行诊断相关分组，得到患者分组结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述在病案首页中提取至少两种目标患者特征，包括：

获取所述病案首页中的患者特征；

采用特征选择方法从所述病案首页中的患者特征中提取至少两种所述目标患者特征。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对至少两种所述目标患者特征进行相似度量学习，得到对应的度量矩阵，包括：

采用马氏距离作为距离度量，其中，马氏距离D(Xi，Xj)的表达式为

X_i表示训练样本集中第i个目标患者特征，X_j表示训练样本集中第j个目标患者特征，T表示矩阵转置运算，S表示训练样本集的协方差矩阵；

根据所述距离度量，采用有监督的距离度量学习方式对至少两种所述目标患者特征进行相似度量学习，得到所述对应的度量矩阵。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述基于所述对应的度量矩阵对所述病案首页进行诊断相关分组，得到患者分组结果，包括：

采用聚类算法，基于所述对应的度量矩阵将所述目标患者特征进行划分，得到至少两个与所述目标患者特征相关的特征簇；

根据至少两个所述特征簇对所述病案首页进行诊断相关分组，得到所述患者分组结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，在所述得到患者分组结果的步骤之后，所述方法还包括：

根据所述患者分组结果进行规则挖掘，得到与所述目标患者特征之间相关的分组规则；

采用所述分组规则对待进行患者分组的病案首页进行诊断相关分组，得到基于所述分组规则的所述患者分组结果。

上述技术方案中的一个技术方案具有如下有益效果：

本发明实施例中，在病案首页中提取至少两种目标患者特征可以在数量众多的患者特征中提取出具有一定代表性的能够区分患者的目标患者特征，有助于提高患者分组的准确性及效率。对至少两种目标患者特征进行相似度量学习，得到的对应的度量矩阵可用于衡量不同的目标患者特征之间的特征差异，有助于扩大评价目标患者特征之间的差异性以及相似性的度量，并且，可以在进行患者分组时有效地防止过拟合的问题，使得目标患者特征的分组更加精确。在得到对应的度量矩阵后对病案首页进行诊断相关分组，建立患者相似性分组模型，得到患者分组结果，该患者分组结果是基于目标患者特征对应的度量矩阵得到的，能够将病案首页中与目标患者特征相似的样本变得更加紧凑，与目标患者特征差异大的样本分布变得更加松散，使得患者分组结果更加精确。

第二方面，本发明实施例提供了一种基于大数据的患者分组装置，包括：

目标患者特征提取模块，用于在病案首页中提取至少两种目标患者特征；

度量矩阵获取模块，用于对至少两种所述目标患者特征进行相似度量学习，得到对应的度量矩阵；

患者分组结果获取模块，用于基于所述对应的度量矩阵对所述病案首页进行诊断相关分组，得到患者分组结果。

第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于大数据的患者分组方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，包括：计算机程序，当所述计算机程序被运行时，用以执行第一方面任一项所述的基于大数据的患者分组方法。

上述技术方案中的一个技术方案具有如下有益效果：

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一实施例中基于大数据的患者分组方法的一流程图；

图2是本发明一实施例中基于大数据的患者分组装置的一示意图；

图3是本发明一实施例中计算机设备的一示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1示出本实施例中基于大数据的患者分组方法的一流程图。该基于大数据的患者分组方法可应用在患者分组***或平台中，用于实现将患者进行分组的功能，具体可应用在安装在计算机设备上的***中。其中，该计算机设备是可与用户进行人机交互的设备，包括但不限于电脑、智能手机和平板等设备。如图1所示，该基于大数据的患者分组方法包括如下步骤：

S10：在病案首页中提取至少两种目标患者特征。

可以理解地，患者的病案首页中包括有大量的患者特征，但实际上并不是所有的患者特征都可用于区分患者，对于可用于区分患者特征的即目标患者特征。目标患者特征具体可以是年龄、性别、住院天数、临床诊断、病症、手术、疾病严重程度和费用等，例如，目标患者特征为临床诊断时，可以通过临床诊断的结果来区分患者，目标患者特征为费用时，可以通过费用的高低看出患者在疾病治疗上所需要耗费的医疗资源，若耗费的医疗资源相近，则可以将患者分为同一组别，例如重疾险的费用都是比较高的，可以将费用较高的一类分为同一组别，将患者区分开来。在病案首页中提取至少两种目标患者特征可以在数量众多的患者特征中提取出具有一定代表性的能够区分患者的目标患者特征，有助于提高患者分组的准确性及效率。

S20：对至少两种目标患者特征进行相似度量学习，得到对应的度量矩阵。

其中，相似性度量学习是指利用给定的训练样本集(这里具体是指由至少两个目标患者特征组成的训练样本集)学习得到一个能够有效反映数据样本间距离(或相似度)的度量矩阵,使在基于度量矩阵的新特征空间中，目标(如费用)相似的样本分布更加紧凑,而目标差异大的样本分布更加松散。

在一实施例中，对至少两种目标患者特征进行相似度量学习，得到对应的度量矩阵，该与目标患者特征对应的度量矩阵可用于衡量不同的目标患者特征之间的特征差异，有助于扩大评价目标患者特征之间的差异性以及相似性的度量，并且，可以在进行患者分组(建立患者相似性分组模型)时有效地防止过拟合的问题，使得目标患者特征的分组更加精确。

S30：基于对应的度量矩阵对病案首页进行诊断相关分组，得到患者分组结果。

其中，诊断相关分组(Diagnosis Related Groups，DRGs)根据病人的年龄、性别、住院天数、临床诊断、病症、手术、疾病严重程度，合并症与并发症及转归等因素把病人分入诊断相关组，然后决定应该给医院多少补偿。诊断相关分组的基本目标是基于病例的诊断、操作和其他特征将患者进行分组。

在一实施例中，在得到对应的度量矩阵后对病案首页进行诊断相关分组，建立患者相似性分组模型，得到患者分组结果，该患者分组结果是基于目标患者特征对应的度量矩阵得到的，能够将病案首页中与目标患者特征相似的样本变得更加紧凑，与目标患者特征差异大的样本分布变得更加松散，使得患者分组结果更加精确。

在一实施例中，步骤S10中，在病案首页中提取至少两种目标患者特征，具体包括如下步骤：

S11：获取病案首页中的患者特征。

在一实施例中，首先可以采用文字识别工具、分词工具和关键词提取工具获取病案首页中的患者特征，这里的患者特征是初始获取的特征，并不是所有的患者特征都可用于区分患者，因此，需要从病案首页中的患者特征中提取可用于区分患者的目标患者特征。

S12：采用特征选择方法从病案首页中的患者特征中提取至少两种目标患者特征。

其中，特征选择方法包括但不限于过滤式(filter)特征选择、封装式(wrapper)特征选择和嵌入式(embedded)特征选择方法。其中，以过滤式特征选择方法为例，过滤式特征选择方法从病案首页中的患者特征中进行特征筛选得到患者特征子集，并在经过评价函数评价后可以确定出目标患者特征。其中，评价函数是根据评价准则进行设置的，评价准则可以包括距离度量(Distance Measure)、信息增益度量(Information Gain Measure)、依赖性度量(Dependence Measure)、一致性度量(Consistency Measure)和分类器错误率度量(Classifier Error Rate Measure)等评价准则，具体地，本提案可以采用依赖性度量的评价准则来确定患者目标特征。采用依赖性度量的评价准则有助于排除患者特征之间相关性的干扰，提高患者分组的准确性。

在一实施例中，步骤S20中，对至少两种目标患者特征进行相似度量学习，得到对应的度量矩阵，具体包括如下步骤：

S21：采用马氏距离作为距离度量，其中，马氏距离D(Xi，Xj)的表达式为

X_i表示训练样本集中第i个目标患者特征，X_j表示训练样本集中第j个目标患者特征，T表示矩阵转置运算，S表示训练样本集的协方差矩阵。

其中，马氏距离是一种有效的计算两个未知样本集的相似度的方法。马氏距离与量纲无关，能够自动调整各个特征的重要性，以排除特征之间相关性的干扰。由于目标患者特征之间存在目标患者特征之间相关性的干扰，对于区分病案首页的目标患者特征显著的效果，能够提高患者分组的准确性。

S22：根据距离度量，采用有监督的距离度量学习方式对至少两种目标患者特征进行相似度量学习，得到对应的度量矩阵。

在一实施例中，有监督的距离度量学习算法的可以是利用由至少两个目标患者特征组成的训练样本集的样本信息,通过优化由依赖性度量的评价准则所设立的目标函数,计算得到目标函数的最优解，从而得到一个能有效反映样本空间关系的与目标患者特征对应的度量矩阵。采用有监督的距离度量学习方式对至少两种目标患者特征进行相似度量学习，得到的与目标患者特征对应的度量矩阵能够将依赖性度量的评价准则以及马氏距离作为距离度量的优点进一步地呈现出来，能够有效排除患者特征之间相关性的干扰，有助于扩大评价目标患者特征之间的差异性以及相似性的度量，并且，可以在进行患者分组时有效地防止过拟合的问题，使得目标患者特征的分组更加精确。

在一实施例中，步骤S30中，基于对应的度量矩阵对病案首页进行诊断相关分组，得到患者分组结果，具体包括如下步骤：

S311：采用聚类算法，基于对应的度量矩阵将目标患者特征进行划分，得到至少两个与目标患者特征相关的特征簇。

其中，特征簇即采用聚类算法对患者目标特征聚类后形成的分组。

在一实施例中，在通过相似性度量学习得到度量矩阵后，采用大数据分析技术中的聚类方法来对目标患者特征进行划分，使得距离相近(即目标患者特征相似)的病案首页聚为一特征簇，距离较远的病案首页分在不同的特征簇。采用聚类方法和度量学习方法进行的结合，能够在聚类时充分考虑特征之间的相关性，从而减少过度拟合的发生。

具体地，本提案中采用的聚类方法包括但不限于K-means算法、层次聚类方法、基于深度神经网络的聚类方法等来实现基于大数据的患者分组。

S312：根据至少两个特征簇对病案首页进行诊断相关分组，得到患者分组结果。

在一实施例中，根据至少两个特征簇对病案首页进行诊断相关分组，得到患者分组结果，采用该方式得到的患者分组结果代表的分别是不同目标患者特征下的病案首页的集合。可以理解地，特征簇充分考虑特征之间的相关性，已将距离相近(即目标患者特征相似)的病案首页聚为一特征簇，距离较远的病案首页分在不同的特征簇，根据该特征簇可进行诊断相关分组，并根据诊断相关分组相应地得到患者分组结果。

在一实施例中，在步骤S30之后，即在步骤基于对应的度量矩阵对病案首页进行诊断相关分组，得到患者分组结果之后，具体包括如下步骤：

S321：根据患者分组结果进行规则挖掘，得到与目标患者特征之间相关的分组规则。

S322：采用分组规则对待进行患者分组的病案首页进行诊断相关分组，得到基于分组规则的患者分组结果。

步骤S321-S322中，采用了子群规则挖掘的方法，可以根据聚类好的病案首页的特征簇反向推导目标患者特征之间的相关性，挖掘出分组规则。以再进行病案首页分类时直接根据挖掘出的分组规则对待进行患者分组的病案首页进行患者分组，而不必每次都重新执行S10-S30的步骤，在保证患者分组准确性的前提下，能够显著提高患者分组的效率。

本发明实施例的技术方案具有以下有益效果：

本发明实施例中，在病案首页中提取至少两种目标患者特征可以在数量众多的患者特征中提取出具有一定代表性的能够区分患者的目标患者特征，有助于提高患者分组的准确性及效率。对至少两种目标患者特征进行相似度量学习，得到的对应的度量矩阵可用于衡量不同的目标患者特征之间的特征差异，能够有效排除特征之间相关性的干扰。有助于扩大评价目标患者特征之间的差异性以及相似性的度量，并且，可以在进行患者分组时有效地防止过拟合的问题，使得目标患者特征的分组更加精确。在得到对应的度量矩阵后对病案首页进行诊断相关分组，建立患者相似性分组模型，得到患者分组结果，该患者分组结果是基于目标患者特征对应的度量矩阵得到的，能够将病案首页中与目标患者特征相似的样本变得更加紧凑，与目标患者特征差异大的样本分布变得更加松散。通过目标患者特征选择、相似性度量学习、患者聚类和分组规则挖掘等大数据分析方法，建立患者相似性分组模型，使得患者分组结果更加精确。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

基于实施例中所提供的基于大数据的患者分组方法，本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

图2示出与实施例中基于大数据的患者分组方法一一对应的基于大数据的患者分组装置的原理框图。如图2所示，该基于大数据的患者分组装置包括目标患者特征提取模块10、度量矩阵获取模块20和患者分组结果获取模块30。其中，目标患者特征提取模块10、度量矩阵获取模块20和患者分组结果获取模块30的实现功能与实施例中基于大数据的患者分组方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

目标患者特征提取模块10，用于在病案首页中提取至少两种目标患者特征。

度量矩阵获取模块20，用于对至少两种目标患者特征进行相似度量学习，得到对应的度量矩阵。

患者分组结果获取模块30，用于基于对应的度量矩阵对病案首页进行诊断相关分组，得到患者分组结果。

优选地，目标患者特征提取模块10包括患者特征获取单元和目标患者特征提取单元。

患者特征获取单元，用于获取病案首页中的患者特征。

目标患者特征提取单元，用于采用特征选择方法从病案首页中的患者特征中提取至少两种目标患者特征。

优选地，度量矩阵获取模块20包括距离度量确定单元和度量矩阵获取单元。

距离度量确定单元，用于采用马氏距离作为距离度量，其中，马氏距离D(Xi，Xj)的表达式为

度量矩阵获取单元，用于根据距离度量，采用有监督的距离度量学习方式对至少两种目标患者特征进行相似度量学习，得到度量矩阵。

优选地，患者分组结果获取模块30包括特征簇获取单元和第一分组结果获取单元。

特征簇获取单元，用于采用聚类算法，基于对应的度量矩阵将目标患者特征进行划分，得到至少两个与目标患者特征相关的特征簇。

第一分组结果获取单元，用于根据至少两个特征簇对病案首页进行诊断相关分组，得到患者分组结果。

优选地，基于大数据的患者分组装置还包括分组规则获取单元和第二分组结果获取单元。

分组规则获取单元，用于根据患者分组结果进行规则挖掘，得到与目标患者特征之间相关的分组规则。

第二分组结果获取单元，用于采用分组规则对待进行患者分组的病案首页进行诊断相关分组，得到基于分组规则的患者分组结果。

由于本实施例中的各单元能够执行实施例中所示的基于大数据的患者分组方法，本实施例未详细描述的部分，可参考对实施例中基于大数据的患者分组方法的相关说明。

本发明实施例的技术方案具有以下有益效果：

本发明实施例中，在病案首页中提取至少两种目标患者特征可以在数量众多的患者特征中提取出具有一定代表性的能够区分患者的目标患者特征，有助于提高患者分组的准确性及效率。对至少两种目标患者特征进行相似度量学习，得到的对应的度量矩阵可用于衡量不同的目标患者特征之间的特征差异，有助于扩大评价目标患者特征之间的差异性以及相似性的度量，并且，可以在进行患者分组时有效地防止过拟合的问题，使得目标患者特征的分组更加精确。在得到对应的度量矩阵后对病案首页进行诊断相关分组，建立患者相似性分组模型，得到患者分组结果，该患者分组结果是基于目标患者特征对应的度量矩阵得到的，能够将病案首页中与目标患者特征相似的样本变得更加紧凑，与目标患者特征差异大的样本分布变得更加松散。通过目标患者特征选择、相似性度量学习、患者聚类和分组规则挖掘等大数据分析方法，建立患者相似性分组模型，使得患者分组结果更加精确。

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例中基于大数据的患者分组方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器执行时实现实施例中基于大数据的患者分组装置中各模块/单元的功能，为避免重复，此处不一一赘述。

图3是本发明一实施例提供的计算机设备的示意图。如图3所示，该实施例的计算机设备40包括：处理器41、存储器42以及存储在存储器42中并可在处理器41上运行的计算机程序43，该计算机程序43被处理器41执行时实现实施例中的基于大数据的患者分组方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器41执行时实现实施例中基于大数据的患者分组装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备40可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器41、存储器42。本领域技术人员可以理解，图3仅仅是计算机设备40的示例，并不构成对计算机设备40的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器41可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器42可以是计算机设备40的内部存储单元，例如计算机设备40的硬盘或内存。存储器42也可以是计算机设备40的外部存储设备，例如计算机设备40上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器42还可以既包括计算机设备40的内部存储单元也包括外部存储设备。存储器42用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器42还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。