CN116796046B

CN116796046B - 基于罕见特征的病例检索方法及装置

Info

Publication number: CN116796046B
Application number: CN202311096421.4A
Authority: CN
Inventors: 于红刚; 姚理文; 王静; 肖冰
Original assignee: Renmin Hospital of Wuhan University
Current assignee: Renmin Hospital of Wuhan University
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-11-10
Anticipated expiration: 2043-08-29
Also published as: CN116796046A

Abstract

本申请提供一种基于罕见特征的病例检索方法及装置，该基于罕见特征的病例检索方法包括：获取目标病例类型的多个第一历史病例；获取多个第一历史病例中每个历史病例特征的出现频数；得到各个第一历史病例的罕见特征集和标准特征集；获取多个第二历史病例，得到各个第二历史病例的罕见特征集和标准特征集；获取待检索病例的待检索病例特征集；将待检索病例特征集与罕见特征集进行匹配，得到多个第一匹配病例；将待检索病例特征集与标准特征集进行匹配，得到多个第二匹配病例；将排序靠前的第一预设数量的第一匹配病例和排序靠前的第二预设数量的第二匹配病例输出。本申请能够提高病例检索准确率。

Description

基于罕见特征的病例检索方法及装置

技术领域

本申请主要涉及大数据技术领域，具体涉及一种基于罕见特征的病例检索方法及装置。

背景技术

在医院的诊疗工作中，虽然大部分患者就诊的原因都是由于常见症状，但仍存在有一些疾病的症状较为罕见。想要正确诊断出这些疾病的病因所占用医疗资源多、难度大、耗时长，甚至可能危及患者生命。例如，提到嗜铬细胞瘤，我们首先想到的典型症状是“阵发或持续性高血压、头痛、心悸、出汗”等，然而在具体的诊断当中，有患者以“发热、右上腹痛、白细胞升高”为主要临床表现，从而被误诊为胆道感染。从而增加了误诊的几率。

现有技术中会采用病例检索的方式从大量的历史病例中获取与待检索病例类似的病例，以辅助医生。但是现有的病例检索方式主要针对一些常见特征进行检索，导致检索准确度不高。

也即，现有技术中病例检索准确率不高。

发明内容

本申请提供一种基于罕见特征的病例检索方法及装置，旨在解决现有技术中病例检索准确率不高的问题。

第一方面，本申请提供一种基于罕见特征的病例检索方法，所述基于罕见特征的病例检索方法包括：

获取目标病例类型的多个第一历史病例；

获取多个第一历史病例中每个历史病例特征的出现频数；

将出现频数大于预设频数的的历史病例特征确定为目标病例类型的罕见特征，将出现频数不大于预设频数的的历史病例特征确定为目标病例类型的标准特征，得到各个第一历史病例的罕见特征集和标准特征集；

获取多个第二历史病例，多个第二历史病例包含至少两种病例类型的病例；

将多个第二历史病例中的每一病例类型的第二历史病例确定为目标病例类型的多个第一历史病例，得到各个第二历史病例的罕见特征集和标准特征集；

获取待检索病例中各个病例特征组成的待检索病例特征集；

将所述待检索病例特征集与各个第二历史病例的罕见特征集进行匹配，得到与待检索病例特征集匹配的多个第一匹配病例；

将所述待检索病例特征集与各个第二历史病例的标准特征集进行匹配，得到与待检索病例特征集匹配的多个第二匹配病例；

将多个第二匹配病例和多个第一匹配病例分别排序，得到排序后的多个第二匹配病例和排序后的多个第一匹配病例；

将排序后的多个第一匹配病例中排序靠前的第一预设数量的第一匹配病例和排序后的多个第二匹配病例中排序靠前的第二预设数量的第二匹配病例输出。

可选地，所述将所述待检索病例特征集与各个第二历史病例的罕见特征集进行匹配，得到与待检索病例特征集匹配的多个第一匹配病例，包括：

将所述待检索病例特征集中的各个病例特征转化为第一病例特征向量，其中，第一病例特征向量中的各个元素为待检索病例特征集中的各个病例特征；

将各个第二历史病例的所述罕见特征集中的各个罕见特征转化为各个第二历史病例的第二病例特征向量，其中，第二病例特征向量中的各个元素为所述罕见特征集中的各个罕见特征；

计算所述第一病例特征向量与各个第二历史病例的第二病例特征向量之间的第一向量相似度，得到各个第二历史病例对应的第一向量相似度；

将第一向量相似度大于第一预设相似度的多个第二历史病例确定为匹配的多个第一匹配病例。

可选地，所述将第一向量相似度大于第一预设相似度的多个第二历史病例确定为匹配的多个第一匹配病例，包括：

根据所述待检索病例特征集中的各个病例特征的特征类别将所述待检索病例特征集中的各个病例特征分为多个第一病例特征集，其中，同一第一病例特征集中的病例特征属于同一特征类别，各个病例特征的特征类别包括病史特征类别、临床表现特征类别、体格检查特征类别、实验室检查特征类别以及影像学检查特征类别；

将多个第一病例特征集分别转化为对应的多个第三病例特征向量；

根据所述罕见特征集中的各个罕见特征的特征类别将所述罕见特征集中的各个病例特征分为多个第二病例特征集，其中，同一第二病例特征集中的病例特征属于同一特征类别；

将多个第二病例特征集分别转化为对应的多个第四病例特征向量；

分别计算属于同一特征类别的所述第三病例特征向量和所述第四病例特征向量之间的第二向量相似度，得到所述罕见特征集中多个特征类别对应的多个第二向量相似度；

获取各个特征类别的预设权重系数；

根据各个特征类别的预设权重系数对多个第二向量相似度进行加权平均，得到所述第二历史病例的所述罕见特征集对应的相似度加权平均值，得到多个所述第二历史病例对应的多个相似度加权平均值；

将第一向量相似度大于第一预设相似度且相似度加权平均值大于第二预设相似度的多个第二历史病例确定为匹配的多个第一匹配病例。

可选地，所述获取各个特征类别的预设权重系数，包括：

将多个第二历史病例和对应的病例类别确定为预设训练集，其中，预设训练集包括多个训练样本和对应的标签，训练样本为第二历史病例，训练样本对应的标签为第二历史病例和对应的病例类别；

基于预设训练集训练预设决策树模型，得到目标决策树模型；

获取各个病例特征在目标决策树模型中的重要性系数；

根据属于目标特征类别的各个病例特征在目标决策树模型中的重要性系数确定目标特征类别的预设权重系数，得到各个特征类别的预设权重系数。

可选地，所述根据属于目标特征类别的各个病例特征在目标决策树模型中的重要性系数确定目标特征类别的预设权重系数，得到各个特征类别的预设权重系数，包括：

将属于目标特征类别的各个病例特征在目标决策树模型中的重要性系数的平均值确定为目标特征类别的预设权重系数，得到各个特征类别的预设权重系数。

可选地，所述将多个第二匹配病例和多个第一匹配病例分别排序，得到排序后的多个第二匹配病例和排序后的多个第一匹配病例，包括：

获取各个第一匹配病例的危险级别；

根据各个第一匹配病例的危险级别从高到低对各个第一匹配病例进行排序，得到排序后的多个第二匹配病例。

可选地，所述将排序后的多个第一匹配病例中排序靠前的第一预设数量的第一匹配病例和排序后的多个第二匹配病例中排序靠前的第二预设数量的第二匹配病例输出，之后，包括：

获取第一预设数量的第一匹配病例中属于各个病例类别的各个第一病例数量值；

获取第二预设数量的第二匹配病例中属于各个病例类别的各个第二病例数量值；

根据预设系数对各个第二病例数量值加权，得到各个第二病例数量值对应的各个第三病例数量值，其中，预设系数大于1；

根据各个病例类别的各个第一病例数量值和各个第二病例数量值对应的各个第三病例数量值确定各个病例类别对应的各个第四病例数量值；

将第四病例数量值最大的病例类别确定为待检索病例的所属病例类别。

第二方面，本申请提供一种基于罕见特征的病例检索装置，所述基于罕见特征的病例检索装置包括：

第一获取单元，用于获取目标病例类型的多个第一历史病例；

第二获取单元，用于获取多个第一历史病例中每个历史病例特征的出现频数；

第一确定单元，用于将出现频数大于预设频数的的历史病例特征确定为目标病例类型的罕见特征，将出现频数不大于预设频数的的历史病例特征确定为目标病例类型的标准特征，得到各个第一历史病例的罕见特征集和标准特征集；

第三获取单元，用于获取多个第二历史病例，多个第二历史病例包含至少两种病例类型的病例；

第二确定单元，用于将多个第二历史病例中的每一病例类型的第二历史病例确定为目标病例类型的多个第一历史病例，得到各个第二历史病例的罕见特征集和标准特征集；

第四获取单元，用于获取待检索病例中各个病例特征组成的待检索病例特征集；

第一匹配单元，用于将所述待检索病例特征集与各个第二历史病例的罕见特征集进行匹配，得到与待检索病例特征集匹配的多个第一匹配病例；

第二匹配单元，用于将所述待检索病例特征集与各个第二历史病例的标准特征集进行匹配，得到与待检索病例特征集匹配的多个第二匹配病例；

排序单元，用于将多个第二匹配病例和多个第一匹配病例分别排序，得到排序后的多个第二匹配病例和排序后的多个第一匹配病例；

输出单元，用于将排序后的多个第一匹配病例中排序靠前的第一预设数量的第一匹配病例和排序后的多个第二匹配病例中排序靠前的第二预设数量的第二匹配病例输出。

第三方面，本申请提供一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现第一方面中任一项所述的基于罕见特征的病例检索方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行第一方面中任一项所述的基于罕见特征的病例检索方法中的步骤。

本申请提供一种基于罕见特征的病例检索方法及装置，该基于罕见特征的病例检索方法包括：获取目标病例类型的多个第一历史病例；获取多个第一历史病例中每个历史病例特征的出现频数；将出现频数大于预设频数的的历史病例特征确定为目标病例类型的罕见特征，将出现频数不大于预设频数的的历史病例特征确定为目标病例类型的标准特征，得到各个第一历史病例的罕见特征集和标准特征集；获取多个第二历史病例，多个第二历史病例包含至少两种病例类型的病例；将多个第二历史病例中的每一病例类型的第二历史病例确定为目标病例类型的多个第一历史病例，得到各个第二历史病例的罕见特征集和标准特征集；获取待检索病例中各个病例特征组成的待检索病例特征集；将待检索病例特征集与各个第二历史病例的罕见特征集进行匹配，得到与待检索病例特征集匹配的多个第一匹配病例；将待检索病例特征集与各个第二历史病例的标准特征集进行匹配，得到与待检索病例特征集匹配的多个第二匹配病例；将多个第二匹配病例和多个第一匹配病例分别排序，得到排序后的多个第二匹配病例和排序后的多个第一匹配病例；将排序后的多个第一匹配病例中排序靠前的第一预设数量的第一匹配病例和排序后的多个第二匹配病例中排序靠前的第二预设数量的第二匹配病例输出。本申请能够提高病例检索准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于罕见特征的病例检索***的场景示意图；

图2是本申请实施例提供的基于罕见特征的病例检索方法一实施例的流程示意图；

图3是本申请实施例中提供的基于罕见特征的病例检索装置的一个实施例结构示意图；

图4是本申请实施例中提供的计算机设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本申请的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

本申请实施例提供一种基于罕见特征的病例检索方法及装置，以下分别进行详细说明。

请参阅图1，图1为本申请实施例所提供的基于罕见特征的病例检索***的场景示意图，该基于罕见特征的病例检索***可以包括计算机设备100，计算机设备100中集成有基于罕见特征的病例检索装置。

本申请实施例中，该计算机设备100可以是独立的服务器，也可以是服务器组成的服务器网络或服务器集群，例如，本申请实施例中所描述的计算机设备100，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。

本申请实施例中，上述的计算机设备100可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中计算机设备100可以是台式机、便携式电脑、网络服务器、掌上电脑（Personal Digital Assistant，PDA）、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备等，本实施例不限定计算机设备100的类型。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是本申请方案的一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的计算机设备，例如图1中仅示出1个计算机设备，可以理解的，该基于罕见特征的病例检索***还可以包括一个或多个可处理数据的其他计算机设备，具体此处不作限定。

另外，如图1所示，该基于罕见特征的病例检索***还可以包括存储器200，用于存储数据。

需要说明的是，图1所示的基于罕见特征的病例检索***的场景示意图仅仅是一个示例，本申请实施例描述的基于罕见特征的病例检索***以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着基于罕见特征的病例检索***的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

首先，本申请实施例中提供一种基于罕见特征的病例检索方法，基于罕见特征的病例检索方法包括：获取目标病例类型的多个第一历史病例；获取多个第一历史病例中每个历史病例特征的出现频数；将出现频数大于预设频数的的历史病例特征确定为目标病例类型的罕见特征，将出现频数不大于预设频数的的历史病例特征确定为目标病例类型的标准特征，得到各个第一历史病例的罕见特征集和标准特征集；获取多个第二历史病例，多个第二历史病例包含至少两种病例类型的病例；将多个第二历史病例中的每一病例类型的第二历史病例确定为目标病例类型的多个第一历史病例，得到各个第二历史病例的罕见特征集和标准特征集；获取待检索病例中各个病例特征组成的待检索病例特征集；将待检索病例特征集与各个第二历史病例的罕见特征集进行匹配，得到与待检索病例特征集匹配的多个第一匹配病例；将待检索病例特征集与各个第二历史病例的标准特征集进行匹配，得到与待检索病例特征集匹配的多个第二匹配病例；将多个第二匹配病例和多个第一匹配病例分别排序，得到排序后的多个第二匹配病例和排序后的多个第一匹配病例；将排序后的多个第一匹配病例中排序靠前的第一预设数量的第一匹配病例和排序后的多个第二匹配病例中排序靠前的第二预设数量的第二匹配病例输出。

如图2所示，图2是本申请实施例中基于罕见特征的病例检索方法的一个实施例流程示意图，该基于罕见特征的病例检索方法包括如下步骤S201~S210：

S201、获取目标病例类型的多个第一历史病例。

本申请实施例中，第一历史病例包括胰腺水肿、胰周渗出、胰腺和（或）胰周组织坏死、杵状指、Velcro啰音等等多个历史病例特征。

目标病例类型可以为第一历史病例对应的疾病类型，当然也可以根据其他因素对历史病例分类。第一历史病例可以为患者历史就医得到的数据。

S202、获取多个第一历史病例中每个历史病例特征的出现频数。

S203、将出现频数大于预设频数的的历史病例特征确定为目标病例类型的罕见特征，将出现频数不大于预设频数的的历史病例特征确定为目标病例类型的标准特征，得到各个第一历史病例的罕见特征集和标准特征集。

其中，预设频数可以为多个第一历史病例的数量的预设比例，预设比例可以为1%，根据具体情况设定即可。根据出现频数将各个历史病例特征区分为目标病例类型的罕见特征和标准特征，即可将各个第一历史病例的历史病例特征分为罕见特征集和标准特征集两个集合。

S204、获取多个第二历史病例，多个第二历史病例包含至少两种病例类型的病例。

第二历史病例可以为患者历史就医得到的数据。

S205、将多个第二历史病例中的每一病例类型的第二历史病例确定为目标病例类型的多个第一历史病例，得到各个第二历史病例的罕见特征集和标准特征集。

将每种类型的多个第二历史病例作为目标病例类型的多个第一历史病例，即可将各个第一历史病例的历史病例特征分为罕见特征集和标准特征集两个集合，从而将各个第二历史病例的历史病例特征分为罕见特征集和标准特征集两个集合。

S206、获取待检索病例中各个病例特征组成的待检索病例特征集。

待检索病例为新患者的病例，待检索病例的所属病例类型无法确认。

S207、将待检索病例特征集与各个第二历史病例的罕见特征集进行匹配，得到与待检索病例特征集匹配的多个第一匹配病例。

在一个体的实施例中，将待检索病例特征集与各个第二历史病例的罕见特征集进行匹配，得到与待检索病例特征集匹配的多个第一匹配病例，包括：

（1）将待检索病例特征集中的各个病例特征转化为第一病例特征向量，其中，第一病例特征向量中的各个元素为待检索病例特征集中的各个病例特征。

（2）将各个第二历史病例的罕见特征集中的各个罕见特征转化为各个第二历史病例的第二病例特征向量，其中，第二病例特征向量中的各个元素为罕见特征集中的各个罕见特征。

（3）计算第一病例特征向量与各个第二历史病例的第二病例特征向量之间的第一向量相似度。

在一个具体的实施例中，第一向量相似度为第一病例特征向量与第二病例特征向量之间的余弦相似度。

（4）将第一向量相似度大于第一预设相似度的第二病例特征向量对应的多个第二历史病例确定为匹配的多个第一匹配病例。

其中，第一预设相似度根据具体情况设定。

进一步的，为了更准确确定匹配的多个第一匹配病例，将第一向量相似度大于第一预设相似度的第二病例特征向量对应的多个第二历史病例确定为匹配的多个第一匹配病例，可以包括：

（1）根据待检索病例特征集中的各个病例特征的特征类别将待检索病例特征集中的各个病例特征分为多个第一病例特征集，其中，同一第一病例特征集中的病例特征属于同一特征类别，各个病例特征的特征类别包括病史特征类别、临床表现特征类别、体格检查特征类别、实验室检查特征类别以及影像学检查特征类别。

在一个具体的实施例中，根据预设特征训练集训练特征分类模型，将待检索病例特征集中的各个病例特征输入特征分类模型，得到各个病例特征的特征类别。预设特征训练集由人工标注。

例如，预设特征训练集中，病例类型为“肠梗阻”，其指南中提及该病例类型多发生于既往有“腹部肿瘤史”、“疝气或疝气修复史”、“炎症性肠病史”、“短期内腹部手术史”的患者中，所以将上述4个病例特征纳入病史特征类别中。

例如，病例类型为“输卵管妊娠”，指南中以“停经”、“腹痛”、“***流血”为主要临床表现，所以将上述3个临床表现纳入临床表现特征类别。

例如，病例类型为“特发性肺纤维化”疾病，指南中说明患者体格检查有“杵状指”、“Velcro啰音”的表现，所以将上述2个体格检查表现纳入体格检查特征类别。

例如，病例类型为“缺铁性贫血”，指南中描述为“Hb、平均红细胞体积 (MCV)、平均红细胞血红蛋白含量 (MCH) 和平均红细胞血红蛋白浓度 (MCHC) 均降低”、“血清铁蛋白<20μg/L”、“血清铁降低、总铁结合力升高及转铁蛋白饱和度降低”、“锌原卟啉水平升高”、“可溶性转铁蛋白受体水平升高”，所以将上述实验室检查结果纳入实验室检查特征类别。

例如，病例类型为“急性胰腺炎”，指南中提到早期典型的影像学表现为“胰腺水肿”、“胰周渗出”、“胰腺和（或）胰周组织坏死”等，所以将上述3个影像学特征纳入影像学检查特征类别。

（2）将多个第一病例特征集分别转化为对应的多个第三病例特征向量。

第三病例特征向量中的元素为第一病例特征集中各个病例特征。

例如，多个第三病例特征向量分别表示实验室检查特征类别的特征和影像学检查特征类别的特征。

（3）根据罕见特征集中的各个罕见特征的特征类别将罕见特征集中的各个病例特征分为多个第二病例特征集，其中，同一第二病例特征集中的病例特征属于同一特征类别。

（4）将多个第二病例特征集分别转化为对应的多个第四病例特征向量。

例如，多个第四病例特征向量分别表示实验室检查特征类别的特征和影像学检查特征类别的特征。

（5）分别计算属于同一特征类别的第三病例特征向量和第四病例特征向量之间的第二向量相似度，得到罕见特征集中多个特征类别对应的多个第二向量相似度。

例如，对于待检索病例特征集和一个第二历史病例的罕见特征集，将属于实验室检查特征类别的第三病例特征向量和第四病例特征向量计算相似度，得到一个第二向量相似度；将属于影像学检查特征类别的第三病例特征向量和第四病例特征向量计算相似度，得到另一个第二向量相似度，从而得到多个特征类别对应的多个第二向量相似度。

（6）获取各个特征类别的预设权重系数。

各个特征类别的预设权重系数可根据具体情况设定，各个特征类别的预设权重系数可以均为1。

（7）根据各个特征类别的预设权重系数对多个第二向量相似度进行加权平均，得到第二历史病例的罕见特征集对应的相似度加权平均值，得到多个第二历史病例对应的多个相似度加权平均值。

例如，将多个特征类别对应的多个第二向量相似度进行加权平均，即可得到待检索病例特征集和一个第二历史病例的罕见特征集之间的相似度加权平均值，对第二历史病例的罕见特征集都与待检索病例特征集匹配，即可得到多个第二历史病例的罕见特征集与待检索病例特征集之间的多个相似度加权平均值，即为多个第二历史病例对应的多个相似度加权平均值。

对各个特征类别赋予权重，可以提高第三病例特征向量和第四病例特征向量之间的第二向量相似度的计算准确性。

（8）将第一向量相似度大于第一预设相似度且相似度加权平均值大于第二预设相似度的第二病例特征向量确定为匹配的多个第一匹配病例。

进一步的，为了更准确地确定各个特征类别的预设权重系数，获取各个特征类别的预设权重系数，可以包括：

（1）将多个第二历史病例和对应的病例类别确定为预设训练集，其中，预设训练集包括多个训练样本和对应的标签，训练样本为第二历史病例，训练样本对应的标签为第二历史病例对应的病例类别。

（2）基于预设训练集训练预设决策树模型，得到目标决策树模型。

决策树模型是使用类似于一棵树的结构来表示类的划分，树的构建可以看成是变量选择的过程，内部节点表示树选择那几个变量作为划分，每棵树的叶节点表示为一个类的标号，树的最顶层为根节点。决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树算法属于有指导的学***均值就是预测结果。

在一个可选地实施例中，预设决策树模型为CART决策树模型（ClassificationAnd Regression Trees）。当然，预设决策树模型也可以是ID3、C4.5等模型。CART决策树又称分类回归树，当数据集的因变量为连续性数值时，该树算法就是一个回归树，可以用叶节点观察的均值作为预测值；当数据集的因变量为离散型数值时，该树算法就是一个分类树，可以很好的解决分类问题。

（3）获取各个病例特征在目标决策树模型中的重要性系数。

本申请实施例中，重要性系数为目标决策树模型的特征重要性评分（feature_importances）。具体而言，在决策树形成过程中，在每一个节点的***过程中需要采用某种策略来从m个特征中选择一个特征作为***属性。为了使得所选的特征为最优***属性，策略可以包括例如使用基于信息增益的ID3算法、基于信息增益比的C4 .5算法以及基于基尼指数(Gini Index)的分枝算法等等。

在一个具体的实施例中，病例特征在目标决策树模型中的重要性系数为病例特征在目标决策树模型中各个叶节点的重要性系数的总和。病例特征在叶节点的重要性系数为叶节点分枝前后的基尼指数变化量。基尼指数(也称为：基尼不纯度(impurity)，基尼不确定性等等)，基尼指数是反应数据不确定性的度量。基尼指数越小则说明该样本集合确定性越好，出错可能性越小，基尼指数越大则说明该样本集合的不确定性越大，出错概率越高。因此，不难理解，如果一个节点(例如节点m)处的样本集合的当前基尼指数与基于所选的客户特征***后的左右两个子节点的样本集合的基尼指数之间的差距越大，则说明病例特征就越重要。

（4）根据属于目标特征类别的各个病例特征在目标决策树模型中的重要性系数确定目标特征类别的预设权重系数，得到各个特征类别的预设权重系数。

具体的，将属于目标特征类别的各个病例特征在目标决策树模型中的重要性系数的平均值确定为目标特征类别的预设权重系数，得到各个特征类别的预设权重系数。

进一步的，基于预设训练集对预设决策树模型进行训练，得到预设训练集中各个病例特征的SHAP值。其中，SHAP（SHapley Additive ExPlanations，沙普利加和解释）属于模型事后解释的方法，它的核心思想是计算特征对模型输出的边际贡献，再从全局和局部两个层面对“黑盒模型”进行解释。SHAP构建一个加性的解释模型，所有的特征都视为“贡献者”。对于每个训练样本，模型都产生一个预测值，SHAP值就是该训练样本中每个样本特征所分配到的数值。基本思想：计算一个样本特征加入到模型时的边际贡献，然后考虑到该样本特征在所有的特征序列的情况下不同的边际贡献，取均值，即某该样本特征的SHAP值。

基于各个病例特征的SHAP值对属于目标特征类别的各个病例特征在目标决策树模型中的重要性系数进行加权平均，得到各个特征类别的预设权重系数。

S208、将待检索病例特征集与各个第二历史病例的标准特征集进行匹配，得到与待检索病例特征集匹配的多个第二匹配病例。

S208可以参考S207，在此不再赘述。

S209、将多个第二匹配病例和多个第一匹配病例分别排序，得到排序后的多个第二匹配病例和排序后的多个第一匹配病例。

具体的，获取各个第一匹配病例的危险级别；根据各个第一匹配病例的危险级别从高到低对各个第一匹配病例进行排序，得到排序后的多个第二匹配病例。获取各个第二匹配病例的危险级别；根据各个第二匹配病例的危险级别从高到低对各个第二匹配病例进行排序，得到排序后的多个第二匹配病例。

S210、将排序后的多个第二匹配病例中排序靠前的第一预设数量的第一匹配病例和排序后的多个第一匹配病例中排序靠前的第二预设数量的第二匹配病例输出。

其中，第一预设数量和第二预设数量均大于1，根据具体设定即可。

进一步的，将排序后的多个第二匹配病例中排序靠前的第一预设数量的第一匹配病例和排序后的多个第一匹配病例中排序靠前的第二预设数量的第二匹配病例输出，包括：

（1）获取第一预设数量的第一匹配病例中属于各个病例类别的各个第一病例数量值。

例如，有10个第一匹配病例，有2个病例类别，各个病例类别的各个第一病例数量值：病例类别A的第一病例数量值为3，病例类别B的第一病例数量值为7。

（2）获取第二预设数量的第二匹配病例中属于各个病例类别的各个第二病例数量值。

例如，有7个第二匹配病例，有2个病例类别，各个病例类别的各个第一病例数量值：病例类别B的第一病例数量值为3，病例类别C的第一病例数量值为4。

（3）根据预设系数对各个第二病例数量值加权，得到各个第二病例数量值对应的各个第三病例数量值，其中，预设系数大于1。

预设系数可以根据具体情况设定，例如预设系数为2，对各个第二病例数量值加权，得到各个第二病例数量值对应的各个第三病例数量值：病例类别B的第一病例数量值为3，病例类别C的第一病例数量值为8。

（4）根据各个病例类别的各个第一病例数量值和各个第二病例数量值对应的各个第三病例数量值确定各个病例类别对应的各个第四病例数量值。

对各个病例类别的各个第一病例数量值和各个第二病例数量值对应的各个第三病例数量值汇总，得到各个病例类别对应的各个第四病例数量值：病例类别A的第一病例数量值为3，病例类别B的第一病例数量值为10，病例类别C的第一病例数量值为8。

（5）将第四病例数量值最大的病例类别确定为待检索病例的所属病例类别。

病例类别B为第四病例数量值最大的病例类别，将病例类别B确定为待检索病例的所属病例类别。

为了更好实施本申请实施例中基于罕见特征的病例检索方法，在基于罕见特征的病例检索方法基础之上，本申请实施例中还提供一种基于罕见特征的病例检索装置，如图3所示，基于罕见特征的病例检索装置300包括：

第一获取单元301，用于获取目标病例类型的多个第一历史病例；

第二获取单元302，用于获取多个第一历史病例中每个历史病例特征的出现频数；

第一确定单元303，用于将出现频数大于预设频数的的历史病例特征确定为目标病例类型的罕见特征，将出现频数不大于预设频数的的历史病例特征确定为目标病例类型的标准特征，得到各个第一历史病例的罕见特征集和标准特征集；

第三获取单元304，用于获取多个第二历史病例，多个第二历史病例包含至少两种病例类型的病例；

第二确定单元305，用于将多个第二历史病例中的每一病例类型的第二历史病例确定为目标病例类型的多个第一历史病例，得到各个第二历史病例的罕见特征集和标准特征集；

第四获取单元306，用于获取待检索病例中各个病例特征组成的待检索病例特征集；

第一匹配单元307，用于将所述待检索病例特征集与各个第二历史病例的罕见特征集进行匹配，得到与待检索病例特征集匹配的多个第一匹配病例；

第二匹配单元308，用于将所述待检索病例特征集与各个第二历史病例的标准特征集进行匹配，得到与待检索病例特征集匹配的多个第二匹配病例；

排序单元309，用于将多个第二匹配病例和多个第一匹配病例分别排序，得到排序后的多个第二匹配病例和排序后的多个第一匹配病例；

输出单元310，用于将排序后的多个第一匹配病例中排序靠前的第一预设数量的第一匹配病例和排序后的多个第二匹配病例中排序靠前的第二预设数量的第二匹配病例输出。

本申请实施例还提供一种计算机设备，其集成了本申请实施例所提供的任一种基于罕见特征的病例检索装置，计算机设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中一个或多个应用程序被存储于存储器中，并配置为由处理器执行上述基于罕见特征的病例检索方法实施例中任一实施例中的基于罕见特征的病例检索方法中的步骤。

如图4所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；处理器401可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（DigitalSignal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取目标病例类型的多个第一历史病例；获取多个第一历史病例中每个历史病例特征的出现频数；将出现频数大于预设频数的的历史病例特征确定为目标病例类型的罕见特征，将出现频数不大于预设频数的的历史病例特征确定为目标病例类型的标准特征，得到各个第一历史病例的罕见特征集和标准特征集；获取多个第二历史病例，多个第二历史病例包含至少两种病例类型的病例；将多个第二历史病例中的每一病例类型的第二历史病例确定为目标病例类型的多个第一历史病例，得到各个第二历史病例的罕见特征集和标准特征集；获取待检索病例中各个病例特征组成的待检索病例特征集；将待检索病例特征集与各个第二历史病例的罕见特征集进行匹配，得到与待检索病例特征集匹配的多个第一匹配病例；将待检索病例特征集与各个第二历史病例的标准特征集进行匹配，得到与待检索病例特征集匹配的多个第二匹配病例；将多个第二匹配病例和多个第一匹配病例分别排序，得到排序后的多个第二匹配病例和排序后的多个第一匹配病例；将排序后的多个第一匹配病例中排序靠前的第一预设数量的第一匹配病例和排序后的多个第二匹配病例中排序靠前的第二预设数量的第二匹配病例输出。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，该存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。其上存储有计算机程序，计算机程序被处理器进行加载，以执行本申请实施例所提供的任一种基于罕见特征的病例检索方法中的步骤。例如，计算机程序被处理器进行加载可以执行如下步骤：

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对其他实施例的详细描述，此处不再赘述。

具体实施时，以上各个单元或结构可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元或结构的具体实施可参见前面的方法实施例，在此不再赘述。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种基于罕见特征的病例检索方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于罕见特征的病例检索方法，其特征在于，所述基于罕见特征的病例检索方法包括：

获取目标病例类型的多个第一历史病例；

获取多个第一历史病例中每个历史病例特征的出现频数；

获取待检索病例中各个病例特征组成的待检索病例特征集；

2.根据权利要求1所述的基于罕见特征的病例检索方法，其特征在于，所述将所述待检索病例特征集与各个第二历史病例的罕见特征集进行匹配，得到与待检索病例特征集匹配的多个第一匹配病例，包括：

3.根据权利要求2所述的基于罕见特征的病例检索方法，其特征在于，所述将第一向量相似度大于第一预设相似度的多个第二历史病例确定为匹配的多个第一匹配病例，包括：

获取各个特征类别的预设权重系数；

4.根据权利要求3所述的基于罕见特征的病例检索方法，其特征在于，所述获取各个特征类别的预设权重系数，包括：

获取各个病例特征在目标决策树模型中的重要性系数；

5.根据权利要求4所述的基于罕见特征的病例检索方法，其特征在于，所述根据属于目标特征类别的各个病例特征在目标决策树模型中的重要性系数确定目标特征类别的预设权重系数，得到各个特征类别的预设权重系数，包括：

6.根据权利要求1所述的基于罕见特征的病例检索方法，其特征在于，所述将多个第二匹配病例和多个第一匹配病例分别排序，得到排序后的多个第二匹配病例和排序后的多个第一匹配病例，包括：

获取各个第一匹配病例的危险级别；

根据各个第一匹配病例的危险级别从高到低对各个第一匹配病例进行排序，得到排序后的多个第一匹配病例；

获取各个第二匹配病例的危险级别；

根据各个第二匹配病例的危险级别从高到低对各个第二匹配病例进行排序，得到排序后的多个第二匹配病例。

7.根据权利要求1所述的基于罕见特征的病例检索方法，其特征在于，所述将排序后的多个第一匹配病例中排序靠前的第一预设数量的第一匹配病例和排序后的多个第二匹配病例中排序靠前的第二预设数量的第二匹配病例输出，之后，包括：

8.一种基于罕见特征的病例检索装置，其特征在于，所述基于罕见特征的病例检索装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求1至7中任一项所述的基于罕见特征的病例检索方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至7任一项所述的基于罕见特征的病例检索方法中的步骤。