CN109473152A - 相似病历的查找方法、装置与电子设备 - Google Patents

相似病历的查找方法、装置与电子设备 Download PDF

Info

Publication number
CN109473152A
CN109473152A CN201811045999.6A CN201811045999A CN109473152A CN 109473152 A CN109473152 A CN 109473152A CN 201811045999 A CN201811045999 A CN 201811045999A CN 109473152 A CN109473152 A CN 109473152A
Authority
CN
China
Prior art keywords
medical record
record data
case history
variable
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811045999.6A
Other languages
English (en)
Inventor
孙佳星
王则远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Promise Cognitive Medical Technology Co Ltd
Original Assignee
Dalian Promise Cognitive Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Promise Cognitive Medical Technology Co Ltd filed Critical Dalian Promise Cognitive Medical Technology Co Ltd
Priority to CN201811045999.6A priority Critical patent/CN109473152A/zh
Publication of CN109473152A publication Critical patent/CN109473152A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种相似病历的查找方法、装置与电子设备,其中所述方法包括:利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离;根据所有所述欧式距离中的最小者所对应的标准病历数据,确定查找到的最终相似病历。本发明实施例通过查找目标病历的需求,计算各个标准病历与目标病历的欧式距离,进而挑选欧式距离最小的病历作为相似病历,克服了传统查找方式的缺陷,能更有效的进行复杂医学研究与分析中的相似病历查找,为医学科学研究应用提供更多便利。

Description

相似病历的查找方法、装置与电子设备
技术领域
本发明实施例涉及数据管理技术领域,更具体地,涉及一种相似病历的查找方法、装置与电子设备。
背景技术
病历(Case History),是医务人员对病人患病经过和治疗情况所做出的记录,是医学研究中很有意义的资料。随着医学信息化的逐步发展,各大医院开始广泛应用电子病历***,这些电子病历中大量的信息成为医学领域的宝贵财富。无论是在医学科学研究中还是医务人员诊断过程中,查找相似病历都有着不可忽视的作用。
在目前的相似病历查找中,采用的是传统数据库字段全匹配的方法。即,查找者提供准确的查找字段和准确的查找内容,***在数据库中寻找与准确的查找字段和查找内容完全相符的病历,即要求数据库中的相应字段与查找字段和查找内容的字段能够完全匹配。
但是,传统的相似病历查找方法需要提供准确的查找字段和查找内容,并且要求原始病历录入完全准确,否则无法查找到期望的结果。同时,随着医院信息***的应用和健全,电子病历的数据越来越多,将病历数据应用于医学研究和分析变的越来越重要,传统的查找方法很难适应越来越复杂的医学研究和分析要求。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种相似病历的查找方法、装置与电子设备,用以更有效的进行复杂医学研究与分析中的相似病历查找,为医学研究应用提供便利。
第一方面,本发明实施例提供一种相似病历的查找方法,包括:利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离;根据所有所述欧式距离中的最小者所对应的标准病历数据,确定查找到的最终相似病历。
其中,所述利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离的步骤进一步包括:基于所述目标病历数据中的病历信息,查找所述标准病历数据库,获取所有所述标准病历数据;对于每个所述标准病历数据,利用K最邻近分类算法,计算该标准病历数据与所述目标病历数据的欧式距离,所述欧式距离表示所述标准病历数据中所有查找变量与所述目标病历数据中对应的查找需求变量的差值的平方和的平方根;其中,以基于所述目标病历数据中的病历信息确定的多个变量,作为所述查找需求变量,以基于所述标准病历数据中的病历信息确定的对应所述查找需求变量的多个变量,作为所述查找变量。
进一步的,在所述利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离的步骤之前,本发明实施例的方法还包括:获取所述目标病历数据,并对所述目标病历数据和各所述标准病历数据进行标准化处理;相应的,所述计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离的步骤进一步包括:计算标准化后的目标病历数据与各标准化后的标准病历数据的欧式距离。
其中,对所述目标病历数据进行标准化处理的步骤进一步包括:基于所述目标病历数据中的病历信息,确定多个变量,作为查找需求变量,并计算各所述查找需求变量的最大取值M1和最小取值n1;利用如下计算公式,对各所述查找需求变量进行标准化处理,获取标准化后的查找需求变量S1:S1=(k1-n1)/(M1-n1);式中,k1表示所述查找需求变量的当前数值;基于各所述查找需求变量分别对应的所述标准化后的查找需求变量,确定所述标准化后的目标病历数据;对各所述标准病历数据进行标准化处理的步骤进一步包括:基于所述标准病历数据中的病历信息,确定各所述标准病历数据中对应所述查找需求变量的多个变量,作为查找变量,并计算各所述查找变量的最大取值M2i和最小取值n2i;对于每一个所述标准病历数据,利用如下计算公式,对各所述查找变量进行标准化处理,获取标准化后的查找变量S2i:S2i=(k2i-n2i)/(M2i-n2i);式中,k2i表示第i个所述标准病历数据中查找变量的当前数值;基于各所述查找变量分别对应的所述标准化后的查找变量,确定所述标准化后的标准病历数据。
进一步的,在所述计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离的步骤之前,本发明实施例的方法还包括:基于给定病历信息,确定所述标准病历数据中查找相似病历所需的变量;基于所述变量,建立所述标准病历数据库;其中,所述变量包括查找相似病历所需的查找变量和最终查找目标所需的目标变量。
其中,所述给定病历信息具体包括患者的基本信息、检验数据、疾病诊断信息、用药信息和手术信息中的一个或者多个。
第二方面,本发明实施例提供一种相似病历的查找装置,包括:计算模块,用于利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离;输出模块,用于根据所有所述欧式距离中的最小者所对应的标准病历数据,确定查找到的最终相似病历。
第三方面,本发明实施例提供一种电子设备,包括:至少一个存储器、至少一个处理器、通信接口和总线;所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口用于所述电子设备与目标病历数据和标准病历数据的获取或者存储设备之间的信息传输;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的相似病历的查找方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上第一方面所述的相似病历的查找方法。
本发明实施例提供的相似病历的查找方法、装置与电子设备,通过查找目标病历的需求,计算各个标准病历与目标病历的欧式距离,进而挑选欧式距离最小的病历作为相似病历,克服了传统查找方式的缺陷,能更有效的进行复杂医学研究与分析中的相似病历查找,为医学科学研究应用提供更多便利。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的相似病历的查找方法的流程示意图;
图2为本发明另一实施例提供的相似病历的查找方法的流程示意图;
图3为本发明实施例提供的相似病历的查找装置的结构示意图;
图4为本发明实施例一种电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例的一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
传统的相似病历查找方法通过字段全匹配的方式来检索相似病历,需要提供准确的查找字段和查找内容,并且要求原始病历录入完全准确,否则无法查找到期望的结果。同时,随着医院信息***的应用和健全,电子病历的数据越来越多,将病历数据应用于医学研究和分析变的越来越重要,传统的查找方法很难适应越来越复杂的医学研究和分析要求。
针对上述问题,本发明实施例基于K近邻算法(k-NearestNeighbor,KNN)提出一种新的相似病历的查找思路。即,通过查找目标病历的需求,计算各个标准病历(如历史病历)与目标病历的欧式距离,根据欧式距离最小则最相似原则,挑选欧式距离最小的历史病历作为相似病历,克服了传统查找方式的缺陷,能够处理要求大量变量相似的查找需要,通过计算欧式距离,在变量较多前提下,也可以完成查找相似病历。并且计算速度快,可以从大规模医学病历中,查找出对应的相似病历。以下将具体通过多个实施例对本发明实施例进行展开说明和介绍。
作为本发明实施例的一个方面,本实施例提供一种相似病历的查找方法,参考图1,为本发明一实施例提供的相似病历的查找方法的流程示意图,包括:
S101,利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离。
可以理解为,对于本发明实施例的相似病历查找,***事先会根据查找者提出查找相似病历的要求,形成目标病历数据,该目标病历数据可以作为相似病历查找的基础和依据,是查找者想要得到的查找目标。同时,***也会事先获取待查找的范围,即标准病历数据库。例如,可以根据医院的所有历史病历,建立标准病历数据库等。该标准病历数据库中存放有多组病历数据,例如可以是医院的历史病历数据,这些病历数据即可作为标准病历数据。
则,为了在标准病历数据库中查找到与目标病历数据所对应的标准病历,采用K最邻近分类算法,分别计算目标病历数据与每个标准病历数据的欧式距离,以评价各标准病历数据与目标病历数据的相近程度,从而得到需要的查询结果。
其中,K最邻近分类算法的思路为,如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。在本发明实施例中则表示,如果通过K最近邻分类算法找到K个与目标病历最相似的病历,这K个相似病历所属的类别或者特征可在一定程度上代表目标病例的情况,可用于目标病例相关信息的缺失值插补。
其中,欧式距离是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离或者向量的自然长度(即该点到原点的距离)。本发明实施例中表示在目标病历数据和标准病历数据所对应的变量空间内,目标病历数据与各标准病历数据的真实距离。
S102,根据所有欧式距离中的最小者所对应的标准病历数据,确定查找到的最终相似病历。
可以理解为,在上述步骤计算的基础上,可以得到目标病历数据与各个标准病历数据间的欧式距离,每个标准病历数据将对应一个欧式距离,则有多少个标准病历数据就有多少个欧式距离。对这些欧式距离进行比较大小,选取其中的最小者,并可确定该最小者所对应的标准病历数据,则该标准病历数据所对应的病历即为最终的查找结果,即最终相似病历。
其中可以理解的是,其中的最小者可以是最小的一个,也可以是最小的多个,每个最小者可以对应一个标准病历数据,也可以对应多个,本发明实施例对此不做限制。
本发明实施例提供的相似病历的查找方法,通过查找目标病历的需求,计算各个标准病历与目标病历的欧式距离,进而挑选欧式距离最小的病历作为相似病历,克服了传统查找方式的缺陷,能更有效的进行复杂医学研究与分析中的相似病历查找,为医学科学研究应用提供更多便利。另外,对于查找要求特殊的情况,即使不能全匹配,仍可以找出相似病历用于参考研究;且模型更加容易解释,更加容易理解。
在上述实施例的基础上,在计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离的步骤之前,本发明实施例的方法还包括:基于给定病历信息,确定标准病历数据中查找相似病历所需的变量;基于上述变量,建立标准病历数据库,其中的变量包括查找相似病历所需的查找变量和最终查找目标所需的目标变量。
也就是说,本发明实施例在利用标准病历数据库进行相似病历的查找之前,预先建立该标准病历数据库。具体而言:
首先,确定查找相似病历需要的变量:查找者提出查找相似病历的要求,如从患者的基本信息、检验数据、疾病诊断、用药信息和手术信息等其他信息中,确定查找相似病历中需要的变量,构成查找变量。可以理解的是,为了进行区分,对于目标病历数据,该查找变量可以称为查找需求变量,对于标准病历数据,该查找变量可以称为查找变量。同时,将最终查找目的所需要的变量称为目标变量。对查找***而言,查找者所有的查找要求可以形成目标病历数据,已知的查找范围,如医院的历史病历数据库,可以构成标准病历数据库。
其中,根据上述各实施例可选的,给定病历信息具体包括患者的基本信息、检验数据、疾病诊断信息、用药信息和手术信息中的一个或者多个。
例如,查找要求是包含年龄、患有高血压、患有冠心病、经历心脏手术、使用过他克莫司胶囊、尿素、尿蛋白和白蛋白等病历信息的相似病历,这些信息可观测该病历是否是急性肾损伤者的病历。则上述年龄、高血压、冠心病、心脏手术等均为查找变量,急性肾损伤为目标变量,所有查找要求组成的病历为目标病历。
其次,根据上述标准病历数据的查找变量和目标标量,建立相似病历查找的数据库,即标准病历数据库。数据库中包括查找相似病历需要的查找变量和目标变量,若为患有疾病、用药信息、手术信息等二分类变量,则使用0-1二分类变量保存,如果是年龄、尿素等信息,则直接使用数值保存。例如患有高血压则保存为数值1,未患有高血压则保存为数值0,如果年龄为45岁,则直接保存为45数值。
本发明实施例提供的相似病历的查找方法,根据病历信息提取相似病历查找所需的查找变量,并据此建立标准病历数据库,能够根据需要选定相似病历的查找范围,灵活可靠。
其中,在上述各实施例的基础上,在利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离的步骤之前,本发明实施例的方法还包括:获取目标病历数据,并对目标病历数据和各标准病历数据进行标准化处理;
相应的,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离的步骤进一步包括:计算标准化后的目标病历数据与各标准化后的标准病历数据的欧式距离。
可以理解为,本发明在根据上述各实施例对数据进行处理之前,先要获取查找者提出查找相似病历的要求,形成目标病历数据,该目标病历数据可以作为相似病历查找的基础和依据,是查找者想要得到的查找目标。可以理解的是,同样***也会事先获取待查找的范围,即标准病历数据库。例如,可以根据医院的所有历史病历,建立标准病历数据库等。
之后,对获取到的目标病历数据和标准病历数据,采用标准化处理算法分别进行标准化处理,以得到数量级统一、量纲相同的数据,即标准化后的目标病历数据和标准化后的标准病历数据,从而削弱数值较高的病历数据在相似病历查找综合分析中的作用,相对平衡数值水平较低的病历数据的作用。标准化处理算法如极值法、标准差法、折线法以及半正态性分布算法等。
于是相应的,根据上述各实施例对目标病历数据与标准病历数据的欧式距离进行求解的步骤,实际上可以是对上述标准化后的目标病历数据和标准化后的标准病历数据的欧式距离的求解。
本发明实施例提供的相似病历的查找方法,通过对查找依据的目标病历数据和查找范围的标准病历数据进行标准化处理,可以削弱数值较高的病历数据在相似病历查找综合分析中的作用,相对平衡数值水平较低的病历数据的作用,从而可以保证查找结果的可靠性。
其中,根据上述各实施例可选的,对目标病历数据进行标准化处理的步骤进一步包括:
基于目标病历数据中的病历信息,确定多个变量,作为查找需求变量,并计算各查找需求变量的最大取值M1和最小取值n1
利用如下计算公式,对各查找需求变量进行标准化处理,获取标准化后的查找需求变量S1
S1=(k1-n1)/(M1-n1);
式中,k1表示查找需求变量的当前数值;
基于各查找需求变量分别对应的标准化后的查找需求变量,确定标准化后的目标病历数据。
类似的,对各标准病历数据进行标准化处理的步骤进一步包括:
基于标准病历数据中的病历信息,确定各标准病历数据中对应查找需求变量的多个变量,作为查找变量,并计算各查找变量的最大取值M2i和最小取值n2i
对于每一个标准病历数据,利用如下计算公式,对各查找变量进行标准化处理,获取标准化后的查找变量S2i
S2i=(k2i-n2i)/(M2i-n2i);
式中,k2i表示第i个标准病历数据中查找变量的当前数值;
基于各查找变量分别对应的标准化后的查找变量,确定标准化后的标准病历数据。
可以理解为,在根据上述各实施例确定相似病历查找所需的查找变量之后,对于目标病历数据和标准病历数据库中的每一个标准病历数据,首先计算其所对应的每个查找变量的最大值和最小值。可以理解的是,对于目标病历数据,该查找变量可以称为查找需求变量,对于标准病历数据,该查找变量可以称为查找变量。
之后,按照上述计算公式,分别计算目标病历数据的所有查找需求变量分别对应的标准化后的查找需求变量,以及各标准病历数据的所有查找变量分别对应的标准化后的查找变量。可以理解的是,上述标准化后的查找需求变量的计算公式中,各变量也可以表示为x1j,表示目标病历数据的第j个查找需求变量对应的x变量,其中变量x取值为变量S、k、M和n。
即,对于目标病历数据和每一个标准病历数据,在进行标准化处理时,首先计算每个查找变量的最大值和最小值,再计算每个查找变量数据取值范围,即最大值减最小值,再对数据库数值进行标准化处理,计算过程为(查找变量数值-该查找变量所在变量最小值)/查找变量所在变量的数据范围。
本发明实施例提供的相似病历的查找方法,通过数据标准化处理后,数据每个查找变量取值范围都为0到1之间,最小值转化为0,最大值转化为1,这样的标准化可以保证查找相似病历时每个查找变量在查找过程中所占作用比重相同,确保查找相似病历结果的准确性。
其中,在上述各实施例的基础上,利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离的步骤进一步包括:
基于目标病历数据中的病历信息,查找标准病历数据库,获取所有标准病历数据;
对于每个标准病历数据,利用K最邻近分类算法,计算该标准病历数据与目标病历数据的欧式距离,欧式距离表示标准病历数据中所有查找变量与目标病历数据中对应的查找需求变量的差值的平方和的平方根;
其中,以基于目标病历数据中的病历信息确定的多个变量,作为查找需求变量,以基于标准病历数据中的病历信息确定的对应查找需求变量的多个变量,作为查找变量。
可以理解为,根据上述各实施例,可以根据目标病历数据中的病历信息确定多个查找相似病历所需的查找变量,构成查找需求变量。同样的,对于各标准病历数据,可以根据其中的病历信息确定多个查找相似病历所需的查找变量,构成查找变量。
则,本发明实施例基于KNN算法挑选相似病历,其中算法使用变量为相似病历查找需要的查找变量,利用KNN算法计算目标病历与各个数据库病历之间的欧式距离,并挑选出与目标病历欧式距离最小的k个病历作为相似病历。
具体而言,利用KNN算法进行相似病历的查找的具体流程为:
使用标准化后的目标病历和相似病历查找数据库的数据;
计算相似病历查找数据库中每个病历与目标病历的欧氏距离;其中,欧式距离的计算方式为计算目标病历中每个查找变量与数据库中病历对应变量的差的平方并求和,最后将求和结果开平方根;
挑选出欧式距离最小的k个相似病历。
为进一步说明本发明实施例的技术方案,本发明实施例根据上述各实施例提供如下举例的处理流程,但不对本发明实施例的保护范围进行限制。
如图2所示,为本发明另一实施例提供的相似病历的查找方法的流程示意图,图中对相似病历的查找分多步进行,具体如下:
首先,建立相似病历查找的数据库。
(1)确定查找相似病历需要的变量:查找者提出查找相似病历的要求,如从患者的基本信息、检验数据、疾病诊断、用药信息和手术信息等其他信息中,确定查找相似病历中需要的变量,构成查找变量。同时,将最终查找目的所需要的变量称为目标变量。对查找***而言,查找者所有的查找要求可以形成目标病历数据,已知的查找范围,如医院的历史病历数据库,可以构成标准病历数据库。例如,查找要求是包含年龄、患有高血压、患有冠心病、经历心脏手术、使用过他克莫司胶囊、尿素、尿蛋白和白蛋白等病历信息的相似病历,这些信息可观测该病历是否是急性肾损伤者的病历。则上述年龄、高血压、冠心病、心脏手术等均为查找变量,急性肾损伤为目标变量,所有查找要求组成的病历为目标病历。
(2)建立相似病历查找的数据库:数据库中包括查找相似病历需要的查找变量和目标变量,如果是患有疾病、用药信息、手术信息等二分类变量,则使用0-1二分类变量保存,如果是年龄、尿素等信息,则直接使用数值保存。例如患有高血压则保存为数值1,未患有高血压则保存为数值0,如果年龄为45岁,则直接保存为45数值。
其次,对于目标病历数据和每一个标准病历数据,进行标准化处理。
计算每个查找变量的最大值和最小值。
计算每个查找变量数据取值范围,即最大值减最小值。
对数据库数值进行标准化处理,计算过程为(查找变量数值-该查找变量所在变量最小值)/查找变量所在变量的数据范围。
通过数据标准化处理后数据每个查找变量取值范围都为0到1之间,最小值转化为0,最大值转化为1,这样的标准化可以保证查找相似病历时每个查找变量在查找过程中所占作用比重相同,确保查找相似病历结果的准确性。
再次,基于KNN算法挑选相似病历。
一方面,算法使用变量为相似病历查找需要的查找变量。利用KNN算法计算目标病历与各个数据库病历之间的欧式距离。挑选出与目标病历欧式距离最小的k个病历作为相似病历。
具体而言,利用KNN算法进行相似病历的查找的具体流程为:
使用标准化后的目标病历和相似病历查找数据库的数据;
计算相似病历查找数据库中每个病历与目标病历的欧氏距离;其中,欧式距离的计算方式为计算目标病历中每个查找变量与数据库中病历对应变量的差的平方并求和,最后将求和结果开平方根;
挑选出欧式距离最小的k个计算结果。
最后,根据研究目的和应用需求,确定k的值,以确定最终选取的相似病历。
作为本发明实施例的另一个方面,本发明实施例根据上述各实施例提供一种相似病历的查找装置,该装置用于在上述各实施例中实现对相似病历的查找。因此,在上述各实施例的相似病历的查找方法中的描述和定义,可以用于本发明实施例中各个执行模块的理解,具体可参考上述实施例,此处不在赘述。
根据本发明本方面实施例的一个实施例,相似病历的查找装置的结构如图3所示,为本发明实施例提供的相似病历的查找装置的结构示意图,该装置可以用于对上述各方法实施例中相似病历的查找,该装置包括计算模块301和输出模块302。其中:
计算模块301用于利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离;输出模块302用于根据所有欧式距离中的最小者所对应的标准病历数据,确定查找到的最终相似病历。
具体而言,对于本发明实施例的相似病历查找,装置事先会根据查找者提出查找相似病历的要求,形成目标病历数据,该目标病历数据可以作为相似病历查找的基础和依据,是查找者想要得到的查找目标。同时,***也会事先获取待查找的范围,即标准病历数据库。
则,为了在标准病历数据库中查找到与目标病历数据所对应的标准病历,计算模块301采用K最邻近分类算法,分别计算目标病历数据与每个标准病历数据的欧式距离,以评价各标准病历数据与目标病历数据的相近程度,从而得到需要的查询结果。输出模块302则对目标病历数据与各个标准病历数据间的欧式距离进行比较大小,选取其中的最小者。同时输出模块302可确定该最小者所对应的标准病历数据,则该标准病历数据所对应的病历即为最终的查找结果,即最终相似病历。
其中可以理解的是,其中的最小者可以是最小的一个,也可以是最小的多个,每个最小者可以对应一个标准病历数据,也可以对应多个,本发明实施例对此不做限制。
本发明实施例提供的相似病历的查找装置,通过设置相应的执行模块,查找目标病历的需求,计算各个标准病历与目标病历的欧式距离,进而挑选欧式距离最小的病历作为相似病历,克服了传统查找方式的缺陷,能更有效的进行复杂医学研究与分析中的相似病历查找,为医学科学研究应用提供更多便利。
可以理解的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且,本发明实施例的相似病历的查找装置在对上述各方法实施例中相似病历进行查找时,产生的有益效果与对应的上述各方法实施例相同,可以参考上述各方法实施例,此处不再赘述。
作为本发明实施例的又一个方面,本实施例根据上述实施例提供一种电子设备,参考图4,为本发明实施例一种电子设备的结构框图,包括:至少一个存储器401、至少一个处理器402、通信接口403和总线404。
其中,存储器401、处理器402和通信接口403通过总线404完成相互间的通信,通信接口403用于该电子设备与目标病历数据和标准病历数据的获取或者存储设备之间的信息传输;存储器401中存储有可在处理器402上运行的计算机程序,处理器402执行该计算机程序时,实现如上述实施例的相似病历的查找方法。
可以理解为,该电子设备中至少包含存储器401、处理器402、通信接口403和总线404,且存储器401、处理器402和通信接口403通过总线404形成相互间的通信连接,并可完成相互间的通信,如处理器402从存储器401中读取相似病历的查找方法的程序指令等。另外,通信接口403还可以实现该电子设备与目标病历数据和标准病历数据的获取或者存储设备之间的通信连接,并可完成相互间信息传输,如通过通信接口403实现对相似病历的查找等。
电子设备运行时,处理器402调用存储器401中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离;根据所有欧式距离中的最小者所对应的标准病历数据,确定查找到的最终相似病历等。
上述的存储器401中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。或者,实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还根据上述各实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行如上述实施例的相似病历的查找方法。例如包括:利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离;根据所有欧式距离中的最小者所对应的标准病历数据,确定查找到的最终相似病历等。
本发明实施例提供的电子设备和非暂态计算机可读存储介质,通过存储的相似病历的查找方法的程序指令,查找目标病历的需求,计算各个标准病历与目标病历的欧式距离,进而挑选欧式距离最小的病历作为相似病历,克服了传统查找方式的缺陷,能更有效的进行复杂医学研究与分析中的相似病历查找,为医学科学研究应用提供更多便利。
可以理解的是,以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解,各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令,用以使得一台计算机设备(如个人计算机,服务器,或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。
另外,本领域内的技术人员应当理解的是,在本发明实施例的申请文件中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例的说明书中,说明了大量具体细节。然而应当理解的是,本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明实施例公开并帮助理解各个发明方面中的一个或多个,在上面对本发明实施例的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明实施例的单独实施例。
最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims (9)

1.一种相似病历的查找方法,其特征在于,包括:
利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离;
根据所有所述欧式距离中的最小者所对应的标准病历数据,确定查找到的最终相似病历。
2.根据权利要求1所述的方法,其特征在于,所述利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离的步骤进一步包括:
基于所述目标病历数据中的病历信息,查找所述标准病历数据库,获取所有所述标准病历数据;
对于每个所述标准病历数据,利用K最邻近分类算法,计算该标准病历数据与所述目标病历数据的欧式距离,所述欧式距离表示所述标准病历数据中所有查找变量与所述目标病历数据中对应的查找需求变量的差值的平方和的平方根;
其中,以基于所述目标病历数据中的病历信息确定的多个变量,作为所述查找需求变量,以基于所述标准病历数据中的病历信息确定的对应所述查找需求变量的多个变量,作为所述查找变量。
3.根据权利要求1所述的方法,其特征在于,在所述利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离的步骤之前,还包括:
获取所述目标病历数据,并对所述目标病历数据和各所述标准病历数据进行标准化处理;
相应的,所述计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离的步骤进一步包括:
计算标准化后的目标病历数据与各标准化后的标准病历数据的欧式距离。
4.根据权利要求3所述的方法,其特征在于,对所述目标病历数据进行标准化处理的步骤进一步包括:
基于所述目标病历数据中的病历信息,确定多个变量,作为查找需求变量,并计算各所述查找需求变量的最大取值M1和最小取值n1
利用如下计算公式,对各所述查找需求变量进行标准化处理,获取标准化后的查找需求变量S1
S1=(k1-n1)/(M1-n1);
式中,k1表示所述查找需求变量的当前数值;
基于各所述查找需求变量分别对应的所述标准化后的查找需求变量,确定所述标准化后的目标病历数据;
对各所述标准病历数据进行标准化处理的步骤进一步包括:
基于所述标准病历数据中的病历信息,确定各所述标准病历数据中对应所述查找需求变量的多个变量,作为查找变量,并计算各所述查找变量的最大取值M2i和最小取值n2i
对于每一个所述标准病历数据,利用如下计算公式,对各所述查找变量进行标准化处理,获取标准化后的查找变量S2i
S2i=(k2i-n2i)/(M2i-n2i);
式中,k2i表示第i个所述标准病历数据中查找变量的当前数值;
基于各所述查找变量分别对应的所述标准化后的查找变量,确定所述标准化后的标准病历数据。
5.根据权利要求1所述的方法,其特征在于,在所述计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离的步骤之前,还包括:
基于给定病历信息,确定所述标准病历数据中查找相似病历所需的变量;
基于所述变量,建立所述标准病历数据库;
其中,所述变量包括查找相似病历所需的查找变量和最终查找目标所需的目标变量。
6.根据权利要求5所述的方法,其特征在于,所述给定病历信息具体包括患者的基本信息、检验数据、疾病诊断信息、用药信息和手术信息中的一个或者多个。
7.一种相似病历的查找装置,其特征在于,包括:
计算模块,用于利用K最邻近分类算法,计算目标病历数据与标准病历数据库中每个标准病历数据的欧式距离;
输出模块,用于根据所有所述欧式距离中的最小者所对应的标准病历数据,确定查找到的最终相似病历。
8.一种电子设备,其特征在于,包括:至少一个存储器、至少一个处理器、通信接口和总线;
所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口用于所述电子设备与目标病历数据和标准病历数据的获取或者存储设备之间的信息传输;
所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1至6中任一所述的方法。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6中任一所述的方法。
CN201811045999.6A 2018-09-07 2018-09-07 相似病历的查找方法、装置与电子设备 Pending CN109473152A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811045999.6A CN109473152A (zh) 2018-09-07 2018-09-07 相似病历的查找方法、装置与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811045999.6A CN109473152A (zh) 2018-09-07 2018-09-07 相似病历的查找方法、装置与电子设备

Publications (1)

Publication Number Publication Date
CN109473152A true CN109473152A (zh) 2019-03-15

Family

ID=65663103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811045999.6A Pending CN109473152A (zh) 2018-09-07 2018-09-07 相似病历的查找方法、装置与电子设备

Country Status (1)

Country Link
CN (1) CN109473152A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265099A (zh) * 2019-05-08 2019-09-20 北京百度网讯科技有限公司 用于输出病历的方法和装置
CN110765232A (zh) * 2019-10-11 2020-02-07 平安医疗健康管理股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN112635072A (zh) * 2020-12-31 2021-04-09 大连东软教育科技集团有限公司 基于相似度计算的icu相似病例检索方法、***及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260598A (zh) * 2015-09-29 2016-01-20 中南大学 口腔诊疗决策支持***及决策方法
CN105975794A (zh) * 2016-05-23 2016-09-28 上海交通大学 基于加权knn的乳腺癌化疗方案推荐方法
CN106897572A (zh) * 2017-03-08 2017-06-27 山东大学 基于流形学习的肺结节病例匹配辅助检测***及其工作方法
CN106919775A (zh) * 2015-12-24 2017-07-04 ***通信集团公司 一种睡眠信息的处理方法及装置
CN107887032A (zh) * 2016-09-27 2018-04-06 ***通信有限公司研究院 一种数据处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260598A (zh) * 2015-09-29 2016-01-20 中南大学 口腔诊疗决策支持***及决策方法
CN106919775A (zh) * 2015-12-24 2017-07-04 ***通信集团公司 一种睡眠信息的处理方法及装置
CN105975794A (zh) * 2016-05-23 2016-09-28 上海交通大学 基于加权knn的乳腺癌化疗方案推荐方法
CN107887032A (zh) * 2016-09-27 2018-04-06 ***通信有限公司研究院 一种数据处理方法及装置
CN106897572A (zh) * 2017-03-08 2017-06-27 山东大学 基于流形学习的肺结节病例匹配辅助检测***及其工作方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265099A (zh) * 2019-05-08 2019-09-20 北京百度网讯科技有限公司 用于输出病历的方法和装置
CN110765232A (zh) * 2019-10-11 2020-02-07 平安医疗健康管理股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN110765232B (zh) * 2019-10-11 2023-03-21 深圳平安医疗健康科技服务有限公司 数据处理方法、装置、计算机设备和存储介质
CN112635072A (zh) * 2020-12-31 2021-04-09 大连东软教育科技集团有限公司 基于相似度计算的icu相似病例检索方法、***及存储介质

Similar Documents

Publication Publication Date Title
CN108804641A (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN110470303A (zh) 一种医院内就诊导航方法及装置
CN109446341A (zh) 知识图谱的构建方法及装置
CN108632097A (zh) 异常行为对象的识别方法、终端设备及介质
CN109473152A (zh) 相似病历的查找方法、装置与电子设备
CN108132957A (zh) 一种数据库处理方法及装置
CN113724848A (zh) 基于人工智能的医疗资源推荐方法、装置、服务器及介质
CN109522312A (zh) 一种数据处理方法、装置、服务器和存储介质
CN111898636B (zh) 一种数据处理方法及装置
CN105556517A (zh) 智能搜索精细化
CN109493976A (zh) 基于卷积神经网络模型的慢性病复发预测方法和装置
CN109935337A (zh) 一种基于相似性度量的病案查找方法及***
CN108985133A (zh) 一种人脸图像的年龄预测方法及装置
CN112115276A (zh) 基于知识图谱的智能客服方法、装置、设备及存储介质
CN110532371A (zh) 基于配置管理数据库的全文检索方法、装置与电子设备
CN109117352A (zh) 服务器性能预测方法和装置
CN113590578B (zh) 跨语言知识单元迁移方法、装置、存储介质及终端
CN110442735A (zh) 一种成语近义词推荐方法及装置
CN114020892A (zh) 基于人工智能的答案选取方法、装置、电子设备及介质
CN111597336B (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN112445905A (zh) 一种信息处理方法和装置
CN114281950B (zh) 基于多图加权融合的数据检索方法与***
CN115438129A (zh) 结构化数据的分类方法、装置及终端设备
CN114692023A (zh) 地点检索方法、电子设备以及存储介质
CN113705692A (zh) 基于人工智能的情感分类方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190315