CN111709492A - 高维电子医疗记录表的降维可视化方法、装置及存储介质 - Google Patents
高维电子医疗记录表的降维可视化方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111709492A CN111709492A CN202010632086.5A CN202010632086A CN111709492A CN 111709492 A CN111709492 A CN 111709492A CN 202010632086 A CN202010632086 A CN 202010632086A CN 111709492 A CN111709492 A CN 111709492A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- medical record
- space
- data
- projection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提供一种高维电子医疗记录表的降维可视化方法、装置及存储介质。该方法包括:对医疗记录表进行数据预处理,得到输入数据矩阵;提取患者记录数据的判别性特征,获取判别特征数据集;将高维特征数据转换到二维可视空间,得到二者在二维空间的投影坐标;展示电子医疗记录的可视化结果,绘制医疗记录数据在该二维空间的散点图进行显示。本发明利用神经网络模型提取的表示本身规律的具有判别能力的特征,通过线性判别分析降维方法有效地改善了可视化空间中类别的区分,提高了对待测患者病例投影的泛化性。
Description
技术领域
本发明涉及智能疾病诊断技术领域,具体而言,尤其涉及一种高维电子医疗记录表的降维可视化方法、装置及存储介质。
背景技术
随着人工智能的兴起,深度学习在生物医学领域的应用越来越广泛。
在生物医学领域,越来越多的监测数据可以从不同类型的传感设备获得,为医务工作者了解患者状态、进行疾病判别、开展治疗计划提供了更为完备的数据基础。在人工智能领域中,对于高维大数据建模常用的一种方法是深度学习方法。患者的电子医疗记录经过神经网络中间隐藏层神经元的多次映射,来提取高维数据的特征信息(embedding),最后实现不同类型患者的区分。但是,神经网络模型相当于一个“黑盒子”,很难对其映射过程进行分析。而且由于特征在高维空间分布稀疏,无法直接不同类别样本之间的相似性及密度分布。
在现有的高维度医疗数据可视化工作中,主要分为线性降维方法和非线性降维方法(流形学习方法)。
其中常用的非线性降维方法有等度量映射(Isomap)、拉普拉斯映射(LE)、t分布邻域嵌入算法(t-SNE)等。此类工作通常是用于CT、MRI等医疗影像数据的可视化,将不同类型疾病患者的图像、在卷积网络中间层的高维向量,通过非线性变换映射到一个低维的可视空间,并在映射过程尽可能保持原数据局部近邻关系。但是,对于一些数值型的医疗记录表,此类方法得到的可视化结果很难明显区分不同类型患者,难以满足辅助医生诊断的需求。而且t-SNE等非线性降维算法求解时需要迭代优化,运算时间较长,难以实时可视化显示。
发明内容
根据上述提出的非线性降维对于一些数值型的医疗记录数据的可视化效果较差,得到的可视空间很难明显区分不同类型患者的问题,而提供一种高维电子医疗记录表的降维可视化方法。本发明主要基于LDA降维算法,对神经网络模型中间层数据特征进行高维电子记录特征的空间变换,以二维散点图的形式来显示电子医疗记录的分布情况,使投影空间中特征相似的记录相互靠近,不同疾病类型的记录相互区分。
本发明采用的技术手段如下:
一种高维电子医疗记录表的降维可视化方法,包括:
获取医疗记录表,并对所述医疗记录表进行数据预处理,得到高维记录数据矩阵;
通过神经网络分类模型对高维记录数据矩阵进行多层非线性映射,从所述神经网络分类模型的隐藏层的输出获取判别特征数据集;
采用线性判别分析方法将所述判别特征数据集中的判别特征数据投影到二维可视空间,得到所述判别特征数据在二维空间的投影坐标;
根据所述判别特征数据在二维空间的投影坐标,绘制二维散点图;
计算待诊患者记录的投影坐标,在所述二维散点图上绘制所述待诊患者记录的投影点。
进一步地,所述对医疗记录表进行数据预处理,包括:
对医疗记录表中的连续型数值特征进行Z分数标准化处理;
对医疗记录表中的离散型数值特征进行独热编码;
对医疗记录表中的文本型特征,先转换成数值型离散特征,再进行独热编码。
进一步地,所述判别性特征为所述神经网络分类模型的最后一层隐层的输出。
进一步地,所述将高维特征数据转换到二维可视空间,包括:
计算病例特征数据集的类内散度矩阵和类间散度矩阵;
根据所述类内散度矩阵和类间散度矩阵优化求解变换空间基向量;
利用所述空间基向量对所述病例特征数据集内的特征进行坐标变换,求解投影空间坐标,并进行坐标归一化;
保存记录的投影坐标及记录标签。
一种高维电子医疗记录表的降维可视化装置,包括:
预处理单元,用于获取医疗记录表,并对所述医疗记录表进行数据预处理,得到高维记录数据矩阵;
提取单元,通过神经网络分类模型对高维记录数据矩阵进行多层非线性映射,从所述神经网络分类模型的隐藏层的输出获取判别特征数据集;
转换单元,采用线性判别分析方法将所述判别特征数据集中的判别特征数据投影到二维可视空间,得到所述判别特征数据在二维空间的投影坐标;;
显示单元,用于根据所述判别特征数据在二维空间的投影坐标,绘制二维散点图。
进一步地,所述预处理单元对所述医疗记录表进行数据预处理,包括:
对医疗记录表中的连续型数值特征进行Z分数标准化处理;
对医疗记录表中的离散型数值特征进行独热编码;
对医疗记录表中的文本型特征,先转换成数值型离散特征,再进行独热编码。
进一步地,所述提取单元提取所述神经网络分类模型的最后一层隐层的输出作为判别性特征。
进一步地,所述转换单元将高维特征数据转换到二维可视空间,包括:
计算病例特征数据集的类内散度矩阵和类间散度矩阵;
根据所述类内散度矩阵和类间散度矩阵优化求解变换空间基向量;
利用所述空间基向量对所述病例特征数据集内的特征进行坐标变换,求解投影空间坐标,并进行坐标归一化;
保存记录的投影坐标及记录标签。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机指令集;所述计算机指令集被处理器执行时实现如上述的高维电子医疗记录表的降维可视化方法。
较现有技术相比,本发明具有以下优点:
1、本发明对高维医疗记录的投影精确度和泛化性提升。相比于直接对原始数据进行降维投影或先用PCA降维再进行投影,本发明利用神经网络模型提取的表示本身规律的特征,接着结合LDA降维算法投影到二维可视空间,有效地提高了现有方法在可视空间中不同类别数据的区分能力,并提高了对待测患者病例投影的泛化性。
2、本发明技术方便非专业技术人员了解到更丰富的病例信息。本发明将神经网络隐藏层的特征向量投影到人眼可以直观理解的二维空间,使高维的数据样本落在一个二维平面上,平面上的每一个点对应的是医疗记录表中的患者样本。用户可以通过观察该点落在不同类型疾病的哪个区域,可能与哪一种类型疾病更接近,从而可作为对疾病诊断判断的另一种依据。
3、本发明方法计算速度快,便于嵌入医疗诊断***。本发明进行数据空间转换时使用线性降维方法,相比于非线性降维方法,在求解投影空间基向量时不需要迭代,计算量小。
综上,本发明的技术方案克服了现有技术存在的弊端,提供了一种能够为深度学习模型分类结果提供一种直观解释,并辅助医务工作者等非技术人员了解更丰富的患者病例信息的电子病例的可视化方法。
基于上述理由本发明可生物医疗等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为实施例中高维电子医疗记录表的降维可视化方法的流程示意图。
图2为实施例中数据流示意图。
图3为实施例中利用本发明方法的可视化分析结果。
图4为实施例中利用LDA算法降维的可视化分析结果。
图5为实施例中利用t-SNE非线性降维的可视化分析结果。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前,在人工智能疾病诊断领域,需要一种电子病例的可视化方法,为深度学习模型分类结果提供一种直观解释,并辅助医务工作者等非技术人员了解更丰富的患者病例信息,比如当前患者与以往病例中的相似度、患者属于不同类型疾病的可能性等。使医护人员直观地感知患者电子医疗记录的整体分布情况,了解待诊患者病例与以往病例的相似程度,为制定诊疗方案提供依据。
鉴于此,本发明提供了一种高维电子医疗记录表的降维可视化方法,本发明电子医疗记录表的可视化方法基于LDA降维算法,对神经网络模型中间层数据特征进行高维电子记录特征的空间变换,以二维散点图的形式来显示电子医疗记录的分布情况,使投影空间中特征相似的记录相互靠近,不同疾病类型的记录相互区分。该方法首先对电子医疗记录表进行数据预处理,通过神经网络分类模型提取患者记录数据的判别性特征,接着通过空间转换方法将高维特征数据转换到二维可视空间,通过绘制医疗记录数据在该二维空间的散点图展示患者电子医疗记录的可视化结果。该方法具体包括:对医疗记录表进行数据预处理,得到输入数据矩阵;提取患者记录数据的判别性特征,通过神经网络分类模型对输入数据矩阵进行多层非线性映射,获取判别特征数据集;将高维特征数据转换到二维可视空间,对所述判别特征数据集和记录的类别标签进行特征空间变换,得到其在二维空间的投影坐标;展示电子医疗记录的可视化结果,绘制医疗记录数据在该二维空间的散点图进行显示。
以下结合附图对本发明实施例做进一步详述。
一种高维电子医疗记录表的降维可视化方法,如图1-2所示,包括以下步骤:
S1、数据预处理步骤。将原始电子医疗记录表作为该步骤的输入数据,在该步骤输出数据处理后的高维记录数据矩阵,记为X。
具体地,可以对记录表中连续型数值特征进行Z分数(z-score)标准化处理,对离散型数值特征进行独热(one-hot)编码。对于文本型特征,可以先转换成数值型离散特征,再进行one-hot编码。
S2、判别性特征获取步骤。该步骤的输入是预处理后的高维记录数据矩阵X和神经网络分类模型,输出是提取的判别性特征数据集F。首先,载入训练后的神经网络分类模型。神经网络模型将高维记录数据矩阵X以矩阵的输入方式进行多层非线性映射。从隐层的输出来获取表示数据内在规律、对疾病判别有区分度的特征。
具体地,将输入高维记录在神经网络最后一层隐层的输出作为其特征向量,将全部输入记录对应的特征向量组成的矩阵记为特征数据集F。假设预先训练的神经网络判别模型层数为L层(包含输入层和输出层),该模型前L-1层的映射函数为φ(.)。假设得到的判别特征为M维,则有Fφ:神经网络提取特征计算公式如下:
F=φ(X)
S3、特征空间变换步骤。该步骤的输入是神经网络提取的判别特征数据集F和记录的类别标签,输出是在二维空间的投影坐标。特征空间变换通过机器学习中的降维算法,求解空间变换矩阵,将数据从高维特征投影到一个低维的可视空间(S≤3)。
针对数值型医疗记录,常用的线性降维方法主要有主成分分析(PCA,PrincipleComponentAnalysis)算法、独立成分分析(ICA,Independent Component Analysis)算法和偏最小二乘法(Partial Least Squares Method)等。降维得到的低维子空间会在映射过程中损失一定的样本判别性信息,且主成分保留个数需要进行多次试验设定,参数选取对结果影响较大。
线性判别分析算法(LDA)在降维过程中尽可能使样本类内间距小,类间间距大,从而使得降维后的样本保留判别性信息。但是,LDA算法具有一定的局限性:在样本量较小而维度高的情况下,奇异值分解过程中会出现病态矩阵问题,难以得到精确的空间基向量。本发明通过将数据在神经网络进行非线性映射,自动地提取到反映数据规律的低维特征,对这些特征向量使用LDA算法可使病态矩阵问题得到改善,进而得到更加精确的空间基向量。
具体地,本实施例中,降维算法可以采用线性判别分析(LDA)方法。因此,选取的LDA降维目标维数S需小于记录类别数。
例如,现假设电子医疗记录数据的类别数目为3,故可设置S=2,即将特征向量f投影到二维空间。于是,空间基向量表示为W=[w1,w2],可视空间的投影坐标为(y1,y2),则有
基于LDA的空间变换方法具体包括以下步骤:
S301、将电子记录表输入判别特征单元,所得到的病例特征记为F。
S302、计算病例特征数据集F的类内散度矩阵SW和类间散度矩阵SB,其中SW和SB的定义如下:
SWi是类别i的样本点相对于该类中心点μi的散列程度。
SBi是类别i中心点相对于样本中心点μ的协方差矩阵,即类别i相对于μ的散列程度。
SW=SW1+SW2+SW3
SB=SB1+SB2+SB3
=(μ1-μ)(μ1-μ)T+(μ2-μ)(μ2-μ)T+(μ3-μ)(μ3-μ)T
S303、优化求解变换空间基向量W。LDA坐标变换算法的目标是让投影后不同类的样本距离更远,类内样本距离更近。求解使优化目标函数J(W)最大化的变换矩阵W。
对坐标进行归一化,将二维坐标缩放到[0,1]区间。
式中y′为归一化后坐标,y为归一化前坐标,ymin为坐标最小值,ymax为坐标最大值。
保存记录的投影坐标及记录标签。
S4、散点图绘制步骤。在该步骤中,根据数据空间转换单元得到的特征数据f在二维空间的投影坐标(y1,y2),绘制一张二维散点图,具体步骤如下:
S402、绘制二维散点图,根据病例的类型标签对投影点用不同颜色着色。由此,可以得到不同类型病例投影区块。
S403、在该散点图上,画出新患者病例记录的投影点。
下面通过具体的应用实例,结合附图对本发明的效果做进一步说明。
本应用实例根据患者电子医疗记录表,判别患者的疾病类型(疾病A、疾病B、疾病C),为了测试本发明可视化方法的泛化性和稳定性,将数据集划分为训练集和测试集。在空间变换单元仅使用训练集来求解变换空间基向量W,对训练集和测试集病例都使用该基向量进行投影。投影绘制结果如图3所示。另外,为了对比本发明与现有发明的可视化效果,对相同的电子医疗记录数据,采用LDA算法降维技术、t-SNE非线性降维技术分别进行了可视化,结果分别如图4、图5所示。
图中圆圈表示训练集病例样本,五角星表示测试集病例样本,用不同颜色对不同类型的病例投影进行着色。
对比本发明方法结果和现有常用方法的可视化结果图可以看出:
1)本发明方法相比于t-SNE方法,更能使投影空间中不同疾病类型的测试病例相互区分,说明本发明的可视化方法对不同疾病类型的电子医疗记录具有较好的判别能力。而且本发明方法使得数据特征相似的患者投影互相靠近,更便于医生观察新病例与以往病例的相似程度。
2)测试集的投影点与训练集投影区域一致,本发明方法比仅用LDA算法的投影分布更为集中。说明本发明方法具有良好的泛化性。
对应本申请中高维电子医疗记录表的降维可视化的方法,本申请还提供了高维电子医疗记录表的降维可视化装置,包括预处理单元10、提取单元11、转换单元12以及显示单元13。其中:
预处理单元10,用于获取医疗记录表,并对所述医疗记录表进行数据预处理,得到高维记录数据矩阵X;
提取单元11,通过神经网络分类模型对高维记录数据矩阵X进行多层非线性映射,从所述神经网络分类模型的隐藏层的输出获取判别特征数据集F;
转换单元12,采用线性判别分析方法将所述提取单元11输出的判别特征数据集X中的判别特征数据投影到二维可视空间,得到所述判别特征数据在二维空间的投影坐标;
显示单元13,用于根据所述判别特征数据在二维空间的投影坐标,绘制二维散点图,用于展示电子医疗记录的可视化结果。
对于本发明实施例的而言,由于其与上面实施例中的相对应,所以描述的比较简单,相关相似之处请参见上面实施例中部分的说明即可,此处不再详述。
本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令集;所述计算机指令集被处理器执行时实现上述的高维电子医疗记录表的降维可视化方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种高维电子医疗记录表的降维可视化方法,其特征在于,包括:
获取医疗记录表,并对所述医疗记录表进行数据预处理,得到高维记录数据矩阵;
通过神经网络分类模型对高维记录数据矩阵进行多层非线性映射,从所述神经网络分类模型的隐藏层的输出获取判别特征数据集;
采用线性判别分析方法将所述判别特征数据集中的判别特征数据投影到二维可视空间,得到所述判别特征数据在二维空间的投影坐标;
根据所述判别特征数据在二维空间的投影坐标,绘制二维散点图;
计算待诊患者记录的投影坐标,在所述二维散点图上绘制所述待诊患者记录的投影点。
2.根据权利要求1所述的高维电子医疗记录表的降维可视化方法,其特征在于,所述对医疗记录表进行数据预处理,包括:
对医疗记录表中的连续型数值特征进行Z分数标准化处理;
对医疗记录表中的离散型数值特征进行独热编码;
对医疗记录表中的文本型特征,先转换成数值型离散特征,再进行独热编码。
3.根据权利要求1所述的高维电子医疗记录表的降维可视化方法,其特征在于,所述判别性特征为所述神经网络分类模型的最后一层隐层的输出。
4.根据权利要求1所述的高维电子医疗记录表的降维可视化方法,其特征在于,所述将高维特征数据转换到二维可视空间,包括:
计算病例特征数据集的类内散度矩阵和类间散度矩阵;
根据所述类内散度矩阵和类间散度矩阵优化求解变换空间基向量;
利用所述空间基向量对所述病例特征数据集内的特征进行坐标变换,求解投影空间坐标,并进行坐标归一化;
保存记录的投影坐标及记录标签。
5.一种高维电子医疗记录表的降维可视化装置,其特征在于,包括:
预处理单元,用于获取医疗记录表,并对所述医疗记录表进行数据预处理,得到高维记录数据矩阵;
提取单元,通过神经网络分类模型对高维记录数据矩阵进行多层非线性映射,从所述神经网络分类模型的隐藏层的输出获取判别特征数据集;
转换单元,采用线性判别分析方法将所述判别特征数据集中的判别特征数据投影到二维可视空间,得到所述判别特征数据在二维空间的投影坐标;;
显示单元,用于根据所述判别特征数据在二维空间的投影坐标,绘制二维散点图。
6.根据权利要求5所述的高维电子医疗记录表的降维可视化装置,其特征在于,所述预处理单元对所述医疗记录表进行数据预处理,包括:
对医疗记录表中的连续型数值特征进行Z分数标准化处理;
对医疗记录表中的离散型数值特征进行独热编码;
对医疗记录表中的文本型特征,先转换成数值型离散特征,再进行独热编码。
7.根据权利要求5所述的高维电子医疗记录表的降维可视化装置,其特征在于,所述提取单元提取所述神经网络分类模型的最后一层隐层的输出作为判别性特征。
8.根据权利要求5所述的高维电子医疗记录表的降维可视化装置,其特征在于,所述转换单元将高维特征数据转换到二维可视空间,包括:
计算病例特征数据集的类内散度矩阵和类间散度矩阵;
根据所述类内散度矩阵和类间散度矩阵优化求解变换空间基向量;
利用所述空间基向量对所述病例特征数据集内的特征进行坐标变换,求解投影空间坐标,并进行坐标归一化;
保存记录的投影坐标及记录标签。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机指令集;所述计算机指令集被处理器执行时实现如权利要求1-4任一项所述的高维电子医疗记录表的降维可视化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010632086.5A CN111709492A (zh) | 2020-07-03 | 2020-07-03 | 高维电子医疗记录表的降维可视化方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010632086.5A CN111709492A (zh) | 2020-07-03 | 2020-07-03 | 高维电子医疗记录表的降维可视化方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111709492A true CN111709492A (zh) | 2020-09-25 |
Family
ID=72546463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010632086.5A Pending CN111709492A (zh) | 2020-07-03 | 2020-07-03 | 高维电子医疗记录表的降维可视化方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709492A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298289A (zh) * | 2021-04-14 | 2021-08-24 | 北京市燃气集团有限责任公司 | 一种对燃气用户的燃气用气量进行预测的方法及装置 |
CN116542956A (zh) * | 2023-05-25 | 2023-08-04 | 广州机智云物联网科技有限公司 | 一种织物组分自动检测方法、***及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427966A (zh) * | 2018-03-12 | 2018-08-21 | 成都信息工程大学 | 一种基于pca-lda的医学图像处理***及方法 |
CN109829587A (zh) * | 2019-02-12 | 2019-05-31 | 国网山东省电力公司电力科学研究院 | 基于深度lstm网络的小区域级超短期负荷预测及可视化方法 |
CN110955809A (zh) * | 2019-11-27 | 2020-04-03 | 南京大学 | 一种支持拓扑结构保持的高维数据可视化方法 |
-
2020
- 2020-07-03 CN CN202010632086.5A patent/CN111709492A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427966A (zh) * | 2018-03-12 | 2018-08-21 | 成都信息工程大学 | 一种基于pca-lda的医学图像处理***及方法 |
CN109829587A (zh) * | 2019-02-12 | 2019-05-31 | 国网山东省电力公司电力科学研究院 | 基于深度lstm网络的小区域级超短期负荷预测及可视化方法 |
CN110955809A (zh) * | 2019-11-27 | 2020-04-03 | 南京大学 | 一种支持拓扑结构保持的高维数据可视化方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298289A (zh) * | 2021-04-14 | 2021-08-24 | 北京市燃气集团有限责任公司 | 一种对燃气用户的燃气用气量进行预测的方法及装置 |
CN116542956A (zh) * | 2023-05-25 | 2023-08-04 | 广州机智云物联网科技有限公司 | 一种织物组分自动检测方法、***及可读存储介质 |
CN116542956B (zh) * | 2023-05-25 | 2023-11-17 | 广州机智云物联网科技有限公司 | 一种织物组分自动检测方法、***及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lanitis et al. | Automatic face identification system using flexible appearance models | |
CN110464366A (zh) | 一种情绪识别方法、***及存储介质 | |
Akakin et al. | Content-based microscopic image retrieval system for multi-image queries | |
Bass et al. | Icam: Interpretable classification via disentangled representations and feature attribution mapping | |
Šajn et al. | Image processing and machine learning for fully automated probabilistic evaluation of medical images | |
Tang et al. | Research on medical image classification based on machine learning | |
CN108403105B (zh) | 一种心电散点的展示方法及展示装置 | |
KR102162683B1 (ko) | 비정형 피부질환 영상데이터를 활용한 판독보조장치 | |
CN111709492A (zh) | 高维电子医疗记录表的降维可视化方法、装置及存储介质 | |
Huang et al. | A multiview feature fusion model for heartbeat classification | |
Messadi et al. | Extraction of specific parameters for skin tumour classification | |
Mishne et al. | Automated cellular structure extraction in biological images with applications to calcium imaging data | |
WO2023097780A1 (zh) | 机械通气过程中人机异步现象的分类方法和分类装置 | |
CN114242243A (zh) | 用户健康评估方法、装置、设备以及存储介质 | |
Breve et al. | Visual ECG Analysis in Real-world Scenarios. | |
Hortinela IV et al. | Development of abnormal red blood cells classifier using image processing techniques with support vector machine | |
CN111275754B (zh) | 一种基于深度学习的脸部痘印比例计算方法 | |
CN114999638B (zh) | 基于人工智能医疗诊断用的大数据可视化处理方法及*** | |
Jin et al. | Simulated multimodal deep facial diagnosis | |
CN112561935B (zh) | 一种大脑影像智能分类方法、装置和设备 | |
Laskaris et al. | Fuzzy description of skin lesions | |
CN112289444B (zh) | 一种患者潜在重要信息的确定方法和装置 | |
Narlagiri et al. | Biometric authentication system based on face recognition | |
Piątkowska et al. | Spontaneous facial expression recognition: automatic aggression detection | |
Yu et al. | Research on 3D Medical Image Segmentation based on improved 3D-Unet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 116000 room 206, no.8-9, software garden road, Ganjingzi District, Dalian City, Liaoning Province Applicant after: Neusoft Education Technology Group Co.,Ltd. Address before: 116000 room 206, no.8-9, software garden road, Ganjingzi District, Dalian City, Liaoning Province Applicant before: Dalian Neusoft Education Technology Group Co.,Ltd. |