CN114220549A - 一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法 - Google Patents

一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法 Download PDF

Info

Publication number
CN114220549A
CN114220549A CN202111547034.9A CN202111547034A CN114220549A CN 114220549 A CN114220549 A CN 114220549A CN 202111547034 A CN202111547034 A CN 202111547034A CN 114220549 A CN114220549 A CN 114220549A
Authority
CN
China
Prior art keywords
feature
features
model
medical
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111547034.9A
Other languages
English (en)
Inventor
武星
钟鸣宇
陈成
赵明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Zhongdun Technology Co ltd
Original Assignee
Wuxi Zhongdun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Zhongdun Technology Co ltd filed Critical Wuxi Zhongdun Technology Co ltd
Priority to CN202111547034.9A priority Critical patent/CN114220549A/zh
Publication of CN114220549A publication Critical patent/CN114220549A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明揭示了一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法,包括从电子病历中采集医学数据;通过多种特征选择方法将特征空间解耦成多个有效特征的组合;比较不同的特征选择方法,说明在因果推理领域采用SHAP value的合理性;基于SHAP对模型特征进行评估,分析特征空间与预测结果间的关联;将因果信息纳入特征空间,构建可解释机器学习模型;根据不同的因果模型,用各种Shapley Values提供合理的解释;输出每个特征的重要程度、对样本的贡献度和与预测结果的因果关系。本发明实现了根据有效特征来解释病情发展和进行疾病推理,提高了模型的效果和可解释性以及疾病诊断的准确性。

Description

一种基于可解释机器学习的有效生理学特征选择和医学因果 推理方法
技术领域
本发明涉及计算机和医学领域,特别是涉及一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法。
背景技术
如今,随着人工智能的快速发展,智能医疗领域也得到了迅速的发展。其中,基于医学电子病历展开的智能疾病推理与诊断技术在医疗领域取得了广泛应用。
医学大数据存在数据量大、高维数、高噪声、多样性、复杂性、难理解性、不确定性以及数据分布不平衡等特点。其中,电子病历是医疗大数据中非常重要的组成部分,它包括病人的多个病理学特征、疾病历史数据、检查结果等不同类型的文本信息,并记录了各种诊疗行为下的效果跟踪。如果基于电子病历中的医学数据,可以得出人口学信息、临床指标、治疗方法等不同特征和治疗效果之间的关系,那么我们能很好地从海量医学数据中选出最有效的数据对疾病进行解释。从而帮助病人选择最佳的治疗方案,提高医生的诊断效率,降低医疗成本。
在现实生活中,机器学习的模型决策规则通常难以被清晰表示出来。其学习特征表达的过程通常是一个“黑盒模型”,无法展示出其运行的逻辑规则和关联关系,即缺乏可解释性。针对结构化的数据以及分类任务,集成模型往往会有较好的效果,对于集成学习方法,效果虽好,但也一直无法解决可解释性的问题。所以对于特定的一个样本,我们无法知道这个样本中每个特征值是否真的有效,以及它是如何影响最终结果的。因此,借助基于可解释机器学习的特征选择方法,从数据有效性的角度进行医学因果推理,是很有必要的。
发明内容
本发明的目的在于,提供一种基于可解释机器学习的特征选择和医学因果推理方法,实现通过有效生理学特征和临床指标来解释病情发展情况以及进行疾病推理,提高模型效果和疾病诊断过程中的准确性。
为解决上述技术问题,本发明提供一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法,从特征和结果的角度进行分析,获得样本每个特征与其结果之间的关系,包括如下步骤:
S100、医学数据采集:通过医学电子病历采集病人的生理数据及病情发展情况,得到一个特征空间,并将数据传输至样本数据库;
S200、特征空间解耦:通过多种特征选择方法,保留得分最高的前K个特征,去除不相关特征,将特征空间解耦为用多个有效特征组合的新特征空间,使其能够生成用户希望的数据样本;
S300、特征选择方法对比:通过比较不同特征选择方法所选的有效特征组合的新特征空间,对比不同特征选择方法的适用场景和局限性,说明在因果推理领域采用SHAPvalue选择特征的合理性;
S400、模型特征评估:基于SHAP分析特征对于最终预测结果产生的影响,利用模型所学习得到的特征权重来分析出特征对于预测结果的贡献,并启发式地发现特征间的组合关联关系;
S500、纳入因果信息:对机器学习模型的特征空间纳入因果信息,提供一个多层次框架理解的认知机制,展现出模型特征空间之间以及与预测结果之间的关联或因果关系,从而构建更符合人类认知的可解释的机器学习模型;
S600、医学因果推s理:利用选择的有效特征和构建的可解释机器学习模型,对疾病的分期和分型进行推理,对病情的发展情况进行解释;
S700、分析结果展示:输出每种特征选择方法下每个特征的得分和排名,展示每个特征的重要程度、对样本正负预测的贡献度以及与模型预测结果的关系。
进一步的,在步骤S100中,所述特征包括年龄、性别、BMI 指数、血压等病人生理学特征以及血清含量、药物剂量等不同疾病的临床指标特征。
进一步的,在步骤S200中,所述特征选择方法具体包括:
S201、使用方差分析法,选择最高得分的k个特征;
S202、使用Pearson相关系数法,选择最高得分的k个特征;
S203、使用递归特征消除,选择最高得分的k个特征;
S204、使用交叉验证进行单变量选择,选择最高评分的k个特征;
S205、使用基于树模型的特征选择方法,选择最高得分的k个特征。
进一步的,在步骤S300中,不同特征选择方法的比较内容包括:基本思想、算法步骤、适用场景、选择结果、局限性等。
进一步的,在步骤S400中,所述模型特征评估包括如下步骤:
S401、使用Feature importance直观地反映出每个特征的重要性,看出哪些特征对最终的模型影响较大;
S402、使用LIME模型从原有复杂模型中导出线性模型,使得线性模型能够模拟原模型的行为,进一步利用线性模型所学习得到的特征权重来分析特征对于预测结果的贡献;
S403、使用SHAP算法框架,对特征以及特征子集的组合进行分析,为每个样本绘制其每个特征的SHAP值,得出样本中每个特征的重要性、对样本正负预测的贡献度以及与模型预测结果的关系。
进一步的,在步骤S500中,所述纳入因果信息包括如下步骤:
S501、使用Causal Shapley Values,展现出模型特征空间之间以及与预测结果之间的关联或因果关系,从而实现可解释的机器学习模型;
S502、将因果推理与Shapley框架相结合,通过纳入因果信息改善模型的解释性,在不同因果模型下用各种Shapley Values提供解释。
进一步的,在步骤S600中,所述医学因果推理包括如下步骤:
S601、根据所选的有效特征对病情的发展情况进行解释;
S602、根据有效特征空间和可解释机器学习模型,对疾病的分期和分型进行推理。
进一步的,在步骤S201中,先要计算各个特征的方差,得到特征排名,然后根据阈值,选择方差大于阈值的特征。
进一步的,在步骤S202中,先要计算每个特征的得分与P值,得到特征排名,然后根据特征和响应变量之间的相关性,进行特征选择。
进一步的,在步骤S203中,先用一个基模型来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练,最后得到所有特征的排名,选择特征。
进一步的,在步骤S204中,针对每个单独的特征和响应变量先建立预测模型,然后运用交叉验证进行单变量选择,最后根据交叉验证的得分选择特征。
进一步的,在步骤S205中,先计算特征的重要程度,去除不相关的特征,最后得到所有特征的排名,进行特征选择。
进一步的,在步骤S402中,使用LIME进行模型特征评估的问题可以表达为:
Figure BDA0003416051590000051
其中,f表示原有复杂模型,g表示能够模拟原模型行为的线性模型,G是简单模型的一个集合(如所有可能的线性模型),πx表示新数据集中的数据x'与原始数据x的距离,Ω(g)表示线性模型g的复杂程度,然后利用线性模型g所学习得到的特征权重来分析特征对于预测结果的贡献。
进一步的,在步骤S403中,每个特征i的SHAP value具体计算公式为:
Figure BDA0003416051590000061
其中,|F|!表示所有特征的排列组合,|S|!表示i前特征的排列组合, (|F|-|S|-1)!表示i后特征的排列组合,fS∪{i}(xS∪{i})-fS(xS)表示新增特征i 前后的变化值。
进一步的,在步骤S501中,每个特征i的Causal Shapley Values 具体计算公式为:
φi(π)=v({j:j≤πi})-v({j:j<πi})
其中,i表示不同的特性,i∈N,N={1,...,n}和n表示特征的数量。
要从不知道任何特征值到知道所有特征值,我们可以一个接一个地添加特征值,按π顺序将特征设置为它们的值,j≤πi表示特征j在序列π中排在特征i之前,φi(π)表示将特征的贡献定义为设置值前后值函数的差值。
我们选择的值函数为:
Figure BDA0003416051590000062
其中,S表示具有已知特征值xS的“联盟内”索引的子集,
Figure BDA0003416051590000063
表示S 的补集,do表示干预。如果我们主动地将特征i设置为值Xi,则通过对特征i的(平均)预测来测量特征i的相关性。
进一步的,在步骤S502中,不同因果模型下的各种Shapley Value的计算公式如下:
Figure BDA0003416051590000071
其中,S={j:j<πi},
Figure BDA0003416051590000072
通过上述技术方案,本发明具有以下效果:
本发明结构设计合理,在多种特征选择方法下生成有效特征组成的新特征空间,对机器学习模型的特征空间引入因果推理,利用 SHAP对特征以及特征的组合进行分析,最终计算出每个特征的重要度、对样本正负预测的贡献度以及与模型预测结果的关系,能够实现通过有效生理学特征和临床指标来解释病情发展情况,提高模型效果和疾病诊断过程中的准确性。
附图说明
图1为本发明基于可解释机器学习的特征选择和医学因果推理方法的流程框图;
图2为本发明基于可解释机器学习的特征选择和医学因果推理方法中的前K个有效特征排序的结果示意图;
图3为本发明基于可解释机器学习的特征选择和医学因果推理方法中使用SHAPvalue进行特征重要性评估的结果示意图;
图4为本发明基于可解释机器学习的特征选择和医学因果推理方法中的SHAP算法框架图;
图5为本发明基于可解释机器学习的特征选择和医学因果推理方法中的对不同因果模型的各种Shapley Values所提供的解释模式示意图;
图6为本发明基于可解释机器学习的特征选择和医学因果推理方法中使用有效特征对疾病进行因果推理的示意图。
具体实施方式
下面将结合示意图对本发明的基于可解释机器学习的特征选择和医学因果推理方法进行更详细的描述,其中表示了本发明的优选实施例,应该理解本领域技术人员可以修改在此描述的本发明,而仍然实现本发明的有利效果。因此,下列描述应当被理解为对于本领域技术人员的广泛知道,而并不作为对本发明的限制。
在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
如图1所示,本发明实施例提出了一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法,从特征和结果的角度进行分析,获得样本每个特征与其结果之间的关系,包括如下步骤:
S100、医学数据采集:通过医学电子病历采集病人的生理数据及病情发展情况,得到一个特征空间,并将数据传输至样本数据库;
S200、特征空间解耦:通过多种特征选择方法,保留得分最高的前K个特征,去除不相关特征,将特征空间解耦为用多个有效特征组合的新特征空间,使其能够生成用户希望的数据样本;
S300、特征选择方法对比:通过比较不同特征选择方法所选的有效特征组合的新特征空间,对比不同特征选择方法的适用场景和局限性,说明在因果推理领域采用SHAPvalue选择特征的合理性;
S400、模型特征评估:基于SHAP分析特征对于最终预测结果产生的影响,利用模型所学习得到的特征权重来分析出特征对于预测结果的贡献,并启发式地发现特征间的组合关联关系;
S500、纳入因果信息:对机器学习模型的特征空间纳入因果信息,提供一个多层次框架理解的认知机制,展现出模型特征空间之间以及与预测结果之间的关联或因果关系,从而构建更符合人类认知的可解释的机器学习模型;
S600、医学因果推理:利用选择的有效特征和构建的可解释机器学习模型,对疾病的分期和分型进行推理,对病情的发展情况进行解释;
S700、分析结果展示:输出每种特征选择方法下每个特征的得分和排名,展示每个特征的重要程度、对样本正负预测的贡献度以及与模型预测结果的关系。
在本实施方式中,在步骤S100中所述的原始医学数据从医学电子病历中获取。电子病历是病人在医院诊断治疗全过程的原始记录,它包含有首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等海量医学数据。电子病历不仅指静态病历信息,还包括提供的相关服务,并记录了各种诊疗行为下的效果跟踪。它是以电子化方式管理的有关个人终生健康状态和医疗保健行为的信息,涉及病人信息的采集、存储、传输、处理和利用的所有过程信息。因此,从电子病历中提取有效生理学特征,对病情发展情况加以解释是及其重要的。
以下列举所述基于可解释机器学习的有效生理学特征选择和医学因果推理方法的较优实施例,以清楚的说明本发明的内容,应当明确的是,本发明的内容并不限制于以下实施例,其他通过本领域普通技术人员的常规技术手段的改进亦在本发明的思想范围之内。
本发明实施例提出了一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法,具体地对每一步骤进行详细说明。
步骤S100、医学数据采集:通过医学电子病历采集病人的生理数据及病情发展情况,得到一个特征空间,并将数据传输至样本数据库;
具体的,所述特征包括年龄、性别、BMI指数、血压等病人生理学特征以及血清含量、药物剂量等不同疾病的临床指标特征;
步骤S200、特征空间解耦:通过多种特征选择方法,保留得分最高的前2个特征,去除不相关特征,将特征空间解耦为用多个有效特征组合的新特征空间,使其能够生成用户希望的数据样本;
具体的,特征选择的目的是选择出重要的特征,缓解维数灾难问题,减少训练时间;去除不相关特征,降低学习任务的难度;增强模型泛化能力,减少过拟合;增强对特征和特征值的理解。传统的特征选择方法,根据特征是否发散以及特征与目标的相关性,可以分为过滤式、包裹式和嵌入式三种。使用不同的特征选择方法对医学电子病历中的特征进行排序,并选择得分最高的前2个作为有效特征,生成新的特征空间,如图2所示;
具体的,特征选择方法具体包括:
步骤S201、使用方差分析法,选择最高得分的2个特征;
具体的,先要计算各个特征的方差,得到特征排名,然后根据阈值,选择方差大于阈值的特征;
步骤S202、使用Pearson相关系数法,选择最高得分的2个特征;
具体的,先要计算每个特征的得分与P值,得到特征排名,然后根据特征和响应变量之间的相关性,进行特征选择;
步骤S203、使用递归特征消除,选择最高得分的2个特征;
具体的,先用一个基模型来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练,最后得到所有特征的排名,选择特征;
步骤S204、使用交叉验证进行单变量选择,选择最高评分的2 个特征;
具体的,针对每个单独的特征和响应变量先建立预测模型,然后运用交叉验证进行单变量选择,最后根据交叉验证的得分选择特征;
步骤S205、使用基于树模型的特征选择方法,选择最高得分的 2个特征。
具体的,先计算特征的重要程度,去除不相关的特征,最后得到所有特征的排名,进行特征选择;
步骤S300、特征选择方法对比:通过比较不同特征选择方法所选的有效特征组合的新特征空间,对比不同特征选择方法的适用场景和局限性,说明在因果推理领域采用SHAP value选择特征的合理性;
具体的,不同特征选择方法的比较内容包括:基本思想、算法步骤、适用场景、选择结果、局限性等;
步骤S400、模型特征评估:基于SHAP分析特征对于最终预测结果产生的影响,利用模型所学习得到的特征权重来分析出特征对于预测结果的贡献,并启发式地发现特征间的组合关联关系;
具体的,特征评估的目的是尝试深入探究模型输入与输出之间的关系,对特征与结果之间的关联关系或者因果关系进行直观上的分析。分析数据特征对于最终预测结果产生的影响是解释模型的关键,线性模型因其特征与权重呈线性表达,因此可以较为容易地分析出特征对于模型结果的贡献。从本质上来讲,此类工作通过线性模型来局部拟合原有模型的分类面,并借助于线性模型的良好解释性来完成对原模型的解释。
模型特征评估包括如下步骤:
步骤S401、使用Feature importance直观地反映出每个特征的重要性,看出哪些特征对最终的模型影响较大;
步骤S402、使用LIME模型从原有复杂模型中导出线性模型,使得线性模型能够模拟原模型的行为,进一步利用线性模型所学习得到的特征权重来分析特征对于预测结果的贡献;
具体的,使用LIME进行模型特征评估的问题可以表达为:
Figure BDA0003416051590000131
其中,f表示原有复杂模型,g表示能够模拟原模型行为的线性模型,G是简单模型的一个集合(如所有可能的线性模型),πx表示新数据集中的数据×′与原始数据×的距离,Ω(g)表示线性模型g的复杂程度,然后利用线性模型g所学习得到的特征权重来分析特征对于预测结果的贡献;
步骤S403、使用SHAP算法框架,对特征以及特征子集的组合进行分析,为每个样本绘制其每个特征的SHAP值,得出样本中每个特征的重要性、对样本正负预测的贡献度以及与模型预测结果的关系,如图3所示;
具体的,每个特征i的SHAP value具体计算公式为:
Figure BDA0003416051590000132
其中,|F|!表示所有特征的排列组合,|S|!表示i前特征的排列组合, (|F|-|S|-1)!表示i后特征的排列组合,fS∪{i}(xS∪{i})-fS(xS)表示新增特征i 前后的变化值;
如图4所示,SHAP框架具有精确,严格的理论基础,其描述语言与机器学习模型无关,满足一组直观的数学公理,能够为人工智能的可解释性提供一种便利而有用的框架。SHAP value解决了多重共线性问题,不仅考虑单个变量的影响,而且考虑变量组的影响,变量之间可能存在协同效应。所以在因果推理时,采用SHAP value是合理的;
步骤S500、纳入因果信息:对机器学习模型的特征空间纳入因果信息,提供一个多层次框架理解的认知机制,展现出模型特征空间之间以及与预测结果之间的关联或因果关系,从而构建更符合人类认知的可解释的机器学习模型;
具体的,所述纳入因果信息包括如下步骤:
步骤S501、使用Causal Shapley Values,展现出模型特征空间之间以及与预测结果之间的关联或因果关系,从而实现可解释的机器学习模型;
具体的,每个特征i的Causal Shapley Values具体计算公式为:
φi(π)=v({j:j≤πi})-v({j:j<πi})
其中,i表示不同的特性,i∈N,N={1,...,n}和n表示特征的数量。
要从不知道任何特征值到知道所有特征值,我们可以一个接一个地添加特征值,按π顺序将特征设置为它们的值,j≤πi表示特征j在序列π中排在特征i之前,φi(π)表示将特征的贡献定义为设置值前后值函数的差值。
我们选择的值函数为:
Figure BDA0003416051590000141
其中,S表示具有已知特征值xS的“联盟内”索引的子集,
Figure BDA0003416051590000142
表示S 的补集,do表示干预。如果我们主动地将特征i设置为值Xi,则通过对特征i的(平均)预测来测量特征i的相关性;
步骤S502、将因果推理与Shapley框架相结合,通过纳入因果信息改善模型的解释性,在不同因果模型下用各种Shapley Values 提供解释;
具体的,参考图5,不同因果模型下的各种Shapley Value的计算公式如下:
Figure BDA0003416051590000151
其中,S={j:j<πi},
Figure BDA0003416051590000152
步骤S600、医学因果推理:利用选择的有效特征和构建的可解释机器学习模型,对疾病的分期和分型进行推理,对病情的发展情况进行解释;
具体的,医学因果推理包括如下步骤:
步骤S601、根据所选的有效特征对病情的发展情况进行解释;
步骤S602、根据有效特征空间和可解释机器学习模型,对疾病的分期和分型进行推理,如图6所示;
步骤S700、分析结果展示:输出每种特征选择方法下每个特征的得分和排名,展示每个特征的重要程度、对样本正负预测的贡献度以及与模型预测结果的关系。
综上所述,本发明相对于现有技术,具有如下优势:
(1)在多种特征选择方法下生成有效特征组成的新特征空间,对比不同特征选择方法的适用场景,说明在因果推理领域采用其他方法的局限性以及采用SHAP value选择特征的合理性;
(2)基于SHAP框架对特征以及特征的组合进行分析,得出每个特征的重要度、对样本正负预测的贡献度以及与模型预测结果的关系,更好地理解模型产生的预测,提高模型效果;
(3)将因果术语和因果模型理论引入机器学习模型的特征空间,根据不同的因果模型,用各种ShapleyValues提供合理的解释,提高机器学习的可解释性;
(4)根据有效生理学特征和临床指标对病情发展情况进行解释,根据有效特征空间和可解释机器学习模型对疾病的分期和分型进行推理,提高疾病诊断的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

1.一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,从特征和结果的角度进行分析,获得样本每个特征与其结果之间的关系,通过有效生理学特征和临床指标来解释病情发展情况,包括如下步骤:
S100、医学数据采集:通过医学电子病历采集病人的生理数据及病情发展情况,得到一个特征空间,并将数据传输至样本数据库;
S200、特征空间解耦:通过多种特征选择方法,保留得分最高的前K个特征,去除不相关特征,将特征空间解耦为用多个有效特征组合的新特征空间,使其能够生成用户希望的数据样本;
S300、特征选择方法对比:通过比较不同特征选择方法所选的有效特征组合的新特征空间,对比不同特征选择方法的适用场景和局限性,说明在因果推理领域采用SHAP value选择特征的合理性;
S400、模型特征评估:基于SHAP分析特征对于最终预测结果产生的影响,利用模型所学习得到的特征权重来分析出特征对于预测结果的贡献,并启发式地发现特征间的组合关联关系;
S500、纳入因果信息:对机器学习模型的特征空间纳入因果信息,提供一个多层次框架理解的认知机制,展现出模型特征空间之间以及与预测结果之间的关联或因果关系,从而构建更符合人类认知的可解释的机器学习模型;
S600、医学因果推理:利用选择的有效特征和构建的可解释机器学习模型,对疾病的分期和分型进行推理,对病情的发展情况进行解释;
S700、分析结果展示:输出每种特征选择方法下每个特征的得分和排名,展示每个特征的重要程度、对样本正负预测的贡献度以及与模型预测结果的关系。
2.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,在步骤S100中,所述特征包括年龄、性别、BMI指数、血压等病人生理学特征以及血清含量、药物剂量等不同疾病的临床指标特征。
3.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,在步骤S200中,所述特征选择方法具体包括:
S201、使用方差分析法,选择最高得分的k个特征;
S202、使用Pearson相关系数法,选择最高得分的k个特征;
S203、使用递归特征消除,选择最高得分的k个特征;
S204、使用交叉验证进行单变量选择,选择最高评分的k个特征;
S205、使用基于树模型的特征选择方法,选择最高得分的k个特征。
4.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,在步骤S201中,先要计算各个特征的方差,得到特征排名,然后根据阈值,选择方差大于阈值的特征。
5.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,在步骤S202中,先要计算每个特征的得分与P值,得到特征排名,然后根据特征和响应变量之间的相关性,进行特征选择。
6.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,在步骤S203中,先用一个基模型来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练,最后得到所有特征的排名,选择特征。
7.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,在步骤S204中,针对每个单独的特征和响应变量先建立预测模型,然后运用交叉验证进行单变量选择,最后根据交叉验证的得分选择特征。
8.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,在步骤S205中,先计算特征的重要程度,去除不相关的特征,最后得到所有特征的排名,进行特征选择。
9.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,在步骤S300中,不同特征选择方法的比较内容包括:基本思想、算法步骤、适用场景、选择结果、局限性等。
10.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,在步骤S400中,所述模型特征评估包括如下步骤:
S401、使用Feature importance直观地反映出每个特征的重要性,看出哪些特征对最终的模型影响较大;
S402、使用LIME模型从原有复杂模型中导出线性模型,使得线性模型能够模拟原模型的行为,进一步利用线性模型所学习得到的特征权重来分析特征对于预测结果的贡献;
S403、使用SHAP算法框架,对特征以及特征子集的组合进行分析,为每个样本绘制其每个特征的SHAP值,得出样本中每个特征的重要性、对样本正负预测的贡献度以及与模型预测结果的关系。
11.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,在步骤S402中,使用LIME进行模型特征评估的问题可以表达为:
Figure FDA0003416051580000041
其中,f表示原有复杂模型,g表示能够模拟原模型行为的线性模型,G是简单模型的一个集合(如所有可能的线性模型),πx表示新数据集中的数据x'与原始数据x的距离,Ω(g)表示线性模型g的复杂程度,然后利用线性模型g所学习得到的特征权重来分析特征对于预测结果的贡献。
12.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,在步骤S403中,每个特征i的SHAPvalue具体计算公式为:
Figure FDA0003416051580000051
其中,|F|!表示所有特征的排列组合,|S|!表示i前特征的排列组合,(|F|-|S|-1)!表示i后特征的排列组合,fS∪{i}(xS∪{i})-fS(xS)表示新增特征i前后的变化值。
13.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,在步骤S500中,所述纳入因果信息包括如下步骤:
S501、使用Causal Shapley Values,展现出模型特征空间之间以及与预测结果之间的关联或因果关系,从而实现可解释的机器学习模型;
S502、将因果推理与Shapley框架相结合,通过纳入因果信息改善模型的解释性,在不同因果模型下用各种Shapley Values提供解释。
14.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,在步骤S501中,每个特征i的Causal Shapley Values具体计算公式为:
φi(π)=v({j:j≤πi})-v({j:j<πi})
其中,i表示不同的特性,i∈N,N={1,...,n}和n表示特征的数量,π表示按π顺序将特征设置为它们的值,j≤πi表示特征j在序列π中排在特征i之前,φi(π)表示将特征的贡献定义为设置值前后值函数的差值。
我们选择的值函数为:
Figure FDA0003416051580000061
其中,S表示具有已知特征值xs的“联盟内”索引的子集,
Figure FDA0003416051580000062
表示S的补集,do表示干预。如果我们主动地将特征i设置为值Xi,则通过对特征i的(平均)预测来测量特征i的相关性。
15.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,在步骤S502中,不同因果模型下的各种Shapley Value的计算公式如下:
Figure FDA0003416051580000063
其中,S={j:j<πi},
Figure FDA0003416051580000064
16.如权利要求1所述的基于可解释机器学习的有效生理学特征选择和医学因果推理方法,其特征在于,在步骤S600中,所述医学因果推理包括如下步骤:
S601、根据所选的有效特征对病情的发展情况进行解释;
S602、根据有效特征空间和可解释机器学习模型,对疾病的分期和分型进行推理。
CN202111547034.9A 2021-12-16 2021-12-16 一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法 Withdrawn CN114220549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111547034.9A CN114220549A (zh) 2021-12-16 2021-12-16 一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111547034.9A CN114220549A (zh) 2021-12-16 2021-12-16 一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法

Publications (1)

Publication Number Publication Date
CN114220549A true CN114220549A (zh) 2022-03-22

Family

ID=80703277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111547034.9A Withdrawn CN114220549A (zh) 2021-12-16 2021-12-16 一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法

Country Status (1)

Country Link
CN (1) CN114220549A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115728463A (zh) * 2022-12-01 2023-03-03 哈尔滨工业大学 一种基于半嵌入式特征选择的可解释性水质预测方法
CN115953248A (zh) * 2023-03-01 2023-04-11 支付宝(杭州)信息技术有限公司 基于沙普利可加性解释的风控方法、装置、设备及介质
CN116597902A (zh) * 2023-04-24 2023-08-15 浙江大学 基于药物敏感性数据的多组学生物标志物筛选方法和装置
CN116704208A (zh) * 2023-08-04 2023-09-05 南京理工大学 基于特征关系的局部可解释方法
WO2023221739A1 (zh) * 2022-05-20 2023-11-23 之江实验室 一种基于因果校验数据生成的全科多疾病预测***
WO2024008043A1 (zh) * 2022-07-05 2024-01-11 浙江大学 一种基于因果关系挖掘的临床数据自动化生成方法及***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023221739A1 (zh) * 2022-05-20 2023-11-23 之江实验室 一种基于因果校验数据生成的全科多疾病预测***
WO2024008043A1 (zh) * 2022-07-05 2024-01-11 浙江大学 一种基于因果关系挖掘的临床数据自动化生成方法及***
CN115728463A (zh) * 2022-12-01 2023-03-03 哈尔滨工业大学 一种基于半嵌入式特征选择的可解释性水质预测方法
CN115953248A (zh) * 2023-03-01 2023-04-11 支付宝(杭州)信息技术有限公司 基于沙普利可加性解释的风控方法、装置、设备及介质
CN116597902A (zh) * 2023-04-24 2023-08-15 浙江大学 基于药物敏感性数据的多组学生物标志物筛选方法和装置
CN116597902B (zh) * 2023-04-24 2023-12-01 浙江大学 基于药物敏感性数据的多组学生物标志物筛选方法和装置
CN116704208A (zh) * 2023-08-04 2023-09-05 南京理工大学 基于特征关系的局部可解释方法
CN116704208B (zh) * 2023-08-04 2023-10-20 南京理工大学 基于特征关系的局部可解释方法

Similar Documents

Publication Publication Date Title
Ahmadi et al. Diseases diagnosis using fuzzy logic methods: A systematic and meta-analysis review
CN114220549A (zh) 一种基于可解释机器学习的有效生理学特征选择和医学因果推理方法
Weng et al. Disease prediction with different types of neural network classifiers
Qian et al. A relative similarity based method for interactive patient risk prediction
Christo et al. Feature selection and instance selection from clinical datasets using co-operative co-evolution and classification using random forest
Subanya et al. Feature selection using artificial bee colony for cardiovascular disease classification
Ramezani et al. A novel hybrid intelligent system with missing value imputation for diabetes diagnosis
Rahman et al. Using and comparing different decision tree classification techniques for mining ICDDR, B Hospital Surveillance data
CN109935337B (zh) 一种基于相似性度量的病案查找方法及***
Anouncia et al. Design of a diabetic diagnosis system using rough sets
Ravuri et al. Learning from the experts: From expert systems to machine-learned diagnosis models
Chou et al. Extracting drug utilization knowledge using self-organizing map and rough set theory
Holmes Evolution-assisted discovery of sentinel features in epidemiologic surveillance
Tripathy et al. Innovative classification, regression model for predicting various diseases
Hooda et al. Examining the effectiveness of machine learning algorithms as classifiers for predicting disease severity in data warehouse environments
Christopher et al. Knowledge-based systems and interestingness measures: Analysis with clinical datasets
CN117150030A (zh) 基于改进的TransH的知识推理方法、装置和设备
Al Sukar et al. Identifying a drug addict person using artificial neural networks
Mehrankia et al. Prediction of heart attacks using biological signals based on recurrent GMDH neural network
Faizal et al. Weighted Minkowski similarity method with CBR for diagnosing cardiovascular disease
Nahian et al. Common human diseases prediction using machine learning based on survey data
Juliet Investigations on machine learning models for mental health analysis and prediction
Ngueilbaye et al. Comparative study of data mining techniques on heart disease prediction system: a case study for the “republic of chad”
Nyamathulla et al. Predicting heart disease with hybrid machine learning algorithms
Melek et al. A theoretic framework for intelligent expert systems in medical encounter evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220322