CN113436745A

CN113436745A - 一种基于数据库分析的人工智能辅助诊断方法

Info

Publication number: CN113436745A
Application number: CN202110731834.XA
Authority: CN
Inventors: 朱婷; 张伟; 胡耀; 袁敏兰
Original assignee: West China Hospital of Sichuan University
Current assignee: West China Hospital of Sichuan University
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-24

Abstract

本发明公开了一种基于数据库分析的人工智能辅助诊断方法，包括以下步骤：S1：建立数据集，S2：将步骤S1中得到的数据集导入到机器学习模型中，得到多组分类预测结果；S3：将步骤S2中得到的多组分类预测结果进行评价。本发明融合了电子病历***中的结构化数据和非结构化数据，实现了从患者个体多维度信息融合的角度构建人工智能辅助诊断方法，辅助诊断***进行临床诊断决策，对获得的多组分类预测结果进行评价，保证预测结果的可靠性，具有很高的临床适用性和推广性。

Description

一种基于数据库分析的人工智能辅助诊断方法

技术领域

本发明涉及人工智能辅助诊断技术领域，特别是一种基于数据库分析的人工智能辅助诊断方法。

背景技术

随着医疗健康信息化的快速发展，医疗机构及各类医疗健康服务型企业会产生大量的医疗健康数据，包括医疗图像、电子病历、健康档案等，人工智能技术能够对这些医疗大数据进行语义分析和数据挖掘，并实现对部分疾病的早期预警或自动诊断。人工智能技术能够使得多级医疗机构和智慧医疗服务终端逐步达到电子信息化和智能化，便于实现优质医疗资源的扩大化利用。例如，人工智能辅助诊断可以将优质医疗资源的诊断经验下沉到社区或二级医院，扩充优质医疗资源的辐射范围和产能。为了对患者疾病更好的诊断，就需要借助到人工智能辅助诊断***进行辅助处理。

目前的诊断***在对患者就诊信息进行采样分析时，一方面采样方式简单，缺少采样关键词防错机制，容易造成医学名词的分离；通常基于医生经验进行分析，存在较大的主观性，在患者数量较大的情况下，无法同时对基本信息、住院信息、诊断信息、费用信息、生命体征数值和检查信息等关键信息进行全面有效的利用，且存在大量冗杂和无关信息，使得诊断时间较长，无法保证诊断***的可靠性和准确性；此外，现有诊断***不具备诊断结果评价的功能，数据可靠性无法验证。

发明内容

本发明的目的在于克服现有人工智能辅助诊断***临床适用性较低、推广性较差的问题，提供一种基于数据库分析的人工智能辅助诊断方法。

一种基于数据库分析的人工智能辅助诊断方法，包括以下步骤：

S1：建立数据集，包括

S1.1将病人信息进行合并，形成样本集；

S1.2在样本集中输入主诉症状文本信息，形成数据库样本集；

S1.3对数据库样本集进行清洗和处理；

S1.4采用假设检验的方式对清洗和处理后的数据库样本集进行特征筛选，筛选出的显著变量构成数据集；

S1.5对数据集进行样本平衡；

S2：将步骤S1中得到的数据集导入到机器学习模型中，得到多组分类预测结果；

S3：将步骤S2中得到的多组分类预测结果进行评价。

进一步的，所述步骤S1.1中的病人信息包括基本信息、住院信息、诊断信息、费用信息、生命体征数值和检查信息。

进一步的，所述步骤S1.2的主诉症状文本信息处理方式为，运用自然语言分词方法，对记录患者主要症状和当前情绪状态的描述性文本数据(主诉)等非结构化数据进行了去除所有数字和标点符号处理；所述文本数据由R语言里的jieba包拆分成词，通过添加一些停用词、医学词典以及结合医生的人工经验，防止医学术语不被拆分，使得分词更为准确。

进一步的，所述步骤S1.3中对样本集进行清洗和处理的方式为数据删失、构造新变量、补充缺失数据、对数据进行分类和合并。

进一步的，所述步骤S1.5中的样本平衡方式为过采样和欠采样。

进一步的，所述步骤S2中采用的机器学习模型为支持向量机(SVM)算法、Logistics 回归算法、随机森林(RF)、XGBoost算法和LigthGBM算法。

进一步的，所述步骤S2中得到的多组分类预测结果进行评价，评价的参数包括正确率、错误率、真阳率、特异度、精度。

进一步的，所述步骤S2中还包括AUC评价和ROC评价。

本发明的有益效果是：

1、本发明融合了电子病历***中的结构化数据和非结构化数据，实现了从患者个体多维度信息融合的角度构建人工智能辅助诊断方法。

2、本发明采用自然语言分词模型，能够避免电子病历文本数据的特征提取过程中医学名词分离。

3、通过采用特征工程对病人信息样本集进行特征筛选，利用机器学习模型对大规模数据进行分析，并支持并行化学习，提高了分析的速率与准确率，缩小误差损失。

4、本发明能够辅助诊断***进行临床诊断决策，能够对获得的多组分类预测结果进行评价，保证预测结果的可靠性，具有很高的临床适用性和推广性。

附图说明

图1为本方法的流程结构示意图；

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例：

如图1所示，一种基于数据库分析的人工智能辅助诊断方法，包括以下步骤：

S1：建立数据集，包括

S1.1将病人信息进行合并，形成样本集；

S1.2在样本集中输入主诉症状文本信息，形成数据库样本集；

S1.3对数据库样本集进行清洗和处理；

S1.5对数据集进行样本平衡；

S3：将步骤S2中得到的多组分类预测结果进行评价。

具体的，所述步骤S1.4中采用特征筛选：

由于在案例的特征集合中存在冗余、无效的特征，利用岭回归、桥回归、偏最小二乘、主成分分析、线性判别分析和独立成分分析等方法删除不相关或冗余的特征，从而降低特征维度，提高模型精度，并有效减少运行时间。

假设检验又称为显著性检验。在抽样研究中，由于样本来自的总体其参数是未知的，只能根据样本统计量对其来自总体的参数进行估计，如果要比较两个或几个总体的参数是否相同，也只能分别从这些总体中抽取样本，根据这些样本的统计量作出统计推断，籍此比较总体参数是否相同。通过使用方差分析(ANOVA)、卡方检验或t检验(视变量类型而定)，对不同分类患者的所有临床和社会人口学特征进行比较。机器学习模型中仅使用p值<0.05 的那些特征。

具体的，所述步骤S1.1中的病人信息包括基本信息、住院信息、诊断信息、费用信息、生命体征数值和检查信息。

所述病人信息来自于诊断医院的HIS***数据库，主要包括三个信息***，分别是：患者电子病历信息，患者检验检查信息，患者医嘱信息(药物，治疗方案等)，上述三个信息***可以通过患者的入院号(每次入院唯一ID)和登记号(每个患者唯一)进行匹配。

从原始HIS***中提取各种类型的特征，如社会人口学信息(入院年龄、性别、婚姻状况、工作、支付来源、家乡省份)、基于住院前基本身体检查的生命体征(病容、面部表情、脉搏、呼吸、营养指数、体温、收缩压和舒张压)、既往病史(过敏、输血、药物使用、手术)、诊断信息、患者是否被诊断患有其他精神疾病、内分泌疾病、神经疾病、消化***疾病、循环***疾病、呼吸***疾病、癌症等、和各***疾病共病数量、实验室检查结果(血常规、尿常规、粪便常规和生化检查)、收费账单等信息。

具体的，所述步骤S1.2的主诉症状文本信息处理方式为，运用自然语言分词方法，对记录患者主要症状和当前情绪状态的描述性文本数据(主诉)等非结构化数据进行了去除所有数字和标点符号处理；文本数据由R语言里的jieba包拆分成词，通过添加一些停用词、医学词典以及结合医生的人工经验，防止医学术语不被拆分，使得分词更为准确。

术语频率用于识别患者主诉症状中出现频率最大的词，这些词被称为患者主要症状和当前情绪状态(如：情绪低落、情绪高涨、情绪不稳定、睡眠不好、易激怒、担心、自言自语、***想法、疼痛、进食障碍、幻听、症状复发和恶化等)。每个症状特征的值取决于该患者的主诉是否包含上述代表患者症状和情绪状态的关键词，特别是1表示包含特定词，0表示不包含特定词。采用自然语言分词模型，能够避免电子病历文本数据的特征提取过程中医学名词分离。

具体的，所述步骤S1.3中对样本集进行清洗和处理的方式为数据删失、构造新变量、补充缺失数据、对数据进行分类和合并。

所述步骤S1.3中的补充缺失数据包括

(1)婚姻状况缺失：通过年龄和病历摘要和病史描述人等文本信息数据进行患者婚姻情况的判断，比如患者未到结婚年龄的情况，和通过自然语言识别病历摘要里面提及伴侣或小孩等情况。

(2)工作情况缺失：通过患者病历摘要，主诉，出院小结，以及诊疗方案等文本信息数据进行患者工作情况的判断，例如出现症状影响学习压力大，上课等情况。

(3)家乡信息和病人来源缺失：通过患者付费类型或者病人来源进行判断，比如付费类型是市医保，病人来源是省内还是省外。

(4)病人面容，面部神情，病容，营养状况和配合情况和意识情况缺失：通过出院小结里面的文本记录，通过自然语言识别这六方面关键词进行填补

(5)脉搏检查和呼吸情况缺失：通过病例摘要里面的文本记录，通过自然语言识别记录的单位和相关缩写，进行内容填补。

(6)其他数字变量，按照KNN插补法补上。

(7)其他分类变量按照比例补上。

由于步骤S1.4中得到的筛选后的显著性变量的数据集数据不平衡，默认的阈值会导致模型输出倾向与类别数据多的类别。在步骤S1.5中采用过采样法对数据集进行平衡，所述步骤S1.5中的样本平衡方式为过采样和欠采样。

具体的，所述步骤S2中采用的机器学习模型为支持向量机(SVM)算法、Logistics回归算法、随机森林(RF)、XGBoost算法和LigthGBM算法。

支持向量机(SVM)是一种监督学***面位置的训练观察的子集。

Logistic回归是根据单个或多个连续或离散自变量来分析和预测离散型因变量的多元分析方法。与其他形式的回归分析一样，逻辑回归使用一个或多个预测变量，这些变量可以是连续数据或分类数据。逻辑回归广泛用于许多学科，包括医学领域。自变量既可以是连续的，也可以是分类的。随机森林算法结合了Breimans的“bagging”想法和Ho的随机选择特征以建造决策树的集合。这种方法利用bootstrap重抽样方法从原始样本中抽取多个样本，对每个bootstrap样本进行决策树建模，然后组合多棵决策树的预测，通过投票得出最终预测结果。它具有很高的预测准确率，且不容易出现过拟合，在医学、生物信息、管理学等领域有着广泛的应用。

XGBoost是一个优化的分布式梯度提升库，旨在高效、灵活和便携。XGBoost算法中添加了R均衡器，使控制模型变得复杂，构建更简单的模型并防止过拟合，增加了模型的可延展性。

LigthGBM采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树。有更快的训练效率，低内存使用，更高的准确率，支持并行化学习，又可以处理大规模数据，与常见的机器学习算法对比，速度是非常快的。

通过采用特征工程对病人信息样本集进行特征筛选，利用机器学习模型对大规模数据进行分析，并支持并行化学习，提高了分析的速率与准确率，缩小误差损失。

如下表所示，具体的，所述步骤S2中得到的多组分类预测结果进行评价，评价的参数包括正确率、错误率、真阳率、特异度、精度。

	预测值＝1	预测值＝0
			真实值＝1	TP	FN
真实值＝0	FP	TN

TP＝True Postive＝真阳性；FP＝False Positive＝假阳性

FN＝False Negative＝假阴性；TN＝True Negative＝真阴性

正确率(Accuracy)：被正确分类的样本比例或数量(TP+TN)/Total

错误率(Misclassification/Error Rate)：被错误分类的样本比例或数量(FP+FN)/Total

真阳率(True Positive Rate)：分类器预测为正例的样本占实际正例样本数量的比例，描述了分类器对正例类别的敏感程度。(recall,或者敏感度，sensitivity，真阳性率，TPR， True Positive Rate)＝TP/(TP+FN)

特异度(True Negative Rate，specificity，或者真阴性率，TNR)＝TN/(TN+FP)

精度(precision,或者PPV,positive predictive value)＝TP/(TP+FP)

F1-值(F1-score)＝2*TP/(2*TP+FP+FN)

具体的，所述步骤S2中还包括AUC评价和ROC评价。

ROC的全称为Receiver Operating Characteristic，译为受试者工作特征，它将真正例率(True Positive Rate，TPR)和假正例率(False Positive Rate，FPR)分别作为纵轴和横轴ROC曲线上的每个点对应于一个阈值，随着阈值的变化，TPR和FPR也相应跟着改变，最终形成一条曲线。

AUC的全称为Area Under ROC Curve，即为ROC曲线下的面积，该度量能客观反映对正样本、负样本综合预测的能力，还可以消除样本倾斜的影响。AUC的取值范围在0.5和1之间，AUC越接近1.0，模型预测效果越好。

本发明融合了电子病历***中的结构化数据和非结构化数据，实现了从患者个体多维度信息融合的角度构建人工智能辅助诊断方法。本发明能够辅助诊断***进行临床诊断决策，能够对获得的多组分类预测结果进行评价，保证预测结果的可靠性，具有很高的临床适用性和推广性。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于数据库分析的人工智能辅助诊断方法，其特征在于：包括以下步骤：

S1：建立数据集，包括

S1.1将病人信息进行合并，形成样本集；

S1.2在样本集中对主诉症状文本信息进行处理，形成数据库样本集；

S1.3对数据库样本集进行清洗和处理；

S1.5对数据集进行样本平衡；

S3：将步骤S2中得到的多组分类预测结果进行评价。

2.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法，其特征在于：所述步骤S1.1中的病人信息包括基本信息、住院信息、诊断信息、费用信息、生命体征数值和检查信息。

3.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法，其特征在于：所述步骤S1.2的主诉症状文本信息处理方式为，运用自然语言分词方法，对记录患者主要症状和当前情绪状态的描述性文本数据(主诉)等非结构化数据进行了去除所有数字和标点符号处理；所述文本数据由R语言里的jieba包拆分成词，通过添加一些停用词、医学词典以及结合医生的人工经验，防止医学术语不被拆分，使得分词更为准确。

4.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法，其特征在于：所述步骤S1.3中对样本集进行清洗和处理的方式为数据删失、构造新变量、补充缺失数据、对数据进行分类和合并。

5.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法，其特征在于：所述步骤S1.5中的样本平衡方式为过采样和欠采样。

6.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法，其特征在于：所述步骤S2中采用的机器学习模型为支持向量机(SVM)算法、Logistics回归算法、随机森林(RF)、XGBoost算法和LigthGBM算法。

7.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法，其特征在于：所述步骤S2中得到的多组分类预测结果进行评价，评价的参数包括正确率、错误率、真阳率、特异度、精度。

8.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法，其特征在于：所述步骤S2中还包括AUC评价和ROC评价。