CN113436745A - 一种基于数据库分析的人工智能辅助诊断方法 - Google Patents
一种基于数据库分析的人工智能辅助诊断方法 Download PDFInfo
- Publication number
- CN113436745A CN113436745A CN202110731834.XA CN202110731834A CN113436745A CN 113436745 A CN113436745 A CN 113436745A CN 202110731834 A CN202110731834 A CN 202110731834A CN 113436745 A CN113436745 A CN 113436745A
- Authority
- CN
- China
- Prior art keywords
- artificial intelligence
- data
- information
- method based
- diagnosis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 23
- 238000004458 analytical method Methods 0.000 title claims abstract description 21
- 238000010801 machine learning Methods 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 208000024891 symptom Diseases 0.000 claims description 10
- 238000012706 support-vector machine Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000007477 logistic regression Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 230000002996 emotional effect Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000010365 information processing Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 5
- 238000003759 clinical diagnosis Methods 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 abstract description 3
- 238000003066 decision tree Methods 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 239000003814 drug Substances 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000000540 analysis of variance Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 235000016709 nutrition Nutrition 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010012374 Depressed mood Diseases 0.000 description 1
- 208000030814 Eating disease Diseases 0.000 description 1
- 208000017701 Endocrine disease Diseases 0.000 description 1
- 208000019454 Feeding and Eating disease Diseases 0.000 description 1
- 206010019070 Hallucination, auditory Diseases 0.000 description 1
- 208000004547 Hallucinations Diseases 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 206010022998 Irritability Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000012902 Nervous system disease Diseases 0.000 description 1
- 208000025966 Neurological disease Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 206010062519 Poor quality sleep Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 230000007815 allergy Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010876 biochemical test Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000035487 diastolic blood pressure Effects 0.000 description 1
- 208000010643 digestive system disease Diseases 0.000 description 1
- 235000014632 disordered eating Nutrition 0.000 description 1
- 230000005713 exacerbation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 238000009666 routine test Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000035488 systolic blood pressure Effects 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 238000002562 urinalysis Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Computing Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于数据库分析的人工智能辅助诊断方法,包括以下步骤:S1:建立数据集,S2:将步骤S1中得到的数据集导入到机器学习模型中,得到多组分类预测结果;S3:将步骤S2中得到的多组分类预测结果进行评价。本发明融合了电子病历***中的结构化数据和非结构化数据,实现了从患者个体多维度信息融合的角度构建人工智能辅助诊断方法,辅助诊断***进行临床诊断决策,对获得的多组分类预测结果进行评价,保证预测结果的可靠性,具有很高的临床适用性和推广性。
Description
技术领域
本发明涉及人工智能辅助诊断技术领域,特别是一种基于数据库分析的人工智能辅助诊断方法。
背景技术
随着医疗健康信息化的快速发展,医疗机构及各类医疗健康服务型企业会产生大量的医疗健康数据,包括医疗图像、电子病历、健康档案等,人工智能技术能够对这些医疗大数据进行语义分析和数据挖掘,并实现对部分疾病的早期预警或自动诊断。人工智能技术能够使得多级医疗机构和智慧医疗服务终端逐步达到电子信息化和智能化,便于实现优质医疗资源的扩大化利用。例如,人工智能辅助诊断可以将优质医疗资源的诊断经验下沉到社区或二级医院,扩充优质医疗资源的辐射范围和产能。为了对患者疾病更好的诊断,就需要借助到人工智能辅助诊断***进行辅助处理。
目前的诊断***在对患者就诊信息进行采样分析时,一方面采样方式简单,缺少采样关键词防错机制,容易造成医学名词的分离;通常基于医生经验进行分析,存在较大的主观性,在患者数量较大的情况下,无法同时对基本信息、住院信息、诊断信息、费用信息、生命体征数值和检查信息等关键信息进行全面有效的利用,且存在大量冗杂和无关信息,使得诊断时间较长,无法保证诊断***的可靠性和准确性;此外,现有诊断***不具备诊断结果评价的功能,数据可靠性无法验证。
发明内容
本发明的目的在于克服现有人工智能辅助诊断***临床适用性较低、推广性较差的问题,提供一种基于数据库分析的人工智能辅助诊断方法。
一种基于数据库分析的人工智能辅助诊断方法,包括以下步骤:
S1:建立数据集,包括
S1.1将病人信息进行合并,形成样本集;
S1.2在样本集中输入主诉症状文本信息,形成数据库样本集;
S1.3对数据库样本集进行清洗和处理;
S1.4采用假设检验的方式对清洗和处理后的数据库样本集进行特征筛选,筛选出的显著变量构成数据集;
S1.5对数据集进行样本平衡;
S2:将步骤S1中得到的数据集导入到机器学习模型中,得到多组分类预测结果;
S3:将步骤S2中得到的多组分类预测结果进行评价。
进一步的,所述步骤S1.1中的病人信息包括基本信息、住院信息、诊断信息、费用信息、生命体征数值和检查信息。
进一步的,所述步骤S1.2的主诉症状文本信息处理方式为,运用自然语言分词方法,对记录患者主要症状和当前情绪状态的描述性文本数据(主诉)等非结构化数据进行了去除所有数字和标点符号处理;所述文本数据由R语言里的jieba包拆分成词,通过添加一些停用词、医学词典以及结合医生的人工经验,防止医学术语不被拆分,使得分词更为准确。
进一步的,所述步骤S1.3中对样本集进行清洗和处理的方式为数据删失、构造新变量、补充缺失数据、对数据进行分类和合并。
进一步的,所述步骤S1.5中的样本平衡方式为过采样和欠采样。
进一步的,所述步骤S2中采用的机器学习模型为支持向量机(SVM)算法、Logistics 回归算法、随机森林(RF)、XGBoost算法和LigthGBM算法。
进一步的,所述步骤S2中得到的多组分类预测结果进行评价,评价的参数包括正确率、错误率、真阳率、特异度、精度。
进一步的,所述步骤S2中还包括AUC评价和ROC评价。
本发明的有益效果是:
1、本发明融合了电子病历***中的结构化数据和非结构化数据,实现了从患者个体多维度信息融合的角度构建人工智能辅助诊断方法。
2、本发明采用自然语言分词模型,能够避免电子病历文本数据的特征提取过程中医学名词分离。
3、通过采用特征工程对病人信息样本集进行特征筛选,利用机器学习模型对大规模数据进行分析,并支持并行化学习,提高了分析的速率与准确率,缩小误差损失。
4、本发明能够辅助诊断***进行临床诊断决策,能够对获得的多组分类预测结果进行评价,保证预测结果的可靠性,具有很高的临床适用性和推广性。
附图说明
图1为本方法的流程结构示意图;
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
实施例:
如图1所示,一种基于数据库分析的人工智能辅助诊断方法,包括以下步骤:
S1:建立数据集,包括
S1.1将病人信息进行合并,形成样本集;
S1.2在样本集中输入主诉症状文本信息,形成数据库样本集;
S1.3对数据库样本集进行清洗和处理;
S1.4采用假设检验的方式对清洗和处理后的数据库样本集进行特征筛选,筛选出的显著变量构成数据集;
S1.5对数据集进行样本平衡;
S2:将步骤S1中得到的数据集导入到机器学习模型中,得到多组分类预测结果;
S3:将步骤S2中得到的多组分类预测结果进行评价。
具体的,所述步骤S1.4中采用特征筛选:
由于在案例的特征集合中存在冗余、无效的特征,利用岭回归、桥回归、偏最小二乘、主成分分析、线性判别分析和独立成分分析等方法删除不相关或冗余的特征,从而降低特征维度,提高模型精度,并有效减少运行时间。
假设检验又称为显著性检验。在抽样研究中,由于样本来自的总体其参数是未知的,只能根据样本统计量对其来自总体的参数进行估计,如果要比较两个或几个总体的参数是否相同,也只能分别从这些总体中抽取样本,根据这些样本的统计量作出统计推断,籍此比较总体参数是否相同。通过使用方差分析(ANOVA)、卡方检验或t检验(视变量类型而定),对不同分类患者的所有临床和社会人口学特征进行比较。机器学习模型中仅使用p值<0.05 的那些特征。
具体的,所述步骤S1.1中的病人信息包括基本信息、住院信息、诊断信息、费用信息、生命体征数值和检查信息。
所述病人信息来自于诊断医院的HIS***数据库,主要包括三个信息***,分别是:患者电子病历信息,患者检验检查信息,患者医嘱信息(药物,治疗方案等),上述三个信息***可以通过患者的入院号(每次入院唯一ID)和登记号(每个患者唯一)进行匹配。
从原始HIS***中提取各种类型的特征,如社会人口学信息(入院年龄、性别、婚姻状况、工作、支付来源、家乡省份)、基于住院前基本身体检查的生命体征(病容、面部表情、脉搏、呼吸、营养指数、体温、收缩压和舒张压)、既往病史(过敏、输血、药物使用、手术)、诊断信息、患者是否被诊断患有其他精神疾病、内分泌疾病、神经疾病、消化***疾病、循环***疾病、呼吸***疾病、癌症等、和各***疾病共病数量、实验室检查结果(血常规、尿常规、粪便常规和生化检查)、收费账单等信息。
具体的,所述步骤S1.2的主诉症状文本信息处理方式为,运用自然语言分词方法,对记录患者主要症状和当前情绪状态的描述性文本数据(主诉)等非结构化数据进行了去除所有数字和标点符号处理;文本数据由R语言里的jieba包拆分成词,通过添加一些停用词、医学词典以及结合医生的人工经验,防止医学术语不被拆分,使得分词更为准确。
术语频率用于识别患者主诉症状中出现频率最大的词,这些词被称为患者主要症状和当前情绪状态(如:情绪低落、情绪高涨、情绪不稳定、睡眠不好、易激怒、担心、自言自语、***想法、疼痛、进食障碍、幻听、症状复发和恶化等)。每个症状特征的值取决于该患者的主诉是否包含上述代表患者症状和情绪状态的关键词,特别是1表示包含特定词,0表示不包含特定词。采用自然语言分词模型,能够避免电子病历文本数据的特征提取过程中医学名词分离。
具体的,所述步骤S1.3中对样本集进行清洗和处理的方式为数据删失、构造新变量、补充缺失数据、对数据进行分类和合并。
所述步骤S1.3中的补充缺失数据包括
(1)婚姻状况缺失:通过年龄和病历摘要和病史描述人等文本信息数据进行患者婚姻情况的判断,比如患者未到结婚年龄的情况,和通过自然语言识别病历摘要里面提及伴侣或小孩等情况。
(2)工作情况缺失:通过患者病历摘要,主诉,出院小结,以及诊疗方案等文本信息数据进行患者工作情况的判断,例如出现症状影响学习压力大,上课等情况。
(3)家乡信息和病人来源缺失:通过患者付费类型或者病人来源进行判断,比如付费类型是市医保,病人来源是省内还是省外。
(4)病人面容,面部神情,病容,营养状况和配合情况和意识情况缺失:通过出院小结里面的文本记录,通过自然语言识别这六方面关键词进行填补
(5)脉搏检查和呼吸情况缺失:通过病例摘要里面的文本记录,通过自然语言识别记录的单位和相关缩写,进行内容填补。
(6)其他数字变量,按照KNN插补法补上。
(7)其他分类变量按照比例补上。
由于步骤S1.4中得到的筛选后的显著性变量的数据集数据不平衡,默认的阈值会导致模型输出倾向与类别数据多的类别。在步骤S1.5中采用过采样法对数据集进行平衡,所述步骤S1.5中的样本平衡方式为过采样和欠采样。
具体的,所述步骤S2中采用的机器学习模型为支持向量机(SVM)算法、Logistics回归算法、随机森林(RF)、XGBoost算法和LigthGBM算法。
支持向量机(SVM)是一种监督学***面位置的训练观察的子集。
Logistic回归是根据单个或多个连续或离散自变量来分析和预测离散型因变量的多元分析方法。与其他形式的回归分析一样,逻辑回归使用一个或多个预测变量,这些变量可以是连续数据或分类数据。逻辑回归广泛用于许多学科,包括医学领域。自变量既可以是连续的,也可以是分类的。随机森林算法结合了Breimans的“bagging”想法和Ho的随机选择特征以建造决策树的集合。这种方法利用bootstrap重抽样方法从原始样本中抽取多个样本,对每个bootstrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果。它具有很高的预测准确率,且不容易出现过拟合,在医学、生物信息、管理学等领域有着广泛的应用。
XGBoost是一个优化的分布式梯度提升库,旨在高效、灵活和便携。XGBoost算法中添加了R均衡器,使控制模型变得复杂,构建更简单的模型并防止过拟合,增加了模型的可延展性。
LigthGBM采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。有更快的训练效率,低内存使用,更高的准确率,支持并行化学习,又可以处理大规模数据,与常见的机器学习算法对比,速度是非常快的。
通过采用特征工程对病人信息样本集进行特征筛选,利用机器学习模型对大规模数据进行分析,并支持并行化学习,提高了分析的速率与准确率,缩小误差损失。
如下表所示,具体的,所述步骤S2中得到的多组分类预测结果进行评价,评价的参数包括正确率、错误率、真阳率、特异度、精度。
预测值=1 | 预测值=0 | |
真实值=1 | TP | FN |
真实值=0 | FP | TN |
TP=True Postive=真阳性;FP=False Positive=假阳性
FN=False Negative=假阴性;TN=True Negative=真阴性
正确率(Accuracy):被正确分类的样本比例或数量(TP+TN)/Total
错误率(Misclassification/Error Rate):被错误分类的样本比例或数量(FP+FN)/Total
真阳率(True Positive Rate):分类器预测为正例的样本占实际正例样本数量的比例,描述了分类器对正例类别的敏感程度。(recall,或者敏感度,sensitivity,真阳性率,TPR, True Positive Rate)=TP/(TP+FN)
特异度(True Negative Rate,specificity,或者真阴性率,TNR)=TN/(TN+FP)
精度(precision,或者PPV,positive predictive value)=TP/(TP+FP)
F1-值(F1-score)=2*TP/(2*TP+FP+FN)
具体的,所述步骤S2中还包括AUC评价和ROC评价。
ROC的全称为Receiver Operating Characteristic,译为受试者工作特征,它将真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate,FPR)分别作为纵轴和横轴ROC曲线上的每个点对应于一个阈值,随着阈值的变化,TPR和FPR也相应跟着改变,最终形成一条曲线。
AUC的全称为Area Under ROC Curve,即为ROC曲线下的面积,该度量能客观反映对正样本、负样本综合预测的能力,还可以消除样本倾斜的影响。AUC的取值范围在0.5和1之间,AUC越接近1.0,模型预测效果越好。
本发明融合了电子病历***中的结构化数据和非结构化数据,实现了从患者个体多维度信息融合的角度构建人工智能辅助诊断方法。本发明能够辅助诊断***进行临床诊断决策,能够对获得的多组分类预测结果进行评价,保证预测结果的可靠性,具有很高的临床适用性和推广性。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (8)
1.一种基于数据库分析的人工智能辅助诊断方法,其特征在于:包括以下步骤:
S1:建立数据集,包括
S1.1将病人信息进行合并,形成样本集;
S1.2在样本集中对主诉症状文本信息进行处理,形成数据库样本集;
S1.3对数据库样本集进行清洗和处理;
S1.4采用假设检验的方式对清洗和处理后的数据库样本集进行特征筛选,筛选出的显著变量构成数据集;
S1.5对数据集进行样本平衡;
S2:将步骤S1中得到的数据集导入到机器学习模型中,得到多组分类预测结果;
S3:将步骤S2中得到的多组分类预测结果进行评价。
2.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法,其特征在于:所述步骤S1.1中的病人信息包括基本信息、住院信息、诊断信息、费用信息、生命体征数值和检查信息。
3.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法,其特征在于:所述步骤S1.2的主诉症状文本信息处理方式为,运用自然语言分词方法,对记录患者主要症状和当前情绪状态的描述性文本数据(主诉)等非结构化数据进行了去除所有数字和标点符号处理;所述文本数据由R语言里的jieba包拆分成词,通过添加一些停用词、医学词典以及结合医生的人工经验,防止医学术语不被拆分,使得分词更为准确。
4.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法,其特征在于:所述步骤S1.3中对样本集进行清洗和处理的方式为数据删失、构造新变量、补充缺失数据、对数据进行分类和合并。
5.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法,其特征在于:所述步骤S1.5中的样本平衡方式为过采样和欠采样。
6.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法,其特征在于:所述步骤S2中采用的机器学习模型为支持向量机(SVM)算法、Logistics回归算法、随机森林(RF)、XGBoost算法和LigthGBM算法。
7.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法,其特征在于:所述步骤S2中得到的多组分类预测结果进行评价,评价的参数包括正确率、错误率、真阳率、特异度、精度。
8.根据权利要求1所述的一种基于数据库分析的人工智能辅助诊断方法,其特征在于:所述步骤S2中还包括AUC评价和ROC评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110731834.XA CN113436745A (zh) | 2021-06-30 | 2021-06-30 | 一种基于数据库分析的人工智能辅助诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110731834.XA CN113436745A (zh) | 2021-06-30 | 2021-06-30 | 一种基于数据库分析的人工智能辅助诊断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113436745A true CN113436745A (zh) | 2021-09-24 |
Family
ID=77758017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110731834.XA Pending CN113436745A (zh) | 2021-06-30 | 2021-06-30 | 一种基于数据库分析的人工智能辅助诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113436745A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831790A (zh) * | 2024-03-06 | 2024-04-05 | 北方健康医疗大数据科技有限公司 | 一种面向医疗诊断的辅助编码方法、***、终端及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986871A (zh) * | 2018-08-27 | 2018-12-11 | 东北大学 | 一种智慧医疗知识图谱的构建方法 |
CN109166608A (zh) * | 2018-09-17 | 2019-01-08 | 新华三大数据技术有限公司 | 电子病历信息提取方法、装置和设备 |
CN109378064A (zh) * | 2018-10-29 | 2019-02-22 | 南京医基云医疗数据研究院有限公司 | 医疗数据处理方法、装置电子设备及计算机可读介质 |
CN109830303A (zh) * | 2019-02-01 | 2019-05-31 | 上海众恒信息产业股份有限公司 | 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法 |
CN111009321A (zh) * | 2019-08-14 | 2020-04-14 | 电子科技大学 | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 |
CN111259111A (zh) * | 2020-01-13 | 2020-06-09 | 安徽科大讯飞医疗信息技术有限公司 | 基于病历的辅助决策方法、装置、电子设备和存储介质 |
-
2021
- 2021-06-30 CN CN202110731834.XA patent/CN113436745A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986871A (zh) * | 2018-08-27 | 2018-12-11 | 东北大学 | 一种智慧医疗知识图谱的构建方法 |
CN109166608A (zh) * | 2018-09-17 | 2019-01-08 | 新华三大数据技术有限公司 | 电子病历信息提取方法、装置和设备 |
CN109378064A (zh) * | 2018-10-29 | 2019-02-22 | 南京医基云医疗数据研究院有限公司 | 医疗数据处理方法、装置电子设备及计算机可读介质 |
CN109830303A (zh) * | 2019-02-01 | 2019-05-31 | 上海众恒信息产业股份有限公司 | 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法 |
CN111009321A (zh) * | 2019-08-14 | 2020-04-14 | 电子科技大学 | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 |
CN111259111A (zh) * | 2020-01-13 | 2020-06-09 | 安徽科大讯飞医疗信息技术有限公司 | 基于病历的辅助决策方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
潘媛: ""面向疾病预测的半监督学习算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 February 2019 (2019-02-15), pages 140 - 226 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831790A (zh) * | 2024-03-06 | 2024-04-05 | 北方健康医疗大数据科技有限公司 | 一种面向医疗诊断的辅助编码方法、***、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Razzak et al. | Big data analytics for preventive medicine | |
Guo et al. | Using bayes network for prediction of type-2 diabetes | |
Shaji | Predictionand diagnosis of heart disease patients using data mining technique | |
WO2022060949A1 (en) | Systems and methods for automatically identifying a candidate patient for enrollment in a clinical trial | |
Pujianto et al. | Comparison of Naïve Bayes Algorithm and Decision Tree C4. 5 for Hospital Readmission Diabetes Patients using HbA1c Measurement. | |
Al-Mualemi et al. | A deep learning-based sepsis estimation scheme | |
CN113539414A (zh) | 一种抗生素用药合理性预测方法及*** | |
Zalewski et al. | Estimating patient's health state using latent structure inferred from clinical time series and text | |
Jhumka et al. | Chronic Kidney Disease Prediction using Deep Neural Network | |
Emakhu et al. | Prediction system for heart disease based on ensemble classifiers | |
Srimedha et al. | A comprehensive machine learning based pipeline for an accurate early prediction of sepsis in ICU | |
Qin et al. | Improving early sepsis prediction with multi modal learning | |
CN113436745A (zh) | 一种基于数据库分析的人工智能辅助诊断方法 | |
CN117198532A (zh) | 一种基于机器学习的icu患者脓毒症风险预测方法及*** | |
Thangarasu et al. | Prediction of hidden knowledge from clinical database using data mining techniques | |
Perng et al. | Analysis of the 72-h mortality of emergency room septic patients based on a deep belief network | |
Kongburan et al. | Enhancing predictive power of cluster-boosted regression with text-based indexing | |
Patel et al. | Impact analysis of the complete blood count parameter using Naive Bayes | |
Sousa et al. | An architecture based on fuzzy systems for personalized medicine in ICUs | |
Juliet et al. | An improved prediction model for type 2 diabetes mellitus disease using clustering and classification algorithms | |
CN111028953B (zh) | 一种对医学数据进行提示性标注的控制方法 | |
Raman et al. | Medical information system for classification of diabetes mellitus using layered neural network | |
Ajay et al. | An Aquila-optimized SVM classifier for Diabetes prediction | |
Ati et al. | Multi Artificial Intelligence Approaches Comparisons for Chronic Disease Prediction | |
Sharafoddini | Toward Precision Medicine in Intensive Care: Leveraging Electronic Health Records and Patient Similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210924 |
|
RJ01 | Rejection of invention patent application after publication |