CN110853761A - 一种基于极端梯度提升算法的精神病高危识别模型 - Google Patents

一种基于极端梯度提升算法的精神病高危识别模型 Download PDF

Info

Publication number
CN110853761A
CN110853761A CN201911173416.2A CN201911173416A CN110853761A CN 110853761 A CN110853761 A CN 110853761A CN 201911173416 A CN201911173416 A CN 201911173416A CN 110853761 A CN110853761 A CN 110853761A
Authority
CN
China
Prior art keywords
psychosis
identification model
training
model
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911173416.2A
Other languages
English (en)
Inventor
陆峥
孙杳如
龙翔云
王子剑
刘飞
齐安思
吴佳馨
管晓枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Tongji Hospital
Original Assignee
Shanghai Tongji Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Tongji Hospital filed Critical Shanghai Tongji Hospital
Priority to CN201911173416.2A priority Critical patent/CN110853761A/zh
Publication of CN110853761A publication Critical patent/CN110853761A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明涉及一种基于极端梯度提升算法的精神病高危识别模型,包括建立精神病高危识别模型和利用所建立的模型对精神病高危进行识别;所述的建立精神病高危识别模型分为:获取筛查工具的数据为训练特征,训练特征归一化,XGBoost模型训练,特征刷选,特征精简;所述的利用所建立的模型对精神病高危进行识别分为:获取被试的筛查数据,提取指定特征,送入所建立的识别模型进行识别。其优点表现在:精神***症是重性精神疾病,罹患该病的患者社会功能减退严重,严重者常有冲动、自伤、伤人等行为,因此建立精神病高危识别模型提高其识别率有助于对于精神***症患者进行早期诊断及干预,减轻家庭及社会负担。

Description

一种基于极端梯度提升算法的精神病高危识别模型
技术领域
本发明涉及精神病高危识别技术领域,具体地说,是一种基于极端梯度提升算法的精神病高危识别模型。
背景技术
精神***症早期识别率及治疗率低,更缺乏早期识别的有效客观指标,临床患者病程多迁延。本专利将围绕精神病高危检测新技术的开发和应用,展开精神***症前驱期的流行病学调查,发现前驱期特征表现,整合为特异检查工具包以推进精神***症前驱期的识别。
中国专利文献:CN109509552A,公开日:2019.03.22,公开了一种基于功能连接网络的多层次特征融合的精神病自动判别方法,采用静息态的功能核磁(Rs-fMRI)构建功能连接网络,计算两种层次的特征,网络属性特征和功能连接特征,网络属性特征包括六种网络局部属性和六种网络全局属性,同时将所有功能连接网络进行叠加,计算平均网络,保留一定比例的边,将保留位置的相关性作为连接层次的特征。考虑到脑区的独立性和特征之间的关联性,采用组稀疏(Group Lasso)的方式分别对两种层次的特征进行简约,分别构建支持向量机(SVM)分类器,采用加权投票的方式得到最终分类结果。
中国专利文献:CN110428909A,公开日:2019.11.08,公开了一种精神病临床高危人群四因子风险预报方法,利用精神病前驱症状的结构式访谈临床数据和MATRICS认知成套测验,将临床数据和认知数据进行量化;根据队列2年随访结果是否发病进行组间差异分析,遴选出14个存在显著差异的变量;通过探索性因子分析方法中的主成分分析,并对14个变量进行因子负荷的正交方差极大旋转,提取出4个符合因子;利用因子分析提取的四因子构建回归模型,对构建模型用Bootstrap重复,评价预测模型稳定性;募集精神病高危队列100例随访2年,对模型风险预测的效度进行验证。
但是关于本发明的一种基于极端梯度提升算法的精神病高危识别模型目前还未见报道。
发明内容
本发明的目的是,提供一种精神病高危筛查工具、利用机器学习理论中极端梯度提升算法建立识别模型、以期减少CHR筛查投入并提高筛查效率的基于极端梯度提升算法的精神病高危识别模型。
为实现上述目的,本发明采取的技术方案是:
一种基于极端梯度提升算法的精神病高危识别模型,所述的精神病高危识别模型(100)包括建立精神病高危识别模型(101)和利用所建立的模型对精神病高危进行识别(102);
所述的建立精神病高危识别模型(101)分为:
获取筛查工具的数据为训练特征(1011),训练特征归一化(1012),XGBoost模型训练(1013),特征刷选(1014),特征精简(1015);
所述的利用所建立的模型对精神病高危进行识别(102)分为:
获取被试的筛查数据(1021),提取指定特征(1022),送入所建立的识别模型进行识别(1023)。
作为一种优选的技术方案,所述的获取筛查工具的数据为训练特征(1011)包括:大学生的自制筛查工具数据。
作为一种优选的技术方案,所述的训练特征归一化(1012)包括:将高危组样本标签设为1,其他标签均设为0,所有数据在同一维度经Z-Score转换进行标准化处理。
作为一种优选的技术方案,所述的XGBoost模型训练(1013)包括:将转换后的数据随机分为80%的训练集和20%的测试集进行建模和验证,使用XGBoost算法进行模型训练,随机选取训练集和测试集,XGboost中子分类器个数为500个,子分类器最大深度为5,学习率0.1。
作为一种优选的技术方案,所述的特征刷选(1014)包括:对每一个经XGboost训练后的模型,提取所有特征的权重,根据平均权重及临床需求对特征进行挑选。
作为一种优选的技术方案,所述的特征精简(1015)包括:去掉对实际高危筛查分类影响较小的特征。
作为一种优选的技术方案,所述的获取被试的筛查数据(1021),即前驱状态问卷简版(PQ-B),***型人格障碍诊断问卷(PQD-SPD)、自制19项阴性症状问卷及家族遗传史1项共50项问题的自制问卷,与模型训练需要采集的数据相同。
作为一种优选的技术方案,所述的提取指定特征(1022)包括:由特征刷选步骤选出的具有较高权重的指标。
作为一种优选的技术方案,所述的送入所建立的识别模型进行识别(1023),获得识别结果:该被试被识别模型判别属于健康组或是精神病高危组。
本发明优点在于:
1、精神***症是重性精神疾病,罹患该病的患者社会功能减退严重,严重者常有冲动、自伤、伤人等行为,因此建立精神病高危识别模型提高其识别率有助于对于精神***症患者进行早期诊断及干预,减轻家庭及社会负担。
2、基于精神病高危(clinical high risk for psychosis,CHR)筛查工具(前驱的前驱状态问卷简版(PQ-B),***型人格障碍诊断问卷(PQD-SPD)、自制19项阴性症状问卷及家族遗传史问卷等,利用机器学习理论中极端梯度提升(XGBoost)算法建立识别模型,以期减少CHR筛查投入并提高筛查效率。
3、人群选取为大学生,结合多个筛查工具的不同维度指标,构建精神病高危多维识别模型,可以提高精神病高危的识别率。
附图说明
附图1是一种基于极端梯度提升算法的精神病高危识别模型的平面示意图。
附图2是一种基于极端梯度提升算法的精神病高危识别模型的建立精神病高危识别模型过程平面示意图。
附图3是一种基于极端梯度提升算法的精神病高危识别模型的利用所建立的模型对精神病高危进行识别过程平面示意图。
附图4是XGBoost算法训练模型中特征的平均权重平面示意图。
具体实施方式
下面结合实施例并参照附图对本发明作进一步描述。
附图中涉及的附图标记和组成部分如下所示:
100、精神病高危识别模型
101、建立精神病高危识别模型
1011、获取筛查工具的数据为训练特征
1012、训练特征归一化
1013、XGBoost模型训练
1014、特征刷选
1015、特征精简
102、利用所建立的模型对精神病高危进行识别
1021、获取被试的筛查数据
1022、提取指定特征
1023、送入所建立的识别模型进行识别
实施例1
请参照附图1,附图1是本实施例的一种基于极端梯度提升算法的精神病高危识别模型的平面示意图。所述的精神病高危识别模型(100)包括建立精神病高危识别模型(101)和利用所建立的模型对精神病高危进行识别(102);
请参照附图2,附图2是本实施例的一种基于极端梯度提升算法的精神病高危识别模型的建立精神病高危识别模型过程平面示意图。
所述的建立精神病高危识别模型(101)分为:
获取筛查工具的数据为训练特征(1011),训练特征归一化(1012),XGBoost模型训练(1013),特征刷选(1014),特征精简(1015);
请参照附图3,附图3是本实施例的一种基于极端梯度提升算法的精神病高危识别模型的利用所建立的模型对精神病高危进行识别过程平面示意图。
所述的利用所建立的模型对精神病高危进行识别(102)分为:
获取被试的筛查数据(1021),提取指定特征(1022),送入所建立的识别模型进行识别(1023)。
需要说明的是:
所述的获取筛查工具的数据为训练特征(1011)包括:大学生的自制筛查工具数据。所述的训练特征归一化(1012)包括:将高危组样本标签设为1,其他标签均设为0,所有数据在同一维度经Z-Score转换进行标准化处理。所述的XGBoost模型训练(1013)包括:将转换后的数据随机分为80%的训练集和20%的测试集进行建模和验证,使用XGBoost算法进行模型训练,随机选取训练集和测试集,XGboost中子分类器个数为500个,子分类器最大深度为5,学***均权重及临床需求对特征进行挑选。所述的特征精简(1015)包括:去掉对实际高危筛查分类影响较小的特征。所述的获取被试的筛查数据(1021),即前驱状态问卷简版(PQ-B),***型人格障碍诊断问卷(PQD-SPD)、自制19项阴性症状问卷及家族遗传史1项共50项问题的自制问卷,与模型训练需要采集的数据相同。所述的提取指定特征(1022)包括:由特征刷选步骤选出的具有较高权重的指标。所述的送入所建立的识别模型进行识别(1023),获得识别结果:该被试被识别模型判别属于健康组或是精神病高危组。
实施例2
在大学生人群中使用自制问卷(包括前驱的前驱状态问卷简版(PQ-B),***型人格障碍诊断问卷(PQD-SPD)、自制19项阴性症状问卷及家族遗传史1项,共50项问题,如图4)调查了7391例被试。根据精神病高危筛查三阶段方案对大学生精神病高危进行诊断:在第一个阶段,所有调查对象完成在线或纸质问卷,统计自制问卷中每一项得分及各个分量表总分;在第二个阶段,对PQ-B的痛苦评分超过24分的参与者进一步完成电话评估,内容为前驱症状结构化访谈(SIPS)量表中阳性症状子量表;在第三个阶段,经训练有素的研究人员对任何阳性症状子量表中得分为3分或更高的被试完成SIPS面谈,以确认是否为精神病高危;最终经三阶段方案后诊断的精神病高危被试为72例。
获取自制筛查问卷中前驱状态问卷简版(PQB),***型人格障碍诊断问卷(PDQ)、自制19项阴性症状问卷及家族遗传史1项50项问题的各项得分及受试者年龄、性别,共53项特征,如下表所示:
前驱状态问卷简版(PQ-B) 21项 PQ-B题项1-21各项得分
***型人格障碍诊断问卷(PDQ) 9项 PDQ题项1-9各项得分
自制19项阴性症状问卷 19项 阴性症状问卷题项1-19各项得分
家族遗传史问卷 1项 题项1得分
性别 1项 男/女
年龄 1项 /
请参照附图4,附图4是XGBoost算法训练模型中特征的平均权重平面示意图。
对于采集到的自制问卷数据将高危组样本标签设为1,其他标签均设为0,所有数据在同一维度经Z-Score转换进行标准化处理。将转换后的数据随机分为80%的训练集和20%的测试集进行建模和验证,使用XGBoost算法进行模型训练,随机选取训练集和测试集,XGboost中子分类器个数为500个,子分类器最大深度为5,学***均重要性。
综合平均权重及临床需求去掉对实际高危筛查分类影响较小的特征,形成最终筛查模型。本案例中,刷选出的特征如下表所示。
Figure BDA0002289345890000061
采用以上40个特征,构建精神病高危识别模型。
利用所建立的模型对精神病高危进行诊断。首先,对待测被试,利用自制筛查问卷调查流程与上述相同。对所采集的筛查数据,进行数据预处理,提取表中所列特征,送入训练所得的识别模型得到识别结果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。

Claims (9)

1.一种基于极端梯度提升算法的精神病高危识别模型,其特征在于,所述的精神病高危识别模型(100)包括建立精神病高危识别模型(101)和利用所建立的模型对精神病高危进行识别(102);
所述的建立精神病高危识别模型(101)分为:
获取筛查工具的数据为训练特征(1011),训练特征归一化(1012),XGBoost模型训练(1013),特征刷选(1014),特征精简(1015);
所述的利用所建立的模型对精神病高危进行识别(102)分为:
获取被试的筛查数据(1021),提取指定特征(1022),送入所建立的识别模型进行识别(1023)。
2.根据权利要求1所述的基于极端梯度提升算法的精神病高危识别模型,其特征在于,所述的获取筛查工具的数据为训练特征(1011)包括:大学生的自制筛查工具数据。
3.根据权利要求1所述的基于极端梯度提升算法的精神病高危识别模型,其特征在于,所述的训练特征归一化(1012)包括:将高危组样本标签设为1,其他标签均设为0,所有数据在同一维度经Z-Score转换进行标准化处理。
4.根据权利要求1所述的基于极端梯度提升算法的精神病高危识别模型,其特征在于,所述的XGBoost模型训练(1013)包括:将转换后的数据随机分为80%的训练集和20%的测试集进行建模和验证,使用XGBoost算法进行模型训练,随机选取训练集和测试集,XGboost中子分类器个数为500个,子分类器最大深度为5,学习率0.1。
5.根据权利要求1所述的基于极端梯度提升算法的精神病高危识别模型,其特征在于,所述的特征刷选(1014)包括:对每一个经XGboost训练后的模型,提取所有特征的权重,根据平均权重及临床需求对特征进行挑选。
6.根据权利要求1所述的基于极端梯度提升算法的精神病高危识别模型,其特征在于,所述的特征精简(1015)包括:去掉对实际高危筛查分类影响较小的特征。
7.根据权利要求1所述的基于极端梯度提升算法的精神病高危识别模型,其特征在于,所述的获取被试的筛查数据(1021),即前驱状态问卷简版(PQ-B),***型人格障碍诊断问卷(PQD-SPD)、自制19项阴性症状问卷及家族遗传史1项共50项问题的自制问卷,与模型训练需要采集的数据相同。
8.根据权利要求1所述的基于极端梯度提升算法的精神病高危识别模型,其特征在于,所述的提取指定特征(1022)包括:由特征刷选步骤选出的具有较高权重的指标。
9.根据权利要求1所述的基于极端梯度提升算法的精神病高危识别模型,其特征在于,所述的送入所建立的识别模型进行识别(1023),获得识别结果:该被试被识别模型判别属于健康组或是精神病高危组。
CN201911173416.2A 2019-11-26 2019-11-26 一种基于极端梯度提升算法的精神病高危识别模型 Pending CN110853761A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911173416.2A CN110853761A (zh) 2019-11-26 2019-11-26 一种基于极端梯度提升算法的精神病高危识别模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911173416.2A CN110853761A (zh) 2019-11-26 2019-11-26 一种基于极端梯度提升算法的精神病高危识别模型

Publications (1)

Publication Number Publication Date
CN110853761A true CN110853761A (zh) 2020-02-28

Family

ID=69604626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911173416.2A Pending CN110853761A (zh) 2019-11-26 2019-11-26 一种基于极端梯度提升算法的精神病高危识别模型

Country Status (1)

Country Link
CN (1) CN110853761A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749763A (zh) * 2021-01-27 2021-05-04 武汉理工大学 用于玻璃质量影响因素的时间序列分类分析方法及***
WO2021217867A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 基于XGBoost的数据分类方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101568A (zh) * 2018-07-16 2018-12-28 江苏智通交通科技有限公司 基于XgBoost算法的交通高危人员识别方法
CN110063732A (zh) * 2019-04-15 2019-07-30 北京航空航天大学 用于精神***症早期检测和风险预测***
CN110111888A (zh) * 2019-05-16 2019-08-09 闻康集团股份有限公司 一种XGBoost疾病概率预测方法、***及存储介质
US20190267112A1 (en) * 2016-10-30 2019-08-29 Taliaz Ltd. Method and system for predicting response of a subject to antidepressant treatment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190267112A1 (en) * 2016-10-30 2019-08-29 Taliaz Ltd. Method and system for predicting response of a subject to antidepressant treatment
CN109101568A (zh) * 2018-07-16 2018-12-28 江苏智通交通科技有限公司 基于XgBoost算法的交通高危人员识别方法
CN110063732A (zh) * 2019-04-15 2019-07-30 北京航空航天大学 用于精神***症早期检测和风险预测***
CN110111888A (zh) * 2019-05-16 2019-08-09 闻康集团股份有限公司 一种XGBoost疾病概率预测方法、***及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021217867A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 基于XGBoost的数据分类方法、装置、计算机设备及存储介质
CN112749763A (zh) * 2021-01-27 2021-05-04 武汉理工大学 用于玻璃质量影响因素的时间序列分类分析方法及***
CN112749763B (zh) * 2021-01-27 2022-06-03 武汉理工大学 用于玻璃质量影响因素的时间序列分类分析方法及***

Similar Documents

Publication Publication Date Title
CN109785976B (zh) 一种基于Soft-Voting的痛风病分期预测***
CN108806792B (zh) 深度学习面诊***
US20180165413A1 (en) Gene expression data classification method and classification system
CN108511056A (zh) 基于脑卒中患者相似性分析的治疗方案推荐方法及***
CN110731773B (zh) 一种基于心电波形图全局与局部深度特征融合的异常心电图筛查方法
CN109003266B (zh) 一种基于模糊聚类统计图像质量主观评价结果的方法
CN111415099A (zh) 一种基于多分类BP-Adaboost的贫困生认定方法
CN110853761A (zh) 一种基于极端梯度提升算法的精神病高危识别模型
CN101551854A (zh) 不平衡医学影像处理***及其处理方法
CN110289097A (zh) 一种基于Xgboost神经网络堆叠模型的模式识别诊断***
CN106548435A (zh) 细胞年龄分析整合***
CN110660041A (zh) 基于深度神经网络的肺部退行性疾病判别技术
KR20110098286A (ko) 퍼지 추론기법을 이용한 한방 자가 진단방법
CN116259415A (zh) 一种基于机器学习的患者服药依从性预测方法
CN108596228A (zh) 一种基于无监督模糊***的脑功能磁共振图像分类方法
CN114298604A (zh) 一种基于大数据动态监测分析的孵化器入住企业智能综合评价管理***
Kadhim et al. Detection of COVID-19 in X-Rays by convolutional neural networks
CN113360643A (zh) 一种基于短文本分类的电子病历数据质量评价方法
WO2023061174A1 (zh) 一种孤独症谱系障碍的风险预测模型构建方法及装置
Sangkatip et al. Non-communicable diseases classification using multi-label learning techniques
CN116484290A (zh) 一种基于Stacking集成的抑郁症识别模型构建方法
CN116564521A (zh) 一种慢性病风险评估模型建立方法、介质及***
CN116469570A (zh) 一种基于电子病历的恶性肿瘤并发症分析方法
Hakim Performance Evaluation of Machine Learning Techniques for Early Prediction of Brain Strokes
CN115204475A (zh) 一种戒毒场所安全事件风险评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228