CN114999639A - 一种糖尿病评分模型建立方法及糖尿病风险评分方法 - Google Patents

一种糖尿病评分模型建立方法及糖尿病风险评分方法 Download PDF

Info

Publication number
CN114999639A
CN114999639A CN202210454530.8A CN202210454530A CN114999639A CN 114999639 A CN114999639 A CN 114999639A CN 202210454530 A CN202210454530 A CN 202210454530A CN 114999639 A CN114999639 A CN 114999639A
Authority
CN
China
Prior art keywords
diabetes
variable
model
scoring
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210454530.8A
Other languages
English (en)
Inventor
肖辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210454530.8A priority Critical patent/CN114999639A/zh
Publication of CN114999639A publication Critical patent/CN114999639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种糖尿病评分模型建立方法及糖尿病风险评分方法,其中,糖尿病评分模型建立方法包括:通过预先建立的随机森林计算引发糖尿病的各变量的重要度;根据各变量的重要度确定重要变量;根据重要变量构建回归模型;利用回归模型生成列线图模型,将列线图模型作为糖尿病评分模型。通过执行本发明能够构建更为准确的亿概率形式输出的糖尿病初筛与风险评估模型,使用户能够获取准确的、标准量化的糖尿病风险评估结果。并且通过执行本发明建立的糖尿病评分模型可以对糖尿病高风险人群的筛查和风险干预措施进行指导,从而可以大大提高人群中未诊糖尿病的检出率,增强糖尿病防治效果,并可节省大量的卫生资源。

Description

一种糖尿病评分模型建立方法及糖尿病风险评分方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种糖尿病评分模型建立方法及糖尿病风险评分方法。
背景技术
糖尿病(Diabetes Mellitus,DM)是一种由于胰岛素分泌缺陷或胰岛素作用障碍所致的以高血糖为特征的代谢性疾病,其特点是慢性高血糖,伴有胰岛素分泌不足或作用障碍,导致碳水化合物、脂肪、蛋白质代谢紊乱,造成多种器官的慢性损伤、功能障碍衰竭。糖尿病最主要的表现是血中的葡萄糖含量过高及尿中有糖。糖尿病中90%为2型糖尿病(Type 2Diabetes Mellitus,T2DM),1型糖尿病仅占4%-6%。2型糖尿病又名非胰岛素依赖型糖尿病(NIDDM),特点是人体自身能够产生胰岛素,但细胞无法对其作出反应,使胰岛素的效果大打折扣。
只有及早地发现糖尿病,提高人群中未诊糖尿病的检出率,才能对糖尿病风险进行干预,增强防治效果。传统的通过检测餐后血糖和糖化血红蛋白来确诊糖尿病的方式成本较高。考虑到糖尿病患病风险与个体的基本情况、饮食习惯和体力活动等指标都可能存在着复杂的相关关系,因此,现有技术中根据这些容易获取的信息,利用统计模型可以对糖尿病风险进行有效分析,其分析的结果可以应用于糖尿病高风险人群的筛查和风险干预措施的指导,从而提高人群中未诊糖尿病的检出率,增强糖尿病防治效果,并可节省大量的卫生资源。现有技术中提供了如下几种糖尿病风险评分模型:
芬兰糖尿病风险评分模型(FINDRISC):对4435名35~64岁的随机抽样人群进行了为期10年的前瞻性队列研究。在此基础上,以糖尿病为因变量,挑选糖尿病的显著影响因素,并进行多因素logistic回归分析,计算出每个自变量的回归系数,并以此设定分值,建立了FINDRISC模型。并通过另一为期5年(1992至1997年)4586例人群随访研究对该模型进行了检验。在上述两项队列研究中,模型的敏感度分别为0.78和0.81,特异度分别为0.77和0.76,受试者工作特征(ROC)曲线下面积(AUC)分别为0.85和0.87。随后,芬兰Saaristo等进行了一项4622例人群的横断面研究,加入糖尿病家族史作为评分项对FINDRISC模型进行了改良。男性及女性患者敏感度分别为0.66和0.70,AUC分别为0.72和0.73。
丹麦糖尿病风险评分模型:将6784例(30-60岁)受试者分为两部分,前半部分用于建立模型,后半部分用与检验模型,经过多因素logistic回归分析,最终评分项目包括:年龄、性别、BMI、已知的高血压、体育活动、糖尿病家族史。在前半部分及后半部分人群中,该模型的敏感度分别为0.73和0.67,特异度均为0.74,AUC分别为0.80和0.76。
德国精确糖尿病风险评分模型:对9729例男性受试者及15438例女性受试者进行了为期7年的随访研究,通过多元Cox回归分析建立了风险评分模型,研究发现,以550分作为切点时,该模型对预测未来5年患糖尿病风险的敏感度为0.68,特异度为0.81,AUC为0.84。
以上几种模型所用数据量较少,考虑因素较少,并且结构均为经典模型结构,难以发掘数据中的复杂关系,因此精度较低,并且,模型对风险的量化缺少标准。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中难以对糖尿病风险进行量化的缺陷,从而提供一种糖尿病评分模型建立方法及糖尿病风险评分方法。
本发明第一方面提供了一种糖尿病评分模型建立方法,包括:通过预先建立的随机森林计算引发糖尿病的各变量的重要度;根据各变量的重要度确定重要变量;根据重要变量构建回归模型;利用回归模型生成列线图模型,将列线图模型作为糖尿病评分模型。
可选地,在本发明提供的糖尿病评分模型建立方法中,通过预先建立的随机森林计算引发糖尿病的变量的重要度的步骤,包括:对多个初始样本进行有放回地随机抽取,形成多个自助样本,以及与各自助样本对应的袋外数据,各初始样本中包括多类变量;对袋外数据进行分类,得到各袋外数据对相应自助样本的第一投票分数;将其中一类变量的数值在各袋外数据中的顺序随机改变,形成第二测试样本;利用随机森林对新的测试样本进行分类,得到各自助样本的第二投票分数;根据第一投票分数和第二投票分数计算变量的重要度。
可选地,在本发明提供的糖尿病评分模型建立方法中,通过如下公式计算变量的重要度:
Figure BDA0003618298100000031
其中,scorei表示第i类变量的重要度,b表示自助样本的数量,ratej表示第j个自助样本的第一投票分数,rateij表示将第i类变量的数值在各袋外数据中的顺序随机改变后,第j个自助样本的第二投票分数,p表示变量的种类数量。
可选地,在本发明提供的糖尿病评分模型建立方法中,根据重要变量构建回归模型的步骤,包括:建立logistic回归函数;通过最大似然估计方式,计算logistic回归函数中各个回归参数的值;结合各个回归参数的值确定logistic回归模型。
可选地,在本发明提供的糖尿病评分模型建立方法中,logistic回归函数为:
Figure BDA0003618298100000041
其中,
Figure BDA0003618298100000042
β012,…,βk为常数项和自变量系数,x1i,x2i,…,xki为自变量,用yi表示实际观测到的反应变量,yi=1表示事件发生,yi=0表示事件未发生,pi=P(yi=1)为待检测事件发生的概率,其中yi服从二项分布,即yi~B(1,pi)。
可选地,在本发明提供的糖尿病评分模型建立方法中,通过最大似然估计方式,计算logistic回归函数中各个回归参数的值,包括:根据实际观测到的各反应变量的概率函数确定各反应变量的似然函数:
Figure BDA0003618298100000043
其中,yi服从二项分布,yi的概率函数为
Figure BDA0003618298100000044
确定似然函数的对数函数:
Figure BDA0003618298100000045
Figure BDA0003618298100000046
将对数函数取最大值时各回归参数的取值,确定为logistic回归函数中各个回归参数的值。
可选地,在本发明提供的糖尿病评分模型建立方法中,通过如下步骤建立随机森林:在原始训练数据集中,应用bootstrap方法有放回地随机抽取K个新的自助样本集,并构建K棵分类回归树,每次未被抽到的样本组成了K个袋外数据;获取每棵分类回归树的特征,在每一棵分类回归树的每个节点处随机抽取mtry个特征,通过计算每个特征蕴含的信息量,在抽取的mtry个特征中选择一个最具有分类能力的特征进行节点***;每棵分类回归树最大限度地生长,将生长完成的多棵分类回归树组成随机森林。
本发明第二方面提供了一种糖尿病风险评分方法,包括:获取一个或多个目标变量值;通过糖尿病评分模型,确定与各目标变量值对应的目标分值,糖尿病评分模型通过如本发明第一方面提供的糖尿病评分模型建立方法建立得到;根据各目标变量值对应的目标分值确定糖尿病评估分值。
可选地,在本发明提供的糖尿病风险评分方法中,通过糖尿病评分模型,确定与各目标变量值对应的目标分值的步骤,包括:若糖尿病评分模型中不存在与目标变量值直接对应的目标分值,在糖尿病评分模型中确定与目标变量值距离最小的第一参考变量值、第二参考变量值,以及与第一参考变量对应的第一参考目标值、与第二参考变量对应的第二参考目标值;对第一参考变量、第二参考变量、第一参考目标值、第二参考目标值进行插值运算,得到目标变量值对应的目标分值。
本发明第三方面提供了一种计算机设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,从而执行如本发明第一方面提供的糖尿病评分模型建立方法,或,执行如本发明第二方面提供的糖尿病风险评分方法。
本发明技术方案,具有如下优点:
1.本发明提供的糖尿病评分模型建立方法,其基于糖尿病大数据,结合经典模型、现代机器学习模型、糖尿病专家知识构建了更为准确的亿概率形式输出的糖尿病初筛与风险评估模型,使用户能够获取准确的、标准量化的糖尿病风险评估结果。通过执行本发明建立的糖尿病评分模型可以对糖尿病高风险人群的筛查和风险干预措施进行指导,从而可以大大提高人群中未诊糖尿病的检出率,增强糖尿病防治效果,并可节省大量的卫生资源。
2.本发明提供的糖尿病风险评分方法,在获取到一个或多个目标变量的目标变量值后,通过糖尿病评分模型确定与各目标变量值对应的目标分值,最终通过目标分值确定糖尿病评估分值,由于糖尿病评分模型是通过本发明第一方面提供的糖尿病评分模型建立方法建立的,本发明第一方面提供的糖尿病评分模型建立方法基于糖尿病大数据,结合经典模型、现代机器学习模型、糖尿病专家知识构建了更为准确的亿概率形式输出的糖尿病初筛与风险评估模型,使用户能够获取准确的、标准量化的糖尿病风险评估结果。因此,执行本发明可以对糖尿病高风险人群的筛查和风险干预措施进行指导,从而可以大大提高人群中未诊糖尿病的检出率,增强糖尿病防治效果,并可节省大量的卫生资源。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中糖尿病评分模型建立方法的一个具体示例的流程图;
图2为本发明实施例中糖尿病风险评分方法的一个具体示例的流程图;
图3本发明实施例中糖尿病评分模型建立装置的一个具体示例的原理框图;
图4本发明实施例中糖尿病风险评分装置的一个具体示例的原理框图;
图5为本发明实施例中计算机设备的一个具体示例的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例提供了一种糖尿病评分模型建立方法,如图1所示,包括:
步骤S11:通过预先建立的随机森林计算引发糖尿病的各变量的重要度。
在一可选实施例中,与糖尿病有关的变量主要包括:空腹血糖、年龄、bmi、舒张压、极低密度脂蛋白、甘油三酯、控制食盐、食肉与蔬菜的比例、臀围、高密度脂蛋白、总胆固醇、吸烟量、收缩压、低密度脂蛋白、腰围、性别、控制脂肪、控制主食、饮酒量、身体活动状况、家族发糖尿病史、谷丙转氨酶、体重变化率等。
在一可选实施例中,根据专家知识指定变量的初始值,利用随机森林计算各个变量重要度。变量的重要度用于评价各个变量对于结局发生的影响,变量的重要度越高,则表明其越有能力对结局变量进行分类。
步骤S12:根据各变量的重要度确定重要变量。
在一可选实施例中,预先设定有重要性评分阈值,若变量的重要度大于重要性评分阈值,则将该变量确定为重要变量。
步骤S13:根据重要变量构建回归模型。
在一可选实施例中,根据重要变量构建的是logistic回归模型。logistic回归模型是一种概率型非线性回归,它不要求变量服从多元正态分布,适用范围较广。
步骤S14:利用回归模型生成列线图模型,将列线图模型作为糖尿病评分模型。
在一可选实施例中,列线图模型即为Nomogram评分表,Nomogram是一种将Logistic回归模型结果数量化和的方法,可以输出来自不同自变量值的评分,并计算得到总分及对应的因变量分布预测。
本发明实施例提供的糖尿病评分模型建立方法,其基于糖尿病大数据,结合经典模型、现代机器学习模型、糖尿病专家知识构建了更为准确的亿概率形式输出的糖尿病初筛与风险评估模型,使用户能够获取准确的、标准量化的糖尿病风险评估结果。通过执行本发明实施例建立的糖尿病评分模型可以对糖尿病高风险人群的筛查和风险干预措施进行指导,从而可以大大提高人群中未诊糖尿病的检出率,增强糖尿病防治效果,并可节省大量的卫生资源。
在一可选实施例中,上述步骤S11具体包括:
首先,对多个初始样本进行有放回地随机抽取,形成多个自助样本,以及与各自助样本对应的袋外数据,各初始样本中包括多类变量。
在一可选实施例中,自助样本与袋外数据一一对应。
示例性地,在N个原本样本中,各变量分别为x1,x2,…,xi,…,xm,应用bootstrap法有放回地随机抽取b个自助样本,并由此形成b个树分类器;每次未被抽到的样本则组成b个袋外数据,袋外数据作为测试样本可以用来评估各个变量在树分类器中的重要性。
其次,对袋外数据进行分类,得到各袋外数据对相应自助样本的第一投票分数。
示例性地,若形成b个袋外数据,则对b个袋外数据进行分类,得到b个自助样本的袋外数据对每个自助样本的投票分数,记为rate1,rate2,…,rateb
再次,将其中一类变量的数值在各袋外数据中的顺序随机改变,形成第二测试样本。
然后,利用随机森林对新的测试样本进行分类,得到各自助样本的第二投票分数。
在一可选实施例中,将变量xi的数值在b个袋外数据中的顺序随机改变,形成第二测试样本:OOB测试样本,然后用已建立的随机森林对新的OOB进行分类,根据正确的样本数得到每个自助样本的第二投票分数,所得第二投票分数结果用矩阵表示为:
Figure BDA0003618298100000101
最后,根据第一投票分数和第二投票分数计算变量的重要度。
在一可选实施例中,用rate1,rate2,…,rateb与上述矩阵对应的第i行向量相减、求和平均后再除以标准误差得到变量xi的重要性评分scorei,具体计算公式为:
Figure BDA0003618298100000102
其中,scorei表示第i类变量的重要度,b表示自助样本的数量,ratej表示第j个自助样本的第一投票分数,rateij表示将第i类变量的数值在各袋外数据中的顺序随机改变后,第j个自助样本的第二投票分数,p表示变量的种类数量。
在一可选实施例中,上述步骤S13具体包括如下内容:
首先,建立logistic回归函数。
在一可选实施例中,用yi表示实际观测到的反应变量,yi=1表示事件发生,yi=0表示事件未发生,pi=P(yi=1)为要测算的事件发生的概率,其中yi服从二项分布,即yi~B(1,pi),具体的模型函数如下:
Figure BDA0003618298100000111
式中,β012,…,βk是它的常数项和自变量系数;x1i,x2i,…,xki为自变量;
所以,Logistic回归函数可以写为:
Figure BDA0003618298100000112
即为因变量yi=1的差异比或似然比的自然对数。
然后,通过最大似然估计方式,计算logistic回归函数中各个回归参数的值。
在一可选实施例中,回归参数包括常数项和自变量系数。对于Logistic回归函数一般采用最大似然估计法对回归参数进行估计,最大似然估计法是一种迭代算法,利用总体的分布密度或概率分布的表达式及其样本所提供信息建立起求未知参数估计量的一种方法。最大似然估计法以一个预测估计值作为参数的初始值,根据算法确定能增大对数似然值的参数的方向和变动,对残差进行检验并用改进的函数进行重新估计,直到收敛为止(即对数似然不再显著变化)。
其中,由于yi服从二项分布,yi的概率函数为
Figure BDA0003618298100000113
Figure BDA0003618298100000114
于是,y1,y2,…,yn的似然函数是
Figure BDA0003618298100000115
对似然函数取对数,得
Figure BDA0003618298100000116
Figure BDA0003618298100000117
选取β012,…,βk的估计值
Figure BDA0003618298100000121
使得上述似然函数对数函数的值最大。
最后,结合各个回归参数的值确定logistic回归模型。
在一可选实施例中,上述步骤S11中所使用的随机森林通过如下步骤建立:
首先,在原始训练数据集中,应用bootstrap方法有放回地随机抽取K个新的自助样本集,并构建K棵分类回归树,每次未被抽到的样本组成了K个袋外数据。
然后,获取每棵分类回归树的特征,在每一棵分类回归树的每个节点处随机抽取mtry个特征,通过计算每个特征蕴含的信息量,在抽取的mtry个特征中选择一个最具有分类能力的特征进行节点***。
最后,每棵分类回归树最大限度地生长,将生长完成的多棵分类回归树组成随机森林。在分类回归树生长器件不做任何裁剪。
在一可选实施例中,用随机森林对新的数据进行分类,分类结果按树分类器的投票多少而定。
在一可选实施例中,在随机森林中,当决策树分类器足够多时,hk(X)=h(X,θk)服从强大数定律。随着随机森林中决策树数量的增加,所有序列θ12,…,θk,PE*几乎处处收敛于:
Figure BDA0003618298100000122
表明随机森林不会随着决策树的增加而产生过拟合问题,但可能会产生一定限度内的泛化误差:
PE*=PX,Y(mg(X,Y)<0),
式中,X,Y下标表示概率P覆盖X,Y空间。
本发明实施例提供了一种糖尿病风险评分方法,如图2所示,包括:
步骤S21:获取一个或多个目标变量值。
步骤S22:通过糖尿病评分模型,确定与各目标变量值对应的目标分值,糖尿病评分模型通过上述实施例中提供的糖尿病评分模型建立方法建立得到,有关糖尿病评分模型的详细内容参见上述实施例中的记载,在此不再赘述。
在本发明实施例中,将各目标变量依次输入到糖尿病评分模型中,分别得到各目标变量对应的目标分值。
步骤S23:根据各目标变量值对应的目标分值确定糖尿病评估分值。
在一可选实施例中,将各目标变量对应的目标分值的和确定为糖尿病评估分值,糖尿病评估分值越大,表明用户患糖尿病的可能性越大,反之,糖尿病评估分值越小,表明用户患糖尿病的可能性越小。
本发明实施例提供的糖尿病风险评分方法,在获取到一个或多个目标变量的目标变量值后,通过糖尿病评分模型确定与各目标变量值对应的目标分值,最终通过目标分值确定糖尿病评估分值,由于糖尿病评分模型是通过上述实施例提供的糖尿病评分模型建立方法建立的,上述实施例提供的糖尿病评分模型建立方法基于糖尿病大数据,结合经典模型、现代机器学习模型、糖尿病专家知识构建了更为准确的亿概率形式输出的糖尿病初筛与风险评估模型,使用户能够获取准确的、标准量化的糖尿病风险评估结果。因此,本发明实施例可以对糖尿病高风险人群的筛查和风险干预措施进行指导,从而可以大大提高人群中未诊糖尿病的检出率,增强糖尿病防治效果,并可节省大量的卫生资源。
在一可选实施例中,上述步骤S22包括:
若糖尿病评分模型中不存在与目标变量值直接对应的目标分值,执行如下步骤:
首先,在糖尿病评分模型中确定与目标变量值距离最小的第一参考变量值、第二参考变量值,以及与第一参考变量对应的第一参考目标值、与第二参考变量对应的第二参考目标值。
然后,对第一参考变量、第二参考变量、第一参考目标值、第二参考目标值进行插值运算,得到目标变量值对应的目标分值。
在本发明是实施例中,若通过Nomogram评分表无法查到目标分值,此时需要通过线性插值法来处理这种情况,具体如下:对于任何一个变量,若用户输入的某变量值小于Nomogram评分表中能找到的该变量的最小值,且用户输入的某变量值大于Nomogram评分表中该变量的最小值,则在Nomogram评分表中找到与用户输入的变量值最接近的两行信息,用这两行信息进行插值,输入一个五元组(X,X1,Y1,X2,Y2),这个五元组中每个变量都是数值型,并且要求X1≠X2,则输出的目标分值Y为:
Figure BDA0003618298100000141
在一可选实施例中,本发明实施例提供的糖尿病风险评分方法还包括:
若步骤S21中获取的目标变量中涉及重要因素的,筛选出其中的可控因素,并根据Nomogram评分表对可控因素进行敏感性分析,输出可行的预防建议及建议的次序。
次序的排序方法是:找出建议所对应的可控因素,然后以根据风险评分受不同因素影响的敏感性进行排序,敏感性越强的因素,排序越前,其所对应的建议,排序也越靠前。
本发明实施例提供了一种糖尿病评分模型建立装置,如图3所示,包括:
重要度计算模块11,用于通过预先建立的随机森林计算引发糖尿病的各变量的重要度,详细内容参见上述实施例中对步骤S11的描述,在此不再赘述。
重要变量确定模块12,用于根据各变量的重要度确定重要变量,详细内容参见上述实施例中对步骤S12的描述,在此不再赘述。
回归模型建立模块13,用于根据重要变量构建回归模型,详细内容参见上述实施例中对步骤S13的描述,在此不再赘述。
评分模型建立模块14,用于利用回归模型生成列线图模型,将列线图模型作为糖尿病评分模型,详细内容参见上述实施例中对步骤S14的描述,在此不再赘述。
本发明实施例提供了一种糖尿病风险评分装置,如图4所示,包括:
变量值获取模块21,用于获取一个或多个目标变量值,详细内容参见上述实施例中步骤S21的描述,在此不再赘述。
目标分值计算模块22,用于通过糖尿病评分模型,确定与各目标变量值对应的目标分值,糖尿病评分模型通过如上述实施例中提供的糖尿病评分模型建立方法建立得到,详细内容参见上述实施例中步骤S22的描述,在此不再赘述。
糖尿病评估分值计算模块23,用于根据各目标变量值对应的目标分值确定糖尿病评估分值,详细内容参见上述实施例中步骤S23的描述,在此不再赘述。
本发明实施例提供了一种计算机设备,如图5所示,该计算机设备主要包括一个或多个处理器31以及存储器32,图5中以一个处理器31为例。
该计算机设备还可以包括:输入装置33和输出装置34。
处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器31可以为中央处理器(Central Processing Unit,CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据糖尿病评分模型建立装置,或,糖尿病风险评分装置的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至糖尿病评分模型建立装置,或,糖尿病风险评分装置。输入装置33可接收用户输入的计算请求(或其他数字或字符信息),以及产生与糖尿病评分模型建立装置,或,糖尿病风险评分装置有关的键信号输入。输出装置34可包括显示屏等显示设备,用以输出计算结果。
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的糖尿病评分模型建立方法,或,糖尿病风险评分方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种糖尿病评分模型建立方法,其特征在于,包括:
通过预先建立的随机森林计算引发糖尿病的各变量的重要度;
根据各变量的重要度确定重要变量;
根据所述重要变量构建回归模型;
利用所述回归模型生成列线图模型,将所述列线图模型作为所述糖尿病评分模型。
2.根据权利要求1所述的糖尿病评分模型建立方法,其特征在于,通过预先建立的随机森林计算引发糖尿病的变量的重要度的步骤,包括:
对多个初始样本进行有放回地随机抽取,形成多个自助样本,以及与各自助样本对应的袋外数据,各所述初始样本中包括多类变量;
对所述袋外数据进行分类,得到各袋外数据对相应自助样本的第一投票分数;
将其中一类变量的数值在各袋外数据中的顺序随机改变,形成第二测试样本;
利用所述随机森林对新的测试样本进行分类,得到各自助样本的第二投票分数;
根据所述第一投票分数和所述第二投票分数计算所述变量的重要度。
3.根据权利要求2所述的糖尿病评分模型建立方法,其特征在于,通过如下公式计算所述变量的重要度:
Figure FDA0003618298090000021
其中,scorei表示第i类变量的重要度,b表示所述自助样本的数量,ratej表示第j个自助样本的第一投票分数,rateij表示将第i类变量的数值在各袋外数据中的顺序随机改变后,第j个自助样本的第二投票分数,p表示变量的种类数量。
4.根据权利要求1所述的糖尿病评分模型建立方法,其特征在于,根据所述重要变量构建回归模型的步骤,包括:
建立logistic回归函数;
通过最大似然估计方式,计算logistic回归函数中各个回归参数的值;
结合各个回归参数的值确定logistic回归模型。
5.根据权利要求4所述的糖尿病评分模型建立方法,其特征在于,logistic回归函数为:
Figure FDA0003618298090000022
其中,
Figure FDA0003618298090000023
β012,…,βk为常数项和自变量系数,x1i,x2i,…,xki为自变量,用yi表示实际观测到的反应变量,yi=1表示事件发生,yi=0表示事件未发生,pi=P(yi=1)为待检测事件发生的概率,其中yi服从二项分布,即yi~B(1,pi)。
6.根据权利要求5所述的糖尿病评分模型建立方法,其特征在于,通过最大似然估计方式,计算logistic回归函数中各个回归参数的值,包括:
根据实际观测到的各反应变量的概率函数确定各反应变量的似然函数:
Figure FDA0003618298090000031
其中,yi服从二项分布,yi的概率函数为
Figure FDA0003618298090000032
i=1,2,…,n;
确定所述似然函数的对数函数:
Figure FDA0003618298090000033
Figure FDA0003618298090000034
将所述对数函数取最大值时各回归参数的取值,确定为所述logistic回归函数中各个回归参数的值。
7.根据权利要求1所述的糖尿病评分模型建立方法,其特征在于,通过如下步骤建立所述随机森林:
在原始训练数据集中,应用bootstrap方法有放回地随机抽取K个新的自助样本集,并构建K棵分类回归树,每次未被抽到的样本组成了K个袋外数据;
获取每棵分类回归树的特征,在每一棵分类回归树的每个节点处随机抽取mtry个特征,通过计算每个特征蕴含的信息量,在抽取的mtry个特征中选择一个最具有分类能力的特征进行节点***;
每棵分类回归树最大限度地生长,将生长完成的多棵分类回归树组成随机森林。
8.一种糖尿病风险评分方法,其特征在于,包括:
获取一个或多个目标变量值;
通过糖尿病评分模型,确定与各所述目标变量值对应的目标分值,所述糖尿病评分模型通过如权利要求1-7中任一项所述的糖尿病评分模型建立方法建立得到;
根据各所述目标变量值对应的目标分值确定糖尿病评估分值。
9.根据权利要求8所述的糖尿病风险评分方法,其特征在于,通过糖尿病评分模型,确定与各所述目标变量值对应的目标分值的步骤,包括:
若所述糖尿病评分模型中不存在与所述目标变量值直接对应的目标分值,
在所述糖尿病评分模型中确定与所述目标变量值距离最小的第一参考变量值、第二参考变量值,以及与所述第一参考变量对应的第一参考目标值、与所述第二参考变量对应的第二参考目标值;
对所述第一参考变量、第二参考变量、第一参考目标值、第二参考目标值进行插值运算,得到所述目标变量值对应的目标分值。
10.一种计算机设备,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,从而执行如权利要求1-7中任一项所述的糖尿病评分模型建立方法,或,执行如权利要求8或9所述的糖尿病风险评分方法。
CN202210454530.8A 2022-04-27 2022-04-27 一种糖尿病评分模型建立方法及糖尿病风险评分方法 Pending CN114999639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210454530.8A CN114999639A (zh) 2022-04-27 2022-04-27 一种糖尿病评分模型建立方法及糖尿病风险评分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210454530.8A CN114999639A (zh) 2022-04-27 2022-04-27 一种糖尿病评分模型建立方法及糖尿病风险评分方法

Publications (1)

Publication Number Publication Date
CN114999639A true CN114999639A (zh) 2022-09-02

Family

ID=83025610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210454530.8A Pending CN114999639A (zh) 2022-04-27 2022-04-27 一种糖尿病评分模型建立方法及糖尿病风险评分方法

Country Status (1)

Country Link
CN (1) CN114999639A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128372A (zh) * 2019-12-02 2020-05-08 重庆邮电大学 基于rf-lr改进算法的疾病预测方法
CN113192637A (zh) * 2021-04-20 2021-07-30 山东大学齐鲁医院 个体化定量评估进展为2型糖尿病的风险预测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128372A (zh) * 2019-12-02 2020-05-08 重庆邮电大学 基于rf-lr改进算法的疾病预测方法
CN113192637A (zh) * 2021-04-20 2021-07-30 山东大学齐鲁医院 个体化定量评估进展为2型糖尿病的风险预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
绕绍: "《中华医学统计百科全书 遗传统计分册》", 中国统计出版社, pages: 194 - 195 *
郑晓薇著: "《高校财务预警 基于现金流量的研究》", 30 June 2013, pages: 140 - 143 *

Similar Documents

Publication Publication Date Title
Patel et al. Heart disease prediction using machine learning and data mining technique
US20180114123A1 (en) Rule generation method and apparatus using deep learning
JP2023526161A (ja) 人工知能(ai)モデル選択のための方法
Nishadi Predicting heart diseases in logistic regression of machine learning algorithms by Python Jupyterlab
Sabariah et al. Early detection of type II Diabetes Mellitus with random forest and classification and regression tree (CART)
CN115602325A (zh) 一种基于多模型算法的慢性病风险评估方法及其***
CN112052874B (zh) 一种基于生成对抗网络的生理数据分类方法及***
CN113593708A (zh) 基于集成学习算法的脓毒症预后预测方法
Bakar et al. A review: heart disease prediction in machine learning & deep learning
Shrestha et al. Supervised machine learning for early predicting the sepsis patient: modified mean imputation and modified chi-square feature selection
Aktar et al. Predicting patient COVID-19 disease severity by means of statistical and machine learning analysis of blood cell transcriptome data
CN115527608A (zh) 一种肠道年龄预测方法和***
Reddy et al. Diabetes correlated renal fault prediction through deep learning
e Silva et al. Prediction of mortality in coronary artery disease: role of machine learning and maximal exercise capacity
Jiang et al. Prediction of coronary heart disease in gout patients using machine learning models
Pérez et al. A latent variable-based Bayesian regression to address recording replications in Parkinson's disease
Alshari et al. Machine learning model to diagnose diabetes type 2 based on health behavior
Noori et al. A comparative analysis for diabetic prediction based on machine learning techniques
CN114999639A (zh) 一种糖尿病评分模型建立方法及糖尿病风险评分方法
CN115188475A (zh) 一种狼疮肾炎患者风险预测方法
Alam et al. Comparison Of The C. 45 And Naive Bayes Algorithms To Predict Diabetes
Kavya et al. Heart Disease Prediction Using Logistic Regression
Umamaheswari et al. Prediction of myocardial infarction using K-medoid clustering algorithm
Riyaz et al. Ensemble learning for coronary heart disease prediction
Heitz et al. WRSE-a non-parametric weighted-resolution ensemble for predicting individual survival distributions in the ICU

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220902