CN117747093A - 一种特发性肺纤维化诊断模型的构建方法及诊断*** - Google Patents

一种特发性肺纤维化诊断模型的构建方法及诊断*** Download PDF

Info

Publication number
CN117747093A
CN117747093A CN202410189821.8A CN202410189821A CN117747093A CN 117747093 A CN117747093 A CN 117747093A CN 202410189821 A CN202410189821 A CN 202410189821A CN 117747093 A CN117747093 A CN 117747093A
Authority
CN
China
Prior art keywords
genes
pulmonary fibrosis
idiopathic pulmonary
chip data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410189821.8A
Other languages
English (en)
Inventor
酒连娣
吕彬彬
郭栋梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Health China Technologies Co Ltd
Original Assignee
Digital Health China Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Health China Technologies Co Ltd filed Critical Digital Health China Technologies Co Ltd
Priority to CN202410189821.8A priority Critical patent/CN117747093A/zh
Publication of CN117747093A publication Critical patent/CN117747093A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明涉及基因技术领域,具体涉及一种特发性肺纤维化诊断模型的构建方法及诊断***;本***包括数据获取模块用于通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集,差异基因筛选模块用于利用芯片数据训练集经过贝叶斯检验,筛选出差异基因,特征基因筛选模块用于基于随机森林分类器筛选出特征基因,回归系数计算模块用于基于特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数,诊断模型构建模块用于构建特发性肺纤维化诊断模型,诊断模块用于基于待检者的特征基因的表达量通过特发性肺纤维化诊断模型计算诊断得分;实现对特发性肺纤维化的快速筛查,实现更早、更准确、更简便的对IPF做出诊断,改善预后。

Description

一种特发性肺纤维化诊断模型的构建方法及诊断***
技术领域
本发明涉及基因技术领域,具体涉及一种特发性肺纤维化诊断模型的构建方法及诊断***。
背景技术
肺纤维化是以成纤维细胞增殖及大量细胞外基质聚集并伴炎症损伤、组织结构破坏为特征的一大类肺疾病的终末期改变,也就是正常的肺泡组织被损坏后经过异常修复导致结构异常(疤痕形成)。绝大部分肺纤维化病人病因不明(特发性),这组疾病称为特发性间质性肺炎(Idiopathic Interstitial Pneumonia),是间质性肺炎中的一大类。而特发性间质性肺炎(IIP)中最常见的以肺纤维化病变为主要表现形式的疾病类型为特发性肺纤维化(Idiopathic Pulmonary Fibrosis),是一种能导致肺功能进行性丧失的严重的间质性肺疾病。肺纤维化严重影响人体呼吸功能,表现为干咳、进行性呼吸困难(自觉气不够用),且随着病情和肺部损伤的加重,患者呼吸功能不断恶化。特发性肺纤维化发病率和死亡率逐年增加,诊断后的平均生存期仅2.8年,死亡率高于大多数肿瘤,被称为一种“类肿瘤疾病”。
IPF诊断需要通过高分辨率CT(HRCT),部分病例需要肺活检。IPF常在初诊时被忽略,因为其临床上与其他疾病很相似,如支气管炎、 哮喘和心衰。大多数病人在确诊时病情已达中到晚期,即使治疗病情也恶化。
所以,亟需建立一种诊断模型助于更早、更准确、更简便的对IPF做出诊断,改善预后。
发明内容
针对上述现有技术的不足,本发明旨在提供一种硫化异丁烯的精制方法,以解决现有制备方法中对采用高腐蚀组分,铜腐蚀级别高,且产品具有臭味的问题。
为了解决上述问题,本发明采用了如下的技术方案:
一种特发性肺纤维化诊断***,包括数据获取模块、差异基因筛选模块、特征基因筛选模块、回归系数计算模块、诊断模型构建模块和诊断模块;
所述数据获取模块用于通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集;
所述差异基因筛选模块用于利用芯片数据训练集经过贝叶斯检验,分析IPF和control组的差异表达基因,筛选条件为p.adj<0.05 & |logFC|>0.5,筛选出差异基因;
所述特征基因筛选模块用于将所述差异基因基于随机森林分类器筛选出特征基因;
所述回归系数计算模块用于基于所述特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数;
所述诊断模型构建模块用于根据所述特征基因的表达量及其回归系数构建特发性肺纤维化诊断模型;
所述诊断模块用于基于待检者的特征基因的表达量通过所述特发性肺纤维化诊断模型计算诊断得分。
作为一种可实施方式,所述通过GEO数据库获取IPF患者基因表达谱芯片数据,构建芯片数据训练集,包括:
从GEO数据库获取IPF患者的基因表达谱芯片数据,IPF患者的基因表达谱芯片数据包括GSE132607、GSE38958和GSE28221;将IPF患者的基因表达谱芯片数据经log2转换后对其探针进行注释,将GSE132607和GSE38958进行合并,利用R包limma中removeBatchEffect函数去除合并数据的批次效应,整合获得芯片数据训练集,GSE28221作为验证集。
作为一种可实施方式,所述将所述差异基因基于随机森林分类器筛选出特征基因,包括:
随机森林分类器的变量设置为18个,计算错误率的树的数量为1000,筛选出重要性大于1的特征基因,特征基因包括TLR10、GZMK、CD79A、NOG、P2RY10、KLRB1、N6AMT1、EIF1AX、GCNT4、FCRLA、CD40LG、CD69、ABCA13、RNASE3、CEACAM6、USP9Y、OLFM4、BPI、UTY、RPS4Y1和DDX3Y。
作为一种可实施方式,所述各特征基因的回归系数:TLR10为-1.34326、GZMK为0.30552、CD79A为-1.1445、NOG为-0.54664、P2RY10为0.74687、KLRB1为-1.56761、N6AMT1为-0.83828、EIF1AX为-0.51833、GCNT4为-0.27993、FCRLA为1.70369、CD40LG为-2.0675、CD69为0.97147、ABCA13为1.54353、RNASE3为-0.08833、CEACAM6为0.48974、USP9Y为0.97489、OLFM4为-0.49965、BPI为0.39967、UTY为1.07367、RPS4Y1为-1.06128和DDX3Y为0.07629。
作为一种可实施方式,所述特发性肺纤维化诊断模型通过下式计算诊断得分:
1/(1+exp(-z),其中,z =[(-1.34326×TLR10)+(0.30552×GZMK)+(-1.1445×CD79A)+(-0.54664×NOG)+(0.74687×P2RY10)+(-1.56761×KLRB1)+(-0.83828×N6AMT1)+(-0.51833×EIF1AX)+(-0.27993×GCNT4)+(1.70369×FCRLA)+(-2.0675×CD40LG)+(0.97147×CD69)+(1.54353×ABCA13)+(-0.08833×RNASE3)+(0.48974×CEACAM6)+(0.97489×USP9Y)+(-0.49965×OLFM4)+(0.39967×BPI)+(1.07367×UTY)+(-1.06128×RPS4Y1)+(0.07629×DDX3Y)+32.73267]/10。
一种特发性肺纤维化诊断模型的构建方法,包括
通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集;
利用芯片数据训练集经过贝叶斯检验,分析IPF和control组的差异表达基因,筛选条件为p.adj<0.05 & |logFC|>0.5,筛选出差异基因;
将所述差异基因基于随机森林分类器筛选出特征基因;
基于所述特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数;
根据所述特征基因的表达量及其回归系数构建特发性肺纤维化诊断模型。
作为一种可实施方式,所述通过GEO数据库获取IPF患者基因表达谱芯片数据,构建芯片数据训练集,包括:
从GEO数据库获取IPF患者的基因表达谱芯片数据,IPF患者的基因表达谱芯片数据包括GSE132607、GSE38958和GSE28221;将IPF患者的基因表达谱芯片数据经log2转换后对其探针进行注释,将GSE132607和GSE38958进行合并,利用R包limma中removeBatchEffect函数去除合并数据的批次效应,整合获得芯片数据训练集,GSE28221作为验证集。
作为一种可实施方式,所述将所述差异基因基于随机森林分类器筛选出特征基因,包括:
随机森林分类器的变量设置为18个,计算错误率的树的数量为1000,筛选出重要性大于1的特征基因,特征基因包括TLR10、GZMK、CD79A、NOG、P2RY10、KLRB1、N6AMT1、EIF1AX、GCNT4、FCRLA、CD40LG、CD69、ABCA13、RNASE3、CEACAM6、USP9Y、OLFM4、BPI、UTY、RPS4Y1和DDX3Y。
作为一种可实施方式,所述各特征基因的回归系数:TLR10为-1.34326、GZMK为0.30552、CD79A为-1.1445、NOG为-0.54664、P2RY10为0.74687、KLRB1为-1.56761、N6AMT1为-0.83828、EIF1AX为-0.51833、GCNT4为-0.27993、FCRLA为1.70369、CD40LG为-2.0675、CD69为0.97147、ABCA13为1.54353、RNASE3为-0.08833、CEACAM6为0.48974、USP9Y为0.97489、OLFM4为-0.49965、BPI为0.39967、UTY为1.07367、RPS4Y1为-1.06128和DDX3Y为0.07629。
作为一种可实施方式,所述特发性肺纤维化诊断模型通过下式计算诊断得分:
1/(1+exp(-z);其中,z =[(-1.34326×TLR10)+(0.30552×GZMK)+(-1.1445×CD79A)+(-0.54664×NOG)+(0.74687×P2RY10)+(-1.56761×KLRB1)+(-0.83828×N6AMT1)+(-0.51833×EIF1AX)+(-0.27993×GCNT4)+(1.70369×FCRLA)+(-2.0675×CD40LG)+(0.97147×CD69)+(1.54353×ABCA13)+(-0.08833×RNASE3)+(0.48974×CEACAM6)+(0.97489×USP9Y)+(-0.49965×OLFM4)+(0.39967×BPI)+(1.07367×UTY)+(-1.06128×RPS4Y1)+(0.07629×DDX3Y)+32.73267]/10。
本发明的有益效果在于:通过本发明构建的诊断模型或诊断***,通过筛选IPF的差异基因,再针对差异基因通过随机森林分类器得出特征基因及其回归系数,通过构建的诊断模型进行IPF计算,实现对特发性肺纤维化的快速筛查,实现更早、更准确、更简便的对IPF做出诊断,改善预后。
附图说明
图1为本发明实施例中一种特发性肺纤维化诊断***示意图。
图2为本发明实施例中差异表达火山图。
图3为本发明实施例中38个差异基因在样本中的表达量热图。
图4为本发明实施例中38个差异基因的散点图。
图5为本发明实施例中决策树的数量的选择与错误率的关系图。
图6为本发明实施例中基因重要性展示图。
图7为本发明实施例中训练集的ROC曲线。
图8为本发明实施例中验证集的ROC曲线。
图9为本发明实施例中一种特发性肺纤维化诊断模型的构建方法流程图。
具体实施方式
下面结合具体实施例对本发明作进一步的详细说明。
需要说明的是,这些实施例仅用于说明本发明,而不是对本发明的限制,在本发明的构思前提下本方法的简单改进,都属于本发明要求保护的范围。
参见图1,为一种特发性肺纤维化诊断***,包括数据获取模块100、差异基因筛选模块200、特征基因筛选模块300、回归系数计算模块400、诊断模型构建模块500和诊断模块600;
数据获取模块100用于通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集。
其中,通过GEO数据库获取IPF患者基因表达谱芯片数据,构建芯片数据训练集,包括:
从GEO数据库获取IPF患者的基因表达谱芯片数据,IPF患者的基因表达谱芯片数据见表1包括GSE132607、GSE38958和GSE28221;将IPF患者的基因表达谱芯片数据经log2转换后对其探针进行注释,将GSE132607和GSE38958进行合并,利用R包limma中removeBatchEffect函数去除合并数据的批次效应,整合获得芯片数据训练集,GSE28221作为验证集。
表1 GEO数据库IPFmRNA表达谱芯片数据
数据集 IPF 正常 平台 组织
GSE132607 276 0 Gene Expression Array PBMC
GSE38958 70 45 Gene Expression Array PBMC
GSE28221 120 19 Gene Expression Array PBMC
差异基因筛选模块200用于利用芯片数据训练集经过贝叶斯检验,分析IPF和control组的差异表达基因,筛选条件为p.adj<0.05 & |logFC|>0.5,筛选出差异基因。筛选出差异基因38个,见图2、3。
特征基因筛选模块300用于将所述差异基因基于随机森林分类器筛选出特征基因。
具体的,将GSE132607和GSE38958合并的芯片数据的38个差异基因投入随机森林分类器,为了寻找最优变量个数,对所有可能的变量数循环进行随机森林分类计算并得到相应的错误率,最后我们选择18为最优变量数见图4;以及计算1-2000棵树的错误率,当树的数目达到1000后,错误率不再发生改变,见图5。最终我们选择18个变量,1000棵树作为最后计算的参数。随后我们筛选出重要性大于1的21个特征基因,见图6。
回归系数计算模块400用于基于所述特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数,见表2。
表2 特征基因的回归系数表
特征基因 回归系数 P值
Intercept 32.73267 0.000102
TLR10 -1.34326 0.013703
GZMK 0.30552 0.045683
CD79A -1.1445 0.063288
NOG -0.54664 0.031332
P2RY10 0.74687 0.024423
KLRB1 -1.56761 0.009573
N6AMT1 -0.83828 0.020989
EIF1AX -0.51833 0.046240
GCNT4 -0.27993 0.068536
FCRLA 1.70369 0.028434
CD40LG -2.0675 0.017964
CD69 0.97147 0.033659
ABCA13 1.54353 0.042329
RNASE3 -0.08833 0.065271
CEACAM6 0.48974 0.046443
USP9Y 0.97489 0.025125
OLFM4 -0.49965 0.038818
BPI 0.39967 0.046291
UTY 1.07367 0.014165
RPS4Y1 -1.06128 0.05182
DDX3Y 0.07629 0.047289
诊断模型构建模块500用于根据所述特征基因的表达量及其回归系数构建特发性肺纤维化诊断模型。
诊断模块600用于基于待检者的特征基因的表达量通过所述特发性肺纤维化诊断模型计算诊断得分。
特发性肺纤维化诊断模型通过下式计算诊断得分:
1/(1+exp(-z),其中,z =[(-1.34326×TLR10)+(0.30552×GZMK)+(-1.1445×CD79A)+(-0.54664×NOG)+(0.74687×P2RY10)+(-1.56761×KLRB1)+(-0.83828×N6AMT1)+(-0.51833×EIF1AX)+(-0.27993×GCNT4)+(1.70369×FCRLA)+(-2.0675×CD40LG)+(0.97147×CD69)+(1.54353×ABCA13)+(-0.08833×RNASE3)+(0.48974×CEACAM6)+(0.97489×USP9Y)+(-0.49965×OLFM4)+(0.39967×BPI)+(1.07367×UTY)+(-1.06128×RPS4Y1)+(0.07629×DDX3Y)+32.73267]/10。
利用ROC曲线检验模型的预测能力,一般情况下AUC>0.7 认为区分度良好。其中,训练集的ROC曲线见图7,训练集中最大约登指数为0.656,ROC曲线下面积AUC为0.893(95%CI 0.845-0.941),最佳截断值为0.875,该截断值下,灵敏度为0.723,特异性为0.933;验证集的ROC曲线件见8,均证明本发明模型具有良好的预测能力。
参见图9,为一种特发性肺纤维化诊断模型的构建方法,包括
S100、通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集;
S200、利用芯片数据训练集经过贝叶斯检验,分析IPF和control组的差异表达基因,筛选条件为p.adj<0.05 & |logFC|>0.5,筛选出差异基因;
S300、将所述差异基因基于随机森林分类器筛选出特征基因;
S400、基于所述特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数;
S500、根据所述特征基因的表达量及其回归系数构建特发性肺纤维化诊断模型。
其中,通过GEO数据库获取IPF患者基因表达谱芯片数据,构建芯片数据训练集,包括:
从GEO数据库获取IPF患者的基因表达谱芯片数据,IPF患者的基因表达谱芯片数据包括GSE132607、GSE38958和GSE28221;将IPF患者的基因表达谱芯片数据经log2转换后对其探针进行注释,将GSE132607和GSE38958进行合并,利用R包limma中removeBatchEffect函数去除合并数据的批次效应,整合获得芯片数据训练集,GSE28221作为验证集。
其中,将所述差异基因基于随机森林分类器筛选出特征基因,包括:
随机森林分类器的变量设置为18个,计算错误率的树的数量为1000,筛选出重要性大于1的特征基因,特征基因包括TLR10、GZMK、CD79A、NOG、P2RY10、KLRB1、N6AMT1、EIF1AX、GCNT4、FCRLA、CD40LG、CD69、ABCA13、RNASE3、CEACAM6、USP9Y、OLFM4、BPI、UTY、RPS4Y1和DDX3Y。
其中,各特征基因的回归系数:TLR10为-1.34326、GZMK为0.30552、CD79A为-1.1445、NOG为-0.54664、P2RY10为0.74687、KLRB1为-1.56761、N6AMT1为-0.83828、EIF1AX为-0.51833、GCNT4为-0.27993、FCRLA为1.70369、CD40LG为-2.0675、CD69为0.97147、ABCA13为1.54353、RNASE3为-0.08833、CEACAM6为0.48974、USP9Y为0.97489、OLFM4为-0.49965、BPI为0.39967、UTY为1.07367、RPS4Y1为-1.06128和DDX3Y为0.07629。
其中,特发性肺纤维化诊断模型通过下式计算诊断得分:
1/(1+exp(-z);其中,z =[(-1.34326×TLR10)+(0.30552×GZMK)+(-1.1445×CD79A)+(-0.54664×NOG)+(0.74687×P2RY10)+(-1.56761×KLRB1)+(-0.83828×N6AMT1)+(-0.51833×EIF1AX)+(-0.27993×GCNT4)+(1.70369×FCRLA)+(-2.0675×CD40LG)+(0.97147×CD69)+(1.54353×ABCA13)+(-0.08833×RNASE3)+(0.48974×CEACAM6)+(0.97489×USP9Y)+(-0.49965×OLFM4)+(0.39967×BPI)+(1.07367×UTY)+(-1.06128×RPS4Y1)+(0.07629×DDX3Y)+32.73267]/10。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims (10)

1.一种特发性肺纤维化诊断***,其特征在于,包括数据获取模块、差异基因筛选模块、特征基因筛选模块、回归系数计算模块、诊断模型构建模块和诊断模块;
所述数据获取模块用于通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集;
所述差异基因筛选模块用于利用芯片数据训练集经过贝叶斯检验,分析IPF和control组的差异表达基因,筛选条件为p.adj<0.05 & |logFC|>0.5,筛选出差异基因;
所述特征基因筛选模块用于将所述差异基因基于随机森林分类器筛选出特征基因;
所述回归系数计算模块用于基于所述特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数;
所述诊断模型构建模块用于根据所述特征基因的表达量及其回归系数构建特发性肺纤维化诊断模型;
所述诊断模块用于基于待检者的特征基因的表达量通过所述特发性肺纤维化诊断模型计算诊断得分。
2.根据权利要求1所述的特发性肺纤维化诊断***,其特征在于,所述通过GEO数据库获取IPF患者基因表达谱芯片数据,构建芯片数据训练集,包括:
从GEO数据库获取IPF患者的基因表达谱芯片数据,IPF患者的基因表达谱芯片数据包括GSE132607、GSE38958和GSE28221;将IPF患者的基因表达谱芯片数据经log2转换后对其探针进行注释,将GSE132607和GSE38958进行合并,利用R包limma中removeBatchEffect函数去除合并数据的批次效应,整合获得芯片数据训练集,GSE28221作为验证集。
3.根据权利要求1所述的特发性肺纤维化诊断***,其特征在于,所述将所述差异基因基于随机森林分类器筛选出特征基因,包括:
随机森林分类器的变量设置为18个,计算错误率的树的数量为1000,筛选出重要性大于1的特征基因,特征基因包括TLR10、GZMK、CD79A、NOG、P2RY10、KLRB1、N6AMT1、EIF1AX、GCNT4、FCRLA、CD40LG、CD69、ABCA13、RNASE3、CEACAM6、USP9Y、OLFM4、BPI、UTY、RPS4Y1和DDX3Y。
4.根据权利要求1所述的特发性肺纤维化诊断***,其特征在于,所述各特征基因的回归系数:TLR10为-1.34326、GZMK为0.30552、CD79A为-1.1445、NOG为-0.54664、P2RY10为0.74687、KLRB1为-1.56761、N6AMT1为-0.83828、EIF1AX为-0.51833、GCNT4为-0.27993、FCRLA为1.70369、CD40LG为-2.0675、CD69为0.97147、ABCA13为1.54353、RNASE3为-0.08833、CEACAM6为0.48974、USP9Y为0.97489、OLFM4为-0.49965、BPI为0.39967、UTY为1.07367、RPS4Y1为-1.06128和DDX3Y为0.07629。
5.根据权利要求1所述的特发性肺纤维化诊断***,其特征在于,所述特发性肺纤维化诊断模型通过下式计算诊断得分:
1/(1+exp(-z),其中,z =[(-1.34326×TLR10)+(0.30552×GZMK)+(-1.1445×CD79A)+(-0.5466
4×NOG)+(0.74687×P2RY10)+(-1.56761×KLRB1)+(-0.83828×N6AMT1)+(-0.51833×EIF1AX)+(-0.27993×GCNT4)+(1.70369×FCRLA)+(-2.0675×CD40LG)+(0.97147×CD69)+(1.54353×ABCA13)+(-0.08833×RNASE3)+(0.48974×CEACAM6)+(0.97489×USP9Y)+(-0.49965×OLFM4)+(0.39967×BPI)+(1.07367×UTY)+(-1.06128×RPS4Y1)+(0.07629×DDX3Y)+32.73267]/10。
6.一种特发性肺纤维化诊断模型的构建方法,其特征在于,包括
通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集;
利用芯片数据训练集经过贝叶斯检验,分析IPF和control组的差异表达基因,筛选条件为p.adj<0.05 & |logFC|>0.5,筛选出差异基因;
将所述差异基因基于随机森林分类器筛选出特征基因;
基于所述特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数;
根据所述特征基因的表达量及其回归系数构建特发性肺纤维化诊断模型。
7.根据权利要求6所述的特发性肺纤维化诊断模型的构建方法,其特征在于,所述通过GEO数据库获取IPF患者基因表达谱芯片数据,构建芯片数据训练集,包括:
从GEO数据库获取IPF患者的基因表达谱芯片数据,IPF患者的基因表达谱芯片数据包括GSE132607、GSE38958和GSE28221;将IPF患者的基因表达谱芯片数据经log2转换后对其探针进行注释,将GSE132607和GSE38958进行合并,利用R包limma中removeBatchEffect函数去除合并数据的批次效应,整合获得芯片数据训练集,GSE28221作为验证集。
8.根据权利要求6所述的特发性肺纤维化诊断模型的构建方法,其特征在于,所述将所述差异基因基于随机森林分类器筛选出特征基因,包括:
随机森林分类器的变量设置为18个,计算错误率的树的数量为1000,筛选出重要性大于1的特征基因,特征基因包括TLR10、GZMK、CD79A、NOG、P2RY10、KLRB1、N6AMT1、EIF1AX、GCNT4、FCRLA、CD40LG、CD69、ABCA13、RNASE3、CEACAM6、USP9Y、OLFM4、BPI、UTY、RPS4Y1和DDX3Y。
9.根据权利要求6所述的特发性肺纤维化诊断模型的构建方法,其特征在于,所述各特征基因的回归系数:TLR10为-1.34326、GZMK为0.30552、CD79A为-1.1445、NOG为-0.54664、P2RY10为0.74687、KLRB1为-1.56761、N6AMT1为-0.83828、EIF1AX为-0.51833、GCNT4为-0.27993、FCRLA为1.70369、CD40LG为-2.0675、CD69为0.97147、ABCA13为1.54353、RNASE3为-0.08833、CEACAM6为0.48974、USP9Y为0.97489、OLFM4为-0.49965、BPI为0.39967、UTY为1.07367、RPS4Y1为-1.06128和DDX3Y为0.07629。
10. 根据权利要求6所述的特发性肺纤维化诊断模型的构建方法,其特征在于,所述特发性肺纤维化诊断模型通过下式计算诊断得分:
1/(1+exp(-z);其中,z =[(-1.34326×TLR10)+(0.30552×GZMK)+(-1.1445×CD79A)+(-0.5466
4×NOG)+(0.74687×P2RY10)+(-1.56761×KLRB1)+(-0.83828×N6AMT1)+(-0.51833×EIF1AX)+(-0.27993×GCNT4)+(1.70369×FCRLA)+(-2.0675×CD40LG)+(0.97147×CD69)+(1.54353×ABCA13)+(-0.08833×RNASE3)+(0.48974×CEACAM6)+(0.97489×USP9Y)+(-0.49965×OLFM4)+(0.39967×BPI)+(1.07367×UTY)+(-1.06128×RPS4Y1)+(0.07629×DDX3Y)+32.73267]/10。
CN202410189821.8A 2024-02-20 2024-02-20 一种特发性肺纤维化诊断模型的构建方法及诊断*** Pending CN117747093A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410189821.8A CN117747093A (zh) 2024-02-20 2024-02-20 一种特发性肺纤维化诊断模型的构建方法及诊断***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410189821.8A CN117747093A (zh) 2024-02-20 2024-02-20 一种特发性肺纤维化诊断模型的构建方法及诊断***

Publications (1)

Publication Number Publication Date
CN117747093A true CN117747093A (zh) 2024-03-22

Family

ID=90251206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410189821.8A Pending CN117747093A (zh) 2024-02-20 2024-02-20 一种特发性肺纤维化诊断模型的构建方法及诊断***

Country Status (1)

Country Link
CN (1) CN117747093A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014144564A2 (en) * 2013-03-15 2014-09-18 Veracyte, Inc. Biomarkers for diagnosis of lung diseases and methods of use thereof
CN107099581A (zh) * 2012-03-27 2017-08-29 弗·哈夫曼-拉罗切有限公司 预测、诊断和治疗特发性肺纤维化的方法
CN114864003A (zh) * 2022-03-17 2022-08-05 中国科学院深圳先进技术研究院 基于混合实验组和对照组单细胞样本的差异分析方法及***
CN115261454A (zh) * 2022-04-20 2022-11-01 合肥市传染病医院(合肥市第六人民医院) 一种新的let-7d-5p和miR-140-5p的生物标志物面板诊断方法
CN117497062A (zh) * 2023-11-15 2024-02-02 广州瑞能精准医学科技有限公司 一种特发性肺纤维化浆细胞特征基因预后模型构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107099581A (zh) * 2012-03-27 2017-08-29 弗·哈夫曼-拉罗切有限公司 预测、诊断和治疗特发性肺纤维化的方法
WO2014144564A2 (en) * 2013-03-15 2014-09-18 Veracyte, Inc. Biomarkers for diagnosis of lung diseases and methods of use thereof
CN114864003A (zh) * 2022-03-17 2022-08-05 中国科学院深圳先进技术研究院 基于混合实验组和对照组单细胞样本的差异分析方法及***
CN115261454A (zh) * 2022-04-20 2022-11-01 合肥市传染病医院(合肥市第六人民医院) 一种新的let-7d-5p和miR-140-5p的生物标志物面板诊断方法
CN117497062A (zh) * 2023-11-15 2024-02-02 广州瑞能精准医学科技有限公司 一种特发性肺纤维化浆细胞特征基因预后模型构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
范珊珊: ""特发性肺纤维化的基因学筛查研究及其急性加重机制初探"", 《中国优秀硕士学位论文全文数据库(医药卫生科技辑)》, no. 08, 15 August 2021 (2021-08-15), pages 063 - 13 *
邢静;黄鑫炎;郭禹标;: "特发性肺纤维化相关基因的筛选和生物信息学分析", 中山大学学报(医学科学版), no. 06, 15 November 2017 (2017-11-15), pages 131 - 135 *

Similar Documents

Publication Publication Date Title
CN108305249B (zh) 基于深度学习的全尺度病理切片的快速诊断和评分方法
CN112951406A (zh) 一种基于ct影像组学的肺癌预后辅助评估方法及***
CN108446711B (zh) 一种基于迁移学习的软件缺陷预测方法
CN105651804B (zh) 一种慢性萎缩性胃炎大鼠模型的评价方法
CN105512454A (zh) 基于功能核磁共振的抑郁症患者***风险客观评估模型
CN111748632A (zh) 一种特征lincRNA表达谱组合及肝癌早期预测方法
Koziarski et al. DiagSet: a dataset for prostate cancer histopathological image classification
JP2023184468A (ja) 適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム
CN111748633A (zh) 一种特征miRNA表达谱组合及头颈鳞状细胞癌早期预测方法
CN115938590A (zh) 结直肠癌术后lars预测模型的构建方法及预测***
CN117747093A (zh) 一种特发性肺纤维化诊断模型的构建方法及诊断***
CN111944900A (zh) 一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法
CN116127398B (zh) 一种基于机理模型与多源数据融合的液压泵故障诊断方法
CN113345525B (zh) 一种用于高通量检测中减少协变量对检测结果影响的分析方法
CN114842960A (zh) 一种基于ct影像和临床数据评估新冠患者病情进展和预后的方法
CN115188475A (zh) 一种狼疮肾炎患者风险预测方法
CN114613494A (zh) 一种用于快速筛查***的模型及其建立方法
CN109266765B (zh) 用于口腔癌前病变风险预测的微生物菌群及应用
CN111733252A (zh) 一种特征miRNA表达谱组合及胃癌早期预测方法
WO2021018800A1 (de) Verfahren zur klassifizierung des risikos für die entwicklung einer zervikalen intraepithelialen neoplasie
CN111808965A (zh) 一种特征lincRNA表达谱组合及肾透明细胞癌早期预测方法
CN117690584B (zh) 基于智能ai的慢性病患者管理***及方法
CN115579128B (zh) 一种多模型特征增强疾病筛查***
CN114878832A (zh) 特发性肺纤维化血浆蛋白标志物及其在制备检测试剂或诊断工具中的应用
CN112760375A (zh) 一种特征miRNA表达谱组合及子宫内膜癌早期预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination