CN117747093A - 一种特发性肺纤维化诊断模型的构建方法及诊断*** - Google Patents
一种特发性肺纤维化诊断模型的构建方法及诊断*** Download PDFInfo
- Publication number
- CN117747093A CN117747093A CN202410189821.8A CN202410189821A CN117747093A CN 117747093 A CN117747093 A CN 117747093A CN 202410189821 A CN202410189821 A CN 202410189821A CN 117747093 A CN117747093 A CN 117747093A
- Authority
- CN
- China
- Prior art keywords
- genes
- pulmonary fibrosis
- idiopathic pulmonary
- chip data
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000009794 Idiopathic Pulmonary Fibrosis Diseases 0.000 title claims abstract description 87
- 238000003745 diagnosis Methods 0.000 title claims abstract description 53
- 208000036971 interstitial lung disease 2 Diseases 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims description 16
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 102
- 230000014509 gene expression Effects 0.000 claims abstract description 50
- 238000012216 screening Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000007637 random forest analysis Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000010276 construction Methods 0.000 claims abstract description 10
- 238000007477 logistic regression Methods 0.000 claims abstract description 7
- 102100025137 Early activation antigen CD69 Human genes 0.000 claims description 15
- 102100031381 Fc receptor-like A Human genes 0.000 claims description 15
- 101000934374 Homo sapiens Early activation antigen CD69 Proteins 0.000 claims description 15
- 101000846860 Homo sapiens Fc receptor-like A Proteins 0.000 claims description 15
- 101001049181 Homo sapiens Killer cell lectin-like receptor subfamily B member 1 Proteins 0.000 claims description 15
- 101001000090 Homo sapiens Methyltransferase N6AMT1 Proteins 0.000 claims description 15
- 101000808590 Homo sapiens Probable ubiquitin carboxyl-terminal hydrolase FAF-Y Proteins 0.000 claims description 15
- 102100023678 Killer cell lectin-like receptor subfamily B member 1 Human genes 0.000 claims description 15
- 102100036543 Methyltransferase N6AMT1 Human genes 0.000 claims description 15
- 102100038600 Probable ubiquitin carboxyl-terminal hydrolase FAF-Y Human genes 0.000 claims description 15
- 102100027205 B-cell antigen receptor complex-associated protein alpha chain Human genes 0.000 claims description 14
- 102100038395 Granzyme K Human genes 0.000 claims description 14
- 101000914489 Homo sapiens B-cell antigen receptor complex-associated protein alpha chain Proteins 0.000 claims description 14
- 101001033007 Homo sapiens Granzyme K Proteins 0.000 claims description 14
- 101000763537 Homo sapiens Toll-like receptor 10 Proteins 0.000 claims description 14
- 102100027009 Toll-like receptor 10 Human genes 0.000 claims description 14
- 102100036618 ATP-binding cassette sub-family A member 13 Human genes 0.000 claims description 13
- 102100033392 ATP-dependent RNA helicase DDX3Y Human genes 0.000 claims description 13
- 102100039887 Beta-1,3-galactosyl-O-glycosyl-glycoprotein beta-1,6-N-acetylglucosaminyltransferase 4 Human genes 0.000 claims description 13
- 102100032937 CD40 ligand Human genes 0.000 claims description 13
- 102100025473 Carcinoembryonic antigen-related cell adhesion molecule 6 Human genes 0.000 claims description 13
- 102100040618 Eosinophil cationic protein Human genes 0.000 claims description 13
- 102100039408 Eukaryotic translation initiation factor 1A, X-chromosomal Human genes 0.000 claims description 13
- 101000929660 Homo sapiens ATP-binding cassette sub-family A member 13 Proteins 0.000 claims description 13
- 101000870664 Homo sapiens ATP-dependent RNA helicase DDX3Y Proteins 0.000 claims description 13
- 101000887642 Homo sapiens Beta-1,3-galactosyl-O-glycosyl-glycoprotein beta-1,6-N-acetylglucosaminyltransferase 4 Proteins 0.000 claims description 13
- 101000868215 Homo sapiens CD40 ligand Proteins 0.000 claims description 13
- 101000914326 Homo sapiens Carcinoembryonic antigen-related cell adhesion molecule 6 Proteins 0.000 claims description 13
- 101000967216 Homo sapiens Eosinophil cationic protein Proteins 0.000 claims description 13
- 101001036349 Homo sapiens Eukaryotic translation initiation factor 1A, X-chromosomal Proteins 0.000 claims description 13
- 101001120760 Homo sapiens Olfactomedin-4 Proteins 0.000 claims description 13
- 101001120091 Homo sapiens Putative P2Y purinoceptor 10 Proteins 0.000 claims description 13
- 102100026071 Olfactomedin-4 Human genes 0.000 claims description 13
- 102100026173 Putative P2Y purinoceptor 10 Human genes 0.000 claims description 13
- 102100028550 40S ribosomal protein S4, Y isoform 1 Human genes 0.000 claims description 10
- 101000696103 Homo sapiens 40S ribosomal protein S4, Y isoform 1 Proteins 0.000 claims description 10
- 239000000523 sample Substances 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 102100038586 Histone demethylase UTY Human genes 0.000 claims description 5
- 101000808558 Homo sapiens Histone demethylase UTY Proteins 0.000 claims description 5
- 101000604123 Homo sapiens Noggin Proteins 0.000 claims description 5
- 102100038454 Noggin Human genes 0.000 claims description 5
- 102000052586 bactericidal permeability increasing protein Human genes 0.000 claims description 5
- 108010032816 bactericidal permeability increasing protein Proteins 0.000 claims description 5
- 101150043363 GZMK gene Proteins 0.000 claims description 3
- 238000011223 gene expression profiling Methods 0.000 claims 2
- 238000004393 prognosis Methods 0.000 abstract description 3
- 238000007689 inspection Methods 0.000 abstract 1
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 208000005069 pulmonary fibrosis Diseases 0.000 description 4
- 201000003838 Idiopathic interstitial pneumonia Diseases 0.000 description 3
- 208000029523 Interstitial Lung disease Diseases 0.000 description 3
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 101150013553 CD40 gene Proteins 0.000 description 2
- 101150073167 Eif1 gene Proteins 0.000 description 2
- 102100029775 Eukaryotic translation initiation factor 1 Human genes 0.000 description 2
- 101150032412 Fcrla gene Proteins 0.000 description 2
- VQTUBCCKSQIDNK-UHFFFAOYSA-N Isobutene Chemical compound CC(C)=C VQTUBCCKSQIDNK-UHFFFAOYSA-N 0.000 description 2
- 102100040245 Tumor necrosis factor receptor superfamily member 5 Human genes 0.000 description 2
- 230000007797 corrosion Effects 0.000 description 2
- 238000005260 corrosion Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000004202 respiratory function Effects 0.000 description 2
- 101150040471 19 gene Proteins 0.000 description 1
- 101150100859 45 gene Proteins 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 206010019280 Heart failures Diseases 0.000 description 1
- 208000004852 Lung Injury Diseases 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010069363 Traumatic lung injury Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 206010006451 bronchitis Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000017574 dry cough Diseases 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 210000002744 extracellular matrix Anatomy 0.000 description 1
- 210000002950 fibroblast Anatomy 0.000 description 1
- 208000035474 group of disease Diseases 0.000 description 1
- 230000002757 inflammatory effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 231100000515 lung injury Toxicity 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001613 neoplastic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000009325 pulmonary function Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000036573 scar formation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明涉及基因技术领域,具体涉及一种特发性肺纤维化诊断模型的构建方法及诊断***;本***包括数据获取模块用于通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集,差异基因筛选模块用于利用芯片数据训练集经过贝叶斯检验,筛选出差异基因,特征基因筛选模块用于基于随机森林分类器筛选出特征基因,回归系数计算模块用于基于特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数,诊断模型构建模块用于构建特发性肺纤维化诊断模型,诊断模块用于基于待检者的特征基因的表达量通过特发性肺纤维化诊断模型计算诊断得分;实现对特发性肺纤维化的快速筛查,实现更早、更准确、更简便的对IPF做出诊断,改善预后。
Description
技术领域
本发明涉及基因技术领域,具体涉及一种特发性肺纤维化诊断模型的构建方法及诊断***。
背景技术
肺纤维化是以成纤维细胞增殖及大量细胞外基质聚集并伴炎症损伤、组织结构破坏为特征的一大类肺疾病的终末期改变,也就是正常的肺泡组织被损坏后经过异常修复导致结构异常(疤痕形成)。绝大部分肺纤维化病人病因不明(特发性),这组疾病称为特发性间质性肺炎(Idiopathic Interstitial Pneumonia),是间质性肺炎中的一大类。而特发性间质性肺炎(IIP)中最常见的以肺纤维化病变为主要表现形式的疾病类型为特发性肺纤维化(Idiopathic Pulmonary Fibrosis),是一种能导致肺功能进行性丧失的严重的间质性肺疾病。肺纤维化严重影响人体呼吸功能,表现为干咳、进行性呼吸困难(自觉气不够用),且随着病情和肺部损伤的加重,患者呼吸功能不断恶化。特发性肺纤维化发病率和死亡率逐年增加,诊断后的平均生存期仅2.8年,死亡率高于大多数肿瘤,被称为一种“类肿瘤疾病”。
IPF诊断需要通过高分辨率CT(HRCT),部分病例需要肺活检。IPF常在初诊时被忽略,因为其临床上与其他疾病很相似,如支气管炎、 哮喘和心衰。大多数病人在确诊时病情已达中到晚期,即使治疗病情也恶化。
所以,亟需建立一种诊断模型助于更早、更准确、更简便的对IPF做出诊断,改善预后。
发明内容
针对上述现有技术的不足,本发明旨在提供一种硫化异丁烯的精制方法,以解决现有制备方法中对采用高腐蚀组分,铜腐蚀级别高,且产品具有臭味的问题。
为了解决上述问题,本发明采用了如下的技术方案:
一种特发性肺纤维化诊断***,包括数据获取模块、差异基因筛选模块、特征基因筛选模块、回归系数计算模块、诊断模型构建模块和诊断模块;
所述数据获取模块用于通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集;
所述差异基因筛选模块用于利用芯片数据训练集经过贝叶斯检验,分析IPF和control组的差异表达基因,筛选条件为p.adj<0.05 & |logFC|>0.5,筛选出差异基因;
所述特征基因筛选模块用于将所述差异基因基于随机森林分类器筛选出特征基因;
所述回归系数计算模块用于基于所述特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数;
所述诊断模型构建模块用于根据所述特征基因的表达量及其回归系数构建特发性肺纤维化诊断模型;
所述诊断模块用于基于待检者的特征基因的表达量通过所述特发性肺纤维化诊断模型计算诊断得分。
作为一种可实施方式,所述通过GEO数据库获取IPF患者基因表达谱芯片数据,构建芯片数据训练集,包括:
从GEO数据库获取IPF患者的基因表达谱芯片数据,IPF患者的基因表达谱芯片数据包括GSE132607、GSE38958和GSE28221;将IPF患者的基因表达谱芯片数据经log2转换后对其探针进行注释,将GSE132607和GSE38958进行合并,利用R包limma中removeBatchEffect函数去除合并数据的批次效应,整合获得芯片数据训练集,GSE28221作为验证集。
作为一种可实施方式,所述将所述差异基因基于随机森林分类器筛选出特征基因,包括:
随机森林分类器的变量设置为18个,计算错误率的树的数量为1000,筛选出重要性大于1的特征基因,特征基因包括TLR10、GZMK、CD79A、NOG、P2RY10、KLRB1、N6AMT1、EIF1AX、GCNT4、FCRLA、CD40LG、CD69、ABCA13、RNASE3、CEACAM6、USP9Y、OLFM4、BPI、UTY、RPS4Y1和DDX3Y。
作为一种可实施方式,所述各特征基因的回归系数:TLR10为-1.34326、GZMK为0.30552、CD79A为-1.1445、NOG为-0.54664、P2RY10为0.74687、KLRB1为-1.56761、N6AMT1为-0.83828、EIF1AX为-0.51833、GCNT4为-0.27993、FCRLA为1.70369、CD40LG为-2.0675、CD69为0.97147、ABCA13为1.54353、RNASE3为-0.08833、CEACAM6为0.48974、USP9Y为0.97489、OLFM4为-0.49965、BPI为0.39967、UTY为1.07367、RPS4Y1为-1.06128和DDX3Y为0.07629。
作为一种可实施方式,所述特发性肺纤维化诊断模型通过下式计算诊断得分:
1/(1+exp(-z),其中,z =[(-1.34326×TLR10)+(0.30552×GZMK)+(-1.1445×CD79A)+(-0.54664×NOG)+(0.74687×P2RY10)+(-1.56761×KLRB1)+(-0.83828×N6AMT1)+(-0.51833×EIF1AX)+(-0.27993×GCNT4)+(1.70369×FCRLA)+(-2.0675×CD40LG)+(0.97147×CD69)+(1.54353×ABCA13)+(-0.08833×RNASE3)+(0.48974×CEACAM6)+(0.97489×USP9Y)+(-0.49965×OLFM4)+(0.39967×BPI)+(1.07367×UTY)+(-1.06128×RPS4Y1)+(0.07629×DDX3Y)+32.73267]/10。
一种特发性肺纤维化诊断模型的构建方法,包括
通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集;
利用芯片数据训练集经过贝叶斯检验,分析IPF和control组的差异表达基因,筛选条件为p.adj<0.05 & |logFC|>0.5,筛选出差异基因;
将所述差异基因基于随机森林分类器筛选出特征基因;
基于所述特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数;
根据所述特征基因的表达量及其回归系数构建特发性肺纤维化诊断模型。
作为一种可实施方式,所述通过GEO数据库获取IPF患者基因表达谱芯片数据,构建芯片数据训练集,包括:
从GEO数据库获取IPF患者的基因表达谱芯片数据,IPF患者的基因表达谱芯片数据包括GSE132607、GSE38958和GSE28221;将IPF患者的基因表达谱芯片数据经log2转换后对其探针进行注释,将GSE132607和GSE38958进行合并,利用R包limma中removeBatchEffect函数去除合并数据的批次效应,整合获得芯片数据训练集,GSE28221作为验证集。
作为一种可实施方式,所述将所述差异基因基于随机森林分类器筛选出特征基因,包括:
随机森林分类器的变量设置为18个,计算错误率的树的数量为1000,筛选出重要性大于1的特征基因,特征基因包括TLR10、GZMK、CD79A、NOG、P2RY10、KLRB1、N6AMT1、EIF1AX、GCNT4、FCRLA、CD40LG、CD69、ABCA13、RNASE3、CEACAM6、USP9Y、OLFM4、BPI、UTY、RPS4Y1和DDX3Y。
作为一种可实施方式,所述各特征基因的回归系数:TLR10为-1.34326、GZMK为0.30552、CD79A为-1.1445、NOG为-0.54664、P2RY10为0.74687、KLRB1为-1.56761、N6AMT1为-0.83828、EIF1AX为-0.51833、GCNT4为-0.27993、FCRLA为1.70369、CD40LG为-2.0675、CD69为0.97147、ABCA13为1.54353、RNASE3为-0.08833、CEACAM6为0.48974、USP9Y为0.97489、OLFM4为-0.49965、BPI为0.39967、UTY为1.07367、RPS4Y1为-1.06128和DDX3Y为0.07629。
作为一种可实施方式,所述特发性肺纤维化诊断模型通过下式计算诊断得分:
1/(1+exp(-z);其中,z =[(-1.34326×TLR10)+(0.30552×GZMK)+(-1.1445×CD79A)+(-0.54664×NOG)+(0.74687×P2RY10)+(-1.56761×KLRB1)+(-0.83828×N6AMT1)+(-0.51833×EIF1AX)+(-0.27993×GCNT4)+(1.70369×FCRLA)+(-2.0675×CD40LG)+(0.97147×CD69)+(1.54353×ABCA13)+(-0.08833×RNASE3)+(0.48974×CEACAM6)+(0.97489×USP9Y)+(-0.49965×OLFM4)+(0.39967×BPI)+(1.07367×UTY)+(-1.06128×RPS4Y1)+(0.07629×DDX3Y)+32.73267]/10。
本发明的有益效果在于:通过本发明构建的诊断模型或诊断***,通过筛选IPF的差异基因,再针对差异基因通过随机森林分类器得出特征基因及其回归系数,通过构建的诊断模型进行IPF计算,实现对特发性肺纤维化的快速筛查,实现更早、更准确、更简便的对IPF做出诊断,改善预后。
附图说明
图1为本发明实施例中一种特发性肺纤维化诊断***示意图。
图2为本发明实施例中差异表达火山图。
图3为本发明实施例中38个差异基因在样本中的表达量热图。
图4为本发明实施例中38个差异基因的散点图。
图5为本发明实施例中决策树的数量的选择与错误率的关系图。
图6为本发明实施例中基因重要性展示图。
图7为本发明实施例中训练集的ROC曲线。
图8为本发明实施例中验证集的ROC曲线。
图9为本发明实施例中一种特发性肺纤维化诊断模型的构建方法流程图。
具体实施方式
下面结合具体实施例对本发明作进一步的详细说明。
需要说明的是,这些实施例仅用于说明本发明,而不是对本发明的限制,在本发明的构思前提下本方法的简单改进,都属于本发明要求保护的范围。
参见图1,为一种特发性肺纤维化诊断***,包括数据获取模块100、差异基因筛选模块200、特征基因筛选模块300、回归系数计算模块400、诊断模型构建模块500和诊断模块600;
数据获取模块100用于通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集。
其中,通过GEO数据库获取IPF患者基因表达谱芯片数据,构建芯片数据训练集,包括:
从GEO数据库获取IPF患者的基因表达谱芯片数据,IPF患者的基因表达谱芯片数据见表1包括GSE132607、GSE38958和GSE28221;将IPF患者的基因表达谱芯片数据经log2转换后对其探针进行注释,将GSE132607和GSE38958进行合并,利用R包limma中removeBatchEffect函数去除合并数据的批次效应,整合获得芯片数据训练集,GSE28221作为验证集。
表1 GEO数据库IPFmRNA表达谱芯片数据
数据集 | IPF | 正常 | 平台 | 组织 |
GSE132607 | 276 | 0 | Gene Expression Array | PBMC |
GSE38958 | 70 | 45 | Gene Expression Array | PBMC |
GSE28221 | 120 | 19 | Gene Expression Array | PBMC |
差异基因筛选模块200用于利用芯片数据训练集经过贝叶斯检验,分析IPF和control组的差异表达基因,筛选条件为p.adj<0.05 & |logFC|>0.5,筛选出差异基因。筛选出差异基因38个,见图2、3。
特征基因筛选模块300用于将所述差异基因基于随机森林分类器筛选出特征基因。
具体的,将GSE132607和GSE38958合并的芯片数据的38个差异基因投入随机森林分类器,为了寻找最优变量个数,对所有可能的变量数循环进行随机森林分类计算并得到相应的错误率,最后我们选择18为最优变量数见图4;以及计算1-2000棵树的错误率,当树的数目达到1000后,错误率不再发生改变,见图5。最终我们选择18个变量,1000棵树作为最后计算的参数。随后我们筛选出重要性大于1的21个特征基因,见图6。
回归系数计算模块400用于基于所述特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数,见表2。
表2 特征基因的回归系数表
特征基因 | 回归系数 | P值 |
Intercept | 32.73267 | 0.000102 |
TLR10 | -1.34326 | 0.013703 |
GZMK | 0.30552 | 0.045683 |
CD79A | -1.1445 | 0.063288 |
NOG | -0.54664 | 0.031332 |
P2RY10 | 0.74687 | 0.024423 |
KLRB1 | -1.56761 | 0.009573 |
N6AMT1 | -0.83828 | 0.020989 |
EIF1AX | -0.51833 | 0.046240 |
GCNT4 | -0.27993 | 0.068536 |
FCRLA | 1.70369 | 0.028434 |
CD40LG | -2.0675 | 0.017964 |
CD69 | 0.97147 | 0.033659 |
ABCA13 | 1.54353 | 0.042329 |
RNASE3 | -0.08833 | 0.065271 |
CEACAM6 | 0.48974 | 0.046443 |
USP9Y | 0.97489 | 0.025125 |
OLFM4 | -0.49965 | 0.038818 |
BPI | 0.39967 | 0.046291 |
UTY | 1.07367 | 0.014165 |
RPS4Y1 | -1.06128 | 0.05182 |
DDX3Y | 0.07629 | 0.047289 |
诊断模型构建模块500用于根据所述特征基因的表达量及其回归系数构建特发性肺纤维化诊断模型。
诊断模块600用于基于待检者的特征基因的表达量通过所述特发性肺纤维化诊断模型计算诊断得分。
特发性肺纤维化诊断模型通过下式计算诊断得分:
1/(1+exp(-z),其中,z =[(-1.34326×TLR10)+(0.30552×GZMK)+(-1.1445×CD79A)+(-0.54664×NOG)+(0.74687×P2RY10)+(-1.56761×KLRB1)+(-0.83828×N6AMT1)+(-0.51833×EIF1AX)+(-0.27993×GCNT4)+(1.70369×FCRLA)+(-2.0675×CD40LG)+(0.97147×CD69)+(1.54353×ABCA13)+(-0.08833×RNASE3)+(0.48974×CEACAM6)+(0.97489×USP9Y)+(-0.49965×OLFM4)+(0.39967×BPI)+(1.07367×UTY)+(-1.06128×RPS4Y1)+(0.07629×DDX3Y)+32.73267]/10。
利用ROC曲线检验模型的预测能力,一般情况下AUC>0.7 认为区分度良好。其中,训练集的ROC曲线见图7,训练集中最大约登指数为0.656,ROC曲线下面积AUC为0.893(95%CI 0.845-0.941),最佳截断值为0.875,该截断值下,灵敏度为0.723,特异性为0.933;验证集的ROC曲线件见8,均证明本发明模型具有良好的预测能力。
参见图9,为一种特发性肺纤维化诊断模型的构建方法,包括
S100、通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集;
S200、利用芯片数据训练集经过贝叶斯检验,分析IPF和control组的差异表达基因,筛选条件为p.adj<0.05 & |logFC|>0.5,筛选出差异基因;
S300、将所述差异基因基于随机森林分类器筛选出特征基因;
S400、基于所述特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数;
S500、根据所述特征基因的表达量及其回归系数构建特发性肺纤维化诊断模型。
其中,通过GEO数据库获取IPF患者基因表达谱芯片数据,构建芯片数据训练集,包括:
从GEO数据库获取IPF患者的基因表达谱芯片数据,IPF患者的基因表达谱芯片数据包括GSE132607、GSE38958和GSE28221;将IPF患者的基因表达谱芯片数据经log2转换后对其探针进行注释,将GSE132607和GSE38958进行合并,利用R包limma中removeBatchEffect函数去除合并数据的批次效应,整合获得芯片数据训练集,GSE28221作为验证集。
其中,将所述差异基因基于随机森林分类器筛选出特征基因,包括:
随机森林分类器的变量设置为18个,计算错误率的树的数量为1000,筛选出重要性大于1的特征基因,特征基因包括TLR10、GZMK、CD79A、NOG、P2RY10、KLRB1、N6AMT1、EIF1AX、GCNT4、FCRLA、CD40LG、CD69、ABCA13、RNASE3、CEACAM6、USP9Y、OLFM4、BPI、UTY、RPS4Y1和DDX3Y。
其中,各特征基因的回归系数:TLR10为-1.34326、GZMK为0.30552、CD79A为-1.1445、NOG为-0.54664、P2RY10为0.74687、KLRB1为-1.56761、N6AMT1为-0.83828、EIF1AX为-0.51833、GCNT4为-0.27993、FCRLA为1.70369、CD40LG为-2.0675、CD69为0.97147、ABCA13为1.54353、RNASE3为-0.08833、CEACAM6为0.48974、USP9Y为0.97489、OLFM4为-0.49965、BPI为0.39967、UTY为1.07367、RPS4Y1为-1.06128和DDX3Y为0.07629。
其中,特发性肺纤维化诊断模型通过下式计算诊断得分:
1/(1+exp(-z);其中,z =[(-1.34326×TLR10)+(0.30552×GZMK)+(-1.1445×CD79A)+(-0.54664×NOG)+(0.74687×P2RY10)+(-1.56761×KLRB1)+(-0.83828×N6AMT1)+(-0.51833×EIF1AX)+(-0.27993×GCNT4)+(1.70369×FCRLA)+(-2.0675×CD40LG)+(0.97147×CD69)+(1.54353×ABCA13)+(-0.08833×RNASE3)+(0.48974×CEACAM6)+(0.97489×USP9Y)+(-0.49965×OLFM4)+(0.39967×BPI)+(1.07367×UTY)+(-1.06128×RPS4Y1)+(0.07629×DDX3Y)+32.73267]/10。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。
Claims (10)
1.一种特发性肺纤维化诊断***,其特征在于,包括数据获取模块、差异基因筛选模块、特征基因筛选模块、回归系数计算模块、诊断模型构建模块和诊断模块;
所述数据获取模块用于通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集;
所述差异基因筛选模块用于利用芯片数据训练集经过贝叶斯检验,分析IPF和control组的差异表达基因,筛选条件为p.adj<0.05 & |logFC|>0.5,筛选出差异基因;
所述特征基因筛选模块用于将所述差异基因基于随机森林分类器筛选出特征基因;
所述回归系数计算模块用于基于所述特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数;
所述诊断模型构建模块用于根据所述特征基因的表达量及其回归系数构建特发性肺纤维化诊断模型;
所述诊断模块用于基于待检者的特征基因的表达量通过所述特发性肺纤维化诊断模型计算诊断得分。
2.根据权利要求1所述的特发性肺纤维化诊断***,其特征在于,所述通过GEO数据库获取IPF患者基因表达谱芯片数据,构建芯片数据训练集,包括:
从GEO数据库获取IPF患者的基因表达谱芯片数据,IPF患者的基因表达谱芯片数据包括GSE132607、GSE38958和GSE28221;将IPF患者的基因表达谱芯片数据经log2转换后对其探针进行注释,将GSE132607和GSE38958进行合并,利用R包limma中removeBatchEffect函数去除合并数据的批次效应,整合获得芯片数据训练集,GSE28221作为验证集。
3.根据权利要求1所述的特发性肺纤维化诊断***,其特征在于,所述将所述差异基因基于随机森林分类器筛选出特征基因,包括:
随机森林分类器的变量设置为18个,计算错误率的树的数量为1000,筛选出重要性大于1的特征基因,特征基因包括TLR10、GZMK、CD79A、NOG、P2RY10、KLRB1、N6AMT1、EIF1AX、GCNT4、FCRLA、CD40LG、CD69、ABCA13、RNASE3、CEACAM6、USP9Y、OLFM4、BPI、UTY、RPS4Y1和DDX3Y。
4.根据权利要求1所述的特发性肺纤维化诊断***,其特征在于,所述各特征基因的回归系数:TLR10为-1.34326、GZMK为0.30552、CD79A为-1.1445、NOG为-0.54664、P2RY10为0.74687、KLRB1为-1.56761、N6AMT1为-0.83828、EIF1AX为-0.51833、GCNT4为-0.27993、FCRLA为1.70369、CD40LG为-2.0675、CD69为0.97147、ABCA13为1.54353、RNASE3为-0.08833、CEACAM6为0.48974、USP9Y为0.97489、OLFM4为-0.49965、BPI为0.39967、UTY为1.07367、RPS4Y1为-1.06128和DDX3Y为0.07629。
5.根据权利要求1所述的特发性肺纤维化诊断***,其特征在于,所述特发性肺纤维化诊断模型通过下式计算诊断得分:
1/(1+exp(-z),其中,z =[(-1.34326×TLR10)+(0.30552×GZMK)+(-1.1445×CD79A)+(-0.5466
4×NOG)+(0.74687×P2RY10)+(-1.56761×KLRB1)+(-0.83828×N6AMT1)+(-0.51833×EIF1AX)+(-0.27993×GCNT4)+(1.70369×FCRLA)+(-2.0675×CD40LG)+(0.97147×CD69)+(1.54353×ABCA13)+(-0.08833×RNASE3)+(0.48974×CEACAM6)+(0.97489×USP9Y)+(-0.49965×OLFM4)+(0.39967×BPI)+(1.07367×UTY)+(-1.06128×RPS4Y1)+(0.07629×DDX3Y)+32.73267]/10。
6.一种特发性肺纤维化诊断模型的构建方法,其特征在于,包括
通过GEO数据库获取IPF患者的基因表达谱芯片数据,构建芯片数据训练集;
利用芯片数据训练集经过贝叶斯检验,分析IPF和control组的差异表达基因,筛选条件为p.adj<0.05 & |logFC|>0.5,筛选出差异基因;
将所述差异基因基于随机森林分类器筛选出特征基因;
基于所述特征基因,在训练集中拟合逻辑回归模型,得到各特征基因的回归系数;
根据所述特征基因的表达量及其回归系数构建特发性肺纤维化诊断模型。
7.根据权利要求6所述的特发性肺纤维化诊断模型的构建方法,其特征在于,所述通过GEO数据库获取IPF患者基因表达谱芯片数据,构建芯片数据训练集,包括:
从GEO数据库获取IPF患者的基因表达谱芯片数据,IPF患者的基因表达谱芯片数据包括GSE132607、GSE38958和GSE28221;将IPF患者的基因表达谱芯片数据经log2转换后对其探针进行注释,将GSE132607和GSE38958进行合并,利用R包limma中removeBatchEffect函数去除合并数据的批次效应,整合获得芯片数据训练集,GSE28221作为验证集。
8.根据权利要求6所述的特发性肺纤维化诊断模型的构建方法,其特征在于,所述将所述差异基因基于随机森林分类器筛选出特征基因,包括:
随机森林分类器的变量设置为18个,计算错误率的树的数量为1000,筛选出重要性大于1的特征基因,特征基因包括TLR10、GZMK、CD79A、NOG、P2RY10、KLRB1、N6AMT1、EIF1AX、GCNT4、FCRLA、CD40LG、CD69、ABCA13、RNASE3、CEACAM6、USP9Y、OLFM4、BPI、UTY、RPS4Y1和DDX3Y。
9.根据权利要求6所述的特发性肺纤维化诊断模型的构建方法,其特征在于,所述各特征基因的回归系数:TLR10为-1.34326、GZMK为0.30552、CD79A为-1.1445、NOG为-0.54664、P2RY10为0.74687、KLRB1为-1.56761、N6AMT1为-0.83828、EIF1AX为-0.51833、GCNT4为-0.27993、FCRLA为1.70369、CD40LG为-2.0675、CD69为0.97147、ABCA13为1.54353、RNASE3为-0.08833、CEACAM6为0.48974、USP9Y为0.97489、OLFM4为-0.49965、BPI为0.39967、UTY为1.07367、RPS4Y1为-1.06128和DDX3Y为0.07629。
10. 根据权利要求6所述的特发性肺纤维化诊断模型的构建方法,其特征在于,所述特发性肺纤维化诊断模型通过下式计算诊断得分:
1/(1+exp(-z);其中,z =[(-1.34326×TLR10)+(0.30552×GZMK)+(-1.1445×CD79A)+(-0.5466
4×NOG)+(0.74687×P2RY10)+(-1.56761×KLRB1)+(-0.83828×N6AMT1)+(-0.51833×EIF1AX)+(-0.27993×GCNT4)+(1.70369×FCRLA)+(-2.0675×CD40LG)+(0.97147×CD69)+(1.54353×ABCA13)+(-0.08833×RNASE3)+(0.48974×CEACAM6)+(0.97489×USP9Y)+(-0.49965×OLFM4)+(0.39967×BPI)+(1.07367×UTY)+(-1.06128×RPS4Y1)+(0.07629×DDX3Y)+32.73267]/10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410189821.8A CN117747093A (zh) | 2024-02-20 | 2024-02-20 | 一种特发性肺纤维化诊断模型的构建方法及诊断*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410189821.8A CN117747093A (zh) | 2024-02-20 | 2024-02-20 | 一种特发性肺纤维化诊断模型的构建方法及诊断*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117747093A true CN117747093A (zh) | 2024-03-22 |
Family
ID=90251206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410189821.8A Pending CN117747093A (zh) | 2024-02-20 | 2024-02-20 | 一种特发性肺纤维化诊断模型的构建方法及诊断*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117747093A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014144564A2 (en) * | 2013-03-15 | 2014-09-18 | Veracyte, Inc. | Biomarkers for diagnosis of lung diseases and methods of use thereof |
CN107099581A (zh) * | 2012-03-27 | 2017-08-29 | 弗·哈夫曼-拉罗切有限公司 | 预测、诊断和治疗特发性肺纤维化的方法 |
CN114864003A (zh) * | 2022-03-17 | 2022-08-05 | 中国科学院深圳先进技术研究院 | 基于混合实验组和对照组单细胞样本的差异分析方法及*** |
CN115261454A (zh) * | 2022-04-20 | 2022-11-01 | 合肥市传染病医院(合肥市第六人民医院) | 一种新的let-7d-5p和miR-140-5p的生物标志物面板诊断方法 |
CN117497062A (zh) * | 2023-11-15 | 2024-02-02 | 广州瑞能精准医学科技有限公司 | 一种特发性肺纤维化浆细胞特征基因预后模型构建方法 |
-
2024
- 2024-02-20 CN CN202410189821.8A patent/CN117747093A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107099581A (zh) * | 2012-03-27 | 2017-08-29 | 弗·哈夫曼-拉罗切有限公司 | 预测、诊断和治疗特发性肺纤维化的方法 |
WO2014144564A2 (en) * | 2013-03-15 | 2014-09-18 | Veracyte, Inc. | Biomarkers for diagnosis of lung diseases and methods of use thereof |
CN114864003A (zh) * | 2022-03-17 | 2022-08-05 | 中国科学院深圳先进技术研究院 | 基于混合实验组和对照组单细胞样本的差异分析方法及*** |
CN115261454A (zh) * | 2022-04-20 | 2022-11-01 | 合肥市传染病医院(合肥市第六人民医院) | 一种新的let-7d-5p和miR-140-5p的生物标志物面板诊断方法 |
CN117497062A (zh) * | 2023-11-15 | 2024-02-02 | 广州瑞能精准医学科技有限公司 | 一种特发性肺纤维化浆细胞特征基因预后模型构建方法 |
Non-Patent Citations (2)
Title |
---|
范珊珊: ""特发性肺纤维化的基因学筛查研究及其急性加重机制初探"", 《中国优秀硕士学位论文全文数据库(医药卫生科技辑)》, no. 08, 15 August 2021 (2021-08-15), pages 063 - 13 * |
邢静;黄鑫炎;郭禹标;: "特发性肺纤维化相关基因的筛选和生物信息学分析", 中山大学学报(医学科学版), no. 06, 15 November 2017 (2017-11-15), pages 131 - 135 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305249B (zh) | 基于深度学习的全尺度病理切片的快速诊断和评分方法 | |
CN112951406A (zh) | 一种基于ct影像组学的肺癌预后辅助评估方法及*** | |
CN108446711B (zh) | 一种基于迁移学习的软件缺陷预测方法 | |
CN105651804B (zh) | 一种慢性萎缩性胃炎大鼠模型的评价方法 | |
CN105512454A (zh) | 基于功能核磁共振的抑郁症患者***风险客观评估模型 | |
CN111748632A (zh) | 一种特征lincRNA表达谱组合及肝癌早期预测方法 | |
Koziarski et al. | DiagSet: a dataset for prostate cancer histopathological image classification | |
JP2023184468A (ja) | 適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム | |
CN111748633A (zh) | 一种特征miRNA表达谱组合及头颈鳞状细胞癌早期预测方法 | |
CN115938590A (zh) | 结直肠癌术后lars预测模型的构建方法及预测*** | |
CN117747093A (zh) | 一种特发性肺纤维化诊断模型的构建方法及诊断*** | |
CN111944900A (zh) | 一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法 | |
CN116127398B (zh) | 一种基于机理模型与多源数据融合的液压泵故障诊断方法 | |
CN113345525B (zh) | 一种用于高通量检测中减少协变量对检测结果影响的分析方法 | |
CN114842960A (zh) | 一种基于ct影像和临床数据评估新冠患者病情进展和预后的方法 | |
CN115188475A (zh) | 一种狼疮肾炎患者风险预测方法 | |
CN114613494A (zh) | 一种用于快速筛查***的模型及其建立方法 | |
CN109266765B (zh) | 用于口腔癌前病变风险预测的微生物菌群及应用 | |
CN111733252A (zh) | 一种特征miRNA表达谱组合及胃癌早期预测方法 | |
WO2021018800A1 (de) | Verfahren zur klassifizierung des risikos für die entwicklung einer zervikalen intraepithelialen neoplasie | |
CN111808965A (zh) | 一种特征lincRNA表达谱组合及肾透明细胞癌早期预测方法 | |
CN117690584B (zh) | 基于智能ai的慢性病患者管理***及方法 | |
CN115579128B (zh) | 一种多模型特征增强疾病筛查*** | |
CN114878832A (zh) | 特发性肺纤维化血浆蛋白标志物及其在制备检测试剂或诊断工具中的应用 | |
CN112760375A (zh) | 一种特征miRNA表达谱组合及子宫内膜癌早期预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |