CN117288962A - 检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用 - Google Patents

检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用 Download PDF

Info

Publication number
CN117288962A
CN117288962A CN202311304291.9A CN202311304291A CN117288962A CN 117288962 A CN117288962 A CN 117288962A CN 202311304291 A CN202311304291 A CN 202311304291A CN 117288962 A CN117288962 A CN 117288962A
Authority
CN
China
Prior art keywords
marker
biliary
a0a5c2fx14
a0a1s5uz16
marker combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311304291.9A
Other languages
English (en)
Inventor
张锐忠
付铭
童燕陆
王贺珍
陈虹交
陈严
夏慧敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Women and Childrens Medical Center
Original Assignee
Guangzhou Women and Childrens Medical Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Women and Childrens Medical Center filed Critical Guangzhou Women and Childrens Medical Center
Priority to CN202311304291.9A priority Critical patent/CN117288962A/zh
Publication of CN117288962A publication Critical patent/CN117288962A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6893Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids related to diseases not provided for elsewhere
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/08Hepato-biliairy disorders other than hepatitis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/50Determining the risk of developing a disease
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/60Complex ways of combining multiple protein biomarkers for diagnosis

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Chemical & Material Sciences (AREA)
  • Pathology (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biochemistry (AREA)
  • Cell Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请公开了检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用。本申请的第一方面,提供一种检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用,标志物组合包括A0A5C2FX14、A0A1S5UZ16、P01833和γGT。采用上述标志物构建的诊断组合模型利用ROC曲线分析具有极高的AUC值,同时在设定的截断值下,模型的准确率、敏感度以及特异性都能够达到较高的水平。因此,A0A5C2FX14、A0A1S5UZ16、P01833联合γGT的组合能够作为BA早期诊断标志物,实现对胆道闭锁的高效诊断。

Description

检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用
技术领域
本申请涉及肝胆疾病诊断技术领域,尤其是涉及检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用。
背景技术
胆道闭锁(biliary atresia,BA)是以新生儿黄疸为主要表现的胆管阻塞性疾病,预后差、病死率高、病因及发病机制尚不明确。BA的基本病理特点是肝内、外胆管进行性炎症,胆管闭锁和肝纤维化。其肝纤维化的进展比其他成人疾病发展更快且侵袭性更强。Kasai手术是BA的一线治疗方法,能够缓解BA患儿的胆汁淤积症状,但大多数成功应用Kasai手术的患儿仍会因后续的肝内胆管进行性破坏,发展为肝衰竭,最终需要接受肝移植治疗。BA患儿常常在出生后1~4月时才被确诊,而这个时期大部分患儿的肝脏已经是肝纤维化甚至肝硬化状态,手术治疗效果欠佳。因此,寻找BA的早期诊断方法极其重要。
目前BA诊断方法较多,例如,血清胆红素动态观察,通过定期测定血清胆红素含量的变化来实现,但这种方法特异性不明显,鉴别难度较大;超声检查,主要参考胆囊的形态学改变和收缩功能的相关指标,然而对超声图像的研判依赖于检查者的经验认识;99mTc-diethyl iminodiacetic acid(DIDA)***试验,有较高的肝细胞提取率,但用来鉴别BA确诊耗时过长;脂蛋白-X(Lp-x)定量测定,Lp-x能够有效反映胆汁淤积这一症状,不过从多种相关症状的肝胆疾病中区分出胆道闭锁较为困难;胆汁酸定量测定,具有诊断价值,然而在部分儿童中存在明显的假阳性;肝穿刺病理组织学检查,诊断难度大,且属于有创检查;胆道造影检查,是目前诊断胆道闭锁的“金标准”,但需要满足一定的年龄要求,导致手术预后较差。因此,有必要提供一种特异性和灵敏度更高、简便快速的胆道闭锁早期诊断产品。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用,利用上述试剂可以实现对胆道闭锁特异性和灵敏度更高、简便快速的早期诊断。
本申请的第一方面,提供检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用,标志物组合包括A0A5C2FX14、A0A1S5UZ16、P01833和γGT。
根据本申请实施例的应用,至少具有如下有益效果:
采用上述标志物构建的诊断组合模型利用ROC曲线分析具有极高的AUC值,同时在设定的截断值下,模型的准确率、敏感度以及特异性都能够达到较高的水平。因此,A0A5C2FX14、A0A1S5UZ16、P01833联合γGT的组合能够作为BA早期诊断标志物,实现对胆道闭锁的高效诊断。
在本申请的一些实施方式中,试剂用于在蛋白水平上检测标志物组合。
在本申请的一些实施方式中,试剂通过免疫染色、免疫荧光、免疫层析、蛋白质印迹、ELISA、流式细胞术、分光光度法、红外光谱法、质谱、色谱、比色法中的至少一种方法在蛋白水平上检测标志物组合。
在本申请的一些实施方式中,试剂包括特异性结合标志物的抗体。
在本申请的一些实施方式中,试剂用于检测血液、血清、血浆中任一种的标志物组合。
在本申请的一些实施方式中,胆道闭锁诊断产品用于诊断0~4月龄儿童,例如是1月龄、2月龄、3月龄、4月龄的儿童。
在本申请的一些实施方式中,胆道闭锁诊断产品用于诊断60日龄以内的儿童,例如是55日龄以内的儿童、50日龄以内的儿童、45日龄以内的儿童、40日龄以内的儿童、35日龄以内的儿童、30日龄以内的儿童、25日龄以内的儿童、20日龄以内的儿童、15日龄以内的儿童、10日龄以内的儿童。
在本申请的一些实施方式中,胆道闭锁诊断产品用于区分肝内胆汁淤积和胆道闭锁。
本申请的第二方面,提供胆道闭锁诊断产品,该胆道闭锁诊断产品包括检测标志物组合的试剂,标志物组合包括A0A5C2FX14、A0A1S5UZ16、P01833和γGT。
在本申请的一些实施方式中,胆道闭锁诊断产品包括检测标志物组合的免疫染色试剂盒、免疫荧光试剂盒、免疫层析试剂盒、蛋白质印迹试剂盒、ELISA试剂盒、流式细胞术试剂盒等其中至少一种。
本申请的第三方面,提供计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行以下操作:
步骤1:获取来自受试者的样本中标志物组合的表达水平的信息,标志物组合包括A0A5C2FX14、A0A1S5UZ16、P01833和γGT;
步骤2:对表达水平进行数学关联以获得评分;评分用于指示受试者的胆道闭锁风险。
在本申请的一些实施方式中,对标志物组合中各个标志物的表达水平进行数学关联的方法包括构建评分的诊断模型。
在本申请的一些实施方式中,构建评分的诊断模型的方法包括通过随机森林算法、逻辑回归算法、支持向量机算法、K近邻算法中的至少一种构建诊断模型。
在本申请的一些实施方式中,e为自然底数,Z根据公式计算得到,ai为A0A5C2FX14、A0A1S5UZ16、P01833和γGT中第i个标志物的设定权重,bi为A0A5C2FX14、A0A1S5UZ16、P01833和γGT中第i个标志物的表达水平,a0为设定截距。可以理解的是,a0~a4根据不同的算法、不同的训练集可以取不同的值。此外,评分的公式根据不同的算法也可以选择其他的一种或多种组合。
在本申请的一些实施方式中,第i个标志物的表达水平为第i个标志物经预处理后的表达水平。
在本申请的一些实施方式中,预处理的方式包括标准化处理、归一化处理中的至少一种。
在本申请的一些实施方式中,标准化处理的方式包括直线型标准化处理(诸如极值法、标准差法)、折线型标准化处理(诸如三折线法)、曲线型标准化处理(诸如半正态性分布)等其中至少一种。
在本申请的一些实施方式中,标准化处理的方式包括Z-score标准化处理。
在本申请的一些实施方式中,评分用于指示受试者的胆道闭锁风险为儿童胆汁淤积性疾病中胆道闭锁的风险。
在本申请的一些实施方式中,儿童胆汁淤积性疾病包括胆道闭锁、Alagille综合征、原发硬化性胆管炎、肝外胆道阻塞、肝内胆汁淤积等其中至少一种。
在本申请的一些实施方式中,评分用于指示受试者的胆道闭锁风险的方式包括当评分高于截断值时,指示受试者的胆道闭锁风险较高(胆道闭锁阳性);当评分不高于截断值时,指示受试者的胆道闭锁风险较低(胆道闭锁阴性)。
可以理解的是,截断值可以根据模型、训练集以及诊断目的等方面因素合理自由设置。
在本申请的一些实施方式中,截断值通过约登指数的方法确定。
在本申请的一些实施方式中,e为自然底数,Z根据公式Z=-0.52-1.25×A0A5C2FX14-1.5×A0A1S5UZ16-1.98×P01833-2.24×γGT计算得到;Z的计算公式中标志物为对应标志物蛋白的表达水平值经过Z-score标准化处理后的值。在其中一些实施方式中,截断值为0.66,评分大于0.66时,受试者诊断为胆道闭锁高风险;评分不大于0.66时,受试者诊断为胆道闭锁低风险。
本申请的第四方面,提供电子设备,该电子设备包括处理器和存储器,存储器上存储有可在处理器上运行的计算机程序,处理器在运行计算机程序时实现以下操作:
步骤1:获取来自受试者的样本中标志物组合的表达水平的信息,标志物组合包括A0A5C2FX14、A0A1S5UZ16、P01833和γGT;
步骤2:对表达水平进行数学关联以获得评分;评分用于指示受试者的胆道闭锁风险。
在本申请的一些实施方式中,对标志物组合中各个标志物的表达水平进行数学关联的方法包括构建评分的诊断模型。
在本申请的一些实施方式中,构建评分的诊断模型的方法包括通过随机森林算法、逻辑回归算法、支持向量机算法、K近邻算法中的至少一种构建诊断模型。
在本申请的一些实施方式中,e为自然底数,Z根据公式计算得到,ai为A0A5C2FX14、A0A1S5UZ16、P01833和γGT中第i个标志物的设定权重,bi为A0A5C2FX14、A0A1S5UZ16、P01833和γGT中第i个标志物的表达水平,a0为设定截距。可以理解的是,a0~a4根据不同的算法、不同的训练集可以取不同的值。此外,评分的公式根据不同的算法也可以选择其他的一种或多种组合。
在本申请的一些实施方式中,第i个标志物的表达水平为第i个标志物经预处理后的表达水平。
在本申请的一些实施方式中,预处理的方式包括标准化处理、归一化处理中的至少一种。
在本申请的一些实施方式中,标准化处理的方式包括直线型标准化处理(诸如极值法、标准差法)、折线型标准化处理(诸如三折线法)、曲线型标准化处理(诸如半正态性分布)等其中至少一种。
在本申请的一些实施方式中,标准化处理的方式包括Z-score标准化处理。
在本申请的一些实施方式中,评分用于指示受试者的胆道闭锁风险为胆汁淤积性疾病中胆道闭锁的风险。
在本申请的一些实施方式中,胆汁淤积性疾病包括胆道闭锁、特发性胆汁淤积、Alagille综合征和进行性家族性肝内胆汁淤积等其中至少一种。
在本申请的一些实施方式中,评分用于指示受试者的胆道闭锁风险的方式包括当评分高于截断值时,指示受试者的胆道闭锁风险较高(胆道闭锁阳性);当评分不高于截断值时,指示受试者的胆道闭锁风险较低(胆道闭锁阴性)。
可以理解的是,截断值可以根据模型、训练集以及诊断目的等方面因素合理自由设置。
在本申请的一些实施方式中,截断值通过约登指数的方法确定。
在本申请的一些实施方式中,e为自然底数,Z根据公式Z=-0.52-1.25×A0A5C2FX14-1.5×A0A1S5UZ16-1.98×P01833-2.24×γGT计算得到;Z的计算公式中标志物为对应标志物蛋白的表达水平值经过Z-score标准化处理后的值。在其中一些实施方式中,截断值为0.66,评分大于0.66时,受试者诊断为胆道闭锁高风险;评分不大于0.66时,受试者诊断为胆道闭锁低风险。
本申请实施例中运用蛋白组学DIA的方法筛选血浆中的差异蛋白,并运用机器学习的方法构建标志物组合,发现血浆中A0A5C2FX14+A0A1S5UZ16+P01833联合γGT这一诊断模型在随机划分的测试集中AUC值为0.944,当截断值为0.66时,该模型在测试集中的准确率为89.47%,敏感度为90%,特异性为88.89%,因而可作为有效的BA早期诊断标志物。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
图1是本申请的一个实施例中候选标志物权重值排名结果。其中,横坐标为权重值,纵坐标为对应的蛋白名称。
图2是本申请一个实施例中候选标志物分类模型的AUC累积趋势图。其中,横坐标为分类模型中不断累积的标志物的蛋白名称,纵坐标为对应累积相应标志物蛋白后模型的AUC值。
图3是本申请的一个实施例中三种单一模型评价的ROC分析、敏感度、特异性的箱线图。其中,横坐标为AUC、敏感度和特异性的得分值,其越接近1越好;纵坐标为使用的三种算法模型,LR为逻辑回归,SVM为支持向量机,RF为随机森林。
图4是本申请的一个实施例中三种单一模型评价的ROC曲线图。其中,横坐标为假阳性率(false postive rate FPR,即1-特异性),纵坐标为真阳性率(true postive rateTPR,敏感度)。
图5是本申请的一个实施例中三种单一模型评价的准确率、敏感度和特异性随使用的截断值(cutoff)的变化的关系曲线图。其中,从左到右分别表示逻辑回归模型(LR)、支持向量机模型(SVM)、随机森林模型(RF)的曲线图;横坐标为对应的截断值;纵坐标为准确度、敏感度和特异性对应的百分比。
图6是本申请的一个实施例中随机森林计算标志物的重要性系数。其中,横坐标为重要性系数,纵坐标为相应的标志物蛋白名称。
图7是本申请的一个实施例中候选标志物在疾病对照组和胆道闭锁组的各样本中的表达量箱线图。
图8是本申请的一个实施例中候选标志物两两之间相关性分析的结果。其中,横纵坐标为对应的候选标志物蛋白的名称,圆圈的大小和面积反映关系系数,相关性越大,面积越大、圆圈越深。
图9是本申请的一个实施例中特异性、敏感度随截断值变化的趋势图(A)以及准确率随截断值变化的趋势图(B)。
图10是本申请的一个实施例中随机划分的训练集和测试集应用上述诊断模型的ROC曲线图。
图11是本申请的比较例中不同诊断组合模型的ROC曲线。
具体实施方式
以下将结合实施例对本申请的构思及产生的技术效果进行清楚、完整地描述,以充分地理解本申请的目的、特征和效果。显然,所描述的实施例只是本申请的一部分实施例,而不是全部实施例,基于本申请的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本申请保护的范围。
下面详细描述本申请的实施例,描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数,约的含义是指在本数±20%、10%、8%、5%、4%、3%、2%、1%、0.5%、0.2%、0.1%等的范围内。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本申请的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
实施例1
材料与方法
纳入对象包括疾病对照组和胆道闭锁组,疾病对照组为确诊肝内胆汁淤积(IHC)的患儿(IHC,n=35);胆道闭锁组为确诊为胆道闭锁(BA)的患儿(BA,n=32);两组年龄均小于60天,且均来源于2019~2021年广州市妇女儿童医疗中心(中国广州)。IHC和BA患儿的诊断基于患儿的临床特征、肝胆生化指标、术中胆管造影及术后肝外胆管组织病理学检测。
本研究获得中国广州市妇女儿童医疗中心临床研究机构评审委员会批准(批准编号:#34500),所有受试者在研究前均签署了书面知情同意书。
实验过程中涉及的主要试剂与耗材如下表1和表2所示:
表1.试剂来源
表2.实验仪器来源
本实施例中的方法如下:
EDTA抗凝管采集BA患儿和IHC患儿外周血2mL,离心,取上层血浆保存于-80度冰箱,用于具体步骤如下的DIA蛋白组学检测:
每例样品各取2μg肽段,分别掺入适量iRT标准肽段,每个样品进行1次90min DIA质谱测试。采用纳升流速HPLC***Easy nLC进行色谱分离。其中,色谱分离的缓冲液和相关参数如下:缓冲液:A液为0.1%甲酸水溶液,B液为0.1%甲酸乙腈水溶液(乙腈为84%)。色谱柱以95%的A液平衡。样品进样到Trap Column后经过色谱分析柱25cm tip-column进行梯度分离,流速为250nl/min。液相分离梯度如下:0~70分钟,B液线性梯度从8%到30%;70~80分钟,B液线性梯度从30%到100%;80~90分钟,B液线性梯度上升至100%并维持。
纳升级高效液相色谱分离后的样品用Q-Exactive HF质谱仪(ThermoScientific)进行DIA质谱分析。分析时长:90min,检测模式:正离子。一级质谱扫描范围:350-1650m/z,质谱分辨率:120,000(@m/z 200),AGC target:3e6,Maximum IT:50ms。MS2采用DIA数据采集模式,设置30个DIA采集窗口,质谱分辨率:30,000(@m/z 200),AGC target:3e6,Maximum IT:auto,MS2 Activation Type:HCD,Normalized collision energy:30,Spectral data type:profile。
DIA数据采用Spectronaut软件(Spectronaut Pulsar X_12.0.20491.4)进行数据处理,数据库与建库所用数据库相同。软件参数设置如下:retention time predictiontype设置为dynamic iRT,interference on MS2 level correction为enabled,cross runnormalization为enabled,所有结果必须通过设定的过滤参数Q Value cutoff为0.01(相当于FDR<1%)。
根据蛋白组学的结果进行机器学习处理,具体如下:
(1)数据预处理
根据不同类型的数据特点选择相应的预处理方法。蛋白组和代谢组学一般会用knn法填充数据里的缺失值,表达值单组学使用log转换,多组学合并分析使用Z-score标准化。
(2)统计检验法预筛选
利用T检验法或其他统计学方法对所有物质数据进行分析,筛选出在比较组中具有显著性差异的物质。
(3)集成学习法二次筛选
在具有显著性差异的物质数据的基础上使用集成机器学习法进行二次筛选,通过构建并结合多个特征选择算法,使用一定的策略整合得到最终结果。用到的特征选择方法有过滤法,封装法和包裹法等。每个特征选择方法都会产生一组潜在标志物集合。
给每个候选标志物集合中的物质进行打分评估,打分规则依据候选标志物被方法选中的频率重要性和相关系数等指标计算每个候选标志物的累计分数。根据每个候选标志物的分数从高到低进行排序,分数越高表明该物质在区分样本组中的贡献越大。
利用ROC分析来评价选择最优潜在标志物的组合。根据物质的分数排名从高到低依次把物质加入最优候选标志物组合中,计算每次加入一个物质后的最优候选标志物集合所构建的模型的AUC值,直到AUC值的变化趋于平缓不再上升,则停止在最优候选标志物组合中加入物质。最后选取AUC值最高的那组物质集合作为最优潜在标志物组合。
(4)标志物验证与评价
利用目前常用的三种机器学习模型:逻辑回归(Logistic Regression,LR)、随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM),分别对最优潜在标志物组合构建的模型进行K-fold交叉验证。使用ROC曲线分析,判定上述最优潜在标志物组合对样本组别分类的性能优劣。
(5)诊断模型验证与评价
使用逻辑回归算法和最优潜在标志物组合中的数据来构建诊断模型。采用约登指数(Youden's index)界定出诊断判定的最佳截断值。最大约登指数所对应的截断值是生物标志物鉴别能力的最佳临界点,此时敏感度和特异性之和最大,把样本中的最优潜在标志物组合的数据集按照比例随机划分为训练集和测试集,利用逻辑回归模型分别对训练集和测试集进行ROC分析。
上述实验的结果如下:
(1)特征权重计算
结合在各个特征选择方法里获得的奖励分数计算出每个标志物的综合权重值,按照综合权重值从大到小排序,综合权重值越大表明该标志物在区分实验组样本和对照样本中的贡献越大。参考图1,在这些不同的特征选择方法中,包括A0A5C2FX14(IGL c680_light_IGKV1-39_IGKJ2)、A0A1S5UZ16(Target of Nesh-SH3)、P01833(Polymericimmunoglobulin receptor)和γGT在内是其中贡献最大(被频繁选出)的四个特征。
(2)候选标志物的选择
为了有效进行候选标志物的挑选,利用ROC分析来评价各蛋白对模型的AUC值的影响强度,结果见图2,在A0A5C2FX14的单因素模型的基础上,随着模型中不断引入其他标志物,AUC值也越来越高,因而模型的分类效果也越来越好。
(3)候选标志物的验证
针对上述四种候选标志物的组合构建逻辑回归、支持向量机和随机森林模型,通过ROC曲线分析,判定上述候选标志物对不同样本组别分类的性能优劣。结果如图3和图4的箱线图及ROC曲线。可以看出,基于上述四种候选标志物的这三种模型的曲线下面积值均较为接近1,表明其具有较高的临床诊断效能,同时,特异性和敏感度也相对越高,检测效能好。上述结果说明,筛选出的候选标志物的组合具有较优秀的分类能力和效果。
图5分别进一步展示了三种ROC模型的准确率、敏感度和特异性与截断值的关系曲线图。其中三个模型中的每组准确率、敏感度、特异性分别都有一一对应的截断值,因而可利用ROC曲线判定其中最佳的截断值和其所对应的准确率、敏感度和特异性。
(4)候选标志物的特征评价
利用上述随机森林算法构建的分类模型,计算出候选标志物的重要性系数,用于比较每个标志物对模型的贡献大小。标志物的重要性系数越高表明该标志物对区分不同组别的作用贡献越大,结果见图6,在模型中贡献从大到小分别是γGT、P01833、A0A5C2FX14和A0A1S5UZ16。
(5)候选标志物的蛋白表达水平
候选标志物的相关表达水平如图7所示,从图中可以看出,挑选出的候选标志物在疾病对照组和胆道闭锁组中均存在极显著的差异表达。
(6)候选标志物之间的相关性
一般来说,诊断组合中的各候选标志物之间的相关性越低,说明所选择的标志物之间的重叠性越低,组合更为优化。对候选标志物的表达量计算Pearson相关系数,结果如图8,从图中可以看到,标志物两两之间的相关性均较低。
(7)诊断组合模型的构建与能力评价
候选标志物诊断组合模型利用逻辑回归算法构建,模型结果如表3所示:
表3.标志物逻辑回归模型系数
最终生物标志物组合的逻辑回归模型公式如下:
其中,Z=-0.52-1.25×A0A5C2FX14-1.5×A0A1S5UZ16-1.98×P01833-2.24×γGT;
Z的计算式中标志物为对应标志物蛋白的表达水平值经过Z-score标准化处理后的值。
在诊断时,根据上述公式计算概率值p,如p值超出截断值则判别为诊断阳性。
采用约登指数(Youden's index)界定出诊断判定的最佳截断值,能同时具有比较好的敏感度和特异性。可以理解的是,最优截断值并不唯一,可根据对敏感度和特异性的不同需求进行选择不同的截断值。
其中,高灵敏度常应用于诊断病情严重但疗效好的疾病,以防漏诊;该病可能由多种疾病引起,用于排除某一疾病的可能性;普查或定期健康检查,用于筛选某一疾病。高特异度常用于诊断患者有某疾病的概率较大时以便确诊;疾病严重但疗效和预后均不好的疾病,以防误诊;疾病的根治方法有较大损害时需确诊,以免造成病人不必要的损害。
利用约登指数计算得到的最佳截断值和对应指标见下表4,本实施例最后界定出的截断值为0.66。模型的准确率、特异性、敏感度和截断值之间的趋势如图9,分别展示了准确率和截断值的变化关系,敏感度和特异性与截断值之间的变化关系。曲线上每一点都有所对应的截断值,可根据最佳截断值找到对应的准确率、敏感度和特异性。
表4.最佳截断值和相关诊断参数值
(8)组合的诊断能力评价
将原数据集按70%、30%比例随机分为训练集和测试集,根据诊断模型中对应标志物的表达量,利用上述构建的诊断模型进行ROC分析的结果如图10。从图中可以看出,训练集AUC值为0.965,测试集AUC值为0.944。上述结果表明标志物组合的逻辑回归模型对测试集具有较好的样本分类效果。该二分类模型在截断值为0.66时,在测试集中的准确率为89.47%,敏感度为90%,特异性为88.89%。
比较例:不同诊断组合模型的ROC比较
参考实施例1中的方法,选择诊断组合中的单个或部分蛋白作为诊断标志物,将原数据集随机分为训练集和测试集,重新构建逻辑回归模型。结果如图11所示。从图中可以看出,γGT、A0A5C2FX14+γGT、A0A1S5UZ16+γGT、P01833+γGT、A0A5C2FX14+A0A1S5UZ16+γGT、A0A5C2FX14+P01833+γGT、A0A1S5UZ16+P01833+γGT以及全部标志物组合的AUC值分别为0.809、0.913、0.87、0.87、0.922、0.94、0.934、0.959。因此,采用实施例1中提供的标志物组合可以实现在BA早期诊断中更有效的分类效果。
实施例3
本实施例提供一种电子设备,其包括处理器和存储器,存储器上存储有可在处理器上运行的计算机程序,处理器在运行计算机程序时实现以下操作:
S1:获取来自受试者A0A5C2FX14、A0A1S5UZ16、P01833和γGT的表达水平,并进行Z-score标准化处理;
S2:根据以下公式计算得到p值:
其中,Z=-0.52-1.25×A0A5C2FX14-1.5×A0A1S5UZ16-1.98×P01833-2.24×γGT;
Z的计算式中标志物为对应标志物蛋白的表达水平值S1中处理后的值;
S3:将计算得到的p值与截断值0.66比较,若p值大于截断值,表明受试者胆道闭锁风险高;若p值不大于截断值,表明受试者胆道闭锁风险低。
上面结合实施例对本申请作了详细说明,但是本申请不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本申请宗旨的前提下作出各种变化。此外,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

Claims (10)

1.检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用,其特征在于,所述标志物组合包括A0A5C2FX14、A0A1S5UZ16、P01833和γGT。
2.根据权利要求1所述的应用,其特征在于,所述试剂用于在蛋白水平上检测所述标志物组合。
3.根据权利要求1所述的应用,其特征在于,所述试剂用于检测血液、血清、血浆中任一种的所述标志物组合。
4.根据权利要求1所述的应用,其特征在于,所述胆道闭锁诊断产品用于诊断0~4月龄儿童。
5.根据权利要求4所述的应用,其特征在于,所述胆道闭锁诊断产品用于诊断60日龄以内的儿童。
6.根据权利要求1至5任一项所述的应用,其特征在于,所述胆道闭锁诊断产品用于区分肝内胆汁淤积和胆道闭锁。
7.胆道闭锁诊断产品,其特征在于,包括检测标志物组合的试剂,所述标志物组合包括A0A5C2FX14、A0A1S5UZ16、P01833和γGT。
8.计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行以下操作:
步骤1:获取来自受试者的样本中标志物组合的表达水平的信息,所述标志物组合包括A0A5C2FX14、A0A1S5UZ16、P01833和γGT;
步骤2:对所述表达水平进行数学关联以获得评分;所述评分用于指示受试者的胆道闭锁风险。
9.根据权利要求8所述的计算机可读存储介质,其特征在于,e为自然底数,Z根据公式/>计算得到,ai为A0A5C2FX14、A0A1S5UZ16、P01833和γGT中第i个标志物的设定权重,bi为A0A5C2FX14、A0A1S5UZ16、P01833和γGT中第i个标志物的表达水平,a0为设定截距。
10.电子设备,其特征在于,包括处理器和存储器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器在运行所述计算机程序时实现以下操作:
步骤1:获取来自受试者的样本中标志物组合的表达水平的信息,所述标志物组合包括A0A5C2FX14、A0A1S5UZ16、P01833和γGT;
步骤2:对所述表达水平进行数学关联以获得评分;所述评分用于指示受试者的胆道闭锁风险。
CN202311304291.9A 2023-10-09 2023-10-09 检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用 Pending CN117288962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311304291.9A CN117288962A (zh) 2023-10-09 2023-10-09 检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311304291.9A CN117288962A (zh) 2023-10-09 2023-10-09 检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用

Publications (1)

Publication Number Publication Date
CN117288962A true CN117288962A (zh) 2023-12-26

Family

ID=89258392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311304291.9A Pending CN117288962A (zh) 2023-10-09 2023-10-09 检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用

Country Status (1)

Country Link
CN (1) CN117288962A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5601986A (en) * 1994-07-14 1997-02-11 Amgen Inc. Assays and devices for the detection of extrahepatic biliary atresia
CN112748249A (zh) * 2020-12-18 2021-05-04 深圳市绘云生物科技有限公司 新生儿胆道闭锁诊断标志物的应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5601986A (en) * 1994-07-14 1997-02-11 Amgen Inc. Assays and devices for the detection of extrahepatic biliary atresia
CN112748249A (zh) * 2020-12-18 2021-05-04 深圳市绘云生物科技有限公司 新生儿胆道闭锁诊断标志物的应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MING FU, ET AL: "Proteomics Defines Plasma Biomarkers for the Early Diagnosis of Biliary Atresia", JOURNAL OF PROTEOME RESEARCH, 3 April 2024 (2024-04-03) *
王自能;宋元宗;郝虎;郭祖文;: "先天性胆道闭锁患儿心肌组织的电镜观察", 电子显微学报, no. 03, 15 June 2007 (2007-06-15), pages 221 - 224 *

Similar Documents

Publication Publication Date Title
Romick-Rosendale et al. Identification of urinary metabolites that distinguish membranous lupus nephritis from proliferative lupus nephritis and focal segmental glomerulosclerosis
US20080086272A1 (en) Identification and use of biomarkers for the diagnosis and the prognosis of inflammatory diseases
Liu et al. Alpha-fetoprotein level as a biomarker of liver fibrosis status: a cross-sectional study of 619 consecutive patients with chronic hepatitis B
JP2020515993A (ja) 初期ステージの肺がん診断のための血漿ベースのタンパク質プロファイリング
JP7467447B2 (ja) 試料の品質評価方法
CN104204798A (zh) 膀胱癌的生物标志物和使用所述生物标志物的方法
DeMarshall et al. Autoantibodies as diagnostic biomarkers for the detection and subtyping of multiple sclerosis
CA2911204A1 (en) Biomarkers related to kidney function and methods using the same
JP7288283B2 (ja) 小児がん検査用尿中代謝物マーカー
CN105705652B (zh) 协助鉴别诊断中风的方法
Fan et al. Urinary neutrophil gelatinase-associated lipocalin, kidney injury molecule-1, N-acetyl-β-D-glucosaminidase levels and mortality risk in septic patients with acute kidney injury
Durhan et al. Visual and software-based quantitative chest CT assessment of COVID-19: correlation with clinical findings
CN112748191A (zh) 诊断急性疾病的小分子代谢物生物标志物及其筛选方法和应用
Varoquaux et al. How I failed machine learning in medical imaging--shortcomings and recommendations
Sáez et al. Validation of CSF free light chain in diagnosis and prognosis of multiple sclerosis and clinically isolated syndrome: Prospective cohort study in Buenos Aires
Cho et al. Analytical and clinical performance of the Nanopia Krebs von den Lungen 6 assay in Korean patients with interstitial lung diseases
Terracciano et al. New strategy for the identification of prostate cancer: the combination of Proclarix and the prostate health index
JP6731957B2 (ja) 子宮内膜癌の診断方法
CN117253625A (zh) 肺癌筛查模型的构建装置、肺癌筛查装置、设备及介质
EP3271738B1 (en) Computerized optical analysis methods of mr (magnetic resonance) images for quantifying or determining liver lesions
JP7226732B2 (ja) 尿中腫瘍マーカーによるがん検出方法、キット及び装置
CA3115171A1 (en) A method for differentially diagnosing in vitro a bipolar disorder and a major depressive disorder
CN117288962A (zh) 检测标志物组合的试剂在制备胆道闭锁诊断产品中的应用
EP4337784A1 (en) Salivary metabolites are non-invasive biomarkers of hcc
Luther et al. The circulating proteomic signature of alcohol-associated liver disease

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination