CN115932277A - 一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用 - Google Patents
一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用 Download PDFInfo
- Publication number
- CN115932277A CN115932277A CN202211573838.0A CN202211573838A CN115932277A CN 115932277 A CN115932277 A CN 115932277A CN 202211573838 A CN202211573838 A CN 202211573838A CN 115932277 A CN115932277 A CN 115932277A
- Authority
- CN
- China
- Prior art keywords
- breast cancer
- standard
- sample
- analysis
- quality control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明属于临床检验诊断技术领域,涉及一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用。本发明所述诊断标志物包括24种血浆代谢标志物中的任意一种或两种以上。本发明所述诊断标志物对于乳腺癌的诊断具有较好的灵敏性和特异性,可用于乳腺癌诊断(包括早期诊断),对于改善乳腺癌的预后、提高乳腺癌患者的生存率具有重要意义。
Description
技术领域
本发明属于临床检验诊断技术领域,具体涉及一种基于代谢组学和人工智能分析方法筛选鉴定的乳腺癌诊断的诊断标志物、所述诊断标志物在乳腺癌诊断产品制备中的应用、所述诊断标志物的筛选方法、应用所述诊断标志物构建诊断模型的方法。
背景技术
乳腺癌(Breast cancer)是乳腺导管上皮及末梢导管上皮发生的恶性肿瘤,近几年来发病率有明显的上升趋势,在临床上属于女性常见病。根据世界卫生组织国际癌症研究机构(IARC)发布的2020年全球最新癌症负担数据,全球乳腺癌新发病例高达226万例,超过了肺癌的220万例,乳腺癌取代肺癌,成为全球第一大癌。2020年中国癌症新发病例中乳腺癌发病率位居第四位,在2020年中国癌症死亡率中位居第七位。
根据国家癌症中心发布的2022年全国癌症报告,近年来中国乳腺癌发病率与死亡率仍呈逐年递增趋势。乳腺癌发病人数增加,根本原因之一是乳腺癌风险因素的不断变化,比如推迟生育、生育次数减少,超重和肥胖,以及缺乏运动等。
乳腺癌的确切发病机制尚不明确,相关高危因素难以控制,一级病因预防较难实现,故目前乳腺癌的防控以“早发现、早诊断、早治疗”的二级预防为主。乳腺癌的早期筛查主要依靠于临床影像学检查,但由于医疗资源分配不均、防癌意识相对薄弱、筛查覆盖人群有限以及临床医师水平参差不齐等原因,导致我国早期乳腺癌整体诊断率略显偏低。
早期乳腺癌术后10年生存率可达90%以上,大大高于中晚期乳腺癌患者。所以,乳腺癌的早期发现至关重要,发现得越早,治愈可能性就越大。然而,早期乳腺癌往往不具备典型的症状和体征,大多为无痛性肿块、***溢液,少数伴有隐痛或刺痛。目前使用最广泛的乳腺癌筛查方法是乳腺钼靶X线检查,但因早期乳腺癌肿瘤范围较小且腺体密度较高,使肿瘤图像模糊,导致钼靶X线检查难度较大且误诊率和漏诊率较高。肿瘤标记物包括癌胚抗原(CEA)、癌抗原(CA15-3)等的灵敏度和特异度均难以达到临床诊断标准,且容易受到患者的既往病史和不良嗜好影响。因此开发出一种简单便捷并具有高特异度和高敏感度的新型乳腺癌诊断产品将极大促进乳腺癌的早诊早治、提升疗效和患者的预后,具有重大的临床意义和社会经济意义。
发明内容
本发明的目的在于提供一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用。本发明所述诊断标志物对于乳腺癌具有较好的灵敏性和特异性,可用于乳腺癌诊断(包括乳腺癌的早期诊断),对于改善乳腺癌的预后、提高乳腺癌患者的生存率具有重要意义。
本发明提供了一种乳腺癌诊断标志物,所述诊断标志物包括以下24种血浆代谢标志物中的任意一种或两种以上:哌啶、肌苷、亮氨酸、尿苷、苯丙氨酸、苏氨酸、N-乙酰-DL-天冬氨酸、N-乙酰-DL-谷氨酸、葡萄糖酸、N-乙酰甘氨酸、对氯苯酚、脯氨酸、缬氨酸、左旋肉碱、L-乙酰基肉碱、精氨酸、赖氨酸、酪氨酸、3-甲基黄嘌呤、吲哚-3-乙醛、3-羟基丁酸、顺乌头酸、2-羟基苯乙酸和磷酸胆碱。
优选的是,所述诊断标志物包括以下6种血浆代谢标志物中的任意一种或两种以上:哌啶、肌苷、亮氨酸、尿苷、苯丙氨酸和苏氨酸。
优选的是,所述诊断标志物包括以下1种血浆代谢标志物:哌啶。
本发明还提供了检测上述技术方案所述诊断标志物的试剂在制备乳腺癌诊断产品中的应用,所述产品包括试剂盒。
本发明还提供了一种乳腺癌诊断试剂盒,包括检测上述技术方案所述诊断标志物的试剂。
本发明还提供了上述技术方案所述诊断标志物的筛选方法,包括以下步骤:
1)使用机器学***均值,确定该支持向量机模型可有效对乳腺癌患者与健康人群的代谢组数据进行分类;
2)根据上述得到的支持向量机模型,通过基于机器学习的特征筛序,借助支持向量机建模的特征重要性评分并不断累加重要特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式;所述筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升;
3)将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选,使用MS-Dial软件根据色谱峰型及二级质谱图数据质量筛选并获得潜在代谢标志物;
4)根据上述潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库中的谱图信息进行比对,从而对代谢物进行鉴定,得到适合于乳腺癌诊断的血浆代谢标志物。
本发明还提供了一种基于上述技术方案所述诊断标志物的乳腺癌诊断模型的构建方法,包括以下步骤:
1)将乳腺癌患者和健康人群的血浆样本作为分析样本;
2)使用液相色谱质谱联用仪对每个分析样本进行诊断标志物的靶向代谢组学分析,得到各血浆样本的靶向代谢组图谱;
3)使用Multiquant软件对乳腺癌患者血浆样本和健康人群血浆样本的靶向代谢组图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的标志物二维矩阵,用于进一步的机器学习;
4)根据所述诊断标志物的二维矩阵,使用机器学习支持向量机构建分类模型,得到乳腺癌诊断模型。
本发明还提供了上述技术方案所述构建方法构建得到的乳腺癌诊断模型。
本发明还提供了一种基于上述技术方案所述诊断标志物的靶向代谢组学绝对定量方法,包括以下步骤:
1)标准品准备
(a)制备各诊断标志物的标准储备溶液和同位素内标储备溶液;
(b)准备相应浓度梯度的混合标准品:标准工作校准溶液在合并的标准储备溶液连续稀释后获得,稀释比例为1~1/90;
(c)准备标准品质控品:使用合并的标准储备溶液准备稀释比为3/4、5/12、1/12的标准品质控品,分别定义为高浓度质控品、中浓度质控品、低浓度质控品;
2)样本制备
(a)配制含有同位素内标的萃取液:将步骤1)获得的同位素内标储备溶液与预冷的甲醇震荡混匀;
(b)萃取样本:将分析样本、标准工作校准样本或标准品质控品与步骤(a)制备得到的萃取液混合,震荡,离心,取上清,在真空浓缩仪中蒸干,得到干粉;
(c)复溶样本:将干粉用乙腈水复溶液复溶后离心,将上清液转移入LC-MS进样瓶中;
3)LC-MS/MS分析:使用液相色谱质谱联用仪对每个分析样本、标准工作校准样本或标准品质控品进行诊断标志物的靶向代谢组学分析,得到各样本的靶向代谢组图谱;
4)数据分析:使用Multiquant软件对靶向代谢组图谱进行图谱处理和定量分析,得到每行为代谢物信息、每列为分析样本的标志物二维矩阵;标准曲线采用内标法,通过标准品的峰面积与其对应的同位素内标面积比进行绘制,拟合后获得线性方程和相关系数R2,计算得到相应代谢物的定量浓度。
优选的是,当所述诊断标志物为哌啶、肌苷、亮氨酸、尿苷、苯丙氨酸和苏氨酸时,所述绝对定量方法包括以下步骤:
1)标准品准备
(a)制备标准储备溶液和同位素内标储备溶液:将标准品哌啶、肌苷、尿苷及其相应的同位素内标包括哌啶-d11、肌苷-13C5、尿苷-13C5分别溶解于甲醇中,将标准品亮氨酸、苯丙氨酸、苏氨酸及其相应的同位素内标包括亮氨酸-d3、苯丙氨酸-d8、苏氨酸-15N分别溶解于甲醇水溶液中,以上浓度均为1mg/ml;所述甲醇水溶液中甲醇和水的体积比为1:1;
(b)准备相应浓度梯度的混合标准品:标准工作校准溶液在合并的标准储备溶液连续稀释后获得,稀释比例分别为1,5/6,2/3,5/9,4/9,1/3,2/9,1/9,1/18,2/45,1/30,1/45和1/90;
(c)准备标准品质控品:使用合并的标准储备溶液准备稀释比为3/4、5/12、1/12的标准品质控品,分别定义为高浓度质控品、中浓度质控品、低浓度质控品;
2)样本制备
(a)配制含有同位素内标的萃取液:将步骤1)获得的6种同位素内标储备溶液与-20℃预冷2h以上的甲醇混合并震荡混匀,使哌啶-d11在甲醇中的质量浓度为25ng/ml,肌苷-13C5在甲醇中的质量浓度为5ng/ml,尿苷-13C5在甲醇中的质量浓度为250ng/ml,亮氨酸-d3、苯丙氨酸-d8和苏氨酸-15N在甲醇中的质量浓度均为500ng/ml;
(b)萃取样本:将分析样本、标准工作校准样本或标准品质控品与步骤(a)制备得到的萃取液按照体积比为1:4混合,震荡30min,4℃,12000rpm离心20min,吸取上清,在真空浓缩仪中蒸干,得到干粉;
(c)复溶样本:将干粉用乙腈水复溶液复溶后,在高速离心机中于4℃下以12000rpm离心20min,将上清液转移入LC-MS进样瓶中;所述乙腈水复溶液中乙腈和水的体积比为1:1;
3)LC-MS/MS分析:使用液相色谱质谱联用仪对每个分析样本、标准工作校准样本或标准品质控品进行诊断标志物的靶向代谢组学分析,得到各样本的靶向代谢组图谱;
4)数据分析:使用Multiquant软件对靶向代谢组图谱进行图谱处理和定量分析,得到每行为代谢物信息、每列为分析样本的标志物二维矩阵;标准曲线采用内标法,通过标准品的峰面积与其对应的同位素内标面积比进行绘制,拟合后获得线性方程和相关系数R2,计算得到相应代谢物的定量浓度。
本发明提供了一种乳腺癌诊断标志物。本发明采用血浆代谢组学方法以及人工智能数据分析方法得到适合于乳腺癌诊断的诊断标志物。本发明所述诊断标志物对于乳腺癌具有较好的灵敏性和特异性,可用于乳腺癌诊断(包括乳腺癌的早期诊断),对于改善乳腺癌的预后、提高乳腺癌患者的生存率具有重要意义。
本发明诊断标志物筛选方法可操作性强,模型构建方法简单,所得诊断模型效果良好,灵敏度高,特异性好,适合于乳腺癌的诊断,尤其对于乳腺癌早期诊断也具有较高的灵敏度和特异性。本发明仅通过取血检测就能实现诊断,无需影像学医疗设备,不会对人体造成任何辐射,可提高患者早期筛查的采样效率,有利于大规模筛查的普及推广,能够很好地替代乳腺钼靶X线检查的早期筛查模式,并且本发明诊断简单快速,有利于乳腺癌的早诊早治,具有很好的临床使用和推广价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的原始代谢指纹图谱的总离子色谱图(TICs);其中A为健康对照血浆样本在正离子模式下的总离子色谱图,B为乳腺癌患者在正离子模式下的总离子色谱图,C为健康对照在负离子模式下的总离子色谱图,D为乳腺癌患者在负离子模式下的总离子色谱图,横轴为保留时间,纵轴为代谢物相对浓度;
图2为本发明提供的SVM模型的特征选择得分图;其中A为正离子模式模型的准确度得分图,B为负离子模式模型的准确度得分图;
图3为本发明提供的使用6个血浆代谢标志物构建诊断模型的靶向代谢组图谱的典型选择离子色谱图(EIC);
图4为本发明提供的使用6个血浆代谢标志物构建的乳腺癌诊断模型的受试者工作特征(ROC)曲线图;其中A为训练集的ROC曲线以及曲线下面积(AUC),B为测试集的ROC曲线以及曲线下面积(AUC);
图5为本发明提供的使用6个血浆代谢标志物的统计学差异示意图;
图6为本发明提供的6个血浆代谢标志物的标准曲线;
图7为本发明提供的使用1个血浆代谢标志物构建的乳腺癌诊断模型的受试者工作特征(ROC)曲线图;其中A为训练集的ROC曲线以及曲线下面积(AUC),B为测试集的ROC曲线以及曲线下面积(AUC)。
具体实施方式
本发明提供了一种乳腺癌诊断标志物,所述诊断标志物包括以下24种血浆代谢标志物中的任意一种或两种以上:哌啶(Piperidine)、肌苷(Inosine)、亮氨酸(Leucine)、尿苷(Uridine)、苯丙氨酸(Phenylalanine)、苏氨酸(Threonine)、N-乙酰-DL-天冬氨酸(N-Acetyl-DL-aspartic acid)、N-乙酰-DL-谷氨酸(N-Acetyl-DL-glutamic acid)、葡萄糖酸(D-Gluconic acid)、N-乙酰甘氨酸(N-Acetylglycine)、对氯苯酚(4-Chlorophenol)、脯氨酸(Proline)、缬氨酸(Valine)、左旋肉碱(L-Carnitine)、L-乙酰基肉碱(O-Acetyl-L-carnitine)、精氨酸(Arginine)、赖氨酸(Lysine)、酪氨酸(Tyrosine)、3-甲基黄嘌呤(3-Methylxanthine)、吲哚-3-乙醛(Indole-3-acetaldehyde)、3-羟基丁酸(DL-beta-Hydroxybutyric acid)、顺乌头酸(cis-Aconitic acid)、2-羟基苯乙酸(2-Hydroxyphenylacetic acid)和磷酸胆碱(Phosphocholine)。本发明所述诊断标志物对于乳腺癌具有较好的灵敏性和特异性,可用于乳腺癌诊断,尤其是乳腺癌早期诊断,对于改善乳腺癌的预后、提高乳腺癌患者的生存率具有重要意义。
在本发明中,所述诊断标志物优选包括以下6种血浆代谢标志物中的任意一种或两种以上:哌啶、肌苷、亮氨酸、尿苷、苯丙氨酸和苏氨酸。本发明所述诊断标志物经靶向代谢组学分析验证,可进一步提升其可靠性,对于乳腺癌诊断具有较好的灵敏性和特异性。
在本发明中,所述诊断标志物更优选包括以下1种血浆代谢标志物:哌啶。本发明所述诊断标志物经靶向代谢组学分析验证,能够进一步提升其可靠性,对于乳腺癌诊断具有更高的灵敏性和特异性。
本发明还提供了检测上述技术方案所述诊断标志物的试剂在制备乳腺癌诊断产品中的应用,所述产品包括试剂盒。
本发明还提供了一种乳腺癌诊断试剂盒,包括检测上述技术方案所述诊断标志物的试剂。本发明所述试剂盒可用于乳腺癌诊断,尤其是早期诊断。
本发明还提供了上述技术方案所述诊断标志物的筛选方法,包括以下步骤:
1)使用机器学***均值,确定该支持向量机模型可有效对乳腺癌患者与健康人群的代谢组数据进行分类;
2)根据上述得到的支持向量机模型,通过基于机器学习的特征筛序,借助支持向量机建模的特征重要性评分并不断累加重要特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式;所述筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升;
3)将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选,使用MS-Dial软件根据色谱峰型及二级质谱图数据质量筛选并获得潜在代谢标志物;
4)根据上述潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库中的谱图信息进行比对,从而对代谢物进行鉴定,得到适合于乳腺癌诊断的血浆代谢标志物。
通过本发明所述筛选方法得到的诊断标志物对于乳腺癌具有很好的灵敏性和特异性,尤其适合于乳腺癌的诊断,尤其是早期诊断,对于乳腺癌的治疗具有重要意义。
在本发明中,所述非靶向代谢组学分析、检索及数据预处理优选包括以下步骤:
(A)分别收集乳腺癌患者和健康人群的血浆样本作为分析样本;
(B)使用液相色谱质谱联用仪分别对每个分析样本进行非靶向代谢组学分析,得到各血浆样本的原始代谢指纹图谱;
(C)使用MS-Dial软件对乳腺癌患者的血浆样本和健康人群的血浆样本的原始代谢指纹图谱分别进行图谱处理,得到每行为代谢物信息,每列为分析样本的二维矩阵;并且对二维矩阵进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分,用于进一步的机器学习。
本发明分别收集乳腺癌患者和健康人群的血浆样本作为分析样本。在本发明中,所述筛选方法中的乳腺癌患者为经术后病理确认的乳腺癌患者。在本发明中,所述健康人群为经体检无异常的健康人群。在本发明中,具体的,筛选时所用的乳腺癌患者优选为200人(其中包括100例原位癌和100例***),健康人群人数优选100人。
得到分析样本后,本发明采用液相色谱质谱联用技术(LC-MS)分别对每个分析样本进行非靶向代谢组学分析,得到各血浆样本的原始代谢指纹图谱。本发明优选每15个分析样本中加入一个标准品质控品,用于实时监测分析样本从进样预处理到分析过程中的质量控制情况。在本发明中,所述标准品质控品为200份乳腺癌血浆样本和100份健康血浆样本的混合样品。在本发明中,所述分析样本和标准品质控品在进样前优选进行以下预处理:
a.用移液器吸取50μL分析样本或标准品质控品,置于2.0ml EP(eppendorf)管中;
b.加入200μL甲醇(-20℃预冷2h以上)混合,震荡30min,4℃12000rpm离心20min,吸取上清,在真空浓缩仪中蒸干;
c.将干粉用乙腈水复溶液(1:1,V/V)复溶后,在高速离心机中于4℃下以12000rpm离心20min;
d.将步骤c的上清液转移入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测。
在本发明中,对每个分析样本采用LC-MS血浆非靶向代谢组学技术分别进行分析时,液相色谱使用的色谱柱优选为Waters XBridge BEH Amide色谱柱,规格优选为100×2.1mm,2.5μm;进样温度优选为4℃,进样体积优选为5μL;色谱流动相包含两种溶剂A和B,A为含5mM乙酸铵的乙腈水溶液,所述乙腈水溶液含体积百分含量为5%的乙腈和体积百分含量为95%的水;B为乙腈;色谱梯度洗脱条件优选为:0~2min保持95%B,2~15min为95%B~50%B逐渐递减,15~18min保持50%B,18~19min为50%B至95%B逐渐递增,然后95%B持续4min;流速为0.35ml/min。在本发明中,对每个分析样本采用LC-MS血浆非靶向代谢组学技术进行分析时,质谱检测优选使用四极杆-静电场轨道阱质谱仪Q-Exactive,并采用电喷雾离子源的正离子模式ESI+和负离子模式ESI-,离子源温度优选为320℃,脱溶剂气温优选为300℃,鞘气和辅气分别设置为40和10;在正离子和负离子模式下毛细管电压分别为+3.3kV和-3kV,锥孔电压均为0V;图谱数据采集的质荷比范围为60~800m/z,采集的模式为数据依赖模式(DDA)。
得到各血浆样本的原始代谢指纹图谱后,本发明使用MS-Dial软件对乳腺癌患者的血浆样本和健康人群的血浆样本的原始代谢指纹图谱分别进行图谱处理,得到每行为代谢物信息,每列为分析样本的二维矩阵;并且对二维矩阵进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分,用于进一步的机器学习。在本发明中,对原始代谢指纹图谱进行图谱处理是指:用MS-Dial软件读取原始代谢指纹图谱,进行包括保留时间校正、峰识别、峰匹配和峰对齐的处理操作,得到二维矩阵。
得到二维矩阵数据后,本发明使用机器学***均值,确定该支持向量机模型可有效对乳腺癌患者与健康人群的代谢组数据进行分类。在本发明中,构建SVM分类模型时,建模参数C=5。本发明筛选过程中SVM建模随机循环迭代2000次,最终模型准确度的平均值在正离子模式下大于0.98,负离子模式下大于0.96。说明SVM分类模型对于区分乳腺癌患者和健康对照有较高的稳定性和分类效能。
本发明根据上述得到的支持向量机模型,通过基于机器学习的特征筛序,借助支持向量机建模的特征重要性评分并不断累加重要特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式;所述筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升。筛选得到最优特征组合可以去除重要性评分较低的特征对于模型分类的干扰,提高模型的稳定性和分类效能。
本发明将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选,使用MS-Dial软件根据色谱峰型及二级质谱图数据质量筛选,去除谱图质量差或不匹配的代谢物特征,以及在正离子和负离子模式下对应同一代谢标志物的特征,并获得潜在代谢标志物。
本发明根据上述潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库中的谱图信息进行比对,从而对代谢物进行鉴定,得到适合于乳腺癌诊断,尤其是乳腺癌早期诊断的血浆代谢标志物。不同血浆代谢标志物的组合即可作为适合于乳腺癌诊断(尤其是早期诊断)的诊断标志物。本发明所述筛选方法筛选的到的乳腺癌诊断标志物,优选包括以下24种血浆代谢标志物中的任意一种或两种以上:哌啶、肌苷、亮氨酸、尿苷、苯丙氨酸、苏氨酸、N-乙酰-DL-天冬氨酸、N-乙酰-DL-谷氨酸、葡萄糖酸、N-乙酰甘氨酸、对氯苯酚、脯氨酸、缬氨酸、左旋肉碱、L-乙酰基肉碱、精氨酸、赖氨酸、酪氨酸、3-甲基黄嘌呤、吲哚-3-乙醛、3-羟基丁酸、顺乌头酸、2-羟基苯乙酸和磷酸胆碱。
本发明还提供了一种基于上述技术方案所述诊断标志物的乳腺癌诊断模型的构建方法,包括以下步骤:
1)将乳腺癌患者和健康人群的血浆样本作为分析样本;
2)使用液相色谱质谱联用仪对每个分析样本进行诊断标志物的靶向代谢组学分析,得到各血浆样本的靶向代谢组图谱;
3)使用Multiquant软件对乳腺癌患者血浆样本和健康人群血浆样本的靶向代谢组图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的标志物二维矩阵,用于进一步的机器学习;
4)根据所述诊断标志物的二维矩阵,使用机器学习支持向量机构建分类模型,得到乳腺癌诊断模型。
本发明收集乳腺癌患者和健康人群的血浆样本作为分析样本。在本发明中,所述乳腺癌患者是经术后病理确认的乳腺癌患者。
本发明采用液相色谱质谱联用方法对每个分析样本进行诊断标志物的靶向代谢组学分析,得到各血浆样本的靶向代谢组图谱。在本发明中,所述的靶向代谢组学分析是指对按照本发明诊断标志物的筛选方法筛选得到的能够作为诊断标志物的代谢物进行靶向检测。本发明对每个分析样本采用LC-MS血浆靶向代谢组学技术进行分析时,液相色谱使用的色谱柱优选为Waters XBridge BEH Amide色谱柱,规格优选为100×2.1mm,2.5μm;进样温度优选为4℃,进样体积优选为5μL;色谱流动相包含两种溶剂A和B,A为含1mM乙酸铵和0.1%甲酸的乙腈水溶液,所述乙腈水溶液含体积百分含量为5%的乙腈和体积百分含量为95%的水;B为乙腈;色谱梯度洗脱条件优选为:0~2min保持95%B,2~9min为95%B~50%B逐渐递减,9~10min保持50%B,10~12min为50%B至95%B逐渐递增,然后95%B持续7min;流速为0.35ml/min。在本发明中,对每个分析样本采用LC-MS血浆靶向代谢组学技术进行分析时,质谱检测优选使用三重四级杆质谱仪QTRAP 4500MD,并优选采用电喷雾离子源的正离子模式ESI+,离子源温度为500℃,反吹气设置为35,gas1和gas2均设置为60和10;喷雾电压为+5.5kV;采集模式为多反应监测模式(MRM)。
得到各血浆样本的靶向代谢组图谱后,本发明使用Multiquant软件对乳腺癌血浆样本和健康血浆样本的靶向代谢组图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的标志物二维矩阵,用于进一步的机器学习。
得到二维矩阵后,本发明根据所述诊断标志物的二维矩阵,使用机器学习支持向量机构建分类模型,得到乳腺癌诊断模型。在本发明中,所述模型的构建时,优选基于以下的样本数目进行构建:所用的乳腺癌患者200人(其中包括100例原位癌和100例***),健康人群172人。在本发明中,使用机器学习SVM构建诊断模型时,所用的样本数目及来源优选如下:100例乳腺癌患者(其中包括50例原位癌和50例***)及100例健康对照用于训练集(共200例,与用于特征筛选的200例样本相同),用于测试集的100例乳腺癌患者(其中包括50例原位癌和50例***)及72例健康对照来源于同一医院的不同期样本。在本发明中,构建SVM分类模型时,建模参数C=4。
当适合于乳腺癌诊断的诊断标志物为6种血浆代谢标志物的组合(包含哌啶、肌苷、亮氨酸、尿苷、苯丙氨酸、苏氨酸时),所得的诊断模型的ROC曲线下面积AUC值为0.98,对于乳腺癌具有很好的诊断效能。
当诊断模型所用的诊断标志物为1种血浆代谢标志物(哌啶)时,诊断模型的ROC曲线下面积AUC值为0.97,对于乳腺癌具有很好的诊断效能。哌啶浓度67.62ng/ml可作为乳腺癌诊断的诊断界值,低于此界值则提示乳腺癌患病风险高。
本发明所述乳腺癌诊断模型的构建方法简单,对于乳腺癌具有较高的灵敏度和特异性,为乳腺癌早诊早治提供了有效的技术支持。本申请说明书已提供机器学习模型所包含的训练样本、测试样本、模型和模型参数,本领域技术人员可依照说明书使用所述诊断标志物的组合验证或应用该方法和诊断模型,即将所提供训练样本原始数据作为训练集,将测得新样本的诊断标志物浓度作为测试集,在基于所提供参数下使用SVM算法进行判读(0提示正常,1提示乳腺癌),或单独使用哌啶的诊断界值进行诊断应用。
利用本发明乳腺癌诊断模型诊断乳腺癌时,仅通过取血就能进行诊断,方便快捷无内创,对于乳腺癌的诊断灵敏度高、特异性好,具有很好的临床应用价值。
本发明还提供了上述技术方案所述构建方法构建得到的乳腺癌诊断模型。
具体的,本发明对200例乳腺癌患者的血浆样本,与100例健康对照血浆样本进行分析,使用高效液相色谱质谱联用仪(LC-MS)分别获得了正负离子模式下696个及367个小分子代谢物的指纹图谱,经过对乳腺癌患者及健康正常对照的小分子代谢物的指纹图谱进行基于支持向量机的机器学习手段进行分析与特征筛选,并结合基于质谱的优化筛选,得到适合于乳腺癌诊断的诊断标志物,针对这些诊断标志物进行靶向代谢组方法的建立,并利用机器学习对检测数据构建模型,得到乳腺癌诊断模型,利用该模型可以快速的诊断出是否为乳腺癌,具有准确、高灵敏度、普适性强,具有临床使用和推广价值。
本发明中,所述乳腺癌患者的血浆样本是指,2015年1月至2018年12月经术后病理确诊的乳腺癌患者的术前血浆。有其他***恶性肿瘤,术前接受过放化疗癌治疗以及手术治疗的患者除外。
本发明的诊断标志物和诊断模型可以将无症状或症状不明显的乳腺癌诊断出来,方法简便快捷并且没有内创、无辐射,可提高患者早期筛查的采样效率,有利于大规模筛查的普及推广,对于乳腺癌的早诊早治以及改善患者预后、提高患者生存率具有十分重要的意义。
本发明还提供了一种基于上述技术方案所述诊断标志物的靶向代谢组学绝对定量方法,包括以下步骤:
1)标准品准备
(a)制备各诊断标志物的标准储备溶液和同位素内标储备溶液;
(b)准备相应浓度梯度的混合标准品:标准工作校准溶液在合并的标准储备溶液连续稀释后获得,稀释比例为1~1/90;
(c)准备标准品质控品:使用合并的标准储备溶液准备稀释比为3/4、5/12、1/12的标准品质控品,分别定义为高浓度质控品、中浓度质控品、低浓度质控品;
2)样本制备
(a)配制含有同位素内标的萃取液:将步骤1)获得的同位素内标储备溶液与预冷的甲醇震荡混匀;
(b)萃取样本:将分析样本、标准工作校准样本或标准品质控品与步骤(a)制备得到的萃取液混合,震荡,离心,取上清,在真空浓缩仪中蒸干,得到干粉;
(c)复溶样本:将干粉用乙腈水复溶液复溶后离心,将上清液转移入LC-MS进样瓶中;
3)LC-MS/MS分析:使用液相色谱质谱联用仪对每个分析样本、标准工作校准样本或标准品质控品进行诊断标志物的靶向代谢组学分析,得到各样本的靶向代谢组图谱;
4)数据分析:使用Multiquant软件对靶向代谢组图谱进行图谱处理和定量分析,得到每行为代谢物信息、每列为分析样本的标志物二维矩阵;标准曲线采用内标法,通过标准品的峰面积与其对应的同位素内标面积比进行绘制,拟合后获得线性方程和相关系数R2,计算得到相应代谢物的定量浓度。
在本发明中,当所述诊断标志物为哌啶、肌苷、亮氨酸、尿苷、苯丙氨酸和苏氨酸时,所述绝对定量方法包括以下步骤:
1)标准品准备
(a)制备标准储备溶液和同位素内标储备溶液:将标准品哌啶、肌苷、尿苷及其相应的同位素内标包括哌啶-d11、肌苷-13C5、尿苷-13C5分别溶解于甲醇中,将标准品亮氨酸、苯丙氨酸、苏氨酸及其相应的同位素内标包括亮氨酸-d3、苯丙氨酸-d8、苏氨酸-15N分别溶解于甲醇水溶液中,以上浓度均为1mg/ml;所述甲醇水溶液中甲醇和水的体积比为1:1;
(b)准备相应浓度梯度的混合标准品:标准工作校准溶液在合并的标准储备溶液连续稀释后获得,稀释比例分别为1,5/6,2/3,5/9,4/9,1/3,2/9,1/9,1/18,2/45,1/30,1/45和1/90;
(c)准备标准品质控品:使用合并的标准储备溶液准备稀释比为3/4、5/12、1/12的标准品质控品,分别定义为高浓度质控品、中浓度质控品、低浓度质控品;
2)样本制备
(a)配制含有同位素内标的萃取液:将步骤1)获得的6种同位素内标储备溶液与-20℃预冷2h以上的甲醇混合并震荡混匀,使哌啶-d11在甲醇中的质量浓度为25ng/ml,肌苷-13C5在甲醇中的质量浓度为5ng/ml,尿苷-13C5在甲醇中的质量浓度为250ng/ml,亮氨酸-d3、苯丙氨酸-d8和苏氨酸-15N在甲醇中的质量浓度均为500ng/ml;
(b)萃取样本:将分析样本、标准工作校准样本或标准品质控品与步骤(a)制备得到的萃取液按照体积比为1:4混合,震荡30min,4℃,12000rpm离心20min,吸取上清,在真空浓缩仪中蒸干,得到干粉;
(c)复溶样本:将干粉用乙腈水复溶液复溶后,在高速离心机中于4℃下以12000rpm离心20min,将上清液转移入LC-MS进样瓶中;所述乙腈水复溶液中乙腈和水的体积比为1:1;
3)LC-MS/MS分析:使用液相色谱质谱联用仪对每个分析样本、标准工作校准样本或标准品质控品进行诊断标志物的靶向代谢组学分析,得到各样本的靶向代谢组图谱;
4)数据分析:使用Multiquant软件对靶向代谢组图谱进行图谱处理和定量分析,得到每行为代谢物信息、每列为分析样本的标志物二维矩阵;标准曲线采用内标法,通过标准品的峰面积与其对应的同位素内标面积比进行绘制,拟合后获得线性方程和相关系数R2,计算得到相应代谢物的定量浓度。
为了进一步说明本发明,下面结合附图和实施例对本发明提供的一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用进行详细地描述,但不能将它们理解为对本发明保护范围的限定。
实施例1
乳腺癌诊断标志物的筛选
1.研究对象
本发明共包含200例乳腺癌患者血浆样本以及100例体检正常的健康对照血浆样本。其中乳腺癌的诊断标准是经手术后病理学确诊。
2.应用液相色谱质谱联用技术的血浆非靶向代谢组学分析
所有血浆样本离心后置于-80℃冰箱内保存。研究时取出血浆样本,经样品预处理后,使用高效液相色谱质谱联用仪进行代谢组学分析,获得包含色谱和质谱信息的样本原始代谢指纹图谱。具体操作如下:
2.1仪器和试剂
实验仪器包括:高效液相色谱质谱联用仪(U3000/QEaxctive,Thermo Fisher)、高速低温离心机(Beckman)、振动涡旋仪、离心浓缩仪、4℃冷藏冰箱、纯水仪(Millipore)。
实验耗材包括:Waters XBridge BEH Amide色谱柱(规格为100×2.1mm,2.5μm)、2ml EP管、1.5ml进样瓶、300μL内插管、移液器、1000μL枪头、200μL枪头、记号笔、乳胶手套、口罩。
实验试剂包括:甲醇(Thermo Fisher,质谱级纯)、乙腈(Thermo Fisher,质谱级纯)、甲酸(Sigma)、纯水(TOC<10ppb)。
2.2血浆样本预处理
进行血浆样本预处理之前,制备标准品质控品(QC)(自每份乳腺癌血浆样本和健康血浆样本中分别取出10μL进行混合然后分装)。将所有乳腺癌血浆样本和健康血浆样本与标准品质控品一起进行样品预处理,具体操作如下:
a.用移液器吸取50μL分析样本或标准品质控品,置于2.0ml EP(eppendorf)管中;
b.加入200μL甲醇(-20℃预冷2h以上)混合,震荡30min,4℃12000rpm离心20min,吸取上清,在真空浓缩仪中蒸干;
c.将干粉用乙腈水复溶液(1:1,V/V)复溶后,在高速离心机中于4℃下以12000rpm离心20min;
d.将步骤c的上清液转移入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测。
2.3血浆非靶向代谢组学检测
将处理后的所有乳腺癌血浆样本和健康血浆样本作为分析样本,打乱顺序后随机化排序进样,以排除进样顺序带来的偏倚。每隔10个分析样本加入一个标准品质控品。所用液相色谱、质谱方法如下:
流动相:A为含5mM乙酸铵的乙腈水溶液,所述乙腈水溶液含体积百分含量为5%的乙腈和体积百分含量为95%的水;B为乙腈;
流速:0.35ml/min;柱温:30℃;进样体积:5μL;
色谱梯度洗脱条件:0~2min保持95%B,2~15min为95%B~50%B逐渐递减,15~18min保持50%B,18~19min为50%B至95%B逐渐递增,然后95%B持续4min。
质谱方法:采用电喷雾离子源的正离子模式ESI+和负离子模式ESI-,离子源温度为320℃,反吹气设置为2,脱溶剂气温为300℃,鞘气和辅气分别设置为40和10;在正离子和负离子模式下毛细管电压分别为+3.3kV和-3kV,锥孔电压均为0V;采集的模式为数据依赖模式(DDA);一级质谱图谱数据采集的质荷比范围为60~800m/z,采集分辨率为35000,目标离子数目为5×106,最大离子注入时间为80ms;二级质谱采集分辨率为17500,目标离子数目为1×105,最大离子注入时间为70ms,循环次数为10次,碰撞能量为15、30、45。
3.血浆代谢标志物筛选
按照上述色谱质谱条件对样本进行分析,获得所有样本的原始代谢指纹图谱。图1为各组样本的典型总离子流色谱图(EICs),A为正离子模式下的健康对照血浆样本,B为正离子模式下的乳腺癌患者血浆样本,C为负离子模式下的健康对照血浆样本,D为负离子模式下的乳腺癌患者血浆样本。随后采用人工智能分析技术对原始代谢指纹图谱进行学习,以筛选能够区分乳腺癌患者与健康人群的生物标志物,具体操作如下:
3.1图谱数据预处理
使用高效液相色谱质谱联用仪在正离子ESI+和负离子ESI-下分别检测获得血浆样本的原始代谢指纹图谱后,使用Reifycs file converter软件将图谱转换为ABF格式文件,然后使用MS-Dial软件进行包括保留时间校正、峰识别、峰匹配、峰对齐、过滤噪声和数据标准化等在内的预处理。参数设置为:一级质谱质量偏差设置为0.01Da,二级质谱质量偏差设置为0.05Da,其他参数为默认值。处理后得到每行为代谢物,每列为分析样本,中值为相应代谢物浓度的二维矩阵。其中每个代谢物峰使用保留时间和质荷比进行定性,对其进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分。图谱预处理后,共得到正离子模式下696个和负离子模式下367个小分子代谢物峰,可用于进一步的机器学习。
3.2LC-MS实验质量控制
进行LC-MS血浆非靶向代谢组学分析时,将制备的QC样品按每15个分析样本安排一个QC样品的顺序均匀地***分析样本中,用于实时监测分析样本从进样预处理到分析检测过程中的质量控制情况,所得原始代谢指纹图谱经MS-Dial软件预处理后,计算每个代谢物在QC样本中的变异系数(%RSD),绝大多数代谢物的变异系数控制在30%以下,说明样本在进样预处理到分析检测过程中的质量控制情况良好,所获得的代谢组学数据真实可信。
3.3机器学习SVM建模
使用机器学***均值(mean)和中位数(median)均在0.99以上,表明该SVM模型对乳腺癌患者与健康人群的代谢组数据分类较好,可准确区分乳腺癌患者与健康人群。
表1基于支持向量机(SVM)的机器学习方法建立的用于特征筛选的分类模型性能
3.4血浆代谢标志物筛选及鉴定
根据上述得到的SVM模型,通过基于机器学习的特征筛序,借助SVM建模的特征重要性评分并不断累加重要特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式的筛选,筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升。图2为SVM模型的特征选择得分图,A为正离子模式鉴定特征的模型准确度得分图,B为负离子模式鉴定特征的模型准确度得分图。本发明选择正离子模式及负离子模式下共24个特征作为差异代谢物(除去正负离子模式下的重复特征),使用这24个特征单独进行模型分类即可获得80%以上的准确度。
随后根据这些潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库中的谱图信息进行比对,从而对代谢物进行鉴定。
根据上述鉴定方法,本发明成功鉴定出24个血浆代谢标志物作为适合于乳腺癌诊断的诊断标志物,能够尽早实现乳腺癌的诊断。见表3,这些标志物是Piperidine(哌啶)、Inosine(肌苷)、Leucine(亮氨酸)、Uridine(尿苷)、Phenylalanine(苯丙氨酸)、Threonine(苏氨酸)、N-Acetyl-DL-aspartic acid(N-乙酰-DL-天冬氨酸)、N-Acetyl-DL-glutamicacid(N-乙酰-DL-谷氨酸)、D-Gluconic acid(葡萄糖酸)、N-Acetylglycine(N-乙酰甘氨酸)、4-Chlorophenol(对氯苯酚)、Proline(脯氨酸)、Valine(缬氨酸)、L-Carnitine(左旋肉碱)、O-Acetyl-L-carnitine(L-乙酰基肉碱)、Arginine(精氨酸)、Lysine(赖氨酸)、Tyrosine(酪氨酸)、3-Methylxanthine(3-甲基黄嘌呤)、Indole-3-acetaldehyde(吲哚-3-乙醛)、DL-beta-Hydroxybutyric acid(3-羟基丁酸)、cis-Aconitic acid(顺乌头酸)、2-Hydroxyphenylacetic acid(2-羟基苯乙酸)、Phosphocholine(磷酸胆碱)。在使用这些血浆代谢标志物作为诊断标志物构建诊断模型和进行诊断应用时,可以将其单独使用或是组合使用。
表224种血浆代谢标志物
实施例2
使用6个血浆代谢标志物进行的乳腺癌诊断模型的构建
1.研究对象
本发明共包含200例乳腺癌患者血浆样本以及172例体检正常的健康对照血浆样本。100例乳腺癌患者及100例健康对照用于训练集(共200例,与用于特征筛选的200例样本)相同,用于测试集的100例乳腺癌患者及72例健康对照来源于同一医院的不同期样本。其中乳腺癌的诊断标准是经术后病理学确诊乳腺癌。
2.应用液相色谱质谱联用技术的血浆靶向代谢组学分析
所有血浆样本离心后置于-80℃冰箱内保存。研究时取出血浆样本,经样品预处理后,使用高效液相色谱质谱联用仪进行靶向代谢组学分析,获得包含色谱和质谱信息的样本靶向代谢组图谱。具体操作如下:
2.1仪器和试剂
实验仪器包括:高效液相色谱质谱联用仪(Nexera UHPLC system,Shimazu;QTRAP4500MD,AB Sciex)、高速低温离心机(Beckman)、振动涡旋仪、离心浓缩仪、4℃冷藏冰箱、纯水仪(Millipore)。
实验耗材包括:Waters XBridge BEH Amide色谱柱(规格为100×2.1mm,2.5μm)、2ml EP管、1.5ml进样瓶、300μL内插管、移液器、1000μL枪头、200μL枪头、记号笔、乳胶手套、口罩。
实验试剂包括:甲醇(Thermo Fisher,质谱级纯)、乙腈(Thermo Fisher,质谱级、甲酸(Sigma)、纯水(TOC<10ppb)。
2.2样本预处理
将所有乳腺癌血浆样本、健康血浆样本与标准品质控品和标准工作校准样本一起进行样品预处理,具体操作如下:
(1)标准品准备
(a)制备标准储备溶液和同位素内标(IS)储备溶液:将标准品Piperidine(哌啶)、Inosine(肌苷)、Uridine(尿苷)及其相应的同位素内标(IS)包括Piperidine-d11(哌啶-d11)、Inosine-13C5(肌苷-13C5)、Uridine(尿苷-13C5)分别溶解于甲醇中,将标准品Leucine(亮氨酸)、Phenylalanine(苯丙氨酸)、Threonine(苏氨酸)及其相应的同位素内标(IS)包括Leucine-d3(亮氨酸-d3)、Phenylalanine-d8(苯丙氨酸-d8)、Threonine-15N(苏氨酸-15N)分别溶解于甲醇/水(1:1,V/V)中,以上浓度均为1mg/ml;
(b)准备相应浓度梯度的混合标准品:标准工作校准溶液在合并的标准储备溶液连续稀释后获得,稀释比例为1,5/6,2/3,5/9,4/9,1/3,2/9,1/9,1/18,2/45,1/30,1/45,1/90;
(c)准备标准品质控品:使用合并的标准储备溶液准备稀释比为3/4、5/12、1/12的标准品质控品,分别定义为高浓度质控品HQC、中浓度质控品MQC、低浓度质控品LQC;
(2)样本制备
(a)配制含有同位素内标(IS)的萃取液:将步骤(1)中所述6种同位素内标(IS)储备溶液分别加入到甲醇(-20℃预冷2h以上)中并充分震荡混匀,其中Piperidine-d11(哌啶-d11)浓度为25ng/ml,Inosine-13C5(肌苷-13C5)浓度为5ng/ml,Uridine(尿苷-13C5)浓度为250ng/ml,Leucine-d3(亮氨酸-d3)、Phenylalanine-d8(苯丙氨酸-d8)、Threonine-15N(苏氨酸-15N)浓度均为500ng/ml;
(b)萃取样本:用移液器吸取50μL分析样本/标准工作校准样本/标准品质控品,置于2.0ml EP(eppendorf)管中,每管样本中加入200μL步骤(a)中配制的萃取液,震荡30min,4℃12000rpm离心20min,吸取上清,在真空浓缩仪中蒸干;
(c)复溶样本:将干粉用乙腈水复溶液(1:1,V/V)复溶后,在高速离心机中于4℃下以12000rpm离心20min,将上清液转移入LC-MS进样瓶中。
2.3血浆靶向代谢组学检测
将处理后的所有乳腺癌血浆样本和健康血浆样本作为分析样本,打乱顺序后随机化排序进样,以排除进样顺序带来的偏倚。每隔15个分析样本加入一组标准品质控品(高浓度质控品HQC、中浓度质控品MQC、低浓度质控品LQC)。所用液相色谱、质谱方法如下:
流动相:A为含1mM乙酸铵和0.1%甲酸的乙腈水溶液,所述乙腈水溶液含体积百分含量为5%的乙腈和体积百分含量为95%的水;B为乙腈;
流速:0.35ml/min;柱温:30℃;进样体积:5μL;
色谱梯度洗脱条件:0~2min保持95%B,2~9min为95%B~50%B逐渐递减,9~10min保持50%B,10~12min为50%B至95%B逐渐递增,然后95%B持续7min。
质谱方法:离子源温度为350℃,反吹气设置为35,gas1和gas2均设置为60和10;喷雾电压为+5.5kV;采集模式为多反应监测模式(MRM)。采集的质荷比为表2中所列24种血浆代谢标志物的质荷比,采集分辨率为17500,目标离子数目为1×105,最大离子注入时间为50ms,隔离窗口为4.0m/z,碰撞能量为30。
3.诊断模型构建
按照上述色谱质谱条件对样本进行分析,获得所有样本的靶向代谢组图谱,典型选择离子色谱图(EIC)见图3。随后使用机器学习SVM学习靶向代谢组图谱数据,构建能够区分乳腺癌患者与健康人群的乳腺癌诊断模型,具体操作如下:
3.1图谱数据预处理
使用高效液相色谱质谱联用仪在正离子ESI+下检测获得血浆样本的靶向代谢组图谱后,使用MultiQuant软件根据2.3步骤的质谱方法中采集的质荷比列表提取所有血浆代谢标志物及同位素内标(IS)的峰面积信息,计算各标志物与其相应同位素内标(IS)的峰面积比值,得到每行为代谢物,每列为分析样本,中值为相应代谢物峰面积与内标峰面积比值的二维矩阵,以用于进一步的机器学习。
3.2LC-MS实验质量控制
进行LC-MS血浆靶向代谢组学分析时,将制备的QC样品按每24个分析样本安排一组QC样品(高浓度质控品HQC、中浓度质控品MQC、低浓度质控品LQC)的顺序均匀地***分析样本中,用于实时监测分析样本从进样预处理到分析检测过程中的质量控制情况,计算每个血浆代谢标志物在QC样本中的变异系数(%RSD),所有血浆代谢标志物的变异系数控制在15%以下,说明样本在进样预处理到分析检测过程中的质量控制情况良好,所获得的代谢组学数据真实可信。
3.3机器学习SVM建模与诊断性能测试
使用机器学***均值得到,T检验p值显示6个诊断标志物均具有显著的统计学差异。
表3靶向代谢组6个诊断标志物峰面积与内标峰面积比值(训练集,n=200)
表4靶向代谢组6个诊断标志物峰面积与内标峰面积比值(测试集,n=172)
表5使用6个血浆代谢标志物构建的乳腺癌诊断模型的分类性能
训练集 | 测试集 | |
准确度 | 0.9900 | 0.9593 |
灵敏度 | 0.9900 | 0.9300 |
特异度 | 0.9900 | 1.0000 |
受试者工作曲线下面积(AUC) | 0.9989 | 0.9918 |
4.6个血浆代谢标志物的绝对定量分析
由步骤3.1中得到的每行为代谢物信息、每列为分析样本、中值为相应代谢物峰面积与内标峰面积比值的标志物二维矩阵,利用梯度稀释的标准工作校准样本中各标准品中标志物与内标的峰面积比值建立标准曲线(内标法,图6,具体数据详见表6~表11),拟合后获得线性方程和线性相关系数R2,线性相关系数均大于0.99,并通过所建立的标准曲线计算得到所有样本中相应代谢物的定量浓度(权重=1/x2)。表12为6个诊断标志物的线性相关方程和线性范围,表13为基于表4中线性相关方程计算得到的血浆样本中6个诊断标志物的绝对含量以及乳腺癌和正常对照两组间的统计学差异,T检验p值显示6个诊断标志物均具有显著的统计学差异。血浆样本中所述6个诊断标志物浓度处于所建立方法的线性范围内,可以准确定量,证明了SVM模型所用数据的准确性,同时证明了所述6个诊断标志物的绝对含量在乳腺癌和正常对照血浆之中有显著的统计学差异,所述6个诊断标志物与乳腺癌之间存在显著相关性。
表6 Piperidine(哌啶)标准曲线各浓度梯度峰面积及其与内标比值和准确度
表7Inosine(肌苷)标准曲线各浓度梯度峰面积及其与内标比值和准确度
表8Leucine(亮氨酸)标准曲线各浓度梯度峰面积及其与内标比值和准确度
表9Uridine(尿苷)标准曲线各浓度梯度峰面积及其与内标比值和准确度
表10Phenylalanine(苯丙氨酸)标准曲线各浓度梯度峰面积及其与内标比值和准确度
表11 Threonine(苏氨酸)标准曲线各浓度梯度峰面积及其与内标比值和准确度
表12 6个代谢物的线性相关方程,线性相关系数,线性范围
代谢物 | 同位素内标 | 回归方程(ug/ml) | 线性相关系数 | 线性范围(ug/ml) |
哌啶 | 哌啶-d11 | y=7.1250x+0.0290 | 0.9995 | 0.02-1.8 |
肌苷 | 肌苷-13C5 | y=28.0784x+0.1644 | 0.9973 | 0.002-0.18 |
亮氨酸 | 亮氨酸-d3 | y=0.4299x+0.0121 | 0.9996 | 0.2-18.0 |
尿苷 | 尿苷-13C5 | y=0.8624+0.0034 | 0.9997 | 0.08-7.2 |
苯丙氨酸 | 苯丙氨酸-d8 | y=1.1899x+0.0218 | 0.9995 | 0.2-1.8 |
苏氨酸 | 苏氨酸-15N | y=0.3440x+0.0405 | 0.9952 | 0.2-18.0 |
表13血浆样本中6个诊断标志物的含量和组间(乳腺癌/正常对照)统计学差异
实施例3
使用1个血浆代谢标志物进行的乳腺癌诊断模型的构建
本实施例与实施例2的研究对象、检测分析方法相同,仅在采用受试者特征工作曲线(ROC)验证时,使用1种血浆代谢标志物(Piperidine(哌啶))的二维矩阵数据(每行为代谢物,每列为分析样本,中值为相应代谢物峰面积与内标峰面积比值)进行建模,在训练集样本中通过计算约登指数=特异度+敏感度-1(Youden index),获得最佳阈值(cutoff)为0.4837,由此所获模型在训练集和测试集中的灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)以及AUC值见表14。图7为使用1个血浆代谢标志物(Piperidine(哌啶))构建的乳腺癌诊断模型的ROC曲线图,其中A为训练集,B为测试集,可以看出构建的诊断模型对乳腺癌具有较高的灵敏度、特异度、准确度和ROC曲线下面积AUC值,能够实现乳腺癌的早期诊断。
所述使用1个血浆代谢标志物(Piperidine(哌啶))进行的乳腺癌诊断模型选取的最佳阈值(cutoff)为0.4837,通过实施例2中建立的绝对定量方法得到的标准曲线,可计算得到此最佳阈值相应的(Piperidine(哌啶))浓度为63.82ng/ml,此值可作为乳腺癌诊断的诊断界值,低于此界值则提示乳腺癌患病风险高。
表14使用1个血浆代谢标志物构建的乳腺癌诊断模型的分类性能
目前普遍认为当诊断方法的AUC>0.7时,该方法即具有较好的诊断效果,而本发明构建的诊断模型AUC值可以达到0.96以上。因此,本发明的诊断模型可以有效地诊断出乳腺癌,降低乳腺癌漏检率,非常有利于乳腺癌的早诊早治,对于改善乳腺癌预后,降低乳腺癌的死亡率有很大帮助,具有良好的临床使用和推广价值。
在实际应用中,可以按照本发明建模方法选取更多的样本进行建模,增加模型的准确度。
尽管上述实施例对本发明做出了详尽的描述,但它仅仅是本发明一部分实施例,而不是全部实施例,人们还可以根据本实施例在不经创造性前提下获得其他实施例,这些实施例都属于本发明保护范围。
Claims (10)
1.一种乳腺癌诊断标志物,其特征在于,所述诊断标志物包括以下24种血浆代谢标志物中的任意一种或两种以上:哌啶、肌苷、亮氨酸、尿苷、苯丙氨酸、苏氨酸、N-乙酰-DL-天冬氨酸、N-乙酰-DL-谷氨酸、葡萄糖酸、N-乙酰甘氨酸、对氯苯酚、脯氨酸、缬氨酸、左旋肉碱、L-乙酰基肉碱、精氨酸、赖氨酸、酪氨酸、3-甲基黄嘌呤、吲哚-3-乙醛、3-羟基丁酸、顺乌头酸、2-羟基苯乙酸和磷酸胆碱。
2.根据权利要求1所述的诊断标志物,其特征在于,所述诊断标志物包括以下6种血浆代谢标志物中的任意一种或两种以上:哌啶、肌苷、亮氨酸、尿苷、苯丙氨酸和苏氨酸。
3.根据权利要求1所述的诊断标志物,其特征在于,所述诊断标志物包括以下1种血浆代谢标志物:哌啶。
4.检测权利要求1~3任一项所述诊断标志物的试剂在制备乳腺癌诊断产品中的应用,所述产品包括试剂盒。
5.一种乳腺癌诊断试剂盒,其特征在于,包括检测权利要求1~3任一项所述诊断标志物的试剂。
6.权利要求1~3任一项所述诊断标志物的筛选方法,包括以下步骤:
1)使用机器学***均值,确定该支持向量机模型可有效对乳腺癌患者与健康人群的代谢组数据进行分类;
2)根据上述得到的支持向量机模型,通过基于机器学习的特征筛序,借助支持向量机建模的特征重要性评分并不断累加重要特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式;所述筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升;
3)将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选,使用MS-Dial软件根据色谱峰型及二级质谱图数据质量筛选并获得潜在代谢标志物;
4)根据上述潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库中的谱图信息进行比对,从而对代谢物进行鉴定,得到适合于乳腺癌诊断的血浆代谢标志物。
7.一种基于权利要求1~3任一项所述诊断标志物的乳腺癌诊断模型的构建方法,包括以下步骤:
1)将乳腺癌患者和健康人群的血浆样本作为分析样本;
2)使用液相色谱质谱联用仪对每个分析样本进行诊断标志物的靶向代谢组学分析,得到各血浆样本的靶向代谢组图谱;
3)使用Multiquant软件对乳腺癌患者血浆样本和健康人群血浆样本的靶向代谢组图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的标志物二维矩阵,用于进一步的机器学习;
4)根据所述诊断标志物的二维矩阵,使用机器学习支持向量机构建分类模型,得到乳腺癌诊断模型。
8.权利要求7所述构建方法构建得到的乳腺癌诊断模型。
9.一种基于权利要求1~3任一项所述诊断标志物的靶向代谢组学绝对定量方法,包括以下步骤:
1)标准品准备
(a)制备各诊断标志物的标准储备溶液和同位素内标储备溶液;
(b)准备相应浓度梯度的混合标准品:标准工作校准溶液在合并的标准储备溶液连续稀释后获得,稀释比例为1~1/90;
(c)准备标准品质控品:使用合并的标准储备溶液准备稀释比为3/4、5/12、1/12的标准品质控品,分别定义为高浓度质控品、中浓度质控品、低浓度质控品;
2)样本制备
(a)配制含有同位素内标的萃取液:将步骤1)获得的同位素内标储备溶液与预冷的甲醇震荡混匀;
(b)萃取样本:将分析样本、标准工作校准样本或标准品质控品与步骤(a)制备得到的萃取液混合,震荡,离心,取上清,在真空浓缩仪中蒸干,得到干粉;
(c)复溶样本:将干粉用乙腈水复溶液复溶后离心,将上清液转移入LC-MS进样瓶中;
3)LC-MS/MS分析:采用液相色谱质谱联用仪对每个分析样本、标准工作校准样本或标准品质控品进行诊断标志物的靶向代谢组学分析,得到各样本的靶向代谢组图谱;
4)数据分析:使用Multiquant软件对靶向代谢组图谱进行图谱处理和定量分析,得到每行为代谢物信息、每列为分析样本的标志物二维矩阵;标准曲线采用内标法,通过标准品的峰面积与其对应的同位素内标面积比进行绘制,拟合后获得线性方程和相关系数R2,计算得到相应代谢物的定量浓度。
10.根据权利要求9的绝对定量方法,其特征在于,当所述诊断标志物为哌啶、肌苷、亮氨酸、尿苷、苯丙氨酸和苏氨酸时,所述绝对定量方法包括以下步骤:
1)标准品准备
(a)制备标准储备溶液和同位素内标储备溶液:将标准品哌啶、肌苷、尿苷及其相应的同位素内标包括哌啶-d11、肌苷-13C5、尿苷-13C5分别溶解于甲醇中,将标准品亮氨酸、苯丙氨酸、苏氨酸及其相应的同位素内标包括亮氨酸-d3、苯丙氨酸-d8、苏氨酸-15N分别溶解于甲醇水溶液中,以上浓度均为1mg/ml;所述甲醇水溶液中甲醇和水的体积比为1:1;
(b)准备相应浓度梯度的混合标准品:标准工作校准溶液在合并的标准储备溶液连续稀释后获得,稀释比例分别为1,5/6,2/3,5/9,4/9,1/3,2/9,1/9,1/18,2/45,1/30,1/45和1/90;
(c)准备标准品质控品:使用合并的标准储备溶液准备稀释比为3/4、5/12、1/12的标准品质控品,分别定义为高浓度质控品、中浓度质控品、低浓度质控品;
2)样本制备
(a)配制含有同位素内标的萃取液:将步骤1)获得的6种同位素内标储备溶液与-20℃预冷2h以上的甲醇混合并震荡混匀,使哌啶-d11在甲醇中的质量浓度为25ng/ml,肌苷-13C5在甲醇中的质量浓度为5ng/ml,尿苷-13C5在甲醇中的质量浓度为250ng/ml,亮氨酸-d3、苯丙氨酸-d8和苏氨酸-15N在甲醇中的质量浓度均为500ng/ml;
(b)萃取样本:将分析样本、标准工作校准样本或标准品质控品与步骤(a)制备得到的萃取液按照体积比为1:4混合,震荡30min,4℃,12000rpm离心20min,吸取上清,在真空浓缩仪中蒸干,得到干粉;
(c)复溶样本:将干粉用乙腈水复溶液复溶后,在高速离心机中于4℃下以12000rpm离心20min,将上清液转移入LC-MS进样瓶中;所述乙腈水复溶液中乙腈和水的体积比为1:1;
3)LC-MS/MS分析:使用液相色谱质谱联用仪对每个分析样本、标准工作校准样本或标准品质控品进行诊断标志物的靶向代谢组学分析,得到各样本的靶向代谢组图谱;
4)数据分析:使用Multiquant软件对靶向代谢组图谱进行图谱处理和定量分析,得到每行为代谢物信息、每列为分析样本的标志物二维矩阵;标准曲线采用内标法,通过标准品的峰面积与其对应的同位素内标面积比进行绘制,拟合后获得线性方程和相关系数R2,计算得到相应代谢物的定量浓度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211573838.0A CN115932277A (zh) | 2022-12-08 | 2022-12-08 | 一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211573838.0A CN115932277A (zh) | 2022-12-08 | 2022-12-08 | 一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115932277A true CN115932277A (zh) | 2023-04-07 |
Family
ID=86553395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211573838.0A Pending CN115932277A (zh) | 2022-12-08 | 2022-12-08 | 一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115932277A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117147845A (zh) * | 2023-09-25 | 2023-12-01 | 西安交通大学医学院第一附属医院 | 代谢标志物3-壬炔的检测试剂在制备乳腺癌筛查和预后产品中的应用 |
CN117347643A (zh) * | 2023-12-05 | 2024-01-05 | 成都泰莱生物科技有限公司 | 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用 |
CN117368477A (zh) * | 2023-09-25 | 2024-01-09 | 西安交通大学医学院第一附属医院 | 一种代谢标志物的检测试剂在制备乳腺癌筛查和预后产品中的应用 |
CN117368476A (zh) * | 2023-09-25 | 2024-01-09 | 西安交通大学医学院第一附属医院 | 七种代谢标志物的检测试剂在制备乳腺癌诊断和预后产品中的应用 |
CN117953964A (zh) * | 2024-03-25 | 2024-04-30 | 北京大学现代农业研究院 | 基于因果性、倍数变化及大语言ai的基因-代谢物对筛选方法 |
-
2022
- 2022-12-08 CN CN202211573838.0A patent/CN115932277A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117147845A (zh) * | 2023-09-25 | 2023-12-01 | 西安交通大学医学院第一附属医院 | 代谢标志物3-壬炔的检测试剂在制备乳腺癌筛查和预后产品中的应用 |
CN117368477A (zh) * | 2023-09-25 | 2024-01-09 | 西安交通大学医学院第一附属医院 | 一种代谢标志物的检测试剂在制备乳腺癌筛查和预后产品中的应用 |
CN117368476A (zh) * | 2023-09-25 | 2024-01-09 | 西安交通大学医学院第一附属医院 | 七种代谢标志物的检测试剂在制备乳腺癌诊断和预后产品中的应用 |
CN117147845B (zh) * | 2023-09-25 | 2024-03-01 | 西安交通大学医学院第一附属医院 | 代谢标志物3-壬炔的检测试剂在制备乳腺癌筛查和预后产品中的应用 |
CN117368477B (zh) * | 2023-09-25 | 2024-03-01 | 西安交通大学医学院第一附属医院 | 一种代谢标志物的检测试剂在制备乳腺癌筛查和预后产品中的应用 |
CN117368476B (zh) * | 2023-09-25 | 2024-03-08 | 西安交通大学医学院第一附属医院 | 七种代谢标志物的检测试剂在制备乳腺癌诊断和预后产品中的应用 |
CN117347643A (zh) * | 2023-12-05 | 2024-01-05 | 成都泰莱生物科技有限公司 | 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用 |
CN117347643B (zh) * | 2023-12-05 | 2024-02-06 | 成都泰莱生物科技有限公司 | 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用 |
CN117953964A (zh) * | 2024-03-25 | 2024-04-30 | 北京大学现代农业研究院 | 基于因果性、倍数变化及大语言ai的基因-代谢物对筛选方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109884302B (zh) | 基于代谢组学和人工智能技术的肺癌早期诊断标志物及其应用 | |
CN115932277A (zh) | 一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用 | |
CN110057955B (zh) | 乙型肝炎特异性血清标志物的筛选方法 | |
CN108414660B (zh) | 一组与肺癌早期诊断相关的血浆代谢小分子标志物的应用 | |
CN112151121B (zh) | 一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法 | |
CN111289736A (zh) | 基于代谢组学的慢阻肺早期诊断标志物及其应用 | |
CN113960235B (zh) | 生物标志物在制备肺癌检测试剂中的用途和方法 | |
CN111562338B (zh) | 透明肾细胞癌代谢标志物在肾细胞癌早期筛查和诊断产品中的应用 | |
CN110057954B (zh) | 血浆代谢标志物在诊断或监测hbv的应用 | |
CN112183616B (zh) | 一种脑胶质瘤诊断的诊断标志物、试剂盒及筛选方法和脑胶质瘤诊断模型的构建方法 | |
CN109307764B (zh) | 一组代谢标志物在制备胶质瘤诊断试剂盒方面的应用 | |
CN113960312A (zh) | 用于肺部良恶性结节诊断的血清代谢标志物及其应用 | |
CN116413432A (zh) | 基于肠道菌群代谢组学的胰腺癌诊断标志物及其筛选方法和应用 | |
CN113567585A (zh) | 一种基于外周血的食管鳞癌筛查标志物及试剂盒 | |
CN118011003A (zh) | 一种用于诊断胃癌的生物标志物组合物及其应用 | |
CN109946467B (zh) | 一种用于胸椎黄韧带骨化诊断的生物标记物 | |
CN114280202B (zh) | 一种用于诊断镉中毒的生物标志物及其应用 | |
CN116338194A (zh) | 一种生物标志物组合及其筛选方法和应用 | |
CN113466370A (zh) | 一种用于食管鳞癌早期筛查的标志物及检测试剂盒 | |
CN112834652B (zh) | 急性主动脉夹层患者特异性生物标志组合物及其用途 | |
CN114414819B (zh) | 诊断尘肺病的生物标志物及其应用 | |
CN116183922B (zh) | 口腔鳞状细胞癌诊断模型的构建方法、标志物及其应用 | |
CN115825308B (zh) | 鼻咽癌相关尿液标志物在制备用于鼻咽癌诊断/预后的产品中的应用 | |
CN114414818B (zh) | 用于肺尘埃沉着病检测的生物标志物的应用 | |
CN117434277B (zh) | 用于早期诊断或筛查克罗恩病的粪便代谢标志物组合及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |