CN116189904A - 一种分化型甲状腺癌的基因甲基化诊断模型及其构建方法 - Google Patents
一种分化型甲状腺癌的基因甲基化诊断模型及其构建方法 Download PDFInfo
- Publication number
- CN116189904A CN116189904A CN202310185761.8A CN202310185761A CN116189904A CN 116189904 A CN116189904 A CN 116189904A CN 202310185761 A CN202310185761 A CN 202310185761A CN 116189904 A CN116189904 A CN 116189904A
- Authority
- CN
- China
- Prior art keywords
- methylation
- dmp
- follow
- thyroid cancer
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B10/00—Other methods or instruments for diagnosis, e.g. instruments for taking a cell sample, for biopsy, for vaccination diagnosis; Sex determination; Ovulation-period determination; Throat striking implements
- A61B10/02—Instruments for taking cell samples or for biopsy
- A61B10/0233—Pointed or sharp biopsy instruments
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Genetics & Genomics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Heart & Thoracic Surgery (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种分化型甲状腺癌的基因甲基化诊断模型的构建方法,它包括以下步骤:S1、获得检测样本;S2、对检测样本进行DNA提取和储存;S3、进行甲基化分析;S4、基于DNA甲基化建立诊断模型,诊断模型显示在PTC患者中具有cg03596178,cg06033721,cg06688989,cg07209244,cg07485775,cg14484681,cg19979108,cg20943461的患者病情进展的可能性更大,属于危险因素;S5、交叉验证评估性能,获得基因甲基化诊断模型。本模型通过检测甲基化的特殊位点并统计,用以区分甲状腺分化癌中具有复发、转移特征的这一部分患者,将相关模型可辅助临床对甲状腺患者的诊断和随诊。
Description
技术领域
本发明属于医学建模领域,特别是一种分化型甲状腺癌的基因甲基化诊断模型。
背景技术
甲状腺癌是最常见的内分泌恶性肿瘤,近几年其发病率在世界范围内呈逐步上升趋势。甲状腺癌可分为甲状腺***状癌(Papillary thyroid cancer,PTC),甲状腺髓样癌(Medullary Thyroid Carcinoma,MTC),甲状腺未分化癌(Anaplastic thyroid cancer,ATC)等几种类型。其中,以PTC最为多见,PTC也叫分化型甲状腺癌,预后最好,而未分化型甲状腺癌患者的恶性度最高,但是因为ATC仅仅只占到所有甲状腺癌的不到2%,所以PTC的关注度在甲状腺癌中是最多的。
目前,对于甲状腺癌的诊断方法主要依赖超声影像指导下的细针穿刺活检(Fineneedle aspiration biopsy,FNAB)取得甲状腺肿块的样本细胞,然后通过在显微镜下观察所取得的细胞的病理特点,对其良恶性进行判断。FNAB这种取样方式属于有创性检查,它依赖于临床医生的超声诊断水平和甲状腺结节的穿刺操作的准确性,如果医生没有丰富的临床经验,则可能取错组织,从而造成漏诊,所以FNAB不仅有创伤,还存在很大的漏诊风险。除此之外,目前由超声科医生通过FNAB采集到的样本要通过病理医生在显微镜下观察标本的形态特点对标本进行判断,进一步地增加了FNAB这种诊断方法的主观性,而且就携带有FNAB样本的病理涂片而言,其中有约20%~30%的甲状腺结节细胞是在目前的临床水平下难以通过FNAB确定结节的良恶性的。这20%~30%患者承担着被漏诊或者误诊的可能,而每一位患者的生命都是珍贵的,对于健康人漏意味着患者他可能需要付出生命的代价,而将健康人误诊为甲状腺癌患者则会大大增加患者的心理压力,进而可能引发一系列的问题。
按照目前的技术条件,想要通过其他比如尿液,血液等成分对甲状腺疾病进行诊断还非常困难,所以,对于甲状腺癌的诊断仍然需要依赖FNAB来获取样本,但是我们可以通过其他的客观的检测方法来补充现有的诊断,从而降低诊断方法中因为主观原因所导致的误差。综上所述,目前临床上亟需建立一种准确性和敏感性更高的客观检测诊断方法来辅助现有的诊断方法,对穿刺取得的微量组织样品进行检测,获得更加客观的数据,从而降低误诊和漏诊的可能,提高患者的生活质量。
发明内容
本发明针对背景技术中存在的问题,提出了一种分化型甲状腺癌的基因甲基化诊断模型及其构建方法。
技术方案:
一种分化型甲状腺癌的基因甲基化诊断模型,它通过以下步骤构建:
S1、获得检测样本,对检测样本进行人工分级;
S2、对检测样本进行DNA提取和储存;
S3、将实验组甲状腺癌以及正常对照组甲状腺结节的DNA用于RRBS文库构建,进行甲基化分析。RRBS测序在23565个基因启动子区域(转录起始点±1K)的基因的甲基化程度,检测的基因启动子区域为hg38版本(Homo sapiens genome assembly GRCh38-NCBI-NLM(nih.gov)),将所获得的每个基因启动子区域在正常组中DNA甲基化平均值以及在甲状腺癌组中DNA甲基化的平均值,通过T-test计算正常组与甲状腺癌组之间的统计学差异,保留P<0.05的基因;
S4、基于DNA甲基化建立诊断模型,诊断模型显示在PTC患者中具有cg03596178,cg06033721,cg06688989,cg07209244,cg07485775,cg14484681,cg19979108,cg20943461(基因的甲基化测序为现有技术,经过测序后会有检测样本的所有基因的甲基化程度的数据)。如果需要专门检测这几个位点,可以设计这几个位点相关的探针和甲基化面板,从而专门检测这几个位点的情况)的患者病情进展的可能性更大,属于危险因素,应该被紧密地随访,每个cg位点的权重相同,患者具有一个设为1分,具有两个设为2分,依次类推,患者所具有的分值越高则危险度越高,具体的:Y=x1+x2+…+x8,式中,Y代表诊断分级,x1,x2,…x8代表甲状腺癌和正常甲状腺组织的8个差异甲基化位点cg03596178,cg06033721,cg06688989,cg07209244,cg07485775,cg14484681,cg19979108,cg20943461,当这些差异甲基化位点在患者样本中有一个高表达记为1,则Y=1,有两个高表达记为2,则Y=2,以此类推,所以Y在[0,8]。其中,Y在[0,1]为甲状腺癌低风险组;Y在[2,3]为甲状腺癌中风险组;Y在[4,8]为甲状腺癌高风险组;
S5、从GEO数据库中下载包含多种肿瘤的肿瘤样本和正常样本的甲基化测序数据的数据集(GSE53051)。从GSE53051中将甲状腺肿瘤的样本对应的甲基化数据挑选出来,经过与TCGA数据库原始数据一样的预处理流程后,将获得GSE53051过滤并归一化的甲基化数据进行后续分析。从数据库中将甲状腺肿瘤的PTC样本和Normal样本挑选出来,验证S4得到的诊断模型中包含的甲基化位点在GSE53051数据中的甲基化水平(箱线图)和ROC分析;然后使用SVM得到的线性模型再次计算,并通过ROC分析验证诊断模型性能。
优选的,S1中,使用超声引导下细针穿刺活检FNAC获得检测样本。
优选的,S2中,提取的DNA浓度30ng/ul,纯度OD260/280≥1.8左右,体积一般要达到30ul,于-80℃储存于试管中。
优选的,S3中,RRBS文库基于已建立的单端测序操作步骤在Genome Analyzer II上进行测序;对原始测序数据进行过滤和评估;获得胞嘧啶的甲基化相关信息,包括覆盖率分析、甲基化分析和DMRs分析;选用序列深度覆盖至少为10且至少被4个读数覆盖的甲基化胞嘧啶的多少来确定基因甲基化水平的高低。
优选的,S4中,具体步骤为:
S4-1、通过R语言impute包impute.knn函数对原始数据进行处理;对空值填充后的数据进行量纲检验后,采用R语言limma包计算PTC vs NC的差异甲基化基因,差异甲基化基因(DMG,Differentially methylated Genes)的筛选阈值为|logFC|>1&p.value<0.05。将由此获得的样本与正常对照之间的差异甲基化探针标记为DMP-1,差异分析的结果为火山图;
S4-2、从UCSC Xena(https://xenabrowser.net/datapages/)下载得到TCGA数据库中甲状腺癌相关数据(甲基化数据、临床数据及生存数据),保留具有临床信息的PTC样本Methylation数据,经挑选后,共有562个样本的数据纳入分析,其中肿瘤样本498个,正常样本64个。TCGA存储的甲基化数据为甲基化位点(probes)的beta值,而RRBS测序所获得的为基因甲基化的数值,故针对不同的数据采用不同的差异分析方法和筛选阈值,然后对筛选后的数据使用R语言impute包的impute.knn函数填补缺失值,然后使用ChAMP包对探针进行过滤,得到的过滤后的数据进一步进行数据归一化,最终得到的甲基化矩阵,用于后续分析。差异甲基化位点(DMP,Differentially methylated Probes)分析,依旧使用ChAMP包进行,显著的DMPs的筛选阈值为|logFC|>0.25&adj.P.value<10-15。ChAMP包对DMP进行差异分析的同时,也对DMP进行注释,得到甲基化位点对应的基因,故而我们通过TumorVS.Control组间显著差异的甲基化位点的筛选得到DMP后,即由TCGA数据派生的DMP,标记为DMP-2;将DMP-1和DMP-2叠加获得DMP-3;
S4-3、将DMG-3对应的甲基化位点基于TCGA数据进行ROC分析,验证差异DMP对PTC样本和正常样本的分类功效(诊断功效);
S4-4、筛选其中AUC>0.85的DMP进行诊断模型构建,并在TCGA数据中,使用箱线图查看这些位点在PTC和Normal中的甲基化情况。
通过SVM支持向量机进一步对AUC>0.85的DMP进行线性模型训练,进一步通过ROC分析评估诊断模型性能
S4-5、在此基础上构建诊断模型。
优选的,所构建诊断模型通过美国国家癌症研究所生物研究中心阵列工具v.4.4.0(Biometric Research Branch,National Cancer Institute)线性方法进行训练。
优选的,所述线性方法包括支持向量机((Support Vector Machine,SVM))、对角线性判别分析(diagonal linear discriminant analysis,DLDA)和复合协变量预测变量分析(compound covariate predictor)
优选的,S5中,通过留一法交叉验证(leave-one-out cross-validation,LOOCV))评估性能。
优选的,S4中,按照分值来设定随访的时间,1分每一年随访,2分每半年随访,3分4分每三个月随访,5分6分每两个月随访一次,7分每个月随访一次,8分则半个月随访一次。
优选的,每次随访采用超声,超声没有辐射;再根据甲状腺结节有没有进展来决定下一步的随访和治疗措施。
本发明的有益效果
本发明针对甲状腺癌,通过检测超声引导下穿测活检样本中基因的甲基化的特殊位点并计算患者获得甲状腺癌的可能性,用以辅助甲状腺分化癌的诊断。本诊断模型采用现有的甲基化测序金标准焦磷酸测序进行,所需要的样本量少,检测精确,方法不复杂,利用通常情况下临床上超声引导下穿测活检样本中的一半左右即可,不影响对穿刺样本的病理涂片,无需独立取材,对患者所造成的创伤小,故本发明具有无创,精确度高,准确客观多种优点,将本发明用于辅助临床对甲状腺患者的诊断和随诊可增加诊断的客观性和准确性,具有重要的临床应用价值。
本发明通过超声引导下细针穿刺活检对甲状腺癌组织进行取样,然后对其进行焦磷酸测序,结果表明与正常的甲状腺组织相比甲状腺癌中普遍存在基因的甲基化异常,说明基因的甲基化异常与甲状腺癌密切关联。本发明将科研成果与临床的现实需要相结合,在对患者没有造成额外创伤的前提下利用现有的科学技术的进步,将先进的焦磷酸测序技术应用于甲状腺癌的临床诊断,具有创伤小,花费少,价值高等诸多优点。未来的病理报告将会是形态学诊断和分子信息整合型的报告。分子诊断与传统病理联合检测,为患者带来的是无限希望,对医生则意味着更精准的诊断和治疗,是未来医学研究和临床应用发展的方向。
附图说明
图1为诊断模型的应用流程示意图。
图2为PTC vs Normal的富集分析气泡图显示了测序结果示意图。
图3为Metascape数据库基于PaGenBase对DMG进行的分析得到甲状腺特定基因示意图。
图4为甲状腺癌FNAC样本和正常组织的差异分析图。
图5为TCGA数据库中的甲状腺癌样本与正常对照组的差异分析图。
图6为DMG-1与DMG-2的交集示意图。
图7为为诊断模型组成之一cg03596178的甲基化水平结果和ROC示意图。
图8为诊断模型组成之二cg06033721的甲基化水平结果和ROC示意图。
图9为AUC超过单个DMP的ROC结果示意图。
图10为在GEO的独立数据集中对诊断模型的诊断效能进行验证结果图。
图11为在GEO的独立数据集中对诊断模型的诊断效能进行验证结果图。
图12为在GEO数据集对诊断模型的整体诊断效能进行验证结果图。
具体实施方式
下面结合实施例对本发明作进一步说明,但本发明的保护范围不限于此。
本文中名词解释:焦磷酸测序(Pyrosequencing)技术是由4种酶(DNA聚合酶(DNApolymerase)、ATP硫酸化酶(ATP sulfurytase)、荧光素酶(luciferase)和三磷酸腺苷双磷酸酶(Apyrase))催化的同一反应体系中的酶级联化学发光反应。
结合图1,整个诊断流程主要包括超声引导下甲状腺结节穿刺取样,焦磷酸测序,测序数据的比对与处理等,具体见技术方案所述。
实施例1
1、实验方法
(1)在医院超声科由资深的临床医生收集了大量FNAB样本,提取DNA,-80°冷冻保存,等待下一步的随访和检测。对相应的患者进行多年的随访,获得和整理相关临床资料,选取在后期随访中经过手术后的病理切片被确诊为甲状腺***样癌的FNAB样本和多年随访未发现肿瘤的正常甲状腺结节样本,同时DNA样本的浓度要达到30ng/ul,纯度OD260/280≥1.8左右,体积在30ul及以上,从而保证检测的质量和结果的准确。
(2)对经以上步骤选取的样本采用目前甲基化测序的金标准,即限制性内切酶-重亚硫酸盐靶向测序(reduced representation bisulfite sequencing,RRBS)来对样本进行甲基化测序。测序的样本选取要求严格,并采用Qiagen公司Q48焦磷酸测序仪进行高度精确的甲基化定量分析,对最新的人类基因组版本hg38版本(Homo sapiens genomeassembly GRCh38-
NCBI-NLM(nih.gov))的基因启动子区域(转录起始点±1K)的基因甲基化程度进行检测,测序的数据准确可靠。差异甲基化基因的筛选阈值为|logFC|>1&p.value<0.05。将由此获得的来自于实验样本测序所得的DMGs标记为DMG-1。
(3)从UCSC Xena(https://xenabrowser.net/datapages/)下载得到TCGA数据库中甲状腺癌相关数据,共有562个样本的数据纳入分析,其中肿瘤样本498个,正常样本64个。
对TCGA存储的甲基化数据,使用ChAMP包对探针进行过滤,得到的过滤后的数据进一步进行数据归一化,最终得到的甲基化矩阵。然后对差异甲基化位点进行分析,显著的DMPs的筛选阈值为|logFC|>0.25&adj.P.value<10-15。最后,在ChAMP包对DMP进行差异分析的同时对DMP进行注释,获得每个甲基化位点所对应的基因,由TCGA数据库中的肿瘤样本所获得的DMG被标记为DMG-2。
(4)将DMG-1与DMG-2进行比较,获得交集的DMG集合标记为DMG-3。将DMG-3对应的甲基化位点基于TCGA数据进行ROC分析,验证差异DMP对PTC样本和正常样本的分类功效,即从样本中准确区分出甲状腺癌的能力(诊断功效);筛选其中AUC>
0.85的DMP构建诊断模型,并在TCGA数据中,使用箱线图查看这些位点在甲状腺癌和正常组中的甲基化情况。
(5)通过SVM支持向量机进一步对AUC>0.85的DMP进行线性模型训练,进一步通过ROC分析评估诊断模型性能。
(6)从GEO数据库中下载包含甲状腺肿瘤的样本对应的甲基化数据和正常样本的甲基化测序数据的数据集(GSE53051)。将数据集过滤并归一化处理获得的甲基化数据进行诊断模型的验证。即对由上步所得的诊断模型中包含的甲基化位点在GSE53051数据中进行甲基化水平(箱线图)和ROC分析;然后使用SVM得到的线性模型再次计算,及通过ROC分析验证诊断模型性能。
2、实验结果
FNAB样本中的DNA的甲基化水平与包括甲状腺癌的多种甲状腺疾病有关(图2显示差异甲基化位点与许多甲状腺的功能密切相关、图3显示出差异甲基化位点与甲状腺疾病相关疾病的关联性),而特定基因的甲基化水平过低可能与甲状腺癌有关(图4中,甲状腺癌FNAC样本和正常组织的差异分析展示了样本在整个基因组层面的基因甲基化程度差异,图上显示肿瘤组的基因甲基化水平比正常对照组有所降低)。并且,在TCGA数据库中的大量甲状腺癌和正常对照组的分析同样显示,特定基因的甲基化异常与甲状腺癌的发生发展密切相关(图5中,TCGA数据库中的甲状腺癌样本与正常对照组的差异分析结果与测序样本的结果相一致,肿瘤组的甲基化水平有所降低)。所以,我们通过样本数据的差异甲基化位点(DMP-1)和数据库内的差异甲基化位点(DMP-2)来作为划分甲状腺癌和正常甲状腺组织的依据(图6中,DMG-1为749,DMG-2为730,两者的交集得到20个DMG,即能够准确区分出肿瘤和正常组织的DMG主要为这20个),经过实验的临床数据的测序结果与TCGA数据库内的数据进行比对取交集,本发明发现8个能将甲状腺癌与正常的甲状腺组织区分开来的基因甲基化位点cg07209244,cg20943461,cg07485775,cg03596178,cg14484681,cg19979108,cg06033721,cg06688989。这8个差异甲基化位点单独区分甲状腺癌和正常组织的能力,即诊断效能良好(图7中,用DMG对应出DMP以后,根据其他条件筛选后最终用于构建诊断模型的共有8个DMP,这里限于篇幅所有DMP的甲基化和ROC曲线图没有都列出来,图中为诊断模型组成之一cg03596178的甲基化水平结果和ROC示意图,左边的甲基化水平箱框图显示该DMP甲基化水平在肿瘤组和正常组具有明显的差异,右侧的ROC曲线显示了其良好的诊断效能;图8为诊断模型组成之二cg06033721的甲基化水平结果和ROC示意图,同样的,左边的甲基化水平箱框图显示该DMP甲基化水平在肿瘤组和正常组具有明显的差异,右侧的ROC曲线显示了其良好的诊断效能),而8个差异甲基化位点合在一起所具有的效力则更好(图9中,AUC超过单个DMP的ROC结果,说明相对于单个DMP,由这8个DMP构成的诊断模型对肿瘤组和正常组织的分组效果更好,进一步证明诊断模型的诊断作用)。在GEO关于甲状腺癌和正常的甲状腺组织的独立数据集中,诊断模型中差异甲基化位点也展示出了良好的区分甲状腺癌组织和正常组织的诊断效能(图10在GEO的独立数据集中对诊断模型的诊断效能进行验证,cg03596178的甲基化水平结果(左侧)和ROC曲线(右侧)表明其具有区分肿瘤组织和正常组织的诊断效能,与它在TCGA数据中所得到的结果相同;图11在GEO的独立数据集中对诊断模型的诊断效能进行验证,cg06033721的甲基化水平结果(左侧)和ROC曲线(右侧)表明其具有区分肿瘤组织和正常组织的诊断效能,与它在TCGA数据中所得到的结果相同),并且诊断模型作为一个整体的争端效能AUC达到了1,展示了良好的诊断效力(图12在GEO数据集对诊断模型的整体诊断效能进行验证,因为GEO数据集相较于TCGA数据集,数据规模更好,SVM模型检验显示出诊断模型完美地将甲状腺癌从大量数据中区分开来,诊断出甲状腺癌)。
实施例2
基于上述研究成果,本发明采用生物分析方法中机器学习的算法,通过对差异的基因甲基化位点的数值进行计算提供了相对客观且经济便捷的甲状腺癌的诊断方法,可用于分化型甲状腺癌的辅助诊断。具体为,一种基于超声引导下细针穿刺活检和焦磷酸测序的甲状腺癌诊断模型,公式如下,Y=x1+x2+…+x8,式中,Y代表诊断分级,x1,x2,…x8代表甲状腺癌和正常甲状腺组织的8个差异甲基化位点cg03596178,cg06033721,cg06688989,cg07209244,cg07485775,cg14484681,cg19979108,cg20943461,当这些差异甲基化位点在患者样本中有一个高表达记为1,则Y=1,有两个高表达记为2,则Y=2,以此类推,所以Y在[0,8]。其中,Y在[0,1]为甲状腺癌低风险组;Y在[2,3]为甲状腺癌中风险组;Y在[4,8]为甲状腺癌高风险组。
实施例3
甲状腺癌检测示例
按照实施例1的方法进行操作,获得患者的基因甲基化数据。使用公式Y=x1+x2+…+x8,计算患者甲状腺癌的发病风险,计算示例如下:
样本1(经随访未发现甲状腺癌的正常样本)中:x1=0;x2=0;x3=0;x4=0;x5=0;x6=0;x7=0;x8=0,故Y=x1+x2+…+x8=0。样本1患者的诊断模型Y值为0,属于[0,1]区间,为低风险患病率组,即患者获得甲状腺癌的概率低,与后期随访的结果一致。
样本2(已手术确诊甲状腺癌的发病前的甲状腺结节穿刺样本)中:x1=0;x2=0;x3=1;x4=1;x5=0;x6=0;x7=0;x8=0,故Y=x1+x2+…+x8=2。样本2患者的诊断模型Y值为2,属于[2,3]区间,为中风险患病率组,即患者具有一定获得甲状腺癌的风险,结果准确。
表1
本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (10)
1.一种基于超声引导下细针穿刺活检和焦磷酸测序的分化型甲状腺癌的基因甲基化诊断模型的构建方法,其特征在于它包括以下步骤:
S1、获得检测样本,对检测样本进行人工分级;
S2、对检测样本进行DNA提取和储存;
S3、将具有PTC以及正常甲状腺结节的DNA用于RRBS文库构建,进行甲基化分析;
S4、基于DNA甲基化建立诊断模型,诊断模型显示在PTC患者中具有cg03596178,cg06033721,cg06688989,cg07209244,cg07485775,cg14484681,cg19979108,cg20943461的患者病情进展的可能性更大,属于危险因素,应该被紧密地随访。每个DMP的权重相同,若将这些DMP的值依次设置x1,x2,…,x8,则患者的诊断模型值为Y=x1+x2+…+x8,如患者的检测结果中具有诊断模型中的一个DMP高表达,Y为1,具有诊断模型中的两个DMP,则Y为2,依次类推,患者所具有的Y的分值越高则危险度越高;
S5、交叉验证评估性能,获得基因甲基化诊断模型。
2.根据权利要求1所述的方法,其特征在于S1中,使用超声引导下细针穿刺活检FNAC获得检测样本。
3.根据权利要求1所述的方法,其特征在于S2中,提取的DNA于-80℃储存于试管中。
4.根据权利要求1所述的方法,其特征在于S3中,RRBS文库基于已建立的单端测序操作步骤在Genome AnalyzerII上进行测序;对原始测序数据进行过滤和评估;获得胞嘧啶的甲基化相关信息,包括覆盖率分析、甲基化分析和DMRs分析;选用序列深度覆盖至少为10且至少被四个读数覆盖的甲基化胞嘧啶的多少来确定基因甲基化水平的高低。
5.根据权利要求1所述的方法,其特征在于S4中,具体步骤为:
S4-1、样本与正常对照之间的差异甲基化探针标记为DMP-1;
S4-2、获取甲状腺癌临床特征在内的癌症基因组图谱TCGA数据库的甲基化数据,包括498例甲状腺癌和64例正常对照;将TCGA数据派生的DMP标记为DMP-2;
将DMP-1和DMP-2叠加获得DMP-3;
S4-3、对DMP-3数据进行受试者工作特征曲线ROC curve分析,以确定具有诊断价值并可将PTC与正常对照区分开来的DMP;
S4-4、在ROC曲线下的面积AUC呈现高面积的基因探针被进一步分析过滤;
S4-5、在此基础上构建诊断模型。
6.根据权利要求5所述的方法,其特征在于所构建诊断模型通过美国国家癌症研究所生物研究中心阵列工具v.4.4.0线性方法进行训练。
7.根据权利要求6所述的方法,其特征在于所述线性方法包括支持向量机SVM、对角线性判别分析DLDA和复合协变量预测变量分析。
8.根据权利要求1所述的方法,其特征在于S5中,通过留一法交叉验证LOOCV评估性能。
9.根据权利要求1所述的方法,其特征在于S4中,按照分值来设定随访的时间,1分每一年随访,2分每半年随访,3分4分每三个月随访,5分6分每两个月随访一次,7分每个月随访一次,8分则半个月随访一次。
10.一种分化型甲状腺癌的基因甲基化诊断模型,其特征在于所述模型由权利要求1-9任一项所述的方法构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310185761.8A CN116189904A (zh) | 2023-03-01 | 2023-03-01 | 一种分化型甲状腺癌的基因甲基化诊断模型及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310185761.8A CN116189904A (zh) | 2023-03-01 | 2023-03-01 | 一种分化型甲状腺癌的基因甲基化诊断模型及其构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116189904A true CN116189904A (zh) | 2023-05-30 |
Family
ID=86444183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310185761.8A Pending CN116189904A (zh) | 2023-03-01 | 2023-03-01 | 一种分化型甲状腺癌的基因甲基化诊断模型及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116189904A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711616A (zh) * | 2023-11-23 | 2024-03-15 | 北京爱思益普生物科技股份有限公司 | 基于基因表达数据的阿尔兹海默预测模型建立方法及*** |
-
2023
- 2023-03-01 CN CN202310185761.8A patent/CN116189904A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711616A (zh) * | 2023-11-23 | 2024-03-15 | 北京爱思益普生物科技股份有限公司 | 基于基因表达数据的阿尔兹海默预测模型建立方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105219844A (zh) | 一种谱筛查十一种疾病的基因标志物组合、试剂盒以及疾病风险预测模型 | |
CN114277138B (zh) | 外泌体arpc5、mboat2等在肺癌诊断中的应用 | |
CN116189904A (zh) | 一种分化型甲状腺癌的基因甲基化诊断模型及其构建方法 | |
CN116083584A (zh) | 一组用于评估非小细胞肺癌风险的血浆miRNA标志物及其筛选方法和应用 | |
CN117757928A (zh) | 用于慢性胰腺炎早期诊断的血浆外泌体rna生物标志物组及其应用 | |
CN117568481A (zh) | 一组与肝癌相关的血浆外泌体tsRNAs标志物及其应用 | |
CN111968702B (zh) | 一种基于循环肿瘤dna的恶性肿瘤早期筛查*** | |
CN111763740B (zh) | 基于lncRNA分子模型预测食管鳞癌患者新辅助放化疗的疗效和预后的*** | |
CN113470813A (zh) | 肝癌患者生存率预后模型 | |
CN114480636B (zh) | 胆汁细菌作为肝门部胆管癌诊断及预后标志物的用途 | |
CN116092674A (zh) | 外泌体介导的胃癌总体生存率预后模型及构建方法和应用 | |
TWI758670B (zh) | 健康風險評估方法 | |
CN116287252B (zh) | 长链非编码rna apcdd1l-dt在制备检测胰腺癌的产品中的应用 | |
US20240200149A1 (en) | Method for analyzing probability of suffering from cancer in subject | |
US11807908B2 (en) | Genetic markers used for identifying benign and malignant pulmonary micro-nodules and the application thereof | |
CN115820857A (zh) | 一种鉴别胃癌前病变和胃癌及诊断胃癌的试剂盒 | |
CN116631631A (zh) | 一种分化型甲状腺癌的基因甲基化预后评估模型及其构建方法 | |
CN117887856A (zh) | 一种结直肠癌的诊断生物标志物及检测方法 | |
CN115678998A (zh) | 一种检测肺腺癌EGFR突变的miRNA标志物、试剂盒及方法 | |
CN113930505A (zh) | 用于肺癌诊断的试剂盒、装置及方法 | |
CN108220427A (zh) | 一种用于鉴别诊断BHD综合征与原发性自发性气胸的血浆microRNA标记物及应用 | |
Shi et al. | PROSTATE CANCER DIAGNOSIS BY MULTIPLE SECRETED PROTEIN BIOMARKERS IN VOIDED URINE: S&T-10 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |