CN113764044B - 一种构建骨髓增生异常综合征进展基因预测模型的方法 - Google Patents

一种构建骨髓增生异常综合征进展基因预测模型的方法 Download PDF

Info

Publication number
CN113764044B
CN113764044B CN202111009322.9A CN202111009322A CN113764044B CN 113764044 B CN113764044 B CN 113764044B CN 202111009322 A CN202111009322 A CN 202111009322A CN 113764044 B CN113764044 B CN 113764044B
Authority
CN
China
Prior art keywords
mutation
mds
risk
group
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111009322.9A
Other languages
English (en)
Other versions
CN113764044A (zh
Inventor
侯珺
杜欣
孙启慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111009322.9A priority Critical patent/CN113764044B/zh
Publication of CN113764044A publication Critical patent/CN113764044A/zh
Application granted granted Critical
Publication of CN113764044B publication Critical patent/CN113764044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种构建骨髓增生异常综合征进展基因预测模型的方法,包括以下步骤:收集三组患者的样本,提取DNA并测序,得到基因突变谱和突变频率;各基因的突变频率按以下划分标准形成四个模块:模块1:基因突变率在各组呈上升趋势;模块2:基因突变率在各组呈下降趋势;模块3:基因在高危MDS组的突变频率低于低危MDS组,且在MDS‑AML组的突变频率最高;模块4:基因在高危MDS组的突变频率高于低危MDS组,且在MDS‑AML组的突变频率最低;纳入这四个模块的基因为MDS进展相关基因;利用SVM分类器模型进行训练,完成模型的构建。本发明从分子层面对于疾病进展进行早期预测,可得到较精确的预测。

Description

一种构建骨髓增生异常综合征进展基因预测模型的方法
技术领域
本发明涉及一种构建骨髓增生异常综合征进展基因预测模型的方法。
背景技术
骨髓增生异常综合征(myelodysplastic syndromes,MDS)是一组常见的由于骨髓造血干祖细胞克隆性增生导致的血液***恶性肿瘤。MDS的发生发展已被公认是一个多步骤过程,包括MDS前期,MDS期以及MDS继发白血病期。它的发生发展与骨髓微环境失调,额外驱动突变的逐步获得有关。在这个多步骤过程中,多次获得几个具有选择优势的突变使得这些带有相同突变的优势细胞群持续扩增。
目前克隆演化过程分为线性进展模式和分支进展模式。线性进化模式的特征是在获得其他突变后,持续出现来自其祖先克隆的显性克隆,这些克隆不断扩增其祖先克隆。分支进化模式的标志是指同时或先后出现来自一个共同祖先克隆的不同亚克隆,导致包含部分重叠的一组突变的相关(亚)克隆共存。这些亚克隆之间复杂的遗传多样性可能导致更复杂的疾病类型,且可能导致治疗耐药,因为某些亚克隆可能对特定类型的治疗有抗性。
目前针对MDS进展各阶段的基因组特征的研究找到了一些突变基因。但是,应该强调的是,由于肿瘤的异质性,入组患者的差异,测序方法的差异以及基因之间复杂的相互关系,各个实验组所得结果不尽相同。此外,上游和下游基因之间的关系,基因的共存和互斥方式以及患者骨髓微环境中的基质细胞和免疫细胞可能影响患者的整体状况,使得对MDS的预测存在很多困难和不确定性。
发明内容
本发明通过对比低危MDS、高危MDS及MDS相关AML组患者差异突变基因,选择SVM为最佳机器学习分类模型,预测MDS的进展情况,构建骨髓增生异常综合征进展基因预测模型的方法,为后续治疗策略的选择、疾病预测提供临床指导。
本发明的目的通过下述技术方案实现:
一种构建骨髓增生异常综合征进展基因预测模型的方法,包括以下步骤:
(1)收集低危型、高危型骨髓增生异常综合征(本文简称低危MDS和高危MDS)患者和白血病(本文也称MDS-AML)患者的样本,提取各样本的DNA;由低危型、高危型骨髓增生异常综合征患者的样本构成训练集;
所述的低危型骨髓增生异常综合征患者,原始细胞数<5%;
所述的高危型骨髓增生异常综合征患者,5%≤原始细胞数<20%;
所述的白血病患者,明确有白血病史2个月以上,原始细胞数≥20%;
所述的样本可以是患者的血液、组织或骨髓穿刺样本;
(2)对三组患者的DNA样品进行测序,通过与hg19参考基因组比对,得到基因突变谱和突变频率;
各基因的突变频率按以下划分标准形成四个模块:
模块1:基因突变率从低危MDS到MDS-AML组呈上升趋势;
模块2:基因突变率从低危MDS到MDS-AML组呈下降趋势;
模块3:基因在高危MDS组的突变频率低于低危MDS组,且在MDS-AML组的突变频率最高;
模块4:基因在高危MDS组的突变频率高于低危MDS组,且在MDS-AML组的突变频率最低;
纳入这四个模块的基因为MDS进展相关基因;
多数髓系肿瘤相关基因在骨髓增生异常综合征疾病进展各个阶段(低危MDS、高危MDS及MDS-AML)均有突变发生,并不独特发生于某一阶段。但部分基因在疾病进展不同阶段的突变频率不同,寻找进展过程中突变频率持续增高或持续降低的基因,这些基因可能与疾病进展相关,故在三组患者中随疾病进展突变频率逐步升高或逐步降低的基因与疾病进展相关性强(如模块1和模块2)。
除此之外,部分患者的进展并不遵循从低危MDS、高危MDS到MDS-AML的逐步进展过程,可能直接从低危MDS快速进展为MDS-AML,也可能在诊断时即为高危MDS。为了不遗漏这些特殊进展相关基因,将其纳入模块3和模块4两种基因集。
所述的MDS进展相关基因为:ABL1、ANKRD26、ARID1A、ATG2B、BCORL1、BIRC3、BRAF、BRINP3、CALR、CARD11、CBL、CCND3、CEBPA、CREBBP、CUX1、CXCR4、DDX3X、DNM2、DNMT3A、ECT2L、EP300、ETNK1、EZH2、FAM46C、FGFR3、FLT3、GATA1、GATA2、ID3、IDH1、JAK1、JAK2、JAK3、KDM6A、KIT、KMT2A、MAPK1、MPL、NOTCH1、PDS5B、PHF6、PIGA、PLCG1、PRKCB、PRPF40B、RAD21、RBBP6、RELN、RUNX1、SETBP1、SETD2、SF3A1、SF3B1、SMC1A、SMC3、SRP72、STAG2、TERT、TET2、TP53、TPMT、TRAF3、XPO1和ZRSR2,总计64个;
所述的突变包括错义突变、无义突变、框移***、框移缺失、非框移***,非框移缺失及剪切位点突变,排除内含子变异及同义突变;
所述测序的平均深度不少于800×;
所述测序的方法包括sanger测序、ARMS-PCR(Amplification RefractoryMutation System PCR)、MASS-PCR(Mutation-Selected Amplification SpecificSystem)、全基因组测序、全外显子测序以及小队列靶向测序;
(3)按照四个模块,将训练样本DNA中的MDS进展相关基因选取出,并且进行突变标记,当存在突变时标记为A1,不存在突变时标记为A2;以各训练样本的MDS进展相关基因突变标记作为输入,对SVM分类器模型进行训练,完成模型的构建;
所述步骤(3)中,A1为1,A2为0,或者A1为1,A2为0;
SVM分类器模型可以选取0.3为阈值对样本进行预测,当样本预测值≥0.3,预测该样本有高风险出现疾病进展;当样本预测值<0.3,预测该样本为进展低风险样本。
所述步骤(3)中,优选通过sample函数随机从入组MDS组样本中选取70%患者作为训练集,将其MDS进展相关基因的突变标记作为输入,对SVM分类器模型进行训练,再用剩余30%样本的预测值进行验证;
所述步骤(3)中,针对各训练样本,还提取出临床信息,包括患者性别、年龄、骨髓原始细胞数、初诊红细胞、白细胞与血小板计数等,在训练时,将训练样本的MDS进展相关基因突变与临床信息融合后作为输入,对SVM分类器模型进行训练。
本发明相对于现有技术具有如下的优点及效果:
相对于已有的针对骨髓增生异常综合征疾病进展的预测指标,本发明从分子层面对于疾病进展进行早期预测,可得到较精确的预测,对于高危患者进行早期干预,延缓疾病进展,且有助于后续治疗靶向药物的选择,有较高临床实用性。
附图说明
图1是实施例1中分别纳入4个疾病进展相关module中的64个基因的基因频率分布。
图2是实施例1中基于所构建预测模型64个基因的样本聚类热图;横坐标为20个样本,纵坐标为64个相关基因。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
骨髓增生异常综合征进展基因预测标签的选取及预测模型的建立
1)收集广东省人民医院血液科2016年1月至2017年12月的23例髓系肿瘤患者治疗前的骨髓穿刺样本,其中低危组(low-risk MDS)(原始细胞数<5%)患者10例,高危组(high-risk MDS)(5%≤原始细胞数<20%)患者10例,MDS相关AML(MDS-AML明确有MDS病史>2月的AML患者,原始细胞数≥20%)3例。
2)取20ng骨髓穿刺液,提取基因组DNA。
3)测序前处理:使用TaKaRa MiniBEST Universal Genomic DNA Extraction KitVer.5.0经过细胞裂解、DNA与膜结合、DNA纯化等步骤进行骨髓液DNA的提取。之后,对于所得DNA使用NanoDrop2000超微量分光光度计进行DNA质量检测;质控合格后,进入文库制备环节。
利用超微量分光光度计对于所提取样本进行核酸浓度及纯度检测。当所提取双链DNA的A260/A280比例在1.7~1.9,表明质控合格。若比值较高说明提取的DNA中有RNA残留,若比值较低说明有蛋白质残留,需重新取样及质控。
4)文库制备:利用扩增子捕获方法,靶向血液肿瘤相关114个基因,对扩增得到的DNA片段利用Ion Kits进行测序文库的制备。
5)基因测序:油包水相扩增及纯化磁珠的收集,应用Ion ProtonTM OneTouch2System(Instrument和Ion OneTouchTM ES(enrichment system)、MILLIPORE纯水仪Milli-Q、ABI Veriti96 PCR扩增仪、Applied BiosystemsQ-PCR仪7500)等进行模板制备。应用IonProtonTM Sequencer进行上机测序。
6)原始数据处理与变异识别:通过上述基因测序,获取BAM格式的变异文件进行后续分析。平均测序深度为800×,不存在非重复序列分析方法。首先,对所得数据分别通过Samtools-1.8和Picard-2.19等软件进行排序、去除PCR重复和构建索引。接着,利用bcftools mpileup联合bcftools call进行变异检测(call variation)。本研究对5%变异频率的突变位点的检测率为97%-98%。
所述的变异包括错义突变、无义突变、框移***、框移缺失、非框移***,非框移缺失及剪切位点突变,排除内含子变异及同义突变;
7)变异过滤与注释:对于上述步骤检测到的变异(VCF,Variant Call Format格式)进行进一步过滤。过滤指标为QUAL<20和MQ<40。
为了进一步明确变异意义,基于ANNOVAR软件中的table_annovar.pl工具,以hg19为参考基因组,refGene、cytoBand、avsnp150、esp6500siv2_all、1000g2015aug_all、1000g2015aug_eas、dbnsfp30a、cosmic70、exac03、clinvar_20140929等数据库被用来注释变异及氨基酸突变分析。
8)进展相关模块的构建:
汇总入组3组患者的变异信息,根据MDS不同阶段的变化模式,建立突变模块(module)以寻找疾病进展各阶段差异突变基因。
如图1所示,模块1(也即module1;下同)基因从低风险MDS到MDS-AML呈上升趋势,模块2基因则相反。module3中这些基因不仅必须满足高危MDS组突变频率低于低危MDS组的标准,而且MDS-AML的突变频率也高于前两组。模块4中基因满足高危组MDS高于低危组MDS患者,且MDS组患者突变频率均高于MDS-AML组,如表1和图1所示。
表1:进展相关module的构建(表中数值为变异频率)
注:变异频率为每组中突变患者占所有患者百分比
将纳入module内的64个基因纳入后续分析。
9)选取入组的20例MDS(高危组和低危组)骨髓样本,统计纳入4个module的64个基因突变存在情况,即存在突变标记为1,不存在突变标记为0,各样本突变情况如图2所示,红色代表有突变,蓝色代表无突变。
10)构建疾病进展预测模型:利用R 3.6.1中sample函数随机选取其中13例MDS样本的64个基因突变有无作为训练集,利用R包“e1071”进行SVM分类器模型训练,根据训练集结果选取0.3为预测阈值,将样本分为疾病进展和疾病非进展两组,在剩余7例患者中验证分型(如表2所示)。
SVM分类器模型构建所用代码如下:
library(e1071)
SVM1<-read.table("C:/Users/30798/Desktop/SVM_AML.txt",header=TRUE,sep="\t")
index<-sample(2,nrow(SVM1),replace=TRUE,prob=c(0.7,0.3))
traindata<-SVM1[index==1,]
testdata<-SVM1[index==2,]
cats_svm_model<-svm(AML~.,data=traindata)
cats_svm_model
cats_svm_model_pred_1<-predict(cats_svm_model,traindata[,-1])
cats_table_1<-table(pred=cats_svm_model_pred_1,true=traindata[,1])
cats_table_1
cats_svm_model_pred_2<-predict(cats_svm_model,testdata[,-1])
cats_table_2<-table(pred=cats_svm_model_pred_2,true=testdata[,1])
cats_table_2
SVM2<-read.table("C:/Users/30798/Desktop/heatmap_SVM.txt",header=TRUE,row.names=1,sep="\t")
SVM2<-as.matrix(SVM2)
pheatmap(SVM2,color=colorRampPalette(c("navy","white","firebrick3"))(50))annotation_col=data.frame(CellType=factor(rep(c("low","high"),5)),progress=c("NO","NO","NO","YES","NO","NO","NO","NO","YES","NO","YES","NO","NO","NO","NO","NO","NO","NO","NO","YES"))
rownames(annotation_col)=colnames(SVM2)
pheatmap(SVM2,annotation_col=annotation_col)
表2:20名MDS患者的疾病进展基因模型预测结果与临床结果
样本 SVM预测值 预测结果 临床结果 一致性
T1 0.09958<0.3 低风险进展 未进展 一致
T2 0.09975<0.3 低风险进展 未进展 一致
T3 0.0999<0.3 低风险进展 未进展 一致
T4 0.09997<0.3 低风险进展 未进展 一致
T5 0.10006<0.3 低风险进展 未进展 一致
T6 0.10006<0.3 低风险进展 未进展 一致
T7 0.10021<0.3 低风险进展 未进展 一致
T8 0.10023<0.3 低风险进展 未进展 一致
T9 0.10024<0.3 低风险进展 未进展 一致
T10 0.43693>0.3 高风险进展 进展 一致
T11 0.45018>0.3 高风险进展 进展 一致
T12 0.48653>0.3 高风险进展 进展 一致
T13 0.49049>0.3 高风险进展 进展 一致
V1 0.10333<0.3 低风险进展 未进展 一致
V2 0.16121<0.3 低风险进展 未进展 一致
V3 0.16969<0.3 低风险进展 未进展 一致
V4 0.1955<0.3 低风险进展 未进展 一致
V5 0.20033<0.3 低风险进展 未进展 一致
V6 0.24631<0.3 低风险进展 未进展 一致
V7 0.2711<0.3 低风险进展 未进展 一致
注:T代表训练集样本,V代表验证组样本
实施例2
骨髓增生异常综合征进展预测基因标签结合临床指标后预测模型的建立与预测
利用实施例1中入组的20例MDS(高危组和低危组)患者,参照实施例1中的基因模型及分析方法,进行基因测序及突变有无的数据统计。
随机选取15例患者为训练集,根据64个基因的突变有无并结合患者性别、年龄、骨髓原始细胞数、初诊红细胞、白细胞与血小板计数等临床信息纳入模型,利用SVM分类器构建分类模型。同样选取0.3为预测阈值,预测值≥0.3定义为高风险进展组,预测值<0.3者预测为低风险进展组,如表3所示。
并利用此模型对于剩余5名测试集患者进行预测。预测结果如表4所示。
表3:15名MDS患者的疾病进展基因结合临床因素模型预测结果与临床结果
样本 SVM预测值 预测结果 临床结果 一致性
S1 0.045547<0.3 低风险进展 未进展 一致
S2 0.045744<0.3 低风险进展 未进展 一致
S3 0.045766<0.3 低风险进展 未进展 一致
S4 0.045779<0.3 低风险进展 未进展 一致
S5 0.045785<0.3 低风险进展 未进展 一致
S6 0.045789<0.3 低风险进展 未进展 一致
S7 0.045791<0.3 低风险进展 未进展 一致
S8 0.045791<0.3 低风险进展 未进展 一致
S9 0.045822<0.3 低风险进展 未进展 一致
S10 0.045833<0.3 低风险进展 未进展 一致
S11 0.045866<0.3 低风险进展 未进展 一致
S12 0.595040>0.3 高风险进展 进展 一致
S13 0.623043>0.3 高风险进展 进展 一致
S14 0.649239>0.3 高风险进展 进展 一致
S15 0.724980>0.3 高风险进展 进展 一致
表4:5名MDS患者的疾病进展基因结合临床因素模型预测结果与临床结果
样本 SVM预测值 预测结果 临床结果 一致性
S1 0.162420<0.3 低风险进展 未进展 一致
S2 0.226496<0.3 低风险进展 未进展 一致
S3 0.239825<0.3 低风险进展 未进展 一致
S4 0.270390<0.3 低风险进展 未进展 一致
S5 0.279371<0.3 低风险进展 未进展 一致
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种构建骨髓增生异常综合征进展基因预测模型的方法,其特征在于包括以下步骤:
(1)收集低危型、高危型骨髓增生异常综合征患者和白血病患者的样本,提取各样本的DNA;由低危型、高危型骨髓增生异常综合征患者的样本构成训练集;
(2)对三组患者的DNA样品进行测序,通过与hg19参考基因组比对,得到基因突变谱和突变频率;
各基因的突变频率按以下划分标准形成四个模块:
模块1:基因突变率从低危MDS到MDS- AML组呈上升趋势;
模块2:基因突变率从低危MDS到MDS- AML组呈下降趋势;
模块3:基因在高危MDS组的突变频率低于低危MDS组,且在MDS-AML组的突变频率最高;
模块4:基因在高危MDS组的突变频率高于低危MDS组,且在MDS-AML组的突变频率最低;
纳入这四个模块的基因为MDS进展相关基因;
(3)按照四个模块,将训练样本DNA中的MDS进展相关基因选取出,并且进行突变标记,当存在突变时标记为A1,不存在突变时标记为A2;以各训练样本的MDS进展相关基因突变标记作为输入,对SVM分类器模型进行训练,完成模型的构建;
步骤(2)所述的MDS进展相关基因为:ABL1、ANKRD26、ARID1A、ATG2B、BCORL1、BIRC3、 BRAF、BRINP3、CALR、CARD11、CBL、CCND3、CEBPA、CREBBP、CUX1、CXCR4、DDX3X、DNM2、DNMT3A、 ECT2L、EP300、ETNK1、EZH2、FAM46C、FGFR3、FLT3、GATA1、GATA2、ID3、IDH1、JAK1、JAK2、JAK3、 KDM6A、KIT、KMT2A、MAPK1、MPL、NOTCH1、PDS5B、PHF6、PIGA、PLCG1、PRKCB、PRPF40B、RAD21、 RBBP6、RELN、RUNX1、SETBP1、SETD2、SF3A1、SF3B1、SMC1A、SMC3、SRP72、STAG2、TERT、TET2、 TP53、TPMT、TRAF3、XPO1ZRSR2,总计64个;
步骤(2)所述的突变包括错义突变、无义突变、框移***、框移缺失、非框移***、非框移缺失及剪切位点突变,排除内含子变异及同义突变。
2.根据权利要求1所述的方法,其特征在于:步骤(3)中,A1为1,A2为0,或者A1为1,A2为0;SVM分类器模型选取0.3为阈值对样本进行预测,当样本预测值≥0.3,预测该样本有高风险出现疾病进展;当样本预测值<0.3,预测该样本为进展低风险样本。
3.根据权利要求1所述的方法,其特征在于:步骤(3)中,通过sample函数随机从入组MDS组样本中选取70%患者作为训练集,将其MDS进展相关基因的突变标记作为输入,对SVM分类器模型进行训练,再用剩余30%样本的预测值进行验证。
4.根据权利要求1所述的方法,其特征在于:步骤(3)中,针对各训练样本,提取出临床信息,在训练时,将训练样本的MDS进展相关基因突变与临床信息融合后作为输入,对SVM分类器模型进行训练。
5.根据权利要求4所述的方法,其特征在于:所述的临床信息包括患者性别、年龄、骨髓原始细胞数、初诊红细胞、白细胞和血小板计数。
6.根据权利要求1所述的方法,其特征在于:步骤(1)所述的低危型骨髓增生异常综合征患者,原始细胞数<5%;
所述的高危型骨髓增生异常综合征患者,5%≤原始细胞数<20%;
所述的白血病患者,明确有白血病史2个月以上,原始细胞数≥20%。
7.根据权利要求1所述的方法,其特征在于:步骤(1)所述的样本是患者的血液、组织或骨髓穿刺样本。
8.根据权利要求1所述的方法,其特征在于:步骤(2)所述测序的平均深度不少于800×。
CN202111009322.9A 2021-08-31 2021-08-31 一种构建骨髓增生异常综合征进展基因预测模型的方法 Active CN113764044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111009322.9A CN113764044B (zh) 2021-08-31 2021-08-31 一种构建骨髓增生异常综合征进展基因预测模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111009322.9A CN113764044B (zh) 2021-08-31 2021-08-31 一种构建骨髓增生异常综合征进展基因预测模型的方法

Publications (2)

Publication Number Publication Date
CN113764044A CN113764044A (zh) 2021-12-07
CN113764044B true CN113764044B (zh) 2023-07-21

Family

ID=78792060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111009322.9A Active CN113764044B (zh) 2021-08-31 2021-08-31 一种构建骨髓增生异常综合征进展基因预测模型的方法

Country Status (1)

Country Link
CN (1) CN113764044B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104862407A (zh) * 2015-06-02 2015-08-26 上海艾迪康医学检验所有限公司 检测ezh2基因的引物和方法
CN106566875A (zh) * 2016-09-20 2017-04-19 上海荻硕贝肯医学检验所有限公司 用于检测骨髓异常增生综合征mds基因突变的引物、试剂盒及方法
CN107949643A (zh) * 2015-04-23 2018-04-20 奎斯特诊断投资股份有限公司 用于检测骨髓增殖性疾病中calr突变的方法和组合物
CN110846411A (zh) * 2019-11-21 2020-02-28 上海仁东医学检验所有限公司 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法
CN110993026A (zh) * 2019-12-30 2020-04-10 苏州大学 一种骨髓增生异常综合征的评估方法及评估***
CN111154881A (zh) * 2020-03-09 2020-05-15 南京实践医学检验有限公司 一种急性髓系白血病中基因突变的检测试剂盒及应用
CN112094914A (zh) * 2020-11-17 2020-12-18 苏州科贝生物技术有限公司 一种联合检测急性髓细胞白血病的试剂盒
CN113025619A (zh) * 2021-03-25 2021-06-25 大连医科大学附属第二医院 一种hook3-fgfr1新融合基因及其应用和检测试剂盒

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107949643A (zh) * 2015-04-23 2018-04-20 奎斯特诊断投资股份有限公司 用于检测骨髓增殖性疾病中calr突变的方法和组合物
CN104862407A (zh) * 2015-06-02 2015-08-26 上海艾迪康医学检验所有限公司 检测ezh2基因的引物和方法
CN106566875A (zh) * 2016-09-20 2017-04-19 上海荻硕贝肯医学检验所有限公司 用于检测骨髓异常增生综合征mds基因突变的引物、试剂盒及方法
CN110846411A (zh) * 2019-11-21 2020-02-28 上海仁东医学检验所有限公司 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法
CN110993026A (zh) * 2019-12-30 2020-04-10 苏州大学 一种骨髓增生异常综合征的评估方法及评估***
CN111154881A (zh) * 2020-03-09 2020-05-15 南京实践医学检验有限公司 一种急性髓系白血病中基因突变的检测试剂盒及应用
CN112094914A (zh) * 2020-11-17 2020-12-18 苏州科贝生物技术有限公司 一种联合检测急性髓细胞白血病的试剂盒
CN113025619A (zh) * 2021-03-25 2021-06-25 大连医科大学附属第二医院 一种hook3-fgfr1新融合基因及其应用和检测试剂盒

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Co-occurrence of RUNX1 and ASXL1 mutations underlie poor response and outcome for MDS patients treated with HMAs;Ping Wu et al.;《Am J Transl Res》;第第11卷卷(第第6期期);第1-2页 *

Also Published As

Publication number Publication date
CN113764044A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
US11367508B2 (en) Systems and methods for detecting cellular pathway dysregulation in cancer specimens
WO2018090298A2 (en) Systems and methods for monitoring lifelong tumor evolution
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
CN109767810B (zh) 高通量测序数据分析方法及装置
US20210065842A1 (en) Systems and methods for determining tumor fraction
EP3973080B1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
WO2015173222A1 (en) Rare variant calls in ultra-deep sequencing
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
CN109652513B (zh) 基于二代测序技术精确检测液体活检个体突变的方法和试剂盒
EP3899955A1 (en) Cancer tissue source of origin prediction with multi-tier analysis of small variants in cell-free dna samples
CN113764038B (zh) 构建骨髓增生异常综合征转白基因预测模型的方法
CN114093424A (zh) 病变特异性数据筛选及处理方法、装置、设备及存储介质
CN113764044B (zh) 一种构建骨髓增生异常综合征进展基因预测模型的方法
CN110373458B (zh) 一种地中海贫血检测的试剂盒及分析***
US20240209446A1 (en) Circulating noncoding rnas as a signature of autism spectrum disorder symptomatology
CN114891873A (zh) 一组评估主动脉夹层风险的生物标志物及其应用
EP4328920A1 (en) Microsatellite instability detection method based on second-generation sequencing
CN112626216A (zh) 一种检测肿瘤微卫星不稳定性状态的组合物及其应用
JP2021536232A (ja) 試料間の汚染を検出するための方法およびシステム
CN116042820B (zh) 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用
CN109097464B (zh) Cfap43基因的snp位点的应用
WO2024038396A1 (en) Method of detecting cancer dna in a sample
Michel et al. Non-invasive multi-cancer diagnosis using DNA hypomethylation of LINE-1 retrotransposons
CA3233741A1 (en) Microsatellite markers
WO2024107941A1 (en) Validation of a bioinformatic model for classifying non-tumor variants in a cell-free dna liquid biopsy assay

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant