CN110111840B - 一种体细胞突变检测方法 - Google Patents
一种体细胞突变检测方法 Download PDFInfo
- Publication number
- CN110111840B CN110111840B CN201910396731.5A CN201910396731A CN110111840B CN 110111840 B CN110111840 B CN 110111840B CN 201910396731 A CN201910396731 A CN 201910396731A CN 110111840 B CN110111840 B CN 110111840B
- Authority
- CN
- China
- Prior art keywords
- neural network
- network model
- fully
- connected neural
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 206010069754 Acquired gene mutation Diseases 0.000 title claims abstract description 23
- 230000037439 somatic mutation Effects 0.000 title claims abstract description 23
- 238000003062 neural network model Methods 0.000 claims abstract description 163
- 238000012549 training Methods 0.000 claims abstract description 111
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 76
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 54
- 210000001082 somatic cell Anatomy 0.000 claims abstract description 44
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 230000035772 mutation Effects 0.000 claims abstract description 25
- 210000004027 cell Anatomy 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 32
- 230000000392 somatic effect Effects 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 19
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000011478 gradient descent method Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000003745 diagnosis Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 4
- 238000007481 next generation sequencing Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 108700028369 Alleles Proteins 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- 238000013506 data mapping Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000024556 Mendelian disease Diseases 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Analytical Chemistry (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种体细胞突变检测方法。所述检测方法包括如下步骤:首先,获取体细胞序列集;提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征,获得样本数据集,并从所述样本数据集中选取第一训练集和第二训练集和测试集;然后,建立全连接神经网络模型;并利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证,获得训练后的全连接神经网络模型;最后,获取待检测的全基因组序列,并提取待检测的全基因组序列的描述基因组候选突变位点的特征,得到待检测数据;将所述待检测数据输入所述训练后的全连接神经网络模型进行检测,实现了突变基因的检测,进而提高肿瘤疾病诊断的准确性。
Description
技术领域
本发明涉及基因检测领域,特别涉及一种体细胞突变检测方法。
背景技术
目前对癌症基因组的研究通常要使用下一代测序技术(Next GenerationSequencing,NGS)来分析单个核苷酸变体(SNV)体细胞突变的肿瘤。使用NGS检测癌症的体细胞突变通常涉及到对肿瘤DNA和来自同一患者的非恶性(或正常)组织(通常是血液)的DNA进行测序。因此,以癌症为焦点的NGS实验在实验设计上与孟德尔紊乱或正常人类变异的研究有很大不同。在癌症研究中需要从两个匹配样本中读取的序列与一个参考人类基因组对齐,在测序过程中和对齐过程中很可能产生不可预知的错误,同时一些基因中的突变也并不是影响某一癌症的决定性因素。Samtools,SOAPsnp,VarScan,SNVMix,GATK,VipR等这些工具在肿瘤和正常数据中进行比较,找出那些出现在肿瘤中的变异,哪些不是正常的样本将被认为是体细胞突变,并为研究者提供一个候选名单,以跟踪功能影响和临床相关性。但是,这些简单的比对方法的准确度不高。因此从肿瘤基因数据中识别该种疾病的体细胞突变仍然是一个亟待解决的技术难题。
发明内容
本发明的目的是提供一种体细胞突变检测方法,以实现突变基因的检测,进而提高肿瘤疾病诊断的准确性。
为实现上述目的,本发明提供了如下方案:
本发明提供一种体细胞突变检测方法,所述检测方法包括如下步骤:
获取体细胞序列集,所述体细胞序列包括全基因组序列集和外显子基因序列集
提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征,获得样本数据集;所述样本数据集包括第一样本数据集和第二样本数据集;从所述全基因组序列集中提取的每个全基因组序列的描述基因组候选突变位点的特征,组成第一样本数据集;从所述外显子基因序列集中提取的每个外显子基因序列的描述基因组候选突变位点的特征,组成第二样本数据集;
从所述样本数据集中选取第一训练集和第二训练集和测试集;
建立全连接神经网络模型;
利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证,获得训练后的全连接神经网络模型;
获取待检测的全基因组序列,并提取待检测的全基因组序列的描述基因组候选突变位点的特征,得到待检测数据;
将所述待检测数据输入所述训练后的全连接神经网络模型进行检测。
可选的,所述提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征,具体包括:
获取健康体细胞基因序列;
根据所述健康体细胞基因序列,检测所述体细胞序列的质量,得到序列质量数据;
根据所述健康体细胞基因序列,对所述体细胞序列进行变异分析,得到变异分析数据;
根据所述序列质量数据和所述变异分析数据,获取信号增强数据;
获取肿瘤体细胞基因序列;
根据所述健康体细胞基因序列和所述肿瘤体胞基因序列,获取功能数据、分类数据和链偏置数据;
对所述序列质量数据、所述变异分析数据、所述信号增强数据、所述功能数据、所述分类数据和所述链偏置数据进行组合和编号,获得所述体细胞基因序列的描述基因组候选突变位点的特征。
可选的,所述根据所述健康体细胞基因序列和所述肿瘤体胞基因序列,获取功能数据、分类数据和链偏置数据,具体包括:
分别计算肿瘤体细胞基因序列的肿瘤部位与所述肿瘤部位的下一部位的基础质量的和及基础质量的和的平方,并分别计算所述肿瘤部位在所述健康体细胞基因序列中的对应部位与所述对应部位的下一部位的基础质量的和及基础质量的和的平方,得到功能数据;
对比区分出所述健康体细胞基因序列和所述肿瘤体细胞基因序列的差异,得到分类数据;
计算所述健康体细胞基因序列与所述肿瘤体细胞基因序列的链偏置,得到链偏置数据。
可选的,所述利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证,获得训练后的全连接神经网络模型,具体包括:
采用正态分布方法初始化所述全连接神经网络模型,得到初始化后的全连接神经网络模型;
根据所述第一训练集,采用ADAM梯度下降法,对所述初始化后的全连接神经网络模型进行预训练,得到预训练后的全连接神经网络模型;
根据所述第一训练集和所述第二训练集,采用ADAM梯度下降法,对所述预训练后的全连接神经网络模型进行训练,得到训练后的全连接神经网络模型;
将所述测试集输入所述训练后的全连接神经网络模型进行测试,得到测试结果;
计算所述测试结果的准确率;
判断所述测试结果的准确率是否达到百分之九十,得到第一判断结果;
若所述第一判断结果表示所述测试结果的准确率没有达到百分之九十,则将所述训练后的全连接神经网络模型设置为初始化后的全连接神经网络模型,返回步骤“根据所述第一训练集,采用ADAM梯度下降法,对所述初始化后的全连接神经网络模型进行预训练,得到预训练后的全连接神经网络模型”;
若所述第一判断结果表示所述测试结果的准确率达到百分之九十,则输出所述训练后的全连接神经网络模型。
可选的,所述全连接神经网络模型从输入至输出依次包括输入层、第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层和输出层;
所述第一隐藏层和所述第二隐藏层之间、所述第二隐藏层和所述第三隐藏层之间、所述第三隐藏层和所述第四隐藏层之间、所述第四隐藏层和所述输出层之间均设置有正规化层。
可选的,所述输入层、所述第一隐藏层、所述第二隐藏层和所述第三隐藏层的激活函数为tanh激活函数;所述第四隐藏层的激活函数为sigmoid激活函数。
可选的,采用正态分布方法初始化所述全连接神经网络模型,得到初始化后的全连接神经网络模型,具体包括:
采用Glorot正态分布初始化所述输入层、所述第一隐藏层、所述第二隐藏层和所述第三隐藏层;
采用LeCun正态分布初始化所述第四隐藏层。
可选的,所述根据所述第一训练集,采用ADAM梯度下降法,对所述初始化后的全连接神经网络模型进行预训练,得到预训练后的全连接神经网络模型,具体包括:
将所述第一训练集输入所述初始化后的全连接神经网络模型进行预训练,得到初始的预输出结果;
根据所述初始的预输出结果y0i,采用第一损失函数,计算初始的第一损失值;
采用公式更新所述初始化后的全连接神经网络模型的参数,得到更新后的第一全连接神经网络模型;其中,W表示全连接神经网络模型的特征值参数,b表示全连接神经网络模型的偏置参数;vdw和vdb分别表示全连接神经网络模型的Momentum参数的累计梯度量和平方累计量;sdw和sdb分别表示全连接神经网络模型的RMSProp参数的累计梯度量和平方累计量;α表示学习率;ε表示小正数;
将所述第一训练集输入所述更新后的第一全连接神经网络模型进行预训练,得到新的预输出结果;
根据所述新的预输出结果,采用第一损失函数,计算新的第一损失值;
判断所述新的第一损失值和所述初始的第一损失值的差值是否小于第一预设阈值,得到第二判断结果;
若所述第二判断结果表示所述新的第一损失值和所述初始的第一损失值的差值不小于所述第一预设阈值,则将所述新的第一损失值设置为第初始的第一损失值,将所述更新后的第一全连接神经网络模型设置为初始化后的全连接神经网络模型,返回步骤“采用公式更新所述初始化后的全连接神经网络模型的参数,得到更新后的第一全连接神经网络模型”;
若所述第二判断结果表示所述新的第一损失值和所述初始的第一损失值的差值小于所述第一预设阈值,则将更新后的第一全连接神经网络模型设置为预训练后的全连接神经网络模型。
可选的,所述根据所述第一训练集和所述第二训练集,采用ADAM梯度下降法,对所述预训练后的全连接神经网络模型进行训练,得到训练后的全连接神经网络模型,具体包括:
将所述第一训练集输入所述预训练后的全连接神经网络模型进行训练,得到初始的第一输出结果;
将所述第二训练集输入所述预训练后的全连接神经网络模型进行训练,得到初始的第二输出结果;
根据所述初始的第一输出结果和所述初始的第二输出结果,采用第二损失函数,计算初始的第二损失值;
将所述第一训练集输入所述更新后的第二全连接神经网络模型进行训练,得到新的第一输出结果;
将所述第二训练集输入所述更新后的第二全连接神经网络模型进行训练,得到新的第二输出结果;
根据所述新的第一输出结果和所述新的第二输出结果,采用第二损失函数,计算新的第二损失值;
判断所述新的第二损失值和所述初始的第二损失值的差值是否小于二预设阈值,得到第三判断结果;
若所述第三判断结果表示所述新的第二损失值和所述初始的第二损失值的差值不小于所述第二预设阈值,则将所述新的第二损失值设置为初始的第二损失值,将所述更新后的第二全连接神经网络模型设置为预训练后的全连接神经网络模型,返回步骤“采用公式更新所述预训练后的全连接神经网络模型的参数,得到更新后的第二全连接神经网络模型”;
若所述第三判断结果表示所述新的第二损失值和所述初始的第二损失值的差值小于所述第二预设阈值,则将所述更新后的第二全连接神经网络模型设置为训练后的全连接神经网络模型。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种体细胞突变检测方法。所述检测方法包括如下步骤:
首先,获取体细胞序列集;提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征,获得样本数据集,并从所述样本数据集中选取第一训练集和第二训练集和测试集;然后,建立全连接神经网络模型;并利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证,获得训练后的全连接神经网络模型;最后,获取待检测的全基因组序列,并提取待检测的全基因组序列的描述基因组候选突变位点的特征,得到待检测数据;将所述待检测数据输入所述训练后的全连接神经网络模型进行检测,实现了突变基因的检测,进而提高肿瘤疾病诊断的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种体细胞突变检测方法的流程图;
图2为本发明提供的体细胞序列的描述基因组候选突变位点的特征提取的方法示意图;
图3为本发明提供的全连接神经网络模型的结构示意图。
具体实施方式
本发明的目的是提供一种体细胞突变检测方法,以实现突变基因的检测,进而提高肿瘤疾病诊断的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对发明作进一步详细的说明。
如图1所示,本发明提供一种体细胞突变检测方法,所述检测方法包括如下步骤:
步骤101,获取体细胞序列集,所述体细胞序列包括全基因组序列集和外显子基因序列集
步骤102,提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征,获得样本数据集;所述样本数据集包括第一样本数据集和第二样本数据集;从所述全基因组序列集中提取的每个全基因组序列的描述基因组候选突变位点的特征,组成第一样本数据集;从所述外显子基因序列集中提取的每个外显子基因序列的描述基因组候选突变位点的特征,组成第二样本数据集;
如图2所示,提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征的具体步骤为:
获取健康体细胞基因序列。
根据所述健康体细胞基因序列,检测所述体细胞序列的质量,得到序列质量数据;进一步的,将体细胞序列与健康体细胞基因序列成对放入FastQC软件中进行序列质量检测,同时得到序列质量数据。将所述质量数据作为前40个特征,编号为1-40。
根据所述健康体细胞基因序列,对所述体细胞序列进行变异分析,得到变异分析数据;将Samtools工具对齐和除偏之后的体细胞序列与健康体细胞基因序列放入GATK(从高通量测序数据中分析变异信息的软件)中,得到GATK中的分析数据作为变异分析数据,编号为40-80。
获取肿瘤体细胞基因序列;根据所述健康体细胞基因序列和所述肿瘤体胞基因序列,获取功能数据、分类数据和链偏置数据;具体包括,分别计算肿瘤体细胞基因序列的肿瘤部位与所述肿瘤部位的下一部位的基础质量的和及基础质量的和的平方,并分别计算所述肿瘤部位在所述健康体细胞基因序列中的对应部位与所述对应部位的下一部位的基础质量的和及基础质量的和的平方,得到功能数据;对比区分出所述健康体细胞基因序列和所述肿瘤体细胞基因序列的差异,得到分类数据;计算所述健康体细胞基因序列与所述肿瘤体细胞基因序列的链偏置,得到链偏置数据。即,要考虑不同基因数据之间的深度差异,以及基因序列标记对于深度的影响(例如特征x2到x17),首先通过除以深度进行归一化。除了Samtools和GATK之外,还添加了几个注意到的可能导致***错误的特性。例如,在Meacham等人(2011a,b)的研究中,发现GGT序列经常被错误地排序为GGG。为了捕捉这个人工制品,计算了正常和肿瘤的当前部位和下一个部位的基础质量之和,以及当前部位和下一个部位的基础质量之和的平方。这些特性被定义为功能数据,编号为x81-84,还将可能产生错误的分类变量作为分类数据,编号为x85-95。此外,为了结合来自肿瘤和健康细胞数据的链偏置效应,定义了链偏置数据来估计合并后所述健康体细胞基因序列与所述肿瘤体细胞基因序列的链偏置,编号为x96-97。
根据所述序列质量数据和所述变异分析数据,获取信号增强数据,进一步的,为了增强微弱的信号,考虑那些未充分采样的罕见体细胞突变或肿瘤中一小部分细胞中发生的突变,同时减少种系多态性的影响,引入了信号增强数据,信号增强数据由前面的80个特征计算得到,编号为x98-106。具体的,x98.正链中肿瘤数据质量Phred评分大于等于13分的数量除以正常数据的值;x99.反链中肿瘤数据质量Phred评分大于等于13分的数量除以正常数据的值;x100.肿瘤数据的基因质量和除以正常数据的基因质量和;x101.肿瘤数据的基因质量平方和除以正常数据的基因质量和;x102.肿瘤数据的映射基因质量和除以正常数据的映射基因质量和;x103.肿瘤数据映射之后质量的平方和除以正常的数据映射之后质量平方和;x104.肿瘤数据的基因尾部距离和除以正常数据的基因尾部距离和;x105.肿瘤数据的基因尾部距离平方和除以正常数据的基因尾部距离平方和;x106.肿瘤数据的等位基因深度除以正常数据的等位基因深度。
步骤103,从所述样本数据集中选取第一训练集和第二训练集和测试集;具体的,分别从第一样本数据集和第二样本数据集中取出百分之十的数据组成测试集。第一样本数据集中剩余的数据组成第一训练集,第二样本数据集中剩余的数据组成第二训练集。
步骤104,建立全连接神经网络模型;如图3所示,所述全连接神经网络模型包括一个输入层1、四个隐藏层2(第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层)和一个输出层3;四个所述隐藏层2之间以及所述隐藏层2与所述输出层3之间均设置有正规化层4。每层的节点数分别为输入层1包括106个单元,第一隐藏层、第二隐藏层和第三隐藏层包括108个单元的神经元,第四隐藏层包括一个神经元,输出层3包括一个神经元,并给出结果(0到1之间的一个数值,越接近1代表可能性越大,大于0.5即预测为该种疾病的基因突变)。第四隐藏层采用sigmoid激活函数计算所述隐藏层的输出数据。使用sigmoid作为激活函数,可以将最后的输出值限制在0到1之间。大于0.5则预测为1,小于0.5则为0.其公式为:x为该层的输入值。输入层1、第一隐藏层、第二隐藏层和第三隐藏层采用tanh作为激活函数,tanh激活函数有梯度下降快,不容易梯度消失等特点,其公式为:x为该层的输入值。层正规化4对于每一层都设置了BatchNormal进行值范围的压缩,从而不让某一个值对整个网络产生过大的影响,其公式为:
步骤105,利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证,获得训练后的全连接神经网络模型;
具体包括:采用正态分布方法初始化所述全连接神经网络模型,得到初始化后的全连接神经网络模型。根据所述第一训练集,采用ADAM梯度下降法,对所述初始化后的全连接神经网络模型进行预训练,得到预训练后的全连接神经网络模型。根据所述第一训练集和所述第二训练集,采用ADAM梯度下降法,对所述预训练后的全连接神经网络模型进行训练,得到训练后的全连接神经网络模型。将所述测试集输入所述训练后的全连接神经网络模型进行测试,得到测试结果。计算所述测试结果的准确率。判断所述测试结果的准确率是否达到百分之九十,得到第一判断结果。若所述第一判断结果表示所述测试结果的准确率没有达到百分之九十,则将所述训练后的全连接神经网络模型设置为初始化后的全连接神经网络模型,返回步骤“根据所述第一训练集,采用ADAM梯度下降法,对所述初始化后的全连接神经网络模型进行预训练,得到预训练后的全连接神经网络模型”。若所述第一判断结果表示所述测试结果的准确率达到百分之九十,则输出所述训练后的全连接神经网络模型。
其中,采用正态分布方法初始化所述全连接神经网络模型,得到初始化后的全连接神经网络模型,具体包括:
采用Glorot正态分布初始化所述输入层、所述第一隐藏层、所述第二隐藏层和所述第三隐藏层;
采用LeCun正态分布初始化所述第四隐藏层。
采用Glorot正态分布初始化所述输入层、所述第一隐藏层、所述第二隐藏层和所述第三隐藏层;Glorot正态分布初始化也称作Xavier正态分布初始化,该分布的均值为0,标准差为:
其中,fan_in和fan_out为别为权重张量的扇入和扇出(即输入层和输出层的单元数目)。
采用LeCun正态分布初始化第四隐藏层。该分布的均值为0,标准差为:
其中fan_in是权重张量的扇入(即输入层的单元数目)。
根据所述第一训练集,采用ADAM梯度下降法,对所述初始化后的全连接神经网络模型进行预训练,得到预训练后的全连接神经网络模型,具体包括:将所述第一训练集输入所述初始化后的全连接神经网络模型进行预训练,得到初始的预输出结果y0i,i=1,2,…,n,n为输入的训练数据的数量;根据所述初始的预输出结果,采用第一损失函数,计算初始的第一损失值;采用公式更新所述初始化后的全连接神经网络模型的参数,得到更新后的第一全连接神经网络模型;其中,W表示全连接神经网络模型的特征值参数,b表示全连接神经网络模型的偏置参数;vdw和vdb分别表示全连接神经网络模型的Momentum参数的累计梯度量和平方累计量;sdw和sdb分别表示全连接神经网络模型的RMSProp参数的累计梯度量和平方累计量;α表示学***均在迭代开始的初期会导致和开始的值有较大的差异,所以需要对上面求得的几个值做偏差修正,可利用公式对vdw、sdw、vdb和sdb进行修正;将所述第一训练集输入所述更新后的第一全连接神经网络模型进行预训练,得到新的预输出结果;根据所述新的预输出结果,采用第一损失函数,计算新的第一损失值;判断所述新的第一损失值和所述初始的第一损失值的差值是否小于第一预设阈值,得到第二判断结果;若所述第二判断结果表示所述新的第一损失值和所述初始的第一损失值的差值不小于所述第一预设阈值,则将所述新的第一损失值设置为第初始的第一损失值,将所述更新后的第一全连接神经网络模型设置为初始化后的全连接神经网络模型,返回步骤“采用公式更新所述初始化后的全连接神经网络模型的参数,得到更新后的第一全连接神经网络模型”;若所述第二判断结果表示所述新的第一损失值和所述初始的第一损失值的差值小于所述第一预设阈值,则将更新后的第一全连接神经网络模型设置为预训练后的全连接神经网络模型。所述第一损失函数为逻辑斯谛损失函数,cost(hθ(x0),y0)=-y0ilog(hθ(x0))-(1-y0i)log(1-hθ(x0)),其中,y0i为本次迭代的输出结果,hθ(x0)为将第一训练集中的样本x0输入初始化后的全连接神经网络模型得到的预测输出结果。
根据所述第一训练集和所述第二训练集,采用ADAM梯度下降法,对所述预训练后的全连接神经网络模型进行训练,得到训练后的全连接神经网络模型,具体包括:将所述第一训练集输入所述预训练后的全连接神经网络模型进行训练,得到初始的第一输出结果;将所述第二训练集输入所述预训练后的全连接神经网络模型进行训练,得到初始的第二输出结果;根据所述初始的第一输出结果和所述初始的第二输出结果,采用第二损失函数,计算初始的第二损失值;采用公式更新所述预训练后的全连接神经网络模型的参数,得到更新后的第二全连接神经网络模型;将所述第一训练集输入所述更新后的第二全连接神经网络模型进行训练,得到新的第一输出结果;将所述第二训练集输入所述更新后的第二全连接神经网络模型进行训练,得到新的第二输出结果;根据所述新的第一输出结果和所述新的第二输出结果,采用第二损失函数,计算新的第二损失值;判断所述新的第二损失值和所述初始的第二损失值的差值是否小于二预设阈值,得到第三判断结果;若所述第三判断结果表示所述新的第二损失值和所述初始的第二损失值的差值不小于所述第二预设阈值,则将所述新的第二损失值设置为初始的第二损失值,将所述更新后的第二全连接神经网络模型设置为预训练后的全连接神经网络模型,返回步骤“采用公式更新所述预训练后的全连接神经网络模型的参数,得到更新后的第二全连接神经网络模型”;若所述第三判断结果表示所述新的第二损失值和所述初始的第二损失值的差值小于所述第二预设阈值,则将所述更新后的第二全连接神经网络模型设置为训练后的全连接神经网络模型。其中,第二损失函数为:f(x)=0.7cost(hθ(x1),y1)+0.3cost(hθ(x2),y2),cost(·)为第一损失函数(逻辑斯谛损失函数),cost(hθ(x1),y1)为第一训练集中的样本x1输入预训练后的全连接神经网络模型进行训练的损失函数值,cost(hθ(x2),y2)为第二训练集中的样本x2输入预训练后的全连接神经网络模型进行训练的损失函数值。即,第二损失函数f(x)为第一训练集的损失与第二训练集的损失的权值加和,第一训练集的权重值为0.7,第二训练集的权重值为0.3。
步骤106,获取待检测的全基因组序列,并提取待检测的全基因组序列的描述基因组候选突变位点的特征,得到待检测数据;
步骤107,将所述待检测数据输入所述训练后的全连接神经网络模型进行检测。
本发明的体细胞突变检测方法是一种基于序列特征提取和神经网络的体细胞突变检测方法,可以通过将待检测基因序列和健康的基因序列特征提取后的特征放入模型中进行预测,较为准确的预测出待检测细胞基因序列为该病症基因突变的可能性。使用新一代深度学习方法中的分类方法训练基于特征的分类器,可以更好地优化每个特征对区分真假阳性体细胞突变预测的贡献。将分类器与大量的真值数据相匹配,能够区分由于不同原因可能被预测的误报数据,从而更全面地理解由数据提供信息。与肿瘤数据相比,最能识别体细胞突变的特征在正常数据中的重要性是不同的,因此对肿瘤和正常数据的综合分析将比独立处理这两个数据集会产生更好的结果。最后,随着生物信息学的成熟,灵活的基于特征的分类器可以使用任意数量的来自不同软件包的特征组合,从而可以不断提高体细胞突变预测的准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
Claims (7)
1.一种体细胞突变检测方法,其特征在于,所述检测方法包括如下步骤:
获取体细胞序列集,所述体细胞序列包括全基因组序列集和外显子基因序列集;
提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征,获得样本数据集;所述样本数据集包括第一样本数据集和第二样本数据集;从所述全基因组序列集中提取的每个全基因组序列的描述基因组候选突变位点的特征,组成第一样本数据集;从所述外显子基因序列集中提取的每个外显子基因序列的描述基因组候选突变位点的特征,组成第二样本数据集;
从所述样本数据集中选取第一训练集和第二训练集和测试集;
建立全连接神经网络模型;
利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证,获得训练后的全连接神经网络模型;
获取待检测的全基因组序列,并提取待检测的全基因组序列的描述基因组候选突变位点的特征,得到待检测数据;
将所述待检测数据输入所述训练后的全连接神经网络模型进行检测;
所述利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证,获得训练后的全连接神经网络模型,具体包括:
采用正态分布方法初始化所述全连接神经网络模型,得到初始化后的全连接神经网络模型;
根据所述第一训练集,采用ADAM梯度下降法,对所述初始化后的全连接神经网络模型进行预训练,得到预训练后的全连接神经网络模型;
根据所述第一训练集和所述第二训练集,采用ADAM梯度下降法,对所述预训练后的全连接神经网络模型进行训练,得到训练后的全连接神经网络模型;
将所述测试集输入所述训练后的全连接神经网络模型进行测试,得到测试结果;
计算所述测试结果的准确率;
判断所述测试结果的准确率是否达到百分之九十,得到第一判断结果;
若所述第一判断结果表示所述测试结果的准确率没有达到百分之九十,则将所述训练后的全连接神经网络模型设置为初始化后的全连接神经网络模型,返回步骤“根据所述第一训练集,采用ADAM梯度下降法,对所述初始化后的全连接神经网络模型进行预训练,得到预训练后的全连接神经网络模型”;
若所述第一判断结果表示所述测试结果的准确率达到百分之九十,则输出所述训练后的全连接神经网络模型;
所述根据所述第一训练集,采用ADAM梯度下降法,对所述初始化后的全连接神经网络模型进行预训练,得到预训练后的全连接神经网络模型,具体包括:
将所述第一训练集输入所述初始化后的全连接神经网络模型进行预训练,得到初始的预输出结果;
根据所述初始的预输出结果,采用第一损失函数,计算初始的第一损失值;
采用公式更新所述初始化后的全连接神经网络模型的参数,得到更新后的第一全连接神经网络模型;其中,W表示全连接神经网络模型的特征值参数,b表示全连接神经网络模型的偏置参数;vdw和vdb分别表示全连接神经网络模型的Momentum参数的累计梯度量和平方累计量;sdw和sdb分别表示全连接神经网络模型的RMSProp参数的累计梯度量和平方累计量;α表示学习率;ε表示小正数;
将所述第一训练集输入所述更新后的第一全连接神经网络模型进行预训练,得到新的预输出结果;
根据所述新的预输出结果,采用第一损失函数,计算新的第一损失值;
判断所述新的第一损失值和所述初始的第一损失值的差值是否小于第一预设阈值,得到第二判断结果;
若所述第二判断结果表示所述新的第一损失值和所述初始的第一损失值的差值不小于所述第一预设阈值,则将所述新的第一损失值设置为第初始的第一损失值,将所述更新后的第一全连接神经网络模型设置为初始化后的全连接神经网络模型,返回步骤“采用公式更新所述初始化后的全连接神经网络模型的参数,得到更新后的第一全连接神经网络模型”;
若所述第二判断结果表示所述新的第一损失值和所述初始的第一损失值的差值小于所述第一预设阈值,则将更新后的第一全连接神经网络模型设置为预训练后的全连接神经网络模型。
2.根据权利要求1所述的一种体细胞突变检测方法,其特征在于,所述提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征,具体包括:
获取健康体细胞基因序列;
根据所述健康体细胞基因序列,检测所述体细胞序列的质量,得到序列质量数据;
根据所述健康体细胞基因序列,对所述体细胞序列进行变异分析,得到变异分析数据;
根据所述序列质量数据和所述变异分析数据,获取信号增强数据;
获取肿瘤体细胞基因序列;
根据所述健康体细胞基因序列和所述肿瘤体细 胞基因序列,获取功能数据、分类数据和链偏置数据;
对所述序列质量数据、所述变异分析数据、所述信号增强数据、所述功能数据、所述分类数据和所述链偏置数据进行组合和编号,获得所述体细胞序列的描述基因组候选突变位点的特征。
3.根据权利要求2所述的一种体细胞突变检测方法,其特征在于,所述根据所述健康体细胞基因序列和所述肿瘤体胞基因序列,获取功能数据、分类数据和链偏置数据,具体包括:
分别计算肿瘤体细胞基因序列的肿瘤部位与所述肿瘤部位的下一部位的基础质量的和及基础质量的和的平方,并分别计算所述肿瘤部位在所述健康体细胞基因序列中的对应部位与所述对应部位的下一部位的基础质量的和及基础质量的和的平方,得到功能数据;
对比区分出所述健康体细胞基因序列和所述肿瘤体细胞基因序列的差异,得到分类数据;
计算所述健康体细胞基因序列与所述肿瘤体细胞基因序列的链偏置,得到链偏置数据。
4.根据权利要求1所述的一种体细胞突变检测方法,其特征在于,所述全连接神经网络模型从输入至输出依次包括输入层、第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层和输出层;
所述第一隐藏层和所述第二隐藏层之间、所述第二隐藏层和所述第三隐藏层之间、所述第三隐藏层和所述第四隐藏层之间、所述第四隐藏层和所述输出层之间均设置有正规化层。
5.根据权利要求4所述的一种体细胞突变检测方法,其特征在于,所述输入层、所述第一隐藏层、所述第二隐藏层和所述第三隐藏层的激活函数为tanh激活函数;所述第四隐藏层的激活函数为sigmoid激活函数。
6.根据权利要求4所述的一种体细胞突变检测方法,其特征在于,采用正态分布方法初始化所述全连接神经网络模型,得到初始化后的全连接神经网络模型,具体包括:
采用Glorot正态分布初始化所述输入层、所述第一隐藏层、所述第二隐藏层和所述第三隐藏层;
采用LeCun正态分布初始化所述第四隐藏层。
7.根据权利要求1所述的一种体细胞突变检测方法,其特征在于,所述根据所述第一训练集和所述第二训练集,采用ADAM梯度下降法,对所述预训练后的全连接神经网络模型进行训练,得到训练后的全连接神经网络模型,具体包括:
将所述第一训练集输入所述预训练后的全连接神经网络模型进行训练,得到初始的第一输出结果;
将所述第二训练集输入所述预训练后的全连接神经网络模型进行训练,得到初始的第二输出结果;
根据所述初始的第一输出结果和所述初始的第二输出结果,采用第二损失函数,计算初始的第二损失值;
将所述第一训练集输入所述更新后的第二全连接神经网络模型进行训练,得到新的第一输出结果;
将所述第二训练集输入所述更新后的第二全连接神经网络模型进行训练,得到新的第二输出结果;
根据所述新的第一输出结果和所述新的第二输出结果,采用第二损失函数,计算新的第二损失值;
判断所述新的第二损失值和所述初始的第二损失值的差值是否小于第二预设阈值,得到第三判断结果;
若所述第三判断结果表示所述新的第二损失值和所述初始的第二损失值的差值不小于所述第二预设阈值,则将所述新的第二损失值设置为初始的第二损失值,将所述更新后的第二全连接神经网络模型设置为预训练后的全连接神经网络模型,返回步骤“采用公式更新所述预训练后的全连接神经网络模型的参数,得到更新后的第二全连接神经网络模型”;
若所述第三判断结果表示所述新的第二损失值和所述初始的第二损失值的差值小于所述第二预设阈值,则将所述更新后的第二全连接神经网络模型设置为训练后的全连接神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910396731.5A CN110111840B (zh) | 2019-05-14 | 2019-05-14 | 一种体细胞突变检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910396731.5A CN110111840B (zh) | 2019-05-14 | 2019-05-14 | 一种体细胞突变检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110111840A CN110111840A (zh) | 2019-08-09 |
CN110111840B true CN110111840B (zh) | 2021-04-09 |
Family
ID=67489981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910396731.5A Expired - Fee Related CN110111840B (zh) | 2019-05-14 | 2019-05-14 | 一种体细胞突变检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110111840B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598801A (zh) * | 2019-09-24 | 2019-12-20 | 东北大学 | 一种基于卷积神经网络的车型识别方法 |
CN112687329B (zh) * | 2019-10-17 | 2024-05-17 | 中国科学技术大学 | 一种基于非癌组织突变信息的癌症预测***及其构建方法 |
CN110931082A (zh) * | 2019-12-12 | 2020-03-27 | 爱尔生基因医学科技有限公司 | 一种用于基因检测评估的方法及*** |
CN110993028B (zh) * | 2019-12-17 | 2022-03-29 | 清华大学 | 突变数据识别方法、训练方法、处理装置及存储介质 |
WO2023129936A1 (en) * | 2021-12-29 | 2023-07-06 | AiOnco, Inc. | System and method for text-based biological information processing with analysis refinement |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980763A (zh) * | 2017-03-30 | 2017-07-25 | 大连理工大学 | 一种基于基因突变频率的癌症驱动基因的筛选方法 |
CN106980899A (zh) * | 2017-04-01 | 2017-07-25 | 北京昆仑医云科技有限公司 | 预测血管树血管路径上的血流特征的深度学习模型和*** |
CN107304442A (zh) * | 2016-04-19 | 2017-10-31 | 汪建平 | 检测kras基因4号外显子密码子突变的引物对、试剂盒及方法 |
CN107316066A (zh) * | 2017-07-28 | 2017-11-03 | 北京工商大学 | 基于多通路卷积神经网络的图像分类方法及*** |
CN108983973A (zh) * | 2018-07-03 | 2018-12-11 | 东南大学 | 一种基于手势识别的仿人灵巧肌电假手控制方法 |
-
2019
- 2019-05-14 CN CN201910396731.5A patent/CN110111840B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107304442A (zh) * | 2016-04-19 | 2017-10-31 | 汪建平 | 检测kras基因4号外显子密码子突变的引物对、试剂盒及方法 |
CN106980763A (zh) * | 2017-03-30 | 2017-07-25 | 大连理工大学 | 一种基于基因突变频率的癌症驱动基因的筛选方法 |
CN106980899A (zh) * | 2017-04-01 | 2017-07-25 | 北京昆仑医云科技有限公司 | 预测血管树血管路径上的血流特征的深度学习模型和*** |
CN107316066A (zh) * | 2017-07-28 | 2017-11-03 | 北京工商大学 | 基于多通路卷积神经网络的图像分类方法及*** |
CN108983973A (zh) * | 2018-07-03 | 2018-12-11 | 东南大学 | 一种基于手势识别的仿人灵巧肌电假手控制方法 |
Non-Patent Citations (2)
Title |
---|
"Deep convolutional neural networks for accurate somatic mutation detection";Sayed Mohammad Ebrahim Sahraeian,Ruolin Liu et al.;《nature communications》;20190304;第1-10页 * |
Sayed Mohammad Ebrahim Sahraeian,Ruolin Liu et al.."Deep convolutional neural networks for accurate somatic mutation detection".《nature communications》.2019, * |
Also Published As
Publication number | Publication date |
---|---|
CN110111840A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111840B (zh) | 一种体细胞突变检测方法 | |
CN109994151B (zh) | 基于复杂网络与机器学习方法的肿瘤驱动基因预测*** | |
CN111462823B (zh) | 一种基于dna测序数据的同源重组缺陷判定方法 | |
CN111785328B (zh) | 基于门控循环单元神经网络的冠状病毒序列识别方法 | |
CN103678954B (zh) | 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法 | |
CN111180013B (zh) | 检测血液病融合基因的装置 | |
CN109801681B (zh) | 一种基于改进的模糊聚类算法的snp选择方法 | |
Huang et al. | Cause of gene tree discord? Distinguishing incomplete lineage sorting and lateral gene transfer in phylogenetics | |
CN108460248B (zh) | 一种基于Bionano平台检测长串联重复序列的方法 | |
CN112233722B (zh) | 品种鉴定的方法、其预测模型的构建方法和装置 | |
KR20210110241A (ko) | 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법 | |
AU2022218581B2 (en) | Sequencing data-based itd mutation ratio detecting apparatus and method | |
CN109147936B (zh) | 基于深度学习的非编码rna与疾病之间关联的预测方法 | |
Nijman et al. | Performance of distance-based DNA barcoding in the molecular identification of Primates | |
KR102376212B1 (ko) | 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 | |
CN116364179A (zh) | 结直肠癌预后标志物筛选***及方法、结直肠癌预后风险评估*** | |
Le et al. | Expanding Polygenic Risk Scores to Include Automatic Genotype Encodings and Gene-gene Interactions. | |
Hejase et al. | Sia: Selection inference using the ancestral recombination graph | |
Gong et al. | Interpretable single-cell transcription factor prediction based on deep learning with attention mechanism | |
CN108959843B (zh) | 靶向rna的化学小分子药物计算机筛选方法 | |
CN109390057B (zh) | 一种基于多目标优化的疾病模块检测方法 | |
KR101853916B1 (ko) | 단백질 도메인의 생물경로 특이성 판단 방법, 및 이를 이용한 질병 유전자 발굴 방법 | |
CN111733229A (zh) | 一种精神***症遗传风险分型试剂盒及分型装置 | |
CN116959561B (zh) | 一种基于神经网络模型的基因相互作用预测方法和装置 | |
Mohammed et al. | Novel algorithms for accurate DNA base-calling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210409 |