CN116486910A - 纳米孔测序碱基识别的深度学习训练集建立方法及其应用 - Google Patents
纳米孔测序碱基识别的深度学习训练集建立方法及其应用 Download PDFInfo
- Publication number
- CN116486910A CN116486910A CN202211268928.9A CN202211268928A CN116486910A CN 116486910 A CN116486910 A CN 116486910A CN 202211268928 A CN202211268928 A CN 202211268928A CN 116486910 A CN116486910 A CN 116486910A
- Authority
- CN
- China
- Prior art keywords
- dna
- neural network
- sequence
- current signal
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000007672 fourth generation sequencing Methods 0.000 title claims abstract description 29
- 238000013135 deep learning Methods 0.000 title claims abstract description 9
- 108020004414 DNA Proteins 0.000 claims abstract description 97
- 239000012634 fragment Substances 0.000 claims abstract description 51
- 238000003062 neural network model Methods 0.000 claims abstract description 39
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 24
- 238000012163 sequencing technique Methods 0.000 claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 4
- 238000001976 enzyme digestion Methods 0.000 claims description 2
- 238000002604 ultrasonography Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 4
- 229920000642 polymer Polymers 0.000 description 4
- 238000012408 PCR amplification Methods 0.000 description 3
- 239000000823 artificial membrane Substances 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011148 porous material Substances 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 102000053602 DNA Human genes 0.000 description 2
- 241000701959 Escherichia virus Lambda Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 108091006146 Channels Proteins 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 102000004310 Ion Channels Human genes 0.000 description 1
- 108090000862 Ion Channels Proteins 0.000 description 1
- 108010013381 Porins Proteins 0.000 description 1
- 102000017033 Porins Human genes 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000008151 electrolyte solution Substances 0.000 description 1
- 229940021013 electrolyte solution Drugs 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biotechnology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了纳米孔测序碱基识别的深度学习训练集建立方法及其应用。本发明通过进行两次测序,第一次测序测量完整的模板DNA序列的一条电流信号;第二次将全部的片段DNA同时测序,获得尽量多的电流信号后,将每条片段DNA的电流信号与模板电流信号依次进行电流波形匹配,使用信号匹配算法获得片段DNA电流信号在模板电流信号上的起始和终止位置,推算片段DNA的碱基序列,将每条片段DNA的电流信号和碱基序列一一配对,形成初始训练数据集。使用本发明所述方法成功建立了初始神经网络模型,并完成神经网络模型迭代,准确度可达92.03%。本发明实验难度较低,且操作简便,经济成本、时间成本和人力成本均较低。
Description
技术领域
本发明涉及生物学基因测序领域,特别涉及一种纳米孔测序碱基识别的深度学习训练集建立方法及其应用。
背景技术
纳米孔测序技术是用于取代基于聚合酶链式反应的新型核酸检测技术,纳米孔测序的原理如图1(a)所示,将纳米孔(蛋白孔或者固态孔)嵌在绝缘的人工膜上形成离子通道,人工膜两侧充满电解质溶液,人工膜的两侧设置有电极1和电极2,电极1和电极2两端的电势差在纳米孔的孔道内形成过孔电流。当聚合物链(如单链DNA、RNA、蛋白质等)通过纳米孔时,由于聚合物链上不同单体(如DNA链上的碱基A、T、G、C)的阻抗不同,在聚合物链通过纳米孔时过孔电流被调制,得到如图1(b)所示的过孔电流信号,通过检测过孔电流的变化可以推导出聚合物的序列构成。由于纳米孔测序的序列读长长、使用简便、可进行RNA直接测序等优势,近年来广受重视。
以DNA测序和生物纳米孔为例,由于孔蛋白电流限制区存在一定厚度,一般为4~6个碱基,因此过孔电流的大小取决于相邻的4~6个碱基的共同作用,以共同作用的碱基数量表征纳米孔电流的模型被称为k-mer模型(k=4~6)。以4-mer模型为例,如图2所示,过孔序列ATCGGATCGTCA中相邻的每4个碱基决定了过孔电流曲线上的一个特征电平。
图2所示的4-mer模型是理想化模型,但是,在实际的纳米孔测序技术中,某一时刻的测序信号不仅取决于纳米孔限制区内容纳的4~6个碱基,而且与前后的碱基序列都有关系。纳米孔的直径约1~2nm,因此过孔电流很小(不同的碱基组合过孔电流在40~140pA范围内,即过孔电流的信号范围约100pA),采集得到的实际电流信号如图1(b)所示,信噪比较低。当k=5~6时,5~6个碱基组合的可能性有1024~4096种,在典型的纳米孔测序信号的噪声水平(约2pA)下,100pA的信号范围中通过电流的幅值来识别过孔DNA序列的准确度较低。
纳米孔测序的碱基识别方法经过近十年的发展,其演进过程大致可以分成三个阶段:第一阶段:由于DNA序列在通过纳米孔时产生的特征信号是台阶形式的,因此首先通过T检验等统计学方法识别出原始信号中的台阶,一个台阶被称为一个事件,再通过隐马尔可夫模型对可能的事件序列以发射矩阵和过渡矩阵进行建模和预测,实现碱基序列识别,典型的做法如申请号为201280057564的专利文献记载;第二阶段:首先通过T检验等统计学方法识别出原始信号中的事件,再将事件作为基于深度学习的神经网络的输入,通过神经网络进行碱基识别;第三阶段:通过端到端的神经网络来进行碱基识别,如图3所示,为一种端到端的神经网络,由一维卷积(Conv1d)、整流线性单元激活函数(ReLU)、长短期记忆网络(LSTM)、全连接层(Full Connection)、LogSoftmax函数和联结时间分类器(CTC)构成。将原始电流信号输入训练后的端到端神经网络模型后,端到端神经网络模型可以一步到位直接输出识别后的碱基序列,无需对电流信号进行事件识别。
端到端的神经网络拥有最高的碱基解码准确率,是当前纳米孔测序碱基识别的主流方法。神经网络需要经过事先的训练才能最大化碱基解码的准确率,而训练神经网络需要大量正确的电流信号和碱基序列一一配对的训练数据集。建立纳米孔测序训练数据集是一个鸡生蛋、蛋生鸡的过程,因为:第一,不同纳米孔的k-mer模型不一样,即不同的纳米孔测量同一个碱基序列的电流变化模式不同,为纳米孔A建立的训练数据集和训练好的神经网络是无法用于纳米孔B的,因此,必须为每种纳米孔针对性地建立训练数据集并训练神经网络;第二,纳米孔电流信号的信噪比低且非常复杂,无法对电流信号进行人工识别或标注,因此针对一种新的纳米孔,在还没有可用于碱基识别手段时,如何从零建立训练数据集是一个难点。
申请号为201280057564的专利文献公开了两种适用于隐马尔可夫模型的训练数据集建立方法,一是静态方法,通过设计并合成特殊序列使得特定的k-mer序列悬停在纳米孔的限制区处,用于测量特定k-mer的过孔电流;二是动态方法,通过测量特定DNA序列来迭代隐马尔可夫模型的发射矩阵和过渡矩阵。但是,上述方法存在以下不足:1、隐马尔可夫模型的碱基解码精度较低;2、需要合成特殊的DNA序列,而且为了确定当下测量的是哪条序列,必须每条序列单独测量,不能混合检测,经济成本、时间成本和人力成本都较高。
发明内容
为了改善现有技术的不足,本发明的目的是提供一种便捷的、低成本的用于纳米孔测序碱基识别的深度学习训练集建立方法及其应用。
本发明采用下述技术方案实现上述目的:
第一方面,本发明提供一种用于纳米孔测序碱基识别的深度学习训练数据集建立方法,包括如下步骤:
A.选取序列已知的模板DNA,测量模板DNA的纳米孔测序电流信号,从测量结果中选取一条作为模板电流信号;
B.测量若干条序列包含在模板DNA序列中的片段DNA的纳米孔测序电流信号,依次比对每条片段DNA、模板DNA的电流信号,获取片段DNA的碱基序列,得到初始训练数据集;
C.将初始训练集导入神经网络进行训练,得到初始神经网络模型。
根据本发明的实施方案,步骤B中所述依次比对每条片段DNA、模板DNA的电流信号,获取片段DNA的碱基序列,得到初始训练数据集,包括如下步骤:将每条片段DNA的电流信号与模板电流信号通过信号匹配算法进行电流波形匹配,获得片段DNA电流信号在模板电流信号上的起始和终止位置,推算片段DNA的碱基序列,将每条片段DNA的电流信号和碱基序列一一配对,形成初始训练数据集。
根据本发明的实施方案,步骤C中将初始训练数据集导入神经网络进行训练,得到初始神经网络模型包括如下步骤:基于初始训练数据集,对神经网络进行N次模型训练,得到满足预设条件的目标模型,其中,所述N为大于等于1的整数。
根据本发明的实施方案,所述目标模型为N次训练中预测准确度最高的神经网络模型。
根据本发明的实施方案,所述模板DNA包括碱基序列长度为200-2000000nt,优选所述模板DNA包括碱基序列长度大于10000nt的DNA序列,进一步优选所述模板DNA包括碱基序列长度大于40000nt的DNA序列,例如所述模板DNA选自序列长度为48502nt的lambdaDNA。
根据本发明的实施方案,步骤B中片段DNA是通过将模板DNA随机打断或人工选定位点打断获得。
根据本发明的实施方案,将所述模板DNA随机打断包括如下步骤:将模板DNA样品随机打断成若干片段DNA,例如通过超声随机打断。
根据本发明的实施方案,将所述模板DNA按照选定位点打断包括如下步骤:在模板DNA序列中选定若干起始位置和结束位置,通过酶切或PCR方式打断。
根据本发明的实施方案,将若干片段DNA进行PCR扩增包括以下步骤:设计所述片段DNA对应的PCR引物,按DNA的起始位置和结束位置进行PCR扩增。
根据本发明的实施方案,所述信号匹配算法选用动态时间规整算法、衍生动态时间规整算法、复杂度不变距离算法、时间规整编辑算法中的至少一种。
根据本发明的实施方案,所述测量模板DNA的纳米孔测序电流信号之后,从测量结果中选取一段作为模板电流信号之前,还包括如下步骤:将电流信号进行归一化处理得归一化电流信号。
由于神经网络使用了联结时间分类器,因此训练集只需给出每条片段的电流信号和对应的碱基序列,无需标注出每个碱基的具***置。因此初始训练数据集可以直接用于神经网络的训练获得初始神经网络模型。
第二方面,本发明提供一种采用第一方面的方法获得的初始神经网络模型完成一次神经网络模型迭代的方法,包括如下步骤:
S1.使用纳米孔测序仪对至少一种序列已知的物种基因组进行纳米孔测序,得到电流信号;
S2.使用初始神经网络模型对S1中获得的全部电流信号进行碱基识别,得到对应的碱基序列,将所测得的每个碱基序列与模板的已知序列进行比对;
S3.分析序列比对的准确率,如果准确率满足设置的准确率阈值则结束迭代流程,否则转入步骤S4,继续迭代;
S4.将比对成功的碱基序列作为“真值”,与对应的测序电流信号配对,形成新一代训练数据集;
S5.使用新一代训练数据集对神经网络进行训练,生成新一代神经网络模型。
根据本发明的实施方案,所述阈值根据实际需要设置,例如所阈值≥90%,优选所述阈值≥92%。
根据本发明的实施方案,步骤S5之后还包括如下步骤:重复S2的过程,使用新一代神经网络模型替代初始神经网络模型,转入步骤S2。
第三方面,本发明提供一种采用第一方面的方法获得的初始神经网络模型或第二方面的方法获得的神经网络模型在纳米孔测序碱基识别中的应用。
有益效果
本发明的优点在于:第一,一步到位生成用于碱基识别神经网络的训练数据集,模板DNA序列可以直接使用长度合适的细菌或病毒基因组,模板DNA序列的长度较长,训练数据集的信息量丰富。使用本发明所述方法成功建立了初始神经网络模型,并完成神经网络模型迭代,准确度可达92.03%。第二,本发明仅需要进行两次测序,第一次测序测量完整的模板DNA序列的一条电信号;第二次将全部的片段DNA同时测序,获得尽量多的电信号;本发明无需合成特殊的DNA序列样品,同时,还能够对获得的片段DNA进行混合检测。实验难度较低,且操作简便,经济成本、时间成本和人力成本均较低。
附图说明
图1为纳米孔测序的原理示意图;
图2为4-mer模型过孔序列与过孔电流之间的关系示意图;
图3为用于碱基识别的端到端的深度学习神经网络的结构示意图;
图4为通过模板与片段DNA电流信号匹配的方法形成初始训练集并训练初始神经网络的步骤示意图;
图5为循环迭代神经网络模型提高解码准确率的步骤示意图;
图6(a)为模板DNA的纳米孔测序电流信号;(b)为随机打断的片段DNA的纳米孔测序电流信号;(c)为片段DNA的电流信号在模板上的匹配位置;
图7为实施例1中纳入训练集的序列长度分布图;
图8为实施例2中片段DNA在模板上的起始位置和长度分布图;
图9为实施例3中一条测序信号碱基识别结果与参考基因组的匹配图。
具体实施方式
下文将结合具体实施例对本发明的方法和应用做更进一步的详细说明。应当理解,下列实施例仅为示例性地说明和解释本发明,而不应被解释为对本发明保护范围的限制。凡基于本发明上述内容所实现的技术均涵盖在本发明旨在保护的范围内。
实施例1
使用500μg/ml lambda DNA(分离自噬菌体lambda cI857ind 1 Sam 7)作为模板DNA样品进行建库,序列全长48502nt,模板碱基序列精确已知(参见https://international.neb.com/-/media/nebus/page-images/tools-and-resources/interactive-tools/dna-sequences-and-maps/text-documents/lambdafsa.txt)。
S11、通过MinION纳米孔测序仪和Flongle测序芯片测量整条模板DNA的电流信号,将电流信号模板进行归一化处理,得到如图6(a)所示的归一化电流信号。
S12、将模板DNA样品使用超声破碎仪随机打断成为若干长度为200~2000nt的片段DNA,并将打断后的片段DNA建库,,通过纳米孔测序仪测量获得一定数量片段DNA的电流信号,本实施例中共获取了5184条片段DNA的电信号。如图6(b)所示,为其中1条片段DNA的电流信号。
S13、使用动态时间规整算法(Dynamic Time Warping,简称DTW)将当前片段DNA的电流信号与模板DNA的电流信号进行匹配,参见图6(c)所示,为将图6(b)中的片段DNA信号与模板DNA电流信号匹配的位置图,经比对可知,片段DNA在模板上的起始位置为50.5917秒,结束位置为52.1078秒。
S14、由于纳米孔测序DNA的过孔速度大体是匀速的,模板DNA序列全长48502nt,电信号长度102.4357秒,平均过孔速度为473.4870nt/s,因此,推算片段DNA对应的碱基序列为模板DNA第23955nt到第24672nt区间内的序列,取出对应序列与片段DNA的电流信号配对作为训练数据并纳入训练数据集。
S15、选择另1条片段DNA,重复步骤S13-S14,得到训练数据并纳入训练数据集。
S16、重复步骤S13-S15至完成所有共5184条片段DNA的电流信号和碱基序列配对,将所有训练数据纳入训练数据集,形成初始训练数据集,初始训练集中碱基序列的长度分布如图7所示。
使用步骤S16建立好的初始训练数据集训练图3所示的神经网络,训练结果如表1所示,选择第3次迭代的结果作为初始神经网络模型。
表1实施例1的神经网络训练结果
训练轮数 | 训练损失值 | 验证损失值 | 验证准确率 |
1 | 0.4246 | 0.8295 | 81.24% |
2 | 0.3036 | 0.8569 | 80.05% |
3 | 0.1768 | 0.8229 | 82.84% |
4 | 0.1204 | 0.9322 | 81.65% |
5 | 0.0892 | 1.0664 | 79.44% |
实施例2
使用500μg/ml lambda DNA(分离自噬菌体lambda cI857ind 1 Sam 7)作为模板DNA进行建库,序列全长48502nt,模板序列精确已知。
S21、通过MinION纳米孔测序仪和Flongle测序芯片测量整条模板DNA的电流信号,并选择一条电流信号作为模板。
S22、如表2所示,在模板DNA序列中选取12组片段DNA的起始和结束位置,每个片段DNA的长度约为4000个碱基。设计对应的PCR引物,对片段DNA序列按照表2中的起始与结束位置进行PCR扩增,将12组PCR产物混合形成待测样品。
S23、通过纳米孔测序仪对待测样品进行纳米孔测序,记录待测样品中片段DNA的电流信号,12种片段DNA的序列已知,但每条电流信号是12种序列当中的哪一种未知,使用DTW算法将每条片段DNA的电流信号与模板DNA的电流信号进行匹配。
S24、获得每个片段DNA在模板上的起始位置和结束位置,如图8所示为匹配得到569条片段DNA电流信号在模板信号上的起始位置和信号长度分布,片段DNA的分布集中在图中的12个位置,从图中可以很清楚判断某条片段DNA所对应表2中的模板序列区间。
S25、将每条片段DNA的电流信号与对应碱基序列配对,纳入初始训练数据集。
表2模板序列中PCR的起始与结束位置
编号 | 起始位置 | 结束位置 |
1 | 1 | 4011 |
2 | 3996 | 8062 |
3 | 8046 | 12084 |
4 | 12067 | 16156 |
5 | 16143 | 20363 |
6 | 20345 | 24199 |
7 | 24170 | 28393 |
8 | 28370 | 32387 |
9 | 32368 | 36406 |
10 | 36379 | 40533 |
11 | 40512 | 44652 |
12 | 44627 | 48502 |
S26、使用建立好的初始训练数据集训练图3所示的神经网络,训练结果如表3所示,选择第5次迭代的结果作为初始神经网络模型。
表3实施例2的神经网络训练结果
迭代次数 | 训练损失值 | 验证损失值 | 验证准确率 |
1 | 0.5292 | 0.6360 | 76.64% |
2 | 0.4858 | 0.5055 | 82.42% |
3 | 0.3330 | 0.4811 | 83.30% |
4 | 0.4365 | 0.4712 | 83.65% |
5 | 0.5062 | 0.4726 | 83.74% |
实施例3
在实施例1、实施例2中,通过使用本发明所述方法成功建立了初始神经网络模型,实施例3是利用本发明的第二方面所提供的方法完成神经网络模型迭代,过程如下:
S31、对基因组序列已知的E.Coli样品(https://www.ncbi.nlm.nih.gov/nuccore/CP017100)的基因组序列作为参考基因组,建立测序文库,并使用MinION纳米孔测序仪和Flongle测序芯片对E.Coli样品进行测序,获得测序信号56048条,信号的采样率为4000点/秒。
S32、使用实施例2中获得的初始神经网络模型,对S31中获得的全部测序信号进行碱基识别,识别得到的碱基序列和序列中的每个碱基所对应的电信号位置,其中一条序列和序列上碱基对应电信号的位置如表4所示。
使用blast软件对全部序列识别结果与参考基因组序列进行比对,比对结果中位数准确率为76.39%。
表4一条碱基序列和序列上每个碱基对应电信号的位置
S33、将测序信号的碱基识别结果中与参考基因组比对成功的部分的电信号取出,和参考基因组序列配对,生成新的训练数据集。表4所示的碱基序列与参考基因组的匹配情况如图9所示,这条测序信号的碱基识别结果中从第33个到第360个碱基与参考基因组中第3489395个到第3489742个碱基比对成功,因此将测序信号中第33个到第360个碱基所对应的电信号(原始电信号中第1685到第16465点)取出,与参考基因组第3489395个到第3489742个碱基的序列配对,作为新训练数据集中的一条。
S34、利用S33中生成的新训练集训练神经网络模型。
S35、重复S32的过程,利用新的神经网络模型对S31中获得的全部测序信号进行碱基识别,得到的碱基序列和序列中的每个碱基所对应的电信号位置。使用blast软件对全部序列识别结果与参考基因组序列进行比对,比对的中位数准确率为87.82%。
S36、重复S33的过程,生成更新的训练数据集。
S37、重复S34的过程,训练神经网络,得到更新的神经网络模型。
S38、重复S32的过程,利用更新的神经网络模型对S31中获得的全部测序信号进行碱基识别,识别得到的碱基序列和序列中的每个碱基所对应的电信号位置。使用blast软件对全部序列识别结果与参考基因组序列进行比对,比对的中位数准确率为92.03%。准确率达到了纳米孔测序领域较高的水平,完成神经网络的循环迭代。
以上通过实施例对本发明的具体实施方式进行了示例性的说明。但是,本发明的保护范围不拘囿于上述示例性的实施方式。凡在本发明的精神和原则之内,本领域技术人员所作出的任何修改、等同替换、改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种用于纳米孔测序碱基识别的深度学习训练数据集建立方法,其特征在于,包括如下步骤:
A.选取序列已知的模板DNA,测量模板DNA的纳米孔测序电流信号,从测量结果中选取一条作为模板电流信号;
B.测量若干条序列包含在模板DNA序列中的片段DNA的纳米孔测序电流信号,依次比对每条片段DNA、模版DNA的电流信号,获取片段DNA的碱基序列,得到初始训练数据集;
C.将初始训练集导入神经网络进行训练,得到初始神经网络模型。
2.根据权利要求1所述的方法,其特征在于,步骤A中从测量结果中选取一段作为模板电流信号之前,还包括如下步骤:将电流信号进行归一化处理得归一化电流信号;
步骤B中所述依次比对每条片段DNA、模板DNA的电流信号,获取片段DNA的碱基序列包括如下步骤:将每条片段DNA的电流信号与模板电流信号通过信号匹配算法进行电流波形匹配,获得片段DNA电流信号在模板电流信号上的起始和终止位置,推算片段DNA的碱基序列,将每条片段DNA的电流信号和碱基序列一一配对,形成初始训练数据集。
3.根据权利要求1所述的方法,其特征在于,步骤C中将初始训练集导入神经网络进行训练,得到初始神经网络模型包括如下步骤:基于初始训练数据集,对神经网络进行N次模型训练,得到满足预设条件的目标模型,其中,所述N为大于等于1的整数。
4.根据权利要求3所述的方法,其特征在于,所述目标模型为N次训练中预测准确度最高的神经网络模型。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述模板DNA包括碱基序列长度为200-2000000nt,优选所述模板DNA包括碱基序列长度大于10000nt的DNA序列,进一步优选所述模板DNA包括碱基序列长度大于40000nt的DNA序列,例如所述模板DNA选自序列长度为48502nt的lambda DNA。
6.根据权利要求1-5任一项所述的方法,其特征在于,步骤B中片段DNA是通过将模板DNA随机打断或人工选定位点打断获得。
7.根据权利要求6所述的方法,其特征在于,将所述模板DNA随机打断包括如下步骤:将模板DNA随机打断成若干片段DNA,例如通过超声随机打断;在模板DNA序列中选定若干起始位置和结束位置,通过酶切或PCR方式打断。
8.根据权利要求6所述的方法,其特征在于,所述信号匹配算法选用动态时间规整算法、衍生动态时间规整算法、复杂度不变距离算法、时间规整编辑算法中的至少一种。
9.一种采用权利要求1-8任一项所述的方法获得的初始神经网络模型完成一次神经网络模型迭代的方法,包括如下步骤:
S1.使用纳米孔测序仪对至少一种序列已知的物种基因组进行纳米孔测序,得到电流信号;
S2.使用初始神经网络模型对S1中的电流信号进行碱基识别,得到对应的碱基序列,将所测得的每个碱基序列与已知的序列进行比对;
S3.分析序列比对的准确率,如果准确率满足设置的准确率阈值则结束迭代流程,,否则转入步骤S4,继续迭代;
S4.将比对成功的碱基序列作为“真值”,与对应的测序电流信号配对,形成新一代训练集;
S5.使用新一代训练集对神经网络进行训练,生成新一代神经网络模型;
步骤S5之后还包括如下步骤:重复S2的过程,使用新一代神经网络模型替代初始神经网络模型,转入步骤S2;
优选地,所述阈值根据实际需要设置,例如所阈值≥90%,优选所述阈值≥92%。
10.权利要求1-8任一项所述的方法获得的初始神经网络模型或权利要求9的方法获得的神经网络模型在纳米孔测序碱基识别中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211268928.9A CN116486910B (zh) | 2022-10-17 | 2022-10-17 | 纳米孔测序碱基识别的深度学习训练集建立方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211268928.9A CN116486910B (zh) | 2022-10-17 | 2022-10-17 | 纳米孔测序碱基识别的深度学习训练集建立方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116486910A true CN116486910A (zh) | 2023-07-25 |
CN116486910B CN116486910B (zh) | 2023-12-22 |
Family
ID=87210684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211268928.9A Active CN116486910B (zh) | 2022-10-17 | 2022-10-17 | 纳米孔测序碱基识别的深度学习训练集建立方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486910B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117497055A (zh) * | 2024-01-02 | 2024-02-02 | 北京普译生物科技有限公司 | 神经网络模型训练、碱基测序电信号的片段化方法及装置 |
CN117744748A (zh) * | 2024-02-20 | 2024-03-22 | 北京普译生物科技有限公司 | 一种神经网络模型训练、碱基识别方法及装置、电子设备 |
CN117831630A (zh) * | 2024-03-05 | 2024-04-05 | 北京普译生物科技有限公司 | 为碱基识别模型构建训练数据集的方法、装置及电子设备 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050233354A1 (en) * | 2004-01-22 | 2005-10-20 | Affymetrix, Inc. | Genotyping degraded or mitochandrial DNA samples |
US20100332475A1 (en) * | 2009-06-25 | 2010-12-30 | University Of Tennessee Research Foundation | Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling |
CN103509852A (zh) * | 2012-06-18 | 2014-01-15 | 北京大学 | 一种基于纳米孔器件对生物分子探针标定dna的特异位点进行检测的方法 |
CN104630358A (zh) * | 2015-01-30 | 2015-05-20 | 中国科学院重庆绿色智能技术研究院 | Dna测序方法及其*** |
CN108048528A (zh) * | 2017-12-20 | 2018-05-18 | 栾图 | 简单高效实时的遗传信息获取方法及其应用 |
CN109117796A (zh) * | 2018-08-17 | 2019-01-01 | 广州市锐博生物科技有限公司 | 碱基识别方法及装置、生成彩色图像的方法及*** |
US20190325621A1 (en) * | 2016-06-24 | 2019-10-24 | Rensselaer Polytechnic Institute | Tomographic image reconstruction via machine learning |
CN111243674A (zh) * | 2020-01-08 | 2020-06-05 | 华南理工大学 | 一种碱基序列的识别方法、装置和存储介质 |
CN112183486A (zh) * | 2020-11-02 | 2021-01-05 | 中山大学 | 基于深度网络快速识别单分子纳米孔测序碱基方法 |
CN112309503A (zh) * | 2020-10-19 | 2021-02-02 | 深圳市儒翰基因科技有限公司 | 基于纳米孔电信号的碱基判读方法、判读设备及存储介质 |
CN113012757A (zh) * | 2019-12-21 | 2021-06-22 | 深圳市真迈生物科技有限公司 | 识别核酸中的碱基的方法和*** |
CN113178227A (zh) * | 2021-04-30 | 2021-07-27 | 西安交通大学 | 多组学融合剪接位点的识别方法及***、设备和存储介质 |
CN113870949A (zh) * | 2021-10-08 | 2021-12-31 | 东北林业大学 | 基于深度学习的nanopore测序数据碱基识别方法 |
CN113930406A (zh) * | 2021-12-17 | 2022-01-14 | 北京齐碳科技有限公司 | 一种Pif1-like解旋酶及其应用 |
US20220098577A1 (en) * | 2018-10-19 | 2022-03-31 | New England Biolabs, Inc. | Ordered Assembly of Multiple DNA Fragments |
-
2022
- 2022-10-17 CN CN202211268928.9A patent/CN116486910B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050233354A1 (en) * | 2004-01-22 | 2005-10-20 | Affymetrix, Inc. | Genotyping degraded or mitochandrial DNA samples |
US20100332475A1 (en) * | 2009-06-25 | 2010-12-30 | University Of Tennessee Research Foundation | Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling |
CN103509852A (zh) * | 2012-06-18 | 2014-01-15 | 北京大学 | 一种基于纳米孔器件对生物分子探针标定dna的特异位点进行检测的方法 |
CN104630358A (zh) * | 2015-01-30 | 2015-05-20 | 中国科学院重庆绿色智能技术研究院 | Dna测序方法及其*** |
US20190325621A1 (en) * | 2016-06-24 | 2019-10-24 | Rensselaer Polytechnic Institute | Tomographic image reconstruction via machine learning |
CN108048528A (zh) * | 2017-12-20 | 2018-05-18 | 栾图 | 简单高效实时的遗传信息获取方法及其应用 |
CN109117796A (zh) * | 2018-08-17 | 2019-01-01 | 广州市锐博生物科技有限公司 | 碱基识别方法及装置、生成彩色图像的方法及*** |
US20220098577A1 (en) * | 2018-10-19 | 2022-03-31 | New England Biolabs, Inc. | Ordered Assembly of Multiple DNA Fragments |
CN113012757A (zh) * | 2019-12-21 | 2021-06-22 | 深圳市真迈生物科技有限公司 | 识别核酸中的碱基的方法和*** |
CN111243674A (zh) * | 2020-01-08 | 2020-06-05 | 华南理工大学 | 一种碱基序列的识别方法、装置和存储介质 |
CN112309503A (zh) * | 2020-10-19 | 2021-02-02 | 深圳市儒翰基因科技有限公司 | 基于纳米孔电信号的碱基判读方法、判读设备及存储介质 |
CN112183486A (zh) * | 2020-11-02 | 2021-01-05 | 中山大学 | 基于深度网络快速识别单分子纳米孔测序碱基方法 |
CN113178227A (zh) * | 2021-04-30 | 2021-07-27 | 西安交通大学 | 多组学融合剪接位点的识别方法及***、设备和存储介质 |
CN113870949A (zh) * | 2021-10-08 | 2021-12-31 | 东北林业大学 | 基于深度学习的nanopore测序数据碱基识别方法 |
CN113930406A (zh) * | 2021-12-17 | 2022-01-14 | 北京齐碳科技有限公司 | 一种Pif1-like解旋酶及其应用 |
Non-Patent Citations (1)
Title |
---|
卢绪志: "金针菇和杏鲍菇尿嘧啶营养缺陷型菌株的筛选与分子鉴定", 《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117497055A (zh) * | 2024-01-02 | 2024-02-02 | 北京普译生物科技有限公司 | 神经网络模型训练、碱基测序电信号的片段化方法及装置 |
CN117497055B (zh) * | 2024-01-02 | 2024-03-12 | 北京普译生物科技有限公司 | 神经网络模型训练、碱基测序电信号的片段化方法及装置 |
CN117744748A (zh) * | 2024-02-20 | 2024-03-22 | 北京普译生物科技有限公司 | 一种神经网络模型训练、碱基识别方法及装置、电子设备 |
CN117744748B (zh) * | 2024-02-20 | 2024-04-30 | 北京普译生物科技有限公司 | 一种神经网络模型训练、碱基识别方法及装置、电子设备 |
CN117831630A (zh) * | 2024-03-05 | 2024-04-05 | 北京普译生物科技有限公司 | 为碱基识别模型构建训练数据集的方法、装置及电子设备 |
CN117831630B (zh) * | 2024-03-05 | 2024-05-17 | 北京普译生物科技有限公司 | 为碱基识别模型构建训练数据集的方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116486910B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116486910B (zh) | 纳米孔测序碱基识别的深度学习训练集建立方法及其应用 | |
CN106599616B (zh) | 基于duplex-seq的超低频突变位点检测分析方法 | |
CN113186287B (zh) | 用于非小细胞肺癌分型的生物标志物及其应用 | |
CN114999573B (zh) | 一种基因组变异检测方法及检测*** | |
US10930370B2 (en) | Polynucleotide sequencer tuned to artificial polynucleotides | |
CN107451419B (zh) | 通过计算机程序模拟产生简化dna甲基化测序数据的方法 | |
CN110299185B (zh) | 一种基于新一代测序数据的***变异检测方法及*** | |
CN107944225A (zh) | 基因高通量测序数据突变检测方法 | |
CN112309503A (zh) | 基于纳米孔电信号的碱基判读方法、判读设备及存储介质 | |
CN106355045A (zh) | 一种基于扩增子二代测序小片段***缺失检测的方法及装置 | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
CN108154010A (zh) | 一种ctDNA低频突变测序数据分析方法和装置 | |
CN114300052A (zh) | 评估核酸探针捕获特异性的方法及装置 | |
Pigani et al. | Classification of red wines by chemometric analysis of voltammetric signals from PEDOT-modified electrodes | |
CN115083521A (zh) | 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及*** | |
CN109593832A (zh) | 一种ARMS-ddPCR基因点突变的检测方法 | |
CN105528532B (zh) | 一种rna编辑位点的特征分析方法 | |
CN111292806B (zh) | 一种利用纳米孔测序的转录组分析方法 | |
Chan et al. | Evaluation of dynamic time warp barycenter averaging (DBA) for its potential in generating a consensus nanopore signal for genetic and epigenetic sequences | |
WO2023124779A1 (zh) | 基于三代测序数据检测点突变的分析方法和装置 | |
CN108707663B (zh) | 用于癌症样本miRNA测序定量结果评价的试剂、制备方法和应用 | |
CN116434830B (zh) | 基于ctDNA多位点甲基化的肿瘤病灶位置识别方法 | |
CN115762641B (zh) | 一种指纹图谱构建方法及*** | |
CN113449533B (zh) | 一种基于条形码序列的读长比对方法和装置 | |
CN117672343B (zh) | 测序饱和度评估方法及装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |