CN116486910A

CN116486910A - 纳米孔测序碱基识别的深度学习训练集建立方法及其应用

Info

Publication number: CN116486910A
Application number: CN202211268928.9A
Authority: CN
Inventors: 谭泽顺
Original assignee: Beijing Puyi Biotechnology Co ltd
Current assignee: Beijing Puyi Biotechnology Co ltd
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-07-25
Anticipated expiration: 2042-10-17
Also published as: CN116486910B

Abstract

本发明公开了纳米孔测序碱基识别的深度学习训练集建立方法及其应用。本发明通过进行两次测序，第一次测序测量完整的模板DNA序列的一条电流信号；第二次将全部的片段DNA同时测序，获得尽量多的电流信号后，将每条片段DNA的电流信号与模板电流信号依次进行电流波形匹配，使用信号匹配算法获得片段DNA电流信号在模板电流信号上的起始和终止位置，推算片段DNA的碱基序列，将每条片段DNA的电流信号和碱基序列一一配对，形成初始训练数据集。使用本发明所述方法成功建立了初始神经网络模型，并完成神经网络模型迭代，准确度可达92.03％。本发明实验难度较低，且操作简便，经济成本、时间成本和人力成本均较低。

Description

纳米孔测序碱基识别的深度学习训练集建立方法及其应用

技术领域

本发明涉及生物学基因测序领域，特别涉及一种纳米孔测序碱基识别的深度学习训练集建立方法及其应用。

背景技术

纳米孔测序技术是用于取代基于聚合酶链式反应的新型核酸检测技术，纳米孔测序的原理如图1(a)所示，将纳米孔(蛋白孔或者固态孔)嵌在绝缘的人工膜上形成离子通道，人工膜两侧充满电解质溶液，人工膜的两侧设置有电极1和电极2，电极1和电极2两端的电势差在纳米孔的孔道内形成过孔电流。当聚合物链(如单链DNA、RNA、蛋白质等)通过纳米孔时，由于聚合物链上不同单体(如DNA链上的碱基A、T、G、C)的阻抗不同，在聚合物链通过纳米孔时过孔电流被调制，得到如图1(b)所示的过孔电流信号，通过检测过孔电流的变化可以推导出聚合物的序列构成。由于纳米孔测序的序列读长长、使用简便、可进行RNA直接测序等优势，近年来广受重视。

以DNA测序和生物纳米孔为例，由于孔蛋白电流限制区存在一定厚度，一般为4～6个碱基，因此过孔电流的大小取决于相邻的4～6个碱基的共同作用，以共同作用的碱基数量表征纳米孔电流的模型被称为k-mer模型(k＝4～6)。以4-mer模型为例，如图2所示，过孔序列ATCGGATCGTCA中相邻的每4个碱基决定了过孔电流曲线上的一个特征电平。

图2所示的4-mer模型是理想化模型，但是，在实际的纳米孔测序技术中，某一时刻的测序信号不仅取决于纳米孔限制区内容纳的4～6个碱基，而且与前后的碱基序列都有关系。纳米孔的直径约1～2nm，因此过孔电流很小(不同的碱基组合过孔电流在40～140pA范围内，即过孔电流的信号范围约100pA)，采集得到的实际电流信号如图1(b)所示，信噪比较低。当k＝5～6时，5～6个碱基组合的可能性有1024～4096种，在典型的纳米孔测序信号的噪声水平(约2pA)下，100pA的信号范围中通过电流的幅值来识别过孔DNA序列的准确度较低。

纳米孔测序的碱基识别方法经过近十年的发展，其演进过程大致可以分成三个阶段：第一阶段：由于DNA序列在通过纳米孔时产生的特征信号是台阶形式的，因此首先通过T检验等统计学方法识别出原始信号中的台阶，一个台阶被称为一个事件，再通过隐马尔可夫模型对可能的事件序列以发射矩阵和过渡矩阵进行建模和预测，实现碱基序列识别，典型的做法如申请号为201280057564的专利文献记载；第二阶段：首先通过T检验等统计学方法识别出原始信号中的事件，再将事件作为基于深度学习的神经网络的输入，通过神经网络进行碱基识别；第三阶段：通过端到端的神经网络来进行碱基识别，如图3所示，为一种端到端的神经网络，由一维卷积(Conv1d)、整流线性单元激活函数(ReLU)、长短期记忆网络(LSTM)、全连接层(Full Connection)、LogSoftmax函数和联结时间分类器(CTC)构成。将原始电流信号输入训练后的端到端神经网络模型后，端到端神经网络模型可以一步到位直接输出识别后的碱基序列，无需对电流信号进行事件识别。

端到端的神经网络拥有最高的碱基解码准确率，是当前纳米孔测序碱基识别的主流方法。神经网络需要经过事先的训练才能最大化碱基解码的准确率，而训练神经网络需要大量正确的电流信号和碱基序列一一配对的训练数据集。建立纳米孔测序训练数据集是一个鸡生蛋、蛋生鸡的过程，因为：第一，不同纳米孔的k-mer模型不一样，即不同的纳米孔测量同一个碱基序列的电流变化模式不同，为纳米孔A建立的训练数据集和训练好的神经网络是无法用于纳米孔B的，因此，必须为每种纳米孔针对性地建立训练数据集并训练神经网络；第二，纳米孔电流信号的信噪比低且非常复杂，无法对电流信号进行人工识别或标注，因此针对一种新的纳米孔，在还没有可用于碱基识别手段时，如何从零建立训练数据集是一个难点。

申请号为201280057564的专利文献公开了两种适用于隐马尔可夫模型的训练数据集建立方法，一是静态方法，通过设计并合成特殊序列使得特定的k-mer序列悬停在纳米孔的限制区处，用于测量特定k-mer的过孔电流；二是动态方法，通过测量特定DNA序列来迭代隐马尔可夫模型的发射矩阵和过渡矩阵。但是，上述方法存在以下不足：1、隐马尔可夫模型的碱基解码精度较低；2、需要合成特殊的DNA序列，而且为了确定当下测量的是哪条序列，必须每条序列单独测量，不能混合检测，经济成本、时间成本和人力成本都较高。

发明内容

为了改善现有技术的不足，本发明的目的是提供一种便捷的、低成本的用于纳米孔测序碱基识别的深度学习训练集建立方法及其应用。

本发明采用下述技术方案实现上述目的：

第一方面，本发明提供一种用于纳米孔测序碱基识别的深度学习训练数据集建立方法，包括如下步骤：

A.选取序列已知的模板DNA，测量模板DNA的纳米孔测序电流信号，从测量结果中选取一条作为模板电流信号；

B.测量若干条序列包含在模板DNA序列中的片段DNA的纳米孔测序电流信号，依次比对每条片段DNA、模板DNA的电流信号，获取片段DNA的碱基序列，得到初始训练数据集；

C.将初始训练集导入神经网络进行训练，得到初始神经网络模型。

根据本发明的实施方案，步骤B中所述依次比对每条片段DNA、模板DNA的电流信号，获取片段DNA的碱基序列，得到初始训练数据集，包括如下步骤：将每条片段DNA的电流信号与模板电流信号通过信号匹配算法进行电流波形匹配，获得片段DNA电流信号在模板电流信号上的起始和终止位置，推算片段DNA的碱基序列，将每条片段DNA的电流信号和碱基序列一一配对，形成初始训练数据集。

根据本发明的实施方案，步骤C中将初始训练数据集导入神经网络进行训练，得到初始神经网络模型包括如下步骤：基于初始训练数据集，对神经网络进行N次模型训练，得到满足预设条件的目标模型，其中，所述N为大于等于1的整数。

根据本发明的实施方案，所述目标模型为N次训练中预测准确度最高的神经网络模型。

根据本发明的实施方案，所述模板DNA包括碱基序列长度为200-2000000nt，优选所述模板DNA包括碱基序列长度大于10000nt的DNA序列，进一步优选所述模板DNA包括碱基序列长度大于40000nt的DNA序列，例如所述模板DNA选自序列长度为48502nt的lambdaDNA。

根据本发明的实施方案，步骤B中片段DNA是通过将模板DNA随机打断或人工选定位点打断获得。

根据本发明的实施方案，将所述模板DNA随机打断包括如下步骤：将模板DNA样品随机打断成若干片段DNA，例如通过超声随机打断。

根据本发明的实施方案，将所述模板DNA按照选定位点打断包括如下步骤：在模板DNA序列中选定若干起始位置和结束位置，通过酶切或PCR方式打断。

根据本发明的实施方案，将若干片段DNA进行PCR扩增包括以下步骤：设计所述片段DNA对应的PCR引物，按DNA的起始位置和结束位置进行PCR扩增。

根据本发明的实施方案，所述信号匹配算法选用动态时间规整算法、衍生动态时间规整算法、复杂度不变距离算法、时间规整编辑算法中的至少一种。

根据本发明的实施方案，所述测量模板DNA的纳米孔测序电流信号之后，从测量结果中选取一段作为模板电流信号之前，还包括如下步骤：将电流信号进行归一化处理得归一化电流信号。

由于神经网络使用了联结时间分类器，因此训练集只需给出每条片段的电流信号和对应的碱基序列，无需标注出每个碱基的具***置。因此初始训练数据集可以直接用于神经网络的训练获得初始神经网络模型。

第二方面，本发明提供一种采用第一方面的方法获得的初始神经网络模型完成一次神经网络模型迭代的方法，包括如下步骤：

S1.使用纳米孔测序仪对至少一种序列已知的物种基因组进行纳米孔测序，得到电流信号；

S2.使用初始神经网络模型对S1中获得的全部电流信号进行碱基识别，得到对应的碱基序列，将所测得的每个碱基序列与模板的已知序列进行比对；

S3.分析序列比对的准确率，如果准确率满足设置的准确率阈值则结束迭代流程，否则转入步骤S4，继续迭代；

S4.将比对成功的碱基序列作为“真值”，与对应的测序电流信号配对，形成新一代训练数据集；

S5.使用新一代训练数据集对神经网络进行训练，生成新一代神经网络模型。

根据本发明的实施方案，所述阈值根据实际需要设置，例如所阈值≥90％，优选所述阈值≥92％。

根据本发明的实施方案，步骤S5之后还包括如下步骤：重复S2的过程，使用新一代神经网络模型替代初始神经网络模型，转入步骤S2。

第三方面，本发明提供一种采用第一方面的方法获得的初始神经网络模型或第二方面的方法获得的神经网络模型在纳米孔测序碱基识别中的应用。

有益效果

本发明的优点在于：第一，一步到位生成用于碱基识别神经网络的训练数据集，模板DNA序列可以直接使用长度合适的细菌或病毒基因组，模板DNA序列的长度较长，训练数据集的信息量丰富。使用本发明所述方法成功建立了初始神经网络模型，并完成神经网络模型迭代，准确度可达92.03％。第二，本发明仅需要进行两次测序，第一次测序测量完整的模板DNA序列的一条电信号；第二次将全部的片段DNA同时测序，获得尽量多的电信号；本发明无需合成特殊的DNA序列样品，同时，还能够对获得的片段DNA进行混合检测。实验难度较低，且操作简便，经济成本、时间成本和人力成本均较低。

附图说明

图1为纳米孔测序的原理示意图；

图2为4-mer模型过孔序列与过孔电流之间的关系示意图；

图3为用于碱基识别的端到端的深度学习神经网络的结构示意图；

图4为通过模板与片段DNA电流信号匹配的方法形成初始训练集并训练初始神经网络的步骤示意图；

图5为循环迭代神经网络模型提高解码准确率的步骤示意图；

图6(a)为模板DNA的纳米孔测序电流信号；(b)为随机打断的片段DNA的纳米孔测序电流信号；(c)为片段DNA的电流信号在模板上的匹配位置；

图7为实施例1中纳入训练集的序列长度分布图；

图8为实施例2中片段DNA在模板上的起始位置和长度分布图；

图9为实施例3中一条测序信号碱基识别结果与参考基因组的匹配图。

具体实施方式

下文将结合具体实施例对本发明的方法和应用做更进一步的详细说明。应当理解，下列实施例仅为示例性地说明和解释本发明，而不应被解释为对本发明保护范围的限制。凡基于本发明上述内容所实现的技术均涵盖在本发明旨在保护的范围内。

实施例1

使用500μg/ml lambda DNA(分离自噬菌体lambda cI857ind 1 Sam 7)作为模板DNA样品进行建库，序列全长48502nt，模板碱基序列精确已知(参见https://international.neb.com/-/media/nebus/page-images/tools-and-resources/interactive-tools/dna-sequences-and-maps/text-documents/lambdafsa.txt)。

S11、通过MinION纳米孔测序仪和Flongle测序芯片测量整条模板DNA的电流信号，将电流信号模板进行归一化处理，得到如图6(a)所示的归一化电流信号。

S12、将模板DNA样品使用超声破碎仪随机打断成为若干长度为200～2000nt的片段DNA，并将打断后的片段DNA建库，，通过纳米孔测序仪测量获得一定数量片段DNA的电流信号，本实施例中共获取了5184条片段DNA的电信号。如图6(b)所示，为其中1条片段DNA的电流信号。

S13、使用动态时间规整算法(Dynamic Time Warping，简称DTW)将当前片段DNA的电流信号与模板DNA的电流信号进行匹配，参见图6(c)所示，为将图6(b)中的片段DNA信号与模板DNA电流信号匹配的位置图，经比对可知，片段DNA在模板上的起始位置为50.5917秒，结束位置为52.1078秒。

S14、由于纳米孔测序DNA的过孔速度大体是匀速的，模板DNA序列全长48502nt，电信号长度102.4357秒，平均过孔速度为473.4870nt/s，因此，推算片段DNA对应的碱基序列为模板DNA第23955nt到第24672nt区间内的序列，取出对应序列与片段DNA的电流信号配对作为训练数据并纳入训练数据集。

S15、选择另1条片段DNA，重复步骤S13-S14，得到训练数据并纳入训练数据集。

S16、重复步骤S13-S15至完成所有共5184条片段DNA的电流信号和碱基序列配对，将所有训练数据纳入训练数据集，形成初始训练数据集，初始训练集中碱基序列的长度分布如图7所示。

使用步骤S16建立好的初始训练数据集训练图3所示的神经网络，训练结果如表1所示，选择第3次迭代的结果作为初始神经网络模型。

表1实施例1的神经网络训练结果

训练轮数	训练损失值	验证损失值	验证准确率
				1	0.4246	0.8295	81.24％
2	0.3036	0.8569	80.05％
				3	0.1768	0.8229	82.84％
4	0.1204	0.9322	81.65％
				5	0.0892	1.0664	79.44％

实施例2

使用500μg/ml lambda DNA(分离自噬菌体lambda cI857ind 1 Sam 7)作为模板DNA进行建库，序列全长48502nt，模板序列精确已知。

S21、通过MinION纳米孔测序仪和Flongle测序芯片测量整条模板DNA的电流信号，并选择一条电流信号作为模板。

S22、如表2所示，在模板DNA序列中选取12组片段DNA的起始和结束位置，每个片段DNA的长度约为4000个碱基。设计对应的PCR引物，对片段DNA序列按照表2中的起始与结束位置进行PCR扩增，将12组PCR产物混合形成待测样品。

S23、通过纳米孔测序仪对待测样品进行纳米孔测序，记录待测样品中片段DNA的电流信号，12种片段DNA的序列已知，但每条电流信号是12种序列当中的哪一种未知，使用DTW算法将每条片段DNA的电流信号与模板DNA的电流信号进行匹配。

S24、获得每个片段DNA在模板上的起始位置和结束位置，如图8所示为匹配得到569条片段DNA电流信号在模板信号上的起始位置和信号长度分布，片段DNA的分布集中在图中的12个位置，从图中可以很清楚判断某条片段DNA所对应表2中的模板序列区间。

S25、将每条片段DNA的电流信号与对应碱基序列配对，纳入初始训练数据集。

表2模板序列中PCR的起始与结束位置

编号	起始位置	结束位置
			1	1	4011
2	3996	8062
			3	8046	12084
4	12067	16156
			5	16143	20363
6	20345	24199
			7	24170	28393
8	28370	32387
			9	32368	36406
10	36379	40533
			11	40512	44652
12	44627	48502

S26、使用建立好的初始训练数据集训练图3所示的神经网络，训练结果如表3所示，选择第5次迭代的结果作为初始神经网络模型。

表3实施例2的神经网络训练结果

迭代次数	训练损失值	验证损失值	验证准确率
				1	0.5292	0.6360	76.64％
2	0.4858	0.5055	82.42％
				3	0.3330	0.4811	83.30％
4	0.4365	0.4712	83.65％
				5	0.5062	0.4726	83.74％

实施例3

在实施例1、实施例2中，通过使用本发明所述方法成功建立了初始神经网络模型，实施例3是利用本发明的第二方面所提供的方法完成神经网络模型迭代，过程如下：

S31、对基因组序列已知的E.Coli样品(https://www.ncbi.nlm.nih.gov/nuccore/CP017100)的基因组序列作为参考基因组，建立测序文库，并使用MinION纳米孔测序仪和Flongle测序芯片对E.Coli样品进行测序，获得测序信号56048条，信号的采样率为4000点/秒。

S32、使用实施例2中获得的初始神经网络模型，对S31中获得的全部测序信号进行碱基识别，识别得到的碱基序列和序列中的每个碱基所对应的电信号位置，其中一条序列和序列上碱基对应电信号的位置如表4所示。

使用blast软件对全部序列识别结果与参考基因组序列进行比对，比对结果中位数准确率为76.39％。

表4一条碱基序列和序列上每个碱基对应电信号的位置

S33、将测序信号的碱基识别结果中与参考基因组比对成功的部分的电信号取出，和参考基因组序列配对，生成新的训练数据集。表4所示的碱基序列与参考基因组的匹配情况如图9所示，这条测序信号的碱基识别结果中从第33个到第360个碱基与参考基因组中第3489395个到第3489742个碱基比对成功，因此将测序信号中第33个到第360个碱基所对应的电信号(原始电信号中第1685到第16465点)取出，与参考基因组第3489395个到第3489742个碱基的序列配对，作为新训练数据集中的一条。

S34、利用S33中生成的新训练集训练神经网络模型。

S35、重复S32的过程，利用新的神经网络模型对S31中获得的全部测序信号进行碱基识别，得到的碱基序列和序列中的每个碱基所对应的电信号位置。使用blast软件对全部序列识别结果与参考基因组序列进行比对，比对的中位数准确率为87.82％。

S36、重复S33的过程，生成更新的训练数据集。

S37、重复S34的过程，训练神经网络，得到更新的神经网络模型。

S38、重复S32的过程，利用更新的神经网络模型对S31中获得的全部测序信号进行碱基识别，识别得到的碱基序列和序列中的每个碱基所对应的电信号位置。使用blast软件对全部序列识别结果与参考基因组序列进行比对，比对的中位数准确率为92.03％。准确率达到了纳米孔测序领域较高的水平，完成神经网络的循环迭代。

以上通过实施例对本发明的具体实施方式进行了示例性的说明。但是，本发明的保护范围不拘囿于上述示例性的实施方式。凡在本发明的精神和原则之内，本领域技术人员所作出的任何修改、等同替换、改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种用于纳米孔测序碱基识别的深度学习训练数据集建立方法，其特征在于，包括如下步骤：

B.测量若干条序列包含在模板DNA序列中的片段DNA的纳米孔测序电流信号，依次比对每条片段DNA、模版DNA的电流信号，获取片段DNA的碱基序列，得到初始训练数据集；

2.根据权利要求1所述的方法，其特征在于，步骤A中从测量结果中选取一段作为模板电流信号之前，还包括如下步骤：将电流信号进行归一化处理得归一化电流信号；

步骤B中所述依次比对每条片段DNA、模板DNA的电流信号，获取片段DNA的碱基序列包括如下步骤：将每条片段DNA的电流信号与模板电流信号通过信号匹配算法进行电流波形匹配，获得片段DNA电流信号在模板电流信号上的起始和终止位置，推算片段DNA的碱基序列，将每条片段DNA的电流信号和碱基序列一一配对，形成初始训练数据集。

3.根据权利要求1所述的方法，其特征在于，步骤C中将初始训练集导入神经网络进行训练，得到初始神经网络模型包括如下步骤：基于初始训练数据集，对神经网络进行N次模型训练，得到满足预设条件的目标模型，其中，所述N为大于等于1的整数。

4.根据权利要求3所述的方法，其特征在于，所述目标模型为N次训练中预测准确度最高的神经网络模型。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述模板DNA包括碱基序列长度为200-2000000nt，优选所述模板DNA包括碱基序列长度大于10000nt的DNA序列，进一步优选所述模板DNA包括碱基序列长度大于40000nt的DNA序列，例如所述模板DNA选自序列长度为48502nt的lambda DNA。

6.根据权利要求1-5任一项所述的方法，其特征在于，步骤B中片段DNA是通过将模板DNA随机打断或人工选定位点打断获得。

7.根据权利要求6所述的方法，其特征在于，将所述模板DNA随机打断包括如下步骤：将模板DNA随机打断成若干片段DNA，例如通过超声随机打断；在模板DNA序列中选定若干起始位置和结束位置，通过酶切或PCR方式打断。

8.根据权利要求6所述的方法，其特征在于，所述信号匹配算法选用动态时间规整算法、衍生动态时间规整算法、复杂度不变距离算法、时间规整编辑算法中的至少一种。

9.一种采用权利要求1-8任一项所述的方法获得的初始神经网络模型完成一次神经网络模型迭代的方法，包括如下步骤：

S2.使用初始神经网络模型对S1中的电流信号进行碱基识别，得到对应的碱基序列，将所测得的每个碱基序列与已知的序列进行比对；

S3.分析序列比对的准确率，如果准确率满足设置的准确率阈值则结束迭代流程，，否则转入步骤S4，继续迭代；

S4.将比对成功的碱基序列作为“真值”，与对应的测序电流信号配对，形成新一代训练集；

S5.使用新一代训练集对神经网络进行训练，生成新一代神经网络模型；

步骤S5之后还包括如下步骤：重复S2的过程，使用新一代神经网络模型替代初始神经网络模型，转入步骤S2；

优选地，所述阈值根据实际需要设置，例如所阈值≥90％，优选所述阈值≥92％。

10.权利要求1-8任一项所述的方法获得的初始神经网络模型或权利要求9的方法获得的神经网络模型在纳米孔测序碱基识别中的应用。