CN105238859B

CN105238859B - 一种获取鸡全基因组高密度snp标记位点的方法

Info

Publication number: CN105238859B
Application number: CN201510657602.9A
Authority: CN
Inventors: 胡晓湘; 王宇哲; 曹学敏; 李宁
Original assignee: China Agricultural University
Current assignee: Guangzhou Tian Derivatives Technology Co ltd
Priority date: 2015-10-13
Filing date: 2015-10-13
Publication date: 2018-03-16
Anticipated expiration: 2035-10-13
Also published as: CN105238859A

Abstract

本发明属于基因工程技术领域，提供了一种获取鸡全基因组高密度SNP标记位点的方法，包括以下步骤：(1)预测用EcoRI与MseI的双酶切鸡基因组所获得的酶切片段分布情况；(2)根据EcoRI与MseI的酶切片段分布特点设计通用接头、条形码接头及PCR扩增引物；(3)构建简化基因组测序文库；(4)利用步骤(3)构建的文库进行上机测序；(5)根据测序结果获得SNP标记位点。为不同品种的鸡利用双酶切GBS构建全基因组高密度SNP图谱提供了一种通用的策略，使得获取每个SNP标记位点的成本比传统芯片技术降低一个数量级，该方法技术稳定，重复性高。

Description

一种获取鸡全基因组高密度SNP标记位点的方法

技术领域

本发明涉及生物技术领域，具体的，涉及一种基于测序基因分型技术的获取鸡全基因组高密度SNP标记位点的方法。

背景技术

作为禽类的模式生物，鸡在2004年成为第一个完成全基因测序的农业经济动物，由于不同的鸡品种具有巨大的生物多样性，其作为优质的遗传学模型，被越来越多地应用到数量遗传学及分子育种、功能基因定位、基因的调控及发育等领域。分子标记是研究生物遗传变异的重要工具，单核苷酸多态性(Single nucleotide polymorphisms，SNP)作为第三代分子标记，具有数量多、分布广、遗传稳定等特点，被广泛应用于连锁分析、全基因组关联分析和基因组选择等遗传育种领域。因此了解鸡基因组中的SNP信息，是鸡的遗传育种过程中非常关键的一环。

目前主流的鸡全基因组SNP分型技术主要有基因分型芯片和二代测序两种方法。基因分型芯片的特点是技术稳定，结果重复率高，但芯片技术分型一个实验样本的成本很高，对于群体遗传学研究领域，群体分型的成本代价太大，并且芯片技术由于技术所限，还存在着SNP多态位点在不同群体中通用性差，标记密度低(目前鸡主流的SNP芯片密度为60kSNP芯片)，不能满足精细功能基因定位和全基因组关联分析等问题。下一代测序技术的发展使得基因组学和转录组学的研究能够更加深入，测序能获得全基因组水平的高密度标记图谱，但同时也存在着单位样本成本过高的缺点。

简化基因组测序技术(reduced-representation sequencing)使得群体分析研究所需的覆盖全基因组的高通量分子标记的鉴定与分型成为可能。但不同的简化基因组测序方法在建库策略、单酶切/双酶切的组合选择、测序平台的选择等方面均有较大差别，这些都会显著影响后续分型的效率和成本。举例来说，RAD测序的方法的建库策略复杂，过多的步骤会干扰后续实验结果；不同的限制性内切酶在不同的物种基因组上酶切频率和分布均有较大不同，对于特定物种，选用哪种酶进行实验就成为决定实验获取SNP数量和成本的决定因素；2b-RAD技术使用ⅡB型限制性内切酶，但这种酶切的片段大小只有25-35bp，2b-RAD技术虽然可以得到全基因组水平的酶切片段，但根据全基因组变异的频率，过短的酶切片段很难富含SNP 位点，造成大量数据损失，同时由于酶切片段过短，还会带来许多在基因组重复区域比对的错误，使得SNP分型可靠性大幅下降，严重干扰下游应用。

因此有必要开发一种新的鸡基因组SNP标记位点的分析方法，提供适合鸡基因组SNP标记位点分析的酶切组合，以降低基因分型的成本，为基因分型后的下游应用提供便利。

发明内容

针对现有技术的不足，本发明的目的在于提供一种基于测序基因分型技术获取鸡全基因组高密度SNP标记位点的方法。

测序基因分型(Genotyping By Sequencing，GBS)技术是由康奈尔大学的Elshire等人开发的，其建库方法最为简单，DNA经过酶切后，连接上特定接头，通过控制PCR过程中延伸的时间，来选择酶切产物中100-500bp的部分，从而实现简化基因组测序的目的；然而这一方法的缺陷在于，小片段酶切产物不仅在建库过程中扩增效率更高，在测序仪的模板扩增中也较快生长，容易造成测序数据可利用部分较少、数据质量较差的问题。

本发明提供了一种基于测序基因分型技术的获取鸡全基因组高密度SNP标记位点的方法，包括以下步骤：

(1)预测用EcoRI与MseI的双酶切鸡基因组所获得的酶切片段分布情况；

(2)根据EcoRI与MseI的酶切片段分布特点设计通用接头、条形码接头及PCR扩增引物；

(3)构建简化基因组测序文库；

(4)利用步骤(3)构建的文库进行上机测序；

(5)根据测序结果获得SNP标记位点。

可选的，步骤(2)中所述的通用接头带有与限制性内切酶MseI 相同的粘性末端序列，所述的条形码接头带有与限制性内切酶EcoRI 相同的粘性末端序列。

可选的，所述通用接头是由SEQ ID NO：1和SEQ ID NO：2 所示序列退火形成的双链DNA，其中SEQ ID NO：1经过5’磷酸化修饰。

可选的，所述条形码接头是由SEQ ID NO：3和SEQ ID NO：4 所示序列退火形成的双链DNA；其中SEQ ID NO：4经过5’磷酸化修饰，SEQ ID NO：3和SEQ ID NO：4中的n和m表示长度为6-9bp 的任意短核苷酸条形码序列。

可选的，步骤(2)所述的PCR扩增引物如SEQ ID NO：5和 SEQ ID NO：6所示。

可选的，步骤(3)中包括以下步骤：

(a)利用限制性内切酶组合EcoRI-MseI对鸡基因组进行酶切；

(b)制备通用接头和条形码接头；

(c) 将通用接头和条形码接头按一定比例混合以形成接头混合物，然后将其与酶切产物进行连接反应，获得连接产物；

(d)将连接产物等比例进行混池，获得混池后的连接产物；

(e)在混池后的连接产物中加入1.2-1.4倍体积的磁珠进行第一纯化获得第一纯化产物；

(f)在所述第一纯化产物中加入0.8-0.9倍体积的磁珠进行第二纯化获得第二纯化产物；

(g)对第二纯化产物进行PCR扩增获得PCR产物；

(h)在PCR产物中加入1.2-1.4倍体积的磁珠进行第三纯化获得第三纯化产物；

(i)在第三纯化产物中加入0.8-0.9倍体积的磁珠进行第四纯化获得简化基因组测序文库。

可选的，所述第一纯化和第三纯化的步骤相同，具体包括：加入磁珠后，在旋转仪上室温孵育18-22min获得孵育后体系；孵育结束后放置在磁力架上弃去上清，加入480-520μL的70％乙醇，静置 30-40s后缓慢旋转，使磁珠在管壁上移动，待溶液澄清后，去除上清液，再重复此步骤一次获得沉淀；再在所获得的沉淀中加入Low TE，用移液器上下吸打后，振荡10s，离心后静置澄清获得上清液；其中，相对于100μL所述沉淀，Low TE的添加量为140-160μL。

可选的，第二纯化和第四纯化的步骤相同，具体包括：加入磁珠后，在旋转仪上室温孵育13-16min；孵育结束后放置在磁力架上弃去上清，加入480-520μL的70％乙醇，静置30-40s后缓慢旋转，使磁珠在管壁上移动，待溶液澄清后，去除上清液，重复此步骤一次获得沉淀；再在所获得的沉淀中加入Low TE，用移液器上下吸打后，振荡10s，离心后静置澄清获得上清液；其中，相对于100μL所述沉淀，Low TE的添加量为30-50μL。

可选的，步骤(c)中所述的通用接头的退火体系为：100μM SEQ ID NO:15μL；100μMSEQ ID NO:25μL，5×Annealing Buffer 10μL，无核酸酶水30μL；退火程序为：加热至95℃，并以1℃/min 的速度降温至25℃，25℃保温30min后于4℃保存。

条形码接头的退火体系为：100μM SEQ ID NO:35μL；100μM SEQ ID NO:45μL，5×Annealing Buffer 10μL，无核酸酶水30μL；反应程序为：95℃3min，以1℃/min的速度降温，直至降到25℃， 25℃保温30min后于4℃保存。

接头混合的体系Adapters Mix：通用接头0.8μL，条形码接头 15μL，无核酸酶水84.2μL，总体系100μL。

可选的，步骤(c)中所述的连接反应的体系为：酶切产物20μL， 5×DNA LigaseReaction Buffer 8μL，DNA连接酶2μL，无核酸酶水 5μL，接头混合物5μL；混匀后置于PCR上，反应程序为：22℃保温1h，65℃保温30min，降温至4℃保存。

本发明开发了一种基于EcoR I–Mse I双酶切测序进行基因分型的方法，为不同品种的鸡利用双酶切GBS构建全基因组高密度 SNP图谱提供了一种通用的策略，使得获取每个SNP标记位点的成本比传统芯片技术降低一个数量级，该方法技术稳定，重复性高。

附图说明

图1为本发明提供的测序文库Agilent 2100检测结果。

图2为本发明提供的测序质量报告。

具体实施方式

下面将结合实施例对本发明的优选实施方式进行详细说明。需要理解的是以下实施例的给出仅是为了起到说明的目的，并不是用于对本发明的范围进行限制。本领域的技术人员在不背离本发明的宗旨和精神的情况下，可以对本发明进行各种修改和替换。

以下实施例中使用的测序试剂盒为NextSeq 500High Output Kit (75cycles)。

以下实施例中使用的测序数据比对基因组的软件为bowtie2(版本号bowtie2-2.2.3)(基于Linux操作***)，SNP鉴定软件为Tassel (版本号tassel-4.3.13)。

实施例1

实施例1用于说明本发明所述的方法

1、实验材料：

采集红色原鸡，商业蛋鸡品种白来航鸡，商业肉鸡品种艾拔益加肉鸡、岭南黄鸡，中国地方鸡种惠阳胡须鸡、文昌鸡、河南斗鸡、清远麻鸡、黑狼山鸡、茶花鸡、北京油鸡、藏鸡、丝羽乌骨鸡、寿光鸡、竹丝鸡、石岐杂鸡、仙居鸡、隐形白鸡、矮脚黄鸡各4-6个个体血液样本，共计96个个体，提取基因组，并将基因组浓度稀释至50ng/μL备用。

2、接头和引物序列：

合成一对通用接头序列，96对条形码接头序列，一对PCR引物序列。

3、测序文库构建：

将96只鸡样本提取基因组后进行基因组酶切。反应体系为 20μL，包括15μLNuclease-free water，2μL10×CutSmart Buffer，0.5μL 酶1，0.5μL酶2(0.5μL EcoR I，0.5μL Mse I)，200ng样本DNA，混匀，离心，置于PCR仪，反应条件为：37℃90min，65℃30min，4℃保存。

4、接头退火与混合：

通用接头反应体系为：共50μL，包括30μL无核酸酶水，10μL 5×Annealingbuffer，SEQ ID NO：1(100μM)5μL，SEQ ID NO：2 (100μM)5μL，混匀离心，反应条件为95℃3min，下降1℃/min，直至降到25℃，25℃30min，4℃保存。

条形码接头反应体系为：共50μL，包括30μL无核酸酶水，10 μL 5×Annealingbuffer，SEQ ID NO：3(100μM)5μL，SEQ ID NO： 4(100μM)5μL，混匀离心，反应条件为95℃3min，下降1℃/min，直至降到25℃，25℃30min，4℃保存。

5、接头连接：

反应体系为40μL，包括20μL酶切产物，5μLNuclease-free water， 8μL 5×DNALigase Reaction Buffer，2μLExpressLink T4 DNALigase， 5μL Adapters Mix，充分混匀，离心，反应条件为22℃保温1h，65℃ 30min，4℃保存。

6、混池：

将96个样本的连接产物中各5μL混合到一起，取出240μL用于下步纯化。

7、磁珠纯化连接产物：

在240μL连接产物中加入312μL AMPure XP Beads，将离心管置于旋转仪上，15-25℃孵育20min，然后放置于磁力架上3min，弃上清；加入500μL70％乙醇，将离心管置于磁力架上，30s后慢慢旋转管子，旋转两圈，使磁珠在管壁上移动，待溶液澄清后，去除上清液，然后将此步再重复一次；取下离心管，短暂离心，将离心管放置于磁力架上，用小枪头去除残留乙醇，晾干3min；加入150μL Low TE，用枪头上下吸打几次，震荡10s，短暂离心置于磁力架上， 3min，待溶液澄清后，将上清液转移到新的离心管中；向150μL Low TE洗脱液中加入120μL AMPure XP Beads，将离心管置于旋转仪上，15-25℃孵育15min，然后放置于磁力架上3min，弃上清；加入 500μL70％乙醇，将离心管置于磁力架上，30s后慢慢旋转管子，旋转两圈，使磁珠在管壁上移动，待溶液澄清后，去除上清液，然后将此步再重复一次；取下离心管，短暂离心，将离心管放置于磁力架上，用小枪头去除残留乙醇，晾干3min；加入50μL LowTE，用枪头上下吸打几次，震荡10s，短暂离心，置于磁力架上，3min，待溶液澄清后，将上清液转移到新的离心管中，再将离心管置于磁力架上2min，将上清转移至新的离心管，得到纯化后的连接产物。

浓度测定及PCR扩增。Qubit 2.0测定纯化后的连接产物浓度，用以确定PCR过程纯化后连接产物的量。扩增体系为60μL，包括 50μL Platinum PCR SuperMix HighFidelity，10ng纯化后的连接产物，1.2μL10μM Primer A，1.2μL10μM Primer B，补无核酸酶水至 60μL，反应条件为95℃5min，17×(95℃30s，62℃30s，68℃ 30s)，72℃5min，4℃保存。

重复步骤5)纯化，最后用30μL Low TE洗脱。Qubit 2.0测定文库浓度，Agilent2100检测文库片段大小分布。检测报告见附图1。 8、测序平台的选择：

利用Illumina二代测序平台的NextSeq500测序***，使用单端 75bp测序试剂盒。由于NextSeq500测序仪单次可以产生400M的测序reads，因此该试验平台和方法可最大化降低测序成本，相对于 Hiseq测序***速度也更快。测序质量报告见附图2。

9、SNP标记的挖掘分析：

利用TASSEL软件对测序数据进行SNP的挖掘，基因组mapping 软件采用bowtie2进行。共检测出291,772个SNP标记，检出SNP 后对其进行位置分布的分析及功能注释，可知SNP在基因组上分布均匀，结果详见表1，说明利用本发明所提供的分析方法可以获得数据质量高的SNP标记位点分析结果。

表1SNP位点在不同染色体的分布及注释结果。

染色体	染色体长度	SNP数	SNP间距(bp)
				1	195276750	58839	3318
2	148809762	45818	3247

3	110447801	34272	3222
				4	90216835	38865	3125
5	59580361	19024	3131
				6	34951654	11675	2993
7	36245040	11281	3212
				8	28767244	8776	3277
9	23441680	7518	3118
				10	19911089	6244	3188
11	19401079	5881	3298
				12	19897011	5958	3339
13	17760035	5256	3379
				14	15161805	4337	3495
15	12656803	3616	3500
				16	535270	134	3994
17	10454150	2749	3802
				18	11219875	3913	3851
19	9983394	2658	3755
				20	14302601	3914	3654
21	6802778	1983	3430
				22	4081097	825	4946
23	5723239	1568	3650
				24	6323281	1533	4124
25	2191139	401	5464
				26	5329985	1123	4746
27	5209285	1176	4429
				28	4742627	1073	4419
Z	82363669	12313	6689
				W	1248174	49	25472
合计	1003035513	291772	3437

对比例1传统芯片方法获取及鸡基因组SNP标记

对比例1为实施例1的对照例。对比例1中样本与实施例1相同，所有样本都用Illumina公司鸡的60KSNP芯片进行基因分型。芯片的杂交、扫描检测工作由加拿大DNALandmarks公司(DNA Landmarks Inc.,Quebec,Canada)完成。经过质控，最后剩余47,965 个SNP可用于下一步数据分析。每个SNP获取的资金成本约为实施例1中的10倍，实验时间成本约为实施例1中的5倍。

实施例2鸡基因组最适内切酶组合的选择

实施例2用于说明本发明所使用的酶切组合。

发明人考虑不同酶切位点识别特点(如识别碱基数、GC含量、甲基化情况)等，共设计8组双酶切组合，通过3个岭南黄鸡与惠阳胡须鸡个体进行不同酶切组合的测序实验，实验流程同实施例1，实验结果如表2所示。可知，EcoR I–Mse I酶切组合的SNP个数为134,291个(SNP个数会随着实验个体数目的变化而变化)，酶切片段数目为 414,294，与基因组的比对率最高，在一次Nextseq500测序实验中可进行96个样本的分型实验，试验投入产出比达到最优。

表2不同酶切组合在鸡基因组中分型结果

酶切组合	SNP个数	酶切片段	比对率
				Pst I–Mse I	402,083	1,247,742	97.26％
Pst I–ApeK I	195,960	761,797	96.90％
				EcoR I–Mse I	134,291	414,294	98.37％
Bgl II–ApeK I	133,770	436,503	97.82％
				Pst I–Mse I	117,571	498,114	94.28％
HinP1 I-Mse I	94,724	491,451	95.03％
				HinP1 I-ApeK I	71,751	389,479	91.77％
EcoR I–Mse I	26,112	96,527	96.25％

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种获取鸡全基因组高密度SNP标记位点的方法，其特征在于，包括以下步骤：

(1)预测用EcoRI与MseI双酶切鸡基因组所获得的酶切片段分布情况；

(3)构建简化基因组测序文库；

(4)利用步骤(3)构建的文库进行上机测序；

(5)根据测序结果获得SNP标记位点；

步骤(2)中所述的通用接头带有与限制性内切酶MseI相同的粘性末端序列，所述的条形码接头带有与限制性内切酶EcoRI相同的粘性末端序列；

所述通用接头是由SEQ ID NO：1和SEQ ID NO：2所示序列退火形成的双链DNA，其中SEQID NO：1经过5’磷酸化修饰；

所述条形码接头是由SEQ ID NO：3和SEQ ID NO：4所示序列退火形成的双链DNA；其中SEQ ID NO：4经过5’磷酸化修饰，SEQ ID NO：3和SEQ ID NO：4中的n和m表示长度为6-9bp的任意短核苷酸条形码序列；

步骤(2)所述的PCR扩增引物如SEQ ID NO：5和SEQ ID NO：6所示；

步骤(3)中包括以下步骤：

(a)利用限制性内切酶组合EcoRI-MseI对鸡基因组进行酶切；

(b)制备通用接头和条形码接头；

(c)将通用接头和条形码接头按一定比例混合以形成接头混合物，然后将其与酶切产物进行连接反应，获得连接产物；

(d)将连接产物等比例进行混池，获得混池后的连接产物；

(g)对第二纯化产物进行PCR扩增获得PCR产物；

(i)在第三纯化产物中加入0.8-0.9倍体积的磁珠进行第四纯化获得简化基因组测序文库；

所述第一纯化和第三纯化的步骤相同，具体包括：加入磁珠后，在旋转仪上室温孵育18-22min获得孵育后体系；孵育结束后放置在磁力架上弃去上清，加入480-520μL的70％乙醇，静置30-40s后缓慢旋转，使磁珠在管壁上移动，待溶液澄清后，去除上清液，再重复此步骤一次获得沉淀；再在所获得的沉淀中加入Low TE，用移液器上下吸打后振荡，离心后静置澄清获得上清液；其中，相对于100μL所述沉淀，Low TE的添加量为140-160μL；

第二纯化和第四纯化的步骤相同，具体包括：加入磁珠后，在旋转仪上室温孵育13-16min；孵育结束后放置在磁力架上弃去上清，加入480-520μL的70％乙醇，静置30-40s后缓慢旋转，使磁珠在管壁上移动，待溶液澄清后，去除上清液，重复此步骤一次获得沉淀；再在所获得的沉淀中加入Low TE，用移液器上下吸打后振荡，离心后静置澄清获得上清液；其中，相对于100μL所述沉淀，Low TE的添加量为30-50μL；

步骤(b)中所述的通用接头的退火体系为：100μM SEQ ID NO:1 5μL；100μM SEQ IDNO:2 5μL，5×Annealing Buffer 10μL，无核酸酶水30μL；退火程序为：加热至95℃，并以1℃/min的速度降温至25℃，25℃保温30min后于4℃保存；

条形码接头的退火体系为：100μM SEQ ID NO:3 5μL；100μM SEQ ID NO:4 5μL，5×Annealing Buffer 10μL，无核酸酶水30μL；反应程序为：95℃3min，以1℃/min的速度降温，直至降到25℃，25℃保温30min后于4℃保存；

步骤(c)中接头混合的体系Adapters Mix：通用接头0.8μL，条形码接头15μL，无核酸酶水84.2μL，总体系100μL；

步骤(c)中所述的连接反应的体系为：酶切产物20μL，5×DNA Ligase ReactionBuffer 8μL，DNA连接酶2μL，无核酸酶水5μL，接头混合物5μL；混匀后置于PCR上，反应程序为：22℃保温1h，65℃保温30min，降温至4℃保存。