CN114369650A

CN114369650A - 捕获探针的设计方法、捕获探针及其应用

Info

Publication number: CN114369650A
Application number: CN202210276899.4A
Authority: CN
Inventors: 董珊珊; 余进
Original assignee: Shenzhen Xianhu Botanical Garden Shenzhen Garden Research Center
Current assignee: Shenzhen Xianhu Botanical Garden Shenzhen Garden Research Center
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-04-19
Anticipated expiration: 2042-03-21
Also published as: CN114369650B

Abstract

本发明涉及生物技术领域，本发明公开了一种捕获探针的设计方法、捕获探针及其应用。其中，捕获探针的设计方法包括：采集苔类植物类群的样本，将样本经过预处理后进行转录组测序，获得原始测序数据；对原始测序数据进行过滤、转录组组装，获得样本的蛋白质序列和核苷酸序列；对蛋白质序列进行聚类分析，获得直系同源单拷贝基因，对直系同源单拷贝基因的核苷酸序列进行比对、抽取，获得目标单拷贝基因；对目标单拷贝基因进行筛选获得目标基因序列，根据目标基因序列设计DNA短序列，根据DNA短序列获得互补的RNA短序列，根据RNA短序列合成捕获探针。本发明提供的捕获探针应用于苔类植物的基因组测序效率高，成本低，富集效果显著。

Description

捕获探针的设计方法、捕获探针及其应用

技术领域

本发明涉及生物技术领域，尤其涉及一种捕获探针的设计方法、捕获探针及其应用。

背景技术

苔藓植物包括苔类（～7300种），藓类（～13000种），和角苔类（～250种）三大支，这三大支内部的***发育关系仍然缺乏***性的研究。目前，学者对于苔类植物***发育的研究主要是采用少数几个分子标记联合分析的方法，存在分子数据不足，取样不全面，得到的***树支持率不够等问题，尤其是一些快速辐射演化的类群（比如叶苔目）和一些问题类群的位置（比如毛叶苔）。

高通量测序（high-throughput sequencing）技术的发展使得分子***学从最初的只能使用少数DNA片段，向应用大规模基因组数据的***发育基因组学方向迅速转变。植物核基因组的基因数量庞大，基因进化速率较快，且符合双亲遗传规律，能够反映复杂的物种进化关系，基于核基因的***发育基因组学的方法可以有效分析不同分类阶元的物种***发育关系。近年来，科研人员通过转录组和/或者基因组测序数据获得物种的基因集，通过聚类获得直系同源单拷贝基因，用于***发育基因组学分析。然而，转录组测序的方法受限于物种的新鲜材料的可获得性，而基因组测序由于数据量庞大导致效率低成本高，均不利于大规模的***发育基因组学的应用。

发明内容

本发明提供一种捕获探针的设计方法、捕获探针及其应用，提高基因组测序的效率，降低成本。

第一方面，本发明提供了一种捕获探针的设计方法，包括：

采集苔类植物类群的样本，将所述样本经过预处理后进行转录组测序，获得原始测序数据；

对所述原始测序数据进行过滤、转录组组装，获得所述样本的蛋白质序列和核苷酸序列；

对所述蛋白质序列进行聚类分析，获得直系同源单拷贝基因，对所述直系同源单拷贝基因的核苷酸序列进行比对、抽取，获得目标单拷贝基因；

对所述目标单拷贝基因进行筛选获得目标基因序列，根据所述目标基因序列设计DNA短序列，根据DNA短序列获得互补的RNA短序列，根据所述RNA短序列合成捕获探针。

第二方面，本发明提供了一种捕获探针，所述捕获探针采用第一方面提供的设计方法设计，所述捕获探针的核苷酸序列包括探针序列组SEQ ID NO.1~SEQ ID NO.100中的一条或多条。

第三方面，本发明提供了第二方面的捕获探针在基因测序方面的应用。

本发明提供的捕获探针的设计方法利用自测的苔类植物转录组数据，获得苔类单拷贝基因数据，并根据苔类单拷贝基因设计合成RNA杂交捕获探针。本发明提供的捕获探针可应用于苔类植物的***发育基因组学的研究，有效数据的比例高，基因组测序效率高成本低，富集效果显著。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中捕获探针的设计方法的一流程示意图；

图2是本发明一实施例中捕获探针在基因测序方面应用的一测序结果图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到，未详细描述的技术均按照本领域人员熟知的标准方法进行。本申请中提及的细胞株、试剂及载体等均有商品供应或以别的途径能为公众所得，它们仅作为举例，对本发明不是唯一的，可分别用其它适合的工具或生物材料来替代。

以下通过实施例对本发明进行进一步的说明。

在一实施例中，如图1所示，提供一种捕获探针的设计方法，包括如下步骤S10~S40。

S10、采集苔类植物类群的样本，将所述样本经过预处理后进行转录组测序，获得原始测序数据。

可理解地，为了保证样本的丰富性和覆盖度，采集苔类植物类群的样本时要尽可能多的选择苔类植物类群的代表类群，同时为了降低样本的地区局限性需要根据类群的分布从多个地区分散采集。苔类植物共15个目且分布广泛，本实施例选择从多个地区的野外采集苔类植物类群的样本，获得了苔类植物13个目的40份新鲜苔类植物材料。样本保存在塑料保鲜盒防止完整性受到破坏，在实验室条件下对样本进行预处理去除杂质便于样品制备。转录组是特定组织或细胞在某一发育阶段或功能状态下所能转录出来的所有RNA的总和，主要包括编码蛋白质的mRNA和非编码RNA。转录组测序能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息，分析转录本的结构和表达水平，同时发现未知转录本和稀有转录本，精确地识别可变剪切位点以及编码序列单核苷酸多态性，提供最全面的转录组信息。

S20、对所述原始测序数据进行过滤、转录组组装，获得所述样本的蛋白质序列和核苷酸序列。

可理解地，原始测序数据中含有一些接头序列和低质量碱基，需要对其进行过滤。转录组组装是使用测序方法将待测物种的基因组生成序列片段（即read），并根据reads之间的重叠区域对片段进行拼接，先拼接成较长的连续序列（contig），再将contigs拼接成更长的允许包含空白序列（gap）的scaffolds，通过消除scaffolds的错误和gaps，将这些scaffolds定位到染色体上，从而得到高质量的全基因组序列。对于有参考基因组的转录组分析来说，转录组组装主要就是将比对到参考基因组的序列片段组装成转录组，常见软件有StringTie和cufflinks。而对于无参考基因组的转录组分析来说，转录组组装主要是将序列片段从头组装成转录组，常见软件有Trinity、Oases和SOAPdenovo-Trans。

可理解地，本实施例在某超算平台上采用Trimmomatic软件过滤原始测序数据的接头序列、重复序列和低质量碱基，得到干净的测序数据。本实施例采用Trinity软件对干净的数据进行转录组组装，编写perl脚本挑选最长的转录本，下游用Transdecoder软件根据默认的参数进行编码区的预测，得到样本基因集的蛋白质序列和核苷酸序列。采用自行编写的Perl脚本挑选最长的转录本，可以有效地过滤数据，去除冗余。

S30、对所述蛋白质序列进行聚类分析，获得直系同源单拷贝基因，对所述直系同源单拷贝基因的核苷酸序列进行比对、抽取，获得目标单拷贝基因。

可理解地，蛋白质是分子功能的执行者和调控者，也是生命活动的主要载体。蛋白质的远同源性探测是结构基因组学和功能基因组学的主要研究任务之一，结构相似的蛋白质，功能也相似，通过聚类可将相似功能的蛋白质聚为一类。聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程，聚类分析起源于分类学，但是聚类不等于分类，聚类与分类的不同在于聚类所要求划分的类是未知的。基因表达数据聚类就是将具有相似表达谱的基因聚为一类，对蛋白质序列进行聚类分析，可以获得直系同源蛋白质家族的聚类簇，根据聚类簇可以筛选直系同源单拷贝基因。单拷贝基因指基因组中拷贝数目少，只有1个的基因，大多数是属于生物体内组成性表达持家基因（管家基因）。

可理解地，本实施例将所有40个苔类植物样本的蛋白质序列和两个轮藻外类群的蛋白序列放在一起用Orthofinder软件进行聚类，马尔可夫聚类算法的聚类参数设置为默认的I=1.5，对基因家族聚类结果用Kinfin软件按照类群占有率>0.65筛选1对1直系同源单拷贝基因。对于直系同源单拷贝基因的核苷酸序列用MAFFT软件进行比对，用TrimAl软件修剪矩阵，用IQTREE2软件构建进化树，根据进化树进一步修剪长支，筛选进化树分辨率高的单拷贝基因家族，得到最终的目标单拷贝基因，用于下游探针设计。

S40、对所述目标单拷贝基因进行筛选获得目标基因序列，根据所述目标基因序列设计DNA短序列，根据DNA短序列获得互补的RNA短序列，根据所述RNA短序列合成捕获探针。

可理解地，杂交捕获的原理是人为设计探针（DNA或者RNA形式），探针可以和目标区段部分或者全部互补。将样本和探针混合，探针会将样本中的目标区段捕获，未设计探针的区段会被洗脱丢弃，之后通过变性（一般是调节pH值成碱性）将探针和捕获区段分开，被捕获的片段即可进行测序文库构建。根据筛选后的目标单拷贝基因序列，可以设计交叠覆盖的DNA短序列，根据碱基互补原则获得与DNA短序列互补的RNA短序列，根据RNA短序列合成RNA杂交捕获探针，用于目标类群的基因捕获测序。

可理解地，本实施例获得的目标单拷贝基因包含1,390个单拷贝基因数据，用Geneious软件筛选碱基序列较为保守的（序列相似度70%-85%），长度中等的（800-3000bp），类群占有率高的（>70%）371个基因。从中分别选取苔类三个亚纲的代表物种2~3个，得到了1,030条目标基因序列，累计总长度1,031,187 bp。根据目标基因序列用Seqkit 软件设计步长为80bp，相互重叠为44bp的DNA短序列19,856条，使之完全覆盖目标基因序列，然后用Seqkit软件对这些短序列生成相应的互补的RNA短序列，总长度3,988,480 bp。将这些RNA短序列通过引物合成获得捕获探针。其中，对于目标单拷贝基因的筛选条件和探针的设计参数十分关键，优选的筛选条件和设计参数可以得到***发育信号比较强的基因和捕获效率比较高的探针。选取具有***代表性的两到三个物种的基因序列用于设计探针，可以有效地提高后续探针对所有类群的基因片段的捕获效率。

可选的，所述预处理包括分离、冲洗、镜检、急冻、研磨。

可理解地，本实施例在采集获得的样本保存在塑料保鲜盒带回实验室，在实验室条件下通过解剖镜分离获得目标物种的样本；将分离后的样本用无菌水冲洗多次后，再一次通过解剖镜镜检，排除可能的种间污染和藻类污染；用实验吸水纸吸去镜检合格的样本的水分，用锡箔纸包裹后放入液氮罐中急冻10分钟；取出急冻后的样本倒入经过液氮预冷的无菌研钵中，快速手动研磨成粉。

可选的，所述转录组测序包括：提取所述样本的RNA，根据所述RNA进行文库构建和转录组测序。

可理解地，植物含有多糖、多酚等次生代谢产物，这些物质在细胞裂解后可与RNA紧密结合形成难溶复合物或胶冻状沉淀，很难将其去除。在一示例中，采用Vazyme FastPure Plant Total RNA Isolation Kit (RC401)试剂盒提取样本的RNA，试剂盒适用于各种植物样品RNA的快速提取。按照试剂盒的操作流程获得样本的RNA，然后根据RNA进行illumina文库构建和转录组测序，获得原始测序数据6G样品。

可选的，所述对所述蛋白质序列进行聚类分析，获得直系同源单拷贝基因，包括：

根据苔类植物类群的所述蛋白质序列和外类群的蛋白质序列进行聚类分析获得同源蛋白质家族的聚类簇；

根据所述聚类簇筛选类群占有率>65%的直系同源单拷贝基因。

可理解地，构建进化树需要选择一个外群确定树根，加入一个外群序列的作用就是为了给进化树定根，根的作用就是明确序列开始进化的起点，定根之后才能从进化树上看出演化的先后顺序。一般原则是选择目标类群之外亲缘关系最近的物种作为外类群。不同的外类群选择会让树形变化差异极大，选择同一物种中再细分的不同种类，类群之外关系越近越好。单拷贝基因是分子***学中的一种极有价值的分子标记，在构建生命树的主干及主干和末梢之间的分枝中将起极其重要的作用。本实施例选择轮藻作为苔类植物的外类群，将所有40个苔类植物样本的蛋白质序列和两个轮藻外类群的蛋白质序列放在一起用Orthofinder软件进行聚类，对基因的聚类结果用Kinfin软件按照类群占有率>0.65筛选1对1直系同源单拷贝基因。OrthoFinder软件将基因树中的基因重复事件映射到物种***发育树的分支上，并提供一些比较基因组学中的统计结果。Kinfin软件通过OrthoFinder软件输出的蛋白质聚类文件，以及功能注释数据和用户定义的物种分类，以获得丰富的直系组聚合注释，筛选直系同源单拷贝基因。

可选的，所述对所述目标单拷贝基因进行筛选获得目标基因序列，所述筛选的序列相似度为70%~80%，长度为800~3000bp，类群占有率>70%。

可选的，所述DNA短序列的步长为70~90bp，互相重叠的长度为34~54bp。

可理解地，捕获探针短序列的设计步长不同，捕获效率也不同，需要针对不同的样本类群设计步长，前后短序列之间的首尾部分长度相互重叠，首尾相连提高捕获效率。捕获探针的RNA短序列是根据互补的DNA短序列得到的，在设计交叠覆盖的DNA短序列时，短序列的步长为70~90bp，互相重叠的长度为34~54bp。本申请一实施例用Seqkit软件设计优选步长为80bp，相互重叠长度为44bp的DNA短序列19,856条，使之完全覆盖目标基因序列，然后用Seqkit软件对DNA短序列生成互补的RNA短序列，总长度为3,988,480 bp。

可选的，本发明提供了一种捕获探针，所述捕获探针采用以上所述的设计方法设计，所述捕获探针的核苷酸序列包括探针序列组SEQ ID NO.1~SEQ ID NO.100中的一条或多条。

可选的，本发明提供了上述捕获探针在基因测序方面的应用。

可理解地，基因组层面的测序主要分为全基因组测序、全外显子测序和靶向测序。全基因组测序是对整个基因组的所有碱基进行测序，全外显子测序是对基因组的所有外显子进行测序，靶向测序是对一些选定的基因进行测序。靶向测序技术主要分为多重PCR和杂交捕获两条技术路线。杂交捕获测序是将基因组DNA打碎为片段后，加入根据目标区域设计的捕获探针，探针可以和目标片段部分或者全部互补，使捕获探针和目标片段杂交把目标片段捕获出来，从而达到富集的目的。

在一实施例中，通过本发明提供的捕获探针设计方法，设计合成捕获探针序列组SEQ ID NO.1~SEQ ID NO.100，直接应用于杂交捕获混合有52个苔类植物样本的DNA文库，DNA文库浓度为20ng/μL，最终体积为20μL。按照Arbor Biosciences单拷贝核基因捕获试剂盒的探针捕获操作流程，得到杂交捕获文库，浓度为10ng/μL，体积为20μL。完整的测序流程包括DNA提取，纯度和浓度检测，DNA片段化，测序文库制备，文库质检，杂交捕获，捕获序列富集，PCR产物纯化，PCR产物质检，测序以及生物信息学分析。杂交捕获文库在illuminaHiseq 2000测序仪上测序获得100G数据，拆分文库，每个物种平均约拆分到2G数据，运行Hybpiper数据分析流程，抽取目标基因序列。

在一对比例中，通过普通文库的二代测序对上述混合有52个苔类植物样本的原始未富集DNA文库分别测序10G数据，共获得520G数据，同样运行Hybpiper数据分析流程抓取目标基因序列，用于对照捕获探针对目标基因序列的杂交捕获效果。

将通过捕获探针测序方法和普通文库的二代测序方法获得的两套数据，抓取到的371个目标单拷贝基因的基因序列的长度分别绘制成热图，测序结果如图2所示。

热图本质上是一个数值矩阵，图上每一个小方格都是一个数值，按一条预设好的色彩变化尺(图2中以“抓取到的目标基因长度的比例”作为色彩变化尺)来给每个数值分配颜色。对比捕获探针测序和普通文库的二代测序的测序结果可知，相比于普通文库的二代测序，通过设计合成苔类基因捕获探针的测试数据量更低，捕获效率更高，对目标基因序列具有显著的富集效果。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

序列表

<110> 深圳市仙湖植物园（深圳市园林研究中心）

<120> 捕获探针的设计方法、捕获探针及其应用

<160> 100

<170> SIPOSequenceListing 1.0

<210> 1

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 1

uacagucuag aucuguaggu cuagggcccg cggaagcuag guaaacgucu ccgcuuacga 60

cuucuauguc cucguccuag 80

<210> 2

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 2

acgucuccgc uuacgacuuc uauguccucg uccuaguuuu cuaauacagg uacaagccca 60

ggucgucgca uugccguccu 80

<210> 3

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 3

uacagguaca agcccagguc gucgcauugc cguccuucuc aaacugcugc cacguuccag 60

aguucuuccu caaguugaua 80

<210> 4

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 4

ugcugccacg uuccagaguu cuuccucaag uugauauugu ucuagaacuu ccuaaaguuc 60

uuccucaaga cgacguugcc 80

<210> 5

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 5

gaacuuccua aaguucuucc ucaagacgac guugccaugu caccaaguuc uaggacucga 60

cccaguccac uaaguugaag 80

<210> 6

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 6

aaguucuagg acucgaccca guccacuaag uugaaguccc ccuagucgcc uucuuacaaa 60

gggucaaaga acacguccga 80

<210> 7

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 7

cccuagucgc cuucuuacaa agggucaaag aacacguccg accccaacac uucuuccuag 60

aguaguucua ggugcccaaa 80

<210> 8

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 8

uacagucuag aucuauaggu cuagggaccg cggaaacugg gaaaacgucu ccgcuuacga 60

cuccuaagcc cacguccaag 80

<210> 9

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 9

acgucuccgc uuacgacucc uaagcccacg uccaagauuu cuaauacagg uacacgccca 60

ggucgucgcu uugccuucuu 80

<210> 10

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 10

uacagguaca cgcccagguc gucgcuuugc cuucuuucuc aaacuggugc cacgucccag 60

aguuuuuccu uaaauuaaug 80

<210> 11

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 11

uggugccacg ucccagaguu uuuccuuaaa uuaauguugu uuuaagaguu ccugaaguuc 60

uuccucaaaa caacguugcc 80

<210> 12

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 12

agaguuccug aaguucuucc ucaaaacaac guugccgugu caacaagucc uaggccucaa 60

cccaguccac uaagucgaag 80

<210> 13

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 13

aaguccuagg ccucaaccca guccacuaag ucgaaguccc ucuagucgcc uuuuuacaca 60

gcgucaagga acaaagccgg 80

<210> 14

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 14

cucuagucgc cuuuuuacac agcgucaagg aacaaagccg gccucaacac uucuuccuag 60

acuaguucua ggugccuaaa 80

<210> 15

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 15

uacaggugca cgcccagguc gucgcuuugc cuucuuucuc gaacuguugg caggucccag 60

aauucuuucu caaguugaug 80

<210> 16

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 16

uguuggcagg ucccagaauu cuuucucaag uugauguuau uuuaggacuu ccugaaguuc 60

uuccucaaga cgacguugcc 80

<210> 17

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 17

ggacuuccug aaguucuucc ucaagacgac guugccuugu caacaaguuc uaggacucaa 60

cccaguccac uaaguugagg 80

<210> 18

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 18

aaguucuagg acucaaccca guccacuaag uugagguccc gcuggucgcu uucuuacaca 60

gcgucaaaga ccaaguccga 80

<210> 19

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 19

cgcuggucgc uuucuuacac agcgucaaag accaaguccg accucaacac uuuuuccuag 60

acuaguucua ggugcccaaa 80

<210> 20

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 20

uuuggccaca uaaaagugcc ccgcgggagc aaggcaugua uucaauaaag cguaaagagc 60

auaucaaaaa gcacuuaauc 80

<210> 21

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 21

uacuguaguc cuccuuaccc uugagguugu cgaugucaua guggagaacg cuucauauuu 60

gaccacaagg acccacuggu 80

<210> 22

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 22

agaacgcuuc auauuugacc acaaggaccc acuggucaga caccccuucu gaucguagua 60

augggcgaag uacauacugu 80

<210> 23

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 23

ccuucugauc guaguaaugg gcgaaguaca uacuguucaa gcuguuaugc auaguccgau 60

gcuaaccaua acugaaagau 80

<210> 24

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 24

uuaugcauag uccgaugcua accauaacug aaagauaguu uuuguuacau agaucuccua 60

gcuugacaag cuaauguuga 80

<210> 25

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 25

uuacauagau cuccuagcuu gacaagcuaa uguugaaacc cuaugacgac ccguccucgc 60

gaagucuuca gaguaagguu 80

<210> 26

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 26

gacgacccgu ccucgcgaag ucuucagagu aagguucaau auagucucua agaagucacc 60

gacaacaaca aaugcuacaa 80

<210> 27

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 27

ucucuaagaa gucaccgaca acaacaaaug cuacaacguu uagcugucag uaaagacuua 60

ugacguucua cccaucuccu 80

<210> 28

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 28

ugucaguaaa gacuuaugac guucuaccca ucuccuccac gcgugccuug caccaucacu 60

acaauaguaa uacgaacacc 80

<210> 29

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 29

gccuugcacc aucacuacaa uaguaauacg aacacccuuu auuuugucua aaccaacugu 60

ucucuguuca aagauaacuc 80

<210> 30

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 30

ugucuaaacc aacuguucuc uguucaaaga uaacuccuuc cacuacgguu ucguucccug 60

aaaccccagu acaaauaacu 80

<210> 31

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 31

acgguuucgu ucccugaaac cccaguacaa auaacuuugu ucacgauuuc gacccaaguu 60

auaauuccgu gagaaagccu 80

<210> 32

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 32

gauuucgacc caaguuauaa uuccgugaga aagccuucua ucgucgucgg gacggaccau 60

accuccgaaa uagcagucgu 80

<210> 33

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 33

cgucgggacg gaccauaccu ccgaaauagc agucguuuuu gacuccuaga ucaacuacaa 60

uuggauuuug guuguggauu 80

<210> 34

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 34

gacuccuaga ucaacuacaa uuggauuuug guuguggauu acgacgggac ugucucuuau 60

uuugaccccg aacaaggacg 80

<210> 35

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 35

ggaacgcuuc auauucgacc acaaggaccc acuaguuaga cauccuuucu ggucguagua 60

gugggcgaag uacaugcugu 80

<210> 36

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 36

cuuucugguc guaguagugg gcgaaguaca ugcuguucaa acuguugugg auaguccgau 60

gguaaccaua gcuaaagaac 80

<210> 37

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 37

uuguggauag uccgauggua accauagcua aagaacaggu uuugcuacau gaaccuucua 60

gcuugacagg cggaggucga 80

<210> 38

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 38

cuacaugaac cuucuagcuu gacaggcgga ggucgaaacc cuauggcgac cuguccucgc 60

uaagucuuca gaguaagggu 80

<210> 39

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 39

ggcgaccugu ccucgcuaag ucuucagagu aagggucgau guagucccua agcagacacc 60

gucaucacca aauacuacaa 80

<210> 40

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 40

ucccuaagca gacaccguca ucaccaaaua cuacaacguu uagcugucag aaagaacuua 60

ugucguucua cccaucuccu 80

<210> 41

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 41

ugucagaaag aacuuauguc guucuaccca ucuccuccac gcgugacucg cuccaucacu 60

acaauaauaa uacgaccaac 80

<210> 42

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 42

gacucgcucc aucacuacaa uaauaauacg accaaccuuu guuuugccug aaccaacuau 60

ucuccguuca aagguagcuc 80

<210> 43

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 43

ugccugaacc aacuauucuc cguucaaagg uagcuccuuc cacuggacuu ucgcucucua 60

aagccgcaau acaaguagcu 80

<210> 44

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 44

ggacuuucgc ucucuaaagc cgcaauacaa guagcucugu ucacgcuuuc gcccuaaguu 60

auaauuccga gagaaggccu 80

<210> 45

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 45

gcuuucgccc uaaguuauaa uuccgagaga aggccuuuua ucgucgacga aacggacccu 60

accuccgaaa caguagccgc 80

<210> 46

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 46

cgacgaaacg gacccuaccu ccgaaacagu agccgcuuug uccuccugaa ucagcugcag 60

uuagauuuug guugagguuu 80

<210> 47

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 47

uccuccugaa ucagcugcag uuagauuuug guugagguuu acgauugggc cuugucuugu 60

uucggccucc gacgcggacg 80

<210> 48

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 48

uaccguagcc cuccuuaccc uugagguugu cgaugucaca gaggcgagcg guucauauuc 60

gaccacaaag acccucuagu 80

<210> 49

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 49

cgagcgguuc auauucgacc acaaagaccc ucuagucagc caacccuucu gaucguagua 60

augggcgaag uacauacuau 80

<210> 50

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 50

ccuucugauc guaguaaugg gcgaaguaca uacuauucaa acuauugugu auaguccguu 60

gguaaccgua acuaaaagau 80

<210> 51

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 51

uuguguauag uccguuggua accguaacua aaagauagcu uuuguuacau ggaucuccug 60

uccugacaag cagacgucga 80

<210> 52

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 52

uuacauggau cuccuguccu gacaagcaga cgucgacacc cuaugacgac cuguccucgc 60

caagucuuca gaauaagguu 80

<210> 53

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 53

gacgaccugu ccucgccaag ucuucagaau aagguucgau guaagcucua agaagacacc 60

gacaacaaca gauacuacaa 80

<210> 54

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 54

gcucuaagaa gacaccgaca acaacagaua cuacaacguu uagcugucag caaagaguua 60

ugacgcucua cccaccuccu 80

<210> 55

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 55

ugucagcaaa gaguuaugac gcucuaccca ccuccuccaa gcgugacuug cuccuucacu 60

acaauaguaa uacgaccauc 80

<210> 56

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 56

gacuugcucc uucacuacaa uaguaauacg accauccuuu auucugccua gaccaacugu 60

ucucuguuca aagauaacuc 80

<210> 57

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 57

ugccuagacc aacuguucuc uguucaaaga uaacuccuuc cacuacgguu ccguucccug 60

aaaccccagu acaaguaacu 80

<210> 58

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 58

acgguuccgu ucccugaaac cccaguacaa guaacuuugu ucacgguuuc gucccaaguu 60

auaauuccgu gaaaaggcuu 80

<210> 59

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 59

gguuucgucc caaguuauaa uuccgugaaa aggcuuuuua ucgucgucga gauggaccau 60

accuccgaaa cagaagucgu 80

<210> 60

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 60

cgucgagaug gaccauaccu ccgaaacaga agucguuucg uccuccuaga ucaucuacau 60

uuagauuuug guugugguuu 80

<210> 61

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 61

uccuccuaga ucaucuacau uuagauuuug guugugguuu acgacgaguc aaucucuuau 60

ucagaccccc aacacggacg 80

<210> 62

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 62

uacccacgcu ugagcaacua aaugucgaaa cagcgugcuc caugacagca cgaccgucuc 60

auaugacgaa agaggccguu 80

<210> 63

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 63

ugacagcacg accgucucau augacgaaag aggccguuaa agucguguua acggcagguc 60

acaaauguuu ucaacgggcg 80

<210> 64

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 64

ucguguuaac ggcaggucac aaauguuuuc aacgggcggu uguuguuguu caagugaaug 60

ugaacacuag cuguaugaaa 80

<210> 65

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 65

uuguuguuca agugaaugug aacacuagcu guaugaaagu ugauggaaca acuucuaccu 60

aagugaauag accagcaacg 80

<210> 66

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 66

auggaacaac uucuaccuaa gugaauagac cagcaacgcc uacuucugaa gccuuccguc 60

uauggcaaac guaaagaccu 80

<210> 67

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 67

cuucugaagc cuuccgucua uggcaaacgu aaagaccugg cgcaguuucu ccugaagucc 60

ucugcaauac cuccacccuc 80

<210> 68

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 68

caguuucucc ugaaguccuc ugcaauaccu ccacccuccc gucuaugccg cuaacgagua 60

ucgaaccugu uccuuaagcc 80

<210> 69

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 69

cuaugccgcu aacgaguauc gaaccuguuc cuuaagccca guuuuaacuu ucuuguguac 60

uggaagacac aacuuguagg 80

<210> 70

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 70

uuuaacuuuc uuguguacug gaagacacaa cuuguagggc uccucuacuu guuugauagc 60

uuuuaauucg uuguccaaag 80

<210> 71

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 71

cucuacuugu uugauagcuu uuaauucguu guccaaaguc uucacuucuc gcaguacuac 60

cuguuguaac ucuuccauga 80

<210> 72

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 72

cacuucucgc aguacuaccu guuguaacuc uuccaugauc uagcaccacu cuucuagcuu 60

caaaaccacc uguuuugucu 80

<210> 73

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 73

gcaccacucu ucuagcuuca aaaccaccug uuuugucugu uagaagccug cguccggcug 60

uugaaagucg cagucccauc 80

<210> 74

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 74

gaagccugcg uccggcuguu gaaagucgca gucccaucug ucgacgcugc guuuuacacc 60

aaccgcuuaa aguuucacuu 80

<210> 75

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 75

gacgcugcgu uuuacaccaa ccgcuuaaag uuucacuucg acuaucacga ucgcuaauau 60

uaacaacacu aggacuagua 80

<210> 76

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 76

acuucgacua ucacgaucgc uaauauuaac aacacuagga cuaguauacc aauagguaaa 60

cggugccuaa auucacguuc 80

<210> 77

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 77

uggcagcacg agcgccucau guggcgaaaa agacccuuga aaucguguua gcgucaaguc 60

acagaugucu ucaauggacg 80

<210> 78

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 78

ucguguuagc gucaagucac agaugucuuc aauggacguu uauuguuguu uaaauggaug 60

uguacgcugg caguguggaa 80

<210> 79

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 79

uuguuguuua aauggaugug uacgcuggca guguggaagu ugauagaaca ccuucuaccu 60

aagugcauaa accagcaacg 80

<210> 80

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 80

auagaacacc uucuaccuaa gugcauaaac cagcaacgcc uacuccuuaa gccaucuguc 60

uaaggaaaac guaaaaaccu 80

<210> 81

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 81

cuccuuaagc caucugucua aggaaaacgu aaaaaccugg cgcacuuccu ucugaagucc 60

gcugcaauac cuccuccguc 80

<210> 82

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 82

cacuuccuuc ugaaguccgc ugcaauaccu ccuccgucuc gucugugacg guaucgcgua 60

ucggaccugu uucuuaagcc 80

<210> 83

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 83

cugugacggu aucgcguauc ggaccuguuu cuuaagccca gguuugaauu ccucguguac 60

gucaagacgc agcucguagg 80

<210> 84

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 84

uuugaauucc ucguguacgu caagacgcag cucguagguc uccucuacuu auucgauagc 60

uuuuaauuuc guguucaaag 80

<210> 85

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 85

cucuacuuau ucgauagcuu uuaauuucgu guucaaagcc uccacuuccc guaguacaac 60

cuguuguaac ucuuccaaga 80

<210> 86

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 86

cacuucccgu aguacaaccu guuguaacuc uuccaagaac uagcgccacu cuucuaacuu 60

cacgaccaac uauucugccu 80

<210> 87

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 87

gcgccacucu ucuaacuuca cgaccaacua uucugccuau uggaagcauu gguccggcug 60

uuaaaggucg cugucccguc 80

<210> 88

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 88

gaagcauugg uccggcuguu aaaggucgcu gucccguccg ucgacgcauc uuucuacacc 60

aacgucuuga aauuccacuu 80

<210> 89

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 89

gacgcaucuu ucuacaccaa cgucuugaaa uuccacuucg acuaacauga acgcuauuag 60

uaacagcacu aaaauuagua 80

<210> 90

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 90

acuucgacua acaugaacgc uauuaguaac agcacuaaaa uuaguauacc aauagguaua 60

cgguaccaaa guucacguuc 80

<210> 91

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 91

ugacagcacg agcgccucau gugacgcaag agaccuuuga aaucauguua acgccagguc 60

acagaugucu ucaauggacg 80

<210> 92

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 92

ucauguuaac gccaggucac agaugucuuc aauggacguu uauuguuguu uaaauggaug 60

uguacgcugg caguguggaa 80

<210> 93

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 93

uuguuguuua aauggaugug uacgcuggca guguggaagu ugauagaaca ccuucuaccg 60

aaguguauaa accaacagcg 80

<210> 94

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 94

auagaacacc uucuaccgaa guguauaaac caacagcggc uacuucugaa accggcuguc 60

uagggaaagc guaaaaaccu 80

<210> 95

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 95

cuucugaaac cggcugucua gggaaagcgu aaaaaccugg cacacuuccu ucugaaaucc 60

gcugcaauac cuccuccguc 80

<210> 96

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 96

cacuuccuuc ugaaauccgc ugcaauaccu ccuccgucuc gucuaugacg guaacgcgua 60

ucgaaccugu uccuuaagcc 80

<210> 97

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 97

cuaugacggu aacgcguauc gaaccuguuc cuuaagccca gguuugaauu ccucguguac 60

guuaagacgc agcugguagg 80

<210> 98

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 98

uuugaauucc ucguguacgu uaagacgcag cugguagguc uccucuacuu auuugacagu 60

uuuuaauuuc gaguccaaag 80

<210> 99

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 99

cucuacuuau uugacaguuu uuaauuucga guccaaaguc uucacuuccc cuaguacuac 60

cuguuguagc uuuuccaaga 80

<210> 100

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 100

cacuuccccu aguacuaccu guuguagcuu uuccaagaac uagcgccacu cuucuagcuu 60

cacgaccacc uguucugacu 80

Claims

1.一种捕获探针的设计方法，其特征在于，包括：

对所述目标单拷贝基因进行筛选获得目标基因序列，根据所述目标基因序列设计DNA短序列，根据所述DNA短序列获得互补的RNA短序列，根据所述RNA短序列合成捕获探针。

2.根据权利要求1所述的捕获探针的设计方法，其特征在于，所述预处理包括分离、冲洗、镜检、急冻、研磨。

3.根据权利要求1所述的捕获探针的设计方法，其特征在于，所述转录组测序包括：提取所述样本的RNA，根据所述RNA进行文库构建和转录组测序。

4.根据权利要求1所述的捕获探针的设计方法，其特征在于，所述对所述蛋白质序列进行聚类分析，获得直系同源单拷贝基因，包括：

根据所述聚类簇筛选类群占有率>65%的直系同源单拷贝基因。

5.根据权利要求1所述的捕获探针的设计方法，其特征在于，所述对所述目标单拷贝基因进行筛选获得目标基因序列，所述筛选的序列相似度为70%~80%，长度为800~3000bp，类群占有率>70%。

6.根据权利要求1所述的捕获探针的设计方法，其特征在于，所述DNA短序列的步长为70~90bp，互相重叠的长度为34~54bp。

7.一种捕获探针，其特征在于，所述捕获探针采用如权利要求1~6中任意一种所述的设计方法设计，所述捕获探针的核苷酸序列包括探针序列组SEQ ID NO.1~SEQ ID NO.100中的一条或多条。

8.一种如权利要求7所述的捕获探针在基因测序方面的应用。