CN103642912B

CN103642912B - 基于转录组测序开发绿豆ssr引物的方法

Info

Publication number: CN103642912B
Application number: CN201310629710.6A
Authority: CN
Inventors: 陈红霖; 程须珍; 王素华; 王丽侠
Original assignee: Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Current assignee: Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2015-03-18
Anticipated expiration: 2033-11-29
Also published as: CN103642912A

Abstract

本发明提供一种基于转录组测序开发绿豆SSR引物的方法，包括：获得绿豆全基因组转录本的集合，形成序列数据库；用Trinity将测序序列拼接成一个转录组，取每条基因中最长的转录本作为Unigene；Unigene序列生物信息学分析；采用MISA1.0对Unigene进行SSR检测；用Primer3进行SSR引物设计，并进行SSR引物多态性鉴定。应用本方法成功设计了13134对SSR引物，从中随机选取50对引物对来源于不同国家共8份绿豆DNA进行验证，其中多态引物共有32对，利用这32对SSR引物可以区分不同地理来源的绿豆材料。本发明方法方便、快捷、准确且成本低廉，为绿豆SSR引物开发提供了新思路。

Description

基于转录组测序开发绿豆SSR引物的方法

技术领域

本发明涉及分子生物学及生物信息学，具体地说，涉及一种基于转录组测序开发绿豆SSR引物的方法。

背景技术

绿豆（Vigna radiata）是一种豆科、蝶形花亚科豇豆属植物，原产印度、缅甸地区。现在东亚各国普遍种植，非洲、欧洲、美国也有少量种植，中国是绿豆[Vigna radiata(L.)Wilczek]的发源地之一，拥有类型繁多的绿豆品种资源。中国、缅甸等国是主要的绿豆出口国。由于其生育期短、适应性广,且具有较好的固氮能力，所以是种植业资源合理配置、倒茬轮作、间作套种、减灾救灾不可缺少的粮食作物及贫困地区农民致富的重要经济作物；同时绿豆富含蛋白、中淀粉及低脂肪，是理想的营养保健食品。种子和茎被广泛食用，具有丰富的营养价值。绿豆还可产成多种食品如鲜食豆芽、绿豆粉丝、绿豆粉皮、绿豆酒、绿豆糕等食品，在国际市场上备受青睐。近年来，国际市场对绿豆的需求量和全世界绿豆的生产量均有所增加，现今中国的绿豆年出口量在20-30万吨，出口价格一般400-500美元。绿豆的社会经济价值不容忽视。然而，与大宗作物如玉米、水稻相比，国内外对绿豆的研究还相当滞后，单产仍处于较低水平，分子水平的研究更显薄弱。

分子标记是以个体间遗传物质内核苷酸序列变异为基础的遗传标记，能在DNA水平上反映植物遗传基础的差异，是DNA水平遗传多态性的直接的反映。简单重复序列(SSR)广泛分布于各类真核生物基因组的不同位置，由于SSR的重复次数不同和重复程度不同，使其呈现高度的多态性。与其它分子标记技术相比，SSR标记具有多态信息含量高、共显性遗传、技术简单、重复性好、特异性强、操作便利、并在基因组中分散分布等优点已成为最受人们欢迎的分子标记之一，被认为是可靠性最高的分子标记类型之一。在许多领域广泛应用。但SSR标记的主要缺点是首先要从该物种中获取重复序列两侧的序列信息，并设计引物，而后才能被利用。

SSR标记可分为基因组SSR(gSSR)和表达序列标签SSR(EST-SSR)，EST-SSR标记源于基因的转录区，与gSSR标记相比，其多态性可能与基因功能直接相关，因此，比gSSR标记具有更高通用性，更经济，更高效率。利用第二代测序技术可以对全基因组范围内的转录本进行大规模的高通量测序，并能产生较之EST测序更为海量的转录组数据，这为功能基因组SSR标记的开发提供了更丰富和极有价值的可利用资源。

转录组序列的数量与日俱增，使得通过数据库搜寻法获得SSR成为可能。但是从第二代测序技术产生的数据往往极其巨大，对大量的EST序列进行格式处理，剔除冗余序列等仍是一个不小的工作量。Perl是一种自由且功能强大的编程语言。它被用作Web编程、数据库处理、XML处理以及***管理等。随着生物信息学的发展，Perl更多的应用到了生物数据的操作和检索中，使得对大批量数据统一处理成为可能。在此基础上进行EST-SSR引物开发更能提高分离效率，节约时间和资金。

目前绿豆尚无全基因组序列信息，绿豆SSR引物数量较少。对于无参考基因组的转录组分析，可先将测序所得的序列拼接成转录本，以转录本为参考序列，进行后续分析。利用第二代高通量测序技术获得绿豆内某一材料的转录组序列信息，批量开发SSR引物的技术成熟，将会对绿豆重要性状基因的定位、克隆及分子标记辅助选择育种和比较基因组学研究等起重要推动作用。

发明内容

本发明的目的是提供一种基于转录组测序开发绿豆SSR引物的方法。

为了实现本发明目的，本发明的一种基于转录组测序开发绿豆SSR引物的方法，所述方法包括以下步骤：

1）构建转录组文库：提取绿豆叶片总RNA，分离出mRNA，反转录并合成双链cDNA，纯化cDNA，在cDNA末端添加腺嘌呤核苷并连接测序接头，然后通过琼脂糖凝胶电泳回收200-700bp片段，对回收片段进行PCR扩增，即构建得到转录组文库；

2）对上述转录组文库进行测序，利用软件Trinity将测序序列拼接成一个完整的转录组，取每条基因中最长的转录本作为Unigene，并对Unigene序列进行生物信息学分析；

3）采用软件MISA1.0对上述Unigene进行SSR检测；

4）采用软件Primer3进行SSR引物设计，并鉴定SSR引物的多态性。

其中，步骤1）中所述测序接头为：

5′RNA Adapter：5′-GATCGGAAGAGCTCGTATGCCGTCTTCTGCTTG-3′

3′RNA Adapter：5′-ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3′。

步骤2）中所述软件Trinity的版本为v2012-10-05；参数设置：min_kmer_cov为2，其它参数为默认参数。

步骤2）中所述生物信息学分析包括但不限于基因注释、CDS预测和差异表达基因筛选等。所述基因注释包括基因表达量注释和/或基因功能注释。所述差异表达基因筛选包括GO功能显著性富集分析和/或Pathway显著性富集分析。

步骤4）中进行SSR引物设计使用的参数为：引物长度18-22bp，Tm55-65℃，产物大小100-300bp。

步骤4）中用于鉴定SSR引物多态性的绿豆选自中国中绿1号、中绿5号；泰国VC2778A、TC1966；俄罗斯1810、1865；澳大利亚ACC814、ACC41等中的至少一种。

本发明还提供根据上述方法开发出的绿豆SSR引物，所述SSR引物的序列如SEQ ID No.1-64所示。

本发明进一步提供根据上述方法开发的绿豆SSR引物在绿豆分子标记辅助育种中的应用。

具体地，本发明提供的一种基于转录组序列开发绿豆SSR引物的方法，包括如下步骤：

1)转录组数据的获得

提取绿豆叶片总RNA，分离出mRNA，反转录并合成双链cDNA，纯化cDNA，进行末端修复，加A并连接测序接头，然后用琼脂糖凝胶电泳进行片段大小选择，最后进行PCR扩增，构建转录组文库，建好的测序文库用Illumina HiSeqTM2000利用双末端测序（Paired-End）的方法进行测序，获得绿豆转录组测序数据。每个样品个体的测序数据量为5GbClean Data。

2)SSR序列的识别

首先安装Perl语言，从http://pgrc.1pk-gatersleben.de/misa网站下载est_trimmer.pl，去除转录组序列中过短的序列和过长的序列；从http://www.bioinformatics,org/cd-hit/中下载CD_HIT软件，去除冗余序列。

从http://pgrc.1pk-gatersleben.de/misa网站下载使用MISA软件以识别和定位序列中SSR，参数设置如下：单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的重复次数至少为10、6、5、3、3、3。

3)SSR引物的设计

使用Primer3批量设计SSR引物，网址：http://sourceforge.net/projects/primer3/files/primer3/l.1.4/primer3-1.1.4-WINXP.zip/download，引物设计参数为引物长度18-22bp，Tm55-65℃，其中前后引物Tm值相差4℃，产物大小为100-300bp。

4)SSR引物对来源于4个不同国家的8份绿豆DNA的多态性鉴定

从所开发13134对SSR引物中随机选取50对引物进行PCR扩增，采用8%非变性聚丙烯酰胺凝胶电泳检测。

本发明提供一种无基因组参考转录组测序开发绿豆SSR引物的方，包括如下步骤：获得绿豆全基因组转录本的集合，形成序列数据库；用Trinity将测序序列拼接成一个转录组，以此作为后续分析的参考序列，取每条基因中最长的转录本作为Unigene；Unigene序列生物信息学分析；采用MISA1.0对Unigene进行SSR检测；用Primer3进行SSR引物设计，并进行SSR引物多态性鉴定。本发明还提供了获得绿豆的转录组信息及功能基因的方法。应用本方法成功设计了13134对SSR引物，从中随机选取50对引物对来源于不同国家共8份绿豆DNA进行验证，其中有46对SSR引物在100-300bp检测到清晰条带，表明引物设计成功率较高，其中多态的引物共有32对，利用这32对SSR引物可以区分不同地理来源的绿豆材料。本发明方法方便、快捷、准确且成本低廉，为绿豆SSR引物开发提供了新思路。

附图说明

图1为本发明实施例1中建库测序流程示意图。

图2为本发明实施例1中RNA-seq数据分析流程示意图。

图3为本发明实施例1中无参考基因组的转录组生物信息分析流程示意图。

图4为本发明实施例1中拼接得到的Unigene长度分布图。

图5为本发明实施例2中SSR密度分布图。

图6为本发明实施例2中部分SSR重复基元类型和数量。

图7为本发明实施例3中利用部分SSR引物对来源于4个国家(中国、泰国、澳大利亚、俄罗斯各2份)共8份绿豆DNA进行多态性验证的结果。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。若未特别指明，实施例均按照常规实验条件，如Sambrook等分子克隆实验手册（Sambrook J&Russell DW,Molecular cloning:a laboratory manual,2001），或按照制造厂商说明书建议的条件。

以下实施例中所用的试验材料，如无特殊说明，均从常规生化试剂商店购买得到。Trizol，RNase H和Superscript IIreversetranscriptase试剂盒均购自Invitrogen公司。DNA聚合酶I购自NEB公司。在cDNA片段上锚定的接头序列购于由Illumina测序试剂盒。以下实施例中的定量试验，均设置三次重复实验，结果取平均值。

实施例1RNA-seq分析及SSR引物的设计

一、转录组数据的获得

利用Trizol试剂提取绿豆整株幼苗总RNA，用带有Oligo（dT）磁珠富集mRNA。加入fragmentation buffer将mRNA打断成短片段，以mRNA为模板，用六碱基随机引物合成第一条cDNA链，然后加入缓冲液、dNTPs、RNase H和DNA polymerase I合成第二条cDNA链，在经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复，加A并连接测序接头，然后用琼脂糖凝胶电泳进行片段大小选择，最后进行PCR扩增，构建好的测序文库用IlluminaHiseq2000进行测序。

反转录并合成双链cDNA，纯化cDNA，进行末端修复，加A并连接测序接头，然后用琼脂糖凝胶电泳进行片段大小选择，最后进行PCR扩增。样品的建库测序流程见图1。具体方法如下：

1.绿豆Total RNA的提取

采用常规的Trizol法提取，纯化，DNA酶处理，获得浓度≥50ng/μl、总量≥3μg、OD260/280为1.8-2.2的Total RNA样品(电泳检测和NanoDrop初检，再优选择样品进行Qubit定量和Agilent2100检测)。

2.mRNA的分离及随机打断

用带有oligo-dT的磁珠分离出带有polyA的mRNA，然后利用超声波随机打断，回收200-700bp的片段。

3.cDNA第一链和第二链的合成

cDNA第一链的合成是用随机6聚物和Superscript II reversetranscriptase试剂盒进行。cDNA第二链是用RNase H和DNA聚合酶I完成。

4.在cDNA片段上锚定的接头序列：

5′RNA Adapter(SEQ ID NO:1)：

5′-GATCGGAAGAGCTCGTATGCCGTCTTCTGCTTG-3′；

3′RNA Adapter(SEQ ID NO:2)：

5′-ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3′。

5.PCR扩增用上述接头序列中的引物进行15个循环的PCR扩增。

6.文库构建及检测利用上述步骤中得到的序列，按照Illumina公司sample prep kit进行文库构建及检测。

7.RNA-seq的测序

将建好的文库以5-7pM的浓度加到Illumina测序仪(GenomeAnalyzer II)的相应通道上，运行36个循环。

8.数据分析

RNA-seq数据分析流程见图2。剔除杂质数据，对RNA-seq组装后的结果进行整合。之前的步骤得到的是原始数据，其中含有步骤4中加入的接头序列，将其去除后称为Clean reads，就可以进行拼接与组装。具体方法是利用将得到的Cleanreads，采用针对转录组拼接的Trinity（版本：v2012-10-05；参数设置：min_kmer_cov为2，其它参数为默认参数）软件进行拼接。用Trinity将测序序列拼接成一个转录组，以此作为后续分析的参考序列。取每条基因中最长的转录本作为Unigene。

9.生物信息学分析

无参考基因组的转录组生物信息分析流程见图3。将上述得到的Unigene序列与蛋白数据库nr、Swiss-Prot、KEGG和KOG进行blastx比对(evalue＜0.00001)，取比对结果最好的蛋白确定Unigene的序列方向。如果不同库之间的比对结果有矛盾，则按nr、Swiss-Prot、KEGG和KOG的优先级确定Unigene的序列方向，跟上述4个库皆比不上的Unigene，用软件ESTScan预测其编码区并确定序列的方向。对于能确定序列方向的Unigene，给出其从5′到3′方向的序列；对于无法确定序列方向的Unigene，给出组装软件得到的序列。对这些基因进行了功能注释，包括KOG分类及GO注释。部分分析情况如图4所示。

二、SSR引物的识别

安装Perl语言，从http://pgrc.1pk-gatersleben.de/misa/下载est_trimmer.pl并运行，去除转录组序列中小于100bp过短的序列和大于2000bp过长的序列，运行命令为:C:\perl\bin>perlest_trimmer,piA.fasta-amb=2,50-tr5=T,5,50-tr3=A,5,50-cut=100,2000。输出两个文件A.fasta.log和A.fasta.results(A为文件代号)。从http://www.bioinformatics.org/cd-hit中下载CD_HIT软件，利用其去除冗余序列：把A.fasta.results复制到cd_hit文件夹中并重命名为B.fasta,运行cd_hit.exe,Perl环境下运行命令为:C:\perl\bin\cd_hit>cd_hit.exe-1B.fasta-oC.fasta-cl.00-n5-M2000，输出三个文件，其中C.fsata文件用于下一步处理(A、B和C均为文件代号)。从http://pgrc.1pk-gatersleben.de/misa/下载misa.pi程序以识别和定位序列中的SSR；参数设置如下：单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的重复次数至少为10、6、5、3、3、3。将C.fsata文件拷贝至C盘perl\bin目录下，Perl环境下运行命令:C:\perl\bin>perlmisa.plC.fasta，运行后产生C.fasta.misa和C.fasta.statistics两个文件，其中C.fasta.misa用于后续引物设计。

三、SSR引物的设计

使用Perl环境下primer3模块批量设计SSR引物:引物设计参数为Tm55-65℃，引物长度为18-22bp。运行p3_out.pi，Perl环境下运行命令为:C:\perl\bin>perlp3_in.plC.fasta.misa，产生了一个名为C.fasta.p3in的primer3的输入文件；再复制C.fasta.p3in文件到C盘perl\bin\primer3\bin根目录下，运行primer3_core.exe实现批量的引物设计，Perl环境下运行命令为：C:\perl\bin\primer3\bin>primer3_core.exe<C.fasta.p3in>C.fasta.p3out，产生一个名为C.fasta.p3out的文件；最后将C.fasta.p3out文件复制至C盘perl\bin目录下，运行p3_out.pi，其命令为：C:\perl\bin>perl p3_out.pl C.fasta.p3outC.fasta.misa，运行后得到C.fasta.results文件，此即为设计好的引物。

实施例2绿豆高通量SSR位点的发掘

应用上述方法使用绿豆叶片作为材料进行高通量测序，利用Perl语言对绿豆转录组序列进行高通量SSR位点的发掘，得到83542条转录组序列和48693条unigenes（表1）。SSR密度分布出现频率最高的是单碱基微卫星，所占比例最高的是A/T，其次是四核苷酸（表2、图5、图6）。

表1 拼接长度频数分布情况

表2 重复基元情况

使用primer3.0批量设计软件共设计获得SSR引物13134对。从中随机抽选50对引物(见核苷酸序列表)，利用绿豆叶片DNA进行引物设计成功率检测，结果表明，共有46对SSR引物在100-300bp检测到清晰条带，表明引物设计成功率较高。

实施例3利用SSR引物对来源于不同国家的8份绿豆DNA进行多态性鉴定

提取8份绿豆DNA，用0.8%琼脂糖凝胶电泳法检测其质量，将DNA浓度稀释至50ng/μL后置于-20℃保存备用。利用引物开发所用材料的DNA进行引物设计成功率PCR鉴定。PCR反应体系采用10μL的反应体系，其中包括40ng基因组DNA，1×Taq酶缓冲液(10mmolL^-1Tris-HCl,pH8.8;10mmol L^-1KCl;10mmol L^-1(NH₄)₂SO₄;1.5mmol L^-1MgCl₂;0.1%Triton X-100)，1mmol L^-1dNTPs，上下游引物0.25μmol L^-1和1U Taq DNA聚合酶。SSR反应程序为：95℃预变性5min，95℃变形30s，51-60℃退火45s，72℃延伸45s，进行32-35个循环，最后72℃延伸5min。反应结束后，产物加入2μL加样缓冲液，以100bp DNA ladder为DNA分子量标准，采用8%的非变性聚丙烯酰胺凝胶进行电泳，电泳缓冲液为0.5×TBE，200V稳压电泳2-2.5h，至加样缓冲液移到凝胶底部时电泳结束。电泳结束后，采用银染法染色，最后将凝胶置于凝胶成像***上拍照。所有数据重复两次。

选取50对引物对8份绿豆材料DNA进行验证，PAGE电泳图如图7所示。结果表明，46对引物在所有材料中均检测到有多态的清晰条带，其中有多态的引物共有32对，表明46对引物中的32对（序列分别如SEQ ID No.1-64所示）可以用来区分不同地理来源的绿豆材料。表明利用此绿豆转录组开发SSR引物的方法，适用于绿豆SSR引物的开发。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

序列说明：

SEQ ID No.1-64为32对绿豆SSR多态性引物，其中，SEQ ID No.1和2为一对SSR引物，SEQ ID No.3和4为一对SSR引物，依次类推，32对绿豆SSR引物的退火温度和扩增产物大小如表3所示。

SEQ ID No.65和66为cDNA片段上锚定的接头序列。

表3 32对绿豆SSR引物的名称、退火温度及扩增产物大小

参考文献

1.王丽侠,程须珍,王素华.绿豆种质资源、育种及遗传研究进展.中国农业科学,2009,42(5):1519-1527

2.陈新,袁星星,陈华涛,顾和平,张红梅,崔晓艳,陈玉.绿豆研究最新进展及未来发展方向.金陵科技学院学报,2010,26(2):59-68

3.程须珍,王素华.中国绿豆品种资源研究.作物品种资源，1998,(4):9-11

4.程须珍,王素华,王丽侠.绿豆种质资源描述规范和数据标准[M].北京：中国农业科学技术出版社,2006:1-2

5.刘长友,程须珍,王素华,王丽侠,孙蕾,梅丽,徐宁.中国绿豆种质资源遗传多样性研究.植物遗传资源学报,2006,7(4):459-463

6.赵丹,程须珍,王丽侠,王素华.植物遗传资源学报,2010,11(5):583-588

7.黄海燕,杜红岩,乌云塔娜,刘攀峰.基于杜仲转录组序列的SSR分子标记的开发.林业科学,2013,49(5):176-181

8.李小白,向林,罗洁,胡标林,田胜平,谢鸣,孙崇波.转录组测序(RNA-seq)策略及其数据在分子标记开发上的应用.中国细胞生物学学报,2013,35(5):1-8

9.孙清明,马文朝,马帅鹏,赵俊生,白丽军,陈洁珍,蔡长河,向旭,欧良喜.荔枝EST资源的SSR信息分析及EST-SSR标记开发.中国农业科学,2011,44(19):4037-4049

10.苗雪霞,李海超,王玉冰,张浩,黄勇平.从无基因组参考序列物种获得基因信息及功能基因的方法.CN102277351A

11.CN201010197328

12.CN201010197347

Claims

1.一种基于转录组测序开发绿豆SSR引物的方法，其特征在于，包括以下步骤：

一、转录组数据的获得

利用Trizol试剂提取绿豆整株幼苗总RNA，用带有Oligo(dT)磁珠富集mRNA；加入fragmentation buffer将mRNA打断成短片段，以mRNA为模板，用六碱基随机引物合成第一条cDNA链，然后加入缓冲液、dNTPs、RNase H和DNA polymerase I合成第二条cDNA链，在经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复，加A并连接测序接头，然后用琼脂糖凝胶电泳进行片段大小选择，最后进行PCR扩增，构建好的测序文库用IlluminaHiseq 2000进行测序；

反转录并合成双链cDNA，纯化cDNA，进行末端修复，加A并连接测序接头，然后用琼脂糖凝胶电泳进行片段大小选择，最后进行PCR扩增；具体方法如下：

(1)绿豆Total RNA的提取

采用常规的Trizol法提取，纯化，DNA酶处理，获得浓度≥50ng/μl、总量≥3μg、OD260/280为1.8-2.2的Total RNA样品；

(2)mRNA的分离及随机打断

用带有oligo-dT的磁珠分离出带有polyA的mRNA，然后利用超声波随机打断，回收200-700bp的片段；

(3)cDNA第一链和第二链的合成

cDNA第一链的合成是用随机6聚物和Superscript II reversetranscriptase试剂盒进行；cDNA第二链是用RNase H和DNA聚合酶I完成；

(4)在cDNA片段上锚定的接头序列：

5′RNA Adapter：

5′-GATCGGAAGAGCTCGTATGCCGTCTTCTGCTTG-3′；

3′RNA Adapter：

5′-ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3′；

(5)PCR扩增用上述接头序列中的引物进行15个循环的PCR扩增；

(6)文库构建及检测利用上述步骤中得到的序列，按照Illumina公司sample prep kit进行文库构建及检测；

(7)RNA-seq的测序

将建好的文库以5-7pM的浓度加到Illumina测序仪的相应通道上，运行36个循环；

(8)数据分析

剔除杂质数据，对RNA-seq组装后的结果进行整合；之前的步骤得到的是原始数据，其中含有步骤4中加入的接头序列，将其去除后称为Clean reads，就可以进行拼接与组装；具体方法是利用将得到的Cleanreads，采用针对转录组拼接的Trinity软件进行拼接；Trinity软件版本：v2012-10-05；参数设置：min_kmer_cov为2，其它参数为默认参数用Trinity将测序序列拼接成一个转录组，以此作为后续分析的参考序列；取每条基因中最长的转录本作为Unigene；

(9)生物信息学分析

将上述得到的Unigene序列与蛋白数据库nr、Swiss-Prot、KEGG和KOG进行blastx比对，evalue＜0.00001，取比对结果最好的蛋白确定Unigene的序列方向；如果不同库之间的比对结果有矛盾，则按nr、Swiss-Prot、KEGG和KOG的优先级确定Unigene的序列方向，跟上述4个库皆比不上的Unigene，用软件ESTScan预测其编码区并确定序列的方向；对于能确定序列方向的Unigene，给出其从5′到3′方向的序列；对于无法确定序列方向的Unigene，给出组装软件得到的序列；对这些基因进行了功能注释，包括KOG分类及GO注释；

二、SSR引物的识别

安装Perl语言，从http://pgrc.1pk-gatersleben.de/misa/下载est_trimmer.pl并运行，去除转录组序列中小于100bp过短的序列和大于2000bp过长的序列，运行命令为:C:\perl\bin>perlest_trimmer,piA.fasta-amb＝2,50-tr5＝T,5,50-tr3＝A,5,50-cut＝100,2000；输出两个文件A.fasta.log和A.fasta.results，A为文件代号；从http://www.bioinformatics.org/cd-hit中下载CD_HIT软件，利用其去除冗余序列：把A.fasta.results复制到cd_hit文件夹中并重命名为B.fasta,运行cd_hit.exe,Perl环境下运行命令为:C:\perl\bin\cd_hit>cd_hit.exe-1B.fasta-oC.fasta-cl.00-n5-M2000，输出三个文件，其中C.fsata文件用于下一步处理，A、B和C均为文件代号；从http://pgrc.1pk-gatersleben.de/misa/下载misa.pi程序以识别和定位序列中的SSR；参数设置如下：单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的重复次数至少为10、6、5、3、3、3；将C.fsata文件拷贝至C盘perl\bin目录下，Perl环境下运行命令:C:\perl\bin>perlmisa.plC.fasta，运行后产生C.fasta.misa和C.fasta.statistics两个文件，其中C.fasta.misa用于后续引物设计；

三、SSR引物的设计

使用Perl环境下primer3模块批量设计SSR引物:引物设计参数为Tm55-65℃，引物长度为18-22bp；运行p3_out.pi，Perl环境下运行命令为:C:\perl\bin>perlp3_in.plC.fasta.misa，产生了一个名为C.fasta.p3in的primer3的输入文件；再复制C.fasta.p3in文件到C盘perl\bin\primer3\bin根目录下，运行primer3_core.exe实现批量的引物设计，Perl环境下运行命令为：C:\perl\bin\primer3\bin>primer3_core.exe<C.fasta.p3in>C.fasta.p3out，产生一个名为C.fasta.p3out的文件；最后将C.fasta.p3out文件复制至C盘perl\bin目录下，运行p3_out.pi，其命令为：C:\perl\bin>perl p3_out.pl C.fasta.p3outC.fasta.misa，运行后得到C.fasta.results文件，此即为设计好的引物；

然后鉴定SSR引物的多态性，用于鉴定SSR引物多态性的绿豆选自中国中绿1号、中绿5号；泰国VC2778A、TC1966；俄罗斯1810、1865；澳大利亚ACC814、ACC41中的至少一种。

2.根据权利要求1所述方法开发的绿豆SSR引物，其特征在于，所述SSR引物的序列如SEQ ID No.1-64所示。

3.权利要求2所述绿豆SSR引物在绿豆分子标记辅助育种中的应用。