CN108009401B

CN108009401B - 一种筛选指纹图谱遗传标记的方法

Info

Publication number: CN108009401B
Application number: CN201711230736.8A
Authority: CN
Inventors: 齐建建; 练群; 张若芳; 蒲媛媛
Original assignee: Inner Mongolia University
Current assignee: Inner Mongolia University
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2021-11-02
Anticipated expiration: 2037-11-29
Also published as: CN108009401A

Abstract

本发明涉及生物信息学领域，具体公开了一种筛选指纹图谱遗传标记的方法及M‑strategy(最大化策略)的新用途。本发明使用M‑strategy，并结合各类遗传标记数据，对核心遗传标记集合进行筛选，然后用于不同物种指纹图谱的构建，解决了传统遗传标记筛选标准单一、选择效率不高、不易实现自动化等问题。该方法考虑了不同遗传标记之间遗传多样性信息的冗余性以及互补性，能够实现对大量遗传标记的高效、快速筛选，从而避免了遗传标记位点多样性信息的冗余，减少了信息浪费，降低了检测成本，提高了筛选效率。

Description

一种筛选指纹图谱遗传标记的方法

技术领域

本发明涉及生物信息学领域，具体地说，涉及遗传标记的筛选。

背景技术

指纹图谱是指能够区分生物(包括动物、植物、真菌、细菌、病毒)不同品种或个体的数个遗传标记及其特征谱带或条带的组合。该技术已广泛用于人类亲子鉴定、动植物群体研究以及作物新品种DUS测定等领域。构建指纹图谱的遗传标记有形态学标记(如株高、花色、茎粗等)、细胞学标记(如核型)、生化标记(如同工酶)和DNA标记(如RFLP、SSR、SNP等)四大类。DNA标记以其重复性好、稳定性高、多态性丰富以及灵敏度高等特点，已成为指纹图谱中应用最为广泛的遗传标记。

用尽可能少的遗传标记实现生物不同品种或个体的有效区分，是确定指纹图谱中遗传标记的主要原则。在以往的实践中，人们筛选指纹图谱中DNA标记的原则多是扩增效率高、重复性好、遗传距离大以及多态性高(PIC值>0.5)(Reid,Euphytica,2011；Ghislain,Mol Breeding,2009)。上述原则既未考虑不同遗传标记间遗传多样性信息的冗余性，也未考虑各遗传标记间遗传多样性信息的互补性。由此造成的后果往往是，指纹图谱中包含的标记数目较多，且并不一定能够完全区分各品种或个体。而对超过实际需求的遗传标记进行分析测定，不仅起不到提高区分率的作用，还会造成人力、物力和财力的浪费。

例如，CN105886613A公开了一种大豆品种SSR指纹图谱身份证的构建方法，选取大豆基因组中320对SSR引物，然后根据这些引物在98个大豆品种中多样性指数的大小排序，最后选择多样性指数最高的7对SSR构建了98个大豆品种的指纹图谱。然而，该技术方案的不足在于：1、没有考虑不同遗传标记在样品区分度上的互补性以及不同遗传标记多样性信息的重复性，有可能造成遗传标记间多样性的冗余和信息浪费，增加检测成本；2、筛选遗传标记的标准单一且全部依靠人工操作，选择效率不高，无法实现大量遗传标记的自动化筛选。

近年来，随着测序成本的不断降低，基因型分析的通量急剧增加，一次检测的遗传标记(如SSR、SNP)动辄成千甚至上万个。在这种情况下，仅靠人力根本无法确定能够满足区分各品种/个体所需的最少数目的遗传标记及其组合。因此，亟需开发一种高效筛选遗传标记的新方法，既能考虑不同标记间多样性信息的冗余性和互补性，又能在一定程度上实现自动化运行，并能满足大规模的数据运算。

申请人研究发现，在样本量较少时(例如5个样品，200个遗传标记)，可使用python脚本直接用于构建最小核心遗传标记的集合。但样本量过大时，python脚本的运行时间大幅增加。若按本发明实施例2中2457×221的数据量计算，该脚本直接用于筛选核心遗传标记的运行时间为MStrat的55.4倍，PowerCore的1800倍。

M-strategy，又称最大化策略，是1993年由Schoen和Brown为构建作物核心种质资源库而开发的一种算法。将表型或基因型数据进行编码，通过最大限度地保留各遗传标记位点上的等位基因类型，从全部资源中选择出数目有限且能最大限度代表全部资源遗传多样性的一个子集，作为全部资源的一套核心种质。

M-strategy通过各遗传位点等位基因数目的最大化，即保留系内等位基因型多且系间等位基因尽可能不同的那些品系，实现用多样性高、数目少的少数个体来代表全部资源的遗传变异，达到创建作物核心种质资源库的目的。根据M-strategy，人们开发了数个构建核心资源库的软件，如基于最大化算法的MSEARCH(Schoen和Brown，1993)、MStrat(Gouesnard等，2001)以及基于启发式算法的PowerCore(Kim等，2007)。

目前为止，尚未见M-strategy及相关软件用于创建核心种质库之外的其他用途，更未见将M-strategy用于筛选指纹图谱所需遗传标记的报道。

发明内容

本发明针对传统的筛选方法中过滤条件单一、筛选效率低下、不易实现自动化、不适于大数据量等问题，提供一种高效筛选指纹图谱遗传标记的新方法。

将传统用于构建作物核心种质资源库的M-strategy应用于高多态性、低冗余度遗传标记的筛选，实现在大量的遗传标记中快速获取能够用于区分该物种不同品种/个体最少数目的遗传标记组合，可用于生物指纹图谱创建、作物品种鉴定等方面。

本发明的技术方案如下：

一种筛选指纹图谱遗传标记的方法，从大量可数字化的遗传标记中，使用M-strategy选出数量有限但能最大限度保留全部遗传标记多样性的核心遗传标记集合，用于构建指纹图谱。

本发明以基于最大化算法开发的MStrat软件为例，阐述如何将M-strategy用于筛选指纹图谱的遗传标记。其它基于M-strategy软件(如PowerCore)的工作流程与MStrat基本相似，可参考其说明书。

(1)安装MStrat软件

从以下网址下载MStrat软件(http://www1.montpellier.inra.fr/gap/MStrat)，并按照提示进行安装。

(2)将遗传标记进行数字化转换

本发明适用于任何能够数字化的遗传标记，如各类形态学标记、基于电泳条带的生化标记以及DNA标记等。

对于某个特定的DNA标记，按照等位基因频率从低到高的顺序，分别用“1，2，……，X”等整数对其不同的等位基因进行编码，缺失数据用9999表示。

(3)输入数据的准备

将原本用于构建核心种质库的m×n阶矩阵(m个样品、n个遗传标记)进行转置，形成n×m矩阵。

对于MStrat而言，原输入文件由行为样品、列为遗传标记变为行为遗传标记、列为样品。

MStrat的输入文件一共有三个，分别命名为input.dat,input.var和input.ker。为保证软件准确识别各个输入文件，所有输入文件格式应严格按照下文的示例进行整理：

①input.dat

1 1 4 1 1 1 1 3 2 0 0 2 2 3 2 0 3 1 0

2 1 2 1 1 1 1 2 0 2 2 3 1 3 9999 4 1 2 3

3 1 1 2 2 2 3 2 4 4 0 2 0 3 2 1 2 2 3

4 1 2 3 2 3 1 1 3 2 1 3 2 2 2 3 3 4 3

5 1 4 4 3 4 3 4 3 9999 1 3 4 3 2 2 4 4 4

6 1 2 9999 2 2 0 2 3 3 2 3 2 4 3 1 3 3 3

……

第一列是各个遗传标记的编号，第二列在该格式转换中固定为1，从第三列开始，每一列代表一个样品，数字编码代表该样品在各遗传位点上的等位基因，缺失数据用9999表示。列与列之间用空格间隔。

②input.var

code 0

individu 0

Sample001 2 1 1 1 2

Sample002 2 1 1 1 2

Sample003 2 1 1 1 2

Sample004 2 1 1 1 2

Sample005 2 1 1 1 2

Sample006 2 1 1 1 2

……

前两行是固定格式，从第三行开始，第一列是样品的编号，从第二列到最后是对不同的样品进行权重赋值，并且对各个位点的属性进行定义，格式说明详见MStrat软件使用说明。

③input.ker

该文件一共两列，第一列是各遗传标记的编号，第二列是用来定义该遗传标记是否为核心种质/遗传标记库的必选项(kernel core)，为了保证遗传标记选取的随机性，本发明对此项参数不做差异化设置。

(4)根据Redundancy曲线确定指纹图谱所需最少遗传标记的数目j

运行Redundancy，获得多样性指数(如Nei Indice)与入选遗传标记数目的二维曲线。输出结果中共有两条曲线，分别是随机和M-strategy条件下，多样性指数随遗传标记数目变化的趋势。M-strategy曲线拐点处所对应的遗传标记数目j，可被视为能代表全部n个遗传标记多样性的“核心遗传标记”的数目。

具体做法是：按照提示依次载入三个输入文件，之后确定输出文件的路径和名称。点击‘Options’，选择‘Nei Indice’，然后点击‘OK’退出。再分别设置‘Redundancy’和‘Maximum Iteration’，然后点击‘Step’设置曲线横坐标的步进值，以及按照此步进值计算的取值范围，在此范围之外的步进值选取按照软件的默认设置进行。随后点击‘OK’并退出到上一级页面，然后点击‘Run Redundancy’开始运行。

(5)确定j个遗传标记的组合

根据多样性指数(如Nei Indice)，确定最优的j个遗传标记的集合。首先重命名输出文件(异于上一个输出文件的名称即可)，防止上一步的结果文件被覆盖，然后点击‘Construction’，设置‘Replicates’和‘Maximum Iteration’，最后设置‘Core’为j，点击‘Run Construction’开始运行。多样性指数值最高的Replicates所对应的j个遗传标记组合，可作为指纹图谱初步的遗传标记集。

(6)验证j个入选遗传标记对m个样品的区分能力

根据第(5)步得到的遗传标记集合，将m个样品在j个遗传标记处的基因型数据提取出来，形成一个m×j的矩阵。比较m个样品两两之间的基因型是否相同。在不统计任意两个样品间存在缺失数据遗传标记的情况下，若任意两个样品均在j个遗传标记中存在一个及以上基因型的差异，则认为j个遗传标记能够完全区分m个样品；反之则无法完全区分m个样品。

(7)筛选附加的遗传标记

根据M-strategy，j个遗传标记代表的是n个遗传标记大部分而非全部的遗传变异。因此，有可能出现少数样品(如数目为x个)不能通过j个遗传标记进行区分的情况。此时就需要在j个遗传标记的基础上，进一步添加新的遗传标记。

具体做法是：若将x个样品两两区分，则存在

个组合。用python脚本依次检验n-j个遗传标记区分

个组合的情况，每次只检验一个遗传标记，将区分组合数目最多的那个遗传标记添加到j个遗传标记中，此时入选的遗传标记为j+1个；进行下一轮运算时，去掉x个样品中能够被两两区分的样品(如y个)，检验n-j-1个遗传标记区分

个组合的情况，将区分组合数目最多的那个遗传标记添加到j+1个遗传标记中，此时入选的遗传标记为j+1+1个；依次循环，直至第k次循环时，在不统计任意两个样品间存在缺失数据遗传标记的情况下，所有x个样品均被两两区分。综上，能够将m个样品全部进行两两区分的遗传标记数目为j+k个。

(8)构建m个样品的指纹图谱

抽取m个样品在j+k个入选遗传标记的基因型，形成m×(j+k)的矩阵。该矩阵即为入选遗传标记数目最少的情况下，m个样品的指纹图谱。

以上，为以MStrat软件为例，使用M-strategy筛选指纹图谱所需最少遗传标记的方法。作为优选，m小于等于500。

当使用PowerCore软件进行时，m可任意。

需要说明的是，本发明创新性的开发了M-strategy在筛选指纹图谱所需最少遗传标记方面的应用，因此本发明旨在保护所有使用M-strategy及相关算法(如最大化算法、启发式算法等)筛选指纹图谱所需最少遗传标记的方法，并不局限于MStrat软件。其它基于M-strategy软件的工作流程与MStrat基本相似，可参考其说明书。

总的来说，本发明将原本为创建作物核心种质库而开发的M-strategy，应用于筛选指纹图谱所需最少数目的遗传标记及其组合。具体做法是，将原m个样品、n个遗传标记的m×n阶矩阵进行转置，形成n×m矩阵；再通过M-strategy进行“构建核心种质库”运算。这样，对M-strategy而言，将原本根据m个样品在n个遗传标记处的信息，从m个样品中筛选出r个(r的大小可由相应软件计算得出)多态性高、冗余度低的样品，作为m个样品的代表(即r为m的核心种质库)；转化为根据n个遗传标记在m个样品处的信息，从n个遗传标记中筛选出j个(j的大小也可由相应软件计算得出)多态性高、冗余度低的遗传标记，作为n个遗传标记的代表(即j为n的“核心遗传标记集”)。入选的j个遗传标记可用于构建基于m个样品的、特定物种的指纹图谱。

所述样品及遗传标记需满足本领域技术人员在筛选指纹图谱遗传标记时的常规要求。

所述可数字化的遗传标记包括但不限于以下类型：

①形态学标记，比如动物的毛色，植物的叶形等。

②细胞学标记，比如不同个体的核型，带型等。

③生物化学标记，比如同工酶电泳，种子贮藏蛋白电泳等。

④免疫学标记，比如基于抗原抗体变化的荧光素，酶，放射性核素等标记。

⑤分子标记，比如RFLP，AFLP，RAPD，SSR，SNP等基于不同个体基因组序列差异的遗传标记。

本发明所述方法，同时输入的遗传标记还可为不同类。即，指纹图谱还可包含不同类型的遗传标记，例如，n个遗传标记中，有n1个SSR和n2个SNP，n1+n2＝n。

本发明的有益效果在于：

本发明使用M-strategy，并结合各类遗传标记数据，对核心遗传标记集合进行筛选，然后用于不同物种指纹图谱的构建。解决了传统遗传标记筛选标准单一、选择效率不高、不易实现自动化检测等缺点。考虑了各遗传标记之间遗传多样性信息的冗余性以及互补性，能够高效地实现对大量遗传标记的快速筛选。避免了遗传标记位点多样性信息的冗余，减少了信息浪费，降低了检测成本，提高了筛选效率。

具体实施方式

下面将结合实施例对本发明的优选实施方式进行详细说明。需要理解的是以下实施例的给出仅是为了起到说明的目的，并不是用于对本发明的范围进行限制。本领域的技术人员在不背离本发明的宗旨和精神的情况下，可以对本发明进行各种修改和替换。

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1：

本实施例用于说明如何使用MStrat软件筛选尽可能少的SSR标记，用于创建桃子种质资源指纹图谱。

第一步：源数据及输入文件。数据来源于已发表论文《中国桃主要品种资源及其野生近缘种的分子身份证构建》(陈昌文等，2011)。按照本发明技术方案中的格式要求，整理输入文件并输入MStrat软件。

第二步：绘制redundancy曲线，确定最少的遗传标记数目。首先打开软件MStratv4.tcl，然后按照提示依次载入三个输入文件并确定输出文件的路径和名称。点击‘Options’，选择‘Nei Indice’，然后点击‘OK’退出。再点击‘Redundancy’，设置‘Replicates’为3，‘Maximum Iteration’设置为30，然后点击‘Step’设置曲线横坐标的步进值，‘Step’值设置为1，按照此步进值计算的取值范围的起始和终止范围分别设置为1和16，在此范围之外的步进值选取按照软件的默认设置进行。随后点击‘OK’并退出到上一级页面，然后点击‘Run Redundancy’开始运行。根据M-strategy曲线拐点，确定Core size＝8为最少的遗传标记数目。

第三步：挑选尽可能少的遗传标记组合。重命名输出文件，防止上一步的结果文件被覆盖，然后点击‘Construction’，设置‘Replicates’为3，设置‘Core’为8，‘MaximumIteration’设置为30。点击‘Run Construction’开始运行。多样性指数值最高的Replicates所对应的8个遗传标记组合：(BPPCT020，UDP96-013，CPPCT005，BPPCT023，BPPCT014，BPPCT008，UDP98-405，UDP98-409)，作为202份桃指纹图谱初步的遗传标记集。

第四步：筛选附加的遗传标记。对上述的8个SSR标记进行区分性检验，发现有114份桃种质资源不能被成功区分。针对上述114份资源，使用脚本从剩余的8个SSR标记中挑选出了7个SSR(BPPCT028，BPPCT034，BPPCT007，BPPCT017，UDP98-407，CPPCT022，CPPCT006)标记，可将该114份桃种质资源两两区分。

第五步：创建指纹图谱。经检验，应用15个SSR标记(M-Strategy挑选的8个SSR标记+脚本挑选的7个SSR标记)(见表1)可将全部202份桃种质资源两两区分。抽取202份桃种质资源在上述15个入选SSR标记处的基因型，形成202×15的矩阵。该矩阵即为入选遗传标记数目最少的情况下，202份桃种质资源的指纹图谱。该图谱可用于不同桃品种间的差异性比较与鉴定。相比于原文中16个SSR标记才能将202份资源全部区分，使用本方法获得的15个SSR标记就可以达到相同效果。

表1

实施例2：

本实施例用于说明如何使用MStrat软件筛选尽可能少的SNP标记，用于创建马铃薯种质资源的指纹图谱。

第一步：源数据及输入文件。源数据为SolCAP网站(http://solcap.msu.edu/potato_genotype_data.shtml)上下载的221个四倍体马铃薯样品的剂量模型下“Infinium8303Potato Array”基因芯片SNP数据。为了保证所用数据的质量，我们对原始数据进行了质量控制，过滤条件为：

各个SNP位点的数据缺失率小于等于0.4，最小等位基因频率大于等于0.05，并结合网站上的说明去除掉边界值不明确的位点，最后得到2457个高质量的SNP位点。

将过滤后的SNP数据进行数字化转换，对于每一个SNP位点的5种基因型,按照等位基因频率从低到高的顺序，分别用0，1，2，3，4来表示，缺失数据表示为9999。

按照本发明技术方案中的格式要求，整理输入文件并其输入MStrat软件。

第二步：绘制redundancy曲线，确定最少的遗传标记数目。首先打开软件MStratv4.tcl，然后按照提示依次载入三个输入文件，之后确定输出文件的路径和名称。点击‘Options’，选择‘NeiIndice’，然后点击‘OK’退出。再点击‘Redundancy’，设置‘Replicates’为3，‘Maximum Iteration’设置为30，然后点击‘Step’设置曲线横坐标的步进值，‘Step’值设置为1，按照此步进值计算的取值范围的起始和终止范围分别设置为1和40，在此范围之外的步进值选取按照软件的默认设置进行。随后点击‘OK’并退出到上一级页面，然后点击‘Run Redundancy’开始运行。根据M-strategy曲线拐点，确定Core size＝15为最少的遗传标记数目。

第三步：挑选尽可能少的遗传标记组合。重命名输出文件，防止上一步的结果文件被覆盖，然后点击‘Construction’，设置‘Replicates’为3，设置‘Core’为15，‘MaximumIteration’设置为30。点击‘Run Construction’开始运行。多样性指数值最高的Replicates所对应的15个遗传标记组合：(solcap_snp_c1_13385，solcap_snp_c1_14700，solcap_snp_c1_14778，solcap_snp_c1_15260，solcap_snp_c1_4576，solcap_snp_c2_10358，solcap_snp_c2_15040，solcap_snp_c2_25289，solcap_snp_c2_3321，solcap_snp_c2_3451，solcap_snp_c2_38739，solcap_snp_c2_40883，solcap_snp_c2_45123，solcap_snp_c2_48370，solcap_snp_c2_51057)，作为221份马铃薯指纹图谱初步的遗传标记集。

第四步：筛选附加的遗传标记。对上述的15个SNP标记进行区分性检验，在不统计任意两个样品间存在缺失数据遗传标记的情况下，发现有5份马铃薯种质资源不能被成功区分。针对上述5份资源，使用脚本从剩余的2442个SNP标记中挑选出了3个SNP(solcap_snp_c1_10297，solcap_snp_c2_16676，solcap_snp_c2_40636)标记，可将该5份马铃薯种质资源两两区分。

第五步：创建指纹图谱。经检验，应用18个SNP标记(M-Strategy挑选的15个SNP标记+脚本挑选的3个SNP标记)(见表2)可将全部221份马铃薯种质资源两两区分。抽取221份马铃薯种质资源在上述18个入选SNP标记处的基因型，形成221×18的矩阵。该矩阵即为入选遗传标记数目最少的情况下，221份马铃薯种质资源的指纹图谱。该图谱可用于不同马铃薯品种间的差异性比较与鉴定。

表2

实施例3：

本实施例用于说明实施例2获得的18个SNP组合(简称马铃薯18SNP)，可用于不同马铃薯品种的区别与鉴定。

为验证马铃薯18个SNP是否可用于马铃薯新品种鉴定，我们又搜集了40份马铃薯栽培种资源，采用实施例2的方法进行了“Infinium 8303 Potato Array”基因芯片分析。提取该40份马铃薯资源在马铃薯18 SNP的基因型数据，经检验，在不统计任意两个样品间存在缺失数据遗传标记的情况下，这40份马铃薯资源可两两区分(见表3)；将这40份马铃薯资源与实施例2中的221份马铃薯资源合并成一个集合，在不统计任意两个样品间存在缺失数据遗传标记的情况下，该集合261份马铃薯种质资源依然可以通过马铃薯18 SNP进行两两区分。上述结果说明，马铃薯18 SNP可用于已知及未知栽培型马铃薯种质资源的品种区分与鉴定。

表3

实施例4：

本实施例用于说明如何使用基于启发式算法的PowerCore软件筛选尽可能少的SNP标记，用于创建马铃薯种质资源的指纹图谱。同时对PowerCore和MStrat的运行效果进行比较。

第一步：源数据及输入文件。采用与实施例2完全相同的输入数据，并根据PowerCore软件要求整理输入文件，格式如下：

注：第一行的‘％Accession’为固定内容格式，从‘％Accession’往右依次为各个样品的编号。

从第二行开始每一行代表一个遗传标记，每一行的第一列都是该遗传标记的数字标号，从第二列开始往右是各个样品在该遗传标记处的基因型数据，用数字表示，其数字化的方法与MStrat相同。缺失用空格标记，最后输入文件以Excel表格的形式存储。

第二步：运行软件，输出尽可能少的遗传标记组合。

1打开输入文件，全选，复制。

2打开PowerCore软件，在空白处右击，然后选择‘clear and paste’，载入输入文件。

3依次点击‘Step1’，‘Classifying’，‘Step2’，‘Run’运行结束后，会在软件最左侧的Entry下面的表格中显示入选遗传标记的数字编号。运行实施例2中的马铃薯数据后，PowerCore软件共输出17个SNP标记；重复运行时，输出的17个SNP保持不变。这17个SNP标记分别为：solcap_snp_c1_16225，solcap_snp_c1_4803，solcap_snp_c2_1220，solcap_snp_c2_12785，solcap_snp_c2_18457，solcap_snp_c2_21637，solcap_snp_c2_35970，solcap_snp_c2_36941，solcap_snp_c2_38900，solcap_snp_c2_44513，solcap_snp_c2_46398，solcap_snp_c2_48929，solcap_snp_c2_54709，solcap_snp_c2_56008，solcap_snp_c2_57917，solcap_snp_c2_6615，solcap_snp_c2_796。

第三步：筛选附加的遗传标记。对上述的17个SNP标记进行区分性检验，发现有5份马铃薯种质资源不能被成功区分。针对上述5份马铃薯资源，使用脚本从剩余的2440个SNP标记中挑选出了3个SNP(solcap_snp_c2_40636，solcap_snp_c2_34117，solcap_snp_c2_49883)标记，可将该5份马铃薯种质资源两两区分。

第四步：创建指纹图谱。经检验，应用20个SNP标记(PowerCore挑选的17个SNP标记+脚本挑选的3个SNP标记，见表4)可将全部221份马铃薯种质资源两两区分。抽取221份马铃薯种质资源在上述20个入选SNP标记处的基因型，形成221×20的矩阵。该矩阵即为入选遗传标记数目最少的情况下，221份马铃薯种质资源的指纹图谱。该图谱可用于不同马铃薯品种间的差异性比较与鉴定。

表4

PowerCore与MStrat运行效果的比较

从同样的输入数据集中挑选区分221份马铃薯种质资源的最少SNP集合，PowerCore为17个+脚本3个、MStrat为15个+脚本3个，入选遗传标记的数目差异不大。此外，两款软件各自输出的核心SNP集合并无交集，其原因可能是全部SNP标记的数据量大、多样性高，存在很多种可以将221份样品区分开来的SNP组合。

运行时间上看，PowerCore挑选17个SNP标记的运行时间为0.5h，而MStrat挑选15个SNP标记运行时间为6.5h，因此PowerCore的运行效率高于MStrat。使用者可根据目标遗传标记集合大小和运行时间的要求，灵活运用PowerCore或MStrat两款软件进行最少数目遗传标记的筛选工作。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种筛选指纹图谱遗传标记的方法，其特征在于，

S1、先将可数字化的遗传标记进行数字化转换，再将样品与数字化后遗传标记信息构建的m×n阶矩阵，转置形成n×m矩阵；

其中，m表示m个样品，n表示n个遗传标记；

S2、利用M-strategy获得多样性指数与入选遗传标记数目的二维曲线，曲线拐点处所对应的遗传标记数目j，可被视为能代表全部n个遗传标记多样性的“核心遗传标记”的数目，再根据多样性指数确定最优的j个遗传标记的集合；

S3、将m个样品在j个遗传标记处的基因型数据提取出来，形成一个m×j矩阵；比较m个样品两两之间的基因型是否相同；

在不统计任意两个样品间存在缺失数据遗传标记的情况下，若任意两个样品均在j个遗传标记中存在一个及以上基因型的差异，则认为j个遗传标记能够完全区分m个样品；j个遗传标记的集合即为用于构建m个样品指纹图谱的遗传标记集合；

若反之，则需要在j个遗传标记的集合中，进一步添加遗传标记，直至得到满足如下条件的遗传标记集合：在不统计任意两个样品间存在缺失数据遗传标记的情况下，m个样品中任意两个样品均在该遗传标记集合内存在一个及以上基因型的差异。

2.根据权利要求1所述的方法，其特征在于，添加遗传标记的方法包括如下步骤：

S31、将不能通过j个遗传标记进行区分的x个样品两两组合，得到

个组合；依次检验n-j个遗传标记区分

个组合的情况，每次只检验一个遗传标记，将能够区分组合数目最多的那个遗传标记添加到j个遗传标记中，此时入选的遗传标记为j+1个；通过新入选遗传标记能够两两区分的样品记为y个；

S32、进行下一轮运算时，去掉x个样品中能够被两两区分的y个样品，检验n-j-1个遗传标记区分

个组合的情况，将区分组合数目最多的那个遗传标记添加到j+1个遗传标记中，此时入选的遗传标记为j+1+1个；

S33、依次循环，直至第k次循环时，所有x个样品均可被两两区分；所筛选到的j+k个遗传标记即为构建m个样品指纹图谱需要的最少的遗传标记集合。