CN108681661B

CN108681661B - 一种伴随实验生成样本id的方法

Info

Publication number: CN108681661B
Application number: CN201810468822.0A
Authority: CN
Inventors: 朱忠旭; 周文莉; 杨克勤; 牛成镇
Original assignee: Hangzhou Medical Biotechnology Ltd
Current assignee: Hangzhou Medical Biotechnology Ltd
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2022-02-18
Anticipated expiration: 2038-05-16
Also published as: CN108681661A

Abstract

本发明涉及一种伴随实验生成样本ID的方法，包括用于生成ID的基因位点的挑选和伴随高通量测序流程生成样本编码ID两个步骤。通过缩小基因位点范围，快速筛选出一定数目的位点用于验证样本是否错误标记或者污染，可简单快速地判断样本是否一致，识别样本集或实验中意外样本混淆错误，保证实验结果的准确可靠。

Description

一种伴随实验生成样本ID的方法

技术领域

本发明涉及临床医学检验领域，具体涉及一种伴随实验生成样本ID的方法。

背景技术

大规模的实验研究特别是临床医学检验，需要严格管理实验过程，保证实验结果的可靠性、重复性和准确性。其中样本管理是非常重要的一个方面，是实验检测和结果报告的基础。在整个实验过程中，追踪和识别样本通常利用条形码的形式进行管理，但仍然存在人为、***或者环境因素导致样本被污染或被错误标记。如果在实验过程中，样本被污染或者样本被错误标记，很难被发现，进而产生不能与样本相对应的错误实验结果，导致检测结果误判。

通常行业为了避免同一批次之间避免样本污染或标记错误，需要在疑似的样本之间，进行检测数据比较，看数据是否一致，如果非重复样本的结果一致，说明其中有个样本被错误标记。如果重复样本之间的数据不一致，则说明样本被错误标记或者样本被污染。这种方法通常要先处理样本的二代测序数据，而二代测序数据规模较大，分析时间较长，产生的数据结果较多，且样本间存在冗余信息，如果将全部数据进行比较的话，费时费力，效率较慢。

另外，在实验检测完成之后，为了证明样本从检测开始到结束，没有发生样本污染或标记错误，会将保存的原始样本出库，重复进行一次同样的实验或者将样本送至参考实验室重新检测，将两次的结果进行比较，以确认结果是否一致，如果一致，则证明实验结果正确。而检测过程需要完成从样本出库到核酸提取、文库构建、上机测序等程序，重复进行一次实验，或者将样本送至其他实验室检测，成本较为昂贵。

发明内容

本发明所要解决的技术问题在于提供一种伴随实验生成样本ID的方法，可简单快速地判断样本是否一致，快速识别样本集或实验中意外样本混淆错误，保证实验结果的准确可靠。

为解决上述技术问题，本发明提供的一种伴随实验生成样本ID的方法，包括用于生成ID的基因位点的挑选和伴随高通量测序流程生成样本编码ID两个步骤。

进一步地，所述用于生成ID的基因位点挑选包含以下步骤：

(1)检索基因组数据库：检索基因组数据库的基因型数据表中基因位点，导出所有基因位点到本地文本文件，文本文件每一行为一个基因位点；

(2)生成基因型位点列表信息：对文本文件内容的进行再一次检索，如有基因位点出现两次或多次，则只保留一个，生成的文本文件为基因型位点列表文件；

(3)统计每个位点的基因型频率：读取生成的基因型位点列表文件，每读取一行即一个基因位点，以该基因位点为检索条件，统计该基因位点的纯合野生基因型、杂合突变基因型和纯合突变基因型三种基因型出现的次数，每种基因型出现的次数累加得到基因位点的所有基因型出现的总次数，将每种基因型出现的次数除以该位点所有基因型出现的总次数得到该位点特定基因型的频率；循环读取和检索统计每个基因位点的相关信息，将得到结果输出至本地基因型频率数据文件；

(4)缩小基因位点范围：

包括以下三种缩小步骤，各个步骤顺序不限：

a.根据基因型频率缩小位点范围：循环读取本地基因型频率数据文件，筛选满足以下条件的基因位点用于生成编码ID的候选基因位点：

1)基因位点在数据库中至少出现两种基因型，

2)基因位点的所有基因型出现总次数应大于200，

3)若基因位点有三种基因型，筛选出杂合突变基因型频率大约为50％，纯合野生基因型和纯合突变基因型大约各为25％，若基因位点只有两种基因型，且两种基因型的频率各约为50％，

筛选后更新本地基因型频率数据文件，仅保留符合条件的基因位点；

b.根据位点相邻距离缩小位点范围：批量读取基因型频率数据文件，将距离小于100Kb的临近基因位点，随机选取保留一个，更新本地基因型频率数据文件，仅保留符合条件的基因位点；

c.根据其他的基因组数据库位点基因型频率缩小位点范围：循环读取本地基因型频率数据文件，进一步筛选同时满足以下两个条件的候选基因位点：

1)基因型频率数据与其他基因组数据库数据一致，

2)基因位点在世界各大人群中频率变化很小，

筛选后再次更新基因型频率数据文件，仅保留符合条件的基因位点。

其中，所述用于生成ID的基因位点挑选步骤(1)检索的基因组数据库是公开基因组数据库或者自有基因组数据库。

进一步地，所述伴随高通量测序流程生成样本编码ID包含以下步骤：根据所述挑选的用于生成ID的基因位点的多态性生成ID编码，每个基因位点生成一个一位数字，一系列的基因位点按顺序排列组成该样本的编码ID，用于代表该样本。

本发明的有益效果为：

1、在实验数据分析处理过程中伴随生成用以代表样本的ID，将基因型转成数字编码的形式，可以直接通过对比ID数据库，完成检测实验中样本是否错误标记或者污染的检查。本发明在数据分析处理过程中，而不是在分析之后，再进行样本数据间的比较。

2、通过缩小基因位点范围，快速筛选出一定数目的位点用于验证样本是否错误标记或者污染，仅利用少量基因位点信息而非利用所有样本数据进行比较，提高了效率。

3、生成样本ID之后，不用对样本重新进行同样的实验检测。为了确认样本的一致性，可以额外通过成本较低的质谱、PCR、Sanger等平台确认不同实验的实验结果来自同一个样本，不需要单独搭建相关技术平台，节省大量成本。

附图说明

下面结合附图和实施方式对本发明作进一步详细的说明。

图1为本发明的用于生成ID的基因位点的挑选流程图。

图2为本发明成样本编码ID流程图。

具体实施方式

人类基因组中存在大量的单核苷酸多态性位点(SNP)，这些位点在不同人群中存在不同的基因型(多态)，基因位点的多态性决定人群之间的遗传差异，因此可以通过位点的多态性组合来区分不同的样本。人类有几千万的多态性位点，要想利用位点多态性信息用于区分样本，需要从这些多态性位点中人类中共有的多态性位点，挑选可以区分人群的标志性标记位点。

本发明的伴随实验生成样本ID的方法，包括用于生成ID的基因位点的挑选和伴随高通量测序流程生成样本编码ID两个步骤。

如图1所示，所述用于生成ID的基因位点挑选包含以下步骤：

(3)统计每个位点的基因型频率：读取生成的基因型位点列表文件，每读取一行即一个基因位点，第i行的基因位点为RS_i，然后以该基因位点为检索条件，统计该基因位点的纯合野生基因型、杂合突变基因型和纯合突变基因型三种基因型出现的次数，其中纯合野生基因型出现的次数为

杂合突变型出现的次数为

纯合突变型出现的次数为

每种基因型出现的次数累加得到基因位点的所有基因型出现的总次数

将每种基因型出现的次数除以该位点所有基因型出现的总次数得到该位点特定基因型的频率，其中纯合野生基因型频率为

杂合突变基因型频率为

纯合突变基因性频率为

循环读取和检索统计每个基因位点的相关信息，将得到结果输出至本地基因型频率数据文件，包括但不限于每个基因位点的基因型出现的次数、频率等信息；

(4)缩小基因位点范围：

包括以下三种缩小步骤，各个步骤顺序不限：

1)基因位点在数据库中至少出现两种基因型：为了保证位点在人群中有多态性，该基因位点在数据库中至少出现两种基因型，即纯合野生基因型出现的次数

杂合突变型出现的次数

纯合突变型出现的次数

至少有两项不为0。

2)基因位点的所有基因型出现总次数应大于200：为了保证统计的准确性，特定基因位点RS_i的所有基因型出现总次数

应大于200。

3)若基因位点有三种基因型，筛选出杂合突变基因型频率大约为50％，纯合野生基因型和纯合突变基因型大约各为25％，若基因位点只有两种基因型，且两种基因型的频率各约为50％：为了保证该位点的多态性能够用于区分样本，该位点的基因型频率应该满足上述两个条件之一。

筛选后更新本地基因型频率数据文件，仅保留符合条件的基因位点。

b.根据位点相邻距离缩小位点范围：批量读取基因型频率数据文件，因连锁遗传染色体相近的区域存在一起遗传的倾向，即相邻位点的基因型有一起遗传倾向，为了降低连锁遗传造成的影响，将距离小于100Kb的临近基因位点，随机选取保留一个，更新本地基因型频率数据文件，仅保留符合条件的基因位点。

1)基因型频率数据与其他基因组数据库数据一致；

2)基因位点在世界各大人群中(AMR美洲，ERU欧洲，AFR非洲，EAS东亚，SAS南亚)频率变化很小。

上述用于生成ID的基因位点挑选步骤(1)检索的基因组数据库是公开基因组数据库或者自有基因组数据库的VCF文件。VCF(Variant Call Format)文件为国际通用的突变存储文件，用于描述特定样本或者群体的突变发生位置，突变的基因型等信息。VCF文件为样本高通量基因检测分析的必备文件，不必单独生成。其中公开基因组数据库包括千人基因组计划1000Genome、人类外显子组整合数据库ExAC、外显子组测序计划ESP等。自有基因组数据库可以来自高通量测序过程中生成的VCF文件，或者PCR，Samger，质谱等平台生成的数据。

如图2所示，伴随高通量测序流程生成样本编码ID包含以下步骤：根据所述挑选的用于生成ID的基因位点的多态性生成ID编码，每个基因位点生成一个一位数字，一系列的基因位点按顺序排列组成该样本的编码ID，用于代表该样本。

二代数据下机之后进行序列比对，突变检测后，在此分析过程中循环读取用于生成编码ID的基因位点，第j个为G_j，对于特定样本，检索该样本的G_j位点的基因型，

1)若基因型为纯合野生，则用0表示基因位点G_j；

2)若基因型为杂合突变，则用1表示基因位点G_j；

3)若基因型为纯合突变，则用2表示基因位点G_j；

4)若该基因位点存在不知三种基因型，则以此类推用4，5，6……表示。

如果有n个基因位点，则该样本的编码为G₁G₂....G_j....G_n，该编码为代表特定样本的ID。

按照基因位点的多态性，保守计算(两个样本在同一个位点相同的概率为0.5)样本ID重复的概率为2^-23≈1.19*10^-7，即两个样本之间重复的概率保守计算为1.19*10^-7。因此，生成的样本ID可以唯一代表该样本。

实施例1

从1000Genome数据库(http://www.internationalgenome.org/data)下载相关VCF文件，获取数据库中具有RS编号的位点列表，根据获得的位点列表检索各个位点的频率，根据基因型频率数据文件，得到初步用于生成编码ID的候选基因位点。然后为了避免连锁不平衡区域导致结果不准确，根据位点相邻距离不能小于10M，进一步缩小位点范围，为了确保基因型频率的可靠，通过与其他的基因组数据库内的相同位点基因型频率进行比较，完成进一步筛选，最终挑选了23个位点：rs2228560，rs28969504，rs2293353，rs11355106，rs196295，rs2042995，rs7229678，rs1229502，rs5925，rs1057128，rs1800255，rs66677602，rs6021437，rs2277893，rs633800，rs12476289，rs3814182，rs1131695，rs6687605，rs440446，rs2742332，rs1801138，rs3734286。

实验样本由实验室选取74个独立样本，隐去信息后，分别命名为S1至S74。74个样本均经过二代测序进行测序，得到下机数据文件。74个独立样本的二代测序数据经过质控(使用软件：Trimmomatic0.36)、与参考基因组比对(使用软件：BWA0.7.15-r1140，参考基因组版本hg19)、进行序列去重和排序(使用软件：Picard1.124)之后，检测每个样本中的突变位点(使用软件GATKLite2.3-9-gdcdccbb)，得到VCF文件。然后通过上述伴随实验生成样本ID的方法，用上述23个位点得到样本编码ID如下。该编码在对应位的数字分别对应样本在23个RS位点处的基因型。

通过上述样本ID，发现本批次实验中S4和S39样本ID重复，与实验室沟通后确认该样本来自同一个人的两次样本采集和测试。其余样本均具有唯一编码ID，没有重复，因此根据生成的编码ID可以用来代表该样本。

上述方法通过缩小基因位点范围，快速筛选出23个基因位点，仅利用少量基因位点信息对数据进行比较，相比于检索整个基因组来判断，大幅提高的识别的效率和计算的工作量。在实验数据分析处理过程中伴随生成用以代表样本的ID，直接通过对比ID编码完成检测实验中样本是否错误标记或者污染的检查，不用对样本重新进行同样的实验检测。为了确认样本的一致性，可以额外通过成本较低的质谱、PCR、Sanger等平台确认不同实验的实验结果来自同一个样本，不需要单独搭建相关技术平台，节省大量成本。

上述说明是示例性的而非限制性的。通过上述说明本领域技术人员可以意识到本发明的许多种改变和变形，其也将落在本发明的实质和范围之内。

Claims

1.一种伴随实验生成样本ID的方法，其特征在于：包括用于生成ID的基因位点的挑选和伴随高通量测序流程生成样本编码ID两个步骤；

所述用于生成ID的基因位点的挑选包含以下步骤：检索基因组数据库、生成基因型位点列表信息、统计每个位点的基因型频率、缩小基因位点范围；

所述伴随高通量测序流程生成样本编码ID包含以下步骤：根据所述挑选的用于生成ID的基因位点的多态性生成ID编码，每个基因位点生成一个一位数字，一系列的基因位点按顺序排列组成该样本的编码ID，用于代表该样本。

2.根据权利要求1所述的伴随实验生成样本ID的方法，其特征在于：所述用于生成ID的基因位点挑选包含以下步骤：

（1）检索基因组数据库：检索基因组数据库的基因型数据表中基因位点，导出所有基因位点到本地文本文件，文本文件每一行为一个基因位点；

（2）生成基因型位点列表信息：对文本文件内容的进行再一次检索，如有基因位点出现两次或多次，则只保留一个，生成的文本文件为基因型位点列表文件；

（3）统计每个位点的基因型频率：读取生成的基因型位点列表文件，每读取一行即一个基因位点，以该基因位点为检索条件，统计该基因位点的纯合野生基因型、杂合突变基因型和纯合突变基因型三种基因型出现的次数，每种基因型出现的次数累加得到基因位点的所有基因型出现的总次数，将每种基因型出现的次数除以该位点所有基因型出现的总次数得到该位点特定基因型的频率；循环读取和检索统计每个基因位点的相关信息，将得到结果输出至本地基因型频率数据文件；

（4）缩小基因位点范围：

包括以下三种缩小步骤，各个步骤顺序不限：

a. 根据基因型频率缩小位点范围：循环读取本地基因型频率数据文件，筛选满足以下条件的基因位点用于生成编码ID的候选基因位点：

1）基因位点在数据库中至少出现两种基因型，

2）基因位点的所有基因型出现总次数应大于200，

3）若基因位点有三种基因型，筛选出杂合突变基因型频率大约为50%，纯合野生基因型和纯合突变基因型大约各为25%，若基因位点只有两种基因型，且两种基因型的频率各约为50%，

b. 根据位点相邻距离缩小位点范围：批量读取基因型频率数据文件，将距离小于100Kb的临近基因位点，随机选取保留一个，更新本地基因型频率数据文件，仅保留符合条件的基因位点；

c. 根据其他的基因组数据库位点基因型频率缩小位点范围：循环读取本地基因型频率数据文件，进一步筛选同时满足以下两个条件的候选基因位点：

1）基因型频率数据与其他基因组数据库数据一致，

2）基因位点在世界各大人群中频率变化很小，

3.根据权利要求2所述的伴随实验生成样本ID的方法，其特征在于：所述用于生成ID的基因位点挑选步骤（1）检索的基因组数据库是公开基因组数据库或者自有基因组数据库。