CN109791796A

CN109791796A - 合成wgs生物信息学验证

Info

Publication number: CN109791796A
Application number: CN201780041482.7A
Authority: CN
Inventors: 查尔斯·瓦斯克; 拉胡尔·帕鲁勒卡尔; 约翰·扎卡里·桑伯恩; 斯蒂芬·本茨; 马克·约翰逊
Original assignee: Nantomics LLC
Current assignee: Nantomics LLC
Priority date: 2016-06-30
Filing date: 2017-06-30
Publication date: 2019-05-21
Also published as: US20180004893A1; IL264022A; AU2017290840A1; JP2019525308A; WO2018006057A1; SG11201811286SA; CA3029029A1; US10984890B2; EP3479271A1; KR20190039693A; EP3479271A4

Abstract

公开了用于生成合成基因组数据集和验证用于基因组分析的生物信息学管道的***、方法和设备。在优选的实施方案中，具有已知变体的合成的母系和父系数据集与匹配的正常合成数据集一起使用以验证各种生物信息学管道。使用合成数据集评估生物信息学管道，以评估设计的变更和改进。报告了合成数据集中调用变体中管道的准确度、PPV、特异性、灵敏度、再现性和检测限。

Description

合成WGS生物信息学验证

本申请要求2016年6月30日提交的美国临时申请第62/357282号的优先权，其通过引用并入本发明。

技术领域

本发明的领域是用于检测遗传变异的验证***和方法，特别是涉及全基因组数据的计算分析。

背景技术

背景描述包括可以用于理解本发明的信息。其并非承认此处提供的任何信息是现有技术或与要求保护的本发明相关，也不是承认任何具体或隐含引用的出版物都是现有技术。

本文中的所有出版物均以引用方式并入，其程度与每一项单独的出版物或专利申请被具体和单独地指明为以引用方式并入的程度相同。当并入的参考文献中术语的定义或用法与本文提供的术语的定义不一致或相反，则适用本文提供的术语的定义，而该术语在参考文献中的定义不适用。

随着全基因组测序(WGS)和下一代测序平台的出现，大量的数据现在可用于分析。虽然从临床角度来看，数据的价值无疑是令人期望的，但也出现了各种困难。例如，在大多数临床全基因组分析中，对肿瘤组织过度取样30至100倍，同时过度取样至少10至30倍的匹配的正常组织的情况并不少见，在这种情况下，大多数遗传信息是从大小为约100至400个碱基的片段中由测序机获得的。因此，需要显著的计算能力才能准确地重组基因组并识别基因组中的变化。

例如，最近的一篇文章(BMC Genomics 2014，15：244)比较了使用BAM文件作为输入的多种体细胞突变调用者，包括MuTect、具有简单减法的GATK UnifiedGenotyper、SomaticSniper、Strelka和VarScan2。这里，NIST-GIAB(由NIST主导的“瓶中基因组”联盟中的参考个体NA12878的变体集)被用作评价标准。毫不奇怪，一些算法的灵敏度高于使用相同标准的其他算法的灵敏度。虽然提供了一些指导，然而这种分析将不能够考虑到样本的变异，也不能够在提供固定输入集时识别检测限。此外，每种算法都被设计有潜在的假设，这些假设会影响分析计算平台的功效。

最近，开发了BAMBAM(参见US20120059670和US20120066001)，其能够使用增量和同步定位导向比对来检测肿瘤和匹配的正常之间的变化。有利地，这种***和方法能够检测等位基因的特异性变化，并且能够检测并表征小规模(例如，SNP)至大规模(例如，染色体内和染色体间重排)事件。此外，BAMBAM中的统计碱基调用方法能够适应于等位基因变体以及伪像和低质量读出，这在高通量测序中并不少见。虽然至少在理论上可以在序列分析算法中优化统计方法，但是没有已知的***和方法利用各种计算机实现的算法或新算法来评估现有分析计算设备的变化或验证现有分析计算设备。

因此，仍然需要评估或验证特定遗传分析工具的性能的***和方法，尤其是在分析是基因组分析的情况下。

发明内容

本发明的主题针对验证或校准基因组分析计算设备及其基因组分析算法的实现的多种***和方法，以确保这些算法中的突变调用的质量和准确性。最优选地，所设想的***和方法使用具有模拟肿瘤组织基因组的确定突变的第一多个虚拟基因组和模拟匹配的正常组织基因组的第二多个虚拟基因组。应当注意，数字虚拟基因组可以多种格式制作，特别是优选的格式包括表示整个基因组(或一条或多于一条染色体或其部分)的BAM文件，以及表示由虚拟基因组生成的模拟的测序序列的文件。

在特别优选的方面，虚拟基因组的制备将从已知的人类参考基因组(例如，来自USCS浏览器的人类参考基因组rg19)开始，然后使用SNP变异、以及***、缺失和拷贝数变异进行修饰，每种变异的大小和位置可以不同。然后使用这样生成的合成或模拟的数据集来评估基因组分析算法的性能和/或验证功能。

从以下优选实施方案的详细描述中，本发明主题的各种目的、特征、方面和优点将变得更加明显。

具体实施方式

本发明的主题针对合成数字患者数据集的构建和使用，这些数据集可用于评估计算机实现的基因组分析算法中的变化，以及测试/验证基因组分析计算设备关于精确调用患者基因组改变的算法实现的性能。最优选地，所设想的***和方法使用多个用于男性和女性患者的合成患者基因组，其中每个合成患者基因组基于单个参考基因组，并且其中已知每个合成患者基因组具有已知且不同的基因组改变(例如，SNP、***缺失、拷贝数变化)，以模拟肿瘤组织样本的数据集。此外，应当理解，肿瘤组织的每个模拟数据集具有相应的匹配的正常合成患者基因组，以模拟匹配的正常(未患病)组织样本的数据集。在一些实施方案中，没有***变体(例如，SNP、SNV、***缺失等)的参考基因组被用作匹配的正常合成基因组。然而，还设想其他合成患者基因组可以被用作匹配的正常集(例如，具有其他变体的父系/母系组合、来自数据库的参考基因组、hg19等)，以便适当地能够进行基因组分析(例如BAM BAM等)。

在更进一步设想的方面，基因组分析算法的性能和验证用多于一种，最通常用至少10种不同的肿瘤和匹配的正常合成患者基因组进行测试。另外，设想用于男性和女性患者的多个合成患者基因组可以以多种格式存在，特别优选的格式包括BAM、VCF、FASTA、FASTQ、GAR和RAW格式。

一般而言，如上所述，发明人构建了合成数据集，其可以用作校准工具以证明由基因组分析算法检测的多类变体的检测限(“LoD”)和可重复性，并在一些情况下证明检测的准确性、灵敏度和特异性。通常，基因组分析算法输入深度为50×覆盖度的肿瘤样本(全基因组序列)和深度为25×覆盖度的匹配的正常样本(全基因组序列)。当然，应当理解，肿瘤和匹配的正常的替代测序深度也视为合适的，并且包括1至10×、10至20×、20至50×、50至100×、100至200×、甚至更高。最典型的是，数据集将模拟男性和女性患者，还包括匹配的正常数据。

为了最大化变体调用的准确性，所有输入数据在统计模型中同时用于调用变体。最典型的是，根据所测试的特定算法，报告的变体包括：(a)体细胞单核苷酸变体(SNV)，其对肿瘤样本是特异性的并且通常被认为在肿瘤中出现；(b)存在于肿瘤和正常DNA二者中的种系SNV；(c)表示小规模***和/或缺失的体细胞***缺失，通常少于12个碱基；(d)表示小规模***或缺失的种系***缺失，通常少于12个碱基；和(e)体细胞拷贝数扩增。应当理解，对肿瘤样本特异性的变体被认为在肿瘤中出现，并被称为体细胞，因为它们不太可能影响种系。此外，种系SNV预期存在于肿瘤和正常DNA二者中。

然后，根据合成的患者数据，可以随着算法的每次改变来评估基因组分析算法的输出，并且生成总结这些结果的报告。该报告将给出上述变体的准确性和检测水平，优选地，在当前临床测定的检测限下使用多个(例如，10个、或20个、或30个、或更多个)合成患者数据的组，其细胞纯度为25％。当然，细胞纯度也可以更高(例如，30％至40％、或40％至50％、或甚至更高)或更低(例如，5％至15％、或15％至25％)。此外，为了评估该算法的再现性，至少一个合成患者数据可以在100％的肿瘤纯度以及另外在基本上较低的纯度(例如5％、10％、15％、25％和50％)下重复运行(例如，至少10次、至少15次或至少20次)，以建立计算机模拟生成的合成患者数据的检测下限。

至于合成的患者数据集，设想准备多个数据集以模拟多个患者。最典型地，设想的***和方法将包括对应于至少5个不同患者、或至少10个不同患者、或至少20个不同患者的数据集。此外，应当理解，每个模拟的患者数据集将包括体细胞(肿瘤)数据集和匹配的正常(种系)数据集。然而，在较不优选的方面，匹配的正常数据集可以是用于多个患者的单个合成的数据集，或者甚至是用于已知参考基因组的数据集。然而，在优选的方面，匹配的正常数据集可以包括合成的“匹配的正常”基因组序列，相对于形成合成的“匹配的正常”基因组序列的基础的参考基因组序列(例如，来自UCSC浏览器的hg19)的修饰，以及合成的基因组序列的模拟FASTQ测序序列。类似地，肿瘤数据集可以包括合成的‘肿瘤基因组’序列，相对于形成合成的‘肿瘤基因组’序列的基础的合成的‘匹配的正常’基因组序列的修饰，以及合成的‘肿瘤基因组’序列的模拟FASTQ测序序列。在基因组序列的修饰是随机的情况下，随机数生成器会从用于该合成基因组序列的已知种子开始。应该认识到，使用这些数据集不仅会允许通过基因组分析算法(使用合成的“肿瘤基因组”和“匹配的正常”序列)测试和验证变体调用的准确性、灵敏度、特异性和再现性，而且还会测试和验证涉及模拟测序序列的分组、传输、注释和索引的所有计算组件(使用合成基因组序列的模拟FASTQ测序序列)。应当理解，所公开的***提供了确定性基础，从中可以验证或优化整个基因组分析***。

此外，一旦基因组分析算法产生了各自的输出文件，就可以使用各自的输出文件作为输入参数来验证或评估下游组件的性能。例如，所设想的下游组件包括路径分析引擎，以确定可药用的靶点，如WO2011/139345和WO2013/062505中所述的PARADIGM，或医学推理引擎，以识别患者可能具备资格的US9262719所公开的临床试验。因此，应该认识到，所设想的***和方法可以用于测试和验证整个基因组分析生态***，从测序机级别序列读出的产生到传输、注释、索引和变体调用，以及最终至消耗由基因组分析算法提供的输出数据的临床分析引擎。

合成的DNA数据集的构建

例如，模拟患者的合成的匹配的正常序列可以源自已知的参考基因组，并且应当理解，所有参考基因组都被认为适合用于本文。然而，特别优选的参考基因是人参考基因组，其可以使用指定因子进一步偏倚或不进一步偏倚，指定因子例如种族、族裔、家庭背景、地理位置、对疾病的易感性或诊断等。例如，来自UCSC的人类hg19或hg38可以用作参考序列，或者使用来自基因组参***的GRCh38。最典型地，SNP变体首先随机生成、保存，然后用于修饰参考基因组以产生母系参照和父系参照(即二倍体基因组)。

在一些实施方案中，使用可能存储在一个或多于一个单独的数字文件中的元数据来描述合成数据集的性质。元数据包括允许其他人再现验证过程的各种值和数据结构。示例性元数据可以包括以下的一项或多于一项：用于生成合成数据的随机种子、随机数源或生成器的名称和版本号、待验证的算法的名称和版本号、突变源或生成器的名称和版本号、所生成的所有突变(例如，SNP、***缺失等)的列表及其位置、基线基因组的名称和版本号、或其他因素。应当理解，提供包括用于随机数生成器的种子的元数据，其使得第三方能够通过确定性随机数生成来精确地再现验证结果。这种方法被认为是有利的，特别是当验证结果被用于***的认证、发布或基因组分析计算平台的优化时。

关于SNP取样，预期来自全基因组测序的肿瘤正常基因分型分析通常产生约1e6纯合的非参照位点和约7e5杂合的非参照位点。为了近似匹配这种观察到的变异，发明人从dbSNP数据库中随机选择了具有观察到的群体频率的位点子集。首先，过滤掉多数等位基因频率>80％的位点以增加对杂合位点取样的机会。然后，迭代考虑每个dbSNP位点。有40％的几率，该位点被忽略。有9％的几率，该位点从群体等位基因频率中被取样为纯合的。有51％的几率，两个不同的等位基因从群体频率取样，并进行替换。该混合物产生大约1e6的非参照纯合位点和7e5杂合的非参照位点。杂合位点随机分配到母系或父系单倍体基因组。

使用在前一步骤中创建的dbSNP变体，通过用上面生成的dbSNP变体修饰染色体1-22和染色体X并输出FASTA序列来产生母系基因组。基于正常种子，通过修饰染色体1-22，然后修饰染色体X或Y中的一个来创建父系基因组，概率为50％。然后将这两个FASTA文件组合成单个FASTA序列，其母系染色体的名称后缀为\_m，父系染色体的后缀为\_f。

为了生成将产生合成的匹配的正常基因组的模拟测序序列文件，使用由来自样本测序实验室的测序数据生成的测序序列误差和基础质量图谱(例如，冷冻样本、FFPE、激光显微切割等)，通过使用SimSeq将模拟测序序列(例如，50bp、75bp、100bp、150bp、200bp、250bp或更多，但优选150bp)取样到适当深度来创建FASTQ数据集(例如，5×、10×、15×、20×、25×、30×、35×、40×、大于50×，但优选25×)。模拟覆盖度水平(优选25×)以达到实验室生成的最低可接受覆盖度。重复测序序列的百分比为10％，这意味着重复测序序列的总覆盖度约为27.8×。

模拟的合成的肿瘤基因组序列可以通过对相应的模拟患者的合成的匹配的正常基因组进行修饰来生成。最典型地，修饰将包括SNV、***缺失和拷贝数变化、以及其他已知的肿瘤相关遗传变化。当然，应当理解，这些变化中的一些或全部可以基于癌症中发生的已知变异，或者可以完全随机生成。

例如，体细胞SNV可以如下实现：对于母系和父系单倍体基因组，通过基因组在随机位置生成单碱基变化。对于每个单倍体基因组，SNV可以从三个来源获得：1)COSMIC突变，2)体细胞TCGA突变，和3)基因组中的随机位置。在一个示例性方法中，从COSMIC中选择约500个突变，从TCGA中选择2000个突变，使得如果选择在先前突变的300bp内，则拒绝选择并重试。最后，随机数为2500至25000，以及基因组内随机位点的数量是突变的。选择这些相对大小以模拟基因编码区中的SNV典型数，还使得能够评估内含子和基因间区域中的突变。在母系和父系基因组之间独立地进行位点选择，这意味着当两个单倍体基因组的突变组合时，任何多达两个突变可以在彼此的300bp内。然而，也可以采用许多替代方法，并且可以通过将来自单个或多个患者的实际肿瘤序列信息移植到基因组中，或通过随机生成SNV来指导。

关于体细胞***缺失的生成，预期在母系和父系基因组中均产生250个小缺失，其随机长度均匀地为1至10bp。类似地，在母系和父系基因组中均产生250个小***，其随机长度均匀地为1至10bp。最典型地，选择这些***缺失的位点为远离外显子区域内的任何现有SNV或***缺失变体300bp。设想虽然这可以导致比典型样本中更多的外显子***缺失，但它会使得能够更好地评估基因组分析算法的***缺失调用者的性能。当然，应该理解的是，小***缺失的尺寸和数量可以变化，并且***缺失的合适数量可以是20至50、50至100、100至250、250至500、500至1000、甚至更多。同样，长度可以为1至10、10至20、20至50、50至100甚至更长。

同样，体细胞拷贝数的生成可以如下实现。对于每一个父系和母系单倍体基因组，可以生成非重叠的拷贝数修饰。每个单倍体基因组通常分别生成事件。在染色体中随机选择以下事件：(i)25个小缺失，每个小缺失的大小随机地选自5000bp至500000bp；(ii)25个小串联扩增，每个小串联扩增随机地选自5000bp至500000bp。这些扩增的拷贝数随机地选自2至5；(iii)10个小串联过度扩增，大小为5000至500000bp，拷贝数随机地选自15至30；(iv)大臂/染色体缺失，每个缺失的大小为染色体的30％至100％，锚定在端粒上。“臂”缺失的数量来自泊松分布，均值为1；(v)大臂/染色体串联扩增，每个扩增的大小为染色体的30％至100％，锚定在端粒上。“臂”缺失事件的数量来自泊松分布，均值为3。串联重复的数量是2加上泊松分布的平均值1.0。通过将拷贝数变化应用于由小多态性修饰的肿瘤单倍体基因组来生成最终的肿瘤参考基因组。如前所述，仅提供上述参数以给出示例性指导，但实际数量可以根据待生成的肿瘤模型的特定类型而变化。

模拟肿瘤DNA测序序列数据优选地通过用SimSeq对数据集(例如，5×、10×、20×、30×、40×、50×、70×、100×，但优选50×)进行取样而以FASTQ格式生成，其中测序序列的X％来自最终的肿瘤参考二倍体基因组，测序序列的(100-X)％来自种系二倍体基因组，其中X是分子肿瘤百分比。此X是根据所需的细胞纯度(例如10％、20％、25％、35％、40％、50％和100％的细胞纯度)选择的，并且由于肿瘤基因组倍性的差异而不同于从病理切片中估计的细胞纯度，因为肿瘤基因组对混合细胞贡献的DNA量与倍体为2的正常人细胞不同。该分子纯度(X)来自所需的细胞纯度(c)和肿瘤倍性(p)，其关系如下：X＝p*c/(p*c+2*(1-c))。

在基因组和测序序列生成过程中，所有使用的变体都被存储以用作进一步分析的金标准。为了在多种基因组的检测限下彻底评估性能，优选如上所述以例如30％的细胞纯度，但也可以是10％至90％、20％至80％、30％至70％、或40％至60％的细胞纯度生成的20个不同的合成患者。记录每位患者的随机种子，并使用这些种子生成25×(或50×、100×、150×、200×、250×、或超过250×)的正常基因组覆盖度和50×(或100×、150×、200×、250×或超过250×)的肿瘤基因组覆盖度。所有小修饰以及所有拷贝数修饰都被记录为用于评估变体调用者的金标准。注意到由于随机几率，一些变体会落入基因组的不可映射区域，并且这些变体会被排除在分析之外。此外，一个样本会被用于研究检测限，并会以5％、15％、25％、30％、50％和100％的细胞纯度进行取样。最后，100％LoD样本会在管道运行10次，以评估生物信息学管道的再现性。RNA数据集的构建基本上遵循与上述DNA所述相同的方案。

实施例1——合成WGS生物信息学验证

本发明主题的方法被用于测试/验证基因组分析计算设备(生物信息学管道)在精确调用患者基因组中的变体中的算法实现方面的性能。例如，通过本文描述的方法构建合成基因组数据集。有利地，设想这样的数据集可用于支持管道的CLIA验证。对管道的输入包括(1)正常样本的全基因组测序，深度为25×的覆盖度，和(2)肿瘤样本的全基因组测序，深度为50×的覆盖度。评估的变体包括SNV和***缺失(包括种系和体细胞两者)，以及体细胞拷贝数扩增。

评估体细胞SNV

准确性、灵敏度和特异性：使用具有30％细胞肿瘤纯度的20名合成患者，在核苷酸水平上评估体细胞单核苷酸变体的准确度。由于在整个基因组中选择体细胞变体是随机的(可能是确定性的)，所以这些随机位置中的许多将最终形成不可映射或不良映射的区域。对于每位患者，RefSeq外显子中的每个碱基，优选编码区，将被归类为以下三类之一：

(i)可映射的变体：合成患者在该位置具有体细胞变体。另外，在100％纯肿瘤样本中，等位基因分数＞45％，并且该位点的总测序序列数大于10。优选地，肿瘤样本中的至少20个测序序列具有大于10的映射质量，并且正常样本中的至少10个测序序列具有大于5的映射质量。(ii)不可映射的变体：合成患者具有变体，但它不符合可映射变体的标准。(iii)参考位点：患者的合成基因组是该位点的参考。

准确度定义为(TP+TN)/(TP+TN+FP+FN)；阳性预测值(PPV)定义为TP/(TP+FP)；灵敏度定义为TP/(TP+FN)；特异性定义为TN/(TN+FP)。然后如下表1中所示进行评估。

表1

在优选的方面，验收标准通常定义如下：所有数据集必须显示PPV≥95％，灵敏度≥95％，特异性≥99％，和准确度＞99％。失败标准是显示PPV＜95％，灵敏度＜95％，特异性＜99％，或准确度＜99％的任何数据集。如果任何样本不符合验收标准，则应重复所有样本。

关于可重复性，设想具有100％肿瘤纯度的单个合成的患者样本运行十次以获得可重复性。对于这种比较，初始运行将被用作每个再现性测试的金标准。此处，验收标准通常定义如下：所有数据集必须在第一次和后续重复之间显示＞99.99％的一致性，并且失败标准通常定义如下：任何后续运行显示观察值与预期值之间的一致性＜99.99％。同前，如果任何样本不符合验收标准，则应重复所有样本。

检测限：使用重复性样本来评估体细胞单核苷酸变体的检测限。肿瘤WGS模拟测序序列包含“正常浸润”。肿瘤测序序列的百分比通常在以下水平运行：5％、10％、15％、20％、25％、30％、40％和50％。检测限会是最低的箱(bin)，使得它和所有较高等位基因频率的箱具有≥75％PPV、≥99％特异性和≥95％灵敏度。

种系SNV检测的评估

关于准确性、灵敏度和特异性，设想hg19参考基因组的每个碱基会根据下表2进行评估。种系变体定义为在基因组生成期间为正常基因组选择的基因型(包括杂合性)。如前所述，种系变体会分类为可映射变体、不可映射变体或参考位点。在一些实施方案中，为体细胞SNV检测研究生成的相对低数量(例如，10、或20、或30)的合成患者会被用于该研究。

表2

阳性预测值(PPV)定义为TP/(TP+FP)；准确度定义为(TP+TN)/(TP+TN+FP+FN)；灵敏度定义为TP/(TP+FN)；特异性定义为TN/(TN+FP)。在优选的方面，验收标准定义如下：所有数据集必须显示PPV≥95％、灵敏度≥95％和特异性≥99％。失败标准定义如下：显示PPV＜95％、灵敏度＜95％或特异性＜99％的任何数据集。如果任何样本不符合验收标准，则应重复所有样本。

关于可重复性，设想具有100％肿瘤纯度的单个合成的患者样本运行十次以获得可重复性。验收标准定义如下：所有数据集必须在第一次和后续重复之间显示＞99.99％的一致性。失败标准定义如下：任何运行显示出观察值与预期值之间的一致性＜99.99％。如果任何样本不符合验收标准，则应重复所有样本。

检测限：由于种系变体不受肿瘤纯度的影响，因此未评估检测限。

体细胞***缺失的评估

关于量度和预测评估，应该认识到预测的评估是在碱基水平上进行的，对于可以报告***缺失的每个可能位置，它被分类为阳性或阴性。与SNV评估一样，黄金集会受到可映射编码区域的限制，使用如前所述的以下分类：(i)可映射的变体，(ii)不可映射的变体，和(iii)参考位点。设想评估的***缺失可以具有各种长度，例如5bp、10bp、15bp、20bp、25bp、50bp或75bp。在优选的实施方案中，仅评估长度≤15bp的***缺失，而滤出更长的***缺失。

准确度定义为(TP+TN)/(TP+TN+FP+FN)；阳性预测值(PPV)定义为TP/(TP+FP)；灵敏度定义为TP/(TP+FN)；特异性定义为TN/(TN+FP)。计算如下表3所示。模拟的***缺失数量与临床样本中发现的数量匹配良好，但RefSeq基因中常见的事件数量非常少。因此，通过汇总来自RefSeq基因区域的结果来评估量度。

表3

准确性会在可变性样本中进行评估。验收标准定义如下：汇总结果必须显示PPV≥95％、灵敏度≥95％和特异性≥99％。失败标准定义为：显示PPV＜95％、灵敏度＜95％或特异性＜99％的任何数据集。

可重复性：具有100％肿瘤纯度的单个合成患者样本(例如，用于准确度研究)重复运行十次。验收标准为所有数据集必须在第一次和后续重复之间显示＞99.99％的一致性。失败标准为任何管道运行显示出观察值与预期值之间的一致性＜99.99％。如果任何样本不符合验收标准，则应重复所有样本。

检测限：使用重复性样本评估***缺失的检测限。肿瘤WGS模拟测序序列包含“正常浸润”。肿瘤测序序列的百分比会在以下水平运行：5％、10％、15％、20％、25％、30％、40％和50％。检测限是最低的箱，使得它和所有较高等位基因频率的箱具有PPV≥75％、特异性≥99％和灵敏度≥95％。

种系***缺失的评估

关于合适的量度和预测评估，设想预测评估是在碱基水平上进行的，对于可以报告***缺失的每个可能位置，它被分类为阳性或阴性。与SNV评估一样，黄金集会受到可映射编码区域的限制，使用以下描述的分类：(i)可映射的变体：合成患者在该位置具有体细胞变体。另外，在100％纯肿瘤样本中，等位基因分数为＞45％，并且该位点的总测序序列数大于20。(ii)不可映射的变体：合成患者具有变体，但它不符合可映射变体的标准。(iii)参考位点：患者的合成基因组是该位点的参考。计算如下表4所示进行。

表4

准确度定义为(TP+TN)/(TP+TN+FP+FN)；阳性预测值(PPV)定义为TP/(TP+FP)；灵敏度定义为TP/(TP+FN)；特异性定义为TN/(TN+FP)。与体细胞***缺失一样，RefSeq基因中常见的事件数量非常少，并且会通过汇总来自RefSeq基因区域的结果来评估量度。

可重复性：具有100％肿瘤纯度的单个合成患者样本(用于准确度研究)重复运行十次。验收标准定义如下：所有数据集必须在第一次和后续重复之间显示出＞99.99％的一致性。失败标准定义为：任何管道运行显示出观察值与预期值之间的一致性＜99.99％。如果任何样本不符合验收标准，则应重复所有样本。

检测限：由于种系变体不受纯度的影响，因此不会评估检测限。

体细胞扩增的评估

在一些实施方案中，使用来自模拟的正常基因组序列之一的序列数据收集基因组的可映射区域。如果区域内至少一个测序序列映射的映射质量为＞0，则可以将区域定义为“可映射”。然而，设想“可映射”会需要(i)区域内映射质量＞0的2、5、10、15、20或50个测序序列映射；(ii)区域内其映射质量大于0、1、5、10、15、20或50的一个测序序列映射，或者(ii)其他一些测序序列的最小数满足最小映射质量。可以生成来自5个模拟患者的模拟正常基因组序列的可映射基因组区域的联合，但是在一些实施方案中，可以使用2个、4个、10个、15个或20个模拟患者。通常，未在该可映射的联合中表示的基因组区域被认为是不可映射的，并且未被报告。

参考基因组中的每个碱基将根据下表5进行评估：

表5

验收标准定义如下：纯度≥30％的所有数据集必须显示出灵敏度≥95％和特异性≥95％。失败标准定义如下：纯度≥25％的数据集显示出灵敏度或特异性＜95％。如果样本失败，则应重复所有样本。

检测限：与SNV分析一样，检测限(“LoD”)样本的6种不同纯度被用于评估拷贝数扩增的检测限。检测限是肿瘤纯度和所有更高的肿瘤纯度具有≥95％的灵敏度和≥99％的特异性的最低肿瘤纯度。验收标准定义如下：检测限必须是≤25％的肿瘤纯度。失败标准定义如下：检测限为＞25％的肿瘤纯度。

可重复性：具有100％肿瘤纯度的单个合成的患者样本(用于SNV研究)重复运行十次。验收标准定义如下：所有数据集必须在第一次和后续重复之间显示出＞99.99％的一致性。失败标准定义如下：任何管道运行显示出观察值与预期值之间的一致性＜99.99％。如果任何样本不符合验收标准，则应重复所有样本。

以下讨论表示与所公开的发明主题相关的其他考虑因素。应当理解，所公开的技术可以被认为是蒙特卡罗***，其利用现有的现实世界数据来构建一个或多于一个经验导出的基因组变体概率分布。该***被配置为利用这些变体概率分布来为一个或多于一个患者生成合成WGS，包括肿瘤WGS以及匹配的正常WGS。

在一些实施方案中，生成的合成数据为基因组分析计算生态***的优化提供了一个放大途径。合成数据具有明确定义的、可能确定性的结构，其可以用于分析生态***中每个计算要素相对于要素的角色或职责的性能。例如，一旦生成合成数据，就可以通过标准的工作流程。可以相对于特定类型的合成生成的变体来测量工作流程的每一步的性能或准确度。这种方法使研究人员能够深入了解如何相对于实际数据中出现的预期变量的类型来优化工作流程的每个步骤，特别是在算法级别上。

应当理解，本发明的方法显著改善了基因组分析设备和生物信息学管道的发展。实际上，本发明的方法具有直接的技术效果。例如，如本发明主题中所述生成合成的数字基因组数据集使得基因组分析设备能够在包含已知变异的已知数据集上进行可信的验证。在没有本发明主题的合成的数据集的情况下，分析设备不能完全在计算机上验证生物信息学管道。相反，这种设备需要输入源自样本的序列数据，而不能控制序列数据的准确度或精确度。实际上，本发明的主题允许生物信息学管道的验证没有数据偏差，并且不会错误地倾向于基因组和外显子组测序，并且因此在基因组分析领域提供了实质性的改进。

此外，合成的数字基因组数据集的生成使得研究人员能够定制合成的数据集中变体的数量、变体的频率和变体的类型。这种定制使得生物信息学管道能够被测试、加压(stressed)、并针对具体应用进行设计(例如，识别高频SNV、SNP、***缺失等；识别低频变体，识别具有提高的特异性、选择性、准确性或具有更低的检测限等的特定类型的变体)。应当理解，生成本发明主题的合成数据集还使得计算设备能够执行先前不可能的功能(如上所述)。

实施例2——RNA-Seq生物信息学验证

使用RNA-Seq生物信息学，本发明主题的方法被用于测试/验证基因组分析计算设备(RNA生物信息学管道)在精确调用患者基因组中的变体中的算法实现方面的性能。如上所述，构建了合成的RNA数据集和DNA数据集。有利地，设想这种数据集可以用于支持管道的CLIA验证。输入包括(1)来自WGS肿瘤和正常数据集的变体调用和(2)跨越两个单独的库的制作的总深度为1.4亿测序序列的肿瘤RNA测序。然而，应当理解，本发明的主题考虑了跨越各种库的制作(例如，单个库、多于2个、多于5个、多于10个、多于20个、多于30个等)的各种测序序列深度(例如，至少1000万、5000万、1亿、1.5亿、2亿、3亿个测序序列等)。

在这种情况下，报告的变体包括(1)在RNA-Seq中表达的体细胞SNV的存在，(2)在RNA-Seq中表达的种系SNV的存在，(3)在RNA-Seq中表达的体细胞***缺失的存在，(4)在RNA-Seq中表达的种系***缺失的存在，和(5)基因转录物水平。在合成数据集上评估这些输出，并生成报告。该报告使用接近检测限(25％肿瘤细胞纯度)的20名合成患者组，给出了变体的特异性、选择性、准确性和检测水平。当然，更多(例如，30或更多)或更少(例如，10或更少)的合成患者可以以更高(例如，30％至40％、40％至50％、或甚至更高)或更低(例如，5％至15％、15％至25％)的细胞纯度使用。另外，合成患者之一以100％肿瘤纯度运行10次来评估管道的再现性，另外以基本上较低的纯度(例如10％、15％、20％、25％、30％、35％、40％、45％和50％)来确定检测下限。

在本实施例中，用于种系表达SNV的参考变体集包括满足以下所有条件的位点：(1)在输入实验DNA对比中，该位点是预测的种系SNV(注意这包括来自该评估的真阳性和假阳性)；(2)在100％肿瘤纯度对比中，有两个或多于两个测序序列支持该变体；和(3)根据下述标准，该位点尚未被过滤掉。实验变体集包括满足以下所有条件的位点：(1)该位点是输入实验DNA对比中的阳性种系SNV(注意这包括真阳性和假阳性)；(2)在实验数据中有两个或多于两个RNA测序序列支持该变体；和(3)根据下述标准，该位点尚未被过滤掉。对于100％参考RNA数据集，过滤掉总测序序列少于20的位点。此外，过滤掉参考RNA中仅具有支持变体的单个测序序列的位点。设想这种过滤排除了非组成性表达的基因。

进一步设想可以修改基因组分析算法以结合各种改进的特征。例如，在本实施例中，基因组分析算法包括以下特征：(1)从RNA-seq数据调用融合基因的操作；(2)使用“局部”比对的RNA序列数据和de Brujin图来确定SNV和***缺失(种系和体细胞)的表达的操作；(3)改进软裁剪(soft-clip)共有序列测定的操作，以使得多个共有序列能够共存于转录组中的相同位置；以及(4)每对基因允许多于一个基因融合候选物。应当理解，基因组分析算法的修改和本发明主题的方法的验证证明了算法经改善的准确性、特异性和选择性，包括例如改善的EGFRvIII在模拟数据中的调用性能。

在该实施例中，对于每种所述变体类别(表达的体细胞SNV、表达的种系SNV、表达的体细胞***缺失，表达的种系***缺失和基因转录水平)，评估了基因组分析算法的准确性、检测限和再现性。在20个合成患者样本中评估算法的准确性。使用来自在不同肿瘤纯度下运行的20个合成患者样本中的一个样本评估算法的检测限(对于非种系变体)。通过将来自LoD评估的样本通过算法以100％纯度运行另外九次来评估算法结果的再现性。

表6中报告了验证结果的概述。除非另有说明，关于每个变体类别的PPV、灵敏度、特异性和再现性的通过标准如上所述。有利地，本发明主题的方法揭示基因组分析算法通过了PPV、灵敏度和特异性的标准，以及体细胞变体和基因转录物水平的再现性和LoD。

表6

表达的体细胞SNV的评估

跨越多种样本的表达的体细胞SNV准确度：使用具有30％细胞纯度的20名合成患者来评估用于调用表达的体细胞SNV的基因组分析算法的PPV、灵敏度和特异性，详细结果示于表7中。有利地，通过满足相对于调用表达的体细胞SNV的每个单个合成患者的通过标准(PPV≥95％、灵敏度≥95％和特异性≥99％)来验证算法。

表7

表达的体细胞SNV检测的可重复性：通过运行具有100％肿瘤纯度的单个合成的患者样本(变体20)十次，来评估用于调用表达的体细胞SNV的基因组分析算法的结果的可重复性，详细结果示于表8中。有利地，通过满足相对于调用表达的体细胞SNV的可重复性的通过标准(第一次和后续重复之间＞99.99％的一致性)来验证算法。

表8

表达的体细胞SNV检测限：通过以10％、20％、25％、30％、40％和50％的肿瘤纯度运行单个合成的患者样本(变体20)，来评估用于调用表达的体细胞SNV的基因组分析算法的LoD，详细结果示于表9中。有利地，相对于调用表达的体细胞SNV，所有样本均通过具有20％细胞纯度的检测限的验收标准(PPV≥75％、特异性≥99％和灵敏度≥95％)。

表9

表达的种系SNV的评估

跨越多种样本的表达的种系SNV准确度：使用具有30％细胞纯度的20名合成患者来评估用于调用表达的种系SNV的基因组分析算法的PPV、灵敏度和特异性，详细结果示于表10中。有利地，通过满足相对于调用表达的种系SNV的每个单个的合成患者的通过标准(PPV≥95％、灵敏度≥95％和特异性≥99％)来验证算法。

表10

表达的种系SNV检测的可重复性：通过运行具有100％肿瘤纯度的单个合成的患者样本(变体20)十次来评估用于调用表达的种系SNV的基因组分析算法的结果的可重复性，详细结果示于表11中。有利地，通过满足相对于调用表达的种系SNV的可重复性的通过标准(第一次和后续重复之间＞99.99％的一致性)来验证算法。

表11

表达的体细胞***缺失的评估

跨越多种样本表达的体细胞***缺失的准确度：使用具有30％细胞纯度的20名合成患者来评估用于调用表达的体细胞***缺失的基因组分析算法的PPV、灵敏度和特异性，详细结果示于表12中。有利地，通过满足相对于调用表达的体细胞***缺失的每个单个的合成患者的通过标准(PPV≥95％、灵敏度≥95％和特异性≥99％)来验证算法。

表12

表达的体细胞***缺失检测的可重复性：通过运行具有100％肿瘤纯度的单个合成患者样本(变体20)十次来评估用于调用表达的体细胞***缺失的基因组分析算法的结果的可重复性，详细结果示于表13中。有利地，通过满足相对于调用表达的体细胞***缺失的可重复性的通过标准(第一次和后续重复之间＞99.99％的一致性)来验证算法。

表13

表达的体细胞***缺失的检测限：通过以10％、20％、25％、30％、40％和50％的肿瘤纯度运行单个合成的患者样本(变体20)来评估用于调用表达的体细胞***缺失的基因组分析算法的LoD，详细结果示于表14中。有利地，相对于调用表达的体细胞***缺失，所有样本均通过具有25％细胞纯度检测限的验收标准(PPV≥75％或特异性≥99％和灵敏度≥95％)。

表14

表达的种系***缺失的评估

跨越多种样本的表达的种系***缺失的准确度：使用具有30％细胞纯度的20名合成患者来评估用于调用表达的种系***缺失的基因组分析算法的PPV、灵敏度和特异性，详细结果示于表15中。有利地，通过满足相对于调用表达的种系***缺失的每个单个的合成患者的通过标准(PPV≥95％、灵敏度≥95％和特异性≥99％)来验证算法。

表15

表达的种系***缺失检测的可重复性：通过运行具有100％肿瘤纯度的单个的合成患者样本(变体20)十次来评估用于调用表达的种系***缺失的基因组分析算法的结果的可重复性，详细结果示于表16中。有利地，通过满足相对于调用表达的种系***缺失的可重复性的通过标准(第一次和后续重复之间＞99.99％的一致性)来验证算法。

表16

基因转录水平准确度的评估

多种样本的基因转录水平准确度：表17

表17

基因转录水平准确度检测的可重复性：结果列于表18中。所有样本均通过验收标准。

表18

基因转录水平准确度的检测限：结果列于表19中。所有样本均通过验收标准。注意这是两个完全不相关联的表达谱之间的理论检测限。因为这些不是生物学上现实的条件，所以该评估主要测试Pearson相关系数(Pearson r)的行为，而不是任何生物学相关的行为。设想未来评估过表达或表达不足水平的测试会更有意义地评估检测限。

表19

实施例3——选择RNA融合检测验证

本发明主题的方法用于测试/验证基因组分析计算设备(生物信息学管道)在从RNA-seq数据精确调用表达的融合基因中的算法实现方面的性能。优选地，管道的输入是RNA-seq样本和融合锚的核心集。预期管道的输出包括融合列表、由锚基因组成的每个融合预测、融合配偶体和支持水平。针对(1)合成的融合数据、(2)以细胞颗粒形式(实验室标准)形式的第三方融合标准和(3)从***固定石蜡包埋(FFPE)测序的临床样本，对管道的性能进行评估。生成阳性预测值、灵敏度和分析的检测限的报告。有利地，设想这样的数据集和报告可以用于支持管道的CLIA验证。

如本文所用，“基因融合”是指其中两个不同人转录物的上游部分和下游部分在单个转录物中表达的序列变体。设想可以对这一定义作出例外规定，例如EGFRvIII的情况，其中上游和下游转录物都属于EGFR(相同的人转录物)而不是两种不同的人转录物。

如本文所用，“每百万转录物”(“TPM”)是指一百万个转录物的群体中基因转录物的频率或基因的单个转录物的频率的量度。此外，“log2-TPM”是指以2为底1加TPM的对数：log2(1+tpm)。这种计算将0映射为0并将1.0映射为1.0，并对动态范围进行对数压缩。

设想使用构建(或输入)合成的全基因组测序标本和外显子标本。另外，根据该程序生成合成的RNA-seq标本。

数据集

表20描述了用于第三方融合标准分析的样本。应当理解，可以适当地使用具有多种细胞纯度(例如20％、30％、40％、60％、70％、80％、90％、100％等)和/或多种融合(例如BCR-ABL1、AFF1-KMT2A、WWTR1-CAMTA1、EWSR1-FLI1、EWSR1-FLI-1、SS18-SSX2、BCAS4-BCAS3、NUP214-XKR3、RP2-BRAF、LMNA-NTRK1的其他或不同样本；也可以参见FusionCancer数据库，可在www.donglab.ecnu.edu.cn/databases/FusionCancer/上访问)。

表20

表21描述了用于分析从FFPE测序的临床样本的样本。应当理解，如上所述，也可以使用其他或不同的融合。后缀'-nmx'被用于识别由一个CLIA实验室测序的样本，其可能具有其他的数字以指定重复数。

表21

基因组分析算法的性能将在三组样本集上进行评估：(1)合成数据(构建的融合数据具有已知的金标准，并用于提供基因融合调用的灵敏度、PPV、特异性和检测限的评估)；(2)实验室标准(含有特定融合(可能还有其他)的细胞系，并被用于评估基因融合调用的灵敏度)；以及(3)临床样本(从FFPE测序的样本以评估临床样本上基因融合调用的精确度)。

合成数据的生成：如上所述，在合成DNA数据集和合成RNA数据集上生成来自合成患者的RNA-seq。如表22中所述，为63个下游融合配偶体创建随机RNA融合转录物。

AKT3(NM_181690.2)	ETV5(NM_004454.2)	MUSK(NM_005592.3)	PPARG(NN-138712.3)
				ALK(NM_004304.4)	ETV6(NM_001987.4)	MYB(NM_001130173.1)	PRKCA(NM-002737.2)
ARHGAP26(NM_015071.4)	EWSR1(NM_013986.3)	MYC(NM_002467.4)	PRKCB(NM_002738.6)
				AXL(NM-021913.4)	FGFR1(NM-023110.2)	NOTCH1(NM-017617.3)	RAF1(NM-002880.3)
BCL2(NM_000633.2)	FGFR2(NM_022970.3)	NOTCH2(NM-024408.3)	RARA(NM_000964.3)
				BCR(NM_004327.3)	FGFR3(NM_000142.4)	NRG1(NM-013962.2)	RELA(NM_021975.3)
BRAF(NM-004333.4)	FGR(NM_005248.2)	NTRK1(NM-002529.3)	RET(NM-020975.4)
				BRCA1(NM_007294.3)	INSR(NM_000208.2)	NTRK2(NM_006180.4)	ROS1(NM_002944.2)
BRCA2(NM-000059.3)	JAK2(NM-004972.3)	NTRK3(NM-001012338.2)	RSPO2(NM-178565.4)
				BRD3(NM_007371.3)	KIT(NM_000222.2)	NUMBL(NM_004756.4)	RSPO3(NM_032784.4)
BRD4(NM-058243.2)	MAML2(NM_032427.3)	NUTM1(NM-001284292.1)	TERT(NM_198253.2)
				EGFR(NM-005228.3)	MAST1(NM_014975.2)	PDGFB(NM-002608.2)	TFE3(NM_006521.5)
ERG(NM_001136154.1)	MAST2(NM-015112.2)	PDGFRA(NM-006206.4)	TFEB(NM_007162.2)
				ESR1(NM_001122742.1)	MET(NM_001127500.1)	PDGFRB(NM_002609.3)	THADA(NM_001083953.1)
ETV1(NM_001163148.1)	MSH2(NM_000251.2)	PIK3CA(NM_006218.2)	TMPRSS2(NM_005656.3)
				ETV4(NM_001986.2)	MSMB(NM_002443.3)	PKN1(NM-213560.1)

表22

每个转录物的上游融合配偶体从其他经典Ref-Seq转录物中随机选择而无需置换。对任何外显子进行了拷贝数修饰的任何转录物都从选择中排除。如果肿瘤参考中基因的父系和母系等位基因都没有拷贝数修饰，则随机选择母系或父系等位基因。给定上游和下游融合配偶体，从上游融合配偶体中随机选择边界外显子。从具有相容相的外显子中随机选择下游融合外显子。

融合转录物是从这些边界外显子产生的，有或没有中断。没有中断，则从体细胞参考基因组中选择基因组DNA，从5'上游外显子的起点直至并包括上游边界外显子，并融合至下游边界外显子至下游基因的3'外显子。有中断，则随机选择上游或下游外显子，然后从该外显子边界删除随机数的密码子。还设想可以从100TPM的亲本等位基因之一产生EGFRvIII外显子跳读事件的转录物。

预期在大于10TPM、20TPM、30TPM，大于100TPM，但优选最高达100TPM的水平下生成融合转录物水平。在每个水平下生成最多三个融合转录物，优选地至多两个没有中断，并且在每个水平上至多1个有中断。

基因融合检测的评估

基因融合预测为缺失/存在预测，并且会与DNA变体类似地进行评估。

可报告的融合产品系列：生物信息学管道可以潜在地报告具有表23中的一个基因的融合产物作为上游或下游配偶体。设想至少使用合成数据评估这些基因。预测将包括表23中的种子基因之一作为上游或下游基因，以及其他25464个RefSeq基因中的另一个。还设想可以测试EGFR的EGFRvIII变体的自融合。应当理解，这导致每个样本总共1+2*74*25464＝3768673个可能的预测。

表23

实验和参考变体集：如前所述，基因融合预测是上游和下游基因的有序配对。由于高度同源性，上游基因被称为同源组。优选地，同源基团是在融合中使用的基因部分上具有＞80％DNA序列同一性的所有基因的集合，但是它还可以包括＞75％、＞70％、＞65％、＞60％、或者＞50％的DNA序列同一性。

基因融合的参考变体集是加入以下所有条件(选择标准)的基因融合列表：(1)融合是功能性的(例如，不是无义介导的衰变的靶标)；(2)在乘以肿瘤纯度后，将融合体以20或更高的TPM掺入(例如，100％纯样本中的TPM为20，对应于30％样本中TPM为6)；以及(3)除了用于EGFRvIII变体的EGFR-EGFR外，融合不是内部基因融合。

实验变体集是以下所有的位点：(1)该位点在VCF中被标记为PASS调用；(2)该位点的最小测序序列支持为8(管道中的融合调用标准)；(3)该位点在VCF中未标记为DENOVO(例如，不是来自实验性融合方法)。

由于难以区分作为融合的一部分的同源基因，真正可能的预测空间小于所有可能的基因，即19270*19269。但是，它也大于66*65，这个测试中使用的潜在融合列表。虽然设想使用19270*19269至66*65的范围作为潜在融合，但在优选实施方案中，66*65被用作预测特异性的更保守估计。

准确度研究：在一组合成患者中评估准确度。参考数据是使用上述教导构建并满足上述选择标准的20名合成患者的RNA中合成的基因融合体。实验数据是来自所有20名合成患者的100％RNA样本的预测融合。所有验证样本中的PPV、灵敏度和特异性必须大于95％。

再现性研究：使用单次运行的9次重复来评估再现性。来自100％纯度极限的检测样本的RNA FASTQ数据是参考数据。通过RNA生物信息学管道进行处理。用作参考的相同FASTQ数据再处理九次。为了满足验收标准，所有可重复性运行必须显示≥99.99％的准确度并且与先前的运行一致。任何具有＜99.99％的准确度或与先前运行一致的实验运行都是失败的运行。

检测限研究：LoD被评估为可检测到基因融合产物的最小TPM水平。这是合成肿瘤部分中肿瘤纯度和TPM表达水平的函数。参考样本数据是来自100％样本的RNA FASTQ数据。实验数据是30％和100％肿瘤纯度的RNAFASTQ样本。应当理解，可以适当地使用多种其他肿瘤纯度(例如15％、20％、25％、35％、40％等)。预测器的灵敏度将通过将真实融合归入0至20TPM、20至50TPM、50至100TPM和100+TPM的箱来测量。LoD是最低的箱(根据TPM)，因此灵敏度＞95％。优选地，LoD＞20TPM，但是预期LoD可以是15、10或更小的TPM。因此，在优选的实施方案中，如果检测限＜20TPM，则验证失败。

实验室标准融合检测的评估

表20中的实验室标准用于评估融合检测的灵敏度。对于每个样本，将存在单个变体，如表20(参考变体集)中所指定的。从细胞颗粒中提取RNA，并进行标准RNA-seq以生成RNA FASTQ。在优选的实施方案中，上述RNA生物信息学管道在RNA FASTQ上运行，但应当理解，也可以适当地使用另外的或不同的基因组分析计算设备或基因组分析算法。

每个样本运行的结果将被评估为正确或不正确，以预测该样本中的预期融合。为了满足验收标准，每个样本上的所有运行必须正确地预测预期融合，但是应当理解，在一些情况下，可以认为预测预期融合的单次运行或全部运行是足够的。在优选的实施方案中，如果任何样本不正确，则整个评估失败。

临床样本的评估

表21中的临床样本用于评估FFPE样本中的PPV和检测限。对于每个样本，参照集的单个成员是表21第一列中列出的基因融合。在优选的实施方案中，每个融合已通过外部CLIA实验室验证。融合调用的实验集将是所有通过正在测试/验证的管道(例如，基因组分析计算设备)过滤的那些。

准确度：由于可用样本数量有限，管道所做的所有预测必须对每个样本都是正确的。评估表21中识别的7名患者的样本的准确性。

可重复性：为了评估中间精密度(可重复性)，使用重复样本。例如，CF0767-nmx2和CF0848-nmx2是重复样本，由与原始样本相同的FFPE块产生。相比之下，ITOMICS 15患者(15-0-B1-nmx、15-1-B1-nmx、15-1-B2-nmx和15-2-B1-nmx)具有来自四种不同肿瘤的样本，尽管融合存在于所有四个样本中，但它们不能被视为用于诊断目的的重复。为了确认中间精密度，所有预测必须是正确的，并且优选地在重复样本之间是一致的。

检测限：对于RNA的一般检测限，来自15-1-B1和15-1-B2以及CF0768-nmx和CF0768-nmx2的原始RNA数据会被子集化至原始RNA量的50％、25％、15％和10％，一式三份。这具有将肿瘤纯度降低至该量的效果，保守估计原始肿瘤纯度为100％。对于稀释样本中的每个融合，估计用于融合的TPM用于LoD实验。例如，在优选的实施方案中，100％样本的估计融合TPM是两种组成性基因的最大TPM，如通过RSEM估计的。有利地，这不能说明来自这两个基因的非融合转录物的原因；说明了非融合转录会降低融合产物的真实TPM的原因。通过高估转录物的TPM，发明人建立了对LoD更保守的估计。

实施例4——正常/FFPE样本验证的WES中的SNV和***缺失检测

本发明主题的方法用于测试/验证基因组分析计算设备(生物信息学管道)在精确调用FFPE外显子组测序数据中的变体的算法实现方面的性能。生物信息学管道报告来自测序机的未比对测序序列开始的种系和体细胞变体。构建合成基因组数据集(例如，通过本文描述的方法)并用于证明管道的SNV和***缺失变体调用的检测限和可重复性。有利地，设想这样的数据集和/或得到的报告可以用于支持管道的CLIA验证。

管道输入包括(1)种系(血液)的全外显子测序，深度为75×覆盖度，和(2)肿瘤全外显子测序，深度为150×覆盖度。在优选实施方案中，通过在统计模型中同时使用所有输入数据来调用变体，并防止对来自每个输入的变体的独立评估，增加变体调用的准确性。报告的变体包括(1)种系SNV、(2)种系***缺失、(3)体细胞SNV和(4)体细胞***缺失。这些输入针对各种临床样本进行评估。在优选的实施方案中，临床样本数据来自至少两个不同的CLIA实验室。有利地，LoD通过癌细胞系的合成稀释来确定。

表24列出并描述了用于临床样本的标本。来自这些标本的样本可能具有表示更多信息的后缀。后缀'-nmx'用于识别由一个CLIA实验室测序的样本，可能具有其他数字来指定重复数。后缀'-rdx'指定由另一个CLIA实验室测序的样本，不同于-nmx。后缀'-50'和'-250'是指输入DNA量为50ng和250ng。

表24

样本制备：对于COLO829和COLO829BL，使用供应商推荐的培养条件来培养细胞系。进行样本制备，并由CLIA实验室生成FFPE块和切片。从FFPE切片中分离基因组DNA，并通过CLIA实验室富集外显子组DNA。对来自血液样本的DNA测序至外显子组的覆盖度深度为至少75×，并对肿瘤样本测序至外显子组的覆盖度为至少150×。优选地，FFPE肿瘤和血液也由独立的CLIA实验室处理以进行比较(例如，ResearchDX，LLC)。使用计算混合方法生成样本的检测限，优选已经验证为与分子混合等效的方法。对来自FFPE肿瘤和FFPE血细胞系COLO829和COLO829BL的多个DNA库进行测序以允许混合物可以在不同深度。

在优选的实施方案中，进行四个不同的验证研究，但是应当理解，在一些情况下，进行单个研究、所述研究的部分组合、或所述研究中的一些或所有研究与其他研究的组合可能是有利的。

验证研究1：与外部CLIA实验室比较。对于这项研究，基于来自一个CLIA许可实验室(第一CLIA实验室)的序列数据的生物信息学管道的结果与基于来自其他CLIA许可实验室(例如，ResearchDX)跨越至少一对样本生成的序列数据的结果进行比较。在优选的实施方案中，可以比较2对、3对、5对、10对、15对或更多对样本。由来自其他CLIA实验室的外显子组数据生成的SNV调用被用于生成参考调用。来自第一CLIA实验室的数据用作实验集。优选地，为了满足验收标准并验证生物信息学管道，所有数据集必须显示出PPV≥95％、灵敏度≥95％，和特异性≥99％。在一些实施方案中，对于总共四种类型的变体，分别评估体细胞肿瘤变体和种系变体，以及***缺失和SNV，但是应当理解，在一些情况下，并非所有变体都被评估。

验证研究2：再现性(中间精密度)。在本研究中，评估生物信息学管道的再现性，以确保质量和结果的一致性。优选地，这通过比较来自3个临床样本的2个重复进行全外显子组测序的结果来实现。然而，应当理解，可以使用多于3个、至少5个或至少10个样本，可以比较至少3次、至少5次或至少10次重复的结果。此外，可以在不同的日子分析重复，包括间隔1天、2天、3天、4天、5天或10天。有利地，在评估再现性时，使用至少3个样本的至少3个重复增加了生物信息学管道的有效性。在优选的实施方案中，以两种方式比较每对样本：一次以样本A作为金标准，一次以样本B作为金标准。为了满足验收标准，当在比较汇总时，每个这样的比较必须显示PPV≥95％、灵敏度≥95％和99％的特异性。在一些实施方案中，对于总共四种类型的变体，分别评估体细胞肿瘤变体和种系变体，以及***缺失和SNV，但是应当理解，在一些情况下，并非所有变体都被评估。

验证研究3：检测限。生成来自一对细胞系的肿瘤和正常测序数据的不同比率，并评估这些不同比例的细胞的影响。例如，可以如表24中所述制备COLO829的肿瘤纯度的混合物。在优选的实施方案中，100％样本用作金标准变体组。检测限被评估为最低样本纯度，灵敏度≥95％，特异性≥99％。优选地，生物信息学管道的LoD必须≥30％以验证管道。在一些实施方案中，对于总共四种类型的变体，分别评估体细胞肿瘤变体和种系变体，以及***缺失和SNV，但是应当理解，在一些情况下，并非所有变体都被评估。

验证研究4：输入数量。将比较来自两种不同量的输入DNA的生物信息学管道结果(例如，选自10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng和250ng的两种不同量)。在一个优选的实施方案中，使用50ng量的多种重复样本被用作测试数据，而金标准是使用250ng DNA作为输入的重复样本。优选地，每对样本以两种方式进行比较：一次以样本A作为金标准，一次以样本B作为金标准。为了满足验收标准，当在比较汇总时，每个这种比较必须显示出PPV≥95％、灵敏度≥95％和99％的特异性。在一些实施方案中，对于总共四种类型的变体，分别评估体细胞肿瘤变体和种系变体，以及***缺失和SNV，但是应当理解，在一些情况下，并非所有变体都被评估。

其他研究：在一些情况下，进行不同或其他的研究可能是有利的。例如，可以进行研究以评估低水平DNA输入。这样的研究可以有利地证明生物信息学管道意外地以低于行业标准或推荐的DNA输入水平返回可接受的结果。此外，使用真值集(例如，COLO829共识变体列表)而不是从劣质数据中获取金标准来评估生物信息学管道的性能会是有利的。这些研究可以通过用充分表征的参考来验证生物信息学管道来进一步满足临床规定。应当理解，本发明主题的方法和数据集有利地且出人意料地使得能够连续验证生物信息管道，包括适应以满足一个或多于一个管理机构或行业标准所要求的提高或新的验证阈值。

量度和性能评估

预期通过从细胞系中的克隆变体中选择调用子集，在参考数据中识别用于每次比较的金标准变体。例如，根据金标准VCF中的以下状态，对hg19参考基因组中的每个编码碱基进行分类：(1)可映射的变体；(2)不可映射的变体和(3)参考位点。

在一些实施方案中，可映射的变体具有VCF，其显示出：(1)在校正样本杂质后具有＞45％等位基因部分的变体；(2)肿瘤BAM中的位点具有至少20个测序序列的测序深度，其映射质量大于10；(3)正常BAM中的位点具有至少10个测序序列的测序深度，其映射质量大于5；(4)金样本中的变体得到的质量分数大于15。因此，不可映射的变体VCF通常不满足可映射变体的标准。优选地，参考位点通常是患者的合成基因组是在该位点的参考的位置。

有利地，在一些情况下，可以在FP调用上使用低变体等位基因频率过滤器。如果测试变体等位基因频率的95％可信区间(Jeffrey's二项式区间)与金变体等位基因频率的95％可信区间重叠，则FP将被排除在分析之外，因为没有足够的能力将假阳性评估为真正的假阳性。

优选地，在来自生物信息管道的输出产生真阴性的情况下，量度将包括如上所述的准确度、灵敏度和特异性。此外，应当理解，对于金种系变体，可以使用来自通过VCF中标准过滤的金样本的任何调用。至于SNV和***缺失预测，评估区域优选是RefSeq基因的外显子区域，而对于扩增，整个基因组被用作评估区域。

应当理解，体细胞***缺失在一些癌症样本中是相对罕见的事件，使得对这些事件的评估更具挑战性。为了更可靠地估计管道和测序数据的准确度，有利地可以使用故意不匹配正常样品的特殊对比。例如，与肿瘤中的体细胞***缺失相比，通常有更多不常见的种系编码***缺失。通过交换对比中的正常样本，这些种系***缺失中的大多数现在看起来是体细胞的，同时有利地仍然提供了对真实数据进行变体调用的机会。

实施例5——合成外显子组数据验证中的SNV和***缺失检测

本发明主题的方法用于测试/验证基因组分析计算设备(生物信息学管道)在精确调用患者外显子中的变体的算法实现方面的性能。例如，通过本文描述的方法构建合成基因组数据集。有利地，设想这样的数据集可以用于支持管道的CLIA验证。至管道的输入包括：(1)在深度为75×覆盖度的种系(血液)全外显子组测序和(2)在深度为150×覆盖度的肿瘤全外显子组测序。在一些情况下，设想对种系和肿瘤样本的整个外显子组进行测序可以改善基因组分析算法的结果。

所有输入数据在统计模型中同时用于调用变体，并且不能单独评估每个输入的变体。设想这种方法增加了变体调用的准确度。报告的变体(输出)包括：(1)种系小核苷酸变体、(2)种系***和缺失、(3)体细胞小核苷酸变体和(4)体细胞***和缺失。设想通过本发明主题的方法，用基因组分析算法的每一次改变/修饰来对合成数据评估这些输出，并且生成报告以验证算法。该报告使用接近检测限(30％肿瘤细胞纯度)的20名合成患者组给出这些变体的准确度和检测水平。另外，这些患者中的一个会以100％肿瘤纯度运行10次以评估管道的再现性，另外以10％、20％、25％、30％、40％和50％肿瘤纯度来确定检测下限。

根据先前描述的教导构建20名患者的合成基因组。在基因组和测序序列生成过程中，所有使用的变体都被存储以在准确度分析过程中用作金标准的一部分。通过对外显子组富集试剂盒设计中的随机位置进行取样来生成外显子组测序数据。虽然大多数外显子组富集试剂盒(例如Agilent等)被认为是合适的，但在优选的实施方案中，使用IDT(Integrated DNA Technologies)富集试剂盒。然而，应当理解，可以通过深度过滤器控制外显子组富集试剂盒之间的捕获区域和捕获效率的差异。例如，设想在校正10％片段重复率后，使用75×的正常基因组和150×的肿瘤基因组的覆盖度深度。生成以下样本：(1)在多种肿瘤纯度下来自同一模拟患者的检测限样本，和(2)纯度为30％和100％的变异性样本。设想100％样本用于确定合成变体的可映射性。

体细胞SNV准确度的评估

跨越许多样本的SNV PPV、灵敏度和特异性：为了在检测限下评估各种患者的准确度，设想以30％肿瘤细胞纯度来测定20名合成患者(如上所述构建)的体细胞变体。

准确度定义为(TP+TN)/(TP+TN+FP+FN)；阳性预测值(PPV)定义为TP/(TP+FP)；灵敏度定义为TP/(TP+FN)；特异性定义为TN/(TN+FP)。在优选的方面，验收标准通常定义如下：所有数据集必须显示PPV≥95％，灵敏度≥95％，特异性≥99％和准确度＞99％。如果任何样本不符合验收标准，则应重复所有样本。

关于可重复性，设想具有100％肿瘤纯度的单个合成的患者样本运行十次以获得可重复性。对于这种比较，初始运行用作每个再现性测试的金标准。此处，验收标准通常定义如下：所有数据集必须在第一次和后续重复之间显示＞99.99％的一致性，并且失败标准通常定义如下：任何后续运行显示观察值与预期值之间的一致性＜99.99％。同前，如果任何样本不符合验收标准，则应重复所有样本。

检测限：使用可重复性样本通过合成稀释来评估体细胞SNV的检测限。肿瘤测序序列的百分比通常在以下水平运行：5％、10％、15％、20％、25％、30％、40％和50％。检测限是最低纯度稀释度，使得灵敏度≥95％。如果LoD≥30％，则将验证基因组分析算法(验收标准)，如果LoD＜30％，则拒绝(失败标准)。

种系SNV检测的评估

跨越许多样本的种系准确度：为了评估种系变体调用的准确度，使用具有匹配的正常数据的30％肿瘤样本来评估SNV研究中使用的20种不同合成患者的基因型。在优选的方面，验收标准定义如下：所有数据集必须显示出PPV≥95％、灵敏度≥95％和特异性≥99％。失败标准定义如下：任何数据集显示出PPV＜95％、灵敏度＜95％和特异性＜99％。如果任何样本不符合验收标准，则应重复所有样本。

关于可重复性，设想具有100％肿瘤纯度的单个合成的患者样本运行十次以获得可重复性。验收标准定义如下：所有数据集必须在第一次和后续重复之间显示＞99.99％的一致性。失败标准定义如下：任何运行显示观察值与预期值之间的一致性＜99.99％。如果任何样本不符合验收标准，则应重复所有样本。

种系检测限：由于种系变体的等位基因部分不随肿瘤纯度而变化，因此未评估检测限。

评估体细胞***缺失

跨越许多样本的***缺失PPV、灵敏度和特异性：为了在检测限处评估多种患者的准确度，设想以30％肿瘤细胞纯度测定20名不同合成患者的体细胞变体。准确性在可变性样本中进行评估。验收标准定义如下：汇总结果必须显示出PPV≥95％、灵敏度≥95％和特异性≥99％。失败标准定义为：任何数据集显示出PPV＜95％、灵敏度＜95％或特异性＜99％。

可重复性：具有100％肿瘤纯度的单个合成的患者样本(例如，用于准确度研究的样本)重复运行十次。验收标准为所有数据集必须在第一次和后续重复之间显示＞99.99％的一致性。失败标准为任何管道运行显示观察值与预期值之间的一致性＜99.99％。如果任何样本不符合验收标准，则应重复所有样本。

***缺失检测限：使用合成稀释液(例如，5％、10％、15％、20％、25％、30％、40％和50％细胞纯度)来评估体细胞SNV的检测限。检测限是最低纯度稀释度，使得灵敏度≥95％。如果LoD≥30％，则验证基因组分析算法(验收标准)，如果LoD＜30％，则拒绝(失败标准)。

种系***缺失检测

跨越许多样本的种系准确度：为了评估种系变体调用的准确度，使用具有匹配的正常数据的30％肿瘤样本来评估***缺失研究中使用的20种不同合成患者的基因型。在优选的方面，验收标准定义如下：所有数据集必须显示出PPV≥95％、灵敏度≥95％和特异性≥99％。失败标准定义如下：任何数据集显示出PPV＜95％、灵敏度＜95％和特异性＜99％。如果任何样本不符合验收标准，则应重复所有样本。

关于可重复性，设想具有100％肿瘤纯度的单个合成的患者样本运行十次以获得可重复性。验收标准定义如下：所有数据集必须在第一次和后续重复之间显示＞99.99％的一致性。失败标准通常定义如下：任何运行显示观察值与预期值之间的一致性＜99.99％。如果任何样本不符合验收标准，则应重复所有样本。

应当注意，应该读取针对计算机的任何语言以包括任何合适的计算设备组合，包括服务器、接口、***、数据库、代理、对等、引擎、控制器、或单独或共同操作的其他类型的计算设备。应当理解，计算设备包括处理器，该处理器被配置为执行存储在有形、非暂时性计算机可读存储介质(例如，硬盘驱动器、固态驱动器、RAM、闪存、ROM等)上的软件指令。软件指令优选地配置计算设备以提供作用、职责或其他功能，如下面关于所公开的装置所讨论的。在特别优选的实施方案中，多种服务器、***、数据库或接口使用标准化协议或算法交换数据，可能基于HTTP、HTTPS、AES、公-私密钥交换、web服务API、已知金融交易协议或其他电子信息交换方法。优选地，数据交换通过分组交换网、因特网、LAN、WAN、VPN或其他类型的分组交换网进行。

在一些实施方案中，数值参数应根据报告的有效数字的数量并通过应用普通的舍入技术来解释。尽管阐述本发明的一些实施方案的宽范围的数值范围和参数是近似值，但具体实施例中列出的数值尽可能精确地报告。在本发明的一些实施方案中呈现的数值可以包含必然由其各自的测试测量中发现的标准偏差引起的某些误差。此外，除非上下文有相反指示，本文所述的所有范围应解释为包括其端点，并且开放式范围应解释为包括商业实用值。同样，除非上下文指出相反情况，所有值列表应视为包含中间值。

对于本领域技术人员显而易见的是，在不脱离本文的发明构思的情况下，除了已经描述的那些之外的更多修改是可能的。因此，除了所附权利要求的范围之外，本发明的主题不受限制。此外，在解释说明书和权利要求时，所有术语应以与上下文一致的最广泛的方式解释。具体地，术语“包含”和“包括”应被解释为以非排他的方式引用要素、部件或步骤，指示所引用的要素、部件或步骤可以存在或者被利用，或者与其他未明确引用的要素、部件或步骤组合。当没有数量词的要素在权利要求书或说明书中与术语“包含”、“包括”、“含有”或“具有”一起使用时，可以表示“一”，但其也与“一个或更多个”、“至少一个”、和“一个或多于一个”的含义一致。此外，如在本文的描述中所使用的，除非上下文另有明确规定，否则“在……中”的含义包括“在……中”和“在……上”。

Claims

1.一种生成合成数字基因组数据集的计算机实现的方法，其包括：

获得参考基因组，并以预定频率和分布将多个SNP引入到所述参考基因组的至少一个常染色体和X染色体中，以制备合成的母系基因组；

以预定频率和分布将多个SNP引入到所述参考基因组的至少一个常染色体和X-染色体或Y-染色体中，以制备合成的父系基因组；和

将所述合成的母系基因组和合成的父系基因组合并为组合的合成数字基因组数据集。

2.根据权利要求1所述的方法，其还包括取样步骤，所述取样步骤对组合的数据集进行取样从而产生多个模拟测序序列。

3.根据权利要求2所述的方法，其中，进行所述取样步骤以模拟至少25×的测序序列覆盖度。

4.根据权利要求2或3所述的方法，其中，使用代表冷冻组织样本的测序序列误差和碱基质量分布来进行所述取样步骤。

5.根据权利要求2、3或4所述的方法，其中，进行所述取样步骤以产生长度为100至400个碱基的模拟测序序列。

6.根据前述权利要求中任一项所述的方法，其中所述预定频率和分布代表SNP的天然发生的频率和分布。

7.根据前述权利要求中任一项所述的方法，其还包括将相对于所述参考基因组识别的SNP的类型和位置的列表包括在组合的数据集中的步骤。

8.根据前述权利要求中任一项所述的方法，其还包括将来自组合的数据集的多个模拟测序序列包括在组合的数据集中的步骤。

9.根据前述权利要求中任一项所述的方法，其还包括向所述合成的母系基因组和合成的父系基因组中的至少一个引入选自SNV、***缺失和拷贝数改变的另一种基因组变化的步骤，从而产生合成的肿瘤数据集。

10.根据权利要求9所述的方法，其中，所述合成的肿瘤数据集还包含识别所述另一种基因组变化相对于所述合成的母系基因组和合成的父系基因组中的至少一个的类型和位置的列表。

11.根据权利要求9或10所述的方法，其中，所述合成的肿瘤数据集还包含来自所述合成的肿瘤数据集的多个模拟测序序列。

12.根据权利要求9至11中任一项所述的方法，其中，所述SNV是基于COSMIC突变、体细胞TCGA突变和基因组中的随机位置中的至少一种。

13.根据权利要求12所述的方法，其中，将2500至25000个SNV引入所述合成的肿瘤数据集。

14.根据权利要求9至13中任一项所述的方法，其中，所述***缺失具有1至10个碱基的长度。

15.根据权利要求14所述的方法，其中，在合成的肿瘤数据集中存在100至1000个***缺失。

16.根据权利要求9至15中任一项所述的方法，其中，所述拷贝数改变选自(i)25个小缺失，每个小缺失的大小为5000bp至500000bp；(ii)25个小串联扩增，每个小串联扩增的大小为5000bp至500000bp，并且每个小串联扩增的拷贝数为2至5；(iii)10个小串联过度扩增，大小为5000bp至500000bp，以及拷贝数为15至30；和(iv)大臂/染色体缺失，每个大臂/染色体缺失的大小为染色体的30％至100％，锚定在端粒上。

17.根据权利要求2或3所述的方法，其中，进行所述取样步骤以产生长度为100至400个碱基的模拟测序序列。

18.根据权利要求1所述的方法，其中，所述预定频率和分布代表SNP的天然发生的频率和分布。

19.根据权利要求1所述的方法，其还包括将识别SNP相对于参考基因组的类型和位置的列表包括在组合的数据集中的步骤。

20.根据权利要求1所述的方法，其还包括将来自组合的数据集的多个模拟测序序列包括在组合的数据集中的步骤。

21.根据权利要求1所述的方法，其还包括向所述合成的母系基因组和合成的父系基因组中的至少一个引入选自SNV、***缺失和拷贝数改变的另一种基因组变化的步骤，从而产生合成的肿瘤数据集。

22.根据权利要求21所述的方法，其中，所述合成的肿瘤数据集还包含识别所述另一种基因组变化相对于所述合成的母系基因组和合成的父系基因组中的至少一个的类型和位置的列表。

23.根据权利要求21或22所述的方法，其中，所述合成的肿瘤数据集还包含来自所述合成的肿瘤数据集的多个模拟测序序列。

24.根据权利要求21或22所述的方法，其中，所述SNV是基于COSMIC突变、体细胞TCGA突变和基因组中的随机位置中的至少一种。

25.根据权利要求24所述的方法，其中，将2500至25000个SNV引入所述合成的肿瘤数据集。

26.根据权利要求21所述的方法，其中，所述***缺失具有1至10个碱基的长度。

27.根据权利要求26所述的方法，其中，在所述合成的肿瘤数据集中存在100至1000个***缺失。

28.根据权利要求21所述的方法，其中，所述拷贝数改变选自(i)25个小缺失，每个小缺失的大小为5000bp至500000bp；(ii)25个小串联扩增，每个小串联扩增的大小为5000bp至500000bp，并且每个小串联扩增的拷贝数为2至5；(iii)10个小串联过度扩增，大小为5000bp至500000bp，以及拷贝数为15至30；(iv)大臂/染色体缺失，每个大臂/染色体缺失的大小为染色体的30％至100％，锚定在端粒上。

29.一种测试或验证与基因组分析相关的算法的方法，其包括以下步骤：使用权利要求17至28中任一项所描述的合成的基因组数据集作为所述算法输入，并制作性能报告，所述报告列出与所述算法的输出中的合成的基因组数据集的偏差。

30.根据权利要求29所述的方法，其中，所述算法是对多个测序序列文件进行分组的算法。

31.根据权利要求29所述的方法，其中，所述算法是注释多个测序序列文件或一组测序序列文件的算法。

32.根据权利要求29所述的方法，其中，所述算法是在测序设备和下游设备之间传输多个测序序列文件的算法。

33.根据权利要求29所述的方法，其中，所述算法是组装和索引多个测序序列文件的算法。

34.根据权利要求29所述的方法，其中，所述算法是变体调用算法。

35.一种验证彼此信息耦合的多个计算设备的操作的方法，其包括以下步骤：使用权利要求17至28中任一项所描述的合成的基因组数据集作为所述设备中的第一设备的输入，并使用所述第一设备的输出作为所述设备中的第二设备的输入。