CN105603062A

CN105603062A - 评估遗传性病症的方法

Info

Publication number: CN105603062A
Application number: CN201510927443.XA
Authority: CN
Inventors: 詹姆斯·希尼茨; 艾利·阿奇韦利
Original assignee: Population Diagnostics Inc
Current assignee: Population Diagnostics Inc
Priority date: 2006-05-03
Filing date: 2007-05-03
Publication date: 2016-05-25
Anticipated expiration: 2027-05-03
Also published as: US7957913B2; US20140088882A1; GB201104294D0; GB2476188B; US8655599B2; US20200090783A1; GB2476188A8; CN101449161B; US20070259351A1; WO2007131135A2; US20100248236A1; US20110264376A1; US10529441B2; CN101449161A; US10210306B2; US7702468B2; WO2007131135A3; CN105603062B; GB2476007A; GB0822081D0

Abstract

本发明涉及评估遗传性病症的方法，公开了包含至少100个没有被诊断出具有疾病或病状的正常个体中拷贝数变异频率的数据编译在制备一种***中的应用，所述***用于通过以下方法确定受试者中与疾病或病状相关的一个或多个拷贝数变异与所述疾病或病状的治疗剂的相关性，所述方法包括：将来自用所述疾病或病状的治疗剂治疗的受试者群组的基因组的一个或多个拷贝数变异的信息与包含至少100个没有被诊断出具有所述疾病或病状的正常个体中拷贝数变异频率的数据编译作比较，以确定与所述疾病或病状相关的一个或多个拷贝数变异，以及确定来自所述比较的与所述疾病或病状相关的所述一个或多个拷贝数变异与所述治疗剂的成功率之间的相关性。

Description

评估遗传性病症的方法

本发明专利申请是国际申请号为PCT/US2007/068183，国际申请日为2007年5月3日，进入中国国家阶段的申请号为200780015873.8，名称为“评估遗传性病症的方法”的发明专利申请的分案申请。

交叉引用

本申请要求分别在2006年5月3日和2006年5月4日提交的美国临时申请第60/746,359和60/746,482号的权益，其全部通过引用并入本文。

技术领域

本发明涉及遗传、诊断和治疗。具体地说，本发明涉及遗传异常的发现和鉴别。此外，本发明包括数据库的生成和利用，即知识管理工具，来筛选和鉴别用于个体或特定群体适合的药物治疗。本发明所具体实施的组合物和方法特别用于鉴别微观和亚微观基因组变异，包括缺失、复制和大范围的多态性，以便计量与正常和疾病状态相关变异的基因组。

引用作为参考

在本说明书中提及的所有的出版物和专利申请均通过引用并入本文，其相同程度如同各自出版物或专利申请具体和分别表明被引用作为参考。

背景技术

改变DNA拷贝数是基因表达和功能改变的多种方法之一。在正常个体中发现一些变异，其它的出现在一些物种的常态过程中，还有其它的一些参与引起多种疾病状态。例如，在人和动物发育中的许多缺陷是由于染色体和染色体片段的增加或损失，其发生在受精前或之后不久，然而发生在体细胞中DNA剂量改变常常导致癌症。因此，这种畸变(aberration)的检测和在更宽知识的范围内解释，有利于包括在生物进程和疾病中关键性基因和途径的鉴别，以及提供临床上相关信息如鉴别有效的药物体系。

在医学遗传学中一个障碍已证明是“测量偏倚”，其指的是由于收集这些数据的方法，数据的固有偏离。测量偏倚的几种实例是已知的。当然，在相关技术中描述的许多“典型(classical)”患者实际上代表了该谱系更严重的一端，因为这些患者很可能寻找医疗的关注并因此被观察。例如，患有克莱里菲尔特(Klinefelter)综合症(47,XXY)的患者的经典说明描述了患有男子女性型***(***发育)和不育的智力发育迟缓的男子。然而，事实上，公正的人口调查显示了1:1,000人类具有该综合症，并且他们的80％并不具有显著的智力发育迟缓和男子女性型***(尽管都是不育的)。类似地，原来已确定患有特纳(Turner)氏综合症(45，XO)的大多数女性智力发育迟缓。然而，该确定也被证明是错误的，例如在本领域那些仅仅鉴别了最严重受影响的患者。实际上，由于测量偏倚，细胞遗传学家对未经选择的新生儿进行大规模的研究，因此可以更精确地研究染色体异常的真实比率。当然这种研究需要大量劳动和定期深入细致的细胞遗传学分析，但是研究人员认识到必须从相对大量个体获得这些数据以提供参照群体。

现在分子细胞遗传学中概念和技术发展将常规染色体分析技术的分辨率提高至空前的水平。在过去的几年中阵列比较基因组杂交(阵列CGH)已表明其用于分析DNA拷贝数变异(copynumbervariation)的价值。阵列CGH(比较基因组杂交)是一种新技术，其具有以比标准细胞遗传学方法更高分辨率来检验染色体的能力。显然阵列CGH技术将在21世纪中作为主要的工具涌现：对于每个细胞遗传学和诊断学对照实验室以及对于集中在学术界、生物工学和制药业中遗传学研究的研究人员来说是一项基本要求。

拷贝数变异在医学遗传学中提供了重要的机会。直到今天，包含DNA大片段的正常拷贝数变异还未被重视。尽管阵列CGH已确定人和动物基因组中拷贝数多态性的存在，该正常变异的图象是不完全的。在至今所报告的结果中，测量噪音限制了包含许多千碱基(kilobase)或更大的基因组片段多态性的检测，基因组覆盖度(genomecoverage)远非广泛，而且群体没有足够抽样。

这些正常变异的广泛了解具有内在的生物意义，并且对阵列CGH数据的适合解释和其与表型的关系是重要的。此外，对于通过特定阵列CGH技术可检测的拷贝数多态性的理解是重要的，因此正常变异并非错误地与疾病相关，并且反之用以确定一些所谓正常变异是否可强调表现特征如疾病易感性(susceptibility)。

因而，阵列CGH技术的广泛利用推动了在整个人和动物种群中正常变异理解的实质需要。本发明提供了用于满足正常变异理解的未能解决的需要，因此有利于个体化遗传学基础的评估和治疗。然而，拷贝数异常或变异目前代表在前瞻性个体化医疗领域中巨大的未利用的机会。这些拷贝数变异，也被称为拷贝数多态性(copynumberpolymorphism)，出现在个体种群中存在部分改变的正常情形，同时出现在疾病状态中。能够区别正常的拷贝变异和与疾病相联系的拷贝变异将允许基于遗传分析上更确切的诊断。

人们普遍相信拷贝数异常是关键的遗传组成，其将被用于诊断疾病以及辨别药物的药物效果和个体中的不良反应。由于许多病症，至少在一些案例中可与非常罕见的变异相关，有必要使这种遗传分析使用的数据库的规模扩大。使用较小的数据库可能提供完全不准确的结果，导致错误的诊断和治疗。

例如，在患有罕见的儿科综合症歌舞伎面谱综合症(KabukiMake-Upsyndrome)的患者中首次检测到染色体8q24.3的微缺失。研究者当时还没有理解这些变异出现的频率。歌舞伎面谱综合症(KMS)是一种多发性畸形/智力迟钝综合症，其最初在日本描述，但是现在已知在许多其它种族中出现。然而，直接的想法是推断该变异与所研究的病症相关。进一步的研究显示微缺失在白种人中以低百分比存在，他们当中没有人患有歌舞伎综合症。已经有13个染色体异常与KMS相关。然而，还未知可能有助于推定的KMS基因的定位克隆的常见异常或断裂点(Matsumoto等人2003)。尽管KMS的临床表现是非常确定的，其对遗传评估和报导有用的自然史仍有待研究。

由于遗传物质中存在的变异数的数量级和正常的拷贝数异常的存在，要求精密分析工具以解释任何遗传学评估的结果。因此需要方法和工具如本发明的变异知识管理工具以允许准确地诊断亚微观染色体变异。

发明内容

通过正常变异知识管理工具的机器来实施本发明的许多实施方式。尽管它依赖于正常变异知识管理工具(KMT)，但是它们互相排斥。这些实施方式包括但不限于∶1.诊断性试验和诊断确实***；2.研究和研究***；3.转化医学(translationalmedicine)；4.前瞻性和个体化医疗；以及5.生命科学工具。

本发明提供用于产生和利用正常变异KMT、综合性相关的数据库和来源于阵列CGH技术内部方法论的软件工具的组合物和方法，因此制作出一般地用于该领域通用的工具。本发明的一个实施方式提供了基本上消除解释染色体改变的主观性的组合物和方法，因此在研究和诊断环境(“工作台至床边”)中，该技术领域总体上可以依赖阵列CGH衍生数据。通过提供从数千个个体获得的拷贝数变异的信息，KMT除去阵列CGH数据的主观解释，并提供了在指定社区内医生中确保生物标记医学上相关意见一致的方法。换句话说，KMT使临床医生能够事实上确定受试者(例如需要治疗的患者或用于诊断目的的受试者)中检测的拷贝数变异的意义。在一个实施方式中受试者是人。在另一个实施方式中受试者是动物。

KMT通过提供拷贝数变化的种群频率以及某些拷贝数变化和某些表型和疾病状态如自闭症之间的关联数据、根据基因含量和已知病症的基因组注释进行这种功能。对于考虑到的每种动物(人或非人)产生至少两种KMT，作为软件和/或计算机***提供的正常拷贝数变异数据库和拷贝数断裂点图谱，用于针对KMT来比较源于受试者的基因组信息，以确定存在的任何拷贝数多态性的意义。

除了aCGH之外，使用PCR测定在分子水平上研究拷贝数变异以及分析许多这些变异。本发明的一个实施方式也提供了本文描述的一种或多种方法中使用的几种产品。产品包括用于给计算机编程的计算机可读媒介的软件，以针对KMT比较受试者的试验信息，用于做这些比较的计算机***，用于执行受试者基因组分析的CGH阵列，以及试剂和下游分析组分，如要求进行与利用本发明KMT鉴别的疾病或症状相关的重要生物标记的分析。

本发明的一个方面包括通过将鉴别的相关拷贝数多态性和治疗效果或副作用相关联将KMT应用于药物基因组学、毒性基因组学和遗传学评估和建议。通过将个体基因组至更成功的药物施用相联系，这种相关性和关联产生个体化医疗。通过基于基因组变异与本发明KMT的比较鉴别治疗对其有用的个体亚群，这种联系也允许从临床试验中拯救药物。

在一个实施方式中，编译正常拷贝数变异的数据库，且相应于包含数百或数千或至少10,000个受试者的大量受试者的全基因组分析。在另一个实施方式中，分别编译多个群组受试者的正常拷贝数变异的数据库，其中每个群组表示一个种族，由此每个数据库提供了包含数千或至少10,000个受试者的大量组群的全基因组分析。本文使用的“种族”包括任何已知的人类种族，包括期望的亚群，其中种族是成员相互认同的人类种群，通常基于假定的共同家谱或祖先(Smith1986)。种族普遍也通过共同的文化、行为、语言或宗教上的习惯联合。在这种意义上讲，种族也是一个文化社区。

从客观的立场来看，种族还是同族通婚的种群，即种族的成员主要与他们种族的其它成员生育，根据特有的平均遗传学频率这是可测的。然而，由于种族内遗传学差异大于任何两个种族之间的差异，这些差异通常不接近人种差异的数量级。通过亲近、文化熟悉以及社会压力(在极个别情况下通过法律的命令)加固同族婚姻的特征，用以在种族内繁育。种族的实例包括白人、黑人、拉丁美洲人、亚洲人、中东人、犹太人或Shia***人。另外的实例可以基于人种或教义，或在集团内的亚群如国家(例如冰岛人)，或如宗教团体内的教派(例如，哈西德派犹太教徒)。

在此外的实施方式中，分别编译多个群体受试者正常拷贝数变异的数据库，其中每个群组表示非人类动物受试者的一个种类、亚种或品系，由此每个数据库提供包含数千或至少10,000个受试者的大量组群的全基因组分析。

在一个实施方式中，提供一种方法以测定受试者中拷贝数变异的关联性，其包含：比较来自一个受试者的基因组的一个或多个拷贝数变异的信息与至少100个受试者中拷贝数变异频率的数据编译，并从前面步骤的比较确定所述一个或多个拷贝数变异的相关性。在另一个实施方式中，该编译包含从至少100、1000、5000、10,000、25,000或50,000个受试者获得的数据。在一个优选的实施方式中，该数据表示全基因组分析。在另一个实施方式中，该数据提供在从至少100、1000、5000、10,000、25,000或50,000个受试者获得的所述编译中一个或多个拷贝数变异的出现频率。

在一个方面，本发明的KMT允许确定与症状或疾病相关的受试者、试验受试者或患者中一个或多个拷贝数变异。在另一个方面，基于受试者中一个或多个拷贝数变异提供的信息，本发明的KMT允许确定是否在受试者中排除或应用特定治疗。

在一个实施方式中，使用阵列比较基因组杂交得到每个受试者中一个或多个拷贝数变异的信息。

在一个方面，在一个或多个数据库中的数据编译提供了包含患者的断裂点图谱的信息。在一个实施方式中，使用PCR筛选得到约一个或多个拷贝数变异的信息。

本发明一个方面涉及访问代表至少100、1000、5000、10,000、25,000或50,000个受试者中一个或多个拷贝数变异频率的数据组。在一个实施方式中，该访问包含计算机可执行逻辑、计算机***设备和计算机硬件。

本发明的另一个方面提供了计算机可执行逻辑，其包含使处理器能够测定受试者基因组中一个或多个拷贝数变异关联性的计算机可读媒介。计算机可执行逻辑包含处理器，其接受包含至少100、1000、5000、10,000、25,000或50,000个患者基因组中一个或多个拷贝数变异频率数据的一组数据。在另一个实施方式中，所述比较是比较包含一个或多个群组的一个或多个数据组，其中每个群组表示一个种族，并且其中一个或多个拷贝数变异的频率包括在一个或多个群组的数据组内。

在一个实施方式中，本发明的一个或多个数据组包括一个或多个群组的频率数据，其中每个群组表示一个种族，并且其中每个数据组是从至少100、1000、5000、10,000、25,000或50,000个受试者中获得的数据编译。计算机可执行逻辑此外控制处理器以比较来自受试者、试验受试者或患者的拷贝数变异与在前的一个或多个数据组。此外，计算机可执行逻辑进一步控制处理器以提供电子或纸件形式的输出结果，其相对于与疾病、病状或病症相关表型确定存在于所述受试者、试验受试者或患者中的一个或多个拷贝数变异的重要性。在另一个实施方式中，在设计对于所述受试者、试验受试者或患者的治疗方案中，确定特定治疗是否应该被排除、开始或与另一种治疗组合使用。

在一个实施方式中，该数据包含一个或多个群组或受试者、试验受试者或患者的拷贝数变异，其通过比较全基因组比较杂交分析或断裂点作图分析获得。在一个实施方式中，通过阵列比较基因组杂交获得该数据，在另一个实施方式中，通过PCR进行断裂点作图分析。

在本发明的另一个方面，方法涉及鉴别用于治疗病状的治疗，其包含从经受所述症状的临床试验的患者群组的基因组获得信息，其中该方法包括鉴别在所述群组中一个或多个拷贝数变异，对所述一个或多个变异与对应于至少100、1000、5000、10,000、25,000或50,000个受试者中拷贝数变异频率的数据编译作比较，以确定在所述群组中所述一个或多个拷贝数异常是否存在于所述100、1000、5000、10,000、25,000或50,000个受试者中，因此将在所述群组中所述一个或多个拷贝数异常相关性与所述病状相关联，并且鉴别所述治疗是否对治疗所述病状有用。

在一个实施方式中，通过比较受试者中拷贝数变异与特定群组的数据组，该方法涉及所述群组的一个或多个亚群的鉴别，其中所述治疗对治疗有用，如果优点大于任何副作用，则该治疗确定为有效，或者如果副作用大于任何优点，则该治疗确定为无效。在一个优选的实施方式中，将包含群组或群组中亚群的拷贝数变异数据组的KMT与患者的拷贝数变异相比较，提供拷贝数变异频率，其允许确定所述群组的亚群中一个或多个拷贝数变异是否可以用于鉴别哪些患者可以处方所述药物(即，可以在治疗中使用该药物)或者那些患者不可以处方所述药物(即该药物的副作用大于任何优点)。

本发明的另一个实施方式包括KMT商业化和许可的商业方法，创建对于进行基因组筛选或使用KMT鉴别的重要生物标记测定的CLIA实验室，并与其它机构或团队形成登记许可协定用于研究和用于KMT的内容和扩充而采集补充的基因组信息。这种实施方式与由人类和/或动物基因组信息组成的KMT相关。

本发明的另一个方面涉及一种商业方法，其中对个体或组群提供受试者或亚群或群组中鉴别的拷贝数变异评估，其中该方法包括提供控制处理器的计算机可执行逻辑以确定所述拷贝数变异的关联性，其中所述变异作为数据通过自动或手动方法输入，由此处理器接受所述输入数据，其中所述处理器对所述输入数据与表示存在于至少100、1000、5000、10,000、25,000或50,000个受试者中的拷贝数变异频率作比较，以确定输入数据相对于与病状、疾病或病症相关表型的意义。

附图说明

附图1描述了对应于芯片阵列分析的图表，所述芯片阵列分析通过由本发明KMT提供的正常变异进行，从而鉴别三个医学上相关生物标记；更具体地说，两个标记存在于1.6(Y轴)附近，一个标记存在于0.6(Y轴)附近。

附图2描述了显示连接片段PCR测定的示意图，a)正常等位基因：P2和P3扩增420bpPCR产物；P1和P4在～182,400bp区域侧面且没有生成；b)缺失的等位基因：P1和P4扩增300bpPCR产物；N/N：420bp/420bp；N/Δ：420bp/300bp；Δ/Δ：300bp.缺失区域(长度为182,088bp)；Δ：缺失；N：非缺失；P：引物

附图3阐明了一些常见的遗传变化：A.突变。在DNA中一个核苷酸碱基被另一个核苷酸碱基取代导致异常蛋白质的编码。B.易位。染色体通过经特定基因断裂和断端复合来交换片段。因此破坏的基因编码异常蛋白。C.缺失。由染色体断裂和染色体断端的再接合导致染色体片段(或基因)的丧失。基因的丧失使它的功能废除。D.异倍体。整个染色体的额外拷贝导致染色体上许多基因的增加表达并且破坏了基因表达的正常平衡。E.扩增。基因扩增导致由它编码的蛋白质的表达极大地增加。

附图4阐明了本文描述的商业方法中并入的基于计算机的KMT数据管理的图解。

附图5阐明了指示患者和六个体细胞杂交的PCR分析的结果，其使用在三核苷酸重复(这个序列位于BACRP11-400G5上，并已被命名为400G5-1(SEQIDNO:3))侧面的引物。两个克隆仅包含一个同源物，而另一个克隆包含其它同源物。三个克隆没有给出产物-这些可能是回复突变体。随后的分析显示了具有较大谱带的同源物是具有缺失泳道的那个：1-100bp梯度(ladder)；2-水对照；3-患者(总DNA)；4-9-体细胞杂种克隆；10-100bp梯度。

附图6阐明了用一组跨越大约1Mb的STS进行PCR分析的结果。图A-来自缺失患者的总DNA。注意400G5-1(左侧的泳道8)的杂交性。图B-来自仅包含8号染色体同源物的体细胞杂种的DNA，所述8号染色体同源物包含两个400G5-1等位基因中较小的那个。由于没有STS缺失，所以这表明缺失发生在另一8号染色体上。图C-“金色径迹”的输出结果，位于http://genome.ucsc.edu，其具有在PCR分析中使用的相关标记。

附图7阐明了使用仅包含缺失8号染色体的体细胞杂种用区域STS的PCR分析结果。图A-用来自体细胞杂种上区域的限制STS组的PCR，该区域仅包含两个400G5-1等位基因中较大的那个。与前述发现一致，对于起源于BACRPCI11-17M8的大量标记此8号染色体似乎缺失。图B-"金色径迹"的输出结果，位于http://genome.ucsc.edu，其具有在PCR分析中使用的一套标记。该次序显示与图A中的相同。

附图8：a)使用从NimbeGen购买的NimbleScan软件，使用分段算法segMNT生成多图表pdf。该图表表明在我们指示病例中3号染色体上的断裂点。从置于阵列中chrX、chrY寡核苷酸的分析得到X和Y的图表，作为内参照(进行性别-错配杂交)。b)阐明了使用"金色径迹"产生的图象，位于http://genome.ucsc.edu，其显示了3p26微缺失的两端以及与CNTN4基因的关系。

附图9阐明了对与自闭个体相关家族成员进行PCR的结果。指定的扩增产物的存在表明在各自家族成员中3p26微缺失的存在。

附图10阐明整个数据库中3号染色体上BACRP11-33J20的归一化比率。很清楚图表中BAC记录了数据库中大多数个体的比率接近于1，但少数为偏离比率。原来所有的具有偏离比率的个体都属于ASD类型(即患有自闭症)。注意斑点的数量小于数据库个体的总数(800，因为在一些情况下抛弃低质量斑点)。

附图11阐明了来自区域：3号染色体，位置2296199-2675624的一组5个连续BAC的比率。这些5个BAC包括RP11-33J20。图表表明了有可能从给定的克隆以及一般区域的数据库中得到数据。这个图表表明了数据库中3号染色体上这个小区域的状态。同样，对于这些BAC，作为整体那些具有异常比率的个体全部来自ASD类型。

附图12阐明了从性别错配杂交的7号染色体获得的未归一化数据。可以看出在图表上集中于点100附近的区域与基准值1显著地偏离。这种偏离是人为的和性别错配的结果。7号染色体的这个区域与X染色体具有显著的同源性。使用在数据库相关部分的BAC克隆的平均值进行归一化几乎完全消除了这种偏差。

附图13阐明了考虑到性别的数据分析，其中使用在数据库相关分段(即与在相同“性别取向”实验获得的数据相关)的每种克隆的平均值归一化比率。作为这种转化的结果，同时还有数据非常明显“固定(tightening)”。

附图14阐明了对Chr8q24.3断裂点分析的PCR结果；为了在边界端点扩增新的“连接片段”而设计PCR引物。

具体实施方案

定义

阵列-关于有序排列的要素的通称，对于其中每个要素已经指定了地址和ID。在分子生物学中，术语“阵列”通常用于指DNA、RNA、蛋白、寡核苷酸、适体或组织的排列。

基于阵列比较基因组杂交(aCGH)-阵列用于基因组位置已知的数千/数百万DNA序列的同时询问。在“对照”和试验样本之间比较。aCGH不局限于任何特定阵列平台，同时被认为与基于使用细菌人工染色体(BAC-BAC阵列)的基因组阵列同义。在一个非专用的意思中，aCGH不同于进行分析的大多数阵列，即基于在不同的组织/个体中基因表达之间的比较。在aCGH中基因组DNA的使用产生的数据具有简化的结构，如每个基因组片段可能仅以离散数目的拷贝(通常是0、1、2、3或4)存在，然而基因的表达水平区别很大，从接近于0至数百万倍。

细菌人工染色体(BAC)-人类和小鼠基因组测序计划的主要依靠，BAC是允许大小约为150,000bp的基因组DNA片段分离的载体。以前的公开的测序计划基于BAC的完全嵌入物的测序，具有很高的重复。从基因组地址是已知的BAC获得的DNA可以用于合成BAC阵列，其在检测拷贝数异常的性能上是有力的。此外，报道变异的BAC可在公开可用的数据库中即时查询以获得基因组位置和基因含量的信息。

断裂点作图(BreakpointMapping)-任何易位/缺失/复制/倒位的精确分子边界的表征。从给定损坏(例如缺失)的分子分析中获得的信息允许产生用于损坏检测的简化测定。在一个非排他性实例中，分离特定基因座上共同的微缺失的分子边界，以及所述信息用于生成简单的基于PCR的测定，其能够非常快速地询问个体的基因组。

拷贝数分析-在单个试验中通过询问全部基因组来检测给定基因组片段的拷贝数。对于人类和非人类动物的基因组，这与正常变异知识管理工具的产生相关联，同时查明某些疾病状态和剂量失调之间的相关性。实例包括在杂合体缺失的情况下拷贝数从2减小到1，以及在杂合体复制的情况下拷贝数从2增加到3。

剂量多态性-拷贝数多态性。通过异常拷贝数(对于大多数染色体，正常拷贝数是2)定义基因组变异群体的存在。形式上，多态性包括在至少1％群体中发生，但是这种定义已经在人类基因组/遗传变异的情况下放宽，因此被认为“良性”，但仍然以常常少于1％下存在的变异，仍然称作多态性。更精确的术语是“变异”，因为这样定义并不暗示给定的最低频率。

荧光原位杂交(FISH)-用于观察在染色***置的范围内给定序列的方法。简言之，用荧光染料标记DNA并且与来自所关注的个体的一组固定染色体杂交。在相关的基因组位置上作为定位荧光检测每个序列。可用于检测/验证可疑的拷贝数改变(例如在杂合体缺失中，在仅仅两个染色体同源物之一上观察到一个斑点)。

单倍型-作为一个单元遗传的一组紧密连接的等位基因(基因/DNA多态性/SNP)。从基因型信息演绎为单倍型不很平常，其通常并不报告给定变异在哪个染色体上。例如，如果个体在给定基因座上是Aa并且在另一个给定基因座上是Bb，相关单倍型可以是AB/ab或者Ab/Ba。

核型-在给定细胞类型中染色体的含量和结构的描述。这种分析依赖于染色体的直射光显微镜目测，是过去50年“全基因组”分析的主要依靠，但遭受分辨率不足，因为在检测到变异之前需要10-20MB的改变。尽管在许多水平上可能被aCGH取代，但是核型还将为检测易位所需要，易位可以为拷贝数中性，因此不能通过aCGH检测出来。

单核苷酸多态性(SNP)-在DNA序列水平上变异的最基本单位。SNP包括具有单个碱基性质的变异，例如在给定的位置上，一些个体可能具有“G”，而其它个体可能具有“C”。许多这些改变被认为是中性的，然而其它的改变可能影响某些疾病状态的易感性。存在的许多SNP远小于群体的1％。另一个意思包括单核苷酸变异。

受试者-术语“受试者”可以意指从其获得基因组DNA通过本文描述的一种或多种方法进行染色体组分析以获得拷贝数变异数据的受试者。因此，受试者可以是来自至少100、1000、5000、10,000、25,000或50,000个个体中的一个个体，利用这些个体来编译一个或多个群组的所述数据(或数据组)，其中群组表示种族、患者组群、与特定病状、疾病或病症相关的患者组群、与治疗方案或临床试验特定应答相关的个体亚群的组群。此外，受试者可意指治疗的试验受试者、患者或候选者，其中从所述受试者、患者或候选者得到的基因组DNA用于通过本发明的一种或多种方法进行染色体组分析，以便得到所述受试者、患者或候选者的拷贝数变异数据。

药物拯救(DrugRescue)-本文使用的术语“拯救”或“药物拯救”意指个体遗传变异的鉴别，其可说明在临床试验中受试者对药物的应答的差异。此外，一些药物在上市几个月后显示出意想不到的毒性。在上市前试验之前没有报道的这些罕见的不良事件可危及药物的成功和降低它的市场占有率。本发明的KMT平台允许临床医生或医药专家快速检验特定患者中的拷贝数变异，并确定这种变异是否与在药物途径相关基因的拷贝数中的出现变异相关，并搜索与特定不良事件相关遗传变异。因此，"拯救"或"药物拯救"包括鉴别在药物应答中哪些拷贝数变异导致差异。这些信息然后用来定义对于其药物将不会处方的群体的亚组并且研发鉴别这些患者的筛选试验。这种信息还可以用来重新定义先导化合物，使得更好地理解它的潜在效果。因此，KMT提供了包含优化和自动的数据挖掘能力、高通量基因分型、统计学和生物信息学分析以及靶向验证的药物基因组学平台。

在一个方面，本发明为细胞遗传学家提供了知识管理工具(KMT)以合理地解释基因组数据，包括患者中的阵列CGH(aCGH)数据。除了在总的群体中提供关于拷贝数变异的高度相关信息之外，KMT也将在宽范围的病症和疾病中提供病因学的洞察力。在本申请中描述的全基因组拷贝数检测是用于筛选正常的和与疾病相关的变异基因组的最有力和有效的平台。在一个实施方式中，通过在细胞遗传和参考诊断实验室进行遗传学评估，KMT的使用使得诊断患者的精确度提高。这种工具允许比较针对来源于数千个体的遗传信息编译的结果，用来集中于分析，并且允许辨别疾病和/或病状和忽略基因组中的正常变异。在一个实施方式中，从患者基因组的分析产生前瞻性或个体化医疗。

这种分析提供了正常和异常拷贝数变异的快照(snapshot)，并结合靶向个体基因谱的有关药物和治疗。特别地，一个实施方式允许鉴别可用药物有效治疗的那些患者或对特定药物具有不良副作用的那些患者。这种基于拷贝数变异的分层对短时窗集中治疗特别有用，其可以产生结果并降低任何弯路或损害性治疗。

在一个实施方式中，正常变异的信息和KMT用于提供医学上相关生物标记的诊断测定和帮助其它标记的开发和研究工作。另一个实施方式提供“转化医学”以尽量加速研究发现应用到患者。这包括利用基于微列阵和基于非微列阵分析来进行拷贝数变异诊断性评估的CLIA实验室。

在本发明的一个方面，拷贝数变异数据包括本发明的KMT的主要特征。在一个实施方式中，数据库提供来自至少10,000个个体(例如正常，不显示靶向/鉴别的表型效应)的拷贝数变异频率的信息。其中个体为人类患者。例如，在前的研究已显示47，XXY的频率为1:1,000。因此，在10,000新生儿的群组中查明的仅仅只有10个这样的个体。因而，仅1,000个个体的数据库将会导致一种显著的可能性，即众所周知和重要的染色体异常将不被检测出或仅检测出一次。在另一个实施方式中，数据库将提供群体的所有亚群(例如在人类群体中的种族)的这种信息，其中指定的亚群可基于种族、地理学、人种或任何其它可鉴别的人口组群或亚群。

在另一个实施方式中，数据库提供来自至少100、1,000、5000、10,000、25,000或50,000个个体的拷贝数变异的信息，所述个体为非人类动物(例如正常的非人类动物，其不显示靶向/鉴别的表型效应)。非人类动物包括但不限于哺乳动物、鸟类、爬行动物、两栖动物、鱼类、昆虫和软体动物。更具体地说可设想源自于动物的一个物种或品种(即一种疾病模型)，其具有商业的价值或保留作为人类同伴。预期将对特定动物物种或品系创建数据库，其中动物被用作疾病模型或作为研究工具。这些动物包括但不限于∶狗、猫、大鼠、猴子、黑猩猩、小鼠、兔、仓鼠、沙鼠、猪和果蝇。还预期将对动物物种或品种创建数据库，其中动物具有商业的价值，如农业价值。这些动物包括但不限于∶牛、野牛、马、驴子、山羊、绵羊、猪、羊驼、美洲驼、牛、驴、鹿、麋鹿、驼鹿、鸵鸟、鸸鹋、鸭、鹅、鸡、鹧鸪、鹌鹑、野鸡、貂、鲑鱼、鳕、鲶鱼、青鱼、鳟鱼、鲈、河鲈、比目鱼、鲨鱼、金枪鱼、青蟹、阿拉斯加巨蟹、龙虾、小龙虾、蜗牛、蛤、蚝和鳄鱼，进一步地预期将对为人类的伙伴的动物物种、品种或品系创建数据库。这些动物包括但不限于∶狗、猫、马、垂腹猪、雪貂、蛇、仓鼠、沙鼠、蜥蜴、热带鱼、狼蛛、雀、鹦鹉、长尾鹦鹉、猎鹰、臭鼬、蛙和蟾蜍。

以下将进行样本计算，其阐明如何解释疾病状态中拷贝数改变重要性：

给定的拷贝数变异在具有给定表型的个体以p<1的比例存在。与KMT数字的比较显示了在正常的群组中没有个体具有这种改变。下列所述是(p)的不同数值和数据库大小(n)的统计分析：

表1

如同上述非限制实例所证明，其中疾病群组中的拷贝数改变的频率是0.001(1/1,000)，至少5,000的数据库足以鉴别变异是“正常”还是与疾病相关联。当减小数据库的大小时，不出现拷贝数改变的可能性很高(即对于100的大小，其超过0.9等)。当然，这只是一个实例，其取决于一个或多个变异的频率，在给定的数据库中所需个体的数量变得相应更少。

换言之，对于在疾病组群中出现的较高水平变异，在较小规模的数据库中统计变得显著。因此，其中给定的基因或基因区域涉及给定的病症，尽管每个被该疾病感染的个体均可能具有该基因的一些异常，但拷贝数的改变仅存在于很少数量的个体。因此，对于在疾病群组中拷贝数改变的置信水平是重要的，即使在它们在该群体中稀少的情况下。例如，在阿尔茨海默病因学中APP基因的重要性没有争论。然而，仅小比例(最多为～8％)具有拷贝数改变(最新描述的复制)。然而，如果可以表明事实上没有正常的个体具有这种变异，这个发现则具有戏剧性意义。当然，超过对于受试者或受试者的群组所需置信水平的大型数据库将必须满足需要较小个体数量的数据库的置信水平要求。

另一个实施方式包括用于评估拷贝数的各种产品。这些产品包括正常的拷贝数变异KMT、拷贝数断裂点KMT、用于筛选基因组的CGH阵列和适合询问基因组的基因组探针。其它产品特定地集中于用于检测微缺失/微复制的基于PCR测定试剂盒。

在本发明的另一个方面，使用PCR测定并提供阵列分析的替代方法。特别地，在分子水平上PCR测定检测基因/染色体变异的精确边界，其边界在不同的个体中相同。例如，在8号染色体上微缺失的分子边界(所有的正常的个体以5％存在)在100个个体中测序，显示出具有跨断裂点的相同序列。本发明这方面的特征为不是通过阵列分析而是通过使用简单的PCR测定来检测缺失。这种测定基于扩增仅在携带这种缺失的个体存在的连接片段(例如附图2)。该测定将通过阵列CGH探测的损失转化为通过PCR获得。

不同的DNA分离和PCR技术在本领域中是公知的。本发明中可使用的PCR技术的实例包括但不限于定量PCR、定量荧光PCR(QF-PCR)、多重荧光PCR(MF-PCR)、实时PCR(RT-PCR)、单细胞PCR、PCR-RFLP/RT-PCR-RFLP、热启动PCR和嵌套式PCR。其它合适的扩增方法包括连接酶链式反应(LCR)、连接介导PCR(LM-PCR)、简并寡核苷酸探针PCR(DOP-PCR)、转录扩增、自动维持序列复制、靶标多核苷酸序列的选择性扩增、共有序列引发的聚合酶链反应(CP-PCR)、随机引物引发的聚合酶链反应(AP-PCR)和基于核酸序列的扩增(NABSA)。

使用本领域已知的方法和试剂可以进行PCR。例如，通过染料-终止子测序可以直接双方向测序PCR产物。在384-孔板中在包含5ng基因组DNA、2mMMgCl₂、0.75ulDMSO、1M三甲铵乙内酯、0.2mMdNTP、20pmol引物、0.2ulAmpliTaqGold(AppliedBiosystems)、IX缓冲液(由AmpliTaqGold提供)的15ul的体积中进行PCR。热循环条件如下：95℃持续10分钟；95℃持续30秒，60℃持续30秒，72℃持续1分钟，进行30个循环；以及72℃持续10分钟。用MagneticBeads(Agencourt)纯化PCR产物，并任选地可通过在AB13730DNAAnalyzer(AppliedBiosystems)上通过毛细管电泳分离。

在一个实施方式中，基于PCR的方法为实时定量PCR(qPCR)。用于多个区域同时询问的替代方法包括短荧光片段的定量多重PCR法(QMPSF)、多重可扩增探针杂交法(MAPH)和多重连接依赖式探针扩增法(MLPA)，其中可在一个试验中对多达40个区域的拷贝数差异评分。另一种方法是针对特定靶标区域，所述靶标区域含有已知部分复制，其常常是拷贝数变异的位点。通过使用SNP-基因分型方法靶向部分复制的两个拷贝(称为共生同源序列变异)之间的可变核苷酸来提供对于两个等位基因的独立荧光强度，有可能检测到一个等位基因与另一等位基因相比强度增加。

在另一个实施方式中，在偏好单个扩增子分子结合不同的珠子和在每个珠子上发生扩增的条件下，扩增子结合到使用核酸标记的测序成分的珠子上。在一些实施方式中，这种扩增通过PCR发生。将每个珠子放置在各自的孔内，其可以是(任选地可寻址的)微微升大小的孔。在一些实施方式中，每个珠子被捕获于油性乳液中的PCR反应混合物的微滴中，并且PCR扩增在每个微滴中发生。珠子上的扩增导致每个珠子携带至少1百万、至少5百万或至少1千万单个扩增子分子的拷贝。

在PCR发生在油乳剂混合物中的实施方式中，乳状液滴破裂，DNA变性和携带单链核酸克隆的珠子沉淀到孔中，优选1微微升大小的孔，根据本文描述的方法进一步分析。这些扩增方法允许基因组DNA区域的分析。在Margulies等人，2005，Nature.15；437(7057):376-80以及在美国公开申请第20020012930、20030068629、20030100102、20030148344、20040248161、20050079510、20050124022和20060078909号中描述了用于使用珠子扩增然后用光纤检测的方法。

在本发明的某些方面，使用在本领域常规的测序法(sequencingmethods)测序核酸分子(例如基因组DNA)。可通过本领域公知的经典Sanger测序法完成测序。还可以使用高通量***完成测序，其中有些允许在测序的核苷酸并入增长的链之后或之时立即检测测序的核苷酸，即基本上实时或实时进行序列的检测。有时，高流通量测序每小时生成至少1,000、至少5,000、至少10,000、至少20,000、至少30,000、至少40,000、至少50,000、至少100,000或至少500,000序列阅读；每次阅读时各自阅读在至少50、至少60、至少70、至少80、至少90、至少100、至少120或至少150碱基上。

在一些实施方式中，高通量测序包括使用由HelicosBioSciencesCorporation(Cambridge，Massachusetts)获得的技术，如通过合成单个分子测序(SMSS)的方法。SMSS很独特，因为它允许在少于24小时对人类或非人类动物的全部基因组测序。这种快速测序方法还允许在基本上实时或实时下检测序列中的SNP/核苷酸。最后，因为和MIP技术一样，在杂交前SMSS不需要预扩增步骤，因此SMSS非常有效。事实上，SMSS不需要任何扩增。在美国公开申请第20060024711、20060024678、20060012793、20060012784和20050100932号中描述了SMSS。在一些实施方式中，高通量测序包括通过454Lifesciences，Inc.(Branford,Connecticut)获得的技术如PicoTiterPlate装置，其包括一个纤维光学板，所述纤维光学板发射由测序反应产生的冷光信号，信号由仪器中CCD摄像机记录。光纤的使用允许在4.5小时内检测最少2000万碱基对。

在一些实施方式中，PCR扩增的单链核酸与引物杂交，并与聚合酶、ATP硫酸化酶、荧光素酶、腺苷三磷酸双磷酸酶和底物荧光素和腺苷5'-磷酸硫酸酯一起孵育。接下来按顺序加入碱基A、C、G和T(U)相应的脱氧核苷酸三磷酸酯。每个碱基并入均伴随着焦磷酸酯的释放，通过硫酸化酶转变为ATP，其促使氧荧虫素的合成并释放可见光。因为焦磷酸酯释放与并入的碱基数量等摩尔，所以释放的光与在任一步骤中加入的核苷酸数量成正比。重复该方法直至确定整个序列。在一个实施方式中，使用焦磷酸测序分析扩增子以测定断裂点是否存在。在另一个实施方式中，焦磷酸测序也对周围序列制图作为内部质量控制。

焦磷酸测序分析法在本领域中是已知的。通过连接方案(简并连接)序列分析可以包括四色测序，其包括锚定引物杂交至四个位置中一个。然后锚定引物与一组具有荧光染料标记的简并九聚体进行酶连接反应。在任何给定的循环，构建使用九聚体的组，使得它的位置中一个的同一性与连接到九聚体的荧光团同一性相关。达到连接酶在在待询问位置上辩别互补性的程度，荧光信号提供碱基同一性的推断。在进行连接和四色成像之后，除去锚定引物:九聚体复合物并开始新的循环。进行连接之后成像序列信息的方法在本领域是已知的。

在另一个方面，基于全基因组的阵列CGH分析可用于在单个测定中在多个基因座上有效询问人类和非人类动物基因组的基因组失衡。直至今天，包含DNA大片段的正常拷贝数变异的重要性还未被认识到。阵列CGH是人类和非人类动物遗传学中的突破性技术，其引起在不同领域如癌症和IVF(体外受精)中工作的临床医生的兴趣。在临床中CGH微列阵的使用对鉴别与疾病相关的基因组失衡区域极具前景。从鉴别与特定表型相关染色体临界区域至鉴别特定地剂量敏感基因的进展将产生有利于患者的治疗机会。阵列CGH是特异性、敏感和迅速的技术，其能够在单个试验中筛选全基因组。它将促进和加快在人类和非人类动物遗传学中的诊断方法，并且预期对筛选和评估患有遗传疾病的受试者具有深远的影响。现在可能鉴别染色体上已发生畸变的精确位置，并有可能将这些改变直接绘制到基因组序列上。

基于阵列的比较基因组杂交(array-CGH)方法提供了进行全基因组扫描以发现新的拷贝数变异(CNV)的最有力的方法。这些方法使用来自所关注的基因组的标记片段，其与第二区别标记的基因组竞争性地杂交用克隆DNA片段点样的阵列，显示了在两个基因组之间的拷贝数差异。基因组克隆(例如，BAC)、cDNA、PCR产物和寡核苷酸都可用作阵列靶标。阵列CGH与BAC的使用特别广泛，由于它提供基因组广泛的覆盖度、可靠作图数据的可用性和易于进入克隆。最后这些因素中的最后一个对阵列试验本身和验证FISH试验来说是重要的。

与使用BAC(理论上从50kb至几个kb)相比，使用具有包括长寡核苷酸(60-100bp)阵列的CGH可以提高检测分辨率，并以称为代表性寡核苷酸微阵列分析(ROMA)的测定形式首先实现。ROMA的原理与应用于BAC阵列的使用类似，但是增加了信噪比，通过称为代表性或全基因组取样的方法降低了输入DNA的“复杂性”。这里通过限制性消化待与阵列杂交的DNA然后连接至衔接子，其导致在特定大小范围内的片段基于PCR的扩增。因此，扩增DNA构成全基因组序列的一部分，即它代表了已显著地降低复杂性的输入DNA，其引起背景噪声的降低。公司如NimbleGen和AgilentTechnologies已经开发了可用于控制(非代表性的)CGH的其它长的寡核苷酸阵列。大多数可用的寡核苷酸阵列的分辨率在30-50kb范围内，当更高分辨率的阵列变得可用时，分辨率范围将增加。

在基于阵列方法的另一种变化是使用从AffymetrixSNP阵列上点样的寡聚糖获得的杂交信号强度。这里杂交强度与源自对照样本的均值比较，因此这些平均的偏离表明了拷贝数的改变。同时提供了拷贝数的相关信息，SNP阵列具有提供基因型信息的额外优点。例如，它们可以显示杂合性的损失，其可以提供缺失存在的支持证据，或可能表明部分单亲的二体性(其还可以被认为是结构变异的形式)。

染色体显带是在常规细胞遗传学中最广泛使用的技术之一，且在寻找与例如智力迟钝和先天畸形综合症相关原因的染色体畸变中是非常重要的。现在分子细胞遗传学中概念和技术发展正将常规染色体分析技术的分辨率从巨碱基提高至千碱基对的水平。介入这些研究的工具包括(a)全基因组克隆资源的产生-发展为完成人类和小鼠基因组序列的一部分，(b)高通量微列阵平台的研发，和(c)比较基因组杂交方案和数据分析***的优化。这些发展共同在所谓的“分子核型”技术中积累，允许灵敏地且特异性地检测贯穿整个人类和小鼠基因组的亚微观染色体区域单拷贝数改变。该技术同样可用于特异性检测从可获得基因组序列的任何非人类动物的亚微观染色体区域单拷贝数改变。目前，对于以下动物全面的基因组序列可获得或在生成中，所述动物为四趾刺猬(Atelerixalbiventris)、西藏黄牛(Bostaurus)、狨猴(Callithrixjacchus)、家犬(Canisfamiliaris)、郊狼(Canislatrans)、豚鼠(Caviaporcellus2N)、九带犰狳(Dasypusnovemcinctus)、小马岛猬(Echinopstelfairi)、家猫(Feliscatus)、环尾狐猴(Lemurcatta)、非洲象(Loxodontaafricana)、恒河猴(Macacamulatta)、尤金袋鼠(Macropuseugenii)、短尾负鼠(Monodelphisdomestica)、棕色鼠耳蝠(Myotislucifugus)、鸭嘴兽(Ornithorhynchusanatinus)、穴兔(Oryctolaguscuniculus)、小耳大婴猴(Otolemurgarnettii)、黑猩猩(Pantroglodytes)、白脸黑猩猩(Pantroglodytesverus)、东非狒狒(Papioanubis)、猩猩(Pongopygmaeus)、非洲蹄兔(Procaviacapensis)、褐家鼠(Rattusnorvegicus)、鼩鼱(Sorexaraneus)、地松鼠(Spermophilustridecemlineatus)、野猪(Susscrofa)和马(Equuscaballus)。

基因组资源如BAC，开发作为上述所列物种基因组测序策略的一部分，可用于在标准比较基因组杂交方案以鉴别染色体区域拷贝数的差异。

在基于微列阵基因组谱中的许多基本操作与下述在表达谱和SNP分析中的基本操作类似(如果不同)，包括特定微列阵设备和数据分析工具的使用。因为在最近十年中已经良好地建立了基于微列阵的表达谱，从该领域的技术进步中可了解更多。可使用在核酸分析中微列阵使用的实例，其描述于美国专利6,300,063、美国专利5,837,832、美国专利6,969,589、美国专利6,040,138、美国专利6,858,412、美国申请08/529,115、美国申请10/272,384、美国申请10/045,575、美国申请10/264,571和美国申请10/264,574。应注意还存在显著的差异，如靶标和探针的复杂性、DNA比RNA的稳定性、重复DNA的存在和鉴别基因组谱中单拷贝数改变的需求。

亚微观拷贝数改变不总是具有表型后果，这是因为有时在正常父母中之一发现相同的改变。通过最近研究显示在显然正常个体中LCV(大的拷贝数变异)的存在已经证实了这一概念。此外，一旦已经确定拷贝数改变已在患者中发生，可能这一改变并未在以前的文献中描述，形成遗传学评估的严重的难题。然而，在适当的时候这些异常的增加数量将持续记录，或者在个人的病例报告或在公开使用的在线数据库中，都增进我们对这些疾病遗传学基础的理解。本发明的KMT提供了编译正常拷贝数变异信息以允许有意义的那些变异的鉴别和分析。

比较基因组杂交(CGH)的发展(Kallioniemi等人，1992，Science258:818-21)提供了扫描全基因组的DNA拷贝数变异的第一个有效方法。在典型CGH测定中，总基因组DNA从试验和参照细胞群中分离、差异性标记和杂交至基因组的代表，其允许在不同的基因组位置的序列结合用于鉴别。用来比较的超过两个基因组可以同时附有合适的标记。一般地，通过在反应中包含未标记Cot-1DNA来抑制高度重复序列的杂交。起初，中期染色体用于代表基因组和试验和参照基因组DNA之间拷贝数变异的定位作图在染色体的物理位置上。

现在染色体主要被包含构件的DNA微列阵替代，其直接作图到基因组序列中(Pinkel等人，1998.Nat.Genet.20:207-11)。在给定的区域内试验和参照信号的相对杂交强度则与在试验和参照基因组中那些序列的相对拷贝数(理论上)成比例。如果对照基因组是正常的，那么信号强度比值的增加和减少直接表明测试细胞内DNA拷贝数变异。通常将数据归一化，因此基因组的模态比值设定在一些标准值上，通常是线性标度的1.0或对数标尺的0.0上。附加测量如荧光原位杂交(FISH)或流式细胞计(Mohapatra等人，GenesChromosomesCancer,20:311-19)可用于测定与一个比率水平相关的实际拷贝数。

使用多种技术可实施阵列CGH。起始的方法使用大的嵌入基因组克隆如细菌人工染色体(BAC)产生的阵列。产生足够多非常纯净的BACDNA来制造阵列是艰苦的，因此已使用用于扩增少量原料的几种技术。这些技术包括连接介导的聚合酶链反应(PCR)(Snijders等人，Nat.Genet.29:263-64)、使用一组或几组引物的简并引物PCR和滚环扩增法。BAC阵列提供了全基因组tilingpath也可用。还可以使用从更少复杂的核酸如cDNA、选择的PCR产物和寡核苷酸制备的阵列。尽管大多数CGH方法使用全基因组DNA杂交，有可能使用通过PCR技术产生基因组的简化复杂性的代表。基因组序列的计算分析可用于设计补充至在代表中所列的序列阵列单元。各种单核苷酸多态性(SNP)基因分型平台，其中的一些使用简化复杂性的代表，对测定整个基因组的DNA拷贝数和等位基因含量能力是有用的。

阵列CGH的不同基本方法提供了不同的性能水平，因此一些比其它的更适合于特定应用。测定性能要求的因素包括拷贝数改变的大小、它们的基因组延伸程度、样本的状态和组成、对于分析购买材料的价格和如何使用分析的结果。许多应用需要小于50％的拷贝数改变的可靠的检测，比对其它微列阵技术具有更严格的要求。注意技术细节是极端地重要的，“相同”阵列CGH方法的不同设备可能产生不同的性能水平。各种CGH方法在本领域中是已知的，并且同样地适用于本发明的一种或多种方法。例如，美国专利第7,034,144、7,030,231、7,011,949、7,014,997、6,977,148、6,951,761和6,916,621号公开了CGH方法，每个专利的公开内容全部通过引用并入本文。

阵列-CGH(aCGH)提供的数据是DNA序列剂量的定量测定。阵列CGH提供了拷贝数畸变高分辨率测定，并且可以在许多进样上有效地进行。阵列CGH技术的出现使在基因组范围内监测DNA拷贝数改变成为可能，已经发起了研究在特定疾病中基因组研究的许多计划。例如，染色体畸变在癌症发展中起关键的作用，这里基因组不稳定性的认识允诺改善癌症的诊断学和治疗。

癌症发展的机理包含染色体畸变，包括致癌基因的扩增和肿瘤抑制基因的缺失。借助于阵列CGH分析可以最好的显示这些染色体畸变。由于阵列CGH技术有效的分辨率的提高，将导致医学上重要剂量畸变发现率的增加。然而，由于需要更好理解在种系和肿瘤基因组中正常多态性，解释原始数据将更加复杂。没有大量正常个体的高质量aCGH可用数据，剂量多态性的进一步阐明仍然为试验性的而不是计算上的努力。通过阵列CGH对可测剂量多态性的理解很重要，因此正常变异与疾病没有错误联系，反之如果一些所谓的正常变异可能构成一些疾病易感性，则需要测定正常变异。正常变异KMT填补了这一空白。

拷贝数异常目前在预防医学领域中代表了显著未开发的机会。个体化医疗是分子诊断学市场的一个部分，其在体外诊断学市场中是快速成长的细分部分。根据S.G.Cowen及Co.，在2004年IVD是一个260亿美元的产业。在这一产业中，分子诊断学细分市场预期有非常强劲的成长，从2004年的18亿美元增加到2009年的36亿美元，即表示年增长率为15％。

在本发明的一个方面，使用全基因组筛选编译全基因组拷贝数谱有关的数据。在一个实施方式中，使用基于全基因组阵列CGH筛选个体用于开发拷贝数变异数据库(如实施例6)。在一些实施方式中，筛选的个体来自于不同背景的，包括：患有自闭症个体的群组；正常受试者的群组；和患有各种病症如先天性心脏病(CHD)、Toriello-Carey综合症和其它稀有表型个体的群组。在不同的实施方式中，大多数个体试验来自于白种人背景，或来自于多种种族和不同遗传背景的人。种族可以是本文描述的按期望方式选择的单一或不同的种族的组合。

在一个实施方式中，在相同的全基因组嵌合途径BAC阵列上杂交个体的基因组DNA，包括19,000不同的BAC克隆，印刷双份(例如实施例6)。在进一步的实施方式中，为了得到有效的统计学相关的结果，将数据与内部对照归一化。例如，试验来自CNV已预先进行良好表征的个体的基因组DNA。在另一个实施例中，选择对所研究的个体性别错配的男性或女性基因组DNA池来试验。

在本发明的一个方面，获得全基因组拷贝数分布谱。在一个实施方式中，使用性别匹配的个体基因组DNA进行阵列CGH。在另一个实施方式中，使用性别错配的个体基因组DNA进行阵列CGH，并进行补充数据分析步骤以减轻错配的影响。在一个实施方式中，使用性别特异的数据分析归一化全基因组拷贝数分布谱的数据。没有这种新的和有细微差异的归一化步骤，结果可引起降低可靠性(图12)。例如，常染色体的区域行为会不会取决于性别错配的样本。这不用惊奇，假如在许多常染色体区域和性染色体(特别是X染色体)之间有着显著的同源性。实际上，某些常染色体区域通常可以在杂交中显示微小变化，其可以取决于使用性别错配阵列CGH。

因此，在一些实施方式中，在性别特异方法中通过归一化数据库可以消除这一数据的假象(图13)。例如可在数据库中生成详细说明实验“性别取向”的附加专栏。由此，如果对照是女性，试验受试者是男性，那么标明为f_m。在一个实施方式中，“性别取向”由下列组成：

m_f-男性对照，女性试验；

f_m-女性对照，男性试验；

m_m-男性对照，男性试验；

f_f-女性对照，女性试验；

p_m-双亲对照，男性试验；

p_f-双亲对照，女性试验；

使用相同“性别取向”的说明，根据数据库亚组中克隆的均值将每个克隆的比率归一化。这一操作不仅除去区域特异的假的比例改变，而且用于解释性别染色体的可能改变。归一化大大简化了另外那些将是困难和耗时的解释方法。例如，解释在男性对照和女性试验之间X-链接缺失是具有挑战性的，这是因为许多X-特异的克隆不产生预期的2:1比率，当存在异常时难以对它们作出说明。归一化方法作出解释并使它更加可靠。

因此在一些实施方式中，利用来自受试者的DNA样本和来自与受试者相比具有不同性别的第二受试者的对照DNA样本得到全基因组拷贝数分布谱，因此提供了性别错配定量。因此，相对于上述性别错配结果可以归一化编译的全基因组谱数据。

性别错配归一化

在一个实施方式中，用于平滑数据的归一化方法可使用通道2至通道1(Ch2:Ch1)的信号比作为用于归一化和数据库内分析的基础数据。该值是阵列CGH分析期间检测通道2和通道1信号强度比率。在一个实施方式中，通道1和通道2分别表示检测的Cy3和Cy5信号。在替代实施方式中，通道1和通道2分别表示检测的Cy5和Cy3信号。在一些实施方式中，通道1是Cy5，通道2是Cy3，其中用Cy5标记对照样本和用Cy3标记试验样本。

使用微阵列分析软件(例如BlueFuse)来分析每个试验中的每个克隆的数据，这产生等于所述Ch2:Ch1比率的值(比率_ch2_ch1)。在所述软件已经完成其内标归一化和loess校正后达到该值。某些特异性的克隆和/或基因组区域可以产生正常期望值(离群值)外的比率_ch2_ch1值。这种情况可在以下情况下产生：在测试的所述样本基因组DNA中已知不存在真正的拷贝数异常。这些离群值可以由包括但不限于以下的一些原因所导致：

1.在性别错配的实验中，所述偏差可以由常染色体克隆/区域与性染色体上的序列的同源性所引起；

2.在非性别错配实验中，可以存在由特异性序列中的Cy3、Cy5的差异性并入所导致的偏差；

3.未能解释的因素。

为克服这些人为偏差，可针对每个克隆将所述比率_ch2_ch1值进行归一化，其是通过将克隆的单个值除以在整个数据库中的该克隆的平均值。或者，可以在具有相同的性别取向的数据库的分单元(subsection)中进行归一化。例如，按如上所述，存在确定的6个性别取向：

1.m_f-雄性对照，雌性试验；

2.f_m-雌性对照，雄性试验；

3.m_m-雄性对照，雄性试验；

4.f_f-雌性对照，雌性试验；

5.p_m-亲代对照，雄性试验*；

6.p_f-亲代对照，雌性试验*。

针对每个种类，可以计算所述比率_ch2_ch1的平均值且随后在相关分单元中用作每个比率的除数。还可以按相同的方式针对所述数据库中的log2比率_ch2_ch1值应用该方法。

在一些实施方式中，所述对照样本包括从试验受试者的所述亲代(表2)组合的基因组材料。亲代对照样本的使用允许重新检测患有亲代任何一方不存在的病症的儿童中的拷贝数异常。在该实施方式中，将来自每个亲代的基因组材料(DNA)的大约相同的量组合，将所述组合的DNA标记(例如Cy3)并且与标记的来自儿童的基因组DNA(其用不同的荧光标记(例如Cy5)来标记)共同杂交CGH阵列。此方法可成功地用于重新检测试验受试者中变化。

表2

来自一个实验的一组连续BAC的相关值

^∧数据库的p_f部分中的平均值

非人类动物拷贝数变异数据库

阵列CGH的分析法也可用于测量非人类动物的繁殖种群。针对市售的重要的动物和伴侣动物(包括牛、羊、猪、马、狗或猫)的正常拷贝数变异的数据库的生成将提供用于筛选种畜的染色体异常的重要工具，所述异常与繁殖能力降低、特异性降低或其它经济上相关或所需的特征相关。在一个实施方式中，将建立针对特定非人类动物物种或品种的正常拷贝数变异的数据库，并用于鉴别正常发生的与数量性状座位无关联的多态性。随后筛选与该数据库为相同物种或品种的所关注的非人类动物的拷贝数变异，所述非人类动物具有显著的表型(例如经济上的有利的、不利的或疾病相关的表型)。随后将所述结果与所述数据库比较。主要在所关注的所述非人类动物的基因组中存在的拷贝数变异允许鉴别有利的数量性状基因座(QTL)和与所关注的非人类动物的表型相关的疾病基因座。与特异性QTL或疾病基因座关联的拷贝数变异可用于筛选其它非人类动物的相同物种或品种的所述QTL或疾病基因座。

从非人类动物物种或品种中的正常拷贝数变异的数据库开发的信息将允许现存的育种实践进一步完善，其是通过从育种计划中排除不需要的个体(例如为遗传性疾病或其它不需要表型的携带者的个体)。特异性的拷贝数变异或染色体异常与不需要表型的关联，将改进人工授精育种计划的有效性。

在动物育种界遗传性疾病日益受关注。自从引入利用人工授精的现代育种实践，近交相关的问题加剧。这已经引发了由流行雄性育种动物携带的隐性遗传性疾病增加。

与拷贝数变异相关的遗传性疾病很多，其包括但不限于：上皮增殖不全、大疱性表皮松解、成骨不全、繁殖力下降、奶产量不足、体脂肪水平提高、自身免疫性溶血性贫血、巴塞特猎犬(bassethound)血小板紊乱、凝血(出血)病症、周期性造血、血友病、组织细胞瘤、组织细胞增多病、免疫介导的血小板减少、淋巴水肿、磷酸果糖激酶(PFK)不足、丙酮酸激酶(PK)不足、罕见红细胞异常、血小板机能不全(thrombasthenicthrombopathia)、冯维勒布兰德氏病(VonWillebrand'sdisease)、主动脉瓣狭窄、房间隔缺损、心肌病、二尖瓣发育异常、动脉导管未闭、血管环异常、门体分流术、肺动脉狭窄、病态窦房结综合征、法乐氏四联症、三尖瓣发育异常、室间隔缺损、糖尿病、生长激素敏感和肾上腺性激素皮肤病、肾上腺皮质功能亢进(柯兴氏综合征)、肾上腺皮质功能减退(阿狄森氏综合征)、甲状腺功能减退、甲状旁腺功能亢进、垂体性侏儒症(垂体机能减退)、白内障、柯利犬眼异常、角膜营养不良、皮样囊肿、睑外翻、睑内翻、暴露性角膜病综合征(眼球突出、兔眼症和/或大眼睑)、睫毛异常(异位睫、双行睫、倒睫)、青光眼、泪点闭锁、干性角膜结膜炎(KCS)-“干眼”、晶状体脱位、小眼畸形(眼发育不全、视神经发育不全和小***突起)、角膜翳(慢性浅层角膜炎)、续存性瞳孔膜、累进性视网膜萎缩、视网膜发育不全、第三眼睑(瞬膜)异常-“樱桃眼”、慢性肝炎、唇裂/腭裂、铜相关的肝炎、伯灵顿梗犬(Bedlingtonterrier)铜中毒、胰腺外分泌机能不全、胃扩张-肠扭转(胃胀气)、谷蛋白(小麦)敏感的肠病、组织细胞溃疡性结肠炎、高脂蛋白血症、免疫增生(巴塞恩金狗)性肠病/淋巴细胞-浆细胞肠炎、肠***扩张、食管扩张、胰腺炎、肛周瘘、门体分流术、蛋白丢失性肠病、蛋白丢失性肠病和肾病(爱尔兰软毛梗(soft-coatedWheatenterrier))、幽门狭窄、小肠细菌过度生长(SIBO)、遗传性过敏症、自身免疫性溶血性贫血、大疱性类天疱疮、补体缺陷、周期性造血、德国牧羊犬脓皮病、免疫介导的血小板减少症、红斑狼疮、天疱疮、选择性IgA缺陷、重度联合免疫缺陷症、德国魏犬免疫缺陷、小脑营养衰竭(运动失调)、小脑发育不全、颈脊不稳(摆动综合征)、先天性耳聋和前庭病、耳聋、退行性脊髓病、球样细胞脑白质营养不良、髓鞘形成障碍/髓鞘形成过少(“震颤小狗”)、脑积水、特发性癫痫、椎间盘病、喉麻痹、脑白质营养不良(例如脱髓鞘脊髓病、遗传性共济失调中心轴突病变(axonopathy)、脊髓软化、海绵样脑白质营养不良、类血纤维蛋白脑白质营养不良)、无脑回、溶酶体贮存病(例如蜡样脂褐质沉积症、岩藻糖苷贮积病、葡糖脑苷脂沉积病、糖原贮积病Ⅲ型、GM1神经节苷脂沉积、GM2神经节苷脂沉积、粘多糖增多症I、神经鞘髓磷脂代谢障碍)、脑脊膜炎、脑膜脑炎、重症肌无力、脊髓发育不良(脊柱裂病)、神经轴性营养不良、周围神经病(例如多发性神经病、巨轴索神经病、原发性多发性神经病、肥大性神经病、累进性轴突病变、感觉神经病、喉麻痹-多发性神经病综合症、食管扩张)、抖抖狗症候群(shakerdogsyndrome)、苏格兰野狗痉挛(scottycramp)、脊柱裂、脊髓性肌萎缩/运动神经元病(例如脊髓性肌萎缩、局部脊髓性肌萎缩、遗传性进行性脊髓性肌萎缩、运动神经元病、多***染色质溶解神经元变性)、脊骨狭窄、短头颅综合征、气管发育不全、喉麻痹、气管塌陷、黑棘皮症、肢端舔皮炎/肉芽肿、肢端残缺综合征、遗传性/过敏性皮炎、大疱性类天疱疮、犬痤疮、色素稀释性脱毛、先天性稀毛、表皮无力症(埃勒斯－当洛综合征)、皮肤粘蛋白病、大麦町犬青铜色综合征(dalmatianbronzingsyndrome)、脂螨性兽疥癣/犬蠕型螨、皮肌炎和溃疡性皮肤病、皮样瘘、外胚层缺损、外皮发育不良、大疱性表皮松解、毛囊发育不良(黑毛毛囊发育不良)、皱褶性皮炎(folddermatitis)/脓皮病、德国牧羊犬足垫病症、德国牧羊犬脓皮病、生长激素敏感的皮肤病、鱼鳞病、致命性肢皮炎、红斑狼疮、淋巴水肿、狼疮类皮肤病、鳞斑霉属皮炎/耳炎、结节性皮肤纤维化(痣)和肾囊腺癌、模型斑秃、天疱疮、肛周瘘、牛皮癣状-苔癣样皮肤病、雪那瑞粉刺症候群(Schnauzercomedosyndrome)、皮脂腺炎、脂溢性皮炎、维生素A敏感的皮肤病、白斑病、锌敏感的皮肤病、隐睾、性发育病症-性反转、家族性肾病(例如遗传性肾炎/肾病、肾发育不良、肾淀粉样变性)、凡科尼综合征、结节性皮肤纤维化和肾囊腺癌、尿石病(结石)、劳累性横纹肌溶解、多糖存储肌病、白细胞粘附缺陷、遗传性锌不足、原卟啉症、扩张性心肌病、区域性皮衰弱(regionaldermalasthenia)、椭圆形红细胞性贫血、马运动神经元病(颤动)和摆动病。

阵列CGH步骤

特别地，所述阵列CGH步骤包括以下步骤。首先，大的***克隆例如BAC从克隆文库供应商得到。随后，小量的克隆DNA通过简并寡核苷酸引发的(DOP)PCR或连接反应介导的PCR来扩增以便获得点样(spotting)所需的足够的量。然后，使用安装高精密度打印针的微阵列机器人将这些PCR产物点样到载玻片上。取决于待点样的克隆的数量和微阵列载玻片上的可用空间，克隆可被在每个阵列中点样一次或重复点样。如果所述点样强度是平均的，阵列上的相同克隆的重复的点样提高测量方法的精密度，并允许实验质量的详尽的统计分析。

受试者和对照DNA经常使用随机引物法用Cy3或Cy5-dUTP来标记并随后杂交到包含过量的Cot1-DNA的溶液中的微阵列上以便封闭(block)重复的序列。杂交既可在温和摆动的垫圈中在盖玻片下手动进行，也可使用市售的杂交装置自动地进行。这些自动杂交装置允许活性杂交方法，从而改善重复性及减少实际杂交时间，提高处理量(throughput)。

使用具有扫描共聚焦激光或者基于电荷耦合器件(CCD)的读取器的相机的标准微阵列扫描装置通过两种不同的荧光染料检测所述杂交的DNA，随后使用市售的或免费获得的软件包来现场鉴别。本发明可使用任何常规的荧光染料。这些荧光染料为已知的或市售的。可检测分子的特定的实例包括放射性同位素例如p³²或H³、荧光团例如异硫氰酸荧光素(FITC)、TRITC、若丹明、四甲基若丹明、R-藻红蛋白、Cy-3、Cy-5、Cy-7、德克萨斯红(TexasRed)、Phar-Red、别藻蓝蛋白(APC)、表位标记例如FLAG或HA表位和酶标记例如碱性磷酸酯酶、辣根过氧化物酶、I²-半乳糖苷酶和半抗原偶联物例如异羟基洋地黄毒苷配基或二硝基苯基等。其它可检测的标记物(marker)包括化学发光分子和生色分子、光或电子密度标记物等。所述探针也可用半导体纳米晶体例如量子点(即Qdot)来标记，在美国专利第6,207,392号中描述。市售的Qdot从QuantumDot公司获得。

用于检测的试剂的另外的实例包括但不限于放射标记的探针、荧光团标记的探针、量子点标记的探针、生色团标记的探针、酶标记的探针、亲和配体标记的探针、电磁自旋标记的探针、重原子标记的探针、用纳米颗粒光散射标记或其它纳米颗粒或球体外壳标记的探针以及用任何其它本领域技术人员已知的信号生成标记所标记的探针。在本发明中用于检测的标记部分的非限定性实例包括但不限于：适合的酶，例如辣根过氧化物酶、碱性磷酸酯酶、β-半乳糖苷酶或乙酰胆碱酯酶；能够形成复合物的结合对成员，例如链酶亲和素/生物素、亲和素/生物素或者抗原/抗体复合物，包括例如兔IgG和抗兔IgG；荧光团例如伞形酮、萤光素、异硫氰酸荧光素、若丹明、四甲基若丹明、曙红、绿色荧光蛋白、藻红、香豆素、甲基香豆素、芘、孔雀绿、芪、萤光黄、CascadeBlue^TM、德克萨斯红、二氯三嗪基胺基萤光素、丹磺酰氯、藻红蛋白、荧光镧系元素复合物包括例如铕和铽、Cy3、Cy5、分子指示物及其荧光衍生物，以及其它本领域已知的物质，例如在PrinciplesofFluorescenceSpectroscopy,JosephR.Lakowicz(编者),PlenumPubCorp,第2版(1999年7月)和RichardP.Hoagland的MolecularProbesHandbook的第6版中所描述的；发光物质例如鲁米诺；光散射或细胞质基因组共振物质例如金或银颗粒或量子点；或放射性物质，包括¹⁴C、¹²³I、¹²⁴I、¹²⁵I、¹³¹I、Tc99m、³⁵S或³H。

标记物包括但不限于生色团、荧光部分、酶、抗原、重金属、磁探针、染料、磷光基团、放射性物质、化学发光部分、散射或荧光纳米颗粒、拉曼信号产生部分和电化学检测部分。可使用用于进行阵列基因分型分析的各种方法、手段及其改变来进行使用微阵列的基因分型。

另外，骨架标记是以序列独立的方式结合核酸分子的核酸染料。实例包括嵌入染料例如菲啶和吖啶(例如菲啶溴红、碘化丙啶、碘化己啶、二氢基乙啡啶、乙啡啶同型二聚体-1和-2、单叠氮化乙啡啶和ACMA)；一些小沟结合物(minorgrovebinder)例如吲哚和咪唑(例如Hoechst33258、Hoechst33342、Hoechst34580和DAPI)；以及混杂核酸(miscellaneousnucleicacid)染料，例如吖啶橙(也能够嵌入)、7-AAD、放线菌素D、LDS751和羟芪巴脒。所有上述的核酸染料来自供应商(例如MolecularProbes,Inc.)市售。核酸染料的其它实例包括来自MolecularProbes公司的以下染料：花青染料例如SYTOXBlue、SYTOXGreen、SYTOXOrange、POPO-1、POPO-3、YOYO-I、YOYO-3、TOTO-1、TOTO-3、JOJO-I、LOLO-1、BOBO-1、BOBO-3、PO-PRO-1、PO-PRO-3、BO-PRO-1、BO-PRO-3、TO-PRO-1、TO-PRO-3、TO-PRO-5、JO-PRO-1、LO-PRO-1、YO-PRO-1、YO-PRO-3、PicoGreen、OliGreen、RiboGreen、SYBRGold、SYBRGreenI、SYBRGreenII、SYBRDX、SYTO-40、-41、-42、-43、-44、-45(蓝)、SYTO-13、-16、-24、-21、-23、-12、-11、-20、-22、-15、-14、-25(绿)、SYTO-81、-80、-82、-83、-84、-85(橙)、SYTO-64、-17、-59、-61、-62、-60、-63(红)。

增加通过高密度阵列获得的数据需要标准化的存储***和细致的统计工具，与之类似需要基于微阵列的基因表达谱。由于产生和杂交点样的微阵列的方法复杂，在所生成的数据中确实存在某种程度的***变异。

微阵列的数据的归一化用于消除这种***变异，因此其代表几乎所有微阵列数据分析中的重要的预处理步骤。在数据归一化之后，需要自动统计步骤可靠地检测基因组拷贝数变化。最后，克隆片段上DNA的杂交图像中的数字化强度差异可被翻译为试验和参照基因组间的拷贝数差异。这种技术一旦建立和确认，将允许高通量DNA拷贝数筛选，其分辨率仅被所使用的克隆片段的大小限制(典型地-100kb，使用BAC阵列)。

在正常拷贝数变异KMT中包括的信息通过使用阵列CGH的常规技术筛选大量个体的基因组来获得。用来评估核酸的来自这些个体的样本可以包括用来获得必要基因组材料的任何常规生物样本。所述样本可以是细胞、血液、体液、羊水、活组织检查或组织。另外，样本可以是新鲜的，来自培养的细胞/组织或来自但编档保存的(archival)细胞/组织，例如冷冻样本、格思里卡(Guthriecard)、脐带血或胎盘。上下文中的取样，包括本领域中获得血液样本或细胞样本的常规方法，包括口腔、鼻或咽喉拭子。另外，在本发明的一种或多种方法中，用于基因组评估的样本可从新生儿、儿童、***前儿童(pre-teen)、青少年(teen)或成年受试者获得。在另一个实施方式中，通过羊膜穿刺术获得样本以提供用于基因组分析的DNA样本。

在本发明的一种或多种KMT中，参照数据库可包括从雄性与雌性受试者的比率所获得的评估。在一个实施方式中，所述比率为1:1或近似于1:1或者大约1:1。

在另一个方面，从儿童获得样本，且所获得的样本为血液或口腔样本。在另一个实施方式中，从新生儿获得样本，所获得样本为血液。在另一个实施方式中，样本从混合受试者群体(subjectpool)中获得，其中所述受试者选自由以下组成的组：新生儿、婴儿、儿童、***前儿童、青少年、青年人、中年人和老年人。例如正常拷贝数变异的数据库可编译10,000个个体，其中所述个体包括新生儿和青年人或任何所需群组的组合。

受试者(其中基因组评估包括本发明的KMT)的年龄(即，以天或年计)包括1至40天(新生儿)、婴儿(年龄：1个月至1岁)、1岁至8岁(儿童)、8岁至12岁(***前儿童)、12岁至19岁(青少年)、19岁至39岁(青年人)、39岁至55岁(中年人)以及55岁至100岁(老年人)。

另外，从受试者获得基因组DNA在本领域中是常规的。基因组DNA(gDNA)可从一种或多种细胞、体液或组织中分离。已知的方法可用于获得体液，例如血液、汗液、泪液、淋巴、尿液、唾液、***、脑脊液、粪便或羊水。类似地，已知的活组织检查方法可用于获得细胞或组织，例如口腔试子、口腔清洗液、外科切除、活组织检查抽吸等。基因组DNA也可从原代培养、增殖的细胞系、固定的编档保存的样本、法医样本或考古学样本中的一种或多种细胞或组织获得。

可按本发明的方法从其中获得gDNA的示例性的细胞类型包括但不限于血液细胞，例如B淋巴细胞、T淋巴细胞、白细胞、红细胞、巨噬细胞或嗜中性粒细胞；肌肉细胞，例如骨骼肌细胞、平滑肌细胞或心肌细胞；生殖细胞，例如***或卵子；上皮细胞；***细胞，例如脂肪细胞、成纤维细胞或成骨细胞；神经元；星形细胞；基质细胞；肾细胞；胰细胞；肝细胞；或角质化细胞。从其中获得gDNA的细胞可以在特定发育水平，包括，例如造血干细胞或起源于造血干细胞的细胞(例如红细胞、B淋巴细胞、T淋巴细胞、自然杀伤细胞、嗜中性粒细胞、嗜碱性粒细胞、嗜酸性粒细胞、单核细胞、巨噬细胞或血小板)。其它细胞包括骨髓基质细胞(间质肝细胞)或由其发育而来的细胞例如骨细胞(osteocyte)、软骨细胞(cartilagecell)、脂肪细胞(adipocyte)或其它种类的***细胞例如发现于腱中的细胞；神经干细胞或由其产生的细胞包括例如神经细胞(神经元)、星形细胞或少突胶质细胞；上皮干细胞或来源于上皮干细胞的细胞例如吸收细胞、杯状细胞、帕内特细胞或肠内分泌细胞；皮肤干细胞；表皮干细胞；或滤泡干细胞。一般来说，可使用任何类型的干细胞，其包括但不限于胚胎干细胞、成人干细胞或多能干细胞。

从其中获得用于本发明的gDNA的细胞可以是正常细胞或表现出特定疾病或病状的一种或多种症状的细胞。因此，用于本发明的方法的gDNA可以从癌细胞、赘生性细胞、坏死细胞等中获得。本领域的技术人员将了解或能够易于使用本领域中已知的方法确定从细胞、液体或组织中分离gDNA的方法，例如在Sambrook等人，MolecularCloning:ALaboratoryManual,第3版,ColdSpringHarborLaboratory,NewYork(2001)中或在Ausubel等人，CurrentProtocolsinMolecular-Biology,JohnWileyandSons,Baltimore,Md.(1998)中所描述的方法。

本发明的方法可进一步包括分离特定类型的细胞或组织的步骤。可用于本发明的方法中以使群体中特定细胞与其它细胞中分离的示例性的方法包括但不限于荧光活化的细胞分选(FACS)(例如在Shapiro,PracticalFlowCytometry,第3版，Wiley-Liss；(1995)中所描述)、密度梯度离心或使用具有显微镜辅助设备的显微操作法的手动分离。本发明所使用的示例性细胞分离设备包括但不限于BeckmanJE-6离心冲洗***、BeckmanCoulterEPICSALTRA计算机控制的流式细胞仪-细胞分选仪、来自Cytomation,Inc.的模块化流式细胞仪、库尔特计数仪和通道处理器(channelyzer)***、密度梯度装置、细胞离心法、BeckmanJ-6离心机、EPICSV双激光细胞分选器或EPICSPROFILE流式细胞仪。也可通过外科技术去除组织或细胞群。例如，肿瘤或来自肿瘤的细胞可通过外科方法从组织中去除，或相反地非瘤性细胞可从肿瘤周围去除。使用下文进一步详述所列的那些方法，本发明可用于制备不同细胞的可分类(typable)基因座，所述细胞包括例如从相同个体或从不同个体分离的癌细胞和非癌细胞。

用于本发明的方法的gDNA可通过溶解包含DNA的细胞来制备。典型地，细胞在基本上保持细胞的gDNA完整性的条件下溶解。特别地，在本发明的方法中，将细胞暴露于碱性pH值可用于溶解细胞同时对gDNA造成相对小的破坏。任何多种碱性化合物可用于溶解，所述碱性化合物包括例如氢氧化钾、氢氧化钠等。另外，可通过酶(其降解所述细胞壁)溶解的细胞获得相对未受损的gDNA。也可通过暴露于渗透应力溶解缺少细胞壁的细胞，所述细胞天然缺少细胞壁或或由于酶去除而缺少细胞壁。其它条件可用于溶解细胞，包括暴露于去污剂、机械破碎、超声加热、压力差例如在弗氏压碎器或杜恩斯匀浆器。稳定gDNA的试剂可包括在细胞溶胞产物或分离的gDNA样本中，包括例如核酸酶抑制剂、螯合剂、盐缓冲液等。用于溶解细胞以获得gDNA的方法可在本领域已知的条件(例如在Sambrook等人，同上(2001)或在Ausubel等人，同上，(1998)中所描述)下进行。

在本发明特定的实施方式中，包含gDNA的粗细胞溶胞产物可不经过进一步分离gDNA而直接扩增或检测。或者，gDNA可在扩增或检测前进一步从其它细胞组分中分离。因此，本发明的检测或扩增方法可在纯化或部分纯化的gDNA上进行。基因组DNA可使用已知的方法分离，包括液相萃取、沉淀、固相萃取，色谱法等。这种方法通常称为小量制备并且例如在Sambrook等人，同上，(2001)或在Ausubel等人，同上，(1998)中所描述或由各种供应商市售，包括例如Qiagen(Valencia,Calif.)或Promega(Madison,Wis.)。

本文所用的术语“基因组DNA”或“gDNA”意图指一种或多种染色体聚合脱氧核糖核苷酸分子，其天然存在于真核细胞的细胞核中或原核生物、病毒、线粒体或叶绿体中且包含通过所述细胞天然转录进入RNA的序列和非天然转录进入RNA的序列。真核细胞的gDNA包含至少一个着丝点、两个端粒、一个复制原点和一个不通过真核细胞(包括例如内含子或转录启动因子)转录到RNA中的序列。真核基因组DNA可区别于原核、病毒或细胞器基因组DNA，例如根据真核基因组DNA中的内含子的存在以及其它的gDNA中的内含子的缺失。

在某些方面，可首先扩增所述基因组DNA。因此，术语“扩增的”意图指在核酸拷贝中所述拷贝中的每个序列相对于所述拷贝中的所有其它序列的比例基本上与所述核酸模板中的比例相同。例如，当参照基因组片段的群体使用时，该术语意图指基因组片段的群体中每个基因组片段与在所述群体中的所有其它基因组片段的比例基本上与其序列与在所述基因组中的其它基因组片段序列的比例相同。在扩增的代表(amplifiedrepresentation)和模板基因组DNA中的序列的比例间的基本上的相似度指在所述代表性中的至少60％的基因座不超过5倍过度代表(over-represented)或代表不足(under-represented)。在这种代表性中，例如至少70％、80％、90％、95％或99％的基因座可以不超过5、4、3或2倍过度代表或代表不足。在该术语中包括的核酸可以是DNA、RNA或其类似物。在扩增的代表性群体中的每种核酸序列的数量可以是所述模板的例如至少2、5、10、25、50、100、1000、1×10⁴、1×10⁵、1×10⁶、1×10⁷、1×10⁸或1×10¹⁰倍或更多倍。

在先的扩增的优点是可从个体获得小量的基因组DNA，并扩增以获得基因组片段的扩增的代表性群体，其可在本发明的方法中询问(interrogated)。因此，该方法特定地用于将基因组DNA基因分型，所述DNA来源于相对小的组织样本，例如活组织检查或编档保存的样本。一般来讲，所述方法将用于扩增相对小数量的模板基因组拷贝。在特定的实施方式中，基因组DNA样本可从单细胞获得且进行基因分型。

本发明提供全基因组扩增的方法，其可用于在遗传评估(例如检测基因组中的可分类基因座)前扩增基因组DNA。本发明的全基因组扩增方法可用于提高基因组DNA的数量而不损失(compromise)任何给定序列的质量或代表性。因此，所述方法可用于以不依赖序列的形式扩增相对小量的基因组DNA以便提供可进行基因分型的基因组DNA的水平。意外地，复杂的基因组可用低持续合成能力的聚合酶来扩增以便获得基因组片段群体，其代表基因组、具有高复杂性及包含具有与典型核酸阵列杂交的合适大小的片段。

另外，本文公开的基因组DNA的扩增不需要多聚酶链式反应。特别地，可进行扩增使得序列在等温条件下扩增若干倍。因此，尽管可使用提高温度的步骤，例如以在开始时使基因组DNA模板变性，而不需要使用温度循环。因此，温度的重复提高通常用于使杂种变性，且不需要反复地恢复杂交温度。

为评估受试者的拷贝数，可以使用任何常规生物样本来获得基因组DNA。可以使用阵列CGH或常规PCR技术来完成筛选受试者以鉴别拷贝数的多态性。通过这些方法中的任何一种获得的有关拷贝数多态性的信息可以与KMT进行比较以评估发现的任何变异的显著性。

本发明的技术的特征为针对人类或非人类动物群体的正常染色体变异的知识管理工具的组合(portfolio)。不参照正常群体变异则不能完成个体中的染色体畸变的显著性的合理解释。依赖于阵列CGH数据的诊断医生、研究人员和药物研发者都遭遇同样的困境-“何为正常状态”的问题。

本发明的一个目的是针对细胞遗传学家的首要知识管理工具(KMT)以合理地解释患者的阵列CGH数据。这些工具是针对正常变异的综合全基因组分析工具。除在一般群体中产生有关拷贝数变异的高度相关信息外，该KMT也深入研究广泛范围的病症和疾病中的根本的病因学。CGH的优点是可以其自身的能力研究个体，而不必依赖于连接关联中的固有的统计方法，其中具有多中遗传病因学的个体可能已经被集中在一起。基于阵列CGH的方法的最终能力在于亲代样本的全基因组拷贝数评估，而无任何所涉及的基因组区域的先验知识。

在本发明的一个目的中，从待分析的受试者获得DNA样本以确定全基因组拷贝数变异，该分析通过本发明所述的一种或多种方法进行，由此将这种分析的输出与本发明的正常拷贝数变异数据库比较，以便确定所检测的变异是否与表型结果关联。所述受试者可以为本文所述的任何年龄、性别和种族。

本发明所描述的全基因组拷贝数检测用于是筛选个体以确定哪个变异对许多不同的方面具有重要性的最有力的和有效的平台。例如，所述比较允许确定与表型结果相关的变异。其也允许在群体中对受试者分层以基于个体对于药物的反应(有益的或是不良的)在个体间辨别。这有助于将应答于临床试验中治疗的受试者与不应答或经历不良反应的受试者分离，使得可以补救所述治疗并靶向所述治疗有效的亚群。同样，这些KMT也可在监管批准(例如由FDA批准)后的药物的使用中跟进以便在所述群体的确定的亚群中继续监测所述药物及其功效或不良反应。

在本发明的另一个方面，本文所述的本发明一种或多种方法适用于基于与低密度微阵列检测相反的基于溶液的检测。例如初级产物的提纯，所述正常变异KMT，是拷贝数变异断裂点的KMT，即所述群体中的这些损伤的分子边界。所述KMT允许使用基于快速PCR(多聚酶链式反应)的方法而非基于阵列的方法检测群体中常见的拷贝数变化(例如图2)。该方法允许分析数十万的个体的所关注的拷贝数变异的存在，这个数量级不目前用微阵列分析不可行。

在患有或有发展为基于基因的病症(例如癌症)风险的患者中，可以用多种方式确定各种基因或基因上的各种基因座中存在或不存在特定变异或多种变异。这些试验可使用常规和已知的技术和遗传物质源来进行。例如，对于阵列和非阵列分析，技术人员可使用从以下生物样本收集的DNA或RNA：例如组织活组织检查、尿、粪便、痰液、血液、汗液、泪液、细胞、组织刮物、乳腺抽吸物、体液或其它细胞材料，并可通过多种常规方法来进行，该方法包括但不限于PCR、具有等位基因特异性的性探针的杂交、酶突变检测、错配的化学裂解、质谱测定法或DNA测序(包括微测序)。在特定的实施方式中，具有等位基因特异性的探针可以两种形式进行杂交：(1)等位基因特异性的寡核苷酸与固相(任何常规材料，例如但不限于玻璃、硅、尼龙膜)和溶液中的标记样本结合，如在很多DNA芯片中应用，或者(2)样本(通常克隆的DNA或PCR扩增的DNA)与溶液中的标记寡核苷酸(等位基因特异性的或短的寡核苷酸以便允许通过杂交测序)结合。诊断试验可以包括一组变异，通常在能够同时测定多于一种变异的固体载体上。

例如，变异的测定包括通过例如多聚酶链式反应(PCR)的方法测定所述变异位点或多个位点的序列。或者，激酶的存在或不存在增加核酸变异的测定可以包括链终止DNA测序或微测序、寡核苷酸杂交分析或质谱测定法。在一个实施方式中，本发明提供在试验生物样本中通过PCR或者在连接链反应(LCR)筛选变异的方法(参见，例如Landegran等人，1988.Science241:1077-1080；和Nakazawa等人，1994.Proc.5Natl.Acad.Sci.USA91:360-364)，其后者可特定地用于检测基因中的点模拟(pointimitation)(参见，Abravaya等人，1995.Nucl.AcidsRes.23:675-682)。所述方法包括以下步骤：设定用于扩增靶标序列的简并引物、对应于一种或多种基因保守区域的引物，具有引物的扩增反应(使用从试验生物样本获得的DNA或cDNA作为模板)和分析所述PCR产物。试验生物样本的PCR产物与对照样本的比较显示所述试验生物样本中的变异。该变化可以是在试验生物样本中不存在或存在核酸变异。替代性扩增方法包括：自主序列复制(参见Guatelli等人，1990.Proc.Natl.Acad.Sci.USA87:1874-1878)、转录扩增***(参见，Kwoh等人，1989.Proc.Natl.Acad.Sci.USA86:1173-1177)、Qb复制酶(参见，Lizardi等人，1988.BioTechnology6:1197)或任何其它的核酸扩增方法，随后使用本领域的技术人员已知的技术检测扩增的分子。如果核酸分子以很低的数量存在，这些检测方案特别用于检测该核酸分子。

可以使用很多可用的计算机程序设计PCR引物，该程序包括但不限于OligoAnalyzerS.O、OligoCalculator、NetPrimer、Methprimer、Primer3、WebPrimer、PrimerFinder、Primer9、Oligo2002、Pride或GenomePride、Oligos和Codehop。有关这些程序的详尽信息可从例如www.molbiol.net获得。另外，可以使用本领域技术人员已知的标记物来标记引物。这种标记包括但不限于放射性的标记、荧光标记、染料和酶标记。

可使用任何能够根据扩增产物的大小分离扩增产物方法进行扩增产物的分析，包括自动化或手动的凝胶电泳，质谱测定法等。或者，可使用差数序列(sequencedifference)、使用SSCP、DGGE、TGGE、化学裂解或限制性片断多态性以及例如与核酸阵列杂交来分离所述扩增产物。核酸分离、扩增和分析的方法对于本领域中技术人员是常规的，且方案的实例可例如在theMolecularCloning:ALaboratoryManual(3卷组)JosephSambrook,DavidW.Russel和JoeSambrook编,ColdSpringHarborLaboratory；第3版(2001年1月15日),ISBN:0879695773中找到。用于PCR扩增方法的特别有用的方案源是PCR(Basics:FromBackgroundtoBench)(M.J.McPherson,S.G.Moller,R.Beynon,C.Howe,SpringerVerlag；第1版(2000年10月15日),ISBN:0387916008)。

这些正常变异知识管理工具使用一致的且有利的平台(即嵌合途径BAC微阵列或其它市售的阵列)，包括来自多种群体的至少100、1,000、2,000、5,000、7,000或10,000个正常个体的分型。使用***的、一致的、综合的且有力的***来开发KMT以产生该技术的核心。尽管可认为来自不同平台的生成的数据是相同的，但实际上每个***具有一些固有的方法学缺陷。然而，本发明的***具有独特的优点，以便来自任何平台的任何样本可与正常拷贝数变异知识管理工具比较以从异常变异中辨别正常变异。所述KMT用于评估来自亲代的基因谱以更精确地鉴别与特定疾病状态相关联的变异。另外，本发明的另一个方面包括以产生KMT的正确的形式制造和销售aCGH工具的产品。为特定疾病状态制定cCGH的阵列，且构建该阵列以允许区别许多潜在疾病与相似症状。另外，对于那些不希望亲自进行实验的人，提供服务来进行使用相同平台(用于生成KMT)的试验。

在本发明的一个方面，KMT用于鉴别受试者中拷贝数变异的关联性的方法，由此进行受试者的全基因筛选以鉴别拷贝数变异，并随后将所述变异与从个体的群体中获得的正常拷贝数变异的数据库进行比较。所述个体的数量为至少100、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、20,000、30,000、40,000或50,000个个体。另外，在KMT中包括的正常拷贝数变异的数量至少为100、200、300、400、500、600、700、800、900、1000、5000、10,000、20,000、50,000、100,000、1,000,000、10,000,000或1,000,000,000。

基于KMT(知识管理工具)的阵列CGH使细胞遗传学家和诊断医生准确地诊断亚显微的染色体异常。所述正常变异KMT具有与任何类型的阵列CGH平台的灵活的相容性，产生细胞遗传诊断工业的金标准。

最近的二十多年中在普通/复杂疾病的研究中已经投资了数亿美元。作为这些疾病(精神***症、糖尿病、肥胖、阿尔茨海默病等)的基础的主要的假说为所谓的“多基因模型”。该模型假设存在多个等位基因，每个基因的作用弱，它们一起引起表型。已经注入大量的基金特定地用于复杂病症中联系和关联的研究，然而，功能性SNP或表达谱的解析尚未与人类基因组、国际人类基因组单体型图或日本千年计划的期望相平行。很多单个基因/单个突变病症引起属于复杂/普通种类中的表型。例如，染色体22q11的微缺失在三分之一的全部受影响的成年人中表现出精神病(精神***症)。这代表在该状态中精神***症的风险增加33倍，相对于一般人群的1％的风险。一般认为，在这些个体中的单独的或相关的基因改变为22q11处的微缺失。导致传统上认为是多基因的病症的特定突变的另外的实施例为先天性心脏病、阿尔茨海默病、帕金森氏症和糖尿病。

先天性心脏病是影响1％的全部新生儿的疾病种类，且传统上认为其病因学复杂，但其可能起因于不同个体中的独立的基因损伤，其中的每个具有一个大突变。可能涉及22q11处的微突变。

仅阿尔茨海默病的少数确定的基因损伤被已知是成因的，其包括早老素中的突变。尽管仅存在于相关的小百分比的全部受影响个体中，相似的机制将被认为在大多数个体中发挥重要的作用。

在帕金森氏症突变中的α-突触核蛋白已经在少数家族中发现。在这些个体中，在基因中的突变可单独说明所述疾病的原因。这是另一个多基因模型的证据。

大多数已知的糖尿指向涉及在不同个体中很多单基因突变。

对筛选和进一步研究重要的一些病症或疾病包括自闭症、冠状动脉病、阿尔茨海默病、帕金森氏症、精神***症、中风、糖尿病和双相型障碍的风险。应该指出的是，本文所公开的不同的实施方式不意图限制或排除本发明所包括的其它的组合物和方法的实例。

虽然有些时候可能相关，但认为多基因模型不是所有情况都适用。就具有差异的个体而言，表型被认为是复杂的，然而是独特的，变异可以全部导致相同的终止表型(endphenotype)。这是由于表型的“空间”比基因型的“空间”小很多。换句话说，存在的潜在基因变化的数量是巨大的，而可识别的表型的数量在数量上更为有限。该现象的另外的实例包括智力迟钝(已知针对其的几十个基因仅在X染色体上，且在非性别染色体上的数百个基因有待鉴别)和贫血，对于其上百种原因(遗传的和环境的)列在标准医学教科书中。

例如在患有自闭症谱群病症(ASD)的个体中，有证据表明ASD是高度异质性病症(heterogeneousdisorder)。异质性指的是ASD似乎起因于大量的不同的生物/遗传异常。在80个诊断为ASD的人受试者中的拷贝数变异(CNV)的初步分析(与300个以上正常人个体相比)揭示许多受影响的基因组区域，这些基因组区域中的一个已被深入研究且表明其与ASD高度显著地相关。鉴别80个受试者中的两个家族(2.5％)，其中异常发生在接触蛋白4基因(CNTN4)中，该基因位于3号染色体的上，在3p26处。另外，未发现该基因在任何正常个体中显著改变，表明CNTN4因此与ASD的某些病例相关。在ASD家族中的鉴别该基因的缺失和复制，在所有的病例中仅影响CNTN4。使用荧光原位杂交(FISH)确认这些结果。所述缺失/复制完全在CNTN4基因的基因组范围内，表明未涉及在3p上的其它基因。

统计分析表明如果2.5％的自闭症的病例与CNTN4异常相关，则97.5％无关。如果这是随机概率的结果，则同样有2.5％的概率任何正常个体将具有在相同基因中的异常，且97.5％的概率其将不具有。300个个体中没有这种异常的概率为(0.975)^∧300＝5.10^∧-4，这表明CNTN4异常表现为与ASD高度相关。

在有与重新平衡易位相关的学习困难的个体中所述CNTN4基因先前已经表现为中断(interrupt)。该患者具有“3p-综合征”的特征。所述CNTN4基因在功能上涉及轴突生长。另外，一些患有自闭症的患者的遗传隔离(geneticisolate)已经表明显现与3号染色体的相同区域的遗传连锁(geneticlinkage)。

用于鉴别所述与ASD相关联的CNTN4基因的方法也可用于鉴别其它ASD涉及的基因。可以预想，该方法可用于连续地鉴别ASD涉及的基因，由此增加原因已知的ASD个体的百分比。到目前为止，已知很多遗传病与自闭特征相关联(例如，FRAXA和Rett综合症)。然而，在大多数病例中，这些病症以其它的名字被公知且不只与自闭症相关联。这对于ASD的其它致病性突变可能也是真实的。ASD的亚群的进一步的表型分析(由新生物标记所定义)将揭示至今尚未了解的显著特征(这是由于当ASD作为异质组群研究时的稀释效应)。

由CNTN4基因获得的结果的强关联表明其可用作自闭症的诊断试验的基础。该分析将涉及获得含有疑似患有自闭症的人类患者的DNA的样本以及检测发生于接触蛋白基因4(CNTN4)(位于3号染色体)中异常的存在。用于这种分析的适合的样本包括但不限于口腔试子、血液样本、组织样本、***物样本、尿液样本和毛囊。异常包括但不限于染色体的非整倍性、扩增、缺失、复制、***和易位；以及亚显微染色体扩增、缺失、复制、***、易位。可使用多种技术进行试验，所述技术包括直接测序法、PCR、实时PCR(例如TAQMAN)、凝胶电泳、限制性片段长度多态性分型、STR分型、MLPA和SNP分型(使用常规模式和标记)。在另一实施方式中，提供用于分析或筛选个体的自闭症的试剂盒。这种试剂盒将包括相关方案所需的材料(例如引物和试剂)。常规标记，例如荧光标记物将包括在基因探针上。在一些实施方式中，试剂盒使用设计的引物和设计以仅在具有导致自闭症的异常的个体中产生扩增产物的方案。

在一个实施方式中，所述试剂盒包含用于检测在3p26处微缺失的组分，所述微缺失中断CNTN4基因。该试剂盒包含与3p26微缺失侧面的基因组区域杂交的引物。在一些实施方式中，该试剂盒与SEQID1和SEQID2杂交的引物。该试剂盒包含方案和任选地PCR反应试剂(例如dNTP、聚合酶、缓冲液和Mg盐溶液)。该方案将列出可与包含的PCR引物一起使用的反应条件以仅与包含3p26微缺失的DNA产生扩增产物。使用本领域已知技术(例如电泳或实时PCR)可使扩增产物可视化。扩增产物的存在对应于3p26微缺失，表明所述受试者患有自闭症。在CNTN4中的其它缺失可发现断裂点与本文所公开的断裂点不一致。因此，检测在基因中序列的剂量减少的方法，而不是仅检测特定端点(endpoint)的方法可能是有用的(例如MLPA或qPCR)。然而，连接片段PCR的一个益处是它允许大群组或受试者的非常快速的检查。

这些结果表明，在一个实施方式中，要求保护的本发明可用于筛选疑似患有自闭症的人的与自闭症相关的其它拷贝数变异。所获得的结果随后可与在正常人中的拷贝数变异的数据库比较。该比较将鉴别与自闭症相关的拷贝数变异并允许产生疑似患有自闭症的人中用于诊断自闭症的试验。

尽管医学相关的标记物被从CGH微阵列鉴别并开发，并包括在KMT中，但针对生物标记的后续的诊断试验(由针对鉴别特定疾病的本发明的比较产生)通常不是基于微阵列。使用KMT鉴别与特定疾病或病状关联的重要的生物标记，所述生物标记一旦被鉴别可以使用很多常规测定方案来检测。考虑到简易性、成本效益、生产易度(manufacturingease)和满足相等的灵敏度，所述检测是基于溶液的。所述新的诊断检测是揭示疾病(普通和罕见的)机理的KMT的直接结果。商业模型包括重要检测的引入授权(in-licensing)和内部开发的检测的对外授权(out-licensing)，其通过医药相关基因座对外授权和对进行检测重要的产品的销售。

从正常变异数据库产生的是另一个列出全基因组拷贝数断裂点图谱的KMT。对于全部拷贝数变异的诊断检测来自于在分子水平理解这些变异的精确的边界。所述拷贝数断裂点图谱针对与受试者的基因组的PCR检测比较来鉴别正常的变异。其又一次允许技术人员鉴别重要的拷贝数变异。

本发明的另外的方面包括研究和研究服务。全世界存在有数百个使用CGH作为关联染色体数异常(但限于确定疾病病因学的关联)的方法的研究实验室。正常变异KMT将对于这些研究者鉴别和表征医学相关的基因座是关键的，因为鉴别变异基本是较不显著的-如果这种变异不与在正常群体中的变异比较。本发明的KMT将提供给研究者以允许建立医学相关的生物标记的“从实验室到病床(benchtobedside)”的线路，通过估计在疾病状态中(对比在正常状态中个体)个体中染色体异常的重要性。通过与这些研究者合作，更多信息将被收集、编译、添加至KMT，并通过医学相关的基因座的引入授权程序翻译至CLIA实验室中的诊断检测。另外，所提供的服务将允许研究者将其患者样本的收集发送到所述CLIA实验室用于分析和评估。所述商业方法包括为那些想要处理它们自己的信息的研究者使用KMT颁发许可，反向许可以从研究者获得另外发现的生物标记且为提供服务颁发许可。这些服务包括使用aCGH或PCR分析样本和/或与KMT比较。

如果个体以自己的因素被检测，则共同表型中的基因研究可能首先产生结果。换句话说，表型需要细分直到鉴别到特定个体中的特异性基因变化。目前研究的目的在于分析具有(明显地)相同表型的个体的混合物，但在潜在的遗传原因方面该个体的表型似乎基本上不同。就贫血来说，该论点是可靠的。目前没有患者接受来自他或她的医生的贫血的诊断(没有进一步的病因学上的信息-铁缺乏(遗传的/饮食的)，叶酸缺乏症等)，也没有任何基金机构认为值得支持贫血中的关联研究，因为现在该表型的异质性广泛地被接受。贫血中的关联分析(即患有贫血的几百个个体全部集中在一起的研究)将可能产生不确定的结果。

和继续建立和扩大在一般群体中拷贝数变异的知识库一起，该合作和个体研究也将研究病症范围中的潜在病因学，取决于哪个患者样本被收集或获得用于分析。合作者通过协议并入阵列CGH，允许另外的匿名或保密信息，因此加入到KMT的统计功能中。要点是每个个体以其自己的因素的研究，没有依靠包括在关联/联合研究中的统计方法，其中具有多基因病因学的个体可能已经集中在一起。据信，全基因拷贝数检测是用于筛选基因组变异的最有力和有效的方法，所述变异是正常的和潜在地与疾病相关联。

包含在所述研究中的是基础研究，其包括分析基因组的增加或损失(即***或缺失)，与疾病关联性相比较。对这些变化筛选其用作信息的生物标记的可能性。

也包括在纵向研究中使用阵列CGH的临床研究以在所述疾病的进展中在不同的点提供基因组“快照”。例如，这些诊断快照(在用疗法治疗后和在复发期间)提供更好的疾病进展的理解和与所述疾病相关的基因组不稳定性评估。例如，这特定地用于某些癌症。该监测将通过辅助鉴别这些亚群和将其与所述治疗关联来改善治疗。另外，CLIA实验室装备这些基础设备以运行全基因阵列CGHCLIA调整的临床研究，具有针对其它进行数据分析作为合约服务的能力。

转化医学是本发明的另一个方面，其提供从内部正常变异生物标记发现程序和引入授权标记物(来自所述研究服务核心程序)出现的新数据财富的转化，并将其转化为对患者的直接益处。该转化医学将通过将研究发现尽快应用于患者来加速诊断学的可用性。所述CLIA实验室是用于持续研究基因组以及使所述病状和/或疾病与疗法相关联用于改进疗法的核心设施。所述CILA用于进行个体的分析以继续建立和扩大KMT，用于筛选受试者来获得基因组信息，用于比较和进行任何诊断检测(使用来自比较KMT所鉴别的生物标记)。

本发明的另一个方面是预测性和个体化医疗。医疗***承认个体化医疗方法对于独特地、特异性地和最佳地治疗每个患者是最有力的。相对于某些疾病状态，KMT的使用是解释染色体变化的关键。包括在病理性染色体变异中的基因代表治疗性治疗的靶标，并且基因组成与分离的患者的群体的关联允许个体化治疗。个体化医疗要求更着重于IVD和在新技术和产品的发展中诊断和治疗机构间的更多合作，但也着眼于现有医疗。使用药物基因组学和毒理基因组学来针对拷贝数变异比较患者的样本和KMT，这允许针对某些患者群体来鉴别最有效的药物。包括在该评估中的是药物机理的遗传基础(包括毒性)来辅助靶向治疗。其阵列CGH数据用于预测性医学的证据明确的且实例大量存在。

病例研究#1.预后指标-斯隆凯特林(SloanKettering)研究组已经使用该技术作为预后指标来预测患有弥漫性大B细胞淋巴瘤(DLBCL)的患者的结果，该患者将具有良好或不好的存活率-独立于常规使用的临床特征。这些与结果相关的小基因组区域可用基因表达研究进行跟踪，且可以揭示在DLBCL中重要的靶标基因。

病例研究#2.治疗诊断学开发工具-三基因座检测以预测卵巢癌中的耐药性：Berkeley和UCSF进行全基因组分析以鉴别畸变，该畸变与卵巢癌中用铂/紫杉醇疗法治疗的弱应答最紧密地关联。基因组拷贝数的比较基因组杂交(CGH)研究显示在3号染色***置上的区域中的周期性扩增。Berkeley和UCSF已经开发可用于多种检测技术的标记来检测这些扩增。它们已经将PVT1基因鉴别为药物耐受性的卵巢癌肿瘤的潜在的预报器和有希望的治疗性靶标。PVT1基因图作图到所述在8q24染色***置SEQIDNO:4的扩增区域，其与铂/紫杉醇治疗的患者存活期减少密切关联。PVT1的转录水平与卵巢细胞系中的DNA拷贝数变异高度相关，且PVT1基因的高水平扩增和/或过表达与存活时间减少显著地关联。

利用PVT1抑制剂的研究强化PVT1值作为肿瘤的预测性标记物和治疗性靶标，其不应答基于铂/紫杉醇的治疗。在用降低PVT1转录的siRNA处理过表达PVT1的四个细胞系后，Berkeley实验室/UCSF科学家发现细胞增殖被抑制。不扩增或过表达PVT1的细胞系的siRNA处理不会抑制生长或诱导细胞死亡。这些研究表明siRNA或靶向所述基因的小分子抑制剂对化学抗性的肿瘤是有希望的疗法。当与铂和紫杉醇治疗组合时这种疗法可能会增强。该组已经开发48个预后BAC克隆的阵列作为预测晚期浆液性卵巢癌患者的低存活率的标记物。发现克隆跨度包含位于13号染色体上的序列的区域是不良或良好预后的等级特异性标记物。所述预测法的算法基于患者结果与这48个区域内拷贝数变化的关联。

已经使用来自40个患者群组的肿瘤样本来开发该技术并对30个患有晚期浆液性卵巢癌的患者的独立群组进行试验，其中它以77％成功率预测存活率结果。这些现有研究以非常小的规模使用小量的个体成员来进行，且没有与正常或异常拷贝数变异相关联。

个体化医疗在药物基因组学的领域中是尤其相关的。药物基因组学信息在临床情况中非常有用，其中相关信息用于预防药物毒性。例如，通常在基因或染色体区域中筛选患者与医学重要性的表型(例如，疾病状态)相关的遗传学差异。然而，仅小比例的所观测到的药物毒性已经通过迄今可获得的一组药物基因组标记物来充分地解释。另外，“离群的”个体或在临床试验中经历非预期效应的个体(当所施用先前已经证明安全且有效的药物时)，在获得FDA药物批准中造成实质上的延缓且可以甚至造成某些药物退出市场-尽管这种药物对于大多数的接受者可以是有效的。

迄今用于鉴别靶向基因组区域的各种生物技术方法，包括例如基本上在对照和病例样本间的基因表达中寻求差异的差异基因表达；用于鉴别药物受体及其直接效应物的蛋白质-蛋白质相互作用图谱；以及针对相似于已知疾病相关的、药代动力学或药效学调节子的序列开发人类或非人类动物的序列数据库。相比之下，使基因组区域与特定表型特征相关联且确认的关联研究依赖群体遗传学和有力的统计指标。关联研究提供有力的工具以在更短的时间内获得更大量的信息，因此减少研究成本和开发难度。然而，本发明提供比在相关领域中所使用的联合研究更有力工具，因为在个体中所鉴别的任何基因/基因组变异与KMT所提供的正常变异数据库相关。在联合研究中，表型与总基因组信息相关。然而，特定的表型将典型地为很多基因型的结果。

本发明的KMT允许对这些基因型差异更精细的评估，且允许拷贝数变异与较大组群中的较小亚群相联系，且与特定的效果相关联，例如更好或更差地应答于药物。因此，可分析药物治疗的功效和毒性。拷贝数异常的确是关键的遗传组分，药物公司将使用其区分药物功效和个体中的不良反应。

在进一步的药物商业化的过程中，制药公司投资包括数亿美元来开发新产品，仅由于具有不可预测的效应(例如，毒性增加或者对所试验的药物应答不足或没有应答)的临床试验的参与者而遭受巨大的损失。为克服阴性结果、更快获得批准和补偿损失，制药公司需要将效果与临床试验参与者的基因谱关联。能够预测群体中的哪些个体将耐受或阳性应答所试验的药物，和/或哪些个体将经历阴性的副作用或没有药物带来的显著的改善，这对于制药公司是非常有利的。

药物研究和开发过程包括从靶标基因组区域的发现到药物研发和推出最终产品的所有过程。目前该方法是漫长的、昂贵的且具有风险的。平均来看从最初研究实验室阶段开发新产品到FDA批准一般需要十四年的时间。任何延迟潜在药物的商业化和开发过程的事件每年可造成受影响的公司高至十亿美元的收入的损失。相反地，任何加速潜在药物的商业化或开发周期的变化可以为实现这些变化的受影响的公司带来显著的财政利益。

加速上市时间(time-to-market)不仅带来早期销售收入的益处还有在其竞争者前第一个进入市场而扩大的市场份额。这是关键的，因为对于在新市场治疗类别中的第一个药物的市场独家经营权的期限比可能预期的期限通常短得多。结果，由于公司要维持或增加市场份额，市场营销支出已快速地增加。

除了上市时间的因素以外，成功地使任何化合物通过十四年中所有步骤的机会是微小的。统计表明，在开始临床前开发中的5,000个化合物中，仅有5个进入临床试验，且仅有1个可能进入市场。长期开发周期和高风险率的结合导致成功使FDA批准的化合物的平均成本大约为5亿美元。因此，改进监管批准的效率和时机的商业***和方法是非常有价值的。

制药公司已经认识到需要在其药物开发程序中使用基因组学来改进研究和开发效率。这样的努力对于公司配合历史收入增长水平和符合股东的期望是必要的。制药公司的效率驱动为在研究和临床开发周期中应用全基因扫描技术提供了机会。

本文商业***和方法的应用的一个实例可在群体细分(populationsegmentation)中发现。一般所公知的是大多数药物对于一些患者比其它患者更为有效。因为在患者应答中的变异性通常是理解不充分的，制药公司可能不必要地终止进一步的药物开发，未能获得有希望的候选药物的监管批准，或如果获得批准，不能有效销售批准的药物或获得第三方偿付的批准。

基因组差异已长期被认为影响患者如何应答药物。然而，制药公司普遍没有在开发和完成临床试验中或在所批准的药物的销售中考虑患者间的基因组差异。通过将临床试验中的基因组变异与药物应答关联，可能改进药物开发和销售过程。例如，制药公司可使用来自临床试验早期的相关数据以对是否继续进行临床试验、进入试验后期或在后期(例如，III或IV期)招募哪些患者做出更综合的决定。例如，招募对阳性药物应答具有遗传倾向性的患者可以改进这些患者的治疗指数且提高监管批准的可能性。

另外，理解在基因组差异和药物应答间的关联能够通过鉴别群体的部分(对于该群体特定的药物比其它药物可能更有效)使制药公司改善药物销售，并鼓励医师优先地给这些患者处方这种药物。该商业方法包括许可制药公司在研究和临床试验期间使用KMT来尽可能解释和优化结果。或者，有使制药公司形成联系或合伙的方法以从事在与开发临床试验相关的患者群的基因组特征的研究。作为在协议的一部分，所述商业将提供有力的KMT且公司将在试验和分析期间提供收集的额外的信息。可以通过继续医学教育、同行评审(peer-review)期刊、因特网、印刷广告或直接销售电话来完成对于医师的推销。另外，通过使用本文公开的信息，公司可以更好地销售药物，通过将非应答者群体与应答者群体分离，或通过将未遭受副作用的群体与遭受副作用的群体分离。这可以进一步地允许公司在市场上维持药物，否则该药物将退出，或再推出由于副作用而已经退出的药物。

典型地开发的药物与基因产物的单一类型相互作用，所述基因产物例如人类或非人类动物受试者的蛋白质或受体。因此，药物例如仅可以在个体中有效，该个体具有编码特异性蛋白质或受体(药物针对其而设计)的特定变异。在这些区域中或在药物代谢涉及的区域中不具有遗传造成的变异的个体可能不应答所述药物或可能不产生副作用，例如毒性增加。

当考虑基因组变异时，由制药业所使用来开发新药并改进当前的药物的方法可以改变。基因组变异可在研发和药物发现的全部阶段中发挥显著的作用。基因组变异信息也可通过为特定患者提供更好地选择药物的信息用于改进已经上市的药物。

为了进一步说明本文解决的困难，药物可直接和/或间接地与多种被不同基因组区域编码和调节的不同蛋白质相互作用。因此，多于一个基因组区域可确定个体对给定的药物如何应答。本文所述发明可用于鉴别所述的多个区域。因为遗传变异被更好地理解，所以很明显个体对所给药物的应答依赖于个体独特的基因组或基因组中更特异性的变异。所产生的信息也可用于开发诊断试剂盒，以鉴别与病状、疾病或用药结果相关联的基因组标记物。这些试验可用于诊断和预测最佳疗程。

基于特异性基因组相似性或相似CNV模式，在分组个体中发现了理解为什么不同个体对于相同的药物应答不同的一种实用方法。这些基因组的相似性可在来自于不同种族和/或不同地理区域的不相关个体之间出现。鉴别和将遗传变异与完整基因组、整个群体或亚群的表型状态(例如，疾病和药物应答)相关联的能力，能够促进整个药物开发过程，也可缩短疗法的上市时间。例如，患者群体的所选亚组的基因谱可用于使制药公司能够鉴别药物靶标、关注于潜在的更好的先导药物，并更快地进入筛选检测。此外，更好的药物靶标也可提供更安全、更有效的治疗性干预点。

本文所公开的方法和商业***所拥有的市场包括但不限于，遗传变异与药物应答的评估、鉴别和验证靶标区域的遗传变异的评估、变异和对疾病易感性的评估、可能含有基因调节序列的保守非编码区的鉴别、遗传变异和影响发育的调节区域的评估，以及与商业潜力(例如在消费型产品和农业中)有关的其它基因型-表型的评估。关于全基因组模式信息、保守区信息、患者制谱服务的潜在的消费者或合作者以及其它科学合作组织包括，例如许多制药公司、生物技术公司和农业企业以及学术中心和政府研究机构。

本发明所公开的商业方法的其它潜在的用户或合作者包括，例如医疗保健供应商、保险公司、政府实体(例如医疗补助、医疗保险)和雇主或关注于获得提供或支付医疗或人寿保险的更经济或有效的***的任何其它相关实体。这些当事方可利用例如关联研究来选择性地为患者(与所述患者对于普通药物的副作用敏感性相关联)批准昂贵的药物，更好地在为其提供保险前评估个体遭受疾病(或死亡)可能性且为个体选择更有效的健康和人寿保险费用。这些当事方可以针对拷贝数变异为与KMT关联的本文的联合研究提供资金和/或样本来源。

本文所述的商业***与方法进一步包含，例如，DNA扫描与晶片技术的发展和通过研究合作使用那种技术的基因组扫描能力来鉴别商业上有价值的遗传区域，以及使用并入本文所公开的KMT的相关性研究检验这些结果。

在另一实施方式中，使用本文所述的方法所获得的结果用于分析基因组变异或诊断个体(例如，患者)的疾病状态。在进一步的实施方式中，分析基因组变异、适应于个体化的药物治疗或诊断疾病的方法包括审查或分析从受试者(例如，患者)获得的与基因组变异相关的数据，并将这些数据与本发明的提供正常的拷贝数变异数据的KMT相比较。结论常常以报告的形式提供给患者、保健提供者或保健管理者，该结论基于关于以下的数据的审查或分析：疾病诊断、对病状或疾病的易感性、关于基因组发现的遗传评估和建议，或关于治疗性治疗的建议或繁殖手段的改进。预想在另一实施方式中，给人类患者、保健提供者或保健管理者提供的结论包括通过网络传输数据使得该报告以电子格式递交。预想在进一步的实施方式中，向以下提供关于非人类动物受试者或多个受试者的报告或结论包括通过网络传输数据使得该报告以电子格式递交：所述非人类动物受试者或多个受试者的拥有者、农民、牧场主、家畜饲养者、品种登记处、兽医保健提供者、研究组织或制药公司。

图4为方块图，其示出了逻辑装置的代表性实例，通过该逻辑装置可以实现审查和分析与本发明相关的数据。这样的数据可能与个体中疾病、病症或病状相关联。图4示出了计算机***800，其连接至用于与所述扫描感知***824一起使用以便例如产生结果的设备820。所述计算机***800可被理解为可以阅读来自媒体811和/或网络端口805的指令的逻辑设备，其可任选地连接至具有固定媒体812的服务器809。该***(图4)包含CPU801、磁盘驱动803、任选的输入装置(例如键盘815和/或鼠标816和任选的监测器807)。数据通信可通过指令给当地或遥远位置处的服务器809的传输媒体来实现。所述通信媒体可包括任何传输和/接收数据的手段。例如，所述通信媒体可以是网络连接、无线连接或因特网连接。这样的连接可在万维网(WorldWideWeb)内提供通信。预想涉及本发明的数据可通过这样的网络或连接来传输以用于当事人(party)822接收和/或审查。所述当事人822可以是患者、保健提供者或保健管理者。

在一个实施方式中，计算机可读媒体包括适合用于环境或生物样本的分析结果的通信的媒体。该媒体可能包含关于疾病状况和受试者状态的结果，其中这样的结果使用本文所述的方法获得。

在另一个实施方式中，计算机可执行逻辑提供用于执行来自受试者关于一个或多个染色体异常(例如，拷贝数变异)的结果之间的比较。所述计算机可执行逻辑使用来自本发明的KMT的数据，其含有关于以下的拷贝数变异频率的信息：正常群体、统计学显著性群体、统计学相关群体，或至少100、1000、5,000、10,000、20,000、30,000、40,000或50,000个个体的群体。在一个优选实施方式中，所述计算机可执行逻辑使用来自KMT的数据来确定是否在受试者或受试者群组中所观察的变异与表型效应(例如，疾病)相关，或与正常变异相关与表型效应(例如疾病)不相关。所述计算机可执行逻辑可用来在受试者或受试者群体中鉴别特定治疗剂的功效，特定治疗剂的毒性(即，根据基因组结构变异给患者谱分层)。

用于确定这样的相关性的计算机可执行逻辑被描述为：包括可执行编码，其中能够使所述可执行编码执行以上所述的方法，包括接收一个或多个受试者或受试者组群的数据的行为，每个提供一组数值或数值的数据组；计算与每个受试者或受试者组群相关的每个数据组的一组数值；选择最适合该数据的数据模式，其中最佳模型当与染色体变异相比较时将指示受试者或受试者组群中所观察的染色体变异的频率以便提供诊断。这样的诊断测定包括这样的变异与表型效应(包含疾病、病症、候选或实际治疗剂的功效或毒性)的相关性。可由计算机可执行逻辑或终端用户进行该测定，由此以电子或纸质格式将结果显示给终端用户。

此外，本文以上所述的任何信息或测定(例如，受试者或受试者群体的拷贝数变异频率或向统计学显著的或任何相关的群体提供变异频率信息的KMT)可以储存在能够允许计算机可执行逻辑的媒体上。在一些实施方式中，计算机可执行逻辑被描述为：包括具有储存在其中的计算机可执行逻辑(计算机软件程序，包括程序代码)的计算机可用媒体。所述计算机可执行逻辑，当由处理器执行时，使所述处理器执行本文所述的功能。在其它实施方式中，一些功能主要在使用例如硬件状态机的硬件中执行。执行所述硬件状态机从而执行本文所述的功能对相关领域技术人员将是显而易见的。

可提供所述KMT作为具有计算机可执行逻辑的计算机可读媒体上的计算机程序，用于接收来自一个或多个受试者的基因组的信息，用于将该信息与正常拷贝数变异频率的数据库或所述拷贝数断裂点图谱(KMT)对比以及用于提供对所述对比的评估或结果的输出。关于拷贝数(KMT)信息的数据库可以包含在所述计算机程序中或与可被所述程序访问。可访问而非包含允许所述数据库较方便的升级和更改。

还提供执行对比的计算机***，其包含输入关于拷贝数变异的受试者基因组信息的能力。理想地，该信息可以数字格式直接从所述筛选分析(CGH或PCR)向所述计算机***供应。所述计算机***也包含或具有访问所述数据库(KMT)的通道，执行所述对比和提供所述对比的输出结果。

所述商业方法允许通过许可访问的KMT的商业化。商业产品的零件可以是用于输入数据、运行最有效的对比并提供输出的计算机程序，或仅是用于访问KMT的计算机程序。通常，所述许可可以包括用于撤销许可的任何所述计算机程序鉴别的另外的重要拷贝数多态性的条款。

通过与所有重点药物和生物技术公司合作，R&D实验室对该公司的临床样本进行了全基因组拷贝数扫描。所述全基因组拷贝数扫描使用群体中正常变异的内生性引擎来解释。所得的信息是与药物的功效和/或不良反应相关的拷贝数多态性，所述药物可以精确靶向患者中那种特定群体。设计与多态性的鉴别一起的检测来测试那些拷贝数多态性存在或不存在，其可由制药公司使用来对各自临床试验中的人类或非人类动物受试者分层。或者，根据所述商业模式，由其它人进行阵列CGH分析之后，所述CLIA实验室使用正常变异引擎进行数据分析和解释。此外，CLIA将进行临床检测，该临床检测根据数据分析来处方。

本发明个体化医疗方面的一部分包括治疗剂拯救。基于现实困难所述制药业面临极高的风险。一些关于药物功效或毒性的难以置信的事实强调更好地调整药物治疗方案的重要性。第五个主要的死亡原因是不良药物反应。所处方的药物在它们的40-50％处方时间内对患者不起作用。这导致每年消费者的花费用于无效治疗，在美国每年为$600亿，在日本每年为$200亿。制药公司的临床试验渠道中大多数潜在药物候选者将因在足够患者中失去功效或因在太多的患者中具有不良反应而使其从未通过监管部门批准程序。该事实驱动了用于药物研发的成本不断升高和随之发生的在研发费用支出中损失的数十亿。当基于传统临床试验设计(其中，具有遗传差异的患者因表型相似而混在一起)药物未得到监管部门批准时，显著百分比的治疗反应者或那些未显示不良反应的人被剥夺有效医疗。因为很难进行患者监控，所以已经上市的疗法具有伤害患者的高风险。对于已经依赖药物的患者仅经历不良反应或失去功效，潜在的间接医疗成本(即，住院治疗)就是令人惊愕的财务数字。

所有这些事实强调了KMT的价值，所述KMT允许基于它们的遗传谱更好地评估患者的遗传组成和更集中的治疗。人们广泛接受个体的遗传组成是区分药物反应者与非药物反应者的原因。人们也清楚个体的遗传组成是区分某人对特定药物治疗的不良反应水平的原因。因此，利用本发明的KMT的患者筛选提供了区别重要变异与对所述表型和疾病或药物疗法没有效果的变异的有效评估。通过利用所有该信息，细胞遗传学家将从KMT产生诊断性建议。KMT的优势是它们灵活和通用的结构体系，其允许与其它用于数据分析和解释的体系兼容。

该关联(linkage)的非常重要的方面是通过使用KMT进行临床试验的药物拯救以更好地基于基因组分层患者，并鉴别用于可能较小的组群的患者的有效治疗。该拯救可能在上市前和上市后以提供有用的药物，否则该药物可能已经被放弃且不治疗患者。批准之后，例如通过FDA，当它们经历疾病进展、平稳或改善阶段时，可以评估该药物并筛选患者以基于反应继续区分患者。

另外的产品包含CGH微阵列、试剂和下游分析工具。优化微阵列用于与KMT结合使用，并设计其以针对不同的疾病状态。所述微阵列被作为独立的产品提供或与访问KMT的许可结合。由于内部拷贝数多态性发现程序，另一个产品是医药相关的生物标记物的组合(portfolio)。这些标记物是独立的医药相关的标记物，其可用于在其自己的CLIA实验室内进行诊断服务。还制造这些标记物且可以作为充分研发的检测在美国或国外被诊断参照实验室或授权服务供应者直接利用。这些检测可以基于PCR，或者提供替代性扩增和缺失方法。另一可替代是医药相关的生物标记物对外许可(out-license)给具有独特的技术平台的平台公司，所述独特的技术平台作为全套解决方案在诊断社区中建立。

贡献于CLIA实验室的服务菜单的第二主要渠道来自内部生物标记物发现程序。在内部生物标记物发现程序内作投资将由市场潜能来驱动。所关注的检测的部分清单是：自闭症、冠状动脉病、阿尔茨海默氏病、帕金森病、精神***症、中风的风险、糖尿病、双相型障碍。CLIA设施的服务将通过直销方式在国内销售。可以考虑战略性联盟替代方案(例如与国际实验室的联合营销协议)作为用于建立全国范围到达处方医生的手段。

国内发展的检测将在国际间通过由商业发展建立的关系销售给授权服务供应者。将建立作为在指定的社区内的共识用于建立医药相关性的模式。这本是一个综合的计划。然而，通常，它将包含经由与专业领域内医生协会合作的事务，所述专业领域涉及诊断应用的各自的医药实践。这些将是更高水平的商业和社团发展活动。

尽管为了清楚理解的目的已经通过说明和实施例对上述发明进行了详细描述，但是鉴于本发明的教导对本领域技术人员来说是显而易见的，在不脱离所附权利要求的精神和范围的情况下可对本发明作某些变化和修改。

实施例

实施例1：断裂点分析

尽管有数百个拷贝数的多态性和倒位的描述，但是迄今为止极少数被足够详细地分析从而允许在分子水平确定精确的边界。

其中，已经研究了给定缺失、重复、倒位、易位(其被认为是正常人群中的良性多态性)，人们已经发现在无关个体中的分子断裂点是同样的。例如，在迄今被研究的100个无关个体中确定在染色体8q24.3上的普通微缺失多态性有同样的断裂点。染色体8q24.3连接的一个片段如下：

此外，对欧洲人群的普通倒位多态性的新近研究表明了无关个体中的同一性，并且与这种变异的单一起源一致(Gilling等人2006)。

如果变异是良性的，那么其可能在家族中遗传。因此，目前为止观察到以上所述的染色体8q24.3微缺失在所有家族中以直接孟德尔方式遗传。很少或几乎没有针对该变异存在的选择。可以推论，与疾病密切相关的变异是散发的(即，非遗传的)。一个好的实例是威廉斯综合症(Williamssyndrome)，其与7q11.23处的缺失相关-这是一种严重的神经发育失调，几乎总是(>99％)看到其发生在其它正常家族(otherwisenormalfamily)内的个别儿童中。在>99％的病例中，这样的缺失是原发的(denovo)。在正常个体中，原发性基因组变化(在缺失/重复水平)率相对低。换句话说，人们认为当与其父母相比较时，正常儿童在他们的基因组中将有非常少的原发性缺失/重复。

同样地，每一个拷贝数变异将作为唯一的事件在某些建立者个体中产生(如以上所引用的欧洲倒位的病例中)。此外，由此得出结论在不同人群中给定变异的比率将显著不同。例如，以上所提及的8q24.3缺失(其在高加索人中出现5％)在中国人和非裔美国人中出现水平明显较低。

假设“良性”拷贝数变异在不同个体中将有同样的分子边界，那么可用PCR检测来鉴别终点。在拷贝数变异中的断裂点分析可以多种方式来实现。变异染色体可通过下述方法在体细胞杂种中分离：以啮齿类细胞系融合人亲代细胞以及然后在不存在野生型染色体(大多数变异是杂合的)时测试亚克隆的变异染色体的存在。一旦变异染色体被分离，在不存在野生型染色体时，就以直接方式来进行精细作图分析。在相关领域该“二倍体向单倍体的转化”被认为在杂合突变的分析中是重要的。确实，已经基于二倍体/单倍体转化(GMPGenetics,Inc.)实现了商业应用。然而，这样的应用以体细胞杂交分析为基础，该体细胞杂交分析是稳健的，但是耗时并且是劳动密集的。

使用产生传统寡核苷酸阵列的现代方法(Agilent、NimbleGen、CombiMatrix)，可以产生以极高的分辨率(下至1bp)特异性询问(interrogates)变异近似终点的阵列。尽管拷贝数调用(copynumbercalls)不可以参照个体寡核苷酸的行为来精确地进行，但是它们可通过参照平均窗口和分段分析来进行，因此，可设计PCR引物用来在边界终点扩增新型“连接片段”。(图2：引物P1-P4)。

这样的引物可利用本领域的传统方法来设计。基本上，该步骤要求制备若干对低聚体，该低聚体中的一个成员含有与位于断裂点(即，损伤)侧面的DNA中的序列特定杂交的引物，且第二个成员含有杂交至位于所述断裂点的另一侧上的基因的某一部分的引物，接着通过PCR扩增DNA(图2)。在本领域中引物设计方法是常规的，且在以下专利文件的公开内容中提供：WO2002/99129、US6,423,499、US6,146,834、US6,251,607、US2005/0037414、US6,892,141。

例如，设计在拷贝数变化的染色体3p附近的嵌合寡核苷酸阵列被用来实现这样的作图(Nittler等人，2005；描述了嵌合寡核苷酸阵列)。这种PCR扩增连接片段的简单测序揭示变异的精确分子边界。

一旦已知变异的分子边界，简单的PCR检测能够在不借助阵列实验的额外步骤/成本时，以最小成本检测从试验受试者或患者获得的基因组DNA中变异的存在。例如，引物能够在AppliedBiosystems(FosterCity,Calif.)的DNA合成器(Gelmann等人，1983,Nature306:700:Bernard等人，1983,EMBOJ2:2375；Petrini等人，1987,J.Immunology138:1940)上合成。模板DNA可利用本领域常规方法从受试者中分离。随后，使模板DNA(例如，200ng)经历本质上如Saiki等人(1988,Science239:487)所述的PCR。以Taq(水生栖热菌)聚合酶的扩增作用可以在100μl反应混合物中，所述反应混合物在50mMKCl、10mMTris-HCl(室温下pH8.3)、1.5mMMgCl₂、0.01％明胶(w/v)、1μM每种引物、200μm每种dNTP(dATP、dCTP、TTP、dGTP)中含有DNA。将所述样本加热至95℃持续2分钟，在添加2个单位的聚合酶之前冷却至室温(大约22℃-24℃)，并使其经历25-30个循环的PCR。扩增子随后可以使用本领域常规方法来测序。

例如，使用荧光去二氧核苷酸混合物通过ABI自动荧光测序仪和经由桑格型测序反应(Sanger-stylesequencingreactions)产生的荧光标记的DNA测序梯度来进行测序。使用QiagenQuickSpin柱、AgencourtAMPurePCR纯化***，或从其它卖主获得的PCR产物纯化盒纯化PCR产物。纯化PCR产物之后，使用Nanodrop7000分光光度计确定核苷浓度和纯度，测得PCR产物浓度为25ng/□l。作为质量控制手段，仅使用UV光吸收率(A₂₆₀/A₂₈₀)大于1.8的PCR产物用于测序。测序引物的浓度为3.2pmol/□l。

如本文以上所述，当与其它平台相比较时，利用连接片段PCR的一个重要方面是PCR在许多个体中检测给定拷贝数变化中的易用性、时间和成本方面更快且更有效。假设“良性”拷贝数变异在不同的个体中将有同等的分子边界，PCR断裂点全基因组分析(PCRbreakpointgenomewideanalysis)提供了更快且成本更低的检测。例如，可以考虑要求在10,000个个体中确定8q24.3缺失状态。如果基于阵列的方法，而不是全基因组分析，用于所关注的群组中的特异性变异(8q24.3缺失)的确定，那么保守的成本评估是10,000×$300(每阵列，包括标记成本等-非常保守的评估)＝$3,000,000，成本相当昂贵。

与之形成鲜明的对比的是，如果如本文以上所述使用设计以询问终点的特异检测通过PCR确定，那么成本将低多个数量级。例如，每个PCR反应的成本低于约$1(即，对于PCR为$1与对于阵列为$300)。另一个重要的考虑是断裂点分析将十分适用于第三世界情况/研究，在那些地方aCGH事实上在技术上和财政上是不切实际的。然而，对于全球基因组分析(globalgenomicanalysis)，可供选择的平台(例如阵列)是必需的。

实施例2：基于阵列的比较基因组杂交

对本领域技术人员来说显而易见的是，BAC阵列仅仅是用于拷贝数变异分析的一种方法。如相关技术及本文以上所述，替代平台对拷贝数变异(例如，不同阵列形式；Agilent、Affymetrix、NimbleGen等)的分析是可利用的。关键的方面是本发明的KMT可以利用替代平台或改进的现有平台来编译正常变异数据库。

可从10,000个正常的、健康个体(50％女性；50％男性)的血淋巴细胞中分离基因组DNA，从而提供DNA-参照或正常变异DNA。如果需要，最初获得的几个样本将用于阵列确认。另外的基因组DNA可以从以下中分离：患有经FISH检验已知的微缺失综合症的受试者、患有病因不明的异形(dysmorphisms)的受试者、或没有任何显示染色体异常的可察觉的表型的受试者。受试者可通过临床遗传学家筛选，并接受诊断性病情检查，包含没有诊断的常规性染色体分析(例如，checklistdevleopedbydeVries等人(2001))。从参照或试验受试者中获得的基因组DNA可根据厂商的说明书使用QIAampkit(Qiagen)分离并纯化。

克隆选择－一组良好表征的、菌落经纯化的且经FISH检验的BAC克隆可用于阵列构建。有若干可以利用的BAC文库(例如，RPCI)。BAC可源自RPCIBAC文库中，该RPCIBAC基因库用作用于人类基因组的测序和作图的主要中间底物(Osoegawa等人，2001)。该组克隆可包含通过与其它可利用的克隆组(例如，儿童医院奥克兰研究所，BACPAC资源中心，以及其它组)合作选择的32,000个克隆以便以1-Mb的分辨率覆盖基因组(Cheung等人，2001)。关键点是BAC阵列可以从各种来源中选择并组合。此外，选择BAC阵列的编译以便提供高分辨率的检测(100kb)。例如，嵌合路径BAC阵列克隆组可能将提供这样水平的分辨率。额外的克隆可加入所述阵列，产生基因组区域(例如，参与在特定异常、疾病或病状中的已知区域)的更高分辨率的覆盖，该覆盖包含全部人染色体(77个克隆)(Knight等人，2000)的亚端粒区域和与已知微缺失染色体(30个克隆)相关联的区域。最后，所关注的特定染色体可通过添加用在以前的研究(Veltman等人，2003b；Zafarana等人，2003)中的克隆以较高密度来覆盖。

阵列准备。根据厂商的说明书，基因组靶标DNA可以使用QiagenBioRobot9600(Qiagen)上的QiagenR.E.A.L.Prep96BioRobotkits从12-ml细菌培养物中分离。简并寡核苷酸引物(DOP)PCR或连接介导的PCR(LM-PCR)可在从全部克隆分离的DNA上进行，实质上如别处所描述的(Telenius等人1992)，有微小修改(Veltman等人2002)。DOP-PCR和LM-PCR在相关技术的方法学中是常规的。Taq2000(Stratagene)可以用作耐热聚合酶。DOP-PCR产物可以1mg/ml的浓度溶解在50％的DMSO溶液中，并且使用OmniGrid100型点样仪(GenomicSolutions)一式三份机械点样至经CMT-GAPS涂覆的载玻片(Corning,UltraGaps)上。该阵列将由亚格子组成，且在所述阵列的不同的亚格子中进行重复。

标记和杂交。可实质上如别处所描述的那样进行标记和杂交(Veltman等人2002)。简言之，基因组DNA可通过用Cy3-dUTP或Cy5-dUTP(AmershamBiosciences)的随机引物来标记。样本可与120μgCot-1DNA(Roche)混合、共沉淀，并重悬浮在含有50％甲酰胺、10％硫酸葡聚糖、2xSSC、4％SDS和10mg/ml酵母tRNA(Invitrogen)的130ml杂交溶液中。根据厂商的说明书，探针和靶标DNA变性后，可以使用GeneTAC杂交工作站(GenomicSolutions)进行杂交和杂交后洗涤程序。简言之，进行18-h具有探针活性循环的杂交，接着在45℃下在50％甲酰胺/2xSSC中进行五次杂交后洗涤循环，并在20℃下在磷酸盐缓冲盐水中进行五次洗涤循环。在水中简单洗涤之后，通过离心干燥载玻片。

图像分析和处理。载玻片可在市售的扫描仪(例如，Axon扫描仪)上扫描并成像。获得的微阵列图像可使用GenePixPro6.0－(AxonInstruments)进行分析，如别处所描述的(Veltman等人2002)。为了全部的进一步的分析，像素强度的中值减去中间区域背景可用于所述阵列(Cy3和Cy5，分别计算)上的每一个点。可以平均对数荧光强度为基础，通过采用以0.1的平滑因子拟合的洛斯曲线拟合(Lowesscurvefitting)来预测经log2变换的参照以上的测试(T/R)值，在软件包SAS版本8.0(SASInstitute)中对每一个阵列亚格子来进行数据归一化(Cleveland，1979)。这个平滑因子可在不增加假阴结果的数量的同时产生最低百分比的假阳性结果，从而产生有效实验。该平滑程序(smoothingprocedure)的结果是具有拷贝数增加或损失的克隆比率与在没有平滑的归一化程序中的相比更接近于log2比率的正常范围。

质量控制。在个体实验中可排除三次重复中>0.3的SD的克隆，并且这样的分析之后剩余比两次重复更低的克隆。本领域可利用的统计分析可用于确定点质量(例如，设计用于aCGH分析的BlueGnome、BlueFuse、或任何其它软件/硬件包)。从全部实验中排除在五次正常对正常对照实验中至少四次不显示可靠杂交结果的克隆。没有详细分析作图到性染色体(例如，n＝163)的克隆。拷贝数增加或损失的阈值可以通过检查对照实验和以前出版的作品的结果来确定，且分别设置log2T/R值为0.3和-0.3。当15％的克隆显示在这些区域外的强度比率时，排除该实验。本研究进行的40个实验中，有5个实验不满足这些质量标准。这些实验被成功地重复。最终的数据组经由本文章的在线版本作为可下载的电子附件是可以利用的。

重复试验的分析。此外，也可对每一个病例(患者或对照)进行染料交换实验。对于这两个实验的统计分析，可以使用软件包SAS版本8.0(SASInstitute)中的二维分析，其中假设这对归一化比率遵循二元正态分布(图1B和1D)，则计算参照区域含有99.999％的数据点(Pp.99999)。假设没有缺失或重复区域，预期在所得椭圆之外的数据点的数量是1/100,000#阵列上的克隆数-在我们的病例中，为l/100,000#3,343p0.03。在散点图中由该参照区域之外的数据点所示的克隆是对微重复或缺失事件的候选。然而，由于可以对每一个病例进行染料交换实验，所以数据点也必须位于散点图的正确象限(即，实验1为正号[患者1对对照1]和实验2为负号[对照1对患者1]，其显示潜在地重复的克隆，而在两个实验中缺失克隆显示相反的符号)。对于拷贝数增加(log2T/R值0.3)或缺失(log2T/R值>0.3)的先验阈值因而被整合入该散点图中来显示对于微缺失或重复事件的候选克隆。

FISH确认实验。FISH确认实验可使用常规程序从患者源细胞系中制备的中期***相(metaphasespreads)上来进行。探针标记、载玻片制备和杂交实际上可以如别处(deBruijn等人2001)所述的来进行。装备有合适的滤波器的Zeiss落射荧光显微镜可用于载玻片的目视检查。使用耦合至计算机上的高性能冷却式CCD照相机捕获数字图像。图像软件(例如，图像FISH软件包(Intergen))可用于FISH图像的分析。DAPI染色的玻片的倒像也可用于染色体鉴别。

结果。前述10,000个个体的aCGH分析中的输出数据将提供正常拷贝数变异的数据库，其能用在本发明的KMT中以在诊断疾病或设计疗法中对试验受试者或患者或其群组提供基因组评估。

实施例3：比较分析

一旦编译参照数据库，则可利用相似的运算法则从用于创建正常变异数据库的试验受试者(如从群组)产生拷贝数数据。对于以上实施例中所描述的数据库，这样的分析允许将给定个体的结果与相同族群的10,000个体中具有正常预期的变异直接比较。

例如，使用phpmyadmin作为前端，MySQL或相似应用可用于创建正常变异数据库。MySQL是具有大约六百万装置的多线、多用户的SQL数据库管理***(DBMS)。虽然根据GNU通用公共许可证(GPL)MySQLAB使MySQL可作为免费软件利用，但是对于所需的用途与GPL不兼容的情况中，根据传统所有权许可模式也是双重授权的。此外，MySQL在许多不同的平台上运行-包含AIX、BSDi、FreeBSD、HP-UX、GNU/Linux、MacOSX、NetBSD、NovellNetWare、OpenBSD、OS/2Warp、QNX、SGIIRIX、Solaris、SunOS、SCOOpenServer、SCOUnixWare,、Tru64、Windows95、Windows98、WindowsNT、Windows2000、WindowsXP以及Windows最近的版本。此外，也可利用ORACLE或其它数据库。

所述数据库可以通过MySQL内的命令行或使用web浏览器上的前端(例如，phpmyadmin)来访问。Web浏览器访问是用户友好的，允许经由“按钮”界面的简单查询或复杂的MySQL查询。

数据库将含有编译用于受试者(例如，10,000，如以上实施例2)的选择数量的编译的aCGH结果，其包含任何所应用的软件包(BlueFuse、GenePixPro等)的统计输出。数据将被编译为各种MySQL表格，且将广泛索引这些表格。此外，将创建二级表格，这将允许aCGH源比率的内部归一化。例如，在进行性别错配(男性对女性)的aCGH实验中，在这样的种类中比率将被归一化。因此，因相关常染色体区域与性染色体之一的同源性而引起的偏斜的任何常染色体的比率将在归一化之后被平均化。此外，性染色体的比率将被归一化，从而调用可在所述性染色体上进行，甚至当将实验作为性别错配实验进行时。

当然，数据的真实值将来自性别匹配实验，其将更容易地帮助鉴别(“调用”)在所述性染色体和别处上的改变。性染色体错配的使用在本领域中已经是普遍存在的，这是因为其允许确认所述实验已经运行(即，通过观察X和Y的比率)。

例如，如果已经发现试验受试者拥有5个拷贝数变异，A-E，对于每一个，数据库中搜索在相应的、种族匹配的群组内那种改变的发生频率。根据结果，提供所观察的拷贝数变异在试验受试者的疾病(参见，表1，见前)的病因中是显著的统计学可能性。

因此，对于这样的试验受试者的示例性的报告将为：

表3

这样的报告也可以根据其它临床资料来解释。如果试验受试者患有罕见的遗传病，则明显暗示变异E是应该考虑的原因。然而，在罕见遗传病的病例中，主治临床医生可以进一步收集罕见病症的病例，并直接对变异E的存在进行测试。在一般病症的病例中，例如糖尿病中，该变异也是重要的，因为所述变异除了是对病因产生显著洞悉的变异之外，还可能是糖尿病的极为罕见的原因。统计分析将在以上所述的分析中起到重要的作用，但是没有本发明的KMT和参照数据库，鉴别变异的显著性是不可能的。

总之，数据库将包括10,000个来自不同种族、使用互补但不同的平台的正常个体的群组。将用统计阈值来定义拷贝数变化。这些阈值将在不同平台之间变化。在试验受试者中拷贝数变异将与数据库(种族匹配)中那些变异的发生直接比较。此外，输出结果将是和数据库中那些变异的频率一起的所述受试者中变异的清单。在受试者中所述变异的显著性将经由如上所述的统计考量。

实施例4：8q24.3微缺失的分析。

连接片段PCR被用于检测chr.8q24.3微缺失的多态性。使用在chr.8q24.3的微缺失的边界处的精确序列知识来设计该检测。该检测用于通过独特PCR产物的产生来检测缺失的存在。因此，所述产物仅当缺失存在时出现，当缺失不存在时则不出现。这是因为所述引物被设计为在chr.8q24.3缺失的侧面。因在野生型chr.8中它们的靶标序列之间的距离，这些引物在相应的PCR条件下不扩增来自野生型基因组的产物。然而，靶标序列位于足够接近含有对引物产生可视产物的chr.8q24.3微缺失的染色体中。

为了对缺失和克隆终点精确作图，将含有chr8q24.3微缺失的8号染色体模板从其野生型同源物中分离的先证者(proband)中分离。

对来自患有chr8q24.3缺失患者的淋巴母细胞和中国仓鼠卵巢(CHO)细胞系(其对甘氨酸是营养缺陷型的)进行融合。然后将所述融合细胞在苷氨酸缺乏培养基中进行选择。GIyB(MIM138480)与营养缺陷体互补并作图到8q22.3(对chr8q24.3缺失约50Mb着丝粒)的人基因。所述GIyB基因不参与8q24.3缺失。来自融合的克隆出现之后，进行两轮亚克隆。单细胞通过稀释分离，并涂布于96孔板上。选择含有单克隆的孔用于进一步分析。用串联重复查找(TRF)分析BAC序列之后，使用设计的三核苷酸重复通过PCR分析克隆。因为序列标记位点STS不能在所述缺失区域内扩增，因此鉴别所述缺失的chr8同源物。一旦克隆已经被鉴别为仅含有具有8q24.3微缺失的8号染色体，则开始缺失的精细作图。

使用体细胞杂种的STS的分析允许分子水平微缺失的精细作图，体细胞杂种含有具有来自患有chr.8q24.3微缺失的指示患者(indexpatient)的8q24.3微缺失(但不是野生型8)的8号染色体(图6和7)。设计引物对，该引物对连接已知在10kb间隔处含有缺失(～500kb)的区域。在杂交DNA上进行PCR。随后在确定接近左和右断裂点的区域中分别进行更精细的作图。最后，设计引物对来预测产生跨越所述断裂点的产物。将由此所获得的连接片段测序并与可利用的人基因组序列相比较。分析表明缺失长度为182,088bp。利用连接片段PCR检测以正常个体的百分率检测chr.8q24.3微缺失的存在(图5)。最初，分析从400(大部分)个无关个体产生的DNA池(每一个池含有来自10个个体的DNA)。该结果表明这种“多态性”在一般群体中是非常普遍的。几乎三分之一的池对连接片段的存在产生阳性结果。随后，在400个个体的群组中分析所有的阳性池。在另外600个个体中进一步分析。

所有的chr.8q24.3缺失杂合地存在于～5％的一般群体中。在某些种族(尤其是，***犹太人，其中出现比率接近于10％)中存在增加的水平，在另外的组群(即，中国人)中存在下降的比率。

实施例5：在有自闭症的家族中CNTN4缺失的精细作图。

最初使用嵌合路径BAC阵列鉴别约700kb的3p26微缺失。

在3p26处的缺失仅影响基因CNTN4，其是跨越几乎1MB基因组的基因，并具有24个外显子。为了描绘该缺失的确切的端点，产生了传统寡核苷酸阵列(NimbleGen)，其跨越极高密度(CHR3:1900000-3100000)的3p26区域。该寡核苷酸阵列使用无掩模阵列分析技术产生。使用该阵列在指示病例中检测微缺失，并确定该缺失的端点的位置(图8b示出了使用连接片段测序的BLAT的结果－参见下文)。这些断裂点用来设计用于PCR的引物，其在家族内已知患有3p26微缺失的那些个体中而非那些未知患有3p26微缺失(当通过最初BAC阵列判断时)的个体中产生连接片段。测序该连接片段，发现末端含有A1uY序列。这表明该缺失是由于两个A1uY序列之间的不等交换(unequalcrossingover)而发生。所述连接片段是650bpPCR产物，其在患有3p26微缺失的个体中特异扩增。这种连接片段的测序产生了序列SEQIDNO:1和SEQIDNO:2。该微缺失跨越671086bp。连接片段PCR的结果可在图9中看到。

实施例6：个体中拷贝数变异的检测。

以Cy3或Cy5标记来自人试验受试者(表面正常或具有特定表型的患者)的未扩增的DNA，并以不同的荧光标记物(即，分别为Cy5或Cy3)标记对照DNA。混合所标记的DNA样本，并将其共杂交至全基因组嵌合路径BAC微阵列上，其含有19,000个不同克隆中每一个的重复指纹。该阵列的基因组覆盖率是常染色体基因组的约93％，具有覆盖用于已知参与各种遗传病(例如，已知的微缺失或微重复综合症)的已知区域的其它克隆。

杂交后，使用Axon400B扫描仪和GenePixPro6软件扫描该阵列。将图像储存为tiff文件。随后的分析基于BlueGnome公司的BlueFuse软件包。该软件基于复杂的运算(其基于形状、周围背景等鉴别斑点)自动提取两个通道中每一个的斑点强度数据(spotintensitydata)。然后，根据以下标准，在BlueFuse包内分析该斑点强度

1.将空斑点从分析中排除；

2.在除那些作图到性染色体之外的所有斑点上进行区段loess校正(基于区段，根据区段上Cy3、Cy5的强度修正斑点比率)；

3.根据BlueFuse方案将重复斑点(duplicatespots)平均化；

4.根据质量标准过滤斑点：仅包含那些具有>＝70％置信度的那些斑点。典型地，>85％的斑点符合这个标准；

5.使用来自genome.ucsc.edu网站的数据对克隆生物信息学作图；

6.拷贝数调用(Copynumbercalls)基于高质量的斑点，该高质量的斑点在Cy3:Cy5的log2比率为+/-0.3范围之外。

由此，使用同样的BlueFuse标准分析每一个aCGH实验。

每一个实验的BlueFuse数据输出文件如下：

1.ExptID_output.xls。这个文件含有原始数据；

2.ExptID_output_post.xls。这个文件含有应用质量协议之后但融合重复(duplicates)以产生平均值之前的数据；

3.ExptID_output_fused.xls。其含有质量分析和重复融合之后的最终数据。这是用来组建数据库的文件(参见下文)；

4.ExptID_output_cghsummary.xls。其含有基于BlueFuse标准的，数据中拷贝数变异可能性的评估。将其用作粗略准则，但是我们已经发展了我们自己的用于CNV调用(CNVcalling)的标准(参见下文)。

所述ExptID_output_fused文件用来组建所述数据库。这些文件仅含有对质量处理的数据。这些文件是文本制表符定界文件，其含有达19,000行(排除空斑点或杂交对照的数据，如低质量斑点)。该阵列含有共40,368个斑点，但许多是空的或含水的(emptyorwater)，并将其排除于进一步分析。在该output_fused文件中理论最大行数基于全部19,000BAC(即，平均之后，这是当所包含的斑点数被2除后所获得的数)的潜在成功。

ExptID_output_fused文件因此含有最大理论总数19,000行。此外，它们含有30栏数据，涉及克隆名、染色体、位置、比率、log2比率、质量值等。所以，每一个这样的文件含有达570,000个数据点。

产生output_fused文件之后，使用解析output_fused文件的传统手写perl代码将它们自动上载到数据库中，并将该数据输入数据库的相应表中。数据库是MySQL，并位于运行RedHatLinux的专用PC上。目前，数据库中的主表含有～14,000,000行，每一行有>30栏数据(参见下文上载数据后对添加的新栏的解释)，共～420,000,000个数据点。

将来自output_fused文件的数据上载进所述数据库中后，进行计算，其设计以进一步改进数据的质量和平稳性。这些计算产生新建栏，如下：

1.对于数据库的性别特异子集*中相应克隆的Cy3:Cy5比率的平均值；

2.在每一个实验中对每个克隆的归一化比率(通过实验特异比率除以那个克隆的性别特异*平均数)

最终结果为可搜索的数据库，其含有来自800多个独立实验的数据。该数据可以从全部数据库中给定克隆的比率，全部数据库中来自给定区域的克隆的比率，给定克隆或基因组区域的特征等来搜索。在单一MySQL查询中，可以从全部数据库或所关注的分部(subsectionofinterest)中获得具体数据，此外，编码数据库内的每个个体的疾病，例如自闭症(ASD)和先天性心脏病(CHD)。可查询该数据库来分析针对基因组的特异克隆或区域所获得的结果(图10和11)。

例如，可查询数据库来找出记录患有CHD的患者中比率大于1.5的全部克隆，其中数据库中克隆的平均数接近期望值1。具有代表性的查询将为：

SELECT*FROM`output_fused_all_gender`WHEREdisease＝″chd″and

`ratio_ch2_ch1_norm`>1.5and`avg`<1.1and`avg`>0.9

该查询产生1，547个总行，并花费6.4142秒来完成。值得注意的是，该搜索产生以下克隆：其比率通常与贯穿整个数据库所观察的平均值是相等的，但是当在涉及CHD的实验亚组的环境中检测时其显示比平均比率相更高。因此，使用这些查询可以鉴别用于CHD进一步研究的区域。

序列表

SEQIDNO：1

左

>chr3：2186557-2186902

AATAATGGGAAAGGACAAATATTACTATTTTCAGATTGTATATGGGTTC

T

TCAATAAATTTTTACAATTAAAAGCTTTTAGAACTAATGAGTTCACTAC

A

TGATGAGAGATAAGATAAATGAAACTAGTTATTAGCTAATACTTGCAA

GA

ATCAAAAAAGTAAGGGAGGCCGGGCGCGGTGGCTCACGCCTGTAATCC

CA

GCACTTTGGGAGGCCGAGGCGGGAGGATCACAAGGTCAGGAGATCGAG

AC

CATCCTGGCTAACACGGTGAAACCCCGTCTCTACTAAAAATACAAAAA

AT

TAGCCGGGCGTGGTGGCGGCGCCTGTAGTCCCAGCTACTCGGGAGG

SEQIDNO：2

右

>chr3：2857358-2857642

GGGCGACAGAGCGACACTCCGTCTCCAAAAAATAAAAAATAAAAATAA

AA

AAATAAAAGCTGGACGACTAGATTTTTAAAAAATGTTTAGTCTCCCAAT

T

TTTAAGCGAGACTACTGGAGTAAGAATACTGGACCAGAGAACAGAAGA

CC

TGGGTTCTATTAATAGTAGTCTAGCAATTTGCTGTGTGACCTCCCTGTGT

TAAGTGAAAGGCTTGCATAAGGTCACCTGAAAAGCTATTTCTGTGATAC

T

GTTAATCTTTTCTAATTGCTAAAGAGGTGATGCTT

SEQIDNO：3

>序列400G5-1

CATGTGGTGAGACATTGCTGagagataaaagaggtacactaaaaaagaagaagaagaagaagaagaagaggaagaagaagaagaagaaaaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaagaatcggaatgactgggaacTTCGTGGCACTTTTGAGTTG

SEQIDNo：4

>染色体8q24.3

TCTGCTGTGGCTGAATTTTGGTATTAGGCTTCTCTTTTGATTGGATCAAGGGATGATGAGTATCTCTGTAGAGAACAAT......TTAGGGAACCATTCTCACCCTGTATTGAAGTCCCTCATAGTCTGATTGTAGTTTTAGTCAGCCTTATTATCATCACAGTGTATGACTTCATGAAGATTTTTGAGAAATCATCAAGAGCATAGTGGCTCCACTACACATTTTTTTATTTCTCTTTCCAACAGAACTTTAATGCTATTCAGGTGTTAATTTTTCATCACCATAGCCCATGTGCT

Claims

1.包含至少100个没有被诊断出具有疾病或病状的正常个体中拷贝数变异频率的数据编译在制备一种***中的应用，所述***用于通过以下方法确定受试者中与疾病或病状相关的一个或多个拷贝数变异与所述疾病或病状的治疗剂的相关性，所述方法包括：

(a)将来自用所述疾病或病状的治疗剂治疗的受试者群组的基因组的一个或多个拷贝数变异的信息与包含至少100个没有被诊断出具有所述疾病或病状的正常个体中拷贝数变异频率的数据编译作比较，以确定与所述疾病或病状相关的一个或多个拷贝数变异，以及

(b)确定来自步骤(a)的比较的与所述疾病或病状相关的所述一个或多个拷贝数变异与所述治疗剂的成功率之间的相关性。

2.包含至少100个没有被诊断出具有疾病或病状的正常个体中拷贝数变异频率的数据编译在制备一种***中的应用，所述***用于通过以下方法确定受试者中与疾病或病状相关的一个或多个拷贝数变异与所述疾病或病状的治疗剂的功效的相关性，所述方法包括：

(b)确定来自步骤(a)的比较的与所述疾病或病状相关的所述一个或多个拷贝数变异与所述治疗剂的有益或不良反应之间的相关性。

3.包含至少100个没有被诊断出具有疾病或病状的正常个体中拷贝数变异频率的数据编译在制备一种用于通过以下方法确定受试者中拷贝数变异与所述疾病或病状的表型的相关性的计算机可读媒体中的应用，所述方法包括：

(a)将来自受试者基因组的一个或多个拷贝数变异的信息与包含至少100个没有被诊断出具有所述疾病或病状的正常个体中拷贝数变异频率的数据编译作比较，其中来自所述至少100个正常个体的所述数据编译包括关于正常拷贝数变异的频率信息，其中所述正常拷贝数变异与所述疾病或病状不相关；以及

(b)从步骤(a)的所述比较中确定所述一个或多个拷贝数变异与所述疾病或病状的表型的相关性；

其中所述受试者具有所述疾病或病状。

4.一组表示来自至少100个没有被诊断出具有疾病或病状的正常个体的一个或多个拷贝数变异的发生频率的数据在制备一种***中的应用，所述***用于通过以下方法评估受试者中与疾病或病况相关的拷贝数变异与所述疾病或病状的治疗剂之间的相关性，所述方法包括：

(a)从用所述治疗剂治疗的所述受试者的基因组获取包括一个或多个基因组拷贝数变异的信息；

(b)访问一组表示来自至少100个没有被诊断出具有所述疾病或病状的正常个体的一个或多个拷贝数变异的发生频率的数据；

(c)将来自所述受试者的所述信息与所述组的数据作比较；以及

(d)基于步骤(c)的所述比较，评估所述受试者的拷贝数变异与所述治疗剂的成功率之间的相关性；

其中所述受试者用所述治疗剂进行治疗，其中所述来自至少100个正常个体的所述数据包括关于正常拷贝数变异的频率信息，且其中所述正常拷贝数变异与所述疾病或病状不相关。

5.一组表示来自至少100个没有被诊断出具有疾病或病状的正常个体的一个或多个拷贝数变异的发生频率的数据在制备一种***中的应用，所述***用于通过以下方法评估受试者中与疾病或病况相关的拷贝数变异与所述疾病或病状的治疗剂的功效之间的相关性，所述方法包括：

(d)基于步骤(c)的所述比较，评估所述受试者的拷贝数变异与所述治疗剂的有益或不良反应之间的相关性；

6.一组表示来自至少100个没有被诊断出具有疾病或病状的正常个体的一个或多个拷贝数变异的发生频率的数据在制备一种用于通过以下方法评估受试者的拷贝数变异与疾病或病状的表型的相关性的计算机可读媒体中的应用，所述方法包括：

(a)从具有所述表型的所述受试者的基因组获取包括一个或多个基因组拷贝数变异的信息；

(b)访问一组表示来自至少100个没有被诊断出具有疾病或病状的正常个体的一个或多个拷贝数变异的发生频率的数据；

(d)基于步骤(c)的所述比较，评估所述受试者的拷贝数变异与所述疾病或病状的表型的相关性；

其中所述受试者具有所述表型，所述来自至少100个正常个体的所述数据包括关于正常拷贝数变异的频率信息，且其中所述正常拷贝数变异与所述疾病或病状不相关。

7.根据权利要求1-6中任一项所述的应用，其中所述评估步骤或所述确定步骤是根据所述比较步骤来确定拷贝数变异是否存在于所述受试者中而不存在于所述数据编译中。

8.根据权利要求1-7中任一项所述的应用，其中所述数据编译或所述数据的组包括来自至少1,000个正常个体的数据。

9.根据权利要求8所述的应用，其中所述数据编译或所述数据的组包括来自至少5,000个正常个体的数据。

10.根据权利要求9所述的应用，其中所述数据编译或所述数据的组包括来自至少10,000个正常个体的数据。

11.根据权利要求1-10中任一项所述的应用，其中所述数据是全基因组的。

12.根据权利要求1-11中任一项所述的应用，其中所述数据包括拷贝数断裂点图谱。

13.根据权利要求1-12中任一项所述的应用，其中所述方法进一步包括筛选所述受试者的基因组来采集所述一个或多个拷贝数变异的信息。

14.根据权利要求1-13中任一项所述的应用，其中所述一个或多个拷贝数变异的所述信息来自用PCR筛选所述受试者的基因组。

15.根据权利要求1-13中任一项所述的应用，其中所述一个或多个拷贝数变异的所述信息来自用测序筛选所述受试者的基因组。

16.根据权利要求1-13中任一项所述的应用，其中所述一个或多个拷贝数变异的所述信息来自用SNP基因分型筛选所述受试者的基因组。

17.根据权利要求1-13中任一项所述的应用，其中所述一个或多个拷贝数变异的所述信息来自用荧光原位杂交筛选所述受试者的基因组。

18.根据权利要求1-13中任一项所述的应用，其中所述一个或多个拷贝数变异的所述信息来自用阵列比较基因组杂交(aCGH)筛选所述受试者的基因组。

19.根据权利要求1-18中任一项所述的应用，其中所述方法进一步包括鉴别所述受试者中所述一个或多个拷贝数变异是否与病状或疾病有关。

20.根据权利要求1-19中任一项所述的应用，其中所述受试者是动物。

21.根据权利要求20所述的应用，其中所述动物是人类。

22.根据权利要求20所述的应用，其中所述动物是非人类。

23.根据权利要求1-22中任一项所述的应用，其中所述方法进一步包括编译来自对照样本的拷贝数数据，其中所述对照样本包括所述受试者的一方或双方亲代的基因组DNA。

24.根据权利要求23所述的应用，其中所述对照样本包括来自每个亲代的约相等数量的DNA。

25.根据权利要求23所述的应用，其中所述对照样本包括来自与所述受试者相比较性别不同的个体的DNA。

26.根据权利要求23所述的应用，其中所述一个或多个拷贝数变异的所述信息来自用aCGH筛选所述受试者的基因组，并且其中所述方法进一步包括将所述信息归一化以便解释所述对照样本与所述受试者之间的性别错配。

27.根据权利要求4-26中任一项所述的应用，其中所述评估步骤是由计算机执行的。

28.根据权利要求1-27中任一项所述的应用，其中所述比较步骤是由计算机执行的。

29.根据权利要求1-28中任一项所述的应用，其中所述方法进一步包括提供阐明拷贝数变异的所述相关性的报告，其中所述报告收费提供。

30.根据权利要求29所述的应用，其中所述方法进一步包括提供关于所述受试者的遗传咨询。

31.根据权利要求29所述的应用，其中所述报告被提供给所述受试者、保健提供者、制药公司或保险公司。

32.根据权利要求29所述的应用，其中所述报告提供关于治疗剂功效或不良反应的信息。

33.根据权利要求32所述的应用，其中所述受试者参与针对所述治疗剂的临床试验或正在使用批准后的所述治疗剂。

34.根据权利要求1-33中任一项所述的应用，其中所述疾病或病状是自闭症。