CN106164085A

CN106164085A - 最优玉米座位

Info

Publication number: CN106164085A
Application number: CN201480072102.2A
Authority: CN
Inventors: L·萨斯特里-登特; Z·曹; S·斯利拉姆; S·R·韦布; D·L·坎珀
Original assignee: Dow AgroSciences LLC
Current assignee: Corteva Agriscience LLC
Priority date: 2013-11-04
Filing date: 2014-11-03
Publication date: 2016-11-23
Also published as: US20220162624A1; IL245351A0; NZ719494A; JP6649261B2; JP2016534759A; IL245351B; AR098299A1; EP3066110A4; RU2016122067A3; UY35815A; WO2015066636A3; TW201947037A; RU2016122067A; AU2018201717B2; BR102014027442A2; AU2014341927A1; KR102269371B1; ZA201602979B; TWI721478B; WO2015066636A2

Abstract

如本申请公开的，鉴定了来自玉米植物的最优天然基因组座位，它们代表了外源序列靶向***的最佳位点。

Description

最优玉米座位

相关申请的交叉援引

本申请要求享受2013年11月4日递交的美国临时专利申请第61/899,598号在35U.S.C.§119(e)下的权益，将上述申请的内容全部通过并入本申请。

对电子提交的序列表的援引

序列表的正式拷贝作为ASCII格式的序列表通过EFS-Web电子递交，文件名为“7560232316_SeqList_ST25.txt”，于2014年10月31日提交，大小为13兆字节，与说明书同时提交。该ASCII格式文档中包含的序列表是说明书的一部分，在此通过提述将其全文并入本申请。

对电子提交的表格列表的援引

表格列表的正式拷贝以.PDF格式的表格列表的形式通过EFS-Web电子提交，文件名为“Table3”，于2013年11月4日生成，大小为8兆字节，与说明书同时提交。该.PDF格式文档中包含的序列表是说明书的一部分，在此通过提述将其全文并入本申请。

背景

人们在1990年代早期即已成功地用转基因转化了玉米基因组。在过去的二十年内，人们已经开发了多种用于转化玉米基因组的方法学，例如其中转基因被稳定地整合到玉米基因组中。玉米转化方法学的这种演变的结果是人们有能力成功地将包含农艺性状的转基因导入单子叶植物，例如玉米的基因组内。在1990年代晚期实现的单子叶植物内昆虫抗性和除草剂耐受性状的导入为生产者提供了一项新颖而方便的技术革新用于控制昆虫和广谱的杂草，这当时在种植农业方法中是无可匹敌的。目前，转基因玉米在全世界都有市售，且新的转基因玉米产品，例如Enlist^TM玉米，为日益严峻的杂草挑战提供了改进的解决方案。若非有转基因方法学的研发和改进，转基因玉米在现代农艺学实践中的利用是不可能的。

然而，现有的转基因玉米转化方法学依赖转基因在玉米基因组中的随机***。依赖基因在基因组中的随机***有若干不利之处。转基因事件可能随机地整合在基因转录序列中，进而破坏内源性状的表达并改变玉米植物的生长和发育。此外，转基因事件可能无差别地整合到玉米基因组中容易受到基因沉默的位置内，以第一代或后续世代的转基因玉米植物中转基因表达的减少或完全抑制告终。最后，转基因在玉米基因组内的随机整合需要可观的工作量和成本来鉴定转基因事件的位置并选择如设计的那样表现、不对植物产生农艺学影响的转基因事件。需要持续开发新的测定法来为每种转基因事件，例如玉米事件，确定整合的转基因的确切位置。植物转化方法学的随机性导致整合的转基因的“位置效应”，阻碍了玉米转化方法学的有效性和效率。

植物的靶向基因组修饰已经成为应用研究和基础研究的一个长期未能达到且难以达到的目标。将基因和基因堆叠靶向到玉米基因组中的特定位置将会改善转基因事件的质量，降低产生转基因事件的相关成本，并提供制造转基因植物产品的新方法，例如顺序性基因堆叠。总的来说，将转基因靶向特定基因组位点很可能是商业上有利的。过去几年中，用于通过位点特异性核酸酶(例如锌指核酸酶(ZFN)、大范围核酸酶、转录激活物样效应物核酸酶(TALENS)、以及成簇规则间隔短回文重复/CRISPR-相关核酸酶(CRISPR/Cas)结合工程化crRNA/tracr RNA)靶向和切割基因组DNA，以诱导靶向突变、诱导细胞DNA的靶向删除、以及易化外源供体DNA多核苷酸在预定的基因组座位内的靶向重组的方法和组合物的开发已经取得了显著的进展。参见例如，美国专利公开号20030232410；20050208489；20050026157；20050064474；和20060188987，和国际专利公开号WO 2007/014275，将它们的公开通过提述并入本申请用于所有目的。美国专利公开号20080182332描述了非经典锌指核酸酶(ZFN)用于植物基因组的靶向修饰的用途，美国专利公开号20090205083描述了植物EPSP基因组座位的ZFN介导的靶向修饰。现有的外源DNA靶向***的方法涉及用含有至少一种转基因的供体DNA多核苷酸与位点特异性核酸酶(例如ZFN)共转化植物组织，其中位点特异性核酸酶设计为结合并切割活跃转录的编码序列的特定基因组座位。这导致供体DNA多核苷酸稳定地***被切割的基因组座位内，结果实现在包含活跃转录的编码序列的规定基因组座位处的靶向基因添加。

一种替代的途径是将转基因靶向到玉米基因组预先选择的靶标非基因座位。近年来，已经开发出数种将转基因靶向投递到玉米基因组中的技术，并在植物细胞中加以应用。然而，关于适合靶向的基因组位点的属性则知之甚少。过去历来用基因组中的非关键基因及病原体(病毒)整合位点作为靶向的座位。此类位点在基因组中的数目相当有限，因此有需要鉴定和表征能够用于靶向供体多核苷酸序列的最优可靶向基因组座位。除了易于靶向之外，预期最优基因组座位是中性位点，能够支持转基因表达和育种应用。需要组合物和方法来界定玉米基因组内供靶向转基因整合用的最优非基因座位的鉴定标准。

概要

依照一个实施方案，提供一种重组序列，其包含最优非基因玉米基因组序列和外源序列，其中外源序列***在最优非基因玉米基因组序列中。在一个实施方案中，本主题公开涉及一种重组序列，其包含：至少1Kb的核酸序列，其与选自下组的非基因序列具有至少90％、95％或99％序列同一性：loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ IDNO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ IDNO：2053)，loci_136086_G1(SEQ ID NO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ ID NO：424)，loci_232228_G1(SEQ ID NO：4529)，且所述非基因序列中***有感兴趣的DNA。在一个实施方案中，最优非基因玉米基因组序列中感兴趣的DNA的***通过改变***位点邻近处的非基因座位而修饰该非基因座位的原始序列。这样的修饰包括，例如，缺失、倒位、***、和非基因座位序列的重复。在一个进一步的方面，一个实施方案涉及一种感兴趣的DNA，其中该感兴趣的DNA***在所述非基因序列中。在另一个方面，一个实施方案包括所述重组序列，其中感兴趣的DNA***在表8的锌指靶位点的邻近处。在另一个方面，一个实施方案包括所述重组序列，其中感兴趣的DNA***在表8的锌指靶位点处。在另一个实施方案中，所述重组序列包含***的感兴趣的DNA，该感兴趣的DNA进一步包含分析域。在另一个实施方案中，所述重组序列包含***的感兴趣的DNA，该感兴趣的DNA不编码肽。在进一步的一个实施方案中，所述重组序列包含感兴趣的DNA，该感兴趣的DNA编码肽。在又一个实施方案中，所述重组序列包含感兴趣的DNA，该感兴趣的DNA进一步包含基因表达盒。在一个实施方案中，所述基因表达盒含有基因，包括杀虫剂抗性基因、除草剂耐性基因、氮利用效率基因、水分利用效率基因、营养品质基因、DNA结合基因、和选择标志物基因。在进一步的一个实施方案中，所述重组序列包含两个或更多个基因表达盒。在另一个实施方案中，所述重组序列包含两个或更多个所述非基因序列，每个非基因序列均包含***的感兴趣的DNA，从而产生两个或更多个重组序列，其中该两个或更多个重组序列位于相同的染色体上。在额外一个实施方案中，所述重组序列包含感兴趣的DNA和/或非基因序列，其在所述感兴趣的DNA***该非基因序列的过程中被修饰。在另一个实施方案中，本主题公开涉及包含重组序列的玉米植物、玉米植物部分、或玉米植物细胞，所述重组序列包含这样的核酸序列，核酸序列为至少1Kb，且与选自下组的非基因序列具有至少90％、95％或99％序列同一性：loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ IDNO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQ ID NO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ ID NO：424)，loci_232228_G1(SEQ ID NO：4529)，且所述非基因序列中***有感兴趣的DNA。

在进一步的一个实施方案中，本公开涉及一种制造包含感兴趣的DNA的转基因植物细胞的方法。在该公开的另一个方面，该方法包括选择与选自下组的靶非基因玉米基因组座位具有至少90％、95％或99％序列同一性的靶非基因玉米基因组座位：loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQ ID NO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ ID NO：424)，和loci_232228_G1(SEQ ID NO：4529)；选择特异性结合并切割所述靶非基因玉米基因组座位的位点特异性核酸酶；将所述位点特异性核酸酶导入玉米植物细胞中；将感兴趣的DNA导入所述植物细胞中；将该感兴趣的DNA***所述靶非基因玉米基因组座位中；并且，选择包含靶向到所述非基因座位中的感兴趣的DNA的转基因植物细胞。在一个进一步的方面，一个实施方案涉及一种制造转基因植物细胞的方法。在另一个实施方案中，感兴趣的DNA包含分析域。在一个实施方案中，感兴趣的DNA不编码肽。在又一个实施方案中，感兴趣的DNA编码肽。在进一步的一个实施方案中，感兴趣的DNA包含基因表达盒，所述基因表达盒包含转基因。在另一个实施方案中，感兴趣的DNA包含两个或更多个基因表达盒。在一个接下来的实施方案之后，位点特异性核酸酶选自锌指核酸酶、CRISPR核酸酶、TALEN、归巢内切核酸酶、或大范围核酸酶。在一个实施方案中，感兴趣的DNA通过同源性指导的修复整合法整合在所述非基因座位内。在另一个实施方案中，感兴趣的DNA通过非同源末端连接整合法***在所述非基因座位内。在进一步的一个实施方案中，制造转基因植物细胞的方法提供两个或更多个所述感兴趣的DNA，它们***在两个或更多个所述的靶非基因玉米基因组座位内。在另一个实施方案中，制造转基因植物细胞的方法包括两个或更多个所述的靶非基因玉米基因组座位，它们位于相同的染色体上。在额外一个实施方案中，制造转基因植物细胞的方法包括感兴趣的DNA和/或非基因序列，它们在所述感兴趣的DNA***该非基因序列的过程中被修饰。

依照一个实施方案，本文中公开一种纯化的玉米多核苷酸座位，其中该纯化的序列包含至少1Kb的非基因序列。在一个实施方案中，该非基因序列是低甲基化的，例示(ememplify)重组的证据，并且在玉米基因组中位于表达的基因区的邻近位置。在一个实施方案中，非基因区具有约1Kb至约8.4Kb的长度。在一个实施方案中，感兴趣的DNA包含外源DNA序列，包括例如调控序列、限制性切割序列、RNA编码区或蛋白质编码区。在一个实施方案中，感兴趣的DNA包含基因表达盒，所述基因表达盒包含一个或多个转基因。在另一个实施方案中，纯化的序列包含这样的非基因序列，该非基因序列与选自下组的非基因序列具有至少90％、95％或99％序列同一性：loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQ ID NO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ IDNO：3428)，loci_204726_G1(SEQ ID NO：424)，and loci_232228_G1(SEQ ID NO：4529).在进一步的一个实施方案中，所述纯化的非基因玉米基因组座位包含感兴趣的DNA，其中该感兴趣的DNA***在所述非基因序列中。在另一个方面，一个实施方案包括所述纯化的非基因玉米基因组座位，其中所述感兴趣的DNA***在表8所示的锌指靶位点邻近处。在一个不同的方面，一个实施方案包含所述纯化的非基因玉米基因组座位，其中所述感兴趣的DNA***在成对的选自表8的锌指靶位点之间。在又一个方面，一个实施方案包含所述纯化的非基因玉米基因组座位以及***在所述非基因玉米基因组座位中的感兴趣的DNA，其中所述感兴趣的DNA包含分析域。在另一个方面，一个实施方案包括纯化的重组非基因玉米基因组座位，其中所述感兴趣的DNA不编码肽。在一个接下来的方面，一个实施方案包括纯化的重组非基因玉米基因组座位，其中所述感兴趣的DNA编码肽。在一个实施方案中，纯化的重组非基因玉米基因组座位包含基因表达盒，其中该基因表达盒包含基因，该基因包括，例如，杀虫剂抗性基因、除草剂耐性基因、氮利用效率基因、水分利用效率基因、营养品质基因、DNA结合基因、和选择标志物基因。在一个实施方案中，使用位点特异性核酸酶将感兴趣的DNA***在所述非基因玉米基因组座位中，其中该位点特异性核酸酶选自锌指核酸酶、CRISPR核酸酶、TALEN、归巢内切核酸酶、或大范围核酸酶。在一个实施方案中，感兴趣的DNA通过同源性指导的修复整合法整合在所述非基因序列内。在另一个实施方案中，感兴趣的DNA通过非同源末端连接整合法***在所述非基因序列内。在进一步的一个实施方案中，感兴趣的DNA包含两个或更多个基因表达盒。在进一步的一个实施方案中，两个或更多个感兴趣的DNA***在两个或更多个所述靶非基因玉米基因组座位中。在一个实施方案中，提供两个或更多个所述靶非基因玉米基因组座位，其中每一个均包含***的感兴趣的DNA，从而产生两个或更多个重组序列，其中所述靶非基因玉米基因组座位位于相同的染色体上。在额外一个实施方案中，纯化的非基因玉米基因组包含感兴趣的DNA和/或非基因序列，其在所述感兴趣的DNA***该非基因序列的过程中被修饰。在另一个实施方案中，感兴趣的DNA通过同源性指导的修复或非同源末端连接修复机制而***。

在另一个实施方案中，本主题公开提供包含重组序列的植物，所述重组序列包括：感兴趣的DNA，以及与非基因序列具有至少90％、95％或99％序列同一性的核酸序列，其中感兴趣的DNA***在所述非基因序列中。在另一个实施方案中，所述非基因序列选自下组：loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQ ID NO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ IDNO：424)，和loci_232228_G1(SEQ ID NO：4529)。在额外一个实施方案中，该植物包含两个或多个所述的重组序列。在一个进一步的实施方案中，该植物包含位于相同染色体上的两个重组序列。在另一个实施方案中，该植物包含***在表8的锌指靶位点的邻近处的感兴趣的DNA。在一个实施方案中，该植物包含***在成对的选自表8的锌指靶位点之间的感兴趣的DNA。在一个实施方案中，所述感兴趣的DNA包含分析域。在进一步的一个实施方案中，所述感兴趣的DNA不编码肽。在又一个实施方案中，所述感兴趣的DNA编码肽。在接下来的一个实施方案中，所述感兴趣的DNA包含基因表达盒，该基因表达盒编码基因产物，包括例如，杀虫剂抗性基因、除草剂耐性基因、氮利用效率基因、水分利用效率基因、营养品质基因、DNA结合基因、和选择标志物基因。在另一个实施方案中，所述植物包含包含感兴趣的DNA和/或非基因序列，其在所述感兴趣的DNA***该非基因序列的过程中被修饰。

在一个实施方案中，本主题公开涉及一种重组序列，其包括：至少1Kb的核酸序列，其与选自下组的非基因序列具有至少90％、95％或99％序列同一性：loci_137693_G1(SEQID NO：387)，loci_203075_G1(SEQ ID NO：2030)，和loci_204637_G1(SEQ ID NO：2731)，且感兴趣的DNA***在所述非基因序列中。

在一个实施方案中，本主题公开涉及一种重组序列，其包含：至少1Kb的核酸序列，其与选自下组的非基因序列具有至少90％、95％或99％序列同一性：loci_265551_G1(SEQID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，和loci_232484_G1(SEQ ID NO：2053)，且感兴趣的DNA***在所述非基因序列中。

在一个实施方案中，主题公开涉及一种重组序列，其包含：至少1Kb的核酸序列，其与选自下组的非基因序列具有至少90％、95％或99％序列同一性：loci_127268_G1(SEQ IDNO：2709)，loci_232222_G1(SEQ ID NO：3357)，和loci_204726_G1(SEQ ID NO：424)，且感兴趣的DNA***在所述非基因序列中。

在一个实施方案中，主题公开涉及一种重组序列，其包含：至少1Kb的核酸序列，其与选自下组的非基因序列具有至少90％、95％或99％序列同一性：loci_136086_G1(SEQ IDNO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_291068_G1(SEQ ID NO：3230)，loci_43577_G1(SEQ ID NO：3428)，和loci_232228_G1(SEQ ID NO：4529)，且感兴趣的DNA***在所述非基因序列中。

在一个实施方案中，主题公开涉及一种重组序列，其包含：至少1Kb的核酸序列，其与选自下组的非基因序列具有至少90％、95％或99％序列同一性：loci_137693_G1(SEQ IDNO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ IDNO：2030)，loci_232484_G1(SEQ ID NO：2053)，和loci_204637_G1(SEQ ID NO：2731)，且感兴趣的DNA***在所述非基因序列中。

在一个实施方案中，主题公开涉及一种重组序列，其包含：至少1Kb的核酸序列，其与选自下组的非基因序列具有至少90％、95％或99％序列同一性：loci_137693_G1(SEQ IDNO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ IDNO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_232222_G1(SEQ ID NO：3357)，和loci_204726_G1(SEQID NO：424)，且感兴趣的DNA***在所述非基因序列中。

在一个实施方案中，主题公开涉及一种重组序列，其包含：至少1Kb的核酸序列，其与选自下组的非基因序列具有至少90％、95％或99％序列同一性：loci_136086_G1(SEQ IDNO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQ ID NO：2709)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ IDNO：3428)，loci_204726_G1(SEQ ID NO：424)，和loci_232228_G1(SEQ ID NO：4529)，且感兴趣的DNA***在所述非基因序列中。

附图简要说明

图1：从玉米栽培种B73之1号染色体获得的根和芽组织的DNA甲基化概貌的摆动作图(wiggle plot)的截屏样本。

图2：所得的玉米栽培种B73基因组中低甲基化基因组位置的多核苷酸序列长度的分布

图3.呈现一幅5,286个最优玉米座位的三维图。利用主成分分析(PCA)统计学手段将该组5,286个鉴定出的最优基因组座位基于它们的特征值聚类为32个独特的类簇(见实施例1)。在PCA过程中，生成了5个主成分(PC)，最高的三个PC包含了该数据集中总变异的约90％。在如图3中所示的一幅三维作图中，使用这三个最高的PCA来图形表示该32个类簇。

图4.提供了81个最优基因组座位的染色体分布的示意图，以及它们在玉米染色体上的相对位置。

图5.提供了显示72个最优基因组座位在为靶向验证而选择的玉米B104栽培种及Hi-II栽培种的基因组数据库内的覆盖度的图。

图6.提供了为靶向验证而选择的72个最优基因组座位的玉米染色***置的示意图。

图7.提供了pDAB111845(SEQ ID NO：5418)的质粒图。带数字的元件(即，5，7，8，9，10，11，12，15，16，25和26)对应长度约20-35个碱基对的锌指核酸酶结合序列，它们被相应的锌指核酸酶蛋白识别和切割。这些锌指结合序列以及经注释的“UZI序列”(其是100-150bp的模板区，含有限制位点和用于引物设计的DNA序列或编码序列)构成通用供体盒。

图8.用于通过非同源末端连接(NHEJ)整合的通用供体多核苷酸序列的展示。提供了两种建议的载体，其中感兴趣的DNA(DNAX)包含位于该感兴趣的DNA的任意末端的一个或多个(即“1-N”)锌指结合位点(ZFN BS)。垂直箭头显示独特的限制性位点，水平箭头代表潜在的PCR引物位点。

图9.用于通过同源定向修复(HDR)的整合的通用供体多核苷酸序列的展示。感兴趣的DNA序列(DNA X)包含两个侧翼于感兴趣的DNA序列的同源序列(HA)区域，而锌指核酸酶结合位点(ZFN)包夹所述DNAX和HA序列。垂直的箭头显示独特的限制性位点，水平的箭头表示潜在的PCR引物位点。

图10A-10C。例示了用于靶向和验证在玉米最优基因组座位的靶向和验证内的通用供体多核苷酸***整合的构建体。图10A)ZFN设计空间，其中ZFN对的位置如前文图5的pDAB111845中所示。各ZFN对以数字标记，对应于被ZFN蛋白特异性识别以结合和切割的特异性ZFN结合序列。图10B)ZFN表达构建体的构造。该ZFN表达构建体含有一组成型植物启动子(Zm Ubil)，用于驱动ZFN蛋白的表达。该ZFN蛋白含有核定位序列(ZLS)、锌指蛋白(ZFP-L和ZFP-R，其中L表示左手结合ZFN蛋白，R表示右手结合ZFN蛋白)，Fok-1内切核酸酶(Fok1)，以及自水解2A(2A)。图10C)用于玉米最优基因组座位的NHEJ介导靶向的通用供体多核苷酸。Z1-Z6代表对玉米最优基因组座位靶标特异性的ZFN结合位点。ZFN位点的数目可在3-6之间变化。竖直的箭头显示独特的限制位点，水平的箭头代表潜在的PCR引物位点。该通用供体多核苷酸***是一个短(110bp)序列，是用于在玉米最优基因组座位内整合的各供体所共有的。

图11.pDAB8393的质粒图。

图12.玉米的选定基因组座位靶标处的ZFN切割活性。切割活性表示为每1百万个高品质读段中在ZFN切割位点处具有***缺失(***和缺失)的序列的数目。

图13.利用基于NHEJ的快速靶向分析(RTA)法对玉米选定基因组座位靶标的验证。

图14和14B.藉由随机整合转化到玉米中的质粒构建体，它们包含用于侧翼序列分析和转基因表达研究的事件。图14代表pDAB105817，一个1871bp片段的***；图14B代表了pEPS105817的6128pb片段的***。

图15.pDAB111846(SEQ ID NO：5419)的质粒图。带数字的元件(即，1，2，5，6，11，12，15，16，21，22，29和30)对应于长度约20-35个碱基对、被相应的锌指核酸酶蛋白切割的锌指核酸酶结合序列。这些锌指结合序列和标注的“UZI序列”(100-150bp的模板区，含有限制位点和用于引物设计的DNA序列或编码序列)构成通用供体盒。

图16.pDAB117415(SEQ ID NO：5420)的质粒图。带数字的元件(即，ZFN51和ZFN52)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图17.pDAB117416(SEQ ID NO：5421)的质粒图。带数字的元件(即，ZFN54和ZFN53)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图18.pDAB117417(SEQ ID NO：5422)的质粒图。带数字的元件(即，ZFN55)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图19.pDAB117419(SEQ ID NO：5423)的质粒图。带数字的元件(即，ZFN59和ZFN60)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图20 pDAB117434(SEQ ID NO：5424)的质粒图。带数字的元件(即，ZFN66，ZFN67，ZFN68和ZFN69)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图21 pDAB117418(SEQ ID NO：5425)的质粒图。带数字的元件(即，ZFN56，ZFN57，和ZFN58)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图22.pDAB117420(SEQ ID NO：5426)的质粒图。带数字的元件(即，ZFN61和ZFN62)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图23.pDAB117421(SEQ ID NO：5427)的质粒图。带数字的元件(即，PPL17对3，PPL17对1，和PPL17对2)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图24A-24C.鉴定出的最优非基因玉米座位的特征(长度、在座位40Kb以内的编码区的表达，以及重组频率)的直方图。图24A图示了最优基因组座位(OGL)的多核苷酸序列长度的分布。图24B图示了表达的核酸序列相对于它们与各最优基因组座位(OGL)之接近度(log标度)的分布。图24C图示了各最优非基因玉米座位相对于它们的重组频率的分布。

图25A和25B.鉴定出的最优非基因玉米座位的特征(相距活跃转录的内源基因的距离，以及相距着丝粒的距离)的直方图。图25A图示了各最优非基因组座位序列相对于它们与活跃转录的内源基因之距离的分布。图25B图示了各最优基因组座位序列相对于它们距染色体着丝粒之距离的分布。

详细说明

定义

在描述本发明并为本发明请求保护的过程中，下列术语将根据其在下文中给出的定义使用。

如本文使用的，术语“约”意指比言明的值或值的范围大或小10％，但并不意在将任何值或值的范围仅指向到该更宽泛的定义。术语“约”之后的任何值或值的范围也意在涵盖所言明的绝对值或值的范围的实施方案。

植物：如本文所使用的，术语“植物”包括整个植物及植物的任何后代、细胞、组织、或部分。术语“植物部分”包括植物的任何部分，包括，例如但不限于：种子(包括成熟种子和未成熟种子)；植物插条；植物细胞；植物细胞培养物；植物器官(如花粉、胚、花、果实、芽(shoot)、叶、根、茎、和外植体)。植物组织或植物器官可以是种子、愈伤组织、或者任何其他被组织成一定结构或功能单元的植物细胞群。植物细胞或组织培养物可能能够再生出具有该细胞或组织所来源的植物的生理学和形态学特征的植物，并且可能能够再生出与该植物具有基本上相同的基因型的植物。与之相反，一些植物细胞不能够再生产生植物。植物细胞或组织培养物中的可再生细胞可以是胚、原生质体、分生组织细胞、愈伤组织、花粉、叶、花药、根、根尖、须、花、果仁、穗、穗轴、壳、或茎。

植物部分包括可收获的部分和可用于繁殖后代植物的部分。可用于繁殖的植物部分包括，例如但不限于：种子；果实；插条；苗；块茎；和根砧木。植物的可收获部分可以是植物的任何有用部分，包括，例如但不限于：花；花粉；苗；块茎；叶；茎；果实；种子；和根。

植物细胞是植物的结构和生理的单位，植物细胞，如本文中使用的，包括原生质体和带有细胞壁的原生质体。植物细胞可以是分离的单细胞或细胞聚集体的形式(例如，松散型(friable)愈伤组织和培养细胞)，并且可以是更高级有组织单元的一部分(例如，植物组织、植物器官、和植物)。因此，植物细胞可以是原生质体、配子产生细胞、或可以再生成完整植物的细胞或细胞集合。因此，种子，因其包括多个植物细胞并能够再生为完整植物，在本文的实施方案中被认为是一种“植物部分”。

术语“原生质体”，如本文中使用的，是指细胞壁完全或部分被去除，其脂质双层膜裸露的细胞。典型地，原生质体是没有细胞壁的分离的植物细胞，其具有再生成为细胞培养物或全植物的能力。

如本文所使用的，术语“天然的”或“自然的”定义自然界中发现的状态。“天然DNA序列”是存在于自然界中的DNA序列，其通过自然手段或传统育种技术产生，而不是通过遗传工程(例如利用分子生物学/转化技术)生成。

如本文中使用的，“内源序列”定义多核苷酸、基因或多肽的在生物体中其自然位置或者生物体的基因组中的天然形式。

术语“分离的”，如本文中使用的，意指已经从其自然环境中移出。

如本文所使用的，术语“纯化的”是指分子或化合物以基本上没有在本身或自然环境下通常与该分子或化合物相关联的污染物的形式分离，并且意味着由于与原始组合物的其他组分分离而导致纯度增加。术语“纯化的核酸”在本文中用于描述这样的核酸序列：其与包括但不仅限于多肽、脂质和碳水化合物的其他化合物分离。

术语“多肽”、“肽”和“蛋白质”可互换使用，指氨基酸残基的聚合物。该术语还适用于这样的氨基酸聚合物，其中一个或多个氨基酸是相应的天然存在的氨基酸的化学类似物或修饰衍生物。

如本文中使用的，“最优玉米基因组座位”、“最优非基因玉米座位”、“最优非基因座位”或“最优基因组座位(OGL)”可互换使用，指在玉米的核基因组中发现的天然DNA序列，其具有下列性质：非基因(nongenic)、低甲基化(hypomethylated)、可靶向(targetable)、且位于与基因区域(genic region)邻近的位置，其中最优玉米基因组座位周围的基因组区域例示重组的证据。

如本文中使用的，术语“非基因玉米序列”或“非基因玉米基因组序列”可互换使用，指在玉米植物的核基因组中发现的天然DNA序列，长度至少为1Kb，且没有任何开放阅读框、基因序列、或基因调控序列。此外，非基因单子叶植物序列不包括任何内含子序列(即内含子被排除在“非基因”的定义之外)。非基因序列无法转录或翻译为蛋白质。许多植物基因组含有非基因区。基因组的多达95％可以是非基因的，且这些区域可能主要由重复DNA构成。

如本文中使用的，“基因区”定义为包含编码RNA和/或多肽的开放阅读框的多核苷酸序列。基因区可能还涵盖涉及开放阅读框的表达调控的任何可识别的相邻5’和3’非编码核苷酸序列，直到编码区上游约2Kb及编码区下游1Kb，但可能更上游或更下游。基因区还包括基因区中可能存在的任何内含子。此外，基因区可包含单一基因序列，或多个基因序列，中间散在有非基因序列的短节段(少于1Kb)。

如本文中使用的，“感兴趣的核酸序列”、“感兴趣的DNA”、或“供体”定义为已被选择用来位点定向地、靶向地***玉米基因组的核酸/DNA序列。感兴趣的核酸可以是任何长度，例如长度为2到50,000(或之间或其上的任何整数值)个核苷酸，优选长度为约1,000到5,000(或之间的任何整数值)个核苷酸。感兴趣的核酸可包含一个或多个基因表达盒，所述基因表达盒进一步包含活跃转录和/或翻译的基因序列。反过来，感兴趣的核酸可包括这样的多核苷酸序列，其不包含功能性基因表达盒或完整基因(例如可仅包含调控序列，如启动子)，或者可能不包含任何可识别的基因表达元件或任何活跃转录的基因序列。感兴趣的核酸任选地还可含有分析域。一旦感兴趣的核酸***或玉米基因组，则将***的序列称为“***的感兴趣的DNA”。此外，感兴趣的核酸可以是DNA或RNA，可以是线性的或环状的，且可以是单链或双链的。它可以作为裸核酸、作为与一种或多种投递剂(例如脂质体、泊洛沙姆、用蛋白质包囊的T链，等等)的复合物，或包含在细菌或病毒投递载体，例如根癌土壤杆菌或腺病毒或腺伴随病毒(AAV)中投递到细胞中。

如本文中使用的，术语“分析域”限定含有这样的功能元件的核酸序列，所述功能元件帮助核酸序列的靶向***。例如，分析域可含有特别设计的限制酶位点、锌指结合位点、工程化着陆台(landing pads)或工程化转基因整合平台，且可以包含也可以不包含基因调节元件或开放阅读框。参见，例如美国专利公开20110191899，通过提述将其整体并入本申请。

如本文中使用的，术语“选定的玉米序列”限定这样的玉米天然基因组DNA序列，该序列已被选定用于分析，以确定该序列是否适格为最优非基因玉米基因组座位。

如本文中使用的，术语“低甲基化”或“低甲基化的”，当指某个DNA序列时，定义给定的DNA序列中甲基化DNA核苷酸碱基的减少状态。通常，减少的甲基化涉及甲基化的腺嘌呤或胞嘧啶残基的数目，相对于玉米基因组中存在的非基因序列中所见的平均甲基化水平。

如本文中使用的，“可靶向的序列”是这样的多核苷酸序列，它在核基因组中足够独特，以容许感兴趣的核酸位点特异性地、靶向地***一条具体的序列中。

如本文中使用的，术语“非重复的”(non-repeating)序列定义为长度至少1Kb、与玉米基因组内的任何其他序列有少于40％同一性的序列。序列同一性的计算可以使用本领域技术人员已知的任何标准技术来确定，包括例如，利用基于BLAST^TM的同源性搜索，针对玉米B73栽培种基因组扫描玉米基因组序列，搜索使用NCBI BLAST^TM+软件(2.2.23版本)，用默认的参数设定运行该软件(Stephen F.Altschul et al(1997)，″Gapped BLAST and PSI-BLAST：a new generation of protein database search programs″，Nucleic AcidsRes.25：3389-3402)。例如，当对选定的玉米序列(例如玉米栽培种B73基因组)进行分析时，从该搜索鉴定出的第一个BLAST^TM命中代表了玉米栽培种B73序列本身。为每个选定的玉米序列鉴定第二个BLAST^TM命中，并用该命中的比对覆盖度(以选定的玉米序列被BLAST^TM命中所覆盖的百分比表示)作为该选定的玉米序列在来自玉米基因组内的独特性的量度。第二BLAST^TM命中的这些比对覆盖度值从最小0％至最大39.98％序列同一性不等。任何以更高的序列同一性水平比对的序列均不予考虑。

术语“位于与非基因区域邻近(处)的位置”当就某一非基因序列而言时，定义了该非基因序列与某个基因区的相对位置。具体而言，分析了40Kb邻近区域(即在距选定的最优玉米基因组座位序列的任意末端的40Kb之内)以内的基因区的数目。该分析通过评析基因注释信息和自玉米基因组数据库(Maize Genomic Database)提取的已知基因在玉米基因组中的位置来完成。对于5,286个最优非基因玉米基因组座位中的每一个，定义一个围绕最优基因组座位序列的40Kb窗口，并计数具有与该窗口重叠的位置的已注释基因。基因区域的数目在40Kb的邻近区域内从最少1个基因到最大18个基因不等。

术语“已知的玉米编码序列”，如本文中使用的，涉及任何从玉米基因组数据库(访问来源www.maizegdb.org以及Monaco，M.，et al.，Maize Metabolic NetworkConstruction and Transcriptome Analysis.doi：10.3835/plantgenome2012.09.0025；2013年1月23日在线发布)中鉴定出的多核苷酸序列，其在内含子序列加工之前或之后包含开放阅读框，且其当被置于合适的遗传调控元件的控制之下时被转录为mRNA，并任选地被翻译成蛋白质序列。已知的玉米编码序列可以是cDNA序列或者是基因组序列。在一些情况下，已知的玉米编码序列可以作为功能性蛋白被注释。在其他情况下，已知的玉米编码序列可能不被注释。

术语“预测的玉米编码序列”，如本文中使用的，涉及在玉米基因组数据库(MaizeGenomic Database)中描述的任何表达序列标签(EST)多核苷酸序列。EST是从利用寡聚(dT)引物引导反转录酶进行第一链合成而构建的cDNA文库中鉴定出来的。所得到的EST是少于500bp的单通过(single-pass)测序读段，自cDNA***物的5’或3’末端获得。多个EST可以比对形成单一重叠群。鉴定出的EST序列被上传到玉米基因组数据库，并且可以通过生物信息学方法加以检索以预测相应的包含编码序列的基因组多核苷酸序列，所述编码序列当被置于合适的遗传调控元件的控制之下时被转录为mRNA，并任选地被翻译成蛋白质序列。

术语“重组的证据”如本文中使用的，涉及任意成对的玉米的基因组标志物，在整个包含选定的玉米序列的染色体区域上的减数***重组频率。重组频率基于标志物之间的遗传距离(以厘摩(cM)计)与标志物之间的物理距离(以兆碱基(Mb)计)之比来计算。选定的玉米序列要具有重组的证据，其必须包含位于该选定的玉米序列侧翼的两个标志物之间的至少一个重组，如使用从多重定位群体产生的高分辨率标志物数据集所测得的。(参见，例如Jafar Mammadov，Wei Chen，Anastasia Chueva，Karthik Muthuraman，Ruihua Ren，David Meyer，and Siva Kumpatla.2011.Distribution of Recombinant Frequenciesacross the Maize Genome.52nd Annual Maize Genetics Conference)。

如本文中使用的，术语“相对位置值”是一种计算值，其限定某个基因组座位与其相应的染色体着丝粒的距离。对于每个选定的玉米序列，测量从该选定的玉米序列的天然位置到该序列所在的染色体的着丝粒的基因组距离(以Bp计)。选定的玉米序列在染色体上的相对位置表示为该序列与着丝粒的基因组距离相对于该序列所在的具体染色体臂(以Bp计)的长度之比。最优非基因玉米基因组座位数据集的这些相对位置值的范围为从最小0.00373到最大0.99908的基因组距离比值。

“外源DNA序列”，如本文中使用的，是任何这样的核酸序列，其已从其天然位置被移出并***到新的位置，从而改变被移动的该核酸序列侧翼的序列。例如，外源DNA序列可包含来自其他物种的序列。

“结合”指大分子之间(例如蛋白质核酸之间)的序列特异性相互作用。并非结合相互作用的所有组成部分都需要是序列特异性的(例如与DNA骨架中的磷酸残基接触)，只要相互作用作为一个整体是序列特异性的即可。这样的相互作用通常用解离常数(Kd)来表征。“亲和力”是指结合的强度：增加的结合亲和力与较低的结合常数(Kd)相关联。

“结合蛋白”是一种能够结合另一分子的蛋白质。结合蛋白可以结合，例如，DNA分子(DNA结合蛋白)、RNA分子(RNA结合蛋白)、和/或蛋白质分子(蛋白质结合蛋白)。在蛋白质结合蛋白的情形下，它可结合自身(以形成同二聚体、同三聚体，等等)，和/或它能结合不同蛋白质(一种或多种)的一个或多个分子。结合蛋白可具有多于一种结合活性。例如，锌指蛋白具有DNA结合、RNA结合和蛋白质结合活性。

如本文中使用的，术语“锌指”限定DNA结合蛋白结合域内的氨基酸序列区域，其结构通过锌离子的配位而被稳定化。

“锌指DNA结合蛋白”(或结合域)是一种蛋白质，或某种更大的蛋白质中的域，其藉由一个或多个锌指以序列特异性的方式结合DNA，其中锌指是该结合域内的氨基酸序列区域，其结构通过锌离子的配位而被稳定化。术语“锌指DNA结合蛋白”常缩略为锌指蛋白或ZFP。锌指结合域可以被“工程化”而结合预定的核苷酸序列。工程化锌指蛋白的方法的非限定例子是设计和选择。设计的锌指蛋白是自然界中不存在的蛋白质，其设计/组成主要是通过合理标准得来的。设计的合理标准包括取代原则的应用和用于加工数据库中信息的计算机化算法，所述数据库存储现有ZFP设计和结合数据的信息。参见，例如，美国专利号6,140,081；6,453,242；6,534,261和6,794,136；另见WO 98/53058；WO 98/53059；WO 98/53060；WO02/016536和WO 03/016496。

“TALE DNA结合域”或“TALE”是包含一个或多个TALE重复域/单元的多肽。所述重复域参与TALE与其关联靶DNA序列的结合。单个“重复单元”(又称“重复”)典型地为33-35个氨基酸长，并与天然TALE蛋白内的其他TALE重复序列显示至少一些序列同源性。参见例如美国专利公开号20110301073，将其通过提述整体并入本申请。

CRISPR(成簇规律间隔短回文重复序列)/Cas(CRISPR相关)核酸酶***。简而言之，“CRISPR DNA结合域”是一种短链RNA分子，其与CAS酶协同作用，可选择性地识别、结合和切割基因组DNA。CRISPR/Cas***可以被工程化以在基因组的期望靶标处产生双链断裂(DSB)，且DSB的修复可被使用修复抑制物所影响，导致易错修复(error prone repair)的增加。参见例如Jinek et al(2012)Science 337，p.816-821，Jinek et al，(2013)，eLife2：e00471，and David Segal，(2013)eLife 2：e00563)。

锌指、CRISPR和TALE结合域可以被“工程化”从而结合预定的核苷酸序列，例如通过工程化天然存在的锌指的识别螺旋区(改变其一个或多个氨基酸)。类似地，可以将TALE“工程化”以结合预定的核苷酸序列，例如通过工程化DNA结合中涉及的氨基酸(重复可变二残基或RVD区)。因此，工程化的DNA结合蛋白(锌指或TALE)是非天然存在的蛋白质。用于工程化DNA结合蛋白的方法的非限制性实例是设计和选择。设计的DNA结合蛋白是在自然界不出现的蛋白质，其设计/组成主要是通过合理标准得来的。设计的合理标准包括取代原则的应用和用于加工数据库中信息的计算机化算法，所述数据库存储现有ZFP和/或TALE设计和结合数据的信息。参见例如，美国专利6,140,081；6,453,242；和6,534,261；另见WO 98/53058；WO 98/53059；WO 98/53060；WO 02/016536和WO 03/016496及美国公开号20110301073、20110239315和20119145940。

“选定的”锌指蛋白、CRISPR或TALE是自然界中不存在的蛋白质，其产生主要是经验性过程，例如噬菌体展示、相互作用陷阱(interaction trap)或杂交选择的结果。参见例如美国专利号5,789,538；US 5,925,523；US 6,007,988；US 6,013,453；US 6,200,759；WO95/19431；WO 96/06166；WO 98/53057；WO 98/54311；WO 00/27878；WO 01/60970WO 01/88197和WO 02/099084，以及美国公开号20110301073、20110239315和20119145940。

“重组”指两个多核苷酸之间遗传信息交换的过程，包括但不限于通过非同源末端连接(NHEJ)的供体捕捉和同源重组。为了本公开文本的目的，“同源重组(HR)”指例如细胞中经同源性指导修复机制的双链断裂修复期间发生的此类交换的特化形式。这种过程要求核苷酸序列同源性，使用“供体”分子作为“靶”分子(即经历双链断裂的核苷酸序列)修复的模板，而且有“非交叉基因转换”或“短束基因转换”等不同称谓，因为它引起遗传信息自供体转移至靶。不希望受任何特定理论束缚，此类转移可涉及断裂的靶和供体之间形成的异源双链体DNA的错配校正，和/或“合成依赖性链退火”，其中使用供体来再合成会变成靶一部分的遗传信息，和/或相关过程。此类特化的HR常常导致靶分子的序列改变，使得供体多核苷酸的部分或整个序列并入靶多核苷酸。对于HR指导的整合，供体分子含有至少2个长度为至少50-100个碱基对的与基因组具有同源性的区域(“同源臂”)。参见例如美国专利公开号20110281361。

在本公开文本的方法中，本文中描述的一种或多种靶向核酸酶在靶序列(例如细胞染色质)中在预定位点处创建双链断裂，而且可以将“供体”多核苷酸引入细胞，所述“供体”多核苷酸与断裂区域中的核苷酸序列具有同源性以便于HR介导的整合，或者与断裂区域中的核苷酸序列没有同源性以便于NHEJ介导的整合。双链断裂的存在已经显示出推动供体序列整合。供体序列可以物理整合，或者，供体多核苷酸作为模板用于经同源重组修复断裂，导致供体中的整个或部分核苷酸序列引入细胞染色质。如此，细胞染色质中的第一序列可以改变，而且，在某些实施方案中，可以转变成供体多核苷酸中存在的序列。如此，术语“替换”的使用可理解为表示一种核苷酸序列用另一种核苷酸序列替换，(即信息意义上的序列替换)，而且并非必然要求一种多核苷酸用另一种多核苷酸物理或化学替换。在本文所述的任何方法中，可以使用额外的锌指蛋白、CRISPRS或TALEN，以便对细胞内额外的靶位点进行额外的双链切割。

本文中描述的任何方法均可用于***任何大小的供体和/或通过靶向整合供体序列破坏感兴趣的基因的表达来导致细胞中一种或多种靶序列的部分或完全失活。还提供了具有部分或完全失活的基因的细胞系。

此外，如本文中描述的靶向整合方法还可以用于整合一种或多种外源序列。外源核酸序列可包含，例如，一个或多个基因或cDNA分子，或任何类型的编码或非编码序列，以及一种或多种控制元件(例如启动子)。此外，外源核酸序列(转基因)可产生一个或多个RNA分子(例如小发夹RNA(shRNA)、抑制性RNA(RNAi)、微小RNA(miRNA)，等等)或蛋白质。

“切割”如本文中使用的，定义DNA分子的磷酸-糖骨架的断裂。切割可以通过多种方式引发，包括但不限于磷酸二酯键的酶促或化学水解。单链切割和双链切割都是可能的，且双链切割可以作为两个迥异的单链切割事件的结果而发生。在特定的实施方案中，靶向双链DNA切割使用融合肽。“切割域”包含一个或多个具备DNA切割催化活性的多肽序列。且各域可包含在单一多肽链中，或者切割活性可以由两条(或更多条)多肽的缔合所导致。

“切割半域”是这样的多肽序列，其与第二多肽(相同或者不同的)一道形成具有切割活性(优选双链切割活性)的复合物。术语“第一和第二切割半域”、“+和-切割半域”，以及“右和左切割半域”可互换使用来指代成对的二聚体化的切割半域。

“工程化的切割半域”是这样的切割半域，其已经被修饰以与另一切割半域(例如另一工程化切割半域)形成专性异二聚体(obligate heterodimer)。参见例如美国专利公开2005/0064474，20070218528，2008/0131962和2011/020105，通过提述将它们整体并入本申请。

“靶位点”或“靶序列”指核酸中的部分，如果存在结合的充分条件，则结合分子将会结合该部分。

核酸包括DNA和RNA，可以是单链或双链的，可以是线性的、分支的或环状的，且可以是任何长度。核酸包括能够形成双链体者，也包括形成三链体的核酸。参见例如美国专利5,176,996和5,422,251。蛋白质包括，但不限于DNA结合蛋白、转录因子、染色体重塑因子、甲基化DNA结合蛋白、聚合酶、甲基化酶、去甲基化酶、乙酰化酶、去乙酰化酶、激酶、磷酸酶、整合酶、重组酶、连接酶、拓扑异构酶、促旋酶和螺旋酶。

“外源核酸的产物”包括多核苷酸产物和多肽产物二者，例如，转录产物(多核苷酸如RNA)和翻译产物(多肽)。

“融合”分子指其中有两个或更多个亚单位分子连接，例如共价连接的分子。亚单位分子可以是相同化学类型的分子，或者可以是不同化学类型的分子。第一类融合分子的例子包括但不限于融合蛋白(例如ZFP DNA结合域和切割域之间的融合物)和融合核酸(例如编码上文描述的融合蛋白的核酸)。第二类融合分子的例子包括但不限于三链体形成核酸和多肽之间的融合物，和小沟结合物和核酸之间的融合物。细胞中融合蛋白的表达可以是将融合蛋白投递到细胞中的结果，或者可以通过将编码融合蛋白的多核苷酸投递到细胞而实现，其中多核苷酸被转录，转录物被翻译以生成融合蛋白。细胞中蛋白质的表达还可以涉及反式剪接、多肽切割和多肽连接。在本公开内容中别处呈现了用于对细胞的多核苷酸和多肽投递的方法。

为本公开内容的目的，“基因”包括编码基因产物的DNA区(见下文)，及调节基因产物生成的所有DNA区，无论此类调控序列在编码和/或转录序列附近与否。因而，基因包括但不必限于启动子序列、终止子、翻译调控序列，诸如核糖体结合位点和内部核糖体进入位点、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和座位控制区。

“基因表达”指将基因中含有的信息转化成基因产物。基因产物可以是基因的直接转录产物(例如mRNA、tRNA、rRNA、反义RNA、干扰RNA、核酶、结构RNA或任何其它类型的RNA)或通过mRNA翻译生成的蛋白质。基因产物还包括通过诸如加帽、多聚腺苷酸化、甲基化和编辑等过程修饰的RNA，和经过修饰，例如甲基化、乙酰化、磷酸化、泛素化、ADP-核糖基化、豆蔻酰化、和糖基化修饰的蛋白质。

序列同一性：术语“序列同一性”或“同一性”，如在两个核酸或多肽序列的语境中使用的，指当两个序列被比对以在规定的比较窗口上实现最大对应时，两个序列中相同的残基数。

如本文中使用的，术语“序列同一性的百分比”是指通过在比较窗口上比较两个最优比对的序列(例如核酸序列和氨基酸序列)而确定的值，其中为了两个序列的最优比对，比较窗口中的序列部分与参照序列(其不包含添加或删除)相比可以包括添加或删除(即缺口)。百分比通过如下计算：确定在两个序列中均出现相同核苷酸或氨基酸残基的位置的数目，以产生匹配位置数，用匹配位置数除以比较窗口中的总位置数，将结果乘以100以产生序列同一性的百分比。

用于对齐序列以供比较的方法在本领域中是公知的。多种程序和比对算法记载于，例如：Smith and Waterman(1981)Adv.Appl.Math.2：482；Needleman and Wunsch(1970)J.Mol.Biol.48：443；Pearson and Lipman(1988)Proc.Natl.Acad.Sci.U.S.A.85：2444；Higgins and Sharp(1988)Gene 73：237-44；Higgins and Sharp(1989)CABIOS 5：151 3；Corpet et al.(1988)Nucleic Acids Res.16：10881-90；Huang et al.(1992)Comp.Appl.Biosci.8：155-65；Pearson et al.(1994)Methods Mol.Biol.24：307-31；Tatiana et al.(1999)FEMS Microbiol.Lett.174：247-50中。序列比对方法和同源性计算的详细讨论可以参见，例如，Altschul et al.(1990)J.Mol.Biol.215：403-10。美国国家生物技术信息中心(National Center for Biotechnology Information)(NCBI)基础本地比对搜索工具(Basic Local Alignment Search Tool)(BLAST^TM；Altschul等(1990))可从几个来源获得，包括美国国家生物技术信息中心(Bethesda，MD)和在互联网上，与几个序列分析程序联合使用。关于如何使用该程序来测定序列同一性的描述可在因特网上BLAST^TM的“帮助”部分获得。对于核酸序列的比较，可使用缺省参数来采用BLAST^TM(Blastn)程序的“Blast 2 sequences”函数。在通过此方法评估时，与参照序列具有越大的相似性的核酸序列将显示越高的序列同一性。

能够特异性杂交/能够特异性互补：如本文所使用的，术语“能够特异性杂交”和“能够特异性互补”是表明互补性的程度充分，使得在核酸分子和靶核酸分子之间产生稳定而特异的结合的术语。两个核酸分子之间的杂交涉及在两个核酸分子的核酸序列之间形成反平行对齐。两个分子随后能够与相对链的相应碱基形成氢键，从而形成一个二聚体分子，如果它足够稳定，则可以使用本领域众所周知的方法进行检测。核酸分子不需要与靶分子100％互补才能特异性杂交。然而，发生特异性杂交必须存在的序列互补性的量因杂交条件而变化。

导致特定程度的严格性的杂交条件会取决于所选杂交方法的性质和杂交核酸序列的组成及长度而变化。一般而言，杂交的温度和杂交缓冲液的离子强度(特别是Na⁺和/或Mg⁺⁺浓度)将确定杂交的严格性，尽管清洗次数也会影响严格性。获得特定程度的严格性所要求的杂交条件的计算方法是本领域普通技术人员已知的，例如，参见Sambrook et al.(ed.)Molecular Cloning：A Laboratory Manual，2^nd ed.，vol.1-3，Cold Spring HarborLaboratory Press，Cold Spring Harbor，NY，1989，chapters 9 and 11；和Hames andHiggins(eds.)Nucleic Acid Hybridization，IRL Press，Oxford，1985。关于核酸杂交的更加详细的说明和指导可以参见，例如，Tijssen，“Overview of principles ofhybridization and the strategy of nucleic acid probe assays，”in LaboratoryTechniques in Biochemistry and Molecular Biology-Hybridization with NucleicAcid Probes，Part I，Chapter 2，Elsevier，NY，1993；和Ausubel etal.，Eds.，CurrentProtocols in Molecular Biology，Chapter 2，Greene Publishing and Wiley-Interscience，NY，1995。

如本文所使用的，“严格条件”包括在其中只有当杂交分子与靶核酸分子内的序列之间的错配小于20％时才发生杂交的条件。“严格条件”包括进一步特定水平的严格性。因此，如本文所使用的，“中等严格”条件是指在其中序列错配超过20％的分子将不会杂交的条件；“高严格”条件是指在其中序列错配超过10％的分子将不会杂交的条件；“极高严格”条件是指在其中序列错配超过5％的分子将不会杂交的条件。下面是代表性的、非限制的杂交条件：

高严格条件(检测具有至少90％序列同一性的序列)：在65℃的5x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)中杂交16小时；在室温下用2x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)清洗2次，每次15分钟；和在65℃的0.5x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)中清洗2次，每次20分钟。

中等严格条件(检测具有至少80％序列同一性的序列)：在65-70℃的5x-6x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)中杂交16-20小时；在室温下用2x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)清洗2次，每次5-20分钟；和在55-70℃的1x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)中清洗2次，每次30分钟。

非严格对照条件(检测具有至少50％序列同一性的序列)：在55℃的6x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)中杂交16-20小时；在室温至55℃下用2x-3x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)清洗至少2次，每次20-30分钟。

如本文关于连续核酸序列所使用的，术语“基本上同源的”或“基本上同源”是指这样的连续核苷酸序列，其在严格条件下与参考核酸序列杂交。例如，与参考核酸序列基本上同源的核酸序列是如下的核酸序列，其在严格条件下(例如，上文示明的中等严格条件)与参考核酸序列杂交。基本上同源的序列可具有至少80％序列同一性。例如，基本上同源的序列可具有大约80％-100％的序列同一性，例如大约81％；大约82％；大约83％；大约84％；大约85％；大约86％；大约87％；大约88％；大约89％；大约90％；大约91％；大约92％；大约93％；大约94％；大约95％；大约96％；大约97％；大约98％；大约98.5％；大约99％；大约99.5％；和大约100％。基本上同源的性质与特异性杂交密切相关。例如，当具有充分程度的互补性，从而在期望特异性结合的条件下(例如严格杂交条件下)避免核酸与非靶序列的非特异性结合时，核酸分子是能够特异性杂交的。

在一些情况下“同源的”可用来指第一种基因和第二种基因自共同的祖先DNA序列下溯而来的关系。在这样的情况中，术语“同源物”(homolog)表示由物种形成事件(见直向同源物)分隔的基因之间的关系，或者由基因复制事件分隔的基因之间的关系(见旁系同源物)。在其他情况中，“同源的”可用来指一个或多个多核苷酸序列之间的序列同一性水平，在这样的情况下，所述一个或多个多核苷酸序列不一定从共同的祖先DNA序列下溯而来。本领域技术人员知晓术语“同源的”的可互换性，并能理解该术语的适宜应用。

如本文中使用的，术语“直向同源物”(或“直向同源的)指两个或更多个物种中由共同的祖先核苷酸序列演化而来的、且可以在该两个或更多个物种中保持相同功能的基因。

如本文中使用的，术语“旁系同源物”指通过在基因组内的复制而具有亲缘关系的基因。直向同源物在进化过程中保持相同的功能，而旁系同源物演化出新的功能，即使这些新功能与原来的基因功能无关。

如本文所使用的，对于两个核酸分子而言，当沿着5’-3’方向阅读的序列的每一个核苷酸均与沿着3’-5’方向阅读的另一个序列的每一个核苷酸互补时，则称这两个核酸分子显示“完全互补性”。与参考核苷酸序列互补的核苷酸序列将显示与参考核苷酸序列的反向互补序列相同的序列。这些术语和描述在本领域中有确切的定义，且本领域的普通技术人员容易理解。

在确定氨基酸序列之间的百分比序列同一性时，本领域技术人员周知，在不影响包含该对齐序列的多肽的期望性质的情况下，某个对齐所提供的给定位置上的氨基酸的同一性可以不同。在这些情况下，可以调整百分比序列同一性以解释被保守取代的氨基酸之间的相似性。这些调整是本领域技术人员众所周知并且普遍使用的。见，例如Myers andMiller(1988)，ComputerApplications in Biosciences 4：11-7。统计学方法是本领域已知的，且可用于对鉴定的5,286个最优基因组座位的分析中。

作为一个实施方案，鉴定出的最优基因组座位，它们包含5,286个单独的最优基因组座位序列，可以通过F-分布检验来分析。在概率理论和统计学中，F-分布是一种连续概率分布。F-分布检验是具有F-分布的统计学显著性检验，当比较已经适配于数据集的多个统计学模型时使用来鉴定最佳适配的模型。F-分布是一种连续概率分布，又称Snedecor氏F-分布或Fisher-Snedecor分布。F-分布经常作为检验统计量的零分布出现，最显著的是在方差分析中。F-分布是一种右偏(right-skewed)分布。F-分布是不对称分布，最小值为0，但没有最大值。曲线在0右侧不远处达到峰值，然后随着F值变大逐渐接近水平轴。F-分布趋近但绝不完全接触水平轴。应当理解的是，在其他实施方案中，本领域技术人员能够得出并使用该等式的变化形式，或者乃至不同的等式，且它们可以应用于5,286个单独的最优基因组座位序列的分析。

可操作连接：当第一核苷酸序列与第二核苷酸序列存在功能关系时，则该第一核苷酸序列与第二核苷酸序列“可操作连接”。例如，如果启动子影响编码序列的转录或表达，则启动子与该编码序列可操作地连接。如果可操作地连接的核苷酸序列是重组产生的，则这些核苷酸序列通常是连续的，并且在需要连接两个蛋白编码区时，这些核苷酸序列将共阅读框。然而，可操作地连接的核苷酸序列不一定连续的。

术语“可操作地连接的”，在用来指基因调控序列和编码序列时，其意思是调控序列影响所连接的编码序列的表达。“调控序列”、“调控元件”或“控制元件”是指影响转录的时机和水平/量，RNA加工或稳定性，或相关编码序列的翻译的核苷酸序列。调控序列可以包括启动子；翻译前导序列；内含子；增强子；茎环结构；阻遏物结合序列；终止序列；多聚腺苷酸化识别序列；等。特定的调控序列可位于与之可操作地连接的编码序列的上游和/或下游。此外，与编码序列可操作地连接的特定调控序列可位于双链核酸分子的相关互补链上。

当用来指两条或更多条氨基酸序列时，术语“可操作连接”意指第一氨基酸序列与至少一条其他氨基酸序列处于功能性关系中。

公开的方法和组合物包括融合蛋白，其包含与DNA结合域(例如ZFP)可操作连接的切割域，其中所述DNA结合域通过结合玉米最优基因组座位中的序列将该切割域的活性引导到所述序列的附近，由此在最优基因组座位中诱导双链断裂。如本公开文本中他处陈述的，锌指域可以被工程化从而结合几乎任何期望的序列。相应地，一个或多个DNA结合域可以被工程化从而结合最优基因组座位中的一个或多个序列。包含DNA结合域和切割域的融合蛋白在细胞中的表达导致靶位点处或附近的切割。

实施方案

将转基因和转基因堆叠靶向到玉米基因组中的特定位置，将改善转基因事件的质量、减少与转基因事件的产生相关的成本，并提供制造转基因植物产品的新方法，例如顺序基因堆叠。总的来说，将转基因靶向到特定的基因组位点可能是产业上有益的。最近几年，新的位点特异性核酸酶，如ZFN、CRISPR和TALEN的开发已经取得了显著的进展，这些位点特异性核酸酶能够易化供体多核苷酸对植物和其他基因组中预先选定的位点的添加。然而，关于适合靶向的基因组位点的属性则知之甚少。过去历来用基因组中的非关键基因及病原体(病毒)整合位点作为靶向的座位。此类位点在基因组中的数目相当有限，因此有需要鉴定和表征能够用于靶向供体多核苷酸序列的最优可靶向基因组座位。除了易于靶向之外，预期最优基因组座位是中性位点，能够支持转基因表达和育种应用。

申请人已经意识到更多的关于***位点的标准是理想的，并且已经将这些标准合并起来以鉴定并选择玉米基因组中最优的位点，用于***外源序列。为了靶向的目的，选定的***的位点需要是独特的，并且需要在玉米基因组的非重复区中。类似地，供***用的最优基因组位点应当具备最少的不良表型效应，并容易发生重组事件，以便于利用传统育种技术渗入农艺学上优良的品系。为了鉴定符合列出标准的基因组座位，利用定制的生物信息学途径和基因组规模数据集来扫描玉米基因组，鉴定出了具备对于多核苷酸供体序列之整合及***的编码序列之后续表达有利的特征的新基因组座位。

I.非基因玉米基因组座位的鉴定

依照一个实施方案，提供一种鉴定用于***外源序列的最优非基因玉米基因组序列的方法。该方法包括下述步骤：首先鉴定长度至少1Kb的、低甲基化的玉米基因组序列。在一个实施方案中，低甲基化的基因组序列的长度为1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、10、11、12、13、14、15、16或17Kb。在一个实施方案中，低甲基化的基因组序列长度为约1至约4Kb，且在一个进一步的实施方案中，长度为约2Kb。如果某个序列内的DNA甲基化少于1％，则认为该序列是低甲基化的。在一个实施方案中，测量甲基化状态的基础是：选定的玉米序列内一个或多个CpG二核苷酸、CHG或CHH三核苷酸处的5-甲基胞嘧啶的存在，相对于在正常对照DNA样品内的相应CpG二核苷酸、CHG或CHH三核苷酸处发现的总胞嘧啶量。CHH甲基化表示5-甲基胞嘧啶后随两个可能不是鸟嘌呤的核苷酸，而CHG甲基化指5-甲基胞嘧啶后随腺嘌呤、胸腺嘧啶或胞嘧啶，然后是鸟嘌呤。更具体地，在一个实施方案中，选定的玉米序列在该选定的玉米序列中每500个核苷酸具有少于1个、2个或3个甲基化核苷酸。在一个实施方案中，选定的玉米序列在该选定的玉米序列中每500个核苷酸具有少于1个、2个或3个CpG二核苷酸处的5-甲基胞嘧啶。在一个实施方案中，选定的玉米序列长度为1-4Kb，且包含1Kb没有5-甲基胞嘧啶的序列。在一个诶中，选定的玉米序列长度为1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、或8.5Kb，且在其全长上含有1个或0个甲基化核苷酸。在一个实施方案中，选定的玉米序列长度为1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、或8.5Kb，且在其全长上在CpG二核苷酸处不含有5-甲基胞嘧啶。根据一个实施方案，选定的玉米序列的甲基化可基于来源组织而变化。在这样的实施方案中，用于确定序列是否为低甲基化的甲基化水平代表了从两种或更多种组织(例如从根和芽)分离的序列中的平均甲基化量。

除了最优基因组位点须为低甲基化这一要求之外，选定的玉米序列还必须是非基因的。相应地，对所有低甲基化的基因组序列进一步筛选以淘汰含有基因区的低甲基化序列。这包括任何开放阅读框，无论转录物是否编码蛋白质。将包含基因区-包括任何可识别的牵涉开放阅读框的表达调控的邻近5’和3’非编码核苷酸序列以及基因区中可能存在的任何内含子-的低甲基化基因组序列，排除在本公开的最优非基因玉米基因组座位之外。

最优非基因玉米基因组座位还必须是已表现了重组的证据的序列。在一个实施方案中，选定的玉米序列必须是其中在该选定的玉米序列侧翼的两个标志物之间已检测到至少一个重组事件，如利用从多重定位群体生成的高分辨标志物数据集所检测的。在一个实施方案中，使用位于包含选定的玉米序列的0.5、1、1.5Mb玉米基因组序列的成对标志物来计算该选定的玉米序列的重组频率。每对标志物之间的重组频率(以厘摩(cM)量度)比该对标志物之间的基因组物理距离(以Mb计)必须大于0cM/Mb。在一个实施方案中，包含选定的玉米序列的1Mb玉米基因组序列的重组频率在约0.00041cM/Mb至约4.0的范围。在一个实施方案中，包含选定的玉米序列的1Mb玉米基因组序列的重组频率在约0.5至约5.0的范围。在一个实施方案中，最优基因组座位是在选定的玉米序列中已经检测到重组事件者。

最优非基因玉米基因组座位还会是可靶向的序列，即在玉米基因组中相对独特的序列，使得靶定选定的玉米序列的基因将会仅***玉米基因组的一个位置。在一个实施方案中，最优基因组序列的全长与玉米基因组中包含的长度相似的其他序列享有的序列同一性小于30％、35％或40％。相应地，在一个实施方案中，选定的玉米序列不能包含与玉米基因组中包含的其他1Kb序列享有多于25％，30％，35％或40％序列同一性的1Kb序列。在一个进一步的实施方案中，选定的玉米序列不能包含与玉米基因组中包含的其他500bp序列享有多于30％，35％或40％序列同一性的500bp序列。在一个实施方案中，选定的玉米序列不能包含与玉米基因组中包含的其他1Kb序列享有多于40％序列同一性的1Kb序列。

最优非基因玉米基因组座位还将邻近于基因区。更具体地说，选定的玉米序列必须位于基因区的附近(例如，如在天然基因组中所见的，基因区必须在侧翼于且邻接于选定的玉米序列之任一末端的40Kb基因组序列之内)。在一个实施方案中，如在天然玉米基因组中所见的，基因区在邻接于选定玉米序列之任一末端的10、20、30或40Kb的基因组序列之内。在一个实施方案中，两个或更多个基因区位于选定玉米序列的两个末端侧翼的10、20、30或40Kb的邻接基因组序列之内。在一个实施方案中，1-9个基因区位于选定的玉米序列的两个末端侧翼的10、20、30或40Kb的邻接基因组序列之内。在一个实施方案中，两个或更多个基因区位于包含选定的玉米序列的20、30或40Kb基因组序列之内。在一个实施方案中，1-9个基因区位于包含选定的玉米序列的40Kb基因组序列之内。在一个实施方案中，位于选定的玉米序列侧翼的10、20、30或40Kb的邻接基因组序列之内的基因区包含玉米基因组中的已知基因。

依照一个实施方案，提供修饰的非基因玉米基因组座位，其中该座位的长度为至少1Kb，是非基因的，不包含甲基化胞嘧啶残基，在涵盖玉米基因组座位的1Mb基因组区域上具有大于0.00041cM/Mb的重组频率，且该玉米基因组座位的1Kb序列与该玉米基因组中包含的任何其他1Kb序列享有少于40％序列同一性，其中该非基因玉米基因组座位被该非基因玉米基因组座位中感兴趣的DNA序列的***所修饰。

依照一个实施方案，提供了一种鉴定最优非基因玉米基因组座位的方法。在一个实施方案中，该方法首先包括筛选玉米基因组以生成第一池的选定玉米序列，这些序列的最小长度为1Kb且是低甲基化的，任选地其中基因组序列具有少于1％甲基化，或者其中该基因组序列没有任何甲基化的胞嘧啶残基。可以进一步筛选该第一池选定的玉米序列以淘汰不符合最优非基因玉米基因组座位的要求的座位。将编码玉米转录物、与具有相似长度的其他序列享有大于40％或更高的序列同一性、不显示重组的证据、且在距该选定玉米序列40Kb以内不具有已知的开放阅读框的玉米基因组序列，例如玉米基因组序列，从第一池序列中淘汰，留下适格为最优非基因玉米作为的第二池序列。在一个实施方案中，从所述第一池序列中淘汰任何如下所述的选定玉米序列：其在距所述非基因序列的一端40Kb之内不具有已知的玉米基因亦不具有包含已知的玉米基因的2Kb上游和/或1Kb下游区的序列。在一个实施方案中，淘汰任何如下所述的选定玉米序列：其在距该选定的玉米序列40Kb之内不含有编码蛋白质的已知基因。在一个实施方案中，淘汰任何如下所述的选定玉米序列：其不具有大于0.00041cM/Mb的重组频率。

利用这些选择标准，申请人已经鉴定了可充当最优非基因玉米基因组座位的选定玉米的最优基因组座位，它们的序列作为SEQ ID NO：1-SEQ ID NO：5,286公开。本公开内容还涵盖所鉴定的最优非基因玉米基因组座位的自然变体或修饰衍生物，其中所述变体或衍生座位包含与SEQ ID NO：1-SEQ ID NO：5,286的任何序列相差1、2、3、4、5、6、7、8、9或10个核苷酸的序列。在一个实施方案中，供依照本公开使用的最优非基因玉米基因组座位包含选自SEQ ID NO：1-SEQ ID NO：5,286的序列或者与选自SEQ ID NO：1-SEQ ID NO：7,018的序列享有90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。

在另一个实施方案中，供用于依照本公开使用的最优非基因玉米基因组座位包含选自任何品种的玉米植物的序列。在一个进一步的实施方案中，供用于依照本公开使用的最优非基因玉米基因组座位包含选自黄玉米(yellow corn)近交物的序列。相应地，黄玉米近交物包括臼齿形(dent)或硬质(flint)黄玉米近交植物，包括其农艺学优良品种。在一个接下来的实施方案中，供用于依照本公开使用的最优非基因玉米基因组座位包含选自可转化玉米系的序列。在一个实施方案中，代表性的可转化玉米系包括：Hi-II、B73、B104、Mo17、W22、A188、H99、及其衍生物。本领域技术人员会理解，作为***发生趋异的结果，各种玉米品系不包含相同的基因组DNA序列，且在基因组序列内可存在多态性或等位基因变异。在一个实施方案中，本公开涵盖鉴定出的最优非基因玉米基因组座位的这样的多态性或等位基因变异，其中所述多态性或等位基因变包含与SEQ ID NO：1-SEQ ID NO：5,286中的任何序列相差1，2，3，4，5，6，7，8，9或10个核苷酸的序列。在一个进一步的实施方案中，本公开涵盖鉴定出的最优非基因玉米基因组座位的这样的多态性或等位基因变异，其中所述多态性或等位基因变异与SEQ ID NO：1-SEQ ID NO：5,286的任何序列享有90％，91％，92％，93％，94％，95％，96％，97％，98％或99％序列同一性。

通过使用多元分析方法加以分析，可以将鉴定出的包含5,286个序列的最优基因组座位分类为不同亚群。任何多元分析统计程序的应用被用于发现一组变量的潜在结构(维度)。可以使用多种不同类型的多元算法，例如，可以用多元回归分析、逻辑斯蒂回归分析、判别分析、多元方差分析(MANOVA)、因子分析(包括共同因子分析和主成分分析二者)、聚类分析、多维量表法、对应分析、联合分析、典型分析(canonical analysis)、典型相关、以及结构等式建模(structural equation modeling)。

依照一个实施方案，使用多元数据分析，如主成分分析(PCA)对所述最优非基因玉米基因组座位进一步分析。这里只会简短说明，更多信息可见H.Martens，T.Naes，Multivariate Calibration，Wiley，N.Y.，1989。PCA评估数据的基础维度(潜在变量(latent variables))，并给出对数据中的优势模式和主要趋势的概览。在一个实施方案中，可以通过主成分分析(PCA)统计学方法将所述最优非基因玉米基因组座位分选为类簇。PCA是一种数学程序，利用正交变换将一组可能相关的变量的观察结果转变成一组线性非相关的变量(称为主成分)的值。主成分的数目少于或等于原始变量的数目。这种变换如此定义，使得第一个主成分具有最大的可能方差(即，尽可能多地解释数据中的变异性)，后续的每一个成分在其与在先组分正交(即与在先组分不相关)的约束条件下依次具有最高的可能方差。主成分分析保证是独立的，如果数据集是联合正态分布的。PCA对原始变量的相对比例敏感。利用PCA基于一组实体的特征对该组实体聚类的实例包括：Ciampitti，I.etal.，(2012)Crop Science，52(6)；2728-2742，Chemometrics：A Practical Guide，KennethR.Beebe，Randy J.Pell，and Mary Beth Seasholtz，Wiley-Interscience，1 edition，1998，美国专利号8,385,662，和欧洲专利号2,340,975。

依照一个实施方案，对5,286个最优玉米基因组座位进行了主成分分析(PCA)，其中对于每个鉴定出的最优玉米基因组座位使用下面的10个特征：

1.最优基因组座位(OGL)周围的低甲基化区域的长度

a.用甲基化敏感的限制酶(Wang et al.，(2009)Genome-Wide and Organ-Specific Landscapes of Epigenetic Modifications and Their Relationships tomRNA and Small RNA Transcriptomes in Maize.Plant Cell 21(4)：1053-1069)消化基因组DNA之后，利用Illumina/Solexa 1G平行测序数据，建立根和芽组织的全基因组甲基化概貌。序列被定位到基因组上则表明在定位的位置上存在DNA甲基化，而没有被定位的序列的染色体节段表明不存在甲基化(低甲基化)。利用描述的甲基化概貌来计算每个OGL周围低甲基化区域的长度。

2.OGL周围1MB区域中的重组率

a.对于每个OGL，鉴定位于该OGL的每一侧上1Mb窗口以内的一对标志物。基于标志物之间的遗传距离(以厘摩(cM)计)对标志物之间的基因组物理距离(以Mb计)计算在整个染色体上每对标志物之间的重组频率。

3.OGL序列独特性的水平

a.对于每个OGL，利用基于BLAST的同源性检索将OGL的核苷酸序列对玉米栽培种B73基因组扫描。由于这些OGL序列是从玉米栽培种B73基因组鉴定出来的，通过此检索鉴定的第一个BLAST命中代表的是OGL序列本身。为每个OGL鉴定第二个BLAST命中，并使用该命中的比对覆盖度(alignment coverage)作为该OGL序列在玉米基因组中的独特性的量度。

4.从OGL到其相邻区域中的最接近基因的距离

a.从已知的玉米基因组数据库(www.maizegdb.org)，提取基因注释信息和已知基因在玉米栽培种B73基因组中的位置。对于每个OGL，鉴定其上游或下游附近的最接近的已注释基因，并测量OGL序列与该基因的距离(以bp计)。

5.OGL相邻区域中的GC％

a.对于每个OGL，分析核苷酸序列以估计存在的鸟嘌呤和胞嘧啶碱基的数目。该计数以占每个OGL的序列长度的百分比表示，且提供了GC％的量度。

6.OGL周围40Kb相邻区域中的基因数

a.从单子叶植物基因组数据库，例如玉米基因组数据库(www.maizegdb.org)，提取基因注释信息和已知基因在单子叶植物基因组(例如玉米栽培种B73基因组)中的位置。对于每个OGL，定义OGL周围的一个40Kb窗口，计算具有与该窗口重叠的位置的已注释基因的数目。

7.OGL周围40Kb相邻区域中的平均基因表达

a.使用RNAseq技术，通过分析从单子叶植物(例如玉米栽培种B73)根和芽组织产生的转录组概貌数据来测量单子叶植物基因的转录物水平表达。对于每种OGL，鉴定在该单子叶植物基因组(例如玉米栽培种B73基因组)中该OGL周围40Kb相邻区域中存在的已注释基因。从前面的引文中描述的转录组概貌中提取每个基因的表达水平，并计算平均基因表达水平。

8.OGL周围的核小体占据水平

a.对特定核苷酸的核小体占据水平的辨析可提供关于染色体功能和序列的基因组环境的信息。NuPoP^TM统计学程序包提供了一种用户友好的软件工具，用于为任何大小的基因组序列预测核小体占据和最似然的核小体定位图(Xi，L.，Fondufe-Mittendor，Y.，Xia，L.，Flatow，J.，Widom，J.and Wang，J.-P.，Predicting nucleosome positioningusing a duration Hidden Markov Model，BMC Bioinformatics，2010，doi：10.1186/1471-2105-11-346)。对于每个OGL，将核苷酸序列提交给NuPoP^TM软件，计算核小体占据得分。

9.染色体内的相对位置(对着丝粒的接近度)

a.从玉米基因组数据库(www.maizegdb.org)，提取关于着丝粒在每个玉米染色体中的位置，以及染色体臂的长度的信息。对于每个OGL，测量从OGL序列到其所在的染色体的着丝粒的基因组距离(以bp计)。OGL在染色体内的相对位置表示为其到着丝粒的基因组距离相对于其所在的具体染色体臂的长度之比。

10.OGL周围1Mb区域中OGL的数目

a.对于每个OGL，定义OGL位置周围的1Mb基因组窗口，并统计该玉米植物1Kb OGL数据集中基因组位置与该窗口重叠的OGL的数目。

实施例2的表3中进一步描述了每个最优非基因玉米基因组座位的特征和属性的得分的结果或值。使用所得的数据集在PCA统计学方法中将5,286个鉴定的最优非基因玉米基因组座位聚类为类簇。在聚类过程中，在估计了最优基因组座位的“p”主成分之后，将最优基因组座位指配到32个类簇之一的过程在“p”维欧几里得空间中进行。将每个“p”轴分解为“k”个区间。将被指配到相同区间的最优基因组座位组合到一起形成类簇。使用该分析，每个PCA轴被分为两个区间，根据关于实验验证所需的类簇数的事先信息加以选择。所有分析和对所得的类簇的可视化均使用来自Chemical Computing Group Inc.(Montreal，Quebec，Canada)的Molecular Operating Environment^TM(MOE)软件来实施。利用该PCA途径将5,286个最优玉米基因组座位基于它们的特征值(如上所述)聚类成32个独特的类簇。

在PCA过程中，产生了5个主成分(PC)，其中最先3个PC含有数据集中总变异的约90％(表4)。用这3个PC在3维作图中图形化表现所述32个类簇(见图3)。在聚类过程完成之后，从每个类簇选择一个代表性的最优基因组座位。这通过用计算机方法选择每个类簇内与该类簇的形心最接近的选定最优基因组座位来实现(表4)。32个代表性的最优基因组座位的染色***置在玉米染色体中分布均匀，如图4所示。

依照一个实施方案，提供一种纯化的最优非基因序列，其中该纯化序列的长度为至少1Kb，且与从实施例8表15中所述的任何序列中选出的非基因序列具有至少90，95％或99％序列同一性。在一个实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ IDNO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQID NO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ ID NO：424)和loci_232228_G1(SEQ ID NO：4529)的基因组序列。在一个实施方案中，纯化序列的长度为至少1Kb，并且与选自下组的非基因序列中存在的序列具有至少90％，95％，或99％序列同一性：loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ IDNO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQ ID NO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ ID NO：424)，和loci_232228_G1(SEQ ID NO：4529)。在一个实施方案中，提供纯化的序列，其长度为至少1Kb，且与选自下组的非基因序列具有至少90％，95％，或99％序列同一性：(SEQ ID NO：2731)，optimal_loci_136086(SEQ ID NO：4425)，optimal_loci_232484(SEQ ID NO：2053)，optimal_loci_203075(SEQ ID NO：2030)，optimal_loci_3733(SEQ IDNO：1268)，optimal_loci_168286(SEQ ID NO：573)，optimal_loci_128078(SEQ ID NO：560)，optimal_loci_265551(SEQ ID NO：463)，optimal_loci_127268(SEQ ID NO：2709)，optimal_loci_204726(SEQ ID NO：424)，和optimal_loci_232222(SEQ ID NO：3357)。在一个实施方案中，提供纯化的序列，其长度为至少1Kb，且与选自下组的非基因序列具有至少90％，95％，或99％序列同一性：optimal loci_204637(SEQ ID NO：2731)，optimal_loci_136086(SEQ ID NO：4425)，optimal_loci_232484(SEQ ID NO：2053)，optimal_loci_203075(SEQ ID NO：2030)，optimal_loci_3733(SEQ ID NO：1268)，optimal_loci_168286(SEQ ID NO：573)，optimal_loci_128078(SEQ ID NO：560)和optimal_loci_265551(SEQID NO：463)。在一个实施方案中，提供纯化的序列，其长度为至少1Kb，且与选自下组的非基因序列具有至少90％，95％，或99％序列同一性：optimal loci_204637(SEQ ID NO：2731)，optimal_loci_203075(SEQ ID NO：2030)和optimal_loci_128078(SEQ ID NO：560)。

在一个实施方案中提供纯化的序列，其包含与选自下组的非基因序列中存在的序列相同的1Kb序列：optimal loci_204637(SEQ ID NO：2731)，optimal_loci_136086(SEQID NO：4425)，optimal_loci_232484(SEQ ID NO：2053)，optimal_loci_203075(SEQ IDNO：2030)，optimal_loci_3733(SEQ ID NO：1268)，optimal_loci_168286(SEQ ID NO：573)，optimal_loci_128078(SEQ ID NO：560)和optimal_loci_265551(SEQ ID NO：463).在一个实施方案中，提供纯化的序列，其包含与选自下组的非基因序列中存在的序列相同的1Kb序列：optimal loci_204637(SEQ ID NO：2731)，optimal_loci_203075(SEQ ID NO：2030)和optimal_loci_128078(SEQ ID NO：560)。

在一个实施方案中，本主题公开涉及重组序列，其包含至少1Kb的核酸序列，该核酸序列与选自下组的非基因序列具有至少90％、95％或99％序列同一性：loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，和loci_204637_G1(SEQ ID NO：2731)，所述非基因序列中***有感兴趣的DNA。

依照一个实施方案，提供修饰的最优非基因玉米基因组座位，其中该最优非基因玉米基因组座位已经被修饰，从而包含一个或多个核苷酸取代、缺失或***。在一个实施方案中，所述最优非基因玉米基因组座位通过感兴趣的DNA序列的***而被修饰，任选地伴随基因组座位序列的进一步的核苷酸重复、缺失或倒位。

在一个实施方案中，要修饰的最优非基因玉米基因组座位是选自实施例8表15的任何序列的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是选自下述座位的基因组序列：137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQ ID NO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ ID NO：424)，和loci_232228_G1(SEQ ID NO：4529)。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_137693_G1(SEQ ID NO：387)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_265551_G1(SEQID NO：463)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_128078_G1(SEQ ID NO：560)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_168286_G1(SEQ ID NO：573)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_3733_G1(SEQ ID NO：1268)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_203075_G1(SEQ ID NO：2030)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_232484_G1(SEQ ID NO：2053)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_136086_G1(SEQ ID NO：4425)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_203704_G1(SEQ ID NO：2033)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_127268_G1(SEQ ID NO：2709)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_204637_G1(SEQ ID NO：2731)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_291068_G1(SEQ ID NO：3230)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_232222_G1(SEQ ID NO：3357)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_43577_G1(SEQ ID NO：3428)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_204726_G1(SEQ ID NO：424)的基因组序列。在一个实施方案中，要修饰的最优非基因玉米基因组座位是来自loci_232228_G1(SEQ ID NO：4529)的基因组序列。

在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ IDNO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQID NO：4425)和loci_203704_G1(SEQ ID NO：2033)的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)和loci_136086_G1(SEQ ID NO：4425)的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQID NO：2030)和loci_232484_G1(SEQ ID NO：2053)的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)和loci_203075_G1(SEQ ID NO：2030)的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)和loci_3733_G1(SEQ ID NO：1268)的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)和loci_168286_G1(SEQ ID NO：573)的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，和loci_128078_G1(SEQ ID NO：560)的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_137693_G1(SEQ ID NO：387)和loci_265551_G1(SEQ ID NO：463)的基因组序列。

在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ ID NO：424)和loci_232228_G1(SEQ ID NO：4529)的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)和loci_204726_G1(SEQ ID NO：424)的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ IDNO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)和loci_43577_G1(SEQ ID NO：3428)的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ IDNO：2731)，loci_291068_G1(SEQ ID NO：3230)和loci_232222_G1(SEQ ID NO：3357)的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)和loci_291068_G1(SEQID NO：3230)的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因玉米基因组座位是选自loci_127268_G1(SEQ ID NO：2709)和loci_204637_G1(SEQ ID NO：2731)的基因组序列。

在一个实施方案中，最优非基因玉米基因组座位选自基因组序列loci_59517_G1(SEQ ID NO：1)，loci_159525_G1(SEQ ID NO：199)，loci_9811_G1(SEQ ID NO：365)，loci_7507_G1(SEQ ID NO：543)，loci_178978_G1(SEQ ID NO：687)，loci_285621_G1(SEQ IDNO：875)，loci_221721_G1(SEQ ID NO：1089)，loci_83937_G1(SEQ ID NO：1233)，loci_37146_G1(SEQ ID NO：1369)，loci_156393_G1(SEQ ID NO：1571)，loci_343678_G1(SEQ IDNO：1795)，loci_60209_G1(SEQ ID NO：1980)，loci_282323_G1(SEQ ID NO：2171)，loci_64542_G1(SEQ ID NO：2349)，loci_162531_G1(SEQ ID NO：2557)，loci_337001_G1(SEQ IDNO：2693)，loci_66202_G1(SEQ ID NO：2855)，loci_185454_G1(SEQ ID NO：3004)，loci_239863_G1(SEQ ID NO：3151)，loci_257541_G1(SEQ ID NO：3289)，loci_217939_G1(SEQID NO：3455)，loci_326869_G1(SEQ ID NO：3586)，loci_31710_G1(SEQ ID NO：3731)，loci_81941_G1(SEQ ID NO：3849)，loci_198387_G1(SEQ ID NO：3981)，loci_197372_G1(SEQ ID NO：4192)，loci_106202_G1(SEQ ID NO：4401)，loci_232228_G1(SEQ ID NO：4529)，loci_244324_G1(SEQ ID NO：4646)，loci_157315_G1(SEQ ID NO：4836)，loci_137489_G1(SEQ ID NO：5046)，和loci_31764_G1(SEQ ID NO：5162)。

在一个实施方案中，最优非基因玉米基因组座位选自基因组序列loci_59517_G1(SEQ ID NO：1)，loci_25001_G1(SEQ ID NO：100)，loci_112632_G1(SEQ ID NO：203)，loci_28905_G1(SEQ ID NO：295)，loci_129164_G1(SEQ ID NO：384)，loci_204726_G1(SEQID NO：424)，loci_2425_G1(SEQ ID NO：451)，loci_122036_G1(SEQ ID NO：547)，loci_5735_G1(SEQ ID NO：671)，loci_178978_G1(SEQ ID NO：687)，loci_288388_G1(SEQ IDNO：781)，loci_60310_G1(SEQ ID NO：843)，loci_285621_G1(SEQ ID NO：875)，loci_243330_G1(SEQ ID NO：967)，loci_127038_G1(SEQ ID NO：1107)，loci_262784_G1(SEQ IDNO：1147)，loci_344662_G1(SEQ ID NO：1190)，loci_153894_G1(SEQ ID NO：1252)，loci_28771_G1(SEQ ID NO：1300)，loci_1098_G1(SEQ ID NO：1371)，loci_97772_G1(SEQ IDNO：1569)，loci_156393_G1(SEQ ID NO：1571)，loci_236662_G1(SEQ ID NO：1663)，loci_139485_G1(SEQ ID NO：1822)，loci_301175_G1(SEQ ID NO：1906)，loci_152337_G1(SEQID NO：2003)，loci_202616_G1(SEQ ID NO：2027)，loci_203704_G1(SEQ ID NO：2033)，loci_282323_G1(SEQ ID NO：2171)，loci_262782_G1(SEQ ID NO：2256)，loci_64542_G1(SEQ ID NO：2349)，loci_236455_G1(SEQ ID NO：2428)，loci_162531_G1(SEQ ID NO：2557)，loci_301774_G1(SEQ ID NO：2632)，loci_344663_G1(SEQ ID NO：2649)，loci_337001_G1(SEQ ID NO：2693)，loci_204637_G1(SEQ ID NO：2731)，loci_238100_G1(SEQID NO：2753)，loci_66202_G1(SEQ ID NO：2855)，loci_264359_G1(SEQ ID NO：2934)，loci_282653_G1(SEQ ID NO：3086)，loci_80282_G1(SEQ ID NO：3139)，loci_291068_G1(SEQ ID NO：3230)，loci_56395_G1(SEQ ID NO：3270)，loci_200497_G1(SEQ ID NO：3334)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_5607_G1(SEQ ID NO：3435)，loci_114664_G1(SEQ ID NO：3457)，loci_228254_G1(SEQ ID NO：3497)，loci_120993_G1(SEQ ID NO：3593)，loci_53137_G1(SEQ ID NO：3702)，loci_31710_G1(SEQ ID NO：3731)，loci_344664_G1(SEQ ID NO：3815)，loci_81941_G1(SEQ IDNO：3849)，loci_321514_G1(SEQ ID NO：3939)，loci_198387_G1(SEQ ID NO：3981)，loci_301180_G1(SEQ ID NO：4113)，loci_197372_G1(SEQ ID NO：4192)，loci_348776_G1(SEQID NO：4350)，loci_244439_G1(SEQ ID NO：4458)，loci_348258_G1(SEQ ID NO：4487)，loci_232228_G1(SEQ ID NO：4529)，loci_322501_G1(SEQ ID NO：4610)，loci_244324_G1(SEQ ID NO：4646)，loci_97232_G1(SEQ ID NO：4832)，loci_157315_G1(SEQ ID NO：4836)，loci_282499_G1(SEQ ID NO：4953)，loci_155031_G1(SEQ ID NO：5060)，loci_301773_G1(SEQ ID NO：5110)，loci_283161_G1(SEQ ID NO：5213)，loci_55524_G1(SEQ IDNO：5264)，loci_127268_G1(SEQ ID NO：21492709)，loci_136086_G1(SEQ ID NO：34844425)，loci_232484_G1(SEQ ID NO：34172053)，loci_3733_G1(SEQ ID NO：36261923)，loci_168286_G1(SEQ ID NO：3473571)，loci_128078_G1(SEQ ID NO：3047560)，loci_265551_G1(SEQ ID NO：3547463)和loci_137693_G1(SEQ ID NO：387)。

在一个实施方案中，用感兴趣的DNA序列靶向所述最优非基因玉米基因组座位，其中该感兴趣的DNA序列整合到锌指核酸酶靶位点之内或附近。依照该实施方案，在表8中给出了最优玉米选定基因组座位的示例性锌指靶位点。依照一个实施方案，感兴趣的DNA序列的整合在下述示例性靶位点之内或附近发生：111879ZFN5和111879ZFN7；111885ZFN1和111885ZFN2；SIG115737_31v1和SIG115737_32v1；SIG120523_11v1和SIG120523_12v1；SIG115246_5和SIG115246_6；SIG115636_1v1和SIG115636_2v1；SIG120417_11v1和SIG120417_12v1；SIG120621_15v1和SIG120621_16v1；SIG12078_11v1和SIG12078_12v1；以及，SIG157315_1v1和SIG157315_2v1，ZFN_binding_1和ZFN_binding_2，ZFN_binding_3和ZFN_binding_4，ZFN_binding_5和ZFN_binding_6，ZFN_binding_7和ZFN_binding_8，ZFN_binding_9和ZFN_binding_10，ZFN_binding_11和ZFN_binding_12，ZFN_binding_13和ZFN_binding_14，ZFN_binding_15和ZFN_binding_16，ZFN_binding_17和ZFN_binding_18，ZFN_binding_19和ZFN_binding_20，ZFN_binding_21和ZFN_binding_22，ZFN_binding_23和ZFN_binding_24，ZFN_binding_25和ZFN_binding_26，ZFN_binding_27和ZFN_binding_28，ZFN_binding_29和ZFN_binding_30，ZFN_binding_31和ZFN_binding_32，ZFN_binding_33和ZFN_binding_34，ZFN_binding_35和ZFN_binding_36，ZFN_binding_37和ZFN_binding_38，ZFN_binding_39和ZFN_binding_40，ZFN_binding_41和ZFN_binding_42，ZFN_binding_43和ZFN_binding_44，ZFN_binding_45和ZFN_binding_46，ZFN_binding_47和ZFN_binding_48，ZFN_binding_49和ZFN_binding_50，ZFN_binding_51和ZFN_binding_52，ZFN_binding_53和ZFN_binding_54，ZFN_binding_55和ZFN_binding_56，ZFN_binding_57和ZFN_binding_58，ZFN_binding_59和ZFN_binding_60，ZFN_binding_61和ZFN_binding_62，ZFN_binding_63和ZFN_binding_64，ZFN_binding_65和ZFN_binding_66，ZFN_binding_67和ZFN_binding_68，ZFN_binding_69和ZFN_binding_70，ZFN_binding_71和ZFN_binding_72，ZFN_binding_73和ZFN_binding_74，ZFN_binding_75和ZFN_binding_76，ZFN_binding_77和ZFN_binding_78，ZFN_binding_79和ZFN_binding_80，ZFN_binding_81和ZFN_binding_82，ZFN_binding_83和ZFN_binding_84，ZFN_binding_85和ZFN_binding_86，ZFN_binding_87和ZFN_binding_88，ZFN_binding_89和ZFN_binding_90，ZFN_binding_91和ZFN_binding_92，ZFN_binding_93和ZFN_binding_94，ZFN_binding_95和ZFN_binding_96，ZFN_binding_97和ZFN_binding_98，ZFN_binding_99和ZFN_binding_100，ZFN_binding_101和ZFN_binding_102，ZFN_binding_103和ZFN_binding_104，ZFN_binding_105和ZFN_binding_106，ZFN_binding_107和ZFN_binding_108，ZFN_binding_109和ZFN_binding_110，ZFN_binding_111和ZFN_binding_112，ZFN_binding_113和ZFN_binding_114，ZFN_binding_115和ZFN_binding_116，ZFN_binding_117和ZFN_binding_118，ZFN_binding_119和ZFN_binding_120，ZFN_binding_121和ZFN_binding_122，ZFN_binding_123和ZFN_binding_124，ZFN_binding_125和ZFN_binding_126，ZFN_binding_127和ZFN_binding_128，ZFN_binding_129和ZFN_binding_130，ZFN_binding_131和ZFN_binding_132。

依照一个实施方案，锌指核酸酶结合所述锌指靶位点并切割独特的玉米基因组多核苷酸靶位点，此时该感兴趣的DNA序列整合到玉米基因组多核苷酸靶位点之内或附近。在一个实施方案中，在锌指靶位点之内的感兴趣的DNA序列发生整合可能导致重排。依照一个实施方案，重排可包括缺失、***、倒位和重复。在一个实施方案中，感兴趣的DNA序列整合到锌指靶位点附近。根据该实施方案的一个方面，该DNA的整合发生在锌指靶位点的附近，且可以整合在距该锌指靶位点1.5Kb，1.25Kb，1.0Kb，0.75Kb，0.5Kb，或0.25Kb之内。***锌指靶位点附近的基因组区域之内是本领域已知的，见美国专利公开号2010/0257638 A1(通过提述将其整体并入本文)。

根据一个实施方案，选定的非基因序列包括下述特征：

a)该非基因序列在该序列内不含有多于1％DNA甲基化；

b)该非基因序列的相对位置值为0.0984到0.973的距玉米染色体着丝粒的基因组距离比值；

c)该非基因序列具有34.38至61.2％的鸟嘌呤/胞嘧啶百分比含量范围；知

d)该非基因序列的长度为约1Kb至约4.9Kb。

II.鉴定出的最优非基因玉米基因组座位的重组衍生物

依照一个实施方案，在将玉米植物的基因组座位鉴定为***多核苷酸供体序列的高度理想位置之后，可以将一个或多个感兴趣的核酸序列***鉴定出的基因组座位。在一个实施方案中，感兴趣的核酸包含外源基因序列或其他理想的多核苷酸供体序列。在另一个实施方案中，在将玉米的基因组座位鉴定为***多核苷酸供体序列的高度理想位置之后，可以任选地删除、切除或移除该最优非基因玉米基因组座位的一个或多个感兴趣的核酸，然后整合感兴趣的DNA序列到鉴定出的基因组座位中。在一个实施方案中，最优非基因玉米基因组座位中感兴趣的核酸的***包括外源基因序列或其他理想的多核苷酸供体序列的移除、删除或切除。

本公开还涉及用于利用ZFN和多核苷酸供体构建体靶向整合到选定的玉米基因组座位中的方法和组合物。用于将感兴趣的核酸序列***最优非基因玉米基因组座位的方法，除非另有说明，使用分子生物学、生物化学、染色质结构和分析、细胞培养、重组DNA和相关领域中的常规技术，如本领域技术人员能够实施的。这些技术在文献中有充分说明。参见例如，Sambrook et al.MOLECULAR CLONING：A LABORATORY MANUAL，Second edition，ColdSpring Harbor Laboratory Press，1989及Third edition，2001；Ausubel et al.，CURRENT PROTOCOLS IN MOLECULAR BIOLOGY，John Wiley&Sons，New York，1987及定期更新；METHODS IN ENZYMOLOGY系列，Academic Press，San Diego；Wolfe，CHROMATINSTRUCTURE AND FUNCTION，Third edition，Academic Press，San Diego，1998；METHODS INENZYMOLOGY，Vol.304，″Chromatin″(P.M.Wassarman and A.P.Wolffe，eds.)，AcademicPress，San Diego，1999；和METHODS IN MOLECULAR BIOLOGY，Vol.119，″ChromatinProtocols″(P.B.Becker，ed.)Humana Press，Totowa，1999。

用于向玉米基因组中***核酸的方法

任何公知的用于将多核苷酸供体序列和核酸酶作为DNA构建体导入宿主细胞中的规程均可根据本公开使用。这些包括使用磷酸钙转染、聚凝胺(polybrene)、原生质体融合、PEG、电穿孔、超声方法(例如声孔处理(sonoporation))、脂质体、显微注射、裸DNA、质粒载体、病毒载体(附加体和整合型两者)，和任何其它公知的用于将克隆基因组DNA、cDNA、合成DNA或其它外来遗传材料导入宿主细胞中的方法(参见例如Sambrook等.，见上文)。必需的仅是，使用的特定核酸***规程能够将至少一种基因成功导入能够表达选择蛋白质的宿主细胞中。

如上文指出的，可以通过多种常规技术将DNA构建体导入期望植物物种的基因组中。关于此类技术的综述，参见例如Weissbach&Weissbach Methods for Plant MolecularBiology(1988，Academic Press，N.Y.)Section VIII，pp.421-463；及Grierson&Corey，Plant Molecular Biology(1988，2d Ed.)，Blackie，London，Ch.7-9。可以使用诸如电穿孔和显微注射植物细胞原生质体，通过用碳化硅显微搅拌(参见美国专利5,302,523和5,464,765)等技术将DNA构建体直接导入植物细胞的基因组DNA中，或者可以生物射弹法，诸如DNA颗粒轰击(参见例如Klein等.(1987)Nature 327：70-73)将DNA构建体直接导入植物组织中。或者，可以经由纳米颗粒转化(参见例如美国专利公开文本No.20090104700，其通过提及完整并入本文)将DNA构建体导入植物细胞中。或者，可以将DNA构建体与合适的T-DNA边界/侧翼区组合，并且导入常规的根癌土壤杆菌(Agrobacterium tumefaciens)宿主载体中。根癌土壤杆菌介导的转化技术(包括二元载体的卸甲(disarming)和使用)在科学文献中有充分描述。参见例如Horsch et al.(1984)Science 233：496-498和Fraley et al.(1983)Proc.Nat′l.Acad.Sci.USA 80：4803。

另外，可以使用非土壤杆菌细菌或病毒诸如根瘤菌(Rhizobium sp.)NGR234、苜蓿中华根瘤菌(Sinorhizoboium meliloti)、百脉根根瘤菌(Mesorhizobium loti)、马铃薯病毒X、花椰菜花叶病毒和木薯脉花叶病毒和/或烟草花叶病毒实现基因转移。参见例如Chunget al.(2006)Trends Plant Sci.11(1)：1-4。根癌土壤杆菌宿主的毒力功能会在使用二元T DNA载体(Bevan(1984)Nuc.Acid Res.12：8711-8721)或共培养规程(Horsch等(1985)Science227：1229-1231)通过细菌感染细胞时指导含有构建体和相邻标志物的T链***植物细胞DNA中。一般地，使用土壤杆菌转化***工程化改造双子叶植物(Bevan et al.(1982)Ann.Rev.Genet.16：357-384；Rogers et al.(1986)Methods Enzymol.118：627-641)。也可以使用土壤杆菌转化***将DNA转化及转移到单子叶植物和植物细胞。参见美国专利5,591,616；Hernalsteen et al.(1984)EMBO J.3：3039-3041；Hooykass-VanSlogteren et al.(1984)Nature 311：763-764；Grimsley et al.(1987)Nature 325：1677-179；Boulton et al.(1989)Plant Mol.Biol.12：31-40；和Gould et al.(1991)Plant Physiol.95：426-434。

备选的基因转移和转化方法包括但不限于经由钙、聚乙二醇(PEG)或电穿孔介导的裸DNA摄取的原生质体转化(参见Paszkowski et al.(1984)EMBO J.3：2717-2722，Potrykus et al.(1985)Molec.Gen.Genet.199：169-177；Fromm et al.(1985)Proc.Nat.Acad.Sci.USA 82：5824-5828；和Shimamoto(1989)Nature338：274-276)和植物组织的电穿孔(D′Halluin et al.(1992)Plant Cell4：1495-1505)。用于植物细胞转化的其它方法包括显微注射、碳化硅介导的DNA摄取(Kaeppler et al.(1990)Plant CellReporter 9：415-418)、和微粒轰击(Klein et al.(1988)Proc.Nat.Acad.Sci.USA 85：4305-4309；and Gordon-Kamm et al.(1990)Plant Cell 2：603-618)。

在一个实施方案中，导入宿主细胞中用于靶向***基因组的感兴趣的核酸在被靶向的感兴趣核酸的一个或两个末端包含同源侧翼序列。在这样的实施方案中，同源侧翼序列含有足够水平的与玉米基因组序列的序列同一性，以支持该序列与该序列有同源性的基因组序列之间的同源重组。供体与基因组序列之间大约25，50，100，200，500，750，1000，1500，或2000个核苷酸，或者更高的序列同一性，范围从70％至100％，(或者10与200个核苷酸之间的任何整数值，或更多)将支持二者之间的同源重组。

在另一个实施方案中，被靶向的感兴趣的核酸缺少同源侧翼序列，且被靶向的感兴趣的核酸与基因组序列享有低到极低水平的序列同一性。

在用于对细胞染色质中所关注的区域内的序列进行靶向重组和/或替换和/或改变的其他实施方案中，通过与外源“供体”核苷酸序列的同源重组来改变染色体序列。如果存在与断裂区域同源的序列，则细胞染色质中双链断裂的存在会刺激此类同源重组。细胞染色质中的双链断裂还可以刺激非同源末端连接的细胞机制。在本文所述的任何方法中，第一核苷酸序列(“供体序列”)可以含与所关注的区域中的基因组序列同源但不相同的序列，从而刺激同源重组以在所关注的区域中***不相同序列。因此，在某些实施方案中，与所关注的区域中序列同源的供体序列的某些部分显示出与被替换基因组序列约80，85，90，95，97.5，至99％(或其间任意整数)的序列相同性。在其它实施方案中，供体与基因组序列间的同源性高于99％，例如，如果在100个毗连碱基对上仅有I个核苷酸不同的话。

在某些情况下，供体序列的非同源部分能包含感兴趣区域中不存在的序列，从而将新序列引入感兴趣区域。这些情况下，所述非同源序列一般侧接有50-2,000个碱基对(或其间任何整数)或大于2,000的任何碱基对数目的序列，所述序列与感兴趣区域的序列同源或相同。在其他实施方式中，供体序列与感兴趣的区域不同源，并通过非同源重组机制***基因组。

依照一个实施方案，使用锌指核酸酶(ZFN)来在被靶向的基因组座位中导入双链断裂以易化感兴趣的核酸的***。例如，可以依照美国专利6,453,242中公开的方法实现选定的基因组座位中用于被锌指域结合的靶位点的选择，该专利的公开通过提述并入本文，其还公开了用于设计锌指蛋白(ZFP)以结合选定序列的方法。本领域技术人员会清楚的是，也可以使用对核苷酸序列的简单目测检查来选择靶位点。因而，用于靶位点选择的任何手段都可以在本文中描述的方法中使用。

对于ZFP DNA结合域，靶位点一般由多个相邻的靶亚位点构成。靶亚位点指被单个锌指结合的序列，通常是核苷酸三联体或核苷酸四联体，其可以与相邻的四联体有一个核苷酸重叠。参见例如WO 02/077227，将其公开内容通过提述并入本文。靶位点一般具有至少9个核苷酸的长度，且相应地被包含至少3个锌指的锌指结合域结合。然而，例如，4指结合域对12个核苷酸的靶位点、5指结合域对15个核苷酸的靶位点或6指结合域对18个核苷酸的靶位点的结合也是有可能的。容易想到的是，更大的结合域(例如7、8、9指和更多)对更长的靶位点的结合与本公开也是一致的。

依照一个实施方案，靶位点不必是多个三核苷酸。在发生交叉链相互作用的情况中参见例如美国专利6,453,242和WO 02/077227)，多指结合域的一个或多个锌指个体可以结合重叠的四联体亚位点。因此，三指蛋白质可以结合10个核苷酸的序列，其中第10个核苷酸是被末端指结合的四联体的部分，四指蛋白质可以结合13个核苷酸的序列，其中第13个核苷酸是被末端指结合的四联体的部分，等等。

多指结合域中锌指个体间的氨基酸接头序列的长度和性质也影响对靶序列的结合。例如，多指结合域中相邻锌指间所谓的″非规范接头″、″长接头″或″有结构的接头″的存在可以容许那些指结合不直接相邻的亚位点。此类接头的非限制性例子记载于例如美国专利No.6,479,626和WO 01/53480。因而，锌指结合域的靶位点中的一个或多个亚位点彼此可以相隔1、2、3、4、5或更多个核苷酸。一个非限定性实例可以是可结合13个核苷酸的靶位点的四指结合域，其在序列上包含两个连续的3核苷酸亚位点、1个居间核苷酸、和2个连续的三联体亚位点。

尽管从自然界中存在的蛋白质中鉴定的DNA结合多肽通常与离散的核苷酸序列或基序(例如，共有识别序列)结合，但是在本领域中存在并且知晓有方法来修饰许多这样的DNA结合多肽从而识别不同的核苷酸序列或基序。DNA结合多肽包括，例如但不仅限于：锌指DNA结合域；亮氨酸拉链；UPA DNA结合域；GAL4；TAL；LexA；Tet抑制子；LacR；和类固醇激素受体。

在一些实例中，DNA结合多肽是锌指。单独的锌指基序可以被设计成靶向并特异性结合多种多样的DNA位点中的任何种。规范的Cys₂His₂(以及非规范的Cys₃His)锌指多肽通过将α-螺旋***到靶DNA双螺旋的大沟中来结合DNA。锌指识别DNA是模块性的；每个指主要与靶中的三个连续碱基对接触，并由多肽中的少数关键残基介导识别。通过在靶向性核酸内切酶中包含多个锌指DNA结合域，靶向性核酸内切酶的DNA结合特异性可以被进一步提高(因此，由其赋予的任何基因调节效应的特异性也被提高)。见例如Urnov et al.(2005)Nature 435：646-51。因此，可以工程构建并使用一个或多个锌指DNA结合多肽，使得引入到宿主细胞中的靶向性核酸内切酶与宿主细胞基因组内独特的DNA序列相互作用。优选地，锌指蛋白是非天然存在的，即其是被工程构建为结合所选的靶位点的。参见，例如Beerli etal.(2002)Nature Biotechnol.20：135-141；Pabo et al.(2001)Ann.Rev.Biochem.70：313-340；Isalan et al.(2001)Nature Biotechnol.19：656-660；Segal et al.(2001)Curr.Opin.Biotechnol.12：632-637；Choo et al.(2000)Curr.Opin.Struct.Biol.10：411-416；美国专利Nos.6,453,242；6,534,261；6,599,692；6,503,717；6,689,558；7,030,215；6,794,136；7,067,317；7,262,054；7,070,934；7,361,635；7,253,273；和美国专利公开Nos.2005/0064474；2007/0218528；2005/0267061，本文通过提述并入其全部内容。

与天然存在的锌指蛋白相比，工程化的锌指结合域可以具有新的结合特异性。工程化方法包括，但不仅限于，合理设计和各种类型的选择。合理设计包括，例如，使用包含三链体(或四链体)核苷酸序列和单个锌指氨基酸序列的数据库，其中每个三链体或四链体核苷酸序列与结合该特定三链体或四链体序列的一个或多个锌指氨基酸序列相关。参见，例如共同拥有的美国专利6,453,242和6,534,261，文通过提述并入其全部内容。

或者，DNA结合域可来源于核酸酶。例如，归巢内切核酸酶和大范围核酸酶如I-SceI，I-CeuI，PI-PspI，PI-Sce，I-SceIV，I-CsmI，I-PanI，I-SceII，I-PpoI，I-SceIII，I-CreI，I-TevI，I-TevII及I-TevIII的识别序列是已知的。另参见美国专利号5,420,032；美国专利号6,833,252；Belfort et al.(1997)Nucleic Acids Res.25：3379-3388；Dujon etal.(1989)Gene 82：115-118；Perler et al.(1994)Nucleic Acids Res.22，1125-1127；Jasin(1996)Trends Genet.12：224-228；Gimble et al.(1996)J.Mol.Biol.263：163-180；Argast et al.(1998)J.Mol.Biol.280：345-353，以及New England Biolabs目录。此外，归巢核酸酶和大范围核酸酶的DNA结合特异性可以被工程化，从而结合非天然靶位点。参见，例如，Chevalier et al.(2002)Molec.Cell 10：895-905；Epinat et al.(2003)NucleicAcids Res.31：2952-2962；Ashworth et al.(2006)Nature 441：656-659；Paques et al.(2007)Current Gene Therapy 7：49-66；美国专利公开号20070117128。

作为另一替代，DNA结合域可衍生自亮氨酸拉链蛋白。亮氨酸拉链是一类参与在多种真核生物调控蛋白(所述调控蛋白是与基因表达相关的重要转录因子)中蛋白-蛋白的相互作用的蛋白质。亮氨酸拉链指在这些跨越包括动物、植物、酵母等多个界的转录因子中共享的共同结构基序。亮氨酸拉链由两条多肽(同二聚体或异二聚体)形成，所述多肽以其中亮氨酸残基在α-螺旋中均匀地隔开，使得两条多肽的亮氨酸残基在螺旋的同一面上结束的方式结合特定的DNA序列。可在本文中公开的DNA结合域中利用所述亮氨酸拉链的DNA结合特异性。

在一些实施方案中，DNA结合域是来自衍生于植物病原菌黄单胞菌(Xanthomonas)的TAL效应子的工程化域(见Miller等人，(2011)Nature Biotechnology 29(2)：143-8；Boch等人，(2009)Science 29 Oct 2009(10.1126/science.117881)和Moscou和Bogdanove，(2009)Science 29 Oct 2009(10.1126/science.1178817；和美国专利公开号20110239315，20110145940和20110301073)。

CRISPR(间隔规律的成簇短回文重复)/Cas(CRISPR相关的)核酸酶***是最近工程化的核酸酶***，该***基于能用于基因组工程的细菌***。其基于多种细菌和古细菌的部分适应性免疫应答。当病毒或质粒入侵细菌时，入侵者DNA的片段通过“免疫”应答被转换成CRISPR RNA(crRNA)。这种crRNA之后通过部分互补区域与另一类称为tracrRNA的RNA相关联以引导Cas9核酸酶到与目标DNA中crRNA同源的区域中(称为“protospacer”)。Cas9切割DNA以在DSB中由包含于crRNA转录本中的20-核苷酸引导序列所指定的位点处产生平末端。Cas9需要crRNA和tracrRNA两者进行位点特定性的DNA识别和切割。该***现在已经被工程化从而可以将crRNA和tracrRNA合并到一个分子内(“单一引导RNA”)，且所述单一引导RNA的crRNA等同部分可被工程化以引导Cas9核酸酶靶向任何期望序列(见Jinek等人(2012)Science 337，p.816-821，Jinek等人，(2013)，eLife 2：e00471，和David Segal，(2013)eLife 2：e00563)。因此CRISPR/Cas***可被工程化以在基因组的期望靶点处创建双链断裂(DSB)，以及可通过使用修复抑制剂影响DSB的修复以导致易错修复的增加。

在某些实施方案中，Cas蛋白可以是天然存在Cas蛋白的“功能性衍生物”。天然序列多肽的“功能性衍生物”指具有与天然序列多肽共同的定性生物学特性的化合物。“功能性衍生物”包括但不限于天然序列的片段和天然序列多肽及其片段的衍生物，前提是它们具有与相应天然序列多肽共同的生物学活性。本文中涵盖的生物学活性指功能性衍生物将DNA底物水解成片段的能力。术语“衍生物”涵盖多肽的氨基酸序列变体、共价修饰二者及其融合。Cas多肽或其片段的合适衍生物包括但不限于Cas蛋白或其片段的突变体、融合物、共价修饰。Cas蛋白(包括Cas蛋白或其片段)以及Cas蛋白或其片段的衍生物可得自细胞或化学合成或通过这两种规程的组合来获得。该细胞可以是天然生成Cas蛋白的细胞，或天然生成Cas蛋白且经遗传工程改造成以更高表达水平生成内源Cas蛋白或自外源引入的核酸(该核酸编码与内源Cas相同或不同的Cas)生成Cas蛋白的细胞。在一些情况中，该细胞并非天然生成Cas蛋白且经遗传工程改造成生成Cas蛋白。通过将Cas核酸酶与向导RNA共表达来将Cas蛋白部署在哺乳动物细胞中(且推定地，在植物细胞内)。可使用两种形式的向导RNA来易化Cas介导的基因组切割，如Le Cong，F.，et al.，(2013)Science 339(6121)：819-823中公开的。

在其他实施方案中，DNA结合域可与切割(核酸酶)域联合。例如，归巢内切核酸酶可以在其DNA结合特异性中修饰，并保留核酸酶功能。此外，锌指蛋白可同样与切割域融合以形成锌指核酸酶(ZFN)。本文中公开的融合蛋白的切割域部分可从任何核酸内切酶或核酸外切酶中获得。示例性的可衍生切割域的核酸内切酶包括，但不限于，限制性核酸内切酶和归巢核酸内切酶。见，例如2002-2003Catalogue New England Biolabs，MA；和Belfort等人，(1997)Nucleic Acids Res。其他的切割DNA的酶是已知的(如S1核酸酶；绿豆核酸酶；胰DNA酶I；微球菌核酸酶；酵母HO内切核酸酶；也参见Linn等人，(编)Nucleases，Cold SpringHarbor Laboratory Press，1993)).归巢内切核酸酶和大范围核酸酶的非限定的例子包括I-SceI、I-CeuI、PI-PspI、PI-Sce、I-SceIV、I-CsmI、I-PanI、I-SceII、I-PpoI、I-SceIII、I-CreI、I-TevI、I-TevII和I-TevIII是已知的。还见美国专利号5,420,032；美国专利号：6,833,252；Belfort等人，(1997)Nucleie Acids Res.25：3379-3388；Dujon等人，(1989)Gene82：115-118；Perler等人，(1994)Nucleic Acids Res.22，1125-1127；Jasin(1996)TrendsGenet.12：224-228；Gimble等人，(1996)J Mol.Bioi.263：163-180；Argast等人，(1998)JMol.Biol.280：345-353和New England Biolabs catalogue。可将一种或多种的这些酶(或其功能性片段)用作切割域和切割半-域的来源。

限制性核酸内切酶(限制性酶)存在于许多物种中且能够序列特异性的结合DNA(在识别位点)，并在结合位点处或结合位点附近切割DNA。一些限制酶(如IIS型)在从识别位点移除的位点处切割DNA并具有可分开的结合与切割域。例如，IIS型酶FokI催化DNA的双链切割，切割在一条链上距离结合位点9个核苷酸，而在另一条链上距其识别位点13个核苷酸。参见，例如美国专利5,356,802；5,436,150和5,487,994；以及Li等人，(1992)Proc.Natl.Aead Sci.USA 89：4275-4279；Li等人，(1993)Proc.Natl.Acad.Sci.USA 90：2764-2768；Kim等人，(1994a)Proc.Natl.Aead Sci.USA 91：883-887；Kim等人，(1994b)J.Biol.Chem.269：31，978-31，982。因此，在一个实施方案中，融合蛋白包含来自至少一种IIS型限制酶的切割域(或切割半域)和一种或多种锌指结合域，其可以是工程化的或未工程化的。

一种示例性的切割域与结合域可分开的IIS型限制酶是FokI。这一特别的酶作为二聚体发挥活性。Bitinaite等人，(1998)Proc Natl.Acad.Sci.USA 95：10，570-10，575。因此，为本发明公开的目的，用在公开的融合蛋白中的FokI酶的部分被认为是切割的半域。因此，为了使用锌指-FokI融合进行靶向性双链切割和/或靶向性细胞序列的替换，两个融合蛋白(每个包含FokI切割半域)可被用于重构催化活性的切割域。或者，也可使用包含锌指结合域和两个FokI切割半域的单一多肽分子。使用锌指-FokI融合进行靶向性切割和靶向性序列变换(alteration)的参数在本公开的别处提供。

切割域或切割半域可以是蛋白的任何部分，其保留切割活性，或其保留多聚化(如二聚化)以形成有功能的切割域的能力。IIS型限制酶的例子描述于国际公开WO2007/014275中，通过引用将其全文纳入本文。

为了增强切割特异性，切割域还可以被修饰。在一些实施方案中，使用切割半域的变体，这些变体最小化或防止切割半域的同二聚化。这种修饰的切割半域的非限制性例子详细描述于WO2007/014275中，通过引用将其全文纳入本文。在一些实施方案中，切割域包括工程化的切割半域(也指二聚化域变体)，其最小化或阻止二聚化。这样的实施方案是本领域技术人员所知晓的，且在例如美国专利公开号20050064474；20060188987；20070305346和20080131962中有描述，通过提述将其全部内容纳入本文。位于FokI的446、447、479、483、484、486、487、490、491、496、498、499、500、531、534、537和538位的氨基酸残基均是用于影响FokI切割半域二聚化的靶点。

另外的工程化的FokI的切割半域(其形成专性异二聚体)同样可被用于描述于本文的ZFN中。示例性的工程化的形成专性异二聚体的FokI的切割半域包括一对切割半域，其中第一个切割半域包括在FokI位点490和538的氨基酸残基处的突变以及第二个切割半域包括在486和499位的氨基酸残基处的突变。

因此，在一个实施方案中，位于490位置的突变，将Glu(E)替换为Lys(K)；位于538位置的突变，将Iso(I)替换为Lys(K)；位于486位置的突变，将Gln(Q)替换为(Glu)(E)；以及位于499位置的突变，将Iso(I)替换为Lys(K)。特别是，本文描述的工程化的切割半域通过突变一个切割半域中的位置490(E→K)和538(I→K)以产生工程化的切割半域(命名为“E490K：I538K”)，以及通过突变在另一个切割半域中的位置486(Q→E)和499(I→L)以产生工程化的切割半域(命名为“Q486E：I499L”)。本文中描述的所述工程化的切割半域为专性异二聚体突变体，其中异常切割被最小化或被消除。例如，见美国专利公开号2008/0131962，通过引用整体将其全文纳入用于所有目的。在一些实施方案中，所述工程化的切割半域包括在486、499和496位置(相对于野生型FokI编号)的突变，例如在486位置处用Glu(E)残基替换野生型Gln(Q)残基、在499位置处用Leu(L)残基替换野生型Iso(I)残基，在496位置处用Asp(D)或Glu(E)残基替换野生型Asn(N)残基(亦分别称为“ELD”和“ELE”域)。在其他实施方案中，所述工程化的切割半域包括在位置490，538和537处的突变(相对于野生型FokI编号)，例如在490位置处用Lys(K)残基替换野生型Glu(E)残基、在538位置处用Lys(K)残基替换野生型Iso(I)残基以及在537位置处用Lys(K)或Arg(R)残基替换野生型His(H)残基(亦分别称为“KKK”和“KKR”域)。在其他实施方案中，所述工程化的切割半域包括在位置490和537处的突变(相对于野生型FokI编号)，例如在490位置处用Lys(K)残基替换野生型Glu(E)残基以及在537位置处用Lys(K)或Arg(R)残基替换野生型His(H)残基(亦分别称为“KIK”和“KIR”域)。(见美国专利公开号20110201055)。在其他实施方案中，所述工程化的切割半域包括“Sharkey”和/或“Sharkey’”突变(见Guo等人，(2010)J Mol.Biol.400(1)：96-107)。

可使用任何合适的方法来制备本文中公开的工程化的切割半域，例如通过描述于美国专利公开号20050064474；20080131962；和20110201055的对野生型切割半域(FokI)的定点诱变来制备。或者，可使用所谓的“***-酶”技术在体内于核酸靶位点处组装核酸酶(参见例如，美国专利公开号20090068164)。这样的***酶的组分可以在分开的表达载体上表达，或可以被连接入一个开放阅读框中表达(其中例如由自切割2A肽或IRES序列分隔每个组分)。组分可以是单独锌指结合域或大范围核酸酶核酸结合域的域。

在使用前可(例如在基于酵母的染色体***中(描述于WO 2009/042163和WO20090068164))筛选核酸酶的活性。可通过使用本领域已知方法容易地设计出核酸酶表达构建体。参见，例如美国专利公开20030232410；20050208489；20050026157；20050064474；20060188987；20060063231；和国际公开WO 071014275。可以在组成型启动子或可诱导启动子(例如半乳糖激酶启动子，其在棉子糖和/或半乳糖的存在下被激活(去抑制)，在葡萄糖的存在下被抑制)的控制下表达核酸酶。

“靶位点之间的距离”指介于两个靶位点之间的核苷酸或核苷酸对的数目，从各序列最接近彼此的边缘测量。在切割依赖于两个锌指域/切割半域融合分子的结合来分隔各靶位点的特定实施方案中，两个靶位点可以位于相对的DNA链上。在其他实施方案中，两个靶位点位于同一DNA链上。为了靶向整合到最优基因组座位中，将一个或多个ZFP工程化，使之结合预定切割位点处或其附近的靶位点，并在细胞中表达包含该工程化DNA结合域和切割域的融合单标。当该融合蛋白的锌指蛋白部分结合到靶位点时，该切割域在靶位点附近切割DNA，优选介由双链断裂。

最优基因组座位中双链断裂的存在帮助外源序列通过同源重组的整合。因此，在一个实施方案中，包含要***到被靶定的基因组座位的感兴趣的核酸序列的多核苷酸将包括一个或多个与被靶定的基因组座位具有同源性的区域，以帮助同源重组。

除了本文中描述的融合分子，对选定的基因组序列的靶向替换还涉及供体序列的导入。多核苷酸供体序列可以在融合蛋白的表达之前、同时、后之后导入细胞。在一个实施方案中，供体多核苷酸含有足够水平的与最优基因组座位的同源性，以支持该序列与该序列有同源性的最优基因组座位之间的同源重组。供体与基因组序列之间大约25，50，100，200，500，750，1000，1500，或2000个核苷酸，或者10与2000个核苷酸之间的任何整数值，或更多，将支持同源重组。在特定实施方案中，同源臂的长度小于1000个碱基对。在其他实施方案中，同源臂长度小于750个碱基对。在一个实施方案中，供体多核苷酸序列可包含载体分子，载体分子含有与细胞染色质中感兴趣的区域不同源的序列。供体多核苷酸分子可含有数个不连续的与细胞染色质具有同源性的区域。例如，为了靶向***在感兴趣的区域中通常不存在的序列，所述序列可以存在于供体核酸分子中，被与感兴趣的区域有同源性的区域所侧翼包夹。供体多核苷酸可以是DNA或RNA，单链或双链，且可以呈线性或环状形式导入细胞。参见美国专利公开号20100047805，20110281361，20110207221和美国专利申请号13/889,162。如果是以线性形式导入的，供体序列的末端可以通过本领域技术人员知晓的方法加以保护(例如防止外切核酸水解降解)。例如，将一个或多个双脱氧核苷酸残基添加到线性分子的3’末端，和/或将自我互补的寡核苷酸连接到一个或两个末端。参见例如，Chang et al.(1987)Proc.Natl.Acad.Sci.USA 84：4959-4963；Nehls et al.(1996)Science 272：886-889。其他用于保护外源多核苷酸不受降解的方法包括，但不限于，添加末端氨基基团，以及使用修饰的核苷酸间连接，例如硫代磷酸酯、氨基磷酸酯、以及O-甲基核糖或脱氧核糖残基。

依照一个实施方案，提供一种用于制备转基因转基因玉米植物的方法，其中感兴趣的DNA已经***了最优非基因玉米基因组座位。该方法包括下述步骤：

a.选择最优非基因玉米座位作为***感兴趣的核酸的靶标；

b.向玉米植物细胞中导入位点特异性核酸酶，其中位点特异性核酸酶切割所述非基因序列；

c.将感兴趣的DNA导入植物细胞，和

d.选择包含被靶向到所述非基因序列的感兴趣的DNA的转基因植物细胞。

依照一个实施方案，提供一种用于制备转基因玉米原生质体细胞的方法，其中感兴趣的DNA已经***了最优非基因玉米基因组座位。该方法包括下述步骤：

a.选择最优非基因玉米座位作为***感兴趣的核酸的靶标；

b.向玉米原生质体细胞中导入位点特异性核酸酶，其中位点特异性核酸酶切割所述非基因序列；

c.将感兴趣的DNA导入玉米原生质体细胞；和

d.选择包含被靶向到所述非基因序列的感兴趣的DNA的转基因玉米原生质体细胞。

在一个实施方案中，位点特异性核酸酶选自锌指核酸酶、CRISPR核酸酶、TALEN核酸酶、或大范围核酸酶，且更具体地，在一个实施方案中，位点特异性核酸酶是锌指核酸酶。依照一个实施方案，感兴趣的DNA介由同源性引导修整合方法整合到所述非基因序列内。或者，在一些实施方案中感兴趣的DNA通过非同源末端连接整合法整合到所述非基因序列内。在其他实施方案中，感兴趣的DNA通过先前未有描述的方法整合到所述非基因序列内。在一个实施方案中，该方法包括选择用于该兴趣的DNA的靶向***的最优非基因玉米基因组座位，其具有下述特征中的2、3、4、5、6、7或8种：

a.该非基因序列长度为至少1Kb，且该序列内不含有大于1％DNA甲基化，

b.在玉米基因组内，该非基因序列显示0.00041至62.42cM/Mb的重组率；

c.在玉米基因组内，该非基因序列显示0至0.962的核小体占据水平；

d.该非基因组序列与该玉米基因组内的任何其他序列享有少于40％的序列同一性；

e.该非基因序列的相对位置值为0.00373至0.99908的距玉米染色体着丝粒遗传距离比；

f.该非基因序列的鸟嘌呤/胞嘧啶百分比含量范围为25.17至68.3％；

g.该非基因序列位于基因序列附近；和

h.包含所述非基因序列的玉米基因组序列的1Mb区域包含一个或多个其他非基因序列。在一个实施方案中，所述最优非基因玉米座位选自类簇1，2，3，4，5，6，7，8，9，10，11，2，3，4，5，6，7，8，9，20，21，22，23，24，25，26，27，28，29，30，31或32的座位。

投递

本申请中公开的供体分子通过靶向的同源性非依赖和/或同源性依赖方法整合到细胞的基因组中。对于这样的靶向整合，使用核酸酶，例如，DNA结合域(例如锌指结合域、CRISPR或TAL效应物域被工程化从而结合预定的切割位点处或附近的靶位点)和核酸酶域(例如切割域或切割半域)之间的融合物，在期望的位置(或多个位置)切割基因组。在特定的实施方案中，两个融合蛋白，每个融合蛋白包含DNA结合域和切割半域，在细胞中表达，并结合多个靶位点，这些靶位点以一定的方式被并置，从而重建出功能性切割域，且DNA在这些靶位点附近被切割。在一个实施方案中，切割在两个DNA结合域的靶位点之间发生。DNA结合域之一或者二者可以是工程化的。另外参见美国专利号7,888,121；美国专利公开号20050064474和国际专利公开号WO05/084190，WO05/014791和WO 03/080809。

如本文中描述的核酸酶可以作为多肽和/或多核苷酸导入。例如，可以将分别包含编码上述多肽之一的序列的两个多核苷酸导入细胞，且当这些多肽表达并分别结合于其靶序列时，在靶序列处或其附近发生切割。或者，将包含编码两个融合多肽的序列的一条多核苷酸导入细胞。多核苷酸可以是DNA、RNA或任何修饰的形式或类似物或DNA和/或RNA。

在将双链断裂引入感兴趣的区域中后，在对双链供体分子线性化后，将转基因以靶向的方式经由非同源性依赖的方法(例如，非同源末端连接(NHEJ))整合到感兴趣的区域中，如本文所描述的。优选地利用核酸酶在体内将双链供体进行线性化，例如，用于将双链断裂引入基因组中的一种或多种相同的或不同的核酸酶。染色体和供体在细胞中的同步切割可限制供体DNA降解(与在导入到细胞之前供体分子的线性化相比较)。用于使供体线性化的核酸酶靶位点优选地不破坏转基因序列。

可以以由核酸酶突出端的简单连接所预期的方向(命名为“正向”或“AB”方向)或以交替的方向(命名为“反向”或“BA”方向)将转基因整合到基因组中。在某些实施方案中，转基因在将供体和染色体突出端的正确连接之后整合。在另外的实施方案中，转基因以BA方向或AB方向的整合产生了若干核苷酸的缺失。

通过应用诸如这些技术的技术，可稳定转化几乎任何种类的细胞。在一些实施方案中，转化DNA整合到宿主细胞的基因组中。在多细胞种类的情况下，可将转基因细胞再生为转基因生物体。任何这些技术可用于产生转基因植物，例如，在转基因植物的基因组中包括一种或多种供体多核苷酸序列的转基因植物。

在本发明的实施方案中，可通过本领域技术人员已知的任何方法在将DNA、RNA、肽和/或蛋白或核酸和肽的组合递送植物细胞的方法中将核酸递送到植物细胞中，所述方法包括，例如，但不限于：通过转化原生质体(参见，美国专利5,508,184)；通过脱水(desiccation)/抑制介导的DNA摄入(参见，例如Potrykus等人(1985)Mol.Gen.Genet.199：183-8)；通过电穿孔(参见，例如，美国专利5,384,253)；通过利用碳化硅纤维振荡(参见，美国专利5,302,523和5,464,765)；通过土壤杆菌(Agrobacterium)介导的转化(参见，例如，美国专利5,563,055、5,591,616、5,693,512、5,824,877、5,981,840和6,384,301)；通过DNA包覆的颗粒的加速(参见，例如，美国专利5,015,580、5,550,318、5,538,880、6,160,208、6,399,861和6,403,865)和通过纳米颗粒、纳米载体和细胞穿透肽(WO201126644A2；WO2009046384A1；WO2008148223A1)。

最广泛应用的将表达载体导入到植物中的方法基于土壤杆菌的天然转化***。根癌土壤杆菌(A.tumefaciens)和发根土壤杆菌(A.rhizogenes)是在遗传上转化植物细胞的植物病原性土壤细菌。根癌土壤杆菌和发根土壤杆菌各自的T_i和R_i携带负责植物的遗传转化的基因。T_i(肿瘤诱导性)质粒包含称作T-DNA的大区段，其转移到转化的植物中。T_i质粒的另一区段vir区负责T-DNA转移。T-DNA区以左手和右手边界为边界，每个边界由末端重复核苷酸序列组成。在一些修饰的二元载体中，肿瘤诱导基因已经是缺失的，且使用vir区的功能来转移以T-DNA边界序列为边界的外源DNA。T区域还可包含例如用于转基因植物和细胞的有效回收的可选择性标志物，和用于***用于转移诸如编码本发明的融合蛋白的核酸的序列的多克隆位点。

因此，在一些实施方案中，植物转化载体源自根癌土壤杆菌的T_i质粒(参见，例如，美国专利第4,536,475号、第4,693,977号、第4,886,937号、和第5,501,967号；和欧洲专利EP 0 122 791)或发根土壤杆菌的R_i质粒。另外的植物转化载体包括，例如，但不限于，由以下中所描述的那些：Herrera-Estrella等人(1983)Nature 303：209-13；Bevan等人(1983)，同上；Klee等人(1985)Bio/Technol.3：637-42；和欧洲专利EP 0 120 516，和源自任何上述的那些。与植物天然相互作用的其他细菌诸如中华根瘤菌(Sinorhizobium)、根瘤菌(Rhizobium)和中慢生根瘤菌(Mesorhizobium)可经修饰以介导基因转移到大量的多种植物。这些植物相关的共生细菌可制备成有基因转移能力的，其通过获得卸甲(disarmed)T_i质粒和适宜的二元质粒二者进行。

感兴趣的核酸

用于玉米基因组座位内靶向***的多核苷酸供体序列的长度范围通常为约10至约5000个核苷酸。然而，可以使用显著更长的核苷酸，长达20,000个核苷酸，包括长度约5，6，7，8，9，10，11和12Kb的序列。另外，供体序列可以包含含有与替换区不同源的序列的载体分子。在一个实施方案中，感兴趣的核酸将包含一个或多个与被靶向的基因组座位享有同源性的区域。一般地，感兴趣的核酸序列的同源区会与期望与之重组的基因组序列具有至少50％序列同一性。在某些实施方案中，感兴趣的核酸的同源区与位于被靶向的基因组座位中的序列享有60％、70％、80％、90％、95％、98％、99％、或99.9％序列同一性。然而，任何1％与100％之间数值的序列同一性均可能存在，这取决于感兴趣的核酸的长度。

感兴趣的核酸可以含有几个不连续的与细胞染色质享有相对高序列同一性的区域。例如，为了靶向***通常不存在于被靶向的基因组座位中的序列，这些独特的序列可以存在于供体核酸分子中，且其侧翼有与被靶向的基因组座位中的序列享有相对高序列同一性的区域。

也可以将感兴趣的核酸分子***被靶向的基因组座位中以充当供以后使用的储备库。例如，可以在被靶向的基因组座位中***第一核酸序列，其包含与玉米基因组的非基因区同源的序列，但包含感兴趣的核酸(任选地编码处于可诱导启动子控制之下的ZFN)。接着，向细胞中引入第二核酸序列以诱导感兴趣的DNA***最优非基因玉米基因组座位。所述第一核酸序列包含对所述最优非基因玉米基因组座位特异性的ZFN，而所述第二核酸序列包含感兴趣的DNA序列，或反之。在一个实施方案中，ZFN会切割所述最优非基因玉米基因组座位和感兴趣的核酸二者。所产生的基因组中的双链断裂接下来可以变为自所述最优基因组座位释放的供体分子的整合位点。或者，可以在导入感兴趣的DNA之后诱导已经位于基因组中的ZFN的表达，以在基因组中诱导双链断裂，然后该断裂可以成为导入的感兴趣核酸的整合位点。这样，感兴趣的DNA在任何感兴趣区域处的靶向整合效率可以大大提高，因为方法不依赖于编码ZFN的核酸与感兴趣的DNA两者的同时摄取。

也可以将感兴趣的核酸***最优非基因玉米基因组座位中以充当后续***的靶位点。例如，可以将由含有其他ZFN设计的识别位点的DNA序列构成的感兴趣核酸***该座位中。随后，可以生成其他ZFN设计，并在细胞中表达，使得原先的感兴趣核酸被切割，并且通过修复或同源重组修饰。这样，在最优非基因玉米基因组座位处可以发生感兴趣核酸的反复整合。

例示性的外源序列包括但不限于任何多肽编码序列(例如cDNA)、启动子、增强子和其它调控序列(例如干扰RNA序列、shRNA表达盒、附加表位、标志物基因、切割酶识别位点和各种类型的表达构建体)。此类序列可以容易地使用标准分子生物学技术(克隆、合成等)获得，和/或是商品化的。

为了表达ZFN，通常将编码融合蛋白的序列亚克隆入含有启动子以指导转录的表达载体中。合适的原核和真菌启动子是本领域中公知的，并且记载于例如Sambrook等，Molecular Cloning，A Laboratory Manual(2nd ed.1989；3.sup.rd ed，2001)；Kriegler，Gene Transfer and Expression：A Laboratory Manual(1990)；及Current Protocols inMolecular Biology(Ausubel等，见上文。用于表达ZFN的细菌表达***在例如大肠杆菌(E.coli)、芽孢杆菌属物种(Bacillus sp.)、和沙门氏菌属(Salmonella)中可得到(Palva等，Gene 22：229-235(1983))。用于此类表达***的试剂盒是商品化的。用于哺乳动物细胞、酵母和昆虫细胞的真核表达***是本领域技术人员公知的，并且也是商品化的。

考虑融合蛋白的意图用途，例如在植物、动物、细菌、真菌、原生动物等中的表达，来选择用于将遗传材料转运到细胞中的特定表达载体(参见下文描述的表达载体)。标准的细菌和动物表达载体是本领域中已知的，并且详细记载于例如美国专利公开文本20050064474A1和国际专利公开文本W005/084190、W005/014791和W003/080809中。

可以使用标准转染方法来生成表达大量蛋白质的细菌、哺乳动物、酵母或昆虫细胞系，然后可以使用标准技术(参见例如Colley等，J.Biol.Chem.264：17619-17622(1989)；Guide to Protein Purification，收录于Methods in Enzymology，vol.182(Deutscher，ed.，1990))纯化所述蛋白质。依照标准技术(参见例如Morrison，J.Bact.132：349-351(1977)；Clark-Curtiss&Curtiss，Methods in Enzymology 101：347-362(Wu等编辑，1983)实施真核和原核细胞的转化。

公开的方法和组合物可以用于将多核苷酸供体序列***预定的位置，例如最优非基因玉米基因组座位之一。这是有用的，因为导入玉米基因组的转基因的表达关键地取决于其整合位点。相应地，可以通过靶向重组来***编码除草剂耐性、昆虫抗性、营养物、抗生素或治疗性分子的基因。

在一个实施方案中，感兴趣的核酸可以和基因编码序列组合或“叠加”，其中所述基因编码序列可提供针对草甘膦或其它除草剂的额外的耐受性或抗性，和/或提供对选定的昆虫或疾病的抗性，和/或提供营养强化，和/或提供改良的农艺特征，和/或可用于饲料、食物、工业、药物或其它用途的蛋白质或其它产物。植物基因组中两个或多个感兴趣的核酸序列的“叠加”可以通过例如下列手段来实现：使用两个或更多个事件的常规植物育种、用含有感兴趣的序列的构建体转化植物、转基因植物的再转化、或通过借助同源重组的导向整合来添加新的性状。

这样的感兴趣的多核苷酸供体核苷酸序列包括，但不限于下面给出的那些实例：

1.赋予害虫或疾病抗性的基因或编码序列(例如iRNA)

(A)植物疾病抗性基因。植物防御经常通过植物中疾病抗性基因(R)的产物与病原体中相应的无毒性(Avr)基因的产物的特异相互作用而被激活。可以用克隆的抗性基因转化植物品种，从而工程构建对特定病原体株有抗性的植物。这些基因的实例包括：提供黄枝孢霉(Cladosporium fulvum)抗性的番茄Cf-9基因(Jones et al.，1994 Science 266：789)；，提供丁香假单胞杆菌番茄致病变种抗性的番茄Pto基因，其编码一种蛋白激酶(Martin et al.，1993 Science 262：1432)，和提供丁香假单胞菌抗性的拟南芥RSSP2基因(Mindrinos et al.，1994 Cell 78：1089)。

(B)苏云金芽孢杆菌蛋白质、其衍生物或以其为模本的人造多肽，例如Btδ-内毒素基因的多核苷酸序列(Geiser et al.，1986 Gene 48：109)和植物杀虫(VIP)基因(见，例如，Estruch et al.(1996)Proc.Natl.Acad.Sci.93：5389-94)。此外，编码δ-内毒素基因的DNA分子可以从美国典型培养物保藏中心(Rockville，Md.)购得，ATCC登录号为40098，67136，31995和31998。

(C)植物凝集素，例如，多种君子兰(Clivia miniata)甘露糖结合性植物凝集素基因的核苷酸序列(Van Damme et al.，1994 Plant Molec.Biol.24：825)。

(D)维生素结合蛋白质，例如亲和素及亲和素同源物，其可用作针对昆虫类害虫的杀幼虫剂。见美国专利No.5,659,026。

(E)酶抑制剂，例如蛋白酶抑制剂或淀粉酶抑制剂。这些基因的实例包括水稻半胱氨酸蛋白质酶抑制剂(Abe et al.，1987 J.Biol.Chem.262：16793)，烟草蛋白酶抑制剂I(Huub et al.，1993 Plant Molec.Biol.21：985)，和α-淀粉酶抑制剂(Sumitani et al.，1993 Biosci.Biotech.Biochem.57：1243)。

(F)昆虫特异性激素或信息素，例如蜕皮激素和保幼激素或其变体、基于它们的模拟物，或其拮抗剂或激动剂，例如杆状病毒表达的克隆保幼激素酯酶，保幼激素的失活子(Hammock et al.，1990 Nature 344：458)。

(G)昆虫特异性肽或神经肽，其在表达时会扰乱受影响的害虫的生理机能(J.Biol.Chem.269：9)。这些基因的实例包括昆虫利尿激素受体(Regan，1994)，在太平洋折翅蠊(Diploptera punctata)中鉴定的咽侧体抑制素(allostatin)(Pratt，1989)，和昆虫特异性麻痹神经毒素(美国专利No.5,266,361)。

(H)在自然界中由蛇、马蜂等产生的昆虫特异性毒液，例如蝎子昆虫毒性肽(Pang，1992 Gene 116：165)。

(I)负责超富集单萜、倍半萜、甾体、异羟肟酸、苯丙烷衍生物或其它具有杀虫活性的非蛋白质分子的酶。

(J)参与生物活性分子修饰(包括翻译后修饰)的酶；例如糖酵解酶、蛋白质水解酶、脂肪分解酶、核酸酶、环化酶、转氨酶、酯酶、水解酶、磷酸酶、激酶、磷酸化酶、聚合酶、弹性蛋白酶、几丁质酶和葡聚糖酶，无论是天然的还是人造的。这些基因的实例包括马蹄莲(callas)基因(PCT公开的申请WO 93/02197)，几丁质酶编码序列(其可以从例如ATCC以登录号3999637和67152获得)，烟草钩虫几丁质酶(Kramer et al.，1993 InsectMolec.Biol.23：691)，和欧芹ubi4-2多聚泛素基因(Kawalleck et al.，1993 PlantMolec.Biol.21：673)。

(K)刺激信号转导的分子。这些分子的实例包括绿豆钙调蛋白cDNA克隆的核苷酸序列(Botella et al.，1994 Plant Molec.Biol.24：757)，和玉米钙调蛋白cDNA克隆的核苷酸序列(Griess et al.，1994 Plant Physiol.104：1467)。

(L)疏水矩肽(hydrophobic moment peptide)。见例如美国专利Nos.5,659,026和5,607,914，后者教导了赋予疾病抗性的人造抗微生物肽。

(M)膜透性酶，通道形成剂或通道阻断剂，例如杀菌肽-β裂解肽类似物(Jaynes etal.，1993 Plant Sci.89：43)，其使转基因烟草植物对青枯病有抗性。

(N)病毒侵袭性蛋白质或由其衍生的复杂毒素。例如，在经转化的植物细胞中，病毒衣壳蛋白的积累可赋予针对该衣壳蛋白所来源的病毒以及相关病毒所致的病毒感染和/或疾病发展的抗性。已经给转化植物赋予了衣壳蛋白介导的，针对苜蓿花叶病毒、黄瓜花叶病毒、烟草条纹病毒、马铃薯X病毒、马铃薯Y病毒、烟草蚀纹病毒、烟草脆裂病毒和烟草花叶病毒的抗性。参见，例如，Beachy et al.(1990)Ann.Rev.Phytopathol.28：451。

(O)昆虫特异性抗体或由其衍生的免疫毒素。因此，靶向昆虫肠道关键代谢功能的抗体可以使受影响的酶失活，杀死昆虫。例如，Taylor等人(1994)，在第七届国际分子植物-微生物相互作用研讨会(Seventh Int′l.Symposium on Molecular Plant MicrobeInteractions)上的第497号摘要显示了转基因烟草中通过产生单链抗体片段的酶失活。

(P)病毒特异性抗体。见例如Tavladoraki et al.(1993)Nature 266：469，其显示了表达重组抗体基因的转基因植物被保护免于病毒攻击。

(Q)由病原体或寄生物自然产生的发育阻滞(developmental-arrestive)蛋白质。因此，真菌内切α-1，4-D多聚半乳糖醛酸酶通过溶解植物细胞壁的均聚-α-1，4-D-半乳糖醛酸而促进真菌定殖和植物营养素释放(Lamb et al.，1992)Bio/Technology 10：1436。Toubart等(1992 Plant J.2：367)描述了豆类内切多聚半乳糖醛酸酶抑制蛋白的编码基因的克隆和表征。

(R)由植物自然产生的发育阻滞(developmental-arrestive)蛋白质，例如大麦核糖体失活基因，其提供了增加的针对真菌疾病的抗性(Longemann et al.，1992).Bio/Technology 10：3305。

(S)RNA干扰，其中用RNA分子抑制靶基因的表达。一个实施例中的RNA分子是部分或完全双链的，其触发沉默响应，导致dsRNA被切割成小的干扰RNA，它们随后被纳入到靶向复合体中，靶向复合体破坏同源的mRNA。见例如Fire等人，美国专利6,506,559；Graham等人，6,573,099。

2.赋予除草剂抗性的基因

(A)编码针对抑制生长点或分生组织的除草剂，例如咪唑啉酮类(imidazalinone)、磺酰苯胺类(sulfonanilide)或磺酰脲类除草剂的抗性或耐受性的基因。这类基因的实例编码一种突变的乙酰乳酸合酶(ALS)(Lee et al.，1988EMBOJ.7：1241)，也称乙酰羟酸合酶(AHAL)(Miki et al.，1990 Theor.Appl.Genet.80：449)。

(B)一种或多种额外的编码针对草甘膦抗性或耐受性的基因，所述抗性或耐受性是由突变体EPSP合酶和aroA基因赋予的，或者是通过一些基因如DGT-28、2mEPSPS、GAT(草甘膦乙酰转移酶)或GOX(草甘膦氧化酶)和其它膦酰基化合物，如草胺膦(pat、bar、和dsm-2基因)，和芳氧基苯氧基丙酸和环己二酮(ACC酶抑制剂编码基因)所致的代谢失活而获得的。见例如美国专利No.4,940,835，其公开了可赋予草甘膦抗性的EPSP形式的核苷酸序列。编码突变体aroA基因的DNA分子能够以ATCC登录号39256获得，突变体基因的核苷酸序列在美国专利No.4,769,061中公开。欧洲专利申请No.0 333 033和美国专利No.4,975,374公开了可赋予除草剂如L-草铵膦抗性的谷氨酰胺合酶基因的核苷酸序列。欧洲专利申请No.0242 246提供了草铵膦乙酰转移酶基因的核苷酸序列。De Greef et al.(1989)Bio/Technology 7：61中描述了表达编码草铵膦乙酰转移酶活性的嵌合bar基因的转基因植物的产生。赋予针对芳氧基苯氧基丙酸和环己二酮如稀禾定和甲禾灵(haloxyfop)的抗性的示例性基因是Accl-S1，Accl-S2和Accl-S3基因，如Marshall et al.(1992)Theor.Appl.Genet.83：435所述。

(C)编码针对可抑制光合作用的除草剂例如三嗪(psbA和gs+基因)和苄腈(腈水解酶基因)的抗性的基因。Przibilla et al.(1991)Plant Cell 3：169描述了使用编码突变体psbA基因的质粒转化衣藻。在美国专利No.4,810,648中公开了腈水解酶基因的核苷酸序列，含有这些基因的DNA分子可以通过ATCC登录号53435、67441和67442获得。Hayes et al.(1992)Biochem.J.285：173中描述了编码谷胱甘肽S-转移酶的DNA的克隆和表达。

(D)编码针对可结合羟基苯基丙酮酸二加氧酶(HPPD)的除草剂的抗性基因，HPPD是催化对-羟基苯基丙酮酸(HPP)转化形成尿黑酸的反应的酶。这包括例如异噁唑(EP418175，EP470856，EP487352，EP527036，EP560482，EP682659，美国专利No.5,424,276)，特别是异噁唑草酮，其是玉米的选择性除草剂，二酮腈(diketonitrile)(EP496630，EP496631)，特别是2-氰基-3-环丙基-1-(2-SO2CH3-4-CF3苯基)丙烷-1，3-二酮和2-氰基-3-环丙基-1-(2-SO2CH3-4-2，3C12苯基)丙烷-1，3-二酮，三酮类(EP625505，EP625508，美国专利No.5,506,195)，特别是磺草酮、和pyrazolinate等除草剂。在植物中产生过量HPPD的基因能够提供针对这些除草剂的耐受性或抗性，包括例如美国专利Nos.6,268,549和6,245,968和美国专利申请公开No.20030066102中描述的基因。

(E)编码针对苯氧基生长素除草剂，如2，4-二氯苯氧基乙酸(2，4-D)的抗性或耐受性的基因，其也可以赋予针对芳氧基苯氧基丙酸类(AOPP)除草剂的抗性或耐受性。这些基因的实例包括α-酮戊二酸依赖性的双加氧酶(aad-1)基因，如美国专利No.7,838,733所述。

(F)编码针对苯氧基生长素除草剂如2，4-二氯苯氧基乙酸(2，4-D)的抗性或耐受性的基因，其也可以赋予针对吡啶基氧基生长素除草剂，如氟草烟或绿草定的抗性或耐受性。这些基因的实例包括α-酮戊二酸依赖性的双加氧酶(aad-12)基因，如WO2007/053482-A2所述。

(G)编码针对麦草畏的抗性或耐受性的基因(见例如美国专利公开No.20030135879)。

(H)编码针对抑制原卟啉原氧化酶(PPO)的除草剂的抗性或耐受性的基因(见美国专利No.5,767,373)。

(I)提供针对可结合光***II反应中心(PS II)核心蛋白质的三嗪除草剂(例如莠去津)和尿素衍生物(如敌草隆)除草剂的抗性或耐受性的基因。见Brussian et al.，(1989)EMBO J.1989，8(4)：1237-1245。

3.可赋予或贡献数量叠加性状(Value Added Trait)的基因

(A)修饰的脂肪酸代谢，例如通过用反义基因或硬脂酰-ACP去饱和酶转化玉米或芸苔属植物从而增加植物的硬脂酸含量(Knultzon et al.，1992)Proc.Nat.Acad.Sci.USA89：2624。

(B)降低的植酸含量

(1)引入植酸酶编码基因，如黑曲霉植酸酶基因(Van Hartingsveldt et al.，1993 Gene 127：87)，提高植酸降解，向被转化植物添加更多游离磷酸盐。

(2)可引入降低植酸含量的基因。在玉米植物中，这可以通过，例如，克隆然后重新导入如下所述的单个等位基因的相关DNA来实现：该单个等位基因导致以植酸水平低为特征的玉米突变体的原因(Raboy et al.，1990 Maydica 35：383)。

(C)改良的碳水化合物组成，例如通过用编码改变淀粉的分支模式的酶的基因转化植物而实现。这些酶的实例包括，粘液链球菌(Streptococcus mucus)果糖基转移酶基因(Shiroza et al.，1988)J.Bacteriol.170：810，枯草芽孢杆菌果聚糖蔗糖酶基因(Steinmetz et al.，1985 Mol.Gen.Genel.200：220)，地衣芽孢杆菌α-淀粉酶(Pen etal.，1992 Bio/Technology 10：292)，番茄转化酶基因(Elliot et al.，1993)，大麦淀粉酶基因(Sogaard et al.，1993 J.Biol.Chem.268：22480)，和玉米胚乳淀粉分支酶II(Fisheret al.，1993 Plant Physiol.102：10450)。

III.重组构建体

如本文中公开的，本公开提供了重组基因组序列，其包含至少1Kb的最优非基因玉米基因组序列和感兴趣的DNA，其中感兴趣的***DNA被***到所述非基因序列中。在一个实施方案中，感兴趣的DNA是分析域、赋予针对有害生物或疾病的抗性的基因或编码序列(例如iRNA)、赋予对除草剂抗性的基因、或赋予或贡献于增值性状的基因，且所述最优非基因玉米基因组序列包含下述特征中的1、2、3、4、5、6、7或8种：

a.该非基因序列长度为约1Kb至约8.3Kb，且不含有甲基化多核苷酸；

b.玉米基因组内，该非基因序列显示0.00041至62.42cM/Mb的重组率；

g.该非基因序列位于基因序列附近，基因序列包含已知的或预测的玉米编码序列，位于包含该天然非基因序列的40Kb的毗连基因组DNA内；和

h.该非基因序列位于玉米基因组序列的1Mb区域中，该区域包含至少第二非基因序列。

在一个实施方案中，所述最优非基因玉米基因组序列的进一步特征是具有这样的基因区，该基因区包含1-9个已知的或预测的玉米编码序列，在包含该天然非基因序列的40Kb的毗连基因组DNA内。在一个实施方案中，所述最优非基因玉米座位选自类簇1，2，3，4，5，6，7，8，9，10，11，2，3，4，5，6，7，8，9，20，21，22，23，24，25，26，27，28，29，30，31或32的座位。

IV.转基因植物

依照本公开的一个实施方案，还提供了包含重组的最优非基因玉米座位的转基因植物。此类转基因植物可以使用本领域技术人员知晓的技术来制备。

转化的玉米细胞、愈伤组织、组织或植物可以通过选择和筛选工程化植物材料中由存在于转化DNA上的标记基因编码的性状而进行鉴定和分离。例如，选择可以通过在含有抑制量的抗生素或除草剂(转化基因构建体赋予对其的抗性)的培养基中生长工程化的植物材料而进行。进一步地，转化的细胞也可以通过筛选任何可见的标记基因(例如黄色荧光蛋白、绿色荧光蛋白、红色荧光蛋白、β-葡糖醛酸糖苷酶，萤光素酶，B或CI基因)的活性而鉴定，其中标记基因可以出现在重组核酸构建体上。这样的选择和筛选方法是本领域技术人员所公知的。

物理和生化方法也可以用于鉴定含有***的基因构建体的植物或植物细胞转化体。这些方法包括但不限于：1)Southern分析或PCR扩增用于检测和测定重组DNA***的结构；2)Northern印迹，S1核糖核酸酶保护(SI RNase protection)，引物延伸或逆转录PCR扩增用于检测或检查基因构建体的RNA转录本；3)检测酶或核酶活性的酶学分析，其中这类基因产物由基因构建体编码；4)蛋白凝胶电泳，Western印迹技术，免疫沉淀，或酶联免疫测定(ELISA)，其中基因构建体产物是蛋白质。其它的技术，例如原位杂交、酶染色和免疫染色，也可以用于检测特定植物器官或组织内重组构建体的存在或表达。用于实施所有这些测定的方法都是本领域技术人员所公知的。

使用本文公开的方法进行基因操作的效果可以通过例如对自感兴趣组织分离的RNA(例如mRNA)的northern印迹观察到。通常，如果mRNA出现或mRNA量增加，可以推定对应的转基因在进行表达。可以使用测量基因和/或编码的多肽活性的其它方法。根据所使用的底物和检测反应产品或副产物的增加或降低的方法，可以使用不同类型的酶学测定。此外，表达的多肽的水平可以通过免疫化学检测，即ELISA，RIA，EIA和其他本领域技术人员所知晓的基于抗体的检测，例如电泳检测方法(结合染色或western印迹)。作为一个非限制性例子，使用ELISA测定检测AAD-1(芳基氧基链烷酸双加氧酶，见WO2005/107437)和PAT(膦丝菌素-N-乙酰转移酶(PAT))蛋白记载于美国专利公开号20090093366，通过引用将其全文纳入本文。转基因可以在植物某些组织或某些发育阶段进行选择性的表达，或者转基因基本在所有的植物组织中表达，基本伴随其整个生命周期。但是，任何组合的表达模式也是可应用的。

本领域技术人员会认识到，在外源多核苷酸供体序列稳定掺入转基因植物并被确认有功能之后，它可以通过有性杂交导入其他植物中。多种育种技术中的任意种均可适用，取决于要杂交的物种。

本发明公开还包括如上面所记载的转基因植物的种子，其中种子具有所述转基因或基因构建体。本发明公开进一步包括如上面所述的转基因植物的后代、克隆、细胞系或细胞，其中所述的后代、克隆、细胞系或细胞具有***到最优基因组座位中的所述转基因或基因构建体。

由上面任何一种转化技术所制备的转化植物细胞能培养并再生为具备转化的基因型和由此所期望的表型的完整植物。这样的再生技术依赖于对组织培养生长培养基中某些植物激素的操纵，典型地依赖于已与期望的核苷酸序列一起导入的生物杀灭剂和/或除草剂标志物。从培养的原生质体的植物再生记载于Evans等人，“Protoplasts Isolationand Culture”于Handbook of Plant Cell Culture，pp.124-176，Macmillian PublishingCompany，New York，1983；和Binding，Regeneration of Plants，Plant Protoplasts，pp.21-73，CRC Press，Boca Raton，1985中。再生还可以获自植物愈伤组织、外植体、器官、花粉、胚，或其部分。这样的再生技术常记载于Klee等人(1987)Ann.Rev.of PlantPhys.38：467-486中。

包含编码多肽的转基因植物或植物材料在某些实施方案中可显示下述的一项或多项特征：在该植物的细胞中表达所述多肽；在该植物的细胞的质体中表达该多肽的一部分；将该多肽从该植物的细胞的胞质溶胶导入到该细胞的质体中；该多肽在该植物的细胞中的质体特异性表达；和/或该多肽定位在该植物的细胞中。这样的植物除了表达该被编码的多肽之外可还具有一种或多种期望的性状。这样的性状可包括，例如：对昆虫、其他有害生物、或致病介质的抗性；对除草剂的耐性；强化的稳定性、产率或货架期；环境耐受性；药物生产；工业产物生产；以及营养强化。

依照一个实施方案，提供转基因玉米原生质体细胞，其包含重组最优非基因玉米座位。更具体地，提供玉米原生质体植物细胞，其包含***到该玉米原生质体细胞的最优非基因玉米基因组座位中的感兴趣的DNA，其中所述非基因玉米基因组座位的长度为约1Kb到约8.3Kb，且缺少任何甲基化核苷酸。在一个实施方案中，所述转基因玉米原生质体细胞包含***到最优非基因玉米基因组座位中的感兴趣的DNA，其中该感兴趣的DNA包含分析域和/或开放阅读框。在一个实施方案中，***的感兴趣的DNA编码肽，在一个进一步的实施方案中，感兴趣的DNA包含至少一个包含转基因的基因表达盒。

依照一个实施方案，提供了转基因玉米植物、玉米植物部分或玉米植物细胞，其包含重组最优非基因玉米座位。更具体地，提供了玉米植物、玉米植物部分或玉米植物细胞，其包含***到该玉米植物、玉米植物部分或玉米植物细胞的最优非基因玉米基因组座位中的感兴趣的DNA，其中所述非基因玉米基因组座位的长度为约1Kb到约8.5Kb，且缺少任何甲基化核苷酸。在一个实施方案中，所述转基因玉米植物、玉米植物部分或玉米植物细胞包含***到所述最优非基因玉米基因组座位中的感兴趣的DNA，其中该感兴趣的DNA包含分析域和/或开放阅读框。在一个实施方案中，***的感兴趣的DNA编码肽，且在一个进一步的实施方案中，感兴趣的DNA包含至少一个包含转基因的基因表达盒。

依照实施方案1，提供了一种重组序列，其中所述重组序列包含：与选自loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ IDNO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQID NO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ ID NO：424)，loci_232228_G1(SEQ ID NO：4529)的非基因序列有至少90％、95％或99％序列同一性的至少1Kb的核酸序列，以及感兴趣的DNA，其中感兴趣的DNA***在所述非基因序列中以产生所述重组序列。依照实施方案2，提供了实施方案1的重组序列，其中所述感兴趣的DNA***在对该非基因序列特异的锌指靶位点、更具体地说表8的锌指靶位点的邻近处。依照实施方案3，提供了实施方案1的重组序列，其中还所述感兴趣的DNA***在成对的对所述非基因序列特异的锌指靶位点之间，更具体地说是成对的来自表8的锌指靶位点之间。依照一个实施方案，提供了一种重组序列，其中所述重组序列由这样的核酸序列组成：至少1Kb，且与存在于选自loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQ ID NO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ IDNO：424)，loci_232228_G1(SEQ ID NO：4529)的非基因序列中的序列有100％同一性，以及感兴趣的DNA，其中该感兴趣的DNA***在所述非基因序列中以产生所述的重组序列。

依照实施方案4，提供了实施方案1、2或3中任一项的重组序列，其中所述感兴趣的DNA包含分析域。依照实施方案5，提供了实施方案1、2或3中任一项的重组序列，其中所述感兴趣的DNA不编码肽。依照实施方案6，提供了实施方案1、2或3中任一项的重组序列，其中所述感兴趣的DNA编码肽。依照实施方案7，提供了实施方案6的重组序列，其中所述感兴趣的DNA包含基因表达盒，所述基因表达盒包含杀虫剂抗性基因、除草剂耐性基因、氮利用效率基因、水分利用效率基因、营养品质基因、DNA结合基因、或选择标志物基因。依照实施方案8，提供实施方案1-7中任一项的重组序列，其中所述感兴趣的DNA包含两个或多个基因表达盒。依照实施方案9，提供实施方案8的重组序列，其中两个或更多个所述的非基因序列各自包含感兴趣的DNA，以产生两个或更多个重组序列，其中该两个或更多个重组序列位于相同的染色体上。依照实施方案10，提供实施方案1-7中任一项的重组序列，其中所述感兴趣的DNA和/或所述非基因序列在所述感兴趣的DNA***所述非基因序列的过程中被修饰。依照实施方案11，提供玉米植物、玉米植物部分或玉米植物细胞，其包含实施方案1-10中任一项的重组序列。依照实施方案12，提供一种制造包含感兴趣的DNA的转基因植物细胞的方法，其中所述方法包括从loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQ ID NO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ ID NO：424)，loci_232228_G1(SEQ ID NO：4529)中选择具有至少90％、95％或99％序列同一性的靶非基因玉米基因组座位，选择特异性结合并切割所述靶非基因玉米基因组座位的位点特异性核酸酶，任选地，自表8选出的位点特异性核酸酶，将所述位点特异性核酸酶导入玉米植物细胞，将该感兴趣的DNA***所述靶非基因玉米基因组座位中，并选择包含被靶向到所述非基因座位的感兴趣的DNA的转基因植物细胞。依照实施方案18，实施方案12的制造转基因植物细胞的方法，其中所述位点特异性核酸酶选自下组：锌指核酸酶、CRISPR核酸酶、TALEN、归巢内切核酸酶、或大范围核酸酶。依照实施方案19，实施方案12或18的制造转基因植物细胞的方法，其中所述感兴趣的DNA通过同源性指导的修复重组法整合在所述非基因座位内。依照实施方案20，实施方案12或18的制造转基因植物细胞的方法，其中所述感兴趣的DNA通过非同源末端连接整合法整合在所述非基因座位内。依照实施方案21，实施方案12、18、19或20的制造转基因植物细胞的方法，其中两个或更多个所述的感兴趣的DNA***在两个或更多个所述的靶非基因玉米基因组座位内，任选地，其中两个或多个所述的靶非基因玉米基因组座位位于相同的染色体上。

依照实施方案1，提供至少1Kb的纯化的非基因玉米序列，其与选自下组的非基因序列具有至少90％、95％、或99％序列同一性：loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ IDNO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQ ID NO：4425)，loci_203704_G1(SEQID NO：2033)，loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ ID NO：424)，loci_232228_G1(SEQ ID NO：4529)。依照一个实施方案，提供纯化的非基因玉米序列，其中所述序列由至少1Kb的核酸序列组成，所述核酸序列与存在于选自下组的非基因序列中的序列具有100％百分比同一性：loci_137693_G1(SEQ ID NO：387)，loci_265551_G1(SEQ ID NO：463)，loci_128078_G1(SEQ ID NO：560)，loci_168286_G1(SEQ ID NO：573)，loci_3733_G1(SEQ ID NO：1268)，loci_203075_G1(SEQ ID NO：2030)，loci_232484_G1(SEQ ID NO：2053)，loci_136086_G1(SEQ ID NO：4425)，loci_203704_G1(SEQ ID NO：2033)，loci_127268_G1(SEQ ID NO：2709)，loci_204637_G1(SEQ ID NO：2731)，loci_291068_G1(SEQ ID NO：3230)，loci_232222_G1(SEQ ID NO：3357)，loci_43577_G1(SEQ ID NO：3428)，loci_204726_G1(SEQ IDNO：424)，loci_232228_G1(SEQ ID NO：4529)。

实施例

实施例1：玉米中可靶向的座位座位的鉴定

利用生物信息学手段筛选玉米基因组，使用特定的标准来选择用于多核苷酸供体靶向的最优基因组座位。用于选择基因组座位的特定标准是应用下述各项开发的：为了转基因在植物基因组内的最优表达的考虑因素、为了位点特异性DNA结合蛋白与基因组DNA最优结合的考虑因素、以及转基因植物产物开发要求。为了鉴定和选择基因组座位，使用生物信息学手段扫描玉米基因组的基因组数据集和表基因组数据集，基因组的基因组数据集和表基因组数据集的扫描结果得到了符合下述标准的选定座位：1)低甲基化且长度大于1Kb；2)可通过多核苷酸供体的位点特异性核酸酶介导整合而靶向；3)农艺学上中性或非基因性；4)整合的转基因可以从其表达的区域；和5)在座位内/周围有重组的区域。相应地，使用这些特定的标准鉴定了共7018个基因组座位(SEQ ID NO：1-SEQ ID NO：5,286)。这些特定标准在下文中进一步详细描述。

低甲基化

扫描玉米基因组以选择大于1Kb的DNA低甲基化的最优基因组座位。利用Illumina^TM/Solexa^TM 1G平行测序数据，通过生物信息学方法全面调查从玉米栽培种B73分离的芽和根组织的基因组范围DNA甲基化水平。根据Wang et al.，(2009)Genome-Wide andOrgan-Specific Landscapes of Epigenetic Modifications and Their Relationshipsto mRNA and Small RNA Transcriptomes in Maize.Plant Cell 21(4)：1053-1069)中详述的规程，从分离自上述的玉米植物组织的基因组DNA产生数据。这些数据可以在NCBIGenbank，Accession No；GEO：GSE15286访问。利用如Krueger F，Andrews SR(2011)Bismark：a flexible aligner and methylation caller for Bisulfite-Seqapplications.(Bioinformatics 27：1571-1572)中描述的Bismark^TM定位软件将原始测序读段收集并定位到玉米栽培种B73参照基因组。

基因组中每个胞嘧啶的甲基化水平作为定位到特定胞嘧啶碱基位置的甲基化读段的数目占定位到该位置的读段的总数的百分比来计算。下面的假设情况解释了如何计算玉米基因组内的每个碱基的甲基化水平。例如，设想在玉米栽培种B73参照序列的染色体1中第100位上有一个胞嘧啶碱基。如果总共有20个读段定位到第100位的胞嘧啶碱基，且这些读段中10个是甲基化的，则估计染色体1中第100位的胞嘧啶碱基的甲基化水平为50％。相应地，计算了获自玉米的根和芽组织的所有基因组DNA碱基对的甲基化概貌。无法正确定位到玉米基因组中的独特位置的读段与玉米基因组中广泛分布的重复序列相符，已知这些读段大多是甲基化的。

使用上述的规程，测量了玉米栽培种B73基因组的甲基化水平。如此，玉米基因组中含有甲基化读段的区域表明玉米基因组的这些区域是甲基化的。反过来，玉米基因组的没有甲基化读段的区域表明玉米基因组的这些区域是非甲基化的。来自芽和根组织的玉米基因组中的非甲基化、且不含有任何甲基化读段的区域视为“低甲基化”区域。为了让根和芽甲基化概貌能够用于可视化，对每个玉米栽培种B73染色体生成了摆动作图(wiggleplots)(http://useast.ensembl.org/info/website/upload/wig.html)。图1中显示了从玉米栽培种B73染色体1号染色体获得的根和芽组织的DNA甲基化概貌的摆动作图。

将如上所述建立的玉米栽培种B73根和芽组织的甲基化概貌合并成为共有(consensus)甲基化概貌，用来鉴定玉米栽培种B73基因组中的低甲基化区。对所得的玉米基因组共有甲基化概貌进行扫描以鉴定没有甲基化证据，即不含有被定位的甲基化读段的基因组位置。鉴定了长度大于100bp的低甲基化的基因组DNA节段。通过确定两个显示甲基化证据的基因组区域之间的总碱基对数来计算这些低甲基化区的具体长度。表1总结了鉴定出的低甲基化区。此外，图2中显示了玉米栽培种B37基因组的低甲基化区的长度的分布情况。

表1.玉米栽培种B73基因组的低甲基化概貌

对玉米栽培种B73基因组的这些低甲基化区域进一步表征以鉴定并选择特定的基因组座位，因为这些区域的无甲基化的环境提示开放的染色质的存在。如此，所有后续的分析均对鉴定出的低甲基化区域进行。

可靶向性(targetability)

进一步分析在玉米栽培种B73中鉴定出的低甲基化位点，以确定哪些位点可通过位点特异性核酸酶介导的多核苷酸供体重组来靶向。本领域知晓玉米基因组含有大段的甲基化的高度重复DNA，且具有高水平的序列重复。从玉米基因组数据库(来源：http://www.maizegdb.org/，以及Lawrence，CJ et al(2008)MaizeGDB：The Maize ModelOrganism Database for Basic，Translational，and Applied Research.Int J PlantGenomics.2008：496957)收集玉米基因组中已知的重复区域的注释信息。

相应地，对上文鉴定的低甲基化位点进行筛选，以去除任何与玉米基因组上已注释的已知重复区域对齐的位点。接下来利用基于BLAST^TM的玉米基因组数据库同源性检索对通过此初筛后剩余的低甲基化位点进行扫描，检索使用NCBI BLAST^TM+软件(2.2.23版本)以默认的参数设定来运行(Stephen F.Altschul et al(1997)Gapped BLAST and PSI-BLAST：a new generation of protein database search programs.Nucleic AcidsRes.25：3389-3402)。该BLAST^TM筛选的结果是，任何在基因组中别处有显著匹配，序列比对覆盖率超过40％的低甲基化位点均被从进一步研究除去。

农艺学中性或非基因性

进一步分析玉米栽培种B73中鉴定出的低甲基化位点以确定哪些位点是农艺学中性或非基因性的。如此，对上文描述的低甲基化位点进行了筛选，以去除与任何已知的或预测的玉米栽培种B73编码序列重叠、或含有任何已知的或预测的玉米栽培种B73编码序列的任何位点。为此目的，从“玉米基因组数据库”(来源：www.maizegdb.org以及Monaco，M.，etal.，Maize Metabolic Network Construction and Transcriptome Analysis.doi：10.3835/plantgenome2012.09.0025；2013年1月23日在线公布)收集已知基因的注释数据和表达序列标签(EST)数据的定位信息。任何在某一开放阅读框的直接2Kb上游和1Kb下游的基因组区域也加以考虑。这些上游和下游区域可能含有已知的或未知的对基因功能必不可少的保守调控元件。对前面已描述的低甲基化位点分析已知基因(包括2Kb上游和1Kb下游区域)和EST的存在。将任何与已知基因(包括2Kb上游和1Kb下游区域)或EST对齐或重叠的低甲基化位点从下游分析中去除。

表达

进一步分析玉米栽培种B73中鉴定出的低甲基化位点以确定哪些位点处于表达的玉米基因的邻近。通过对利用RNAseq^TM技术从玉米栽培种B73根和芽组织产生的转录组概貌数据加以分析来测量玉米基因的转录物表达水平，RNAseq^TM技术如Wang et al.，(2009)Genome-Wide and Organ-Specific Landscapes of Epigenetic Modifications andTheir Relationships to mRNA and Small RNA Transcriptomes in Maize.PlantCell.21(4)：1053-1069所述。对于每个低甲基化位点完成了分析，鉴定出在该低甲基化位点邻近40Kb区域内的任何已注释的基因，并鉴定位于该低甲基化位点邻近的已注释基因的平均表达水平。将与具有非零平均表达水平的已注释基因相距大于40Kb的低甲基化位点确定为不与表达的玉米基因邻近，将这些位点从进一步的分析移除。

重组

进一步分析玉米栽培种B73中鉴定出的低甲基化位点以确定哪些位点具有重组的证据，并能够帮助最优基因组座位通过常规育种向其他玉米品系中的渗入。在常规育种中为了开发含有具备农艺学意义的性状的、新的改良玉米品系，经常将多种多样的玉米基因型杂交。因此，通过植物介导的转基因转化而渗入到玉米品系中最优基因组座位内的农艺学性状应当能够通过常规植物育种中的减数***重组而进一步渗入到其他玉米品系，尤其是优良品系中。对上述的低甲基化位点进行了筛选，以鉴定并选择具备一定水平的减数***重组的位点。鉴定并去除被表征为重组“冷点”(cold-spots)的染色体区域内存在的任何低甲基化位点。在玉米中，这些冷点使用从多重定位群体(Jafar Mammadov，Wei Chen，Anastasia Chueva，Karthik Muthuraman，Ruihua Ren，David Meyer，and SivaKumpatla.2011.Distribution of Recombinant Frequencies across the MaizeGenome.52nd Annual Maize Genetics Conference))产生的高分辨率标记物数据集来定义。

基于标记物之间的遗传距离(以厘摩(cM)计)与标记物之间的物理距离(以兆碱基数(Mb)计)的比计算了整个染色体上任何成对的玉米基因组标记物之间的减数***重组频率。例如，如果一对标记物之间的遗传距离是1cM，且同一对标记物之间的物理距离是2Mb，则计算的重组频率确定为0.5cM/Mb。对于上面鉴定的每个低甲基化位点，选择一对分开至少1Mb的标记物，计算重组频率。利用这种方法的调用来计算低甲基化位点的重组频率。鉴定任何重组频率0.00041cM/Mb的低甲基化位点，并将其从进一步的分析去除。选择剩下的包含大于0.00041cM/Mb重组频率的低甲基化区域用于进一步分析。

最优基因组座位的鉴定

应用上文所述的选择标准的结果，从玉米基因组鉴定了总共52,885个最优基因组座位。表2总结了鉴定的最优基因组座位的长度。这些最优基因组座位具有下述特征：1)长度大于1Kb的低甲基化基因组座位；2)可通过多核苷酸供体的位点特异性核酸酶介导整合而靶向的基因组座位；3)农艺学上中性或非基因性的基因组座位；4)可以从其表达转基因的基因组座位；和5)该基因组座位内重组的证据。在表2中描述的所有最优基因组座位中，只有长度大于1Kb的最优基因组座位得到进一步分析并用于供体多核苷酸序列的靶向。这些最优基因组座位的序列作为SEQ ID NO：1-SEQ ID NO：5,286公开。总的来说，这些最优基因组座位是玉米基因组内能够用供体多核苷酸序列靶向的位置，如本文下面要进一步展示的。

表2列出了在玉米基因组中鉴定的低甲基化、显示重组的证据、可靶向、农艺学中性或非基因性、且位于表达的内源基因附近的最优基因组座位的大小范围。

大于100Bp的最优基因组座位数	52,885
		大于1Kb的最优基因组座位数	5,286
大于2Kb的最优基因组座位数	770
		大于4Kb的最优基因组座位数	16

实施例2：用于聚类来自玉米的最优基因组座位的F-分布和主成分分析

对5,286个鉴定的最优基因组座位(SEQ ID NO：1-SEQ ID NO：5,286)使用F-分布和主成分分析统计学方法进一步加以分析，以定义用于将这些最优基因组座位分组的代表性群体和类簇。

F-分布分析

使用连续概率分布统计学分析来对鉴定出的5,286个最优基因组座位进行统计学分析。作为连续概率分布统计学分析的一个实施方案，完成了F-分布检验来确定最优基因组座位的代表性数目。F-分布检验分析使用本领域技术人员知晓的等式和方法来完成。关于更多的指导，K.M Remund，D.Dixon，DL.Wright and LR.Holden.Statisticalconsiderations in seed purity testing for transgenic traits.Seed ScienceResearch(2001)11，101-119(通过提述将其并入本文)中描述的F-分布检验分析是F-分布检验的一个非限定性实例。F-分布检验假定对最优基因组座位的随机取样，使得任何无效的座位在全部5,286个最优基因组座位中均匀分布，且使得被取样的最优基因组座位数目是5,286个最优基因组座位群体总数的10％或更少。

F-分布分析表明5,286个最优基因组座位中的72个可提供该5,286个最优基因组座位的代表性数目，置信水平为95％。相应地，该F-分布分析显示，如果测试72个最优基因组座位且它们全部可用供体多核苷酸序列靶定，那么这些结果可说明该5,286个最优基因组座位中的96％或更多在95％置信水平上是阳性的。对5,286个最优基因组座位验证有效的总百分比的最佳估计是：如果72个受检验的最优基因组座位100％是可靶向的。相应地，96％真正是95％置信水平下验证有效的真实百分比的下边界。该下边界对95％置信水平而言是基于F-分布的0.95百分位(Remund K，Dixon D，Wright D，and Holden L.Statisticalconsiderations in seed purity testing for transgenic traits.Seed ScienceResearch(2001)11，101-119)。

主成分分析

接下来，完成了主成分分析(PCA)统计学方法，以进一步评估并可视化包含5,286个鉴定出的最优基因组座位的数据集的相似性和差异，以使得对多样性的座位取样用于靶向验证成为可能。PCA涉及一种数学算法，其将大数目的相关变量转换为较小数目的不相关变量，后者称为主成分。

如下所述对5,286个鉴定出的最优基因组座位完成PCA：产生一组能够用来描述该5,286个鉴定出的最优基因组座位的可计算的特征或者属性。每种特征都是可以数值计算的，并且专门加以定义以捕捉该5,286个鉴定出的最优基因组座位的基因组及表基因组环境。为每个玉米最优基因组座位鉴定了一组10个特征，它们在下文中更详细地描述。

1.最优基因组座位的长度

a.该数据集中最优基因组座位的长度范围从最小1,000Bp到最大8,267Bp。

2.最优基因组座位周围1MB区域中的重组频率

a.在玉米中，染色***置的重组频率用从多重定位群体生成的内部高分辨率标记组数据集来定义(Jafar Mammadov，Wei Chen，Anastasia Chueva，Karthik Muthuraman，Ruihua Ren，David Meyer，and Siva Kumpatla.2011.Distribution of RecombinantFrequencies across the Maize Genome.52nd Annual Maize Genetics Conference)。

b.整个染色体上任何成对标记物的重组频率基于标记物之间的遗传距离(以厘摩(cM)计)与标记物之间的物理距离(以Mb计)之比来计算。例如，如果一对标记物的遗传距离是1cM，且同一对标记物之间的物理距离是2Mb，则计算得到的遗传频率是0.5cM/Mb。对于每个最优基因组座位，选择分开至少1Mb的一对标记物，并以该方式计算重组频率。这些重组值的范围从最小0.00041cM/Mb到最大62.42cM/Mb不等。

3.最优基因组座位序列独特性的水平

a.对于每个最优基因组座位，利用基于BLAST^TM的同源性检索将该最优基因组座位的核苷酸序列对玉米栽培种B73基因组进行扫描，检索使用NCBI BLAST^TM+软件(2.2.23版本)以默认的参数设定来运行(Stephen F.Altschul et al(1997)，″Gapped BLAST andPSI-BLAST：a new generation of protein database search programs″，Nucleic AcidsRes.25：3389-3402)。因为这些最优基因组座位序列是从玉米栽培种B73基因组鉴定出来的，故通过该检索鉴定出来的第一个BLAST^TM命中代表玉米栽培种B73序列本身。鉴定出每个最优基因组座位的第二个BLAST^TM命中，并使用该命中的对齐覆盖度(用该最优基因组座位被该BLAST^TM命中所覆盖的百分比表示)作为该最优基因组座位在玉米基因组中独特性的量度。第二个BLAST^TM的这些对齐覆盖度值的范围是从最小0％到最大39.98％序列同一性。任何以更高的序列同一性水平对齐的序列均不予考虑。

4.最优基因组座位到其附近的最接近基因的距离

a.从玉米基因组数据库(来源www.maizegdb.org，以及Monaco，M.，et al.，MaizeMetabolic Network Construction and Transcriptome Analysis.doi：10.3835/plantgenome2012.09.0025；2013年1月23日在线公布)提取基因注释信息和玉米基因组中已知基因的位置。对于每个最优基因组座位，鉴定最接近的已注释基因，其中上游和下游位置均考虑在内，并测量最优基因组座位序列与该基因之间的距离(以Bp计)。例如，如果最优基因组座位位于染色体1上从第500位到1500位，且与该最优基因组座位最接近的基因位于染色体1上从第2000位到第3000位，则从最优基因组座位到该最接近基因的距离算得为500Bp。对于所有5,286个最优基因组座位数据集，这些值的范围从最小1001Bp到最大34,809Bp。

5.最优基因组座位中的GC％

a.对于每个最优基因组座位，分析核苷酸序列以估计存在的鸟嘌呤和胞嘧啶碱基数。该计数表示为占每个最优基因组座位的序列长度的百分比，且提供了GC％的一个量度。玉米最优基因组座位数据集的这些GC％值的范围是25.17％至68.3％。

6.最优基因组座位序列周围40Kb附近区域中的基因数

a.从玉米基因组数据库提取基因注释信息和已知基因在玉米栽培种B73基因组中的位置。对于5,286个最优基因组座位中的每一个，定义最优基因组座位序列周围的一个40Kb窗口，计算具有与该窗口重叠的位置的已注释基因的数目。这些值的范围从在40Kb附近区域中最少1个基因到最多9个基因。

7.最优基因组座位周围40Kb附近区域的平均基因表达

a.使用RNAseq^TM技术，通过分析从玉米栽培种B73根和芽组织产生的转录组概貌数据来测量玉米基因的转录物表达水平(Mortazavi，A.et al.，Mapping and quantifyingmammalian transcriptomes by RNA-Seq.Nat.Methods.5，621-628(2008)；Wang et al.，Genome-Wide and Organ-Specific Landscapes of Epigenetic Modifications andTheir Relationships to mRNA and Small RNA Transcriptomes in Maize.PlantCell.2009April；21(4)：1053-1069)。从玉米座位数据库提取基因注释信息和已知基因在玉米栽培种B73基因组中的位置。对于每个最优基因组座位，鉴定在玉米栽培种B73基因组中该最优基因组座位周围40Kb附近区域中存在的已注释基因。从前面的引文中描述的转录组概貌中提取这些基因中每一个的表达水平，并计算平均基因表达水平。所有基因在玉米的基因组中的表达值变化巨大。最小表达值为0，最大表达值为2511.397，平均表达值为18.489，中位表达值为3.604。对于全部5,286个最优基因组座位数据集，平均表达值的范围从最小0.00369到最大2233.06。

8.最优基因组座位周围的核小体占据水平

a.对特定核苷酸序列的核小体占据水平的理解可提供关于染色体功能和该序列的基因组环境的信息。使用NuPoP^TM统计学程序包为任何大小的基因组序列预测核小体占据和最似然的核小体定位图(Xi，L.，Fondufe-Mittendor，Y.，Xia，L.，Flatow，J.，Widom，J.and Wang，J.-P.，Predicting nucleosome positioning using a duration HiddenMarkov Model，BMC Bioinformatics，2010，doi：10.1186/1471-2105-11-346)。对于5,286个最优基因组座位中的每一个，将核苷酸序列提交供NuPoP^TM软件分析，计算核小体占据得分。最优玉米基因组座位数据集的这些核小体占据得分的范围从最小0到最大0.962。

9.染色体内的相对位置(对着丝粒的接近度)

a.着丝粒是染色体上连接两个姐妹染色单体的区域。着丝粒每一侧的染色体部分被称为染色体臂。在已公布的玉米栽培种B73参照序列(Schnable，P.，et al.，(2009)TheB73maize genome：complexity，diversity and dynamics.Science，326(5956)：1112-1115)中鉴定了全部10条玉米染色体上着丝粒的基因组位置。从玉米基因组数据库提取了关于着丝粒在每个玉米染色体中的位置，以及染色体臂的长度的信息。对于每个最优基因组座位，测量从最优基因组座位序列到其所在的染色体的着丝粒的基因组距离(以bp计)。最优基因组座位在染色体内的相对位置表示为其到着丝粒的基因组距离相对于其所在的具体染色体臂的长度之比。该玉米最优基因组座位数据集的这些相对位置值的范围从最小0.00373到最大0.99908的基因组距离比。

10.最优基因组座位周围1Mb区域中最优基因组座位的数目

a.对于每个最优基因组座位，定义最优基因组座位位置周围的1Mb基因组窗口，并统计该区域内存在的或与该区域重叠的其他更多的最优基因组座位，包括在考虑中的最优基因组座位。1Mb中最优基因组座位的数目范围从最小1到最大22。

使用如上所述的特征和属性分析了全部5,286个最优基因组座位。表3(通过提述将其作为另行电子提交的文件并入)中进一步描述了每个最优基因组座位的特征和属性评分的结果或值。将所得的数据集用于PCA统计学方法以将该5,286个鉴定出的最优基因组座位聚类成类簇。在聚类过程中，在估计了最优基因组座位的“p”主成分之后，将最优基因组座位指配到32个类簇之一的过程在“p”维欧几里得空间中进行。将每个“p”轴分解为“k”个区间。将被指配到相同区间的最优基因组座位组合到一起形成类簇。使用该分析，每个PCA轴被分为两个区间，根据关于实验验证所需的类簇数的事先信息加以选择。所有分析和对所得的类簇的可视化均使用来自Chemical Computing Group Inc.(Montreal，Quebec，Canada)的Molecular Operating Environment^TM(MOE)软件来实施。

利用该PCA途径将5,286个最优玉米基因组座位基于它们的特征值(如上所述)聚类成32个独特的类簇。在PCA过程中，产生了5个主成分(PC)，其中最先3个PC含有数据集中总变异的约90％(表4)。用这3个PC在3维作图中图形化表现所述32个类簇(见图3)。在聚类过程完成之后，从每个类簇选择一个代表性的最优基因组座位。这通过用计算机方法选择每个类簇内与该类簇的形心最接近的选定最优基因组座位来进行(表4)。32个代表性的最优基因组座位的染色***置在10个玉米染色体中分布均匀且不偏向任何特定的基因组位置，如图4所示。

表4.从PCA鉴定的32种玉米代表性最优基因组座位的描述

用于靶向多核苷酸供体多核苷酸序列的72个基因组座位的最终选择

从聚类成32个独特类簇的5,286个基因组座位中鉴定并选择了总共72个基因组座位，以用于供体多核苷酸序列的靶向。对于该32个类簇中的每一个，选择了代表性的基因组座位(与该类簇的形心最近的32个代表性基因组座位，如上文表4中所述)以及每个类簇内的额外基因组座位。所述额外最优基因组座位是通过下述方式选择的：首先用5,286个选定的最优基因组序列筛选一个全基因组数据库，该数据库由玉米栽培种Hi-II(靶向筛选系)和玉米栽培种B104(转化系)的基因组DNA序列数据构成，以确定覆盖度(有多少最优基因组座位在两种基因组中均存在)和来自这两个系的基因组中的序列同一性的百分比。选择具有100％覆盖度(最优座位的序列全长在两种基因组之间对齐)且在Hi-II和B104基因组数据库中均有100％同一性的额外最优基因组座位用于靶向验证(图5)。相比之下，少数代表性基因组座位在Hi-II和B104基因组数据库中均具有少于100％覆盖度和同一性的序列同一性(图5)。其他标准，如基因组座位大小，独特性的程度，GC％含量和最优基因组座位的染色体分布，也在选择其他最优基因组座位时考虑。72个选定最优基因组座位的染色***置以及每个玉米最优基因组座位的具体基因组构型分别示于图6和表5。

表5.选用于靶向验证的选定玉米最优基因组座位的描述。在该表中列出的这些最优基因组座位中，72个玉米最优基因组座位可以代表总共5,286个经鉴定的玉米选定最优基因组座位。

使用精密基因组工程化技术(precision genome engineering technologies)在玉米基因组中鉴定了一大组5,286个基因组位置，作为用供体多核苷酸序列靶向的最优基因组座位。利用统计学分析途径将选出的5,286基因组座位分组成72个具有相似的基因组上下文的类簇，并鉴定出了能代表该5,286个选定的基因组座位的集合的72个选定的基因组座位。通过用供体多核苷酸序列进行靶向，验证了这32个代表性座位是最优基因组座位。为前述的十组特征或属性生成了数值，对这些数值进行了PCA统计学分析，由此将这十种特征或属性计算成具有较少维数的PCA成分。如此，PCA成分被降低为可代表如上所述的十种特征或属性的5个维度(表6)。每个PCA成分等同于上述十种特征或属性的一个组合。从这些包含5个维度的PCA成分，如通过PCA统计学分析所计算的，确定出所述32个类簇。

实施例3：用于结合玉米中的基因组座位的锌指的设计

如前人所述设计针对鉴定出的代表性基因组座位的DNA序列的锌指蛋白。参见例如Urnov et al.，(2005)Nature 435：646-551。示例性的靶序列和识别螺旋示于表7(识别螺旋区域设计)及表8(靶位点)。在表8中，靶位点中被ZFP识别螺旋所接触的核苷酸以大写字母表示，非接触的核苷酸以小写字母表示。对前述的所有72个选定的基因组座位设计了锌指核酸酶(ZFN)靶位点。开发并测试了许多ZFP设计并加以测试，以鉴定以最高水平的效率与如上所述在玉米中鉴定并选出的72种不同的代表性基因组座位靶位点结合的锌指。将与锌指识别序列以最高效率水平结合的特定ZFP识别螺旋(表7)用于供体序列在玉米基因组内的靶向和整合。

表7.针对玉米选定的基因组座位的锌指设计(N/A表示“不适用”)。应当注意，用星号(*)标识的ZFP识别螺旋是设计为靶向并整合供体序列，但在这些基因组座位中的供体整合尚未完成。

表8.玉米选定的基因组座位的锌指蛋白靶位点

将玉米代表性基因组座位锌指设计组入到锌指表达载体中，该载体编码具有至少一个具有CCHC结构的指的蛋白。参见，美国专利公开号2008/0182332。具体地，每个蛋白的最后一个指具有用于识别螺旋的CCHC骨架。将编码非经典锌指的序列与IIS型限制酶FokI的核酸酶域(Wah et al.，(1998)Proc.Natl.Acad.Sci.USA 95：10564-10569的序列的氨基酸384-579)介由四个氨基酸的ZC接头及来源于玉米的opaque-2核定位信号融合，形成锌指核酸酶(ZFN)。参见美国专利7,888,121。选择针对各种功能域的锌指供体内使用。在设计、产生并测试对推定的基因组靶位点的结合的多种ZFN中，表8中所述的ZFN被鉴定为具有体内活性，并被定性为在植物体中能够高效地结合并切割独特的玉米基因组多核苷酸靶位点。

ZFN构建体组装

利用本领域公知的技术和工艺(参见例如Ausubel或Maniatis)设计并完成了如前所述鉴定的含有ZFN基因表达构建体的质粒载体。将每个ZFN编码序列与编码opaque-2核定位信号的序列融合(Maddaloni et al.，(1989)Nuc.Acids Res.17：7532)，后者定位于锌指核酸酶的上游。非经典锌指编码序列融合于IIS型限制酶FokI的核酸酶域(Wah et al.(1998)Proc.Natl.Acad.Sci.USA 95：10564-10569的序列的氨基酸384-579)。融合蛋白的表达由玉米泛素基因-1的强组成型启动子(其包括5’非翻译区(UTR)(Toki et al.，(1992)Plant Physiology 100；1503-07))驱动。该表达盒还包括来自玉米过氧化物酶5基因(Per5)基因(美国专利公布号2004/0158887)的3’UTR(包括转录终止子和多腺苷酸化位点)。在克隆到该构建体内的两个锌指核酸酶融合蛋白之间添加来自明脉扁刺蛾(Thoseaasigna)病毒编码自水解性2A的核苷酸序列(Szymczak et al.，(2004)NatBiotechnol.22：760-760)。

使用IN-FUSIONTM Advantage Technology(Clontech，Mountain View，CA)组装质粒载体。限制性内切核酸酶获自New England BioLabs(Ipswich，MA)，DNA连接使用T4DNA连接酶(Invitrogen，Carlsbad，CA)。质粒的制备使用Plasmid Kit(Macherey-Nagel Inc.，Bethlehem，PA)或Plasmid Midi Kit(Qiagen)根据供应商的说明进行。在琼脂糖Tris-乙酸盐凝胶电泳后使用QIAquick Gel Extraction Kit^TM(Qiagen)分离DNA片段。所有连接反应的菌落通过小提DNA的限制酶消化来初步筛选。将选出的克隆的质粒DNA交由测序供应商(Eurofins MWG Operon，Huntsville，AL)测序。使用SEQUENCHER^TM软件(Gene Codes Corp.，Ann Arbor，MI)组合并分析序列数据。

通过限制酶消化且通过DNA测序构建并验证了质粒。

通过自动化工作流程的锌指克隆

锌指核酸酶载体的一个子集是通过自动化DNA构建管道来克隆的。总的来说，通过自动化管道构建的载体的ZFN构架与前文所述的相同。将每个锌指单体-其赋予ZFN的DNA结合特异性-在KPF氨基酸基序处分割为2-3个独特的序列。修饰ZFN片段的5’和3’末端以包含BsaI识别位点(GGTCTCN)以及衍生的突出端。突出端的分布使得包含6-8个部分的组装体只会产生期望的全长表达克隆。修饰的DNA片段从头合成(Synthetic GenomicsIncorporated，La Jolla，CA)。在所有玉米ZFN构建物中使用单一的玉米骨架，pDAB118791。它含有ZmUbi1启动子以及Opaque2NLS，还有FokI域以及ZmPer5 3’UTR。在Opaque2NLS和FokI域之间克隆有被BsaI侧翼的来自枯草杆菌的SacB基因。将推定的连接事件在含蔗糖的培养基上铺板之后，SacB盒充当减少或消除载体骨架污染的负选择剂。另一种在所有构建物中被重复使用的部分是pDAB117462。该载体含有第一单体Fok1域、t2A反向螺旋序列(stutter sequence)，以及第二单体Opaque2NLS，它们都被BsaI位点侧翼。

使用这些材料作为ZFN DNA部分文库，由一台Freedom Evo(TECAN，Mannedorf，Switzerland)操作从带2D条形码的管向PCR平板中(ThermoFisher，Waltham，MA)添加75-100ng的每种DNA质粒或合成片段。向反应中加入补充有牛血清白蛋白(NEB，Ipswich，MA)及T4DNA连接酶缓冲液(NEB，Ipswich，MA)的BsaI(NEB，Ipswich，MA)和T4DNA连接酶(NEB，Ipswich，MA)。将反应置于C1000Touch Thermo(BioRad，Hercules CA)中进行37℃温育3分钟和16℃4分钟的循环(25X)。连接后的材料在Top10(LifeTechnologies Carlsbad，CA)中通过手工或使用Qpix460菌落挑取器和LabChip(Perkin Elmer，Waltham，MA)进行转化和筛选。对正确消化的菌落进行序列验证并提供用于植物转化。

通用供体构建体组装

为了支持对大数目的靶座位的快速测试，设计并构建了一种新的、灵活的通用供体***序列。该通用供体多核苷酸序列与高通量载体构建方法学及分析兼容。通用载体***由至少三个模块域组成：一个可变的ZFN结合域，一个不可变的分析与用户定义特征域，以及一个用于载体规模放大的简单质粒骨架。非可变通用供体多核苷酸序列对所有供体是相同的，这样就能够设计可以在所有玉米靶位点中通用的有限的一组测定，从而为靶向评估提供均一性，并减少分析循环次数。这些域的模块性为高通量供体组装提供了条件。此外，通用供体多核苷酸序列有其他以简化下游分析和改善结果解释为目标的独特特征。它含有不对称的限制性位点序列，借助该序列可以将PCR产物消化到诊断性预测得出的大小。处于包含预期在PCR扩增中会出问题的二级结构的序列。通用供体多核苷酸序列的尺寸小(低于3.0Kb)。最后，将通用供体多核苷酸序列构建到高拷贝pUC19骨架上，这样可以及时地集聚大量的测试DNA。

作为一个实施方案，提供了SEQ ID NO：5418和图7作为包含通用供体多核苷酸序列的质粒的一个实例。在一个其他实施方案中，提供：pDAB11846，SEQ ID NO：5419，图15；pDAB117415，SEQ ID NO：5420，图16；pDAB117416，SEQ ID NO：5421，图17；pDAB117417，SEQID NO：5422，图18；pDAB117419，SEQ ID NO：5423，图19；pDAB117434SEQ ID NO：5424，图20；pDAB117418，SEQ ID NO：5425，图21；pDAB117420，SEQ ID NO：5426，图22；和pDAB117421，SEQ ID NO：5427，图23，作为通用供体多核苷酸序列。在另一个实施方案中，可以构建其他包含所述通用载体多核苷酸序列、具有功能性表达的编码序列或非功能性(无启动子)表达的编码序列的序列。

在另一个实施方案中，通用供体多核苷酸序列是作为质粒被投递的一种2-3Kb的模块化小型供体***。这是一种最小供体，包含任何数目的ZFN结合位点，称为“DNA X”或“UZI序列”(SEQ ID NO：5428)的短的100-150bp模板区域，其携带限制性位点和用于引物设计的DNA序列或编码序列，以及简单的质粒骨架(图8)。通过双链DNA在合适的ZFN结合位点断裂后的NHEJ***整个质粒；ZFN结合位点可以依次一一组入。通用供体多核苷酸序列的这个实施方案对于靶位点和ZFN的快速筛选是最适合的，且最大程度地减少了供体中难于扩增的序列。

在一个进一步的实施方案中，通用供体多核苷酸序列由至少4个模块组成，且携带ZFN结合位点、同源臂、DNA X以及仅约100bp的分析片断或编码序列。通用供体多核苷酸序列的这个实施方案适合用于用数种ZFN在多种不同的靶位点处查询HDR介导的基因***(图9)。

通用供体多核苷酸序列可以与所有具有明确的DNA结合域的靶向性分子一起使用，靶向供体***有两种模式(NHEJ/HDR)。如此，当通用供体多核苷酸序列与合适的ZFN表达构建体共投递时，供体载体和玉米基因组在一个特定的位置被切割，该位置由该具体的ZFN的结合所决定。一旦被线性化，供体就可以通过NHEJ或HDR组入到基因组中。然后可以利用载体设计中的不同分析考虑因素来确定将靶向整合的高效投递最大化的锌指(图10)。

实施例4：玉米转化程序

在投递到玉米Hi-II原生质体之前，利用Pure Yield Plasmid Maxiprep(Promega Corporation，Madison，WI)或Plasmid Maxi(Qiagen，Valencia，CA)根据供应商的说明从大肠杆菌培养物制备每种ZFN构建体的质粒DNA。

原生质体分离

玉米栽培品种Hi-II悬浮细胞以3.5天进度表进行保持，收集4mL细胞压积体积(packed cell volume)(PCV)的细胞并转移到含有20mL酶溶液(0.6％Pectolyase^TM，6％Cellulase^TM(“Onozuka”R10；Yakult Pharmaceuticals，Japan)，4mM MES(pH 5.7)，0.6M甘露醇，15mM MgCl₂)的50mL无菌锥形管中(Fisher Scientific)。将培养物加盖，并用PARAFILM^TM包裹并放置在平台摇床上(Thermo Scientific，可变混合平台摇臂)，设置速度为10，在室温下温育16-18小时，直至原生质体释放。温育后，在显微镜下检查一滴细胞，以检查消化的质量，并将消化后的细胞通过一100μm细胞滤网过滤，用10mL W5培养基[2mMMES(pH5.7)，205mM NaCl，167mM CaCl₂，6.7mM KCl]漂洗，然后再通过70μm和40μm的细胞滤网过滤。该100μm和40μm的细胞滤网用10mLW5培养基漂洗。将过滤的原生质体与漂洗培养基一起收集到一个50ml离心管中，终体积为大约40mL。向原生质体/酶溶液的底部缓慢加入8mL“重梯度溶液”[500mM蔗糖，1mM CaCl₂，5mM MES(pH6.0)]，使用带悬挂吊篮式转子的离心机以300-350×g离心15分钟。离心后，移出大约7-8mL原生质体带，用25mL W5清洗，并在180-200×g下离心15分钟。然后将原生质体重新悬浮在10mL MMG溶液中[4mM MES(pH5.7)，0.6M甘露醇，15mM MgCl₂]。使用血球计数或流式细胞仪对原生质体进行计数，并用MMG稀释至167万个/毫升。

使用PEG转化玉米栽培种Hi-II悬浮培养递送的原生质体

将大约50万个原生质体(在300μL MMG溶液中)转移到2mL管中，与40μL DNA混合，并在室温下温育5-10分钟。接着，添加300μL新鲜制备的PEG溶液[36％PEG 4000，0.3M甘露醇，0.4M CaCl₂]，将混合物在室温下温育15-20分钟，定期颠倒混合。温育之后，缓慢加入1mL W5清洗液，并轻柔混合，通过180-200×g离心15分钟沉淀原生质体。将离心沉淀物重悬在1mlWI培养基[4mM MES(pH 5.7)，0.6M甘露醇，20M KCL]中，用铝箔包裹含有原生质体的管子并在室温下过夜温育大约16小时。

ZFN和供体转化

对表5的每个选定的基因座，用yfp基因表达对照、仅ZFN、仅供体、以及1∶10比例(重量比)的ZFN和供体混合物转染玉米原生质体。转染50万个原生质体的DNA总量为80μg。所有处理均进行了3次或6次重复。所用的YFP基因表达对照是pDAB8393(图11)，其含有玉米泛素1启动子-黄色荧光蛋白编码序列-玉米Per5 3′UTR和水稻Actin1启动子-pat编码序列-玉米脂肪酶3′UTR基因表达盒。为了为每次转染提供一致的总DNA量，在需要时使用鲑精或者含yfp基因的质粒作为填充物。在典型的靶向实验中，将单独的4μg ZFN、或者4μg ZFN与36μg供体转染，并加入适宜量的鲑精或pUC19质粒DNA以使总DNA量达到80μg。通过加入YFP基因表达质粒作为补充物，可以评估多个基因座和重复处理中的转染质量。

实施例5：借助锌指核酸酶在玉米中切割基因组座位

在转染24小时后，将ZFN转染的玉米栽培种Hi-II原生质体通过1600rpm离心收集在2ml Eppendorf^TM管中，并彻底除去上清液。使用Qiagen Plant DNA Extraction Kit^TM(Qiagen，Valencia，CA)从原生质体离心沉淀中提取基因组DNA。将分离的DNA重悬浮在50μL水中，借助(Invitrogen，Grand Island，NY)确定浓度。通过在0.8％琼脂糖凝胶电泳上跑胶估算样品中DNA的完整性。将所有样品标准化(20-25ng/μL)用于PCR扩增，以产生用于测序的扩增子(Illumina，Inc.，SanDiego，CA)。设计用来从处理组和对照组样品扩增涵盖每个测试ZFN识别序列的区域的条形码引物并从IDT(Coralville，IA，HPLC纯化)购买。在23.5μL反应中使用0.2μM合适的条形码引物、ACCUPRIME PFX SUPERMIX^TM(Invitrogen，Carlsbad，CA)和100ng的基因组DNA模板，通过梯度PCR确定最佳扩增条件。循环参数为：在95℃预变性95℃(5min)，接着是35个循环的变性(95℃，15sec)，退火(55-72℃，30sec)，延伸(68℃，1min)，和最终延伸(68℃，7min)。扩增产物在用3.5％TAE琼脂糖凝胶上进行分析，确定每个引物组合的合适退火温度，并用于从对照和ZFN处理样品扩增扩增子，如上文所述。所有扩增子在3.5％琼脂糖凝胶上纯化，用水洗脱，并通过NANODROP^TM确定浓度。为了进行二代测序，收集大约100ng来自ZFN处理的玉米原生质体及相应的玉米原生质体对照的PCR扩增子，并使用Illumina二代测序(NGS)进行测序。

测定了合适的ZFN在每个玉米选定基因组座位的切割活性。从处理组和对照组原生质体的基因组DNA扩增了涵盖ZFN切割位点的短扩增子，并进行Illumina NGS。ZFN诱导切割或DNA双链断裂被细胞NHEJ修复途径通过在切割位点处***或缺失核苷酸(indels)所消解，因此切割位点处***缺失的存在是ZFN活性的量度，通过NGS加以确定。使用NGS分析软件估算每1百万个高品质序列中带有***缺失的序列的数目，作为靶特异性ZFN的切割活性(专利公开2012-0173,153，DNA序列的数据分析)(图12)。对于玉米选定基因组座位靶点观察到了高于对照5-100倍范围的活性，这进一步被序列比对所证实，序列比对显示了每个ZFN切割位点处***缺失的多样性足迹。这个数据表明，玉米选定基因组座位能够被ZFN切割。每个靶点的差异性活性反映了其染色质的状态和对切割的适应性，以及每种ZFN的表达效率。

实施例6：多核苷酸供体的整合的快速靶向分析

利用半高通量基于原生质体的快速测试分析方法验证通用供体多核苷酸序列介由非同源末端连接(NHEJ)介导的供体***在玉米选定基因组座位靶标内的靶向。对于每个玉米选定靶基因组座位，测试了3-6种ZFN设计，并通过二代测序方法(图12)测量ZFN介导的切割和通过接点内-外PCR测量供体***(图13)来对靶向进行评估。将在两个测定中均为阳性的玉米选定基因组座位鉴定为可靶向的座位。

ZFN供体***快速测试分析

为了确定玉米选定基因组座位靶点是否能够被靶向以用于供体***，将ZFN构建体和通用供体多核苷酸构建体共投递到玉米原生质体中，温育24个小时，之后提取基因组DNA进行分析。如果表达的ZFN在玉米选定基因组座位靶标处和在供体中均能够切割靶结合位点，则线性化的供体会通过非同源末端连接(NHEJ)途径***到玉米基因组中经切割的靶位点中。玉米选定基因组座位靶标处的靶向***的确认根据“内-外”PCR策略完成，其中“内”引物识别天然最优基因组座位处的序列，“外”引物则结合供体DNA内的序列。引物的设计方式使得仅当供体DNA***在玉米选定基因组座位靶标处时，PCR测定才会产生具有预期大小的扩增产物。在***接点的5′-和3′-端均进行内-外PCR测定。用于分析被整合的多核苷酸供体序列的引物提供于表9中。

利用巢式“内-外”PCR将ZFN供体***在靶座位

所有PCR扩增均使用TAKARA EX TAQ HS^TM试剂盒(Clonetech，Mountain View，CA)进行。第一轮内-外PCR在20μL最终反应体积中实施，其含有1X TaKaRa Ex Taq HS^TM缓冲液，0.2mM dNTP，0.2μM“外”引物(表9)，0.05μM“内”引物(根据上述的通用供体盒设计而得)，0.75单位TaKaRa Ex Taq HS^TM聚合酶和10ng提取的玉米原生质体DNA。然后使用如下组成的PCR程序进行反应：94℃2min，20个循环的98℃12sec、68℃12min，随后是72℃10min，并在4℃保持。最终的PCR产物与1KB PLUS DNA LADDER^TM(Life Technologies，Grand Island，NY)一起跑琼脂糖凝胶，以便可视化观察。

巢式内-外PCR在20μL最终反应体积中进行，其含有1X TaKaRa Ex TAQ HS^TM缓冲液，0.2mM dNTP，0.2μM“外”引物(表9)，0.1μM“内”引物(根据上述的通用供体盒设计而得，表10)，0.75单位的TaKaRa Ex TAQ HS^TM聚合酶，和1μL第一PCR产物。然后使用如下组成的PCR程序进行反应：94℃2min，31个循环的98℃12sec，66℃30sec和68℃45sec，随后是72℃10min，并在4℃保持。最终的PCR产物与1KB PLUS DNA LADDER^TM(Life Technologies，GrandIsland，NY)一起跑琼脂糖凝胶，以便可视化观察。

表9.用于最优基因组座位的巢式内-外PCR分析的所有“外”引物的列表。

表10.用于最优基因组座位的巢式内-外PCR分析的所有“内”引物的列表。

表11.用于ZFN切割活性的引物。

在原生质体靶向***中开展内-外PCR测定是特别具有挑战性的，因为转染要使用大量的质粒DNA，而大量DNA保留在原生质体靶向***中，并随后与细胞基因组DNA一起被提取。残余的质粒DNA可能稀释基因组DNA的相对浓度，降低检测的总体灵敏度，并且还可能是非特异性异常PCR反应的重要原因。ZFN诱导的基于NHEJ的供体***通常以正向或反向取向发生。对正向***的DNA内-外PCR分析经常显示假阳性条带，这可能是由于靶和供体的ZFN结合位点附近具有同源区域，这会导致在扩增过程中非整合的供体DNA的引发和延伸。在探查反向***产物的分析中没有见到假阳性，因此在RTA中进行的所有靶向供体整合分析均查询反向供体***。为了进一步增加特异性和减少背景，还采用巢式PCR策略。巢式PCR策略使用第二PCR扩增反应来扩增第一PCR反应的第一扩增产物内的一个较短区域。通过使用不对称量的“内”和“外”引物进一步优化接点PCR，以便在选定的基因组座位实施快速靶向分析。

在琼脂糖凝胶上观察内-外PCR分析结果。对表12的所有玉米选定基因组座位，“ZFN+供体处理”在5′和3′端均产生了接近预期大小的条带。ZFN对照或单独供体处理在PCR中是阴性的，提示该方法对至少72种最优非基因玉米基因组座位的靶位点处的供体整合的评分是特异性的。所有处理均重复3-6次，并且利用在多次重复(在两端均≥2)中均有预期的PCR产物的存在来证实靶向。通过NHEJ的供体***常常产生强度较低的副产物，此类产物的产生是由于靶标和/或供体ZFN位点处线性化末端的加工所导致。此外，观察发现，不同的ZFN产生的靶向整合的效率水平不同，其中一些ZFN产生一致高水平的供体整合，一些ZFN产生的供体整合水平的一致性较低，而其他ZFN则未导致整合。总体言之，证实了每个被测试的玉米选定基因组座位靶标，均可通过一个或多个ZFN靶向整合在玉米的代表性基因组座位靶标内，这证实了这些基因座的每一个均是可靶向的。而且，每一个玉米选定基因组座位靶标均适于进行精确基因转化。这些玉米选定基因组座位靶标的验证经过多次重复实验进行验证，每次均得到了相似的结果，从而证实了包括质粒设计和构建、原生质体转化、样品处理、和样本分析在内的确认过程的可重复性。

结论

将供体质粒和一个设计为特异性切割玉米选定基因组座位靶点的ZFN转染到玉米栽培种Hi-II原生质体中，并在24小时后收集细胞。通过内-外接点PCR对从对照组、ZFN处理组、及ZFN与供体处理组的原生质体分离的DNA进行分析，结果显示由于ZFN切割基因组DNA所导致的通用供体多核苷酸靶向***(表12)。这些研究表明，该通用供体多核苷酸***可以用来评估内源位点处的靶向和用来筛选候选的ZFN。最后，该基于原生质体的快速靶向分析和新型通用供体多核苷酸序列***提供了一种快捷的途径来筛选用于在植物中进行精确基因组工程化工作的基因组靶标和ZFN。该方法可以推广到在任何感兴趣的***中使用任何可诱导DNA双链或单链断裂的核酸酶对位点特异性切割和供体***进行评估。

表12.说明该通用供体多核苷酸序列在玉米选定基因组座位靶标内的整合结果。如下面的*所示，OGL73内的供体***仅通过5’接点序列的PCR反应所确认。

实施例7：多核苷酸供体序列在玉米的基因组座位内的表达

通过用美国专利7,838,733中描述的含有aad-1转基因的pDAB105817和pEPS1027质粒(图14)进行转化，产生了随机整合的玉米转化事件。产生了大数目的事件，并通过如美国专利申请2012/0258867中描述的基因组侧翼分析法分析了1027个稳定事件，以确定在这些事件中是否有任何事件在玉米选定基因组座位内含有随机整合的转基因。如此，将223个事件中整合的转基因的染色***置定位到了玉米基因组中。表13的数据表明，整合的转基因的染色***置证实了在低甲基化区中的整合(45-73％)，以及在至少1Kb的区域之下游的转录单位(启动子/基因/3’UTR)中的整合(60％)。

表13. 1027个定位的事件的基因组和表基因组背景

对经过定位的事件，用如实施例1和2描述的最优座位预测标准(低甲基化区，独特区，非基因，非重复，在40kB附近区域中邻近于基因，在根/芽中活跃表达的证据，重组的证据)，在玉米选定基因组座位靶中鉴定出了数个随机整合的事件(表14)。例如，分别通过使用快速测试分析(Rapid Testing Analysis)和通过植物内靶向(in planta targeting)，证实了在玉米选定基因组座位靶标optimal_loci_232222及optimal_loci_127268内的靶向。

实验用的玉米选定基因组座位靶标的平均长度大约为1Kb，在每个玉米选定基因组座位靶标处观察到了不同程度的aad-1表达(表14)。在T₁植物转化阶段，借助对分离的转基因叶材料的实时PCR分析进行了平均aad-1表达分析。如此，玉米基因组内的随机整合事件能够在实验用的玉米选定基因组座位靶标内表达转基因。

表14.在最优基因组座位内随机整合的aad-1转基因的表达。显示了座位处的aad-1标志物的位置、长度和RNA表达。

实施例8：用于转基因整合的最优非基因玉米基因组座位

从5,286个最优非基因玉米基因组座位中鉴定出一个系列的最优非基因玉米基因组座位，以便选择多个座位用于基因表达盒的位点特异性靶向，以及用于产生基因表达盒的堆叠。采用下面的标准过滤最优非基因玉米基因组座位池，并选择一系列最优非基因玉米基因组座位：

1)长度大于3Kb。最优非基因玉米基因组座位可以用至少两组基因表达盒的整合来靶向。

2)重组频率为0.5至1.0，其小于鉴定出的5,286个最优非基因玉米基因组座位的平均重组频率(平均重组频率为约2.0)。

3)在鉴定出的5,286个最优非基因玉米基因组座位40Kb以内的内源基因的高于平均的表达。在芽和根组织中40Kb区域内的基因的平均表达为6.30，是所有非基因玉米基因组座位的第48百分位。

4)玉米栽培种B104和玉米栽培种Hi-II之间的序列覆盖度和序列同一性大于90％。

应用了上述每一条标准来选择一系列最优非基因玉米基因组座位。图24提供了该标准的三个示例性的示意图，以及这些选定的最优非基因玉米基因组座位如何比较。使用该标准鉴定了九个长度至少3Kb的最优非基因玉米基因组座位(optimal_loci_137693_G1，optimal_loci_265551_G1，optimal_loci_128078_G1，optimal_loci_168286_G1，optimal_loci_3733_G1，optimal_loci_203075_G1，optimal_loci_232484_G1，optimal_loci_136086_G1，和optimal_loci_203704_G1)。见表15。通过将大小限制缩小到≥2Kb，鉴定了其他最优非基因玉米基因组座位(optimal_loci_291068_G1，和optimal_loci_43577_G1)，将这些座位添加到上述最优非基因玉米基因组座位系列中。将另外一组最优非基因玉米基因组座位添加到所述最优非基因玉米基因组座位系列中，因为在这些座位处有通过土壤杆菌转化随机整合的转基因的表达的证据(optimal_loci_232222_G1和optimal_loci_127268_G1)。鉴于optimal_loci_204637_G1和optimal_loci_204726_G1基因组座位的减数***重组单位特征，将它们添加到该系列中。此外，已经成功地靶向optimal_loci_204637_G1与optimal_loci_204726_G1整合了供体多核苷酸。类似地，将optimal_loci_232228纳入该系列中，因为该最优非基因玉米基因组座位已经被成功地靶向以整合供体多核苷酸，且该序列的长度为3.9Kb。

接下来，对所有最优非基因玉米基因组座位的到邻近基因的距离和相距着丝粒的距离进行表征(图25)。该组选定的最优非基因座位距离邻近的基因约1-15Kb，并且位于染色体末端附近(与着丝粒的距离＞0.70)(表16，图25)。最后，探查了数量性状座位的干扰，以完整地表征该最优非基因玉米基因组座位系列。

表15.最优非基因玉米基因组座位系列

表16：最优非基因玉米基因组座位特征

OGL ID	到最近基因的距离	到着丝粒的距离
			optimal_loci_137693_G1	4070	.70444101
optimal_loci_265551_G1	9252	.94191056
			optimal_loci_128078_G1	2491	.87326872
optimal_loci_168286_G1	1710	.84128147
			optimal_loci_3733_G1	14910	.856875
optimal_loci_203075_G1	1001	.75612998
			optimal_loci_232484_G1	1001	.80656755
optimal_loci_136086_G1	4381	.7859925
			optimal_loci_203704_G1	2001	.788019
optimal_loci_127268_G1	2758	.84500724
			optimal_loci_204637_G1	2874	.83827931
optimal_loci_291068_G1	4243	.77879798
			optimal_loci_232222_G1	2832	.79463887
optimal_loci_43577_G1	2001	.73018748
			optimal_loci_204726_G1	11370	.84166127

对于使用上面描述的标准选出的最优非基因玉米基因组座位，通过整合含有选择标志物/报告标志物的基因表达构建体进行了验证。通过利用位点特异性核酸酶的基因组靶向，将该基因表达盒稳定地整合到玉米植物中。对于所生成的被打靶且含有可表达转基因的最优非基因玉米基因组座位进行分析，以鉴定出含有全长的整合基因表达盒的单拷贝事件。通过qRT-PCR、Western印迹、ELISA、LC-MS MS、以及其他已知的RNA或蛋白质检测方法，经过多个植物世代(例如T₁和T₂世代)分析最优非基因玉米基因组座位的表达概貌。此外，测定最优非基因玉米基因组座位内转基因表达盒的整合对相邻基因表达的影响。最后，测定最优非基因玉米基因组座位内转基因表达盒的整合对玉米植物农艺学性质的影响。

Claims

1.一种重组序列，所述重组序列包含：

至少1Kb、且与选自下组的非基因序列有至少90％序列同一性的核酸序列：loci_137693_G1(SEQ ID NO:387),

loci_265551_G1(SEQ ID NO:463),

loci_128078_G1(SEQ ID NO:560),

loci_168286_G1(SEQ ID NO:573),

loci_3733_G1(SEQ ID NO:1268),

loci_203075_G1(SEQ ID NO:2030),

loci_232484_G1(SEQ ID NO:2053),

loci_136086_G1(SEQ ID NO:4425),

loci_203704_G1(SEQ ID NO:2033),

loci_127268_G1(SEQ ID NO:2709),

loci_204637_G1(SEQ ID NO:2731),

loci_291068_G1(SEQ ID NO:3230),

loci_232222_G1(SEQ ID NO:3357),

loci_43577_G1(SEQ ID NO:3428),

loci_204726_G1(SEQ ID NO:424),

loci_232228_G1(SEQ ID NO:4529)；以及

感兴趣的DNA，其中该感兴趣的DNA***在所述非基因序列中以产生所述重组序列。

2.权利要求1的重组序列，其中所述感兴趣的DNA***在对所述非基因序列特异性的锌指靶位点的邻近处。

3.权利要求1的重组序列，其中所述感兴趣的DNA***在成对的对所述非基因序列特异性的锌指靶位点之间。

4.权利要求1的重组序列，其中所述感兴趣的DNA包含分析域。

5.权利要求1的重组序列，其中所述感兴趣的DNA不编码肽。

6.权利要求1的重组序列，其中所述感兴趣的DNA编码肽。

7.权利要求1的重组序列，其中所述感兴趣的DNA包含基因表达盒，所述基因表达盒包含杀虫剂抗性基因、除草剂耐性基因、氮利用效率基因、水分利用效率基因、营养品质基因、DNA结合基因、和选择标志物基因。

8.权利要求1的重组序列，其中所述感兴趣的DNA包含两个或更多个基因表达盒。

9.权利要求1的重组序列，其中两个或更多个所述的非基因序列各自包含***的感兴趣的DNA从而产生两个或更多个重组序列，其中所述两个或更多个重组序列位于相同的染色体上。

10.权利要求1的重组序列，其中在所述感兴趣的DNA***所述非基因序列的过程中该感兴趣的DNA和/或该非基因序列被修饰。

11.权利要求1-10中任一项的重组序列，其中所述非基因序列选自下组：optimalloci_204637(SEQ ID NO:2731),optimal_loci_136086(SEQ ID NO:4425),optimal_loci_232484(SEQ ID NO:2053),optimal_loci_203075(SEQ ID NO:2030),optimal_loci_3733(SEQ ID NO:1268),optimal_loci_168286(SEQ ID NO:573),optimal_loci_128078(SEQID NO:560),optimal_loci_265551(SEQ ID NO:463),optimal_loci_127268(SEQ ID NO:2709),optimal_loci_204726(SEQ ID NO:424)，和optimal_loci_232222(SEQ ID NO:3357)。

12.权利要求1-10中任一项的重组序列，其中所述非基因序列选自下组：optimalloci_204637(SEQ ID NO:2731),optimal_loci_136086(SEQ ID NO:4425),optimal_loci_232484(SEQ ID NO:2053),optimal_loci_203075(SEQ ID NO:2030),optimal_loci_3733(SEQ ID NO:1268),optimal_loci_168286(SEQ ID NO:573),optimal_loci_128078(SEQID NO:560)和optimal_loci_265551(SEQ ID NO:463)。

13.权利要求1-10中任一项的重组序列，其中所述非基因序列选自下组：loci_204637(SEQ ID NO:2731),optimal_loci_203075(SEQ ID NO:2030)和optimal_loci_128078(SEQID NO:560)。

14.权利要求1-10中任一项的重组序列，其中所述非基因序列选自下组：optimal_loci_137693_G1(SEQ ID NO:387),optimal_loci_265551_G1(SEQ ID NO:463),optimal_loci_128078_G1(SEQ ID NO:560),optimal_loci_168286_G1(SEQ ID NO:573),optimal_loci_3733_G1(SEQ ID NO:1268),optimal_loci_203075_G1(SEQ ID NO:2030),optimal_loci_232484_G1(SEQ ID NO:2053)和optimal_loci_204637_G1(SEQ ID NO:2731)。

15.一种玉米植物、玉米植物部分或玉米植物细胞，其包含权利要求1-10中任一项的重组序列。

16.一种制造包含感兴趣的DNA的转基因植物细胞的方法，所述方法包括：

a.从loci_137693_G1(SEQ ID NO:387),loci_265551_G1(SEQ ID NO:463),loci_128078_G1(SEQ ID NO:560),loci_168286_G1(SEQ ID NO:573),loci_3733_G1(SEQ IDNO:1268),loci_203075_G1(SEQ ID NO:2030),loci_232484_G1(SEQ ID NO:2053),loci_136086_G1(SEQ ID NO:4425),loci_203704_G1(SEQ ID NO:2033),loci_127268_G1(SEQID NO:2709),loci_204637_G1(SEQ ID NO:2731),loci_291068_G1(SEQ ID NO:3230),loci_232222_G1(SEQ ID NO:3357),loci_43577_G1(SEQ ID NO:3428),loci_204726_G1(SEQ ID NO:424)和loci_232228_G1(SEQ ID NO:4529)中选择具有至少90％序列同一性的靶非基因玉米基因组座位；

b.选择特异性结合并切割所述靶非基因玉米基因组座位的位点特异性核酸酶；

c.将所述位点特异性核酸酶导入玉米植物细胞；

d.将该感兴趣的DNA导入该植物细胞；

e.将该感兴趣的DNA***所述靶非基因玉米基因组座位中；和

f.选择包含被靶向到所述非基因座位的感兴趣的DNA的转基因植物细胞。

17.权利要求16的制造转基因植物细胞的方法，其中所述感兴趣的DNA包含分析域。

18.权利要求16的制造转基因植物细胞的方法，其中所述感兴趣的DNA不编码肽。

19.权利要求16的制造转基因植物细胞的方法，其中所述感兴趣的DNA编码肽。

20.权利要求16的制造转基因植物细胞的方法，其中所述感兴趣的DNA包含基因表达盒，所述基因表达盒包含转基因。

21.权利要求16的制造转基因植物细胞的方法，其中所述感兴趣的DNA包含两个或更多个基因表达盒。

22.权利要求16的制造转基因植物细胞的方法，其中所述位点特异性核酸酶选自下组：锌指核酸酶、CRISPR核酸酶、TALEN、归巢内切核酸酶、或大范围核酸酶。

23.权利要求16的制造转基因植物细胞的方法，其中所述感兴趣的DNA通过同源性指导修复整合法整合在所述非基因座位内。

24.权利要求16的制造转基因植物细胞的方法，其中所述感兴趣的DNA通过非同源末端连接整合法整合到所述非基因座位内。

25.权利要求16的制造转基因植物细胞的方法，其中两个或更多个所述的感兴趣的DNA***两个或更多个所述的非基因玉米基因组座位中。

26.权利要求25的制造转基因植物细胞的方法，其中两个或更多个所述的非基因玉米基因组座位位于相同的染色体上。

27.权利要求16的制造转基因植物细胞的方法，其中所述感兴趣的DNA和/或所述靶非基因玉米基因组座位在该感兴趣的DNA***该靶非基因玉米基因组座位的过程中被修饰。

28.一种纯化的非基因玉米基因组座位，其为至少1Kb，且与选自下组的非基因序列有至少90％序列同一性：

loci_137693_G1(SEQ ID NO:387),loci_265551_G1(SEQ ID NO:463),

loci_128078_G1(SEQ ID NO:560),loci_168286_G1(SEQ ID NO:573),

loci_3733_G1(SEQ ID NO:1268),loci_203075_G1(SEQ ID NO:2030),

loci_232484_G1(SEQ ID NO:2053),loci_136086_G1(SEQ ID NO:4425),

loci_203704_G1(SEQ ID NO:2033),loci_127268_G1(SEQ ID NO:2709),

loci_204637_G1(SEQ ID NO:2731),loci_291068_G1(SEQ ID NO:3230),

loci_232222_G1(SEQ ID NO:3357),loci_43577_G1(SEQ ID NO:3428),

loci_204726_G1(SEQ ID NO:424)，和loci_232228_G1(SEQ ID NO:4529)。

29.权利要求28的纯化的非基因玉米基因组座位，其中所述非基因序列选自下组：optimal loci_204637(SEQ ID NO:2731),optimal_loci_136086(SEQ ID NO:4425),optimal_loci_232484(SEQ ID NO:2053),optimal_loci_203075(SEQ ID NO:2030),optimal_loci_3733(SEQ ID NO:1268),optimal_loci_168286(SEQ ID NO:573),optimal_loci_128078(SEQ ID NO:560)和optimal_loci_265551(SEQ ID NO:463)。

30.权利要求28的纯化的非基因玉米基因组座位，其中所述非基因序列选自下组：optimal loci_204637(SEQ ID NO:2731),optimal_loci_203075(SEQ ID NO:2030)和optimal_loci_128078(SEQ ID NO:560)。

31.权利要求28的纯化的非基因玉米基因组座位，其中所述非基因序列选自下组：optimal_loci_137693_G1(SEQ ID NO:387),optimal_loci_265551_G1(SEQ ID NO:463),optimal_loci_128078_G1(SEQ ID NO:560),optimal_loci_168286_G1(SEQ ID NO:573),optimal_loci_3733_G1(SEQ ID NO:1268),optimal_loci_203075_G1(SEQ ID NO:2030),optimal_loci_232484_G1(SEQ ID NO:2053)和optimal_loci_204637_G1(SEQ ID NO:2731)。

32.权利要求28-31中任一项的纯化的非基因玉米基因组座位，其还包含感兴趣的DNA，其中所述感兴趣的DNA***在所述非基因序列中。

33.权利要求32的纯化的非基因玉米基因组座位，其中所述感兴趣的DNA***在对所述非基因序列特异性的锌指靶位点的邻近处。

34.权利要求32的纯化的非基因玉米基因组座位，其中所述感兴趣的DNA***在成对的对所述非基因序列特异性的锌指靶位点之间。

35.权利要求32的纯化的非基因玉米基因组座位，其中所述感兴趣的DNA包含分析域。

36.权利要求32的纯化的非基因玉米基因组座位，其中所述感兴趣的DNA不编码肽。

37.权利要求32的纯化的非基因玉米基因组座位，其中所述感兴趣的DNA编码肽。

38.权利要求32的纯化的非基因玉米基因组座位，其中所述感兴趣的DNA包含基因表达盒，所述基因表达盒包含杀虫剂抗性基因、除草剂耐性基因、氮利用效率基因、水分利用效率基因、营养品质基因、DNA结合基因、和选择标志物基因。

39.权利要求32、37或38中任一项的纯化的非基因玉米基因组座位，其中所述感兴趣的DNA包含两个或更多个基因表达盒。

40.权利要求32-39中任一项的纯化的非基因玉米基因组座位，其中两个或更多个所述的非基因序列各自包含***的感兴趣的DNA从而产生两个或更多个重组序列，其中所述两个或更多个重组序列位于相同的染色体上。

41.权利要求32-40中任一项的纯化的非基因玉米基因组座位，其中在所述感兴趣的DNA***所述非基因序列的过程中该感兴趣的DNA和/或该非基因序列被修饰。

42.权利要求32-41中任一项的纯化的非基因玉米基因组座位，其中所述感兴趣的DNA是通过同源性指导的修复或非同源末端连接修复机制***的。

43.一种包含重组序列的植物，所述重组序列包括：

与非基因序列有至少90％序列同一性的核酸序列，和

感兴趣的DNA，其中该感兴趣的DNA***在所述非基因序列中。

44.权利要求43的植物，其中所述非基因序列选自下组：

loci_137693_G1(SEQ ID NO:387),loci_265551_G1(SEQ ID NO:463),

loci_128078_G1(SEQ ID NO:560),loci_168286_G1(SEQ ID NO:573),

loci_3733_G1(SEQ ID NO:1268),loci_203075_G1(SEQ ID NO:2030),

loci_232484_G1(SEQ ID NO:2053),loci_136086_G1(SEQ ID NO:4425),

loci_203704_G1(SEQ ID NO:2033),loci_127268_G1(SEQ ID NO:2709),

loci_204637_G1(SEQ ID NO:2731),loci_291068_G1(SEQ ID NO:3230),

loci_232222_G1(SEQ ID NO:3357),loci_43577_G1(SEQ ID NO:3428),

loci_204726_G1(SEQ ID NO:424)和loci_232228_G1(SEQ ID NO:4529)。

45.权利要求43的植物，其包含两个或更多个所述的重组序列。

46.权利要求43的植物，其中所述重组序列位于相同的染色体上。

47.权利要求43的植物，其中所述感兴趣的DNA***在对所述非基因序列特异性的锌指靶位点的邻近处。

48.权利要求43的植物，其中所述感兴趣的DNA***在成对的对所述非基因序列特异性的锌指靶位点之间。

49.权利要求43的植物，其中所述感兴趣的DNA包含分析域。

50.权利要求43的植物，其中所述感兴趣的DNA不编码肽。

51.权利要求43的植物，其中所述感兴趣的DNA编码肽。

52.权利要求43的植物，其中所述感兴趣的DNA包含基因表达盒，所述基因表达盒包含杀虫剂抗性基因、除草剂耐性基因、氮利用效率基因、水分利用效率基因、营养品质基因、DNA结合基因、和选择标志物基因。

53.权利要求43的植物，其中在所述感兴趣的DNA***所述非基因序列的过程中该感兴趣的DNA和/或该非基因序列被修饰。