CN108064287A

CN108064287A - 用于解脂酵母宿主细胞的crispr-cas***

Info

Publication number: CN108064287A
Application number: CN201680004946.2A
Authority: CN
Inventors: 伯纳德·迈瑞克; 瑞内·维尔瓦尔; 比安卡·伊丽莎白·玛丽亚·吉勒森; 约翰尼斯·安德列什·劳博斯
Original assignee: DSM IP Assets BV
Current assignee: DSM IP Assets BV
Priority date: 2015-01-06
Filing date: 2016-01-06
Publication date: 2018-05-22
Also published as: US20180023096A1; US11149288B2; EP3242948B1; DK3242948T3; EP3242948A1; US20200165637A1; US10590436B2; WO2016110511A1

Abstract

本发明涉及分子生物学和细胞生物学的领域。更具体地，本发明涉及一种用于解脂酵母宿主细胞的CRISPR‑CAS***。

Description

用于解脂酵母宿主细胞的CRISPR-CAS***

发明领域

本发明涉及分子生物学和细胞生物学的领域。更具体地，本发明涉及一种用于解脂酵母宿主细胞的CRISPR-CAS***。

发明背景

基因组学技术和分析方法的最新进展显著加速了例如对与范围广泛的生物功能和疾病相关联的遗传因子进行编目和图谱化的能力。精确的基因组工程化技术对于通过允许各遗传元件的选择性干扰而使得因果性遗传变异的***性反向工程成为可能，其也是推进合成生物学、生物技术应用和医学应用需要的。虽然基因组编辑技术，诸如设计师锌指、转录激活子样效应因子核酸酶(TALEN)或归巢大范围核酸酶(homing meganuclease)可用于产生靶向的基因组干扰，但是仍然需要负担得起的、易于建立的、可扩展的并且便于靶向基因组内的多个位置的新的基因组工程技术。工程化大范围核酸酶对于大多数学术研究者一直是具有挑战性的，因为这些酶的DNA识别和切割功能缠结在单结构域中。也已经证明稳健地构建工程化锌指阵列对于许多实验室是困难的，这是由于需要考虑阵列中各指结构域之间的环境依赖性效应。因此，对于用于靶向具有一系列广泛应用的宿主细胞内的特异性序列的替代性且稳健的技术存在着迫切需要。

发明概述

本发明解决上述需要并且提供了这种技术。本发明是基于CRISPR-Cas***，其不要求产生靶标特异性序列的定制蛋白，而是需要单一Cas酶，所述单一Cas酶可通过向导多核苷酸而进行编程来识别特异性多核苷酸靶标；换句话说，可以使用所述向导多核苷酸分子将Cas酶募集到特异性多核苷酸靶标。将CRISPR-Cas***添加到基因组学技术和分析方法的组库中可以显著简化分子学生物领域中现有的方法。

本发明提供了一种非天然存在或工程化的组合物，其包含含有向导多核苷酸和Cas蛋白的CRISPR-Cas***来源，其中向导多核苷酸包含基本上为宿主细胞中靶多核苷酸的反向互补体的序列，并且向导多核苷酸可以引导Cas蛋白结合在宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物。

本发明还涉及一种调节细胞中多核苷酸的表达的方法，所述方法包括使宿主细胞接触根据本发明的组合物，其中向导多核苷酸引导Cas蛋白结合在宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物。

本发明还涉及一种宿主细胞，其包括根据本发明的组合物。

本发明还涉及一种产生宿主细胞的方法，所述方法包括使宿主细胞接触根据本发明的组合物，其中向导多核苷酸引导Cas蛋白结合在宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物。

本发明还涉及一种用于产生目标化合物的方法，所述方法包括在有利于目标化合物的条件下培养根据本发明的宿主细胞，以及任选地纯化或分离目标化合物。

附图简述

图1示出典型的向导多核苷酸的示例。两种向导多核苷酸为包含向导序列(crRNA)和向导多核苷酸结构组分的向导RNA。在上图中，向导多核苷酸结构组分由彼此杂交的两个单独分子构成；单个组分可以称之为tracr序列和tracr伴侣序列。在下图中，向导多核苷酸结构组分由具有内部杂交的单一分子构成。这个图改编自Sander和Joung,2014和Mali等人,2013。

图2示出如何构建向导多核苷酸(向导RNA自加工核酶缩写为gRSR)。锤头状核酶和HDV核酶切割RNA分子，形成最终的且功能性的成熟向导多核苷酸(向导RNA)。

图3示出载体MB6238，其含有针对酿酒酵母(S.cerevisiae)的URA3标记和CEN/ARS序列、大肠杆菌ori和针对大肠杆菌的氨苄青霉素抗性标记。

图4示出实施例8的结果；将转化体影印铺板在基本培养基上以检测具有所期望的引入突变的转化体。

图5示出实施例10的结果；测序获得的突变体。

序列表的描述

SEQ ID NO:1-3空。

SEQ ID NO:4列出了解脂耶氏酵母(Yarrowia lipolytica)CLIB122的基因组。

SEQ ID NO:5-68空。

SEQ ID NO:95-124空。

实施例1-10中的序列

SEQ ID NO:69列出了在解脂耶氏酵母中具有功能性的启动子片段Yl-PRO28。

SEQ ID NO:70列出了CAS9的编码序列

SEQ ID NO:71列出了终止子序列YI-ter02

SEQ ID NO:72列出了骨架载体5a

SEQ ID NO:73列出了所得载体BG-C1

SEQ ID NO:74列出了启动子片段Yl-PRO07

SEQ ID NO:75列出了gRSR

SEQ ID NO:76列出了终止子序列Yl-ter04

SEQ ID NO:77列出了骨架载体ab

SEQ ID NO:78列出了所得载体BG-C4

SEQ ID NO:79列出了正向引物DBC-12192

SEQ ID NO:80列出了反向引物DBC-05794

SEQ ID NO:81列出了正向引物DBC-05795

SEQ ID NO:82列出了反向引物DBC-12194

SEQ ID NO:83列出了接受性载体MB6238

SEQ ID NO:84列出了gBlock供体DNA

SEQ ID NO:85列出了正向引物gBlock DBC-12197

SEQ ID NO:86列出了反向引物gBlock DBC-12198

SEQ ID NO:87列出了潮霉素标记盒

SEQ ID NO:88列出了正向引物DBC-05799

SEQ ID NO:89列出了反向引物DBC-05800

SEQ ID NO:90列出了前端ade33DBC-12607中的正向引物

SEQ ID NO:91列出了野生型ADE33序列

SEQ ID NO:92列出了突变型ADE33序列

SEQ ID NO:93列出了正向引物DBC-05793

SEQ ID NO:94列出了反向引物DBC-05796

发明详述

在第一方面，本发明提供了非天然存在或工程化的组合物，其包含含有向导多核苷酸和Cas蛋白的CRISPR-Cas***的来源，其中向导多核苷酸包含基本上为宿主细胞中靶多核苷酸的反向互补体的向导序列，并且向导多核苷酸能够引导Cas蛋白结合在宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物，其中向导序列基本上为宿主细胞基因组中的5’-(N)yPAM-3’多核苷酸序列靶标的(N)y部分的反向互补体，其中y为8-30，更优选10-30、更优选15-30、更优选17-27、更优选17-20的整数，更优选为17、18、19、20、21、22、23、24、25、26或27，其中PAM为前间区序列邻近基序(protospacer adjacent motif)，其中宿主细胞为解脂酵母，优选耶氏酵母属(Yarrowia)，更优选解脂耶氏酵母，甚至更优选解脂耶氏酵母CLIB122或解脂耶氏酵母ML324(以ATCC18943号保藏的)，并且其中PAM优选为选自以下的序列：5’-XGG-3’、5’-XGGXG-3’、5’-XXAGAAW-3’、5’-XXXXGATT-3’、5’-XXAGAA-3’、5’-XAAAAC-3’，其中X可以为任何核苷酸或其类似物，优选X可以为任何核苷酸；并且W为A或T。

耶氏酵母属的一个优选基因组为由SEQ ID NO:4表示的基因组。基因组中的未知或不清楚的核苷酸(诸如用“n”示出的核苷酸)优选被排除作为多核苷酸序列靶标。

在本文中的组合物、来源、CRISPR-Cas***、向导多核苷酸、Cas蛋白、靶多核苷酸、宿主细胞和CRISPR-Cas复合物被称为根据本发明的组合物、来源、CRISPR-Cas***、向导多核苷酸、Cas蛋白、靶多核苷酸、宿主细胞和CRISPR-Cas复合物。为了完整起见，因为不使用数量词修饰在本文他处限定为“至少一种/个”，所以根据本发明的组合物包含至少一个，即一个、两个、三个或更多个向导多核苷酸和/或至少一种，即一种、两种、三种或更多种Cas蛋白的来源。因此，本发明方便提供多重CRISPR-Cas***。这种多重CRISPR-Cas***可方便地用于引入供体多核苷酸、缺失多核苷酸和将多核苷酸文库***到宿主细胞的基因组中。在本文中，多重CRISPR-Cas***可以是指使用一种或多种Cas蛋白、一个或多个向导多核苷酸和/或一个或多个供体多核苷酸。在本文中，当单一向导多核苷酸和多种供体多核苷酸组合使用时，其中供体多核苷酸被构造成使得它们将被引入到单一靶基因座中，使用术语“单重(singleplex)”。

术语“CRISPR***”、“CRISPR-Cas***”和“CRISPR酶***”可在本文中互换使用，并且在本发明的所有实施方案的背景下是指与靶多核苷酸一起形成CRISPR-Cas复合物所需的元件集合；这些元件包括但不限于Cas蛋白和向导多核苷酸。

术语“CRISPR-Cas复合物”在本发明的所有实施方案的背景下是指包含与靶多核苷酸杂交并且与Cas蛋白复合的向导多核苷酸的复合物。在最简单的形式中，在使用非突变Cas蛋白(诸如但不限于酿脓链球菌(Streptococcus pyogenes)的Cas9蛋白)的情况下，CRISPR-Cas复合物的形成导致靶多核苷酸中或其附近(例如，在距靶多核苷酸1、2、3、4、5、6、7、8、9、10、20、50个或更多个碱基对之内)的一个或两个多核苷酸链的切割。通常，根据本发明的靶多核苷酸(在下文限定的)与PAM序列(在下文限定的)相关联，并且PAM序列优选紧邻靶多核苷酸的下游(3’)；CRISPR-Cas复合物的形成通常导致PAM序列的上游(5’)3个碱基对的一个或两个多核苷酸链的切割。

术语“非天然存在的组合物”在本发明的所有实施方案的背景下是指其在本发明中使用的形式不是天然存在的组合物。单独的元件可以例如本身或与其他元件组合地天然存在，但是非天然存在的组合物包含例如相比于天然组合物多的或少的至少一个元件。

术语“工程化组合物”在本发明的所有实施方案的背景下是指这样的一种组合物，其中至少一个元件已被以使得所得元件不是天然存在的方式工程化，即被人修饰。因而，由于包括至少一个工程化元件，工程化组合物不是天然存在的。

术语“多核苷酸”、“核苷酸序列”和“核酸”可在本文中互换使用，并且在本发明的所有实施方案的背景下是指具有任何长度的核苷酸的聚合形式，是脱氧核糖核苷酸或核糖核苷酸或其混合物或类似物。多核苷酸可具有任何三维结构，且可执行已知或未知的任何功能。以下各项是多核苷酸的非限制性实例：基因或基因片段的编码区或非编码区、由连锁分析定义的多个基因座(一个基因座)、外显子、内含子、信使RNA(mRNA)、转移RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶、cDNA、重组多核苷酸、分枝多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、核酸探针、寡核苷酸以及引物。多核苷酸可以包含一个或多个修饰核苷酸，诸如甲基化核苷酸和核苷酸类似物或核苷酸等同物，其中核苷酸类似物或等同物被限定为具有修饰碱基的残基，和/或修饰骨架，和/或非天然的核苷间连接，或这些修饰的组合。优选的核苷酸类似物和等同物在章节“一般定义”中描述。根据需要，对核苷酸结构的修饰可以在多核苷酸组装之前或之后引入。多核苷酸可以在聚合之后诸如通过与标记化合物缀合来进一步修饰。

根据本发明的向导多核苷酸至少包含向导序列，所述向导序列能够与靶多核苷酸杂交并且能够引导CRISPR-Cas***与靶多核苷酸序列特异性结合以形成CRISPR-Cas复合物。为了能够形成活性CRISPR-Cas复合物，向导多核苷酸还优选包含具有特异性二级结构并且允许Cas蛋白与向导多核苷酸的结合的序列。这种序列在本领域中已知为tracrRNA、tracr序列、tracr支架或向导多核苷酸结构组分，这些术语可在本文中互换使用，其中tracr是反式激活CRISPR的缩写；因此tracrRNA意指反式激活CRISPR RNA。原始CRISPR-Cas***中的tracrRNA是将crRNA(向导序列)连接至Cas核酸酶的内源性细菌RNA，能够结合任何crRNA。向导多核苷酸结构组分可以由单个多核苷酸分子组成或可以由彼此杂交的两个或更多个分子组成；向导多核苷酸结构组分的这种杂交的组分可以称为tracr序列和tracr伴侣序列。

因此，向导多核苷酸还优选包含tracr序列和/或tracr伴侣序列。向导多核苷酸为根据以上本文列出的多核苷酸的一般定义的多核苷酸；优选的向导多核苷酸包含核糖核苷酸，更优选的向导多核苷酸为RNA(向导RNA)。典型的向导多核苷酸结构的两个示例绘示在图1中。

在本发明的背景下，如果目的序列优选在如同宿主细胞中的生理条件下能够与靶序列或靶多核苷酸杂交，则称所述序列基本上为所述靶序列或所述靶多核苷酸的反向互补体。当使用适合的比对算法进行最佳比对时，向导序列与其相应靶序列之间的互补程度优选为高于50％、60％、75％、80％、85％、90％、95％、97.5％、99％序列同一性。可以使用用于比对序列的任何合适算法，优选如本文中在“序列同一性”部分所定义的算法确定最佳比对。当靶多核苷酸为双链多核苷酸时，目的序列，诸如向导序列，可以能够与靶多核苷酸的任一条链，例如编码链或非编码链杂交。

优选地，根据本发明的向导序列靶向靶标中独特的靶序列。优选地，根据本发明的向导序列与靶多核苷酸中紧邻PAM序列的8、9、10、11、12、13、14、15、16、17、18、19或20个，更优选8、9、10、11或12个核苷酸具有100％序列同一性。

根据本发明的向导序列的长度优选为8-30、更优选10-30、更优选15-30、更优选17-27、更优选17-20个、更优选17、18、19、20、21、22、23、24、25、26或27个核苷酸。向导序列引导CRISPR-Cas***与靶序列序列特异性结合以形成CRISPR-Cas复合物的能力可以通过任何适合的测定来评估。例如，CRISPR***的足以形成CRISPR-Cas复合物的组分(包括有待测试的向导序列)可以诸如通过用编码CRISPR-Cas***的组分的载体进行转染来提供给具有对应靶序列的宿主细胞，随后诸如通过Surveyor测定(由Integrated DNATechnologies,Leuven Belgium分配的突变检测试剂盒)或另一种序列分析测定诸如测序评估靶序列内的优先切割。靶多核苷酸的切割可以在试管中通过以下方式进行评价：通过提供靶多核苷酸、CRISPR-Cas***的组分(包括有待测试的向导序列)和不同于测试向导序列的对照向导序列，并且在测试向导序列反应与对照向导序列反应之间比较靶序列处的结合或切割速率。其他测定是可行的，并且是本领域技术人员已知的。

据信向导多核苷酸结构组分是为形成活性CRISPR-Cas复合物所必需的。据信向导多核苷酸结构组分不一定可操作地连接至向导序列；然而，向导多核苷酸结构组分可以可操作地连接至向导多核苷酸内的向导序列。根据本发明的向导多核苷酸结构组分可包含野生型向导多核苷酸结构组分的全部或一部分(例如，野生型tracr序列的约或超过约20、26、32、45、48、54、63、67、85或更多个核苷酸)或由所述全部或部分组成，所述根据本发明的向导多核苷酸结构组分形成CRISPR-Cas复合物的一部分；例如通过根据本发明的tracr序列的至少一部分与根据本发明的tracr伴侣序列的全部或一部分的杂交，并且优选可操作地连接至根据本发明的向导序列。根据本发明的tracr序列与根据本发明的tracr伴侣序列具有足够的互补性以杂交，优选在如宿主细胞中的生理条件下杂交，并且有利于CRISPR-Cas复合物的形成。对于根据本发明的靶序列，据信不需要完全的互补性，前提条件是存在足以具有功能性的互补性。优选地，当最佳比对时，根据本发明的tracr序列沿根据本发明的tracr伴侣序列的长度具有至少50％、60％、70％、80％、90％、95％或99％序列同一性。可以使用用于比对序列的任何合适算法，优选如本文中在“序列同一性”下所定义的算法，来确定最佳比对。

一般来讲，根据本发明的tracr伴侣序列包括与根据本发明的tracr序列具有足够互补性以促进靶序列处CRISPR-Cas复合物的形成的任何序列，其中CRISPR-Cas复合物包含与根据本发明的tracr序列杂交的根据本发明的tracr伴侣序列。根据本发明的tracr序列与根据本发明的tracr伴侣序列的互补程度优选根据tracr伴侣序列和tracr序列沿两条序列中的最短者的长度的最佳比对进行限定。可以使用用于比对序列的任何合适算法，优选如本文中在“序列同一性”下所定义的算法，来确定最佳比对。

优选地，关于根据本发明的tracr伴侣序列和根据本发明的tracr序列，将二级结构考虑在内，诸如tracr序列或tracr伴侣序列内的自身互补性。优选地，当最佳比对时，根据本发明的tracr序列与根据本发明的tracr伴侣序列之间沿两条序列中的较短者的长度的互补程度为高于50％、60％、75％、80％、85％、90％、95％、97.5％、99％序列同一性。优选地，根据本发明的tracr伴侣序列的长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50个或更多个核苷酸。优选地，根据本发明的tracr序列的长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50个或更多个核苷酸。优选地，根据本发明的tracr序列和根据本发明的tracr伴侣序列即向导多核苷酸结构组分包含在单一转录物内，使得两者之间的杂交产生包含二级结构诸如发夹的杂交复合物。当tracr序列和tracr伴侣序列不包含在单一转录物中时，也可形成这种杂交复合物。根据本发明的tracr序列和/或根据本发明的tracr伴侣序列和/或根据本发明的向导多核苷酸结构组分中用于形成发夹结构的优选成环序列的长度为四个核苷酸，并且最优选具有序列GAAA；可以使用更长或更短的环序列，也可以使用替代性序列。这些环序列优选地包含核苷酸三联体(例如，AAA)和一个额外核苷酸(例如C或G)。成环序列的实例包括CAAA和AAAG。优选地，根据本发明的tracr序列和/或根据本发明的tracr伴侣序列或其杂交复合物和/或根据本发明的向导多核苷酸结构组分包含或能够形成至少两个或更多个发夹。更优选地，根据本发明的tracr序列和/或根据本发明的tracr伴侣序列或其杂交复合物和/或根据本发明的向导多核苷酸结构组分包含或能够形成两个、三个、四个或五个发夹。优选地，根据本发明的tracr序列和/或根据本发明的tracr伴侣序列或其杂交复合物和/或根据本发明的向导多核苷酸结构组分包含或能够形成至多五个发夹。优选地，根据本发明的tracr序列和根据本发明的tracr伴侣序列或根据本发明的tracr序列与根据本发明的tracr伴侣序列的杂交复合物和/或根据本发明的向导多核苷酸结构组分的单一转录物还包含转录终止序列；优选地所述转录终止序列为多聚T序列，例如六个T核苷酸。正如所说，向导多核苷酸结构组分是本领域中技术人员已知的；背景信息可例如见于Gaj等人,2013中。

在根据本发明的所有实施方案的背景下，术语“靶多核苷酸”是指根据本发明的靶序列，根据本发明的向导序列被设计成与所述靶序列具有互补性，其中根据本发明的靶序列与根据本发明的向导序列之间的杂交促进CRISPR-Cas复合物的形成。并不一定需要完全互补，只要存在引起杂交并且促进CRISPR-Cas复合物形成的足够互补性。优选地，根据本发明的向导序列靶向靶标中独特的靶序列。优选地，根据本发明的向导序列与靶多核苷酸中紧邻PAM序列的8、9、10、11、12、13、14、15、16、17、18、19或20个，更优选8、9、10、11或12个核苷酸具有100％序列同一性。根据本发明的靶多核苷酸可以包括任何多核苷酸诸如DNA或RNA多核苷酸并且可以是单链或双链的。当靶多核苷酸为双链多核苷酸时，根据本发明的向导序列可以能够与靶多核苷酸的任一条链，例如编码链或非编码链杂交。

根据本发明的靶多核苷酸可以位于细胞的细胞核或细胞质中。根据本发明的靶多核苷酸可以位于宿主细胞的细胞器中，例如线粒体或叶绿体中。根据本发明的靶多核苷酸可以包含在基因组中，可以包含在染色体中，或可以在染色体外，可以包含在人工染色体诸如酵母人工染色体(YAC)中，可以存在于任何染色体实体或染色体外实体，诸如常染色体型复制实体诸如附加体型质粒或载体中。根据本发明的靶多核苷酸对于宿主细胞可以是天然的或外来的。

根据本发明的靶多核苷酸优选与前间区序列邻近基序(PAM)相关联，所述前间区序列邻近基序为由CRISPR-Cas复合物识别的短多核苷酸。优选地，靶多核苷酸和PAM被连接，其中PAM优选紧邻靶多核苷酸的下游(3’)。PAM的确切序列和长度可以不同，例如不同的Cas蛋白可需要不同的PAM。根据本发明的一个优选PAM是长度为2至8个核苷酸的多核苷酸。一种优选的PAM选自：5’-XGG-3’、5’-XGGXG-3’、5’-XXAGAAW-3’、5’-XXXXGATT-3’、5’-XXAGAA-3’、5’-XAAAAC-3’，其中X可以是任何核苷酸或其类似物，优选为任何核苷酸；并且W为A或T。一种更优选的PAM为5’-XGG-3’。PAM优选与Cas蛋白匹配。最广泛使用的CAS/CRISPR***衍生自酿脓链球菌并且匹配的PAM序列5’-XGG-3’紧邻靶序列的下游(3’)定位。对于脑膜炎奈瑟氏菌(Neisseria meningitides)Cas蛋白的一种优选PAM为5’-XXXXGATT-3’；对于嗜热链球菌(Streptococcus thermophilus)Cas蛋白的一种优选PAM为5’-XXAGAA-3’；对于齿垢密螺旋体(Treponema denticola)的一种优选PAM为5’-XAAAAC-3’。优选PAM匹配于使用的Cas蛋白。根据本发明的Cas蛋白可以被工程化为匹配这样的PAM，该PAM不同于匹配野生型Cas蛋白的天然PAM。因此，根据本发明的CRISPR-Cas***可以用于定制的特异性靶向。

术语“杂交”是指其中一个或多个多核苷酸反应形成经由核苷酸残基的碱基之间氢键键合而稳定化的复合物的反应。氢键可以通过沃森-克里克碱基配对、Hoogstein键合或以任何其他序列特异性方式形成。该复合物可包含形成双链体结构的两条链、形成多链复合物的三条或更多条链、单一自杂交链或这些的任何组合。杂交反应可以构成更大规模的方法中的步骤，诸如用酶切割多核苷酸。优选的杂交条件是如根据本发明的宿主细胞内的生理条件。

术语“来源”在本发明的所有实施方案的背景下是指包含向导多核苷酸和Cas蛋白的CRISPR-Cas***的任何来源。向导多核苷酸和Cas蛋白可以存在于分别的来源中。在这种情况下，根据本发明的组合物包含含有向导多核苷酸来源和Cas蛋白来源的CRISPR-Cas***。任何来源意指向导多核苷酸和Cas蛋白可以以其可在CRISPR-Cas***内起作用的形式存在。向导多核苷酸和/或Cas蛋白可以其活性形式提供并且可以自非活性形式或从另一实体提供。向导多核苷酸可以例如存在于另一多核苷酸上或者可以由被转录以提供实际的向导多核苷酸的多核苷酸编码。Cas蛋白可以由被转录和/或翻译以提供实际的Cas蛋白的多核苷酸(例如DNA或mRNA)编码。编码多核苷酸可以存在于本文限定的核酸构建体中和/或本文限定的载体中。这种核酸构建体和载体在本文中称为根据本发明的核酸构建体和根据本发明的载体。

优选地，在根据本发明的组合物中，Cas蛋白由多核苷酸编码和/或向导多核苷酸由多核苷酸编码或存在于多核苷酸上。

优选地，在根据本发明的组合物中，Cas蛋白由多核苷酸编码和/或向导多核苷酸由另一个多核苷酸编码或存在于另一个多核苷酸上，并且一个或多个多核苷酸包含在载体中。

优选地，在根据本发明的组合物中，向导多核苷酸由被转录以提供实际的向导多核苷酸的多核苷酸编码。因此，在一个实施方案中，在根据本发明的组合物中，优选地，向导多核苷酸以编码所述向导多核苷酸的多核苷酸的形式存在并且在宿主细胞中转录所述向导多核苷酸后获得向导多核苷酸。

优选地，在根据本发明的组合物中，编码向导多核苷酸的多核苷酸与载体具有序列同一性，使得有利于编码向导多核苷酸的多核苷酸与所述载体的重组，其中重组优选为宿主细胞中的体内重组并且其中载体优选为线性的。因此，在一个实施方案中，在根据本发明的组合物中，优选地，编码向导多核苷酸的多核苷酸与第一载体具有序列同一性的一个或多个区域以允许编码向导多核苷酸的多核苷酸与所述第一载体之间同源重组，以产生包含编码向导多核苷酸的多核苷酸的第二载体，其中重组优选为宿主细胞中的体内重组并且其中第一载体优选为线性载体。本领域的技术人员知道如何提供线性载体；其可例如原样合成或者可通过限制性酶消化环状载体提供。允许设计与载体具有同源性的若干个不同的编码向导多核苷酸的多核苷酸，而无需将编码向导多核苷酸的每个多核苷酸克隆到载体中。

优选地，根据本发明的这种组合物包含至少两个不同的多核苷酸，各自编码相应的不同向导多核苷酸，其中所述至少两个多核苷酸还彼此具有序列同一性，使得有利于编码不同向导多核苷酸的多核苷酸与所述载体的重组，其中重组优选为宿主细胞中的体内重组并且其中载体优选为线性载体。因此，在一个实施方案中，根据本发明的组合物优选包含至少两个不同的多核苷酸，各自编码相应的不同向导多核苷酸，其中所述至少两个多核苷酸还彼此具有序列同一性，以允许编码不同向导多核苷酸的多核苷酸相互同源重组并且与所述(第一)载体同源重组，以产生包含各自编码向导多核苷酸的所述至少两个多核苷酸的第二载体，其中重组优选为宿主细胞中的体内重组并且其中(第一)载体优选为线性载体。在一个实施方案中，向导多核苷酸优选在其与靶多核苷酸的序列同一性方面是不同的。

在一个变型的实施方案中，编码向导多核苷酸的多核苷酸与载体或编码向导多核苷酸自身的另一个多核苷酸不具有序列同一性，但是额外的多核苷酸存在于根据本发明的组合物中，以有利于将编码向导多核苷酸的多核苷酸组装到载体中和/或各自编码相应的不同向导多核苷酸的两个不同多核苷酸的复合物的组装。

因此，提供了根据本发明的组合物，其中存在额外的多核苷酸组，所述多核苷酸组与编码向导多核苷酸的多核苷酸以及与载体具有序列同一性，使得有利于编码向导多核苷酸的多核苷酸与所述载体的重组，其中重组优选为宿主细胞中的体内重组并且其中载体优选为线性的。此外，提供了根据本发明的组合物，其中存在另外的多核苷酸，所述另外的多核苷酸与编码向导多核苷酸的多核苷酸并且与编码另外且不同的向导多核苷酸的另外且不同的多核苷酸具有序列同一性，使得有利于编码向导多核苷酸的多核苷酸与所述载体的重组，其中重组优选为宿主细胞中的体内重组并且其中载体优选为线性的。

优选地，在根据本发明的组合物中，Cas蛋白由多核苷酸编码并且向导多核苷酸由另一个多核苷酸编码或存在于另一个多核苷酸上，并且多核苷酸包含在一个载体中。

优选地，在根据本发明的组合物中，Cas蛋白由包含在载体中的多核苷酸编码并且向导多核苷酸由包含在另一个载体中的另一个多核苷酸编码或存在于所述另一个多核苷酸上。优选地，编码Cas蛋白的载体为低拷贝载体并且编码向导多核苷酸的载体为高拷贝载体。这允许Cas蛋白与向导多核苷酸的差异性表达；Cas蛋白可以例如以比向导多核苷酸低的水平表达。在本文中，优选地，低拷贝载体是以至多10、9、8、7、6、5、4、3、2个或最优选1个拷贝/宿主细胞的量存在的载体。在本文中，优选地，高拷贝载体是以多于10个、至少15个、至少20、25、30、35、40、45、50、55、60、70、80、90或至少100个拷贝/宿主细胞的量存在的载体。低拷贝载体的示例为酵母复制型质粒或酵母着丝粒型质粒。高拷贝载体的示例为酵母附加型质粒，其包含2μ(也称为2mu或2微米)复制起点。

本发明因此提供了提供向导多核苷酸和Cas蛋白本身或其编码在或存在于载体上的可行性。在后者的情况中，编码多核苷酸可各自在单独的载体上或可以均在单一载体上。如本文他处示出的，本发明还提供了外源性多核苷酸，其也称为供体多核苷酸、供体DNA(当多核苷酸为DNA时)或修复模板，在CRISPR-Cas复合物切割靶多核苷酸后，所述外源性多核苷酸与靶多核苷酸重组，产生了经修饰的靶多核苷酸。这种外源性多核苷酸在本文中称为根据本发明的外源性多核苷酸并且可以是单链或双链的。因此，根据本发明的组合物还可包含根据本发明的外源性多核苷酸；根据本发明的组合物可包含一个或多个不同的外源性多核苷酸。此类一个或多个不同的外源性多核苷酸可以编码不同的表达产物或可以编码相同的表达产物，同时外源性多核苷酸的一部分与靶多核苷酸的一部分具有序列同一性。在一个实施方案中，根据本发明的组合物包含一个或多个不同的外源性多核苷酸，所述外源性多核苷酸包含与靶多核苷酸具有序列同一性的一个或多个区域，以允许在CRISPR-Cas复合物切割靶多核苷酸后与切割的靶多核苷酸的同源重组，产生经修饰的靶多核苷酸。根据本发明的此类组合物实现了如在本文他处所称的根据本发明的多重CAS-CRISPR***。在一个实施方案中，在根据本发明的组合物中，其中存在至少两个不同的外源性多核苷酸，其在CRISPR-Cas复合物切割靶多核苷酸后与靶多核苷酸重组产生经修饰的靶多核苷酸，所述至少两个不同的外源性多核苷酸可以彼此具有序列同一性，使得有利于所述不同的外源性多核苷酸的重组，其中重组优选为宿主细胞中的体内重组。在一个实施方案中，根据本发明的组合物包含至少两个不同的外源性多核苷酸，所述至少两个不同的外源性多核苷酸中的每个包含与另一个外源性多核苷酸并且任选地与靶多核苷酸具有序列同一性的至少一个区域，以允许在CRISPR-Cas复合物切割靶多核苷酸后所述至少两个不同的外源性多核苷酸相互同源重组并且与切割的靶多核苷酸同源重组，产生经修饰的靶多核苷酸，其中重组优选为宿主细胞中的体内重组。根据本发明的此类组合物实现了如在本文他处描述的根据本发明的单重CRISPR-Cas***。在一个变型的实施方案中，存在额外的多核苷酸，所述额外的多核苷酸与外源且不同的多核苷酸具有序列同一性，使得有利于外源且不同的多核苷酸的重组，并且其中重组优选为宿主细胞中的体内重组。在这个变型的实施方案中，一个或多个额外的多核苷酸可以仅与外源性多核苷酸具有序列同一性，使得可形成这些多核苷酸的复合物。作为替代地或组合地，一个或多个额外的多核苷酸可以与外源性多核苷酸具有序列同一性并且与靶多核苷酸的一部分具有序列同一性，使得外源性多核苷酸或外源性多核苷酸的复合物可被引入到靶多核苷酸中。

根据本发明的外源性多核苷酸可以存在于载体上或可以以本身的形式存在，可以由另一个多核苷酸编码，或可以可操作地连接至向导多核苷酸并且可以与跟向导序列相关联的PAM上游(即在PAM的5’侧)的靶多核苷酸的一部分具有序列同一性，或可以与跟向导序列相关联的PAM下游(即在PAM的5’侧)的靶多核苷酸的一部分具有序列同一性。对于外源性多核苷酸，载体可以是单独的载体。携带外源性多核苷酸的载体可以是下文描述的任何载体。外源性多核苷酸可以存在于包含编码根据本发明的Cas蛋白的多核苷酸和/或包含向导多核苷酸或编码根据本发明的向导多核苷酸的多核苷酸的载体上。因此，在一个实施方案中，本发明提供了根据本发明的组合物，其中编码根据本发明的Cas蛋白的多核苷酸、向导多核苷酸或编码根据本发明的向导多核苷酸的多核苷酸存在于单一载体上，所述载体还可以包含表达编码产物所需的任何元件诸如启动子和终止子元件。这种单一(所有在一个中)载体具有下述优点：为CRISPR-Cas***所需的所有组分一起存在；此外，单一转化事件，任选地与供体多核苷酸组合，足以将组分引入到宿主细胞中。在一个实施方案中，提供了根据本发明的组合物，其中根据本发明的Cas蛋白由存在于载体上的多核苷酸编码，并且根据本发明的向导多核苷酸以本身的形式存在(例如，作为PCR片段、限制性片段或合成片段)，向导多核苷酸可以可操作地连接至根据本发明的外源性多核苷酸，其中向导多核苷酸和/或可操作连接的外源性多核苷酸与载体具有序列同一性，使得允许向导多核苷酸和/或可操作连接的外源性多核苷酸与载体在宿主细胞中进行体内重组。优选地，体内重组产生包含向导多核苷酸和/或可操作连接的外源性多核苷酸的第二载体。在向导多核苷酸和外源性多核苷酸可操作地连接并且向导多核苷酸与诸如上文所述的载体具有序列同一性的情况下，当向导多核苷酸与载体重组时外源性多核苷酸被释放。为了上文所述的目的，载体可以被适当的限制性酶(诸如SapI)消化，使得有利于消化的载体与向导多核苷酸和/或可操作连接的外源性多核苷酸之间的体内重组。这个实施方案增强了效率，因为其消除了对载体-***序列组装步骤的需要。这些实施方案设想到，可以使用多个不同的向导多核苷酸，或者可以使用可操作地连接至多个不同的外源性多核苷酸的多个不同的向导多核苷酸，即向导多核苷酸或可操作地连接至多个不同的外源性多核苷酸的向导多核苷酸的文库。这种多重CRISPR-Cas***可方便地用于引入供体多核苷酸序列、缺失多核苷酸和将多核苷酸文库***到宿主细胞的基因组中。

在本发明的所有实施方案的背景下，载体可以是任何载体(例如质粒或病毒)，其可方便地进行重组DNA过程并且可介导根据本发明的多核苷酸的表达。载体的选择通常将取决于载体与待引入所述载体的宿主细胞的相容性。优选的载体是本文实施例中使用的载体。载体可以是线性多核苷酸或线性或闭合的环状质粒。载体可以是自主复制载体，即作为染色体外实体存在的载体，其复制独立于染色体复制，例如质粒、染色体外元件、微型染色体或人工染色体。

优选地，在根据本发明的组合物中，至少一个载体是自主复制载体，优选AMA载体。自主维持的克隆载体和AMA载体优选包含AMA1序列(参见例如Aleksenko和Clutterbuck1997)或其功能性变体或等同物。

载体可以是当引入到宿主细胞中时整合到基因组中并且与其已整合进入其中的染色体一起复制的载体。整合性载体可整合在宿主细胞的染色体的随机位置或预先确定的靶基因座处。优选的整合性载体包含DNA片段，其与宿主细胞基因组中的预先确定的靶基因座的DNA序列同源，以使载体的整合靶向这个预先确定的基因座。为了促进靶向整合，载体优选在转化细胞之前被线性化。优选进行线性化使得载体的至少一个末端，但是优选两个末端的侧翼为与靶基因座同源的序列。靶基因座侧翼的同源序列的长度为优选至少30bp、优选至少50bp、优选至少0.1kb、甚至优选至少0.2kb、更优选至少0.5kb、甚至更优选至少1kb、最优选至少2kb。优选地，靶向整合到宿主细胞基因组中，即整合在预先确定的靶基因座中的效率通过增强宿主细胞的同源重组能力来增大。

载体中的同源侧翼DNA序列(其与靶基因座同源)可以衍生自高度表达的基因座，这意指它们衍生自能够在宿主细胞中具有高表达水平的基因。本文将能够高水平表达的基因、即高表达基因定义为，在例如诱导条件下其mRNA可构成细胞总mRNA的至少0.5％(w/w)的基因，或者，其基因产物可构成细胞总蛋白质的至少1％(w/w)的基因，或在分泌基因产物的情况下，可分泌到至少0.1g/l的水平的基因(例如，如EP 357 127 B1中所述)。

根据本发明的多核苷酸的多于一个拷贝可以***到微生物宿主细胞中以介导由所述多核苷酸编码的产物的产生。这可以通过以下方式完成：优选通过将多核苷酸的多个拷贝整合到宿主细胞的基因组中，更优选通过将多核苷酸的整合靶向在先前段落中限定的高度表达的基因座中的一个处。另选地，多个拷贝的整合可以通过包括具有根据本发明的多核苷酸的可扩增的选择性标记基因来实现，使得含有选择性标记基因的扩增拷贝(和由此核酸序列的另外拷贝)的细胞可以通过在适当的选择剂存在下培养细胞来进行选择。为了进一步增加根据本发明的多核苷酸的拷贝数量，可以使用如WO98/46772中描述的基因转化技术。

当编码根据本发明的Cas蛋白的根据本发明的多核苷酸和/或根据本发明的向导多核苷酸整合到宿主细胞基因组中时，当例如发生期望的基因组编辑时，可希望将多核苷酸从基因组中切除。多核苷酸的切除可以通过本领域的技术人员已知的任何手段进行，一种优选的手段为使用Amds作为选择标记并且用例如氟乙酰胺进行反选择以从基因组中切除多核苷酸,诸如EP0635574中所述。用于切除的另一手段将是使用熟知的Cre/lox***；编码根据本发明的Cas蛋白的多核苷酸序列可以例如侧翼为lox66/71或loxP/loxP。用于切除的另一手段将是使用根据本发明的CRISPR-Cas***。

根据本发明的载体可以是单一载体或质粒或包括两个或更多个载体或质粒的载体***，所述两个或更多个载体或质粒一起含有待引入到宿主细胞中的根据本发明的多核苷酸。

根据本发明的载体可以含有允许容易地选择转化的细胞的一个或多个选择性标记。在一个实施方案中，在根据本发明的组合物中，一个或多个或所有载体包含选择性标记，优选每个载体包含不同的选择性标记。选择性标记是其产物提供了杀生物剂或病毒抗性、重金属抗性、对营养缺陷型的原营养等的基因。选择性标记可以在载体上作为表达盒而引入到细胞中或可以引入在单独载体上。

在真菌细胞中使用的选择性标记可以选自包括但不限于以下各项的组：amdS(乙酰胺酶)、argB(鸟氨酸氨基甲酰转移酶)、bar(草胺膦乙酰转移酶)、bleA(腐草霉素结合)、hygB(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5'-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶)、NAT或NTC(诺尔丝菌素)和trpC(邻氨基苯甲酸合酶)、KanMX(抗G418/遗传霉素；选择标记kanMX是由在来自棉阿舒囊霉(Ashbya gossypii)的强TEF启动子的控制下的细菌氨基糖苷磷酸转移酶(来自转座子Tn903的kanr)组成的杂合基因；哺乳动物细胞、酵母和其他真核细胞在用kanMX标记转化时获得遗传霉素(＝G418，类似于卡那霉素的氨基糖苷抗生素)抗性；在酵母中，kanMX标记避免了营养缺陷标记的需要；此外，kanMX标记使得大肠杆菌抗卡那霉素)以及来自其他物种的等同物。

可用于原核宿主细胞中的标记包括ATP合成酶、亚基9(oliC)、乳清酸核苷-5'-磷酸脱羧酶(pvrA)、氨苄青霉素抗性基因(大肠杆菌)、新霉素、卡那霉素、四环素、壮观霉素、红霉素、氯霉素、腐草霉素(芽孢杆菌(Bacillus))的抗性基因和编码β-葡萄糖醛酸酶(GUS)的大肠杆菌uidA基因。载体可用于体外，例如用于在体外转录***中体外产生RNA或用于转染或转化宿主细胞。

可用于转化大多数酵母的通用标记基因诸如乙酰胺酶基因或cDNA(来自构巢曲霉(A.nidulans)、米曲霉(A.oryzae)或黑曲霉(A.niger)的amdS、niaD、facA基因或cDNA)或提供对抗生素如G418、潮霉素、博来霉素、卡那霉素、甲氨蝶呤、腐草霉素或苯菌灵抗性(benA)的抗性的基因。另选地，可使用特异性选择标记，诸如需要相应突变宿主菌株的营养缺陷型标记：例如D-丙氨酸消旋酶(来自芽孢杆菌)、URA3(来自酿酒酵母或来自其他酵母的类似基因)、pyrG或pyrA(来自构巢曲霉或黑曲霉)、argB(来自构巢曲霉或黑曲霉)或trpC。在一个优选的实施方案中，在引入表达构建体后从转化的宿主细胞中缺失选择标记，以获得无选择标记基因的能够产生多肽的转化宿主细胞。

用于连接上述元件以构建根据本发明的载体的程序为本领域中的技术人员众所周知的(参见，例如Sambrook&Russell,Molecular Cloning:A Laboratory Manual,第3版,CSHL Press,Cold Spring Harbor,NY,2001；和Ausubel等人,Current Protocols inMolecular Biology,Wiley InterScience,NY,1995)。

在本发明的所有实施方案的背景下的Cas蛋白是指适于本发明的目的的任何Cas蛋白。Cas蛋白可具有酶活性或可不具有酶活性。Cas蛋白的非限制性示例包括Casl、CaslB、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csnl和Csxl2)、CaslO、Csyl、Csy2、Csy3、Csel、Cse2、Cscl、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmrl、Cmr3、Cmr4、Cmr5、Cmr6、Csbl、Csb2、Csb3、Csxl7、Csxl4、CsxlO、Csxl6、CsaX、Csx3、Csxl、CsxlS、Csfl、Csf2、Csf3、Csf4、其同源物或其经修饰版本。这些Cas蛋白为本领域的技术人员所熟知；例如酿脓链球菌Cas9蛋白的氨基酸序列可以见于SwissProt数据库中目录号Q99ZW2。优选地，根据本发明的非经修饰的Cas蛋白具有DNA切割活性，诸如例如Cas9。优选地，根据本发明的Cas蛋白为Cas9，并且可以是来自酿脓链球菌或肺炎链球菌(S.pneumoniae)的Cas9。优选地，根据本发明的Cas蛋白引导在靶多核苷酸的位置处的一条或两条多核苷酸链的切割，诸如靶多核苷酸内和/或靶多核苷酸的反向互补体内。在本文中，靶多核苷酸的位置处被限定为在距靶多核苷酸的第一或最后一个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500个或更多个核苷酸内；更优选地，在距靶多核苷酸的第一或最后一个核苷酸1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500个或更多个核苷酸内；甚至更优选地，在距靶多核苷酸的第一或最后一个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50个核苷酸内。因此，根据本发明的Cas蛋白优选引导在下述位置处的一条或多条多核苷酸链的切割：在距靶多核苷酸的第一或最后一个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500个或更多个核苷酸内；更优选地，在距靶多核苷酸的第一或最后一个核苷酸1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500个或更多个核苷酸内；甚至更优选地，在距靶多核苷酸的第一或最后一个核苷酸1、2、3、4、5、6、7、8、9、10、15、20、25、50个核苷酸内。通常，根据本发明的靶多核苷酸与PAM序列(在本文他处限定的)相关联，并且PAM序列优选紧邻靶序列的下游(3’)；CRISPR-Cas复合物的形成通常导致PAM序列的上游(5’)3个碱基对的一个或两个多核苷酸链的切割。

优选地，根据本发明的组合物中的Cas蛋白具有引导靶多核苷酸的位置处的两条多核苷酸链的切割的活性。Cas核酸酶活性通常通过两个单独的催化结构域即RuvC和HNH进行。每个结构域切割一条多核苷酸链，每个结构域可以通过单点突变失活。由此根据本发明的Cas蛋白可以方便地相对于对应的野生型Cas蛋白进行突变，使得突变型Cas蛋白具有改变的核酸酶活性并且缺乏切割靶多核苷酸的一条或两条链的能力。例如，来自酿脓链球菌的Cas9的RuvC I催化结构域中的天冬氨酸至丙氨酸替换(D10A)将Cas9从切割两条链的核酸酶的转化为切口酶，在本文中将所述切口酶定义为切割靶多核苷酸的单条链的Cas蛋白。使得Cas9变为切口酶的其他突变示例包括但不限于H840A、N854A和N863A。在本发明的背景下，具有切口酶活性的Cas蛋白可以通过同源重组，优选根据Ran等人,2013的双切口技术用于基因组编辑。因此，根据本发明的一个优选Cas蛋白包含至少一个突变，使得蛋白质相比于对应的野生型Cas蛋白具有改变的核酸酶活性，优选具有引导靶序列的位置处的单条多核苷酸链的切割的活性。这种所谓的切口酶突变体可方便地用于双链体背景中，即用于根据本发明的组合物中，所述根据本发明的组合物包含RuvC突变的Cas蛋白切口酶突变体和NHN突变的Cas蛋白切口酶突变体，使得一种Cas蛋白突变体切口靶多核苷酸的一条链并且另一种Cas蛋白突变体切口靶多核苷酸的另一条链。根据使用的两个向导多核苷酸，两种不同的CRISPR-Cas复合物有效地使得在多核苷酸靶标中产生两个单链切口；这些切口可以是若干个核苷酸，多至5、10、20、30个或更多个的间隔。这种双切口方法极大地增强了NEJH的特异性。关于双切口的背景信息可见于例如Ran等人,2013中。

根据本发明的Cas蛋白可以包含Cas9的两个或更多个突变型催化结构域，诸如RuvC I、RuvC II和/或RuvC III以使得突变型Cas9基本缺乏所有DNA切割活性。在一些实施方案中，D10A突变与H840A、N854A或N863A突变中的一种或多种结合以产生基本缺乏所有DNA切割活性的Cas9酶。优选地，当突变型酶的DNA切割活性相对于其非突变形式小约25％、10％、5％、1％、0.1％、0.01％或更小时，Cas被认为是基本缺乏所有DNA切割活性的。基本缺乏所有酶切割活性的Cas蛋白可以方便地用于基因沉默或下调表达，因为CRISPR-CAS复合物将阻碍靶多核苷酸的转录。其他突变可以是有用的；其中Cas9或其他Cas蛋白来自非酿脓链球菌的物种，可以进行对应氨基酸的突变来实现类似的效应；本领域的技术人员知道如何鉴定这些对应的氨基酸。

根据本发明的Cas蛋白可以是融合蛋白并且包含至少一个异源功能结构域，这种结构域优选为具有FokI活性的结构域，诸如由Aggarwal等人(Aggarwal,A.K.；Wah,D.A.；Hirsch,J.A.；Dorner,L.F.；Schildkraut,I.(1997)."Structure of the multimodularendonuclease FokI bound to DNA".Nature 388(6637):97–100)所述。酶FokI天然存在于海床黄杆菌(Flavobacterium okeanokoites)中并且是细菌IIS型限制性内切核酸酶，其由N-末端DNA结合结构域和在C末端处的非特异性DNA切割结构域组成(Durai等人,2005)。当FokI蛋白通过其DNA结合结构域在5'-GGATG-3':3'-CATCC-5'识别位点处结合双链DNA时，DNA切割结构域被激活并且在无需另外的序列特异性的情况下切割识别位点的最近核苷酸的下游的第一条链9个核苷酸和上游的第二条链13个核苷酸(Wah等人,1998。Cas9-FokI融合蛋白已尤其描述于Guilinger等人,2014和Tsai等人,2014中。

除Cas蛋白之外，根据本发明的Cas融合蛋白可以包含1、2、3、4、5、6、7、8、9、10个或更多个结构域。可以融合至Cas蛋白的蛋白结构域的示例包括但不限于，表位标签、报道基因序列、以及具有以下活性中的一种或多种活性的蛋白结构域：甲基化酶活性、脱甲基化酶活性、转录激活活性、转录阻遏活性、转录释放因子活性、组蛋白(historic)修饰活性、RNA切割活性以及核酸结合活性。表位标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血球凝集素(HA)标签、Myc标签、VSV-G标签、以及硫氧还蛋白(Trx)标签。报道基因的实例包括但不限于，谷胱甘肽-S-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)、β-半乳糖苷酶、β-葡萄糖醛酸酶、萤光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)、以及自身荧光蛋白(包括蓝色荧光蛋白(BFP))。Cas蛋白可以融合至编码结合DNA分子或结合其他细胞分子的蛋白质或蛋白质片段的基因序列，该蛋白质包括但不限于，麦芽糖结合蛋白(MBP)、S-标签、Lex A DNA结合结构域(DBD)融合物、GAL4DNA结合结构域融合物、以及单纯疱疹病毒(HSV)BP 16蛋白融合物。可以形成包含CRISPR酶的融合蛋白的一部分的额外结构域描述于US20110059502中。经标签化Cas蛋白可用于鉴定靶多核苷酸的位置。一种优选的根据本发明的Cas融合蛋白包含如上文所定义的FokI结构域。

一种优选的根据本发明的Cas蛋白包含核定位序列，优选异源的核定位序列。这种核定位序列还称为核定位信号。优选地，这种核定位信号赋予CRISPR-Cas复合物足够的力量来驱动所述CRISPR-Cas复合物以可检测量聚集在宿主细胞的核中。在不希望受到理论约束的情况下，据信核定位序列不是为宿主细胞中的CRISPR-Cas活性所必需的，但是包括此类序列增强***的活性，特别是对于靶向至核中的核酸分子而言。这种核定位序列优选存在于Cas蛋白中，但是也可存在于任何其他地方，使得有利于将CRISPR-Cas***靶向至核。一种优选的核定位序列为SV40核定位序列。

在根据本发明的组合物中和任何其他实施方案中，编码Cas蛋白的多核苷酸优选针对其将在其中表达的宿主细胞进行密码子优化，更优选地，编码Cas蛋白的多核苷酸是经密码子对优化的。一般来讲，密码子优化是指在维持天然氨基酸序列的情况下通过以下方式修饰核酸序列来增强在目标宿主细胞中的表达的方法：通过用该宿主细胞的基因中更频繁使用或最频繁使用的密码子替换天然序列的至少一个密码子(例如，超过1、2、3、4、5、10、15、20、25、50或更多个密码子)。多种物种对于特定氨基酸的某些密码子表现出特定偏倚性。密码子偏倚性(生物体之间密码子使用的差异)常常与信使RNA(mRNA)的翻译效率相关，而该翻译效率则被认为依赖于(除其他之外)被翻译的密码子的特性和特定转移RNA(tRNA)分子的可获得性。细胞中选定的tRNA的优势度通常是肽合成中最频繁使用的密码子的反映。因此，基因可以被定制用于基于密码子优化在给定生物体中最佳基因表达。密码子使用表易于获得，例如在“密码子使用数据库”，并且这些表可以通过多种方式来调整适用。参见例如Nakamura,Y.等人,2000。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可得的，诸如基因制造(Gene Forge)(宾夕法尼亚州雅各布斯的Aptagen公司(Aptagen；Jacobus,PA))也是可得的。优选地，编码Cas蛋白的序列中的一个或多个密码子(例如1、2、3、4、5、10、15、20、25、50个、或更多个、或所有密码子)对应于特定氨基酸的最频繁使用的密码子。密码子优化的优选方法描述于WO2006/077258和WO2008/000632)中。WO2008/000632解决了密码子对优化。密码子对优化是一种这样的方法，其中编码多肽的核苷酸序列已相对于其密码子使用(特别是使用的密码子对)进行修饰，以获得编码多肽的核苷酸序列的改善表达和/或编码的多肽的改善的产生。密码子对被定义为编码序列中的一组两个连续的三联体(密码子)。根据本发明的组合物中的来源中的Cas蛋白的量可以变化并且可以针对最佳性能进行优化。可方便的是，避免宿主细胞中的Cas蛋白的水平太高，因为Cas蛋白的高水平可能对宿主细胞具有毒性，甚至在不存在向导多核苷酸的情况下(参见例如Ryan等人2014和Jacobs等人,2014)。本领域的技术人员知道如何调控表达水平，诸如通过选择较弱的启动子、阻抑型启动子或诱导型启动子用于表达Cas蛋白。适用于表达蛋白的启动子的示例示出在本文中的其他地方。

在其中根据本发明的向导多核苷酸由多核苷酸编码的根据本发明的组合物中，向导多核苷酸的表达可以通过可操作连接至编码多核苷酸的启动子促进。这种启动子可以是本领域技术人员已知的任何合适启动子。可以使用若干种类型的启动子。可方便的是使用RNA聚合酶III启动子或RNA聚合酶II启动子。关于RNA聚合酶III及其启动子的背景信息可以见于例如Marck等人,2006中。在一些情况下，诸如在酿酒酵母、粟酒裂殖酵母(S.pombe)中，RNA聚合酶III启动子包括转录区域中的启动子元件。因此，可方便的是使用RNA聚合酶II启动子；这些是本领域的技术人员已知的并且综述于例如Kornberg 1999中。然而，来自RNA聚合酶II的转录物常常具有复杂的转录终止子并且转录物为聚腺苷酸化的；这可阻碍对向导多核苷酸的要求，因为向导多核苷酸的5’和3’末端均需要被精确限定，以便实现产生功能性CRISPR-Cas***所需的二级结构。然而，这些缺点可被避开。在使用RNA聚合酶II启动子的情况下，编码向导多核苷酸的多核苷酸也可编码自加工核酶并且可以可操作地连接至RNA聚合酶II启动子；这样，多核苷酸编码包含向导多核苷酸的前向导多核苷酸和自加工核酶，其中当转录时，向导多核苷酸通过自加工核酶从前向导多核苷酸转录物释放。包含可操作地连接至RNA聚合酶II启动子的编码根据本发明的前向导多核苷酸的多核苷酸的优选构建体是本文中实施例1-10中示出的那些。关于此类构建体的背景信息可见于例如Gao等人,2014等中。

优选地，在其中向导多核苷酸由多核苷酸编码的根据本发明的组合物中，所述多核苷酸可操作地连接至H1RNA聚合酶III启动子，优选人H1RNA聚合酶III启动子。

优选地，在其中向导多核苷酸由多核苷酸编码的根据本发明的组合物中，所述多核苷酸可操作地连接至U6RNA聚合酶III启动子，优选人U6RNA聚合酶III启动子。

优选地，在其中向导多核苷酸由多核苷酸编码的根据本发明的组合物中，所述多核苷酸可操作地连接至SNR52p RNA聚合酶III启动子，优选酵母SNR52p RNA聚合酶III启动子。当宿主是酵母宿主细胞，诸如酵母属(Saccharomyces)或克鲁维酵母属(Kluyveromyce)时，优选使用这种启动子。

优选地，在其中向导多核苷酸由多核苷酸编码的根据本发明的组合物中，所述多核苷酸可操作地连接至RNA聚合酶II启动子并且编码包含向导多核苷酸的前向导多核苷酸和自加工核酶，其中当转录时，向导多核苷酸通过自加工核酶从前向导多核苷酸转录物释放。包含可操作地连接至RNA聚合酶II启动子的编码根据本发明的前向导多核苷酸的多核苷酸的优选构建体是本文中实施例1-10中示出的那些。方便地，多个前向导多核苷酸和多个自加工核酶可以由单一多核苷酸编码，所述单一多核苷酸可操作地连接至一个或多个RNA聚合酶II启动子。

根据本发明的第一方面的组合物可方便地用于调节宿主细胞中多核苷酸的表达。因此，在第二方面中，本发明提供了一种调节宿主细胞中多核苷酸的表达的方法，所述方法包括使宿主细胞接触根据本发明的第一方面的组合物，其中向导多核苷酸引导Cas蛋白结合在宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物。

在本发明的背景下术语“表达”在本文中定义为多核苷酸从多核苷酸模板转录(例如，DNA模板多核苷酸转录成mRNA多核苷酸转录物或其他RNA转录物)的过程和/或mRNA转录物随后翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸转录物衍生自基因组模板DNA，则在宿主细胞中表达可以包括mRNA转录物的剪接。在本文中术语“调节表达”是指在使用相同条件测定时与其中表达未被调节的亲本宿主细胞相比表达增加或减少。减少的表达可以是转录物诸如mRNA的减少量和/或翻译产物诸如多肽的减少量。因此，增加的表达可以是转录物诸如mRNA的提高量和/或翻译产物诸如多肽的提高量。

优选地，CRISPR-Cas复合物切割靶多核苷酸的位置处的一条或两条多核苷酸链，使得调节基因产物的表达。CRISPR-Cas复合物还可以具有改变的核酸酶活性并且基本缺乏切割靶多核苷酸的一条或两条链的能力；在这种情况下，表达通过复合物与靶多核苷酸的结合调节。基本缺乏所有酶活性的Cas蛋白可以方便地用于基因沉默或下调表达，因为CRISPR-Cas复合物将阻碍靶多核苷酸的转录。另选地，Cas蛋白可被修饰成用于目标基因的可编程转录激活或沉默的转录因子(Larson等人,2013)。

根据本发明的第一方面的组合物可方便地用于多核苷酸的缺失。在一个实施方案中，当根据本发明的第一方面的组合物包含至少一个或两个向导多核苷酸的来源和/或至少一种Cas蛋白的来源时，形成至少一种CRISPR-Cas复合物或两种不同的CRISPR-Cas复合物，所述复合物切割靶多核苷酸的一个位置处或不同位置处的一条或两条多核苷酸链，从而使得从靶多核苷酸缺失多核苷酸片段。优选地，包含至少一个或两个向导多核苷酸和/或至少一种Cas蛋白的来源的根据本发明的这种组合物另外包含如下文定义的外源性多核苷酸，所述外源性多核苷酸与向导多核苷酸靶向的至少一个或两个靶多核苷酸至少部分地互补。待缺失的这种多核苷酸片段或已缺失的片段的长度可以是若干个核苷酸至数千个核苷酸，可以缺失整个基因或可以缺失基因簇。因此，本发明提供了一种调节宿主细胞中的多核苷酸的表达的方法，其中从靶多核苷酸缺失多核苷酸片段。

在一个实施方案中，调节表达的方法包括切割靶多核苷酸的至少一个位置处的一条或两条多核苷酸链，然后通过与外源性多核苷酸同源重组来修饰靶多核苷酸。在这种情况下，根据本发明的第一方面的组合物优选还包含这种外源性多核苷酸。这种修饰可导致至少一个核苷酸在靶多核苷酸中的***、缺失或替换，其中***或替换核苷酸可源自外源性多核苷酸。修饰也可在外源性多核苷酸是非整合实体时进行，诸如Dong等人和Beetham等人中所述的；在这种情况下，靶多核苷酸被修饰但没有外源性多核苷酸的核苷酸被引入到靶多核苷酸中。因此，当根据本发明的Cas蛋白以蛋白形式转化时，所得宿主是非重组宿主细胞。外源性多核苷酸可以是任何目标多核苷酸，诸如下文所定义的编码目标化合物的多核苷酸，或这种多核苷酸的一部分或其变体。这种外源性多核苷酸在本文中称为根据本发明的外源性多核苷酸并且可以是单链或双链的。

本领域的技术人员可以对根据本发明的组合物和方法考虑到各种应用。基因组中的多核苷酸(或基因)可以使用根据本发明的组合物和方法进行修饰、编辑或破坏。例如，当使用切割靶多核苷酸的两条链的完全活性的Cas蛋白时和当不存在外源性多核苷酸作为合适的修复模板时，双链断裂通过非同源末端连接修复(NHEJ)进行修复。在NHEJ期间，可发生一个或若干个核苷酸的***和/或缺失(其在一些情况下可被理解为替换)，将它们在修复位点处随机***或缺失；这是NHEJ的特征。这种***和/或缺失可以影响编码序列的阅读框，使得基因产物中产生氨基酸变化或在(提前)终止密码子发生或剪接位点改变的情况下甚至产生截短型蛋白质。

在存在外源性多核苷酸作为修复模板时，基因组中多核苷酸(或基因)可以使用根据本发明的组合物和方法、使用同源末端连接修复(HEJ)(也称为同源定向修复(HDR))进行修饰、编辑或破坏。例如，当存在与靶多核苷酸(即在双链断裂的上游(5’)和下游(3’))具有序列同一性的外源性多核苷酸以及根据本发明的CRISPR-Cas***时，HDR将外源性多核苷酸的对应核苷酸引入(或实际重新产生)在靶多核苷酸中的双链断裂处。优选地，根据本发明的外源性多核苷酸不含有其后是功能性PAM序列的靶序列自身，以避免外源性靶多核苷酸自身或经修饰的靶多核苷酸被CRISPR-CAS***(再)切割的风险。

在本发明的一些实施方案中，当根据本发明的CRISPR-Cas***包含外源性多核苷酸(供体多核苷酸、供体DNA、修复模板)时，根据本发明的CRISPR-Cas***优选包含由一个或多个单独多核苷酸或载体编码或存在于一个或多个单独多核苷酸或载体上的两个或更多个向导多核苷酸，并且提供两个或更多个外源性多核苷酸以及能够形成两种或更多种CRISPR-CAS复合物的CRISPR-Cas***。在根据本发明的一个方法中，根据本发明的这种CRISPR-Cas***可方便地用于调节两个或更多个靶多核苷酸处的表达，即一种靶向多个靶位点的方法。根据本发明的这种CRISPR-Cas***将随机在一个或多个靶多核苷酸处形成一种、两种或更多种CRISPR-CAS复合物。这种方法可以任选地与一个或多个外源性多核苷酸结合用于在宿主细胞的基因组中产生一个或多个***、缺失、替换，或用于通过形成的CRISPR-CAS复合物调节基因的表达。

在本发明的一些实施方案中，当根据本发明的CRISPR-Cas***包含外源性多核苷酸(供体多核苷酸、修复模板)时，外源性多核苷酸和向导多核苷酸可以由单一多核苷酸编码或存在于单一多核苷酸上。这使得能够合成两个或更多个此类组合多核苷酸和甚至文库合成此类组合多核苷酸。这种文库可以库的形式提供并且用于形成载体和/或多核苷酸的文库，在所述文库中，向导多核苷酸和外源性多核苷酸一起由一个多核苷酸编码或存在于一个多核苷酸上。这种库使得根据本发明的CRISPR-Cas***能够用于类似文库的多重***中。在根据本发明的这种CRISPR-Cas***中，外源性多核苷酸和向导多核苷酸可以直接连接或可以通过接头多核苷酸隔开。

在一个实施方案中，向导多核苷酸和外源性多核苷酸通过下述接头多核苷酸连接：所述接头多核苷酸编码或呈现向导多核苷酸的编码或呈现gRNA 3’序列和终止子的右侧翼，或编码或呈现向导多核苷酸的编码或呈现gRNA 5’序列和启动子的左侧翼。这使得能够合成两个或更多个此类组合多核苷酸和甚至文库合成此类组合多核苷酸。此类组合多核苷酸可以进一步加工形成具有一个或多个功能性向导多核苷酸(含有启动子和终止子)的组合多核苷酸。

在一个实施方案中，向导多核苷酸和外源性多核苷酸通过下述接头多核苷酸连接：所述接头多核苷酸编码或呈现向导多核苷酸的编码或呈现gRNA 3’序列和终止子的右侧翼和所述向导多核苷酸的多核苷酸靶标，或编码或呈现所述向导多核苷酸的多核苷酸靶标和向导多核苷酸的编码或呈现gRNA 5’序列和启动子的左侧翼，其中体内CRISPR-Cas***可在组合多核苷酸处形成以切割组合多核苷酸。

在一个实施方案中，根据本发明的一个或多个组合多核苷酸可以与编码根据本发明的Cas蛋白的一个或多个载体重组(例如通过直接克隆或体内重组)。一个或多个此类重组载体能够形成一种或多种CRISPR-CAS复合物。

根据本发明的这个方面的宿主细胞可以是如本文定义的任何宿主细胞。优选的宿主细胞是经修饰的宿主细胞，其中与对应的野生型宿主细胞相比，与非同源末端连接(NHEJ)相关联的组分的表达被改变，优选与NHEJ相关联的组分的表达被降低。与NHEJ相关联的优选组分为酵母Ku70和Ku80及其在根据本发明的优选非哺乳动物宿主细胞中相应同源物。与NHEJ相关联的另一优选组分为酵母LIG4及其在根据本发明的优选非哺乳动物宿主细胞中相应同源物。

在根据本发明的这个方面的一个方法中，优选的宿主细胞包含编码如本文他处所定义的目标化合物的多核苷酸。

在根据本发明的这个方面的一个方法中，宿主细胞可以是重组宿主细胞或可以是非重组宿主细胞。

在根据本发明的这个方面的宿主细胞中调节多核苷酸的表达的方法产生经修饰的宿主细胞，所述经修饰的宿主细胞优选包含根据本发明的第一方面的组合物的组分。因此，在第三方面中，本发明提供了包含根据本发明的第一方面的组合物的宿主细胞。这种宿主细胞可以是如本文定义的任何宿主细胞，并且还可以包含编码如本文他处所定义的目标化合物的多核苷酸。

在第四方面，本发明提供了一种产生宿主细胞的方法，所述方法包括使宿主细胞接触根据本发明的第一方面的组合物，其中向导多核苷酸引导Cas蛋白结合在宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物。在一个实施方案中，接触根据本发明的第一方面的组合物可以两步进行，其中首先使宿主细胞接触根据本发明的Cas蛋白的来源，并且随后使宿主细胞接触根据本发明的向导多核苷酸的来源和任选的根据本发明的外源性多核苷酸。在本发明的这个实施方案中的宿主细胞可以是如本文定义的任何类型的宿主细胞，并且可以包含编码如本文他处所定义的目标化合物的多核苷酸。产生根据本发明的宿主细胞的一个优选方法包括产生后代宿主细胞的步骤，其中在所述后代宿主细胞中，不再存在根据本发明的CRISPR-Cas***的组分。一个另外优选的宿主细胞是经修饰的宿主细胞，其中与对应的野生型宿主细胞相比，如上文示出的与NHEJ相关联的组分的表达被改变，优选与NHEJ相关联的组分的表达被降低。

根据本发明的第一方面的组合物可以是如本文定义的任何这种组合物。宿主细胞与根据本发明的组合物接触可以通过本领域的技术人员已知的任何手段进行。根据本发明的宿主细胞可以简单地引入到包含根据本方面的组合物的溶液中。可以使用将根据本发明的组合物递送至宿主细胞中的特定手段。本领域的技术人员知晓此类方法(参见例如Sambrook&Russell；Ausubel，同上)，其包括但不限于电穿孔法、粒子轰击或微粒轰击、原生质体法和土壤杆菌(Agrobacterium)介导的转化(AMT)。酵母可以使用本领域中已知的任何方法转化，诸如使用由Becker和Guarente,In Abelson,J.N.和Simon,1983；Hinnen等人,1978和Gietz RD,Woods RA.2002所述的程序。

优选地，CRISPR-Cas复合物切割靶多核苷酸的位置处的一条或两条多核苷酸链，使得调节基因产物的表达。CRISPR-Cas复合物还可以具有改变的核酸酶活性并且缺乏切割靶多核苷酸的一条或两条链的能力；在这种情况下，表达通过复合物与靶多核苷酸的结合调节。

在一个实施方案中，当根据本发明的第一方面的组合物包含至少一个或两个向导多核苷酸的来源和/或至少一种Cas蛋白的来源时，形成至少一种CRISPR-Cas复合物或两种不同的CRISPR-CAS复合物，所述复合物切割靶多核苷酸的一个位置处或不同位置处的一条或两条多核苷酸链，从而使得从靶多核苷酸缺失多核苷酸片段。优选地，包含至少一个或两个向导多核苷酸和/或至少一种Cas蛋白的来源的根据本发明的这种组合物另外包含如下文定义的外源性多核苷酸，所述外源性多核苷酸与向导多核苷酸靶向的至少一个或两个靶多核苷酸至少部分地互补。待缺失的这种多核苷酸片段或已缺失的片段的长度可以从若干个核苷酸至数千个核苷酸，可以缺失整个基因或可以缺失基因簇。因此，本发明提供了一种调节宿主细胞中的多核苷酸的表达的方法，其中从靶多核苷酸缺失多核苷酸片段。

在一个实施方案中，其中从靶多核苷酸缺失多核苷酸片段的调节宿主细胞中的多核苷酸的表达的方法包括使宿主细胞接触如本文所述的组合物，其中向导多核苷酸引导Cas蛋白结合在宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物。优选地，其中从靶多核苷酸缺失多核苷酸片段的调节宿主细胞中的多核苷酸的表达的方法包括使宿主细胞接触如本文所述的组合物，其中向导多核苷酸引导Cas蛋白结合在宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物，其中宿主细胞是在与NHEJ相关联的组分上有缺陷的经修饰的宿主细胞。在另一优选实施方案中，其中从靶多核苷酸缺失多核苷酸片段的调节宿主细胞中的多核苷酸的表达的方法包括使宿主细胞接触如本文所述的组合物，其中向导多核苷酸引导Cas蛋白结合在宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物，其中宿主细胞是在与NHEJ相关联的组分上有缺陷的经修饰的宿主细胞，其中如本文所述的组合物不包含外源性或供体多核苷酸。在一个优选的实施方案中，与NHEJ相关联的组分是酵母Ku70或酵母Ku80或酵母LIG4或其在根据本发明的宿主细胞中相应同源物。在调节宿主细胞中的多核苷酸的表达的方法的另一个实施方案中，组合物包含在自主复制载体中。

因此，在一个实施方案中，本发明涉及一种调节细胞中的多核苷酸的表达的方法，其中从靶多核苷酸缺失多核苷酸片段，所述方法包括使宿主细胞接触如本文所述但优选不包含如本文定义的供体多核苷酸的组合物，其中向导多核苷酸引导Cas蛋白结合在宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物，其中宿主细胞在与NHEJ相关联的组分上有缺陷，优选酵母Ku70或酵母Ku80或酵母LIG4或其在所述宿主细胞中的相应同源物。

出人意料地，已发现，在如本文所述的其中从靶多核苷酸缺失多核苷酸片段的调节细胞中的多核苷酸的表达的方法中，在涉及NHEJ的基因缺陷的宿主细胞中，当同源区域存在于预期切割位点的两个位点处并且其中如本文所述的组合物不包含供体DNA时，可通过使用CRISPR/CAS9***以可控方式获得宿主细胞基因组中的缺失。

因此，在一个实施方案中，本发明涉及一种调节细胞中的多核苷酸的表达的方法，其中从靶多核苷酸缺失多核苷酸片段，所述方法包括使宿主细胞接触包含含有向导多核苷酸和Cas蛋白的CRISPR-Cas***的来源的非天然存在或工程化的组合物，其中向导多核苷酸包含基本上是为宿主细胞中靶多核苷酸的反向互补体的向导序列并且向导多核苷酸可以引导Cas蛋白结合在宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物，其中向导序列基本上为宿主细胞的基因组中5’-(N)yPAM-3’多核苷酸序列靶标的(N)y部分的反向互补体，其中y为8-30的整数，其中PAM为前间区序列邻近基序，其中宿主细胞为解脂酵母，优选耶氏酵母属，更优选解脂耶氏酵母，甚至更优选解脂耶氏酵母CLIB122或解脂耶氏酵母ML324(以ATCC18943号保藏的)，并且其中PAM优选为选自以下的序列：5’-XGG-3’、5’-XGGXG-3’、5’-XXAGAAW-3’、5’-XXXXGATT-3’、5’-XXAGAA-3’、5’-XAAAAC-3’，其中X可以为任何核苷酸或其类似物，优选X可以为任何核苷酸；并且W为A或T，但在本文中所述组合物优选不包含如本文定义的供体多核苷酸，其中向导多核苷酸引导Cas蛋白结合在宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物，其中宿主细胞在与NHEJ相关联的组分上有缺陷，优选酵母Ku70或酵母Ku80或酵母LIG4或其在宿主细胞中相应同源物，其中Cas蛋白具有引导靶多核苷酸的位置处的两条多核苷酸链的切割的活性，并且其中切割发生于这样的基因组的区域中，所述区域包含在由Cas蛋白切割后彼此重组的两个同源区之间，从而导致包含在所述区之间的多核苷酸的缺失。

优选地，两个同源区之间的同源程度是允许同源重组的同源程度。优选地，两个同源区在同源区的整个长度上具有至少60％、70％、80％、90％、99％或100％序列同一性。已出人意料地发现，甚至在丝状真菌中同源区的长度可以是非常短的，在丝状真菌中通常至少1kb或几个kb的长度是允许同源重组所必需的。因此，在一个优选的实施方案中，同源区的长度优选为至多1kb、至多0.5kb、至多100bp、至多50bp、至多40bp、至多30bp、至多20bp、至多10bp。

优选地，两个同源区之间的距离为至多10kb、至多9、至多8kb、至多7kb、至多6kb、至多5kb、至多4kb、至多3kb、至多2kb、至多1kb、至多0.5kb、至多100bp、至多50bp、至多40bp、至多30、20、10kb。

在一方面，本发明涉及一种软件算法，其能够鉴定包含于在PAM位点附近约7-20bp的同源区之间的基因组中的PAM位点，以设计靶向一个或多个PAM位点并且在不使用供体DNA的情况下产生多核苷酸缺失的方法。

上述方法可用于以设计方式有效地去除多核苷酸序列。例如，在将Cas9表达盒引入在基因组DNA后并且在CRISPR/CAS9***介导若干轮修饰之后，可以通过引入靶向Cas9表达盒中的位点的gRNA而从基因组去除CAS9，并且其中Cas9表达盒包含在如上文定义的两个同源区之间，优选100-bp长，更优选20-bp、15-bp长或更短，以及切割出Cas9开放阅读框或表达盒的大部分。

上述方法还可用于基因的瞬时灭活。例如，可例如通过以下使得基因例如Ku70多核苷酸变为非功能性：在包含分别在5’末端和3’末端处的两个同源区的Ku70基因的ORF中***多核苷酸序列，其中优选同源区为100-bp长，更优选20-bp、15-bp长或更短。Ku70基因可以同样如上所述那样在不使用供体DNA的情况下使用CRISPR-Cas9***再次变得具有功能性。

在一个实施方案中，调节表达的方法包括切割靶多核苷酸的至少一个位置处的一条或两条多核苷酸链，然后通过与外源性多核苷酸同源重组来修饰靶多核苷酸。在这种情况下，根据本发明的第一方面的组合物优选还包含这种外源性多核苷酸。这种修饰可导致靶多核苷酸中至少一个核苷酸的***、缺失或替换，其中***或替换核苷酸可以或可以不源自外源性多核苷酸。在一个实施方案中，外源性多核苷酸包含与靶多核苷酸同源的区域。优选地，这些同源区之间的同源程度是允许同源重组的同源程度。优选地，同源区在同源区的整个长度上具有至少60％、70％、80％、90％、99％或100％序列同一性。在一个实施方案中，其中宿主细胞在如本文定义的涉及NHEJ的组分上有缺陷，同源区优选为至多1kb、至多0.5kb、至多100bp、至多50bp、至多40bp、至多30bp、至多20bp、至多10bp。修饰也可在外源性多核苷酸是非整合实体时产生；在这种情况下，靶多核苷酸被修饰但没有外源性的多核苷酸的核苷酸被引入到靶多核苷酸中。因此，当根据本发明的Cas蛋白以蛋白形式转化时，所得宿主是非重组宿主。在根据本发明的这个方面的一个方法中，宿主细胞因此可以是重组宿主细胞或可以是非重组宿主细胞。外源性多核苷酸可以是任何目标多核苷酸，诸如本文所定义的编码目标化合物的多核苷酸，或这种多核苷酸的一部分或其变体。

在第五方面，本发明提供了一种产生目标化合物的方法，所述方法包括在有利于目标化合物的条件下培养根据本发明的第三方面或第四方面的宿主细胞或可通过根据本发明的第二方面的方法获得的宿主细胞，或可通过根据本发明的第四方面获得的宿主细胞，并且任选地纯化或分离目标化合物。

在本发明的所有实施方案的背景下的目标化合物可以为任何生物化合物。生物化合物可以是生物质或生物聚合物或代谢物。生物化合物可由构成生物合成或代谢途径的单一多核苷酸或一系列多核苷酸编码或可以是单一多核苷酸的产物或一系列多核苷酸的产物的直接结果，多核苷酸可以为基因，一系列多核苷酸可以为基因簇。在本发明的所有实施方案，编码目标生物化合物或与目标生物化合物相关联的生物合成或代谢途径的单一多核苷酸或一系列多核苷酸是根据本发明的组合物和方法的优选靶标。生物化合物可以对宿主细胞是天然的或对宿主细胞是异源的。

本文将术语“异源生物化合物”定义为对于细胞并非天然的生物化合物；或其中已经进行结构修饰以改变天然生物化合物的天然生物化合物。

本文将术语“生物聚合物”定义为相同、相似或不相似的亚单位(单体)的链(或聚合物)。生物聚合物可以是任何生物聚合物。生物聚合物可例如是但不限于核酸、聚胺、多元醇、多肽(或聚酰胺)或多糖。

生物聚合物可以是多肽。所述多肽可以是具有目标生物活性的任何多肽。术语“多肽”在本文中并非意在指特定长度的编码产物，因此涵盖肽、寡肽和蛋白质。术语多肽是指任何长度的氨基酸的聚合物。该聚合物可以是线性或支化的，它可以包含经修饰氨基酸，并且它可以被非氨基酸中断。所述术语也涵盖已加以修饰的氨基酸聚合物；例如二硫键形成、糖基化、脂化、乙酰化、磷酸化或任何其他操作(如与标记性组分缀合)。如本文所用，术语“氨基酸”包括天然和/或非天然或合成的氨基酸，包括甘氨酸和D或L光学异构体二者，以及氨基酸类似物和肽模拟物。多肽进一步包括以上提到的多肽的天然存在的等位和工程化变体及杂合多肽。所述多肽对于宿主细胞可以是天然的或可以是异源的。多肽可以是胶原或明胶，或其变体或杂合体。多肽可以是抗体或其部分、抗原、凝集因子、酶、激素或激素变体、受体或其部分、调控蛋白、结构蛋白、报告子或转运蛋白、涉及分泌过程的蛋白质、涉及折叠过程的蛋白质、伴侣蛋白、肽氨基酸转运体、糖基化因子、转录因子、合成肽或寡肽、细胞内蛋白。细胞内蛋白可以是酶，诸如蛋白酶、神经酰胺酶、环氧化物水解酶、氨基肽酶、酰基转移酶、醛缩酶、羟化酶、氨基肽酶、脂肪酶。多肽也可以是细胞外分泌的酶。这种酶可以属于以下各项的组：氧化还原酶、转移酶、水解酶、裂解酶、异构酶、连接酶、过氧化氢酶、纤维素酶、几丁质酶、角质酶、脱氧核糖核酸酶、葡聚糖酶、酯酶。所述酶可以是碳水化合物酶，例如纤维素酶诸如葡聚糖内切酶、β-葡聚糖酶、纤维二糖水解酶或β-葡糖苷酶、半纤维素酶或果胶分解酶诸如木聚糖酶、木糖苷酶、甘露聚糖酶、半乳聚糖酶、半乳糖苷酶、果胶甲基酯酶、果胶裂解酶、果胶酸裂解酶、多聚半乳糖醛酸内切酶、多聚半乳糖醛酸外切酶、鼠李糖半乳糖醛酸酶、***聚糖酶、***呋喃糖酶、阿糖基木聚糖水解酶、半乳醣醛酸酶、裂解酶或淀粉水解酶；水解酶、异构酶或连接酶、磷酸酶诸如植酸酶、酯酶(诸如脂肪酶)、蛋白水解酶、氧化还原酶(诸如氧化酶)、转移酶或异构酶。所述酶可以是植酸酶。所述酶可以是氨基肽酶、天冬酰胺酶、淀粉酶、麦芽糖淀粉酶、碳水化合物酶、羧肽酶、内切蛋白酶、金属蛋白酶、丝氨酸蛋白酶、过氧化氢酶、几丁质酶、角质酶、环糊精葡萄糖基转移酶、脱氧核糖核酸酶、酯酶、α-半乳糖苷酶、β-半乳糖苷酶、葡糖淀粉酶、α-葡糖苷酶、β-葡糖苷酶、卤素过氧化物酶、蛋白质脱氨酶、转化酶、漆酶、脂肪酶、甘露糖苷酶、变聚糖酶、氧化酶、果胶分解酶、过氧化物酶、磷脂酶、半乳糖脂酶、叶绿素酶、多酚氧化酶、核糖核酸酶、谷氨酰胺转移酶或葡萄糖氧化酶、己糖氧化酶、单加氧酶。

根据本发明，目标化合物可以是具有改善的分泌特征的多肽或酶，如WO2010/102982中所述。根据本发明，目标化合物可以是融合或杂合的多肽，另一多肽在所述多肽或其片段的N末端或C末端处融合。融合的多肽通过将编码一种多肽的核酸序列(或其一部分)与编码另一多肽的核酸序列(或其一部分)融合来产生。

产生融合多肽的技术在本领域中已知，并且包括连接编码多肽的编码序列，以致其在框内并且融合多肽的表达受相同启动子和终止子的控制。杂合多肽可包含从至少两种不同多肽获得的部分或完整多肽序列的组合，其中一种或多种所述多肽可以与宿主细胞异源。在例如WO2010/121933中描述了融合多肽和信号序列融合物的示例。

生物聚合物可以是多糖。多糖可为任何多糖，包括但不限于粘多糖(例如，肝素和透明质酸)和含氮多糖(例如，几丁质)。在一个优选的选项中，多糖为透明质酸。

编码目标化合物或编码参与根据本发明的目标化合物的产生的化合物的多核苷酸可编码参与初级代谢物或次级代谢物，诸如有机酸、类胡萝卜素、(β-内酰胺)抗生素和维生素的合成的酶。这种代谢物可视为根据本发明的生物化合物。

术语“代谢物”涵盖初级代谢物和次级代谢物；代谢物可为任何代谢物。优选的代谢物为柠檬酸、葡糖酸、己二酸、富马酸、衣康酸和琥珀酸。

代谢物可由诸如在生物合成或代谢途径中的一个或多个基因编码。初级代谢物是与能量代谢、生长和结构相关的细胞的主要或一般代谢的产物。次级代谢物是次级代谢的产物(参见例如R.B.Herbert,The Biosynthesis of Secondary Metabolites,Chapmanand Hall,New York,1981)。

初级代谢物可以是但不限于氨基酸、脂肪酸、核苷、核苷酸、糖、甘油三酯或维生素。

次级代谢物可以是但不限于生物碱、香豆素、类黄酮、聚酮、奎宁、类固醇、肽或萜。次级代谢物可以是抗生素、拒食素、引诱剂、杀菌剂、杀真菌剂、激素、杀虫剂或杀鼠剂。优选的抗生素为头孢菌素和β-内酰胺类。其他优选代谢物为外代谢物。外代谢物的示例为Aurasperone B、Funalenone、Kotanin、Nigragillin、Orlandin、其他萘并-γ-吡喃酮、吡喃黑杆菌素A(Pyranonigrin A)、Tensidol B、伏马菌素B2和赭曲霉素A。

生物化合物也可以是选择标记的产物。选择标记为目标多核苷酸的产物，所述产物提供了杀生物剂或病毒抗性、重金属抗性、对营养缺陷型的原营养等。选择标记包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨基甲酰转移酶)、bar(草胺膦乙酰转移酶)、hygB(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5'-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶)、trpC(邻氨基苯甲酸合酶)、ble(腐草霉素抗性蛋白)、hyg(潮霉素)、NAT或NTC(诺尔丝菌素)及其等效物。

根据本发明，目标化合物优选为目标化合物列表中描述的多肽。

根据本发明的另一个实施方案，目标化合物优选为代谢物。

根据本发明的宿主细胞可以已经能够产生目标化合物。也可为突变微生物宿主细胞提供编码多肽的同源或异源核酸构建体，其中多肽可为目标化合物或参与目标化合物的产生的多肽。本领域的技术人员知道如何修饰微生物宿主细胞使得其能够产生目标化合物

一般定义

贯穿本说明书和所附权利要求书，词语“包含”、“包括”和“具有”都解释为包含在内。即，这些词意在可能包含上下文允许但没有具体描述的其他成分或整体。

没有数量词修饰时在本文中用于指代一个/种或多于一个/种(即一或至少一)对象。通过举例，“元件”可以意指一个/种元件或多于一个/种元件。

词语“约”或“大约”在结合数值(例如，约10)使用时优选意指值可以是比所述值(10)多或少1％的给定值。

优选的核苷酸类似物或等同物包括修饰的骨架。此类骨架的示例通过以下各项提供：吗啉代骨架；氨基甲酸酯骨架；硅氧烷骨架；硫化物、亚砜和砜骨架；甲酰乙酰基和硫代甲酰乙酰基骨架；亚甲基甲酰乙酰基骨架；核糖乙酰基骨架；含烯烃的骨架；氨基磺酸酯、磺酸酯和磺酰胺骨架；亚甲基亚胺基和亚甲基肼基骨架；以及酰胺骨架。进一步优选的是，骨架中残基之间的连接不包括磷原子，诸如通过短链烷基或环烷基核苷间键、混合杂原子和烷基或环烷基核苷间键或一个或多个短链杂原子或杂环核苷间键形成的连接。

一个优选的核苷酸类似物或等同物包括肽核酸(PNA)，其具有经修饰的聚酰胺骨架(Nielsen等人(1991)Science 254,1497-1500)。基于PNA的分子在碱基对识别方面是DNA分子的真实模拟物。PNA的骨架由通过肽键连接的N-(2-氨乙基)-甘氨酸单元构成，其中核碱基通过亚甲基羰基键连接至骨架。替代性骨架包含一碳延长的吡咯烷PNA单体(Govindaraju和Kumar(2005)Chem.Commun,495–497)。因为PNA分子的骨架不含有带电的磷酸酯基团，所以PNA-RNA杂交体通常分别比RNA-RNA或RNA-DNA杂交体更稳定(Egholm等人(1993)Nature 365,566-568)。

另一优选骨架包括吗啉代核苷酸类似物或等同物，其中核糖或脱氧核糖被6元环吗啉代环置换。一个最优选的核苷酸类似物或等同物包含二氨基磷酸酯吗啉代寡核苷酸(PMO)，其中核糖或脱氧核糖被6元环吗啉代环置换，并且相邻吗啉代环之间阴离子磷酸二酯键被非离子的二氨基磷酸酯键置换。

另一优选的核苷酸类似物或等同物包含磷酸二酯键中的至少一个非桥联氧的取代。这种修饰稍微使碱基对不稳定，但是添加了对核酸酶降解的显著抗性。优选的核苷酸类似物或等同物包含硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、H-膦酸酯、甲基和其他烷基膦酸酯包括3’-亚烷基膦酸酯、5'-亚烷基膦酸酯和手性膦酸酯、亚膦酸酯、氨基磷酸酯包括3'-氨基氨基磷酸酯和氨烷基氨基磷酸酯、硫羰氨基磷酸酯、硫羰磷酸烷基酯、硫羰烷基磷酸三酯、硒代磷酸酯或硼磷酸酯。

另一优选的核苷酸类似物或等同物包含一个或多个糖部分，其在2'、3'和/或5'位置处是单取代或二取代的，诸如-OH；-F；取代的或未取代的、直链或支链的低级(C1-C10)烷基、烯基、炔基、烷芳基、烯丙基、芳基或芳烷基，它们可***有一个或多个杂原子；O-、S-或N-烷基；O-、S-或N-烯基；O-、S-或N-炔基；O-、S-或N-烯丙基；O-烷基-O-烷基、-甲氧基、-氨基丙氧基；氨氧基(aminoxy)、甲氧基乙氧基；-二甲基氨氧基乙氧基；和-二甲基氨基乙氧基乙氧基。糖部分可以是吡喃糖或其衍生物、或脱氧吡喃糖或其衍生物，优选核糖或其衍生物，或脱氧核糖或其衍生物。此类优选的衍生化糖部分包含锁核酸(LNA)，其中2’-碳原子连接至糖环的3’或4’碳原子，从而形成双环糖部分。优选的LNA包括2'-O,4'-C-亚乙基桥联的核酸(Morita等人2001.Nucleic Acid Res Supplement No.1:241-242)。这些取代基使得核苷酸类似物或等同物具有RNase H和核酸酶抗性，并且增加对靶标的亲和力。

在本发明的背景下，本文将氨基酸或核酸序列的“序列同一性”或“一致性”定义为通过比较序列确定的两种或更多种氨基酸(肽、多肽或蛋白质)序列或两种或更多种核酸(核苷酸、寡核苷酸、多核苷酸)序列之间的关系。在本领域中，同一性还意指氨基酸或核苷酸序列之间的序列相关程度，视情况通过此类序列串之间的匹配确定。在本发明内，与特定序列的序列同一性优选意指在所述特定多肽或多核苷酸序列的整个长度上的序列同一性。

两种氨基酸序列之间的“相似性”通过将一种肽或多肽的氨基酸序列及其保守氨基酸替换与第二种肽或多肽的序列比较来确定。在一个优选的实施方案中，在如本文所鉴定的整个序列(SEQ ID NO:)上计算同一性或相似性。“同一性”和“相似性”可以容易地通过已知方法计算，这些已知方法包括但不限于以下各项中所述的那些：ComputationalMolecular Biology,Lesk,A.M.编,Oxford University Press,New York,1988；Biocomputing:Informatics and Genome Projects,Smith,D.W.编,Academic Press,NewYork,1993；Computer Analysis of Sequence Data,部分I,Griffin,A.M.和Griffin,H.G.编,Humana Press,New Jersey,1994；Sequence Analysis in Molecular Biology,vonHeine,G.,Academic Press,1987；和Sequence Analysis Primer,Gribskov,M.和Devereux,J.编,M Stockton Press,New York,1991；以及Carillo,H.和Lipman,D.,SIAMJ.Applied Math.,48:1073(1988)。

设计了用于确定同一性的优选方法，以得出测试序列之间的最大匹配。可公开获得的计算机程序中编纂了确定同一性和相似性的方法。确定两种序列之间的同一性和相似性的优选计算机程序方法包括例如GCG程序包(Devereux,J.等人,Nucleic AcidsResearch 12(1):387(1984))、BestFit、BLASTP、BLASTN和FASTA(Altschul,S.F等人,J.Mol.Biol.215:403-410(1990)。BLAST X程序可自NCBI和其它来源(BLAST Manual,Altschul,S.等人,NCBI NLM NIH Bethesda,MD 20894；Altschul,S.等人,J.Mol.Biol.215:403-410(1990)公开获得。熟知的Smith Waterman算法也可用于确定同一性。

用于多肽序列比较的优选参数包括以下：算法：Needleman和Wunsch,J.Mol.Biol.48:443-453(1970)；比较矩阵：来自Hentikoff和Hentikoff,Proc.Natl.Acad.Sci.USA.89:10915-10919(1992)的BLOSSUM62；空位罚分：12；和空位长度罚分：4。可与这些参数一起使用的程序可以从位于威斯康星州麦迪逊(Madison,WI)的遗传计算机组(Genetics Computer Group)的“Ogap”程序公共获得。前述参数是用于氨基酸比较(同时对末端空位不罚分)的默认参数。

用于核酸比较的优选参数包括以下：算法：Needleman和Wunsch,J.Mol.Biol.48:443-453(1970)；比较矩阵：匹配＝+10，错配＝0；空位罚分：50；和空位长度罚分：3。可从位于威斯康星州麦迪逊的遗传计算机组的Gap程序获得。上文给出的是用于核酸比较的默认参数。

任选地，在确定氨基酸相似性的程度中，技术人员还可考虑所谓的“保守”氨基酸替换，如技术人员将清楚的。保守氨基酸替换是指具有类似侧链的残基的可互换性。例如，具有脂肪族侧链的一组氨基酸是甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸；具有脂肪族-羟基侧链的一组氨基酸是丝氨酸和苏氨酸；具有含酰胺侧链的一组氨基酸是天冬酰胺和谷氨酰胺；具有芳香族侧链的一组氨基酸是苯丙氨酸、酪氨酸和色氨酸；具有碱性侧链的一组氨基酸是赖氨酸、精氨酸和组氨酸；并且具有含硫侧链的一组氨基酸是半胱氨酸和甲硫氨酸。优选的保守氨基酸替换组为：缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸以及天冬酰胺-谷氨酰胺。本文公开的氨基酸序列的替换变体是其中所公开序列中的至少一个残基已被去除并且在其位置***不同的残基的那些。优选地，氨基酸变化是保守的。针对每种天然存在的氨基酸的优选保守替换如下：Ala至ser；Arg至lys；Asn至gln或his；Asp至glu；Cys至ser或ala；Gln至asn；Glu至asp；Gly至pro；His至asn或gln；Ile至leu或val；Leu至ile或val；Lys至arg；gln或glu；Met至leu或ile；Phe至met；leu或tyr；Ser至thr；Thr至ser；Trp至tyr；Tyr至trp或phe；以及Val至ile或leu。

根据本发明的多核苷酸由核苷酸序列表示。根据本发明的多肽由氨基酸序列表示。根据本发明的核酸构建体被定义为分离自天然存在的基因或已被修饰成含有以原本不天然存在的方式组合或并置的多核苷酸区段的多核苷酸。任选地，存在于根据本发明的核酸构建体中的多核苷酸可操作地连接至一种或多种控制序列，所述一种或多种控制序列引导宿主细胞中或无细胞***中的编码产物的产生或表达。

如本文提供的序列信息不应狭隘地解释为需要包含错误鉴定的碱基。技术人员能够识别此类错误鉴定的碱基并且知道如何校正此类错误。

本发明的所有实施方案，即根据本发明的组合物、调节表达的方法、包含根据本发明的组合物的宿主细胞、产生根据本发明的宿主细胞的方法、根据本发明的宿主细胞和产生根据本发明的目标化合物的方法优选是指宿主细胞，不是无细胞体外***；换句话讲，根据本发明的CRISPR-Cas***优选宿主细胞***，而非无细胞体外***。

在本发明的所有实施方案，例如根据本发明的组合物、调节表达的方法、包含根据本发明的组合物的宿主细胞、产生根据本发明的宿主细胞的方法、根据本发明的宿主细胞和产生根据本发明的目标化合物的方法中，宿主细胞可以是单倍体、二倍体或多倍体宿主细胞。

根据本发明的宿主细胞是解脂酵母宿主细胞，优选耶氏酵母属，更优选解脂耶氏酵母，甚至更优选解脂耶氏酵母CLIB122或解脂耶氏酵母ML324(以ATCC18943号保藏的)。

优选地，根据本发明的宿主细胞还在其基因组中包含一个或多个修饰，使得宿主细胞如果与亲本宿主细胞相比并且在相同条件下测量时，在产生选自以下各项的至少一种产物方面缺陷：葡糖淀粉酶(glaA)、酸稳定性α-淀粉酶(amyA)、中性α-淀粉酶(amyBI和amyBII)、草酸水解酶(oahA)、毒素(优选赭曲霉素和/或伏马菌素)、蛋白酶转录调控子prtT、PepA、基因hdfA和/或hdfB编码的产物、非核糖体肽合酶npsE。

优选地，通过使细胞在NHR(非同源重组)组分上有缺陷来提高多核苷酸靶向整合到根据本发明宿主细胞基因组中预先确定位点的效率。优选地，根据本发明宿主细胞包含编码含修饰的NHEJ组分的多核苷酸，其中当在相同条件下培养时，与来源的亲本细胞相比，所述宿主细胞在所述NHEJ组分的生成上有缺陷。

待修饰的NHEJ组分可为本领域的技术人员已知的任何NHEJ组分。优选的待修饰NHEJ组分选自酵母KU70、KU80、MRE11、RAD50、RAD51、RAD52、XRS2、SIR4、LIG4的同源物。

优选在基因组中的修饰在本文中解释为一个或多个修饰。优选在根据本发明的宿主细胞基因组中的修饰可通过以下方式进行：

a)对亲本宿主细胞进行重组遗传操纵技术；和/或

b)对亲本宿主细胞进行(传统的)诱变；和/或

c)使亲本宿主细胞经受抑制性化合物或组合物。本文将宿主细胞基因组的修饰定义为导致宿主细胞基因组中多核苷酸序列变化的任何事件。

优选地，根据本发明的宿主细胞优选在在其基因组中具有这样的修饰，在相同条件下分析时，如果与未被修饰的亲本宿主细胞相比，所述修饰使得减少或不生成如本文所定义的不期望化合物。

修饰可通过本领域的技术人员已知的任何手段来引入，诸如但不限于传统菌株改良、随机诱变然后选择。也可通过定点诱变引入修饰。

修饰可通过引入(***)、替换(置换)或去除(缺失)多核苷酸序列中的一个或更多个核苷酸完成。可实现编码不期望化合物诸如多肽的多核苷酸的完全或部分缺失。不期望化合物可以是本文他处列出的任何不期望化合物，它也可以是合成不期望化合物诸如代谢物的生物途径中的蛋白质和/或酶。另选地，编码所述不期望化合物的多核苷酸可以被不编码所述不期望化合物或编码所述不期望化合物的部分或完全失活形式的多核苷酸序列部分或完全置换。在另一另选方案中，可将一个或多个核苷酸***编码所述不期望化合物的多核苷酸中，从而导致所述多核苷酸破坏并且由破坏多核苷酸编码的所述不期望化合物随之而来的部分或完全失活。

在一个实施方案中，根据本发明的突变微生物宿主细胞在其基因组中包含选自以下的修饰：

a)编码不期望化合物的多核苷酸完全或部分缺失，

b)编码不期望化合物的多核苷酸被不编码所述不期望化合物或编码所述不期望化合物的部分或完全失活形式的多核苷酸置换，

c)通过在多核苷酸序列中***一个或更多个核苷酸来破坏编码不期望化合物的多核苷酸，以及由经破坏多核苷酸编码的所述不期望化合物随之而来的部分或完全失活。

这种修饰可例如在编码序列或转录或翻译所述不期望化合物所需的调控元件中。例如，可***或去除核苷酸，以便使得终止密码子引入、起始密码子去除或编码序列的开放阅读框变化或移码。编码序列或其调控元件的修饰可通过定点或随机诱变、DNA改组法、DNA重新组装法、基因合成(参见例如Young和Dong,(2004),Nucleic Acids Research 32,(7)electronic access http://nar.oupjournals.org/cgi/reprint/32/7/e59或Gupta等人(1968),Proc.Natl.Acad.Sci USA,60:1338-1344；Scarpulla等人(1982),Anal.Biochem.121:356-365；Stemmer等人(1995),Gene 164:49-53)或PCR产生的诱变根据本领域中已知的方法实现。随机诱变程序的示例在本领域中众所周知，诸如例如化学(例如NTG)诱变或物理(例如UV)诱变。定点诱变程序的示例为QuickChange^TM定点诱变试剂盒(Stratagene Cloning Systems,La Jolla,CA)、‘The AlteredII体外诱变***’(Promega公司)或通过使用如Gene.1989年4月15日；77(1):51-9.(Ho SN,Hunt HD,HortonRM,Pullen JK,Pease LR“Site-directed mutagenesis by overlap extension usingthe polymerase chain reaction”)中描述的PCR或使用如Molecular Biology:CurrentInnovations and Future Trends.(编者A.M.Griffin和H.G.Griffin.ISBN 1-898486-01-8；1995Horizon Scientific Press,PO Box 1,Wymondham,Norfolk,U.K.)中描述的PCR的重叠延伸。

优选的修饰方法基于重组遗传操纵技术，诸如部分或完全基因置换或部分或完全基因缺失。

例如，在置换多核苷酸、核酸构建体或表达盒的情况下，可在待置换的靶基因座引入适当DNA序列。适当DNA序列优选存在于克隆载体上。优选的整合性克隆载体包含与多核苷酸同源和/或与待置换的基因座侧翼的多核苷酸具有同源性以用于向这个预先确定基因座靶向整合克隆载体的DNA片段。为了促进靶向整合，克隆载体优选在细胞转化之前被线性化。优选地，进行线性化使得克隆载体的至少一端，但是优选两端侧翼为与待置换的DNA序列((或侧翼序列)同源的序列。这个过程称为同源重组并且这种技术也可用于实现(部分)基因缺失。

例如，与内源性多核苷酸对应的多核苷酸可由缺陷多核苷酸置换，所述缺陷多核苷酸是不能产生(全功能性)多肽的多核苷酸。通过同源重组，缺陷多核苷酸置换了内源性多核苷酸。可期望的是，缺陷多核苷酸也编码标记，该标记可用于选择其中核酸序列已经被修饰的转化体。

另选地或与提到的其他技术相结合，可使用基于粘粒在大肠杆菌中体内重组的技术，如A rapid method for efficient gene replacement in the filamentous fungusAspergillus nidulans(2000)Chaveroche,M-K.,Ghico,J-M.和d’Enfert C；Nucleicacids Research,第28卷,第22期中所述的。

可替代地，可通过已建立的反义技术，使用与多核苷酸的核酸序列互补的核苷酸序列进行修饰，其中所述宿主细胞产生较少或不产生蛋白质，诸如本文所述的具有淀粉酶活性，优选α淀粉酶活性并由本文所述多核苷酸编码的多肽。更特别地，可通过引入与多核苷酸的核酸序列互补、可在细胞中转录并且能够与细胞中产生的mRNA杂交的核苷酸序列来减少或消除宿主细胞中多核苷酸的表达。在允许互补的反义核苷酸序列与mRNA杂交的条件下，翻译的蛋白质的量由此被减少或消除。在Appl.Environ.Microbiol.2000年2月；66(2):775-82(Characterization of a foldase,protein disulfide isomerase A,in theprotein secretory pathway of Aspergillus niger.Ngiam C,Jeenes DJ,Punt PJ,VanDen Hondel CA,Archer DB)或(Zrenner R,Willmitzer L,Sonnewald U.Analysis of theexpression of potato uridinediphosphate-glucose pyrophosphorylase and itsinhibition by antisense RNA.Planta.(1993)；190(2):247-52.)中示出了表达反义RNA的示例。

导致不期望化合物产生减少或不产生的修饰优选是由于编码所述不期望化合物的mRNA的产生在与未被修饰的亲本微生物宿主细胞相比并且在相同条件下测量的情况下减少。

可经由RNA干扰(RNAi)技术(Mouyna等人,2004)获得导致由编码不期望化合物的多核苷酸转录的mRNA量减少的修饰。在这种方法中，表达将受影响的核苷酸序列的相同有义和反义部分克隆在对方后面且之间有核苷酸间隔子，并且被***表达载体中。这种分子经转录后，小核苷酸片段的形成将导致将受到影响的mRNA的靶向降解。特定mRNA的消除可达到不同程度。WO2008/053019、WO2005/05672A1、WO2005/026356A1、Oliveira等人、Crook等人2014、和/或Barnes等人中描述的RNA干扰技术可用于这一目的。

可通过不同方法，例如用针对所述不期望化合物的抗体或化学抑制剂或蛋白抑制剂或物理抑制剂(Tour O.等人,(2003)Nat.Biotech:Genetically targetedchromophore-assisted light inactivation.第21卷,第12期:1505-1508)或肽抑制剂或反义分子或RNAi分子(R.S.Kamath_等人,(2003)Nature:Systematic functionalanalysis of the Caenorhabditis elegans genome using RNAi.vol.421,231-237)获得导致不期望化合物产生减少或不产生的修饰。

附加到以上提到的技术或作为替代性方案，也可借助于替代性信号序列(Ramonde Lucas,J.,Martinez O,Perez P.,Isabel Lopez,M.,Valenciano,S.和Laborda,F.TheAspergillus nidulans carnitine carrier encoded by the acuH gene isexclusively located in the mitochondria.FEMS Microbiol Lett.2001年6月24日；201(2):193-8.)或滞留信号(Derkx,P.M.和Madrid,S.M.The foldase CYPB is a componentof the secretory pathway of Aspergillus niger and contains the endoplasmicreticulum retention signal HEEL.Mol.Genet.Genomics.2001年12月；266(4):537-545)，或通过使不期望化合物诸如多肽靶向能够与参与细胞分泌途径的细胞膜结构融合的过氧化物酶体从而导致多肽分泌到细胞外(例如WO2006/040340中所述)来抑制不期望化合物的活性，或使不期望化合物诸如蛋白质重新定位。

另选地或与以上提到的技术相结合，也可例如通过紫外或化学诱变(Mattern,I.E.,van Noort J.M.,van den Berg,P.,Archer,D.B.,Roberts,I.N.和van den Hondel,C.A.,Isolation and characterization of mutants of Aspergillus niger deficientin extracellular proteases.Mol Gen Genet.1992年8月；234(2):332-6.)或通过使用抑制本文所述的不期望多肽的酶活性的抑制剂(例如野尻霉素，其起到β-葡糖苷酶抑制剂的作用(Carrel F.L.Y.和Canevascini G.Canadian Journal of Microbiology(1991)37(6):459-464；Reese E.T.,Parrish F.W.和Ettlinger M.Carbohydrate Research(1971)381-388))获得不期望化合物的产生减少或不产生。

在本发明的一个实施方案中，根据本发明的宿主细胞基因组中的修饰是编码不期望化合物的多核苷酸的至少一个位置中的修饰。

本文将细胞在产生化合物，例如不期望化合物(诸如不期望多肽和/或酶)的缺陷定义为已优选在其基因组中被修饰以导致以下表型特征的突变型微生物宿主细胞，其中与未被修饰的亲本宿主细胞相比，在相同条件下分析时，所述细胞：a)产生更少的不期望化合物或基本不产生不期望化合物和/或b)产生具有降低活性或降低的比活性的不期望化合物或没有活性或没有比活性的不期望化合物，和这些可能性中一种或更多种的组合。

与未被修饰的亲本宿主细胞相比，在相同条件下测量时，优选地根据本发明的经修饰的宿主细胞产生少1％的不期望化合物、少至少5％的不期望化合物、少至少10％的不期望化合物、少至少20％的不期望化合物、少至少30％的不期望化合物、少至少40％的不期望化合物、少至少50％的不期望化合物、少至少60％的不期望化合物、少至少70％的不期望化合物、少至少80％的不期望化合物、少至少90％的不期望化合物、少至少91％的不期望化合物、少至少92％的不期望化合物、少至少93％的不期望化合物、少至少94％的不期望化合物、少至少95％的不期望化合物、少至少96％的不期望化合物、少至少97％的不期望化合物、少至少98％的不期望化合物、少至少99％的不期望化合物、少至少99.9％的不期望化合物或最优选少至少100％的不期望化合物。

本文对作为现有技术给出的对专利文献或其他资料的引用不视为承认所述文献和资料是已知的或其包含的信息是作为在任何权利要求的优先权日时公知常识的一部分。

本文列出的每个参考文献的公开内容全文以引用的方式并入本文。

本发明进一步通过以下实施例中进行说明：

实施例

在解脂耶氏酵母中的功能性的且有效的CRISPR/CAS9***

在解脂耶氏酵母中CRISPR/CAS9***的基本原理

自从出现关于CRISPR/CAS9的第一个出版物和专利(Mali等人,2013)，这种突破性技术的广泛传播使用以指数级增长(Hsu等人,2014)。使用CRISPR/CAS9创建人细胞系中的基因组修饰在出版物中占优势，其可通过所述技术的可能医疗应用容易地解释。在其他宿主中使用CRISPR/CAS9方法不太丰富并且对于耶氏酵母属未示出。这个实施例描述针对耶氏酵母属起有效作用的CRISPR/CAS9***的建立和使用，所述CRISPR/CAS9***使用侧翼为自加工核酶的向导RNA、一步金门克隆技术和特别修改的耶氏酵母属Cen ARS载体，其使得所述***适合于低输出和高输出的基因组修饰。图2绘示了实施例(Gao和Zhao,2014)中缩写为gRSR的向导RNA自加工核酶在形成功能性体内向导RNA中的结构和功能。

实施例1至10描述了证明了CRISPR/CAS9在解脂耶氏酵母中的功能性的实验，使用了CAS9与实施例中缩写为gRSR的侧翼为自加工核酶的向导RNA的组合。在核酶的自催化活性去除5’和3’RNA序列之后，在体内形成功能性向导RNA。在这个具体实施例中，将终止密码子引入到腺嘌呤途径中涉及的基因中，使得营养缺陷型菌株不能够在基本培养基上生长。

使用的菌株

ML324：这种解脂耶氏酵母菌株用作野生型菌株。这种菌株以保藏号ATCC18943保藏在ATCC。

CEN.PK113-13D：酿酒酵母(Δura3，MATa MAL2-8c SUC2)

实施例1.CAS9表达盒的组装

使用金门克隆方法组合启动子、开放阅读框和终止子序列来构建CAS9表达盒，如专利申请WO2013/144257中步骤1所述那样，所述专利申请以引用的方式并入本文。这三个片段在DNA2.0合成并且递送在标准克隆载体中。第一片段是在解脂耶氏酵母中具有功能性的启动子片段Yl-PRO28(SEQ ID NO:69)。第二片段是编码CAS9蛋白的开放阅读框(SEQ IDNO:70)。第三片段是解脂耶氏酵母终止子序列Yl-ter02(SEQ ID NO:71)。将三个单独的DNA片段通过金门反应克隆到接受骨架载体5a(SEQ ID NO:72)中。这产生含有功能性CAS9表达盒的载体(命名为BG-C1)(SEQ ID NO:73)。BG-C1载体使用限制性内切酶分析检查出并且用于以下实施例中。

实施例2：向导RNA自加工核酶(gRSR)表达盒与作为基因组靶标的耶氏酵母ADE33的组装

使用金门克隆方法组合启动子、开放阅读框和终止子序列来构建gRSR表达盒，如专利申请WO2013/144257中步骤1所述那样。这三个片段在DNA2.0合成并且递送在标准克隆载体中。第一片段是在解脂耶氏酵母中具有功能性的启动子片段Yl_PRO07(SEQ ID NO:74)。第二片段是具有gRSR的序列的DNA片段(SEQ ID NO:75)。图2描述了如何创建这个片段。第三片段是解脂耶氏酵母终止子序列Yl_ter04(SEQ ID NO:76)。将三个单独的DNA片段用金门反应克隆到骨架载体ab(SEQ ID NO:77)中。正确的所得载体(命名为BG-C4)(SEQ IDNO:78)使用限制性内切酶分析检查出并且用于以下实施例中。

实施例3：盒的PCR扩增和接受酵母/大肠杆菌穿梭载体的线性化

利用在酿酒酵母中的体内同源重组将gRSR盒和CAS9盒组合成酵母/大肠杆菌穿梭载体中的一个片段。根据标准方案使用Phusion聚合酶(New England Biolabs)进行PCR以创建具有同源性的片段。使用正向引物DBC-12192(SEQ ID NO:79)和反向引物DBC-05794(SEQ ID NO:80)和作为模板的BG-C1PCR扩增CAS9表达盒。使用正向引物DBC-05795(SEQ IDNO:81)和反向引物DDBC-12194(SEQ ID NO:82)和作为模板的BG-C4PCR扩增gRSR表达盒。所得PCR片段彼此具有并且与接收载体MB6238(SEQ ID NO:83，图3)具有必要同源性。用PacI和HindIII切开载体MB6238，所述载体MB6238含有URA3标记和针对酿酒酵母的CEN/ARS序列、大肠杆菌ori和针对大肠杆菌的氨苄青霉素抗性标记。所有片段即PCR片段和切开的载体用根据手册使用的来自Macherey Nagel的PCR纯化试剂盒纯化。使用NanoDrop(ND-1000分光光度计，Thermo Scientific)测量DNA浓度。

实施例4：转化至组装片段的酿酒酵母CEN.PK113-13D

酿酒酵母的转化基本上根据Gietz和Woods(2002；Transformation of the yeastby the LiAc/SS carrier DNA/PEG method.Methods in Enzymology 350:87-96)进行。

CenPK113-13d(Δura3，MATa MAL2-8c SUC2)用通过PacI和HindIII切开的载体MB6238和CAS9表达盒和gRSR表达盒的扩增PCR片段和纯化PCR片段转化。将转化混合物接种在YNB w/o AA板上(6.7g/l YNB Difco，BD Becton Dickinson and Company、20g/l葡萄糖、20g/l Bacto琼脂)。YNB板可用于研究氨基酸和碳水化合物需求并且在这个实验中还用于测试菌株是否是腺嘌呤营养缺陷型的。

在于30℃下孵育三至五天后，在板上出现菌落，而阴性对照(即，在转化实验中没有添加DNA)产生空白板。

实施例5：从酵母进行的质粒分离

将来自YNB w/o AA板的酿酒酵母菌落接种在3ml YephD 24孔板中(BBL植物蛋白胨20.0g/l、酵母提取物10.0g/l、氯化钠5.0g/l和2％葡萄糖)并且在30℃、80％湿度和550rpm下在INFORS(microtron)培养箱中孵育过夜。将质粒从2ml培养物分离。根据由Kuijpers等人,2013的公布中描述的方法从酵母进行质粒分离。这个方案产生了用于PCR和转化至大肠杆菌的足够DNA。将分离自若干个酵母菌落的质粒转化至大肠杆菌以进一步扩增质粒并且获得用于限制性内切酶分析的足够DNA。将在对琼脂糖凝胶上的消化质粒分析之后具有正确图案的一个克隆命名为MBCAS9/gRSR。

实施例6：CAS9/gRSR片段、供体DNA和Hyg标记表达盒的扩增和纯化

使用正向引物DBC-05793(SEQ ID NO:93)和反向引物DBC-05796(SEQ ID NO:94)和作为模板的质粒MBCAS9/gRSR，使用Phusion聚合酶(New England Biolabs)根据标准方案进行CAS9/gRSR片段的扩增。将gBlock片段合成在IDT(基因片段，IntegratedDNA Technologies,Inc)，其含有用于期望突变的供体DNA(SEQ ID NO:84)。使用正向引物DBC-12197(SEQ ID NO:85)和反向引物DBC-12198(SEQ ID NO:86)，使用Phusion聚合酶(New England Biolabs)根据标准方案进行来自gBlock的供体DNA的PCR扩增。将潮霉素标记盒(SEQ ID NO:87)合成在DNA2.0并且递送在标准克隆载体中。将所得载体命名为CAS159并且用作使用正向引物DBC-05799(SEQ ID NO:88)和反向引物DBC-05800(SEQ ID NO:89)扩增潮霉素标记盒中的模板。根据手册用来自Macherey Nagel的PCR纯化试剂盒纯化PCR片段。使用NanoDrop(ND-1000分光光度计，Thermo Scientific)测量DNA浓度。

实施例7.对解脂耶氏酵母ML324的转化

在第1天，将解脂耶氏酵母菌株ML324从YEPhD-琼脂板(BBL植物蛋白胨20.0g/l、酵母提取物10.0g/l、氯化钠5.0g/l、琼脂15.0g/l和2％葡萄糖)接种在100ml YephD(BBL植物蛋白胨20.0g/l、酵母提取物10.0g/l、氯化钠5.0g/l和2％葡萄糖)中。摇动在30℃和250rpm下孵育的烧瓶。

主要根据由Gietz和Woods,2002描述的酿酒酵母转化方案完成用PCR扩增片段对菌株的转化。在于YephD培养基(BBL植物蛋白胨20.0g/l、酵母提取物10.0g/l、氯化钠5.0g/l、2％葡萄糖)中20倍稀释之后将细胞接种在具有200μg/ml潮霉素B的YEPhD-琼脂(BBL植物蛋白胨20.0g/l、酵母提取物10.0g/l、氯化钠5.0g/l、琼脂15.0g/l和2％葡萄糖)板上。

在转化1中，使用下述量的片段：3μg CAS9/gRSR片段、3μg gBlock片段和0.3μg潮霉素盒。转化2中使用的量为3μg gBlock片段和0.3μg潮霉素盒并且在转化3中没使用DNA。

在于30℃下孵育3至5天后，在来自转化1和2的板上出现菌落，而转化板3、阴性对照(即，在转化实验中没有添加DNA)产生空白板。

实施例8：将转化体影印接种至基本培养基

将获得的转化体用于在YNB w/o AA板(6.7g/l YNB Difco，BD Becton Dickinsonand Company、20g/l葡萄糖、20g/l Bacto琼脂)上和在具有200μg/ml潮霉素B的YEPhD-琼脂(BBL植物蛋白胨20.0g/l、酵母提取物10.0g/l、氯化钠5.0g/l、琼脂15.0g/l和2％葡萄糖)板上的影印接种。

在于30℃下孵育2-3天后，菌落开始在YephD板上生长并且在一些情况下也在YNBw/o AA板上生长。进一步检查板获悉到，转化2的4％的菌落和转化1的42％的菌落能够在YephD上生长，但是在YNB w/o AA板上生成的非常不好或不生长，这是引入突变后的预期表型。此外，在与4℃下延长储存时间后，在YephD板上观察到棕菌落，其与YNB w/o AA板上生长不良或不生长的菌落有联系(图4)。将突变引入在ML324解脂耶氏酵母的基因组中的效率大约10倍的增加表明CRISPR/CAS9***的功能性。考虑到在这个实验中使用了片段的共转化并且一定比例的转化体不含有所有片段的事实，将基因组突变引入存在CRISPR/CAS9的细胞中的效率很可能甚至更高。

实施例9：用于产生用于测序的DNA片段的菌落PCR SDS/LiAC

将在YephD板上的菌落的菌落物质溶解在于100μl/孔0.2M LiAc/1％SDS的96孔PCR板中。将板在70℃下孵育10分钟。将菌落混合物移取至具有300μl/孔EtOH 96％的半深孔(HDW)板，并且通过移液混合，之后是在2750rpm下进行15分钟的离心步骤。将所得沉淀物在55℃下干燥并且溶解在100μl TE缓冲液中。再次离心悬浮液，并且将上清液用作扩增ADE33序列片段的模板。将野生型序列列为SEQ ID NO:91，并且将具有预期突变的序列列为SEQ ID NO:92突变。

使用正向引物DBC-12607(SEQ ID NO:90)和反向引物DBC-12198(SEQ ID NO:86)，使用Phusion聚合酶(New England Biolabs)根据标准方案进行ADE33序列片段的扩增。根据手册用来自Macherey Nagel的PCR纯化试剂盒纯化PCR片段。

实施例10：基因组位置的测序

使用正向引物DBC-12607(SEQ ID NO:22)和作为模板的ADE33序列片段根据手册使用Applied Biosystems的BigDye终止子v3.1循环测序试剂盒进行用于测序的PCR。根据供应商手册通过乙醇/EDTA沉淀净化测序PCR。

将ADE33序列片段沉淀物溶解在Applied Biosystems的10μl HiDi甲酰胺中，并且将悬浮液用于使用Applied Biosystems的3500遗传分析器(Sanger测序仪)的序列分析。

在生长在YephD板和YNB w/o AA上的对照菌株中没有发现突变，而不生长在YNBw/o AA板上的菌株显示出预期突变，即引入的终止密码子和PAM序列的突变。比对示出在图5中。

结果表明，CRISPR/CAS9***在菌株中具有功能性并且确实增加了引入预期突变的效率。该知识可用于构建在解脂耶氏酵母中使用的优化的功能性CRISPR/CAS9***。

参考文献

Aleksenko and Clutterbuck.Fungal Genet.Biol.1997 21:373-397.Autonomous plasmid replication in Aspergillus nidulans:AMA1and MATEelements.

Barnes等,siRNA as a molecular tool for use in Aspergillus niger(2008)Biotechnology Letters 30(5):885-890.

Becker和Guarente,In Abelson,J.N.和Simon,M.I.,编,Guide to YeastGenetics and Molecular Biology,Methods in Enzymology,Volume 194,182-187,Academic Press,Inc.,New York.

Beetham PR,Kipp PB,Sawycky XL,Arntzen CJ和May GD.PNAS 1999,96,8774-8778.A tool for functional plant genomics:Chimeric RNA/DNA oligonucleotidescause in vivo gene-specific mutations.

Christianson TW,Sikorski RS,Dante M,Shero JH,Hieter P.Gene.1992Jan 2；110(1):119-22.Multifunctional yeast high-copy-number shuttle vectors.

Crook NC,Schmitz AC,Alper HS.ACS Synth Biol.2014 16；3(5):307-13.Optimization of a yeast RNA interference system for controlling geneexpression and enabling rapid metabolic engineering.

DiCarlo JE,Norville JE,Mali P,Rios X,Aach J,Church GM.Nucleic AcidsRes.2013Apr；41(7):4336-43..Genome engineering in Saccharomyces cerevisiaeusing CRISPR-Cas systems.

Dong C,Beetham P,Vincent K和Sharp P.2006Plant Cell Rep 25:457-465.Oligonucleotide-directed gene repair in wheat using a transient plasmidrepair assay system.

Durai S,Mani M,Kandavelou K,Wu J,Porteus M,Chandrasegaran S.NucleicAcids Res 2005 33(18):5978–90.Zinc finger nucleases:custom-designed molecularscissors for genome engineering of plant and mammalian cells.

Gaj T,Gersbach,C和Barbas C.Trends in Biotechnology,2013,Vol.31,No.7397-405.ZFN,TALEN,and CRISPR/Cas-based methods for genome engineering.

Gao Y和Zhao Y.J Integr Plant Biol.2014Apr；56(4):343-9.Self-processingof ribozyme-flanked RNAs into guide RNAs in vitro and in vivo for CRISPR-mediated genome editing.

Gietz RD,Woods RA.Methods Enzymol.2002；350:87-96.Transformation ofyeast by lithium acetate/single-stranded carrier DNA/polyethylene glycolmethod.

Goldstein,A.L.,和McCusker,J.H.Yeast 1999.15,1541-15.Three newdominant drug resistance cassettes for gene disruption in Saccharomycescerevisiae.

Guilinger JP,Thompson DB,Liu DR.Nat Biotechnol.2014 577–582.Fusion ofcatalytically inactive Cas9to FokI nuclease improves the specificity ofgenome modification.

Güldener,U.,Heck,S.,Fiedler,T.,Beinhauer,J.,and Hegemann,J.H.NucleicAcids Research 1996.24,2519-2524.A new efficient gene disruption cassette forrepeated use in budding yeast.

Hsu PD,Lander ES,Zhang F.Cell.2014Jun 5；157(6):1262-78.Developmentand applications of CRISPR-Cas9for genome engineering.

Ito et al.,1983,Journal of Bacteriology 153:163.

Jacobs JZ,Ciccaglione KM,Tournier V,Zaratiegui M.Nat Commun.2014Oct29；5:5344.Implementation of the CRISPR-Cas9system in fission yeast.

TR,Park J,Arentshorst M,van Welzen AM,Lamers G,Vankuyk PA,Damveld RA,van den Hondel CA,Nielsen KF,Frisvad JC,Ram AF.Fungal GenetBiol.2011May；48(5):544-53.The molecular and genetic basis of conidialpigmentation in Aspergillus niger.

Kornberg R.Trends in Cell Biology 1999 9(12):M46Eukaryotictranscriptional control.

Kuijpers等Microbial Cell Factories 2013,12:47.A versatile,efficientstrategy for assembly of multi-fragment expression vectors in Saccharomycescerevisiae using 60bp synthetic recombination sequences.

Larson,M.H.；Gilbert,L.A.；Wang,X；Lim,W.A.；Weissman,J.S.；Qi,L.S.NatureProtocols 2013 8(11)2180–96.CRISPR interference(CRISPRi)for sequence-specificcontrol of gene expression.

M,Kristjuhan K,Kristjuhan A.Biotechniques.2011May；50(5):325-8.Extraction of genomic DNA from yeasts for PCR-based applications.

Mali P,Yang L,Esvelt KM,Aach J,Guell M,DiCarlo JE,Norville JE,ChurchGM.Science.2013Feb 15；339(6121):823-6.RNA-guided human genome engineering viaCas9.

Marck C,Kachouri-Lafond R,Lafontaine I,Westhof E,Dujon B,GrosjeanH.Nucleic Acids Res.2006Apr 5；34(6):1816-35.The RNA polymerase III-dependentfamily of genes in hemiascomycetes:comparative RNomics,decoding strategies,transcription and evolutionary implications.

Mouyna I,Henry C,Doering TL,LatgéJP.FEMS Microbiol Lett.2004Aug 15；237(2):317-24.Gene silencing with RNA interference in the human pathogenicfungus Aspergillus fumigatus.

Nakamura,Y.,等.Nucl.Acids Res.2000 28:292.Codon usage tabulated fromthe international DNA sequence databases:status for the year 2000.

Oliveira等,Efficient cloning system for construction of genesilencing vectors in Aspergillus niger(2008)Appl.Microbiol.and Biotechnol.80(5):917-924.

Ran FA,Hsu PD,Lin CY,Gootenberg JS,Konermann S,Trevino AE,Scott DA,Inoue A,Matoba S,Zhang Y,Zhang F.Cell 2013 154,1380-1389.Double nicking byRNA-guided CRISPR Cas9for enhanced genome editing specificity.

Sander JD,Joung JK.Nat Biotechnol.2014Apr；32(4):347-55.doi:10.1038/nbt.2842.Epub 2014Mar 2.CRISPR-Cas systems for editing,regulating andtargeting genomes.

Sikorski RS,Hieter P.Genetics.1989May；122(1):19-27.A system ofshuttle vectors and yeast host strains designed for efficient manipulation ofDNA in Saccharomyces cerevisiae.

Ryan OW,Skerker JM,Maurer MJ,Li X,Tsai JC,Poddar S,Lee ME,DeLoache W,Dueber JE,Arkin AP,Cate JH.Elife.2014.19；3.03703.

Tsai SQ,Wyvekens N,Khayter C,等.Nat Biotechnol.2014 32(6):569–576.Dimeric CRISPR RNA-guided FokI nucleases for highly specific genomeediting.

Wah,D.A.；J.Bitinaite,Schildkraut,I.,Aggarwal,A.K.Proc Natl Acad SciUSA 1998 95(18):10564–9.Structure of FokI has implications for DNA cleavage.

Zhang G,Kong II,Kim H,Liu J,Cate JH,Jin YS.Appl EnvironMicrobiol.2014Dec 15；80(24):7694-701.doi:10.1128/AEM.02310-14.Epub 2014Oct3.Construction of a quadruple auxotrophic mutant of an industrial polyploidySaccharomyces cerevisiae using RNA-guided Cas9nuclease.

Claims

1.一种非天然存在或工程化的组合物，其包含含有向导多核苷酸和Cas蛋白的CRISPR-Cas***的来源，其中所述向导多核苷酸包含基本上为宿主细胞中靶多核苷酸的反向互补体的向导序列，并且所述向导多核苷酸能够引导所述Cas蛋白结合在所述宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物，其中所述向导序列基本上为所述宿主细胞的基因组中的5’-(N)yPAM-3’多核苷酸序列靶标的(N)y部分的反向互补体，其中y为8-30的整数，其中PAM为前间区序列邻近基序，其中所述宿主细胞为解脂酵母，优选耶氏酵母属(Yarrowia)，更优选解脂耶氏酵母(Yarrowia lipolytica)，甚至更优选解脂耶氏酵母CLIB122或解脂耶氏酵母ML324(以ATCC18943号保藏)，并且其中PAM优选为选自以下的序列：5’-XGG-3’、5’-XGGXG-3’、5’-XXAGAAW-3’、5’-XXXXGATT-3’、5’-XXAGAA-3’、5’-XAAAAC-3’，其中X可以为任何核苷酸或其类似物，优选X可以为任何核苷酸；并且W为A或T。

2.根据权利要求1所述的组合物，其中所述Cas蛋白由多核苷酸编码和/或所述向导多核苷酸由多核苷酸编码或存在于多核苷酸上。

3.根据权利要求1或2所述的组合物，其中所述Cas蛋白由多核苷酸编码和/或所述向导多核苷酸由另一多核苷酸编码或存在于另一个多核苷酸上，并且一个或多个所述多核苷酸包含在载体中。

4.根据前述权利要求中任一项所述的组合物，其中所述向导多核苷酸由被转录以提供实际的向导多核苷酸的多核苷酸编码。

5.根据前述权利要求中任一项所述的组合物，其中编码向导多核苷酸的多核苷酸与载体具有序列同一性，使得有利于编码向导多核苷酸的所述多核苷酸与所述载体的重组，其中所述重组优选为所述宿主细胞中的体内重组，并且其中所述载体优选为线性的。

6.根据权利要求5所述的组合物，其包含至少两个不同的多核苷酸，所述多核苷酸各自编码相应的不同向导多核苷酸，其中所述至少两个多核苷酸还彼此具有序列同一性，使得有利于编码不同向导多核苷酸的所述多核苷酸与所述载体的重组，其中所述重组优选为所述宿主细胞中的体内重组，并且其中所述载体优选为线性的。

7.根据权利要求1-3中任一项所述的组合物，其中所述Cas蛋白由多核苷酸编码并且所述向导多核苷酸由另一多核苷酸编码或存在于另一个多核苷酸上，并且所述多核苷酸包含在一个载体中。

8.根据权利要求1-3中任一项所述的组合物，其中所述Cas蛋白由包含在载体中的多核苷酸编码，并且所述向导多核苷酸由包含在另一载体中的另一多核苷酸编码或存在于包含在另一载体中的另一多核苷酸上，其中优选地编码Cas蛋白的所述载体是低拷贝载体，并且编码向导多核苷酸的所述载体是高拷贝载体。

9.根据权利要求8所述的组合物，其中一个或更多个或所有载体包含选择性标记，优选每个载体包含不同的选择性标记。

10.根据前述权利要求中任一项所述的组合物，其还包含在CRISPR-Cas复合物切割所述靶多核苷酸后与所述靶多核苷酸重组产生经修饰的靶多核苷酸的一个或更多个不同的外源性多核苷酸。

11.根据前述权利要求中任一项所述的组合物，其中存在至少两个不同的外源性多核苷酸，所述外源性多核苷酸在所述CRISPR-Cas复合物切割所述靶多核苷酸后与所述靶多核苷酸重组产生经修饰的靶多核苷酸，其中所述至少两个不同的外源性多核苷酸彼此具有序列同一性，使得有利于所述不同的外源性多核苷酸的重组，其中所述重组优选为所述宿主细胞中的体内重组。

12.根据权利要求10所述的组合物，其中存在另外且不同的外源性多核苷酸，所述外源性多核苷酸在所述CRISPR-Cas复合物切割所述靶多核苷酸后与所述靶多核苷酸重组产生经修饰的靶多核苷酸，其中存在与所述外源性且不同的多核苷酸具有序列同一性的额外多核苷酸，使得有利于所述外源性且不同的多核苷酸的重组，并且其中所述重组优选为所述宿主细胞中的体内重组。

13.根据前述权利要求中任一项所述的组合物，其中一个或更多个外源性多核苷酸可操作地连接至所述向导多核苷酸。

14.根据权利要求3-13中任一项所述的组合物，其中至少一个载体为自主复制载体。

15.根据前述权利要求中任一项所述的组合物，其中所述Cas蛋白包含至少一种核定位序列，优选异源的核定位序列。

16.根据前述权利要求中任一项所述的组合物，其中所述Cas蛋白具有引导所述靶序列的位置处的两条多核苷酸链的切割的活性。

17.根据前述权利要求中任一项所述的组合物，其中所述Cas蛋白包含至少一个突变，使得所述蛋白相比于对应的野生型Cas蛋白具有改变的核酸酶活性，优选具有引导所述靶序列的位置处的单条多核苷酸链的切割的活性。

18.根据前述权利要求中任一项所述的组合物，其中编码Cas蛋白的多核苷酸针对所述宿主细胞进行密码子优化，优选进行密码子对优化。

19.根据前述权利要求中任一项所述的组合物，其中所述向导多核苷酸由可操作地连接至RNA聚合酶II或III启动子，优选人H1 RNA聚合酶III启动子、人U6 RNA聚合酶III启动子或酵母SNR52p RNA聚合酶III启动子的多核苷酸编码。

20.根据权利要求1-19中任一项所述的组合物，其中可操作地连接至RNA聚合酶II启动子的多核苷酸编码包含所述向导多核苷酸的前向导多核苷酸和自加工核酶，其中当转录时，所述向导多核苷酸通过所述加工核酶从前向导多核苷酸转录物释放。

21.一种调节细胞中多核苷酸的表达的方法，所述方法包括使宿主细胞接触根据权利要求1-20中任一项所述的组合物，其中所述向导多核苷酸引导所述Cas蛋白结合在所述宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物。

22.根据权利要求21所述的方法，其中所述宿主细胞包含编码目标化合物的多核苷酸。

23.根据权利要求21或22所述的方法，其中所述宿主细胞是重组宿主细胞。

24.一种宿主细胞，其包含根据权利要求1-20中任一项所述的组合物。

25.一种产生宿主细胞的方法，所述方法包括使宿主细胞接触根据权利要求1-20中任一项所述的组合物，其中所述向导多核苷酸引导所述Cas蛋白结合在所述宿主细胞中的靶多核苷酸处以形成CRISPR-Cas复合物。

26.根据权利要求25所述的方法，其中所述宿主细胞首先接触Cas蛋白的来源并且随后接触向导多核苷酸和任选的外源性多核苷酸的来源。

27.根据权利要求26所述的方法或根据权利要求24所述的宿主细胞，其中所述宿主细胞包含编码目标化合物的多核苷酸。

28.根据权利要求25-27中任一项所述的方法或根据权利要求24所述的宿主细胞，其中所述宿主细胞是重组宿主细胞。

29.一种生产目标化合物的方法，所述方法包括在有利于所述目标化合物生产的条件下培养能够通过根据权利要求25-28中任一项所述方法获得的宿主细胞或根据权利要求24所述的宿主细胞或根据权利要求25-28中任一项所述的方法产生的宿主细胞，以及任选地纯化或分离所述目标化合物。