WO2021098709A1

WO2021098709A1 - 衍生自黄杆菌的基因编辑***

Info

Publication number: WO2021098709A1
Application number: PCT/CN2020/129665
Authority: WO
Inventors: 高彩霞; 靳帅
Original assignee: 中国科学院遗传与发育生物学研究所
Priority date: 2019-11-18
Filing date: 2020-11-18
Publication date: 2021-05-27
Also published as: EP4063500A1; US20230002453A1; EP4063500A4; CN115052980A; BR112022009584A2

Abstract

本发明属于基因工程领域。具体而言，本发明公开了一种衍生自黄杆菌的基因编辑***及其应用。

Description

衍生自黄杆菌的基因编辑***

技术领域

本发明属于基因工程领域。具体而言，本发明涉及一种衍生自黄杆菌的基因编辑***及其应用。

发明背景

基因组编辑技术是基于人工核酸酶对基因组进行靶向修饰的基因工程技术，在农业和医学研究中发挥着越来越强大的作用。成簇的规律间隔的短回文重复序列及其相关***(Clustered regularly interspaced short palindromic repeats/CRISPR associated,CRISPR)是目前使用最广泛的基因组编辑工具，在人工设计的guide RNA的导向作用下，Cas蛋白可以靶向基因组中的任意位置，从而使靶向序列产生双链断裂(Double Strand Break，DSB)，激活细胞内的非同源末端连接(Non-homologous End Joining,NHEJ)或同源修复(Homology Directly Repair,HDR)途径，以这两种方式引入突变。最常用的Cas蛋白为来源于酿脓链球菌(Streptococcus pyogenes)的Cas9蛋白，属于Class II型CRISPR***中的Type II-A亚型，Cong等(Multiplex Genome Engineering Using CRISPR/Cas Systems,Science,2013)与Mali等(RNA-guided human genome engineering via Cas9,Science,2013)将CRISPR/Cas9***在人细胞系内成功应用。

CRISPR/Cas12a***与CRISPR/Cas9***均属于Class II类CRISPR***，Zetsche等首次将来源于氨基酸链球菌、毛螺旋菌的Cas12a蛋白(旧称Cpf1)应用于动物细胞的基因编辑(Cpf1 is a Single RNA-Guided Endonuclease of a Class 2 CRISPR-Cas System,Cell,2015)。不同的是，CRISPR/Cas12a***属于Type V类型，其具有crRNA序列较短，特异性更高，所具有的5’-TTTN PAM序列与Cas9的3’-NGG互补，同时更容易产生粘性末端等优势，进一步地拓展了CRISPR***的基因编辑工具箱。

迄今为止，基于CRISPR/Cas9与CRISPR/Cas12的基因编辑工具已经成功地在动物细胞系、动物个体、植物细胞、植物个体与微生物中得到了广泛的应用，因其高效率、使用简单，在全球范围内引起了基因编辑领域的革命。而CRISPR/Cas12a***的工作效率在不同靶位点处的差异较大，在植物基因组中的某些位点处工作效率较低，这可能是由于现有的Cas12a***主要来源于人或动物的致病菌，其适宜工作温度高于植物的适宜温度导致的，因此有必要识别、开发出在适宜植物温度下能够稳定工作的CRISPR/Cas12a***。

发明简述

本发明人通过同源相似性比对，在植物共生菌中寻找到了之前未报道过的FbCas12a 蛋白，并人为预测其本身crRNA的成熟形式，将自身的crRNA与LbCas12a的crRNA进行了体内效率比较，发现FbCas12a可以在植物细胞内工作，并在使用LbCas12a的crRNA时具有更高的编辑效率。

附图简述

图1、不同来源的Cas12a的DR序列和蛋白序列比对结果。

图2、实施例中使用的载体示意图。

图3、FbCas12a和FbcrRNA组合对水稻内源基因OsEPSPS的编辑。

图4、FbCas12a和FbcrRNA或LbcrRNA组合对水稻内源基因编辑的结果。

发明详述

一、定义

在本发明中，除非另有说明，否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且，本文中所用的蛋白质和核酸化学、分子生物学、细胞和组织培养、微生物学、免疫学相关术语和实验室操作步骤均为相应领域内广泛使用的术语和常规步骤。例如，本发明中使用的标准重组DNA和分子克隆技术为本领域技术人员熟知，并且在如下文献中有更全面的描述：Sambrook，J.，Fritsch，E.F.和Maniatis，T.，Molecular Cloning：A Laboratory Manual；Cold Spring Harbor Laboratory Press：Cold Spring Harbor，1989(下文称为“Sambrook”)。同时，为了更好地理解本发明，下面提供相关术语的定义和解释。

如本文所用，术语“和/或”涵盖由该术语连接的项目的所有组合，应视作各个组合已经单独地在本文列出。例如，“A和/或B”涵盖了“A”、“A和B”以及“B”。例如，“A、B和/或C”涵盖“A”、“B”、“C”、“A和B”、“A和C”、“B和C”以及“A和B和C”。

“包含”一词在本文中用于描述蛋白质或核酸的序列时，所述蛋白质或核酸可以是由所述序列组成，或者在所述蛋白质或核酸的一端或两端可以具有额外的氨基酸或核苷酸，但仍然具有本发明所述的活性。此外，本领域技术人员清楚多肽N端由起始密码子编码的甲硫氨酸在某些实际情况下(例如在特定表达***表达时)会被保留，但不实质影响多肽的功能。因此，本申请说明书和权利要求书中在描述具体的多肽氨基酸序列时，尽管其可能不包含N端由起始密码子编码的甲硫氨酸，然而此时也涵盖包含该甲硫氨酸的序列，相应地，其编码核苷酸序列也可以包含起始密码子；反之亦然。

“基因组”如本文所用不仅涵盖存在于细胞核中的染色体DNA，而且还包括存在于细胞的亚细胞组分(如线粒体、质体)中的细胞器DNA。

如本文所用，“生物体”包括适于基因组编辑的任何生物体，优选真核生物。生物体的实例包括但不限于，哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物包括单子叶植物和双子叶植物，例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。

“经遗传修饰的生物体”或“经遗传修饰的细胞”意指在其基因组内包含外源多核苷酸或修饰的基因或表达调控序列的生物体或细胞。例如外源多核苷酸能够稳定地整合进生物体或细胞的基因组中，并遗传连续的世代。外源多核苷酸可单独地或作为重组DNA构建体的部分整合进基因组中。修饰的基因或表达调控序列为在生物体或细胞基因组中所述序列包含单个或多个脱氧核苷酸取代、缺失和添加。

针对序列而言的“外源”意指来自外来物种的序列，或者如果来自相同物种，则指通过蓄意的人为干预而从其天然形式发生了组成和/或基因座的显著改变的序列。

“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物，任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代：“A”为腺苷或脱氧腺苷(分别对应RNA或DNA)，“C”表示胞苷或脱氧胞苷，“G”表示鸟苷或脱氧鸟苷，“U”表示尿苷，“T”表示脱氧胸苷，“R”表示嘌呤(A或G)，“Y”表示嘧啶(C或T)，“K”表示G或T，“H”表示A或C或T，“I”表示肌苷，并且“N”表示任何核苷酸。

“多肽”、“肽”、和“蛋白质”在本发明中可互换使用，指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物，以及适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”还可包括修饰形式，包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。

序列“相同性”具有本领域公认的含义，并且可以利用公开的技术计算两个核酸或多肽分子或区域之间序列相同性的百分比。可以沿着多核苷酸或多肽的全长或者沿着该分子的区域测量序列相同性。(参见，例如：Computational Molecular Biology,Lesk,A.M.,ed.,Oxford University Press,New York,1988；Biocomputing:Informatics and Genome Projects,Smith,D.W.,ed.,Academic Press,New York,1993；Computer Analysis of Sequence Data,Part I,Griffin,A.M.,and Griffin,H.G.,eds.,Humana Press,New Jersey,1994；Sequence Analysis in Molecular Biology,von Heinje,G.,Academic Press,1987；and Sequence Analysis Primer,Gribskov,M.and Devereux,J.,eds.,M Stockton Press,New York,1991)。虽然存在许多测量两个多核苷酸或多肽之间的相同性的方法，但是术语“相同性”是技术人员公知的(Carrillo,H.& Lipman,D.,SIAM J Applied Math 48:1073(1988))。

在肽或蛋白中，合适的保守型氨基酸取代是本领域技术人员已知的，并且一般可以进行而不改变所得分子的生物活性。通常，本领域技术人员认识到多肽的非必需区中的单个氨基酸取代基本上不改变生物活性(参见，例如，Watson et al.,Molecular Biology of the Gene,4th Edition,1987,The Benjamin/Cummings Pub.co.,p.224)。

如本发明所用，“表达构建体”是指适于感兴趣的核苷酸序列在生物体中表达的载体如重组载体。“表达”指功能产物的产生。例如，核苷酸序列的表达可指核苷酸序列的转录(如转录生成mRNA或功能RNA)和/或RNA翻译成前体或成熟蛋白质。

本发明的“表达构建体”可以是线性的核酸片段、环状质粒、病毒载体，或者，在一些实施方式中，可以是能够翻译的RNA(如mRNA)。

本发明的“表达构建体”可包含不同来源的调控序列和感兴趣的核苷酸序列，或相同来源但以不同于通常天然存在的方式排列的调控序列和感兴趣的核苷酸序列。

“调控序列”和“调控元件”可互换使用，指位于编码序列的上游(5'非编码序列)、中间或下游(3'非编码序列)，并且影响相关编码序列的转录、RNA加工或稳定性或者翻译的核苷酸序列。调控序列可包括但不限于启动子、翻译前导序列、内含子和多腺苷酸化识别序列。

“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中，启动子是能够控制细胞中基因转录的启动子，无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。

“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用，并且指主要但非必须专一地在一种组织或器官中表达，而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的DNA序列。

如本文中所用，术语“可操作地连接”指调控元件(例如但不限于，启动子序列、转录终止序列等)与核酸序列(例如，编码序列或开放读码框)连接，使得核苷酸序列的转录被所述转录调控元件控制和调节。用于将调控元件区域可操作地连接于核酸分子的技术为本领域已知的。

将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞，使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。

“稳定转化”指将外源核苷酸序列导入基因组中，导致外源核苷酸序列稳定遗传。一旦稳定转化，外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。

“瞬时转化”指将核酸分子或蛋白质导入细胞中，执行功能而没有外源核苷酸序列稳定遗传。瞬时转化中，外源核酸序列不整合进基因组中。

“性状”指细胞或生物体的生理的、形态的、生化的或物理的特征。

“农艺性状”特别是指作物植物的可测量的指标参数，包括但不限于：叶片绿色、籽粒产量、生长速率、总生物量或积累速率、成熟时的鲜重、成熟时的干重、果实产量、种子产量、植物总氮含量、果实氮含量、种子氮含量、植物营养组织氮含量、植物总游离氨基酸含量、果实游离氨基酸含量、种子游离氨基酸含量、植物营养组织游离氨基酸含量、植物总蛋白含量、果实蛋白含量、种子蛋白含量、植物营养组织蛋白质含量、除草剂的抗性抗旱性、氮的吸收、根的倒伏、收获指数、茎的倒伏、株高、穗高、穗长、抗病性、抗寒性、抗盐性和分蘖数等。

二、基于黄杆菌属Cas12a蛋白的基因组编辑***

在一方面，本发明提供新的Cas12a蛋白，其

(i)包含与SEQ ID NO:1具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、甚至100％序列相同性的氨基酸序列，或

(ii)包含相对于SEQ ID NO:1具有一或多个，例如1个、2个、3个、4个、5个、6个、7个、8个、9个或10个氨基酸取代、缺失或添加的氨基酸序列。

“Cas12a蛋白”、“Cas12a核酸酶”和“Cas12a”在本文中可互换使用，指的是包括Cas12a蛋白或其片段的RNA指导的核酸酶或其变体。Cas12a是CRISPR-Cas12a基因组编辑***的组分，能在向导RNA(crRNA)的指导下靶向和/或切割DNA靶序列形成DNA双链断裂(DSB)。本发明的Cas12a蛋白衍生自植物共生菌，因此，特别适合于在植物中进行基因组编辑。

在本文各方面的一些实施方式中，所述Cas12a蛋白衍生自黄杆菌属(Flavobacterium)属物种。在一些实施方式中，所述Cas12a蛋白衍生自噬腮黄杆菌(Flavobacterium branchiophilum)。本领域人员将可以理解，在同一细菌物种的不同菌株Cas12a蛋白可能在氨基酸序列存在一定差异，但是却能实现基本上相同的功能。

在本发明各方面的在一些实施方案中，所述Cas12a蛋白是重组产生的。在本发明各方面的在一些实施方案中，所述Cas12a蛋白还含有融合标签，例如用于Cas12a蛋白分离/和或纯化的标签。重组产生蛋白质的方法是本领域已知的。并且本领域已知多种可以用于分离/和或纯化蛋白质的标签，包括但不限于His标签、GST标签等。通常而言，这些标签不会改变目的蛋白的活性。在一些实施方案中，所述Cas12a蛋白还融合有其它功能性蛋白，例如脱氨酶、转录激活/抑制蛋白等，从而能够实现碱基编辑或者转录调控功能。

在本发明各方面的一些实施方案中，本发明的Cas12a蛋白还包含核定位序列(NLS)，例如，通过接头与所述核定位序列相连。所述接头可以是长1-50个(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或20-25个、25-50个)或更多个氨基酸、无二级以上结构的非功能性氨基酸序列。例如，所述接头可以是柔性接头，例如SGGS(SEQ ID NO:3)。一般而言，所述Cas12a蛋白中的一个或多个NLS应具有足够的强度，以便在细胞核中驱动所述Cas12a蛋白以可实现其基因组编辑功能的量积聚。一般而言，核定位活性的强度由所述Cas12a蛋白中NLS的数目、位置、所使用的一个或多个特定的NLS、或这些因素的组合决定。示例性的核定位序列包括但不限于SV40核定位信号序列(例如示于SEQ ID NO:4)、nucleoplasmin核定位信号序列(例如示于SEQ ID NO:5)。此外，根据所需要编辑的DNA位置，本发明的Cas12a蛋白还可以包括其他的定位序列，例如细胞质定位序列、叶绿体定位序列、线粒体定位序列等。在一些实施方案中，所述多个定位序列可以通过接头相连。在一些具体实施方式中，所述Cas12a蛋白包含SEQ ID NO:6所示氨基酸序列。

在一方面，本发明提供本发明的Cas12a蛋白在对细胞，优选真核细胞，更优选植物细胞进行基因组编辑的用途。

在一方面，本发明提供了一种用于对细胞基因组中靶核酸序列进行定点修饰的基因组编辑***，其包含本发明的Cas12a蛋白和/或包含编码本发明的Cas12a蛋白的核苷酸序列的表达构建体。

在本文中，术语“基因组编辑***”和“基因编辑***”可互换使用，是指用于对生物体细胞内基因组进行基因组编辑所需的成分的组合，其中所述***的各个成分，例如Cas12a蛋白、gRNA或相应的表达构建体等可以各自独立地存在，或者可以以任意的组合作为组合物的形式存在。

在一些实施方案中，所述基因组编辑***还包括至少一种向导RNA(gRNA)和/或包含编码所述至少一种向导RNA的核苷酸序列的表达构建体。

“向导RNA”和“gRNA”在本文中可互换使用。CRISPR-Cas12a基因组编辑***的向导RNA通常仅由crRNA分子构成，其中crRNA包含与靶序列具有足够相同性以便与靶序列的互补序列杂交并且指导CRISPR复合物(Cas12a+crRNA)与该靶序列序列特异性结合的序列。

在本发明的方法的一些实施方式中，所述向导RNA是crRNA。在一些实施方案中，所述向导RNA包含SEQ ID NO:10或11所示的crRNA骨架序列。在一些优选实施方式中，所述crRNA骨架序列为SEQ ID NO:11。在一些实施方式中，所述cRNA序列还包括位于所述cRNA骨架序列的3’的与靶序列的互补序列特异性杂交的序列(即spacer序列)。

在一些实施方案中，所述crRNA包含以下序列：

i)5’-AAUUUCUACUAUUGUAGAU(SEQ ID NO:10)-N _x-3’；或

ii)5’-UAAUUUCUACUAAGUGUAGAU(SEQ ID NO:11)-N _x-3’；

其中N _x表示X个连续的核苷酸组成的核苷酸序列，N各自独立地选自A、G、C和U；X为18≤X≤35的整数，优选地，X＝20、21、22或23。在一些实施方案中，序列N _x(spacer序列)能够与靶序列的互补序列特异性杂交。

一般而言，本发明的基因组编辑***靶向的靶序列5’末端需包含前间区序列邻近基序(protospacer adjacent motif)(PAM)。所述PAM可以是例如5’-TTTN，其中N表示A、G、C或T。然而，也可以使用不同的PAM序列。本领域技术人员基于PAM的存在，可以容易地确定基因组中可以用于靶向以及任选地编辑的靶序列并相应地设计合适的向导RNA。例如，基因组中存在一个PAM序列5’-TTTG-3’，则其3’紧邻的大约18-大约35个，优选20、21、22或23个连续核苷酸可作为靶序列。

在一些实施方案中，所述至少一种向导RNA由不同表达构建体编码。在一些实施方案中，所述至少一种向导RNA由同一表达构建体编码。在一些实施方案中，所述至少一种向导RNA和本发明的Cas12a蛋白由同一表达构建体编码。

例如，在一些实施方案中，所述基因组编辑***可以包含选自以下的任一项：

i)本发明的Cas12a蛋白和所述至少一种向导RNA，任选地，所述Cas12a蛋白和所述至少一种向导RNA形成复合物；

ii)包含编码本发明的Cas12a蛋白的核苷酸序列的表达构建体，和所述至少一种向导RNA；

iii)本发明的Cas12a蛋白，和包含编码所述至少一种向导RNA的核苷酸序列的表达构建体；

iv)包含编码本发明的Cas12a蛋白的核苷酸序列的表达构建体，和包含编码所述至少一种向导RNA的核苷酸序列的表达构建体；

v)包含编码本发明的Cas12a蛋白的核苷酸序列和编码所述至少一种向导RNA的核苷酸序列的表达构建体。

为了在细胞中获得有效表达，在本发明的一些实施方式中，所述编码Cas12a蛋白的核苷酸序列针对待进行基因组编辑的细胞所来自的生物体进行密码子优化。

密码子优化是指通过用在宿主细胞的基因中更频繁地或者最频繁地使用的密码子代替天然序列的至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50个或更多个密码子同时维持该天然氨基酸序列而修饰核酸序列以便增强在感兴趣宿主细胞中的表达的方法。不同的物种对于特定氨基酸的某些密码子展示出特定的偏好。密码子偏好性(在生物之间的密码子使用的差异)经常与信使RNA(mRNA)的翻译效率相关，而该翻译效率则被认为依赖于被翻译的密码子的性质和特定的转运RNA(tRNA)分子的可用性。细胞内选定的tRNA的优势一般反映了最频繁用于肽合成的密码子。因此，可以将基因定制为基于密码子优化在给定生物中的最佳基因表达。密码子利用率表可以容易地获得，例如在www.kazusa.orjp/codon/上可获得的密码子使用数据库(“Codon Usage Database”)中，并且这些表可以通过不同的方式调整适用。参见，Nakamura Y.等，“Codon usage tabulated from the international DNA sequence databases:status for the year 2000.Nucl.Acids Res.，28:292(2000)。

可通过本发明的Cas12a蛋白或基因组编辑***进行基因组编辑的细胞所来自的生物体优选是真核生物，包括但不限于，哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物包括单子叶植物和双子叶植物，例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。特别优选地，由于衍生自植物共生菌，本发明的Cas12a蛋白或基因组编辑***特别适合在植物中进行基因组编辑。

在本发明的一些具体实施方式中，所述编码Cas12a蛋白的核苷酸序列针对植物如水稻进行密码子优化。

在一些具体实施方式中，所述编码Cas12a蛋白的核苷酸序列选自SEQ ID NO:2和SEQ ID NO:7。

在本发明一些实施方式中，所述编码Cas12a蛋白的核苷酸序列和/或编码所述至少一种向导RNA的核苷酸序列与表达调控元件如启动子可操作地连接。

本发明可使用的启动子的实例包括但不限于聚合酶(pol)I、pol II或pol III启动子。pol I启动子的实例包括鸡RNA pol I启动子。pol II启动子的实例包括但不限于巨细胞病毒立即早期(CMV)启动子、劳斯肉瘤病毒长末端重复(RSV-LTR)启动子和猿猴病毒40(SV40)立即早期启动子。pol III启动子的实例包括U6和H1启动子。可以使用诱导型启动子如金属硫蛋白启动子。启动子的其他实例包括T7噬菌体启动子、T3噬菌体启动子、β-半乳糖苷酶启动子和Sp6噬菌体启动子。当用于植物时，启动子可以是花椰菜花叶病毒35S启动子、玉米Ubi-1启动子、小麦U6启动子、水稻U3启动子、玉米U3启动子、水稻肌动蛋白启动子。

在一些实施方式中，为了在细胞内精确产生向导RNA，在编码所述至少一种向导RNA的核苷酸序列的表达构建体中，其中所述向导RNA编码序列的5’端连接至第一核酶编码序列的3’端，所述第一核酶被设计为在所述向导RNA的5’末端切割细胞内转录生成的第一核酶-向导RNA融合物，由此形成不携带5’端额外核苷酸的向导RNA。在一实施方案中，所述向导RNA编码序列的3’端连接至第二核酶编码序列的5’端，所述第二核酶被设计为在所述向导RNA的3’末端切割细胞内转录生成的向导RNA-第二核酶融合物，由此形成不携带3’端额外核苷酸的向导RNA。在一些实施方案中，所述向导RNA编码序列的5’端连接至第一核酶编码序列的3’端，所述向导RNA编码序列的3’端连接至第二核酶编码序列的5’端，所述第一核酶被设计为在所述向导RNA的5’末端切割细胞内转录生成的第一核酶-向导RNA-第二核酶融合物，所述第二核酶被设计为在所述向导RNA的3’末端切割细胞内转录生成的第一核酶-向导RNA-第二核酶酶融合物，由此形成不携带5’和3’端额外核苷酸的向导RNA。

所述第一或第二核酶的设计属于本领域技术人员的能力范围内。例如，可以参见Gao et al.,JIPB,Apr,2014；Vol 56,Issue 4,343-349。

在一具体实施方式中，所述第一核酶由以下序列编码：5’-(N) ₆CTGATGAGTCCGTGAGGACGAAACGAGTAAGCTCGTC-3’(SEQ ID NO:31)，其中N独立地选自A、G、C和T，且(N) ₆表示与向导RNA的5’端前6个核苷酸反向互补的序列。在一具体实施方式中，所述第二核酶由以下序列编码：5’-GGCCGGCATGGTCCCAGCCTCCTCGCTGGCGCCGGCTGGGCAACATGCTTCGGCATGGCGAATGGGAC-3’(SEQ ID NO:32)。

在一些实施方式中，为了在细胞内精确产生向导RNA，在编码所述至少一种向导RNA的核苷酸序列的表达构建体中，其中所述向导RNA编码序列的5’端连接至第一tRNA编码序列的3’端，所述第一tRNA被设计为在所述向导RNA的5’末端切割(即，被细胞内存在的精确加工tRNA的机制(其精确切除前体tRNA的5’和3’额外序列以形成成熟tRNA)所切割)细胞内转录生成的第一tRNA-向导RNA融合物，由此形成不携带5’端额外核苷酸的向导RNA。在一实施方案中，所述向导RNA编码序列的3’端连接至第二tRNA编码序列的5’端，所述第二tRNA被设计为在所述向导RNA的3’末端tRNA细胞内转录生成的向导RNA-第二tRNA融合物，由此形成不携带3’端额外核苷酸的向导RNA。在一些实施方案中，所述向导RNA编码序列的5’端连接至第一tRNA编码序列的3’端，所述向导RNA编码序列的3’端连接至第二tRNA编码序列的5’端，所述第一tRNA被设计为在所述向导RNA的5’末端切割细胞内转录生成的第一tRNA-向导RNA-第二tRNA融合物，所述第二tRNA被设计为在所述向导RNA的3’末端切割细胞内转录生成的第一tRNA-向导RNA-第二tRNA融合物，由此形成不携带5’和3’端额外核苷酸的向导RNA。

所述tRNA-向导RNA融合物的设计属于本领域技术人员的能力范围内。例如，可以参考Xie et al.,PNAS,Mar 17,2015；vol.112,no.11,3570-3575。

三、定点修饰细胞基因组中靶核酸序列的方法

在另一方面，本发明提供了一种对细胞基因组中靶核酸序列进行定点修饰的方法，包括将本发明的基因组编辑***导入所述细胞。

在一些实施方案中，所述基因组编辑***的导入导致所述靶核酸序列中的双链断裂(DSB)。随后，通过细胞的修复功能，实现所述靶核酸序列或其附近序列中的一个或多个核苷酸的取代、缺失和/或添加。

在另一方面，本发明还提一种产生经遗传修饰的细胞的方法，包括将本发明的基因组编辑***导入所述细胞。

在另一方面，本发明还提供经遗传修饰的生物体，其包含通过本发明的方法产生的经遗传修饰的细胞或其后代细胞。

在本发明中，待进行修饰的靶序列可以位于基因组的任何位置，例如位于功能基因如蛋白编码基因内，或者例如可以位于基因表达调控区如启动子区或增强子区，从而实现对所述基因功能修饰或对基因表达的修饰。可以通过T7EI、PCR/RE或测序方法检测所述细胞靶序列中的修饰。

在本发明的方法中，所述基因编辑***可以通过本领域技术人员熟知的各种方法导入细胞。

可用于将本发明的基因编辑***导入细胞的方法包括但不限于：磷酸钙转染、原生质融合、电穿孔、脂质体转染、微注射、病毒感染(如杆状病毒、痘苗病毒、腺病毒、腺相关病毒、慢病毒和其他病毒)、基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化。

在一些实施方式中，本发明的方法在体外进行。例如，所述细胞是分离的细胞，或在分离的组织或器官中的细胞。

在另一些实施方式中，本发明的方法还可以在体内进行。例如，所述细胞是生物体内的细胞，可以通过例如病毒或土壤农杆菌介导的方法将本发明的***体内导入所述细胞。

可以通过本发明的方法进行基因组编辑的细胞可以来自例如，哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物，包括单子叶植物和双子叶植物，例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。

特别优选地，由于衍生自植物共生菌，本发明的Cas12a蛋白或基因组编辑***特别适合在植物中进行基因组编辑。

因此，本发明提供了一种产生经遗传修饰的植物的方法，包括将本发明的基因组编辑***导入至少一个所述植物，由此导致所述至少一个植物的基因组中的修饰。所述修饰包括一或多个核苷酸的取代、缺失和/或添加。

在本发明的方法中，所述基因组编辑***可以本领域技术人员熟知的各种方法导入植物。可用于将本发明的基因组***导入植物的方法包括但不限于：基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化、植物病毒介导的转化、花粉管通道法和子房注射法。

在本发明的方法中，只需在植物细胞中导入或产生所述Cas12a蛋白和向导RNA即可实现对靶序列的修饰，并且所述修饰可以稳定遗传，无需将所述基因组编辑***稳定转化植物。这样避免了稳定存在的基因组编辑***的潜在脱靶作用，也避免外源核苷酸序列在植物基因组中的整合，从而具有更高生物安全性。

在一些优选实施方式中，所述导入在不存在选择压力下进行，从而避免外源核苷酸序列在植物基因组中的整合。

在一些实施方式中，所述导入包括将本发明的基因组编辑***转化至分离的植物细胞或组织，然后使所述经转化的植物细胞或组织再生为完整植物。优选地，在不存在选择压力下进行所述再生，也即是，在组织培养过程中不使用任何针对表达载体上携带的选择基因的选择剂。不使用选择剂可以提高植物的再生效率，获得不含外源核苷酸序列的除草剂抗性植物。

在另一些实施方式中，可以将本发明的基因组编辑***转化至完整植物上的特定部位，例如叶片、茎尖、花粉管、幼穗或下胚轴。这特别适合于难以进行组织培养再生的植物的转化。

在本发明的一些实施方式中，直接将体外表达的蛋白质和/或体外转录的RNA分子转化至所述植物。所述蛋白质和/或RNA分子能够在植物细胞中实现基因组编辑，随后被细胞降解，避免了外源核苷酸序列在植物基因组中的整合。

因此，在一些实施方式中，使用本发明的方法对植物进行遗传修饰可以获得其基因组无外源多核苷酸整合的植物，即非转基因(transgene-free)的经修饰的植物。

在本发明的一些实施方式中，其中所述修饰与植物性状如农艺性状相关，例如所述修饰导致所述植物相对于野生型植物具有改变的(优选改善的)性状，例如农艺性状。

在一些实施方式中，所述方法还包括筛选具有期望的修饰和/或期望的性状如农艺性状的植物的步骤。

在本发明的一些实施方式中，所述方法还包括获得所述经遗传修饰的植物的后代。优选地，所述经遗传修饰的植物或其后代具有期望的修饰和/或期望的性状如农艺性状。

在另一方面，本发明还提供了经遗传修饰的植物或其后代或其部分，其中所述植物通过本发明上述的方法获得。在一些实施方式中，所述经遗传修饰的植物或其后代或其部分是非转基因的。优选地，所述经遗传修饰的植物或其后代具有期望的遗传修饰和/或期望的性状如农艺性状。

在另一方面，本发明还提供了一种植物育种方法，包括将通过本发明上述的方法获得的经遗传修饰的第一植物与不含有所述修饰的第二植物杂交，从而将所述修饰导入第二植物。优选地，所述经遗传修饰的第一植物具有期望的性状如农艺性状。

四、试剂盒

本发明还包括用于本发明的方法的试剂盒，该试剂盒包括本发明的基因组编辑***，以及使用说明。试剂盒一般包括表明试剂盒内容物的预期用途和/或使用方法的标签。术语标签包括在试剂盒上或与试剂盒一起提供的或以其他方式随试剂盒提供的任何书面的或记录的材料。

实施例

实施例1、利用同源相似性比对寻找植物共生菌中的CRISPR/Cas12a***

根据Bai等(Functional overlap of the Arabidopsis leaf and root microbiota)与Levy等(Genomic features of bacterial adaptation to plants)关于植物共生细菌的报道，发明人通过搜集植物共生菌的基因组序列，使用CRISPRdisco软件整理并分析了4269个植物共生细菌基因组内的CRISPR***，发现植物共生菌内的CRISPR***含量较为丰富，但大部分为Class I中Type I类型的CRISPR***，仅有1个Cas12a蛋白为Class II中的Type V类型。该Cas12a蛋白来源于噬腮黄杆菌(Flavobacterium branchiophilum)，NCBI contig ID为FQ859183.1，GeneBank protein ID为CCB70584.1，以下简称为FbCas12a。

该蛋白大小为1318aa(SEQ ID NO:1)，但序列附近并没有其他Cas蛋白序列，在基因组下游1509bp处开始出现CRISPR repeat序列，共有37个Spacer序列，其Direct Repeat为GTTTAAAACCACTTTAAAATTTCTACTATTGTAGAT(SEQ ID NO:9)，与常用的Cas12a蛋白FnCas12a、LbCas12a、以及AsCas12a的Direct Repeat比较如图1a。该蛋白与常用的FnCas12a、LbCas12a、以及AsCas12a的蛋白序列比对结果如图1b，序列相似性比对使用NCBI blastp程序。

实施例2、FbCas12a和LbCas12a表达载体制备

构建植物原生质体转化使用的载体：pJIT163-UBI-FbCas12a、pJIT163-UBI-LbCas12a、pJIT163-UBI-FbcrRNA及pJIT163-UBI-LbcrRNA。

对来源于噬腮黄杆菌(Flavobacterium branchiophilum)的FbCas12a编码序列进行了密码子优化，并在其3’端添加两个核定位信号(NLS)，在两端添加BamHI/SmaI限制酶切位点，使优化后的FbCas12a蛋白更好地在水稻中表达和定位。添加NLS且密码子优化后的FbCas12a的核苷酸编码序列如序列表中的SEQ ID NO:7所示。SEQ ID NO:7中，第3967-3987位为SV40核定位信号序列，第3988-3999位为两个核定位信号序列之间的SGGS linker，第4000-4047位为nucleoplasmin核定位信号序列，第1-3966位为FbCas12a蛋白的编码序列。SEQ ID NO:7编码SEQ ID NO:6所示蛋白，即带有核定位信号的FbCas12a核酸酶。

人工合成了带BamHI/SmaI位点的SEQ ID NO:7所示的DNA。经BamHI/SmaI双酶切，将该DNA片段连接入表达载体pJIT163(Guerineau,F.,Lucy,A.& Mullineaux,P.,Effect of two consensus sequences preceding the translation initiator codon on gene expression in plant protoplasts.Plant Molecular Biology 18,815-818，1992，公众可从中国科学院遗传与发育生物学研究所获得该载体)中，所得构建体命名为pJIT163-FbCas12a。经测序证明，在pJIT163表达载体的BamH I和SmaI酶切位点间***了具有SEQ ID NO:7的所示序列的核苷酸片段。

将实验室基因组编辑常用的LbCas12a的DNA序列连接到pJIT163载体中获得pJIT163-UBI-LbCas12a载体，载体构建方式与pJIT163-UBI-FbCas12a类似。密码子优化后的LbCas12a的核苷酸编码序列如序列表中的SEQ ID NO:8所示。

总的来说，pJIT163-FbCas12a与pJIT163-LbCas12a载体包含UBI启动子、植物密码子优化后的FbCas12a蛋白或LbCas12a编码序列，3’的SV40核定位信号编码序列、nucleoplasmin核定位信号编码序列，其结构示意图如图2a和图2c。

实施例3、带有FbCas12a的人工预测成熟形式的crRNA骨架编码序列的载体pJIT163-FbcrRNA的制备与pJIT163-LbcrRNA的制备

Cas12a有crRNA自成熟功能，然而，出乎意料的是，本发明人使用全长的FbCas12a crRNA骨架序列(全长Direct Repeat)时，没有实现基因组编辑。因此，似乎FbCas12a并不能成熟其天然crRNA骨架。需要对FbCas12a的crRNA进行探索以确定其是否能够实现基因组编辑。

人工合成SEQ ID NO:14所示的核苷酸序列的DNA片段，该片段包含锤头状核酶(Hammerhead,HH ribozyrne)与丁型肝炎病毒核酶(Hepatitis deltavirus,HDV ribozyrne)，可以剪切FbCas12a对应的人工预测的已成熟的直接重复序列(direct repeat,DR)。该片段1-6位为HindIII酶切位点，7-12位为HH核酶工作时所需要的反向互补序列，13-49位为HH核酶序列，50-68位为人为截短的DR序列，69-88位内含有两个BsaI酶切位点，水稻中待突变的靶序列的识别序列可通过两个酶切位点连入载体pJIT163-FbcrRNA中，89-156位为HDV核酶序列，157-162位为SmaI的酶切位点序列。

经HindIII/SmaI双酶切，将合成的SEQ ID NO:14的DNA片段连接入表达载体pJIT163，得到pJIT163-FbcrRNA载体。该载体包含UBI启动子、HH核酶、截短的FbcrRNA序列、HDV核酶与CaMV终止子，其结构示意图如图2b。pJIT163-FbcrRNA载体使用基于核酶的crRNA成熟策略得到精确加工的crRNA序列。

人工合成SEQ ID NO:15所示的核苷酸序列的DNA片段，该片段仅有DR序列与 FbCas12a不同，同样经HindIII/SmaI双酶切，将合成的SEQ ID NO:15的DNA片段连接入表达载体pJIT163，得到pJIT163-LbcrRNA载体。该载体的结构示意图如图2d。

实施例4、FbCas12a***对水稻内源基因EPSPS的定点突变及使用FbCas12a蛋白与LbCas12a的crRNA对水稻四个内源基因靶点的突变

(1)靶标片段target-EPSPS02的设计

target-EPSPS05： TTTGGTACTAAATATACAATCCCTTGG(SEQ ID NO:16；序列为LOC_Os06g04280.1的OsEPSPS基因中第956-982位核苷酸。划线部分是PAM序列)。

target-OsCDC48： TTTATTCAGATTACATATGGTTAG(SEQ ID NO:17；序列为LOC_Os03g05730的OsCDC48基因中第582-605位核苷酸。划线部分是PAM序列)。

target-OsDEP1T3： TTTCAAATGGATCTAAACAGGGCCTTA(SEQ ID NO:18；序列为LOC_Os09g26999的OsDEP1基因中第1919-1945位核苷酸。划线部分是PAM序列)。

target-OsPDS： TTTGGAGTGAAATCTCTTGTCTTA(SEQ ID NO:19；序列为LOC_Os03g08570的OsPDS基因中第136-159位核苷酸。划线部分是PAM序列)。

target-OsEpspsC02： TTTATGAAAATATGTATGGAATTCATG(SEQ ID NO:20；序列为LOC_Os06g04280.1的OsEPSPS基因中第1294-1320位核苷酸。划线部分是PAM序列)。

(2)含有SP1、SP2、SP3、SP4、SP5的pJIT163-FbcrRNA质粒和pJIT163-LbcrRNA质粒

SP1是能与靶标target-EPSPS05互补结合的RNA的编码DNA

合成下述带有粘性末端(划线部分)的单链引物：

SP1-F： AGATGTACTAAATATACAATCCCTTGG(SEQ ID NO:21)

SP1-R： AAACCCAAGGGATTGTATATTTAGTAC(SEQ ID NO:22)

经引物退火形成带有粘性末端的双链DNA，***到pJIT163-FbcrRNA的两个BsaI酶切位点之间，即得到含有SP1的pJIT163-FbcrRNA质粒，质粒经测序验证为阳性质粒。

SP2～SP5是能与靶标target-OsCDC48、target-OsDEP1T3、target-OsPDS及target-OsEpspsC02互补结合的RNA的编码DNA。

合成下述带有粘性末端(划线部分)的单链引物：

SP2-F： AGATTTCAGATTACATATGGTTAG(SEQ ID NO:23)

SP2-R： AAACCTAACCATATGTAATCTGAA(SEQ ID NO:24)

SP3-F： AGATAAATGGATCTAAACAGGGCCTTA(SEQ ID NO:25)

SP3-R： AAACATTGGCCCTGTTTAGATCCATTT(SEQ ID NO:26)

SP4-F： AGATGAGTGAAATCTCTTGTCTTA(SEQ ID NO:27)

SP4-R： AAACTAAGACAAGAGATTTCACTC(SEQ ID NO:28)

SP5-F： AGATTGAAAATATGTATGGAATTCATG(SEQ ID NO:29)

SP5-R： AAACCATGAATTCCATACATATTTTCA(SEQ ID NO:30)

经引物退火形成带有粘性末端的双链DNA，***到pJIT163-FbcrRNA与pJIT163-LbcrRNA的两个BsaI酶切位点之间，即得到含有SP1～SP5的pJIT163-FbcrRNA质粒与pJIT163-LbcrRNA质粒，质粒经测序验证为阳性质粒。

(3)转化FbcrRNA:FbCas12a、LbcrRNA:FbCas12a、LbcrRNA:LbCas12a至水稻原生质体

分别将pJIT163-UBI-FbCas12a、pJIT163-UBI-FbCas12a和含有SP1～SP5的pJIT163-FbcrRNA、pJIT163-LbcrRNA质粒转化至水稻日本晴的原生质体，水稻原生质体转化具体过程参考了文献Shan,Q.et al.,Rapid and efficient gene modification in rice and Brachypodium using TALENs.Molecular Plant(2013)中公开的方法。

水稻原生质体转化后48小时提取基因组DNA，以该DNA为模板，进行扩增子高通量测序实验分析其编辑效率，扩增子高通量测序具体过程参考了文献Zhang et al.Perfectly matched 20-nucleotide guide RNA sequences enable robust genome editing using high-fidelity SpCas9 nucleases.Genome Biology,2017中描述的方法。

人工成熟的FbcrRNA：FbCas12a高通量测序实验结果如图3a，结果表明，与对照组相比，FbCas12a处理组在OsEPSPS基因的靶位点处发生了突变，突变效率大约在6.25％左右。图3b表示由高通量测序数据分析得到的突变类型比例，结果表明，FbCas12a在靶位点处产生的突变类型大部分是DNA片段的删除。

另一次原生质体转化实验结果如图4，Fb表示FbcrRNA:FbCas12a，FbLb表示LbcrRNA:FbCas12a，Lb表示LbcrRNA:LbCas12a。结果表明，FbcrRNA:FbCas12a在水稻的四个靶点处均能工作，但在使用LbcrRNA时，其工作效率更高。

Claims

一种Cas12a蛋白，其

(i)包含与SEQ ID NO:1具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、甚至100％序列相同性的氨基酸序列，或

(ii)包含相对于SEQ ID NO:1具有一或多个，例如1个、2个、3个、4个、5个、6个、7个、8个、9个或10个氨基酸取代、缺失或添加的氨基酸序列。
权利要求1的Cas12a蛋白，其中所述Cas12a蛋白衍生自黄杆菌(Flavobacterium)属物种，例如衍生自噬腮黄杆菌(Flavobacterium branchiophilum)。
权利要求1或2的Cas12a蛋白，其中所述Cas12a蛋白还包含核定位序列(NLS)。
权利要求3的Cas12a蛋白，其包含SEQ ID NO:6所示氨基酸序列。
权利要求1-4中任一项的Cas12a蛋白在对细胞，优选真核细胞，更优选植物细胞进行基因组编辑的用途。
一种用于对细胞基因组中靶核酸序列进行定点修饰的基因组编辑***，其包含权利要求1-4中任一项的Cas12a蛋白和/或包含编码权利要求1-4中任一项的Cas12a蛋白的核苷酸序列的表达构建体。
权利要求6的基因组编辑***，其还包括至少一种向导RNA(gRNA)和/或包含编码所述至少一种向导RNA的核苷酸序列的表达构建体。
权利要求7的基因组编辑***，其中所述向导RNA是crRNA，且包含SEQ ID NO:10或11所示的crRNA骨架序列。
权利要求7或8的基因组编辑***，其包含选自以下i)至v)的任一项：

i)权利要求1-4中任一项的Cas12a蛋白和所述至少一种向导RNA，任选地，所述Cas12a蛋白和所述至少一种向导RNA形成复合物；

ii)包含编码权利要求1-4中任一项的Cas12a蛋白的核苷酸序列的表达构建体，和所述至少一种向导RNA；

iii)权利要求1-4中任一项的Cas12a蛋白，和包含编码所述至少一种向导RNA的核苷酸序列的表达构建体；

iv)包含编码权利要求1-4中任一项的Cas12a蛋白的核苷酸序列的表达构建体，和包含编码所述至少一种向导RNA的核苷酸序列的表达构建体；

v)包含编码权利要求1-4中任一项的Cas12a蛋白的核苷酸序列和编码所述至少一种向导RNA的核苷酸序列的表达构建体。
权利要求6-9中任一项的基因组编辑***，其中编码所述Cas12a蛋白的核苷酸序列针对植物如水稻进行密码子优化。
权利要求10的基因组编辑***，其中所述编码Cas12a蛋白的核苷酸序列选自 SEQ ID NO:2和SEQ ID NO:7。
权利要求7-11中任一项的基因组编辑***，所述编码Cas12a蛋白的核苷酸序列和/或编码所述至少一种向导RNA的核苷酸序列与表达调控元件如启动子可操作地连接。
权利要求7-11中任一项的基因组编辑***，所述向导RNA编码序列的5’端连接至第一核酶编码序列的3’端，所述向导RNA编码序列的3’端连接至第二核酶编码序列的5’端，所述第一核酶被设计为在所述向导RNA的5’末端切割细胞内转录生成的第一核酶-向导RNA-第二核酶融合物，所述第二核酶被设计为在所述向导RNA的3’末端切割细胞内转录生成的第一核酶-向导RNA-第二核酶融合物，由此形成不携带5’和3’端额外核苷酸的向导RNA。
权利要求13的基因组编辑***，其中所述第一核酶由SEQ ID NO:31所示序列编码，所述第二核酶由SEQ ID NO:32所示序列编码。
一种产生经遗传修饰的细胞的方法，包括将权利要求6-14中任一项的基因组编辑***导入所述细胞。
权利要求15的方法，其中所述细胞来自哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物，包括单子叶植物和双子叶植物，例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥。