CN111304180B

CN111304180B - 一种新的dna核酸切割酶及其应用

Info

Publication number: CN111304180B
Application number: CN201910482292.XA
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shandong Shunfeng Biotechnology Co Ltd
Current assignee: Shandong Shunfeng Biotechnology Co Ltd
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2023-05-26
Anticipated expiration: 2039-06-04
Also published as: WO2020244395A1; CN111304180A

Abstract

本发明涉及一种新的DNA核酸切割酶及其应用，具体地，本发明涉及一种突变型的基因编辑蛋白和含有突变型的基因编辑蛋白的融合蛋白，本发明的突变型的基因编辑蛋白和融合蛋白可识别更多种类的PAM序列，从而扩展基因编辑的范围，还可提高编辑的效率且能够精确的介导目标位点的突变，并且能够在动植物细胞中广泛适用。

Description

一种新的DNA核酸切割酶及其应用

技术领域

本发明涉及生物技术领域，具体地涉及一种新的DNA核酸切割酶及其应用。

背景技术

CRISPR/Cas是一种来自细菌降解入侵病毒DNA或其他外源DNA的免疫机制。将该机制运用到动物和植物细胞中，针对靶DNA进行切割，DNA受损后，细胞会启动自身的修复机制，如同源重组(HR)、非同源末端链接(NHEJ)等修复机制，其在修复过程中会出现碱基的替换、缺失或***等错误，以此实现基因功能的突变。目前，CRISPR-Cas9基因编辑技术，是对靶向基因进行特定DNA修饰的技术，这项技术也是目前用于基因编辑中前沿的方法。

CRISPR-Cas9***发挥作用需要两个步骤：1、sgRNA与靶基因之间的碱基配对结合；2、Cas9识别靶基因中前间区序列邻近基序(PAM序列)，与sgRNA-DNA复合体结合完成DNA链的切割。PAM序列的识别限制了CRISPR-Cas9编辑的效率以及编辑的范围。SpCas9可切割的基因序列被限制在含有NGG(N代表任DNA中的任一种碱基，G代表鸟嘌呤)的位点，这就限制了对其他不含NGG序列的靶标位点进行编辑的可能性，降低了spCas9在基因编辑中的实用价值。

最近，报道了两种spCas9的变体：一种是Xcas9，另一种是Cas9-NG。但是这两种变体在植物细胞中的表现与人体细胞中表现却不尽相同，文献报道xCas9在植物细胞中对靶基因的编辑效率相对较低，其在水稻中不能识别含有NG序列的靶基因。

因此，本领域迫切需要寻找新的Cas9变体，使其能够识别更多种类的PAM序列，以期扩展基因编辑的范围、提高编辑的效率且能够精确的介导目标位点的突变，并且能够在动植物细胞中广泛适用。

发明内容

本发明的目的是提供一种新的Cas9变体，使其能够识别更多种类的PAM序列，以期扩展基因编辑的范围、提高编辑的效率且能够精确的介导目标位点的突变，并且能够在动植物细胞中广泛适用。

本发明第一方面提供了一种突变型的基因编辑蛋白，所述的突变蛋白为非天然蛋白，且所述突变蛋白具有基因编辑活性，并且所述突变蛋白在野生型的基因编辑蛋白的对应于SEQ ID NO.:1的选自下组的核心氨基酸发生突变：

第262位丙氨酸(A)；

第324位精氨酸(R)；

第409位丝氨酸(S)；

第480位谷氨酸(E)；

第543位谷氨酸(E)；

第694位甲硫氨酸(M)；

第1111位亮氨酸(L)；

第1135位天冬氨酸(D)；

第1218位甘氨酸(G)；

第1219位谷氨酸(E)；

第1332位丙氨酸(A)；

第1335位精氨酸(R)；和

第1337位苏氨酸(T)。

在另一优选例中，所述第262位丙氨酸(A)突变为选自下组的一种或多种氨基酸：苏氨酸(T)、丝氨酸(S)、或其组合，优选苏氨酸(T)。

在另一优选例中，所述第324位精氨酸(R)突变为选自下组的一种或多种氨基酸：亮氨酸(L)、异亮氨酸(I)、缬氨酸(V)、甲硫氨酸(M)、丙氨酸(A)、苯丙氨酸(F)、或其组合，优选亮氨酸(L)。

在另一优选例中，所述第409位丝氨酸(S)突变为异亮氨酸(I)、亮氨酸(L)、缬氨酸(V)、甲硫氨酸(M)、丙氨酸(A)、苯丙氨酸(F)、或其组合，优选异亮氨酸(I)。

在另一优选例中，所述第480位谷氨酸(E)突变为赖氨酸(K)、精氨酸(R)、谷氨酰胺(Q)、天冬酰胺(N)、或其组合，优选赖氨酸(K)。

在另一优选例中，所述第543位谷氨酸(E)突变为天冬氨酸(D)、谷氨酸(E)、或其组合，优选天冬氨酸(D)。

在另一优选例中，所述第694位甲硫氨酸(M)突变为异亮氨酸(I)、亮氨酸(L)、缬氨酸(V)、甲硫氨酸(M)、丙氨酸(A)、苯丙氨酸(F)、或其组合，优选异亮氨酸(I)。

在另一优选例中，所述第1111位亮氨酸(L)突变为精氨酸(R)、赖氨酸(K)、谷氨酰胺(Q)、天冬酰胺(N)、或其组合，优选精氨酸(R)。

在另一优选例中，所述第1135位天冬氨酸(D)突变为缬氨酸(V)、异亮氨酸(I)、亮氨酸(L)、甲硫氨酸(M)、苯丙氨酸(F)、丙氨酸(A)、或其组合，优选缬氨酸(V)。

在另一优选例中，所述第1218位甘氨酸(G)突变为精氨酸(R)、赖氨酸(K)、谷氨酰胺(Q)、天冬酰胺(N)、或其组合，优选精氨酸(R)。

在另一优选例中，所述第1219位谷氨酸(E)突变为苯丙氨酸(F)、亮氨酸(L)、缬氨酸(V)、异亮氨酸(I)、丙氨酸(A)、酪氨酸(Y)、或其组合，优选苯丙氨酸(F)。

在另一优选例中，所述第1332位丙氨酸(A)突变为精氨酸(R)、赖氨酸(K)、谷氨酰胺(Q)、天冬酰胺(N)、或其组合，优选精氨酸(R)。

在另一优选例中，所述第1335位精氨酸(R)突变为缬氨酸(V)、异亮氨酸(I)、亮氨酸(L)、甲硫氨酸(M)、苯丙氨酸(F)、丙氨酸(A)、或其组合，优选缬氨酸(V)。

在另一优选例中，所述第1337位苏氨酸(T)突变为精氨酸(R)、赖氨酸(K)、谷氨酰胺(Q)、天冬酰胺(N)、或其组合，优选精氨酸(R)。

在另一优选例中，所述第262位丙氨酸(A)突变为苏氨酸(T)；

第324位精氨酸(R)突变为亮氨酸(L)；

第409位丝氨酸(S)突变为异亮氨酸(I)；

第480位谷氨酸(E)突变为赖氨酸(K)；

第543位谷氨酸(E)突变为天冬氨酸(D)；

第694位甲硫氨酸(M)突变为异亮氨酸(I)；

第1111位亮氨酸(L)突变为精氨酸(R)；

第1135位天冬氨酸(D)突变为缬氨酸(V)；

第1218位甘氨酸(G)突变为精氨酸(R)；

第1219位谷氨酸(E)突变为苯丙氨酸(F)；

第1332位丙氨酸(A)突变为精氨酸(R)；

第1335位精氨酸(R)突变为缬氨酸(V)；和

第1337位苏氨酸(T)突变为精氨酸(R)。

在另一优选例中，所述的突变选自下组：A262T；R324L；S409I；E480K；E543D；M694I；L1111R；D1135V；G1218R；E1219F；A1332R；R1335V；和T1337R。

在另一优选例中，所述突变型的基因编辑蛋白的氨基酸序列如SEQ ID NO.:2或3所示。

在另一优选例中，所述突变型的基因编辑蛋白除所述突变(如262、324、409、480、543、694、1111、1135、1218、1219、1332、1335和1337)外，其余的氨基酸序列与SEQ ID NO.:1所示的序列相同或基本相同。

在另一优选例中，所述的基本相同是至多有50个(较佳地为1-20个，更佳地为1-10个、更佳地1-5个)氨基酸不相同，其中，所述的不相同包括氨基酸的取代、缺失或添加，且所述的突变蛋白仍具有基因编辑活性。

在另一优选例中，与SEQ ID NO.:1所示序列的同源性至少为80％，较佳地至少为85％或90％，更佳地至少为95％，最佳地至少为98％或99％。

在另一优选例中，所述突变型的基因编辑蛋白选自下组：

(a)具有SEQ ID NO.:2或3所示氨基酸序列的多肽；

(b)将SEQ ID NO.:2或3所示氨基酸序列经过一个或多个(如2个、3个、4个或5个)氨基酸残基的取代、缺失或添加而形成的，且具有基因编辑活性的由(a)衍生的多肽。

在另一优选例中，所述的衍生的多肽与SEQ ID NO.:2或3所示序列的同源性至少为60％，较佳地至少为70％，更佳地至少为80％，最佳地至少为90％，如95％、97％、99％。

在另一优选例中，所述突变型的基因编辑蛋白为SEQ ID NO.:1所示的野生型的基因编辑蛋白经突变形成的。

在另一优选例中，所述的突变型的基因编辑蛋白的基因编辑活性A1与XCas9或Cas9-NG蛋白的基因编辑活性A2相比，A1/A2>1，较佳地，A1/A2≥2，较佳地，A1/A2≥3，较佳地，A1/A2≥4。

在另一优选例中，所述基因编辑蛋白选自下组：Cas9、nCas9、Cas10、Cas9a、Cas12、Cas12a、Cas12b、Cas13、Cas14、或其组合。

在另一优选例中，所述基因编辑蛋白的来源选自下组：酿脓链球菌(Streptococcus pyogenes)、嗜热链球菌(Streptococcus thermophiles)、葡萄球菌(Staphylococcus aureus)、氨基酸球菌属(Acidaminococcus sp)、毛螺科菌(Lachnospiraceae bacterium)、或其组合。

本发明第二方面提供了一种融合蛋白，所述融合蛋白的结构如下式I或I’所示：

B-L-A (I)

A-L-B (I’)

式中，

A为权利要求1所述的突变型的基因编辑蛋白，

B为碱基编辑器元件；

L为无或连接肽，

各“-”独立地为连接肽或肽键或非肽键。

在另一优选例中，所述非肽键包括PEG。

在另一优选例中，所述碱基编辑器元件包括胞嘧啶脱氨酶和/或腺嘌呤脱氨酶。

在另一优选例中，所述胞嘧啶脱氨酶包括野生型胞嘧啶脱氨酶和突变型脱氨酶。

在另一优选例中，所述胞嘧啶脱氨酶选自下组：Apobec1、Apobec2Apobec3、或其组合。

在另一优选例中，所述腺嘌呤脱氨酶包括野生型的腺嘌呤脱氨酶和突变型的腺嘌呤脱氨酶。

在另一优选例中，所述腺嘌呤脱氨酶选自下组：TadA、TadA7.9、TadA7.10、或其组合。

在另一优选例中，所述连接肽的长度为1-100aa，较佳地，15-85aa，更佳地，25-70aa，更加地，25-35aa。

在另一优选例中，所述融合蛋白具有如SEQ ID NO.:4所示的氨基酸序列。

本发明第三方面提供了一种多核苷酸，所述的多核苷酸编码本发明第一方面所述的突变型的基因编辑蛋白或本发明第二方面所述的融合蛋白。

在另一优选例中，所述的多核苷酸在所述突变型的基因编辑蛋白或所述融合蛋白的ORF的侧翼还额外含有选自下组的辅助元件：信号肽、分泌肽、标签序列(如6His)、或其组合。

在另一优选例中，所述的多核苷酸选自下组：DNA序列、RNA序列、或其组合。

在另一优选例中，该多核苷酸还包含与所述突变型的基因编辑蛋白或所述融合蛋白的ORF序列操作性连接的启动子。

在另一优选例中，所述的启动子选自下组：组成型启动子、组织特异性启动子、诱导型启动子、强启动子、或其组合。

在另一优选例中，所述启动子选自下组：35s、RPS5A、U6、U3、U6a、U6b、U6c、U6-1、U3b、U3d、U6-26、U6-29、H1、或其组合。

本发明第四方面提供了一种载体，所述的载体含有本发明第三方面所述的多核苷酸。

在另一优选例中，所述载体包含一个或多个启动子，所述启动子可操作地与所述核酸序列、增强子、转录终止信号、多腺苷酸化序列、复制起点、选择性标记、核酸限制性位点、和/或同源重组位点连接。

在另一优选例中，所述载体包括质粒、病毒载体。

在另一优选例中，所述的病毒载体选自下组：腺相关病毒(AAV)、腺病毒、慢病毒、逆转录病毒、疱疹病毒、SV40、痘病毒、或其组合。

在另一优选例中，所述载体包括表达载体、穿梭载体、整合载体。

在另一优选例中，所述的载体为植物表达载体。

在另一优选例中，所述的载体为pCambia载体。

在另一优选例中，所述的植物表达载体选自下组：pCambia1300、pCambia3301、pCambia2300、或其组合。

在另一优选例中，所述的载体为农杆菌Ti载体。

在另一优选例中，所述载体是环状的或者是线性的。

本发明第五方面提供了一种宿主细胞，所述宿主细胞含有本发明第四方面所述的载体，或其基因组中整合有本发明第三方面所述的多核苷酸。

在另一优选例中，所述的宿主细胞为真核细胞，如酵母细胞或植物细胞。

在另一优选例中，所述的宿主细胞为原核细胞，如大肠杆菌。

在另一优选例中，所述真核细胞包括植物细胞。

在另一优选例中，所述植物包括被子植物和裸子植物。

在另一优选例中，所述裸子植物选自下组：苏铁科(Cycadaceae)、罗汉松科(Podocarpaceae)、南洋杉科(Araucariaceae)、松科(Pinaceae)、杉科、柏科、三尖杉科、红豆杉科、麻黄科、买麻藤科、单型科、百岁兰科、或其组合。

在另一优选例中，所述植物包括单子叶植物和双子叶植物。

在另一优选例中，所述植物包括草本植物和木本植物。

在另一优选例中，所述草本植物选自下组：茄科、禾本科植物、豆科植物、或其组合。

在另一优选例中，所述木本植物选自下组：猕猴桃科、蔷薇科、桑科、或其组合。

在另一优选例中，所述植物选自下组：十字花科植物、禾本科植物、豆科植物、茄科、猕猴桃科、锦葵科、芍药科、蔷薇科、百合科、或其组合。

在另一优选例中，所述的植物选自下组：拟南芥、水稻、白菜、大豆、番茄、玉米、烟草、小麦、高粱、菠菜、生菜、芹菜、油麦菜、黄瓜、茼蒿、空心菜、或其组合。

本发明第六方面提供了一种产生本发明第一方面所述的突变型的基因编辑蛋白或本发明第二方面所述的融合蛋白的方法，包括步骤：

在适合表达的条件下，培养本发明第五方面所述的宿主细胞，从而表达突变型的基因编辑蛋白或融合蛋白；和/或

分离所述突变型的基因编辑蛋白或融合蛋白。

本发明第七方面提供了一种基因编辑试剂，所述基因编辑试剂包含本发明第一方面所述突变型的基因编辑蛋白或本发明第二方面所述的融合蛋白。

在另一优选例中，所述的试剂还包括选自下组的一种或多种试剂：

(a1)gRNA、crRNA、或用于产生所述gRNA或crRNA的载体；

(a2)用于同源定向修复的模板：单链核苷酸序列或质粒载体。

本发明第八方面提供了一种试剂盒，包括权所述的基因编辑试剂。

在另一优选例中，所述试剂盒还包括选自下组的一种或多种试剂：

(a1)gRNA、crRNA、或用于产生所述gRNA或crRNA的载体；

(a2)用于同源定向修复的模板：单链核苷酸序列或质粒载体。

在另一优选例中，所述试剂盒还包括标签或说明书。

本发明第九方面提供了一种本发明第一方面所述的突变型的基因编辑蛋白或本发明第二方面所述的融合蛋白的用途，用于制备试剂或试剂盒，所述试剂或试剂盒用于对植物进行基因编辑。

本发明第十方面提供了一种对植物进行基因编辑的方法，包括步骤：

(i)提供待编辑植物，作为亲代植物；

(ii)将第一核酸构建物或含有所述第一核酸构建物的第一载体、第二核酸构建物或含有所述第二核酸构建物的第二载体的导入所述待编辑植物的植物细胞，从而获得导入所述待编辑植物的植物细胞；

其中所述植物细胞选自下组：

(a1)来自所述植物的离体细胞；

(a2)所述植物的离体细胞形成的愈伤组织的细胞；

(a3)位于所述植株上的来自繁殖器官的细胞；

(iii)获得来源于所述导入所述待编辑植物的植物细胞的植株；

其中，所述第一核酸构建物具有从5’-3’的式I结构：

P1-Z1-Z2-Z3-Z4 (I)

其中，P1为第一启动子，所述第一启动子为RNA聚合酶II依赖型启动子；

Z1为无或核定位信号；

Z2为编码权利要求1所述突变型的基因编辑蛋白或权利要求2所述的融合蛋白的编码序列；

Z3为无或核定位信号；

Z4为终止子；

并且，“-”为键或核苷酸连接序列；

所述第二核酸构建物具有从5’-3’的式II所示的结构：

P2-Z5-Z6 (II)

其中，P2为第二启动子，所述的第二启动子为RNA聚合酶III依赖型启动子，所述第二启动子选自下组：U6、U3、U6a、U6b、U6c、U6-1、U3b、U3d、U6-26、U6-29、H1、或其组合。；

Z5为gRNA的编码序列；

Z6为无或转录终止序列；

并且，“-”为键或核苷酸连接序列。

在另一优选例中，所述第一载体、第二载体为相同或不同的载体。

在另一优选例中，所述第一核酸构建物和第二核酸构建物位于相同或不同的载体上。

在另一优选例中，所述第一启动子选自下组：RPS5A、UBI、UBQ、35S、Actin、SPL，CmYLCV、YAO、CDC45、rbcS、rbcL、PsGNS2、UEP1、TobRB7、Cab、或其组合。

在另一优选例中，所述终止子选自下组：花椰菜花叶病毒35S终止子、NOS、Poly A、T-UBQ、rbcS、或其组合。

在另一优选例中，所述核定位信号包括SV40。

在另一优选例中，所述植物细胞来自花、愈伤组织、或其组合。

在另一优选例中，所述的愈伤组织用选自下组的植物细胞诱导形成：根、茎、叶、花、和/或种子的细胞。

在另一优选例中，所述导入为通过农杆菌导入。

在另一优选例中，所述导入为通过基因枪导入。

在另一优选例中，所述的基因编辑为定点敲入或替换。

本发明第十一方面提供了一种制备经基因编辑的植物细胞的方法，包括步骤：

(i)将本发明第一方面所述的突变型的基因编辑蛋白或本发明第二方面所述的融合蛋白或本发明第七方面所述的基因编辑试剂转染植物细胞，使得所述植物细胞中的染色体发生定点敲入和/或替换，从而制得所述经基因编辑的植物细胞。

在另一优选例中，所述的转染采用农杆菌转化法或基因枪轰击法。

本发明第十二方面提供了一种制备经基因编辑的植物细胞的方法，包括步骤：

(i)将本发明第一方面所述的突变型的基因编辑蛋白或本发明第二方面所述的融合蛋白或本发明第七方面所述的基因编辑试剂转染植物细胞，从而制得所述经基因编辑的植物细胞。

本发明第十三方面提供了一种制备经基因编辑的植物的方法，包括步骤：

将本发明第十一方面或本发明第十二方面所述方法制备的所述经基因编辑的植物细胞再生为植物体，从而获得所述经基因编辑的植物。

本发明第十四方面提供了一种经基因编辑的植物，所述的植物是用本发明第十三方面所述的方法制备的。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

图1显示了xCas9、Cas9-NG和XNG-Cas9变种在ABE***中和番茄基因编辑中的应用。(A)二元载体的的示意图。NLS，核定位信号；Pro 35S：35S promoter；AtU6：AtU6启动子；花椰菜花叶病毒35S终止子。(B)ABE编辑***。

图2显示了SpCas9变体在内源性西红柿基因编辑中的效率。(A)xCas9在番茄再生植株SlBRI1基因中NGG、GAA、GAT和NG PAM位点的基因编辑效率。(B)SpCas9变体在番茄再生植株SlRIN基因中NGG和NG PAM位点的基因编辑效率。

图3显示了不同SpCas9变体在拟南芥中PAM序列识别情况。

具体实施方式

本发明人经过广泛而深入的研究，意外地发现，将本发明的基因编辑蛋白进行突变，并任选的与碱基编辑器元件连接构成融合蛋白，可识别更多种类的PAM序列(可识别NG、GAA、GAC、GAG、AGA、GGT、GGC、TGA、AGG等)，从而扩展基因编辑的范围，还可提高编辑的效率(比如，在AGA的编辑效率≥15％)且能够精确的介导目标位点的突变，并且能够在动植物细胞中广泛适用。在此基础上，本发明人完成了本发明。

术语

为了可以更容易地理解本公开，首先定义某些术语。如本申请中所使用的，除非本文另有明确规定，否则以下术语中的每一个应具有下面给出的含义。在整个申请中阐述了其它定义。

术语“约”可以是指在本领域普通技术人员确定的特定值或组成的可接受误差范围内的值或组成，其将部分地取决于如何测量或测定值或组成。例如，如本文所用，表述“约100”包括99和101和之间的全部值(例如，99.1、99.2、99.3、99.4等)。

如本文所用，术语“含有”或“包括(包含)”可以是开放式、半封闭式和封闭式的。换言之，所述术语也包括“基本上由…构成”、或“由…构成”。

序列同一性(或同源性)通过沿着预定的比较窗(其可以是参考核苷酸序列或蛋白的长度的50％、60％、70％、80％、90％、95％或100％)比较两个对齐的序列，并且确定出现相同的残基的位置的数目来确定。通常地，这表示为百分比。核苷酸序列的序列同一性的测量是本领域技术人员熟知的方法。

如本文所用，术语“植物启动子”指能够在植物细胞中启动核酸转录的核酸序列。该植物启动子可以是来源于植物、微生物(如细菌、病毒)或动物等，或者是人工合成或改造过的启动子。

如本文所用，术语“植物”包括全植株、植物器官(如叶、茎、根等)、种子和植物细胞以及它们的子代。可用于本发明方法的植物的种类没有特别限制，一般包括任何可进行转化技术的高等植物类型，包括单子叶、双子叶植物和裸子植物。

如本文所用，术语“碱基敲入”指大片段的置换，尤其是当置换上的是和原基因完全不同的序列时。

如本文所用，术语“碱基替换”指小片段、几个氨基酸、几个碱基的置换。

如本文所用，术语“表达盒”是指含有待表达基因以及表达所需元件的序列组件的一段多聚核苷酸序列。表达所需的组件包括启动子和聚腺苷酸化信号序列。此外，本发明的表达盒还可以含有或不含有其他序列，包括(但并不限于)：增强子、分泌信号肽序列等。

野生型的基因编辑蛋白

如本文所用，“野生型的基因编辑蛋白”是指天然存在的、未经过人工改造的基因编辑蛋白，其核苷酸可以通过基因工程技术来获得，如基因组测序、聚合酶链式反应(PCR)等，其氨基酸序列可由核苷酸序列推导而得到。所述野生型的基因编辑蛋白的来源包括(但并不限于)：酿脓链球菌(Streptococcus pyogenes)、嗜热链球菌(Streptococcusthermophiles)、葡萄球菌(Staphylococcus aureus)、氨基酸球菌属(Acidaminococcussp)、毛螺科菌(Lachnospiraceae bacterium)。

在本发明的一个优选例中，所述野生型基因编辑蛋白来源于酿脓链球菌(Streptococcus pyogenes)，其氨基酸序列如SEQ ID NO.:1所示：

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD。

在本发明的一个优选例中，所述基因编辑蛋白包括，但并不限于，Cas9、nCas9、Cas9a、Cas12、Cas12a、Cas12b、Cas13、Cas14。

本发明突变蛋白及其编码核酸

如本文所用，术语“突变蛋白”、“本发明突变蛋白”、“本发明的突变型的基因编辑蛋白”可互换使用，均指非天然存在的为突变蛋白，且所述突变蛋白为基于SEQ ID NO.:1所示蛋白进行人工改造的蛋白，其中，所述的突变蛋白含有与基因编辑活性相关的核心氨基酸，且所述核心氨基酸中至少有一个是经过人工改造的。

术语“核心氨基酸”指的是基于SEQ ID NO.:1，且与SEQ ID NO.:1同源性达至少80％，如84％、85％、90％、92％、95％、98％或99％的序列中，相应位点是本文所述的特定氨基酸，如基于SEQ ID NO.:1所示的序列，核心氨基酸为：

第262位丙氨酸(A)；

第324位精氨酸(R)；

第409位丝氨酸(S)；

第480位谷氨酸(E)；

第543位谷氨酸(E)；

第694位甲硫氨酸(M)；

第1111位亮氨酸(L)；

第1135位天冬氨酸(D)；

第1218位甘氨酸(G)；

第1219位谷氨酸(E)；

第1332位丙氨酸(A)；

第1335位精氨酸(R)；和

第1337位苏氨酸(T)，且对上述核心氨基酸进行突变所得到的突变蛋白具有基因编辑活性。

优选地，在本发明中，对本发明的所述核心氨基酸进行如下突变：

所述第262位丙氨酸(A)突变为苏氨酸(T)；

第324位精氨酸(R)突变为亮氨酸(L)；

第409位丝氨酸(S)突变为异亮氨酸(I)；

第480位谷氨酸(E)突变为赖氨酸(K)；

第543位谷氨酸(E)突变为天冬氨酸(D)；

第694位甲硫氨酸(M)突变为异亮氨酸(I)；

第1111位亮氨酸(L)突变为精氨酸(R)；

第1135位天冬氨酸(D)突变为缬氨酸(V)；

第1218位甘氨酸(G)突变为精氨酸(R)；

第1219位谷氨酸(E)突变为苯丙氨酸(F)；

第1332位丙氨酸(A)突变为精氨酸(R)；

第1335位精氨酸(R)突变为缬氨酸(V)；和

第1337位苏氨酸(T)突变为精氨酸(R)。

应理解，本发明突变蛋白中的氨基酸编号基于SEQ ID NO.:1作出，当某一具体突变蛋白与SEQ ID NO.:1所示序列的同源性达到80％或以上时，突变蛋白的氨基酸编号可能会有相对于SEQ ID NO.:1的氨基酸编号的错位，如向氨基酸的N末端或C末端错位1-5位，而采用本领域常规的序列比对技术，本领域技术人员通常可以理解这样的错位是在合理范围内的，且不应当由于氨基酸编号的错位而使同源性达80％(如90％、95％、98％)的、具有相同或相似的基因编辑活性的突变蛋白不在本发明突变蛋白的范围内。

本发明突变蛋白是合成蛋白或重组蛋白，即可以是化学合成的产物，或使用重组技术从原核或真核宿主(例如，细菌、酵母、植物)中产生。根据重组生产方案所用的宿主，本发明的突变蛋白可以是糖基化的，或可以是非糖基化的。本发明的突变蛋白还可包括或不包括起始的甲硫氨酸残基。

本发明还包括所述突变蛋白的片段、衍生物和类似物。如本文所用，术语“片段”、“衍生物”和“类似物”是指基本上保持所述突变蛋白相同的生物学功能或活性的蛋白。

本发明的突变蛋白片段、衍生物或类似物可以是(i)有一个或多个保守或非保守性氨基酸残基(优选保守性氨基酸残基)被取代的突变蛋白，而这样的取代的氨基酸残基可以是也可以不是由遗传密码编码的，或(ii)在一个或多个氨基酸残基中具有取代基团的突变蛋白，或(iii)成熟突变蛋白与另一个化合物(比如延长突变蛋白半衰期的化合物，例如聚乙二醇)融合所形成的突变蛋白，或(iv)附加的氨基酸序列融合到此突变蛋白序列而形成的突变蛋白(如前导序列或分泌序列或用来纯化此突变蛋白的序列或蛋白原序列，或与抗原IgG片段的形成的融合蛋白)。根据本文的教导，这些片段、衍生物和类似物属于本领域熟练技术人员公知的范围。本发明中，保守性替换的氨基酸最好根据表I进行氨基酸替换而产生。

表I

本发明的活性突变蛋白具有基因编辑活性。

优选地，所述的突变蛋白如SEQ ID NO.:2或3所示。应理解，本发明突变蛋白与SEQID NO.:2或3所示的序列相比，通常具有较高的同源性(相同性)，优选地，所述的突变蛋白与SEQ ID NO.:2或3所示序列的同源性至少为80％，较佳地至少为85％-90％，更佳地至少为95％，最佳地至少为98％或99％。

此外，还可以对本发明突变蛋白进行修饰。修饰(通常不改变一级结构)形式包括：体内或体外的突变蛋白的化学衍生形式如乙酰化或羧基化。修饰还包括糖基化，如那些在突变蛋白的合成和加工中或进一步加工步骤中进行糖基化修饰而产生的突变蛋白。这种修饰可以通过将突变蛋白暴露于进行糖基化的酶(如哺乳动物的糖基化酶或去糖基化酶)而完成。修饰形式还包括具有磷酸化氨基酸残基(如磷酸酪氨酸，磷酸丝氨酸，磷酸苏氨酸)的序列。还包括被修饰从而提高了其抗蛋白水解性能或优化了溶解性能的突变蛋白。

术语“编码突变蛋白的多核苷酸”可以是包括编码本发明突变蛋白的多核苷酸，也可以是还包括附加编码和/或非编码序列的多核苷酸。

本发明还涉及上述多核苷酸的变异体，其编码与本发明有相同的氨基酸序列的多肽或突变蛋白的片段、类似物和衍生物。这些核苷酸变异体包括取代变异体、缺失变异体和***变异体。如本领域所知的，等位变异体是一个多核苷酸的替换形式，它可能是一个或多个核苷酸的取代、缺失或***，但不会从实质上改变其编码的突变蛋白的功能。

本发明还涉及与上述的序列杂交且两个序列之间具有至少50％，较佳地至少70％，更佳地至少80％相同性的多核苷酸。本发明特别涉及在严格条件(或严紧条件)下与本发明所述多核苷酸可杂交的多核苷酸。在本发明中，“严格条件”是指：(1)在较低离子强度和较高温度下的杂交和洗脱，如0.2×SSC，0.1％SDS，60℃；或(2)杂交时加有变性剂，如50％(v/v)甲酰胺，0.1％小牛血清/0.1％Ficoll，42℃等；或(3)仅在两条序列之间的相同性至少在90％以上，更好是95％以上时才发生杂交。

本发明的突变蛋白和多核苷酸优选以分离的形式提供，更佳地，被纯化至均质。

本发明多核苷酸全长序列通常可以通过PCR扩增法、重组法或人工合成的方法获得。对于PCR扩增法，可根据本发明所公开的有关核苷酸序列，尤其是开放阅读框序列来设计引物，并用市售的cDNA库或按本领域技术人员已知的常规方法所制备的cDNA库作为模板，扩增而得有关序列。当序列较长时，常常需要进行两次或多次PCR扩增，然后再将各次扩增出的片段按正确次序拼接在一起。

一旦获得了有关的序列，就可以用重组法来大批量地获得有关序列。这通常是将其克隆入载体，再转入细胞，然后通过常规方法从增殖后的宿主细胞中分离得到有关序列。

此外，还可用人工合成的方法来合成有关序列，尤其是片段长度较短时。通常，通过先合成多个小片段，然后再进行连接可获得序列很长的片段。

目前，已经可以完全通过化学合成来得到编码本发明蛋白(或其片段，或其衍生物)的DNA序列。然后可将该DNA序列引入本领域中已知的各种现有的DNA分子(或如载体)和细胞中。此外，还可通过化学合成将突变引入本发明蛋白序列中。

应用PCR技术扩增DNA/RNA的方法被优选用于获得本发明的多核苷酸。特别是很难从文库中得到全长的cDNA时，可优选使用RACE法(RACE-cDNA末端快速扩增法)，用于PCR的引物可根据本文所公开的本发明的序列信息适当地选择，并可用常规方法合成。可用常规方法如通过凝胶电泳分离和纯化扩增的DNA/RNA片段。

碱基编辑器

本文提供的任何碱基编辑器能够修饰特定核苷酸碱基而不产生显著比例的***/缺失。如本文所用，“***/缺失”指核酸内的核苷酸碱基的***或缺失。此类***或缺失可以导致基因编码区内的移码突变。在一些实施方案中，期望产生有效修饰(例如突变或脱氨基化)核酸内的特定核苷酸，而不在核酸中产生大量***或缺失(即***/缺失)的碱基编辑器。在某些实施方案中，本文提供的任何碱基编辑器能够产生相对于***/缺失更大比例的意图修饰(例如，点突变或脱氨基化)。

本发明的任何碱基编辑器能够有效地在核酸(例如基因组内的核酸)中产生意图的突变，如点突变，而不产生大量的非意图突变，诸如非意图点突变。

在本发明中，碱基编辑器包括胞嘧啶脱氨酶和腺嘌呤脱氨酶，其他类型的碱基编辑器只要具备本发明的碱基编辑器的功能也在本发明的保护范围内。

在本发明中，将基因编辑蛋白与碱基编辑器融合后的结构称之为ABE或CBE，其中，ABE为基因编辑蛋白与腺嘌呤脱氨酶融合后的结构，CBE为基因编辑蛋白与胞嘧啶脱氨酶融合后的结构。

融合蛋白

如本文所用，“本发明融合蛋白”、或“多肽”均指本发明第一方面所述的融合蛋白。本发明融合蛋白的结构如下式I或I’所示：

B-L-A (I)

A-L-B (I’)

式中，

A为本发明第一方面所述的突变型的基因编辑蛋白，

B为碱基编辑器元件；

L为无或连接肽，

各“-”独立地为连接肽或肽键或非肽键。

在本发明中，连接肽的长度对融合蛋白的活性有影响，优选的连接肽的长度为1-100aa，较佳地，15-85aa，更佳地，25-50aa，更佳地25-35aa。

所述的连接肽可以为XTEN，其编码序列为tccggaggat ctagcggagg ctcctctggctctgagacac ctggcacaag cgagagcgca acacctgaaa gcagcggggg cagcagcggg ggatcc。

如本文所用，术语“融合蛋白”还包括具有上述活性的、SEQ ID NO.：4所示的变异形式。这些变异形式包括(但并不限于)：1-3个(通常为1-2个，更佳地1个)氨基酸的缺失、***和/或取代，以及在C末端和/或N末端添加或缺失一个或数个(通常为3个以内，较佳地为2个以内，更佳地为1个以内)氨基酸。例如，在本领域中，用性能相近或相似的氨基酸进行取代时，通常不会改变蛋白质的功能。又比如，在C末端和/或N末端添加或缺失一个或数个氨基酸通常也不会改变蛋白质的结构和功能。此外，所述术语还包括单体和多聚体形式的本发明多肽。该术语还包括线性以及非线性的多肽(如环肽)。

本发明还包括上述融合蛋白的活性片段、衍生物和类似物。如本文所用，术语“片段”、“衍生物”和“类似物”是指基本上保持本发明融合蛋白的功能或活性的多肽。本发明的多肽片段、衍生物或类似物可以是(i)有一个或几个保守或非保守性氨基酸残基(优选保守性氨基酸残基)被取代的多肽，或(ii)在一个或多个氨基酸残基中具有取代基团的多肽，或(iii)抗原肽与另一个化合物(比如延长多肽半衰期的化合物，例如聚乙二醇)融合所形成的多肽，或(iv)附加的氨基酸序列融合于此多肽序列而形成的多肽(与前导序列、分泌序列或6His等标签序列融合而形成的融合蛋白)。根据本文的教导，这些片段、衍生物和类似物属于本领域熟练技术人员公知的范围。

一类优选的活性衍生物指与式I的氨基酸序列相比，有至多3个，较佳地至多2个，更佳地至多1个氨基酸被性质相似或相近的氨基酸所替换而形成多肽。这些保守性变异多肽最好根据表A进行氨基酸替换而产生。

表A

最初的残基	代表性的取代	优选的取代
			Ala(A)	Val；Leu；Ile	Val
Arg(R)	Lys；Gln；Asn	Lys
			Asn(N)	Gln；His；Lys；Arg	Gln
Asp(D)	Glu	Glu
			Cys(C)	Ser	Ser
Gln(Q)	Asn	Asn
			Glu(E)	Asp	Asp
Gly(G)	Pro；Ala	Ala
			His(H)	Asn；Gln；Lys；Arg	Arg
Ile(I)	Leu；Val；Met；Ala；Phe	Leu
			Leu(L)	Ile；Val；Met；Ala；Phe	Ile
Lys(K)	Arg；Gln；Asn	Arg
			Met(M)	Leu；Phe；Ile	Leu
Phe(F)	Leu；Val；Ile；Ala；Tyr	Leu
			Pro(P)	Ala	Ala
Ser(S)	Thr	Thr
			Thr(T)	Ser	Ser
Trp(W)	Tyr；Phe	Tyr
			Tyr(Y)	Trp；Phe；Thr；Ser	Phe
Val(V)	Ile；Leu；Met；Phe；Ala	Leu

本发明还提供本发明融合蛋白的类似物。这些类似物与SEQ ID NO.:4所示的多肽的差别可以是氨基酸序列上的差异，也可以是不影响序列的修饰形式上的差异，或者兼而有之。类似物还包括具有不同于天然L-氨基酸的残基(如D-氨基酸)的类似物，以及具有非天然存在的或合成的氨基酸(如β、γ-氨基酸)的类似物。应理解，本发明的多肽并不限于上述例举的代表性的多肽。

修饰(通常不改变一级结构)形式包括：体内或体外的多肽的化学衍生形式如乙酰化或羧基化。修饰还包括糖基化，如那些在多肽的合成和加工中或进一步加工步骤中进行糖基化修饰而产生的多肽。这种修饰可以通过将多肽暴露于进行糖基化的酶(如哺乳动物的糖基化酶或去糖基化酶)而完成。修饰形式还包括具有磷酸化氨基酸残基(如磷酸酪氨酸，磷酸丝氨酸，磷酸苏氨酸)的序列。还包括被修饰从而提高了其抗蛋白水解性能或优化了溶解性能的多肽。

在一优选实施方式中，本发明的融合蛋白的氨基酸序列如SEQ ID NO.:4所示。

载体构建

该载体的主要特征是利用RNA聚合酶I I依赖型启动子(如35S启动子或RPS5A)驱动本发明第一方面所述的融合蛋白在被转化的植物组织中大量表达，并由guide RNA引导至基因组中的靶点位置，由本发明的融合蛋白切割靶点，并通过HDR机制进行植物靶向敲入或替换。

一般的，为了增加蛋白的活性，蛋白间一般通过一些柔性短肽连接，即Linker(连接肽序列)。优选的，该Linker可以选用XTEN、ATTB。为了增加敲入和/或替换效率，本发明选择特定的适用于植物细胞的启动子，比如U6启动子，优选AtU6等。选择适用于植物细胞的guide RNA的表达框，并将其与上述蛋白的开放表达框(ORF)构建在不同的载体。

在本发明中，所述载体没有特别限制，任何双元载体都可以，不限于pCambia载体，也不限于这两种抗性，只要满足如下要求的载体都可以用在本发明中：(1)能通过农杆菌介导，转化进入植物中；(2)让RNA正常转录；(3)让植物获得新的抗性。

在一优选实施方式中，所述载体选自下组：pCambia1300、pCambia3301、pCambia2300、或其组合。

遗传转化

将上述载体通过合适的方法导入到植物受体中。导入方法包括但不局限于：农杆菌转染法、基因枪法、显微注射法、电击法、超声波法和聚乙二醇(PEG)介导法等。受体植物包括但不限于拟南芥、水稻、大豆、番茄、玉米、烟草、小麦、高粱等。上述DNA载体或片段导入植物细胞后，使转化的植物细胞中的DNA表达该蛋白和guide RNA。本发明的融合蛋白在其guide RNA的引导下，对靶点位置进行基因编辑(敲入和/或替换)。

对于用本发明方法进行植物基因组定点替换后的植物细胞或组织或器官，可以用常规方法再生获得相应的经过基因编辑的植株。例如，通过农杆菌浸花法获得基因编辑后的植株。

本发明的主要优点包括：

(1)本发明首次发现，本发明的突变蛋白或融合蛋白够识别更多种类的PAM序列，从而扩展基因编辑的范围，还可提高编辑的效率且能够精确的介导目标位点的突变，并且能够在动植物细胞中广泛适用，具有重要的技术价值和广泛的应用前景。

(2)本发明首次发现，本发明的突变蛋白或融合蛋白可显著提高植物中的基因编辑效率，在AGA位点的编辑效率可达15.79％。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件，例如Sambrook等人，分子克隆：实验室手册(New York:Cold Spring HarborLaboratory Press,1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数是重量百分比和重量份数。

除非有特别说明，否则本发明实施例中的试剂和材料均为市售产品。

在本发明中，XNG-Cas9为本发明的Cas9变体。

实施例1含有不同Cas9变体的表达载体在番茄中的编辑实验

1、实验材料

番茄(Solanum lycopersicum cultivar Ailsa Craig)，载体pCAMBIA1300，限制性内切酶EcoRI和HindIII，T4连接酶

2、载体构建

利用PCR的方法对相应的突变位点进行突变的克隆，利用双酶切和T4连接酶连接到相应的载体上，编辑工具结构参见图1A。

3、实验方法

选取番茄中两个目标基因SlBRI1(调控植物株型)和SlRIN(调节果实成熟)，针对这两个基因，设计11个sgRNA，包括NGG PAMs(AGG,TGG and GGG)和NG PAMs(TGC,TGA,GGT,AGA,GGC,AGT)(见表1)，针对每一个sgRNA，分别产生40T1转基因番茄植株。

表1用于在番茄中产生sgRNA质粒和测序的引物

/>

/>

4、番茄转化

将AC种子表面消毒后播种于1/2MS培养基上，放置于光暗周期16h/8h、室温25℃的条件下培养10天左右，可见两片子叶平展。切下子叶，切去子叶的叶尖和叶基于25℃暗中预培养24小时。子叶在含有目标质粒的农杆菌溶液中浸泡10min，用无菌滤纸吸除多余农杆菌，然后将子叶放回预培养基，暗中25℃培养48h。然后置于分化培养基上，放置于光暗周期16h/8h、室温25℃的条件下培养。

5、突变检测

利用下面的引物进行PCR扩增，并进行测序。对序列进行分析，并检测Cas9变体是否有编辑能力。

表2番茄测序引物

引物	序列	SEQ ID NO.:
			B-c-F	TTTCTTCCACCAGCTTCACCA	27
B-c-R	GGAGGCTAAAGGTTGCAGCT	28
			Rin-1-c-F(43)	TTCTTGACTAGGGAACCA	29
Rin-1-c-R(426)	ATACCTTGAATTGCTGCA	30
			Rin-5-c-F(3794)	ACTCACGAAATTACGACA	31
Rin-5-c-R(4750)	GAAGTTACCTTAGTGAGACAAG	32
			R-2，3，4，6-c-F	GTGTGGATTTCCGGGGAAGT	33
R-2，3，4，6-c-R	TGGCCTACACACATATGTCGA	34

6、实验结果

图2A显示，SpCas9、xCas9在番茄的SlBRI1基因中在GGG位点的编辑效率分别约为84％、4％，在TGG位点的编辑效率分别约为90％、3％，其余位点的编辑效率为0(见图2A)。图2B显示，SpCas9、xCas9、Cas9-NG、XNG-Cas9在番茄SlRIN基因中AGG位点的编辑效率分别约为85％、3％、12％、13％；在TGC位点均没有编辑效率；在TGA位点的编辑效率分别约为0％、0％、17％、15％；在GGT位点的编辑效率分别约为0％、0％、21％、22％；在AGA位点的编辑效率分别约为0％、0％、0％、16％；在GGC位点的编辑效率分别约为0％、0％、22％、24％。

7、实验结论

结果表明，在番茄中，xCas9在所有的NG、GAA、GAT等PAM位点上都没有编辑效率，在NGG位点(TGG、GGG、AGG)位点编辑效率不超过5％。

NG-Cas9在TGC和AGA位点没有效率，在GGT、GGC、TGA和AGG位点的编辑效率在10％-20％。

XNG-Cas9在在TGC位点没有效率，在AGA位点获得15.79％的效率，在GGT,GGC,TGA和AGG与NG-Cas9编辑效率相似，为10-20％；

综上：XNG-Cas9相比xCas9、NG-Cas9提高了碱基编辑效率并且扩大了编辑范围。

实施例2含有不同Cas9变体和ABE的表达载体在番茄中的编辑实验

1、植物材料

野生型的番茄(品种，Ailsa Craig)，所有转染番茄生长于标准的温室中(26℃下12小时光照/20℃下12小时光照)

2、载体构建

采用PCR完成ABE 7.10(TadA-TadA7.10)编码区域的克隆，采用PCR完成基因融合和基因突变，启动子采用RPS5A、Pro35S、AtU6。引物见表2,编辑工具结构参见图1B。

3、番茄转化

将表达sgRNA和ABE的二元质粒转染到土壤农杆菌EHA105,用该农杆菌侵染西红柿子叶。

4、突变检测

采用CTAB方法提取西红柿叶子中的DNA，采用Taq聚合酶和基因特异性引物对(见表1)包含sgRNA靶向位点和推测的非靶标位点的14个基因区域进行PCR扩增。直接对PCR产物进行Sanger测序，利用测序图谱对ABE/sgRNA诱导的突变进行分析。

5、实验结果

XNG-Cas9相比xCas9、NG-Cas9扩大了基因编辑的PAM识别位点。XNG-Cas9可以识别NG、GAA、GAC和GAG。利用XNG-Cas9可以实现更大范围的基因编辑位点的选择、单碱基替换的位点和修饰位点的选择。

结果表明，含有不同Cas9变体和ABE的表达载体也可提高碱基编辑效率并且扩大编辑范围。

实施例3含有不同Cas9变体的表达载体在拟南芥中的编辑实验

1、试验方法

SUVH2、SUVH4、SUVH5、SUVH6、SUVH9基因携带两个NGG PAMs位点(AGG和GGG PAM)和12个NG PAMs位点(TGC、TGA、TGT、GGT、GGA、GGC、AGA、AGC、AGT、CGA)和3个GAN PAMs位点(GAA、GAT and GAC)，针对这些基因设计31个sgRNA(序列参见表3)

表3用于在拟南芥中产生sgRNA质粒和测序的引物

/>

/>

2、拟南芥原生质体的制备、转染和DNA分离。

根据Wu et al.15记载的方法制备拟南芥叶片原生质体并转染。

3、DNA基因的提取

采用CTAB法(TEL-ZUR et al.,1999)从番茄再生植株和拟南芥原生质体中提取基因组DNA。

4、裂解扩增多态序列(cap)分析

利用KOD FX新聚合酶(Toyobo)扩增靶基因位点，引物见表1，PCR产物经表1所示限制性内切酶切割。

5、实验结果

结果如图3所示，结果显示，NG-Cas9可识别拟南芥基因中的PAM序列为CGT、GAG的位点；XNG-Cas9可识别番茄基因中PAM为AGA、GAA、GAT、GAG的位点。

6、实验结论

结果表明，XNG-Cas9和Cas9-NG突变体在几乎所有松弛NG PAM下都表现出了基因编辑能力，XNG-Cas9在AGA、GAT和GAA的PAM位点检测到突变，突变效率约为15％。，而Cas9-NG变体没有突变，这表明XNG-Cas9比Cas9-NG可以识别更多的PAM位点，有利于扩大碱基编辑的范围。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

序列表

<110> 山东舜丰生物科技有限公司

<120> 一种新的DNA核酸切割酶及其应用

<130> P2019-0445

<160> 65

<170> SIPOSequenceListing 1.0

<210> 1

<211> 1368

<212> PRT

<213> 酿脓链球菌(Streptococcus pyogenes)

<400> 1

Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val

1 5 10 15

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

20 25 30

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

35 40 45

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

50 55 60

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

65 70 75 80

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

85 90 95

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

100 105 110

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

115 120 125

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

130 135 140

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

145 150 155 160

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

165 170 175

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

180 185 190

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

195 200 205

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

210 215 220

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

225 230 235 240

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

245 250 255

Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

260 265 270

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

275 280 285

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

290 295 300

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

305 310 315 320

Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

325 330 335

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

340 345 350

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

355 360 365

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp

370 375 380

Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg

385 390 395 400

Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu

405 410 415

Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe

420 425 430

Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile

435 440 445

Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp

450 455 460

Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu

465 470 475 480

Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr

485 490 495

Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser

500 505 510

Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys

515 520 525

Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln

530 535 540

Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr

545 550 555 560

Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp

565 570 575

Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly

580 585 590

Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

595 600 605

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

610 615 620

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

625 630 635 640

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr

645 650 655

Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp

660 665 670

Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe

675 680 685

Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe

690 695 700

Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu

705 710 715 720

His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly

725 730 735

Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly

740 745 750

Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln

755 760 765

Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile

770 775 780

Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro

785 790 795 800

Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu

805 810 815

Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg

820 825 830

Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys

835 840 845

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

850 855 860

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

865 870 875 880

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys

885 890 895

Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp

900 905 910

Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr

915 920 925

Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp

930 935 940

Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser

945 950 955 960

Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

965 970 975

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

980 985 990

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe

995 1000 1005

Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys

1010 1015 1020

Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser

1025 1030 1035 1040

Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu

1045 1050 1055

Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile

1060 1065 1070

Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser

1075 1080 1085

Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly

1090 1095 1100

Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile

1105 1110 1115 1120

Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser

1125 1130 1135

Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly

1140 1145 1150

Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile

1155 1160 1165

Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala

1170 1175 1180

Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys

1185 1190 1195 1200

Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser

1205 1210 1215

Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr

1220 1225 1230

Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser

1235 1240 1245

Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His

1250 1255 1260

Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val

1265 1270 1275 1280

Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys

1285 1290 1295

His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu

1300 1305 1310

Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp

1315 1320 1325

Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp

1330 1335 1340

Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile

1345 1350 1355 1360

Asp Leu Ser Gln Leu Gly Gly Asp

1365

<210> 2

<211> 1368

<212> PRT

<213> 人工序列(artificial sequence)

<400> 2

Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val

1 5 10 15

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

20 25 30

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

35 40 45

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

50 55 60

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

65 70 75 80

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

85 90 95

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

100 105 110

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

115 120 125

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

130 135 140

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

145 150 155 160

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

165 170 175

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

180 185 190

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

195 200 205

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

210 215 220

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

225 230 235 240

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

245 250 255

Asp Leu Ala Glu Asp Thr Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

260 265 270

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

275 280 285

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

290 295 300

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

305 310 315 320

Met Ile Lys Leu Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

325 330 335

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

340 345 350

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

355 360 365

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp

370 375 380

Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg

385 390 395 400

Lys Gln Arg Thr Phe Asp Asn Gly Ile Ile Pro His Gln Ile His Leu

405 410 415

Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe

420 425 430

Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile

435 440 445

Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp

450 455 460

Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Lys

465 470 475 480

Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr

485 490 495

Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser

500 505 510

Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys

515 520 525

Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Asp Gln

530 535 540

Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr

545 550 555 560

Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp

565 570 575

Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly

580 585 590

Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

595 600 605

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

610 615 620

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

625 630 635 640

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr

645 650 655

Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp

660 665 670

Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe

675 680 685

Ala Asn Arg Asn Phe Ile Gln Leu Ile His Asp Asp Ser Leu Thr Phe

690 695 700

Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu

705 710 715 720

His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly

725 730 735

Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly

740 745 750

Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln

755 760 765

Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile

770 775 780

Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro

785 790 795 800

Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu

805 810 815

Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg

820 825 830

Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys

835 840 845

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

850 855 860

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

865 870 875 880

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys

885 890 895

Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp

900 905 910

Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr

915 920 925

Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp

930 935 940

Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser

945 950 955 960

Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

965 970 975

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

980 985 990

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe

995 1000 1005

Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys

1010 1015 1020

Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser

1025 1030 1035 1040

Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu

1045 1050 1055

Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile

1060 1065 1070

Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser

1075 1080 1085

Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly

1090 1095 1100

Phe Ser Lys Glu Ser Ile Arg Pro Lys Arg Asn Ser Asp Lys Leu Ile

1105 1110 1115 1120

Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Val Ser

1125 1130 1135

Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly

1140 1145 1150

Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile

1155 1160 1165

Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala

1170 1175 1180

Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys

1185 1190 1195 1200

Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser

1205 1210 1215

Ala Arg Phe Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr

1220 1225 1230

Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser

1235 1240 1245

Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His

1250 1255 1260

Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val

1265 1270 1275 1280

Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys

1285 1290 1295

His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu

1300 1305 1310

Phe Thr Leu Thr Asn Leu Gly Ala Pro Arg Ala Phe Lys Tyr Phe Asp

1315 1320 1325

Thr Thr Ile Asp Arg Lys Val Tyr Arg Ser Thr Lys Glu Val Leu Asp

1330 1335 1340

Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile

1345 1350 1355 1360

Asp Leu Ser Gln Leu Gly Gly Asp

1365

<210> 3

<211> 1368

<212> PRT

<213> 人工序列(artificial sequence)

<400> 3

Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val

1 5 10 15

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

20 25 30

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

35 40 45

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

50 55 60

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

65 70 75 80

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

85 90 95

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

100 105 110

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

115 120 125

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

130 135 140

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

145 150 155 160

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

165 170 175

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

180 185 190

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

195 200 205

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

210 215 220

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

225 230 235 240

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

245 250 255

Asp Leu Ala Glu Asp Thr Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

260 265 270

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

275 280 285

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

290 295 300

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

305 310 315 320

Met Ile Lys Leu Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

325 330 335

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

340 345 350

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

355 360 365

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp

370 375 380

Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg

385 390 395 400

Lys Gln Arg Thr Phe Asp Asn Gly Ile Ile Pro His Gln Ile His Leu

405 410 415

Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe

420 425 430

Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile

435 440 445

Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp

450 455 460

Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Lys

465 470 475 480

Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr

485 490 495

Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser

500 505 510

Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys

515 520 525

Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Asp Gln

530 535 540

Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr

545 550 555 560

Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp

565 570 575

Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly

580 585 590

Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

595 600 605

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

610 615 620

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

625 630 635 640

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr

645 650 655

Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp

660 665 670

Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe

675 680 685

Ala Asn Arg Asn Phe Ile Gln Leu Ile His Asp Asp Ser Leu Thr Phe

690 695 700

Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu

705 710 715 720

His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly

725 730 735

Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly

740 745 750

Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln

755 760 765

Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile

770 775 780

Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro

785 790 795 800

Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu

805 810 815

Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg

820 825 830

Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys

835 840 845

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

850 855 860

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

865 870 875 880

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys

885 890 895

Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp

900 905 910

Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr

915 920 925

Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp

930 935 940

Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser

945 950 955 960

Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

965 970 975

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

980 985 990

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe

995 1000 1005

Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys

1010 1015 1020

Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser

1025 1030 1035 1040

Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu

1045 1050 1055

Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile

1060 1065 1070

Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser

1075 1080 1085

Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly

1090 1095 1100

Phe Ser Lys Glu Ser Ile Arg Pro Lys Arg Asn Ser Asp Lys Leu Ile

1105 1110 1115 1120

Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Val Ser

1125 1130 1135

Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly

1140 1145 1150

Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile

1155 1160 1165

Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala

1170 1175 1180

Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys

1185 1190 1195 1200

Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser

1205 1210 1215

Ala Arg Phe Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr

1220 1225 1230

Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser

1235 1240 1245

Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His

1250 1255 1260

Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val

1265 1270 1275 1280

Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys

1285 1290 1295

His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu

1300 1305 1310

Phe Thr Leu Thr Asn Leu Gly Ala Pro Arg Ala Phe Lys Tyr Phe Asp

1315 1320 1325

Thr Thr Ile Asp Arg Lys Val Tyr Arg Ser Thr Lys Glu Val Leu Asp

1330 1335 1340

Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile

1345 1350 1355 1360

Asp Leu Ser Gln Leu Gly Gly Asp

1365

<210> 4

<211> 1766

<212> PRT

<213> 人工序列(artificial sequence)

<400> 4

Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu

1 5 10 15

Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala

20 25 30

Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro

35 40 45

Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg

50 55 60

Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu

65 70 75 80

Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His

85 90 95

Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly

100 105 110

Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His

115 120 125

Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu

130 135 140

Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys

145 150 155 160

Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser

165 170 175

Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser

180 185 190

Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr

195 200 205

Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg

210 215 220

Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly

225 230 235 240

Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala

245 250 255

Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg

260 265 270

Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys

275 280 285

Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val

290 295 300

Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His

305 310 315 320

Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala

325 330 335

Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln

340 345 350

Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly

355 360 365

Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser

370 375 380

Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Gly Ser Asp

385 390 395 400

Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val Gly Trp

405 410 415

Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val

420 425 430

Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala

435 440 445

Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg

450 455 460

Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu

465 470 475 480

Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe

485 490 495

His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu

500 505 510

Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu

515 520 525

Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr

530 535 540

Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile

545 550 555 560

Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn

565 570 575

Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln

580 585 590

Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala

595 600 605

Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile

610 615 620

Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile

625 630 635 640

Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu

645 650 655

Ala Glu Asp Thr Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp

660 665 670

Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe

675 680 685

Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu

690 695 700

Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile

705 710 715 720

Lys Leu Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu

725 730 735

Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln

740 745 750

Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu

755 760 765

Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr

770 775 780

Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln

785 790 795 800

Arg Thr Phe Asp Asn Gly Ile Ile Pro His Gln Ile His Leu Gly Glu

805 810 815

Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys

820 825 830

Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr

835 840 845

Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr

850 855 860

Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Lys Val Val

865 870 875 880

Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe

885 890 895

Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu

900 905 910

Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val

915 920 925

Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Asp Gln Lys Lys

930 935 940

Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys

945 950 955 960

Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val

965 970 975

Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr

980 985 990

His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu

995 1000 1005

Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe

1010 1015 1020

Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu

1025 1030 1035 1040

Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly

1045 1050 1055

Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln

1060 1065 1070

Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn

1075 1080 1085

Arg Asn Phe Ile Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys Glu

1090 1095 1100

Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His Glu

1105 1110 1115 1120

His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu

1125 1130 1135

Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg His

1140 1145 1150

Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr

1155 1160 1165

Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu

1170 1175 1180

Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu

1185 1190 1195 1200

Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn

1205 1210 1215

Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser

1220 1225 1230

Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp Asp

1235 1240 1245

Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys

1250 1255 1260

Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr

1265 1270 1275 1280

Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp

1285 1290 1295

Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala

1300 1305 1310

Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His

1315 1320 1325

Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn

1330 1335 1340

Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu

1345 1350 1355 1360

Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile

1365 1370 1375

Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly

1380 1385 1390

Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr

1395 1400 1405

Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu

1410 1415 1420

Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile

1425 1430 1435 1440

Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg

1445 1450 1455

Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp

1460 1465 1470

Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro

1475 1480 1485

Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser

1490 1495 1500

Lys Glu Ser Ile Arg Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg

1505 1510 1515 1520

Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Val Ser Pro Thr

1525 1530 1535

Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser

1540 1545 1550

Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu

1555 1560 1565

Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly

1570 1575 1580

Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser

1585 1590 1595 1600

Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Arg

1605 1610 1615

Phe Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn

1620 1625 1630

Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu

1635 1640 1645

Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu

1650 1655 1660

Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu

1665 1670 1675 1680

Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg

1685 1690 1695

Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr

1700 1705 1710

Leu Thr Asn Leu Gly Ala Pro Arg Ala Phe Lys Tyr Phe Asp Thr Thr

1715 1720 1725

Ile Asp Arg Lys Val Tyr Arg Ser Thr Lys Glu Val Leu Asp Ala Thr

1730 1735 1740

Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu

1745 1750 1755 1760

Ser Gln Leu Gly Gly Asp

1765

<210> 5

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 5

tgattgtttc atgcaagaat tctag 25

<210> 6

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 6

aaacctagaa ttcttgcatg aaaca 25

<210> 7

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 7

tgattgtgtt tcatgcaaga attct 25

<210> 8

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 8

aaacagaatt cttgcatgaa acaca 25

<210> 9

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 9

tgattgttct tgcatgaaac accag 25

<210> 10

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 10

aaacctggtg tttcatgcaa gaaca 25

<210> 11

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 11

tgattgctgg cccttgtagt ttcac 25

<210> 12

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 12

aaacgtgaaa ctacaagggc cagca 25

<210> 13

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 13

tgattgaaca ccagtgaaac tacaa 25

<210> 14

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 14

aaacttgtag tttcactggt gttca 25

<210> 15

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 15

tgattgtaaa tagacaagtt acctt 25

<210> 16

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 16

aaacaaggta acttgtctat ttaca 25

<210> 17

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 17

tgattggata caattatggt acact 25

<210> 18

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 18

aaacagtgta ccataattgt atcca 25

<210> 19

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 19

tgattggtac cataattgta tctgt 25

<210> 20

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 20

aaacacagat acaattatgg tacca 25

<210> 21

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 21

tgattgaagg aacccaaact tcatc 25

<210> 22

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 22

aaacgatgaa gtttgggttc cttca 25

<210> 23

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 23

tgattgtgag gatttgggac aattg 25

<210> 24

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 24

aaaccaattg tcccaaatcc tcaca 25

<210> 25

<211> 26

<212> DNA

<213> 人工序列(artificial sequence)

<400> 25

tgattgtaca attatggtac acttga 26

<210> 26

<211> 26

<212> DNA

<213> 人工序列(artificial sequence)

<400> 26

aaactcaagt gtaccataat tgtaca 26

<210> 27

<211> 21

<212> DNA

<213> 人工序列(artificial sequence)

<400> 27

tttcttccac cagcttcacc a 21

<210> 28

<211> 20

<212> DNA

<213> 人工序列(artificial sequence)

<400> 28

ggaggctaaa ggttgcagct 20

<210> 29

<211> 18

<212> DNA

<213> 人工序列(artificial sequence)

<400> 29

ttcttgacta gggaacca 18

<210> 30

<211> 18

<212> DNA

<213> 人工序列(artificial sequence)

<400> 30

ataccttgaa ttgctgca 18

<210> 31

<211> 18

<212> DNA

<213> 人工序列(artificial sequence)

<400> 31

actcacgaaa ttacgaca 18

<210> 32

<211> 22

<212> DNA

<213> 人工序列(artificial sequence)

<400> 32

gaagttacct tagtgagaca ag 22

<210> 33

<211> 20

<212> DNA

<213> 人工序列(artificial sequence)

<400> 33

gtgtggattt ccggggaagt 20

<210> 34

<211> 21

<212> DNA

<213> 人工序列(artificial sequence)

<400> 34

tggcctacac acatatgtcg a 21

<210> 35

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 35

tgattgtacg caggagagct tctag 25

<210> 36

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 36

tgattgaatt gttcacagcg catat 25

<210> 37

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 37

tgattgattt gaatgtgggg aattc 25

<210> 38

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 38

tgattggtgg tgagtttgca tatga 25

<210> 39

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 39

tgattgtcag aaattgaggg gtacc 25

<210> 40

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 40

tgattgaatc acaatctgaa gcttg 25

<210> 41

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 41

tgattgggca agccttatat cctgg 25

<210> 42

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 42

tgattgccac tcattcgatc aagct 25

<210> 43

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 43

tgattgccaa gccagcataa gcttt 25

<210> 44

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 44

tgattgttgt gaagccaaga attca 25

<210> 45

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 45

tgattgatct ggtggaagag tactg 25

<210> 46

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 46

tgattgacgc aggagagctt ctaga 25

<210> 47

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 47

tgattgcggg tcacgaatcg gatcc 25

<210> 48

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 48

tgattgcctt tcaagctaaa tccat 25

<210> 49

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 49

tgattggccg agcggaagag ctctg 25

<210> 50

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 50

tgattggcat accaacgagt acttc 25

<210> 51

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 51

tgattgagtt acccccatta agctt 25

<210> 52

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 52

tgattgagct tgtttatcct ctaga 25

<210> 53

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 53

tgattgatca cgtgagggat tctag 25

<210> 54

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 54

tgattgcgtt taaactatcc tctag 25

<210> 55

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 55

tgattgaaca ctttaaggcc ggatc 25

<210> 56

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 56

tgattgaagc tggtgctttc atatg 25

<210> 57

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 57

tgattgaaga gacattaccc atatg 25

<210> 58

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 58

tgattgcctc aatttctgaa gtact 25

<210> 59

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 59

tgattgttac aaatggcaag cttgg 25

<210> 60

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 60

tgattgagct ggtgctttca tatgc 25

<210> 61

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 61

tgattgacaa ctaccaacca acctg 25

<210> 62

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 62

tgattgtggt gagtttgcat atgat 25

<210> 63

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 63

tgattggttg gccgagctaa gcctg 25

<210> 64

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 64

tgattgtgcc gagcggaaga gctct 25

<210> 65

<211> 25

<212> DNA

<213> 人工序列(artificial sequence)

<400> 65

tgattggcaa gccttatatc ctggt 25

Claims

1.一种突变型的基因编辑蛋白，其特征在于，所述的突变蛋白为非天然蛋白，且所述突变蛋白具有基因编辑活性，所述突变型的基因编辑蛋白的氨基酸序列如SEQ ID NO.:2所示。

2.一种融合蛋白，其特征在于，所述融合蛋白的结构如下式I或I’所示：

B-L-A (I)

A-L-B （I’）

式中，

A为权利要求1所述的突变型的基因编辑蛋白；

B为碱基编辑器元件；

L为无或连接肽；

各“-”独立地为连接肽或肽键或非肽键。

3.如权利要求2所述的融合蛋白，其特征在于，所述碱基编辑器元件为胞嘧啶脱氨酶或腺嘌呤脱氨酶。

4.如权利要求2所述的融合蛋白，其特征在于，所述融合蛋白的氨基酸序列如SEQ IDNO.: 4所示。

5.一种多核苷酸，其特征在于，所述的多核苷酸编码权利要求1所述的突变型的基因编辑蛋白或权利要求2-4任一所述的融合蛋白。

6.一种载体，其特征在于，所述的载体含有权利要求5所述的多核苷酸。

7.一种宿主细胞，其特征在于，所述宿主细胞含有权利要求6所述的载体，或其基因组中整合有权利要求5所述的多核苷酸；所述细胞为非植物品种。

8.一种产生权利要求1所述的突变型的基因编辑蛋白或权利要求2-4任一所述的融合蛋白的方法，其特征在于，包括步骤：

在适合表达的条件下，培养权利要求7所述的宿主细胞，从而表达突变型的基因编辑蛋白或融合蛋白；和/或

分离所述突变型的基因编辑蛋白或融合蛋白。

9.一种基因编辑试剂，其特征在于，所述基因编辑试剂包含权利要求1所述突变型的基因编辑蛋白或权利要求2-4任一所述的融合蛋白。

10.一种试剂盒，其特征在于，包括权利要求9所述的基因编辑试剂。

11.一种权利要求1所述的突变型的基因编辑蛋白或权利要求2-4任一所述的融合蛋白的用途，其特征在于，用于制备试剂或试剂盒，所述试剂或试剂盒用于对植物进行基因编辑。

12.如权利要求11所述的用途，其特征在于，所述的突变型的基因编辑蛋白或所述的融合蛋白编辑的靶基因中的PAM序列为CGT、GAA、GAT或AGA。

13.如权利要求11所述的用途，其特征在于，所述植物为番茄或拟南芥。

14.一种对植物进行基因编辑的方法，其特征在于，包括步骤：

(i)提供待编辑植物，作为亲代植物；

其中所述植物细胞选自下组：

(a1)来自所述植物的离体细胞；

(a2)所述植物的离体细胞形成的愈伤组织的细胞；

(a3)位于所述植株上的来自繁殖器官的细胞；

其中，所述第一核酸构建物具有从5’-3’的式I结构：

P1-Z1-Z2-Z3-Z4 (I)

Z1为无或核定位信号；

Z2为编码权利要求1所述突变型的基因编辑蛋白或权利要求2-4任一所述的融合蛋白的编码序列；

Z3为无或核定位信号；

Z4为终止子；

并且，“-”为键或核苷酸连接序列；

所述第二核酸构建物具有从5’-3’的式II所示的结构：

P2-Z5-Z6 (II)

其中，P2为第二启动子，所述的第二启动子为RNA聚合酶III依赖型启动子，所述第二启动子选自下组：U6、U3、U6a、U6b、U6c、U6-1、U3b、U3d、U6-26、U6-29、H1、或其组合；

Z5为gRNA的编码序列；

Z6为无或转录终止序列；

并且，“-”为键或核苷酸连接序列。

15.如权利要求14所述的方法，其特征在于，所述第一启动子选自下组：RPS5A、UBI、UBQ、35S、Actin、SPL，CmYLCV、YAO、CDC45、rbcS、rbcL、PsGNS2、UEP1、TobRB7、Cab、或其组合。

16.一种制备经基因编辑的植物细胞的方法，其特征在于，包括步骤：

(i)将权利要求1所述的突变型的基因编辑蛋白或权利要求2-4任一所述的融合蛋白或权利要求9所述的基因编辑试剂转染植物细胞，从而制得所述经基因编辑的植物细胞。

17.一种制备经基因编辑的植物的方法，其特征在于，包括步骤：

将权利要求16所述方法制备的所述经基因编辑的植物细胞再生为植物体，从而获得所述经基因编辑的植物。

18.如权利要求14-17任一所述的方法，其特征在于，所述的突变型的基因编辑蛋白或所述的融合蛋白编辑的靶基因中的PAM序列为CGT、GAA、GAT或AGA。

19.如权利要求14-17任一所述的方法，其特征在于，所述植物为番茄或拟南芥。