CN114958808B - 一种小型编辑基因组的CRISPR/Cas***及其专用的CasX蛋白 - Google Patents

一种小型编辑基因组的CRISPR/Cas***及其专用的CasX蛋白 Download PDF

Info

Publication number
CN114958808B
CN114958808B CN202210620492.9A CN202210620492A CN114958808B CN 114958808 B CN114958808 B CN 114958808B CN 202210620492 A CN202210620492 A CN 202210620492A CN 114958808 B CN114958808 B CN 114958808B
Authority
CN
China
Prior art keywords
protein
leu
lys
ala
glu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210620492.9A
Other languages
English (en)
Other versions
CN114958808A (zh
Inventor
刘俊杰
张寿悦
李丹苑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210620492.9A priority Critical patent/CN114958808B/zh
Publication of CN114958808A publication Critical patent/CN114958808A/zh
Application granted granted Critical
Publication of CN114958808B publication Critical patent/CN114958808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/70Vectors or expression systems specially adapted for E. coli
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/30Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明公开了一种小型编辑基因组的CRISPR/Cas***及其专用的CasX蛋白。CasX蛋白为LesCasX蛋白、VemCasX蛋白、HrbCasX蛋白或CkbCasX蛋白。LesCasX蛋白、VemCasX蛋白、HrbCasX蛋白和CkbCasX蛋白的氨基酸序列依次如SEQ ID NO:1、SEQ ID NO:3、SEQ ID NO:5和SEQ ID NO:7所示。实验证明,本发明提供的CasX蛋白具有分子量小、非致病菌来源等特点,在低盐浓度下更接近生理条件,有较好的DNA切割活性,可以作为一个新型小分子量的、更适合AAV包裹的CRISPR‑Cas基因编辑***。本发明具有重要的应用价值。

Description

一种小型编辑基因组的CRISPR/Cas***及其专用的CasX蛋白
技术领域
本发明属于生物技术领域,具体涉及一种小型编辑基因组的CRISPR/Cas***及其专用的CasX蛋白。
背景技术
基于CRISPR-Cas的基因编辑技术具有巨大的临床治疗潜力,其能实现DNA和RNA编辑到基因表达调制等多种操作,为基因致病突变提供了一种永久纠正的方法。因此,将基于CRISPR-Cas疗法直接应用于人体将为治疗多种疾病带来巨大希望。目前,CRISPR-Cas疗法在多种疾病治疗中的应用已经进入到了临床前和临床测试阶段;但是,真正应用到临床中的还很少,最大的瓶颈就是编辑工具分子的准确性和安全性等还存在一些阻碍,常见的阻碍如下:
1、CRISPR-Cas***的活性窗口限制
除了crRNA通过碱基互补特异性识别序列引导CRISPR-Cas***,不同Cas蛋白还需要识别编辑位点附近特定的PAM序列。比如,SpyCas9识别NGG序列,AsCas12a识别TTTN序列。然而,大约一半的已知致病基因变异是由单核苷酸变异(SNV)引起的,为了编辑不同的SNV需要匹配周围不同的潜在PAM序列。因此,为了满足不同临床疾病的基因编辑需求,需要发现和鉴定更多识别不同PAM序列的新Cas蛋白,以拓展CRISPR-Cas***在基因组中适用的编辑活性窗口。
2、CRISPR-Cas***的脱靶效应
开发CRISPR-Cas***进行基因编辑时希望尽可能降低脱靶效应。降低脱靶效应,从而提高安全性一直是促进CRISPR-Cas***临床应用的重要研究目标。CRISPR-Cas***的脱靶效应的产生主要有两种原因:sgRNA与非靶点DNA序列错配导致的脱靶效应和不依赖sgRNA发生的脱靶效应。不同的Cas蛋白家族由错配导致的脱靶效应有所不同,应进一步筛选临床表现更好的Cas蛋白来构建基因编辑***。
3、CRISPR-Cas***的大小限制
CRISPR-Cas基因治疗在临床应用中的递送过程中,腺相关病毒(AAV)载体已经被广泛使用。尽管已经在临床有比较成熟的应用,AAV载体对CRISPR-Cas***的大小限制仍是其最大的局限性。AAV载体能够单次携带最多约4700个碱基对的DNA序列,但是,最常用的SpyCas9有4200个碱基对,因此其余组件序列的长度都受到了限制。因此,只能选用紧凑型启动子,无法使用组织特异性的启动子或引入更多条件诱导表达的控制因子,也无法完整包裹序列更长的、基于dCas9开发的单碱基编辑***。
4、CRISPR-Cas***的免疫原性
已有研究报道基因编辑***存在的免疫原性。CRISPR-Cas***是衍生自细菌和古细菌的蛋白质复合物,其中有些诸如金黄色葡萄球菌(SaCas9)或化脓性链球菌(SpyCas9)是人体中常见的致病菌,在临床试验中存在引起人体免疫反应的风险。
综上所述,如何在现有基因编辑工具基础上,发现新型、体积更小的、低免疫原性的Cas同源蛋白并深入研究其分子机制,从而探索优化CRISPR-Cas***的活性窗口范围、脱靶效应、体内递送安全性和免疫原性的可能性,是解决CRISPR-Cas***的临床治疗局限性的关键,具有重要的研究意义和价值。
发明内容
本发明的目的是提供体积更小的、低免疫原性的Cas蛋白。
本发明首先保护CasX蛋白,可为LesCasX蛋白、VemCasX蛋白、HrbCasX蛋白或CkbCasX蛋白;
所述LesCasX蛋白可为如下a1)或a2)或a3)或a4):
a1)氨基酸序列是SEQ ID NO:1所示的蛋白质;
a2)在SEQ ID NO:1所示的蛋白质的N端或/和C端连接标签得到的融合蛋白质;
a3)将a1)或a2)所示的蛋白质经过一个或几个氨基酸残基的取代和/或缺失和/或添加得到的且具有双链DNA切割活性的蛋白质;
a4)与SEQ ID NO:1限定的氨基酸序列具有80%或80%以上同源性,且具有双链DNA切割活性的蛋白质;
所述VemCasX蛋白可为如下b1)或b2)或b3)或b4):
b1)氨基酸序列是SEQ ID NO:3所示的蛋白质;
b2)在SEQ ID NO:3所示的蛋白质的N端或/和C端连接标签得到的融合蛋白质;
b3)将b1)或b2)所示的蛋白质经过一个或几个氨基酸残基的取代和/或缺失和/或添加得到的且具有双链DNA切割活性的蛋白质;
b4)与SEQ ID NO:3限定的氨基酸序列具有80%或80%以上同源性,且具有双链DNA切割活性的蛋白质;
所述HrbCasX蛋白可为如下c1)或c2)或c3)或c4):
c1)氨基酸序列是SEQ ID NO:5所示的蛋白质;
c2)在SEQ ID NO:5所示的蛋白质的N端或/和C端连接标签得到的融合蛋白质;
c3)将c1)或c2)所示的蛋白质经过一个或几个氨基酸残基的取代和/或缺失和/或添加得到的且具有双链DNA切割活性的蛋白质;
c4)与SEQ ID NO:5限定的氨基酸序列具有80%或80%以上同源性,且具有双链DNA切割活性的蛋白质;
所述CkbCasX蛋白可为如下d1)或d2)或d3)或d4):
d1)氨基酸序列是SEQ ID NO:7所示的蛋白质;
d2)在SEQ ID NO:7所示的蛋白质的N端或/和C端连接标签得到的融合蛋白质;
d3)将d1)或d2)所示的蛋白质经过一个或几个氨基酸残基的取代和/或缺失和/或添加得到的且具有双链DNA切割活性的蛋白质;
d4)与SEQ ID NO:7限定的氨基酸序列具有80%或80%以上同源性,且具有双链DNA切割活性的蛋白质。
所述LesCasX蛋白识别的PAM序列可为TTA、TTG或TTT。
所述VemCasX蛋白识别的PAM序列可为TTG、TTA或CTG。
所述HrbCasX蛋白识别的PAM序列可为TTA、TTC或TTG。
所述CkbCasX蛋白识别的PAM序列可为TTA、TTG或TTT。
为了使CasX蛋白便于纯化,可在SEQ ID NO:1、SEQ ID NO:3、SEQ ID NO:5或SEQID NO:7所示的蛋白质的氨基末端或羧基末端连接上如表1所示的标签。
表1.标签的序列
标签 残基 序列
Poly-Arg 5-6(通常为5个) RRRRR
FLAG 8 DYKDDDDK
Strep-tagII 8 WSHPQFEK
c-myc 10 EQKLISEEDL
所述一个或几个氨基酸残基的取代和/或缺失和/或添加为不超过10个氨基酸残基的取代和/或缺失和/或添加。
所述CasX蛋白可人工合成,也可先合成其编码基因,再进行生物表达得到。
所述CasX蛋白的编码基因可通过将SEQ ID NO:2、SEQ ID NO:4、SEQ ID NO:6或SEQ ID NO:8所示的DNA序列中缺失一个或几个氨基酸残基的密码子,和/或进行一个或几个碱基对的错义突变,和/或在其5′端和/或3′端连上表1所示的标签的编码序列得到。
本发明还保护编码上述任一所述CasX蛋白的核酸分子。
上述任一所述编码所述LesCasX蛋白的核酸分子可为A1)或A2)或A3)或A4)所示的DNA分子:
A1)编码区为SEQ ID NO:2所示的DNA分子;
A2)核苷酸序列为SEQ ID NO:2所示的DNA分子;
A3)与A1)或A2)限定的核苷酸序列具有75%或75%以上同源性,且编码权利要求1所述LesCasX蛋白的DNA分子;
A4)在严格条件下与A1)或A2)限定的核苷酸序列杂交,且编码权利要求1所述LesCasX蛋白的DNA分子。
上述任一所述编码所述VemCasX蛋白的核酸分子可为B1)或B2)或B3)或B4)所示的DNA分子:
B1)编码区为SEQ ID NO:4所示的DNA分子;
B2)核苷酸序列为SEQ ID NO:4所示的DNA分子;
B3)与B1)或B2)限定的核苷酸序列具有75%或75%以上同源性,且编码权利要求1所述VemCasX蛋白的DNA分子;
B4)在严格条件下与B1)或B2)限定的核苷酸序列杂交,且编码权利要求1所述VemCasX蛋白的DNA分子。
上述任一所述编码所述HrbCasX蛋白的核酸分子可为C1)或C2)或C3)或C4)所示的DNA分子:
C1)编码区为SEQ ID NO:6所示的DNA分子;
C2)核苷酸序列为SEQ ID NO:6所示的DNA分子;
C3)与C1)或C2)限定的核苷酸序列具有75%或75%以上同源性,且编码权利要求1所述HrbCasX蛋白的DNA分子;
C4)在严格条件下与C1)或C2)限定的核苷酸序列杂交,且编码权利要求1所述HrbCasX蛋白的DNA分子。
上述任一所述编码所述CkbCasX蛋白的核酸分子可为D1)或D2)或D3)或D4)所示的DNA分子:
D1)编码区为SEQ ID NO:8所示的DNA分子;
D2)核苷酸序列为SEQ ID NO:8所示的DNA分子;
D3)与D1)或D2)限定的核苷酸序列具有75%或75%以上同源性,且编码权利要求1所述CkbCasX蛋的DNA分子;
D4)在严格条件下与D1)或D2)限定的核苷酸序列杂交,且编码权利要求1所述CkbCasX蛋白的DNA分子。
其中,所述核酸分子可以是DNA,如cDNA、基因组DNA或重组DNA;所述核酸分子也可以是RNA,如mRNA或hnRNA等。
本领域普通技术人员可以很容易地采用已知的方法,例如定向进化和点突变的方法,对本发明的编码所述CasX蛋白的核苷酸序列进行突变。那些经过人工修饰的,具有与本发明分离得到的所述CasX蛋白的核苷酸序列75%或者更高同一性的核苷酸,只要编码所述CasX蛋白,均是衍生于本发明的核苷酸序列并且等同于本发明的序列。
这里使用的术语“同一性”指与天然核酸序列的序列相似性。“同一性”包括与本发明的编码SEQ ID NO:1、SEQ ID NO:3、SEQ ID NO:5或SEQ ID NO:7所示的氨基酸序列组成的CasX蛋白的核苷酸序列具有75%或更高,或80%或更高,或85%或更高,或90%或更高,或95%或更高同一性的核苷酸序列。同一性可以用肉眼或计算机软件进行评价。使用计算机软件,两个或多个序列之间的同一性可以用百分比(%)表示,其可以用来评价相关序列之间的同一性。
本发明还保护含有上述任一所述核酸分子的表达盒、重组载体或重组微生物。
上述任一所述CasX蛋白或上述任一所述核酸分子在切割双链DNA中的应用也属于本发明的保护范围。
上述应用中,切割双链DNA时,所述LesCasX蛋白识别的PAM序列为TTA、TTG或TTT。所述VemCasX蛋白识别的PAM序列为TTG、TTA或CTG。所述HrbCasX蛋白识别的PAM序列为TTA、TTC或TTG。所述CkbCasX蛋白识别的PAM序列为TTA、TTG或TTT。
上述任一所述CasX蛋白或上述任一所述核酸分子在定向编辑基因组中的应用也属于本发明的保护范围。
上述应用中,定向编辑基因组时,所述Cas蛋白切割双链DNA识别的PAM序列如下:所述LesCasX蛋白识别的PAM序列为TTA、TTG或TTT;所述VemCasX蛋白识别的PAM序列为TTG、TTA或CTG;所述HrbCasX蛋白识别的PAM序列为TTA、TTC或TTG;所述CkbCasX蛋白识别的PAM序列为TTA、TTG或TTT。
本发明还保护一种定向编辑基因组的CRISPR/Cas***,该***中的Cas蛋白为上述任一所述CasX蛋白。
上述CRISPR/Cas***中,定向编辑基因组时,所述Cas蛋白切割双链DNA识别的PAM序列如下:所述LesCasX蛋白识别的PAM序列为TTA、TTG或TTT;所述VemCasX蛋白识别的PAM序列为TTG、TTA或CTG;所述HrbCasX蛋白识别的PAM序列为TTA、TTC或TTG;所述CkbCasX蛋白识别的PAM序列为TTA、TTG或TTT。
实验证明,在1×150mM-cleavage buffer(溶剂为pH7.5、20mM Tris-HCl缓冲液,溶质及其浓度为150mM NaCl、10mM MgCl2和1mM DTT)条件下,LesCasX蛋白对带有TTG、TTA和TTT-PAM的底物都有很强的切割活性;CkbCasX蛋白对带有TTA、TTG和TTT-PAM的底物有一定的切割活性,其中对TTA-PAM的切割相对最强;VemCasX蛋白对带有TTG、CTG和TTA-PAM的底物有很强的切割活性,其中对TTA-PAM的切割相对较弱。在1×300mM-cleavage buffer(溶剂为pH7.5、20mM Tris-HCl缓冲液,溶质及其浓度为300mM NaCl、10mM MgCl2和1mMDTT)条件下,HrbCasX蛋白对带有TTA-PAM的dsDNA具有双链切割活性,且随着温度增加,反应活性增强,反应最适合在65℃的相对高温的环境中进行。综上所述,LesCasX蛋白、VemCasX蛋白、HrbCasX蛋白和CkbCasX蛋白具有分子量小、非致病菌来源等特点,在低盐浓度下,更接近生理条件,有较好的DNA切割活性,可以作为一个新型小分子量的更适合AAV包裹的CRISPR-Cas基因编辑***,有望克服现有CRISPR-Cas***在临床治疗应用中的部分局限性。本发明提供的CasX蛋白可以开发为基因编辑平台,具有重要的应用价值。
附图说明
图1为实施例2中LesCasX蛋白、VemCasX蛋白、HrbCasX蛋白和CkbCasX蛋白的表达纯化的实验结果。
图2为实施例3中LesCasX蛋白双链DNA切割活性的鉴定结果。
图3为实施例5中LesCasX蛋白、VemCasX蛋白、HrbCasX蛋白和CkbCasX蛋白的底物切割实验结果。
具体实施方式
下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。
下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
裂解缓冲液:溶剂为pH7.5、20mM HEPES缓冲液,溶质及其浓度为600mM NaCl、30mMimidazole、10%甘油和1mM TECP。
洗脱缓冲液:溶剂为pH7.5、20mM HEPES缓冲液,溶质及其浓度为400mM NaCl、300mM imidazole、1mM TECP和10%甘油。
稀释缓冲液:溶剂为pH7.5、20mM HEPES缓冲液,溶质及其浓度为200mM NaCl和10%甘油。
SEC缓冲液:溶质及其浓度为pH7.5、20mM HEPES缓冲液,溶质及其浓度为150mMNaCl、10%甘油和1mM TECP。
实施例1、LesCasX蛋白、VemCasX蛋白、HrbCasX蛋白和CkbCasX蛋白的发现
本发明的发明人采用生物信息学的方法构建已知Cas12序列特征模型,在细菌基因组中鉴定获得3441个新型未报道的Cas12蛋白,将其中来源于非致病菌的4个蛋白命名为LesCasX蛋白、VemCasX蛋白、HrbCasX蛋白和CkbCasX蛋白。
LesCasX蛋白的氨基酸序列如SEQ ID NO:1所示。编码LesCasX蛋白的基因(命名为LesCasX基因)的核苷酸序列如SEQ ID NO:2所示。
VemCasX蛋白的氨基酸序列如SEQ ID NO:3所示。编码VemCasX蛋白的基因(命名为VemCasX基因)的核苷酸序列如SEQ ID NO:4所示。
HrbCasX蛋白的氨基酸序列如SEQ ID NO:5所示。编码HrbCasX蛋白的基因(命名为HrbCasX基因)的核苷酸序列如SEQ ID NO:6所示。
CkbCasX蛋白的氨基酸序列如SEQ ID NO:7所示。编码CkbCasX蛋白的基因(命名为CkbCasX基因)的核苷酸序列如SEQ ID NO:8所示。
实施例2、LesCasX蛋白、VemCasX蛋白、HrbCasX蛋白和CkbCasX蛋白的表达纯化
1、LesCasX蛋白的表达纯化
(1)向2CT-10表达载体(记载于如下文献中:Jun-Jie Liu,Natalia Orlova,etal.CasX enzymes comprise a distinct family of RNA-guided genomeeditors.Nature.2019.https://doi.org/10.1038/s41586-019-0908-x)的限制性内切酶SspI的识别位点***LesCasX基因,其它序列均不变,得到重组质粒10XHis_MBP_tev_LesCasX。
(2)将步骤(1)构建的重组质粒10XHis_MBP_tev_LesCasX导入大肠杆菌Rosetta,得到重组大肠杆菌,命名为Rosetta/LesCasX。
(3)完成步骤(2)后,将Rosetta/LesCasX单菌落接种于100mL LB培养基,37℃、220rpm振荡培养8h,得到培养菌液1。将培养菌液1接种于2L TB培养基,37℃、220rpm振荡培养直至OD600nm的值为1.0左右,得到培养菌液2。之后将培养菌液2降温至16℃,再加入IPTG并使其在体系中的浓度为0.4mM,过夜培养18h,得到培养菌液3。
(4)完成步骤(3)后,取培养菌液3,4000rpm离心15min,收集沉淀。
(5)取步骤(4)收集的沉淀,加入80mL裂解缓冲液重悬,之后超声裂解30min(220W,3s工作,7s间隔),得到细胞裂解液。取细胞裂解液,15000rpm离心60min,收集上清液。
(6)将步骤(5)收集的上清液上样至重力柱(GE Healthcare公司的产品),用5-10ml的裂解缓冲液清洗柱材,最后加入10倍柱体积的含300mM咪唑的洗脱缓冲液,得到带有MBP标签的蛋白的洗脱产物。
(7)将步骤(6)获得的带有MBP标签的蛋白的洗脱产物和TEV蛋白酶混合,4℃孵育过夜(目的为切除MBP标签),得到样品。
(8)完成步骤(7)后,样品经SDS-page胶鉴定切除的效率,之后加入等体积稀释缓冲液,用蠕动泵载样到5ml heparin预装柱中,随后在AKTA仪器上,利用从200mM到1M的氯化钠的盐浓度梯度逐渐增加来竞争性洗脱目标蛋白。洗脱后的成分经SDS-PAGE鉴定,将蛋白条带大小正确的样品装入30kD的浓缩管,3800rpm多次短时离心,只到浓缩到500μL,得到浓缩后的样品。
(9)将步骤(8)得到的浓缩后的样品经1ml上样环上样到Superdex 200 10/300色谱柱,用SEC缓冲液进行洗脱。色谱柱通过颗粒粒径的大小对蛋白进行分离纯化。目标蛋白在11.5mL的洗脱体积后开始出峰,A280和A260的比值接近于2。洗脱后的样品经SDS-PAGE鉴定后用30kD的浓缩管进行浓缩,最后每管10μL进行液氮冻存。第一次纯化的蛋白经质谱分析,进一步确认产物是目标蛋白。通过上述步骤,获得纯化的LesCasX蛋白。
实验结果见图1中A(左图为出峰位置,右图为SDS-PAGE结果)。结果表明,LesCasX在大肠杆菌Rosetta中表达条件简单,产量大,纯度高,质量稳定,每升菌的表达量大约2.6mg。
2、VemCasX蛋白的表达纯化
(1)将pSUMOH10载体(记载于如下文献中:Xiangle Ren,Yang Zhou.,etal.Histone benzoylation serves as an epigenetic mark for DPF and YEATS familyproteins.Nucleic Acids Research,Volume 49,Issue 1,11 January 2021,Pages 114–126.https://doi.org/10.1093/nar/gkaa1130)的限制性内切酶BamHI和KpnI的识别位点之间的DNA小片段替换为VemCasX基因,其它序列均不变,得到重组质粒pET28b-10XHis-SUMO-VemCasX。
(2)将步骤(1)构建的重组质粒pET28b-10XHis-SUMO-VemCasX导入大肠杆菌Rosetta,得到重组大肠杆菌,命名为Rosetta/VemCasX。
(3)完成步骤(2)后,将Rosetta/VemCasX单菌落接种于100mL TB培养基,37℃、220rpm振荡培养6-8h,得到培养菌液1。将培养菌液1接种于2L TB培养基,37℃、220rpm振荡培养直至OD600nm值为1.0-1.2,得到培养菌液2。之后将培养菌液2降温至16℃,再加入IPTG并使其在体系中的浓度为0.4mM,过夜培养18h,得到培养菌液3。
(4)完成步骤(3)后,取培养菌液3,4000rpm离心15min,收集沉淀。
(5)取步骤(4)收集的沉淀,加入80mL裂解缓冲液重悬,之后超声裂解30min(220W,3s工作,7s间隔),得到细胞裂解液。取细胞裂解液,15000rpm离心60min,收集上清液。
(6)将步骤(5)收集的上清液上样至重力柱,用5-10ml的裂解缓冲液清洗柱材,最后加入10倍柱体积的含300mM咪唑的洗脱缓冲液,得到带有SUMO标签的蛋白的洗脱产物。
(7)将步骤(6)获得的带有SUMO标签的蛋白的洗脱产物和100μL UlpI蛋白酶混合,冰上反应30min,得到样品。
(8)完成步骤(7)后,样品经SDS-page胶鉴定切除SUMO标签的效率,之后加入等体积稀释缓冲液,用蠕动泵载样到5ml heparin预装柱中,随后在AKTA仪器上,利用从200mM到1M的氯化钠的盐浓度梯度逐渐增加来竞争性洗脱目标蛋白。洗脱后的成分经SDS-PAGE鉴定,将蛋白条带大小正确的样品装入30kD的浓缩管,3800rpm多次短时离心,只到浓缩到1mL,得到浓缩后的样品。
(9)将步骤(8)得到的浓缩后的样品经1ml上样环上样至Superdex 200 10/300色谱柱,用SEC缓冲液进行洗脱。色谱柱通过颗粒粒径的大小对蛋白进行分离纯化。目标蛋白在12ml左右的洗脱体积后开始出峰,A280和A260的比值接近于2。洗脱后的样品经SDS-PAGE鉴定后用30kD的浓缩管进行浓缩,最后每管10μL进行液氮冻存。
实验结果见图1中B(左图为出峰位置,右图为SDS-PAGE结果)。结果表明VemCasX蛋白在大肠杆菌Rosetta中表达产量高,纯度高,且质量稳定。
3、HrbCasX蛋白的表达纯化
将步骤2中(1)的VemCasX基因替换为HrbCasX基因,其它步骤均不变,进行HrbCasX蛋白的表达纯化。
实验结果见图1中C(左图为出峰位置,右图为SDS-PAGE结果)。结果表明HrbCasX蛋白在大肠杆菌Rosetta中表达产量高,纯度高,且质量稳定。
4、CkbCasX蛋白的表达纯
将步骤2中(1)的VemCasX基因替换为CkbCasX基因,其它步骤均不变,进行CkbCasX蛋白的表达纯化。
实验结果见图1中D(左图为出峰位置,右图为SDS-PAGE结果)。结果表明CkbCasX蛋白在大肠杆菌Rosetta中表达产量高,纯度高,且质量稳定。
实施例3、LesCasX蛋白的双链DNA切割活性的鉴定
1、人工合成单链DNA分子甲:5’-CCGCGGGATTTCAAGGGCGACACCCTGGTGAACGACAATGAATATTTCGGCGCAGCGGC-3’和单链DNA分子乙:5’-GCCGCTGCGCCGAAATATTCATTGTCGTTCACCAGGGTGTCGCCCTTGAAATCCCGCGG-3’,用去离子水分别将单链DNA分子甲和单链DNA分子乙稀释至100μM,得到单链DNA分子甲稀释液和单链DNA分子乙稀释液;然后进行退火反应,得到双链底物DNA(即底物)。
双链底物DNA中含有PAM序列(TTCA)和gRNA靶向的protospacer序列,non-targeting strand带有5’-NH2标记。
双链底物DNA中PAM序列为TTCA,gRNA靶向的protospacer序列为5’-AGGGCGACACCCTGGTGAAC-3’,在含有PAM序列的非靶向链的5’端带有-NH2的化学标记。
2、取步骤1得到的双链底物DNA,加入Cyanine5 NHS ester染料(双链底物DNA和Cyanine5 NHS ester染料的浓度比为1mM:10mM),反应,得到Cyanine5标记的双链底物DNA。此反应利用Cyanine5 NHS ester染料和氨基的相互作用在双链底物DNA的非靶向链的5‘端上加Cyanine5的荧光标记,得到Cyanine5标记的双链底物DNA。
3、完成步骤2后,将Cyanine5标记的双链底物DNA、gRNA-1(SEQ ID NO:9所示)、实施例2纯化的LesCasX蛋白在切割缓冲液中混合,室温放置30min。随后加入带标记的底物,37℃进行孵育。孵育期间,分别在第0、2、5、10、15、30、60、120min取样,获得产物。
切割缓冲液由KCl、MgCl2、DTT和pH7.5、20mM Tris-HCl缓冲液组成。切割缓冲液中,KCl的浓度为10mM、25mM、50mM、100mM、150mM或200mM,MgCl2的浓度为10mM,DTT的浓度为1mM。
4、完成步骤3后,向产物中分别加入等体积的stop-loading(含95%Formamide、30mM EDTA和50μg/ml heparin的水溶液)终止反应,之后使用尿素-PAGE凝胶结合荧光成像仪扫描相应的信号,并对底物和产物进行定量分析,统计切割比例,并用Prism软件利用非线性回归分析模拟曲线。
切割比例=产物条带的灰度值/(产物条带灰度值+底物条带灰度值)
尿素-PAGE凝胶荧光扫描实验结果见图2中A(S为底物,P为产物)。结果表明,随着时间的递增,产物的信号越来越强,说明被切割的底物越来越多;同时,盐浓度越低,LesCasX蛋白的DNA切割活性越强。
底物和产物的定量分析结果见图2中B(横坐标为取样的时间点;纵坐标为相应时间点内,被切割的产物的条带的灰度值和整个未切割底物和切割产物总灰度值的比值)。结果表明,KCl浓度越低,LesCasX蛋白对底物的切割速率越高,高于100mM的KCl浓度时,切割速率显著下降。
综上所述,LesCasX蛋白具有分子量小、非致病菌来源(低免疫原性)等特点,在低盐浓度下(更接近生理条件)有较好的双链DNA切割活性,可以作为一个新型的、更适合AAV包裹的CRISPR-Cas基因编辑***,有望克服现有CRISPR-Cas***在临床治疗应用中的部分局限性。
实施例4、LesCasX蛋白、VemCasX蛋白、HrbCasX蛋白和CkbCasX蛋白的PAM序列的分析
一、随机PAM的质粒库的建立
1、人工合成两个带有互补序列的单链DNA分子,分别为5’-gcctgcaggtcgactctagaggatcNNNNNAGGGCGACACCCTGGTGAACg-3’(N为A、T、G或C)和5’-ggccagtgaattcgagctcggtacGTTCACCAGGGTGTCGCC-3’;之后将两个单链DNA分子在1×Annealingbuffer(含25mM KCl的pH8.0、10mM Tris-HCl缓冲液)中进行退火(退火程序为95℃5min),缓慢降温至室温,得到退火产物。
2、取pUC19载体(TIANGEN公司,Addgene编号为#50005),用限制性内切酶BamHI和KpnI酶切,回收载体骨架。
3、将步骤1得到的退火产物和步骤2回收的载体骨架进行同源重组,之后转化大肠杆菌DH5α,得到重组菌。用无内毒素质粒大提试剂盒(天根,DP117)对重组菌进行质粒提取,获得携带随机PAM的质粒库。
二、PAM序列的分析
1、将Cas蛋白、gRNA和携带随机PAM的质粒库按照10:15:1的比例混合,之后在cleavage buffer(溶剂为pH7.5、20mM Tris-HCl缓冲液;溶质为300mM NaCl、10mM MgCl2和1mM DTT)中37℃反应60min,加入EDTA终止反应。使用1.2%的agarose gel将线性化的质粒回收。
当Cas蛋白为LesCasX蛋白时,gRNA为gRNA-28(SEQ ID No:10所示)。
当Cas蛋白为VemCasX蛋白时,gRNA为gRNA-29(SEQ ID No:13所示)。
当Cas蛋白为HrbCasX蛋白时,gRNA为gRNA-22(SEQ ID No:11所示)。
当Cas蛋白为CkbCasX蛋白时,gRNA为gRNA-23(SEQ ID No:12所示)。
2、组装末端修复体系;之后11℃反应20min,75℃反应10min。
末端修复体系为40μL,由20μL线性化的质粒、8μL 5×T4 polymerase buffer、1.6μL(to the final 0.1mM each)10mM dNTP、10μL Nuclease free water和0.4μL T4 DNApolymerase组成。
3、向完成步骤2的体系中加入1μL dATP、1μL Dreamtaq聚合酶(Thermo,EP0702),72℃反应30min(用于dA添加),回收产物。
4、将步骤3回收的产物和adapter序列(32bp)用T4 DNA ligase(碧云天,D7003)进行连接(室温反应30min),之后使用beads(诺唯赞,N411-03)回收产物。
Adapter序列为:5’-CGCATCGAGCTGAAGGGCATCGACTTCAAGG-3’和5’-CCTTGAAGTCGATGCCCTTCAGCTCGATGCGT-3’。
5、以步骤4回收的产物为模板,采用F:5’-ATGTTGTGTGGAATTGTGAGCG-3’和R:5’-CCTTGAAGTCGATGCCCTTCAG-3’进行PCR扩增,使用beads回收PCR扩增产物。
6、使用TIANSeq快速DNA文库构建试剂盒(目录号:NG102)对步骤5回收的PCR扩增产物进行文库构建,样品送诺禾致源公司测序,获得二代测序文库。
经数据分析,LesCasX蛋白、VemCasX蛋白、HrbCasX蛋白和CkbCasX蛋白的PAM序列见表1。
表1
PAM序列
LesCasX蛋白 TTA;TTG;TTT
VemCasX蛋白 TTG;TTA;CTG
HrbCasX蛋白 TTA;TTC;TTG
CkbCasX蛋白 TTA;TTG;TTT
实施例5、LesCasX蛋白、VemCasX蛋白、HrbCasX蛋白和CkbCasX蛋白的底物切割实验
一、gRNA的合成
根据LesCasX基因的核苷酸序列设计并合成gRNA-28,gRNA-28的核苷酸序列如SEQID No:10所示。根据HrbCasX基因的核苷酸序列设计并合成gRNA-22,gRNA-22的核苷酸序列如SEQ ID No:11所示。根据CkbCasX基因的核苷酸序列设计并合成gRNA-23,gRNA-23的核苷酸序列如SEQ ID No:12所示。根据VemCasX基因的核苷酸序列设计并合成gRNA-29,gRNA-29的核苷酸序列如SEQ ID No:13所示。
二、切割底物的制备
根据实施例4中步骤一建立的随机PAM的质粒库,构建含有单独PAM序列的pUC9-PAM质粒(环形),作为切割底物。
每个pUC9-PAM质粒由DNA片段1、PAM序列、gRNA靶向的Protospacer序列和DNA片段2组成。DNA片段1的核苷酸序列如SEQ ID No:14自5’末端起第1至567位所示,DNA片段2的核苷酸序列如SEQ ID No:14自5’末端起第591至989位所示。
针对LesCasX蛋白的Protospacer序列为5’-AGGGCGACACCCTGGTGAAC-3’,PAM序列分别为TTA、TTG、TTT、TTCA和CCA。当PAM序列为TTA时,pUC9-PAM质粒的核苷酸序列如SEQ IDNo:14所示。
针对CkbCasX蛋白的Protospacer序列为5’-AGGGCGACACCCTGGTGAAC-3’,PAM序列分别为TTA、TTG、TTT和CCA。
针对VemCasX蛋白的Protospacer序列为5’-AGGGCGACACCCTGGTGAAC-3’,PAM序列分别为TTG、TTA和CTG。
针对HrbCasX蛋白的Protospacer序列为5’-AGGGCGACACCCTGGTGAAC-3’,PAM序列分别为TTA。
三、切割反应
1、LesCasX蛋白的底物切割实验
在1×150mM-cleavage buffer(溶剂为pH7.5、20mM Tris-HCl缓冲液,溶质及其浓度为150mM NaCl、10mM MgCl2和1mM DTT)或1×300mM-cleavage buffer(溶剂为pH7.5、20mM Tris-HCl缓冲液,溶质及其浓度为300mM NaCl、10mM MgCl2和1mM DTT)的体系中,将LesCasX蛋白、gRNA-28和针对LesCasX蛋白的切割底物dsDNA按照1500nM:2250nM:50nM的比例混合,37℃反应30min;加入EDTA终止反应;之后加入proteinase K(Solarbio,P1121)并使其在体系中的浓度为100μg/mL,继续消化60min;采用2%agarose gel进行分析。
按照上述步骤,将“LesCasX蛋白、gRNA-28和针对LesCasX蛋白的切割底物dsDNA按照1500nM:2250nM:50nM的比例混合”替换为“LesCasX蛋白和针对LesCasX蛋白的切割底物dsDNA按照1500nM:50nM的比例混合”,其它步骤均不变。
分析结果见图3中A(150mM代表反应体系为1×150mM-cleavage buffer,300mM代表反应体系为1×300mM-cleavage buffer)。结果表明,在1×150mM-cleavage buffer条件下,LesCasX蛋白对带有TTG、TTA和TTT-PAM的底物都有很强的切割活性;在1×300mM-cleavage buffer条件下,LesCasX蛋白的切割活性变弱,同时对TTG-PAM的切割活性最强。总之,LesCasX蛋白对含有TTG-PAM序列的双链DNA底物的切割活性最强。
2、CkbCasX蛋白的底物切割实验
按照步骤1的方法,将LesCasX蛋白替换为CkbCasX蛋白,gRNA-28替换为gRNA-23,针对LesCasX蛋白的切割底物dsDNA替换为针对CkbCasX蛋白的切割底物dsDNA,其它步骤均不变。
分析结果见图3中B。结果表明。在1×150mM-cleavage buffer条件下,CkbCasX蛋白对带有TTA、TTG和TTT-PAM的底物有一定的切割活性,其中对TTA-PAM的切割相对最强;在1×300mM-cleavage buffer条件下,CkbCasX蛋白对TTG-PAM仍有明显的切割。总之,CkbCasX蛋白对含有TTG-PAM序列的双链DNA底物的切割活性最强。
3、VemCasX蛋白的底物切割实验
按照步骤1的方法,将LesCasX蛋白替换为VemCasX蛋白,gRNA-28替换为gRNA-29,针对LesCasX蛋白的切割底物dsDNA替换为针对VemCasX蛋白的切割底物dsDNA,其它步骤均不变。
分析结果见图3中C。结果表明,在1×150mM-cleavage buffer条件下,VemCasX蛋白对带有TTG、CTG和TTA-PAM的底物有很强的切割活性,其中对TTA-PAM的切割相对较弱;在1×300mM-cleavage buffer条件下,VemCasX蛋白只对TTG显示出切割活性。总之,VemCasX蛋白对含有TTG-PAM序列的双链DNA底物的切割活性最强。
4、HrbCasX蛋白的底物切割实验
(1)实验组
在1×300mM-cleavage buffer(溶剂为pH7.5、20mM Tris-HCl缓冲液,溶质及其浓度为300mM NaCl、10mM MgCl2和1mM DTT)的体系中,将HrbCasX蛋白、gRNA-22和针对HrbCasX蛋白的切割底物dsDNA按照2500nM:3750nM:50nM的比例混合,得到混合物。由于HrbCasX的宿主属于嗜热菌,所以将混合物在不同的温度梯度(分别为25℃、37℃、45℃、55℃和65℃)中反应60min,加入EDTA终止反应;之后加入proteinase K并使其在体系中的浓度为100μg/mL,继续消化60min;采用2%agarose gel进行分析。
(2)对照组
按照实验组的步骤,将“HrbCasX蛋白、gRNA-22和针对HrbCasX蛋白的切割底物dsDNA按照2500nM:3750nM:50nM的比例混合”替换为“HrbCasX蛋白和gRNA-22按照2500nM:3750nM的比例混合”,其它步骤均不变。
按照实验组的步骤,将“在1×300mM-cleavage buffer(溶剂为pH7.5、20mM Tris-HCl缓冲液,溶质及其浓度为300mM NaCl、10mM MgCl2和1mM DTT)的体系中,将HrbCasX蛋白、gRNA-22和针对HrbCasX蛋白的切割底物dsDNA按照2500nM:3750nM:50nM的比例混合,得到混合物”替换为“在1×300mM-cleavage buffer(溶剂为pH7.5、20mM Tris-HCl缓冲液,溶质及其浓度为300mM NaCl、10mM MgCl2和1mM DTT)的体系中加入针对HrbCasX蛋白的切割底物dsDNA,得到混合物;混合物中,切割底物dsDNA的浓度为50nM”;其它步骤均不变。
分析结果见图3中D。结果表明,HrbCasX蛋白对带有TTA-PAM的dsDNA具有双链切割活性,且随着温度增加,反应活性增强;反应最适合在65℃的相对高温的环境中进行。
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本申请欲包括任何变更、用途或对本发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的改变。
<110> 清华大学
<120> 一种小型编辑基因组的CRISPR/Cas***及其专用的CasX蛋白
<160>14
<170> PatentIn version 3.5
<210> 1
<211>899
<212>PRT
<213> Artificial sequence
<400> 1
Met Pro Thr Lys Asn Arg Lys Thr Asp Ser Thr Ser Ile His Ala Ser
1 5 10 15
Leu Arg His Leu Leu Gln Leu Gly Leu Lys Arg Ser Glu Ala Ala Ile
20 25 30
Pro Gln Thr Ile Thr Arg Thr Ala Lys Phe Lys Ile Asn Thr Ala Ile
35 40 45
Lys Pro Gly Leu Ile Pro Leu Leu Asn Ala Gln Phe Asp Ala Val Glu
50 55 60
Gly Phe Arg Arg Lys Val Leu Gly Glu Leu Glu Ala Trp Trp Asn Glu
65 70 75 80
Asp Pro Glu Ala Phe Gln Lys Met Val Lys Cys Ser Met Lys Met Lys
85 90 95
Phe Gln Gly Lys Ser Ser Cys Tyr Ala Trp Leu Tyr Thr His Phe Leu
100 105 110
Lys Gly Ala Thr Leu Ala Gln Gly Leu Ser Arg Asp Ala Ala Asn Ser
115 120 125
Leu Leu Asp Asn Met Gly Gly Gly Leu Lys Ser Phe Leu Thr Arg Arg
130 135 140
Ala His Val Ala Glu Glu Ile Arg Lys Arg Tyr Asp Gln Asn Leu Gly
145 150 155 160
Asp Trp Asp Asp Gly Leu Lys Asp Leu Ala Ala Glu His Gly Leu Glu
165 170 175
Leu Pro Pro Pro Pro Pro Arg Val Asn Phe Glu Lys Leu Thr Ala Gln
180 185 190
Glu Ile Glu Lys Tyr Asn Asp Trp Val Gly Arg Thr Arg Ala Trp Gly
195 200 205
Asn Leu Leu Leu Ile Gln Lys Lys Lys Val Glu Arg Arg Asp Ala Cys
210 215 220
Leu Pro Arg Tyr Leu Lys Gly Tyr Pro Gly Phe Pro Gly Ser Gln Arg
225 230 235 240
Tyr Ala Thr Ala Ser Ala Met Ala Ala Ala Leu Ala Glu Leu Glu Gln
245 250 255
Ala Ala Arg Glu Gln Tyr Gly Lys Ala Arg Ala Arg Phe Ala Lys Val
260 265 270
Ser Ala Glu Ser Trp Ala Gln Thr Val Glu Arg Phe Ala Pro Ala Pro
275 280 285
Val Arg Ala Glu His Gly Arg Pro Glu Pro Arg Thr Ala His Gln Thr
290 295 300
Val Ser Ala Arg Leu Ala Ala Leu Ile Ala Ala Gln Pro Gly Trp Gln
305 310 315 320
Pro Ala Gln Leu Ala Glu Glu Ile Leu Ala Gly Val Leu Arg Gly Ala
325 330 335
Glu Lys Leu Lys Thr His Leu Ser Lys Cys Gly Ser His Asp Arg Gln
340 345 350
Ala Val Ile Lys Leu Ala Asn Leu Tyr Asn Val Ala Val Ala Phe Ala
355 360 365
Leu Glu Pro Val Arg Val Ala Gly Asp Tyr Leu Ser Phe Tyr Ala Glu
370 375 380
Glu Thr Pro Lys Arg Lys Ala Phe Gly Asn Val Arg Gly Ala Leu His
385 390 395 400
Gln Pro Ser Asp Asp Thr Ala Ala Ile Gln Ile Thr Gly Phe Ser Ile
405 410 415
Asn Asp Glu Gly Ser Pro Asn Tyr Asn Gly Leu Leu Val Cys Lys Gln
420 425 430
Ser Gly Asp Arg Leu His Asp Glu Trp Ala Phe Leu Phe Cys His Gln
435 440 445
Pro Gly Gln Val Phe Gln Leu Ala Ala Glu Asp Ala Lys Leu Arg Gly
450 455 460
Lys Ile Leu Thr Glu Trp Leu Gly Phe Gly Ser Gln Gly Gly Ser Arg
465 470 475 480
Lys Lys Ala Glu Ala Ser Ala Lys Lys Met Ile Arg Arg Pro Val Trp
485 490 495
Met Asn Glu Lys Thr Pro Pro Thr Ile Leu Pro Leu Ala Phe Gly Val
500 505 510
Arg Gln Gly Arg Glu Tyr Leu Trp His Phe Asp Arg Asn Leu Arg Thr
515 520 525
Lys Glu Gly Trp Val Leu Gly Asn Gly Arg Leu Leu Arg Val Met Pro
530 535 540
Pro Gly Arg Pro His Ala Ala Asp Phe Tyr Leu Thr Leu Thr Leu Glu
545 550 555 560
Arg Glu Ala Pro Pro Leu Ala Glu Val Ala Ala Glu Lys Tyr Ile Gly
565 570 575
Ile Asp Arg Gly Glu Ala Val Pro Ala Ala Tyr Ala Ile Ile Asp Arg
580 585 590
Glu Gly Arg Leu Leu Ala Gly Gly Lys Ile Ala Glu Ala Phe Arg Asp
595 600 605
Gln Gln Arg Lys Thr Asn Asp Glu Lys Arg Glu Leu Gln Arg Thr Ala
610 615 620
Gly Gly Tyr Thr Lys Ala Phe Arg Ser Lys Glu Arg Asn Arg Ala Arg
625 630 635 640
Ala Leu Gly Gly Glu Val Thr Arg Ala Ile Phe Ala Leu Ser Ala Ala
645 650 655
His Arg Ala Pro Val Ile Leu Glu Asn Leu Asn Ser Ser Leu Ala Thr
660 665 670
Arg Gly Gly Lys Gly Thr Met Met Ser Gln Met Gln Tyr Glu Arg Met
675 680 685
Leu Val Ala Leu Glu Gln Lys Phe Ala Glu Ala Gly Leu Tyr Ala Leu
690 695 700
Pro Ser Ala Pro Lys Tyr Arg Lys Gly Asp Asn Gly Phe Ile Lys Leu
705 710 715 720
Val Gly Pro Ala Tyr Thr Ser Ala Thr Cys Ser Ala Cys Gly His Val
725 730 735
His Ser Ser Asp Phe Tyr Glu Lys Leu Ala Asp Thr Leu Glu Gly Lys
740 745 750
Cys Gly Ser Ser Trp Cys Val Thr Leu Pro Asn Gly Glu Gln Gln Gln
755 760 765
Leu Pro Asp Ala Tyr Thr Phe Trp Leu Lys Gly Lys Gly Glu Gln Thr
770 775 780
Lys Ser Thr His Glu Arg Leu Glu Glu Leu Leu Lys Gly Lys Ser Val
785 790 795 800
Ala Lys Leu Ala Lys Thr Asn Arg Arg Lys Leu Val Gly Leu Leu Lys
805 810 815
Ser Arg Trp Leu Pro Tyr Arg Ala Thr Gln Ala Asp Phe Ser Cys Val
820 825 830
Leu Cys Gly His Thr Met Asn Ala Asp Glu Gln Gly Ala Leu Asn Ile
835 840 845
Ala Arg Lys Phe Leu Phe Arg Thr Glu Arg Gly Lys Gln Ala Gly Glu
850 855 860
Leu Thr Glu Ala Glu Arg Arg Lys Met Arg Ala Asp Trp Gln Asn Trp
865 870 875 880
Tyr Lys Glu Lys Leu Arg Thr Val Trp Arg Ala Pro Glu Arg Gly Asp
885 890 895
Gly Asn Gly
<210>2
<211> 2697
<212>DNA
<213> Artificial sequence
<400>2
atgccaacta aaaaccgcaa aactgacagc acctctattc acgcatctct gcgccacctg 60
ctgcaactgg gcctgaaacg ctctgaagct gctatcccac agaccatcac tcgcaccgct 120
aaattcaaaa ttaacaccgc tattaaaccc ggcctgattc cactgctgaa cgcccagttc 180
gacgccgtgg aaggcttccg ccgcaaggtg ctgggcgaac tagaagcatg gtggaacgaa 240
gatcctgaag cattccagaa aatggtcaaa tgctccatga aaatgaaatt ccagggtaaa 300
agctcttgtt acgcttggct gtacacccac ttcctgaaag gcgcaaccct ggctcagggc 360
ctgtctcgcg acgcagctaa ctccctgctg gataacatgg gcggcggcct gaaaagcttc 420
ctgacccggc gcgcccacgt ggccgaagaa atccgcaaac gctatgacca aaacctgggc 480
gactgggatg atggcctgaa agacctggct gctgaacacg gcctggaact gcccccacca 540
ccaccccgcg tgaacttcga gaaactgacc gcccaggaga ttgaaaaata caacgactgg 600
gtgggccgca cccgcgcttg gggcaacctg cttctgatcc agaagaaaaa ggtggaacgc 660
cgcgacgcct gtctgccacg ctatctgaaa ggctacccag gctttcctgg ctctcagcgc 720
tacgctactg catccgcaat ggctgctgct ctcgctgaac tcgaacaggc tgcccgcgag 780
cagtacggca aagcacgcgc acgcttcgct aaagtgagcg ctgaatcctg ggctcaaacc 840
gtcgaacgct ttgcaccagc tcccgtgcgc gctgaacacg gccgcccaga acctcgcact 900
gcgcaccaga ccgtgagcgc acgcctggca gctctgatcg cagcccagcc gggctggcag 960
cctgctcagt tggctgaaga gatcctggct ggcgtgctgc gcggcgctga aaaactgaaa 1020
acccacctgt ccaaatgcgg ctcgcacgat cggcaggctg tcattaaact ggccaacctg 1080
tataacgtgg cagtcgcttt tgcactggaa ccagtgcgcg tggcaggcga ctacttgtcc 1140
ttctacgcag aagaaacccc aaaacgcaaa gctttcggca acgtgcgcgg cgccctgcac 1200
caaccatcgg atgataccgc cgctatccag atcaccggct tttccatcaa cgacgaaggc 1260
agcccaaact ataacgggct gctggtgtgc aaacagtctg gcgatcgcct tcatgatgaa 1320
tgggcattcc tgttctgcca ccaaccaggc caggtgttcc agctggccgc cgaagatgct 1380
aaactgcgcg gcaaaatcct gaccgaatgg ctcggcttcg gctctcaggg cggctctcgg 1440
aaaaaagcag aagcatctgc aaagaaaatg atccggcgcc ctgtctggat gaacgaaaaa 1500
accccaccaa ctatcctgcc tctggctttc ggggtccgcc agggccgcga atacctctgg 1560
cactttgacc gcaacctgcg caccaaagaa ggctgggtgc tgggcaacgg ccgcctgctg 1620
cgcgtgatgc ctccaggccg ccctcacgct gcggatttct acctgactct gaccctggaa 1680
cgcgaagccc ctccactggc agaagtcgca gctgaaaaat atatcggcat cgaccgcggc 1740
gaagcagtgc cagcagctta cgccatcatc gatcgcgaag gccgcctgct cgctggcggc 1800
aaaattgctg aagcattccg cgatcagcag cgcaaaacca acgatgagaa acgcgaactc 1860
cagcgcaccg ctggcggcta tactaaagca ttccgctcta aagaacgcaa ccgcgctcgc 1920
gcactgggcg gcgaagtgac cagagctatt ttcgccctga gcgctgcaca ccgcgcacca 1980
gtcatcctgg aaaacctgaa ctcctccctg gccacccgcg gaggaaaagg cactatgatg 2040
agccagatgc agtacgaacg catgctcgtc gctcttgaac agaaattcgc tgaagccggc 2100
ctgtacgcac tgccaagtgc tcctaaatac cgtaagggcg acaacggctt catcaaactg 2160
gtcggccctg cttacacttc tgccacctgc tctgcctgcg gccacgtgca ttcttctgac 2220
ttttatgaaa aactggcaga caccctggaa ggcaaatgtg gctcttcctg gtgtgtgacc 2280
ctgcctaacg gcgaacagca gcagctgcct gacgcataca ccttctggct gaaaggcaaa 2340
ggcgaacaga ctaagtctac ccatgaacgc ctggaagaac tgctgaaggg caaatctgtg 2400
gctaaactgg cgaaaaccaa ccgccgcaaa ctggtcggcc tgctgaaatc ccgctggctg 2460
ccataccgcg ccacccaggc agatttctct tgcgtcctgt gcggccatac catgaacgct 2520
gacgaacagg gcgccctgaa catcgcccgc aaattcctgt tccgcactga acgcggcaaa 2580
caggctggcg aactgactga ggctgaacgc cgcaaaatgc gcgctgattg gcagaactgg 2640
tataaagaaa aactgcgcac tgtgtggcgc gcacctgaac gcggcgacgg caacggc 2697
<210>3
<211>880
<212>PRT
<213> Artificial sequence
<400>3
Met Lys Thr Lys Asn Arg Ser Asn Ser Ile His Ala Ser Leu Arg Gln
1 5 10 15
Leu Leu Ala Leu Gly Leu Ser Lys Ser Ser Ser Ala Glu Pro Gln Arg
20 25 30
Ile Thr Arg Thr Val Lys Phe Lys Ile Asn Thr Asp Ile Arg Pro Asp
35 40 45
Leu Ile Pro Val Leu Asn Arg His Phe Asp Phe Phe Glu Lys Phe Arg
50 55 60
Arg Lys Val Leu Ala Glu Leu Glu Ala Leu Trp Asn Lys Asp Gln Lys
65 70 75 80
Ser Phe Gln Ala Met Val Gln Cys Ser Ala Lys Lys Pro Tyr Gln Lys
85 90 95
Lys Thr Ser Cys Tyr Ala Trp Leu Asp Thr His Phe Ile Thr Glu Ala
100 105 110
Lys Glu Ser Leu Asp Leu Pro Arg Lys Pro Ala Thr Ser Leu Leu Tyr
115 120 125
Asn Leu Ser Gly Gly Leu Lys Ser Phe Leu Thr Arg Arg Glu Thr Val
130 135 140
Ala Glu Asp Ile Gln Lys Arg Phe Asn Asp Asn Leu Arg Glu Trp Asn
145 150 155 160
Gly Asp Leu Ser Gln Leu Ala Ser Asp Leu Lys Ala Pro Leu Pro Pro
165 170 175
Ala Pro Pro Asn Leu Asp Phe Glu Asn Leu Ile Glu Lys Ala Ile Glu
180 185 190
Lys Tyr Asn Asp Trp Val Gly Arg Thr Arg Ala Trp Cys Asn Leu Ile
195 200 205
Leu Val Gln Gln Lys Lys Val Glu Arg Arg Asp Ala Cys Leu Pro Arg
210 215 220
Tyr Leu Lys Gly Tyr Pro Gly Phe Phe Gly Ser Gln Arg Tyr Ala Thr
225 230 235 240
Thr Ala Gly Leu Ala Glu Asn Leu Lys Lys Leu Glu Gln Val Ala Arg
245 250 255
Glu Gln Ser Lys Lys Met Pro Thr Arg Phe Ala Lys Leu Thr Pro Glu
260 265 270
Ile Trp Thr Ala Ile Gln Glu Arg Phe Ser Pro Pro Glu Val Cys Glu
275 280 285
Ala Gly Glu Lys Arg Arg Pro Arg Thr Ala His Gln Thr Val Cys Leu
290 295 300
Arg Phe Ala Ala Leu Arg Ala Ala His Pro Glu Trp Thr Pro Val Gln
305 310 315 320
Leu Ala Glu Glu Ile Leu Ala Gly Ile Phe Arg Gly Ala Glu Lys Leu
325 330 335
Lys Lys His Leu Ala Ala Asn Gly Phe Thr Asp Arg Pro Ala Val Ile
340 345 350
Lys Leu Ala Asn Leu Tyr Asn Val Ala Ala Ala Phe Ser Leu Asp Pro
355 360 365
Ile Arg Ala Ala Gly Asp Tyr Ile Leu Phe Tyr Glu Glu Glu Thr Pro
370 375 380
Lys Arg Asn Ala Phe Gly Asp Val Arg Gly Gly Leu His Gln Pro Ser
385 390 395 400
Asp Glu Ser Ala Ala Ile Glu Ile Met Gly Phe Gly Leu Gln Lys Glu
405 410 415
Ser Gly Lys Pro Leu Tyr Asn Gly Leu Leu Val Cys Lys Lys Ser Glu
420 425 430
Lys Glu His Asp Asp Ser Trp Ala Phe Leu Tyr Cys His Thr Glu Gly
435 440 445
Gln Thr Phe Glu Leu Ala Asn Glu Lys Ala Lys Leu Arg Gly Lys Leu
450 455 460
Leu Thr Asp Trp Thr Gly Phe Ala Ser Arg Gly Gly Ser Arg Lys Lys
465 470 475 480
Ala Glu Ala Ser Ala Lys Gln Leu Ala Arg Gly Arg Val Trp Ile Ser
485 490 495
Glu Lys Thr Pro Pro Thr Val Leu Pro Leu Ala Phe Gly Ser Arg Gln
500 505 510
Gly Arg Glu Tyr Leu Trp His Phe Asp Arg Asp Leu Arg Glu Lys Asn
515 520 525
Glu Trp Val Leu Gly Asn Gly Arg Leu Leu Arg Ile Met Pro Pro Gly
530 535 540
Gln Pro Asn Ala Ala Asp Phe Tyr Leu Ala Ile Thr Leu Glu Arg Gln
545 550 555 560
Val Pro Pro Leu Ala Asp Ile Lys Ala Glu Arg Phe Ile Gly Ile Asp
565 570 575
Arg Gly Glu Ala Ile Pro Ala Ala Tyr Ala Val Ile Asp Glu Leu Gly
580 585 590
Lys Leu Leu Ala Ser Gly Lys Ile Ala Glu Ser Tyr Arg Lys Gln Gln
595 600 605
Arg Glu Phe Asn Asp Ala Lys Arg Glu Leu Gln Arg Thr Gln Gly Gly
610 615 620
Tyr Thr Arg Trp Leu Arg Ser Lys Glu Arg Asn Arg Ala Arg Ala Leu
625 630 635 640
Ser Gly Glu Val Thr Arg Ala Val Leu Ala Leu Ala Ala Glu His Arg
645 650 655
Ala Pro Val Val Leu Glu Asn Leu Asn Ser Ser Leu Ala Met Arg Gly
660 665 670
Gly Lys Lys Thr Met Met Ser Leu Met Gln Tyr Gln Pro Val Gln Arg
675 680 685
Ala Leu Glu Gln Lys Phe Leu Glu Ala Gly Leu Trp Glu Ala Pro Lys
690 695 700
Arg Lys Gln Lys Phe Pro Lys Lys Asp Asn Gly Phe Ile Lys Leu Ile
705 710 715 720
Asp Ala Trp Trp Thr Ser Arg Thr Cys Ser Gln Cys Gly Asn Thr His
725 730 735
Ser Ser Glu Phe Tyr Glu Lys Leu Gly Glu Thr Leu Thr His Ala Pro
740 745 750
Asp Glu Lys Trp Cys Val Thr Val Cys Glu Arg Pro Phe Val Leu Pro
755 760 765
Asp Thr Tyr Gln Tyr Arg Phe Arg Gly Glu Asp Lys Val Gly Asn Thr
770 775 780
Asn Glu Arg Leu Gln Ser Leu Leu Lys Gly Lys Gln Ile Lys Glu Leu
785 790 795 800
Thr Gly Lys Gln Arg Glu His Leu Ile Glu Phe Leu Glu Arg Leu Leu
805 810 815
Ser Phe Arg Pro Gln Gln Ala Asn Phe Arg Cys Leu Lys Cys Gly Tyr
820 825 830
Glu Thr Asn Ala Asp Val Gln Ala Ala Leu Thr Ile Ala Arg Lys Tyr
835 840 845
Leu Phe Glu Leu Glu His Pro Pro Lys Lys Gly Glu Lys Asp Arg Arg
850 855 860
Leu Lys Trp Gln Ala Trp Tyr Gln Glu Lys Leu Arg Thr Val Trp Lys
865 870 875 880
<210>4
<211> 2640
<212>DNA
<213> Artificial sequence
<400>4
atgaagacta agaaccgctc caactccatc catgcctccc tgcggcagct gctggccctg 60
ggcctgagca agtcctctag cgccgagcct cagcgcatca ctaggaccgt gaagtttaag 120
atcaacactg atattcgccc tgacctgatc cctgtgctga accgccactt tgatttcttc 180
gagaagttcc gccgcaaggt cctggccgag ctggaggccc tgtggaacaa ggatcagaag 240
tcctttcagg ccatggtcca atgctccgcc aagaagccat accagaagaa gaccagctgc 300
tacgcctggc tggatactca cttcattact gaggccaagg agagcctgga cctcccacgc 360
aagcctgcca ccagcctgct gtacaacctc tctggcggcc tcaagtcctt cctcacccgc 420
cgcgagactg tggccgagga tatccagaag cggttcaacg ataacctgcg cgagtggaac 480
ggcgacctgt cccagctggc ctccgacctg aaggccccac tgcctcctgc tcctcctaat 540
ctggatttcg agaacctgat cgagaaggct attgagaagt ataacgactg ggtgggccgc 600
acccgcgcct ggtgcaacct gatcctggtc cagcagaaga aggtggagcg ccgcgatgcc 660
tgcctccctc gctacctgaa gggctaccct ggcttcttcg gcagccagcg ctacgctact 720
accgccggcc tcgccgagaa cttgaagaaa ttggagcagg tcgcccgcga gcagagtaag 780
aaaatgccaa cccggtttgc caagctgacc cctgagatct ggactgccat ccaggaacgc 840
ttctcacctc cagaggtgtg tgaggccggc gagaagcgcc gccctcgcac tgcccaccag 900
actgtctgtc tccgcttcgc cgctctgagg gccgcccacc ctgaatggac cccagtgcag 960
ctggccgagg agattctggc cggcatcttc cgcggcgctg agaagctgaa gaagcacctg 1020
gccgccaacg gctttactga ccgccctgcc gtgattaagc tggccaacct gtacaacgtg 1080
gctgccgcct tcagcctgga tccaatccga gccgccggcg actacattct gttttacgaa 1140
gaggagaccc ctaagcgaaa cgccttcggc gacgtgcgcg gcggcctgca ccagccatct 1200
gatgagagcg ccgctattga gatcatgggg ttcggcctgc agaaggaaag cggcaagcca 1260
ctgtacaacg gcctgctggt gtgcaagaag tctgagaagg agcatgatga tagctgggcc 1320
tttctgtact gccataccga gggccagacc tttgagctgg ccaatgagaa ggccaagctg 1380
cgcggaaagc tgctgaccga ctggactggc ttcgctagtc gcggcggcag ccgcaagaag 1440
gccgaggcct ccgccaagca gctcgcccgt ggccgcgtct ggatcagcga gaagactcca 1500
ccaaccgtgc tgccactggc ctttggcagc cgccagggcc gcgagtacct ctggcacttc 1560
gaccgagacc tgcgcgagaa gaacgagtgg gtgctgggga acggccgcct gctgcgcatt 1620
atgcctccag gccagcctaa cgcagccgat ttttatctgg ccatcactct cgagcgccag 1680
gtcccacctc tcgccgacat caaggccgag cgctttatcg gcattgaccg cggcgaggcc 1740
attccagccg cctacgccgt gattgatgag ctgggcaagc tgctggctag cggcaagatc 1800
gccgagtctt accgcaagca gcagagagag tttaacgacg ccaagcgcga gctgcagcgc 1860
acccagggcg gctatacccg ctggctgcgc agcaaggagc gcaaccgcgc ccgcgccctg 1920
tccggagagg tgacccgcgc cgtcctcgcc ctggctgccg agcaccgcgc ccctgtggtg 1980
cttgagaacc tgaactccag cctcgccatg cgcggcggga agaagaccat gatgtccctg 2040
atgcagtacc agccagtgca gcgcgccctg gagcagaaat ttctggaggc cggcctgtgg 2100
gaggccccaa agcgcaagca gaagttccca aagaaggata acggctttat taagctgatc 2160
gacgcctggt ggacctcccg cacttgctcc cagtgcggca acacccatag ctccgagttc 2220
tacgagaaac tcggcgagac tctgacccac gccccagacg agaagtggtg cgtgaccgtc 2280
tgcgaacgcc cttttgtcct gccagatacc taccagtacc gcttccgggg cgaggacaag 2340
gtgggcaaca ccaacgagcg cctccagtcc ctgctgaagg gcaagcagat caaggagctg 2400
accggcaagc agcgcgagca cctgattgag tttctggagc gcctgctgag ctttcggcca 2460
cagcaggcca actttcgctg cctgaagtgc ggctacgaga ctaacgctga cgtgcaggcc 2520
gccctgacca tcgcccgcaa gtacctgttc gagctggagc acccaccaaa gaagggcgag 2580
aaggaccgcc gcctgaagtg gcaggcctgg taccaggaga agctgcgcac cgtgtggaag 2640
<210>5
<211>818
<212>PRT
<213> Artificial sequence
<400>5
Met Thr Gln Asn Lys Asp Lys Ile Lys Phe Leu Gln Val Ile Lys Asp
1 5 10 15
Leu Arg Ser Ala Tyr Glu Thr Ile Leu Leu Pro Lys Asn Leu Ser Arg
20 25 30
Thr Val Ser Phe Arg Ile Phe Pro Lys Gly Glu Asp Arg Glu Ile Leu
35 40 45
Asp Lys Trp Phe Glu Glu Ile Ser Glu Ile Lys Tyr Leu His Leu Lys
50 55 60
Asp Leu Tyr Glu Glu Phe Lys Ala Gly Glu Leu Asn Leu Phe Ile Asn
65 70 75 80
Lys Lys Leu Gly Tyr Asp Trp Ile Tyr Lys Asn Lys Lys Arg Phe Glu
85 90 95
Lys Phe Lys Asn Thr Tyr Lys Ile Leu Thr Ser Lys Val Glu Glu Gly
100 105 110
Ile Arg Thr Glu Ile Ser Ser Val Leu Asn Ser Phe Val Thr Asn Thr
115 120 125
Gln Lys Ala Phe Tyr Asp Asn Lys Arg Leu Val Gly Lys Ile Leu Glu
130 135 140
Arg Lys Asp Leu Asp Asp Ser Glu Lys Thr Leu Ile Gln Gly Leu Ile
145 150 155 160
Glu Glu Tyr Lys Lys Leu Ser Ile Gln Asn Tyr Glu Thr Trp Gln Thr
165 170 175
Ala Lys Asn Leu Thr Glu Glu Phe Asn Thr Leu Ile Ala Glu Ile Asn
180 185 190
Lys Glu Arg Asn Leu Lys Lys Lys Arg Pro Ile Ser Asn Leu Lys Arg
195 200 205
Leu Pro Ser Phe Pro Leu Ile Glu Lys Tyr Gln Asn Leu Asp Asp Phe
210 215 220
Lys Asn Arg Asn Asn Leu Glu Phe Asn Ile Lys Lys Val Lys Glu Glu
225 230 235 240
Phe Lys Asp Arg Leu Lys Tyr Leu Leu Asn Ser Phe Glu Asp Arg Tyr
245 250 255
Asn Leu Lys Lys Glu Arg Ile Asp Ile Lys Gln Gln Glu Asp Val Ile
260 265 270
Ser Lys Tyr Leu Gln Glu Lys Gly Glu Gln Leu Leu Lys Lys Leu Lys
275 280 285
Tyr Arg Lys Lys Lys Ser Ser Ala Leu Lys Asp Arg Phe Leu Tyr Trp
290 295 300
Tyr Ile Thr Lys Arg Ser Ser Glu Ser Ile Glu Asn Ile Ile Lys Ala
305 310 315 320
Leu Phe Asn Lys Leu Glu Lys Gln Lys Lys His Leu Phe Lys Lys Pro
325 330 335
Phe Asp Trp Gln Gly Arg Asn Lys Phe Phe Asn Thr Leu Phe Phe Leu
340 345 350
Thr Glu Ile Leu Tyr Val Ser Ser Leu Pro Glu Glu Lys Arg Gly Glu
355 360 365
Thr Leu Asn Glu Ile Asn Asn Glu Ile Thr Lys Ile Lys Ala Glu Phe
370 375 380
Leu Lys Gly Lys Pro Val Lys Asp Ser Phe Ile Ile Ser Gly Phe Gly
385 390 395 400
Trp Lys Asp Asn Lys Pro Leu Lys Ala Gly Ala Leu Ile Leu Lys Ile
405 410 415
Asp Lys Asp Asn Gln Lys Glu Lys His Gln Leu Gly Ile Thr Leu Gly
420 425 430
Ile Ser Thr Lys Ala Phe Cys Leu Lys Asn Asp His Asn Lys Asp Phe
435 440 445
Tyr Phe Ile Val Leu Thr Gly Gly Ser Arg Lys Lys Ser Gln Arg Lys
450 455 460
Pro Lys Glu Tyr Lys Leu Ile Ser Gly His Leu Glu Lys Asp Lys Asp
465 470 475 480
Pro Tyr Ser Cys Tyr Phe Trp Leu Tyr His Gly Lys Ser Tyr Leu Arg
485 490 495
Arg Ile Leu Phe His Lys Glu Trp Gly Phe Leu Ser Glu Ser Lys Asn
500 505 510
Lys Phe Phe Pro Ala Asn Ala Arg Val Lys Arg Val Lys Asn Lys Pro
515 520 525
Gly Asp Lys Phe Glu Tyr Tyr Val Asp Ile Thr Phe Glu Tyr Asn Gly
530 535 540
Asp Ile Thr Asn Ile Ile Glu Asp Ser Ile Lys Asn Lys Ile Ser Tyr
545 550 555 560
Val Leu Gly Ile Asp Arg Gly Glu Lys Tyr Pro Ile Ala Tyr Ala Val
565 570 575
Leu Asp Lys Asp Lys Lys Val Val Gly Asn Glu Lys Gly Ile Leu Gly
580 585 590
Lys Glu Phe Ala Glu Lys Leu Glu Glu Leu His Lys Lys Arg Lys Lys
595 600 605
Lys Lys Ile Gly Asn Arg Ile Leu Arg Thr Gln Glu Thr Ile Leu His
610 615 620
Gln Ser Ile Ser Lys Ile Leu Lys Ile Leu Ser Asn Tyr Pro Ala Ile
625 630 635 640
Ile Val Met Glu Asn Leu Arg Lys Gly Phe Gly Lys Glu Glu Lys Ile
645 650 655
Ile Ala Lys Arg Val Tyr Arg Lys Ile Glu Lys Phe Leu Glu Leu Ala
660 665 670
Leu Gln Tyr Ala Asn Leu Pro Lys Lys Tyr Leu Leu Lys Phe Val Asp
675 680 685
Pro Lys Asp Thr Ser Ile Ile Cys Pro Asn Cys Glu Phe Asn Phe Asn
690 695 700
Ala Asp Ile Lys Arg Lys Ile Leu Asp Gly Leu Thr Leu Lys Gln Phe
705 710 715 720
Glu Asn Leu Ile Lys Glu Lys Ser Ile Asp Leu Asp Asn Lys Lys Phe
725 730 735
Leu Ile Gly Ser Leu Gln Ile Asn Leu Pro Glu His Trp Val Cys Tyr
740 745 750
Leu Asn Lys Tyr Pro Lys Asn Ile Lys Leu Asp Glu Ile Lys Glu Leu
755 760 765
Ile Glu Gln Asn Asn Leu Lys Glu Ala Leu Glu Tyr Phe Lys Thr Val
770 775 780
Thr Pro Arg Ile Ser Arg Asp Lys Phe Lys Cys Leu Lys Cys Gly Tyr
785 790 795 800
Glu Glu Glu Ala Asp Val Val Gly Ala Ile Asn Ile Ala Arg Lys Tyr
805 810 815
Asp Phe
<210>6
<211> 2454
<212>DNA
<213> Artificial sequence
<400>6
atgacccaga acaaggataa gattaagttc ctgcaggtca ttaaggatct gcgcagcgcc 60
tacgagacca tcctgctgcc taagaacctg agccgcaccg tgagctttcg catttttcct 120
aagggcgagg atcgcgagat cctggataag tggtttgagg agatcagcga gattaagtac 180
ctgcatctga aggacctgta cgaggagttt aaggccggcg agctgaacct gttcatcaac 240
aagaagttag gctacgactg gatctacaag aacaagaagc gctttgagaa gtttaagaac 300
acctacaaga tcctgactag caaggtggag gaaggcattc gcactgagat ttcctccgtg 360
ctgaacagct tcgtgactaa cacccagaag gccttctacg ataacaagcg cctggtgggc 420
aagatcctgg agcgcaagga cctggatgac agcgaaaaga ctctgatcca gggcctgatt 480
gaggagtaca agaagctgag catccagaac tacgagactt ggcagaccgc caagaacctg 540
accgaggagt tcaacaccct gatcgccgag atcaacaagg agcgcaacct gaagaagaag 600
cgcccaatca gcaacctgaa gcgcctgcct agcttcccac tgatcgagaa gtaccagaac 660
ctggatgatt tcaagaaccg caacaacctg gagtttaaca tcaagaaggt gaaagaggag 720
ttcaaggacc gcctgaagta cctgctgaac agcttcgagg accgctacaa cctgaagaag 780
gagcgcatcg atattaagca gcaagaggat gtgatctcca agtacctcca ggagaagggc 840
gagcagctgc tgaagaaact gaagtaccgc aagaagaaga gcagcgccct gaaggaccgc 900
ttcctgtact ggtacatcac taagcgcagc tccgagagca tcgagaacat cattaaggcc 960
ctgttcaaca agctggagaa gcagaagaag cacctcttta agaagccatt cgattggcag 1020
ggccgcaaca agttctttaa caccctgttt ttcctgactg agatcctgta cgtgagcagc 1080
ctgcctgagg agaagcgcgg cgagaccctg aacgagatta acaacgagat caccaagatt 1140
aaggccgagt tcctgaaggg caagcctgtg aaggatagct tcatcatcag cggctttggc 1200
tggaaggata acaagccact gaaggccggc gccctgatcc tgaagatcga taaggataac 1260
cagaaggaga agcaccagct gggcattacc ctgggcatca gcactaaggc cttctgcctg 1320
aagaacgacc acaacaagga tttctacttc atcgtgctga ccggcggctc ccgcaagaag 1380
tctcagcgca agccaaagga gtacaagctg atcagcggcc acctggagaa ggataaggac 1440
ccttacagct gctacttttg gctgtaccat ggcaagagct acctgcgccg catcctgttc 1500
cacaaggagt ggggcttcct gagcgagtcc aagaacaagt ttttcccagc taacgcccgc 1560
gtgaagcgcg tgaagaacaa gccaggcgat aagttcgagt actacgtgga tattaccttt 1620
gagtacaacg gcgacatcac caacattatc gaggatagca ttaagaacaa gatcagctac 1680
gtgctgggca tcgaccgcgg cgagaagtac cctattgcct acgccgtcct ggataaagac 1740
aagaaggtgg tgggcaacga gaagggcatt ctgggcaagg agttcgccga gaagctggag 1800
gagctgcaca agaagcgcaa gaagaagaag atcggcaacc gcattctgcg cacccaggag 1860
actatcctgc accagagcat cagcaagatt ctgaagattc tgagcaacta ccctgccatt 1920
atcgtgatgg agaacctgcg caagggcttc ggcaaggaag agaagattat tgccaagcgc 1980
gtgtaccgca agatcgagaa gttcctggag ctggccctgc agtacgccaa ccttccaaag 2040
aagtacctgc tgaagtttgt ggacccaaag gatacctcca ttatttgccc aaactgcgag 2100
ttcaacttta acgccgatat caagcgcaag attctggatg gcctgactct gaagcagttt 2160
gagaacctga ttaaggagaa gtccattgat ctggataaca aaaagttcct gatcggctcc 2220
ctgcagatca acctgcctga gcactgggtg tgctacctga acaagtaccc taagaacatc 2280
aagctggacg agattaagga gctgattgag cagaacaacc tgaaagaggc cctggagtac 2340
tttaagaccg tgacccctcg cattagccgc gataagttta agtgcctgaa gtgcggctac 2400
gaggaagagg ccgatgtggt gggcgccatt aacattgccc gcaagtacga cttc 2454
<210>7
<211> 1046
<212>PRT
<213> Artificial sequence
<400>7
Met Pro His Val Ile Gln Ser His Arg Thr Pro Ile Asp Arg Asp Arg
1 5 10 15
Arg Val Thr Asn Leu Pro Arg Arg Ala Gln Lys Leu Phe Gly Thr Lys
20 25 30
Ala Pro Ala Met Ala Val Arg Thr Leu Leu Val Gly Val Asp Thr Ser
35 40 45
Glu Glu Ala Leu Arg Pro Phe Ser Thr Leu Thr Pro Thr Thr Asp Glu
50 55 60
Leu Gln Glu Arg Leu Asp Phe Leu Leu Arg Glu Trp Thr Asn Ala Thr
65 70 75 80
Gln Trp Val Leu Glu Gln Ile Arg His Asp Leu Phe Glu Asn Lys Arg
85 90 95
Glu Ile Leu Leu Ala Ala Ala Gly Lys Pro Asp Tyr Val Asp Ala Thr
100 105 110
Arg Ala Arg Glu Leu Gly Tyr Leu Gln Pro Tyr Ile Arg Asp Gly Lys
115 120 125
Ser Val Glu Leu Lys Leu Gly Ser Gly Thr Ser Ile Phe Thr Arg Arg
130 135 140
Val Leu Trp Tyr Gly Lys Pro Thr Lys Asp Thr Val Ala Met Pro Gln
145 150 155 160
Glu Asp Ser Lys Val Lys Phe Cys Val Glu Leu Thr Lys Asp Asn Phe
165 170 175
Ile Glu Val Glu Val Ile Asp Lys Glu Ser Gly Thr Phe Gly Ile Lys
180 185 190
Lys Phe Asp Ser Gln Arg Phe Gly Gly Met Leu Ser Ala Ala Tyr Phe
195 200 205
Ser Glu Arg Leu Gln Glu Arg Pro Tyr Val Tyr Gly Pro Leu Ile Glu
210 215 220
Glu Phe Ile Arg Gln Gln Pro Arg Asn Arg Leu Arg Gln Lys Tyr Leu
225 230 235 240
Ser Pro Gln Glu Phe Val Ser Gly Val Asn Glu Val Ile Arg Gln Lys
245 250 255
Cys Ala Glu Asn Val Cys Gly Phe Leu Lys Lys Tyr Gln Ala Val Gln
260 265 270
Pro Glu Val Thr Lys Leu Leu Asp Lys His Ile Lys Asp Ile Asn Cys
275 280 285
Leu Ala Ser Lys Ile Ala Glu Thr Glu Glu Leu Pro Asp Asp Ala Arg
290 295 300
Glu Ala Tyr Arg Ala Val Gln Lys Val Ile Asn Thr Arg Thr Ala Cys
305 310 315 320
Asp Pro Ala Asn Pro Thr Asp Val Arg Val Tyr Ala Glu Trp Val Gly
325 330 335
Gly Tyr Asn Gly Arg Leu Asn Glu Phe Lys Gln Val Leu Pro Asp Leu
340 345 350
Phe Ile Glu Lys Trp Ser Thr Glu Leu Lys Pro Leu Ala Arg Val Lys
355 360 365
Gly Tyr Pro Ser Phe Pro Ser Tyr Gly Glu Asn Ile Asn Phe Thr Phe
370 375 380
Arg Asp Ile Leu Ala His Leu Ala Lys Phe Ala Glu His Asp Glu Leu
385 390 395 400
Val Ser Ala Glu His Ile Arg Asn Trp Val Asp Lys Glu Trp Val Glu
405 410 415
Arg Glu Ile Gln Arg Leu Arg Arg Ser His Arg Pro Gly Met Lys Ser
420 425 430
Ile His Leu Pro Leu Leu Arg Lys Val Ala Arg Glu Val Phe Gln Arg
435 440 445
Thr Asn Gly Lys Ile Ile His Glu Glu Lys Ile His Ala Gln Trp Pro
450 455 460
Thr Asp Asn Ala Lys Leu Ile Thr Val Phe Lys Gly Ile Arg Ile Lys
465 470 475 480
Leu Arg Arg His Leu Ala Glu Val Ile Ala His Ile Glu Arg Val Pro
485 490 495
Lys Asp Trp Ala Ala Asn Arg Tyr Leu Val Asp Ile Tyr Thr Thr Leu
500 505 510
Ala Arg Leu Asn Ser Leu Ala Leu Pro Pro Thr Glu Glu Ser Arg Arg
515 520 525
Ala Phe Glu Val Asn Ala Leu Ala Gly Glu Ala Lys Gly Thr Val Leu
530 535 540
Ala Leu Ala Glu Gly Met Lys Gln Glu Ile Gln Val Ser Gly Leu Ser
545 550 555 560
Leu Arg Ala Asp Gly Asn Gly Trp Ala Leu Ala Lys Arg Ala Cys Leu
565 570 575
Ala Val Val Gly Thr Pro Pro Arg Glu Arg Leu Ala Leu Val Leu Asp
580 585 590
Tyr Ser Ser Glu Ser Ala Ile Arg Leu Ser Ser Asp Asn Val Ser Gly
595 600 605
Val Arg Gly Phe Gly Phe Ile Gly Gly Ser Glu Arg Arg Glu Arg Gln
610 615 620
Thr Ser Arg Ser Leu Thr Val Gly Asn Val Thr Gly Lys Leu Gly Arg
625 630 635 640
Tyr Gly Leu Ile Leu Pro Leu Ser Phe Gly Thr Ser Gln Ala Arg Arg
645 650 655
Tyr Leu Trp Leu Ser His Lys His Arg Gly Asp Glu Leu Leu Ser Ala
660 665 670
Ile Glu Ala Ala Ser Val Asn Ile Lys Asn Ala Arg Ile Ile Arg Glu
675 680 685
Gln Thr Lys Gly Gly Ser Arg Leu Tyr Val Ala Leu Ala Val Glu Arg
690 695 700
Pro Tyr Val Pro Ile Asp Ala Thr Thr Lys Gln Val Glu Gly Tyr Ile
705 710 715 720
Gly Val Asp Arg Gly Glu Ser Ala Leu Ala Val Phe Ala Arg Val Asp
725 730 735
Thr Asn Gly Arg Leu Gln Glu Thr Pro Gln Ser Phe Gly Glu Leu Pro
740 745 750
Lys Lys Ile Arg Arg Ala Tyr Asn Arg Val Arg Gln Gln Gln Ser Gln
755 760 765
Ala Lys Arg Leu Val Gly Gly Thr Trp Phe Ala His Lys Ile Asp Asn
770 775 780
Tyr Val Arg Gln Ile Ala Ile Arg Ala Val Asp Ala Met Leu Thr His
785 790 795 800
Cys Cys Gly Ile Ala Leu Glu His Leu Ser Arg Gly Phe Ala Arg Gly
805 810 815
Gly Thr Ala Ser Trp Glu His Gln Tyr Thr Lys Val Ala Asp Lys Leu
820 825 830
Ile Asp Val Leu Ser Phe Ala Gly Phe Thr Val Pro Thr Asn Gly Glu
835 840 845
Leu Phe Pro Leu Gly Val Lys Ser Lys His His Trp Phe Gly Ala Ile
850 855 860
Pro Pro Gly Asn Thr Ser Arg Thr Cys Pro Lys Cys Ala Ala Val Trp
865 870 875 880
Ser Asn Pro Ile Glu Leu Lys Leu Ala Asn Gly Ser Phe Thr Leu Thr
885 890 895
Tyr Arg Asp Glu Leu Arg Glu Asn Ile Lys Ala Leu Lys Leu Glu Arg
900 905 910
Asp Val Ser Gly Val Trp His Gly Ser Trp Leu Ala Asp Gly Lys Lys
915 920 925
Ile Gln Ser Phe Thr Pro Lys Ser Leu Lys Glu Leu Asn Ser Leu Thr
930 935 940
Asn Lys Leu Ala Thr Ala Lys Gly Asp Glu Arg Arg Lys Leu Glu Arg
945 950 955 960
Asp Met Leu Glu Leu Phe Lys His Arg His Arg Asn Thr Tyr Asp Arg
965 970 975
Phe Tyr Cys Leu Leu Cys Asn Ile Glu Leu Asn Ala Asp Lys Val Gly
980 985 990
Ala Leu Asn Ile Ala Arg Lys Ala Ile Tyr Gln Leu Glu Gly Lys Pro
995 1000 1005
Pro Gln Gly Ile Ser Leu Glu Lys Glu Lys Arg Arg Gln His Trp
1010 1015 1020
Gln Glu Trp Tyr Ser Arg Gln Leu Asn Asp Asn His Trp Trp Asp
1025 1030 1035
Ser Lys Val Glu Lys Met Leu Lys
1040 1045
<210>8
<211> 3138
<212>DNA
<213> Artificial sequence
<400>8
atgcctcacg tgatccagag ccacagaacc cctatcgacc gggacagaag agtgaccaac 60
ctgcctagaa gggcccagaa gctgttcggc acaaaagccc ctgccatggc tgtgcggaca 120
ctgctcgttg gagtggacac aagcgaggaa gccctgcggc ctttcagcac cctgacacct 180
acaaccgacg agctgcaaga gcggctggac ttcctgctga gagagtggac aaacgccaca 240
cagtgggtgc tcgaacagat ccggcacgac ctgttcgaga acaagagaga gatcctgctg 300
gccgctgccg gcaagcccga ttatgtggat gccacaagag ccagagagct gggctacctg 360
cagccttaca tcagagatgg caagagcgtg gaactgaagc tcggctctgg caccagcatc 420
ttcacaagaa gagtgctttg gtacgggaag cccaccaagg atacagtggc tatgccacag 480
gaagattcca aggtgaagtt ttgcgtggag ctgaccaagg ataacttcat tgaggtcgag 540
gtcatcgaca aggagagcgg cacctttggc attaagaagt tcgatagcca gcgcttcggc 600
ggcatgctga gcgccgccta cttcagcgag cgcctgcagg agcgcccata cgtctacggc 660
cctctgattg aggagttcat ccgccagcag ccacggaaca gactgcgcca gaagtacctg 720
tccccacagg agttcgtgag cggcgtgaac gaagtgatcc gccagaagtg cgccgagaac 780
gtgtgtggct ttctgaagaa gtaccaggcc gtgcagcctg aggtgaccaa gctgcttgac 840
aagcacatca aggacatcaa ctgcctggcc agcaagattg ccgagaccga ggagctccct 900
gatgatgccc gcgaggccta ccgcgccgtg cagaaggtca tcaacacccg caccgcctgc 960
gaccctgcca accctaccga tgtgcgcgtc tacgccgagt gggtcggcgg ctacaacggc 1020
cgcctgaacg agttcaagca ggtcctgcct gatctcttta ttgagaagtg gtccaccgag 1080
ctgaagcctc tggcccgcgt gaagggctac ccaagcttcc ctagctacgg cgagaacatc 1140
aacttcacct tccgcgacat cctggcccac ctggccaagt tcgctgagca cgatgagctg 1200
gtcagcgccg agcacatccg caactgggtg gataaggagt gggtggagcg cgagatccag 1260
cgcctgcgcc gcagccaccg cccaggcatg aagtccatcc acctgcctct gctgcgcaag 1320
gtcgcccgcg aggtgttcca gcgcactaac ggcaagatta tccacgagga gaagattcac 1380
gcccagtggc caaccgacaa cgccaagctg atcactgtgt ttaagggcat ccgcatcaag 1440
ctgcgccgcc acctggccga agtgatcgcc cacatcgagc gcgtgccaaa ggactgggcc 1500
gccaaccgct acctggtcga catctacacc accctggccc gcctgaactc cctggccctg 1560
ccacctactg aggagagccg ccgcgccttt gaggtgaacg ccctggccgg cgaggccaag 1620
ggcaccgtgc tggccctggc cgagggcatg aagcaggaga ttcaggtgag cggcctgtcc 1680
ctgcgcgccg acggcaacgg ctgggcactg gccaagcgcg cctgcctggc cgtggtgggc 1740
acccctcctc gcgagcgcct ggccctggtg ctggattaca gctccgagtc cgccattcgc 1800
ctgtcctccg acaacgtcag cggcgtccgc ggcttcggct tcatcggcgg cagcgagcgc 1860
cgcgaacgcc agacctcccg ctccctgacc gtgggcaacg tgaccggcaa gctgggccgc 1920
tacggcctga ttctgcctct gtccttcggc actagccagg cccggcgcta cctgtggctg 1980
tcccacaagc atcgcggcga cgagctgctg tctgccatcg aggccgccag cgtcaacatc 2040
aagaacgccc gcatcatccg cgagcagacc aagggcggga gccgcctgta cgtcgccctg 2100
gctgtggagc gcccatacgt gcctatcgac gccaccacca agcaggtgga gggctacatt 2160
ggcgtggacc gcggcgagtc cgccctggcc gtctttgctc gcgtcgatac caacggccgc 2220
ctgcaggaga ccccacagag ctttggcgag ctgcctaaga agatccgccg cgcctacaac 2280
cgggtccgcc agcagcagag ccaggccaag cgcctggtgg gcggcacctg gttcgcccac 2340
aagattgata actacgtccg ccagattgcc attagagccg tggatgccat gctgacccac 2400
tgctgcggca tcgccctgga gcacctgagc cggggcttcg cccgcggcgg caccgccagc 2460
tgggagcacc agtacactaa ggtcgccgat aagctgattg acgtgctgag ctttgccggc 2520
ttcactgtgc caactaacgg cgagctcttc cctctgggcg tgaagagcaa gcaccactgg 2580
ttcggcgcca tcccacctgg caacaccagc cggacctgcc ctaagtgcgc cgccgtgtgg 2640
tccaacccaa ttgagctgaa gctggccaac ggcagcttca ccctgaccta ccgcgatgag 2700
ctgcgcgaga acattaaggc cctgaagctg gagcgcgatg tgagcggcgt gtggcatggc 2760
agctggctgg ccgacggcaa gaagatccag agcttcactc ctaagtccct gaaggagctg 2820
aacagcctga ccaacaagct ggccaccgcc aagggcgatg agcgccgcaa gctggagcgc 2880
gatatgctcg agctgttcaa gcaccgccac cgcaacacct acgaccgctt ttactgtctg 2940
ctgtgcaaca ttgagctgaa cgccgataag gtgggcgccc tgaacatcgc ccgcaaggcc 3000
atctaccagc tggagggcaa gccaccacag ggcatcagcc tggagaagga gaagcgccgc 3060
cagcactggc aggagtggta cagccgccag ctgaacgaca accactggtg ggatagcaag 3120
gtggagaaga tgctgaag 3138
<210>9
<211>138
<212>RNA
<213> Artificial sequence
<400>9
gcgcccguua guauuuucuu ugauucugua cgccugccgg ccccaccgga ugugacguac 60
uucgcgaaca ucaacgguuc agaaagaacc gcugacgcuc gcgaagaugg auucaaagag 120
ggcgacaccc uggugaac 138
<210>10
<211>133
<212>RNA
<213> Artificial sequence
<400>10
gcguuaguau uuucuuugau ucuguacgcc ugccggcccc accggaugug acguacuucg 60
cgaacaucaa cgguucuucg gaaccgcuga cgcucgcgaa gauggauuca aagagggcga 120
cacccuggug aac 133
<210>11
<211>175
<212>RNA
<213> Artificial sequence
<400>11
ggauugacug agguuggguu aguuugguuu uagcaaccuc agucagucac cggcaaaaaa 60
ccggucaccg gcaaaaaccg guugcaaaaa gaguauagau uguaaaagga agguuggaga 120
acaaccuucc uuuuacaacc uaugcucacu aaaacagggc gacacccugg ugaac 175
<210>12
<211>161
<212>RNA
<213> Artificial sequence
<400>12
ggucggccua ucuaacguuu gucugcgccg acacccgcaa ggguuauugg ggaaucagcg 60
aaucggcaga agcccguugc ccccagcacu auacaguuca aagggacgag aagucccuuu 120
gaacugaaaa gugcagcaga cagggcgaca cccuggugaa c 161
<210>13
<211>149
<212>RNA
<213> Artificial sequence
<400>13
gcguuagcug ucucuucgga ggcagauuua cuuugauucu uugcgccuuu acgucccacg 60
uauuugacgc aacucgcgaa cuucagcggu ucuucggaau cgcugacgcu cgcggggcug 120
guuucaaaga gggcgacacc cuggugaac 149
<210>14
<211>989
<212>DNA
<213> Artificial sequence
<400>14
gcgcacgagg gagcttccag ggggaaacgc ctggtatctt tatagtcctg tcgggtttcg 60
ccacctctga cttgagcgtc gatttttgtg atgctcgtca ggggggcgga gcctatggaa 120
aaacgccagc aacgcggcct ttttacggtt cctggccttt tgctggcctt ttgctcacat 180
gttctttcct gcgttatccc ctgattctgt ggataaccgt attaccgcct ttgagtgagc 240
tgataccgct cgccgcagcc gaacgaccga gcgcagcgag tcagtgagcg aggaagcgga 300
agagcgccca atacgcaaac cgcctctccc cgcgcgttgg ccgattcatt aatgcagctg 360
gcacgacagg tttcccgact ggaaagcggg cagtgagcgc aacgcaatta atgtgagtta 420
gctcactcat taggcacccc aggctttaca ctttatgctt ccggctcgta tgttgtgtgg 480
aattgtgagc ggataacaat ttcacacagg aaacagctat gaccatgatt acgccaagct 540
tgcatgcctg caggtcgact ctagatttta agggcgacac cctggtgaac cgcatcgagc 600
tgaagggcat cgacttcaag gaggacggca acatcctggg gcacaagctg gagtacaact 660
acaacagcca caacgtctat atcatggccg acaagcagaa gaacggcatc aaggtgaact 720
tcaagatccg ccacaacatc gaggacggca gcgtgcagct cgccgaccac taccagcaga 780
acacccccat cggcgacggc cccgtgctgc tgcccgacaa ccactacctg agcacccagt 840
ccgccctgag caaagacccc aacgagaagc gcgatcacat ggtcctgctg gagttcgtga 900
ccgccgccgg gatcactctc ggcatggacg agctgtacaa gtaacgagct cgaattcact 960
ggccgtcgtt ttacaacgtc gtgactggg 989

Claims (10)

1.CasX蛋白,为LesCasX蛋白、VemCasX蛋白或CkbCasX蛋白;
所述LesCasX蛋白为如下a1)或a2):
a1)氨基酸序列是SEQ ID NO:1所示的蛋白质;
a2)在SEQ ID NO:1所示的蛋白质的N端或/和C端连接标签得到的融合蛋白质;
所述VemCasX蛋白为如下b1)或b2):
b1)氨基酸序列是SEQ ID NO:3所示的蛋白质;
b2)在SEQ ID NO:3所示的蛋白质的N端或/和C端连接标签得到的融合蛋白质;
所述CkbCasX蛋白为如下d1)或d2):
d1)氨基酸序列是SEQ ID NO:7所示的蛋白质;
d2)在SEQ ID NO:7所示的蛋白质的N端或/和C端连接标签得到的融合蛋白质。
2.根据权利要求1所述的CasX蛋白,其特征在于:
所述LesCasX蛋白识别的PAM序列为TTA、TTG或TTT;
所述VemCasX蛋白识别的PAM序列为TTG、TTA或CTG;
所述CkbCasX蛋白识别的PAM序列为TTA、TTG或TTT。
3.编码权利要求1或2所述CasX蛋白的核酸分子。
4.根据权利要求3所述的核酸分子,其特征在于:
编码所述LesCasX蛋白的核酸分子为A1)或A2)所示的DNA分子:
A1)编码区为SEQ ID NO:2所示的DNA分子;
A2)核苷酸序列为SEQ ID NO:2所示的DNA分子;
编码所述VemCasX蛋白的核酸分子为B1)或B2)所示的DNA分子:
B1)编码区为SEQ ID NO:4所示的DNA分子;
B2)核苷酸序列为SEQ ID NO:4所示的DNA分子;
编码所述CkbCasX蛋白的核酸分子为D1)或D2)所示的DNA分子:
D1)编码区为SEQ ID NO:8所示的DNA分子;
D2)核苷酸序列为SEQ ID NO:8所示的DNA分子。
5.含有权利要求3或4所述核酸分子的表达盒、重组载体或重组微生物。
6.权利要求1或2所述CasX蛋白或权利要求3或4所述核酸分子在切割双链DNA中的应用。
7.根据权利要求6所述的应用,其特征在于:切割双链DNA时,
所述LesCasX蛋白识别的PAM序列为TTA、TTG或TTT;
所述VemCasX蛋白识别的PAM序列为TTG、TTA或CTG;
所述CkbCasX蛋白识别的PAM序列为TTA、TTG或TTT。
8.权利要求1或2所述CasX蛋白或权利要求3或4所述核酸分子在定向编辑基因组中的应用。
9.一种定向编辑基因组的CRISPR/Cas***,其特征在于:所述Cas蛋白为权利要求1或2所述CasX蛋白。
10.根据权利要求8所述的应用或权利要求9所述的CRISPR/Cas***,其特征在于:定向编辑基因组时,所述Cas蛋白切割双链DNA识别的PAM序列如下:
所述LesCasX蛋白识别的PAM序列为TTA、TTG或TTT;
所述VemCasX蛋白识别的PAM序列为TTG、TTA或CTG;
所述CkbCasX蛋白识别的PAM序列为TTA、TTG或TTT。
CN202210620492.9A 2022-06-02 2022-06-02 一种小型编辑基因组的CRISPR/Cas***及其专用的CasX蛋白 Active CN114958808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210620492.9A CN114958808B (zh) 2022-06-02 2022-06-02 一种小型编辑基因组的CRISPR/Cas***及其专用的CasX蛋白

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210620492.9A CN114958808B (zh) 2022-06-02 2022-06-02 一种小型编辑基因组的CRISPR/Cas***及其专用的CasX蛋白

Publications (2)

Publication Number Publication Date
CN114958808A CN114958808A (zh) 2022-08-30
CN114958808B true CN114958808B (zh) 2024-03-26

Family

ID=82958787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210620492.9A Active CN114958808B (zh) 2022-06-02 2022-06-02 一种小型编辑基因组的CRISPR/Cas***及其专用的CasX蛋白

Country Status (1)

Country Link
CN (1) CN114958808B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021050593A1 (en) * 2019-09-09 2021-03-18 Scribe Therapeutics Inc. Compositions and methods for the targeting of sod1
CN113481184A (zh) * 2021-08-06 2021-10-08 北京大学 融合蛋白以及其使用方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021050593A1 (en) * 2019-09-09 2021-03-18 Scribe Therapeutics Inc. Compositions and methods for the targeting of sod1
CN113481184A (zh) * 2021-08-06 2021-10-08 北京大学 融合蛋白以及其使用方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CasX enzymes comprise a distinct family of RNA-guided genome editors;Jun-jie Liu等;Nature;第566卷;第218-223页 *
GBD34782.1;GenPept;GenPept;序列 *
The development of gene editing tools with cryo-EM technology;刘俊杰;第七届全国冷冻电子显微学与结构生物学专题研讨会;摘要 *

Also Published As

Publication number Publication date
CN114958808A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
KR102623312B1 (ko) Ruvc 도메인이 존재하는 효소
CN102796728B (zh) 用于通过转座酶的dna片段化和标记的方法和组合物
KR20190059966A (ko) S. 피오게네스 cas9 돌연변이 유전자 및 이에 의해 암호화되는 폴리펩티드
JP2023519953A (ja) クラス2のii型crisprシステム
WO2021178934A1 (en) Class ii, type v crispr systems
JP2023539237A (ja) カーゴヌクレオチド配列を転位させるための系および方法
EP4127155A1 (en) Class ii, type ii crispr systems
US20220298494A1 (en) Enzymes with ruvc domains
CN114958808B (zh) 一种小型编辑基因组的CRISPR/Cas***及其专用的CasX蛋白
CN118139979A (zh) 具有hepn结构域的酶
WO2021226369A1 (en) Enzymes with ruvc domains
CN113549641B (zh) 一种核酶介导的多顺反子载体及其构建方法
WO2023039434A1 (en) Systems and methods for transposing cargo nucleotide sequences
CN118019843A (zh) Ii类v型crispr***
CN117511915A (zh) 制备甲酰胺嘧啶dna糖基化酶的方法
KR20230026987A (ko) Atp-의존성 dna 리가제
CN118076731A (zh) 涉及逆转座子和其功能片段的***、组合物和方法
JP2002522093A (ja) 核酸を含む生物学的標本中に潜在的に存在する機能の分離及び特徴づけ方法
CN117203332A (zh) 具有ruvc结构域的酶
CN115975975A (zh) 一种室温条件下具有扩增活性的dna聚合酶及其应用
CN116615547A (zh) 用于对货物核苷酸序列转座的***和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant