RU2778156C1 - DNA-CUTTING AGENT BASED ON THE Cas9 PROTEIN FROM THE BACTERIUM CAPNOCYTOPHAGA OCHRACEA - Google Patents
DNA-CUTTING AGENT BASED ON THE Cas9 PROTEIN FROM THE BACTERIUM CAPNOCYTOPHAGA OCHRACEA Download PDFInfo
- Publication number
- RU2778156C1 RU2778156C1 RU2021130308A RU2021130308A RU2778156C1 RU 2778156 C1 RU2778156 C1 RU 2778156C1 RU 2021130308 A RU2021130308 A RU 2021130308A RU 2021130308 A RU2021130308 A RU 2021130308A RU 2778156 C1 RU2778156 C1 RU 2778156C1
- Authority
- RU
- Russia
- Prior art keywords
- lys
- dna
- sequence
- leu
- glu
- Prior art date
Links
- 108010082319 CRISPR-Associated Protein 9 Proteins 0.000 title abstract description 24
- 241000190885 Capnocytophaga ochracea Species 0.000 title abstract description 10
- 229920003013 deoxyribonucleic acid Polymers 0.000 claims abstract description 108
- 102000004169 proteins and genes Human genes 0.000 claims description 65
- 108090000623 proteins and genes Proteins 0.000 claims description 65
- 229920002391 Guide RNA Polymers 0.000 claims description 34
- 108020005004 Guide RNA Proteins 0.000 claims description 34
- 229920001850 Nucleic acid sequence Polymers 0.000 claims description 34
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 27
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 229920001272 Exogenous DNA Polymers 0.000 claims description 10
- 238000005755 formation reaction Methods 0.000 claims description 10
- 125000000539 amino acid group Chemical group 0.000 claims description 6
- 108020004707 nucleic acids Proteins 0.000 claims description 6
- 150000007523 nucleic acids Chemical class 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 2
- 101700080605 NUC1 Proteins 0.000 abstract description 36
- 101700006494 nucA Proteins 0.000 abstract description 36
- 229920000033 CRISPR Polymers 0.000 abstract description 29
- 238000010356 CRISPR-Cas9 genome editing Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 6
- 230000001580 bacterial Effects 0.000 abstract description 4
- 230000004075 alteration Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 210000004027 cells Anatomy 0.000 description 37
- 229920000160 (ribonucleotides)n+m Polymers 0.000 description 29
- 239000002773 nucleotide Substances 0.000 description 17
- 125000003729 nucleotide group Chemical group 0.000 description 17
- 108010009298 lysylglutamic acid Proteins 0.000 description 16
- 238000010354 CRISPR gene editing Methods 0.000 description 15
- 229920001949 Transfer RNA Polymers 0.000 description 12
- 108010038633 aspartylglutamate Proteins 0.000 description 12
- JPNRPAJITHRXRH-UHFFFAOYSA-N Lysyl-Asparagine Chemical compound NCCCCC(N)C(=O)NC(C(O)=O)CC(N)=O JPNRPAJITHRXRH-UHFFFAOYSA-N 0.000 description 11
- 108010077850 Nuclear Localization Signals Proteins 0.000 description 11
- 238000000338 in vitro Methods 0.000 description 11
- 108010034529 leucyl-lysine Proteins 0.000 description 11
- CKAJHWFHHFSCDT-WHFBIAKZSA-N Asp-Glu Chemical compound OC(=O)C[C@H](N)C(=O)N[C@H](C(O)=O)CCC(O)=O CKAJHWFHHFSCDT-WHFBIAKZSA-N 0.000 description 10
- JYOAXOMPIXKMKK-UHFFFAOYSA-N Leucyl-Glutamine Chemical compound CC(C)CC(N)C(=O)NC(C(O)=O)CCC(N)=O JYOAXOMPIXKMKK-UHFFFAOYSA-N 0.000 description 10
- 108010054155 lysyllysine Proteins 0.000 description 10
- QJMCHPGWFZZRID-UHFFFAOYSA-N Asparaginyl-Lysine Chemical compound NCCCCC(C(O)=O)NC(=O)C(N)CC(N)=O QJMCHPGWFZZRID-UHFFFAOYSA-N 0.000 description 9
- BBBXWRGITSUJPB-YUMQZZPRSA-N Glu-Lys Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)[C@@H](N)CCC(O)=O BBBXWRGITSUJPB-YUMQZZPRSA-N 0.000 description 9
- OTXBNHIUIHNGAO-UWVGGRQHSA-N Leu-Lys Chemical compound CC(C)C[C@H](N)C(=O)N[C@H](C(O)=O)CCCCN OTXBNHIUIHNGAO-UWVGGRQHSA-N 0.000 description 9
- UGTZHPSKYRIGRJ-YUMQZZPRSA-N Lys-Glu Chemical compound NCCCC[C@H](N)C(=O)N[C@H](C(O)=O)CCC(O)=O UGTZHPSKYRIGRJ-YUMQZZPRSA-N 0.000 description 9
- QXRNAOYBCYVZCD-BQBZGAKWSA-N (2S)-6-amino-2-[[(2S)-2-aminopropanoyl]amino]hexanoic acid Chemical compound C[C@H](N)C(=O)N[C@H](C(O)=O)CCCCN QXRNAOYBCYVZCD-BQBZGAKWSA-N 0.000 description 8
- TWVKGYNQQAUNRN-ACZMJKKPSA-N Ile-Ser Chemical compound CC[C@H](C)[C@H]([NH3+])C(=O)N[C@@H](CO)C([O-])=O TWVKGYNQQAUNRN-ACZMJKKPSA-N 0.000 description 8
- UWBDLNOCIDGPQE-UHFFFAOYSA-N Isoleucyl-Lysine Chemical compound CCC(C)C(N)C(=O)NC(C(O)=O)CCCCN UWBDLNOCIDGPQE-UHFFFAOYSA-N 0.000 description 8
- NVGBPTNZLWRQSY-UWVGGRQHSA-N Lys-Lys Chemical compound NCCCC[C@H](N)C(=O)N[C@H](C(O)=O)CCCCN NVGBPTNZLWRQSY-UWVGGRQHSA-N 0.000 description 8
- DSGIVWSDDRDJIO-ZXXMMSQZSA-N Thr-Thr Chemical compound C[C@@H](O)[C@H](N)C(=O)N[C@@H]([C@@H](C)O)C(O)=O DSGIVWSDDRDJIO-ZXXMMSQZSA-N 0.000 description 8
- 108010062796 arginyllysine Proteins 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000000295 complement Effects 0.000 description 8
- 108010015792 glycyllysine Proteins 0.000 description 8
- 108010017391 lysylvaline Proteins 0.000 description 8
- 239000000700 tracer Substances 0.000 description 8
- YBAFDPFAUTYYRW-YUMQZZPRSA-N Glu-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@@H](N)CCC(O)=O YBAFDPFAUTYYRW-YUMQZZPRSA-N 0.000 description 7
- XGDCYUQSFDQISZ-BQBZGAKWSA-N Leu-Ser Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](CO)C(O)=O XGDCYUQSFDQISZ-BQBZGAKWSA-N 0.000 description 7
- HZYHBDVRCBDJJV-HAFWLYHUSA-N Ile-Asn Chemical compound CC[C@H](C)[C@H](N)C(=O)N[C@H](C(O)=O)CC(N)=O HZYHBDVRCBDJJV-HAFWLYHUSA-N 0.000 description 6
- RAXXELZNTBOGNW-UHFFFAOYSA-N Imidazole Chemical compound C1=CNC=N1 RAXXELZNTBOGNW-UHFFFAOYSA-N 0.000 description 6
- LRKCBIUDWAXNEG-CSMHCCOUSA-N Leu-Thr Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H]([C@@H](C)O)C(O)=O LRKCBIUDWAXNEG-CSMHCCOUSA-N 0.000 description 6
- FMIIKPHLJKUXGE-GUBZILKMSA-N Lys-Ile Chemical compound CC[C@H](C)[C@@H](C(O)=O)NC(=O)[C@@H](N)CCCCN FMIIKPHLJKUXGE-GUBZILKMSA-N 0.000 description 6
- YKRQRPFODDJQTC-UHFFFAOYSA-N Threoninyl-Lysine Chemical compound CC(O)C(N)C(=O)NC(C(O)=O)CCCCN YKRQRPFODDJQTC-UHFFFAOYSA-N 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000006011 modification reaction Methods 0.000 description 6
- 108010026333 seryl-proline Proteins 0.000 description 6
- JQFZHHSQMKZLRU-IUCAKERBSA-N Arg-Lys Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)[C@@H](N)CCCN=C(N)N JQFZHHSQMKZLRU-IUCAKERBSA-N 0.000 description 5
- RJUHZPRQRQLCFL-IMJSIDKUSA-N Asn-Asn Chemical compound NC(=O)C[C@H](N)C(=O)N[C@@H](CC(N)=O)C(O)=O RJUHZPRQRQLCFL-IMJSIDKUSA-N 0.000 description 5
- SJUXYGVRSGTPMC-UHFFFAOYSA-N Asparaginyl-Alanine Chemical compound OC(=O)C(C)NC(=O)C(N)CC(N)=O SJUXYGVRSGTPMC-UHFFFAOYSA-N 0.000 description 5
- HXWUJJADFMXNKA-UHFFFAOYSA-N Asparaginyl-Leucine Chemical compound CC(C)CC(C(O)=O)NC(=O)C(N)CC(N)=O HXWUJJADFMXNKA-UHFFFAOYSA-N 0.000 description 5
- JSIQVRIXMINMTA-ZDLURKLDSA-N Glu-Thr Chemical compound C[C@@H](O)[C@@H](C(O)=O)NC(=O)[C@@H](N)CCC(O)=O JSIQVRIXMINMTA-ZDLURKLDSA-N 0.000 description 5
- ARPVSMCNIDAQBO-UHFFFAOYSA-N Glutaminyl-Leucine Chemical compound CC(C)CC(C(O)=O)NC(=O)C(N)CCC(N)=O ARPVSMCNIDAQBO-UHFFFAOYSA-N 0.000 description 5
- IKAIKUBBJHFNBZ-LURJTMIESA-N Gly-Lys Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)CN IKAIKUBBJHFNBZ-LURJTMIESA-N 0.000 description 5
- DRCKHKZYDLJYFQ-UHFFFAOYSA-N Isoleucyl-Threonine Chemical compound CCC(C)C(N)C(=O)NC(C(C)O)C(O)=O DRCKHKZYDLJYFQ-UHFFFAOYSA-N 0.000 description 5
- QOOWRKBDDXQRHC-BQBZGAKWSA-N L-lysyl-L-alanine Chemical compound OC(=O)[C@H](C)NC(=O)[C@@H](N)CCCCN QOOWRKBDDXQRHC-BQBZGAKWSA-N 0.000 description 5
- NFNVDJGXRFEYTK-YUMQZZPRSA-N Leu-Glu Chemical compound CC(C)C[C@H](N)C(=O)N[C@H](C(O)=O)CCC(O)=O NFNVDJGXRFEYTK-YUMQZZPRSA-N 0.000 description 5
- LESXFEZIFXFIQR-LURJTMIESA-N Leu-Gly Chemical compound CC(C)C[C@H](N)C(=O)NCC(O)=O LESXFEZIFXFIQR-LURJTMIESA-N 0.000 description 5
- VBKBDLMWICBSCY-IMJSIDKUSA-N Ser-Asp Chemical compound OC[C@H](N)C(=O)N[C@H](C(O)=O)CC(O)=O VBKBDLMWICBSCY-IMJSIDKUSA-N 0.000 description 5
- WBAXJMCUFIXCNI-WDSKDSINSA-N Ser-Pro Chemical compound OC[C@H](N)C(=O)N1CCC[C@H]1C(O)=O WBAXJMCUFIXCNI-WDSKDSINSA-N 0.000 description 5
- BXLYSRPHVMCOPS-UHFFFAOYSA-N Serinyl-Isoleucine Chemical compound CCC(C)C(C(O)=O)NC(=O)C(N)CO BXLYSRPHVMCOPS-UHFFFAOYSA-N 0.000 description 5
- JKHXYJKMNSSFFL-IUCAKERBSA-N Val-Lys Chemical compound CC(C)[C@H](N)C(=O)N[C@H](C(O)=O)CCCCN JKHXYJKMNSSFFL-IUCAKERBSA-N 0.000 description 5
- STTYIMSDIYISRG-WDSKDSINSA-N Val-Ser Chemical compound CC(C)[C@H](N)C(=O)N[C@@H](CO)C(O)=O STTYIMSDIYISRG-WDSKDSINSA-N 0.000 description 5
- 108010013835 arginine glutamate Proteins 0.000 description 5
- 108010092854 aspartyllysine Proteins 0.000 description 5
- UIIMBOGNXHQVGW-UHFFFAOYSA-M buffer Substances [Na+].OC([O-])=O UIIMBOGNXHQVGW-UHFFFAOYSA-M 0.000 description 5
- 210000003527 eukaryotic cell Anatomy 0.000 description 5
- 108010055341 glutamyl-glutamic acid Proteins 0.000 description 5
- 108010064235 lysylglycine Proteins 0.000 description 5
- KTGFOCFYOZQVRJ-UHFFFAOYSA-N 2-[(2-amino-3-methylpentanoyl)amino]pentanedioic acid Chemical compound CCC(C)C(N)C(=O)NC(C(O)=O)CCC(O)=O KTGFOCFYOZQVRJ-UHFFFAOYSA-N 0.000 description 4
- SNFUTDLOCQQRQD-UHFFFAOYSA-N 2-[(2-amino-4-carboxybutanoyl)amino]-3-methylpentanoic acid Chemical compound CCC(C)C(C(O)=O)NC(=O)C(N)CCC(O)=O SNFUTDLOCQQRQD-UHFFFAOYSA-N 0.000 description 4
- ZSOICJZJSRWNHX-ACZMJKKPSA-N Ala-Ile Chemical compound CC[C@H](C)[C@@H](C([O-])=O)NC(=O)[C@H](C)[NH3+] ZSOICJZJSRWNHX-ACZMJKKPSA-N 0.000 description 4
- VGRHZPNRCLAHQA-UHFFFAOYSA-N Aspartyl-Asparagine Chemical compound OC(=O)CC(N)C(=O)NC(CC(N)=O)C(O)=O VGRHZPNRCLAHQA-UHFFFAOYSA-N 0.000 description 4
- LSPKYLAFTPBWIL-BYPYZUCNSA-N Glu-Gly Chemical compound OC(=O)CC[C@H](N)C(=O)NCC(O)=O LSPKYLAFTPBWIL-BYPYZUCNSA-N 0.000 description 4
- PNMUAGGSDZXTHX-BYPYZUCNSA-N Gly-Gln Chemical compound NCC(=O)N[C@H](C(O)=O)CCC(N)=O PNMUAGGSDZXTHX-BYPYZUCNSA-N 0.000 description 4
- UCGDDTHMMVWVMV-FSPLSTOPSA-N Ile-Gly Chemical compound CC[C@H](C)[C@H](N)C(=O)NCC(O)=O UCGDDTHMMVWVMV-FSPLSTOPSA-N 0.000 description 4
- VYZAGTDAHUIRQA-WHFBIAKZSA-N L-alanyl-L-glutamic acid Chemical compound C[C@H](N)C(=O)N[C@H](C(O)=O)CCC(O)=O VYZAGTDAHUIRQA-WHFBIAKZSA-N 0.000 description 4
- JXNRXNCCROJZFB-RYUDHWBXSA-N L-tyrosyl-L-arginine Chemical compound NC(=N)NCCC[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CC=C(O)C=C1 JXNRXNCCROJZFB-RYUDHWBXSA-N 0.000 description 4
- MLTRLIITQPXHBJ-BQBZGAKWSA-N Leu-Asn Chemical compound CC(C)C[C@H](N)C(=O)N[C@H](C(O)=O)CC(N)=O MLTRLIITQPXHBJ-BQBZGAKWSA-N 0.000 description 4
- LHSGPCFBGJHPCY-STQMWFEESA-N Leu-Tyr Chemical compound CC(C)C[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CC=C(O)C=C1 LHSGPCFBGJHPCY-STQMWFEESA-N 0.000 description 4
- NPBGTPKLVJEOBE-IUCAKERBSA-N Lys-Arg Chemical compound NCCCC[C@H](N)C(=O)N[C@H](C(O)=O)CCCNC(N)=N NPBGTPKLVJEOBE-IUCAKERBSA-N 0.000 description 4
- CIOWSLJGLSUOME-BQBZGAKWSA-N Lys-Asp Chemical compound NCCCC[C@H](N)C(=O)N[C@H](C(O)=O)CC(O)=O CIOWSLJGLSUOME-BQBZGAKWSA-N 0.000 description 4
- HGNRJCINZYHNOU-LURJTMIESA-N Lys-Gly Chemical compound NCCCC[C@H](N)C(=O)NCC(O)=O HGNRJCINZYHNOU-LURJTMIESA-N 0.000 description 4
- 210000004940 Nucleus Anatomy 0.000 description 4
- HWMGTNOVUDIKRE-UWVGGRQHSA-N Phe-Asp Chemical compound OC(=O)C[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CC=CC=C1 HWMGTNOVUDIKRE-UWVGGRQHSA-N 0.000 description 4
- ROHDXJUFQVRDAV-UWVGGRQHSA-N Phe-Ser Chemical compound OC[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CC=CC=C1 ROHDXJUFQVRDAV-UWVGGRQHSA-N 0.000 description 4
- 241001147687 Staphylococcus auricularis Species 0.000 description 4
- UPJONISHZRADBH-XPUUQOCRSA-N Val-Glu Chemical compound CC(C)[C@H](N)C(=O)N[C@H](C(O)=O)CCC(O)=O UPJONISHZRADBH-XPUUQOCRSA-N 0.000 description 4
- GVRKWABULJAONN-UHFFFAOYSA-N Valyl-Threonine Chemical compound CC(C)C(N)C(=O)NC(C(C)O)C(O)=O GVRKWABULJAONN-UHFFFAOYSA-N 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 108010077245 asparaginyl-proline Proteins 0.000 description 4
- 108010040443 aspartyl-aspartic acid Proteins 0.000 description 4
- 108010093581 aspartyl-proline Proteins 0.000 description 4
- 108010068265 aspartyltyrosine Proteins 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 108010049041 glutamylalanine Proteins 0.000 description 4
- 108010050848 glycylleucine Proteins 0.000 description 4
- 108010025306 histidylleucine Proteins 0.000 description 4
- 108010092114 histidylphenylalanine Proteins 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 108010044374 isoleucyl-tyrosine Proteins 0.000 description 4
- 108010012058 leucyltyrosine Proteins 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 108010051242 phenylalanylserine Proteins 0.000 description 4
- FAPWRFPIFSIZLT-UHFFFAOYSA-M sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 4
- 108010051110 tyrosyl-lysine Proteins 0.000 description 4
- 108010073969 valyllysine Proteins 0.000 description 4
- OCYROESYHWUPBP-VGMNWLOBSA-N (2S,3R)-3-methyl-2-[[(2S)-pyrrolidin-1-ium-2-carbonyl]amino]pentanoate Chemical compound CC[C@@H](C)[C@@H](C(O)=O)NC(=O)[C@@H]1CCCN1 OCYROESYHWUPBP-VGMNWLOBSA-N 0.000 description 3
- XMBSYZWANAQXEV-UHFFFAOYSA-N 4-amino-5-[(1-carboxy-2-phenylethyl)amino]-5-oxopentanoic acid Chemical compound OC(=O)CCC(N)C(=O)NC(C(O)=O)CC1=CC=CC=C1 XMBSYZWANAQXEV-UHFFFAOYSA-N 0.000 description 3
- ALZVPLKYDKJKQU-XVKPBYJWSA-N Ala-Tyr Chemical compound C[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CC=C(O)C=C1 ALZVPLKYDKJKQU-XVKPBYJWSA-N 0.000 description 3
- PMGDADKJMCOXHX-BQBZGAKWSA-N Arg-Gln Chemical compound NC(=N)NCCC[C@H](N)C(=O)N[C@@H](CCC(N)=O)C(O)=O PMGDADKJMCOXHX-BQBZGAKWSA-N 0.000 description 3
- QYLJIYOGHRGUIH-CIUDSAMLSA-N Arg-Ile Chemical compound CC[C@H](C)[C@@H](C(O)=O)NC(=O)[C@@H](N)CCCNC(N)=N QYLJIYOGHRGUIH-CIUDSAMLSA-N 0.000 description 3
- SONUFGRSSMFHFN-IMJSIDKUSA-N Asn-Ser Chemical compound NC(=O)C[C@H](N)C(=O)N[C@@H](CO)C(O)=O SONUFGRSSMFHFN-IMJSIDKUSA-N 0.000 description 3
- KWBQPGIYEZKDEG-FSPLSTOPSA-N Asn-Val Chemical compound CC(C)[C@@H](C(O)=O)NC(=O)[C@@H](N)CC(N)=O KWBQPGIYEZKDEG-FSPLSTOPSA-N 0.000 description 3
- FRYULLIZUDQONW-IMJSIDKUSA-N Asp-Asp Chemical compound OC(=O)C[C@H](N)C(=O)N[C@@H](CC(O)=O)C(O)=O FRYULLIZUDQONW-IMJSIDKUSA-N 0.000 description 3
- JHFNSBBHKSZXKB-VKHMYHEASA-N Asp-Gly Chemical compound OC(=O)C[C@H](N)C(=O)NCC(O)=O JHFNSBBHKSZXKB-VKHMYHEASA-N 0.000 description 3
- NPDLYUOYAGBHFB-UHFFFAOYSA-N Asparaginyl-Arginine Chemical compound NC(=O)CC(N)C(=O)NC(C(O)=O)CCCNC(N)=N NPDLYUOYAGBHFB-UHFFFAOYSA-N 0.000 description 3
- UKGGPJNBONZZCM-WDSKDSINSA-N Aspartyl-L-proline Chemical compound OC(=O)C[C@H](N)C(=O)N1CCC[C@H]1C(O)=O UKGGPJNBONZZCM-WDSKDSINSA-N 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 3
- 108020004705 Codon Proteins 0.000 description 3
- KOSRFJWDECSPRO-WDSKDSINSA-N Glu-Glu Chemical compound OC(=O)CC[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(O)=O KOSRFJWDECSPRO-WDSKDSINSA-N 0.000 description 3
- BCCRXDTUTZHDEU-VKHMYHEASA-N Gly-Ser Chemical compound NCC(=O)N[C@@H](CO)C(O)=O BCCRXDTUTZHDEU-VKHMYHEASA-N 0.000 description 3
- MMFKFJORZBJVNF-UWVGGRQHSA-N His-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CN=CN1 MMFKFJORZBJVNF-UWVGGRQHSA-N 0.000 description 3
- WKXVAXOSIPTXEC-UHFFFAOYSA-N Isoleucyl-Aspartate Chemical compound CCC(C)C(N)C(=O)NC(C(O)=O)CC(O)=O WKXVAXOSIPTXEC-UHFFFAOYSA-N 0.000 description 3
- HFKJBCPRWWGPEY-BQBZGAKWSA-N L-arginyl-L-glutamic acid Chemical compound NC(=N)NCCC[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(O)=O HFKJBCPRWWGPEY-BQBZGAKWSA-N 0.000 description 3
- ATIPDCIQTUXABX-UWVGGRQHSA-N Lys-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@@H](N)CCCCN ATIPDCIQTUXABX-UWVGGRQHSA-N 0.000 description 3
- ZOKVLMBYDSIDKG-CSMHCCOUSA-N Lys-Thr Chemical compound C[C@@H](O)[C@@H](C(O)=O)NC(=O)[C@@H](N)CCCCN ZOKVLMBYDSIDKG-CSMHCCOUSA-N 0.000 description 3
- MYTOTTSMVMWVJN-STQMWFEESA-N Lys-Tyr Chemical compound NCCCC[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CC=C(O)C=C1 MYTOTTSMVMWVJN-STQMWFEESA-N 0.000 description 3
- YQAIUOWPSUOINN-IUCAKERBSA-N Lys-Val Chemical compound CC(C)[C@@H](C(O)=O)NC(=O)[C@@H](N)CCCCN YQAIUOWPSUOINN-IUCAKERBSA-N 0.000 description 3
- 101710011991 MYCBP2 Proteins 0.000 description 3
- IMTUWVJPCQPJEE-IUCAKERBSA-N Met-Lys Chemical compound CSCC[C@H](N)C(=O)N[C@H](C(O)=O)CCCCN IMTUWVJPCQPJEE-IUCAKERBSA-N 0.000 description 3
- 102100001279 PAM Human genes 0.000 description 3
- KLAONOISLHWJEE-UHFFFAOYSA-N Phenylalanyl-Glutamine Chemical compound NC(=O)CCC(C(O)=O)NC(=O)C(N)CC1=CC=CC=C1 KLAONOISLHWJEE-UHFFFAOYSA-N 0.000 description 3
- BQBCIBCLXBKYHW-CSMHCCOUSA-N Thr-Leu Chemical compound CC(C)C[C@@H](C([O-])=O)NC(=O)[C@@H]([NH3+])[C@@H](C)O BQBCIBCLXBKYHW-CSMHCCOUSA-N 0.000 description 3
- PDSLRCZINIDLMU-QWRGUYRKSA-N Tyr-Glu Chemical compound OC(=O)CC[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CC=C(O)C=C1 PDSLRCZINIDLMU-QWRGUYRKSA-N 0.000 description 3
- AOLHUMAVONBBEZ-STQMWFEESA-N Tyr-Lys Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CC=C(O)C=C1 AOLHUMAVONBBEZ-STQMWFEESA-N 0.000 description 3
- 241000700605 Viruses Species 0.000 description 3
- 238000007792 addition Methods 0.000 description 3
- 108010008355 arginyl-glutamine Proteins 0.000 description 3
- 108010069205 aspartyl-phenylalanine Proteins 0.000 description 3
- 108010047857 aspartylglycine Proteins 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 3
- KGNSGRRALVIRGR-UHFFFAOYSA-N gln-tyr Chemical compound NC(=O)CCC(N)C(=O)NC(C(O)=O)CC1=CC=C(O)C=C1 KGNSGRRALVIRGR-UHFFFAOYSA-N 0.000 description 3
- 108010078144 glutaminyl-glycine Proteins 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 108010010147 glycylglutamine Proteins 0.000 description 3
- 108010037850 glycylvaline Proteins 0.000 description 3
- 108010028295 histidylhistidine Proteins 0.000 description 3
- 108010053037 kyotorphin Proteins 0.000 description 3
- 108010057821 leucylproline Proteins 0.000 description 3
- 239000012139 lysis buffer Substances 0.000 description 3
- 230000001404 mediated Effects 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 238000002703 mutagenesis Methods 0.000 description 3
- 231100000350 mutagenesis Toxicity 0.000 description 3
- 108010012581 phenylalanylglutamate Proteins 0.000 description 3
- 229920002401 polyacrylamide Polymers 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000002194 synthesizing Effects 0.000 description 3
- VNYDHJARLHNEGA-RYUDHWBXSA-N (2S)-1-[(2S)-2-azaniumyl-3-(4-hydroxyphenyl)propanoyl]pyrrolidine-2-carboxylate Chemical compound C([C@H](N)C(=O)N1[C@@H](CCC1)C(O)=O)C1=CC=C(O)C=C1 VNYDHJARLHNEGA-RYUDHWBXSA-N 0.000 description 2
- FAQVCWVVIYYWRR-WHFBIAKZSA-N (2S)-2-[[(2S)-2,5-diamino-5-oxopentanoyl]amino]propanoic acid Chemical compound OC(=O)[C@H](C)NC(=O)[C@@H](N)CCC(N)=O FAQVCWVVIYYWRR-WHFBIAKZSA-N 0.000 description 2
- BUZMZDDKFCSKOT-CIUDSAMLSA-N (2S)-2-[[(2S)-2-[[(2S)-2-amino-4-carboxybutanoyl]amino]-4-carboxybutanoyl]amino]pentanedioic acid Chemical compound OC(=O)CC[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCC(O)=O)C(O)=O BUZMZDDKFCSKOT-CIUDSAMLSA-N 0.000 description 2
- ICYRCNICGBJLGM-HJGDQZAQSA-N (2S)-2-[[(2S,3R)-2-[[(2S)-2-amino-4-methylpentanoyl]amino]-3-hydroxybutanoyl]amino]butanedioic acid Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@H](C(O)=O)CC(O)=O ICYRCNICGBJLGM-HJGDQZAQSA-N 0.000 description 2
- LENZDBCJOHFCAS-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 2
- TUTIHHSZKFBMHM-UHFFFAOYSA-N 4-amino-5-[(3-amino-1-carboxy-3-oxopropyl)amino]-5-oxopentanoic acid Chemical compound OC(=O)CCC(N)C(=O)NC(CC(N)=O)C(O)=O TUTIHHSZKFBMHM-UHFFFAOYSA-N 0.000 description 2
- HKTRDWYCAUTRRL-UHFFFAOYSA-N 4-amino-5-[[1-carboxy-2-(1H-imidazol-5-yl)ethyl]amino]-5-oxopentanoic acid Chemical compound OC(=O)CCC(N)C(=O)NC(C(O)=O)CC1=CN=CN1 HKTRDWYCAUTRRL-UHFFFAOYSA-N 0.000 description 2
- 229960000643 Adenine Drugs 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Natural products NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- CCUAQNUWXLYFRA-IMJSIDKUSA-N Ala-Asn Chemical compound C[C@H]([NH3+])C(=O)N[C@H](C([O-])=O)CC(N)=O CCUAQNUWXLYFRA-IMJSIDKUSA-N 0.000 description 2
- HJCMDXDYPOUFDY-WHFBIAKZSA-N Ala-Gln Chemical compound C[C@H](N)C(=O)N[C@H](C(O)=O)CCC(N)=O HJCMDXDYPOUFDY-WHFBIAKZSA-N 0.000 description 2
- XZWXFWBHYRFLEF-FSPLSTOPSA-N Ala-His Chemical compound C[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CN=CN1 XZWXFWBHYRFLEF-FSPLSTOPSA-N 0.000 description 2
- RDIKFPRVLJLMER-BQBZGAKWSA-N Ala-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](C)N RDIKFPRVLJLMER-BQBZGAKWSA-N 0.000 description 2
- BUQICHWNXBIBOG-LMVFSUKVSA-N Ala-Thr Chemical compound C[C@@H](O)[C@@H](C(O)=O)NC(=O)[C@H](C)N BUQICHWNXBIBOG-LMVFSUKVSA-N 0.000 description 2
- IJYZHIOOBGIINM-WDSKDSINSA-N Arg-Ser Chemical compound OC[C@@H](C(O)=O)NC(=O)[C@@H](N)CCCN=C(N)N IJYZHIOOBGIINM-WDSKDSINSA-N 0.000 description 2
- JSLGXODUIAFWCF-UHFFFAOYSA-N Arginyl-Asparagine Chemical compound NC(N)=NCCCC(N)C(=O)NC(CC(N)=O)C(O)=O JSLGXODUIAFWCF-UHFFFAOYSA-N 0.000 description 2
- BNODVYXZAAXSHW-UHFFFAOYSA-N Arginyl-Histidine Chemical compound NC(=N)NCCCC(N)C(=O)NC(C(O)=O)CC1=CN=CN1 BNODVYXZAAXSHW-UHFFFAOYSA-N 0.000 description 2
- KLKHFFMNGWULBN-VKHMYHEASA-N Asn-Gly Chemical compound NC(=O)C[C@H](N)C(=O)NCC(O)=O KLKHFFMNGWULBN-VKHMYHEASA-N 0.000 description 2
- OAMLVOVXNKILLQ-BQBZGAKWSA-N Asp-Lys Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)[C@@H](N)CC(O)=O OAMLVOVXNKILLQ-BQBZGAKWSA-N 0.000 description 2
- NALWOULWGHTVDA-UWVGGRQHSA-N Asp-Tyr Chemical compound OC(=O)C[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CC=C(O)C=C1 NALWOULWGHTVDA-UWVGGRQHSA-N 0.000 description 2
- OMSMPWHEGLNQOD-UHFFFAOYSA-N Asparaginyl-Phenylalanine Chemical compound NC(=O)CC(N)C(=O)NC(C(O)=O)CC1=CC=CC=C1 OMSMPWHEGLNQOD-UHFFFAOYSA-N 0.000 description 2
- BSWHERGFUNMWGS-UHFFFAOYSA-N Aspartyl-Isoleucine Chemical compound CCC(C)C(C(O)=O)NC(=O)C(N)CC(O)=O BSWHERGFUNMWGS-UHFFFAOYSA-N 0.000 description 2
- 229940015062 Campylobacter jejuni Drugs 0.000 description 2
- 241000589875 Campylobacter jejuni Species 0.000 description 2
- 241001034636 Capnocytophaga ochracea DSM 7271 Species 0.000 description 2
- 241000186227 Corynebacterium diphtheriae Species 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- LOJYQMFIIJVETK-WDSKDSINSA-N Gln-Gln Chemical compound NC(=O)CC[C@H](N)C(=O)N[C@@H](CCC(N)=O)C(O)=O LOJYQMFIIJVETK-WDSKDSINSA-N 0.000 description 2
- OWOFCNWTMWOOJJ-WDSKDSINSA-N Gln-Glu Chemical compound NC(=O)CC[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(O)=O OWOFCNWTMWOOJJ-WDSKDSINSA-N 0.000 description 2
- JEFZIKRIDLHOIF-BYPYZUCNSA-N Gln-Gly Chemical compound NC(=O)CC[C@H](N)C(=O)NCC(O)=O JEFZIKRIDLHOIF-BYPYZUCNSA-N 0.000 description 2
- YSWHPLCDIMUKFE-QWRGUYRKSA-N Glu-Tyr Chemical compound OC(=O)CC[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CC=C(O)C=C1 YSWHPLCDIMUKFE-QWRGUYRKSA-N 0.000 description 2
- CLSDNFWKGFJIBZ-UHFFFAOYSA-N Glutaminyl-Lysine Chemical compound NCCCCC(C(O)=O)NC(=O)C(N)CCC(N)=O CLSDNFWKGFJIBZ-UHFFFAOYSA-N 0.000 description 2
- VHLZDSUANXBJHW-UHFFFAOYSA-N Glutaminyl-Phenylalanine Chemical compound NC(=O)CCC(N)C(=O)NC(C(O)=O)CC1=CC=CC=C1 VHLZDSUANXBJHW-UHFFFAOYSA-N 0.000 description 2
- SCCPDJAQCXWPTF-VKHMYHEASA-N Gly-Asp Chemical compound NCC(=O)N[C@H](C(O)=O)CC(O)=O SCCPDJAQCXWPTF-VKHMYHEASA-N 0.000 description 2
- KGVHCTWYMPWEGN-FSPLSTOPSA-N Gly-Ile Chemical compound CC[C@H](C)[C@@H](C(O)=O)NC(=O)CN KGVHCTWYMPWEGN-FSPLSTOPSA-N 0.000 description 2
- DKEXFJVMVGETOO-LURJTMIESA-N Gly-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)CN DKEXFJVMVGETOO-LURJTMIESA-N 0.000 description 2
- JBCLFWXMTIKCCB-VIFPVBQESA-N Gly-Phe Chemical compound NCC(=O)N[C@H](C(O)=O)CC1=CC=CC=C1 JBCLFWXMTIKCCB-VIFPVBQESA-N 0.000 description 2
- XBGGUPMXALFZOT-VIFPVBQESA-N Gly-Tyr Chemical compound NCC(=O)N[C@H](C(O)=O)CC1=CC=C(O)C=C1 XBGGUPMXALFZOT-VIFPVBQESA-N 0.000 description 2
- FRJIAZKQGSCKPQ-FSPLSTOPSA-N His-Ala Chemical compound OC(=O)[C@H](C)NC(=O)[C@@H](N)CC1=CN=CN1 FRJIAZKQGSCKPQ-FSPLSTOPSA-N 0.000 description 2
- CZVQSYNVUHAILZ-UWVGGRQHSA-N His-Lys Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CN=CN1 CZVQSYNVUHAILZ-UWVGGRQHSA-N 0.000 description 2
- KRBMQYPTDYSENE-BQBZGAKWSA-N His-Ser Chemical compound OC[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CNC=N1 KRBMQYPTDYSENE-BQBZGAKWSA-N 0.000 description 2
- HYXQKVOADYPQEA-CIUDSAMLSA-N Ile-Arg Chemical compound CC[C@H](C)[C@H](N)C(=O)N[C@H](C(O)=O)CCCN=C(N)N HYXQKVOADYPQEA-CIUDSAMLSA-N 0.000 description 2
- BCVIOZZGJNOEQS-XKNYDFJKSA-N Ile-Ile Chemical compound CC[C@H](C)[C@H](N)C(=O)N[C@H](C(O)=O)[C@@H](C)CC BCVIOZZGJNOEQS-XKNYDFJKSA-N 0.000 description 2
- JWBXCSQZLLIOCI-GUBZILKMSA-N Ile-Leu Chemical compound CC[C@H](C)[C@H](N)C(=O)N[C@H](C(O)=O)CC(C)C JWBXCSQZLLIOCI-GUBZILKMSA-N 0.000 description 2
- BBIXOODYWPFNDT-CIUDSAMLSA-N Ile-Pro Chemical compound CC[C@H](C)[C@H](N)C(=O)N1CCC[C@H]1C(O)=O BBIXOODYWPFNDT-CIUDSAMLSA-N 0.000 description 2
- 241000880493 Leptailurus serval Species 0.000 description 2
- DVCSNHXRZUVYAM-BQBZGAKWSA-N Leu-Asp Chemical compound CC(C)C[C@H](N)C(=O)N[C@H](C(O)=O)CC(O)=O DVCSNHXRZUVYAM-BQBZGAKWSA-N 0.000 description 2
- XWOBNBRUDDUEEY-UWVGGRQHSA-N Leu-His Chemical compound CC(C)C[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CNC=N1 XWOBNBRUDDUEEY-UWVGGRQHSA-N 0.000 description 2
- VTJUNIYRYIAIHF-IUCAKERBSA-N Leu-Pro Chemical compound CC(C)C[C@H](N)C(=O)N1CCC[C@H]1C(O)=O VTJUNIYRYIAIHF-IUCAKERBSA-N 0.000 description 2
- AIXUQKMMBQJZCU-IUCAKERBSA-N Lys-Pro Chemical compound NCCCC[C@H](N)C(=O)N1CCC[C@H]1C(O)=O AIXUQKMMBQJZCU-IUCAKERBSA-N 0.000 description 2
- IGRMTQMIDNDFAA-UHFFFAOYSA-N Lysyl-Histidine Chemical compound NCCCCC(N)C(=O)NC(C(O)=O)CC1=CN=CN1 IGRMTQMIDNDFAA-UHFFFAOYSA-N 0.000 description 2
- ADHNYKZHPOEULM-BQBZGAKWSA-N Met-Glu Chemical compound CSCC[C@H](N)C(=O)N[C@H](C(O)=O)CCC(O)=O ADHNYKZHPOEULM-BQBZGAKWSA-N 0.000 description 2
- JWBLQDDHSDGEGR-DRZSPHRISA-N Phe-Ile Chemical compound CC[C@H](C)[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CC=CC=C1 JWBLQDDHSDGEGR-DRZSPHRISA-N 0.000 description 2
- NYQBYASWHVRESG-MIMYLULJSA-N Phe-Thr Chemical compound C[C@@H](O)[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CC=CC=C1 NYQBYASWHVRESG-MIMYLULJSA-N 0.000 description 2
- FSXRLASFHBWESK-HOTGVXAUSA-N Phe-Tyr Chemical compound C([C@H](N)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)C1=CC=CC=C1 FSXRLASFHBWESK-HOTGVXAUSA-N 0.000 description 2
- FADYJNXDPBKVCA-UHFFFAOYSA-N Phenylalanyl-Lysine Chemical compound NCCCCC(C(O)=O)NC(=O)C(N)CC1=CC=CC=C1 FADYJNXDPBKVCA-UHFFFAOYSA-N 0.000 description 2
- ZKQOUHVVXABNDG-IUCAKERBSA-N Pro-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@@H]1CCCN1 ZKQOUHVVXABNDG-IUCAKERBSA-N 0.000 description 2
- 108010025216 RVF peptide Proteins 0.000 description 2
- 229920000970 Repeated sequence (DNA) Polymers 0.000 description 2
- 101710016504 SMPD3 Proteins 0.000 description 2
- LAFKUZYWNCHOHT-WHFBIAKZSA-N Ser-Glu Chemical compound OC[C@H](N)C(=O)N[C@H](C(O)=O)CCC(O)=O LAFKUZYWNCHOHT-WHFBIAKZSA-N 0.000 description 2
- NFDYGNFETJVMSE-BQBZGAKWSA-N Ser-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@@H](N)CO NFDYGNFETJVMSE-BQBZGAKWSA-N 0.000 description 2
- PPQRSMGDOHLTBE-UWVGGRQHSA-N Ser-Phe Chemical compound OC[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CC=CC=C1 PPQRSMGDOHLTBE-UWVGGRQHSA-N 0.000 description 2
- XZKQVQKUZMAADP-IMJSIDKUSA-N Ser-Ser Chemical compound OC[C@H](N)C(=O)N[C@@H](CO)C(O)=O XZKQVQKUZMAADP-IMJSIDKUSA-N 0.000 description 2
- ILVGMCVCQBJPSH-WDSKDSINSA-N Ser-Val Chemical compound CC(C)[C@@H](C(O)=O)NC(=O)[C@@H](N)CO ILVGMCVCQBJPSH-WDSKDSINSA-N 0.000 description 2
- NHUHCSRWZMLRLA-UHFFFAOYSA-N Sulfizole Chemical compound CC1=NOC(NS(=O)(=O)C=2C=CC(N)=CC=2)=C1C NHUHCSRWZMLRLA-UHFFFAOYSA-N 0.000 description 2
- 239000012505 Superdex™ Substances 0.000 description 2
- 238000010459 TALEN Methods 0.000 description 2
- GXDLGHLJTHMDII-WISUUJSJSA-N Thr-Ser Chemical compound C[C@@H](O)[C@H](N)C(=O)N[C@@H](CO)C(O)=O GXDLGHLJTHMDII-WISUUJSJSA-N 0.000 description 2
- KAFKKRJQHOECGW-JCOFBHIZSA-N Thr-Trp Chemical compound C1=CC=C2C(C[C@H](NC(=O)[C@@H](N)[C@H](O)C)C(O)=O)=CNC2=C1 KAFKKRJQHOECGW-JCOFBHIZSA-N 0.000 description 2
- LUMXICQAOKVQOB-UHFFFAOYSA-N Threoninyl-Isoleucine Chemical compound CCC(C)C(C(O)=O)NC(=O)C(N)C(C)O LUMXICQAOKVQOB-UHFFFAOYSA-N 0.000 description 2
- CKHWEVXPLJBEOZ-UHFFFAOYSA-N Threoninyl-Valine Chemical compound CC(C)C(C(O)=O)NC(=O)C(N)C(C)O CKHWEVXPLJBEOZ-UHFFFAOYSA-N 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N Thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- UBAQSAUDKMIEQZ-QWRGUYRKSA-N Tyr-Gln Chemical compound NC(=O)CC[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CC=C(O)C=C1 UBAQSAUDKMIEQZ-QWRGUYRKSA-N 0.000 description 2
- QJKMCQRFHJRIPU-XDTLVQLUSA-N Tyr-Ile Chemical compound CC[C@H](C)[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CC=C(O)C=C1 QJKMCQRFHJRIPU-XDTLVQLUSA-N 0.000 description 2
- PNVLWFYAPWAQMU-CIUDSAMLSA-N Val-Ile Chemical compound CC[C@H](C)[C@@H](C(O)=O)NC(=O)[C@@H](N)C(C)C PNVLWFYAPWAQMU-CIUDSAMLSA-N 0.000 description 2
- GIAZPLMMQOERPN-YUMQZZPRSA-N Val-Pro Chemical compound CC(C)[C@H](N)C(=O)N1CCC[C@H]1C(O)=O GIAZPLMMQOERPN-YUMQZZPRSA-N 0.000 description 2
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 2
- 238000001042 affinity chromatography Methods 0.000 description 2
- 239000011543 agarose gel Substances 0.000 description 2
- 108010044940 alanylglutamine Proteins 0.000 description 2
- 108010070944 alanylhistidine Proteins 0.000 description 2
- 108010011559 alanylphenylalanine Proteins 0.000 description 2
- 108010070783 alanyltyrosine Proteins 0.000 description 2
- 150000001413 amino acids Chemical class 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 230000000875 corresponding Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010363 gene targeting Methods 0.000 description 2
- 230000002068 genetic Effects 0.000 description 2
- 238000010362 genome editing Methods 0.000 description 2
- 108010079547 glutamylmethionine Proteins 0.000 description 2
- STKYPAFSDFAEPH-LURJTMIESA-N gly-val Chemical compound CC(C)[C@@H](C(O)=O)NC(=O)CN STKYPAFSDFAEPH-LURJTMIESA-N 0.000 description 2
- 108010089804 glycyl-threonine Proteins 0.000 description 2
- 108010059898 glycyl-tyrosyl-lysine Proteins 0.000 description 2
- 108010081551 glycylphenylalanine Proteins 0.000 description 2
- 108010018006 histidylserine Proteins 0.000 description 2
- 238000006460 hydrolysis reaction Methods 0.000 description 2
- 108010027338 isoleucylcysteine Proteins 0.000 description 2
- 108010056582 methionylglutamic acid Proteins 0.000 description 2
- 238000000520 microinjection Methods 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N p-acetaminophenol Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 2
- 239000008188 pellet Substances 0.000 description 2
- 108010015796 prolylisoleucine Proteins 0.000 description 2
- 108010090894 prolylleucine Proteins 0.000 description 2
- 108010053725 prolylvaline Proteins 0.000 description 2
- 239000011780 sodium chloride Substances 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000001890 transfection Methods 0.000 description 2
- SITLTJHOQZFJGG-XPUUQOCRSA-N α-Glu-Val Chemical compound CC(C)[C@@H](C(O)=O)NC(=O)[C@@H](N)CCC(O)=O SITLTJHOQZFJGG-XPUUQOCRSA-N 0.000 description 2
- DXJZITDUDUPINW-UHFFFAOYSA-N γ-glutamyl-Asparagine Chemical compound NC(=O)CCC(N)C(=O)NC(CC(N)=O)C(O)=O DXJZITDUDUPINW-UHFFFAOYSA-N 0.000 description 2
- XITLYYAIPBBHPX-UHFFFAOYSA-N γ-glutamyl-Isoleucine Chemical compound CCC(C)C(C(O)=O)NC(=O)C(N)CCC(N)=O XITLYYAIPBBHPX-UHFFFAOYSA-N 0.000 description 2
- JSZMKEYEVLDPDO-ACZMJKKPSA-N (2R)-2-[[(2S,3S)-2-amino-3-methylpentanoyl]amino]-3-sulfanylpropanoic acid Chemical compound CC[C@H](C)[C@H](N)C(=O)N[C@@H](CS)C(O)=O JSZMKEYEVLDPDO-ACZMJKKPSA-N 0.000 description 1
- CZPAHAKGPDUIPJ-CIUDSAMLSA-N (2S)-1-[(2S)-5-amino-2-[[(2S)-2-aminopropanoyl]amino]-5-oxopentanoyl]pyrrolidine-2-carboxylic acid Chemical compound C[C@H](N)C(=O)N[C@@H](CCC(N)=O)C(=O)N1CCC[C@H]1C(O)=O CZPAHAKGPDUIPJ-CIUDSAMLSA-N 0.000 description 1
- KAJLHCWRWDSROH-BZSNNMDCSA-N (2S)-2-[[(2S)-2-[[(2S)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]butanedioic acid Chemical compound C([C@H](N)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](CC(O)=O)C(O)=O)C1=CC=CC=C1 KAJLHCWRWDSROH-BZSNNMDCSA-N 0.000 description 1
- ZAVCJRJOQKIOJW-KKUMJFAQSA-N (2S)-2-[[(2S)-2-[[(2S)-2-amino-4-methylpentanoyl]amino]-3-phenylpropanoyl]amino]butanedioic acid Chemical compound CC(C)C[C@H](N)C(=O)N[C@H](C(=O)N[C@@H](CC(O)=O)C(O)=O)CC1=CC=CC=C1 ZAVCJRJOQKIOJW-KKUMJFAQSA-N 0.000 description 1
- XMAUFHMAAVTODF-STQMWFEESA-N (2S)-2-[[(2S)-2-amino-3-(1H-imidazol-5-yl)propanoyl]amino]-3-phenylpropanoic acid Chemical compound C([C@H](N)C(=O)N[C@@H](CC=1C=CC=CC=1)C(O)=O)C1=CN=CN1 XMAUFHMAAVTODF-STQMWFEESA-N 0.000 description 1
- LZDNBBYBDGBADK-KBPBESRZSA-N (2S)-2-[[(2S)-2-amino-3-methylbutanoyl]amino]-3-(1H-indol-3-yl)propanoic acid Chemical compound C1=CC=C2C(C[C@H](NC(=O)[C@@H](N)C(C)C)C(O)=O)=CNC2=C1 LZDNBBYBDGBADK-KBPBESRZSA-N 0.000 description 1
- VIWUBXKCYJGNCL-SRVKXCTJSA-N (2S)-2-[[(2S)-4-amino-2-[[(2S)-2-amino-4-methylpentanoyl]amino]-4-oxobutanoyl]amino]-3-(1H-imidazol-5-yl)propanoic acid Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@H](C(O)=O)CC1=CN=CN1 VIWUBXKCYJGNCL-SRVKXCTJSA-N 0.000 description 1
- NIZKGBJVCMRDKO-KWQFWETISA-N (2S)-2-[[2-[[(2S)-2-aminopropanoyl]amino]acetyl]amino]-3-(4-hydroxyphenyl)propanoic acid Chemical compound C[C@H](N)C(=O)NCC(=O)N[C@H](C(O)=O)CC1=CC=C(O)C=C1 NIZKGBJVCMRDKO-KWQFWETISA-N 0.000 description 1
- WTMZXOPHTIVFCP-QEWYBTABSA-N (4S)-4-amino-5-[[(2S,3S)-1-[[(1S)-1-carboxy-2-phenylethyl]amino]-3-methyl-1-oxopentan-2-yl]amino]-5-oxopentanoic acid Chemical compound OC(=O)CC[C@H](N)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@H](C(O)=O)CC1=CC=CC=C1 WTMZXOPHTIVFCP-QEWYBTABSA-N 0.000 description 1
- GGJOGFJIPPGNRK-JSGCOSHPSA-N (4S)-4-amino-5-[[2-[[(1S)-1-carboxy-2-(1H-indol-3-yl)ethyl]amino]-2-oxoethyl]amino]-5-oxopentanoic acid Chemical compound C1=CC=C2C(C[C@H](NC(=O)CNC(=O)[C@H](CCC(O)=O)N)C(O)=O)=CNC2=C1 GGJOGFJIPPGNRK-JSGCOSHPSA-N 0.000 description 1
- XUUXCWCKKCZEAW-YFKPBYRVSA-N 2-[[(2S)-2-amino-5-(diaminomethylideneamino)pentanoyl]amino]acetic acid Chemical compound OC(=O)CNC(=O)[C@@H](N)CCCN=C(N)N XUUXCWCKKCZEAW-YFKPBYRVSA-N 0.000 description 1
- DGVVWUTYPXICAM-UHFFFAOYSA-N 2-mercaptoethanol Chemical compound OCCS DGVVWUTYPXICAM-UHFFFAOYSA-N 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N 289-95-2 Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- MGHKSHCBDXNTHX-UHFFFAOYSA-N 4-amino-5-[(4-amino-1-carboxy-4-oxobutyl)amino]-5-oxopentanoic acid Chemical compound OC(=O)CCC(N)C(=O)NC(CCC(N)=O)C(O)=O MGHKSHCBDXNTHX-UHFFFAOYSA-N 0.000 description 1
- MPZWMIIOPAPAKE-UHFFFAOYSA-N 4-amino-5-[[1-carboxy-4-(diaminomethylideneamino)butyl]amino]-5-oxopentanoic acid Chemical compound OC(=O)CCC(N)C(=O)NC(C(O)=O)CCCN=C(N)N MPZWMIIOPAPAKE-UHFFFAOYSA-N 0.000 description 1
- OMNVYXHOSHNURL-WPRPVWTQSA-N Ala-Phe Chemical compound C[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CC=CC=C1 OMNVYXHOSHNURL-WPRPVWTQSA-N 0.000 description 1
- 108010011667 Ala-Phe-Ala Proteins 0.000 description 1
- IPWKGIFRRBGCJO-IMJSIDKUSA-N Ala-Ser Chemical compound C[C@H]([NH3+])C(=O)N[C@@H](CO)C([O-])=O IPWKGIFRRBGCJO-IMJSIDKUSA-N 0.000 description 1
- SITWEMZOJNKJCH-UHFFFAOYSA-N Alanyl-Arginine Chemical compound CC(N)C(=O)NC(C(O)=O)CCCNC(N)=N SITWEMZOJNKJCH-UHFFFAOYSA-N 0.000 description 1
- JQDFGZKKXBEANU-UHFFFAOYSA-N Alanyl-Cysteine Chemical compound CC(N)C(=O)NC(CS)C(O)=O JQDFGZKKXBEANU-UHFFFAOYSA-N 0.000 description 1
- 241000429837 Alternaria caespitosa Species 0.000 description 1
- XNSKSTRGQIPTSE-UHFFFAOYSA-N Arginyl-Threonine Chemical compound CC(O)C(C(O)=O)NC(=O)C(N)CCCNC(N)=N XNSKSTRGQIPTSE-UHFFFAOYSA-N 0.000 description 1
- QCWJKJLNCFEVPQ-WHFBIAKZSA-N Asn-Gln Chemical compound NC(=O)C[C@H](N)C(=O)N[C@H](C(O)=O)CCC(N)=O QCWJKJLNCFEVPQ-WHFBIAKZSA-N 0.000 description 1
- IIFDPDVJAHQFSR-WHFBIAKZSA-N Asn-Glu Chemical compound NC(=O)C[C@H](N)C(=O)N[C@H](C(O)=O)CCC(O)=O IIFDPDVJAHQFSR-WHFBIAKZSA-N 0.000 description 1
- FFMIYIMKQIMDPK-BQBZGAKWSA-N Asn-His Chemical compound NC(=O)C[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CN=CN1 FFMIYIMKQIMDPK-BQBZGAKWSA-N 0.000 description 1
- GADKFYNESXNRLC-WDSKDSINSA-N Asn-Pro Chemical compound NC(=O)C[C@H](N)C(=O)N1CCC[C@H]1C(O)=O GADKFYNESXNRLC-WDSKDSINSA-N 0.000 description 1
- FYRVDDJMNISIKJ-UWVGGRQHSA-N Asn-Tyr Chemical compound NC(=O)C[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CC=C(O)C=C1 FYRVDDJMNISIKJ-UWVGGRQHSA-N 0.000 description 1
- PSZNHSNIGMJYOZ-WDSKDSINSA-N Asp-Arg Chemical compound OC(=O)C[C@H](N)C(=O)N[C@H](C(O)=O)CCCN=C(N)N PSZNHSNIGMJYOZ-WDSKDSINSA-N 0.000 description 1
- GSMPSRPMQQDRIB-WHFBIAKZSA-N Asp-Gln Chemical compound OC(=O)C[C@H](N)C(=O)N[C@H](C(O)=O)CCC(N)=O GSMPSRPMQQDRIB-WHFBIAKZSA-N 0.000 description 1
- HSPSXROIMXIJQW-BQBZGAKWSA-N Asp-His Chemical compound OC(=O)C[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CNC=N1 HSPSXROIMXIJQW-BQBZGAKWSA-N 0.000 description 1
- YZQCXOFQZKCETR-UWVGGRQHSA-N Asp-Phe Chemical compound OC(=O)C[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CC=CC=C1 YZQCXOFQZKCETR-UWVGGRQHSA-N 0.000 description 1
- DWBZEJHQQIURML-IMJSIDKUSA-N Asp-Ser Chemical compound OC(=O)C[C@H](N)C(=O)N[C@@H](CO)C(O)=O DWBZEJHQQIURML-IMJSIDKUSA-N 0.000 description 1
- ZARXTZFGQZBYFO-JQWIXIFHSA-N Asp-Trp Chemical compound C1=CC=C2C(C[C@H](NC(=O)[C@H](CC(O)=O)N)C(O)=O)=CNC2=C1 ZARXTZFGQZBYFO-JQWIXIFHSA-N 0.000 description 1
- CPMKYMGGYUFOHS-FSPLSTOPSA-N Asp-Val Chemical compound CC(C)[C@@H](C(O)=O)NC(=O)[C@@H](N)CC(O)=O CPMKYMGGYUFOHS-FSPLSTOPSA-N 0.000 description 1
- MQLZLIYPFDIDMZ-UHFFFAOYSA-N Asparaginyl-Isoleucine Chemical compound CCC(C)C(C(O)=O)NC(=O)C(N)CC(N)=O MQLZLIYPFDIDMZ-UHFFFAOYSA-N 0.000 description 1
- IQTUDDBANZYMAR-UHFFFAOYSA-N Asparaginyl-Methionine Chemical compound CSCCC(C(O)=O)NC(=O)C(N)CC(N)=O IQTUDDBANZYMAR-UHFFFAOYSA-N 0.000 description 1
- RGGVDKVXLBOLNS-UHFFFAOYSA-N Asparaginyl-Tryptophan Chemical compound C1=CC=C2C(CC(NC(=O)C(CC(N)=O)N)C(O)=O)=CNC2=C1 RGGVDKVXLBOLNS-UHFFFAOYSA-N 0.000 description 1
- ZVDPYSVOZFINEE-UHFFFAOYSA-N Aspartyl-Leucine Chemical compound CC(C)CC(C(O)=O)NC(=O)C(N)CC(O)=O ZVDPYSVOZFINEE-UHFFFAOYSA-N 0.000 description 1
- DYDKXJWQCIVTMR-UHFFFAOYSA-N Aspartyl-Methionine Chemical compound CSCCC(C(O)=O)NC(=O)C(N)CC(O)=O DYDKXJWQCIVTMR-UHFFFAOYSA-N 0.000 description 1
- NTQDELBZOMWXRS-UHFFFAOYSA-N Aspartyl-Threonine Chemical compound CC(O)C(C(O)=O)NC(=O)C(N)CC(O)=O NTQDELBZOMWXRS-UHFFFAOYSA-N 0.000 description 1
- BVRPESWOSNFUCJ-LKTVYLICSA-N BNC210 Chemical compound C1=CC=C2C(C[C@H](NC(=O)[C@@H](N)[C@@H](C)CC)C(O)=O)=CNC2=C1 BVRPESWOSNFUCJ-LKTVYLICSA-N 0.000 description 1
- 229920000195 Bacterial small RNA Polymers 0.000 description 1
- 229920005681 CRISPR RNA Polymers 0.000 description 1
- 238000010453 CRISPR/Cas method Methods 0.000 description 1
- 241000709816 Capnocytophaga canis Species 0.000 description 1
- 210000003855 Cell Nucleus Anatomy 0.000 description 1
- 210000000349 Chromosomes Anatomy 0.000 description 1
- 229920001405 Coding region Polymers 0.000 description 1
- WXOFKRKAHJQKLT-UHFFFAOYSA-N Cysteinyl-Lysine Chemical compound NCCCCC(C(O)=O)NC(=O)C(N)CS WXOFKRKAHJQKLT-UHFFFAOYSA-N 0.000 description 1
- WYVKPHCYMTWUCW-UHFFFAOYSA-N Cysteinyl-Threonine Chemical compound CC(O)C(C(O)=O)NC(=O)C(N)CS WYVKPHCYMTWUCW-UHFFFAOYSA-N 0.000 description 1
- 210000000805 Cytoplasm Anatomy 0.000 description 1
- 229940104302 Cytosine Drugs 0.000 description 1
- OPTASPLRGRRNAP-UHFFFAOYSA-N Cytosine Chemical group NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 1
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 1
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 1
- 229940088598 Enzyme Drugs 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 101710031579 GRIN2B Proteins 0.000 description 1
- 241000193385 Geobacillus stearothermophilus Species 0.000 description 1
- JZDHUJAFXGNDSB-WHFBIAKZSA-N Glu-Ala Chemical compound OC(=O)[C@H](C)NC(=O)[C@@H](N)CCC(O)=O JZDHUJAFXGNDSB-WHFBIAKZSA-N 0.000 description 1
- FYYSIASRLDJUNP-WHFBIAKZSA-N Glu-Asp Chemical compound OC(=O)CC[C@H](N)C(=O)N[C@@H](CC(O)=O)C(O)=O FYYSIASRLDJUNP-WHFBIAKZSA-N 0.000 description 1
- SXGAGTVDWKQYCX-BQBZGAKWSA-N Glu-Met Chemical compound CSCC[C@@H](C(O)=O)NC(=O)[C@@H](N)CCC(O)=O SXGAGTVDWKQYCX-BQBZGAKWSA-N 0.000 description 1
- YBTCBQBIJKGSJP-BQBZGAKWSA-N Glu-Pro Chemical compound OC(=O)CC[C@H](N)C(=O)N1CCC[C@H]1C(O)=O YBTCBQBIJKGSJP-BQBZGAKWSA-N 0.000 description 1
- UQHGAYSULGRWRG-WHFBIAKZSA-N Glu-Ser Chemical compound OC(=O)CC[C@H](N)C(=O)N[C@@H](CO)C(O)=O UQHGAYSULGRWRG-WHFBIAKZSA-N 0.000 description 1
- SSHIXEILTLPAQT-UHFFFAOYSA-N Glutaminyl-Aspartate Chemical compound NC(=O)CCC(N)C(=O)NC(CC(O)=O)C(O)=O SSHIXEILTLPAQT-UHFFFAOYSA-N 0.000 description 1
- FUESBOMYALLFNI-VKHMYHEASA-N Gly-Asn Chemical compound NCC(=O)N[C@H](C(O)=O)CC(N)=O FUESBOMYALLFNI-VKHMYHEASA-N 0.000 description 1
- OLIFSFOFKGKIRH-WUJLRWPWSA-N Gly-Thr Chemical compound C[C@@H](O)[C@@H](C(O)=O)NC(=O)CN OLIFSFOFKGKIRH-WUJLRWPWSA-N 0.000 description 1
- UYTPUPDQBNUYGX-UHFFFAOYSA-N Guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 1
- 101710017531 H4C15 Proteins 0.000 description 1
- 206010061205 Hereditary disease Diseases 0.000 description 1
- VLDVBZICYBVQHB-IUCAKERBSA-N His-Val Chemical compound CC(C)[C@@H](C([O-])=O)NC(=O)[C@@H]([NH3+])CC1=CN=CN1 VLDVBZICYBVQHB-IUCAKERBSA-N 0.000 description 1
- IDXZDKMBEXLFMB-UHFFFAOYSA-N Histidinyl-Isoleucine Chemical compound CCC(C)C(C(O)=O)NC(=O)C(N)CC1=CN=CN1 IDXZDKMBEXLFMB-UHFFFAOYSA-N 0.000 description 1
- CNPNWGHRMBQHBZ-ZKWXMUAHSA-N Ile-Gln Chemical compound CC[C@H](C)[C@H](N)C(=O)N[C@H](C(O)=O)CCC(N)=O CNPNWGHRMBQHBZ-ZKWXMUAHSA-N 0.000 description 1
- WMDZARSFSMZOQO-DRZSPHRISA-N Ile-Phe Chemical compound CC[C@H](C)[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CC=CC=C1 WMDZARSFSMZOQO-DRZSPHRISA-N 0.000 description 1
- MUFXDFWAJSPHIQ-XDTLVQLUSA-N Ile-Tyr Chemical compound CC[C@H](C)[C@H]([NH3+])C(=O)N[C@H](C([O-])=O)CC1=CC=C(O)C=C1 MUFXDFWAJSPHIQ-XDTLVQLUSA-N 0.000 description 1
- 210000000987 Immune System Anatomy 0.000 description 1
- 108010015268 Integration Host Factors Proteins 0.000 description 1
- 229920002459 Intron Polymers 0.000 description 1
- 239000012097 Lipofectamine 2000 Substances 0.000 description 1
- OAPNERBWQWUPTI-YUMQZZPRSA-N Lys-Gln Chemical compound NCCCC[C@H](N)C(=O)N[C@H](C(O)=O)CCC(N)=O OAPNERBWQWUPTI-YUMQZZPRSA-N 0.000 description 1
- QCZYYEFXOBKCNQ-STQMWFEESA-N Lys-Phe Chemical compound NCCCC[C@H](N)C(=O)N[C@H](C(O)=O)CC1=CC=CC=C1 QCZYYEFXOBKCNQ-STQMWFEESA-N 0.000 description 1
- YSZNURNVYFUEHC-BQBZGAKWSA-N Lys-Ser Chemical compound NCCCC[C@H](N)C(=O)N[C@@H](CO)C(O)=O YSZNURNVYFUEHC-BQBZGAKWSA-N 0.000 description 1
- 108020004999 Messenger RNA Proteins 0.000 description 1
- QTZXSYBVOSXBEJ-WDSKDSINSA-N Met-Asp Chemical compound CSCC[C@H](N)C(=O)N[C@H](C(O)=O)CC(O)=O QTZXSYBVOSXBEJ-WDSKDSINSA-N 0.000 description 1
- KAKJTZWHIUWTTD-VQVTYTSYSA-N Met-Thr Chemical compound CSCC[C@H]([NH3+])C(=O)N[C@@H]([C@@H](C)O)C([O-])=O KAKJTZWHIUWTTD-VQVTYTSYSA-N 0.000 description 1
- 210000000214 Mouth Anatomy 0.000 description 1
- 102000016943 Muramidase Human genes 0.000 description 1
- 108010014251 Muramidase Proteins 0.000 description 1
- 108010079364 N-glycylalanine Proteins 0.000 description 1
- 108010002311 N-glycylglutamic acid Proteins 0.000 description 1
- 108010066427 N-valyltryptophan Proteins 0.000 description 1
- 241000588650 Neisseria meningitidis Species 0.000 description 1
- 229940052778 Neisseria meningitidis Drugs 0.000 description 1
- 241000047957 Neisseria meningitidis 8013 Species 0.000 description 1
- OZILORBBPKKGRI-RYUDHWBXSA-N Phe-Arg Chemical compound NC(N)=NCCC[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CC=CC=C1 OZILORBBPKKGRI-RYUDHWBXSA-N 0.000 description 1
- BXNGIHFNNNSEOS-UWVGGRQHSA-N Phe-Asn Chemical compound NC(=O)C[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CC=CC=C1 BXNGIHFNNNSEOS-UWVGGRQHSA-N 0.000 description 1
- JXWLMUIXUXLIJR-QWRGUYRKSA-N Phe-Glu Chemical compound OC(=O)CC[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CC=CC=C1 JXWLMUIXUXLIJR-QWRGUYRKSA-N 0.000 description 1
- GLUBLISJVJFHQS-VIFPVBQESA-N Phe-Gly Chemical compound OC(=O)CNC(=O)[C@@H](N)CC1=CC=CC=C1 GLUBLISJVJFHQS-VIFPVBQESA-N 0.000 description 1
- OHUXOEXBXPZKPT-STQMWFEESA-N Phe-His Chemical compound C([C@H](N)C(=O)N[C@@H](CC=1N=CNC=1)C(O)=O)C1=CC=CC=C1 OHUXOEXBXPZKPT-STQMWFEESA-N 0.000 description 1
- WEQJQNWXCSUVMA-RYUDHWBXSA-N Phe-Pro Chemical compound C([C@H]([NH3+])C(=O)N1[C@@H](CCC1)C([O-])=O)C1=CC=CC=C1 WEQJQNWXCSUVMA-RYUDHWBXSA-N 0.000 description 1
- IEHDJWSAXBGJIP-RYUDHWBXSA-N Phe-Val Chemical compound CC(C)[C@@H](C([O-])=O)NC(=O)[C@@H]([NH3+])CC1=CC=CC=C1 IEHDJWSAXBGJIP-RYUDHWBXSA-N 0.000 description 1
- KNPVDQMEHSCAGX-UHFFFAOYSA-N Phenylalanyl-Cysteine Chemical compound SCC(C(O)=O)NC(=O)C(N)CC1=CC=CC=C1 KNPVDQMEHSCAGX-UHFFFAOYSA-N 0.000 description 1
- 210000002381 Plasma Anatomy 0.000 description 1
- HMNSRTLZAJHSIK-YUMQZZPRSA-N Pro-Arg Chemical compound NC(=N)NCCC[C@@H](C(O)=O)NC(=O)[C@@H]1CCCN1 HMNSRTLZAJHSIK-YUMQZZPRSA-N 0.000 description 1
- JQOHKCDMINQZRV-WDSKDSINSA-N Pro-Asn Chemical compound NC(=O)C[C@@H](C([O-])=O)NC(=O)[C@@H]1CCC[NH2+]1 JQOHKCDMINQZRV-WDSKDSINSA-N 0.000 description 1
- AFWBWPCXSWUCLB-WDSKDSINSA-N Pro-Ser Chemical compound OC[C@@H](C([O-])=O)NC(=O)[C@@H]1CCC[NH2+]1 AFWBWPCXSWUCLB-WDSKDSINSA-N 0.000 description 1
- GVUVRRPYYDHHGK-UHFFFAOYSA-N Prolyl-Threonine Chemical compound CC(O)C(C(O)=O)NC(=O)C1CCCN1 GVUVRRPYYDHHGK-UHFFFAOYSA-N 0.000 description 1
- KDCGOANMDULRCW-UHFFFAOYSA-N Purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 1
- 108010079005 RDV peptide Proteins 0.000 description 1
- 108010033725 Recombinant Proteins Proteins 0.000 description 1
- 102000007312 Recombinant Proteins Human genes 0.000 description 1
- 102000003661 Ribonuclease III Human genes 0.000 description 1
- 108010057163 Ribonuclease III Proteins 0.000 description 1
- 108010081734 Ribonucleoproteins Proteins 0.000 description 1
- 102000004389 Ribonucleoproteins Human genes 0.000 description 1
- SSJMZMUVNKEENT-IMJSIDKUSA-N Ser-Ala Chemical compound OC(=O)[C@H](C)NC(=O)[C@@H](N)CO SSJMZMUVNKEENT-IMJSIDKUSA-N 0.000 description 1
- LTFSLKWFMWZEBD-IMJSIDKUSA-N Ser-Asn Chemical compound OC[C@H](N)C(=O)N[C@H](C(O)=O)CC(N)=O LTFSLKWFMWZEBD-IMJSIDKUSA-N 0.000 description 1
- UJTZHGHXJKIAOS-WHFBIAKZSA-N Ser-Gln Chemical compound OC[C@H](N)C(=O)N[C@H](C(O)=O)CCC(N)=O UJTZHGHXJKIAOS-WHFBIAKZSA-N 0.000 description 1
- SBMNPABNWKXNBJ-UHFFFAOYSA-N Serinyl-Lysine Chemical compound NCCCCC(C(O)=O)NC(=O)C(N)CO SBMNPABNWKXNBJ-UHFFFAOYSA-N 0.000 description 1
- LDEBVRIURYMKQS-UHFFFAOYSA-N Serinyl-Threonine Chemical compound CC(O)C(C(O)=O)NC(=O)C(N)CO LDEBVRIURYMKQS-UHFFFAOYSA-N 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- VPZKQTYZIVOJDV-LMVFSUKVSA-N Thr-Ala Chemical compound C[C@@H](O)[C@H](N)C(=O)N[C@@H](C)C(O)=O VPZKQTYZIVOJDV-LMVFSUKVSA-N 0.000 description 1
- BWUHENPAEMNGQJ-ZDLURKLDSA-N Thr-Gln Chemical compound C[C@@H](O)[C@H](N)C(=O)N[C@H](C(O)=O)CCC(N)=O BWUHENPAEMNGQJ-ZDLURKLDSA-N 0.000 description 1
- BECPPKYKPSRKCP-ZDLURKLDSA-N Thr-Glu Chemical compound C[C@@H](O)[C@H](N)C(=O)N[C@H](C(O)=O)CCC(O)=O BECPPKYKPSRKCP-ZDLURKLDSA-N 0.000 description 1
- BIYXEUAFGLTAEM-WUJLRWPWSA-N Thr-Gly Chemical compound C[C@@H](O)[C@H](N)C(=O)NCC(O)=O BIYXEUAFGLTAEM-WUJLRWPWSA-N 0.000 description 1
- QOLYAJSZHIJCTO-VQVTYTSYSA-N Thr-Pro Chemical compound C[C@@H](O)[C@H](N)C(=O)N1CCC[C@H]1C(O)=O QOLYAJSZHIJCTO-VQVTYTSYSA-N 0.000 description 1
- UQTNIFUCMBFWEJ-UHFFFAOYSA-N Threoninyl-Asparagine Chemical compound CC(O)C(N)C(=O)NC(C(O)=O)CC(N)=O UQTNIFUCMBFWEJ-UHFFFAOYSA-N 0.000 description 1
- 229940113082 Thymine Drugs 0.000 description 1
- 108010043645 Transcription Activator-Like Effector Nucleases Proteins 0.000 description 1
- LCPVBXOHXMBLFW-JSGCOSHPSA-N Trp-Arg Chemical compound C1=CC=C2C(C[C@H](N)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O)=CNC2=C1 LCPVBXOHXMBLFW-JSGCOSHPSA-N 0.000 description 1
- PWIQCLSQVQBOQV-AAEUAGOBSA-N Trp-Glu Chemical compound C1=CC=C2C(C[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(O)=O)=CNC2=C1 PWIQCLSQVQBOQV-AAEUAGOBSA-N 0.000 description 1
- LYMVXFSTACVOLP-ZFWWWQNUSA-N Trp-Leu Chemical compound C1=CC=C2C(C[C@H]([NH3+])C(=O)N[C@@H](CC(C)C)C([O-])=O)=CNC2=C1 LYMVXFSTACVOLP-ZFWWWQNUSA-N 0.000 description 1
- MYVYPSWUSKCCHG-JQWIXIFHSA-N Trp-Ser Chemical compound C1=CC=C2C(C[C@H](N)C(=O)N[C@@H](CO)C(O)=O)=CNC2=C1 MYVYPSWUSKCCHG-JQWIXIFHSA-N 0.000 description 1
- NZCPCJCJZHKFGZ-UHFFFAOYSA-N Tryptophyl-Glutamine Chemical compound C1=CC=C2C(CC(N)C(=O)NC(CCC(N)=O)C(O)=O)=CNC2=C1 NZCPCJCJZHKFGZ-UHFFFAOYSA-N 0.000 description 1
- KBUBZAMBIVEFEI-UHFFFAOYSA-N Tryptophyl-Histidine Chemical compound C=1NC2=CC=CC=C2C=1CC(N)C(=O)NC(C(O)=O)CC1=CN=CN1 KBUBZAMBIVEFEI-UHFFFAOYSA-N 0.000 description 1
- HPYDSVWYXXKHRD-VIFPVBQESA-N Tyr-Gly Chemical compound [O-]C(=O)CNC(=O)[C@@H]([NH3+])CC1=CC=C(O)C=C1 HPYDSVWYXXKHRD-VIFPVBQESA-N 0.000 description 1
- ZQOOYCZQENFIMC-STQMWFEESA-N Tyr-His Chemical compound C([C@H](N)C(=O)N[C@@H](CC=1N=CNC=1)C(O)=O)C1=CC=C(O)C=C1 ZQOOYCZQENFIMC-STQMWFEESA-N 0.000 description 1
- CGWAPUBOXJWXMS-HOTGVXAUSA-N Tyr-Phe Chemical compound C([C@H](N)C(=O)N[C@@H](CC=1C=CC=CC=1)C(O)=O)C1=CC=C(O)C=C1 CGWAPUBOXJWXMS-HOTGVXAUSA-N 0.000 description 1
- ONWMQORSVZYVNH-UHFFFAOYSA-N Tyrosyl-Asparagine Chemical compound NC(=O)CC(C(O)=O)NC(=O)C(N)CC1=CC=C(O)C=C1 ONWMQORSVZYVNH-UHFFFAOYSA-N 0.000 description 1
- ZSXJENBJGRHKIG-UHFFFAOYSA-N Tyrosyl-Serine Chemical compound OCC(C(O)=O)NC(=O)C(N)CC1=CC=C(O)C=C1 ZSXJENBJGRHKIG-UHFFFAOYSA-N 0.000 description 1
- MFEVVAXTBZELLL-UHFFFAOYSA-N Tyrosyl-Threonine Chemical compound CC(O)C(C(O)=O)NC(=O)C(N)CC1=CC=C(O)C=C1 MFEVVAXTBZELLL-UHFFFAOYSA-N 0.000 description 1
- IBIDRSSEHFLGSD-YUMQZZPRSA-N Val-Arg Chemical compound CC(C)[C@H](N)C(=O)N[C@H](C(O)=O)CCCN=C(N)N IBIDRSSEHFLGSD-YUMQZZPRSA-N 0.000 description 1
- WITCOKQIPFWQQD-FSPLSTOPSA-N Val-Asn Chemical compound CC(C)[C@H](N)C(=O)N[C@H](C(O)=O)CC(N)=O WITCOKQIPFWQQD-FSPLSTOPSA-N 0.000 description 1
- OBTCMSPFOITUIJ-FSPLSTOPSA-N Val-Asp Chemical compound CC(C)[C@H](N)C(=O)N[C@H](C(O)=O)CC(O)=O OBTCMSPFOITUIJ-FSPLSTOPSA-N 0.000 description 1
- XXDVDTMEVBYRPK-XPUUQOCRSA-N Val-Gln Chemical compound CC(C)[C@H](N)C(=O)N[C@H](C(O)=O)CCC(N)=O XXDVDTMEVBYRPK-XPUUQOCRSA-N 0.000 description 1
- 108010086434 alanyl-seryl-glycine Proteins 0.000 description 1
- 108010087924 alanylproline Proteins 0.000 description 1
- 108010050025 alpha-glutamyltryptophan Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000038129 antigens Human genes 0.000 description 1
- 108091007172 antigens Proteins 0.000 description 1
- 108010010430 asparagine-proline-alanine Proteins 0.000 description 1
- 238000002869 basic local alignment search tool Methods 0.000 description 1
- 238000007622 bioinformatic analysis Methods 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000010192 crystallographic characterization Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing Effects 0.000 description 1
- 230000001419 dependent Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drugs Drugs 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 230000005714 functional activity Effects 0.000 description 1
- 238000002825 functional assay Methods 0.000 description 1
- 230000002538 fungal Effects 0.000 description 1
- 239000000499 gel Substances 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 238000002523 gelfiltration Methods 0.000 description 1
- 238000001415 gene therapy Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 238000010355 genome engineering Methods 0.000 description 1
- 108010087823 glycyltyrosine Proteins 0.000 description 1
- 108010040030 histidinoalanine Proteins 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- BPHPUYQFMNQIOC-NXRLNHOXSA-N isopropyl β-D-thiogalactopyranoside Chemical compound CC(C)S[C@@H]1O[C@H](CO)[C@H](O)[C@H](O)[C@H]1O BPHPUYQFMNQIOC-NXRLNHOXSA-N 0.000 description 1
- 108010000761 leucylarginine Proteins 0.000 description 1
- 229960000274 lysozyme Drugs 0.000 description 1
- 235000010335 lysozyme Nutrition 0.000 description 1
- 239000004325 lysozyme Substances 0.000 description 1
- 108010045397 lysyl-tyrosyl-lysine Proteins 0.000 description 1
- 108010038320 lysylphenylalanine Proteins 0.000 description 1
- 108010044655 lysylproline Proteins 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 229920002106 messenger RNA Polymers 0.000 description 1
- 230000000813 microbial Effects 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical Effects 0.000 description 1
- 108010084572 phenylalanyl-valine Proteins 0.000 description 1
- 108010018625 phenylalanylarginine Proteins 0.000 description 1
- 108010073025 phenylalanylphenylalanine Proteins 0.000 description 1
- 229920003255 poly(phenylsilsesquioxane) Polymers 0.000 description 1
- QLROSWPKSBORFJ-BQBZGAKWSA-N pro glu Chemical compound OC(=O)CC[C@@H](C(O)=O)NC(=O)[C@@H]1CCCN1 QLROSWPKSBORFJ-BQBZGAKWSA-N 0.000 description 1
- 108010031719 prolyl-serine Proteins 0.000 description 1
- 108010004914 prolylarginine Proteins 0.000 description 1
- 108010029020 prolylglycine Proteins 0.000 description 1
- 238000001243 protein synthesis Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000011541 reaction mixture Substances 0.000 description 1
- 230000003252 repetitive Effects 0.000 description 1
- 230000003362 replicative Effects 0.000 description 1
- 229920002477 rna polymer Polymers 0.000 description 1
- 238000003559 rna-seq method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 230000001225 therapeutic Effects 0.000 description 1
- 108010061238 threonyl-glycine Proteins 0.000 description 1
- 108010071097 threonyl-lysyl-proline Proteins 0.000 description 1
- 108010072986 threonyl-seryl-lysine Proteins 0.000 description 1
- 230000001131 transforming Effects 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 108010080629 tryptophan-leucine Proteins 0.000 description 1
- 108010029384 tryptophyl-histidine Proteins 0.000 description 1
- 108010038745 tryptophylglycine Proteins 0.000 description 1
- 108010020532 tyrosyl-proline Proteins 0.000 description 1
- 108010003137 tyrosyltyrosine Proteins 0.000 description 1
- 241001515965 unidentified phage Species 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 239000011701 zinc Substances 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
- OPINTGHFESTVAX-UHFFFAOYSA-N γ-glutamyl-Arginine Chemical compound NC(=O)CCC(N)C(=O)NC(C(O)=O)CCCNC(N)=N OPINTGHFESTVAX-UHFFFAOYSA-N 0.000 description 1
- SIGGQAHUPUBWNF-UHFFFAOYSA-N γ-glutamyl-Methionine Chemical compound CSCCC(C(O)=O)NC(=O)C(N)CCC(N)=O SIGGQAHUPUBWNF-UHFFFAOYSA-N 0.000 description 1
- UKKNTTCNGZLJEX-UHFFFAOYSA-N γ-glutamyl-Serine Chemical compound NC(=O)CCC(N)C(=O)NC(CO)C(O)=O UKKNTTCNGZLJEX-UHFFFAOYSA-N 0.000 description 1
Images
Abstract
Description
Область техникиTechnical field
Изобретение относится к биотехнологии, а именно, к новым ферментам - Cas нуклеазам систем CRISPR-Cas, применяемым для разрезания ДНК и редактирования геномов различных организмов. Данная технология может применяться в будущем для генной терапии наследственных заболеваний человека, а также для редактирования геномов других организмов.The invention relates to biotechnology, namely, to new enzymes - Cas nucleases of CRISPR-Cas systems, used for cutting DNA and editing the genomes of various organisms. This technology can be used in the future for gene therapy of human hereditary diseases, as well as for editing the genomes of other organisms.
Уровень техникиState of the art
Изменение последовательности ДНК - одна из актуальных задач биотехнологии на сегодняшний день. Редактирование и изменение геномов эукариотических и прокариотических организмов, а также манипуляции с ДНК in vitro, требуют направленного внесения двунитевых разрывов в последовательности ДНК.Changing the DNA sequence is one of the urgent tasks of biotechnology today. Editing and modifying the genomes of eukaryotic and prokaryotic organisms, as well as manipulations with DNA in vitro, require the targeted introduction of double-strand breaks in the DNA sequence.
Для решения этой задачи в настоящее время используют следующие методики: искусственные нуклеазные системы, содержащей домены типа «цинковые пальцы» (ZFN), эффекторные нуклеазы, подобные активатору транскрипции (TALEN-системы) и бактериальные CRISPR-Cas системы. Первые два метода требуют трудозатратой оптимизации аминокислотной последовательности нуклеазы для узнавания конкретной последовательности ДНК. В отличие от них в случае CRISPR-Cas систем структурами, узнающими ДНК мишень, являются не белки, а короткие направляющие РНК. Разрезание конкретной ДНК мишени не требует синтеза нуклеазы или ее гена de novo, а обеспечивается за счет использования направляющих РНК, комплементарных целевой последовательности. Это делает CRISPR-Cas системы удобными и эффективными инструментами разрезания различных ДНК-последовательностей. Методика позволяет осуществлять единовременное разрезание ДНК в нескольких участках при использовании направляющих РНК разной последовательностей. Такой подход используется в том числе для одновременного изменения нескольких генов в эукариотических организмах.To solve this problem, the following methods are currently used: artificial nuclease systems containing zinc finger domains (ZFN), transcription activator-like effector nucleases (TALEN systems), and bacterial CRISPR-Cas systems. The first two methods require labor-intensive optimization of the nuclease amino acid sequence to recognize a particular DNA sequence. In contrast to them, in the case of CRISPR-Cas systems, the structures that recognize the target DNA are not proteins, but short guide RNAs. Cutting a specific target DNA does not require de novo synthesis of the nuclease or its gene, but is achieved through the use of guide RNAs complementary to the target sequence. This makes CRISPR-Cas systems convenient and efficient tools for cutting various DNA sequences. The technique allows simultaneous cutting of DNA in several regions using guide RNAs of different sequences. This approach is used, among other things, to simultaneously change several genes in eukaryotic organisms.
По своей природе CRISPR-Cas системы являются иммунными системами прокариот, способными высоко специфично вносить разрывы в генетический материал вирусов (Mojica F. J. M., C., J. & Soria E. Intervening sequences of regularly spaced prokaryotic repeats derive from foreign genetic elements // Journal of molecular evolution. - 2005. - Т. 60. - №. 2. - С. 174-182). Аббревиатура CRISPR-Cas расшифровывается как «Clustered Regularly Interspaced Short Palindromic Repeats and CRISPR associated genes» (Jansen R., Embden J. D., Gaastra W. & Schouls L. M. Identification of genes that are associated with DNA repeats in prokaryotes // Molecular microbiology. - 2002. - Т. 43. - №. 6. - С. 1565-1575), что переводе с английского обозначает «короткие палиндромные повторы, регулярно расположенные группами, и ассоциированные с ними гены». Все CRISPR-Cas системы состоят из CRISPR кассет и генов, кодирующих различные Cas белки (Jansen R. et al., Molecular microbiology. - 2002. - Т. 43. - №. 6. - С. 1565-1575). CRISPR кассеты состоят из последовательностей спейсеров, каждый из которых имеет уникальную нуклеотидную последовательность, и повторяющихся палиндромных повторов (Jansen R. et al., Molecular microbiology. - 2002. - Т. 43. - №. 6. - С. 1565-1575). В результате транскрипции CRISPR кассет и их последующего процессинга образуются направляющие крРНК, которые вместе с Cas белками формируют эффекторный комплексBy their nature, CRISPR-Cas systems are the immune systems of prokaryotes capable of highly specific ruptures in the genetic material of viruses (Mojica FJM, C., J. & Soria E. Intervening sequences of regularly spaced prokaryotic repeats derive from foreign genetic elements // Journal of molecular evolution. - 2005. - T. 60. - No. 2. - S. 174-182). The abbreviation CRISPR-Cas stands for "Clustered Regularly Interspaced Short Palindromic Repeats and CRISPR associated genes" (Jansen R., Embden JD, Gaastra W. & Schouls LM Identification of genes that are associated with DNA repeats in prokaryotes // Molecular microbiology. - 2002 - T. 43. - No. 6. - S. 1565-1575), which translated from English means "short palindromic repeats, regularly arranged in groups, and the genes associated with them." All CRISPR-Cas systems consist of CRISPR cassettes and genes encoding various Cas proteins (Jansen R. et al., Molecular microbiology. - 2002. - T. 43. - No. 6. - S. 1565-1575). CRISPR cassettes consist of spacer sequences, each of which has a unique nucleotide sequence, and repetitive palindromic repeats (Jansen R. et al., Molecular microbiology. - 2002. - T. 43. - No. 6. - S. 1565-1575) . As a result of transcription of CRISPR cassettes and their subsequent processing, guide crRNAs are formed, which, together with Cas proteins, form an effector complex.
(Brouns S. J., Jore M. M., Lundgren M., Westra E. R., Slijkhuis R. J., Snijders A. P., Dickman M. J., Makarova K. S., Koonin E. V. & van der Oost J. Small CRISPR RNAs guide antiviral defense in prokaryotes // Science. - 2008. - Т. 321. - №. 5891. - С. 960-964). За счет комплементарного спаривания крРНК с целевым участком ДНК, именуемым протоспейсером, Cas-нуклеаза узнает ДНК-мишень и высоко специфично вносит в нее разрыв.(Brouns S. J., Jore M. M., Lundgren M., Westra E. R., Slijkhuis R. J., Snijders A. P., Dickman M. J., Makarova K. S., Koonin E. V. & van der Oost J. Small CRISPR RNAs guide antiviral defense in prokaryotes // Science. - 2008. - T. 321. - No. 5891. - S. 960-964). By complementary pairing of crRNA with a target DNA region, called a protospacer, Cas nuclease recognizes the target DNA and introduces a break in it in a highly specific manner.
CRISPR-Cas системы, представленными одиночным белком-эффектором, разделяют на шесть различных типов (от I до VI) в зависимости от Cas белков, входящих в состав систем. В 2013 году впервые было предложено использовать систему CRISPR-Cas9, относящуюся к типу II, для редактирования геномной ДНК клеток человека (Cong L., Ran F. A., Cox D., Lin S., Barretto R., Habib N., Hsu P. D., Wu X., Jiang W., Marraffini L. A. & Zhang F. Multiplex genome engineering using CRISPR/Cas systems // Science. - 2013. - Т. 339. - № 6121. - С. 819-823). Система CRISPR-Cas9 II типа отличается простотой состава и механизма работы: для ее функционирования необходимо формирование эффекторного комплекса, состоящего лишь из одного белка Cas9 и двух коротких РНК: крРНК (crRNA) и трейсерной РНК (tracrRNA, трРНК). Трейсерная РНК комплементарно спаривается с участком крРНК, происходящим из CRISPR повтора, образуя вторичную структуру, необходимую для связывания направляющих РНК с Cas эффектором. Определение последовательности направляющих РНК является важным шагом в характеризации неизученных ранее Cas-ортологов. Эффекторный белок Cas9 является РНК-зависимой ДНК эндонуклеазой с двумя нуклеазными доменами (HNH и RuvC), вносящими разрывы в комплементарные нити целевой ДНК, таким образом образуя двунитевой разрыв ДНК (Deltcheva E., Chylinski K., Sharma C. M., Gonzales K., Chao Y., Pirzada Z. A., Eckert M. R., Vogel J. & Charpentier E. CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III // Nature. - 2011. - Т. 471. - №. 7340. - С. 602).CRISPR-Cas systems represented by a single effector protein are divided into six different types (from I to VI) depending on the Cas proteins that make up the systems. In 2013, it was first proposed to use the type II CRISPR-Cas9 system for editing the genomic DNA of human cells (Cong L., Ran F. A., Cox D., Lin S., Barretto R., Habib N., Hsu P. D., Wu X., Jiang W., Marraffini L. A. & Zhang F. Multiplex genome engineering using CRISPR/Cas systems Science 339 No 6121 pp 819-823 Science 2013 The type II CRISPR-Cas9 system is characterized by a simple composition and mechanism of operation: its functioning requires the formation of an effector complex consisting of only one Cas9 protein and two short RNAs: crRNA (crRNA) and tracer RNA (tracrRNA, tRNA). The tracer RNA pairs complementarily with a region of crRNA derived from the CRISPR repeat, forming a secondary structure necessary for binding guide RNAs to the Cas effector. Guide RNA sequencing is an important step in the characterization of previously unstudied Cas orthologues. The effector protein Cas9 is an RNA-dependent DNA endonuclease with two nuclease domains (HNH and RuvC) that introduce breaks in the complementary strands of the target DNA, thus forming a double-strand DNA break (Deltcheva E., Chylinski K., Sharma C. M., Gonzales K., Chao Y., Pirzada Z. A., Eckert M. R., Vogel J. & Charpentier E. CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III // Nature 471 No 7340 2011 P. 602).
Технология CRISPR-Cas9 является одной из самых современных и быстроразвивающихся методик внесения разрывов в ДНК различных организмов, начиная от бактериальных штаммов и заканчивая клетками человека, а также in vitro (Song M. The CRISPR/Cas9 system: Their delivery, in vivo and ex vivo applications and clinical development by startups // Biotechnology Progress. - 2017. - Т. 33. - № 4. - С. 1035-1045).CRISPR-Cas9 technology is one of the most modern and rapidly developing methods for introducing breaks into the DNA of various organisms, ranging from bacterial strains to human cells, as well as in vitro (Song M. The CRISPR/Cas9 system: Their delivery, in vivo and ex vivo applications and clinical development by startups // Biotechnology Progress, 2017, vol. 33, no. 4, pp. 1035-1045).
Эффекторному рибонуклеиновому комплексу, состоящему из Cas9 и дуплекса крРНК и трейсерной РНК, для распознавания и последующего гидролиза ДНК помимо комплементарного соответствия спейсера крРНК и протоспейсера необходимо присутствие PAM (от англ. «PAM» - protospacer adjusted motif) на ДНК мишени (Mojica F. J. M. et al., Journal of molecular evolution. - 2005. - Т. 60. - №. 2. - С. 174-182). PAM представляет собой строго определенную последовательность из нескольких нуклеотидов, расположенных в системах типа II вплотную либо в нескольких нуклеотидах от 3'-конца протоспейсера на нетаргетной цепи. При отсутствии PAM гидролиза связей в ДНК с образованием двунитевого разрыва не происходит. Необходимость присутствия PAM последовательности на мишени повышает специфичность узнавания, но в то же время накладывает ограничение в выборе целевых участков ДНК, в которые необходимо внести разрыв. Таким образом, наличие нужной PAM последовательности, фланирующей ДНК-мишень с 3'-конца, является характеристикой, ограничивающей применение CRISPR-Cas систем на любых участках ДНК.The effector ribonucleic acid complex, consisting of Cas9 and a duplex of crRNA and tracer RNA, for recognition and subsequent hydrolysis of DNA, in addition to the complementary correspondence of the crRNA spacer and protospacer, requires the presence of PAM (from the English "PAM" - protospacer adjusted motif) on the target DNA (Mojica F. J. M. et al ., Journal of molecular evolution, 2005, vol. 60, no. 2, pp. 174-182). PAM is a strictly defined sequence of several nucleotides located in type II systems close to or a few nucleotides from the 3'-end of the protospacer on the non-targeted strand. In the absence of PAM, hydrolysis of DNA bonds with the formation of a double-strand break does not occur. The need for the presence of a PAM sequence on the target increases the specificity of recognition, but at the same time imposes a restriction on the choice of target DNA regions in which a break must be introduced. Thus, the presence of the desired PAM sequence, which flanking the target DNA from the 3' end, is a characteristic that limits the use of CRISPR-Cas systems on any DNA regions.
На сегодняшний день известно несколько CRISPR-Cas нуклеаз, способных направлено и специфично вносить двунитевые разрывы в ДНК. Например, NmeCas9 из Neisseria meningitidis strain 8013 (Esvelt K. M., Mali P., Braff J. L., Moosburner M., Yaung S. J. & Church G. M. Orthogonal Cas9 proteins for RNA-guided gene regulation and editing // Nature Methods. - 2013. - Т. 10. - С. 1116-1121), Nme2Cas9 из Neisseria meningitidis strain De11444 (Edraki A., Mir A., Ibraheim R., Gainetdinov I., Yoon Y., Song C.-Q., Cao Y., Gallant J., Xue W., Rivera-Perez J. A. & Sontheimer E. J. A compact, high-accuracy Cas9 with a dinucleotide PAM for in vivo genome editing // Molecular Cell. - 2019. - Т. 73. - С. 714-726), CjCas9 из Campylobacter jejuni (Kim E., Koo T., Park S. W., Kim D., Kim K., Cho H. Y., Song D. W., Lee K. J., Jung M. H., Kim S., Kim J. H., Kim J. H. & Kim J. S. In vivo genome editing with a small Cas9 orthologue derived from Campylobacter jejuni // Nature Communications. - 2017. - Т. 8. - С. 14500), CdCas9 из Corynebacterium diphtheriae (Hirano S., Abudayyeh O. O., Gootenberg J. S., Horii T., Ishitani R., Hatada I., Zhang F., Nishimasu H. & Nureki O. Structural basis for the promiscuous PAM recognition by Corynebacterium diphtheriae Cas9 // Nature Communications. - 2019. - Т. 10. - С. 1968), GeoCas9 из Geobacillus stearothermophilus (Harrington L. B., Paez-Espino D., Staahl B. T., Chen J. S., Ma E., Kyrpides N. C. & Doudna J. A. A thermostable Cas9 with increased lifetime in human plasma // Nature Communications. - 2017. - Т. 8. - С. 1424.), SaCas9 из Staphylococcus aureus (Ran F. A., Cong L., Yan W. X., Scott D. A., Gootenberg J. S., Kriz A. J., Zetsche B., Shalem O., Wu X., Makarova K. S., Koonin E. V., Sharp P. A. & Zhang F. In vivo genome editing using Staphylococcus aureus Cas9 // Nature. - 2015. - Т. 520. - С. 186-191), SauriCas9 из Staphylococcus auricularis (Hu Z., Wang S., Zhang C., Gao N., Li M., Wang D., Wang D., Liu D., Liu H., Ong S.-G., Wang H., Wang Y. A compact Cas9 ortholog from Staphylococcus Auricularis (SauriCas9) expands the DNA targeting scope // PLOS Biology. - 2020. - Т. 18. - e3000686).To date, several CRISPR-Cas nucleases are known that can introduce double-strand breaks in DNA in a targeted and specific manner. For example, NmeCas9 from Neisseria meningitidis strain 8013 (Esvelt K. M., Mali P., Braff J. L., Moosburner M., Yaung S. J. & Church G. M. Orthogonal Cas9 proteins for RNA-guided gene regulation and editing // Nature Methods. - 2013. - T. 10. - P. 1116-1121), Nme2Cas9 from Neisseria meningitidis strain De11444 (Edraki A., Mir A., Ibraheim R., Gainetdinov I., Yoon Y., Song C.-Q., Cao Y., Gallant J. ., Xue W., Rivera-Perez J. A. & Sontheimer E. J. A compact, high-accuracy Cas9 with a dinucleotide PAM for in vivo genome editing // Molecular Cell. - 2019. - V. 73. - P. 714-726), CjCas9 from Campylobacter jejuni (Kim E., Koo T., Park S. W., Kim D., Kim K., Cho H. Y., Song D. W., Lee K. J., Jung M. H., Kim S., Kim J. H., Kim J. H. & Kim J. S. In vivo genome editing with a small Cas9 orthologue derived from Campylobacter jejuni // Nature Communications. - 2017. - Vol. 8. - P. 14500), CdCas9 from Corynebacterium diphtheriae (Hirano S., Abudayyeh O. O., Gootenberg J. S., Horii T., Ishitani R., Hatada I., Zha ng F., Nishimasu H. & Nureki O. Structural basis for the promiscuous PAM recognition by Corynebacterium diphtheriae Cas9 // Nature Communications. - 2019. - V. 10. - S. 1968), GeoCas9 from Geobacillus stearothermophilus (Harrington L. B., Paez-Espino D., Staahl B. T., Chen J. S., Ma E., Kyrpides N. C. & Doudna J. A. A thermostable Cas9 with increased lifetime in human plasma // Nature Communications. - 2017. - V. 8. - P. 1424.), SaCas9 from Staphylococcus aureus (Ran F. A., Cong L., Yan W. X., Scott D. A., Gootenberg J. S., Kriz A. J., Zetsche B., Shalem O., Wu X., Makarova K. S., Koonin E. V., Sharp P. A. & Zhang F. In vivo genome editing using Staphylococcus aureus Cas9 // Nature. - 2015. - V. 520. - P. 186-191), SauriCas9 from Staphylococcus auricularis (Hu Z., Wang S., Zhang C., Gao N., Li M., Wang D., Wang D., Liu D., Liu H., Ong S.-G., Wang H., Wang Y. A compact Cas9 ortholog from Staphylococcus Auricularis (SauriCas9) expands the DNA targeting scope // PLOS Biology, 2020, vol. 18, e3000686).
Различные CRISPR-Cas белки используют для своей работы разные, оригинальные PAM последовательности. Однако большинство из описанных характеризуются длинной и сложной PAM последовательностью.Different CRISPR-Cas proteins use different, original PAM sequences for their work. However, most of those described are characterized by a long and complex PAM sequence.
Использование CRISPR-Cas белков с новыми разнообразными PAM последовательностями необходимо для обеспечения возможности изменения любого участка ДНК, как in vitro, так и в геноме живых организмов. Изменение эукариотических геномов также требует использования нуклеаз малого размера для обеспечения доставки CRISPR-Cas систем в клетки посредством AAV вирусов.The use of CRISPR-Cas proteins with new diverse PAM sequences is necessary to ensure the possibility of changing any DNA region, both in vitro and in the genome of living organisms. Altering eukaryotic genomes also requires the use of small nucleases to enable delivery of CRISPR-Cas systems to cells via AAV viruses.
Несмотря на известность ряда способов разрезания ДНК и изменения последовательности геномной ДНК, на сегодняшний день сохраняется потребность в новых эффективных инструментах для модификации ДНК в различных организмах и в строго определенных местах последовательности ДНК.Despite the popularity of a number of methods for cutting DNA and changing the sequence of genomic DNA, today there is a need for new effective tools for modifying DNA in various organisms and at strictly defined places in the DNA sequence.
Сущность изобретенияThe essence of the invention
Задачей настоящего изобретения является создание новых инструментов для изменения последовательности геномной ДНК одноклеточных или многоклеточных организмов на основе систем CRISPR-Cas9. Существующие в настоящее время системы имеют ограниченное применение из-за специфичной последовательности РАМ, которая должна присутствовать на 3'-конце участка ДНК, подвергающегося модификации. Поиск новых ферментов Cas9 с другими РАМ последовательностями позволит расширить арсенал имеющихся средств для образования двунитевого разрыва в необходимых, строго определенных местах в молекулах ДНК разных организмов. Для решения этой задачи авторами была охарактеризована ранее биоинформатически предсказанная система из бактерии Capnocytophaga ochracea.The objective of the present invention is to create new tools for changing the sequence of genomic DNA of unicellular or multicellular organisms based on CRISPR-Cas9 systems. Current systems are of limited use due to the specific PAM sequence that must be present at the 3' end of the DNA region to be modified. The search for new Cas9 enzymes with other PAM sequences will expand the arsenal of available tools for the formation of a double-strand break in the necessary, strictly defined places in the DNA molecules of different organisms. To solve this problem, the authors characterized a previously bioinformatically predicted system from the bacterium Capnocytophaga ochracea.
CRISPR нуклеаза II типа CoCas9, которая может быть применена для внесения направленных изменений в геном как этого, так и других организмов. Существенным признаком, отличающим настоящее изобретение, является отличающаяся от других известных последовательность PAM.CRISPR type II nuclease CoCas9, which can be used to introduce targeted changes in the genome of this and other organisms. An essential feature that distinguishes the present invention is the different PAM sequence from other known ones.
Указанная задача решается путем применения белка, содержащего аминокислотную последовательность SEQ ID NO: 1, или содержащего аминокислотную последовательность, которая по меньшей мере на 95% идентична аминокислотной последовательности SEQ ID NO: 1 и имеет отличия по сравнению с SEQ ID NO: 1 только в неконсервативных аминокислотных остатках, для образования двунитевого разрыва в молекуле ДНК, расположенного непосредственно перед нуклеотидной последовательностью 5'-N(A/G)(A/G)(A/T)C-3' в указанной молекуле ДНК. В некоторых вариантах изобретения данное применение характеризуется тем, что образование двунитевого разрыва в молекуле ДНК происходит при температуре от 35°C до 45°C.This problem is solved by using a protein containing the amino acid sequence of SEQ ID NO: 1, or containing an amino acid sequence that is at least 95% identical to the amino acid sequence of SEQ ID NO: 1 and differs from SEQ ID NO: 1 only in non-conservative amino acid residues, to form a double-strand break in the DNA molecule, located immediately before the nucleotide sequence 5'-N(A/G)(A/G)(A/T)C-3' in the specified DNA molecule. In some embodiments of the invention, this application is characterized in that the formation of a double-strand break in the DNA molecule occurs at a temperature of from 35°C to 45°C.
Указанная задача также решается путем создания способа изменения последовательности геномной ДНК одноклеточного или многоклеточного организма, включающего введение в по меньшей мере одну клетку этого организма эффективного количества: а) либо белка, содержащего аминокислотную последовательность SEQ ID NO: 1, либо нуклеиновой кислоты, кодирующей белок, содержащий аминокислотную последовательность SEQ ID NO: 1, и б) либо направляющей РНК, содержащей последовательность, образующую дуплекс с нуклеотидной последовательностью участка геномной ДНК организма, непосредственно примыкающей к нуклеотидной последовательности 5'-N(A/G)(A/G)(A/T)C-3', и взаимодействующей с указанным белком после образования дуплекса, либо последовательности ДНК, кодирующей указанную направляющую РНК; при этом взаимодействие указанного белка с направляющей РНК и нуклеотидной последовательностью 5'-N(A/G)(A/G)(A/T)C-3' приводит к образованию двунитевого разрыва в последовательности геномной ДНК, непосредственно примыкающей к последовательности 5'-N(A/G)(A/G)(A/T)C-3'. В некоторых вариантах изобретения данный способ характеризуется тем, что дополнительно включающий введение экзогенной последовательности ДНК одновременно с направляющей РНК.This problem is also solved by creating a method for changing the genomic DNA sequence of a unicellular or multicellular organism, which includes introducing into at least one cell of this organism an effective amount of: a) either a protein containing the amino acid sequence of SEQ ID NO: 1, or a nucleic acid encoding a protein, containing the amino acid sequence of SEQ ID NO: 1, and b) either a guide RNA containing a sequence forming a duplex with the nucleotide sequence of the genomic DNA region of the organism immediately adjacent to the nucleotide sequence 5'-N(A/G)(A/G)(A /T)C-3', and interacting with the specified protein after the formation of a duplex, or a DNA sequence encoding the specified guide RNA; while the interaction of the specified protein with the guide RNA and the nucleotide sequence 5'-N(A/G)(A/G)(A/T)C-3' leads to the formation of a double-strand break in the genomic DNA sequence immediately adjacent to the 5' -N(A/G)(A/G)(A/T)C-3'. In some embodiments of the invention, this method is characterized by further comprising the introduction of an exogenous DNA sequence simultaneously with the guide RNA.
В качестве направляющей РНК может быть использована смесь из крРНК (crRNA) и трейсерной РНК (tracrRNA), способных образовать комплекс с участком целевой ДНК и белком CoCas9. В предпочтительных вариантах изобретения в качестве направляющей РНК может быть использована гибридная РНК, сконструированная на основе крРНК и трейсерной РНК. Методы конструирования гибридной направляющей РНК известны специалистам (Hsu P. D., Scott D. A., Weinstein J. A., Ran F. A., Konermann S., Agarwala V., Li Y., Fine E. J., Wu X., Shalem O., Cradick T. J., Marraffini L. A., Bao G. & Zhang F. DNA targeting specificity of RNA-guided Cas9 nucleases // Nature Biotechnology. - 2013. - Т. 31. - №9. - С. 827-832). Один из вариантов конструирования гибридной РНК раскрыт в Примерах ниже.A mixture of crRNA (crRNA) and tracer RNA (tracrRNA) capable of forming a complex with the target DNA region and the CoCas9 protein can be used as a guide RNA. In preferred embodiments of the invention, a hybrid RNA constructed from crRNA and tracer RNA can be used as guide RNA. Methods for constructing a hybrid guide RNA are known in the art (Hsu P. D., Scott D. A., Weinstein J. A., Ran F. A., Konermann S., Agarwala V., Li Y., Fine E. J., Wu X., Shalem O., Cradick T. J., Marraffini L. A., Bao G. & Zhang F. DNA targeting specificity of RNA-guided Cas9 nucleases // Nature Biotechnology, 2013, vol. 31, no. 9, pp. 827-832). One design of the fusion RNA is disclosed in the Examples below.
Изобретение может быть использовано как для разрезания целевой ДНК in vitro, так и для модификации генома какого-либо живого организма. Модификация генома может проводиться прямым способом - разрезанием генома в соответствующем сайте, а также вставкой экзогенной последовательности ДНК за счет гомологичной репарации.The invention can be used both for cutting the target DNA in vitro and for modifying the genome of any living organism. Genome modification can be carried out in a direct way - by cutting the genome at the appropriate site, as well as by inserting an exogenous DNA sequence due to homologous repair.
В качестве экзогенной последовательности ДНК может быть использован любой участок двунитевой или однонитевой ДНК из генома организма, отличного от организма, используемого при введении (или смесь таких участков между собой и с другими фрагментами ДНК), при этом этот участок (или смесь участков) предназначен для интеграции в место двуцепочечного разрыва в целевой ДНК, образованного под действием нуклеазы CoCas9. В некоторых вариантах изобретения в качестве экзогенной последовательности ДНК может быть использован участок двуцепочечной ДНК из генома организма, используемого при введении белка CoCas9, но при этом измененный мутациями (заменой нуклеотидов), а также вставками или делециями одного или нескольких нуклеотидов.Any section of double-stranded or single-stranded DNA from the genome of an organism other than the organism used for administration (or a mixture of such sections among themselves and with other DNA fragments) can be used as an exogenous DNA sequence, while this section (or mixture of sections) is intended for integration into the site of a double-strand break in the target DNA, formed under the action of CoCas9 nuclease. In some embodiments of the invention, a portion of double-stranded DNA from the genome of the organism used when introducing the CoCas9 protein, but altered by mutations (substitution of nucleotides), as well as insertions or deletions of one or more nucleotides, can be used as an exogenous DNA sequence.
Техническим результатом настоящего изобретения является повышение универсальности доступных систем CRISPR-Cas9, позволяющее использовать нуклеазу Cas9 для разрезания геномной или плазмидной ДНК в большем количестве специфических сайтов и специфических условий.The technical result of the present invention is to increase the versatility of the available CRISPR-Cas9 systems, allowing the use of the Cas9 nuclease to cut genomic or plasmid DNA at more specific sites and specific conditions.
Подробное раскрытие изобретенияDetailed disclosure of the invention
В описании данного изобретения термины «включает» и «включающий» интерпретируются как означающие «включает, помимо всего прочего». Указанные термины не предназначены для того, чтобы их истолковывали как «состоит только из». Если не определено отдельно, технические и научные термины в данной заявке имеют стандартные значения, общепринятые в научной и технической литературе.In the description of the present invention, the terms "comprises" and "comprising" are interpreted to mean "includes, among other things." These terms are not intended to be construed as "consisting only of". Unless otherwise defined, the technical and scientific terms in this application have the standard meanings generally accepted in the scientific and technical literature.
Используемый здесь термин «процент гомологии двух последовательностей» эквивалентен термину «процент идентичности двух последовательностей». Идентичность последовательностей определяется на основании референсной последовательности. Алгоритмы для анализа последовательности известны в данной области, такие как BLAST, описанный в Altschul et al. (Basic local alignment search tool // Journal of Molecular Biology. - 1990. - Т. 215. - С. 403-410). Для целей настоящего изобретения для определения уровня идентичности и сходства между нуклеотидными последовательностями и аминокислотными последовательностями может быть использовано сравнение нуклеотидных и аминокислотных последовательностей, производимое с помощью пакета программ BLAST, предоставляемого National Center for Biotechnology Information (http://www.ncbi.nlm.nih.gov/blast) с использованием содержащего разрывы выравнивания со стандартными параметрами. Процент идентичности двух последовательностей определяется числом положений идентичных аминокислот в этих двух последовательностях с учетом числа пробелов и длины каждого пробела, которые необходимо ввести для оптимального сопоставления двух последовательностей путем выравнивания. Процент идентичности равен числу идентичных аминокислот в данных положениях с учетом выравнивания последовательностей, разделенному на общее число положений и умноженному на 100.As used herein, the term "percent homology of two sequences" is equivalent to the term "percent identity of two sequences". Sequence identity is determined based on the reference sequence. Algorithms for sequence analysis are known in the art, such as BLAST as described in Altschul et al. (Basic local alignment search tool // Journal of Molecular Biology. - 1990. - T. 215. - S. 403-410). For the purposes of the present invention, comparison of nucleotide and amino acid sequences using the BLAST software package provided by the National Center for Biotechnology Information (http://www.ncbi.nlm.nih) can be used to determine the level of identity and similarity between nucleotide sequences and amino acid sequences. .gov/blast) using a broken alignment with default settings. The percent identity of two sequences is determined by the number of positions of identical amino acids in these two sequences, taking into account the number of gaps and the length of each gap, which must be entered for optimal matching of two sequences by alignment. The percent identity is equal to the number of identical amino acids at given positions, taking into account the alignment of the sequences, divided by the total number of positions and multiplied by 100.
Термин «специфически гибридизуется» относится к ассоциации между двумя одноцепочечными молекулами нуклеиновых кислот или в достаточной степени комплементарными последовательностями, что разрешает такую гибридизацию в предопределенных условиях, обычно использующихся в данной области.The term "specifically hybridizes" refers to an association between two single-stranded nucleic acid molecules, or sufficiently complementary sequences, to permit such hybridization under predetermined conditions commonly used in the art.
Фраза «двунитевой разрыв, расположенный непосредственно перед нуклеотидной последовательностью РАМ» означает, что двунитевой разрыв в целевой последовательности ДНК будет произведен на расстоянии от 0 до 25 нуклеотидов перед нуклеотидной последовательностью РАМ.The phrase "double strand break located immediately before the PAM nucleotide sequence" means that a double strand break in the target DNA sequence will be made at a distance of 0 to 25 nucleotides before the PAM nucleotide sequence.
Под экзогенной последовательностью ДНК, вводимой одновременно с направляющей РНК, следует понимать последовательность ДНК, подготовленную специально для специфической модификации двуцепочечной целевой ДНК в месте разрыва, определяемого специфичностью направляющей РНК. Подобной модификацией может быть, например, вставка или делеция определенных нуклеотидов в месте разрыва целевой ДНК. Экзогенной ДНК может служить как участок ДНК из другого организма, так и участок ДНК из того же организма, что и целевая ДНК.An exogenous DNA sequence introduced simultaneously with a guide RNA is to be understood as a DNA sequence prepared specifically for the specific modification of a double-stranded target DNA at the break site determined by the specificity of the guide RNA. Such a modification may be, for example, the insertion or deletion of certain nucleotides at the site of a break in the target DNA. Exogenous DNA can be either a stretch of DNA from another organism or a stretch of DNA from the same organism as the target DNA.
Под белком, содержащим определенную аминокислотную последовательность следует понимать белок, имеющий аминокислотную последовательность, составленную из указанной аминокислотной последовательности и, возможно, других последовательностей, соединенных пептидными связями с указанной аминокислотной последовательностью. Примером других последовательностей может служить последовательность сигнала ядерной локализации (NLS), или другие последовательности, обеспечивающие повышенную функциональность для указанной аминокислотной последовательности.A protein containing a specific amino acid sequence is to be understood as a protein having an amino acid sequence composed of the specified amino acid sequence and possibly other sequences connected by peptide bonds to the specified amino acid sequence. Other sequences are exemplified by the nuclear localization signal (NLS) sequence, or other sequences that provide increased functionality for the specified amino acid sequence.
Под экзогенной последовательностью ДНК, вводимой одновременно с направляющей РНК, следует понимать последовательность ДНК, подготовленную специально для специфической модификации двуцепочечной целевой ДНК в месте разрыва, определяемого специфичностью направляющей РНК. Подобной модификацией может быть, например, вставка или делеция определенных нуклеотидов в месте разрыва целевой ДНК. Экзогенной ДНК может служить как участок ДНК из другого организма, так и участок ДНК из того же организма, что и целевая ДНК.An exogenous DNA sequence introduced simultaneously with a guide RNA is to be understood as a DNA sequence prepared specifically for the specific modification of a double-stranded target DNA at the break site determined by the specificity of the guide RNA. Such a modification may be, for example, the insertion or deletion of certain nucleotides at the site of a break in the target DNA. Exogenous DNA can be either a stretch of DNA from another organism or a stretch of DNA from the same organism as the target DNA.
Под эффективным количеством вводимых в клетку белка и РНК следует понимать такое количество белка и РНК, которое при попадании в указанную клетку будет способно образовать функциональный комплекс, то есть комплекс, который будет специфически связываться с целевой ДНК и производить в ней двунитевой разрыв в месте, определяемом направляющей РНК и РАМ последовательностью на ДНК. Эффективность этого процесса может быть оценена при помощи анализа целевой ДНК, выделенной из указанной клетки с помощью стандартных методов, известных специалистам.An effective amount of protein and RNA introduced into a cell should be understood as such an amount of protein and RNA that, when it enters the specified cell, will be able to form a functional complex, that is, a complex that will specifically bind to the target DNA and produce a double-strand break in it at a location determined by guide RNA and PAM sequence on DNA. The efficiency of this process can be assessed by analyzing the target DNA isolated from said cell using standard methods known to those skilled in the art.
Доставка белка и РНК в клетку может быть осуществлена различными способами. Например, белок может быть доставлен в виде ДНК-плазмиды, которая кодирует ген этого белка, как мРНК для трансляции этого белка в цитоплазме клетки, или как рибонуклеопротеидный комплекс, включающий этот белок и направляющую РНК. Доставка может быть осуществлена различными методами, известными специалистам.Delivery of protein and RNA into the cell can be carried out in various ways. For example, a protein can be delivered as a DNA plasmid that encodes the gene for that protein, as an mRNA for translation of that protein in the cell's cytoplasm, or as a ribonucleoprotein complex that includes the protein and a guide RNA. Delivery can be accomplished by various methods known to those skilled in the art.
Нуклеиновая кислота, кодирующая компоненты системы, может быть введена в клетку, непосредственно или опосредованно: за счет трансфекции или трансформации клеток известными специалистам способами, за счет использования рекомбинантного вируса, за счет манипуляций с клеткой, таких как микроинъекция ДНК и т. п.The nucleic acid encoding the components of the system can be introduced into the cell, directly or indirectly: by transfection or transformation of cells by methods known to those skilled in the art, by using a recombinant virus, by manipulation of the cell, such as DNA microinjection, etc.
Доставка рибонуклеинового комплекса, состоящего из нуклеазы и направляющих РНК и экзогенной ДНК (при необходимости) может осуществляться путем трансфекции комплексов в клетку или за счет механического введения комплекса внутрь клетки, например, микроинъекции.Delivery of a ribonucleic complex consisting of a nuclease and guide RNAs and exogenous DNA (if necessary) can be carried out by transfection of the complexes into the cell or by mechanical introduction of the complex into the cell, for example, by microinjection.
Молекула нуклеиновой кислоты, кодирующая белок, который необходимо ввести в клетку, может быть интегрирована в хромосому или может представлять собой внехромосомно реплицирующуюся ДНК. В некоторых вариантах для обеспечения эффективной экспрессии гена белка с вводимой в клетку ДНК необходимо изменить последовательность этой ДНК в соответствии с типом клетки в целях оптимизации кодонов при экспрессии, обусловленное неравномерностью частот встречаемости синонимичных кодонов в кодирующих областях генома различных организмов. Оптимизация кодонов необходима для увеличения экспрессии в клетках животных, растений, грибов или микроорганизмов.The nucleic acid molecule encoding the protein to be introduced into the cell may be integrated into a chromosome or may be extrachromosomally replicating DNA. In some embodiments, to ensure efficient expression of a protein gene with DNA introduced into a cell, it is necessary to change the sequence of this DNA in accordance with the cell type in order to optimize codons during expression, due to the uneven frequency of occurrence of synonymous codons in the coding regions of the genome of various organisms. Codon optimization is required to increase expression in animal, plant, fungal, or microbial cells.
Для функционирования белка, имеющего последовательность, которая по меньшей мере на 95% идентична аминокислотной последовательности SEQ ID NO: 1, в эукариотической клетке необходимо, чтобы этот белок оказался в ядре этой клетки. Поэтому, в некоторых вариантах изобретения, для образования двунитевых разрывов в целевой ДНК используют белок, имеющий последовательность, которая по меньшей мере на 95% идентична аминокислотной последовательности SEQ ID NO: 1, и который дополнительно модифицирован с одного или с обоих концов добавлением одного или нескольких сигналов ядерной локализации. Например, может быть использован сигнал ядерной локализации из вируса SV40. Для эффективной доставки в ядро сигнал ядерной локализации может быть отделен от основной последовательности белка спейсерной последовательностью, например, описанной в Shen B, et al. (Generation of gene-modified mice via Cas9/RNA-mediated gene targeting // Cell Research. - 2013. - Т. 23. - №5. - С. 720-723). Также, в других вариантах осуществления, может быть использован другой сигнал ядерной локализации, или альтернативный метод доставки указанного белка в ядро клетки.For a protein having a sequence that is at least 95% identical to the amino acid sequence of SEQ ID NO: 1 to function in a eukaryotic cell, the protein must be in the nucleus of that cell. Therefore, in some embodiments of the invention, a protein is used to form double-strand breaks in the target DNA, having a sequence that is at least 95% identical to the amino acid sequence of SEQ ID NO: 1, and which is further modified at one or both ends by the addition of one or more nuclear localization signals. For example, a nuclear localization signal from the SV40 virus can be used. For efficient delivery to the nucleus, the nuclear localization signal can be separated from the main protein sequence by a spacer sequence, such as that described in Shen B, et al. (Generation of gene-modified mice via Cas9/RNA-mediated gene targeting // Cell Research. - 2013. - Vol. 23. - No. 5. - P. 720-723). Also, in other embodiments, a different nuclear localization signal, or alternative method of delivering said protein to the cell nucleus, may be used.
Настоящее изобретение охватывает применение белка из организма Capnocytophaga ochracea, гомологичного ранее охарактеризованным белкам Cas9, для внесения двуцепочечных разрывов в молекулы ДНК в строго определенных положениях. Использование CRISPR нуклеаз для внесения направленных изменений в геном имеет ряд преимуществ. Во-первых, специфичность действия системы определяется последовательностью крРНК, что позволяет использовать один тип нуклеазы для всех локусов-мишеней. Во-вторых, методика позволяет доставить в клетку сразу несколько направляющих РНК, комплементарных разным генам-мишеням, что позволяет осуществлять единовременное изменение сразу нескольких генов.The present invention encompasses the use of a protein from the organism Capnocytophaga ochracea, homologous to previously characterized Cas9 proteins, to introduce double-strand breaks in DNA molecules at well-defined positions. The use of CRISPR nucleases to introduce targeted changes in the genome has a number of advantages. First, the specificity of the system's action is determined by the crRNA sequence, which makes it possible to use one type of nuclease for all target loci. Secondly, the technique allows several guide RNAs complementary to different target genes to be delivered into the cell at once, which makes it possible to carry out a simultaneous change in several genes at once.
CoCas9 - Cas нуклеаза, найденная в бактериях Capnocytophaga ochracea DSM 7271, являющихся оппортунистическими патогенами человека, найденными в ротовой полости. Capnocytophaga ochracea CRISPR-Cas9 система (далее CRISPR CoCas9) относится к II C типу CRISPR Cas систем и состоит из CRISPR кассеты, несущей пять прямых повторов (direct repeats, DR) последовательностью 5'-GTTGTGAATTGCTTTCAAATTTTGTAGTTTTGCGATTGATAACAAC-3' разделенных последовательностями уникальных спейсеров. Ни один из спейсеров системы не совпадает по последовательности с известными на сегодня бактериофагами или плазмидами, что не позволяет определить требуемый CoCas9 PAM биоинформатическим анализом. К CRISPR кассете прилегает ген эффекторного Cas9 белка CoCas9. Рядом с Cas геном была обнаружена последовательность, частично комплементарная прямым повторам, складывающаяся в характерную вторичную структуру, - предполагаемая трейсерная РНК (tracrRNA, трРНК) (Фиг. 1)CoCas9 is a Cas nuclease found in the bacterium Capnocytophaga ochracea DSM 7271, which is an opportunistic human pathogen found in the oral cavity. The Capnocytophaga ochracea CRISPR-Cas9 system (hereinafter CRISPR CoCas9) belongs to type II C CRISPR Cas systems and consists of a CRISPR cassette carrying five direct repeats (DR) with a 5'-GTTGTGAATTGCTTTCAAATTTTGTAGTTTTGCGATTGATAACAAC-3' sequence separated by unique spacer sequences. None of the spacers of the system matches the sequence of currently known bacteriophages or plasmids, which makes it impossible to determine the required CoCas9 PAM by bioinformatic analysis. The gene for the Cas9 effector protein CoCas9 is adjacent to the CRISPR cassette. Next to the Cas gene, a sequence was found that is partially complementary to direct repeats, folding into a characteristic secondary structure - putative tracer RNA (tracrRNA, tRNA) (Fig. 1)
Знание характерной архитектуры РНК-Cas белкового комплекса систем II-C типа позволила предсказать направление транскрипции CRISPR кассеты: пре-крРНК транскрибируется в противоположном от Cas генов направлении (Фиг. 1)Knowledge of the characteristic architecture of the RNA-Cas protein complex of type II-C systems made it possible to predict the direction of transcription of the CRISPR cassette: pre-crRNA is transcribed in the opposite direction from Cas genes (Fig. 1)
Таким образом, анализ последовательности локуса CoCas9 позволил предсказать последовательности трейсерной и направляющих РНК (Таблица 1).Thus, sequence analysis of the CoCas9 locus made it possible to predict the tracer and guide RNA sequences (Table 1).
Для проверки активности CoCas9 нуклеазы и определения требуемого CoCas9 PAM мотива, были проведены эксперименты по воссозданию реакции разрезания ДНК in vitro. Для определения PAM последовательности белка CoCas9 использовали in vitro разрезание двунитевых PAM библиотек. Для этого необходимо было получить все компоненты эффекторного комплекса CoCas9: направляющие РНК и нуклеазу в рекомбинантной форме. Определение последовательности направляющих РНК позволило синтезировать in vitro молекулы крРНК и трРНК. Синтез осуществляли с помощью набора NEB HiScribe T7 RNA synthesis. Двунитевые ДНК библиотеки представляли собой фрагменты размером 374 пар нуклеотидов (п. н.), содержащие последовательность протоспейсера, фланкированную рандомизированными семью нуклеотидами (5'-NNNNNNN-3') c 3' конца: 5'- To test the activity of CoCas9 nuclease and determine the required CoCas9 PAM motif, experiments were carried out to recreate the DNA cutting reaction in vitro. To determine the PAM sequence of the CoCas9 protein, in vitro cutting of double-stranded PAM libraries was used. To do this, it was necessary to obtain all components of the CoCas9 effector complex: guide RNA and nuclease in recombinant form. Sequencing of guide RNAs made it possible to synthesize crRNA and tRNA molecules in vitro. Synthesis was performed using the NEB HiScribe T7 RNA synthesis kit. Double-stranded DNA libraries were fragments of 374 base pairs (bp) containing the protospacer sequence flanked by randomized seven nucleotides (5'-NNNNNNNN-3') from the 3' end: 5'-
Для разрезания этой мишени использовали направляющие РНК следующей последовательности: в качестве трРНК последовательность SEQ ID NO: 2; в качестве крРНК:To cut this target, guide RNAs of the following sequence were used: as tRNA, the sequence of SEQ ID NO: 2; as crRNA:
5'-uaucuccuuucauugagcacGUUGUGAAUUGCUUUCAAAUUUUGUAGUUUUGCGAUUGAUAACAA-3' (SEQ ID NO: 5).5'-uaucuccuuucauugagcacGUUGUGAAUUGCUUUCAAAUUUUGUAGUUUUGCGAUUGAUAACAA-3' (SEQ ID NO: 5).
Жирным шрифтом выделена последовательность крРНК, комплементарная протоспейсеру (целевой ДНК последовательности).The crRNA sequence complementary to the protospacer (target DNA sequence) is highlighted in bold.
Для получения рекомбинантного белка CoCas9 его ген был клонирован в плазмиду pET21a. В качестве кодирующей ген ДНК, использовалась ДНК, амплифицированная с геномной ДНК Capnocytophaga ochracea DSM 7271, заказанной из коллекции DSMZ (Leibniz Institute DSMZ-German Collection of Microorganisms and Cell Cultures GmbH). Клетки E. coli Rosetta были трансформированы полученной плазмидой pET21a-6xHis-CoCas9. 500 мкл ночной культуры разводили в 500 мл среды LB, и растили клетки при температуре 37°C до достижения оптической плотности 0.6 отн. ед. Синтез целевого белка индуцировали добавлением ИПТГ до концентрации 1 мМ, после чего клетки инкубировали при температуре 16°C в течение 16 часов. Затем проводили центрифугирование клеток на скорости 5000 g в течение 30 минут, полученные осадки клеток замораживали при температуре -20°C. Осадки размораживали на льду в течение 30 минут, ресуспензировали в 15 мл лизисного буфера (Tris-HCl 50мМ pH 8, 500 мМ NaCl, β-меркаптоэтанол 1мМ, имидазол 10 мМ) с добавлением 15 мг лизоцима и снова инкубировали на льду в течение 30 минут. Затем клетки разрушали воздействием ультразвука в течение 30 минут и центрифугировали в течение 40 минут на скорости 16000 g. Полученный супернатант пропускали через фильтр 0.2 мкм и наносили на колонку HisTrap HP 1 mL (GE Healthcare) на скорости 1 мл/мин.To obtain the recombinant CoCas9 protein, its gene was cloned into the pET21a plasmid. As DNA encoding the gene, DNA amplified with Capnocytophaga ochracea DSM 7271 genomic DNA ordered from the DSMZ collection (Leibniz Institute DSMZ-German Collection of Microorganisms and Cell Cultures GmbH) was used. E. coli Rosetta cells were transformed with the resulting pET21a-6xHis-CoCas9 plasmid. 500 µl of the overnight culture were diluted in 500 ml of LB medium, and the cells were grown at 37°C until an optical density of 0.6 rel. units Target protein synthesis was induced by adding IPTG to a concentration of 1 mM, after which the cells were incubated at 16°C for 16 hours. Then the cells were centrifuged at a speed of 5000 g for 30 minutes, the obtained cell pellets were frozen at -20°C. The pellets were thawed on ice for 30 minutes, resuspended in 15 ml of lysis buffer (Tris-HCl 50
Хроматографию проводили при помощи FPLC хроматографа AKTA (GE Healthcare) на скорости 1 мл/мин. Колонку с нанесенным белком промывали 20 мл лизисного буфера с добавлением 10 мМ имидазола, после чего белок смывали лизисным буфером с добавлением 300 мМ имидазола.Chromatography was performed using an AKTA FPLC chromatograph (GE Healthcare) at 1 ml/min. The protein loaded column was washed with 20 ml of lysis buffer with the addition of 10 mM imidazole, after which the protein was washed with lysis buffer with the addition of 300 mM imidazole.
Затем, фракцию белка, полученную в ходе афинной хроматографии, пропускали через гель-фильтрационную колонку Superdex 200 10/300 GL (24 мл), уравновешенную следующим буфером: Tris-HCl 50 мМ pH 8, 500 мМ NaCl, 1 мМ DTT. При помощи концентратора Amicon (с фильтром на 30 кДа) фракции, соответствующие мономерной форме белка CoCas9, сконцентрировали до 1.6 мг/мл, после чего очищенный белок хранили при температуре -80°C в буфере, содержащем 10% глицерин.Then, the protein fraction obtained from affinity chromatography was passed through a Superdex 200 10/300 GL gel filtration column (24 ml) equilibrated with the following buffer: Tris-HCl 50
In vitro реакцию порезки линейных PAM библиотек проводили в объеме 20 мкл в следующих условиях. Реакционная смесь состояла из: 1X CutSmart буфера (NEB), 5 мМ DTT, 100 нМ PAM-библиотеки, 2 мкМ трРНК/крРНК, 400 нМ белка CoCas9. В качестве контроля аналогичным образом были приготовлены пробы, не содержащие РНК. Пробы инкубировали при различных температурах и анализировали методом гель-электрофореза в 2% агарозном геле. В случае правильного узнавания и специфического разрезания ДНК белком CoCas9 должны формироваться два фрагмента ДНК длиной порядка 326 и 48 пар оснований (см. Фиг. 2).In vitro cutting reaction of linear PAM libraries was carried out in a volume of 20 µl under the following conditions. The reaction mixture consisted of: 1X CutSmart buffer (NEB), 5 mM DTT, 100 nM PAM library, 2 μM tRNA/crRNA, 400 nM CoCas9 protein. Samples containing no RNA were prepared in a similar way as controls. Samples were incubated at different temperatures and analyzed by gel electrophoresis in 2% agarose gel. In the case of correct recognition and specific cutting of DNA by the CoCas9 protein, two DNA fragments of the order of 326 and 48 base pairs in length should be formed (see Fig. 2).
Результаты опыта показали, что CoCas9 обладает нуклеазной активностью и разрезает часть фрагментов PAM библиотеки (Фиг. 3).The results of the experiment showed that CoCas9 has nuclease activity and cuts part of the fragments of the PAM library (Fig. 3).
Реакцию разрезания библиотеки повторяли в подобранных условиях. Продукты реакции наносили на 2% агарозный гель и подвергали электрофорезу. Непорезанные фрагменты ДНК длиной 374 п.н. экстрагировали из геля и подготавливали для высокоэффективного секвенирования с помощью набора NEB NextUltra II. Образцы секвенировали на платформе Illumina и далее проводили анализ последовательностей биоформатическими методами: определяли разницу в представленности нуклеотидов в отдельных позициях PAM (NNNNNNN) в сравнении с контрольным образцом. Для анализа результатов были построены PAM лого (Фиг. 4) и PAM колесо (Фиг. 5).The library cutting reaction was repeated under adjusted conditions. The reaction products were applied to a 2% agarose gel and subjected to electrophoresis. Uncut DNA fragments 374 bp long. were extracted from the gel and prepared for high throughput sequencing using the NEB NextUltra II kit. The samples were sequenced on the Illumina platform and then the sequences were analyzed by bioformational methods: the difference in the representation of nucleotides in individual PAM positions (NNNNNNNN) was determined in comparison with the control sample. To analyze the results, a PAM logo (Fig. 4) and a PAM wheel (Fig. 5) were built.
Анализ данных указывают на значимость 2, 3, 4 и 5 позиций PAM. Таким образом, в результате in vitro анализа удалось установить предположительную PAM последовательность для CoCas9: 5'-N(A/G)A(A/T)(C/A)-3'. Эта последовательность является предположительной в силу неточности результатов, получаемых скрининговыми подходами к определению PAM.Data analysis indicates the significance of 2, 3, 4 and 5 PAM positions. Thus, as a result of in vitro analysis, it was possible to establish a putative PAM sequence for CoCas9: 5'-N(A/G)A(A/T)(C/A)-3'. This sequence is hypothetical due to the inaccuracy of the results obtained by screening approaches to the determination of PAM.
Для подтверждения наличия нуклеазной активности у CoCas9 проводили реакции разрезания ДНК фрагментов, содержащих ДНК-мишень 5'-atctcctttcattgagcac-3', фланкированную PAM последовательностями, выбранными по результатам PAM скрининга (5'-AACAACG-3', 5'-CAAACCC-3', 5'-CAAACAA-3', 5'-CAAACTA-3', 5'-CAAACAC-3', 5'-AAATCCA-3', 5'-AAAACCC-3', 5'-CAAACCG-3', 5'-AAAACTC-3', 5'-CAAACAG-3', 5'-AAAAACG-3', 5'-CAAAACC-3', последовательности PAM расположены в порядке уменьшения эффективности узнавания согласно результатам анализа).To confirm the presence of nuclease activity in CoCas9, DNA cutting reactions were performed on fragments containing the target DNA 5'-atctcctttcattgagcac-3', flanked by PAM sequences selected from the results of PAM screening (5'-AACAACG-3', 5'-CAAACCC-3' , 5'-CAAAACAA-3', 5'-CAAACTA-3', 5'-CAAACAC-3', 5'-AAATCCA-3', 5'-AAAACCC-3', 5'-CAAACCG-3', 5 '-AAAACTC-3', 5'-CAAAACAG-3', 5'-AAAAACG-3', 5'-CAAAAACC-3', PAM sequences are arranged in order of decreasing recognition efficiency according to the results of the analysis).
CoCas9 разрезал большинство мишеней, фланкированных выбранными PAM, менее эффективно разрезав 5'-AAAAACG-3', 5'-CAAAACC-3', показавшие меньшую долю разрезания в PAM скрининге (Фиг. 6).CoCas9 cut most of the targets flanked by the selected PAMs, less efficiently cutting 5'-AAAAAACG-3', 5'-CAAAAACC-3', which showed less cut in PAM screening (FIG. 6).
Далее для уточнения PAM последовательности была произведена проверка значимости отдельных нуклеотидных позиций.Further, to clarify the PAM sequence, the significance of individual nucleotide positions was checked.
Для этого эксперимента была выбрана последовательность PAM 5'-CAAACCC-3', на которой CoCas9 продемонстрировал высокую нуклеазную активность (Фиг. 6).For this experiment, the PAM sequence 5'-CAAACCC-3' was chosen, in which CoCas9 showed high nuclease activity (FIG. 6).
Реакции разрезания (Фиг. 7 и Фиг. 8) проводили in vitro с использованием ДНК фрагментов, содержащих ДНК-мишень 5'-atctcctttcattgagcac-3', фланкированную PAM последовательностью 5'-CAAACCC-3' (или ее производных): 5'- Cutting reactions (Fig. 7 and Fig. 8) were performed in vitro using DNA fragments containing the target DNA 5'-atctcctttcattgagcac-3' flanked by the PAM sequence 5'-CAAACCC-3' (or its derivatives): 5'-
Все реакции разрезания ДНК проводили в следующих условиях:All DNA cutting reactions were carried out under the following conditions:
1x CutSmart буфер1x CutSmart buffer
400 нМ CoCas9400 nM CoCas9
40 нМ ДНК40 nM DNA
2 мкМ крРНК2 μM crRNA
2 мкМ трРНК2 μM tRNA
Время инкубации - 30 минут, температура проведения реакции 37°C.Incubation time - 30 minutes, reaction temperature 37°C.
Замена нуклеотидов в каждом положении PAM (пурин на пиримидин и наоборот) показала, что значимыми являются только 2, 3, 4 5 позиции, подтвердив результаты PAM скрининга (Фиг. 7).The substitution of nucleotides at each PAM position (purine to pyrimidine and vice versa) showed that only positions 2, 3, 4, 5 were significant, confirming the PAM screening results (FIG. 7).
Далее каждый нуклеотид PAM был заменен на все возможные варианты нуклеотидов (Фиг. 8). Замена незначимых 1, 6 и 7 позиции PAM на все четыре возможные варианта нуклеотидов не повлияла на эффективность работы белка (Фиг. 8).Next, each PAM nucleotide was replaced with all possible nucleotide variants (Fig. 8). Substitution of
В позициях 2 и 3 CoCas9 требует наличия аденина или гуанина, в позиции 4 требует аденин или тимин. А при замене цитозина в пятой позиции белок практически переставал работать.In
Эти данные согласуются с результатами PAM скрининга (Фиг. 5)These data are consistent with the results of PAM screening (Fig. 5)
В результате проведенных исследований удалось сделать следующий вывод: PAM, распознаваемый нуклеазой CoCas9, соответствует следующей формуле 5'-N(A/G)(A/G)(A/T)C-3' (5'-NRRWC-3').As a result of the studies, the following conclusion was made: PAM recognized by CoCas9 nuclease corresponds to the following formula 5'-N(A/G)(A/G)(A/T)C-3' (5'-NRRWC-3') .
Дополнительно был исследован температурный оптимум нуклеазной активности белка CoCas9 (Фиг. 9). В результате было показано, что белок активен в диапазоне температур 35-45°С.Additionally, the temperature optimum of the nuclease activity of the CoCas9 protein was studied (Fig. 9). As a result, it was shown that the protein is active in the temperature range of 35-45°C.
Нижеследующие примеры осуществления способа приведены в целях раскрытия характеристик настоящего изобретения и их не следует рассматривать как каким-либо образом ограничивающие объем изобретения.The following examples of the implementation of the method are given in order to disclose the characteristics of the present invention and should not be construed as in any way limiting the scope of the invention.
Пример 1. Использование гибридной направляющей РНК для разрезания ДНК мишени.Example 1 Use of a hybrid guide RNA to cut a target DNA.
sgRNA - форма направляющих РНК, которая представляет собой слитые воедино трРНК (трейсерная РНК) и крРНК. Для подбора оптимальной sgRNA были сконструированы два варианта этой последовательности, отличающиеся длиной трРНК - крРНК дуплекса. РНК синтезировали in vitro и проводили с ними эксперименты по разрезанию ДНК -мишени.sgRNA is a form of guide RNA that is a fusion of tRNA (tracer RNA) and crRNA. To select the optimal sgRNA, two variants of this sequence were constructed, differing in the length of the tRNA - crRNA duplex. RNA was synthesized in vitro and experiments were performed with them to cut the target DNA.
В качестве гибридных РНК были использованы следующие РНК последовательности:The following RNA sequences were used as fusion RNAs:
1 - sgRNA1 28DR: UAUCUCCUUUCAUUGAGCACGUUGUGAAUUGCUUUCAAAUUUUGUAGUGAAAGUCGCACAAUUUGAAAGCAAUUCACAAUAAGGAUUAUUCCGUUGUGAAAACAUUUAAAGGAGCCCUAUCAUUAUAUUAGUGAUAGGGUUCUUUUUU (SEQ ID NO: 7);1 - sgRNA1 28DR: UAUCUCCUUUCAUUGAGCACGUUGUGAAUUGCUUUCAAAUUUUGUAGUGAAAGUCGCACAAUUUGAAAGCAAUUCACAAUAAGGAUUAUUCCGUUGUGAAAACAUUUAAAGGAGCCCUAUCAUUAUAUUAGUGAUAGGGUUCUUUUUU (SEQ ID NO: 7);
2 - sgRNA2 35DR:2 - sgRNA2 35DR:
UAUCUCCUUUCAUUGAGCACGUUGUGAAUUGCUUUCAAAUUUUGUAGUUUUGCGAGAAAGUCGCACAAUUUGAAAGCAAUUCACAAUAAGGAUUAUUCCGUUGUGAAAACAUUUAAAGGAGCCCUAUCAUUAUAUUAGUGAUAGGGUUCUUUUUU (SEQ ID NO: 8).UAUCUCCUUUCAUUGAGCACGUUGUGAAUUGCUUUCAAAUUUUGUAGUUUUGCGAGAAAGUCGCACAAUUUGAAAGCAAUUCACAAUAAGGAUUAUUCCGUUGUGAAAACAUUUAAAGGAGCCCUAUCAUUAUAUUAGUGAUAGGGUUCUUUUUU (SEQ ID NO: 8).
Жирным шрифтом обозначена 20-нуклеотидная последовательность, обеспечивающая спаривание с ДНК -мишенью (вариабельная часть sgRNA). Кроме того, в эксперименте делали контрольную пробу без РНК, а также положительный контроль - разрезание мишени с помощью крРНК+трРНК.Bold indicates the 20-nucleotide sequence that provides pairing with the target DNA (variable part of sgRNA). In addition, a control sample without RNA was made in the experiment, as well as a positive control - cutting the target with crRNA + tRNA.
В качестве ДНК мишени использовалась последовательность, содержащая сайт узнавания 5'-tatctcctttcattgagcac-3' с соответствующим консенсусу PAM CAAACCC: 5'- The sequence containing the recognition site 5'-tatctcctttcattgagcac-3' with the corresponding PAM CAAACCC consensus was used as the target DNA: 5'-
Жирным шрифтом обозначен сайт узнавания, заглавными буквами PAM.The recognition site is marked in bold, PAM in capital letters.
Реакцию проводили в следующих условиях: концентрация ДНК последовательности, содержащей PAM (CAAACCC) - 40 нМ, концентрация белка - 400 нМ, концентрация РНК - 2 мкМ; время инкубирования - 30 минут, температура инкубирования - 37°С.The reaction was carried out under the following conditions: concentration of DNA sequence containing PAM (CAAACCC) - 40 nM, protein concentration - 400 nM, RNA concentration - 2 μM; incubation time - 30 minutes, incubation temperature - 37°C.
Подобранные sgRNA1 и sgRNA2 оказались так же эффективны, как и нативные последовательности трРНК и крРНК (Фиг. 10).The matched sgRNA1 and sgRNA2 proved to be as effective as native tRNA and crRNA sequences (FIG. 10).
Эти варианты гибридной РНК могут быть использованы для разрезания любой другой целевой ДНК при изменении последовательности, непосредственно спаривающейся с ДНК -мишенью.These fusion RNA variants can be used to cut any other target DNA by changing the sequence that directly pairs with the target DNA.
Пример 2. Белки Cas9 из близкородственных организмов, относящихся к Capnocytophaga ochracea.Example 2 Cas9 proteins from closely related organisms belonging to Capnocytophaga ochracea.
На сегодняшний день в Capnocytophaga ochracea не охарактеризовано ни одного фермента системы CRISPR-Cas9. Сравнимый по размерам белок Cca1 из Capnocytophaga canis (также относится к белкам Cas9) идентичен CoCas9 на 66.34% (Фиг. 11, степень идентичности была рассчитана по программе BLASTp, default parameters). При этом значительная часть отличий нуклеаз приходится на домен, взаимодействующий с PAM последовательностью (степень идентичности обоих доменов 67%). Различия этих доменов обуславливают то, что нуклеазы взаимодействуют с разными PAM (PAM Cca1 5'-BRTTTTT-3').To date, not a single enzyme of the CRISPR-Cas9 system has been characterized in Capnocytophaga ochracea. Comparable in size, the Cca1 protein from Capnocytophaga canis (also related to the Cas9 proteins) is 66.34% identical to CoCas9 (Fig. 11, the degree of identity was calculated using the BLASTp program, default parameters). At the same time, a significant part of the differences in nucleases falls on the domain interacting with the PAM sequence (the degree of identity of both domains is 67%). Differences in these domains cause nucleases to interact with different PAMs (PAM Cca1 5'-BRTTTTT-3').
Таким образом, белок CoCas9 существенно отличается по аминокислотной последовательности от других Cas9 белков, изученных на сегодняшний день.Thus, the CoCas9 protein differs significantly in amino acid sequence from other Cas9 proteins studied to date.
Специалисту в области генетической инженерии очевидно, что полученный и охарактеризованный в данном Описании вариант последовательности белка CoCas9 может быть изменен без изменения функции самого белка (например, направленным мутагенезом аминокислотных остатков, напрямую не влияющих на функциональную активность (Sambrook et al., Molecular Cloning: A Laboratory Manual, (1989), CSH Press, pp. 15.3-15.108)). В частности, специалисту известно, что могут быть изменены неконсервативные аминокислотные остатки, не затрагивающие остатки, определяющие функциональность белка (определяющие его функцию или структуру). Примерами таких изменений могут служить замены неконсервативных аминокислотных остатков на гомологичные. В некоторых вариантах осуществления изобретения возможно использование белка, содержащего аминокислотную последовательность, которая по меньшей мере на 95% идентична аминокислотной последовательности SEQ ID NO: 1 и имеет отличия по сравнению с SEQ ID NO: 1 только в неконсервативных аминокислотных остатках, для образования двунитевого разрыва в молекуле ДНК, расположенного непосредственно перед нуклеотидной последовательностью 5'-N(A/G)(A/G)(A/T)C-3' в указанной молекуле ДНК. Гомологичные белки могут быть получены путем мутагенеза (например, сайт-направленного или ПЦР-опосредуемого мутагенеза) соответствующих молекул нуклеиновых кислот с последующим тестированием кодируемого модифицированного белка Cas9 на сохранение его функций в соответствии с описанными здесь функциональными анализами.It is obvious to a specialist in the field of genetic engineering that the variant of the CoCas9 protein sequence obtained and characterized in this Description can be changed without changing the function of the protein itself (for example, by directed mutagenesis of amino acid residues that do not directly affect functional activity (Sambrook et al., Molecular Cloning: A Laboratory Manual, (1989), CSH Press, pp. 15.3-15.108)). In particular, one skilled in the art will be aware that non-conservative amino acid residues can be changed without affecting residues that determine the functionality of the protein (determining its function or structure). Examples of such changes are the replacement of non-conservative amino acid residues with homologous ones. In some embodiments of the invention, it is possible to use a protein containing an amino acid sequence that is at least 95% identical to the amino acid sequence of SEQ ID NO: 1 and differs from SEQ ID NO: 1 only in non-conservative amino acid residues to form a double-strand break in DNA molecule located immediately before the nucleotide sequence 5'-N(A/G)(A/G)(A/T)C-3' in the specified DNA molecule. Homologous proteins can be obtained by mutagenesis (eg, site-directed or PCR-mediated mutagenesis) of the appropriate nucleic acid molecules, followed by testing the encoded modified Cas9 protein for retention of its functions in accordance with the functional assays described here.
Пример 3. Описанная в настоящем изобретении система CoCas9 в комплексе с направляющими РНК может быть использована для изменения последовательности геномной ДНК многоклеточного организма, в том числе эукариотического. Для введения система CoCas9 в комплексе с направляющими РНК в клетки этого организма (во все клетки или в часть клеток) могут быть применены различные подходы, известные специалистам. Например, методы доставки CRISPR-Cas9 систем в клетки организмов раскрыты в источниках (Liu C et al., Delivery strategies of the CRISPR-Cas9 gene-editing system for therapeutic applications. J Control Release. 2017 Nov 28;266:17-26; Lino CA et al., Delivering CRISPR: a review of the challenges and approaches. Drug Deliv. 2018 Nov;25(1):1234-1257), и в источниках, раскрытых внутри этих источников.Example 3 The CoCas9 system described in the present invention in combination with guide RNAs can be used to change the genomic DNA sequence of a multicellular organism, including a eukaryotic one. To introduce the CoCas9 system in complex with guide RNAs into the cells of this organism (in all cells or in some cells), various approaches known to those skilled in the art can be applied. For example, delivery strategies of the CRISPR-Cas9 gene-editing system for therapeutic applications. J Control Release. 2017 Nov 28;266:17-26; Lino CA et al., Delivering CRISPR: a review of the challenges and approaches Drug Deliv.2018 Nov;25(1):1234-1257), and in the sources disclosed within those sources.
Для эффективной экспрессии нуклеазы CoCas9 в эукариотических клетках будет желательно провести оптимизацию кодонов для аминокислотной последовательности белка CoCas9 методами, известными специалистам (например, IDT codon optimization tool).For efficient expression of the CoCas9 nuclease in eukaryotic cells, it will be desirable to perform codon optimization for the amino acid sequence of the CoCas9 protein by methods known to those skilled in the art (eg, IDT codon optimization tool).
Для эффективной работы нуклеазы CoCas9 в эукариотических клетках необходимо обеспечить импорт этого белка внутрь ядра эукариотической клетки. Для этого можно использовать сигнал ядерной локализации из Т-антигена вируса SV40 (Lanford et al., Cell, 1986, 46: 575-582), соединенный с последовательностью CoCas9 с помощью спейсерной последовательности, описанной в Shen B, et al. "Generation of gene-modified mice via Cas9/RNA-mediated gene targeting", Cell Res. 2013 May;23(5):720-3 или без нее. Таким образом, полная аминокислотная последовательность нуклеазы, транспортируемой внутрь ядра эукариотической клетки, будет представлять собой следующую последовательность: MAPKKKRKVGIHGVPAA-CoCas9-KRPAATKKAGQAKKKK (далее CoCas9 NLS). Для доставки белка с приведенной выше аминокислотной последовательностью, могут быть использованы по меньшей мере два подхода.For efficient operation of the CoCas9 nuclease in eukaryotic cells, it is necessary to ensure the import of this protein into the nucleus of the eukaryotic cell. This can be done using the nuclear localization signal from the SV40 T antigen (Lanford et al., Cell, 1986, 46: 575-582) coupled to the CoCas9 sequence using the spacer sequence described in Shen B, et al. "Generation of gene-modified mice via Cas9/RNA-mediated gene targeting", Cell Res. 2013 May;23(5):720-3 or without. Thus, the complete amino acid sequence of a nuclease transported into the nucleus of a eukaryotic cell will be the following sequence: MAPKKKRKVGIHGVPAA-CoCas9-KRPAATKKAGQAKKKK (hereinafter CoCas9 NLS). To deliver a protein with the above amino acid sequence, at least two approaches can be used.
Доставка в виде гена осуществляется путем создания плазмиды, несущей ген CoCas9 NLS под регуляцией промотора (например, CMV промотора) и последовательности, кодирующей направляющие РНК под регуляцией U6 промотора. В качестве ДНК- мишеней используются ДНК последовательности фланкированные 5'-N(A/G)(A/G)(A/T)C-3', например, последовательности гена grin2b человека:Delivery as a gene is accomplished by creating a plasmid carrying the CoCas9 NLS gene under the regulation of a promoter (eg CMV promoter) and a sequence encoding guide RNAs under the regulation of the U6 promoter. As DNA targets, DNA sequences flanked 5'-N(A/G)(A/G)(A/T)C-3' are used, for example, the sequences of the human grin2b gene:
5'-CAGCTGAAGTAATGTTAGAG-3'5'-CAGCTGAAGTAATGTTAGAG-3'
Таким образом, кассета для экспрессии sgРНК выглядит следующим образом:Thus, the sgRNA expression cassette looks like this:
gagggcctatttcccatgattccttcatatttgcatatacgatacaaggctgttagagagataattggaattaatttgactgtaaacacaaagatattagtacaaaatacgtgacgtagaaagtaataatttcttgggtagtttgcagttttaaaattatgttttaaaatggactatcatatgcttaccgtaacttgaaagtatttcgatttcttggctttatatatcttgtggaaaggacgaaacaccg CAGCTGAAGTAATGTTAGAGGTTGTGAATTGCTTTCAAATTTTGTAGTGAAAGTCGCACAATTTGAAAGCAATTCACAATAAGGATTATTCCGTTGTGAAAACATTTAAAGGAGCCCTATCATTATATTAGTGATAGGGTTCTTTTTT (SEQ ID NO: 10).gagggcctatttcccatgattccttcatatttgcatatacgatacaaggctgttagagagataattggaattaatttgactgtaaacacaaagatattagtacaaaatacgtgacgtagaaagtaataatttcttgggtagtttgcagttttaaaattatgttttaaaatggactatcatatgcttaccgtaacttgaaagtatttcgatttcttggctttatatatcttgtggaaaggacgaaacaccg CAGCTGAAGTAATGTTAGAGGTTGTGAATTGCTTTCAAATTTTGTAGTGAAAGTCGCACAATTTGAAAGCAATTCACAATAAGGATTATTCCGTTGTGAAAACATTTAAAGGAGCCCTATCATTATATTAGTGATAGGGTTCTTTTTT (SEQ ID NO: 10).
Жирным шрифтом выделена последовательность U6 промотора, далее идет последовательность, необходимая для узнавания целевой ДНК (заглавными буквами), а далее идет последовательность, образующая структуру sgRNA (заглавные буквы жирным шрифтом).The sequence of the U6 promoter is in bold, followed by the sequence required to recognize the target DNA (capital letters), and then comes the sequence that forms the sgRNA structure (capital letters in bold).
Плазмидную ДНК очищают и трансфицируют в клетки человека HEK293 c помощью реагента Lipofectamine 2000 (Thermo Fisher Scientific). Клетки инкубируют в течение 72 часов, после чего из них выделяется геномная ДНК с помощью колонок для очистки геномной ДНК (Thermo Fisher Scientific). Целевой ДНК сайт анализируется с помощью секвенирования на платформе Illumina с целью определения числа вставок-делеций в ДНК, происходящих в целевом сайте по причине направленного двунитевого разрыва и последующей его репарации.Plasmid DNA was purified and transfected into human HEK293 cells using the Lipofectamine 2000 reagent (Thermo Fisher Scientific). Cells are incubated for 72 hours, after which genomic DNA is isolated using genomic DNA purification columns (Thermo Fisher Scientific). The target DNA site is analyzed by sequencing on the Illumina platform to determine the number of DNA insertion-deletions occurring at the target site due to directed double-strand break and its subsequent repair.
Для амплификации целевых фрагментов используют праймеры, фланкирующие предположительное место внесения разрыва.To amplify the target fragments, primers flanking the presumed site of the break are used.
После амплификации пробы готовятся по протоколу реагента Ultra II DNA Library Prep Kit for Illumina (NEB) для подготовки образцов к высокопроизводительному секвенированию. Затем проводится секвенирование на платформе Illumina 300cycles, прямое прочтение. Результаты секвенирования анализируются биоинформатическими методами. В качестве детекции разрезания принимается вставка или делеция нескольких нуклеотидов в целевой последовательности ДНК.After amplification, samples are prepared using the Ultra II DNA Library Prep Kit for Illumina (NEB) reagent protocol to prepare samples for high throughput sequencing. This is followed by sequencing on the Illumina 300cycles platform, direct reading. The sequencing results are analyzed by bioinformatic methods. The insertion or deletion of several nucleotides in the target DNA sequence is taken as a cut detection.
Доставка в виде рибонуклеинового комплекса осуществляется путем инкубации рекомбинантной формы CoCas9 NLS c направляющими РНК в CutSmart буфере (NEB). Рекомбинантный белок получают из бактериальных клеток-продуцентов, очищая его с помощью аффинной хроматографии (NiNTA, Qiagen) разделением по размеру (Superdex 200).Delivery in the form of a ribonucleic complex is carried out by incubation of the recombinant CoCas9 NLS form with guide RNAs in CutSmart Buffer (NEB). The recombinant protein is obtained from bacterial producer cells by purifying it by size separation affinity chromatography (NiNTA, Qiagen) (Superdex 200).
Белок смешивают с РНК в соотношении 1:2 (CoCas9 NLS : sgRNA), инкубируют в течение 10 минут на комнатной температуре, затем смесь трансфицируют в клетки.The protein is mixed with RNA in a ratio of 1:2 (CoCas9 NLS : sgRNA), incubated for 10 minutes at room temperature, then the mixture is transfected into cells.
Далее проводится анализ экстрагированной из них ДНК на предмет вставок-делеций в целевом ДНК сайте (как описано выше).Next, the DNA extracted from them is analyzed for insertions-deletions in the target DNA site (as described above).
Охарактеризованная в настоящем изобретении нуклеаза CoCas9 из бактерии Capnocytophaga ochracea имеет ряд преимуществ относительно ранее охарактеризованных Cas9 белков.The nuclease CoCas9 from the bacterium Capnocytophaga ochracea characterized in the present invention has a number of advantages over previously characterized Cas9 proteins.
CoCas9 обладает коротким отличным от других известных Cas нуклеаз PAM мотивом, необходимым для функционирования системы.CoCas9 has a short motif different from other known PAM Cas nucleases, which is necessary for the functioning of the system.
Известные на сегодняшний день большинство Cas нуклеаз, способных вносить двунитевые разрывы в ДНК, имеют сложные многобуквенные PAM последовательности, ограничивающие выбор последовательностей, пригодных для разрезания. Среди изученных Cas нуклеаз, распознающих короткие PAM, только CoCas9 может распознавать последовательности, фланкированные NRRWC мотивом.Most of the currently known Cas nucleases capable of introducing double-strand breaks in DNA have complex multi-letter PAM sequences that limit the choice of sequences suitable for cutting. Among the studied Cas nucleases that recognize short PAMs, only CoCas9 can recognize sequences flanked by the NRRWC motif.
CoCas9 - новая Cas нуклеаза, имеющая простой в использовании PAM, отличающийся от известных на сегодняшний день PAM последовательностей других нуклеаз. Белок CoCas9 разрезает с высокой эффективностью различные ДНК-мишени, в том числе и при 37°С, и может стать основой нового инструмента геномного редактирования.CoCas9 is a novel Cas nuclease that has an easy-to-use PAM that is different from the currently known PAM sequences of other nucleases. The CoCas9 protein cuts various DNA targets with high efficiency, including at 37°C, and can become the basis of a new tool for genomic editing.
Несмотря на то, что изобретение описано со ссылкой на раскрываемые варианты воплощения, для специалистов в данной области должно быть очевидно, что конкретные подробно описанные случаи приведены лишь в целях иллюстрирования настоящего изобретения, и их не следует рассматривать как каким-либо образом ограничивающие объем изобретения. Должно быть, понятно, что возможно осуществление различных модификаций без отступления от сути настоящего изобретения.While the invention has been described with reference to the disclosed embodiments, it should be apparent to those skilled in the art that the specific instances described in detail are for the purpose of illustrating the present invention only and should not be construed as limiting the scope of the invention in any way. It should be clear that it is possible to carry out various modifications without departing from the essence of the present invention.
--->--->
<110> Федеральное государственное бюджетное учреждение науки Институт<110> Federal State Budgetary Institution of Science Institute
биологии гена Российской академии наук (Institute of Gene Biology Russian Gene Biology of the Russian Academy of Sciences (Institute of Gene Biology Russian
Academy of Sciences) Academy of Sciences
<120> Средство разрезания ДНК на основе Cas9 белка из бактерии<120> DNA cutter based on Cas9 protein from bacteria
Capnocytophaga ochracea Capnocytophaga ochracea
<160> 10<160> 10
<210> 1<210> 1
<211> 1426<211> 1426
<212> PRT<212> PRT
<213> Capnocytophaga ochracea<213> Capnocytophaga ochracea
<400> 1<400> 1
Met Lys Asn Ile Leu Gly Leu Asp Leu Gly Thr Thr Ser Ile Gly Phe 16Met Lys Asn Ile Leu Gly Leu Asp Leu Gly Thr Thr Ser Ile Gly Phe 16
5 10 15 5 10 15
Ala His Ile Val Glu Asp Glu Asn Lys Glu Lys Ser Glu Ile Lys Glu 32Ala His Ile Val Glu Asp Glu Asn Lys Glu Lys Ser Glu Ile Lys Glu 32
20 25 30 20 25 30
Leu Gly Val Arg Ile Val Ser Leu Thr Thr Asp Glu Gln Ser Asp Phe 48Leu Gly Val Arg Ile Val Ser Leu Thr Asp Glu Gln Ser Asp Phe 48
35 40 45 35 40 45
Glu Lys Gly Lys Ser Ile Thr Thr Asn Ala Asn Arg Thr Leu Lys His 64Glu Lys Gly Lys Ser Ile Thr Thr Asn Ala Asn Arg Thr Leu Lys His 64
50 55 60 50 55 60
Gly Ala Arg Leu Asn Leu Asp Arg Tyr Gln Gln Arg Arg Lys Tyr Leu 80Gly Ala Arg Leu Asn Leu Asp Arg Tyr Gln Gln Arg Arg Lys Tyr Leu 80
65 70 75 8065 70 75 80
Ile Asp Leu Leu Gln Lys Ala Asn Leu Ile Thr Pro Ser Ser Ile Leu 96Ile Asp Leu Leu Gln Lys Ala Asn Leu Ile Thr Pro Ser Ser Ile Leu 96
85 90 95 85 90 95
Ala Glu Asn Gly Lys Asn Thr Thr His Ser Thr Trp Gln Leu Arg Ala 112Ala Glu Asn Gly Lys Asn Thr Thr His Ser Thr Trp Gln Leu Arg Ala 112
100 105 110 100 105 110
Lys Ala Val Thr Glu Arg Ile Glu Lys Glu Glu Phe Ala Arg Ile Leu 128Lys Ala Val Thr Glu Arg Ile Glu Lys Glu Glu Phe Ala Arg Ile Leu 128
115 120 125 115 120 125
Leu Ala Ile Asn Lys Lys Arg Gly Tyr Lys Ser Ser Arg Lys Ala Lys 144Leu Ala Ile Asn Lys Lys Arg Gly Tyr Lys Ser Ser Arg Lys Ala Lys 144
130 135 140 130 135 140
Thr Glu Asp Glu Gly Gln Ala Ile Asp Gly Met Ala Ile Ala Lys Arg 160Thr Glu Asp Glu Gly Gln Ala Ile Asp Gly Met Ala Ile Ala Lys Arg 160
145 150 155 160145 150 155 160
Leu Tyr Asp Glu Asn Leu Thr Pro Gly Gln Leu Ser Leu Gln Leu Leu 176Leu Tyr Asp Glu Asn Leu Thr Pro Gly Gln Leu Ser Leu Gln Leu Leu 176
165 170 175 165 170 175
Gln Gln Asn Lys Lys Leu Leu Pro Asp Phe Tyr Arg Ser Asp Leu Gln 192Gln Gln Asn Lys Lys Leu Leu Pro Asp Phe Tyr Arg Ser Asp Leu Gln 192
180 185 190 180 185 190
Lys Glu Phe Asp Leu Val Trp Asn Phe Gln Lys Gln Phe Tyr Pro Asp 208Lys Glu Phe Asp Leu Val Trp Asn Phe Gln Lys Gln Phe Tyr Pro Asp 208
195 200 205 195 200 205
Ile Leu Thr Asp Ile Phe Tyr Lys Glu Leu Gln Gly Lys Gly Lys Asp 224Ile Leu Thr Asp Ile Phe Tyr Lys Glu Leu Gln Gly Lys Gly Lys Asp 224
210 215 220 210 215 220
Ala Thr Ser Lys Ala Phe Ser Lys Arg Tyr His Phe Asp Thr Thr Glu 240Ala Thr Ser Lys Ala Phe Ser Lys Arg Tyr His Phe Asp
225 230 235 240225 230 235 240
Asn Lys Gly Ser Lys Glu Ser Val Arg Leu Gln Ala Tyr Gln Trp Arg 256Asn Lys Gly Ser Lys Glu Ser Val Arg Leu Gln Ala Tyr Gln Trp Arg 256
245 250 255 245 250 255
Ala Glu Ala Ile Ser Lys Gln Leu Ser Lys Glu Glu Val Ala Tyr Val 272Ala Glu Ala Ile Ser Lys Gln Leu Ser Lys Glu Glu Val Ala Tyr Val 272
260 265 270 260 265 270
Leu Thr Glu Ile Asn Asn Asn Leu Asn Asn Ala Ser Gly Tyr Leu Gly 288Leu Thr Glu Ile Asn Asn Asn Leu Asn Asn Ala Ser Gly Tyr Leu Gly 288
275 280 285 275 280 285
Ala Ile Ser Asp Arg Ser Lys Glu Leu Tyr Phe Asn Arg Gln Thr Val 304Ala Ile Ser Asp Arg Ser Lys Glu Leu Tyr Phe Asn Arg Gln Thr Val 304
290 295 300 290 295 300
Gly Gln Tyr Leu Tyr Ala Lys Leu Gln Glu Asn Arg His Asn Ser Leu 320Gly Gln Tyr Leu Tyr Ala Lys Leu Gln Glu Asn Arg His Asn Ser Leu 320
305 310 315 320305 310 315 320
Lys Asn Lys Val Phe Tyr Arg Gln Asp Tyr Leu Asp Glu Phe Glu Arg 336Lys Asn Lys Val Phe Tyr Arg Gln Asp Tyr Leu Asp Glu Phe Glu Arg 336
325 330 335 325 330 335
Ile Trp Glu Thr Gln Ala Ser Phe His Lys Glu Leu Thr Asp Glu Leu 352Ile Trp Glu Thr Gln Ala Ser Phe His Lys Glu Leu Thr Asp Glu Leu 352
340 345 350 340 345 350
Lys Lys Gln Ile Arg Asp Val Val Ile Phe Tyr Gln Arg Lys Pro Lys 368Lys Lys Gln Ile Arg Asp Val Val Ile Phe Tyr Gln Arg Lys Pro Lys 368
355 360 365 355 360 365
Ser Gln Lys Gly Leu Ile Ser Phe Cys Glu Phe Glu Ser Lys Glu Ile 384Ser Gln Lys Gly Leu Ile Ser Phe Cys Glu Phe Glu Ser Lys Glu Ile 384
370 375 380 370 375 380
Glu Ile Glu Lys Asp Gly Lys Thr Ile Thr Lys Asn Ile Gly Ala Arg 400Glu Ile Glu Lys Asp Gly Lys Thr Ile Thr Lys Asn Ile
385 390 395 400385 390 395 400
Val Val Pro Lys Ser Ser Pro Leu Phe Gln Glu Phe Lys Ile Trp Gln 416Val Val Pro Lys Ser Ser Pro Leu Phe Gln Glu Phe Lys Ile Trp Gln 416
405 410 415 405 410 415
Ile Leu Asn Asn Val Ile Cys Lys Arg Lys Gly Ile Arg Lys Lys Lys 432Ile Leu Asn Asn Val Ile Cys Lys Arg Lys Gly Ile Arg Lys Lys Lys 432
420 425 430 420 425 430
Ile Ser Ala Lys Thr Thr Gln Leu Asp Leu Leu Asn Glu Ser Ser Gln 448Ile Ser Ala Lys Thr Thr Gln Leu Asp Leu Leu Asn Glu Ser Ser Gln 448
435 440 445 435 440 445
Thr Ile Phe Ser Leu Asp Met Glu Cys Lys Gln Leu Leu Phe Asp Glu 464Thr Ile Phe Ser Leu Asp Met Glu Cys Lys Gln Leu Leu Phe Asp Glu 464
450 455 460 450 455 460
Leu Asn Leu Lys Gly Asp Leu Lys Ser Asp Lys Val Leu Lys Leu Leu 480Leu Asn Leu Lys Gly Asp Leu Lys Ser Asp Lys Val Leu Lys Leu Leu 480
465 470 475 480465 470 475 480
Gly Tyr Ser Pro Gln Glu Trp Glu Ile Asn Tyr Asn Gln Leu Glu Gly 496Gly Tyr Ser Pro Gln Glu Trp Glu Ile Asn Tyr Asn Gln Leu Glu Gly 496
485 490 495 485 490 495
Asn Arg Thr Gln Lys Ala Leu Tyr Glu Ala Tyr Leu Lys Ile Val Glu 512Asn Arg Thr Gln Lys Ala Leu Tyr Glu Ala Tyr Leu Lys Ile Val Glu 512
500 505 510 500 505 510
Met Glu Ala His Asp Val Lys Asp Ile Leu Gln Ile Lys Ser Ala Lys 528Met Glu Ala His Asp Val Lys Asp Ile Leu Gln Ile Lys Ser Ala Lys 528
515 520 525 515 520 525
Asp Asp Trp Ser Leu Asp Glu Ser Pro Leu Ser Ala Ser Glu Ile Arg 544Asp Asp Trp Ser Leu Asp Glu Ser Pro Leu Ser Ala Ser Glu Ile Arg 544
530 535 540 530 535 540
Glu Lys Val Lys Ala Ile Phe Gln Thr Leu Gly Ile Cys Thr Lys Ile 560Glu Lys Val Lys Ala Ile Phe Gln Thr Leu Gly Ile Cys Thr Lys Ile 560
545 550 555 560545 550 555 560
Leu Tyr Phe Asp Pro Leu Leu Pro Val Lys Glu Phe Glu Glu Gln Asp 576Leu Tyr Phe Asp Pro Leu Leu Pro Val Lys Glu Phe Glu Glu Gln Asp 576
565 570 575 565 570 575
Ser Tyr Gln Leu Trp His Leu Leu Tyr Ser Tyr Glu Ser Asp Asp Ser 592Ser Tyr Gln Leu Trp His Leu Leu Tyr Ser Tyr Glu Ser Asp Asp Ser 592
580 585 590 580 585 590
Thr Ser Gly Asn Glu Thr Leu Tyr Arg Ile Leu Glu Lys Lys Tyr Ala 608Thr Ser Gly Asn Glu Thr Leu Tyr Arg Ile Leu Glu Lys Lys Tyr Ala 608
595 600 605 595 600 605
Phe Lys Arg Glu His Ala Arg Ile Leu Ala Asn Val Ala Leu Gln Asp 624Phe Lys Arg Glu His Ala Arg Ile Leu Ala Asn Val Ala Leu Gln Asp 624
610 615 620 610 615 620
Asp Tyr Gly Ser Leu Ser Thr Lys Ala Ile Arg Lys Ile Tyr Pro Asn 640Asp Tyr Gly Ser Leu Ser Thr Lys Ala Ile Arg Lys Ile Tyr Pro Asn 640
625 630 635 640625 630 635 640
Ile Lys Glu Asn Gln Tyr Ser Thr Ala Cys Glu Lys Ala Gly Tyr Lys 656Ile Lys Glu Asn Gln Tyr Ser Thr Ala Cys Glu Lys Ala Gly Tyr Lys 656
645 650 655 645 650 655
His Ser Lys Leu Ser Leu Thr Thr Glu Glu Leu Glu Ala Arg Glu Leu 672His Ser Lys Leu Ser Leu Thr Thr Glu Glu Glu Leu Glu Ala Arg Glu Leu 672
660 665 670 660 665 670
Lys Asn Ile Ile Pro Leu Leu Lys Lys Asn Ala Leu Arg Asn Pro Val 688Lys Asn Ile Ile Pro Leu Leu Lys Lys Asn Ala Leu Arg Asn Pro Val 688
675 680 685 675 680 685
Val Glu Lys Ile Leu Asn Gln Met Ile Asn Val Val Asn Ala Leu Ile 704Val Glu Lys Ile Leu Asn Gln Met Ile Asn Val Val Asn Ala Leu Ile 704
690 695 700 690 695 700
Glu Lys Asn Ser Glu Arg Asp Ala Glu Gly Lys Ile Thr Lys Tyr Phe 720Glu Lys Asn Ser Glu Arg Asp Ala Glu Gly Lys Ile Thr Lys Tyr Phe 720
705 710 715 720705 710 715 720
His Phe Asp Glu Ile Arg Ile Glu Leu Ala Arg Glu Leu Lys Lys Asn 736His Phe Asp Glu Ile Arg Ile Glu Leu Ala Arg Glu Leu Lys Lys Asn 736
725 730 735 725 730 735
Ala Gln Lys Arg Tyr Glu Met Thr Gln Asn Ile Asn Lys Ala Lys Leu 752Ala Gln Lys Arg Tyr Glu Met Thr Gln Asn Ile Asn Lys Ala Lys Leu 752
740 745 750 740 745 750
Glu His Gln Lys Ile Ser Glu Ile Leu Gln Lys Glu Phe Gly Ile Lys 768Glu His Gln Lys Ile Ser Glu Ile Leu Gln Lys Glu Phe Gly Ile Lys 768
755 760 765 755 760 765
Asn Pro Thr Lys Ser Asp Ile Ile Arg Tyr Arg Leu Tyr Gln Glu Leu 784Asn Pro Thr Lys Ser Asp Ile Ile Arg Tyr Arg Leu Tyr Gln Glu Leu 784
770 775 780 770 775 780
Glu His Asn Gly Tyr Lys Glu Leu Tyr Thr Asn Ala Pro Ile Ala Arg 800Glu His Asn Gly Tyr Lys Glu Leu Tyr Thr Asn Ala Pro Ile Ala Arg 800
785 790 795 800785 790 795 800
Asp Met Leu Phe Ser Lys Asn Ile Glu Ile Glu His Ile Val Pro Lys 816Asp Met Leu Phe Ser Lys Asn Ile Glu Ile Glu His Ile Val Pro Lys 816
805 810 815 805 810 815
Ala Arg Val Phe Asp Asp Ser Phe Ser Asn Lys Thr Leu Thr Phe His 832Ala Arg Val Phe Asp Asp Ser Phe Ser Asn Lys Thr Leu Thr Phe His 832
820 825 830 820 825 830
Arg Ile Asn Ser Asp Lys Gly Glu Tyr Thr Ala Phe Asp Tyr Ile Thr 848Arg Ile Asn Ser Asp Lys Gly Glu Tyr Thr Ala Phe Asp Tyr Ile Thr 848
835 840 845 835 840 845
Ser Leu Asn Ser Glu Glu Glu Leu Asn Gln Tyr Leu Thr Arg Val Glu 864Ser Leu Asn Ser Glu Glu Glu Glu Leu Asn Gln Tyr Leu Thr Arg Val Glu 864
850 855 860 850 855 860
Asn Ala Tyr Lys Thr Lys Ser Ile Ser Pro Thr Lys Tyr Lys Asn Leu 880Asn Ala Tyr Lys Thr Lys Ser Ile Ser Pro Thr Lys Tyr Lys Asn Leu 880
865 870 875 880865 870 875 880
Leu Lys Lys Ala Ser Glu Ile Gly Asp Asp Phe Ile Asn Arg Asp Leu 896Leu Lys Lys Ala Ser Glu Ile Gly Asp Asp Phe Ile Asn Arg Asp Leu 896
885 890 895 885 890 895
Arg Asp Thr Gln Tyr Ile Ala Lys Lys Ala Lys Glu Ile Leu Phe Gln 912Arg Asp Thr Gln Tyr Ile Ala Lys Lys Ala Lys Glu Ile Leu Phe Gln 912
900 905 910 900 905 910
Val Thr Lys Asn Val Leu Ser Thr Ser Gly Ser Ile Thr Asp Arg Leu 928Val Thr Lys Asn Val Leu Ser Thr Ser Gly Ser Ile Thr Asp Arg Leu 928
915 920 925 915 920 925
Arg Glu Asp Trp Gly Leu Val Asp Val Met Lys Glu Leu Asn Met Pro 944Arg Glu Asp Trp Gly Leu Val Asp Val Met Lys Glu Leu Asn Met Pro 944
930 935 940 930 935 940
Lys Tyr Gln Ser Leu Gly Leu Thr Glu Val Glu Glu Arg Lys Asp Gly 960Lys Tyr Gln Ser Leu Gly Leu Thr Glu Val Glu Glu Arg Lys Asp Gly 960
945 950 955 960945 950 955 960
Asn Lys Val Thr Val Ile Lys Asn Trp Thr Lys Arg Asn Asp His Arg 976Asn Lys Val Thr Val Ile Lys Asn Trp Thr Lys Arg Asn Asp His Arg 976
965 970 975 965 970 975
His His Ala Met Asp Ala Leu Thr Val Ala Phe Thr Lys Pro Ser Tyr 992His His Ala Met Asp Ala Leu Thr Val Ala Phe Thr Lys Pro Ser Tyr 992
980 985 990 980 985 990
Ile Gln Tyr Leu Asn His Leu Asn Ala Arg Lys Asp Glu Asn Asn Lys 1008Ile Gln Tyr Leu Asn His Leu Asn Ala Arg Lys Asp Glu Asn Asn Lys 1008
995 1000 1005 995 1000 1005
Asn Tyr Ser Val Ile Leu Ala Ile Glu Glu Lys Glu Thr Ile Lys Val 1024Asn Tyr Ser Val Ile Leu Ala Ile Glu Glu Lys Glu Thr Ile Lys Val 1024
1010 1015 1020 1010 1015 1020
Pro Thr Asn Asn Gly Lys Asn Lys Arg Val Phe Ile Glu Pro Ile Pro 1040Pro Thr Asn Asn Gly Lys Asn Lys Arg Val Phe Ile Glu Pro Ile Pro 1040
1025 1030 1035 10401025 1030 1035 1040
Asn Phe Arg Gln Val Ala Lys Lys His Leu Glu Glu Ile Phe Ile Ser 1056Asn Phe Arg Gln Val Ala Lys Lys His Leu Glu Glu Ile Phe Ile Ser 1056
1045 1050 1055 1045 1050 1055
His Lys Ala Lys Asn Lys Val Val Thr Lys Asn Thr Asn Lys Pro Ala 1072His Lys Ala Lys Asn Lys Val Val Thr Lys Asn Thr Asn Lys Pro Ala 1072
1060 1065 1070 1060 1065 1070
Gly Thr Asp Lys Gln Gln Ile Thr Leu Thr Pro Arg Gly Gln Leu His 1088Gly Thr Asp Lys Gln Gln Ile Thr Leu Thr Pro Arg Gly Gln Leu His 1088
1075 1080 1085 1075 1080 1085
Lys Glu Thr Ile Tyr Gly Lys Tyr Gln Tyr Tyr Ile Asn Lys Glu Glu 1104Lys Glu Thr Ile Tyr Gly Lys Tyr Gln Tyr Tyr Ile Asn Lys Glu Glu 1104
1090 1095 1100 1090 1095 1100
Lys Ile Gly Val Lys Phe Asp Glu Arg Thr Ile Ala Lys Val Ser Asn 1120Lys Ile Gly Val Lys Phe Asp Glu Arg Thr Ile Ala Lys Val Ser Asn 1120
1105 1110 1115 11201105 1110 1115 1120
Pro Val Tyr Arg Glu Ala Leu Leu Lys Arg Leu Gln Ala Asn Asp Asn 1136Pro Val Tyr Arg Glu Ala Leu Leu Lys Arg Leu Gln Ala Asn Asp Asn 1136
1125 1130 1135 1125 1130 1135
Asp Pro Lys Lys Ala Phe Ala Gly Lys Asn Ala Leu Ser Lys Asn Pro 1152Asp Pro Lys Lys Ala Phe Ala Gly Lys Asn Ala Leu Ser Lys Asn Pro 1152
1140 1145 1150 1140 1145 1150
Ile Tyr Leu Asp Glu Ser Lys Thr Lys Thr Leu Pro Glu Lys Val Asn 1168Ile Tyr Leu Asp Glu Ser Lys Thr Lys Thr Leu Pro Glu Lys Val Asn 1168
1155 1160 1165 1155 1160 1165
Leu Thr Tyr Leu Glu Glu Asp Phe Ser Ile Arg Lys Asp Ile Ser Pro 1184Leu Thr Tyr Leu Glu Glu Asp Phe Ser Ile Arg Lys Asp Ile Ser Pro 1184
1170 1175 1180 1170 1175 1180
Asp Asn Phe Lys Asp Leu Lys Ser Ile Glu Lys Val Ile Asp Gln Gly 1200Asp Asn Phe Lys Asp Leu Lys Ser Ile Glu Lys Val Ile Asp Gln Gly 1200
1185 1190 1195 12001185 1190 1195 1200
Val Lys Arg Ile Leu Ile Lys Arg Leu Gln Ala Tyr Asp Asn Asp Pro 1216Val Lys Arg Ile Leu Ile Lys Arg Leu Gln Ala Tyr Asp Asn Asp Pro 1216
1205 1210 1215 1205 1210 1215
Lys Lys Ala Phe Val Asp Leu Glu Lys Asn Pro Ile Trp Leu Asn Lys 1232Lys Lys Ala Phe Val Asp Leu Glu Lys Asn Pro Ile Trp Leu Asn Lys 1232
1220 1225 1230 1220 1225 1230
Glu Lys Gly Ile Ala Ile Lys Arg Val Thr Ile Ser Gly Val Asn Asn 1248Glu Lys Gly Ile Ala Ile Lys Arg Val Thr Ile Ser Gly Val Asn Asn 1248
1235 1240 1245 1235 1240 1245
Ala Gln Pro Leu His Ile Gly Lys Asp His Leu Gly Lys Thr Thr Leu 1264Ala Gln Pro Leu His Ile Gly Lys Asp His Leu Gly Lys Thr Thr Leu 1264
1250 1255 1260 1250 1255 1260
Asn Lys Glu Gly Lys Glu Ile Pro Val Asp Tyr Val Ser Thr Gly Asn 1280Asn Lys Glu Gly Lys Glu Ile Pro Val Asp Tyr Val Ser Thr Gly Asn 1280
1265 1270 1275 12801265 1270 1275 1280
Asn His His Val Ala Ile Tyr Arg Asp Lys Glu Gly Asn Leu Gln Glu 1296Asn His His Val Ala Ile Tyr Arg Asp Lys Glu Gly Asn Leu Gln Glu 1296
1285 1290 1295 1285 1290 1295
Gln Ile Val Ser Phe Phe Asp Ala Val Val Arg Ala Gln Gln Gly Ile 1312Gln Ile Val Ser Phe Phe Asp Ala Val Val Arg Ala Gln Gln Gly Ile 1312
1300 1305 1310 1300 1305 1310
Pro Ile Ile Asp Lys Thr Tyr Lys Gln Ala Glu Gly Trp Gln Phe Leu 1328Pro Ile Ile Asp Lys Thr Tyr Lys Gln Ala Glu Gly Trp Gln Phe Leu 1328
1315 1320 1325 1315 1320 1325
Phe Thr Met Lys Gln Asn Glu Met Phe Val Phe Pro Asn Ala Thr Thr 1344Phe Thr Met Lys Gln Asn Glu Met Phe Val Phe Pro Asn Ala Thr Thr 1344
1330 1335 1340 1330 1335 1340
Gly Phe Asn Pro Ala Glu Ile Asp Leu Leu Asp Pro Lys Asn Lys Lys 1360Gly Phe Asn Pro Ala Glu Ile Asp Leu Leu Asp Pro Lys Asn Lys Lys 1360
1345 1350 1355 13601345 1350 1355 1360
Leu Ile Ser Pro Asn Leu Phe Arg Val Gln Lys Ile Ala Thr Lys Asp 1376Leu Ile Ser Pro Asn Leu Phe Arg Val Gln Lys Ile Ala Thr Lys Asp 1376
1365 1370 1375 1365 1370 1375
Tyr Phe Phe Arg His His Leu Glu Thr Asn Val Glu Thr Asp Asn Ile 1392Tyr Phe Phe Arg His His Leu Glu Thr Asn Val Glu Thr Asp Asn Ile 1392
1380 1385 1390 1380 1385 1390
Leu Lys Asn Val Thr Trp Lys Arg Glu Gly Leu Ser Gly Leu Lys Asp 1408Leu Lys Asn Val Thr Trp Lys Arg Glu Gly Leu Ser Gly Leu Lys Asp 1408
1395 1400 1405 1395 1400 1405
Ile Val Lys Val Arg Ile Asn His Leu Gly Asp Ile Val Ser Ile Gly 1424Ile Val Lys Val Arg Ile Asn His Leu Gly Asp Ile Val Ser Ile Gly 1424
1410 1415 1420 1410 1415 1420
Glu Tyr 1426Glu Tyr 1426
14251425
<210> 2<210> 2
<211> 96<211> 96
<212> РНК<212> RNA
<213> artificial sequence<213> artificial sequence
<220><220>
<223> CoCas9 трРНК<223> CoCas9 tRNA
<400> 2<400> 2
gucgcacaau uugaaagcaa uucacaauaa ggauuauucc guugugaaaa cauuuaaagg 60gucgcacaau uugaaagcaa uucacaauaa ggauuauucc guugugaaaa cauuuaaagg 60
agcccuauca uuauauuagu gauaggguuc uuuuuu 96agcccuauca uuauauuagu gauaggguuc uuuuuu 96
<210> 3<210> 3
<211> 66<211> 66
<212> РНК<212> RNA
<213> artificial sequence<213> artificial sequence
<220><220>
<223> CoCas9 крРНК<223> CoCas9 crRNA
<400> 3<400> 3
nnnnnnnnnn nnnnnnnnnn guugugaauu gcuuucaaau uuuguaguuu ugcgauugau 60nnnnnnnnnn nnnnnnnnnn guugugaauu gcuuucaaau uuuguaguuu ugcgauugau 60
aacaac 66aacaac 66
<210> 4<210> 4
<211> 374<211> 374
<212> ДНК<212> DNA
<213> artificial sequence<213> artificial sequence
<220><220>
<223> ДНК-библиотека<223> DNA library
<400> 4<400> 4
cccggggtac cacggagaga tggtggaaat catctttctc gtgggcatcc ttgatggcca 60cccggggtac cacggagaga tggtggaaat catctttctc gtgggcatcc ttgatggcca 60
cctcgtcgga agtgcccacg aggatgacag caatgccaat gctggggggg ctcttctgag 120cctcgtcgga agtgcccacg aggatgacag caatgccaat gctggggggg ctcttctgag 120
aacgagctct gctgcctgac acggccagga cggccaacac caaccagaac ttgggagaac 180aacgagctct gctgcctgac acggccagga cggccaacac caaccagaac ttgggagaac 180
agcactccgc tctgggcttc atcttcaact cgtcgactcc ctgcaaacac aaagaaagag 240agcactccgc tctgggcttc atcttcaact cgtcgactcc ctgcaaacac aaagaaagag 240
catgttaaaa taggatctac atcacgtaac ctgtcttaga agaggctaga tactgcaatt 300catgttaaaa taggatctac atcacgtaac ctgtcttaga agaggctaga tactgcaatt 300
caaggacctt atctcctttc attgagcacN NNNNNNaact ccatctacca gcctactctc 360caaggacctt atctcctttc attgagcacN NNNNNaact ccatctacca gcctactctc 360
ttatctctgg tatt 374ttatctctgg tatt 374
<210> 5<210> 5
<211> 65<211> 65
<212> РНК<212> RNA
<213> artificial sequence<213> artificial sequence
<220><220>
<223> крРНК<223> crRNA
<400> 5<400> 5
uaucuccuuu cauugagcac guugugaauu gcuuucaaau uuuguaguuu ugcgauugau 60uaucuccuuu cauugagcac guugugaauu gcuuucaaau uuuguaguuu ugcgauugau 60
aacaa 65aacaa 65
<210> 6<210> 6
<211> 374<211> 374
<212> ДНК<212> DNA
<213> artificial sequence<213> artificial sequence
<220><220>
<223> ДНК-библиотека, содержащая ДНК-мишень 5'-atctcctttcattgagcac-3',<223> DNA library containing target DNA 5'-atctcctttcattgagcac-3',
фланкированную PAM последовательностью 5’-CAAACCC-3’ flanked by PAM sequence 5'-CAAACCC-3'
<400> 6<400> 6
cccggggtac cacggagaga tggtggaaat catctttctc gtgggcatcc ttgatggcca 60cccggggtac cacggagaga tggtggaaat catctttctc gtgggcatcc ttgatggcca 60
cctcgtcgga agtgcccacg aggatgacag caatgccaat gctggggggg ctcttctgag 120cctcgtcgga agtgcccacg aggatgacag caatgccaat gctggggggg ctcttctgag 120
aacgagctct gctgcctgac acggccagga cggccaacac caaccagaac ttgggagaac 180aacgagctct gctgcctgac acggccagga cggccaacac caaccagaac ttgggagaac 180
agcactccgc tctgggcttc atcttcaact cgtcgactcc ctgcaaacac aaagaaagag 240agcactccgc tctgggcttc atcttcaact cgtcgactcc ctgcaaacac aaagaaagag 240
catgttaaaa taggatctac atcacgtaac ctgtcttaga agaggctaga tactgcaatt 300catgttaaaa taggatctac atcacgtaac ctgtcttaga agaggctaga tactgcaatt 300
caaggacctt atctcctttc attgagcacC AAACCCaact ccatctacca gcctactctc 360caaggacctt atctcctttc attgagcacC AAACCCaact ccatctacca gcctactctc 360
ttatctctgg tatt 374ttatctctgg tatt 374
<210> 7<210> 7
<211> 148<211> 148
<212> РНК<212> RNA
<213> artificial sequence<213> artificial sequence
<220><220>
<223> sgRNA1 28DR<223>sgRNA1 28DR
<400> 7<400> 7
uaucuccuuu cauugagcac guugugaauu gcuuucaaau uuuguaguga aagucgcaca 60uaucuccuuu cauugagcac guugugaauu gcuuucaaau uuuguaguga aagucgcaca 60
auuugaaagc aauucacaau aaggauuauu ccguugugaa aacauuuaaa ggagcccuau 120auuugaaagc aauucacaau aaggauuauu ccguugugaa aacauuuaaa ggagcccuau 120
cauuauauua gugauagggu ucuuuuuu 148cauuauauua gugauagggu ucuuuuuu 148
<210> 8<210> 8
<211> 155<211> 155
<212> РНК<212> RNA
<213> artificial sequence<213> artificial sequence
<220><220>
<223> sgRNA2 35DR<223> sgRNA2 35DR
<400> 8<400> 8
uaucuccuuu cauugagcac guugugaauu gcuuucaaau uuuguaguuu ugcgagaaag 60uaucuccuuu cauugagcac guugugaauu gcuuucaaau uuuguaguuu ugcgagaaag 60
ucgcacaauu ugaaagcaau ucacaauaag gauuauuccg uugugaaaac auuuaaagga 120ucgcacaauu ugaaagcaau ucacaauaag gauuauuccg uugugaaaac auuuaaagga 120
gcccuaucau uauauuagug auaggguucu uuuuu 155gcccuauucau uauauuagug auaggguucu uuuuu 155
<210> 9<210> 9
<211> 375<211> 375
<212> ДНК<212> DNA
<213> artificial sequence<213> artificial sequence
<220><220>
<223> ДНК-библиотека, содержащая сайт узнавания 5'-tatctcctttcattgagcac-3'<223> DNA library containing the 5'-tatctcctttcattgagcac-3' recognition site
с соответствующим консенсусу PAM CAAACCC with consensus-compliant PAM CAAACCC
<400> 9<400> 9
cccggggtac cacggagaga tggtggaaat catctttctc gtgggcatcc ttgatggcca 60cccggggtac cacggagaga tggtggaaat catctttctc gtgggcatcc ttgatggcca 60
cctcgtcgga agtgcccacg aggatgacag caatgccaat gctggggggg ctcttctgag 120cctcgtcgga agtgcccacg aggatgacag caatgccaat gctggggggg ctcttctgag 120
aacgagctct gctgcctgac acggccagga cggccaacac caaccagaac ttgggagaac 180aacgagctct gctgcctgac acggccagga cggccaacac caaccagaac ttgggagaac 180
agcactccgc tctgggcttc atcttcaact cgtcgactcc ctgcaaacac aaagaaagag 240agcactccgc tctgggcttc atcttcaact cgtcgactcc ctgcaaacac aaagaaagag 240
catgttaaaa taggatctac atcacgtaac ctgtcttaga agaggctaga tactgcaatt 300catgttaaaa taggatctac atcacgtaac ctgtcttaga agaggctaga tactgcaatt 300
caaggacctt atctcctttc attgagcacC AAACCCcaac tccatctacc agcctactct 360caaggacctt atctcctttc attgagcacC AAACCCcaac tccatctacc agcctactct 360
cttatctctg gtatt 375cttatctctg gtatt 375
<210> 10<210> 10
<211> 398<211> 398
<212> ДНК<212> DNA
<213> artificial sequence<213> artificial sequence
<220><220>
<223> кассета для экспрессии sgРНК<223> sgRNA expression cassette
<400> 10<400> 10
gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60
ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120
aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180
atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240
cgaaacaccg cagctgaagt aatgttagag gttgtgaatt gctttcaaat tttgtagtga 300cgaaacaccg cagctgaagt aatgttagag gttgtgaatt gctttcaaat tttgtagtga 300
aagtcgcaca atttgaaagc aattcacaat aaggattatt ccgttgtgaa aacatttaaa 360360
ggagccctat cattatatta gtgatagggt tctttttt 398ggagccctat cattatatta gtgatagggt tctttttt 398
<---<---
Claims (5)
Publications (1)
Publication Number | Publication Date |
---|---|
RU2778156C1 true RU2778156C1 (en) | 2022-08-15 |
Family
ID=
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014093661A9 (en) * | 2012-12-12 | 2014-10-16 | The Broad Institute, Inc. | Crispr-cas systems and methods for altering expression of gene products |
RU2663354C2 (en) * | 2011-12-16 | 2018-08-03 | Таргитджин Байотекнолоджиз Лтд | Compositions and methods for modification of specified target nucleic acid sequence |
RU2712492C1 (en) * | 2018-11-26 | 2020-01-29 | Автономная некоммерческая образовательная организация высшего образования Сколковский институт науки и технологий | DNA PROTEASE CUTTING AGENT BASED ON Cas9 PROTEIN FROM DEFLUVIIMONAS SP. |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2663354C2 (en) * | 2011-12-16 | 2018-08-03 | Таргитджин Байотекнолоджиз Лтд | Compositions and methods for modification of specified target nucleic acid sequence |
WO2014093661A9 (en) * | 2012-12-12 | 2014-10-16 | The Broad Institute, Inc. | Crispr-cas systems and methods for altering expression of gene products |
RU2712492C1 (en) * | 2018-11-26 | 2020-01-29 | Автономная некоммерческая образовательная организация высшего образования Сколковский институт науки и технологий | DNA PROTEASE CUTTING AGENT BASED ON Cas9 PROTEIN FROM DEFLUVIIMONAS SP. |
Non-Patent Citations (1)
Title |
---|
База данных: NCBI Reference Sequence: WP_015781852.1, 20.05.2013. * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220290187A1 (en) | Class ii, type v crispr systems | |
RU2778156C1 (en) | DNA-CUTTING AGENT BASED ON THE Cas9 PROTEIN FROM THE BACTERIUM CAPNOCYTOPHAGA OCHRACEA | |
Dong et al. | A single digestion, single-stranded oligonucleotide mediated PCR-independent site-directed mutagenesis method | |
RU2788197C1 (en) | DNA-CUTTING AGENT BASED ON Cas9 PROTEIN FROM THE BACTERIUM STREPTOCOCCUS UBERIS NCTC3858 | |
RU2722934C1 (en) | Dna protease cutting agent based on cas9 protein from pasteurella pneumotropica bacteria | |
RU2791447C1 (en) | DNA CUTTER BASED ON THE ScCas12a PROTEIN FROM THE BACTERIUM SEDIMENTISPHAERA CYANOBACTERIORUM | |
RU2724470C1 (en) | Use of cas9 protein from pasteurella pneumotropica bacteria for modifying genomic dna in cells | |
RU2722933C1 (en) | Dna protease cutting agent based on cas9 protein from demequina sediminicola bacteria | |
RU2712492C1 (en) | DNA PROTEASE CUTTING AGENT BASED ON Cas9 PROTEIN FROM DEFLUVIIMONAS SP. | |
EA041935B1 (en) | DNA CUTTER BASED ON Cas9 PROTEIN FROM BACTERIA Pasteurella Pneumotropica | |
RU2771626C1 (en) | Tool for cutting double-stranded dna using cas12d protein from katanobacteria and hybrid rna produced by fusion of guide crispr rna and scout rna | |
OA20443A (en) | DNA-cutting agent based on CAS9 protein from the bacterium pasteurella pneumotropica | |
EA044419B1 (en) | APPLICATION OF CAS9 PROTEIN FROM PASTEURELLA PNEUMOTROPICA BACTERIA | |
RU2712497C1 (en) | DNA POLYMER BASED ON Cas9 PROTEIN FROM BIOTECHNOLOGICALLY SIGNIFICANT BACTERIUM CLOSTRIDIUM CELLULOLYTICUM | |
OA20812A (en) | Use of CAS9 protein from the bacterium pasteurella pneumotropica. | |
EA041933B1 (en) | DNA CUTTER | |
OA20197A (en) | DNA-cutting agent. | |
Esquerra et al. | Identification of the EH CRISPR-Cas9 system on a metagenome and its application to genome engineering | |
EA042517B1 (en) | DNA CUTTER | |
Morrison | The CRISPR Enzyme Cpf1 as a Tool for Gene Regulation |