WO2018052247A1 - 시토신 디아미나제에 의한 dna에서의 염기 교정 확인 방법 - Google Patents

시토신 디아미나제에 의한 dna에서의 염기 교정 확인 방법 Download PDF

Info

Publication number
WO2018052247A1
WO2018052247A1 PCT/KR2017/010056 KR2017010056W WO2018052247A1 WO 2018052247 A1 WO2018052247 A1 WO 2018052247A1 KR 2017010056 W KR2017010056 W KR 2017010056W WO 2018052247 A1 WO2018052247 A1 WO 2018052247A1
Authority
WO
WIPO (PCT)
Prior art keywords
dna
cytosine deaminase
target
target specific
coding gene
Prior art date
Application number
PCT/KR2017/010056
Other languages
English (en)
French (fr)
Inventor
김대식
Original Assignee
주식회사 툴젠
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 툴젠, 서울대학교산학협력단 filed Critical 주식회사 툴젠
Priority to JP2019514036A priority Critical patent/JP2019526271A/ja
Priority to EP17851121.8A priority patent/EP3530737A4/en
Priority to US16/332,036 priority patent/US11920151B2/en
Publication of WO2018052247A1 publication Critical patent/WO2018052247A1/ko

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04001Cytosine deaminase (3.5.4.1)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y302/00Hydrolases acting on glycosyl compounds, i.e. glycosylases (3.2)
    • C12Y302/02Hydrolases acting on glycosyl compounds, i.e. glycosylases (3.2) hydrolysing N-glycosyl compounds (3.2.2)
    • C12Y302/02027Uracil-DNA glycosylase (3.2.2.27)
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/30Phosphoric diester hydrolysing, i.e. nuclease
    • C12Q2521/301Endonuclease
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/531Glycosylase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/539Deaminase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04004Adenosine deaminase (3.5.4.4)

Definitions

  • composition for DNA double strand breaks comprising (2) guide RNAs, and (3) uracil-specific removal reagents (USER), to cytosine deaminase using the same DNA double strand break generation method, nucleic acid sequencing method of DNA in which base editing is introduced by cytosine deaminase, and base correction site of cytosine deaminase, Base calibration efficiency, off-target site, and / or method of identifying (or measuring or detecting) specificity of a target.
  • DLBs DNA double strand breaks
  • USR uracil-specific removal reagents
  • Cas9-1 inked deaminase converts single nucleotides in a targeted manner to correct point mutations that cause genetic disorders or to introduce desired single nucleotide variations in human and other eukaryotic cells. To make it possible. However, the genome-wide target specificity of such RNA-programmable diaminase is still unknown.
  • Base Editors comprising Catalytically-deficient Cas9 (dCas9) or D10A Cas9 Nikase (nCas9) derived from S. j graes and rAPOBECl, a rat cytidine deaminase BEs); 2) Target-AID comprising dCas9 or nCas9 and PmCDAl or human AID which is act i vat ion-induced cyt idine deaminase (AID) ortholog of sea lamprey; 3) CRISPR® X including sgRNAs and dCas9 linked to MS2 RNA hairpins to recruit overactivated AID variants fused to MS2-binding proteins; and 4) zinc-finger groups , proteins or transcriptional activator-like effectors (TALEs). ) Is fused to cytidine deaminase.
  • dCas9 Catalytically-deficient Cas9
  • Consisting of DNA binding modules and cyt idine deaminase progra ⁇ able deaminase enables targeted nucleotide substitution or base modification in the genome without generating DNA double strand breaks (DSBs).
  • programmable diminases are produced within the window of several nucleotides at the target site. , Converts C to T (U) (or, at lower frequency, converts C to G or A).
  • Programmable deaminase can correct point mutations that cause genetic disease in human cells, animals, and plants or produce single base polymorphisms (SNPs).
  • a means for analyzing target specificity of the entire genome of a programmable diamine is provided, and a means for analyzing base calibration efficiency, non-target site, non-target effect, and the like of the programmable diamine. .
  • Examples include (1) cytosine deaminase and inactivated target specific endonucleases, or cytosine deaminase coding genes and inactivated target specific endonuclease coding genes, cytosine deaminase coding genes, and DNA comprising plasmid containing inactivated target specific endonuclease coding gene, (2) guide RNA, and (3) uracil-specific clearance reagent (Uraci l-Specific Excision Reagent; USER) cutting the double-stranded i; provides a composition for (double strand breaks DSBs).
  • cytosine deaminase and inactivated target specific endonucleases or cytosine deaminase coding genes and inactivated target specific endonuclease coding genes, cytosine deaminase coding genes, and DNA comprising plasmid containing inactivated target specific endonuclease coding gene, (2) guide
  • Another example is
  • cytosine deaminase and inactivated target specific endonucleases (i) (a) cytosine deaminase and inactivated target specific endonucleases, or (b) cytosine deaminase coding genes and A plasmid comprising an inactivated target specific endonuclease coding gene, or (C) cytosine deaminase coding gene and an inactivated target specific endonuclease coding gene is introduced into the cell along with the guide RNA or Contacting the DNA separated from the; And
  • Including provides a DNA double strand break generation method.
  • Another example is
  • Another example is
  • Digenome-seq was modified to evaluate the specificity of a base editor (eg, Base Editor 3; BE3) composed of Cas9 ni quease and deaminase in the human genome.
  • Genomic DNA was treated in vitro with a mixture of DNA-modi fying enzymes and BE3 to generate DNA double-strand breaks (DSBs) at uracil containing sites.
  • the DNA double strand cleavage method using the diminase provided herein and the nucleic acid sequencing method using the same can be used to computationally identify BE3 nontarget sites using whole genome sequencing data.
  • BE3 is highly specific and induces cytosine-uracil conversion only at the 18 ⁇ 9 position in the human genome.
  • DNA double-strand cleavage method using a diminase by the di genome-s eq (di ge st ed-genome sequencing) method provided herein and nucleic acid sequence analysis method using the same is 0.1% substitution frequency It is sensitive enough to capture BE3 non-target sites. As a result, it can be seen that the non-target sites of BE3 and Cas9 are different in many cases and require an independent evaluation of the genome overall specificity.
  • Examples include (1) cytosine deaminase and inactivated target specific endonucleases, or cytosine deaminase coding genes and inactivated target specific endonuclease coding genes, cytosine deaminase coding genes, and DNA comprising plasmid containing inactivated target specific endonuclease coding gene, (2) guide RNA, and (3) uracil-specific elimination reagent (Uraci l-Specific Excision Reagent; USER)
  • DSBs compositions for double strand breaks
  • the cytosine deaminase is a base present in the nucleotide
  • C-to-U conversion or Oto-U editing cytosine means all enzymes having the activity of the target site sequence (target sequence Cytosine located on the strand where the PAM sequence is located is converted to uracil.
  • the cytosine deaminase may be derived from a mammal such as a primate, such as a human or a monkey, a rodent such as a rat or a mouse, but is not limited thereto.
  • the cytosine deaminase may be derived from a mammal such as a primate, such as a human or a monkey, a rodent such as a rat or a mouse, but is not limited thereto.
  • One or more of the enzymes belonging to the APOBEC may be selected, for example, but not limited to one or more of the following groups:
  • APOBECl Human [Homo sapiens) APOBECl (protein: GenBank Accession Nos. NP_001291495.1, NP_001635.2, NP_005880.2, etc .; genes (describing genes encoding them in the order of proteins described above): GenBank Accession Nos. NM_001304566. 1, ⁇ _001644.4, ⁇ _005889.3, etc.), mouse Mus musculus) APOBECl (protein: GenBank Accession Nos. NP_001127863.1, NP_112436.1, etc .; genes (describe the genes encoding them in the order of protein described above) GenBank Accession Nos. ⁇ _001134391.1, NM_031159.3, etc.);
  • AP0BEC2 human AP0BEC2 (protein: GenBank Accession No.
  • NP_006780.1 Gene: GenBank Accession No. ⁇ _006789.3, etc.
  • mouse AP0BEC2 protein: GenBank Accession No. NP_033824.1, etc .
  • gene GenBank Accession No. __009694.3, etc.
  • AP0BEC3B human AP0BEC3B (protein: GenBank Accession Nos. NP_001257340.1, NP_004891.4, etc .; gene (mRNA or cDNA, hereinafter identical) (describes genes encoding it in the order of proteins described above): GenBank Accession Nos. ⁇ _001270411 .1, NM_004900.4, etc.), mouse (Ius musculus) AP0BEC3B (protein: GenBank Accession Nos. NP_001153887.1, NP_001333970.1, NP_084531.1, etc .; genes (describing genes encoding them in the order of protein described above)) GenBank Accession Nos. NM_001160415.1, ⁇ ⁇ 001347041.1, ⁇ 0300305.3, etc.);
  • AP0BEC3C human AP0BEC3C (protein: GenBank Accession No. NP_055323.2 and the like; Gene: GenBank Accession No. ⁇ _014508.2, etc.);
  • AP0BEC3D (including AP0BEC3E): human AP0BEC3D (protein: GenBank Accession No. NP_689639.2, etc .; gene: GenBank Accession No. # 152426.3, etc.);
  • AP0BEC3F Human AP0BEC3F (Protein: GenBank Accession Nos.
  • NP_660341.2 NP_001006667.1 and the like; Genes (describing genes encoding them in the order of proteins described above): ⁇ _145298.5, ⁇ _001006666.1, etc.);
  • AP0BEC3G human AP0BEC3G (protein: GenBank Accession Nos. NP_068594.1, NP_001336365.1, NP_001336366.1, NP_001336367.1, etc .; genes (describe the genes encoding them in the order of proteins described above): ⁇ _021822.3, ⁇ _001349436.1, lia _001349437.1, NM_001349438.1 and the like);
  • AP0BEC3H Human AP0BEC3H (Protein: GenBank Accession Nos. NP_001159474.2, NP_001159475.2, NP_001159476.2, NP_861438.3, etc.) Genes (describing genes encoding them in the order of proteins described above): ⁇ _001166002.2 , ⁇ _001166003.2, NM_001166004.2, NM_181773.4, etc.);
  • AP0BEC4 (including AP0BEC3E): human AP0BEC4 (protein: GenBank Accession No. NP — 982279.1, etc .; gene: GenBank Accession No. NM — 203454.2, etc.); Mouse AP0BEC4 (protein: GenBank Accession No. NP — 001074666.1 and the like; gene: GenBank Accession No. ⁇ _001081197.1 and the like);
  • AID protein: GenBank Accession Nos. NP — 001317272.1, NP_065712.1, etc .; genes (list genes encoding them in the order of proteins described above): GenBank Accession Nos. NM — 001330343.1, 1 020661.3, etc.); Mouse AID (protein: GenBank Accession No. NP_033775.1, etc .; gene:
  • target specific nucleases also known as progra nu able nucleases, are capable of recognizing and cleaving all forms of endonucleases that are capable of recognizing and cleaving specific sites on the desired genomic DNA.
  • the target specific nuclease recognizes a specific sequence of the target gene and has nucleotide cleavage activity, thereby resulting in an indel in the target gene.
  • nucleases may be one or more selected from all nucleases that can cause (insertion and / or deletion, Indel).
  • the target specific nuclease For example, the target specific nuclease
  • TALEN Transcription activator-like effector nuclease in which a TAL activator-like effector (TAL) activator domain and a cleavage domain are derived from a plant pathogenic gene, a domain that recognizes a specific target sequence on the genome;
  • RGEN RNA-guided engineered nuclease (eg Cas9, Cpfl, etc.) derived from the microbial immune system CRISPR);
  • It may be one or more selected from the group consisting of, but is not limited thereto.
  • the target specific nuclease is a Cas protein (e.g., a Cas9 protein (CRISPR (Clustered regularly interspaced short pal indromic repeats) associated protein 9)), a Cpfl protein (CRISPR from Prevotel la and Franci sella 1), and the like. At least one selected from the group consisting of endonucleases involved in the same type ⁇ and / or type V CRISPR system.
  • the target specific nuclease may further comprise a target DNA specific guide RNA for guiding to the target site of the genomic DNA.
  • the guide RNA may be transcribed in vitro, for example, oligonucleotide double strand or transcribed from a plasmid template, but is not limited thereto.
  • the target specific nuclease may act as ribonucleic acid protein (RNP) by forming a ribonucleic acid-protein complex bound to guide RNA (RNA-Guided Engineered Nuclease).
  • Cas9 protein is a major protein component of the CRISPR / Cas system, a protein capable of forming activated endonucleases or nickases.
  • Cas9 protein or genetic information is available from the National Center for NCBI Biotechnology Informat ion) can be obtained from known databases such as GenBank.
  • GenBank GenBank
  • Streptococcus sp. Such as Cas9 protein from Streptococcus pyogenes (eg SwissProt Accession number Q99ZW2 (NP_269215.1) (coding gene: SEQ ID NO: 229));
  • Cas9 protein from the genus Campylobacter such as, for example, Campylobacter jejuni;
  • Cas9 protein from the genus Streptococcus such as, for example, Streptococcus thermophi les or Streptococcus aureus;
  • Cas9 protein from the genus Pasteurella such as Pasteurella multocida
  • Cas9 protein from the genus Francisla iFrancisella such as Francisella novicida
  • It may be one or more selected from the group consisting of, but is not limited thereto.
  • Cpfl protein is the endonuclease of the new CRISPR system, which is distinct from the CRISPR / Cas system, is relatively small in size compared to Cas9, does not require tracrRNA, and can act by a single guide RNA. It also recognizes thymine-rich protospacer-adj acent motif (PAM) sequences and cuts the double chain of DNA to create a cohesive end (cohesive double-strand break).
  • PAM thymine-rich protospacer-adj acent motif
  • the Cpfl protein may be found in the genus Candidatus, genus Lachnospira, genus Butyri vibrio, peregrini bacteria, and axidominococcus.
  • Genus (Acidominococcus), genus Porphyr ⁇ nas, genus Prevotella, genus Francisel la, genus Candidatus Methanoplasma, or genus Eubacterium May be derived from, for example, Parcubacteria bacterium (GWC2011_GWC2_44_17), Lachnospiraceae bacterium (MC2017), Butyrivibrio proteoclasi icus, Peregr ini bacter ia bacterium (GW2011_GWA_33_10), Acidaminococcus sp.
  • BV3L6 Porphyromonas macacae, Lachnospiraceae bacterium (ND2006), Porphyromonas crevioricanis, Prevotel la disiens, Mo axel la bovoculi (237), Smiihella sp. (SC_K08D17), Leptospira inadai, Lachnospiraceae bacterium (MA2020), Franci sella novicida (U112), Candidatus Methanoplasma ter itum, Candidatus Paceibacter, Eubacterium eligens and the like, but are not limited thereto.
  • the target specific endonuclease may be isolated from a microorganism or may be artificially or non-naturally produced such as a recombinant method or a synthetic method.
  • the target specific endonucleases eg Cas9, Cpf l, etc.
  • Recombinant DNA refers to a DNA molecule artificially produced by genetic recombination methods such as molecular cloning to include heterologous or homologous genetic material obtained from various organisms.
  • the recombinant DNA when recombinant DNA is expressed in an appropriate organism to produce a target specific endonuclease (Un vivo or in / iro), the recombinant DNA is optimized for expression in the organism among codons encoding the protein to be prepared.
  • the codon may be selected to have a nucleotide sequence reconstituted.
  • the inactivated target specific endonuclease inactivated target specific endonuclease refers to a target specific endonuclease that has lost endonuclease activity that cleaves a DNA double strand, for example, an endonuclease. May be at least one selected from an inactivated target specific endonuclease that has lost its activity and has inactivated activity and an inactivated target specific endonuclease that has lost both endonuclease activity and Nikase activity. .
  • the deactivated target specific endonuclease has Nikase activity, either the same or sequential order of the cytosine conversion to uracil, or the reverse strand of the cytosine conversion to uracil (eg Ni ck is introduced (e.g., between the third and fourth nucleotides in the 5 'terminal direction of the PAM sequence) ni ck is introduced).
  • modifications (mutations) of the surface specific endonuclease are at least the catalytic activity of the aspartic acid residue (catalyt ic aspartate res i due; e.g., aspartic acid at position 10 in the case of the Streptococcus pyogenes derived Cas9 protein (D10).
  • Residues, etc. may include a mutation of Cas9 substituted with any other amino acid, the other amino acid may be al anine, but is not limited thereto.
  • the 'other amino acids' are alanine, isoleucine, leucine, methionine, phenylalanine, plinine, tryptophan, valine, aspartic acid, cysteine, glutamine, glycine, serine, threonine, tyrosine, aspartic acid, Glutamic acid, arginine, histidine, lysine, among all known variants of the amino acid, refers to an amino acid selected from among amino acids except the amino acid originally had in the mutation position.
  • the modified Cas9 protein is a Cas9 protein derived from Streptococcus pyogenes (eg, Swi ssProt Access i on number Q99ZW2 (NP_269215.
  • the mutation at the D10 position of the CAs9 protein means a D10A mutation (mutation in which D, the tenth amino acid of the amino acids of the Cas9 protein, is substituted with A; hereinafter, a mutation introduced into Cas9 is represented by the same method).
  • the mutation at the H840 position may be a H840A mutation.
  • cytosine deaminase and inactivated target specific endonucleases are fusion proteins fused to each other directly or via a peptide linker (eg, cytosine deaminase-inactivated target specificity from the N-terminus to the C-terminal direction).
  • Targeted endonuclease sequence ie, inactivated target specific endonuclease is fused to the C-terminus of cytosine deaminase
  • inactivated target specific Use in the form of an endonuclease-cytosine deaminase sequence ie, the cytosine deaminase can be fused to the c-terminus of an inactivated target specific endonuclease) (or the composition Target specific inactivation with, or in the form of, a combination of purified cytosine deaminase and inactivated target specific endonuclease (or included in the composition), or inactivated cytosine deaminase coding gene Used in the form of a single plasmid containing all of the red endonuclease coding genes (e.g., the two genes are included to encode the fusion protein described above) or in combination with the cytosine deaminase coding
  • the fusion protein, or inactivated target specific endonuclease-cytosine dimina is located in the order of cytosine deaminase-activated target specific endonuclease from the N-terminus to the C ⁇ terminal direction.
  • the fusion proteins located in the first order, or a cytosine diamanase coding gene and an inactivated target specific endonuclease coding gene to encode the fusion protein may be used in a form included in one plasmid.
  • the plasmid may be any plasmid including an expression system capable of inserting the cytosine deaminase coding gene and / or inactivated target specific endonuclease coding gene and expressing it in a host cell.
  • the plasmid includes elements for gene expression of interest, and may include a rep icat ion or igin, a promoter, an operator, a transcription terminator, and the like.
  • Appropriate enzyme sites eg restriction enzyme sites
  • for introduction into the genome and / or selection markers to confirm successful introduction into the host cell and / or ribosomal binding sites for translation into proteins; RBS) and / or electronic regulatory factors and the like.
  • the plasmid is a plasmid used in the art, such as pcDNA series, pSClOl, P GV1106, pACYC177, ColEl, pKT230, pME290, pBR322, P UC8 / 9, pUC6, pBD9, pHC79, P IJ61, pLAFRl, P HV14, pGEX It may be one or more selected from the group consisting of series, pET series, pUC19, and the like, but is not limited thereto.
  • the host cell is a cell (eg, a eukaryotic cell comprising a mammalian cell, such as a human cell, etc.) or a cell to be subjected to base correction or double strand cleavage by the cytosine deaminase or the cytosine deaminase coding gene and / or inactivation.
  • a cell eg, a eukaryotic cell comprising a mammalian cell, such as a human cell, etc.
  • Can be selected from all cells eg, E. coli, etc. capable of expressing a target specific endonuclease coding gene to express cytosine deaminase and inactivated target specific endonucleases.
  • the guide RNA serves to guide a mixture or fusion protein of the cytosine deaminase and an inactivated target specific endonuclease to a target site, and includes CRISPR RNA (crRNA) and irayjs-activating crRNA (tracrRNA).
  • crRNA CRISPR RNA
  • tracrRNA irayjs-activating crRNA
  • sgRNA single guide RNA
  • sgRNA single guide RNA
  • sgRNA may include at least one selected from the group consisting of: a double-stranded crRNA in which crRNA and tracrRNA are bonded to each other, or a crRNA or a portion thereof and a tracrRNA or a portion thereof. It may be a single stranded guide RNA (sgRNA) linked by an oligonucleotide linker.
  • the specific sequence of the guide RNA may be appropriately selected depending on the type of target specific endonuclease used or the microorganism derived therefrom, which is easily understood by those skilled in the art. .
  • the crRNA When using a Cas9 protein from Streptococcus pyogenes as a target specific endonuclease, the crRNA can be expressed by the following general formula (1):
  • N cas9 is a targeting sequence, i.e., a site determined according to the sequence of the target site of the target gene (i.e., a sequence capable of hybridizing with the sequence of the target site), and 1 is included in the targeting sequence. Representing the number of nucleotides formed, which may be an integer from 17 to 23 or 18 to 22, such as 20; The site comprising 12 consecutive nucleotides (GUUUUAGAGCUA; SEQ ID NO: 230) located adjacent to the 3 'direction of the target sequence is an essential part of the crRNA,
  • X cas9 is a site comprising m nucleotides located at the 3 ′ end of the crRNA (ie, located adjacent to the 3 ′ direction of the essential part of the crRNA), where m is an integer from 8 to 12, such as 11
  • the m nucleotides may be the same as or different from each other, and may be independently selected from the group consisting of A, U, C, and G.
  • the X cas9 may include UGCUGUUUUG (SEQ ID NO: 231), but is not limited thereto.
  • tracrRNA may be represented by the following general formula (2):
  • SEQ ID NO: 232 The site shown in SEQ ID NO: 232 is an integral part of the tracrRNA
  • Y cas9 is a site containing p nucleotides located adjacent to the 5 'end of the essential portion of the tracrRNA, p may be an integer of 6 to 20, such as an integer of 8 to 19, the p nucleotides are May be the same or different and may be independently selected from the group consisting of A, U, C and G, respectively.
  • sgRNA is a crRNA portion comprising the targeting sequence and the essential portion of the crRNA and a tracrRNA portion including the essential portion (60 nucleotides) of the t racrRNA form a hairpin structure (stem-loop structure) through the oligonucleotide linker.
  • the ligonucleotide linker corresponds to the loop structure.
  • the sgRNA is a double stranded RNA molecule in which the crRNA portion including the targeting sequence and the essential portion of the crRNA and the tracrRNA portion including the essential portion of the tracrRNA are bonded to each other,
  • the 5 'end of the tracrRNA site may have a hairpin structure linked through an oligonucleotide linker.
  • the sgRNA can be represented by the following general formula 3:
  • ( ⁇ is a targeting sequence as described above in Formula 1.
  • the oligonucleotide linker included in the sgRNA may include 3 to 5, for example, 4 nucleotides, and the nucleotides may be the same or different from each other, and may be each independently selected from the group consisting of A,, U, C, and G. Can be selected.
  • the crRNA or sgRNA may further comprise 1-3 guanine (G) at the 5 'end (ie, the 5' end of the targeting sequence region of the crRNA).
  • the tracrRNA or sgRNA may further comprise a termination region comprising 5 to 7 uracils (U) at the 3 'end of the essential portion (60nt) of the tracrRNA.
  • the target sequence of the guide RNA is adjacent to 5 'of PAM (Protospacer Adjacent Motif sequence (5.-NGG-3' (N is A, T, G, or C) for pyogenes Cas9)) on target DNA And from about 17 to about 23 or from about 18 to about 22, such as 20 contiguous nucleic acid sequences.
  • 5 'of PAM Protospacer Adjacent Motif sequence (5.-NGG-3' (N is A, T, G, or C) for pyogenes Cas9)
  • the targeting sequence of the guide RNA which is capable of hybridizing with the target sequence of the guide RNA, is the DNA strand in which the target sequence is located (ie, the PAM sequence (5'- NGG-3 1 (N is A, T, G, or C)).
  • a nucleotide having a sequence complementarity of at least 50%, at least 60%, at least 70%, at least 80%, at least 90%, at least 95%, at least 99%, or 10OT with the nucleotide sequence of the complementary strand By sequence, complementary binding to the nucleotide sequence of the complementary strand is possible.
  • the nucleic acid sequence of the target site is represented by the nucleic acid sequence of the strand where the PAM sequence is located among the two DNA strands of the corresponding gene site of the target gene.
  • the targeting sequence has the same nucleic acid sequence as the sequence of the target site, except that T is changed to U due to the nature of RNA.
  • the targeting sequence of the guide RNA and the sequence of the target site are represented by the same nucleic acid sequence except that T and U are mutually altered.
  • the guide RNA may be used in the form of RNA (or included in the composition), or in the form of a plasmid containing DNA encoding the same (or in the composition).
  • the uracil-specific removal reagent serves to remove uracil converted from cytosine by the cytosine deaminase and / or to introduce DNA cleavage at the position where the uracil is removed. It can include any substance.
  • the uracil-specific removal reagent comprises uracil DNA glycosylase (UDG), endonuclease VIII, and combinations thereof.
  • the uracil-specific removal reagent may comprise an endonuclease VIII or a combination of uracil DNA glycosylase and endonuclease VI II.
  • Uracil DNA glycosylase is an enzyme that acts to remove uracil (U) present in DNA and prevents mutagenesis of DNA.It is a base-excision repair by cleaving N-glycosylic bond of uracil.
  • One or more of the enzymes that play a role in initiating the (BER) pathway can be selected.
  • the uracil DNA glycosylase is Escherichia coli uracil DNA glycosylase (e.g. GenBank Accession Nos.
  • mouse uracil DNA glycosylase eg, GenBank Accession Nos. NP — 001035781.1, NP_035807 .2, etc.
  • mouse uracil DNA glycosylase may be one or more selected from the group consisting of, but is not limited thereto.
  • the endonuclease VI II is free of the uracil 3 'and 5 1 of the N-glycosylase activity to remove uracil damaged by the uracil DNA glycosylase from the double stranded DNA and the apurinic site (AP site) resulting from the removal of the damaged uracil.
  • At least one may be selected from all enzymes having both terminally cleaved AP-lyase activity.
  • the endonuclease VIII may be a human endonuclease VIII (eg, GenBank Accession Nos.
  • BAC06476.1 NP_001339449.1, NP_001243481.1, NP_078884.2 NP_001339448.1, etc.
  • mouse endonuclease VIII For example, GenBank Accession Nos. BAC06477.1, ⁇ -082623.1, etc., Escherichia coli endonuclease VIII (eg, GenBank Accession Nos.
  • 0BZ49008.1, 0BZ43214.1, 0BZ42025.1, ANJ41661.1, KYL40995.1, KMV55034.1, KMV53379.1, KMV50038.1, KMV40847.1, AQW72152.1, etc. may be one or more selected from the group consisting of, but is not limited thereto.
  • an inactivated target-specific endonuclease as well as endonuclease activity such as a modified Cas9 protein in which both the D10A and H840A mutations are introduced into a Cas9 protein derived from Streptococcus pyogenes).
  • a modified Cas9 protein in which both the D10A and H840A mutations are introduced into a Cas9 protein derived from Streptococcus pyogenes.
  • one strand of uracil is removed to specifically cleave a single strand of DNA present in a single strand (single strand region).
  • Endonucleases that specifically degrade single-stranded sites of the DNA include S1 nuclease ⁇ Aspergi 1 lus oryzae; For example, it may be one or more selected from the group consisting of Catalog number M5791 (Promega) and the like, Mung bean nuclease and the like.
  • Double stranding at the site where base-to-uracil conversion (base correction) occurred by cytosine deaminase by treatment with such cytosine deaminase and inactivated target specific endonuclease and uracil-specific ablation reagents Cleavage is produced (see FIG. 4A).
  • the DNA cleavage fragments thus produced have staggered ends extending from each other. Thereafter, an end repair process can optionally occur, whereby blunted ended DNA fragments (double strands) can be produced (see FIG. 4A).
  • Another example is
  • double strand cleavage is generated (or introduced) into DNA using cytosine deaminase, so that base editing (ie, C to U conversion) is performed by cytosine deaminase at the genomic DNA or target site of the DNA. It can analyze the location and the base calibration efficiency of cytosine deaminase, etc. Through this, the base calibration efficiency at the on-target site of cytosine deaminase, specificity for the on-target sequence, off-target sequence, etc. Can be verified (or measured).
  • Another example is
  • the base editing is introduced by cytosine deaminase comprising a.
  • Another example is (i) (a) cytosine deaminase and inactivated target specific endonuclease, or (b) cytosine deaminase coding gene and inactivated target specific endonuclease coding gene, or (c ) Introducing a plasmid comprising a cytosine deaminase coding gene and an inactivated target specific endonuclease coding gene with a guide RNA into the cell or contacting DNA isolated from the cell;
  • a method of identifying (or measuring or detecting) a base calibration site of cytosine deaminase, base calibration efficiency at an on-target site, a non-target site ( 0 ff-target site), and / or target specificity comprising a to provide.
  • cytosine deaminase inactivated target specific endonuclease, plasmid, guide RNA and uracil-specific removal reagents are as described above.
  • the method may be performed intracellularly or in vitro, for example, may be performed in vitro. More specifically, all steps of the method are carried out in vitro, or step (i) is performed in cells, and step (ii) and subsequent steps are extracted from cells in which step (0) is performed. Can be carried out in vitro using the prepared DNA (eg genomic DNA).
  • prepared DNA eg genomic DNA
  • Step (i) comprises transfecting a cell with cytosine deaminase and an inactivated target specific endonuclease (or a coding gene thereof) and a guide RNA or contacting (eg, extracting DNA from the cell). And incubation) to induce cytosine to uracil conversion and DNA nick generation within the target site targeted by the guide RNA.
  • the cell may be selected from all eukaryotic cells intended to introduce base correction by cytosine deaminase, and may be selected from mammalian cells, including, for example, human cells.
  • the transfection results in cytosine deaminase and inactivated target specific endonucleases.
  • the plasmid containing the gene encoding the gene can be carried out by introducing into the cell by any conventional means, for example, the introduction of the plasmid into the cell may be performed by electroporation, lipofection, etc. It is not limited.
  • the step (i) comprises cytosine deaminase and inactivation of DNA extracted from the cells (cells to be identified for base correction (base correction position, base correction efficiency, etc.) by cytosine deaminase). It can be carried out by culturing with a target specific endonuclease (eg, a fusion protein comprising cytosine deaminase and deactivated target specific endonuclease) and guide RNA (Un vitro).
  • the DNA extracted from the cell may be a genomic DNA or a polymerase chain reaction (PC) amplification product comprising a target gene or a target site.
  • PC polymerase chain reaction
  • Step (ii) is a step of generating a DNA double strand break by removing the base modified with uracil in step (i). More specifically, the step (ii) is to process (contact) the uracil DNA glycosylase (UDG), the endonuclease VIII, and a combination thereof to the semi-ungmul obtained in step (i) Can be performed by a step. When both uracil DNA glycosylase and endonuclease VIII are treated (contacted), they can be processed simultaneously or sequentially regardless of the sequence.
  • the step of contacting (contacting) may be performed by culturing the semi-aungmul obtained in step (i) with uracil DNA glycosylase and / or endonuclease VIII.
  • the reactant of step (ii) may include DNA isolated from the transfected cells, if step (i) is performed in a cell (ie, by transfecting the cell), and the step When (i) is performed in vitro on the DNA extracted (isolated) from the cells, the cytosine deaminase and inactivated target specific endonucleases and guide RNA treated isolated DNA It may be to include.
  • an inactivated target specific endo in which both a D10A mutation and an H840A mutation are introduced into a Cas9 protein derived from Streptococcus pyogenes as the target specific endonuclease inactivated in step (i).
  • the method may further include the step (step (ii-1)) of treating the endonuclease that specifically cleaves (cutting both ends of the single stranded site) the single stranded site of DNA present (FIG. 22).
  • step (ii-1) of treating the endonuclease that specifically cleaves (cutting both ends of the single stranded site) the single stranded site of DNA present.
  • An endonuclease that specifically cleaves a single stranded portion of the DNA may be an S1 nuclease, but is not limited thereto.
  • step (i) after performing (or completing) said step (i) and before performing step (ii), removing the cytosine deaminase, inactivated target specific endonuclease, and / or guide RNA used in step (i) It may further comprise the step.
  • cytidine deaminase and inactivated target specific endonucleases are used together with guide RNAs to have sequence specificity, so they mostly act on the target site, but at sites other than the target sequence. A sequence similar to the target sequence. Depending on how much they exist, side effects may occur that affect off-target sites.
  • an off-target site is not a target site for cytidine deaminase and inactivated target specific endonucleases, but it is a cytidine deaminase and inactivated target specific endo. Refers to the position at which the nuclease is active.
  • the non-target position may be used in the concept including not only the actual non-target position for the cytidine deaminase and inactivated target specific endonuclease but also the position that is likely to be the non-target position.
  • the non-target position may be any position other than a target position cleaved by cytidine deaminase and inactivated target specific endonuclease in vitro, but not limited thereto. .
  • cytidine deaminase and the inactivated target specific endonuclease may be caused by various causes that the cytidine deaminase and the inactivated target specific endonuclease have activity at a position other than the target position.
  • target sequences designed for target sites and With low levels of nucleotide mismatches it is likely that cytidine deaminase and inactivated target specific endonucleases will operate for sequences other than target sequences (non-target sequences) that have high sequence homology with the target sequence. have.
  • the non-target sequence is not limited thereto, but 1 to 6, 1 to 5, 1 to 4, 1 to 3, 1 to 2, or 1 nucleotide mismatch with the target sequence ( mi smatch).
  • cytidine deaminase and inactivated target specific endonucleases in mismatched sequences can cause mutations of unwanted genes in the genome, which can cause serious problems. Therefore, the process of accurately detecting and analyzing non-target sequences as well as activity at target positions of cytidine deaminase and inactivated target specific endonuclease may be very important, which is a target position without non-target effects. It may be usefully used to develop cytidine deaminase and inactivated target specific endonucleases that only work specifically.
  • the cytidine deaminase and inactivated target specific endonucleases may have activity in vivo and in vitro ⁇ in vitro DNA (eg, genomic DNA) It can be used to detect non-target positions of, and when applied in vivo it can be expected to have activity at the same position as the detected non-target positions (locations on the gene containing non-target sequences (sites)). .
  • Step (iii) is a step of analyzing the nucleic acid sequence of the DNA fragment cut in the step ( ⁇ ), can be performed by any conventional nucleic acid sequence analysis method.
  • the nucleic acid sequencing may be performed by whole genome sequencing.
  • the ratio of the cleaved by the target specific nuclease substantially at the entire genome level, unlike the indirect method of finding a sequence homologous to the sequence of the target site and predicting it to be a nontarget position Since the target position can be detected, the non-target position can be detected more accurately.
  • next-generation sizing is a technology that fragments the full-length genome in chip-based and PCR-based paired end formats, and performs the fragmentation at ultrafast speeds based on chemical hybridization. Means.
  • Step (iv) is a step of identifying (or determining) the position where the DNA is cleaved from the sequence read obtained in step (iii). And off-target sites can be detected easily. Determining a specific position at which DNA is cleaved from the sequencing data may be performed by various approaches, and the present specification provides various rational methods for determining the position. However, this is only an example included in the technical idea of the present invention, and the scope of the present invention is not limited by these methods.
  • the position where the 5 'end is vertically aligned means the position where the DNA is cleaved. can do. Sorting the sequence data according to the position on the genome may be performed using an analysis program (eg, BWA / GATK or ISAAC).
  • an analysis program eg, BWA / GATK or ISAAC.
  • vertical alignment when analyzing the whole genome sequencing results by a program such as BWA / GATK or ISAAC, each of the adjacent Watson strand and Crick strand, respectively For, refers to an arrangement where the 5 'end of two or more nucleotide sequences data starts at the same nucleotide position on the genome.
  • the cleavage in step (ii) occurs at the target and non-target positions.
  • the cleaved sites are vertically aligned because their positions start with the 5 'end. Can be arranged in a staggered manner.
  • the vertically aligned position can be seen as the cleaved site in step (ii), which means the target or non-target position of cytidine deaminase and deactivated target specific endonuclease. Can be.
  • sorting means mapping base sequence data to a reference genome and then arranging bases having the same position in the genome according to each position.
  • Any computer program can be used as long as it can be sorted, and it can be selected from programs known in the art, or programs designed for the purpose. However, it is not limited thereto.
  • the position where the DNA is cleaved by the cytidine deaminase and the inactivated target specific endonuclease may be determined by finding a position where the 5 'terminal is vertically aligned as described above. If the cut position is not the on-target position, it may be determined as a non-target position.
  • a sequence identical to a base sequence designed as a target position of a cytidine deaminase and an inactivated target specific endonuclease is a target position, and a sequence not identical to the base sequence may be regarded as a non-target position. have. This is obvious by definition of the non-target location described above.
  • the non-target position may in particular consist of a sequence having homology with the sequence of the target position, specifically a sequence having one or more nucleotide mismatches with the target position, more specifically the target position (target sequence) And 1 to 6, 1 to 5, 1 to 4, 1 to 3, 1 to 2, or 1 to 6 nucleotide mismatch, but is not particularly limited thereto It may be included within the scope of the present invention as long as the cytidine deaminase and the inactivated target specific endonuclease are cleavable.
  • the double peak pattern in addition to finding a position where the 5 'end is vertically aligned, if the double peak pattern is shown in the 5' end plot, it may be determined as a non-target position if the position is not the target position.
  • a double peak pattern appears at a specific position. This double peak is due to each strand of the double strand cut by the cytidine deaminase and the inactivated target specific endonuclease.
  • the non-target positioning method after step (iv), if the truncated position is not the on-target site, further comprising the step of determining the off-target site (off-target site) It can be included as.
  • genomic DNA is double stranded by performing steps (i) and (ii), followed by full genome analysis (step (iii)), followed by alignment with ISAAC to vertical alignment at the cut position.
  • steps (i) and (ii) followed by full genome analysis (step (iii)), followed by alignment with ISAAC to vertical alignment at the cut position.
  • ISAAC full genome analysis
  • a pattern that is aligned in a staggered manner is identified, and when this is represented by a 5 'terminal plot, a unique pattern of double peaks may appear at the cut portion.
  • a position where the sequence read corresponding to the Watson strand and the Crick strand is vertically aligned by two or more, respectively, is a non-target position.
  • a non-target position where at least 20% of the sequence data is vertically aligned and the number of sequences data having the same 5 'end at each Watson strand and the creek strand at least 10 is a non-target position, i. It can be judged that.
  • the base calibration site of cytosine deaminase ie, double strand cleavage site
  • the base calibration efficiency or target specificity at the on—target site ie base frequency of calibration at the on-target site / total base) Calibration frequency
  • the off-target site a position other than the on-target position among the positions identified as base calibration sites of cytosine deaminase
  • the non-target location can be performed by treating genomic DNA with cytidine deaminase and inactivated target specific endonuclease in Un in vitro.
  • Non-targets identified (detected) through the above method It can be confirmed whether the non-target effect occurs in vivo (in wVo).
  • this since this is only an additional verification process, it is not an essential step in the scope of the present invention, but is only a step that may be additionally performed as necessary.
  • off-target effect may be intended to mean the level at which base correction and / or double stranded cleavage occurs at an off-target site.
  • Insert and / or deletion (Indel) ' generically refers to variations in which some bases are inserted or deleted in the base sequence of DNA.
  • a method of identifying (or measuring or detecting) a base calibration site of cytosine deaminase, base calibration efficiency at an on-target site, a 0 ff-target site, and / or target specificity may be carried out by a method other than the Digenome-seq method described above.
  • a method for identifying (or measuring or detecting) a base calibration site of cytosine deaminase, base calibration efficiency at an on-target site, a non-target site ( 0 ff-target site), and / or target specificity circle- seq method may include the following steps (see FIG. 20A):
  • cytosine deaminase and inactivated target specific endonucleases of step (ii) can be used with guide RNA.
  • the method of confirming (or measuring or detecting) the target specificity may be by the Bless method, and specifically may include the following steps (see FIG. 20B):
  • cytosine deaminase and inactivated target specific endonuclease of step (i), or a gene encoding the same or a plasmid comprising the same may be used together with a guide RNA or a plasmid comprising DNA encoding the guide RNA. have.
  • a method of identifying (or measuring or detecting) a base calibration site of cytosine deaminase, base calibration efficiency at an on-target site, off-target site, and / or target specificity is DSBCapture.
  • Method may include the following steps (see FIG. 20C):
  • cytosine deaminase and inactivated target specific endonuclease of step (i), or a gene encoding the same or a plasmid comprising the same may be used together with a guide RNA or a plasmid comprising DNA encoding the guide RNA. have.
  • DNA double-strand cleavage using the cytidine deaminase provided herein and nucleic acid sequencing technology using the same, the base correction position, the base correction efficiency or target specificity at the on-target site, And / or non-target locations can be identified more accurately and efficiently.
  • La shows seven intrinsic target sites of HEK293T cells (EMXl, FANCF,
  • BE1 (AP0BECl-dCas9)
  • BE2 (AP0BEC1-dCas9-UGI)
  • BE3 (AP0BECl-nCas9-UGI) (see Reference Example 1) in HEK2, RNF2, HEK3, HEK4, HBB).
  • Lb shows Cas9 nuclease-induced mutation frequency as measured by target deep simulating at seven intrinsic target sites in HEK293T cells.
  • Lc is a graph representatively showing the ranking of indel frequency or base calibration efficiency at seven intrinsic target points.
  • FIG. 2B shows co-transfection of HEK293T cells with a target site and sgRNA having 1-4 mismatches and a plasmid encoding BE3 or Cas9 and measuring the frequency of mutations at three endogenous sites (HBB) One result (the listed nucleic acid sequences are numbered sequentially from SEQ ID NO: 32 to SEQ ID NO: 62 in the downward direction on the graph).
  • FIG. 2C shows co-transfection of HEK293T cells with a target site and sgRNA having 1 to 4 mismatches and a plasmid encoding BE3 or Cas9, and shows the frequency of mutations at three endogenous sites (RNF2).
  • 3A is a graph showing indel frequency associated with Cas9 nuclease and base correction frequency associated with BE3 at the EMX1 site.
  • 3B is a graph showing indel frequencies associated with Cas9 nucleases and base correction frequencies associated with BE3 at the HBB site.
  • 3C shows the indel frequency associated with Cas9 nuclease at the RNF2 site.
  • 4A schematically shows an overview of BE3 Digenome-seq.
  • Figure 4b is an electrophoresis picture showing the cleaved PCR product when BE3 and / or USER treated.
  • 4C is a Sanger sequencing result showing C to U conversion by B3 and DNA cleavage by USER.
  • 4D is an IGV image showing the linear alignment of sequence reads at the target site of EMX1.
  • 5 is an IGV image showing the linear alignment of sequence reads at six different targets s i tes.
  • 6A and 6B show intact genomic DNA (gray; first layer from center) and BE3 and USER (blue; second layer from center) or Cas9 (red; third from center l ayer; 6b, Genome-wide circus plot showing the DNA cleavage score obtained from the digested genomic DNA, arrows indicate the target site.
  • 6C (EMX1) and 6D (HBB) show sequence logos obtained via WebLogo (DNA degradation score> 2.5) using DNA sequences in Di genome-capture sites (Tables 2-8).
  • 6E (EMX1) and 6f (HBB) show the Scatterplot of Cas9 mediated indel frequency and BE3 mediated substitution frequency determined using target deep sequencing, with dots shown as circles confirming by BE3 but having no effective effect by Cas9. Represents a non-target site.
  • 6g (EMX1) and 6h (HBB) show the BE3 nontarget sites identified in HEK293T cells by target deep sequencing, where the PAM sequence is the last 3 nucleotides at the 3 'end and the mi smatched base is shown in lowercase.
  • FIG. 7 is a Venn diagram showing the number of sites with a DNA cleavage score of 2.5 or greater identified by Digenome-seq of Cas9 nuclease- and base edi tor-treated genomic DNA.
  • FIG. 9 is a venn diagram showing the number of PAM-containing homology sites with DNA cleavage scores of at least 0.1 as identified by Digenome-seq of Cas9 nucl ease- and Base edi tor-treated genomic DNA.
  • Figure 10 shows the proportion of homology sites captured by Digenome-seq, the bars show the target (target) site and the number of homologous sites that differ by up to 6 nt, and the squares (BE3) and triangles (Cas9) are misses. Represent the ratio of Digenome-seq capture sites to the range of match numbers.
  • 11A and lib are graphs showing the correlation between the number of BE3- and Cas9-related sites identified by Digenome 1.0 (11a) and Digenome 2.0 (lib).
  • 12A and 12B are graphs showing the correlation between the number of BE3-related sites identified by Digenome 1.0 (a) or Digenome 2.0 (b) and the number of sites with up to 6 mismatches.
  • 15A-15C show the base calibration efficiency of three different BE3 deaminase at Digenome-negative sites.
  • 16A shows existing sgRNA (gX19 sgRNA), truncated sgRNA (gX18 or gX17 sgRNA) and extended sgRNA (gX20 or ggX20). sgRNA) is shown schematically.
  • FIG. 16B shows the results of measurement of base calibration frequencies of target and non-target sites of HEK293T cells by target deep reading sequencing.
  • FIG. 17 shows that modified sgRNA can be used to reduce BE3 non-target effects
  • 17a is a schematic of conventional sgRNA (GX19 sgRNA) and modified sgRNA (GX17 sgRNA, gX18 sgRNA, gX20 sgRNA and ggX20 sgRNA).
  • 17B shows the base calibration efficiency (frequency) measured at the EMX1 target site and non-target site by target deep simulating in HEK293T cells.
  • 18A is a cleavage map of the plasmid rAP0BECl-XTEN-dCas9-NLS.
  • 18B is a cleavage map of the plasmid rAPOBECl-XTEN—dCas9-UGI-NLS.
  • 18C is a cleavage map of the plasmid rAP0BECl-XTEN-Cas9n—UGI-NLS.
  • 19 is a cleavage map of the Cas9 expression plasmid.
  • 20 is a cleavage map of the plasmid pET28b-BE1 encoding His6-rAP0BECl-XTEN-dCas9.
  • 21a to 21c schematically show a method of profiling the non-target site of the base editor in the whole genome by a method other than Digenome-seq.
  • 21a is a circle-seq
  • 21b is Bless
  • 21c is a method using DSBCapture. Shows each.
  • FIG. 22 shows the BEl (rAP0BECl-dCas9) -mediated double strand breaks (DSBs) process and results, (a) using BE1 (rAPOBECl-dCas9), USER enzyme, and SI nuclease.
  • the process of introducing DSB is schematically shown, and (b) is an electrophoretic photograph showing the results of BE1-mediated DSB in PCR amplification products after BEl / sgRNA, USER enzyme, and S1 nuclease treatment.
  • HEK293T cells (ATCC CRL-11268) were maintained in DMEM (Dulbecco Modified Eagle Medium) medium supplemented with 10> (w / v) FBS and (w / v) penicillin / straptomycin (Welgene).
  • HEK293T cells (1.5xl0 5 ) were inoculated into 24-well plates, and sgRNA plasmid (500 ng) with Lipofectamine 2000 (Invitrogen), and Base Editor plasmid (Addgene plasmid # 73019 (Expresses BEl with C ⁇ terminal NLS in mammal) i an cells; rAPOBECl-XTEN-dCas9-NLS; FIG.
  • the sgRNAs used in the examples below are the PAM sequences at the 5 'end of the target site sequence (target sequence; on-target sequence; see Table 1-8) (5'-NGG-3' (N is A, T, G) Or C)), replacing the T with U in the sequence
  • a plasmid encoding Hi S 6-rAP0BECl-XTEN-dCas9 protein (pET28b-BEl; Expresses BEl with N-terminal His 6 tag in E. Coli; FIG. 20) was provided by David Liu (Addgene plasmid # 73018).
  • the plasmid pET28b encoding the His6-rAP0BECl-XTEN-dCas9 protein was substituted with H840 of dCas9 with H840 using site directed mutagenesis in the plasmid pET28b—BE1, and lacked the His6-rAP0BECl-nCas9 protein (BE3 delta UGI; UGI domain).
  • a plasmid (pET28b-BE3 delta UGI) encoding the BE3 variant was constructed.
  • Rosetta expressing cells (Novagen, catalog number: 70954-3CN) were transformed with pET28b—BE1 or pET28b_BE3 delta UGI prepared above, Lur ia-Bertani (LB containing 100 ⁇ g / ⁇ kanamycin and 50 mg / ml carbenici 1 in ) incubated overnight at 37 ° C in brot.
  • the cultured cells were incubated at 16 ° C. for 1 hour and supplemented with 0.5 mM IPTG (Isopropyl ⁇ -Dl—thiogalactopyranoside) and incubated for 14-18 hours.
  • cells were harvested by centrifugation at 5000xg for 10 min at 4 ° C, lysozyme (Sigma) and protease inhibitors (Roche complete, EDTA-f ree), complemented lysate complete solution (50 mM NaH2P04, 300 mM) NaCl, 1 mM DTT and 10 mM imidazole, pH 8.0) were dissolved by sonication in 5 ml. The obtained cell reaction product was centrifuged at 13,000 rpm for 30 minutes at 4 ° C. The soluble cell lysate obtained was incubated with Ni-NTA agarose resin (Qiagen) at 4 ° C for 1 hour.
  • Cell lysate / Ni-NTA mixture was applied to the column and washed with complete solution (50 mM NaH 2 P04, 300 mM NaCl and 20 mM imidazole, pH 8.0).
  • BE3 protein was eluted with an eluted complete solution (50 mM NaH 2 P04, 300 mM NaCl and 250 mM imidazole, pH 8.0).
  • the eluted protein was stored by buffer replacement with storage complete solution (20 mM HEPES-KOH (pH 7.5), 150 mM KC1, 1 mM DTT and 20% glycerol) and concentrated using a centrifugal filter unit (Millipore), rAP0BECl-XTEN_dCas9 protein and rAP0BECl-nCas9 were purified.
  • PCR amplification products containing EMX1 site (10 / g) were incubated with purified rAP0BECl-nCas9 protein (4 and EMX1 specific sgRNA (3 g) at a reaction volume of 100 ⁇ for 1 hour at 37 ° C. Subsequently, the culture was added to USER (Uraci 1-Speci fic Excision Reagent) (6 units) (New England Bio labs; ht tps: // www.neb. Com / product s / m5505 for 30 minutes at 37 ° C.
  • Uracil DNA glycosylase UDG
  • DNA glycosylase-lyase Endonuc lease VIII mixtures with 50 mM KC1, 5 mM NaCl, 10 mM Tris-HCl (pH 7.4), 0.1 mM EDTA, 1 mM DTT, 175 mg / ml BSA and 503 ⁇ 4) (w / v) containing glycerol), followed by agarose gel electrophoresis.
  • Genomic DNA was purified (extracted) from HEK293T cells using the DNeasy Blood & Tissue Kit (Qiagen) according to the manufacturer's instructions. Genomic DNA (10 // g) was added to the buffer (100 mM NaCl, 40 for 8 hours at 37 ° C with a reaction volume of 500 ⁇ with rAP0BECl_nCas9 protein (300 nM) and sgRNA (900 nM) purified in Reference Example 2 above. mM) Hris-HCl, 10 mM MgC12, and 100 / g / ml BSA, pH 7.9).
  • uracil containing genomic DNA was purified by DNeasy Blood & Tissue Kit (Qiagen). Purified genomic DNA (2 / zg) was incubated with USER (6 Unit) for 3 hours at a reaction volume of 100 at 37 ° C, and then purified again with DNeasy Blood & Tissue Kit (Qiagen). Target sites were PCR amplified using SUN-PCR blends and Sanger sequencing to confirm BE3-mediated cytosine deamination and USER-mediated DNA cleavage.
  • Genomic DNA (1 / g) was fragmented in the 400-500 bp range using Covaris system (Life Technologies) and blunt-ended using End Repair Mix (Thermo Fischer).
  • a library was generated by connecting fragmented DNA with an adapter, followed by whole genome sequencing (WGS) using HiSeq X Ten Sequencer (Illumina) 3 ⁇ 4- in Macrogen.
  • targets and potential nontarget sites were amplified with a KAPA HiFi HotStart PCR kit (KAPA Biosystems # KK2501). Pooled PCR amplifications were sequenced using MiniSeq (Illumina) or Illumina Miseq (LAS Inc. Korea) equipped with TruSeq HT Dual Index System (Illumina).
  • MiniSeq Illumina
  • Illumina Miseq LAS Inc. Korea
  • TruSeq HT Dual Index System Illumina
  • La is seven endogenous targets of HEK293T cells
  • Bases obtained at sites (EMX1, FANCF, HEK2, RNF2, HEK3, HEK4, HBB) with BE1 (AP0BEC1-dCas9), BE2 (AP0BEC-dCas9-UGI) and BE3 (AP0BEC-nCas9-UGI) (see Reference Example 1)
  • BE1 A0BEC1-dCas9
  • BE2 A0BEC-dCas9-UGI
  • BE3 A0BEC-nCas9-UGI
  • FIG. Lb shows the Cas9 nuclease-induced mutation frequency measured by target deep sising at seven intrinsic target sites in HEK293T cells (using Cas9 expression plasmid of Reference Example 1 (Addgene plasmid # 43945; FIG. 19). Obtained results). These results confirm that BE3 activity is independent of Cas9 nuclease activity.
  • FIG. Lc is a graph representatively showing the ranking of indel frequency or base calibration efficiency at seven intrinsic target points (on target sit; see Table 2-8). As shown in FIG. Lc, as a result of activity ranking analysis, certain sgRNAs exhibited low activity when interacting with Cas9 but high activity when interacting with BE3, and sgRNAs having the opposite correlation existed.
  • BE3 is a smal l guide
  • sgRNAs mismatch in RNA
  • sgRNAs with 1 to 4 mismatches, and plasmids encoding BE3 or Cas9 are co-transfected into HEK293T cells and three endogenous sites (EMX1, HBB, RNF2) The mutation frequency in) was measured.
  • Target sites (including PAM sequences (in bold)) of sgRNAs with 1 to 4 mismatches used are summarized in Table 1 below:
  • 'Cn' indicates a ratio of substitution (substitution or deletion with another base) of cytosine (C) located at the n th position from the 5 'end of the mismatch sequence or the target sequence.
  • Indel frequency and cytosine conversion frequency base editing frequency
  • the primers used for the target deep sequencing were as follows:
  • GGCAGAGAGAGTCAGTGCCTA (SEQ ID NO: 98);
  • GTGACT ⁇ AGTOAGACGTGT (TCTTCCGATCTCAGGGCTGGGCATAAAAGT (SEQ ID NO:
  • mismatched sgRNAs see Table 1 for the indel frequency associated with Cas9 nuclease and the base correction frequency associated with BE3 at the EMX1 (FIG. 3A) site, the HBB site (FIG. 3B), and the RNF2 site (FIG. 3C).
  • EMX1 FIG. 3A
  • HBB site FIG. 3B
  • RNF2 site FIG. 3C
  • BE3 deaminase and Cas9 nuclease are mismatches of one nucleotide (1-nt) at almost all positions and 2 in the PAM-distant region (PAM) -di stal region. Tolerance was shown for dog nucleotide (2-nt) mismatches, but not for 3-nt or 4-nt mismatches in the PAM-proximal or PAM-distant regions. However, some sgRNAs with two or three mismatches (marked with an asterisk in FIGS. 2A-2C) show high activity when used with BE3, whereas they do not have good activity when used with Cas9. The opposite was also true.
  • a perfectly matched sgRNA or 3-nt mismatched sgRNA with BE3 leads to a comparable degree of frequency difference (33% vs. 14%), while the same exact match Or when 3-nt mismatched sgRNAs were used with Cas9, they exhibited widely different indel frequencies (50% vs. 2%) (FIG. 2A).
  • the activity of the two 2-nt mismatched sgRNAs with BE3 was low (frequency of substitution ⁇ 1%), whereas the activity of sgRNAs with the same mismatch with Cas9 was high ( indel frequency> 10%) (FIG. 2A).
  • GUIDE-seq (Tsai, SQ. Et al. GUIDE-seq enables genome-wi de profiling of non-target cleavage by CRISPR) to identify the non-target site where Cas9 nuclease induces DSB throughout the genome.
  • HTGTS (Frock, R.L. et al. Genome-wide detect ion of DNA double-stranded breaks induced by engineered nucleases.Nature biotechnology (2014))
  • BLESS Ra, F.A. et al. In vivo genome edi ting using Staphylococcus aureus Cas9.
  • Proper enzymes can be used to generate DSBs in deaminated, uraci 1-containing sites in vitro (/ i / ro), with the resulting DNA cleavage site at Cas9 and Cpfl nucleases.
  • Digenome-seq digested-genome sequencing; reference: Kim, D., Kim, S., Kim, S., Park, J. & Kim, JS Genome-
  • an in vitro method used to assess genome-specific specificity of wide t rget specificities of CRISPR ⁇ Cas9 nucleases revealed by multiplex Digenome-seq.Genome research 26, 406-415 (2016); Kim, D.
  • a PCR amplification product (amp ⁇ con) containing the target sequence, in vitro, (1) a recombinant rAP0BECl-nCas9 protein (Reference Example 2) and its sgRNA, a derivative of BE3 without the UGI domain Incubated with C-to-U conversions and nicks in Watson and Crick strands, respectively, followed by (2) E. coli Uracil DNA glycosylase (UDG) and DNA glycosylase.
  • UDG E. coli Uracil DNA glycosylase
  • Incubated with lyase Endonuc lease VI 11, USER (Uraci 1-Specific Excision Reagent), to generate a gap at the uracil position to generate a composite DSB (see FIG. 4A).
  • FIG. 4A shows an overview of such BE3 Digenome-seq.
  • the BE3-mediated uracil-containing site was cleaved by USER, a combination of E. coli Uracil DNA glycosylase (UDG) and DNA glycosylase endonuc lease VI 11.
  • Figure 4b is an electrophoresis picture showing the cleaved PCR product when BE3 and / or USER treated. As shown in Figure 4b, PCR amplification products can be confirmed that the cleavage when incubated with BE3 and USER.
  • FIGS. 4D and 5 Sequence alignment for the human reference genome (hgl9) Foo, using an Integrated Genomics Viewer (IGV) to monitor the alignment pattern at the target location and show the results in FIGS. 4D and 5.
  • IGV Integrated Genomics Viewer
  • Appeared in. 4D is an IGV image showing linear alignment of sequence reads at target sites of EMX1
  • FIG. 5 is an IGV image showing linear alignment of sequence reads at six different target sites.
  • signature patterns related to DSBs generated in vitro were observed at all seven target positions.
  • DNA cleavage scores are assigned to each nt position of the genome based on the number of sequence reads aligned at the 5 'terminus at defined positions, and the inventor's transfer.
  • the number of nucleotide sequence data means the number of nucleotide reads
  • the sequencing depth means the number of sequencing reads at a specific position
  • the C value is 1.
  • HBB_4 chrX 75006256 2.34 gTgGCCCCACAGGGCAGgAATGG 148 X ⁇ _5 chrl2 93549201 0.55 aTTGCCCCACgGGGCAGTgACGG 149 X ⁇ — 6 chr lO 95791920 0.27 acTc t CCCACAaGGCAGTAAGGG 150 X
  • HEK4 35 chr 10 77 103 119 1. 15 GGCAt caCGGCTGGAGGTGGAGG 196 X
  • Figures 6a and 6b disassemble into intact genomic DNA (gray; first layer from center) and BE3 and USER (blue; second layer from center) or Cas9 (red; third layer from center; only in Figure 6b).
  • the arrows indicate the target sites.
  • 6C and 6D show sequence logos obtained via WebLogo using DNA sequences at Digenome-capture sites (Tables 2-8) (DNA digestion scores> 2.5), and FIGS. 6E and 6F were determined using target deep sequencing. Scatterplot of the Cas9 mediated indel frequency and the BE3 mediated substitution frequency, with circles marked non-target sites identified by BE3 but not effective by Cas9.
  • ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC GCACTTGTTGGCCATT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
  • ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC GCACAGAGGGTTGTTT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
  • ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAG TCAGA CGACGCTCTTCCGATC TCAAGAGACTGTTGTT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
  • ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC AGATGAATGCAGGGAG CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
  • ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC CAAAAATCAACTCAAG CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
  • ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC TGCTTTTTCACTTGTC CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
  • ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC
  • ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC GCCAGGATTTCCTCAA CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
  • FANCF_10 GCTCTCAAATGGCTCC GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA MAC CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
  • ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC CTCCTCAGTGGGTGAA CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
  • ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTT CAGAAAATAAAGCAGCT GACGCTCTTCCGATCTT GTGTGCTCTTCCGATCT
  • ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTT AAATGGTAAAAAGAAAC GACGCTCTTCCGATCTT GTGTGCTCTTCCGATCT
  • ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTC TTTTCTTGTGAAACAGA GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
  • ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTC AACCAACATGGTGGGAC GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
  • CAGMGAGTGTGGTGCA ACT CAGMGAGTGTGGTGCA AGGCTGTGGTGAAGAGG GT GT ATG
  • ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTA GCTGGTCATGCAGTGTC GACGCTCTTCCGATCTA GTGTGCTCTTCCGATCT
  • ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTG AGTTGTGGGGTTTTCTG GACGCTCTTCCGATCTG GTGTGCTCTTCCGATCT
  • ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTA CACAGCCCATCTCTCCA GACGCTCTTCCGATCTA GTGTGCTCTTCCGATCT
  • ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTG CACCATGCCTGGCTAAT GACGCTCTTCCGATCTG GTGTGCTCTTCCGATCT
  • ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTA TTTCTCACGATGACATT GACGCTCTTCCGATCTA GTGTGCTCTTCCGATCT
  • ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTC TGTTCCTAGAGCAACCT GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
  • ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTC GACGCATCCCACCTCCT GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
  • Venn diagram showing the number of sites with a DNA cleavage score of 2.5 or greater as determined by Digenome-seq.
  • BE3 has a lower potential of cleaving non-target sites than Cas9. Sequence logos obtained by comparing the positions identified with Digenome were found to contribute to the specificity of BE3 deaminase in both the PAM-distant region and the PAM-proximal region (FIG. 6C, d).
  • the graph shows the number of PAM-containing sites with less than 10 mismatches ( ⁇ ), which indicates the total genome sequencing for intact human genomic DNA (left) and genomic DNA degraded by BE3 and USER (right). whole genome sequencing), as shown in Fig. 8, when the WGS data obtained by using the undamaged genomic DNA that was not treated with BE3 and USER as a negative control group had a cutoff score of 0.1 fa Since no lse-positive sites were created, a cutoff score of 0.1 was chosen (Figure 8), based on these results, the non-target by Digenome 2.0.
  • sites with PAM (5'-NGN-3 'or 5'_NNG-3') with a DNA cleavage score of 0.1 or more and a mismatch of 10 or less are determined as non-target positions.
  • sites with PAM (5'-NGN-3 'or 5'_NNG-3') with a DNA cleavage score of 0.1 or more and a mismatch of 10 or less are determined as non-target positions.
  • non-target positioning by Digenome 1.0 a site having a DNA cleavage score of 2.5 or more is determined as a non-target position candidate group.
  • FIG. 9 is a venn diagram showing the number of PAM-containing homology sites with a DNA cleavage score of at least 0.1 identified by Digenome-seq of Cas9 nuclease- and Base editor-treated genomic DNA.
  • FIGS. 7 and 9 were examined in more detail.
  • Figure 10 shows the proportion of homology sites captured by Digenome-seq, the bars show the target (target) site and the number of homologous sites that differ by up to 6 nt, and the squares (BE3) and triangles (Cas9) are misses. Represent the ratio of Digenome-seq capture sites to the range of match numbers. As shown in FIG. 10, regardless of the number of mismatches, there were fewer homo 1 ogous sites identified by Digenome-seq when using BE3 compared to using Cas9.
  • Lla and lib are graphs showing the correlation between the number of BE3- and Cas9-related sites identified by Digenome 1.0 (lla) and Digenome 2.0 (lib). As shown in FIGS. Lla and lib, a statistically significant correlation was found between the number of Cas9-related and BE3-related positions ( ⁇ (Score> 2.5, Digenome 1.0) or 0.86 (Digenome 2.0)). Such The results suggest that sgRNA is the primary determinants of both Cas9 specificity and BE3 specificity.
  • FIGS. 12A and 12B also show a correlation between the number of BE3-related sites identified by Digenome 1.0 (a) or Digenome 2.0 (b) and the number of sites with up to six mismatches.
  • Digenome 1.0 0.95
  • Cas9 the relevance of BE3 alone or Cas9 alone.
  • S00T0 / Z.l0ZaM / X3d Analyzes a total of 75 sites identified using 7 sgRNAs, including all of the 7 target sites, with a frequency of exceeding the noise level due to a sequence error (typically within the range of 0.1 to 2%).
  • BE3 induction point mutations were observed at dog sites (validation ratio was 67. BE3 could still induce mutations at other BE3-associated Digenome-positive sites with frequencies below background noise levels.
  • 14A-14C show the base calibration efficiency of Digenome-captured sites associated with three different Cas9 nucleases. As shown in FIGS. 14A-14C, BE3 did not result in detectable substitutions at 24 Digenome-positive sites associated with three different Cas9 nucleases alone. 15A-15C also show the base calibration efficiency of three different BE3 deaminase at Digenome-negative sites. As shown in FIGS. 15A-15C, the three BE3 deaminase is Cas-0FFinder (Bae, S., Park, J.
  • sgRNAs gX19 or GX19; g and G mean mi smatched and matched guanine, respectively
  • sgRNAs gX19 or GX19; g and G mean mi smatched and matched guanine, respectively
  • gX19 or GX19; g and G mean mi smatched and matched guanine, respectively
  • gX20 or ggX20 extended sgRNA
  • FIG. 16A graphically shows existing sgRNA (gX19 sgRNA), truncated sgRNA (gX18 or gX17 sgRNA) and extended sgRNA (gX20 or ggX20 sgRNA).
  • FIG. 16B shows the results of base calibration frequencies of target and non-target sites of HEK293T cells measured by target deep read sequencing. Specificity ratio (speci f i ci ty rat io) was calculated by dividing the frequency of base correction at the on-target position by the frequency of base correction at the position of f-target.
  • the heatmap shows the relative specificity of the modified sgRNA compared to the conventional sgRNA.
  • FIG. 17 shows that modified sgRNAs can be used to reduce BE3 non-target effects
  • 17a shows that existing sgRNAs (GX19 sgRNAs) and modified sgRNAs (GX17 sgRNAs, gX18 sgRNAs, gX20 sgRNAs, and ggX20 sgRNAs).
  • FIG. 17B is a result showing base calibration efficiency (frequency) measured at the EMX1 target site and non-target site by target deep simulating in HEK293T cells.
  • Truncated sgRNAs reduced nontarget effects at many positions, but worsened at the sites with mismatches at the 5 'end (Figs. 16B and 17B). Marked with an asterisk). Extended sgRNAs reduced non-target effects at nearly all sites while maintaining the target effect. Incidentally, some of the extended sgRNAs showed higher activity at the target site than conventional sgRNAs (Table 17). The use of attenuated Cas9 variants or delivery of BE3 RNPs rather than plasmids can further enhance the genome-wide specificity of the base edi ting.
  • PCR amp H con containing BE1 (rAP0BECl-dCas9) -mediated double stranded cleavage (DSBs) target sequence (ENX1 on-target sequence; SEQ ID NO: 31) was subjected to BE1 (rAP0BECl-dCas9; Example 2) and sgRNA in vitro.
  • SgRNA targeting SEQ ID NO: 31 was incubated to convert cytosine in the target sequence to uracil. Uracil converted by rAPOBECl was removed by treatment with USER (Uraci 1-Speci fic Excision Reagent) Enzyme (New England Biolabs).
  • SI nuclease (Catalog # M5761; Promega) was treated to cleave the phophodi ester bond of the single-stranded DNA site to generate DSB at the site where cytosine was removed (FIG. 22A).

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Plant Pathology (AREA)
  • Immunology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Mycology (AREA)
  • Cell Biology (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

(1) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제 (2) 가이드 RNA, 및 (3) 우라실-특이적 제거 시약 (Uracil -Specific Excision Reagent; USER)을 포함하는, DNA 이중 가닥 절단 (double strand breaks; DSBs)용 조성물, 이를 이용한 시토신 디아미나제에 의한 DNA 이중 가닥 절단 (double strand break) 생성 방법, 시토신 디아미나제에 의하여 염기 교정 (base editing)이 도입된 DNA의 핵산 서열 분석 방법, 및 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및/또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법이 제공된다.

Description

【발명의 설명】
【발명의 명칭】
시토신 디아미나제에 의한 DNA에서의 염기 교정 확인 방법
【기술분야】
(1) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제
(2) 가이드 RNA, 및 (3) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 포함하는, DNA 이중 가닥 절단 (double strand breaks; DSBs)용 조성물, 이를 이용한 시토신 디아미나제에 의한 DNA 이중 가닥 절단 (double strand break) 생성 방법, 시토신 디아미나제에 의하여 염기 교정 (base editing)이 도입된 DNA의 핵산 서열 분석 방법, 및 시토신 디아미나제의 염기 교정 위치, onᅳ target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및 /또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법과 관련된 것이다.
【배경기술】
Cas9-연결된 디아미나제 (Cas9-1 inked deaminase)는 유전적 장애를 유발하는 점 돌연변이를 교정하거나 인간 및 다른 진핵 세포에 목적하는 단일 뉴클레오타이드 변이를 도입하도록 표적화된 방식 (targeted manner)으로 단일 뉴클레오타이드 전환을 가능하게 한다. 그러나, 이러한 RNA-programmable 디아미나제의 유전체 전반 (genome-wide)에 걸친 표적 특이성은 아직 많이 알려져 있지 않다.
Programmable 디아미나제는 다음의 4 종류가 보고되어 있다:
1) S. j graes에서 유래하는 촉매적으로 결핍된 Cas9 (catalytically-deficient Cas9; dCas9) 또는 D10A Cas9 니케이즈 (nCas9)와, 래트의 시티딘 디아미나아제인 rAPOBECl를 포함하는 베이스 에디터 (Base Editors; BEs); 2) dCas9 또는 nCas9와, 바다칠성장어 (sea lamprey)의 act i vat ion- induced cyt idine deaminase (AID) ortholog인 PmCDAl 또는 인간 AID를 포함하는 Target-AID; 3) MS2-결합 단백질에 융합된 과활성화된 AID 변이체를 모집하기 위해 MS2 RNA 헤어핀에 연결된 sgRNAs와 dCas9를 포함하는 CRISPRᅳ X; 및 4) 징크 -핑거 단,백질 또는 transcription activator-like effectors (TALEs)가 시티딘 디아미나제에 융합 된 것.
DNA 결합 모들과 시티딘 디아미나제 (cyt idine deaminase)로 구성된 progra誦 able 디아미나제는 DNA 이중 가닥 절단 (DSBs)을 생성하지 않고 유전체에서 표적화된 뉴클레오타이드 치환 또는 염기 교정 (base edi t ing)을 가능하게 한다. 표적 부위에 작은 삽입 또는 결실 ( indel s)을 유도하는 CRISPR-Cas9 및 ZFNs와 같은 programmable 뉴클레아제와 달리, programmable 디아미나제는, 표적 부위에서의 수 개의 뉴클레오타이드 (window of several nucleot ides) 내에서, C를 T(U)로 (또는 보다 낮은 빈도로, C를 G 또는 A로 변환) 변환시킨다. programmable 디아미나제는 인간의 세포, 동물 및 식물에서 유전 질환을 유발하는 점 돌연변이를 교정하거나 단일 염기 다형성 (SNP)을 생성할 수 있다.
progra隱 able 디아미나제에 의한 염기 교정 (base edi t ing)에 대한 광범위한 관심에도 불구하고, progra隱 able 디아미나제의 유전체 전체에 대한 표적 특이성을 분석할 수 있는 수단이 개발된 바가 없다. 따라서, programmable 디아미나제의 유전체 전체에 대한 표적 특이성을 분석하여, programmable 디아미나제의 염기 교정 효율, 비표적 사이트 (of f—target s i te) , 비표적 효과 (of f-target ef fect ) 등을 분석할 수 있는 수단의 개발이 필요하다.
[발명의 상세한 설명]
【기술적 과제】
본 명세서에서는 programmable 디아미나제의 유전체 전체에 대한 표적 특이성을 분석할 수 있는 수단, 및 이를 통하여 programmable 디아미나제의 염기 교정 효율, 비표적 사이트, 비표적 효과 등을 분석할 수 있는 수단이 제공된다.
일 예는 ( 1) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드, (2) 가이드 RNA , 및 (3) 우라실-특이적 제거 시약 (Uraci l -Speci f i c Exci sion Reagent; USER)을 포함하는, DNA 이중 가닥 절단 (double strand breaks ; DSBs)용 조성물을 제공한다.
다른 예는,
( i ) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (C) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA 와 함께 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계 ; 및
(ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent;
USER)을 처리하는 단계
를 포함하는, DNA 이중 가닥 절단 (double strand break) 생성 방법을 제공한다.
다른 예는,
(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화. 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA 와 함께 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계 ;
(ii) 우라실—특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계 ; 및
(iii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계
를 포함하는, 상기 시토신 디아미나제에 의하여 염기 교정 (base editing)이 도입된 DNA의 핵산 서열 분석 방법을 제공한다.
다른 예는,
(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA 와 함께 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계 ;
(ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계 ;
(iii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계; 및
(iv) 상기 분석에 의여 수득된 핵산 서열 데이터 (sequence read)에서 상기 이중 가닥 절단 위치를 확인하는 단계 를 포함하는, 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (0f f-target s i te) , 및 /또는 표적 특이성을 확인 ' (또는 측정 또는 검출)하는 방법을 제공한다.
【과제의 해결 수단】
본 명세서에서는 Digenome-seq를 수정하여 인간 유전체에서 Cas9 니케이즈 (ni ckase)와 디아미나제 (deaminase)로 구성된 베이스 에디터 (예컨대, Base Edi tor 3; BE3)의 특이성을 평가하였다. 유전체 DNA를 DNA 변형 효소 (DNA-modi fying enzymes)의 흔합물 및 BE3으로 시험관내에서 처리하여 우라실 함유 부위에서 DNA 이중 가닥 절단 (DNA double-strand breaks; DSBs)를 생성하는 것을 확인하였다. 본 명세서에서 제공되는 디아미나제를 이용한 DNA 이중 가닥 절단 방법 및 이를 이용한 핵산 서열 분석 방법에 의하여, BE3 비표적 사이트를 전체 유전체 시뭔싱 데이터를 사용하여 계산적으로 확인할 수 있다. 또한, 상기 방법에 의하여, BE3는 고도로 특이적이며, 인간 유전체에서 단지 18 ± 9 위치에서만 시토신- 우라실 전환을 유도함을 확인할 수 있다. 한편, 본 명세서에서 제공되는 D i genome-s eq ( d i ge s t ed-genome sequencing) 방법에 의한 디아미나제를 이용한 DNA 이중 가닥 절단 방법 및 이를 이용한 핵산 서열 분석 방법은 0. 1%의 치환 빈도로 BE3 비표적 사이트를 포착하기에 층분히 민감하다. 그 결과, BE3 및 Cas9의 비표적 부위는 많은 경우에 상이하여, 유전체 전반적인 특이성에 대한 독립적인 평가가 필요함을 알 수 있다.
우선, DNA에 이중 가닥 절단을 유발하지 않는 시토신 디아미나제를 이용하여 DNA에 이중 가닥 절단을 생성하는 기술이 제공된다.
일 예는 ( 1) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드, (2) 가이드 RNA, 및 (3) 우라실-특이적 제거 시약 (Uraci l-Speci f i c Exci sion Reagent; USER)을 포함하는, DNA 이중 가닥 절단 (double strand breaks ; DSBs)용 조성물을 제공한다. 상기 조성물은 시토신 디아미나제를 사용하여 DNA 이중 가닥 절단을 유도하는데 사용될 수 있다.
상기 시토신 디아미나제는 뉴클레오타이드에 존재하는 염기인 시토신 (예컨대, 2중 가닥 DNA 또는 RNA에 존재하는 시토신)을 우라실로 변환 (C-to-U conversion or Oto-U editing)시키는 활성을 갖는 모든 효소를 의미하는 것으로, 표적 부위의 서열 (표적 서열)의 PAM 서열이 존재하는 가닥에 위치하는 시토신을 우라실로 변환시킨다. 일 예에서, 상기 시토신 디아미나제는 인간, 원숭이 등의 영장류, 래트, 마우스 등의 설치류 등과 같은 포유류로부터 유래된 것일 수 있으나, 이에 제한되는 것은 아니다. 예컨대, 상기 시토신 디아미나제는
APOBEC ("apolipoprotein B mRNA editing enzyme , catalytic polypeptideᅳ like") 패밀리에 속하는 효소들 중에서 1종 이상 선택될 수 있으며, 예컨대, 다음으로 이루어진 군에서 1종 이상 선택될 수 있으나, 이에 제한되는 것은 아니다:
APOBECl: 인간 [Homo sapiens) APOBECl (단백질: GenBank Accession Nos. NP_001291495.1, NP_001635.2, NP_005880.2 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001304566.1, 醒 _001644.4, 匪 _005889.3 등), 마우스 Mus musculus) APOBECl (단백질: GenBank Accession Nos. NP_001127863.1, NP_112436.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. 匪 _001134391.1, NM_031159.3 등);
AP0BEC2: 인간 AP0BEC2 (단백질: GenBank Accession No.
NP_006780.1 등; 유전자: GenBank Accession No. 匪 _006789.3 등), 마우스 AP0BEC2 (단백질: GenBank Accession No. NP_033824.1 등; 유전자: GenBank Accession No. 丽_009694.3 등);
AP0BEC3B: 인간 AP0BEC3B (단백질: GenBank Accession Nos. NP_001257340.1, NP_004891.4 등; 유전자 (mRNA or cDNA, 이하 동일) (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. 匪 _001270411.1, NM_004900.4 등), 마우스 ( Ius musculus) AP0BEC3B (단백질: GenBank Accession Nos. NP_001153887.1, NP_001333970.1, NP_084531.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001160415.1, 匪ᅳ 001347041.1, 匪 _030255.3 등);
AP0BEC3C: 인간 AP0BEC3C (단백질: GenBank Accession No. NP_055323.2등; 유전자: GenBank Accession No. 匪 _014508.2등);
AP0BEC3D (including AP0BEC3E): 인간 AP0BEC3D (단백질: GenBank Accession No. NP_689639.2 등; 유전자: GenBank Accession No. 匪_152426.3등);
AP0BEC3F: 인간 AP0BEC3F (단백질: GenBank Accession Nos.
NP_660341.2, NP_001006667.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): 匪_145298.5, 丽_001006666.1등);
AP0BEC3G: 인간 AP0BEC3G (단백질: GenBank Accession Nos. NP_068594.1, NP_001336365.1, NP_001336366.1, NP_001336367.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): 丽 _021822.3, 丽 _001349436.1, 丽 _001349437.1, NM_001349438.1 등 );
AP0BEC3H: 인간 AP0BEC3H (단백질: GenBank Accession Nos. NP_001159474.2, NP_001159475.2, NP_001159476.2, NP_861438.3 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): 匪 _001166002.2, 丽_001166003.2, NM_001166004.2, NM_181773.4 등);
AP0BEC4 (including AP0BEC3E): 인간 AP0BEC4 (단백질: GenBank Accession No. NP_982279.1 등; 유전자: GenBank Accession No. NM_203454.2 등); 마우스 AP0BEC4 (단백질: GenBank Accession No. NP_001074666.1 등; 유전자: GenBank Accession No. 匪 _001081197.1 등);
Act i vat ion- induced cyt idine deaminase (AICDA 또는 AID): 인간
AID (단백질: GenBank Accession Nos. NP_001317272.1, NP_065712.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001330343.1, 匪ᅳ 020661.3 등); 마우스 AID (단백질: GenBank Accession No. NP_033775.1 등; 유전자:
GenBank Accession No. NM_009645.2 등) 등.
본 명세서에 사용된 바로서, 표적 특이적 뉴클레아제는, 유전자 가위 (progra誦 able nuclease)라고도 블리며, 목적하는 유전체 DNA 상의 특정 위치를 인식하여 절단할 수 있는 모든 형태의 엔도뉴클레아제를 통칭한다. 예컨대, 상기 표적 특이적 뉴클레아제는 표적 유전자의 특정 서열을 인식하고 뉴클레오티드 절단 활성을 가져 표적 유전자에서 인델
(insertion and/or deletion, Indel)을 야기할 수 있는 모든 뉴클레아제에서 선택된 1종 이상일 수 있다.
예컨대, 상기 표적 특이적 뉴클레아제는
유전체 상의 특정 표적 서열을 인식하는 도메인인 식물 병원성 유전자에서 유래한 TAL 작동자 (transcription activator-like effector) 도메인과 절단 도메인이 융합된 TALEN (transcription activator-like effector nuclease);
징크 -핑거 뉴클레아제 (zinc-finger nuclease);
메가뉴클러 15]·제 (meganuc lease);
미생물 면역체계인 CRISPR에서 유래한 RGEN (RNA-guided engineered nuclease; 예컨대, Cas9, Cpfl, 등);
아고 호몰로그 (Ago homo log, DNA-guided endonuc lease)
등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다.
일 구체예에서, 상기 표적 특이적 뉴클레아제는 Cas 단백질 (예컨대, Cas9 단백질 (CRISPR (Clustered regularly interspaced short pal indromic repeats) associated protein 9)), Cpfl 단백질 (CRISPR from Prevotel la and Franci sella 1) 등과 같은 타입 Π 및 /또는 타입 V의 CRISPR 시스템에 수반되는 엔도뉴클레아제로 이루어진 군에서 선택된 1종 이상일 수 있다. 이 경우, 상기 표적 특이적 뉴클레아제는 유전체 DNA의 표적 부위로 안내하기 위한 표적 DNA 특이적 가이드 RNA를 추가로 포함할 수 있다. 상기 가이드 RNA는 생체 외 (in vitro)에서 전사된 (transcribed) 것일 수 있고, 예컨대 올리고뉴클레오티드 이중가닥 또는 플라스미드 주형으로부터 전사된 것일 수 있으나, 이에 제한되지 않는다. 상기 표적 특이적 뉴클레아제는 가이드 RNA에 결합된 리보핵산-단백질 복합체를 형성 (RNA- Guided Engineered Nuclease)하여 리보핵산 단백질 (RNP) 형태로 작용할 수 있다.
Cas9 단백질은 CRISPR/Cas 시스템의 주요 단백질 구성 요소로, 활성화된 엔도뉴클레아제 또는 nickase를 형성할 수 있는 단백질이다.
Cas9 단백질 또는 유전자 정보는 NCBI (National Center for Biotechnology Informat ion)의 GenBank와 같은 공지의 데이터 베이스에서 얻을 수 있다. 예컨대, 상기 Cas9 단백질은
스트랩토코커스 sp. {Streptococcus sp.), 예컨대, 스트렙토코커스 피요젠스 Streptococcus pyogenes) 유래의 Cas9 단백질 (예컨대, SwissProt Accession number Q99ZW2(NP_269215.1) (암호화 유전자: 서열번호 229);
캄필로박터 속, 예컨대, 캄필로박터 제주니 {Campylobacter jejuni) 유래의 Cas9 단백질;
스트렙토코커스 속, 예컨대, 스트렙토코커스 써모필러스 {Streptococcus thermophi les) 또는 스트랩토코커스 아우레우스 {Streptocuccus aureus) 유래의 Cas9 단백질;
네이세리아 메닝기디티스 Neisseria meningitidis) 유래의 Cas9 단백질;
파스테우렐라 Pasteurella) 속, 예컨대, 파스테우텔라 물토시다 (Pasteurella multocida) 유래의 Cas9 단백질;
프란시셀라 iFrancisella) 속, 예컨대, 프란시셀라 노비시다 {Francisella novicida) 유래의 예컨대 Cas9 단백질
등으로 이루어진 군에서 선택된 하나 이상일 수 있으나, 이에 제한되는 것은 아니다.
Cpfl 단백질은 상기 CRISPR/Cas 시스템과는 구별되는 새로운 CRISPR 시스템의 엔도뉴클레아제로서, Cas9에 비해 상대적으로 크기가 작고 tracrRNA가 필요 없으며, 단일 가이드 RNA에 의해 작용할 수 있다. 또한, 티민 (thymine)이 풍부한 PAM (protospacer-adj acent motif) 서열을 인식하고 DNA의 이중 사슬을 잘라 점착종단 (cohesive end; cohesive double-strand break)을 생성한다.
예컨대, 상기 Cpfl 단백질은 캔디다투스 Candidatus) 속, 라치노스피라 {Lachnospira) 속, 뷰티리비브리오 Butyri vibrio) 속, 페레그리니박테리아 {Peregrini bacteria) , 액시도미노코쿠스
{Acidominococcus) 속, 포르파이로모나스 Porphyr圆 nas) 속, 프레보텔라 (Prevotella) 속, 프란시셀라 Francisel la) 속, 캔디다투스 메타노플라스마 (ᅳ Candidatus Methanoplasma) , 또는 유박테리움 {Eubacteriu ) 속 유래의 것일 수 있고, 예컨대, Parcubacteria bacterium (GWC2011_GWC2_44_17) , Lachnospiraceae bacterium (MC2017) , Butyrivibrio proteoclasi icus, Peregr ini bacter i a bacterium (GW2011_GWA_33_10) , Acidaminococcus sp . (BV3L6) , Porphyromonas macacae, Lachnospiraceae bacterium (ND2006) , Porphyromonas crevioricanis, Prevotel la disiens, Mo r axel la bovoculi (237) , Smiihella sp . (SC_K08D17) , Leptospira inadai , Lachnospiraceae bacterium (MA2020) , Franci sella novicida (U112) , Candidatus Methanoplasma ter itum, Candidatus Paceibacter , Eubacterium eligens 등의 미생물 유래의 것일 수 있으나, 이에 제한되는 것은 아니다 .
상기 표적 특이적 엔도뉴클레아제는 미생물에서 분리된 것 또는 재조합적 방법 또는 합성적 방법 등과 같이 인위적 또는 비자연적 생산된 것 (non-natural ly occurr ing)일 수 있다. 일 예에서, 상기 표적 특이적 엔도뉴클레아제 (예컨대, Cas9 , Cpf l , 등)은 재조합 DNA에 의하여 만들어진 재조합 단백질일 수 있다. 재조합 DAN(Recombinant DNA ; rDNA)는 다양한 유기체로부터 얻어진 이종 또는 동종 유전 물질을 포함하기 위하여 분자 클로닝과 같은 유전자 재조합 방법에 의하여 인공적으로 만들어진 DNA 분자를 의미한다. 예컨대, 재조합 DNA를 적절한 유기체에서 발현시켜 표적 특이적 엔도뉴클레아제를 생산 Un vivo 또는 in /iro)하는 경우, 재조합 DNA는 제조하고자 하는 단백질을 암호화 하는 코돈들 중에서 상기 유기체에 발현하기에 최적화된 코돈을 선택하여 재구성된 뉴클레오타이드 서열을 갖는 것일 수 있다.
상기 불활성화된 표적특이적 엔도뉴클레아제불활성화된 표적특이적 엔도뉴클레아제는 DNA 이중 가닥을 절단하는 엔도뉴클레아제 활성을 상실한 표적특이적 엔도뉴클레아제을 의미하는 것으로, 예컨대, 엔도뉴클레아제 활성을 상실하고 니케이즈 활성을 갖는 불활성화된 표적특이적 엔도뉴클레아제 및 엔도뉴클레아제 활성과 니케이즈 활성을 모두 상실한 불활성화된 표적특이적 엔도뉴클레아제 중에서 선택된 1종 이상일 수 있다. 상기 블활성화된 표적특이적 엔도뉴클레아제가 니케이즈 활성을 갖는 것인 경우, 상기 시토신이 우라실로 변환되는 것과 동시 또는 순서와 무관하게 순차적으로, 시토신이 우라실로 변환된 가닥 또는 그 반대 가닥 (예컨대 반대 가닥)에서 ni ck이 도입된다 (예컨대, PAM 서열의 5 ' 말단 방향으로 3번째 뉴클레오타이드와 4번째 뉴클레오타이드 사이에 ni ck이 도입됨) . 이와 같은 표저특이적 엔도뉴클레아제의 변형 (돌연변이)는 적어도 촉매 활성을 갖는 아스파르트산 잔기 (catalyt i c aspartate res i due ; 예컨대, 스트렙토코커스 피요젠스 유래 Cas9 단백질의 경우 10번째 위치의 아스파르트산 (D10) 잔기 등)가 임의의 다른 아미노산으로 치환된 Cas9의 돌연변이를 포함하는 것일 수 있으며, 상기 다른 아미노산은 알라닌 (al anine)일 수 있지만, 이에 제한되지 않는다. 본 명세서에 사용된 바로서, 상기 '다른 아미노산'은, 알라닌, 이소류신, 류신, 메티오닌, 페닐알라닌, 프를린, 트립토판, 발린, 아스파라긴산, 시스테인, 글루타민, 글리신, 세린, 트레오닌, 티로신, 아스파르트산, 글루탐산, 아르기닌, 히스티딘, 라이신, 상기 아미노산들의 공지된 모든 변형체 중에서, 야생형 단백질이 원래 변이 위치에 갖는 아미노산을 제외한 아미노산들 중에서 선택된 아미노산을 의미한다.
일 예에서, 상기 불활성화된 표적특이적 엔도뉴클레아제가 변형 Cas9 단백질인 경우, 변형 Cas9 단백질은 스트렙토코커스 피요젠스 { Streptococcus pyogenes) 유래의 Cas9 단백질 (예컨대, Swi ssProt Access i on number Q99ZW2(NP_269215. 1 ) )에 D10 위치에서의 돌연변이 (예컨대, 다른.아미노산으로의 치환) 가 도입되어 엔도뉴클레아제 활성이 상실되고 니케이즈 활성을 갖는 변형 Cas9 , 스트렙토코커스 피요젠스 { Streptococcus pyogenes) 유래의 Cas9 단백질에 D10 위치에서의 돌연변이 (예컨대, 다른 아미노산으로의 치환)와 H840 위치에 돌연변이 (예컨대, 다른 아미노산으로의 치환)가 모두 도입되어 엔도뉴클레아제 활성 및 니케이즈 활성을 모두 상실한 변형 Cas9 단백질 등으로 이루어진 군에서 선택된 1종 이상일 수 있다. 예컨대, 상기 CAs9 단백질의 D10 위치에서의 돌연변이는 D10A 돌연변이 (Cas9 단백질의 아미노산 중 10번째 아미노산인 D가 A로 치환된 돌연변이를 의미함; 이하, Cas9에 도입된 돌연변이는 동일한 방법으로 표기됨)일 수 있고, 상기 H840 위치에서의 돌연변이는 H840A 돌연변이일 수 있다.
상기 시토신 디아미나제와 불활성화된 표적특이적 엔도뉴클레아제는 직접 또는 펩타이드 링커를 통하여 서로 융합된 융합 단백질 (예컨대, N- 말단에서 C-말단 방향으로 시토신 디아미나제 -불활성화된 표적특이적 엔도뉴클레아제 순서로 위치하거나 (즉, 시토신 디아미나제의 C-말단에 불활성화된 표적특이적 엔도뉴클레아제가 융합됨), 불활성화된 표적특이적 엔도뉴클레아제-시토신 디아미나제 순서로 위치가 위치 (즉, 불활성화된 표적특이적 엔도뉴클레아제의 c-말단에 시토신 디아미나제가 융합됨)할 수 있음) 형태로 사용 (또는 상기 조성물에 포함)되거나 되거나, 정제된 시토신 디아미나제와 불활성화된 표적특이적 엔도뉴클레아제의 흔합물 형태로 사용 (또는 상기 조성물에 포함)되거나, 시토신 디아미나제 암호화 유전자와 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자가 모두 포함 (예컨대, 상기 두 유전자는 앞서 설명한 융합 단백질을 암호화하도록 포함됨)된 하나의 플라스미드 형태로 사용 (또는 상기 조성물에 포함)되거나, 시토신 디아미나제 암호화 유전자와 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 가 각각 별개의 플라스미드에 포함된 시토신 디아미나제 발현 플라스미드와 불활성화된 표적특이적 엔도뉴클레아제 발현 플라스미드의 흔합물 형태로 사용 (또는 상기 조성물에 포함)될 수 있다. 일 구체예에서는 N-말단에서 Cᅳ말단 방향으로 시토신 디아미나제 -블활성화된 표적특이적 엔도뉴클레아제 순서로 위치하는 융합 단백질, 또는 불활성화된 표적특이적 엔도뉴클레아제- 시토신 디아미나제 순서로 위치하는 융합 단백질, 또는 상기 융합 단백질을 암호화하도록 시토신 디아마나제 암호화 유전자와 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자가 하나의 플라스미드에 포함된 형태로 사용될 수 있다.
상기 플라스미드는 상기 시토신 디아미나제 암호화 유전자 및 /또는 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 삽입하고 이를 숙주세포 내에서 발현시킬 수 있는 발현 시스템을 포함하는 모든 플라스미드일 수 있다. 상기 플라스미드는 목적 유전자 발현을 위한 요소 (elements)를 포함하는 것으로, 복제원점 (repl icat ion or igin) , 프로모터, 작동 유전자 (operator) , 전사 종결 서열 (terminator ) 등을 포함할 수 있고, 숙주 세포의 게놈 내로의 도입을 위한 적절한 효소 부위 (예컨대, 제한 효소 부위) 및 /또는 임의로 숙주 세포 내로의 성공적인 도입을 확인하기 위한 선별 마커 및 /또는 단백질로의 번역을 위한 리보좀 결합 부위 (ribosome binding site ; RBS) 및 /또는 전자 조절 인자 등을 추가로 포함할 수 있다. 상기 플라스미드는 당업계에서 사용되는 플라스미드, 예컨대, pcDNA 시리즈, pSClOl , PGV1106, pACYC177, ColEl , pKT230, pME290, pBR322 , PUC8/9 , pUC6 , pBD9, pHC79 , PIJ61 , pLAFRl , PHV14, pGEX 시리즈, pET 시리즈, pUC19 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다. 상기 숙주세포는 상기 시토신 디아미나제에 의하여 염기 교정 또는 이중 가닥 절단을 도입하고자 하는 세포 (예컨대, 인간 세포 등과 같은 포유류 세포를 포함하는 진핵 세포) 또는 상기 시토신 디아미나제 암호화 유전자 및 /또는 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 발현하여 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 발현할 수 있는 모든 세포 (예컨대, E. coli 등) 들 중에서 선택될 수 있다.
상기 가이드 RNA 는 상기 시토신 디아미나제와 불활성화된 표적특이적 엔도뉴클레아제의 흔합물 또는 융합 단백질을 표적 부위로 안내하는 역할을 하는 것으로, CRISPR RNA (crRNA), irayjs-activating crRNA (tracrRNA), 및 단일 가이드 RNA (single guide RNA; sgRNA)로 이루어진 군에서 선택된 1 종 이상일 수 있으며, 구체적으로 crRNA 와 tracrRNA 가 서로 결합된 이중 가닥 crRNA: tracrRNA 복합체, 또는 crRNA 또는 그 일부와 tracrRNA 또는 그 일부가 올리고뉴클레오타이드 링커로 연결된 단일 가닥 가이드 RNA (sgRNA)일 수 있다.
상기 가이드 RNA 의 구체적 서열은 사용된 표적특이적 엔도뉴클레아제 의 종류 또는 그 유래 미생물 등에 따라서 적절히 선택할 수 있으며, 이는 이 발명이 속하는 기술 분야의 통상의 지식을 가진 자가 용이하게 알 수 있는 사항이다.
표적특이적 엔도뉴클레아제로서 Streptococcus pyogenes 유래의 Cas9 단백질을 사용하는 경우, crRNA 는 다음의 일반식 1 로 표현될 수 있다:
5'_(Ncas9)厂 (GUUUUAGAGCUA)-(Xcas9)m— 3' (일반식 1)
상기 일반식 1에서,
Ncas9 는 표적화 서열, 즉 표적 유전자 (target gene)의 표적 부위 (target site)의 서열에 따라서 결정되는 부위 (즉, 표적 부위의 서열과 흔성화 가능한 서열임)이며, 1 은 상기 표적화 서열에 포함된 뉴클레오타이드 수를 나타내는 것으로 17 내지 23 또는 18 내지 22의 정수, 예컨대 20일 수 있고; 상기 표적 서열의 3 ' 방향으로 인접하여 위치하는 연속하는 12 개의 뉴클레오타이드 (GUUUUAGAGCUA ; 서열번호 230)를 포함하는 부위는 crRNA 의 필수적 부분이고,
Xcas9는 crRNA 의 3 ' 말단쪽에 위치하는 (즉, 상기 crRNA 의 필수적 부분의 3 ' 방향으로 인접하여 위치하는) m개의 뉴클레오타이드를 포함하는 부위로, m 은 8 내지 12 의 정수, 예컨대 11 일 수 있으며, 상기 m 개의 뉴클레오타이드들은 서로 같거나 다를 수 있으며, 각각 독립적으로 A , U , C 및 G로 이루어진 군에서 선택될 수 있다.
일 예에서, 상기 Xcas9 는 UGCUGUUUUG (서열번호 231)를 포함할 수 있으나 이에 제한되지 않는다.
또한, 상기 tracrRNA는 다음의 일반식 2로 표현될 수 있다:
5 一 (Ycas9 )p—
(UAGC GTOAAMU OiCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC)-3 ' (일반식 2)
상기 일반식 2에서,
60 개의 뉴클레오타이드
(UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC ;
서열번호 232)로 표시된 부위는 tracrRNA의 필수적 부분이고,
Ycas9 는 상기 tracrRNA 의 필수적 부분의 5 ' 말단에 인접하여 위치하는 p 개의 뉴클레오타이드를 i함하는 부위로, p 는 6 내지 20 의 정수, 예컨대 8 내지 19 의 정수일 수 있으며, 상기 p 개의 뉴클레오타이드들은 서로 같거나 다를 수 있고, A , U, C 및 G 로 이루어진 군에서 각각 독립적으로 선택될 수 있다.
또한, sgRNA 는 상기 crRNA 의 표적화 서열과 필수적 부위를 포함하는 crRNA 부분과 상기 t racrRNA 의 필수적 부분 (60 개 뉴클레오타이드)를 포함하는 tracrRNA 부분이 올리고뉴클레오타이드 링커를 통하여 헤어핀 구조 ( stem- loop 구조)를 형성하는 것일 수 있다 (이 때, 을리고뉴클레오타이드 링커가 루프 구조에 해당함) . 보다 구체적으로, 상기 sgRNA 는 crRNA 의 표적화 서열과 필수적 부분을 포함하는 crRNA 부분과 tracrRNA 의 필수적 부분을 포함하는 tracrRNA 부분이 서로 결합된 이중 가닥 RNA 분자에서, crRNA 부위의 3 ' 말단과 tracrRNA 부위의 5' 말단이 올리고뉴클레오타이드 링커를 통하여 연결된 헤어핀 구조를 갖는 것일 수 있다.
일 예에서, sgRNA는 다음의 일반식 3으로 표현될 수 있다:
5 ' - (Ncas9 )厂 (GUUUUAGAGCUA) - (올리고뉴클레오타이드 링커)― (UAGC GUUAA U GGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC)-3 '
(일반식 3)
상기 일반식 3에서, ( ^ 는 표적화 서열로서 앞서 일반식 1에서 설명한 바와 같다.
상기 sgRNA 에 포함되는 올리고뉴클레오타이드 링커는 3 내지 5 개, 예컨대 4 개의 뉴클레오타이드를 포함하는 것일 수 있으며, 상기 뉴클레오타이드들은 서로 같거나 다를 수 있고, A, ,U, C 및 G 로 이루어진 군에서 각각 독립적으로 선택될 수 있다.
상기 crRNA 또는 sgRNA 는 5' 말단 (즉, crRNA 의 타겟팅 서열 부위의 5' 말단)에 1 내지 3개의 구아닌 (G)을 추가로 포함할 수 있다. 상기 tracrRNA 또는 sgRNA 는 tracrRNA 의 필수적 부분 (60nt)의 3' 말단에 5 개 내지 7개의 우라실 (U)을 포함하는 종결부위를 추가로 포함할 수 있다.
상기 가이드 RNA 의 표적 서열은 표적 DNA 상의 PAM (Protospacer Adjacent Motif 서열 (5. pyogenes Cas9 의 경우, 5'-NGG-3' (N은 A, T, G, 또는 C 임))의 5'에 인접하여 위치하는 약 17 개 내지 약 23 개 또는 약 18개 내지 약 22개, 예컨대 20개의 연속하는 핵산 서열일 수 있다.
상기 가이드 RNA 의 표적 서열과 흔성화 가능한 가이드 RNA 의 표적화 서열은 상기 표적 서열이 위치하는 DNA 가닥 (즉, PAM 서열 (5'- NGG-31 (N 은 A, T, G, 또는 C 임)이 위치하는 DNA 가닥)의 상보적인 가닥의 뉴클레오타이드 서열과 50% 이상, 60% 이상, 70% 이상, 80% 이상, 90% 이상, 95% 이상, 99% 이상, 또는 10OT의 서열 상보성을 갖는 뉴클레오타이드 서열을 의미하는 것으로, 상기 상보적 가닥의 뉴클레오타이드 서열과 상보적 결합이 가능하다.
본 명세서에서, 표적 부위의 핵산 서열은 표적 유전자의 해당 유전자 부위의 두 개의 DNA 가닥 중 PAM 서열이 위치하는 가닥의 핵산 서열로 표시된다. 이 때, 실제로 가이드 RNA 가 결합하는 DNA 가닥은 PAM 서열이 위치하는 가닥의 상보적 가닥이므로, 상기 가이드 RNA 에 포함된 표적화 서열은, RNA 특성상 T 를 U 로 변경하는 것을 제외하고, 표적 부위의 서열과 동일한 핵산 서열을 갖게 된다. 따라서, 본 명세서에서, 가이드 RNA의 표적화 서열과 표적 부위의 서열 (또는 절단 부위의 서열)은 T와 U가 상호 변경되는 것을 제외하고 동일한 핵산 서열로 표시된다.
상기 가이드 RNA는 RNA 형태로 사용 (또는 상기 조성물에 포함)되거나, 이를 암호화하는 DNA를 포함하는 플라스미드 형태로 사용 (또는 상기 조성물에 포함)될 수 있다.
상기 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)은 상기 시토신 디아미나제에 의하여 시토신로부터 변환된 우라실을 제거하고, 및 /또는 상기 우라실이 제거된 위치에 DNA 절단을 도입하는 역할을 하는 모든 물질을 포함할 수 있다.
일 예에서, 상기 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)은 우라실 DNA 글라이코실라제 (Uracil DNA glycosylase; UDG), 엔도뉴클레아제 VIII, 및 이들의 조합을 포함한다. 일 예에서, 상기 우라실-특이적 제거 시약은 엔도뉴클레아제 VIII 또는 우라실 DNA 글라이코실라제와 엔도뉴클레아제 VI II의 조합을 포함하는 것일 수 있다.
우라실 DNA 글라이코실라제 (Uracil DNA glycosylase; UDG)는 DNA에 존재하는 우라실 (U)을 제거하여 DNA의 mutagenesis를 방지하는 작용을 하는 효소로서, 우라실의 N-glycosylic bond을 절단함으로써 base- excision repair (BER) pathway를 개시하도록 하는 역할을 하는 모든 효소들 중에서 1종 이상 선택될 수 있다. 예컨대, 상기 우라실 DNA 글라이코실라제는 Escherichia coli 우라실 DNA 글라이코실라제 (예컨대, GenBank Accession Nos. ADX49788.1, ACT28166.1, EFN36865.1, BAA10923.1, ACA76764.1, ACX38762.1, EFU59768.1, EFU53885.1, EFJ57281.1, EFU47398.1, EFK71412.1, EFJ92376.1, EFJ79936.1, EF059084.1, EFK47562.1, KXH01728.1, ESE25979.1, ESD99489.1, ESD73882.1, ESD69341.1 등), 인간 우라실 DNA 글라이코실라제 (예컨대, GenBank Accession Nos. NP_003353.1, NP_550433.1 등), 마우스 우라실 DNA 글라이코실라제 (예컨대, GenBank Accession Nos. NP_001035781.1, NP_035807.2 등) 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다.
상기 엔도뉴클레아제 VI II는 상기 우라실이 제거된 뉴클레오타이드를 제거하는 역할을 하는 것으로, 상기 우라실 DNA 글라이코실라제에 의하여 손상된 우라실을 이중 가닥 DNA로부터 제거하는 N-glycosylase 활성과 상기 손상된 우라실 제거로부터 발생한 apurinic site (AP site)의 3' 및 51 말단을 절단하는 AP-lyase 활성을 모두 갖는 모든 효소들 중에서 1종 이상 선택될 수 있다. 예컨대, 상기 엔도뉴클레아제 VIII는 인간 엔도뉴클레아제 VIII (예컨대, GenBank Accession Nos. BAC06476.1, NP_001339449.1, NP_001243481.1, NP_078884.2 NP_001339448.1 등), 마우스 엔도뉴클레아제 VIII (예컨대, GenBank Accession Nos. BAC06477.1 , ΝΡ— 082623.1 등), Escherichia coli 엔도뉴클레아제 VIII (예컨대, GenBank Accession Nos. 0BZ49008.1, 0BZ43214.1, 0BZ42025.1, ANJ41661.1, KYL40995.1, KMV55034.1, KMV53379.1, KMV50038.1, KMV40847.1, AQW72152.1 등) 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다.
다른 예에서, 불활성화된 표적특이적 엔도뉴클레아제로서 스트렙토코커스 피요젠스 ᅳ Streptococcus pyogenes) 유래의 Cas9 단백질에 D10A 돌연변이와 H840A 돌연변이가 모두 도입된 변형 Cas9 단백질과 같이 엔도뉴클레아제 활성뿐 아니라 니케이즈 활성도 상실된 불활성화된 표적특이적 엔도뉴클레아제를 사용하는 경우, 이중 가닥 절단을 위하여, 한쪽 가닥의 우라실이 제거되어 단일 가닥으로 존재하는 DNA 의 단일 가닥 부위를 특이적으로 분해 (단일 가닥 부위의 양 말단의 포스포다이에스테르 결합을 절단)하는 엔도뉴클레아제를 추가로 포함할 수 있다. 상기 DNA 의 단일 가닥 부위를 특이적으로 분해하는 엔도뉴클레아제는 S1 뉴클레아제 {Aspergi 1 lus oryzae유래; 여】컨대, Catalog number M5791 (Promega) 등), 녹두 뉴클레아제 (Mung bean nuclease) 등으로 이루어진 군에서 선택된 1종 이상일 수 있다.
이와 같은 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제 및 우라실-특이적 제거 시약의 처리에 의하여 시토신 디아미나제에 의하여 시토신에서 우라실로 염기 변환 (염기 교정)이 일어난 부위에 이중 가닥 절단이 생성된다 (도 4a 참조). 이와 같이 생성된 DNA 절단 단편은 서로 연장된 말단 (staggered end)를 갖는다. 그 후, 임의로 end repair 과정이 일어날 수 있으며, 이에 의하여 blunted ended DNA 단편 (이중 가닥)이 생성될 수 있다 (도 4a 참조). 다른 예는,
(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA 와 함께 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계 ; 및
(ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하는 단계
를 포함하는, 시토신 디아미나제를 사용하여 DNA 에 이중 가닥 절단
(double strand break)를 생성하는 방법을 제공한다.
이와 같이 시토신 디아미나제를 사용하여 DNA 에 이중 가닥 절단을 생성 (또는 도입)함으로써, 유전체 DNA 또는 DNA 의 표적 부위에서 시토신 디아미나제에 의하여 염기 교정 (base editing, 즉 C 에서 U 로의 변환)이 일어난 위치, 시토신 디아미나제의 염기 교정 효율 등을 분석할 수 있으며, 이를 통하여, 시토신 디아미나제의 on-target 부위에서의 염기 교정 효율, on-target 서열에 대한 특이성, off— target 서열 등을 확인 (또는 측정)할 수 있다.
다른 예는,
(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA 와 함께 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계 ;
(ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계 ; 및
(iii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계
를 포함하는, 시토신 디아미나제에 의하여 염기 교정 (base editing)이 도입된 DNA의 핵산 서열 분석 방법을 제공한다.
다른 예는, (i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레.아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA 와 함께 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계 ;
(ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계 ;
(iii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계; 및
(iv) 상기 분석에 의여 수득된 핵산 서열 데이터에서 상기 이증 가닥 절단 위치를 확인하는 단계
를 포함하는, 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (0ff-target site), 및 /또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법을 제공한다.
상기 시토신 디아미나제, 불활성화된 표적특이적 엔도뉴클레아제, 플라스미드, 가이드 RNA 및 우라실-특이적 제거 시약은 앞서 설명한 바와 같다.
상기 방법은 세포 내 또는 시험관 내 (in vitro)에서 수행되는 것일 수 있으며, 예컨대 시험관 내에서 수행되는 것일 수 있다. 보다 구체적으로, 상기 방법의 모든 단계가 시험관 내 (in vitro)에서 수행되거나, 상기 단계 (i)은 세포 내에서 수행되고, 상기 단계 (ii) 이후 단계는 상기 단계 (0이 수행된 세포에서 추출된 DNA (예컨대, 유전체 DNA)를 사용하여 시험관 내 (in vitro)에서 수행되는 것일 수 있다.
상기 단계 (i)은 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제 (또는 이들의 암호화 유전자)와 가이드 RNA 를 세포에 형질감염시키거나, 또는 상기 세포로부터 추출된 DNA 에 접촉 (예컨대, 함께 배양)시켜, 가이드 RNA 에 의하여 표적화되는 표적 부위 내에서 시토신에서 우라실로의 변환 및 DNA nick 발생을 유도하는 단계이다. 상기 세포는 시토신 디아미나제에 의한 염기 교정을 도입하고자 하는 모든 진핵 세포들 중에서 선택된 것일 수 있으며, 예컨대, 인간 세포를 포함하는 포유 동물 세포들 중에서 선택될 수 있다. 상기 형질감염은 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 암호화하는 유전자를 포함하는 플라시미드를 통상적인 모든 수단에 의하여 세포에 도입시킴으로써 수행될 수 있으며, 예컨대, 상기 플라스미드의 세포로의 도입은 전기천공 (electroporation), 리포펙션 등에 의하여 수행될 수 있으나 이에 제한되는 것은 아니다.
일 구체예에서, 상기 단계 (i)은 상기 세포 (시토신 디아미나제에 의한 염기 교정 (염기 교정 위치, 염기 교정 효율 등)을 확인하고자 하는 세포)로부터 추출된 DNA 를 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제 (예컨대, 시토신 디아미나제 및 블활성화된 표적특이적 엔도뉴클레아제를 포함하는 융합 단백질) 및 가이드 RNA 와 함께 배양함으로써 수행될 수 있다 Un vitro). 상기 세포로부터 추출된 DNA는 유전체 DNA (genome DNA) 또는 표적 유전자 또는 표적 부위를 포함하는 PC (polymerase chain reaction) 증폭 산물일 수 있다.
상기 단계 (ii)는 상기 단계 (i)에서 우라실로 변형된 염기를 제거하여 DNA 이중 가닥 절단을 생성하는 단계이다. 보다 구체적으로, 상기 단계 (ii)는 상기 단계 (i)에서 얻어진 반웅물에 우라실 DNA 글라이코실라제 (Uracil DNA glycosylase; UDG), 엔도뉴클레아제 VIII, 및 이들의 조합을 처리 (접촉)하는 단계에 의하여 수행될 수 있다. 우라실 DNA 글라이코실라제와 엔도뉴클레아제 VIII를 모두 처리 (접촉)하는 경우, 동시에 처리하거나 순서에 무관하게 순차적으로 처리할 수 있다. 상기 처리 (접촉)하는 단계는 상기 단계 (i)에서 얻어진 반웅물을 우라실 DNA 글라이코실라제 및 /또는 엔도뉴클레아제 VIII 와 함께 배양하는 단계에 의하여 수행될 수 있다.
상기 단계 (ii)의 반응물은, 상기 단계 (i)이 세포 내에서 수행된 경우 (즉 세포를 형질감염시켜 수행된 경우), 상기 형질감염된 세포로부터 분리된 DNA 를 포함하는 것일 수 있고, 상기 단계 (i)이 세포로부터 추출 (분리)된 DNA 에 대하여 시험관 내 (in vitro) 수행된 것인 경우, 상기 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제 및 가이드 RNA 처리된 분리된 DNA를 포함하는 것일 수 있다.
다른 예에서, 상기 단계 (i)에서 불활성화된 표적특이적 엔도뉴클레아제로서 스트렙토코커스 피요젠스 {Streptococcus pyogenes) 유래의 Cas9 단백질에 D10A 돌연변이와 H840A 돌연변이가 모두 도입된 불활성화된 표적특이적 엔도뉴클레아제를 사용하는 경우, 상기 불활성화된 표적특이적 엔도뉴클레아제는 엔도뉴클레아제 활성뿐 아니라 니케이즈 활성도 상실하였으므로, 이중 가닥 절단을 위하여, 상기 단계 (ii) 이후 및 단계 (Hi) 이전에, 한쪽 가닥의 우라실이 제거되어 단일 가닥으로 존재하는 DNA 의 단일 가닥 부위를 특이적으로 분해 (단일 가닥 부위의 양 말단을 절단)하는 엔도뉴클레아제를 처리하는 단계 (단계 (ii-1))를 추가로 포함할 수 있다 (도 22의 a 참조). 상기 DNA의 단일 가닥 부위를 특이적으로 분해하는 엔도뉴클레아제는 S1 뉴클레아제일 수 있으나 이에 제한되는 것은 아니다.
임의로, 상기 단계 (i) 수행 (또는 완료) 후 단계 (ii) 수행 전에, 단계 (i)에서 사용된 시토신 디아미나제, 불활성화된 표적특이적 엔도뉴클레아제 , 및 /또는 가이드 RNA를 제거하는 단계를 추가로 포함할 수 있다.
상기 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제는 가이드 RNA 와 함께 사용되어 서열 특이성 (specificity)을 가지므로 대부분 표적 위치 (on-target)에 작용하지만, 표적 서열 이외의 부위에 표적 서열과 유사한 서열이. 어느 정도 존재하는지에 따라 비표적 위치 (off-target site)에 작용하는 부작용이 발생할 수도 있다. 본 명세서에서, 비표적 위치 (off-target site)라 함은 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제의 표적 부위는 아니지만 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 활성을 가지는 위치를 말한다. 즉, 표적 위치 이외의, 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 의해 염기 교정 및 /또는' 절단되는 위치를 말한다. 일 예에서, 상기 비표적 위치는 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 대한 실제 비표적 위치뿐만 아니라 비표적 위치가 될 가능성이 있는 위치까지 포함하는 개념으로 사용될 수 있다. 상기 비표적 위치는 이에 제한되는 것은 아니나, 시험관 내 Un r/ ro)에서 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 의해 절단되는 표적 위치 이외의 모든 위치를 의미할 수 있다.
시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 표적 위치 이외의 위치에서도 활성을 가지는 것은 다양한 원인에 의해 야기될 수 있다. 예컨대, 표적 부위에 대하여 설계된 표적 서열과 뉴클레오타이드 불일치 (mi smatch) 수준이 낮아서, 표적 서열과 서열 상동성이 높은 표적 서열 이외의 서열 (비표적 서열)의 경우 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 작동할 가능성이 있다. 상기 비표적 서열은 이에 제한되는 것은 아니나, 표적 서열과 1 개 내지 6개, 1개 내지 5개, 1개 내지 4개, 1개 내지 3개, 1개 내지 2개, 또는 1 개의 뉴클레오타이드 불일치 (mi smatch)를 가지는 서열 (유전자 부위)일 수 있다.
불일치 서열에서 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 작동하는 경우 유전체 내에서 원치 않는 유전자의 돌연변이를 야기할 수 있어 심각한 문제가 야기될 수 있다. 이에, 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제의 표적 위치에서의 활성 못지 않게 비표적 서열을 정확히 검출하여 분석하는 과정 또한 매우 중요할 수 있으며, 이는 비표적 효과 없이 표적 위치에만 특이적으로 작동하는 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 개발하는데 유용하게 사용될 수 있을 것이다.
본 발명의 목적상 상기 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제는 생체 내 in vivo) 및 시험관 내 { in 에서 활성을 가질 수 있으므로, 시험관 내에서 DNA (예컨대, 유전체 DNA)의 비표적 위치를 검출하는데 사용될 수 있으며, 이를 생체 내에서 적용하였을 때 상기 검출된 비표적 위치 (비표적 서열을 포함하는 유전자상 위치 (부위) )와 동일한 위치에도 활성을 가질 것을 예상할 수 있다.
상기 단계 ( i i i )는 상기 단계 ( Π )에서 절단된 DNA 절편의 핵산 서열을 분석하는 단계로서, 통상적인 모든 핵산 서열 분석 방법에 의하여 수행될 수 있다. 예컨대, 상기 단계 ( i )에서 사용된 분리된 DNA가 유전체 DNA 인 경우, 상기 핵산 서열 분석은 전체 유전체 시퀀싱 (whole genome sequencing)에 의하여 수행될 수 있다. 전체 유전체 시뭔싱을 수행하는 경우, 표적 부위의 서열과 상동성을 가지는 서열을 찾아 비표적 위치일 것으로 예측하는 간접적인 방법과 달리 전체 유전체 수준에서 실질적으로 표적 특이적 뉴클레아제에 의해 절단되는 비표적 위치를 검출할 수 있으므로, 보다 정확하게 비표적 위치를 검출할 수 있다. 본 명세서에 사용된 바로서, "전체 유전체 시퀀싱 (whole genome sequencing; WGS)"은'차세대 시¾싱 (next generation sequencing)에 의한 전장 유전체 시뭔싱을 10 X, 20 X, 40 X 형식으로 여러 배수로 유전체를 읽는 방법을 의미한다. "차세대 시뭔싱' '은 칩 (Chip) 기반 및 PCR 기반 페어드엔드 (paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 화학적인 반웅 (hybridization)에 기초하여 초고속으로 시뭔싱을 수행하는 기술을 의미한다.
상기 단계 (iv)는 상기 단계 (iii)에서 수득한 염기서열 데이터 (sequence read)에서 DNA가 절단된 위치를 확인 (또는 결정)하는 단계로서 시뭔싱 데이터를 분석하여 표적 위치 (on-target site)와 비표적 위치 (off— target site)를 간편하게 검출할 수 있다. 상기 염기서열 데이터로부터 DNA 가 절단된 특정 위치를 결정하는 것은 다양한 접근 방법으로 수행될 수 있으며, 본 명세서에서는 상기 위치를 결정하기 위한 여러 가지의 합리적인 방법들을 제공한다. 그러나 이는 본 발명의 기술적 사상에 포함되는 예시에 불과하며, 본 발명의 범위가 이들 방법에 의해 제한되는 것은 아니다.
예컨대, 상기 절단된 위치를 결정하기 위한 일례로서, 전체 유전체 시뭔싱을 통해 수득한 염기서열 데이터를 유전체 상의 위치에 따라 정렬하였을 경우, 5' 말단이 수직 정렬된 위치가 DNA 가 절단된 위치를 의미할 수 있다. 상기 염기서열 데이터를 유전체 상의 위치에 따라 정렬하는 단계는 분석 프로그램 (예를 들어, BWA/GATK 또는 ISAAC 등)을 이용하여 수행할 수 있다. 본 명세서에 사용된 바로서, 상기 용어 "수직 정렬"이란, BWA/GATK 또는 ISAAC 등의 프로그램으로 전체 유전체 시뭔싱 결과를 분석할 때, 인접한 왓슨 가닥 (Watson strand)과 크릭 가닥 (Crick strand) 각각에 대해, 2 개 이상의 염기서열 데이터의 5' 말단이 유전체 상의 동일한 위치 (nucleotide position)에서 시작되는 배열을 말한다. 이로 인하여, 상기 단계 (ii)에서 절단되어 동일한 5' 말단을 갖게 되는 DNA 단편들이 각각 시퀀싱되어 나타나게 된다.
즉, 상기 단계 (ii)에서의 절단이 표적 위치 및 비표적 위치에서 일어나는. 경우, 염기서열 데이터를 정렬하게 되면 공통적으로 절단된 부위는 각각 그 위치가 5' 말단으로 시작되므로 수직 정렬되나, 절단되지 않은 부위에는 5' 말단이 존재하지 않으므로 정렬 시 스태거드 (staggered) 방식으로 배열될 수 있다. 따라서, 수직 정렬된 위치를 상기 단계 ( i i )에서 절단된 부위로 볼 수 있으며, 이는 곧 시티딘 디아미나제 및 블활성화된 표적특이적 엔도뉴클레아제의 표적 위치 또는 비표적 위치를 의미하는 것일 수 있다.
상기 "정렬' '은 표준 염기서열 (reference genome)로 염기서열 데이터를 맵핑한 뒤, 유전체에서 동일 위치를 가지는 염기들을 각 위치에 맞게 배열하는 것을 의미한다. 따라서, 염기서열 데이터를 상기와 같은 방식으로 정렬할 수 있다면 어떠한 컴퓨터 프로그램도 이용될 수 있으며, 이는 당업계에 이미 알려진 공지의 프로그램이거나 또는 목적에 맞게 제작된 프로그램들 중에서 선택될 수 있다. 일 실시예에서는 ISAAC를 이용하여 정렬을 수행하였으나, 이에 제한되는 것은 아니다.
정렬 결과, 상기 설명한 바와 같은 5 ' 말단이 수직 정렬된 위치를 찾는 등의 방법을 통해 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 의해 DNA가 절단된 위치를 결정할 수 있고, 상기 절단된 위치가 표적 위치 (on-target si te)가 아니라면, 비표적 위치 (of f-target s i te)로 판단할 수 있다. 다시 말해, 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제의 표적 위치로 설계한 염기 서열과 동일한 서열은 표적 위치이고, 상기 염기 서열과 동일하지 않은 서열은 비표적 위치로 볼 수 있다. 이는 상기 기술한 비표적 위치의 정의상 자명한 것이다. 상기 비표적 위치는 특히, 표적 위치의 서열과 상동성을 가지는 서열로 구성된 것일 수 있고, 구체적으로 표적 위치와 1 개 이상의 뉴클레오타이드 불일치 (mi smatch)를 가지는 서열, 더욱 구체적으로 표적 위치 (표적 서열)와 1 개 내지 6 개, 1 개 내지 5 개, 1 개 내지 4 개, 1 개 내지 3 개, 1 개 내지 2 개, 또는 1 개 1 내지 6 개의 뉴클레오타이드 불일치를 가지는 것일 수 있으나, 이에 특별히 제한되는 것은 아니고 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 절단할 수 있는 위치라면 본 발명의 범위에 포함될 수 있다.
다른 예에서, 5 ' 말단이 수직 정렬된 위치를 찾는 방법 이외에도, 5 ' 말단 플롯에서 이중 피크 패턴을 보이는 경우 그 위치가 표적 위치가 아니라면 비표적 위치로 판단할 수 있다. 유전체 DNA 내의 각 위치에 대하여 동일한 염기의 5 ' 말단을 구성하고 있는 뉴클레오타이드 수를 세어 그래프를 그릴 경우, 특정 위치에서 이중 피크 패턴이 나타나게 되는데, 상기 이중 피크는 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 의해 절단된 이중 가닥의 각각의 가닥에 의해 나타나는 것이기 때문이다.
따라서, 상기 비표적 위치 확인 방법은, 상기 단계 (iv) 이후에, 상기 절단된 위치가 표적 위치 (on-target site)가 아닌 경우, 비표적 위치 (off-target site)로 판단하는 단계를 추가로 포함할 수 있다.
일 실시예에서, 유전체 DNA 에 대하여 상기 단계 (i) 및 (ii)를 수행하여 이중 가닥 절단한 뒤, 전체 유전체 분석 (단계 (iii)) 수행 후, 이를 ISAAC 로 정렬하여 절단된 위치에서는 수직 정렬, 절단되지 않은 위치에서는 스태거드 방식으로 정렬되는 패턴을 확인하여, 이를 5' 말단 플롯으로 나타내었을 때 절단 부위에서 이중 피크의 독특한 패턴이 나타날 수 있다.
나아가 이에 제한되는 것은 아니나, 구체적인 일례로 왓슨 가닥 (Watson strand)과 크릭 가닥 (Crick strand)에 해당하는 염기서열 데이터 (sequence read)가 각각 두 개 이상씩 수직으로 정렬되는 위치를 비표적 위치인 것으로 판단할 수 있고, 또한 20 % 이상의 염기서열 데이터가 수직으로 정렬되고, 각각의 왓슨 가닥 및 크릭 가닥에서 동일한 5' 말단을 가진 염기서열 데이터의 수가 10 이상인 위치가 비표적 위치, 즉 절단되는 위치인 것으로 판단할 수 있다.
상기한 방법은 단계 (iii) 및 (iv)의 과정은 Digenome-seq
(digested-genome sequencing 일 수 있으며, 보다 구체적인 내용은 한국 특허공개 제 10-2016-0058703 호에 기재되어 있다 (상기 문헌은 본 발명에 참조로서 포함된다).
앞서 설명한 방법에 의하여, 시토신 디아미나제의 염기 교정 위치 (즉, 이중 가닥 절단 위치), on— target 부위에서의 염기 교정 효율 또는 표적 특이성 (즉, on-target 부위에서의 염기 교정 빈도 /전체 염기 교정 빈도), 및 /또는 비표적 위치 (off-target site; 시토신 디아미나제의 염기 교정 위치로 확인된 위치 중 on-target 위치가 아닌 위치)를 확인 (또는 측정 또는 검출)할 수 있다.
상기 비표적 위치 확인 (검출)은 시험관 내 Un 에서 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 유전체 DNA 에 처리하여 수행될 수 있다. 이에 상기 방법을 통해 확인 (검출)된 비표적 위치에 대하여 실질적으로 생체 내 in wVo)에서도 비표적 효과가 나타나는지 확인해볼 수 있다. 다만 이는 추가적인 검증 과정에 불과하므로 본 발명의 범위에 필수적으로 수반되는 단계는 아니며, 필요에 따라 추가적으로 수행될 수 있는 단계에 불과하다.
본 명세서에 사용된 바로서, 용어 "비표적 효과 (off-target effect)"는 비표적 위치 (off-target site)에서 염기 교정 및 /또는 이중 가닥 절단이 일어나는 수준을 의미하기 위한 것일 수 있다. 용어 "인델 (Insertion and/or deletion; Indel)' '은 DNA 의 염기 배열에서 일부 염기가 중간에 삽입되거나 (insertion) 및 /또는 결실된 (deletion) 변이를 총칭한다.
다른 예에서, 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (0ff-target site), 및 /또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법은 상기 설명한 Digenome-seq 방법 이외의 방법으로 수행할 수 있다.
예컨대, 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (0ff-target site), 및 /또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법욘 circle-seq 방법에 의할 수 있으며, 구체적으로, 다음의 단계를 포함할 수 있다 (도 20a 참조):
(i) 세포로부터 추출된 유전체 DNA를 단편화 및 원형화시키는 단계
(ii) 상기 원형화된 DNA 절편에 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 처리한 후, 우라실-특이적 제거 시약
(Uracil-Specific Excision Reagent; USER)을 처리하여 원형화된 DNA 절편에 이중 가닥 절단을 생성하는 단계; 및
(iii) 상기 이중 가닥 절단이 생성된 DNA 절편을 이용하여 라이브러리를 구축하고, 차세대 유전체 시퀀싱 (NGS)을 수행하는 단계
를 포함할 수 있다. 상기 단계 (ii)의 시토신 디아미나제 및 불활상화된 표적특이적 엔도뉴클레아제는 가이드 RNA 와 함께 사용될 수 있다.
다른 예에서, 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (0ff-target site), 및 /또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법은 Bless 방법에 의할 수 있으며, 구체적으로, 다음의 단계를 포함할 수 있다 (도 20b 참조):
(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (C) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 세포 또는 세포로부터 분리된 유전체 DNA에 접촉시키는 단계 ;
(ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계;
(iii) 상기 절단된 DNA 절편 말단에 표지한 후, 이를 포획하는 단계;
(iv) 상기 포획된 DNA 절편을 증폭하고, 차세대 유전체 시퀀싱 (NGS)을 수행하는 단계
를 포함할 수 있다. 상기 단계 (i)의 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 이를 암호화하는 유전자 또는 이를 포함하는 플라스미드는 가이드 RNA 또는 가이드 RNA 를 암호화하는 DNA를 포함하는 플라스미드와 함께 사용될 수 있다.
다른 예에서, 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및 /또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법은 DSBCapture 방법에 의할 수 있으며, 구체적으로, 다음의 단계를 포함할 수 있다 (도 20c 참조):
(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 세포 또는 세포로부터 분리된 유전체 DNA에 접촉시키는 단계 ;
(ii) 우라실ᅳ특이적 제거 시약 (Uracil-Specific Excision Reagent;
USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계 ;
(iii) 상기 절단된 DNA 절편에 대하여 end repair 및 adaptor ligation을 수행하는 단계;
(iv) 상기 (iii)에서 얻어진 DNA 절편을 증폭하고, 차세대 유전체 시퀀싱 (NGS)을 수행하는 단계
를 포함할 수 있다. 상기 단계 (i)의 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 이를 암호화하는 유전자 또는 이를 포함하는 플라스미드는 가이드 RNA 또는 가이드 RNA 를 암호화하는 DNA를 포함하는 플라스미드와 함께 사용될 수 있다.
【발명의 효과】
본 명세서에서 제공되는 시티딘 디아미나제를 이용한 DNA 이중 가닥 절단 방법 및 이를 이용한 핵산 서열 분석 기술에 의하여, 시티딘 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율 또는 표적 특이성, 및 /또는 비표적 위치를 보다 정확하고 효율적으로 확인할 수 있다.
【도면의 간단한 설명】
도 la는 HEK293T 세포의 7 가지 내재적 표적 부위 (EMXl, FANCF,
HEK2, RNF2, HEK3, HEK4, HBB) 에서 BEl (AP0BECl-dCas9) , BE2 (AP0BEC1- dCas9-UGI ) 및 BE3 (AP0BECl-nCas9-UGI) (참고예 1 참조)으로 얻은 염기 교정 효율을 나타낸다.
도 lb는 HEK293T 세포 내 7 개의 내재적 표적 부위에서 표적 심층 시뭔싱에 의해 측정된 Cas9 뉴클레아제 -유도 돌연변이 빈도를 보여준다. 도 lc는 7 개의 내재적 표적 지점에서 indel 빈도 또는 염기 교정 효율의 순위를 대표적으로 보여주는 그래프이다.
도 2a은 표적 부위 및 이와 1 내지 4개의 미스매치를 갖는 sgRNA 및, BE3 또는 Cas9를 암호화하는 플라스미드를 HEK293T 세포에 공동 형질감염시키고, 3개의 내재적 부위 (endogenous sites; EMXl)에서의 돌연변이 빈도를 측정한 결과이다 (기재된 핵산 서열은 그래프 위에서 아래 방향으로 서열번호 1부터 서열번호 31까지 순차적으로 번호 매겨짐). 도 2b는 표적 부위 및 이와 1 내지 4개의 미스매치를 갖는 sgRNA 및, BE3 또는 Cas9를 암호화하는 플라스미드를 HEK293T 세포에 공동 형질감염시키고, 3개의 내재적 부위 (endogenous sites; HBB)에서의 돌연변이 빈도를 측정한 결과이다 (기재된 핵산 서열은 그래프 위에서 아래 방향으로 서열번호 32부터 서열번호 62까지 순차적으로 번호 매겨짐). 도 2c는 표적 부위 및 이와 1 내지 4개의 미스매치를 갖는 sgRNA 및, BE3 또는 Cas9를 암호화하는 플라스미드를 HEK293T 세포에 공동 형질감염시키고, 3개의 내재적 부위 (endogenous s i tes ; RNF2)에서의 돌연변이 빈도를 측정한 결과이다 (기재된 핵산 서열은 그래프 위에서 아래 방향으로 서열번호 63부터 서열번호 93까지 순차적으로 번호 매겨짐) . 도 3a는 EMX1 부위에서의 Cas9 뉴클레아제와 관련된 indel 빈도와 BE3와 관련된 염기 교정 빈도를 보여주는 그래프이다.
도 3b는 HBB 부위에서의 Cas9 뉴클레아제와 관련된 indel 빈도와 BE3와 관련된 염기 교정 빈도를 보여주는 그래프이다.
도 3c는 RNF2 부위에서의 Cas9 뉴클레아제와 관련된 indel 빈도와
BE3와 관련된 염기 교정 빈도를 보여주는 그래프이다.
도 4a는 BE3 Digenome-seq의 개요를 모식적으로 보여준다.
도 4b는 BE3 및 /또는 USER를 처리한 경우, 절단된 PCR 산물을 보여주는 전기영동 사진이다.
도 4c는 B3에 의한 C 대 U 전환 및 USER에 의한 DNA 절단 결과를 보여주는 Sanger 시퀀싱 결과이다.
도 4d는 EMX1의 표적 사이트에서의 sequence read의 직선 정렬을 나타내는 IGV 이미지이다.
도 5는 6개의 다른 표적 s i tes에서의 sequence read의 직선 정렬을 나타내는 IGV 이미지이다.
도 6a (EMX1) 및 6b (HBB)는 손상되지 않은 유전체 DNA (회색; 중앙부로부터 첫 번째 layer )와 BE3 및 USER (파란색; 중앙부로부터 2 번째 layer ) 또는 Cas9 (빨간색; 중앙부로부터 3 번째 l ayer ; 도 6b에만 있음)로 분해된 유전체 DNA로 얻은 DNA 절단 점수를 나타내는 Genome-wide ci rcus plot로서, 화살표는 타겟 사이트를 나타낸다.
도 6c (EMX1) 및 6d (HBB)는 Di genome-capture si tes (표 2-8)에서 DNA 서열을 사용하여 WebLogo를 통해 얻은 서열 로고 (DNA 분해 점수 > 2.5)를 나타낸다.
도 6e (EMX1) 및 6f (HBB)는 표적 심부 시뭔싱을 이용하여 결정된 Cas9 매개 indel 빈도와 BE3 매개 치환 빈도의 Scatterplot를 나타내는 것으로, 원으로 표시된 점들은 BE3에 의해 확인되었지만 Cas9에 의해 유효한 효과가 없는 비표적 사이트를 나타낸다. 도 6g (EMX1) 및 6h (HBB)는 표적 심부 시퀀성에 의해 HEK293T 세포에서 확인 된 BE3 비표적 사이트를 보여주는 것으로, PAM 서열은 3 ' 말단의 마지막 3개 뉴클레오타이드이고, mi smatched base는 소문자로 표시하였으며, 대시 (-)는 RNA bulges를 나타낸다 (Error bars indi cate s . e .m . (n = 3) ) .
도 7은 Cas9 뉴클레아제- 및 base edi tor-처리 유전체 DNA의 Digenome-seq에 의해 확인된 DNA 절단 점수가 2.5 이상인 부위의 수를 보여주는 벤 다이어그램이다.
도 8은 DNA 절단 점수의 범위에 대한 총 사이트 수 (國)와 10 개 이하의 mi smatches (ᄆ)가 있는 PAM 함유 사이트 수를 보여주는 그래프이다.
도 9는 Cas9 nucl ease- 및 Base edi tor- 처리 유전체 DNA의 Digenome-seq에 의해 확인 된 0. 1 이상의 DNA 절단 점수를 갖는 PAM-포함 상동성 부위의 수를 보여주는 벤다이어그램이다.
도 10은 Digenome-seq에 의해 포획된 상동성 부위의 비율을 보여주는 것으로, 막대는 표적 (표적 ) 부위와 6 nt까지 다른 상동성 부위의 수를 나타내고, 사각형 (BE3)과 삼각형 (Cas9)은 미스매치 숫자의 범위에 대해 Digenome-seq 포획 사이트의 비율을 나타낸다.
도 11a 및 lib는 Digenome 1.0 ( 11a) 및 Digenome 2.0 ( lib)에 의해 확인 된 BE3-와 Cas9-관련 사이트의 수 사이의 상관관계를 보여주는 그래프이다.
도 12a 및 12b는 Digenome 1.0 (a) 또는 Digenome 2.0 (b)에 의해 확인 된 BE3 관련 사이트의 수와 6 개 이하의 미스매치가있는 사이트의 수 사이의 상관 관계를 보여주는 그래프이다.
도 13은 posi t ions 4-9에 시토신이 없는 Cas9에만 관련된 Digenome- 포획된 비표적 사이트를 예시적으로 보여준다.
도 14a 내지 14c는 3 개의 다른 Cas9 뉴클레아제와 관련된 Digenome-captured사이트의 염기 교정 효율을 보여준다.
도 15a 내지 15c는 Digenome-음성 사이트에서 3 가지 서로 다른 BE3 디아미나제의 염기 교정 효율을 보여준다.
도 16a는 기존 sgRNA (gX19 sgRNA) , 절단된 (truncated) sgRNA (gX18 또는 gX17 sgRNA) 및 연장 (extended) sgRNA (gX20 또는 ggX20 sgRNA)를 도식적으로 보여준다.
도 16b는 HEK293T세포의 표적 사이트 및 비표적 사이트의 염기 교정 빈도를 표적 심독 시뭔싱으로 측정한 결과를 보여준다.
도 17은 변형된 sgRNA를 사용하여 BE3 비표적 효과를 감소시킬 수 있음을 보여주는 것으로, 17a는 기존의 sgRNA (GX19 sgRNA)와 변형된 sgRNA (GX17 sgRNA, gX18 sgRNA, gX20 sgRNA 및 ggX20 sgRNA)의 개략적으로 보여주고, 도 17b는 HEK293T 세포에서 표적 심층 시뭔싱에 의해 EMX1 표적 사이트 및 비표적 사이트에서 측정된 염기 교정 효율 (빈도)를 보여준다.
도 18a는 플라스미드 rAP0BECl-XTEN-dCas9-NLS의 개열지도이다. 도 18b는 플라스미드 rAPOBECl-XTEN— dCas9-UGI-NLS의 개열지도이다. 도 18c는 플라스미드 rAP0BECl-XTEN-Cas9n— UGI-NLS의 개열지도이다. 도 19는 Cas9 expression plasmid의 개열지도이다.
도 20은 His6-rAP0BECl-XTEN-dCas9을 코딩하는 플라스미드 pET28b- BE1의 개열지도이다.
도 21a 내지 21c는 Digenome-seq 이외의 방법으로 전체 유전체에서의 베이스 에디터의 비표적 사이트를 프로파일링하는 방법을 모식적으로 보여주는 것으로, 21a는 circle-seq, 21b는 Bless , 21c는 DSBCapture를 이용한 방법을 각각 보여준다.
도 22는 BEl(rAP0BECl-dCas9)-매개 이중 가닥 절단 (double strand breaks; DSBs) 과정 및 결과를 보여주는 것으로, (a)는 BE1 (rAPOBECl- dCas9) , USER 효소, 및 SI 뉴클레아제를 이용하여 DSB를 도입하는 과정을 모식적으로 보여주며, (b)는 BEl/sgRNA, USER 효소, 및 S1 뉴클레아제 처리 후의 PCR 증폭 산물에서의 BE1-매개 DSB 결과를 보여주는 전기영동 사진이다.
【발명을 실시하기 위한 구체적인 내용】
이하 본 발명을 다음의 실시예에 의하여 보다 구체적으로 설명하고자 한다. 그러나 이들은 본 발명을 예시하기 위한 것일 뿐이며, 본 발명의 범위가 이들 실시예에 의하여 제한되는 것은 아니다.
[참고예]
1. 세포 배양 및 형질감염 HEK293T 세포 (ATCC CRL-11268)를 10 >(w/v) FBS 및 (w/v) 페니실린 /스트랩토 마이신 (Welgene)으로 보층된 DMEM (Dulbecco Modified Eagle Medium) 배지에서 유지시켰다. HEK293T 세포 (1.5xl05)를 24- 웰 플레이트에 접종하고, Lipofectamine 2000 (Invitrogen)을 사용하여 sgRNA plasmid (500 ng)와, Base Editor plasmid (Addgene plasmid #73019 (Expresses BEl with Cᅳ terminal NLS in mammal i an cells; rAPOBECl-XTEN- dCas9-NLS; 도 18a), #73020 (Expresses BE2 in ma瞧 alian cells; rAP0BECl-XTEN-dCas9-UGI-NLS; 도 18b), #73021 (Expresses BE3 in mammalian cells; rAP0BECl-XTEN-Cas9n— UGI—NLS; 도 18c)) (1.5/g) 또는 Cas9 expression plasmid (Addgene plasmid #43945; 도 19)를 형질감염시켰다 (at ~80% confluency). 형질감염 후 72 시간 후에 DNeasy Blood & Tissue Kit (Qiagen)을 사용하여 유전체 DNA를 분리하였다. 상기 세포에 대하여 마이코플라스마 오염 여부를 테스트하지 않았다.
하기하는 실시예에 사용된 sgRNA 는 표적 부위 서열 (표적 서열; on-target 서열; 표 1-8 참조) 중 5' 말단의 PAM서열 (5'-NGG— 3' (N은 A, T, G, 또는 C임))을 제외한 서열에서 T를 U로 바꾼 서열을 아래의 일반식 3의 표적화 서열
Figure imgf000033_0001
'로 하여 제작된 것을 사용하였다:
5 ' -(Ncas9)厂 (GUUUUAGAGCUA)-(GMA)- ( UAGC GUUAAMUAAGGCUAGUCCGUUAUCMCUUGAAAAAGUGGCACCGAGUCGGUGC )-3' (일반식 3; 올리고뉴클레오타이드 링커: GAAA).
2. 단백질 정제
Hi S6-rAP0BECl-XTEN-dCas9 단백질을 코딩하는 플라스미드 (pET28b- BEl; Expresses BEl with N-terminal His6 tag in E. Coli; 도 20)는 David Liu (Addgene plasmid #73018)로부터 제공받았다. 또한, 상기 His6- rAP0BECl-XTEN-dCas9 단백질을 코딩하는 플라스미드 pET28b— BE1에서 site directed mutagenesis를 이용하여 dCas9의 A840을 H840로 치환하여, His6- rAP0BECl-nCas9 단백질 (BE3 delta UGI; UGI 도메인을 결여한 BE3 변이형)을 코딩하는 플라스미드 (pET28b-BE3 delta UGI)를 제작하였다.
Rosetta 발현 세포 (Novagen, catalog number: 70954-3CN)를 상기 준비된 pET28b— BE1 또는 pET28b_BE3 delta UGI 로 형질 전환시키고, 100 μg/ \ kanamycin 과 50 mg/ml carbenici 1 in 을 포함하는 Lur ia-Bertani (LB) brot에서 37 °C 조건으로 밤새 배양하였다. pET28b-BEl 또는 pET28b- BE3 delta UGI 을 함유하는 Rosetta 세포를 밤새 배양한 배양물 10ml 를 100 g/ml kanamycin 및 50mg/ml carbenicilin 을 함유하는 400ml LB broth 에 접종하고 OD600이 0.5-0.6에 도달 할 때까지 30 °C 조건에서 배양하였다. 상기 배양된 세포를 1 시간 동안 16 °C로 넁각시키고, 0.5 mM IPTG(Isopropyl β -D-l—thiogalactopyranoside)를 보충하여, 14-18 시간 동안 배양하였다.
단백질 정제를 위해, 세포를 4 °C에서 10 분 동안 5000xg 에서 원심 분리하여 수확하고, 리소자임 (Sigma) 및 프로테아제 억제제 (Roche complete, EDTA-f ree)보층된 용해 완층액 (50 mM NaH2P04, 300 mM NaCl , 1 mM DTT 및 10 mM imidazole, pH 8.0) 5 ml 에서 초음파 처리하여 용해시켰다. 상기 얻어진 세포 반웅물을 4 °C에서 13,000 rpm로 30분 동안 원심분리하여 얻어진 용해성 세포 용해물을 Ni-NTA 아가로즈 레진 (Qiagen)과 함께 4 °C에서 1 시간 동안 배양하였다. 세포 용해물 /Ni- NTA 흔합물을 컬럼에 적용하고 완층액 (50 mM NaH2P04, 300 mM NaCl 및 20 mM 이미다졸, pH 8.0)으로 세척하였다. BE3 단백질을 용출 완층액 (50 mM NaH2P04, 300 mM NaCl 및 250 mM 이미다졸, pH 8.0)으로 용출시켰다. 용출된 단백질을 저장 완층액 (20 mM HEPES-KOH (pH 7.5), 150 mM KC1 , 1 mM DTT 및 20% 글리세를)으로 버퍼 교체하여 저장하고 원심 분리 필터 유닛 (Millipore)을 사용하여 농축시켜, rAP0BECl-XTEN_dCas9 단백질과 rAP0BECl-nCas9을 정제하였다.
3. PCR증폭산물의 탈아민화 및 USER처리
우선, EMX1 사이트를 포함하는 PCR 증폭 산물 (10 /g)을 37 °C에서 1 시간 동안 100 ^의 반웅 부피에서 정제된 rAP0BECl-nCas9 단백질 (4 과 EMX1 특이성 sgRNA (3 g)와 함께 배양하였다. 그 후, 상기 배양물을 37 °C에서 30 분 동안 USER (Uraci 1-Speci f ic Excision Reagent) (6 units) (New England Bio labs; ht tps: // www . neb . com/ product s/m5505- user-enzyme; Uracil DNA glycosylase (UDG) 및 DNA glycosylase- lyase Endonuc lease VIII 흔합물과 50 mM KC1, 5 mM NaCl, 10 mM Tris-HCl (pH 7.4), 0.1 mM EDTA, 1 mM DTT, 175 mg/ml BSA 및 50¾)(w/v) glycerol 포함)와 함께 배양한 다음, 아가로즈 젤 전기 영동을 수행하였다.
4. 유전체 DNA의 탈아민화및 USER처리 유전체 DNA 는 제조자의 지시에 따라 DNeasy Blood & Tissue Kit (Qiagen)을 사용하여 HEK293T 세포로부터 정제 (추출)하였다. 유전체 DNA (10 //g)를 상기 참고예 2에서 정제된 rAP0BECl_nCas9 단백질 (300 nM)과 sgRNA (900 nM)와 함께 500 ^의 반응 용량으로 37 °C에서 8 시간 동안 완충액 (100 mM NaCl, 40 mM) Hris-HCl, 10 mM MgC12, 및 100 /g/ml BSA, pH 7.9)에서 배양하였다. RNase A (50 /g/mL)를 사용하여 sgRNA 를 제거한 후, 우라실 함유 유전체 DNA 를 DNeasy Blood & Tissue Kit (Qiagen)로 정제하였다. 정제된 genomic DNA (2 /zg)를 USER (6 Unit)와 함께 37 °C에서 100 의 반응 용량으로 3 시간 동안 배양한 다음, DNeasy Blood & Tissue Kit (Qiagen)로 다시 정제하였다. 표적 부위를 SUN-PCR 블렌드를 사용하여 PCR 증폭시키고 생거 (Sanger) 서열 분석을 수행하여 BE3-매개 시토신 탈아민화 및 USER-매개 DNA 절단을 확인하였다.
5. 전체 유전체 및 digenome의 시퀀성
Covaris 시스템 (Life Technologies)을 사용하여 400—500 bp 범위로 유전체 DNA (1 /g)를 단편화하고 End Repair Mix (Thermo Fischer)를 사용하여 blunt-ended 시켰다. 단편화된 DNA 를 어댑터로 연결하여 라이브러리를 생성 한 다음, Macrogen 에서 HiSeq X Ten Sequencer (Illumina)¾-사용하여 WGS(whole genome sequencing)를 수행하였다.
6. 표적 심층 시퀀싱 (Targeted deep sequencing)
deep sequencing 라이브러리 생성을 위해, 표적과 잠재적인 비표적 부위를 KAPA HiFi HotStart PCR 키트 (KAPA Biosystems # KK2501)로 증폭시켰다. 풀링된 PCR 증폭물을 TruSeq HT Dual Index 시스템 (Illumina)이 장착된 MiniSeq (Illumina) 또는 Illumina Miseq(LAS Inc. 한국)을 사용하여 시뭔싱하였다. 실시예 1. 인간 세포에서 BE3-관련 염기 교정 효율과 Cas9-관련 indel 빈도의 비교
HEK293T 세포의 7 개의 유전체 유전자좌 (EMXl, FANCF, HEK2, RNF2, HEK3, HEK4, HBB)에서, 세 가지 다른 형태의 BE의 단일 염기 치환 빈도에 의해 정의된 염기 교정 (base editing) 효율을 구하여, Cas9 뉴클레아제의 표적 부위에서의 indei 빈도에 의해 정의된 유전체 교정 효율과 비교하였다 (도 la, b). 도 la는 HEK293T 세포의 7 가지 내재적 표적 부위 (EMX1 , FANCF, HEK2, RNF2 , HEK3 , HEK4, HBB)에서 BE1 (AP0BEC1- dCas9) , BE2 (AP0BEC-dCas9-UGI ) 및 BE3 (AP0BEC-nCas9-UGI ) (참고예 1 참조)으로 얻은 염기 교정 효율을 나타낸다. 염기 교정 효율은 표적 심층 시뭔싱 (targeted deep sequencing)으로 측정하였다 (참고예 6 참조) . BE3 [AP0BEC-nCas9-UGI (uraci l DNA glycosylase inhibi tor) , 29±6 )]이 BE1 (AP0BECl-dCas9 , 5± 1%)와 BE2 (AP0BEC-dCas9-UGI , 8± 2%)보다 우수한 효율을 나타내었다. 도 lb는 HEK293T 세포 내 7 개의 내재적 표적 부위에서 표적 심층 시뭔싱에 의해 측정된 Cas9 뉴클레아제 -유도 돌연변이 빈도를 보여준다 (참고예 1의 Cas9 expression plasmid (Addgene plasmid #43945 ; 도 19)를 사용하여 얻어진 결과임) . 이러한 결과는 BE3 활성이 Cas9 뉴클레아제 활성과 독립적임을 확인시켜 주는 것이다.
도 lc는 7 개의 내재적 표적 지점 (on target si te ; 표 2-8 참조)에서 indel 빈도 또는 염기 교정 효율의 순위를 대표적으로 보여주는 그래프이다. 도 lc에서 보여지는 바와 같이, 활성 순위 분석 결과, 특정 sgRNA는 Cas9과 함께 작용할 때는 활성이 낮지만 BE3와 함께 작용할때는 높은 활성을 나타내는 한편, 그 반대의 상관성을 나타내는 sgRNA도 존재하였다.
실시예 2· mismatched sgRNAs에 대한 BE3와 Cas9의 관용 (tolerance)
BE3 디아미나제의 특이성을 평가하기 위하여, BE3가 smal l guide
RNA (sgRNAs)에서의 미스매치 (mi smatch)를 관용할 수 있는지 여부를 세포 내에서 조사하였다. 이를 위해, 1 내지 4개의 미스매치를 갖는 sgRNA 및, BE3 또는 Cas9를 암호화하는 플라스미드 (참고예 1 참조)를 HEK293T 세포에 공동 형질감염시키고, 3개의 내재적 부위 (endogenous si tes ; EMX1 , HBB, RNF2)에서의 돌연변이 빈도를 측정하였다.
사용된 1 내지 4개의 미스매치를 갖는 sgRNA의 표적 부위 (PAM서열 (굵은 글씨) 포함)를 아래의 표 1에 정리하였다:
[표 1]
Figure imgf000036_0001
GAGTCCGAatgaAAGA GTTGCCCCgtgaGGCAG GTCATCTTgactATTA
34 65
AGAAGGG TAACGG CCTGAGG
GAGTCCGAGCAGggag GTTGCCCCACAGaatgG GTCATCTTAGTCgccg
35 66
AGAAGGG TAACGG CCTGAGG
GAGTCCGAGCAGAAGA GTTGCCCCACAGGGCAa GTCATCTTAGTCATTA
36 67
gaggGGG cggCGG ttcaAGG
GAactCGAGCAGAAGA GTcatCCCACAGGGCAG GTtgcCTTAGTCATTA
37 68
AGAAGGG TAACGG CCTGAGG
GAGTCtagGCAGAAGA GTTGCtttACAGGGCAG GTCATtccAGTCATTA
38 69
AGAAGGG TAACGG CCTGAGG
GAGTCCGAatgGAAGA GTTGCCCCgtgGGGCAG GTCATCTTgacCATTA
39 70
AGAAGGG TAACGG CCTGAGG
GAGTCCGAGCAaggGA GTTGCCCCACAaaaCAG GTCATCTTAGTtgcTA
40 71
AGAAGGG TAACGG CCTGAGG
GAGTCCGAGCAGAAag GTTGCCCCACAGGGtga GTCATCTTAGTCATcg
41 72
gGAAGGG TAACGG tCTGAGG
GAGTCCGAGCAGAAGA GTTGCCCCACAGGGCAG GTCATCTTAGTCATTA
42 73
AaggGGG cggCGG CtcaAGG
GAacCCGAGCAGAAGA GTcaCCCCACAGGGCAG GTtgTCTTAGTCATTA
43 74
AGAAGGG TAACGG CCTGAGG
GAGTttGAGCAGAAGA GTTGttCCACAGGGCAG GTCActTTAGTCATTA
44 75
AGAAGGG TAACGG CCTGAGG
GAGTCCagGCAGAAGA GTTGCCttACAGGGCAG GTCATCccAGTCATTA
45 76
AGAAGGG TAACGG CCTGAGG
GAGTCCGAatAGAAGA GTTGCCCCgtAGGGCAG GTCATCTTgaTCATTA
46 77
AGAAGGG TAACGG CCTGAGG
GAGTCCGAGCgaAAGA GTTGCCCCACgaGGCAG GTCATCTTAGctATTA
47 78
AGAAGGG TAACGG CCTGAGG
GAGTCCGAGCAGggGA GTTGCCCCACAGaaCAG GTCATCTTAGTCgcTA
48 79
AGAAGGG TAACGG CCTGAGG
GAGTCCGAGCAGAAag GTTGCCCCACAGGGtgG GTCATCTTAGTCATcg
49 80
AGAAGGG TAACGG CCTGAGG
GAGTCCGAGCAGAAGA GTTGCCCCACAGGGCAa GTCATCTTAGTCATTA
50 81
gaAAGGG cAACGG ttTGAGG
GAGTCCGAGCAGAAGA GTTGCCCCACAGGGCAG GTCATCTTAGTCATTA
51 82
AGggGGG TggCGG CCcaAGG
GgGTCCGAGCAGAAGA GcTGCCCCACAGGGCAG GcCATCTTAGTCATTA
52 83
AGAAGGG TAACGG CCTGAGG
GAGcCCGAGCAGAAGA GTTaCCCCACAGGGCAG GTCgTCTTAGTCATTA
53 84
AGAAGGG TAACGG CCTGAGG
GAGTCtGAGCAGAAGA GTTGCtCCACAGGGCAG GTCATtTTAGTCATTA
54 85
AGAAGGG TAACGG CCTGAGG
GAGTCCGgGCAGAAGA GTTGCCCtACAGGGCAG GTCATCTcAGTCATTA
55 86
AGAAGGG TAACGG CCTGAGG
GAGTCCGAGtAGAAGA GTTGCCCCAtAGGGCAG GTCATCTTAaTCATTA
56 87
AGAAGGG TAACGG CCTGAGG
GAGTCCGAGCAaAAGA GTTGCCCCACAaGGCAG GTCATCTTAGTtATTA
57 88
AGAAGGG TAACGG CCTGAGG GAGTCCGAGCAGAgGA GTTGCCCCACAGGaCAG GTCATCTTAGTCAcTA
27 58 89
AGAAGGG TAACGG CCTGAGG
GAGTCCGAGCAGAAGg GTTGCCCCACAGGGCgG GTCATCTTAGTCATTg
28 59 90
AGAAGGG TAACGG CCTGAGG
GAGTCCGAGCAGAAGA GTTGCCCCACAGGGCAG GTCATCTTAGTCATTA
29 60 91
AaAAGGG cAACGG CtTGAGG
GAGTCCGAGCAGAAGA GTTGCCCCACAGGGCAG GTCATCTTAGTCATTA
30 61 92
AGAgGGG TAgCGG CCTaAGG
GAGTCCGAGCAGAAGA GTTGCCCCACAGGGCAG GTCATCTTAGTCATTA
31 AGAAGGG (on 62 TAACGG (on target 93 CCTGAGG (on
target sequence) sequence) target sequence)
(표 1에서, 소문자로 표시된 염기 우치는 mismatched 사0 의미함)
상기 표 1의 미스매치 서열 및 표적 서열에서 얻어진 결과 (Indel 빈도와 시토신 전환 빈도)를 도 2a 내지 2c에 나타내었다 (2a: EMXl, 2b: HBB 및 2c: RNF2; Error bars indicate s.e.m. (n = 3)). 도 2a 내지 2c에서 'Cn'으로 표시된 것은 미스매치 서열 또는 표적 서열에서 5' 발단부터 n번째에 위치하는 시토신 (C)의 변이 (다른 염기로 치환 또는 결실) 비율을 나타낸다. Indel 빈도와 시토신 전환 빈도 (base editing frequency)는 표적 심층 시뭔싱 (참고예 6)을 사용하여 측정하였다. 상기 표적 심층 시뭔싱에 사용된 프라이머는 다음과 같다:
EMX1
1st PCR
Forward(5 '→3 ' ):
AGTGTTGAGGCCCCAGTG (서열번호 94);
Reverse(5'→3' ):
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGCAGCAAGCAGCACTCT (서열번호
95);
2nd PCR
Forward(5'→3' ):
ACACTCmCCCTACACGACGCTCTTCCGATCTGGGCCTCCTGAGTTTCTCAT (서열번호
96);
Reverse(5'→3' )
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGCAGCAAGCAGCACTCT (서열번호
'97); HBB
1st PCR
Forward(5'→3' ):
GGCAGAGAGAGTCAGTGCCTA (서열번호 98);
Reverse(5'→3' ):
GTGACT(^AGTOAGACGTGT( TCTTCCGATCTCAGGGCTGGGCATAAAAGT (서열번호
99);
2nd PCR
Forward(5'→3' ):
ACACTCmCCCTACACGACGCTCTTCCGATCTGTCTCCACATGCCCAGTTTC
(서열번호 100);
Reverse(5'→3' )
GTGACTGGAGTOAGACGTGTGCTCTTCCGATCTCAGGGCTGGGCATAAAAGT
(서열번호 101);
RNF2
1st PCR
Forward(5'→3' ):
CCATAGCACTTCCCTTCCAA (서열번호 102);
Reverse(5'→3' ):
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCCAACATACAGAAGTCAGGAA
(서열번호 103);
2nd PCR
Forward(5'→3' ):
ACACTCmCCCTACACGACi TCTTCCGATCTATTTCCAGCAATGTCTCAGG
(서열번호 104);
Reverse(5'→3' )
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCCAACATACAGAAGTCAGGAA
(서열번호 105).
또한, EMX1 (도 3a) 부위, HBB 부위 (도 3b), 및 RNF2 부위 (도 3c)에서의 Cas9 뉴클레아제와 관련된 indel 빈도와 BE3와 관련된 염기 교정 빈도를 mismatched sgRNAs (표 1 참조)를 사용하여 측정하여, 그 결과를 도 3a 내지 3c에 나타내었다. 도 3a 내지 3c에서 보여지는 바와 같이, 전반적으로, Cas9 유도 indel 빈도와 BE3 유도 치환 빈도 간 통계적으로 유의미한 상관관계 (3개의 부위에서 각각 = 0.70, 0.83 , 및 0.72)가 있다.
BE3 디아미나제와 Cas9 뉴클레아제는 거의 모든 위치에서의 1개 뉴클레오타이드 ( 1-nt )의 미스매치 및 PAM-원위 영역 (protospacer- ad j acent mot i f (PAM)-di stal region)에서의 2개 뉴클레오타이드 (2-nt ) 미스매치에 대해서는 관용을 보였으나, PAM-근위 영역 또는 PAM-원위 영역에서의 3-nt 또는 4-nt 미스매치에 대해서는 관용을 나타내지 못한다. 그러나, 2 개 또는 3 개의 미스매치를 갖는 일부 sgRNA (도 2a— 2c에서 별표로 표시)는 BE3와 함께 사용하는 경우 높은 활성을 나타내는 반면, Cas9와 함께 사용하는 경우에는 활성이 우수하지 않았으며, 그 반대도 마찬가지였다. 예를 들어, EMX1 부위에서, 완전히 일치하는 sgRNA 또는 3-nt 미스매치 sgRNA를 BE3와 함께 사용하는 경우 비교 가능한 정도의 빈도 차이 (33% vs . 14%)로 치환을 유도하는 반면, 동일한 완전 일치 또는 3-nt 미스매치 sgRNA를 Cas9와 함께 사용하는 경우에는 광범위하게 다른 indel 빈도를 나타내었다 (50% vs . 2%) (도 2a) . 반대로, 2 개의 2-nt 미스매치를 갖는 sgRNA를 BE3와 함께 사용하는 경우에 활성이 낮은 반면 (치환 빈도 <1%), 동일한 미스매치를 갖는 sgRNA를 Cas9와 함께 사용하는 경우에는 활성이 높았다 ( indel 빈도 > 10%) (도 2a) . 이러한 결과는 미스매치를 갖는 sgRNA에 대한 Cas9 뉴클레아제와 BE3 디아미나제의 내성이 다를 수 있으며, BE3와 Cas9가 유전체 내에서 분리된 세트의 비표적 부위를 가질 수 있음을 암시한다. 따라서, RNA-progra匪 able 디아미나제의 유전체 -전체 특이성을 프로파일링하는 방법이 필요하다.
실시예 3. 인간 유전체에서 BE3 비표적 sites를 확인하기 위한 Digenome-seq
유전체 전체에 걸쳐 Cas9 뉴클레아제가 DSB를 유도하는 비표적 위치를 확인하기 위한 방법으로, GUIDE-seq (Tsai , S.Q . et al . GUIDE-seq enables genome-wi de prof i l ing of 비표적 cleavage by CRISPR-Cas nucleases . Nature biotechnology 33, 187-197 (2015) ) , HTGTS (Frock, R .L . et al . Genome-wide detect ion of DNA double-stranded breaks induced by engineered nucleases . Nature biotechnology (2014) ) , BLESS (Ran, F .A. et al . In vivo genome edi t ing using Staphylococcus aureus Cas9. Nature 520, 186-191 (2015)), 및 IDLV capture (Wang, X. et al . Unbiased detection of 비표적 cleavage by CRISPR-Cas9 and TALENs using integrase-def ect i ve lent iviral vectors . Nature biotechnology 33, 175ᅳ 178 (2015)) 등과 같은 몇 가지 상이한 세포 기반 방법들이 개발되었다. deaminases가 DSB를 생성하지 않기 때문에, 적어도 현재의 형태로는, 상기 방법들 중 어느 것도 programmable deaminases의 유전체 전체 특이성 (genome-wide sped f icit ies)을 평가하는 데에 적합하지 않다. 적절한 효소를 사용하여 시험관내 (/i / ro)에서 탈아민화된, 우라실 함유 위치 (deaminated, uraci 1-containing sites)에서 DSB를 생성할 수 있으며, 이때 발생한 DNA 절단 위치는 Cas9와 Cpfl 뉴클레아제의 유전체 전체 특이성을 평가하는데 사용되는 시험관내 방법인 Digenome-seq (digested- genome sequencing; 참조문헌: Kim, D. , Kim, S. , Kim, S. , Park, J. & Kim, J.S. Genome-wide t rget specificities of CRISPRᅳ Cas9 nucleases revealed by multiplex Digenome-seq. Genome research 26, 406-415 (2016); Kim, D. et al . Genome-wide analysis reveals specificities of Cpfl endonuc leases in human eel Is . Nature biotechnology 34, 863-868 (2016); Kim, D. et al . Digenome-seq: genome-wide profiling of CRISPRᅳ Cas9 비표적 effects in human cells. Nature methods 12, 237-243, 231 p following 243 (2015))을 통해 확인할 수 있을 것으로 예측된다.
이러한 예측을 확인하기 위하여, 표적 서열을 포함하는 PCR 증폭산물 (amp Π con)을, 시험관내에서, (1) UGI 도메인이 없는 BE3의 유도체인 재조합 rAP0BECl-nCas9 단백질 (참고예 2)과 이의 sgRNA와 함께 배양하여, C로부터 U로의 전환 (C-to-U conversions) 및 Watson and Crick strands에서의 절단 (nick)을 각각 유도한 후, (2) E. coli Uracil DNA glycosylase (UDG)와 DNA glycosylaseᅳ lyase Endonuc lease VI 11의 흔합물인 USER (Uraci 1-Specific Excision Reagent)와 함께 배양하여 우라실 위치에서의 틈새 (gap)를 생성하여 composite DSB를 발생시켰다 (도 4a 참조). 다음으로, Digenome-seq를 사용하여 BE3 디아미나제의 유전체 전체 표적 특이성을 평가할 수 있는지 여부를 조사하였다. HEK293T 세포로부터 정제된 인간 유전체 DNA를 7 시간 동안 각각 3 회의 BE3 리보뉴클레오타이드 (RNP) (300 nM rAP0BECl-nCas9 단백질 (참고예 2) 및 900 nM sgRNA)와 함께 배양 한 다음, 3 시간 동안 사용자와 함께 배양 하였다 (도 4a 참조).
도 4a는 이와 같은 BE3 Digenome-seq의 개요를 보여준다. E. coli Uracil DNA glycosylase (UDG)와 DNA glycosylase- lyase Endonuc lease VI 11의 흔합물인 USER에 의해 BE3-매개 우라실 함유 부위가 절단되는 것을 확인할 수 있다. 도 4b는 BE3 및 /또는 USER를 처리한 경우, 절단된 PCR 산물을 보여주는 전기영동 사진이다. 도 4b에 나타난 바와 같이, PCR 증폭산물은 BE3과 USER와 함께 배양할 때 절단됨을 확인할 수 있다.
BE3에 의해 유도 된 C 대 U 전환 및 USER에 의한 우라실 제거는 Sanger 시뭔싱에 의해 확인하였다 (도 4c 참조). 도 4c는 B3에 의한 C 대 U 전환 및 USER에 의한 DNA 절단 결과를 보여주는 Sanger 시뭔싱 결과이다. 각 유전체 DNA 샘플을 end repair 및 adaptor ligation한 후, 전체 유전체 시퀀싱 (WGS)을 수행하였다 (도 4a 참조).
인간 참조 유전체 (human reference genome; hgl9)에 대한 서열 정렬 (sequence alignment) 푸, 통합 유전체 뷰어 (Integrative Genomics Viewer; IGV)를 사용하여 표적 위치에서의 정렬 패턴을 모니터링하여 그 결과를 도 4d 및 도 5에 나타니었다. 도 4d는 EMX1의 표적 사이트에서의 sequence read의 직선 정렬을 나타내는 IGV 이미지이고, 도 5는 6개의 다른 표적 sites에서의 sequence read의 직선 정렬을 나타내는 IGV 이미지이다. 도 4d 및 도 5에 나타난 바와 같이, 시험관내에서 생성된 DSB와 관련된 시그니처 패턴이 7 개의 표적 위치 모두에서 관찰되었다.
실시예 4. Digenome-seq에 의하여 밝혀진 유전체 전체의 BE3비표적 사이트
인간 유전체에서 BE3 비표적 위치를 확인하기 위하여, 5' 말단이 정해진 위치에 정렬된 서열 리드의 개수 (number of sequence reads)를 기반으로 DNA 절단 점수를 유전체의 각 nt 위치에 할당하고, 발명자들의 이전 연구 (Kim, D. , Kim, S. , Kim, S. , Park, J. & Kim, J.S. Genome-wide target specificities of CRISPRᅳ Cas9 nucleases revealed by multiplex Digenome-seq. Genome research 26, 406-415 (2016))에서 동일한 7 sgRNA 세트와 함께 사용되는 Cas9 뉴클레아제의 비표적 위치를 확인하기 위하여 사용된 컷오프 값인 2.5 이상의 점수를 갖는 위치를 모두 나열하였다 (도 6a-d 및 표 2-8).
각 뉴클레오티드의 위치 i (즉 유전체 DNA 상의 뉴클레오타이드 위치)에 DNA 절단 점수를 다음의 수식으로 산출하였다: ΐ위치에서의점수 -
Figure imgf000043_0001
i위치에서 시작하는 ¾방향염기서 ¾데이터의 수
i위치에서 사작하는역방향염기서열데이터의수
위치에서의시원상 ¾이
임의의상수
상기 수식에서 염기서열 데이터의 수는 뉴클레오타이드 리드 수를 의미하고, 시퀀싱 깊이는 특정 위치에서의 시뭔싱 리드수를 의미하며, C 값은 1로 하였다.
Digenome一 captured si tes (cleavage si te + PAM) 및 DNA 절단 스코어 (DNA cleavage score)를 아래의 표 2 내지 8에 나타내었다:
[표 2] (On target : EMX1_4)
Figure imgf000043_0002
EMX1_14 chi-9 111348573 1.56 GAGTCC t. tG-AGAAGAAGgAAGG 118 RNA bulge
EMX1_15 chr3 5031614 1.50 GAaTCCaAGCAGgAGAAGAAGGA 119 X
EMX1_16 chrl4 31216733 1.34 G t cCaGAG-AGAAGAAGAgAGG 120 RNA bulge
EMX1_17 chr l4 48932119 1. 16 GAGTCCcAGCAaAAGAAGAAAAG 121 X
EMX1— 18 chr ll 107812992 1.04 aAGTCCaAG t -GAAGAAGAAAGG 122 RNA- bul ge
EMX1_19 chr l2 106646090 1.03 aAGTCC t GCAGAAGAgGAAGGG 123 X
EMX1_20 chr2 71969823 0.80 GAGTCC t AG-AGAAGAAaAAGGG 124 RNA bulge
EMX1_21 chr3 145057362 0.48 GAGTCCc r -CAGgAGAAGAAAGG 125 RNA bulge
EMX1_22 chr6 9118799 0.45 a cGTC t GAGCAGAAGAAGAATGG 126 X
EMX1_23 chr l 59750259 0.27 GAGTt CcAGaAGAAGAAGAAGAG 127 X
EMX1_24 chrll 79484079 0.22 GAGTCC t Aa-AGMGAAGcAGGG 128 RNA bulge
EMX1_25 chr9 135663403 0.21
Figure imgf000044_0001
129 X
[표 3] (On target sequence: FANCF_2)
Figure imgf000044_0002
[표 4] (On target sequence : RNF2_1 )
Figure imgf000044_0003
[표 5] (On target sequence -' HBB_1 )
Figure imgf000044_0004
聽― 1 chr ll 5248214 17.68 CTTGCCCCACAGGGCAGTAACGG 145 X
HBB_2 chr l7 8370252 13.64 tTgctCCCACAGGGCAGTAAACG 146 . X
HBB_3 chr l2 124803834 10.88 gcTGCCCCACAGGGCAGcAAAGG 147 X
HBB_4 chrX 75006256 2.34 gTgGCCCCACAGGGCAGgAATGG 148 X 醒_5 chrl2 93549201 0.55 aTTGCCCCACgGGGCAGTgACGG 149 X 匪— 6 chr lO 95791920 0.27 acTc t CCCACAaGGCAGTAAGGG 150 X
HBB_7 chr9 104595883 0. 18 t c aGCCCCACAGGGCAGTAAGGG 151 X
[표 6] (On target sequence : HEK2_2)
Figure imgf000045_0001
[표 7] (On target sequence: HEK3_2)
Figure imgf000045_0002
표 8] (On target sequence: HEK4_1)
Figure imgf000045_0003
腿4_9 chr20 1151854 8.41 GGCACTGtGGCTGcAGGTGGAGG 170 X
HEK4_10 chr l5 71686928 7.70 tGCtCTGCGGCaGGAGGaGGAGG 171 X
HEK4_11 chr7 1397398 6.71 aGCACTGCaGCTGGgaGTGGAGG 172 X
HE 4_12 chr20 45343010 6. 57 GGCACTGaGGgTGGAGGTGGGGG 173 X
HE 4_13 chr8 20854500 5. 57 GGCACTGgGGCTGGAGacGGGGG 174 X
HEK4—14 chr7 54561437 5.40 aGgACTGCGGCTGGgGGTGGTGG 175 X
HE 4_15 chr 15 60790561 5. 29 GGCACTGCaaCTGGAaGTGaTGG 176 X
HE 4_16 chr l3 27629410 4.40 GGCACTGgGGt TGGAGGTGGGGG 177 X
HE 4_17 chr 7 110143150 3. 69 GcCACTGCaGCTaGAGGTGGAGG 178 X
HE 4_18 chr 7 139244406 3. 59 GcCACTGCGaCTGGAGGaGGGGG 179 X
HEK4_19 chr 19 2474643 3.56 GGCACTG-GGCTGGAGGcGGGGG 180 RNA bulge
HEK4_20 chr 2 6961255 3. 17 aGCtCTGCGGCaGGAGtTGGAGG 181 X
HE 4_21 chr 17 75429280 2.90 GaCACcaCGGCTGGAGaTGGTGG 182 X
HEK4_22 chr 7 17979717 2.66 Gcact gGCaGCcGGAGGTGGTGG 183 DNA bulge
HE 4_23 chr 9 5020590 2. 64 t GCACTGCaGCTGcAGGTGGAGG 184 X
HE 4_24 chrX 122479548 2. 52 GGCACTG-GGCTGGAGaTGGAGG 185 RNA bulge
HEK4_25 chr 12 104739608 2. 48 cc t tCTGCGGCTGGAaGTGGTGG 186 X
HE 4_26 chr 17 40693638 2.38 Gc ac t gc aGGCaGGAGGTGaGTG 187 DNA bulge
HEK4_27 chr 8 144781301 2.38 GaCACTGCaGCTGGAGGTGGGGT 188 X
HEK4— 28 chr 9 74103955 2.36 GGCACTGCaGCaGGgGaTGGGGG 189 X
HEK4_29 chr 18 37194558 2.31 GGCACTGCGGgTGGAGGcGGGGG 190 X
HEK4_30 chr 20 60895671 2. 12 GGCACaGCaGCTGGAGGTGcTGG 191 X
HEK4_31 chr 12 113935460 1.63 GGCcCTGCGGCTGGAGaT t GGG 192 X
HE 4_32 chrX 70597642 1. 57 GaCACTGC- t CTGGAGGTGGTGG 193 RNA bul ge
HE 4_33 chr 15 41044242 1.31 GGCgCTGCGGCgGGAGGTGGAGG 194 X
HEK4_34 chr 17 176302 1. 18 tGCACTGt GGCTGGAGaTGGGGG 195 X
HEK4— 35 chr 10 77103119 1. 15 GGCAt caCGGCTGGAGGTGGAGG 196 X
HE 4_36 chr 7 134872032 0.93 aGCACTGt GGCTGGgGGaGGCGG 197 X
HEK4_37 chr 9 133039175 0.86 Gt CACTGCaGCTGGAGGaGGGGG 198 X
HE 4_38 chr 10 73435248 0.79 Gt aACTGCGGCTGGcGGTGGTGG 199 X
HE 4_39 chr 14 21993455 0. 78 GGt ACaGCGGCTGGgGGaGGCGG 200 X
HE 4_40 chr 17 29815563 0.59 GGCgCTGCGGCcGGAGGTGGGGC 201 X
HEK4_41 chr 16 50300346 0. 56 aGCACTGt GGCTGGgGGaGGGGG 202 X
HEK4_42 chr 11 78127584 0. 53 tGCACTGCaGCTGGAGGcaaCGG 203 X
HE 4_43 chr 19 . 1295086 0. 52 GaCACTGaGGCaGGAGGTGGGGG 204 X
HEK4— 44 chr 2 162283033 0. 51 GGCAt c t gGGCTGGgGGTaGGGG 205 X
HEK4_45 chr 20 24376056 0.47 GGCACTGaGaCc aGAGGTGGTGG 206 X
HEK4_46 chr 16 1029977 0.42 GGCACTGCaGacGGAGGTGtGGG 207 X
HE 4_47 chr 19 47503406 0.39 GGCACTG-GGCTGGAGGgGaGAG 208 RNA bulge
HEK4_48 chr 2 231467380 0.39 GGCACTGCaGCTGGgGGTt GGTG 209 X
HEK4— 49 chr 10 13692636 0.38 GGCACTGgGGCTGGgGGaGGGGG 210 X 飄4_50 chrl 32471659 0.34 GGCACTt CaGCTGGAGGcaGAGG 211 X
HE 4_51 chrl7 8634933 0.33 GGCACat -GGaTGGAGGTGGAGG 212 RNA bulge
HE 4_52 chr6 83388605 0.30 aGCACTGt GG-TGGAGGTGGAGG 213 RNA bulge
HEK4_53 chrlO 27700491 0.29 GGCACTG-GGt TGGgGGTGGTGG 214 RNA bul e
HE 4_54 chrl 143662284 0.27 GGCACa t -GGCTGGgGGTGGTGG 215 RNA bulge
HE 4_55 chr 16 49777696 0.22 t GCACTGCGaCTGGAGGgaGAGG 216 X
HEK4— 56 chrl9 38616186 0.19 GGCACTGaGaCTGGgGGTGGGGG 217 X
HEK4— 57 chr 10 126752487 0.18 GGCACTGCaGCctGgGGgtGGGG 218 X
HEK4_58 chr 16 28266968 0.17 GGC t CT t CGGCTGGAGGTaGCGG 219 X
HEK4_59 chr 2 149886210 0.15 GaCACTG-GGCTGGAGGTtGCGG 220 RNA bulge
HEK4_60 chr 20 37471343 0.15 aGCACTGt. GcCTGGgGGTGGGGG 221 X
HE 4_61 chr 12 53453556 0.13 t GgACTGCGGCTGGAGagGGAGG 222 X
HEK4_62 chr 15 30501337 0.13 GGCACTG-GGCTGGAtGTGGTGG 223 RNA bul e
HEK4_63 chr 5 139284047 0.12 GGCACTGaGGCTGcAGGcGGCGG 224 X
HEK4_64 chr 8 119227145 0.12 GGCACaatGGCTGGAGGTGaAGG 225 X
HEK4— 65 chr 14 95761249 0.11 GGCACTc t GGCTGGAGcTGGGGG 226 X
HEK4_66 chr 3 23651529 0.11 GGCACaGCaGgTGGAGGTGGAGG 227 X
HEK4_67 chr 12 9287415 0.10 GGC t CTGCaGCc aGgGGTGGAGG 228 X
(표 2 내지 표 8에서 소문자로 표시된 염기는 mismatched base를 나타낸다)
도 6a 및 6b는 손상되지 않은 유전체 DNA (회색; 중앙부로부터 첫 번째 layer)와 BE3 및 USER (파란색; 중앙부로부터 2 번째 layer) 또는 Cas9 (빨간색; 중앙부로부터 3 번째 layer; 도 6b에만 있음)로 분해된 유전체 DNA로 얻은 DNA 절단 점수를 나타내는 Genome-wide circus plot로서, 화살표는 타켓 사이트를 나타낸다. 도 6c 및 6d는 Digenome- capture sites (표 2-8)에서 DNA 서열을 사용하여 WebLogo를 통해 얻은 서열 로고 (DNA 분해 점수 > 2.5)를 나타내고, 도 6e 및 6f는 표적 심부 시뭔싱을 이용하여 결정된 Cas9 매개 indel 빈도와 BE3 매개 치환 빈도의 Scatterplot를 나타내는 것으로, 원으로 표시된 점들은 BE3에 의해 확인되었지만 Cas9에 의해 유효한 효과가 없는 비표적 사이트를 나타낸다. 도 6g 및 '6h는 표적 심부 시퀀싱에 의해 HEK293T 세포에서 확인 된 BE3 비표적 사이트를 보여주는 것으로, PAM 서열은 3' 말단의 마지막 3개 뉴클레오타이드이고, mismatched base는 소문자로 표시하였으며, 대시 (- )는 RNA bulges를 나타낸다 (Error bars indicate s.e.m. (n = 3)) .
상기 심부 시퀀싱에 사용된 프라이머를 아래의 표 9 내지 표 15에 정리하였다:
Figure imgf000048_0001
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
CCCTTTCTTAATAAAT CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_12
TACCCAGTTTC CTAAAAAGATAGGCAA TTGGACTAAAACACTG CTAAAAAGATAGGCAA ACATAGGAAAA CCCAAG ACATAGGAAAA
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
GCTTTTCTGGGGACAT CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_13
AGCA CTAAGAATTCCAGGCA TACTTCCCTTGTCATC CTAAGAATTCCAGGCA GTTAACCA CCACA GTTAACCA
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
CACAGGAATGTCTTGG CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_14
GTCA CTCTCTTCAATCCATC TCTTAGCCTGGGTCAT CTCTCTTCAATCCATC GCCAGT GCACT GCCAGT
ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC GCACTTGTTGGCCATT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_15
TTGAGGAGGCAAAAGG TGTA TTGAGGAGGCAAAAGG CTTTTTGAATATGTTT GAATA GAATA TAAATTCTCCACA
ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC GCACAGAGGGTTGTTT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_16
TAAGGCTAGCCCAGAG GCTT TAAGGCTAGCCCAGAG CTTTCATCCTTTTGTG TCTCC TCTCC GGGTTC
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
GGAATCAATCAATGAA CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_17
GTTGAAGA CTTTTGCAATTTGCTT TGCAATCTGAAGAACA CTTTTGCAATTTGCTT AGTTATTGAA AAGAGCA AGTTATTGAA
ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAG TCAGA CGACGCTCTTCCGATC TCAAGAGACTGTTGTT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_18
TTGACATTTGATAGAA TTAGATTGTC TTGACATTTGATAGAA CTCCCAGTCCAATGGC CAGATGGGTA CAGATGGGTA TGTAGT
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
CCCTGCAAATTGAGTA CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_19
CGTG CTGTCCCGAAGTGCTG TTGGGGGCCATTCTTT CTGTCCCGAAGTGCTG GAATTA ATAGTT GAATTA
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
GACAGTCCTGGGCTAG CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_20
GTGA CTCTCTGGACTCAGCT TGAGAGTCAGGAGTGC CTCTCTGGACTCAGCT CCCATC CCAGT CCCATC
ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC AGATGAATGCAGGGAG CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_21
TCCTCTCATTTCTACC CTGT TCCTCTCATTTCTACC CTTTCTGAATTAAAAA ACCATTG ACCATTG TGGAAAGAACTG
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
ACAATTTCAGTAGTAG CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_22
CATTAAGGAAT CTTTGTGACAAACTGC TGAATGCCAGTTCTGG CTTTGTGACAAACTGC CCTCTG GTTGT CCTCTG
ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC CAAAAATCAACTCAAG CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_23
TAATTTCTGAACCCAA ATGGATTAAA TAATTTCTGAACCCAA CTGAGAACCTAGGGAA AGACAGG AGACAGG AACTCTTCTG
EMX1_24 ACACTCTTTCCCTACA CTTGTGGATCATGGGT ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC ACTGAG CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT TCCAAGCTATTTAACT TCCAAGCTATTTAACT CTTGGGCCTTGGTATT GGTATGCAC GGTATGCAC AGAGCA
ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC TGCTTTTTCACTTGTC CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
EMX1_25
TTCAAGGGGGTATATA TAGTTTTCTT TTCAAGGGGGTATATA CTAACAATTTCCCACA AAAGGAAGA AAAGGAAGA AAGTCCA
[표 10] ,
Ifcl rtf 舊霸 ¾ί^^ /-' ί \Π''
1st PCR 2nd PCR
ID
Forward (5 ' to3 ' ) Reverse (5 ' to3 ' ) Forward (5 ' to3 ' ) Reverse (5 ' to3 ' )
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
CTGAAGGTGCTGGTTT CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF.l
AGGG CTTGTCTGATTGAGTC TTGACATCCAGGGTTT CTTGTCTGATTGAGTC
' CCCACA CAAGTC CCCACA
ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
FANCF_2
CGACGCTCTTCCGATC TGACATGCATTTCGAC CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
(on
TATGGATGTGGCGCAG CAAT TATGGATGTGGCGCAG CTAGCATTGCAGAGAG
target )
GTAG GTAG GCGTAT
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
CCTCAGGGATGGATGA CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF_3
AGTG CTTCCCAGTGAGACCA TCCCTTACCAGATGGA CTTCCCAGTGAGACCA GTTTGA GGACA GTTTGA
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
CCCTTACCAGATGGAG CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF— 4
GACA CTACCTTGAGTTTTGC TGTGACCCAGGTCCAG CTACCTTGAGTTTTGC CCAGTG TGTTT CCAGTG
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
AGCTTTAAAATGGGGA CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF— 5
ATCCA CTTTCCCAGCACTGTT TCTCCAGTACAGGGGC CTTTCCCAGCACTGTT CTGTTG TTTTG CTCTTG
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
ACACAGGGTGCAGTGG CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF_6
TACA CTTGGGGAGTATCCTT TAGGTGCTTCTGCAGG CTTGGGGAGTATCCTT GCAATC TCATC GCAATC
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
ACGCCAGCACTTTCTA CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF_7
AGGA CTCACAGATTGATGCC TGCCTGCTGCACTCTC CTCACAGATTGATGCC ACTGGA TGAGTA ACTGGA
ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC ACACCTCCGAGGCCTT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF— 8
TTTTCCTCAACCTTTT CT TTTTCCTCAACCTnT CTCAGGTCCTCCTCTC CTGCTG CTGCTG - CCAGTT
ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC GCCAGGATTTCCTCAA CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF_9
TCCTGAATAACTAAAT ACM TCCTGAATAACTAAAT CTGCCMGTTCCCATA GACAACATGG GACAACATGG AGCAAA
FANCF_10 GCTCTCAAATGGCTCC GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA MAC CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
CTCAGAGTGGCCTGCT TTCCTCCATCTCATTC CTCAGAGTGGCCTGCT TACAATC CCATC TACAATC
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
GCCGAGMTTACCACG CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF_11
ACAT CTGGCACACAGCTGTA TTCACAGCGAGGAAGG CTGGCACACAGCTGTA CGTAGG ACAAT CGTAGG
ACACTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC CTCCTCAGTGGGTGAA CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF_12
TGGAGCTCTCAGTTGG GTCC TGGAGCTCTCAGTTGG CTACGGAGAGGTCACA ACTGG ACTGG TGAAGG
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
TGAAAAGCAGTCTAGG CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF_13
ACACAAA CTCAACTCTGCCATGT TTGGCAGGCTAGGTTT CTCAACTCTGCCATGT GCCTTA AGAGC GCCTTA
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
CACATATGAAATATTA CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF_14
AATTTGAACCA CTGGGAATATAGAAAA TTGAACCATGTTACCT CTGGGAATATAGAAAA ATCAAGAGATGG TTTGACC ATCAAGAGATGG
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
CGTCTTCGCTCTTTGG CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT
FANCF_15
TTTT CTCACCCTGTAGATCT TTGTGGCACATAGTCG CTCACCCTGTAGATCT CTCTCACG TAACCTC CTCTCACG
[표 11]
Figure imgf000051_0001
[표 12]
Figure imgf000051_0002
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTT CAGAAAATAAAGCAGCT GACGCTCTTCCGATCTT GTGTGCTCTTCCGATCT
腿― 4
TGTGTAACAGCCACTCA GACTCAC TGTGTAACAGCCACTCA CCTGGCAAAAGTGTTTG CCA CCA GAT
GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
TTTGCATTCCTTTTAGC GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTA GTGTGCTCTTCCGATCT
HBB_5
TTCTTTT AGCTACCACGGTGACAG TGGCTGTTATTCAGGGA AGCTACCACGGTGACAG TAACA AA TAACA
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTT AAATGGTAAAAAGAAAC GACGCTCTTCCGATCTT GTGTGCTCTTCCGATCT
HBB_6
CCACTTTGTTAGTCAGG TCAAATGC CCACTTTGTTAGTCAGG GGATACCACTGGGCTTC AGATTC AGATTC TGA
GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
TTCAAATCTGGAAAATA GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTT GTGTGCTCTTCCGATCT
醒― 7
ATCTATCACC ATTTCCAGGCTATGCTT TTCATACCCTTTCCCGT ATTTCCAGGCTATGCTT CCA TC CCA
[표 13]
HEK2 ¾ I¾ I層爾
1s t PCR 2nd PCR
ID
Forward (5 ' to3 ' ) Rever se (5 ' to3 ' ) Forward (5 ' to3 ' ) Reverse ( 5 ' to3 ' )
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTC TTTTCTTGTGAAACAGA GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
HE 2_1
GTACTATGCAAGCCACA AATGTCA GTACTATGCAAGCCACA AATGCTCCCACACCATT TTG TTG TTT
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
HEK2—2
GACGCTCTTCCGATCTA TTCCCAAGTGAGAAGCC GACGCTCTTCCGATCTA GTGTGCTCTTCCGATCT
(on
GGACGTCTGCCCAATAT AGT GGACGTCTGCCCAATAT AAAATTGTCCAGCCCCA
t arget )
GT GT TCT
GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
ATTTACAAAACTTAGGA GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTT GTGTGCTCTTCCGATCT
HEK2_3
GAATCAAAGG CAGCTGCTGTTATCCTT CAAAGGAAAAGCAACGT CAGCTGCTGTTATCCTT CCTC GA CCTC
[표 14]
Figure imgf000052_0001
AGCAG CAGTG AGCAG
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
TTATGCGGCAAAACAA CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT AATG CTTCGTCGCTGACAAT TGATCTCATCCCCTGT CTTCGTCGCTGACAAT
HEK3_4 TTCTGA TGACC TTCTGA
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
TGTTATCAACTGGGGG CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT TTGC CTTCCTTCATGGACTG TAGAGGGGCATCTCGT CTTCCTTCATGGACTG
HEK3_5 GTAGGC GTAGA GTAGGC
ACAGTCTTTCCCTACA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA CGACGCTCTTCCGATC AAGCTATGATGTGATG CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT TTGTGTGCATGGTTCA TGACTGG TTGTGTGCATGGTTCA CTCATGGTGTCTCACC
HE 3_6 TCTCC TCTCC CCTGTA
GTGACTGGAGTTCAGA ACACTCTTTCCCTACA GTGACTGGAGTTCAGA
GCCATGATCCTCGTGA CGTGTGCTCTTCCGAT CGACGCTCTTCCGATC CGTGTGCTCTTCCGAT TTTT CTACTTACCGAAGGCA TTCTCATGCTGTCTTG CTACTTACCGAAGGCA
HEK3_7 GGGACT GATAAACA GGGACT
[표 15]
« 、 ÷. ¾ , HEK4 ■麵墨 曙
1st PCR 2nd PCR
ID
Forward (5 ' to3 ' ) Reverse (5 ' to3 ' ) Forward (5 ' to3 ' ) Reverse (5 ' to3 ' )
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
HEK4_1
GACGCTCTTCCGATCTC GACGTCCAAAACCAGAC GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
(on
TCCCTTCAAGATGGCTG TCC TCCCTTCAAGATGGCTG ACTCCTTCTGGGGCCTT
target )
AC AC TT .
GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
TCCCCAATGTTTTCTTG GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTT GTGTGCTCTTCCGATCT
HE 4_2
TGA GATTACACAGAGGAGGC AGAAGCGGACCCCACAT GATTACACAGAGGAGGC ACCA AG ACCA
GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
TGAGAGAACATGGTGCT GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTG GTGTGCTCTTCCGATCT
HE 4_3
TTG AGGCTGTGGTAGGGACT AATGTGGACAGCATTGC AGGCTGTGGTAGGGACT CAC AT CAC
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTC AACCAACATGGTGGGAC GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
HEK4_4
CAGMGAGTGTGGTGCA ACT CAGMGAGTGTGGTGCA AGGCTGTGGTGAAGAGG GT GT ATG
GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
GGAGTTAGGCGTAGCTT GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTA GTGTGCTCTTCCGATCT
HEK4_5
CAGG CCTGGCACAGACCTTCC ATCCAATCAATGGGAGC CCTGGCACAGACCTTCC TAA AT TAA
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTA GCTGGTCATGCAGTGTC GACGCTCTTCCGATCTA GTGTGCTCTTCCGATCT
HE 4_6
AAGCCCAGCTCTGCTGA TGT AAGCCCAGCTCTGCTGA CCCCATTTCTGCCTGAT TA TA TT
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
TGGGCTCAACCCAGGTG
HEK4_7 GACGCTCTTCCGATCTG GACGCTCTTCCGATCTG GTGTGCTCTTCCGATCT
T GGCATGGCTTCTGAGAC GGCATGGCTTCTGAGAC CCGGATGATTCTCCTAC T T TTCC
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTG AGTTGTGGGGTTTTCTG GACGCTCTTCCGATCTG GTGTGCTCTTCCGATCT
HE 4_8
CCAACTAGAGGCAGACA CTG CCAACTAGAGGCAGACA ATTCTGGAGGCAACTCC GG GG TCA
GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
GGCAAAACCCATTCCAG GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTA GTGTGCTCTTCCGATCT
HE 4_9
AAG TGTTAGGAGCTCCCCAT CCACGTCAGGACTTGTG TGTTAGGAGCTCCCCAT CAC TG CAC
GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
ATGTTAGCCGGGATGGT GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTG GTGTGCTCTTCCGATCT
HEK4_10
CTA TCCAGGGTATCAGGAAA ATCTCTTGACTTGGTGA TCCAGGGTATCAGGAAA GGTT TCCA GGTT
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTA CACAGCCCATCTCTCCA GACGCTCTTCCGATCTA GTGTGCTCTTCCGATCT
HEK4_11
AATCCTCAGCACACGAC CTC AATCCTCAGCACACGAC TGGGCTCCAACCTCTTC AA AA TAA
GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
CCCTGGTGAGCAAACAC GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
HE 4_12
AC CAGGTCCTGTGCCACCT CCACGTGGTATTCACCT CAGGTCCTGTGCCACCT C CT C
GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
GCCATCTAATCACAGCC GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
HEK4— 13
ACA GCATCTTGTCCCTTCTC TCCTGGGTGCTCAGACT GCATCTTGTCCCTTCTC AGC TC AGC
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTG CACCATGCCTGGCTAAT GACGCTCTTCCGATCTG GTGTGCTCTTCCGATCT
HE 4_14
TTGAGAAGCAGCAAGGT TTT TTGAGAAGCAGCAAGGT TTAGTAGGGACGGGGTT GA GA TCA
GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
CAGAACCCAAGGCTCTT GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTT GTGTGCTCTTCCGATCT
HEK4_15
GAC ATTTTGCTCAGACCCAG CCAAGATGCCTTCTGCT ATTTTGCTCAGACCCAG CAT CT CAT
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTA TTTCTCACGATGACATT GACGCTCTTCCGATCTA GTGTGCTCTTCCGATCT
HEK4—16
ACAGAGCCCTGCAGAAC TTGG ACAGAGCCCTGCAGAAC CGGAGGAGGTAGATTGG AT AT AGA
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTC TGTTCCTAGAGCAACCT GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
HEK4_17
ATGTATGCAGCTGCTTT TCACA ATGTATGCAGCTGCTTT GGAGAGCCAGAGTGGCT TGA TGA AAA
GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
CTGAAAGAGGGAGGGGA GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
HEK4_18
GAC CTTCGCCAGGTCTTCTG TCGGGAGAGAGGAAAGG CTTCGCCAGGTCTTCTG TTC AC TTC
ACACTCTTTCCCTACAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC GACGCTCTTCCGATCTC GACGCATCCCACCTCCT GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
HEK4—19
CCGGCCGATTTAACTTT C CCGGCCGATTTAACTTT CTGGGGCACGAAATGTC TA TA C GTGACTGGAGTTCAGAC ACACTCTTTCCCTACAC GTGACTGGAGTTCAGAC
CCAGGAACAGAGGGACC GTGTGCTCTTCCGATCT GACGCTCTTCCGATCTC GTGTGCTCTTCCGATCT
HE 4_20
AT CCTGGTTCCAGTCACCT CAGGTCCAGAGACAAGA CCTGGTTCCAGTCACCT
CTC CG CTC
7은 Cas9 뉴클레아제- 및 base editor-처리 유전체 DNA의
Digenome-seq에 의해 확인된 DNA 절단 점수가 2.5 이상인 부위의 수를 보여주는 벤 다이어그램이다.
상기 결과에서 알 수 있는 바와 같이, 7 개의 표적 유전자에 대하여 BE3 디아미나제와 USER를 함께 사용하는 경우, 시험관 내에서, 단 1-24 (8±3) 위치에서 인간 유전체 DNA를 절단하였으며, 이는 다중 Digenome- seq 분석 (Kim, D. , Kim, S. , Kim, S. , Park, J. & Kim, J .S. Genome-wide target specificities of C ISPR-Cas9 nucleases revealed by multiplex Digenome-seq. Genome research 26, 406-415 (2016))에서 동일한 sgRNA 세트와 함께 사용되는 Cas9 뉴클레아제의 절단 위치 (70±30 위치)보다 훨씬 적은 수준이다 (도 7). 즉, BE3는 Cas9보다 비표적 사이트를 절단할 잠재성이 낮다고 할 수 있다. Digenome으로 확인 된 위치를 비교하여 얻은 서열 로고 (Sequence logos)는 PAM-원위 영역과 PAM-근위 영역 모두 BE3 디아미나제의 특이성에 기여하는 것으로 확인되었다 (도 6c, d).
잠재적인 바표적 위치를 보다 포괄적으로 식별하기 위해 컴퓨터 프로그램을 개선하였다 (Digenome 2.0이라고 함). 이를 보다 상세히 설명하면 다음과 같다: DNA 절단 점수가 0.0001에서 10 사이의 컷오프 값 이상인 위치의 개수와, 상기 컷오프 값 이상의 점수를 갖는 위치들 중에서, 표적 위치와 비교한, 10 이하의 미스매치를 가지며 PAM (5'-NGN-3' 또는 5'-顯(^-3')을 가지고 았는 후보군의 개수를 계산하였다 (도 8). 도 8은 DNA 절단 점수의 범위에 대한 총 사이트 수 (國)와 10 개 이하의 mismatches (ᄆ)가 있는 PAM 함유 사이트 수를 보여주는 그래프이다. 이는 손상되지 않은 인간 유전체 DNA (왼쪽)와 BE3 및 USER (오른쪽)에 의해 분해된 유전체 DNA에 대하여 전체 유전체 시퀀성 (whole genome sequencing )을 수행하여 얻어진 결과이다. 도 8에 나타난 바와 같이, BE3와 USER로 처리되지 않아서 손상되지 않은 유전체 DNA를 음성대조군으로 사용하여 얻은 WGS 데이터가 컷오프 점수가 0.1인 경우 false-positive sites를 생성하지 않았으므로, 컷오프 점수 0.1을 선택하였다 (도 8). 이러한 결과에 기초하여, Digenome 2.0에 의한 비표적 위치 결정에서는 DNA cleavage score가 0.1 이상이며 10 이하의 미스매치를 가지고 PAM (5'-NGN-3' 또는 5'_NNG-3') 을 가지고 있는 site를 비표적 위치로 결정한다. 한편, Digenome 1.0에 의한 비표적 위치 결정에서는 DNA cleavage score가 2.5 이상인 site를 비표적 위치 후보군으로 결정한다 .
Digenome 2.0을 사용하여, 이전의 연구 (Kim, D., Kim, S. , Kim, S. , Park, J. & Kim, J.S. Genome-wide target specificities of CRISPR-Cas9 nucleases revealed by multiplex Digenome-seq. Genome Res (2016))에서 놓쳤으나 EMX1에 특이적인 Cas9를 사용하여 HTGTS 및 GUIDE-seq에 의해 캡쳐된 두 개의 사이트를 포함하여, 추가적인 BE3- 및 Cas9-관련 DNA 절단 위치를 확인할 수 있다. 도 9는 Cas9 nuclease- 및 Base editor- 처리 유전체 DNA의 Digenome-seq에 의해 확인 된 0.1 이상의 DNA 절단 점수를 갖는 PAM-포함 상동성 부위의 수를 보여주는 벤다이어그램이다. BE3 디아미나제는 in vitro에서 1—67 (18 ±9) 위치에서 염기 전환을 유도하는 반면, Cas9 뉴클레아제는 30-241 (90±30) 위치에서 유전체 DNA를 절단하였다. 실시예 5. Digenome-seq에 의하여 포획된 상동성 부위 (homologous sites)의 비율
도 7및 도 9에 나타난 BE3-관련 위치 및 Cas9-관련 위차를 보다 상세히 조사하였다. 도 10은 Digenome-seq에 의해 포획된 상동성 부위의 비율을 보여주는 것으로, 막대는 표적 (표적 ) 부위와 6 nt까지 다른 상동성 부위의 수를 나타내고, 사각형 (BE3)과 삼각형 (Cas9)은 미스매치 숫자의 범위에 대해 Digenome-seq 포획 사이트의 비율을 나타낸다. 도 10에 나타난 바와 같이, mismatch의 개수와 관계없이, Cas9를 사용하는 경우와 비교하여, BE3를 사용하는 경우에 Digenome-seq에 의해 확인되는 homo 1 ogous sites가 더 적었다.
도 lla 및 lib는 Digenome 1.0 (lla) 및 Digenome 2.0 (lib)에 의해 확인 된 BE3-와 Cas9-관련 사이트의 수 사이의 상관관계를 보여주는 그래프이다. 도 lla 및 lib에 나타난 바와 같이, Cas9-관련 위치와 BE3- 관련 위치의 개수 사이에 통계적으로 유의한 상관 관계가 확인되었다 ( 쒜 (Score>2.5, Digenome 1.0) 또는 0.86 (Digenome 2.0)). 이러한 결과는 sgRNA가 Cas9 특이성과 BE3 특이성 모두의 1차적 결정 인자 (pr imary determinants)임을 제안한다.
또한, 도 12a 및 12b는 Digenome 1.0 (a) 또는 Digenome 2.0 (b)에 의해 확인 된 BE3 관련 사이트의 수와 6 개 이하의 미스매치가있는 사이트의 수 사이의 상관 관계를 보여준다. 도 12a 및 12b에 나타난 바와 같이, BE3 관련 Digenome 포획 부위의 수와 인간 유전체에서 6 이하의 미스매치를 갖는 상동성 부위 (homologous 사이트) ( "orthogonal i ty" )의 수 사이에 강한 상관 관계 [R2 = 0.94 (Digenome 1.0) 또는 0.95 (Digenome 2.0) ]가 있음을 확인하였다. 특히 홍미로운 것은 BE3 단독 또는 Cas9 단독과 관련 있다는 것이다. 홍미롭게도, DNA-gRNA 경계면에서 각각 RNA 또는 DNA bulge를 생산하는 각각의 표적 사이트와 비교했을 때, BE3 단독과 관련된 사이트의 69% (=18/26)가 일부가 결실되거나 연장된 뉴클레오타이드 (mi ss ing or extra nuc leot ides)를 가지고 있다 (표 1) . 대조적으로, 이러한 bulge-type 비표적 si tes는 Cas9 관련 부위에서는 드문 경우이다. Cas9와 관련된 사이트의 « (=25/647)만 일부 결실되거나 연장된 뉴클레오타이드를 갖는 것으로 나타났다.
도 13은 posi t ions 4-9에 시토신이 없는 Cas9에만 관련된 Digenome- 포획된 비표적 사이트의 예를 보여준다. Cas9 단독과 관련된 사이트의 13% (=73/548)는 BE3 매개 deaminat ion의 창 (window) (도 13)인, pos i t ions 4-8 (5 '에서 3 '방향으로 1-20로 번호 매겨짐 )의 위치에 시토신을 갖지 않는다.
Digenome-seq에 의해 확인된 BE3—관련 사이트에서 비표적 효과를 확인하기 위하여, HEK293T 세포에서 표적 심부 시퀀싱 (targeted deep sequencing)을 수행하고 BE3 유도 치환 빈도와 Cas9 유도 indel 빈도를 측정하여, 앞서 설명한 도 6e 내지 6h 및 다음의 표 16에 나타내었다.
[표 16]
Digenome-seq에 의하여 포획된 표적 부위 및 비표적 부위에서의 Cas9 및 BE3의 돌연변이 빈도 9S
Figure imgf000058_0001
9^00T0/Z,T0ra¾/I3d
Figure imgf000059_0001
9^0010/ LlOZ i/lDd
Figure imgf000060_0001
/ 9soosZJ02/:xI>d OAV
Figure imgf000061_0001
. O
Figure imgf000062_0001
Figure imgf000063_0001
//:/ O 9soosZJ02xI>d z.mso8sAV
^讀. ε ε δs έ- .
δ o o o o
Figure imgf000064_0001
r
I
Figure imgf000065_0001
^9
Figure imgf000066_0001
誦 1誦 i|誦醫置 lis?
墓 s
Figure imgf000066_0002
:墓 »
Figure imgf000066_0003
Figure imgf000066_0004
:
ø m Φ
φ
Figure imgf000066_0005
S00T0/Z.l0ZaM/X3d 7 개의 sgRNA를 사용하여 확인 된 총 75 개의 사이트를 분석하고, 7개의 표적 sites 모두를 포함하여, 시뭔싱 오류 (일반적으로 0.1 ~ 2 %의 범위 내)로 인한 노이즈 수준을 초과하는 빈도를 갖는 50 개 사이트에서 BE3 유도 점 돌연변이를 관찰하였다 (유효성 검사 비율은 67 . BE3는 background noise 수준보다 낮은 빈도를 갖는 다른 BE3-관련 Digenome- 양성 부위에서 여전히 돌연변이를 유도할 수 있다. 중요한 점은, base editing이 0.1 %의 빈도로 검출되는 BE3 비표적 sites를 확인할 수 있으며 이는 Digenome-seq은 매우 민감한 방법이라는 것을 보여 준다. Cas9 뉴클레아제는 Cas9와 BE3 모두와 연관된 사이트의 70 % (= 44/63)에서 indels을 검출 가능한 정도로 유도하지만, BE3 단독과 관련된 12 개의 각각의 사이트에서는 이러한 활성을 나타내지 않았다 (표 2-8).
도 14a 내지 14c는 3 개의 다른 Cas9 뉴클레아제와 관련된 Digenome-captured 사이트의 염기 교정 효율을 보여준다. 도 14a 내지 14c에 나타난 바와 같이, BE3은 3 개의 상이한 Cas9 뉴클레아제 단독과 관련된 24 개의 Digenome-양성 부위에서 검출 가능한 치환을 야기하지 않았다. 또한, 도 15a 내지 15c는 Digenome-음성 사이트에서 3 가지 서로 다른 BE3 디아미나제의 염기 교정 효율을 보여준다. 도 15a 내지 15c에 나타난 바와 같이, 상기 3개의 BE3 디아미나제는 Cas-0FFinder(Bae, S., Park, J. & Kim, J.S. Cas-OFFinder: A fast and versatile algorithm that searches for potential 비표적 sites of Cas9 RNA-guided endonuc leases. Bioinformat ics (2014))를 사용하여 식별된 < 3 개 미스매치를 갖는 28 개 Digenome 음성 사이트에서 base editing을 유도하지 못하였다 (도 15a-15c). BE3 유도 치환와 빈도는 Cas9 매개 indels 빈도와 높은 상관성을 나타내었다 [R2 = 0.92 (EMX1) 또는 0.89 (HBB)] (도 6e, f). 그럼에도 불구하고ᅳ BE3에 의해 검증되지만 Cas9에 의해서는 검증되지 않은 비표적 사이트가 다수 존재한다. 이러한 유효성이 확인된 BE3 독점 오프 타겟 사이트 (BE3-exclusive 비표적 sites) 중 64 % (= 7/11)는 이들 각각의 표적 sites와 비교하여 일부 결실된 뉴클레오타이드를 갖는다. 이러한 결과는 Cas9와 BE3의 비표적 사이트가 많은 부위에서 서로 증첩되지만, Cas9 단독 또는 BE3 단독과는 서로 배타적으로 관련된 비표적 사이트가 있다는 것을 보여준다 (도 10). 실시예 6. 변형 sgRNA를통한 BE3비표적 효과의 감소
BE3 비표적 효과를 줄이기 위해, 기존의 sgRNA (gX19 또는 GX19 ; g 및 G는 각각 mi smatched 및 matched 구아닌을 의미함)을 truncated sgRNAs (gXis 또는 gX17에서 종결됨) 또는 5 ' 말단에 하나 또는 2개의 구아닌을 추가로 포함하는 연장 (extended) sgRNA (gX20 또는 ggX20이라고 칭함)로 대체하고 HEK293T 세포에서의 표적 및 비표적 base— edi t ing 빈도를 측정하여 그 결과를 도 16 내지 도 17 및 표 17에 나타내었다.
[표 17]
변형 sgRNA를 통한 BE3 비표적 효과 분석
L9
Figure imgf000069_0001
S00l0/Z,T0rHX/I3d Z,mS0/8l0Z OAV
Figure imgf000071_0001
/I3d
Figure imgf000072_0001
0 - ft fe ft &- ·
^ c S w W
ο ο &ο d-· -, a
Figure imgf000073_0001
¾5
g ^ ^ ¾ I ^ SS -^ ^ § E ¾ ^
^ -111111
Figure imgf000073_0002
' o
O
Figure imgf000073_0003
ΰ C C C
Figure imgf000074_0001
c A Q G
!.03 dos
OM \.ύ?
0.Ϊ5
gxi7 ft
A - Q o o
Figure imgf000074_0002
Figure imgf000075_0001
Figure imgf000076_0001
Figure imgf000076_0002
Figure imgf000077_0001
Figure imgf000077_0002
C :
005
Hi 4„3
C
Figure imgf000078_0001
^ «
§
o
00 o ΰ o o Γ . $ 0
Figure imgf000078_0002
Q Τ G € Λ Ο C3 ϊ ø G A G G
Figure imgf000079_0001
G 0 C ; A C : ΐ C .0 G
0νΡ2
8 ^sj Ο.03
GX19 0.10 【 32」 Ο.Οβ 0.02
GXi e m QM G,06 ' 0,01
Si t7 0.10 0,04 0.09 0,02
Figure imgf000080_0001
^17
도 16a는 기존 sgRNA (gX19 sgRNA) , 절단된 (truncated) sgRNA (gX18 또는 gX17 sgRNA) 및 연장 (extended) sgRNA (gX20 또는 ggX20 sgRNA)를 도식적으로 보여준다. 도 16b는 HEK293T 세포의 표적 사이트 및 비표적 사이트의 염기 교정 빈도를 표적 심독 시퀀싱으로 측정한 결과를 보여준다. 특이성 비율 (speci f i ci ty rat io)은 표적 (on— target ) 위치에서의 염기 교정 빈도를 표적 밖 (of f-target )의 위치에서의 염기 교정 빈도로 나누어 계산하였다. heatmap은 기존의 sgRNA와 비교하여 변형 된 sgRNA의 상대적 특이성을 나타낸다.
도 17은 변형된 sgRNA를 사용하여 BE3 비표적 효과를 감소시킬 수 있음을 보여주는 것으로, 17a는 기존의 sgRNA (GX19 sgRNA)와 변형된 • sgRNA (GX17 sgRNA, gX18 sgRNA, gX20 sgRNA 및 ggX20 sgRNA)의 개략적으로 보여주고, 도 17b는 HEK293T 세포에서 표적 심층 시뭔싱에 의해 EMX1 표적 사이트 및 비표적 사이트에서 측정된 염기 교정 효율 (빈도)를 보여주는 결과이다.
도 16a , 16b, 17a , 및 17b에 나타난 바와 같이, Truncated sgRNAs는 많은 위치에서 비표적 효과를 감소시켰지만, 5 ' 말단에 미스매치를 갖는 사이트에서는 비표적 효과가 악화되었다 (도 16b 및 도 17b에서 별표로 표시됨) . 연장 sgRNA는 표적 효과는 유지하면서 거의 모든 사이트에서 비표적 효과를 감소시켰다. 홍미롭게도, 연장된 sgRNA 중 일부는 기존의 sgRNA보다 표적 부위에서 보다 높은 활성을 나타내었다 (표 17) . 감쇄된 (attenuated) Cas9 변이체의 사용 또는 플라스미드보다는 BE3 RNP를 전달함으로써 base edi t ing 의 유전체 -전체 특이성을 보다 향상시킬 수 있다. 요약하면, 미스매치 sgRNAs , Digenome-seq 및 표적 심층 시뭔싱을 사용하여 얻은 결과는 BE3 디아미나제가 고도로 특이적으로 in vi tro에서의 C-U 전환 및 인간 세포에서 인간 유전체의 제한된 개수의 위치에서의 base edi t ing을 촉매하는 것으로 나타났다. 또한 BE3 및 Cas9 오프 타겟 사이트가 항상 일치하는 것은 아니며, 따라서 각 유전자 편집 도구에 대해서 독립적인 평가가 이루어져야 함을 확인하였다. 우리는 우리의 결과와 방법이 연구 및 의학에서 RNA 유도 프로그램 가능한 디아미나제의 광범위한 사용을 촉진할 것으로 기대한다. 실시예 Ί . BE1 (rAP0BECl-dCas9)-매개 이중가닥절단 (DSBs) 표적 서열 (ENX1 on-target 서열; 서열번호 31)을 함유하는 PCR amp H con을 in vitro에서 BE1 (rAP0BECl-dCas9; 실시예 2)와 sgRNA (서열번호 31를 표적화하는 sgRNA)와 함께 배양하여 표적 서열 내 시토신을 우라실로 변환시켰다. rAPOBECl에 의해 변환된 Uracil은 USER (Uraci 1-Speci f ic Excision Reagent ) Enzyme (New England Biolabs)를 처리하여 제거하였다. 그 후, SI 뉴클레아제 (Catalog #M5761; Promega)를 처리하여 단일 가닥 DNA 부위의 phophodi ester 결합을 절단하여 시토신이 제거 된 부위에서 DSB를 생성하였다 (도 22의 a).
상기 반웅이 완료된 PCR ampicon을 전기영동한 결과, BEl/sgRNA, USER 및 SI Nuclease 처리에 의해 절단 생성되었음이 확인되었다 (도 22의 b). 이상의 설명으로부터, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 이와 관련하여, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허 청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

【청구의 범위】
【청구항 11
( 1) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드, (2) 가이드 RNA , 및 (3) 우라실-특이적 제거 시약을 포함하고, 상기 불활성화된 표적특이적 엔도뉴클레아제는 엔도뉴클레아제 활성을 상실한 불활성화된 표적특이적 엔도뉴클레아제이고,
상기 우라실-특이적 제거 시약은 우라실 DNA 글라이코실라제, 엔도뉴클레아제 VI I I , 및 이들의 조합을 포함하는 것인,
시토신 디아미나제를 사용하는 DNA 이중 가닥 절단용 조성물.
【청구항 2】
제 1항에 있어서, 상기 불활성화된 표적특이적 엔도뉴클레아제는 DNA 이중 가닥을 절단하는 엔도뉴클레아제 활성을 상실한 Cas9 단백질 또는 Cpf l 단백질인, 시토신 디아미나제를 사용하는 DNA 이중 가닥 절단용 조성물.
【청구항 3]
제 2항에 있어서, 상기 불활성화된 표적특이적 엔도뉴클레아제는 스트렙토코커스 피요젠스 { Streptococcus pyogenes) 유래의 Cas9 단백질에 아미노산 잔기 D10이 다른 아미노산으로 치환된 돌연변이가 도입된 것인, 시토신 디아미나제를 사용하는 DNA 이중 가닥 절단용 조성물.
【청구항 4]
제 1항에 있어서,
시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제는 융합 단백질 형태이거나,
상기 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자는 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 포함하는 융합 단백질을 암호화하는 유전자인,
시토신 디아미나제를 사용하는 DNA 이중 가닥 절단용 조성물. 【청구항 5]
제 1항에 있어서,
상기 불활성화된 표적특이적 엔도뉴클레아제는 스트템토코커스 피요젠스 Streptococcus pyogenes) 유래의 Cas9 단백질에 아미노산 잔기 D10가 다른 아미노산으로 치환된 돌연변이와 아미노산 잔기 H840이 다른 아미노산으로 치환된 돌연변이가 모두 도입된 것이고,
상기 조성물은 DNA의 단일 가닥 부위를 특이적으로 절단하는 엔도뉴클레아제를 추가로 포함하는 것인,
시토신 디아미나제를 사용하는 DNA 이중 가닥 절단용 조성물.
【청구항 6】
거 U항 내지 게 5항 중 어느 한 항에 있어서, 상기 가이드 RNA는 crRNA와 tracrRNA가 서로 결합된 이중 가닥 crRNA: tracrRNA 복합체, 또는 단일 가닥 가이드 RNA (sgRNA)인, 시토신 디아미나제를 사용하는 DNA 이중 가닥 절단용 조성물.
【청구항 7】
(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA 와 함께 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계 ; 및
(ii) 우라실-특이적 제거 시약 (Uracil -Specific Excision Reagent; USER)을 처리하는 단계
를 포함하는, 시토신 디아미나제를 사용하여 DNA에 이중 가닥 절단 (double strand break)를 생성하는 방법 .
【청구항 8】
(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA 와 함께 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계 ; (ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계 ; 및
(iii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계
를 포함하는 , 시토신 디아미나제에 의하여 염기 교정 (base editing)이 도입된 DNA의 핵산 서열 분석 방법.
【청구항 9】
(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA 와 함께 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계 ;
(ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계 ;
(iii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계; 및
(iv) 상기 분석에 의여 수득된 핵산 서열 데이터에서 상기 이증 가닥 절단 위치를 확인하는 단계
를 포함하는, 시토신 디아미나제의 염기 교정 위치 확인 방법 .
【청구항 10】
(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 블활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA 와 함께 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계 ;
(ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계 ;
(iii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계; 및
(iv) 상기 분석에 의여 수득된 핵산 서열 데이터에서 상기 이중 가닥 절단 위치를 확인하는 단계
를 포함하는, 시토신 디아미나제의 비표적 위치 (off-target site) 확인 방법 . 【청구항 111
거 17항 내지 제 10항 중 어느 한 항에 있어서, 상기 불활성화된 표적특이적 엔도뉴클레아제는 DNA 이중 가닥을 절단하는 엔도뉴클레아제 활성을 상실한 Cas9 단백질 또는 Cpf l 단백질인, 방법.
【청구항 12】
거 17항 내지 제 10항 중 어느 한 항에 있어서, 상기 불활성화된 표적특이적 엔도뉴클레아제는 스트렙토코커스 피요젠스 { Streptococcus pyogenes) 유래의 Cas9 단백질에 아미노산 잔기 D10이 다른 아미노산으로 치환된 돌연변이가 도입된 것인, 방법.
【청구항 13】
제 7항 내지 제 10항 중 어느 한 항에 있어서,
시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제는 융합 단백질 형태이거나,
상기 시토신 디아미나제 암호화 유전자 및 Cas9 단백질 암호화 유전자는 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 포함하는 융합 단백질을 암흐화하는 유전자인,
방법.
【청구항 14】
거 17항 내지 제 10항 중 어느 한 항에 있어서,
상기 불활성화된 표적특이적 엔도뉴클레아제는 스트램토코커스 피요젠스 Streptococcus pyogenes) 유래의 Cas9 단백질에 아미노산 잔기 D10가 다른 아미노산으로 치환된 돌연변이와 아미노산 잔기 H840이 다른 아미노산으로 치환된 돌연변이가 모두 도입된 것이고,
상기 단계 ( Π ) 이후에, DNA의 단일 가닥 부위를 특이적으로 절단하는 엔도뉴클레아제를 처리하는 단계를 추가로 포함하는,
방법.
【청구항 15】
제 7항 내지 제 10항 중 어느 한 항에 있어서, 상기 가이드 R A는 crRNA와 tracrRNA가 서로 결합된 이중 가닥 crRNA : t racrRNA 복합체, 또는 단일 가닦 가이드 RNA (sgRNA)인, 방법 .
【청구항 16】
제 7항 내지 제 10항 중 어느 한 항에 있어서, 시험관 내 ( in vitro)에서 수행되는 것인, 방법.
【청구항 17]
제 7항 내지 제 10항 중 어느 한 항에 있어서, 상기 단계 (i)의 세포로부터 분리된 DNA는 유전체 DNA인, 방법 .
【청구항 18】
제 8항 내지 제 10항 중 어느 한 항에 있어서,
단계 (i)의 세포로부터 분리된 DNA는 유전체 DNA이고,
단계 (iii)의 핵산 서열 분석은 전체 유전체 시퀀싱에 의하여 수행되는 것인, 방법
【청구항 19】
제 10항에 있어서, 상기 단계 (iv) 이후에,
상기 절단 위치가 표적 위치 (on-target site)가 아닌 경우, 비표적 위치 (off-target site)로 판단하는 단계를 추가로 포함하는, 방법.
【청구항 20】
제 10항에 있어서,
상기 단계 (iv)에서 확인된 절단 위치는 수득한 염기서열 데이터를 정렬하여 5' 말단이 수직 정렬된 위치, 또는 5' 말단 플롯에서 이중 피크 패턴을 보이는 위치인 것인, 방법.
【청구항 21】
제 20항에 있어서 , 상기 정렬은 표준 염기서열 (reference genome)로 염기서열 데이터를 맵핑한 뒤, BWA/GATK 또는 ISAAC을 이용하여 수행되는 것인, 방법.
【청구항 22]
제 20항에 있어서, 왓슨 가닥 (Watson strand)과 크릭 가닥 (Crick strand)에 해당하는 염기서열 데이터 (sequence read)가 각각 두 개 이상씩 수직으로 정렬되는 위치를 비표적 위치인 것으로 판단하는 단계를 추가로 포함하는, 방법 .
【청구항 23]
제 20항에 있어서, 20 % 이상의 염기서열 데이터가 수직으로 정렬되고, 각각의 왓슨 가닥 및 크릭 가닥에서 동일한 5' 말단을 가진 염기서열 데이터의 수가 10 이상인 위치가 비표적 위치인 것으로 판단하는 단계를 추가로 포함하는, 방법 .
PCT/KR2017/010056 2016-09-13 2017-09-13 시토신 디아미나제에 의한 dna에서의 염기 교정 확인 방법 WO2018052247A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019514036A JP2019526271A (ja) 2016-09-13 2017-09-13 シトシンデアミナーゼによるdnaでの塩基編集確認方法
EP17851121.8A EP3530737A4 (en) 2016-09-13 2017-09-13 METHOD FOR IDENTIFYING DNA BASE EDITING USING CYTOSINE DEAMINASE
US16/332,036 US11920151B2 (en) 2016-09-13 2017-09-13 Method for identifying DNA base editing by means of cytosine deaminase

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662393682P 2016-09-13 2016-09-13
US62/393,682 2016-09-13
US201762445310P 2017-01-12 2017-01-12
US62/445,310 2017-01-12

Publications (1)

Publication Number Publication Date
WO2018052247A1 true WO2018052247A1 (ko) 2018-03-22

Family

ID=61620065

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/010056 WO2018052247A1 (ko) 2016-09-13 2017-09-13 시토신 디아미나제에 의한 dna에서의 염기 교정 확인 방법

Country Status (5)

Country Link
US (1) US11920151B2 (ko)
EP (1) EP3530737A4 (ko)
JP (1) JP2019526271A (ko)
KR (1) KR102026421B1 (ko)
WO (1) WO2018052247A1 (ko)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10428319B2 (en) 2017-06-09 2019-10-01 Editas Medicine, Inc. Engineered Cas9 nucleases
CN110804628A (zh) * 2019-02-28 2020-02-18 中国科学院上海生命科学研究院 高特异性无脱靶单碱基基因编辑工具
CN110938658A (zh) * 2018-09-21 2020-03-31 中国科学院上海生命科学研究院 一种抗体进化方法及其应用
US11028429B2 (en) 2015-09-11 2021-06-08 The General Hospital Corporation Full interrogation of nuclease DSBs and sequencing (FIND-seq)
JP2021521786A (ja) * 2018-04-17 2021-08-30 ザ ジェネラル ホスピタル コーポレイション 核酸を結合、修飾、および切断する物質の基質選択性および部位のためのin vitroでの高感度アッセイ
CN113661248A (zh) * 2019-02-02 2021-11-16 上海科技大学 基因编辑中非预期突变的抑制
US11236313B2 (en) 2016-04-13 2022-02-01 Editas Medicine, Inc. Cas9 fusion molecules, gene editing systems, and methods of use thereof
CN114144519A (zh) * 2019-05-22 2022-03-04 株式会社图尔金 单碱基置换蛋白以及包含其的组合物
US11286468B2 (en) 2017-08-23 2022-03-29 The General Hospital Corporation Engineered CRISPR-Cas9 nucleases with altered PAM specificity
CN114317601A (zh) * 2021-11-22 2022-04-12 安徽大学 一种基于SviCas3的碱基编辑方法
US11390884B2 (en) 2015-05-11 2022-07-19 Editas Medicine, Inc. Optimized CRISPR/cas9 systems and methods for gene editing in stem cells
US11499151B2 (en) 2017-04-28 2022-11-15 Editas Medicine, Inc. Methods and systems for analyzing guide RNA molecules
US11597924B2 (en) 2016-03-25 2023-03-07 Editas Medicine, Inc. Genome editing systems comprising repair-modulating enzyme molecules and methods of their use
US11667911B2 (en) 2015-09-24 2023-06-06 Editas Medicine, Inc. Use of exonucleases to improve CRISPR/CAS-mediated genome editing
US11680268B2 (en) 2014-11-07 2023-06-20 Editas Medicine, Inc. Methods for improving CRISPR/Cas-mediated genome-editing
US11725228B2 (en) 2017-10-11 2023-08-15 The General Hospital Corporation Methods for detecting site-specific and spurious genomic deamination induced by base editing technologies
US11866726B2 (en) 2017-07-14 2024-01-09 Editas Medicine, Inc. Systems and methods for targeted integration and genome editing and detection thereof using integrated priming sites
US11911415B2 (en) 2015-06-09 2024-02-27 Editas Medicine, Inc. CRISPR/Cas-related methods and compositions for improving transplantation

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110234770A (zh) * 2017-01-17 2019-09-13 基础科学研究院 通过dna单链断裂识别碱基编辑脱靶位点的方法
CN111748546B (zh) * 2019-03-26 2023-05-09 复旦大学附属中山医院 一种产生基因点突变的融合蛋白及基因点突变的诱导方法
WO2021175287A1 (zh) * 2020-03-04 2021-09-10 中国科学院遗传与发育生物学研究所 检测单碱基编辑***随机脱靶效应的方法
KR20230068402A (ko) * 2020-09-18 2023-05-17 기초과학연구원 표적화된 탈아미노효소 및 이를 이용한 염기 교정
WO2022059928A1 (ko) * 2020-09-21 2022-03-24 고려대학교 산학협력단 신규의 개량된 염기 편집 또는 교정용 융합단백질 및 이의 용도
KR102399035B1 (ko) 2020-10-21 2022-05-17 성균관대학교산학협력단 산업 균주 내 온-타겟 효율의 감소 없이 오프-타겟이 없는 사이토신 염기 편집기를 발현하는 벡터 및 이의 용도
CN112553243B (zh) * 2020-12-11 2022-07-22 中国农业科学院棉花研究所 CRISPR/xCas9基因编辑***在棉花中的应用
CN116555237A (zh) * 2022-03-08 2023-08-08 中国科学院遗传与发育生物学研究所 胞嘧啶脱氨酶及其在碱基编辑中的用途

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150166980A1 (en) * 2013-12-12 2015-06-18 President And Fellows Of Harvard College Fusions of cas9 domains and nucleic acid-editing domains
WO2016022363A2 (en) * 2014-07-30 2016-02-11 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
KR20160058703A (ko) 2014-11-14 2016-05-25 기초과학연구원 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11201605550QA (en) * 2014-01-08 2016-08-30 Harvard College Rna-guided gene drives
TW201531569A (zh) * 2014-02-12 2015-08-16 Taiwan Sugar Corp 雙股核酸分子與s1核酸酶於檢測核酸修復酵素活性的用途
US20160369258A1 (en) 2014-03-11 2016-12-22 University Of Washington Restricting nuclear protein to specific phases of the cell cycle
EP4269577A3 (en) * 2015-10-23 2024-01-17 President and Fellows of Harvard College Nucleobase editors and uses thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150166980A1 (en) * 2013-12-12 2015-06-18 President And Fellows Of Harvard College Fusions of cas9 domains and nucleic acid-editing domains
WO2016022363A2 (en) * 2014-07-30 2016-02-11 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
KR20160058703A (ko) 2014-11-14 2016-05-25 기초과학연구원 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법

Non-Patent Citations (13)

* Cited by examiner, † Cited by third party
Title
BAE, S.; PARK, J.; KIM, J.S.: "Cas-OFFinder: A fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases", BIOINFORMATICS, 2014
FROCK, R.L. ET AL.: "Genome-wide detection of DNA double-stranded breaks induced by engineered nucleases", NATURE BIOTECHNOLOGY, 2014
KIM, D. ET AL.: "Digenome-seq: genome-wide profiling of CRISPR-Cas9 off-target effects in human cells", NATURE METHODS, vol. 12, 2015, pages 237 - 243, XP055287797, DOI: doi:10.1038/nmeth.3284
KIM, D. ET AL.: "Genome-wide analysis reveals specificities of Cpf1 endonucleases in human cells", NATURE BIOTECHNOLOGY, vol. 34, 2016, pages 863 - 868, XP055541967, DOI: doi:10.1038/nbt.3609
KIM, D.; KIM, S.; KIM, S.; PARK, J.; KIM, J.S.: "Genome-wide target-specificities of CRISPR-Cas9 nucleases revealed by multiplex Digenome-seq", GENOME RES, 2016
KIM, D.; KIM, S.; KIM, S.; PARK, J.; KIM, J.S.: "Genome-wide target-specificities of CRISPR-Cas9 nucleases revealed by multiplex Digenome-seq", GENOME RESEARCH, vol. 26, 2016, pages 406 - 415, XP055448257, DOI: doi:10.1101/gr.199588.115
KOMOR, A. C. ET AL.: "Programmable Editing of a Target Base in Genomic DNA without Double-stranded DNA Cleavage", NATURE, vol. 533, 19 May 2016 (2016-05-19), pages 420 - 424, XP055548777, DOI: doi:10.1038/nature17946 *
KUEH, AJ ET AL.: "The New Editor-targeted Genome Engineering in the Absence of Homology-directed Repair", CELL DEATH DISCOVERY, vol. 2, 13 June 2016 (2016-06-13), pages 1 - 2, XP055593859 *
NISHIDA, K. ET AL.: "Targeted Nucleotide Editing Using Hybrid Prokaryotic and Vertebrate Adaptive immune Systems", SCIENCE, vol. 353, no. 6305, 4 August 2016 (2016-08-04), pages 1248, XP055482712 *
RAN, F.A. ET AL.: "In vivo genome editing using Staphylococcus aureus Cas9", NATURE, vol. 520, 2015, pages 186 - 191, XP055484527, DOI: doi:10.1038/nature14299
See also references of EP3530737A4
TSAI, S.Q. ET AL.: "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases", NATURE BIOTECHNOLOGY, vol. 33, 2015, pages 187 - 197, XP055555627, DOI: doi:10.1038/nbt.3117
WANG, X. ET AL.: "Unbiased detection of CJIl£. cleavage by CRISPR-Cas9 and TALENs using integrase-defective lentiviral vectors", NATURE BIOTECHNOLOGY, vol. 33, 2015, pages 175 - 178, XP055548847, DOI: doi:10.1038/nbt.3127

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11680268B2 (en) 2014-11-07 2023-06-20 Editas Medicine, Inc. Methods for improving CRISPR/Cas-mediated genome-editing
US11390884B2 (en) 2015-05-11 2022-07-19 Editas Medicine, Inc. Optimized CRISPR/cas9 systems and methods for gene editing in stem cells
US11911415B2 (en) 2015-06-09 2024-02-27 Editas Medicine, Inc. CRISPR/Cas-related methods and compositions for improving transplantation
US11028429B2 (en) 2015-09-11 2021-06-08 The General Hospital Corporation Full interrogation of nuclease DSBs and sequencing (FIND-seq)
US11667911B2 (en) 2015-09-24 2023-06-06 Editas Medicine, Inc. Use of exonucleases to improve CRISPR/CAS-mediated genome editing
US11597924B2 (en) 2016-03-25 2023-03-07 Editas Medicine, Inc. Genome editing systems comprising repair-modulating enzyme molecules and methods of their use
US11236313B2 (en) 2016-04-13 2022-02-01 Editas Medicine, Inc. Cas9 fusion molecules, gene editing systems, and methods of use thereof
US11499151B2 (en) 2017-04-28 2022-11-15 Editas Medicine, Inc. Methods and systems for analyzing guide RNA molecules
US11098297B2 (en) 2017-06-09 2021-08-24 Editas Medicine, Inc. Engineered Cas9 nucleases
US10428319B2 (en) 2017-06-09 2019-10-01 Editas Medicine, Inc. Engineered Cas9 nucleases
US11866726B2 (en) 2017-07-14 2024-01-09 Editas Medicine, Inc. Systems and methods for targeted integration and genome editing and detection thereof using integrated priming sites
US11286468B2 (en) 2017-08-23 2022-03-29 The General Hospital Corporation Engineered CRISPR-Cas9 nucleases with altered PAM specificity
US11624058B2 (en) 2017-08-23 2023-04-11 The General Hospital Corporation Engineered CRISPR-Cas9 nucleases with altered PAM specificity
US11725228B2 (en) 2017-10-11 2023-08-15 The General Hospital Corporation Methods for detecting site-specific and spurious genomic deamination induced by base editing technologies
JP2021521786A (ja) * 2018-04-17 2021-08-30 ザ ジェネラル ホスピタル コーポレイション 核酸を結合、修飾、および切断する物質の基質選択性および部位のためのin vitroでの高感度アッセイ
US11845987B2 (en) 2018-04-17 2023-12-19 The General Hospital Corporation Highly sensitive in vitro assays to define substrate preferences and sites of nucleic acid cleaving agents
US11898203B2 (en) * 2018-04-17 2024-02-13 The General Hospital Corporation Highly sensitive in vitro assays to define substrate preferences and sites of nucleic-acid binding, modifying, and cleaving agents
JP7460539B2 (ja) 2018-04-17 2024-04-02 ザ ジェネラル ホスピタル コーポレイション 核酸を結合、修飾、および切断する物質の基質選択性および部位のためのin vitroでの高感度アッセイ
US11976324B2 (en) 2018-04-17 2024-05-07 The General Hospital Corporation Highly sensitive in vitro assays to define substrate preferences and sites of nucleic-acid binding, modifying, and cleaving agents
CN110938658B (zh) * 2018-09-21 2023-02-07 中国科学院分子细胞科学卓越创新中心 一种抗体进化方法及其应用
CN110938658A (zh) * 2018-09-21 2020-03-31 中国科学院上海生命科学研究院 一种抗体进化方法及其应用
CN113661248A (zh) * 2019-02-02 2021-11-16 上海科技大学 基因编辑中非预期突变的抑制
CN110804628A (zh) * 2019-02-28 2020-02-18 中国科学院上海生命科学研究院 高特异性无脱靶单碱基基因编辑工具
CN114144519A (zh) * 2019-05-22 2022-03-04 株式会社图尔金 单碱基置换蛋白以及包含其的组合物
CN114317601A (zh) * 2021-11-22 2022-04-12 安徽大学 一种基于SviCas3的碱基编辑方法

Also Published As

Publication number Publication date
US11920151B2 (en) 2024-03-05
JP2019526271A (ja) 2019-09-19
EP3530737A4 (en) 2020-04-29
US20200131536A1 (en) 2020-04-30
KR20180029937A (ko) 2018-03-21
KR102026421B1 (ko) 2019-09-27
EP3530737A1 (en) 2019-08-28

Similar Documents

Publication Publication Date Title
WO2018052247A1 (ko) 시토신 디아미나제에 의한 dna에서의 염기 교정 확인 방법
KR102084186B1 (ko) Dna 단일가닥 절단에 의한 염기 교정 비표적 위치 확인 방법
JP7038079B2 (ja) Crisprハイブリッドdna/rnaポリヌクレオチドおよび使用方法
US20200325471A1 (en) Compositions and methods for detecting nucleic acid regions
JP2024061716A (ja) 遺伝子編集用のcas多様体
US11840685B2 (en) Inhibition of unintended mutations in gene editing
US20220127622A1 (en) Compositions and Methods for Improving Base Editing
US10119133B2 (en) Using truncated guide RNAs (tru-gRNAs) to increase specificity for RNA-guided genome editing
JP2023517041A (ja) クラスiiのv型crispr系
KR102210700B1 (ko) 아데노신 디아미나아제를 이용한 염기 교정 확인 방법
Sczepanski et al. Nucleosome core particle-catalyzed strand scission at abasic sites
AU2015280069A1 (en) Genomewide unbiased identification of dsbs evaluated by sequencing (guide-seq)
CA3236512A1 (en) Compositions and methods for treating hemoglobinopathies
JP2023519953A (ja) クラス2のii型crisprシステム
CA3128886A1 (en) Compositions and methods for treating glycogen storage disease type 1a
CN111051522A (zh) 用于重组酶介导的选择性切割核酸的方法和组合物
KR102067810B1 (ko) 크로마틴 dna를 이용한 유전체 서열분석 방법 및 유전체 교정 확인 방법
JP2022545539A (ja) 初代ヒトT細胞へのGUIDE-Seqの実施方法
EP4347809A1 (en) Rna-guided cas omega nucleases and uses thereof in diagnostics and therapy

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17851121

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019514036

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017851121

Country of ref document: EP

Effective date: 20190415