KR102084186B1

KR102084186B1 - Dna 단일가닥 절단에 의한 염기 교정 비표적 위치 확인 방법

Info

Publication number: KR102084186B1
Application number: KR1020180005709A
Authority: KR
Inventors: 김진수
Original assignee: 기초과학연구원
Priority date: 2017-01-17
Filing date: 2018-01-16
Publication date: 2020-03-03
Also published as: WO2018135838A3; US20180258418A1; WO2018135838A2; JP2020505062A; CN110234770A; EP3572525A2; KR20180084671A; EP3572525A4

Abstract

시티딘 디아미나제, 불활성화된 표적특이적 엔도뉴클레아제, 및 가이드 RNA를 포함하는, DNA 단일 가닥 절단 (single strand break)용 조성물, 이를 이용한 DNA 단일 가닥 절단 (single strand break) 생성 방법, 염기 교정 (base editing)이 도입된 DNA의 핵산 서열 분석 방법, 및 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및/또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법이 제공된다.

Description

DNA 단일가닥 절단에 의한 염기 교정 비표적 위치 확인 방법{Method of identifying genome-wide off-target sites of base editors by detecting single strand breaks in genomic DNA}

시티딘 디아미나제(deaminase), 불활성화된 표적특이적 엔도뉴클레아제, 및 가이드 RNA를 포함하는, DNA 단일 가닥 절단 (single strand break)용 조성물, 이를 이용한 DNA 단일 가닥 절단 (single strand break) 생성 방법, 염기 교정 (base editing)이 도입된 DNA의 핵산 서열 분석 방법, 및 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및/또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법과 관련된 것이다.

DNA 결합 모듈과 시티딘 디아미나제(cytidine deaminase)를 포함하는 염기 교정기 (Base Editor; Programmable deaminase)는 DNA 이중 가닥 절단 (DNA double-strand breaks)을 생성하지 않고 유전체에서 표적화 된 뉴클레오티드 치환 또는 염기 교정을 가능하게 한다. 표적 부위에 작은 삽입 또는 결실 (indels)을 유도하는 CRISPR-Cas9 및 ZFN (zinc-finger nucleases)과 같은 programmable nucleases와 달리, programmable 디아미나제는 표적 부위에서 몇 개의 뉴클레오타이드 내에서 C를 T로 (또는 보다 적은 비율로 C를 G 또는 A로) 변환시킨다. 염기교정기는 인간의 세포, 동물 및 식물에 대한 유전 질환을 유발하는 점 돌연변이를 수정하거나 단일염기다형성 (single-nucleotide polymorphisms; SNP)을 생성 할 수 있다.

염기교정기는 다음의 4 종류가 보고되어 있다:

1) S. pyogenes에서 유래하는 촉매적으로 결핍된 Cas9 (catalytically-deficient Cas9; dCas9) 또는 D10A Cas9 니케이즈 (nCas9)와, 래트의 시티딘 디아미나아제인 rAPOBEC1를 포함하는 베이스 에디터 (Base Editors; BEs); 2) dCas9 또는 nCas9와, 바다칠성장어(sea lamprey)의 activation-induced cytidine deaminase (AID) ortholog인 PmCDA1 또는 인간 AID를 포함하는 Target-AID; 3) MS2-결합 단백질에 융합된 과활성화된 AID 변이체를 모집하기 위해 MS2 RNA 헤어핀에 연결된 sgRNAs와 dCas9를 포함하는 CRISPR-X; 및 4) 징크-핑거 단백질 또는 transcription activator-like effectors (TALEs)가 시티딘 디아미나제에 융합 된 것.

염기교정기에 의한 염기 교정(base editing)에 대한 광범위한 관심에도 불구하고, 염기교정기의 유전체 전체에 대한 표적 특이성을 분석할 수 있는 수단이 개발된 바가 없다. 따라서, 염기교정기의 유전체 전체에 대한 표적 특이성을 분석하여, 염기교정기의 염기 교정 효율, 비표적 사이트 (off-target site), 비표적 효과(off-target effect) 등을 분석할 수 있는 수단의 개발이 필요하다.

본 명세서에서는 염기교정기의 유전체 전체에 대한 표적 특이성을 분석할 수 있는 수단, 및 이를 통하여 염기교정기의 비표적 사이트, 비표적 효과 등을 분석할 수 있는 수단이 제공된다.

일 예는 (a) 디아미나제 또는 이의 암호화 유전자 (cDNA, rDNA, 또는 mRNA), (b) 불활성화된 표적특이적 엔도뉴클레아제 또는 이의 암호화 유전자(cDNA, rDNA, 또는 mRNA), 및 (c) 가이드 RNA 또는 이의 암호화 유전자를 포함하는, DNA 단일 가닥 절단 (single strand breaks)용 조성물을 제공한다. 상기 조성물은 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 포함하지 않는 것일 수 있다.

다른 예는, (a) 디아미나제 또는 이의 암호화 유전자 (cDNA, rDNA, 또는 mRNA), 및 (b) 불활성화된 표적특이적 엔도뉴클레아제 또는 이의 암호화 유전자(cDNA, rDNA, 또는 mRNA), 및 (c) 가이드 RNA 또는 이의 암호화 유전자를 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계를 포함하는, DNA 단일 가닥 절단 (single strand break) 방법을 제공한다. 상기 방법은 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하는 단계를 포함하지 않는 것일 수 있다.

다른 예는,

(i) (a) 디아미나제 또는 이의 암호화 유전자 (cDNA, rDNA, 또는 mRNA), 및 (b) 불활성화된 표적특이적 엔도뉴클레아제 또는 이의 암호화 유전자(cDNA, rDNA, 또는 mRNA), 및 (c) 가이드 RNA 또는 이의 암호화 유전자를 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시켜 DNA 단일 가닥 절단을 유도하는 단계; 및

(ii) 상기 단일 가닥 절단된 DNA 절편의 핵산 서열을 분석하는 단계

를 포함하는, 상기 디아미나제에 의하여 염기 교정 (base editing)이 도입된 DNA의 핵산 서열 분석 방법을 제공한다. 상기 방법은 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하는 단계를 포함하지 않는 것일 수 있다.

다른 예는,

(i) (a) 디아미나제 또는 이의 암호화 유전자 (cDNA, rDNA, 또는 mRNA), 및 (b) 불활성화된 표적특이적 엔도뉴클레아제 또는 이의 암호화 유전자(cDNA, rDNA, 또는 mRNA) 및 (c) 가이드 RNA 또는 이의 암호화 유전자를 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시켜 DNA 단일 가닥 절단을 유도하는 단계;

(ii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계; 및

(iii) 상기 분석에 의여 수득된 핵산 서열 데이터로부터 단일 가닥 절단 위치를 확인하는 단계

를 포함하는, 디아미나제의 염기 교정 또는 단일가닥절단 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및/또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법을 제공한다. 상기 방법은, 예컨대, 상기 단계 (ii) 이후 및 단계 (iii) 이전, 동시 또는 이후에, (iii-1) 상기 분석에 의여 수득된 핵산 서열 데이터(sequence read)에서 염기 교정 (예컨대, 시토신(C)의 우라실(U) 또는 티민 (T)으로의 변환) 여부를 확인하는 단계를 추가로 포함할 수 있다. 상기 방법은 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계를 포함하지 않는 것일 수 있다. 일 예에서, 상기 방법 (예컨대, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site) 확인 방법)은, 상기 단계 (iii) 이후에, (iv) 상기 절단 위치가 표적 위치 (on-target site)가 아닌 경우, 비표적 위치 (off-target site)로 확인(판단)하는 단계를 추가로 포함할 수 있다.

본 명세서에서는 Digenome-seq를 수정하여 인간 유전체에서 Cas9 니케이즈(nickase)와 디아미나제 (deaminase)로 구성된 염기교정기 (예컨대, Base Editor 3; BE3)의 특이성을 평가하였다. 유전체 DNA를 BE3 및 가이드 RNA로 시험관내에서 처리하여 DNA 이중 가닥 중 단일 가닥에 절단이 생성되는 것을 확인하였다. 본 명세서에서 제공되는 디아미나제를 이용한 DNA 단일 가닥 절단 방법 및 이를 이용한 핵산 서열 분석 방법에 의하여, BE3 비표적 사이트를 전체 유전체 시퀀싱 데이터를 사용하여 계산적으로 확인할 수 있다.

우선, DNA에 이중 가닥 절단을 유발하지 않는 디아미나제를 이용하여 DNA에 이중 가닥 절단을 생성하는 기술이 제공된다.

일 예는 일 예는 (a) 디아미나제 또는 이의 암호화 유전자 (cDNA, rDNA, 또는 mRNA), (b) 불활성화된 표적특이적 엔도뉴클레아제 또는 이의 암호화 유전자(cDNA, rDNA, 또는 mRNA), 및 (c) 가이드 RNA 또는 이의 암호화 유전자를 포함하는, DNA 단일 가닥 절단 (single strand breaks)용 조성물을 제공한다. 상기 조성물은 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 포함하지 않는 것일 수 있다.

본 명세서에 사용된 암호화 유전자는 cDNA, rDNA 또는 이를 포함하는 재조합 벡터, 또는 mRNA 형태로 사용될 수 있다.

상기 디아미나제는 시티딘 디아미나제일 수 있다. 시티딘 디아미나제는 뉴클레오타이드에 존재하는 염기인 시토신 (예컨대, 2중 가닥 DNA 또는 RNA에 존재하는 시토신)을 우라실 (또는 티민)로 변환 (C-to-U(or C-to-T) conversion or C-to-U(or C-to-T) editing)시키는 활성을 갖는 모든 효소를 의미하는 것으로, 표적 부위의 서열 (표적 서열)의 PAM 서열이 존재하는 가닥에 위치하는 시토신을 우라실로 변환시킨다. 일 예에서, 상기 시티딘 디아미나제는 인간, 원숭이 등의 영장류, 래트, 마우스 등의 설치류 등과 같은 포유류로부터 유래된 것일 수 있으나, 이에 제한되는 것은 아니다. 예컨대, 상기 시티딘 디아미나제는 APOBEC　("apolipoprotein B mRNA editing enzyme, catalytic polypeptide-like") 패밀리에 속하는 효소들, AID (activation-induced cytidine deaminase), CDA (cytidine deaminase; 예컨대, CDA1) 등으로 이루어진 군에서 선택된 1종 이상일 수 있으며, 예컨대, 다음으로 이루어진 군에서 1종 이상 선택될 수 있으나, 이에 제한되는 것은 아니다:

APOBEC1: 인간 (Homo sapiens) APOBEC1 (단백질: GenBank Accession Nos. NP_001291495.1, NP_001635.2, NP_005880.2 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001304566.1, NM_001644.4, NM_005889.3 등), 마우스 (Mus musculus) APOBEC1 (단백질: GenBank Accession Nos. NP_001127863.1, NP_112436.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001134391.1, NM_031159.3 등);

APOBEC2: 인간 APOBEC2 (단백질: GenBank Accession No. NP_006780.1 등; 유전자: GenBank Accession No. NM_006789.3 등), 마우스 APOBEC2 (단백질: GenBank Accession No. NP_033824.1 등; 유전자: GenBank Accession No. NM_009694.3 등);

APOBEC3B: 인간 APOBEC3B (단백질: GenBank Accession Nos. NP_001257340.1, NP_004891.4 등; 유전자 (mRNA or cDNA, 이하 동일) (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001270411.1, NM_004900.4 등), 마우스 (Mus musculus) APOBEC3B (단백질: GenBank Accession Nos. NP_001153887.1, NP_001333970.1, NP_084531.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001160415.1, NM_001347041.1, NM_030255.3 등);

APOBEC3C: 인간 APOBEC3C (단백질: GenBank Accession No. NP_055323.2 등; 유전자: GenBank Accession No. NM_014508.2 등);

APOBEC3D (including APOBEC3E): 인간 APOBEC3D (단백질: GenBank Accession No. NP_689639.2 등; 유전자: GenBank Accession No. NM_152426.3 등);

APOBEC3F: 인간 APOBEC3F (단백질: GenBank Accession Nos. NP_660341.2, NP_001006667.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): NM_145298.5, NM_001006666.1 등);

APOBEC3G: 인간 APOBEC3G (단백질: GenBank Accession Nos. NP_068594.1, NP_001336365.1, NP_001336366.1, NP_001336367.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): NM_021822.3, NM_001349436.1, NM_001349437.1, NM_001349438.1 등);

APOBEC3H: 인간 APOBEC3H (단백질: GenBank Accession Nos. NP_001159474.2, NP_001159475.2, NP_001159476.2, NP_861438.3 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): NM_001166002.2, NM_001166003.2, NM_001166004.2, NM_181773.4 등);

APOBEC4 (including APOBEC3E): 인간 APOBEC4 (단백질: GenBank Accession No. NP_982279.1 등; 유전자: GenBank Accession No. NM_203454.2 등); 마우스 APOBEC4 (단백질: GenBank Accession No. NP_001074666.1 등; 유전자: GenBank Accession No. NM_001081197.1 등);

Activation-induced cytidine deaminase (AICDA　또는 AID): 인간 AID (단백질: GenBank Accession Nos. NP_001317272.1, NP_065712.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001330343.1, NM_020661.3 등); 마우스 AID (단백질: GenBank Accession No. NP_033775.1 등; 유전자: GenBank Accession No. NM_009645.2 등); 및

CDA (cytidine deaminase; EC number 3.5.4.5; 예컨대, CDA1): GenBank Accession Nos. NP_001776.1 (유전자: NM_001785.2), CAA06460.1 (유전자: AJ005261.1), NP_416648.1 (유전자: NC_000913.3) 등.

본 명세서에 사용된 바로서, 표적 특이적 뉴클레아제는, 유전자 가위 (programmable nuclease)라고도 불리며, 목적하는 유전체 DNA 상의 특정 위치를 인식하여 절단할 수 있는 모든 형태의 엔도뉴클레아제를 통칭한다.

예컨대, 상기 표적 특이적 뉴클레아제는 표적 유전자의 특정 서열을 인식하고 뉴클레오티드 절단 활성을 가져 표적 유전자에서 인델 (insertion and/or deletion, Indel)을 야기할 수 있는 모든 뉴클레아제에서 선택된 1종 이상일 수 있다.

예컨대, 상기 표적 특이적 뉴클레아제는 미생물 면역체계인 CRISPR에서 유래한 RGEN (RNA-guided engineered nuclease; 예컨대, Cas9, Cpf1, 등) 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다.

일 구체예에서, 상기 표적 특이적 뉴클레아제는 Cas 단백질 (예컨대, Cas9 단백질(CRISPR (Clustered regularly interspaced short palindromic repeats) associated protein 9)), Cpf1 단백질 (CRISPR from Prevotella and Francisella 1) 등과 같은 타입 Ⅱ 및/또는 타입 V의 CRISPR 시스템에 수반되는 엔도뉴클레아제로 이루어진 군에서 선택된 1종 이상일 수 있다. 이 경우, 상기 표적 특이적 뉴클레아제는 유전체 DNA의 표적 부위로 안내하기 위한 표적 DNA 특이적 가이드 RNA를 추가로 포함할 수 있다. 상기 가이드 RNA는 생체 외 (in vitro)에서 전사된(transcribed) 것일 수 있고, 예컨대 올리고뉴클레오티드 이중가닥 또는 플라스미드 주형으로부터 전사된 것일 수 있으나, 이에 제한되지 않는다. 상기 표적 특이적 뉴클레아제 및 가이드 RNA는 리보핵산 단백질 (RNP) 형태로 사용될 수 있으며, 상기 리보핵산 단백질은 표적 특이적 뉴클레아제 또는 이의 암호화 유전자 및 RNA 또는 이의 암호화 유전자가 혼합물 또는 서로 결합된 복합체 형태로 포함된 것일 수 있다.

Cas9 단백질은 CRISPR/Cas 시스템의 주요 단백질 구성 요소로, 활성화된 엔도뉴클레아제 또는 nickase 기능을 할 수 있는 단백질이다.

Cas9 단백질 또는 유전자 정보는 NCBI (National Center for Biotechnology Information)의 GenBank와 같은 공지의 데이터 베이스에서 얻을 수 있다. 예컨대, 상기 Cas9 단백질은

스트렙토코커스 sp. (Streptococcus sp.), 예컨대, 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질 (예컨대, SwissProt Accession number Q99ZW2(NP_269215.1) (암호화 유전자: 서열번호 4);

캄필로박터 속, 예컨대, 캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas9 단백질;

스트렙토코커스 속, 예컨대, 스트렙토코커스 써모필러스 (Streptococcus thermophiles) 또는 스트렙토코커스 아우레우스 (Streptocuccus aureus) 유래의 Cas9 단백질;

네이세리아 메닝기디티스 (Neisseria meningitidis) 유래의 Cas9 단백질;

파스테우렐라 (Pasteurella) 속, 예컨대, 파스테우렐라 물토시다 (Pasteurella multocida) 유래의 Cas9 단백질;

프란시셀라 (Francisella) 속, 예컨대, 프란시셀라 노비시다 (Francisella novicida) 유래의 예컨대 Cas9 단백질

등으로 이루어진 군에서 선택된 하나 이상일 수 있으나, 이에 제한되는 것은 아니다.

Cpf1 단백질은 상기 CRISPR/Cas 시스템과는 구별되는 새로운 CRISPR 시스템의 엔도뉴클레아제로서, Cas9에 비해 상대적으로 크기가 작고 tracrRNA가 필요 없으며, 단일 가이드 RNA에 의해 작용할 수 있다. 또한, 티민 (thymine)이 풍부한 PAM (protospacer-adjacent motif) 서열을 인식하고 DNA의 이중 사슬을 잘라 점착종단 (cohesive end; cohesive double-strand break)을 생성한다.

예컨대, 상기 Cpf1 단백질은 캔디다투스 (Candidatus) 속, 라치노스피라 (Lachnospira) 속, 뷰티리비브리오 (Butyrivibrio) 속, 페레그리니박테리아 (Peregrinibacteria), 액시도미노코쿠스 (Acidominococcus) 속, 포르파이로모나스 (Porphyromonas) 속, 프레보텔라 (Prevotella) 속, 프란시셀라 (Francisella) 속, 캔디다투스 메타노플라스마 (Candidatus Methanoplasma), 또는 유박테리움 (Eubacterium) 속 유래의 것일 수 있고, 예컨대, Parcubacteria bacterium (GWC2011_GWC2_44_17), Lachnospiraceae bacterium (MC2017), Butyrivibrio proteoclasiicus, Peregrinibacteria bacterium (GW2011_GWA_33_10), Acidaminococcus sp. (BV3L6), Porphyromonas macacae, Lachnospiraceae bacterium (ND2006), Porphyromonas crevioricanis, Prevotella disiens, Moraxella bovoculi (237), Smiihella sp. (SC_KO8D17), Leptospira inadai, Lachnospiraceae bacterium (MA2020), Francisella novicida (U112), Candidatus Methanoplasma termitum, Candidatus Paceibacter , Eubacterium eligens 등의 미생물 유래의 것일 수 있으나, 이에 제한되는 것은 아니다 .

상기 표적 특이적 엔도뉴클레아제는 미생물에서 분리된 것 또는 재조합적 방법 또는 합성적 방법 등과 같이 인위적 또는 비자연적 생산된 것(non-naturally occurring)일 수 있다. 일 예에서, 상기 표적 특이적 엔도뉴클레아제 (예컨대, Cas9, Cpf1, 등)은 재조합 DNA에 의하여 만들어진 재조합 단백질일 수 있다. 재조합 DAN(Recombinant DNA; rDNA)는 다양한 유기체로부터 얻어진 이종 또는 동종 유전 물질을 포함하기 위하여 분자 클로닝과 같은 유전자 재조합 방법에 의하여 인공적으로 만들어진 DNA 분자를 의미한다. 예컨대, 재조합 DNA를 적절한 유기체에서 발현시켜 표적 특이적 엔도뉴클레아제를 생산 (in vivo 또는 in vitro)하는 경우, 재조합 DNA는 제조하고자 하는 단백질을 암호화 하는 코돈들 중에서 상기 유기체에 발현하기에 최적화된 코돈을 선택하여 재구성된 뉴클레오타이드 서열을 갖는 것일 수 있다.

상기 불활성화된 표적특이적 엔도뉴클레아제불활성화된 표적특이적 엔도뉴클레아제는 DNA 이중 가닥을 절단하는 엔도뉴클레아제 활성을 상실한 표적특이적 엔도뉴클레아제을 의미하는 것으로, 예컨대, 엔도뉴클레아제 활성을 상실하고 니케이즈 활성을 갖는 불활성화된 표적특이적 엔도뉴클레아제 및 엔도뉴클레아제 활성과 니케이즈 활성을 모두 상실한 불활성화된 표적특이적 엔도뉴클레아제 중에서 선택된 1종 이상일 수 있다. 일 예에서, 상기 불활성화된 표적특이적 엔도뉴클레아제가 니케이즈 활성을 갖는 것일 수 있으며, 이 경우 상기 시토신이 우라실로 변환되는 것과 동시 또는 순서와 무관하게 순차적으로, 시토신이 우라실로 변환된 가닥 또는 그 반대 가닥 (예컨대 반대 가닥)에서 nick이 도입된다 (예컨대, PAM 서열이 존재하는 가닥의 반대 가닥에 PAM 서열의 5' 말단 방향으로 3번째 뉴클레오타이드와 4번째 뉴클레오타이드 사이에 해당하는 위치에 nick이 도입됨). 이와 같은 표적특이적 엔도뉴클레아제의 변형(돌연변이)는 적어도 촉매 활성을 갖는 아스파르트산 잔기 (catalytic aspartate residue; 예컨대, 스트렙토코커스 피요젠스 유래 Cas9 단백질의 경우 10번째 위치의 아스파르트산 (D10), 762번째 위치의 글루탐산 (E762), 840번째 위치의 히스티딘 (H840), 854번째 위치의 아스파라긴 (N854), 863번째 위치의 아스파라긴 (N863), 986번째 위치의 아스파르트산 (D986) 등으로 이루어진 군에서 선택된 하나 이상)가 임의의 다른 아미노산으로 치환된 Cas9의 돌연변이를 포함하는 것일 수 있으며, 상기 다른 아미노산은 알라닌 (alanine)일 수 있지만, 이에 제한되지 않는다.

본 명세서에 사용된 바로서, 상기 '다른 아미노산'은, 알라닌, 이소류신, 류신, 메티오닌, 페닐알라닌, 프롤린, 트립토판, 발린, 아스파라긴산, 시스테인, 글루타민, 글리신, 세린, 트레오닌, 티로신, 아스파르트산, 글루탐산, 아르기닌, 히스티딘, 라이신, 상기 아미노산들의 공지된 모든 변형체 중에서, 야생형 단백질이 원래 변이 위치에 갖는 아미노산을 제외한 아미노산들 중에서 선택된 아미노산을 의미한다.

일 예에서, 상기 불활성화된 표적특이적 엔도뉴클레아제가 변형 Cas9 단백질인 경우, 변형 Cas9 단백질은 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질(예컨대, SwissProt Accession number Q99ZW2(NP_269215.1))에 D10 또는 H840 위치에서의 돌연변이 (예컨대, 다른 아미노산으로의 치환) 가 도입되어 엔도뉴클레아제 활성이 상실되고 니케이즈 활성을 갖는 변형 Cas9, 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질에 D10 및 H840 위치 모두에 돌연변이(예컨대, 다른 아미노산으로의 치환)가 도입되어 엔도뉴클레아제 활성 및 니케이즈 활성을 모두 상실한 변형 Cas9 단백질 등으로 이루어진 군에서 선택된 1종 이상일 수 있다. 예컨대, 상기 CAs9 단백질의 D10 위치에서의 돌연변이는 D10A 돌연변이 (Cas9 단백질의 아미노산 중 10번째 아미노산인 D가 A로 치환된 돌연변이를 의미함; 이하, Cas9에 도입된 돌연변이는 동일한 방법으로 표기됨)일 수 있고, 상기 H840 위치에서의 돌연변이는 H840A 돌연변이일 수 있다. 일 구체예에서, 상기 불활성화된 표적특이적 엔도뉴클레아제는 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질 (서열번호 4)의 D10가 A로 치환된 D10A 돌연변이를 갖는 니케이즈 (예컨대, 서열번호 11에 의하여 코딩됨)일 수 있다.

상기 시티딘 디아미나제와 불활성화된 표적특이적 엔도뉴클레아제는 직접 또는 펩타이드 링커를 통하여 서로 융합된 융합 단백질 (예컨대, N-말단에서 C-말단 방향으로 시티딘 디아미나제-불활성화된 표적특이적 엔도뉴클레아제 순서로 위치하거나 (즉, 시티딘 디아미나제의 C-말단에 불활성화된 표적특이적 엔도뉴클레아제가 융합됨), 불활성화된 표적특이적 엔도뉴클레아제-시티딘 디아미나제 순서로 위치(즉, 불활성화된 표적특이적 엔도뉴클레아제의 C-말단에 시티딘 디아미나제가 융합됨)할 수 있음) 형태로 사용(또는 상기 조성물에 포함)되거나 되거나, 정제된 시티딘 디아미나제 또는 이를 암호화하는 mRNA와 불활성화된 표적특이적 엔도뉴클레아제 또는 이를 암호화하는 mRNA의 혼합물 형태로 사용(또는 상기 조성물에 포함)되거나, 시티딘 디아미나제 암호화 유전자와 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자가 모두 포함 (예컨대, 상기 두 유전자는 앞서 설명한 융합 단백질을 암호화하도록 포함됨)된 하나의 플라스미드 형태로 사용(또는 상기 조성물에 포함)되거나, 시티딘 디아미나제 암호화 유전자와 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자가 각각 별개의 플라스미드에 포함된 시티딘 디아미나제 발현 플라스미드와 불활성화된 표적특이적 엔도뉴클레아제 발현 플라스미드의 혼합물 형태로 사용(또는 상기 조성물에 포함)될 수 있다. 일 구체예에서는 N-말단에서 C-말단 방향으로, 시티딘 디아미나제-불활성화된 표적특이적 엔도뉴클레아제 순서로 위치하는 융합 단백질, 또는 불활성화된 표적특이적 엔도뉴클레아제-시티딘 디아미나제 순서로 위치하는 융합 단백질, 또는 상기 융합 단백질을 암호화하도록 시티딘 디아미나제 암호화 유전자와 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자가 하나의 플라스미드에 포함된 형태로 사용될 수 있다.

상기 플라스미드는 상기 시티딘 디아미나제 암호화 유전자 및/또는 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 삽입하고 이를 숙주세포 내에서 발현시킬 수 있는 발현 시스템을 포함하는 모든 플라스미드일 수 있다. 상기 플라스미드는 목적 유전자 발현을 위한 요소 (elements)를 포함하는 것으로, 복제원점 (replication origin), 프로모터, 작동 유전자 (operator), 전사 종결 서열 (terminator) 등을 포함할 수 있고, 숙주 세포의 게놈 내로의 도입을 위한 적절한 효소 부위 (예컨대, 제한 효소 부위) 및/또는 임의로 숙주 세포 내로의 성공적인 도입을 확인하기 위한 선별 마커 및/또는 단백질로의 번역을 위한 리보좀 결합 부위 (ribosome binding site; RBS) 및/또는 전자 조절 인자 등을 추가로 포함할 수 있다. 상기 플라스미드는 당업계에서 사용되는 플라스미드, 예컨대, pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, pUC19 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다. 상기 숙주세포는 상기 시티딘 디아미나제에 의하여 염기 교정 또는 이중 가닥 절단을 도입하고자 하는 세포 (예컨대, 인간 세포 등과 같은 포유류 세포를 포함하는 진핵 세포) 또는 상기 시티딘 디아미나제 암호화 유전자 및/또는 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 발현하여 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 발현할 수 있는 모든 세포 (예컨대, E. coli 등) 들 중에서 선택될 수 있다.

상기 가이드 RNA는 상기 시티딘 디아미나제와 불활성화된 표적특이적 엔도뉴클레아제의 혼합물 또는 융합 단백질을 표적 부위로 안내하는 역할을 하는 것으로, CRISPR RNA (crRNA), trans-activating crRNA (tracrRNA), 및 단일 가이드 RNA (single guide RNA; sgRNA)로 이루어진 군에서 선택된 1종 이상일 수 있으며, 구체적으로 crRNA와 tracrRNA가 서로 결합된 이중 가닥 crRNA:tracrRNA 복합체, 또는 crRNA 또는 그 일부와 tracrRNA 또는 그 일부가 올리고뉴클레오타이드 링커로 연결된 단일 가닥 가이드 RNA (sgRNA)일 수 있다.

상기 가이드 RNA의 구체적 서열은 사용된 표적특이적 엔도뉴클레아제 의 종류 또는 그 유래 미생물 등에 따라서 적절히 선택할 수 있으며, 이는 이 발명이 속하는 기술 분야의 통상의 지식을 가진 자가 용이하게 알 수 있는 사항이다.

표적특이적 엔도뉴클레아제로서 Streptococcus pyogenes 유래의 Cas9 단백질을 사용하는 경우, crRNA는 다음의 일반식 1로 표현될 수 있다:

5'-(N_cas9)_l-(GUUUUAGAGCUA)-(X_cas9)_m-3' (일반식 1)

상기 일반식 1에서,

N_cas9는 표적화 서열, 즉 표적 유전자(target gene)의 표적 부위(target site)의 서열에 따라서 결정되는 부위 (즉, 표적 부위의 서열과 혼성화 가능한 서열임)이며, l은 상기 표적화 서열에 포함된 뉴클레오타이드 수를 나타내는 것으로 17 내지 23 또는 18 내지 22의 정수, 예컨대 20일 수 있고;

상기 표적 서열의 3' 방향으로 인접하여 위치하는 연속하는 12개의 뉴클레오타이드(GUUUUAGAGCUA; 서열번호 1)를 포함하는 부위는 crRNA의 필수적 부분이고,

X_cas9는 crRNA의 3' 말단쪽에 위치하는 (즉, 상기 crRNA의 필수적 부분의 3' 방향으로 인접하여 위치하는) m개의 뉴클레오타이드를 포함하는 부위로, m은 8 내지 12의 정수, 예컨대 11일 수 있으며, 상기 m개의 뉴클레오타이드들은 서로 같거나 다를 수 있으며, 각각 독립적으로 A, U, C 및 G로 이루어진 군에서 선택될 수 있다.

일 예에서, 상기 X_cas9는 UGCUGUUUUG(서열번호 2)를 포함할 수 있으나 이에 제한되지 않는다.

또한, 상기 tracrRNA는 다음의 일반식 2로 표현될 수 있다:

5'-(Y_cas9)_p-(UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC)-3' (일반식 2)

상기 일반식 2에서,

60개의 뉴클레오타이드 (UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC; 서열번호 3)로 표시된 부위는 tracrRNA의 필수적 부분이고,

Y_cas9는 상기 tracrRNA의 필수적 부분의 5' 말단에 인접하여 위치하는 p개의 뉴클레오타이드를 포함하는 부위로, p는 6 내지 20의 정수, 예컨대 8 내지 19의 정수일 수 있으며, 상기 p개의 뉴클레오타이드들은 서로 같거나 다를 수 있고, A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있다.

또한, sgRNA는 상기 crRNA의 표적화 서열과 필수적 부위를 포함하는 crRNA 부분과 상기 tracrRNA의 필수적 부분 (60개 뉴클레오타이드)를 포함하는 tracrRNA 부분이 올리고뉴클레오타이드 링커를 통하여 헤어핀 구조 (stem-loop 구조)를 형성하는 것일 수 있다 (이 때, 올리고뉴클레오타이드 링커가 루프 구조에 해당함). 보다 구체적으로, 상기 sgRNA는 crRNA의 표적화 서열과 필수적 부분을 포함하는 crRNA 부분과 tracrRNA의 필수적 부분을 포함하는 tracrRNA 부분이 서로 결합된 이중 가닥 RNA 분자에서, crRNA 부위의 3' 말단과 tracrRNA 부위의 5' 말단이 올리고뉴클레오타이드 링커를 통하여 연결된 헤어핀 구조를 갖는 것일 수 있다.

일 예에서, sgRNA는 다음의 일반식 3으로 표현될 수 있다:

5'-(N_cas9)_l-(GUUUUAGAGCUA)-(올리고뉴클레오타이드 링커)-(UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC)-3' (일반식 3)

상기 일반식 3에서, (N_cas9)_l는 표적화 서열로서 앞서 일반식 1에서 설명한 바와 같다.

상기 sgRNA에 포함되는 올리고뉴클레오타이드 링커는 3 내지 5개, 예컨대 4개의 뉴클레오타이드를 포함하는 것일 수 있으며, 상기 뉴클레오타이드들은 서로 같거나 다를 수 있고, A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있다.

상기 crRNA 또는 sgRNA는 5' 말단 (즉, crRNA의 타겟팅 서열 부위의 5' 말단)에 1 내지 3개의 구아닌(G)을 추가로 포함할 수 있다.

상기 tracrRNA 또는 sgRNA는 tracrRNA의 필수적 부분(60nt)의 3' 말단에 5개 내지 7개의 우라실 (U)을 포함하는 종결부위를 추가로 포함할 수 있다.

상기 가이드 RNA의 표적 서열은 표적 DNA 상의 PAM (Protospacer Adjacent Motif　서열(S. pyogenes Cas9의 경우, 5'-NGG-3' (N은 A, T, G, 또는 C임))의 5'에 인접하여 위치하는 약 17개 내지 약 23개 또는 약 18개 내지 약22개, 예컨대 20개의 연속하는 핵산 서열일 수 있다.

상기 가이드 RNA의 표적 서열과 혼성화 가능한 가이드 RNA의 표적화 서열은 상기 표적 서열이 위치하는 DNA 가닥 (즉, PAM 서열(5'-NGG-3' (N은 A, T, G, 또는 C임)이 위치하는 DNA 가닥)의 상보적인 가닥의 뉴클레오타이드 서열과 50% 이상, 60% 이상, 70% 이상, 80% 이상, 90% 이상, 95% 이상, 99% 이상, 또는 100%의 서열 상보성을 갖는 뉴클레오타이드 서열을 의미하는 것으로, 상기 상보적 가닥의 뉴클레오타이드 서열과 상보적 결합이 가능하다.

본 명세서에서, 표적 부위의 핵산 서열은 표적 유전자의 해당 유전자 부위의 두 개의 DNA 가닥 중 PAM 서열이 위치하는 가닥의 핵산 서열로 표시된다. 이 때, 실제로 가이드 RNA가 결합하는 DNA 가닥은 PAM 서열이 위치하는 가닥의 상보적 가닥이므로, 상기 가이드 RNA에 포함된 표적화 서열은, RNA 특성상 T를 U로 변경하는 것을 제외하고, 표적 부위의 서열과 동일한 핵산 서열을 갖게 된다. 따라서, 본 명세서에서, 가이드 RNA의 표적화 서열과 표적 부위의 서열 (또는 절단 부위의 서열)은 T와 U가 상호 변경되는 것을 제외하고 동일한 핵산 서열로 표시된다.

상기 가이드 RNA는 RNA 형태로 사용 (또는 상기 조성물에 포함)되거나, 이를 암호화하는 DNA를 포함하는 플라스미드 형태로 사용 (또는 상기 조성물에 포함)될 수 있다.

본 명세서에 기재된 조성물 및 방법은 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 포함 또는 사용하지 않는 것을 특징으로 하는 것일 수 있다. 상기 우라실-특이적 제거 시약은 상기 시티딘 디아미나제에 의하여 시토신로부터 변환된 우라실을 제거하고, 및/또는 상기 우라실이 제거된 위치에 DNA 절단을 도입하는 역할을 하는 모든 물질을 포함할 수 있다.

일 예에서, 상기 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)은 우라실 DNA 글라이코실라제 (Uracil DNA glycosylase; UDG), 엔도뉴클레아제 VIII, 및 이들의 조합을 포함한다. 일 예에서, 상기 우라실-특이적 제거 시약은 엔도뉴클레아제 VIII 또는 우라실 DNA 글라이코실라제와 엔도뉴클레아제 VIII의 조합을 포함하는 것일 수 있다.

우라실 DNA 글라이코실라제 (Uracil DNA glycosylase; UDG)는 DNA에 존재하는 우라실 (U)을 제거하여 DNA의 mutagenesis를 방지하는 작용을 하는 효소로서, 우라실의 N-glycosylic bond을 절단함으로써 base-excision repair (BER) pathway를 개시하도록 하는 역할을 하는 모든 효소들 중에서 1종 이상 선택될 수 있다. 예컨대, 상기 우라실 DNA 글라이코실라제는 Escherichia coli 우라실 DNA 글라이코실라제 (예컨대, GenBank Accession Nos. ADX49788.1, ACT28166.1, EFN36865.1, BAA10923.1, ACA76764.1, ACX38762.1, EFU59768.1, EFU53885.1, EFJ57281.1, EFU47398.1, EFK71412.1, EFJ92376.1, EFJ79936.1, EFO59084.1, EFK47562.1, KXH01728.1, ESE25979.1, ESD99489.1, ESD73882.1, ESD69341.1 등), 인간 우라실 DNA 글라이코실라제 (예컨대, GenBank Accession Nos. NP_003353.1, NP_550433.1 등), 마우스 우라실 DNA 글라이코실라제 (예컨대, GenBank Accession Nos. NP_001035781.1, NP_035807.2 등) 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다.

상기 엔도뉴클레아제 VIII는 상기 우라실이 제거된 뉴클레오타이드를 제거하는 역할을 하는 것으로, 상기 우라실 DNA 글라이코실라제에 의하여 손상된 우라실을 이중 가닥 DNA로부터 제거하는 N-glycosylase 활성과 상기 손상된 우라실 제거로부터 발생한 apurinic site (AP site)의 3' 및 5' 말단을 절단하는 AP-lyase 활성을 모두 갖는 모든 효소들 중에서 1종 이상 선택될 수 있다. 예컨대, 상기 엔도뉴클레아제 VIII는 인간 엔도뉴클레아제 VIII (예컨대, GenBank Accession Nos. BAC06476.1, NP_001339449.1, NP_001243481.1, NP_078884.2, NP_001339448.1 등), 마우스 엔도뉴클레아제 VIII (예컨대, GenBank Accession Nos. BAC06477.1, NP_082623.1 등), Escherichia coli 엔도뉴클레아제 VIII (예컨대, GenBank Accession Nos. OBZ49008.1, OBZ43214.1, OBZ42025.1, ANJ41661.1, KYL40995.1, KMV55034.1, KMV53379.1, KMV50038.1, KMV40847.1, AQW72152.1 등) 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다.

다른 예는, (a) 디아미나제 또는 이의 암호화 유전자 (cDNA, rDNA, 또는 mRNA), (b) 불활성화된 표적특이적 엔도뉴클레아제 또는 이의 암호화 유전자(cDNA, rDNA, 또는 mRNA), 및 (c) 가이드 RNA 또는 이의 암호화 유전자를,

세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계

를 포함하는, DNA에 단일 가닥 절단 (double strand break)를 생성하는 방법을 제공한다. 상기 방법은 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하는 단계를 포함하지 않는 것일 수 있다.

이와 같이 DNA에 단일 가닥 절단을 생성 (또는 도입)함으로써, 유전체 DNA 또는 DNA의 표적 부위에서 시티딘 디아미나제에 의하여 염기 교정(base editing, 즉 C에서 U로의 변환)이 일어난 위치 또는 상기 단일 가닥 절단이 생성 (도입)된 위치, 염기 교정 효율 등을 분석할 수 있으며, 이를 통하여, on-target 부위에서의 염기 교정 효율, on-target 서열에 대한 특이성, off-target 서열 등을 확인 (또는 측정)할 수 있다.

다른 예는,

(i) (a) 디아미나제 또는 이의 암호화 유전자 (cDNA, rDNA, 또는 mRNA), (b) 불활성화된 표적특이적 엔도뉴클레아제 또는 이의 암호화 유전자(cDNA, rDNA, 또는 mRNA), 및 (c) 가이드 RNA 또는 이의 암호화 유전자를 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시켜 DNA 단일 가닥 절단을 유도하는 단계; 및

를 포함하는, 디아미나제에 의하여 염기 교정(base editing)이 도입된 DNA의 핵산 서열 분석 방법을 제공한다. 상기 방법은 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계를 포함하지 않는 것일 수 있다.

　다른 예는,

(ii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계; 및

를 포함하는, 디아미나제의 염기 교정 위치, 단일 가닥 절단 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및/또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법을 제공한다. 상기 방법은, 예컨대, 상기 단계 (ii) 이후 및 단계 (iii) 이전, 동시 또는 이후에, (iii-1) 상기 분석에 의여 수득된 핵산 서열 데이터(sequence read)에서 염기 교정 (예컨대, 시토신(C)의 우라실(U) 또는 티민 (T)으로의 변환) 여부를 확인하는 단계를 추가로 포함할 수 있다. 상기 방법은 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계를 포함하지 않는 것일 수 있다.

일 예에서, 상기 방법 (예컨대, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site) 확인 방법)은, 상기 단계 (iii) 이후에, (iv) 상기 절단 위치가 표적 위치 (on-target site)가 아닌 경우, 비표적 위치 (off-target site)로 확인(판단)하는 단계를 추가로 포함할 수 있다.

상기 디아미나제, 불활성화된 표적특이적 엔도뉴클레아제, 가이드 RNA 및 우라실-특이적 제거 시약은 앞서 설명한 바와 같다.

본 명세서에서 제공된 방법들은 세포 내 또는 시험관 내 (in vitro)에서 수행되는 것일 수 있으며, 예컨대, 시험관 내에서 수행되는 것일 수 있다. 보다 구체적으로, 상기 방법의 모든 단계가 시험관 내 (in vitro)에서 수행되거나, 상기 단계 (i)은 세포 내에서 수행되고, 상기 단계 (ii) 이후 단계는 상기 단계 (i)이 수행된 세포에서 추출된 DNA (예컨대, 유전체 DNA)를 사용하여 시험관 내 (in vitro)에서 수행되는 것일 수 있다.

상기 단계 (i)은 디아미나제 (또는 이의 암호화 유전자) 및 불활성화된 표적특이적 엔도뉴클레아제 (또는 이의 암호화 유전자)와 가이드 RNA를 세포에 형질감염시키거나, 또는 상기 세포로부터 추출된 DNA에 접촉 (예컨대, 함께 배양)시켜, 가이드 RNA에 의하여 표적화되는 표적 부위 내에서 염기 교정 (염기 변환, 예컨대, 시토신에서 우라실로의 변환) 및 DNA 단일 가닥에 nick 발생을 유도하는 단계이다. 상기 세포는 디아미나제에 의한 염기 교정 및/또는 단일 가닥 절단을 도입하고자 하는 모든 진핵 세포들 중에서 선택된 것일 수 있으며, 예컨대, 인간 세포를 포함하는 포유 동물 세포들 중에서 선택될 수 있다.

상기 형질감염은

(1) 디아미나제, 불활성화된 표적특이적 엔도뉴클레아제, 및 가이드 RNA의 혼합물 또는 이들이 결합된 복합체 (리보핵산단백질; RNP),

(2) 디아미나제 암호화 mRNA, 불활성화된 표적특이적 엔도뉴클레아제 암호화 mRNA, 및 가이드 RNA의 혼합물, 또는

(3) 디아미나제 암호화 유전자 및 표적특이적 엔도뉴클레아제 암호화 유전자를 각각 또는 함께 포함하는 플라스미드 (재조합 벡터), 및 가이드 RNA 또는 가이드 RNA 암호화 유전자를 포함하는 플라스미드

를 통상적인 모든 수단에 의하여 세포에 도입시킴으로써 수행될 수 있으며, 예컨대, 상기 도입은 전기천공 (electroporation), 리포펙션, 미세주입 등에 의하여 수행될 수 있으나 이에 제한되는 것은 아니다.

일 구체예에서, 상기 단계 (i)은 상기 세포 (디아미나제 및 불활성화된 엔도뉴클레아제에 의한 염기 교정 (염기 교정 위치, 염기 교정 효율 등) 및/또는 단일 가닥 절단 (절단 위치, 절단 효율 등)을 확인하고자 하는 세포)로부터 추출된 DNA를 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제 (예컨대, 시티딘 디아미나제 및 불활성화된 Cas9 단백질을 포함하는 융합 단백질) 및 가이드 RNA와 함께 배양함으로써 수행될 수 있다 (in vitro). 상기 세포로부터 추출된 DNA는 유전체 DNA (genome DNA) 또는 표적 유전자 또는 표적 부위를 포함하는 PCR (polymerase chain reaction) 증폭 산물일 수 있다.

임의로, 상기 단계 (i) 수행 (또는 완료) 후 단계 (ii) 수행 전에, (a) 단계 (i)에서 사용된 디아미나제, 불활성화된 표적특이적 엔도뉴클레아제, 및/또는 가이드 RNA를 제거하는 단계를 추가로 포함할 수 있다. 또한, 상기 단계 (i) 수행 (또는 완료) 후 단계 (ii) 수행 전에, 단일가닥 절단이 일어난 이중가닥 DNA 절편의 말단 평활화 (또는 말단 수선; end repair) 단계를 추가로 포함할 수 있으며, 상기 말단 평활화 단계는 (b) 단일가닥 절단이 일어난 이중가닥 DNA 절편에서, 절단이 일어나지 않은 가닥의 3'쪽 (절단된 가닥의 절단 지점의 5' 말단쪽과 상보적 위치)의 연장된 뉴클레오타이드를 제거(절단)하는 3'-to-5' 절단 (3'-to-5' trimming) 단계, 및/또는 (c) 단일가닥 절단이 일어난 이중가닥 DNA 절편에서, 절단이 일어난 가닥의 절단 지점에서의 3' 말단의 뉴클레오타이드를 연장시키는 5'-to-3' DNA 합성 단계를 추가로 포함할 수 있다 (실시예 1의 그림 참조). 상기 3'-to-5' 절단 단계는 적절한 통상의 엑소뉴클레아제를 사용하여 수행할 수 있다. 상기 5'-to-3' DNA 합성 단계는 적절한 통상의 DNA 폴리머라제를 사용하여 수행할 수 있다.

또한, 임의로, 상기 단계 (i) 수행 (또는 완료) 후 단계 (ii) 수행 전에, 단계 (ii)의 DNA 절편의 핵산 서열 분석을 보다 용이하게 하기 위하여, 단일가닥 절단된 DNA 절편 (DNA 이중 가닥 중, 절단된 가닥의 절단 위치(cleavage site)를 포함하는 연속하는 10 내지 30nt 또는 15 내지 25nt의 올리고뉴클레오타이드 및/또는 절단되지 않은 가닥의 절단 위치와 대응되는(상보적인) 위치를 포함하는 연속하는 10 내지 30nt 또는 15 내지 25nt의 올리고뉴클레오타이드)를 증폭시키는 과정을 추가로 포함할 수 있다. 상기 단계 (ii)에서 핵산 서열 분석에 사용되는 단일 가닥 절단된 DNA 절편은, 단일가닥 절단이 일어난 가닥의 절단 위치를 포함하는 연속하는 10 내지 30nt 또는 15 내지 25nt의 올리고뉴클레오타이드 및/또는 절단되지 않은 가닥의 절단 위치와 대응되는(상보적인) 위치를 포함하는 연속하는 10 내지 30nt 또는 15 내지 25nt의 올리고뉴클레오타이드; 및/또는 상기 올리고뉴클레오타이드의 증폭산물을 포함할 수 있다.

상기 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제는 가이드 RNA와 함께 사용되어 서열 특이성 (specificity)을 가지므로 대부분 표적 위치(on-target)에 작용하지만, 표적 서열 이외의 부위에 표적 서열과 유사한 서열이 어느 정도 존재하는지에 따라 비표적 위치 (off-target site)에 작용하는 부작용이 발생할 수도 있다. 본 명세서에서, 비표적 위치 (off-target site)라 함은 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제의 표적 부위는 아니지만 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 활성을 가지는 위치를 말한다. 즉, 표적 위치 이외의, 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 의해 염기 교정 및/또는 절단되는 위치를 말한다. 일 예에서, 상기 비표적 위치는 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 대한 실제 비표적 위치뿐만 아니라 비표적 위치가 될 가능성이 있는 잠재적인 비표적 위치까지 포함하는 개념으로 사용될 수 있다. 상기 비표적 위치는 이에 제한되는 것은 아니나, 시험관 내 (in vitro)에서 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 의해 절단되는 표적 위치 이외의 모든 위치를 의미할 수 있다.

디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 표적 위치 이외의 위치에서도 활성을 가지는 것은 다양한 원인에 의해 야기될 수 있다. 예컨대, 표적 부위에 대하여 설계된 표적 서열과 뉴클레오타이드 불일치 (mismatch) 수준이 낮아서, 표적 서열과 서열 상동성이 높은 표적 서열 이외의 서열 (비표적 서열)의 경우 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 작동할 가능성이 있다.

상기 비표적 위치는 이에 제한되는 것은 아니나, 다음의 조건 중 하나 이상을 만족하는 서열 부위 (유전자 부위)일 수 있다:

5' 말단이 수직정렬 되는 DNA 리드의 수가 2 이상, 예컨대, 3 이상, 4 이상, 5 이상, 6 이상, 7 이상, 8 이상, 9 이상, 또는 10 이상;

이중가닥 DNA 절편 중 절단이 일어난 가닥과 상보적 가닥이 PAM 서열을 포함;

이중가닥 DNA 절편 중 절단이 일어난 가닥과 상보적 가닥이 표적 위치의 서열(표적 서열)과 15개 이하 또는 10개 이하, 예컨대, 1개 내지 15개, 1개 내지 14개, 1개 내지 13 개, 1개 내지 12개, 1개 내지 11개, 1개 내지 10개, 1개 내지 9개, 1개 내지 8개, 1개 내지 7개, 1개 내지 6개, 1개 내지 5개, 1개 내지 4개, 1개 내지 3개, 1개 내지 2개, 또는 1개의 불일치(mismatch) 뉴클레오타이드를 포함; 및

이중가닥 DNA 절편 중 절단이 일어난 가닥과 상보적 가닥이 염기 교정 (하나 이상의 시토신(C)의 우라실(U) 또는 티민 (T)으로의 변환)을 포함.

비표적 위치에서 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 작동하는 경우 유전체 내에서 원치 않는 유전자의 돌연변이를 야기할 수 있어 심각한 문제가 야기될 수 있다. 이에, 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제의 표적 위치에서의 활성 못지 않게 비표적 서열을 정확히 검출하여 분석하는 과정 또한 매우 중요할 수 있으며, 이는 비표적 효과 없이 표적 위치에만 특이적으로 작동하는 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 개발하는데 유용하게 사용될 수 있을 것이다.

본 발명의 목적상 상기 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제는 생체 내 (in vivo) 및 시험관 내 (in vitro)에서 활성을 가질 수 있으므로, 시험관 내에서 DNA (예컨대, 유전체 DNA)의 비표적 위치를 검출하는데 사용될 수 있으며, 이를 생체 내에서 적용하였을 때 상기 검출된 비표적 위치 (비표적 서열을 포함하는 유전자상 위치 (부위))와 동일한 위치에도 활성을 가질 것을 예상할 수 있다.

상기 단계 (ii)는 상기 단계 (i)에서 절단 (단일 가닥 절단)된 DNA 절편의 핵산 서열을 분석하는 단계로서, 통상적인 모든 핵산 서열 분석 방법에 의하여 수행될 수 있다. 예컨대, 상기 단계 (i)에서 사용된 분리된 DNA가 유전체 DNA인 경우, 상기 핵산 서열 분석은 전체 유전체 시퀀싱 (whole genome sequencing)에 의하여 수행될 수 있다. 전체 유전체 시퀀싱을 수행하는 경우, 표적 부위의 서열과 상동성을 가지는 서열을 찾아 비표적 위치일 것으로 예측하는 간접적인 방법과 달리 전체 유전체 수준에서 실질적으로 표적 특이적 뉴클레아제에 의해 절단되는 비표적 위치를 검출할 수 있으므로, 보다 정확하게 비표적 위치를 검출할 수 있다.

본 명세서에 사용된 바로서, "전체 유전체 시퀀싱 (whole genome sequencing; WGS)"은 차세대 시퀀싱 (next generation sequencing)에 의한 전장 유전체 시퀀싱을 10 X, 20 X, 40 X 형식으로 여러 배수로 유전체를 읽는 방법을 의미한다. "차세대 시퀀싱"은 칩 (Chip) 기반 및 PCR 기반 페어드엔드 (paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 화학적인 반응 (hybridization)에 기초하여 초고속으로 시퀀싱을 수행하는 기술을 의미한다.

상기 단계 (iii)은 상기 단계 (ii)에서 수득한 염기서열 데이터 (sequence read)에서 DNA가 절단된 위치를 확인 (또는 결정)하는 단계로서, 시퀀싱 데이터를 분석하여 표적 위치 (on-target site)와 비표적 위치(off-target site)를 간편하게 검출할 수 있다. 상기 염기서열 데이터로부터 DNA가 절단된 특정 위치를 결정하는 것은 다양한 접근 방법으로 수행될 수 있으며, 본 명세서에서는 상기 위치를 결정하기 위한 여러 가지의 합리적인 방법들을 제공한다. 그러나 이는 본 발명의 기술적 사상에 포함되는 예시에 불과하며, 본 발명의 범위가 이들 방법에 의해 제한되는 것은 아니다.

예컨대, 상기 절단된 위치를 결정하기 위한 일례로서, 전체 유전체 시퀀싱을 통해 수득한 염기서열 데이터를 유전체 상의 위치에 따라 정렬하였을 경우, 5' 말단이 수직 정렬된 위치가 DNA가 절단된 위치를 의미할 수 있다. 상기 염기서열 데이터를 유전체 상의 위치에 따라 정렬하는 단계는 분석 프로그램 (예를 들어, BWA/GATK 또는 ISAAC 등)을 이용하여 수행할 수 있다. 본 명세서에 사용된 바로서, 상기 용어 "수직 정렬"이란, BWA/GATK 또는 ISAAC 등의 프로그램으로 전체 유전체 시퀀싱 결과를 분석할 때, 인접한 왓슨 가닥 (Watson strand)과 크릭 가닥 (Crick strand) 각각에 대해, 2 개 이상의 염기서열 데이터의 5' 말단이 유전체 상의 동일한 위치 (nucleotide position)에서 시작되는 배열을 말한다. 이로 인하여, 상기 단계 (ii)에서 절단되어 동일한 5' 말단을 갖게 되는 DNA 단편들이 각각 시퀀싱되어 나타나게 된다.

즉, 상기 단계 (i)에서의 절단이 표적 위치 및 비표적 위치에서 일어나는 경우, 염기서열 데이터를 정렬하게 되면 공통적으로 절단된 부위는 각각 그 위치가 5' 말단으로 시작되므로 수직 정렬되나, 절단되지 않은 부위에는 5' 말단이 존재하지 않으므로 정렬 시 스태거드 (staggered) 방식으로 배열될 수 있다. 따라서, 수직 정렬된 위치를 상기 단계 (i)에서 절단된 부위로 볼 수 있으며, 이는 곧 불활성화된 표적특이적 엔도뉴클레아제에 의하여 절단된 표적 위치 또는 비표적 위치를 의미하는 것일 수 있다.

상기 "정렬"은 표준 염기서열 (reference genome)로 염기서열 데이터를 맵핑한 뒤, 유전체에서 동일 위치를 가지는 염기들을 각 위치에 맞게 배열하는 것을 의미한다. 따라서, 염기서열 데이터를 상기와 같은 방식으로 정렬할 수 있다면 어떠한 컴퓨터 프로그램도 이용될 수 있으며, 이는 당업계에 이미 알려진 공지의 프로그램이거나 또는 목적에 맞게 제작된 프로그램들 중에서 선택될 수 있다. 일 실시예에서는 ISAAC를 이용하여 정렬을 수행하였으나, 이에 제한되는 것은 아니다.

정렬 결과, 상기 설명한 바와 같은 5' 말단이 수직 정렬된 위치를 찾는 등의 방법을 통해 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 의해 DNA가 절단된 위치를 결정할 수 있고, 상기 절단된 위치가 표적 위치 (on-target site)가 아니라면, 비표적 위치 (off-target site)로 판단할 수 있다. 다시 말해, 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제의 표적 위치로 설계한 염기 서열과 동일한 서열은 표적 위치이고, 상기 염기 서열과 동일하지 않은 서열은 비표적 위치로 볼 수 있다. 이는 상기 기술한 비표적 위치의 정의상 자명한 것이다.

상기 방법 (예컨대, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site) 확인 방법)은, 상기 단계 (iii) 이후에, 상기 절단 위치가 표적 위치 (on-target site)가 아닌 경우, 비표적 위치 (off-target site)로 확인(판단)하는 단계를 추가로 포함할 수 있다.

염기교정기 (디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제)에 의해 절단된 DNA 절편 중 절단된 가닥은 5' 말단이 수직정렬된다. 상기5' 말단이 수직정렬 되는 DNA 리드 (DNA read; 본 명세서에서 사용되는 바로서, 5' 말단이 수직정렬되고 동일한 핵산 서열을 갖는 DNA 단편 또는 상기 DNA 단편의 집단을 의미함)의 개수에 따라서, 절단 위치의 개수를 확인할 수 있다. 예컨대, 5' 말단이 수직정렬 되는 DNA 리드의 개수가 1인 경우, 상기 염기교정기에 의하여 하나의 위치, 즉 표적 위치에서만 절단이 일어났음을 확인할 수 있다. 5' 말단이 수직 정렬되는 DNA 리드의 개수가 2이상, 예컨대, 3 이상, 4 이상, 5 이상, 6 이상, 7 이상, 8 이상, 9 이상, 또는 10 이상인 경우, 2 이상의 다수의 위치에서 절단이 일어났음을 확인할 수 있으며, 이는 표적위치 이외의 위치 (비표적 위치)에서 DNA 절단이 있음을 의미하는 것이다. 또한, 상기 5' 말단이 수직정렬되는 DNA 리드들 중 표적 위치가 아닌 것 (즉, 표적 위치의 핵산 서열과 상이한 핵산 서열을 갖는 것)은 비표적 위치라고 확인 (또는 결정)할 수 있다.

따라서, 상기 단계 (iii)의 단일 가닥 절단 위치를 확인하는 단계는 (a) 5' 말단이 수직정렬 되는 DNA 리드의 수를 확인(또는 측정)하는 단계를 포함할 수 있다. 이 경우, 5' 말단이 수직정렬 되는 DNA 리드의 수가 2 이상, 예컨대, 3 이상, 4 이상, 5 이상, 6 이상, 7 이상, 8 이상, 9 이상, 또는 10 이상인 경우, 표적 위치가 아닌 위치 (비표적 위치)에서 DNA 절단이 일어난 것으로 확인 (또는 결정)할 수 있다. 또한, 이 경우, 상기 단계 (iv)의 비표적 위치로 확인하는 단계는 (iv-1) 상기 2개 이상의 5' 말단이 수직정렬 되는 DNA 리드 중 표적 위치의 핵산 서열과 상이한 핵산 서열을 갖는 DNA 리드를 비표적 위치로 확인 (또는 결정)하는 단계를 포함할 수 있다.

또한, 상기 비표적 위치가 PAM 서열을 포함하는지 여부를 확인(보다 구체적으로, 절단된 DNA 절편 중, 5' 말단이 수직정렬 되는 DNA 리드 중 표적 위치의 핵산 서열과 상이한 핵산 서열을 갖는 DNA 리드와 상보적 가닥 (상보적 서열을 갖는 가닥)이 PAM 서열을 포함하는지 여부를 확인)함으로써, 염기교정기에 포함된 표적특이적 엔도뉴클레아제에 의한 표적특이적 절단이 아닌 오류로 절단된 위치를 배제하여 비표적 위치의 정확도를 보다 증가시킬 시킬 수 있다. 따라서, 상기 단계 (iii)의 단일 가닥 절단 위치를 확인하는 단계는, (b) 비표적 위치가 PAM 서열을 포함하는지 여부를 확인하는 단계, 예컨대, 절단된 DNA 절편 중, 5' 말단이 수직정렬 되는 DNA 리드 중 표적 위치의 핵산 서열과 상이한 핵산 서열을 갖는 DNA 리드와 상보적 가닥 (상보적 서열을 갖는 가닥)이 염기교정기에 포함된 표적특이적 엔도뉴클레아제에 특이적인 PAM 서열을 포함하는지 여부를 확인하는 단계를 추가로 포함할 수 있다. 이 경우, 상기 단계 (iv)의 비표적 위치로 확인하는 단계는, (iv-2) 절단된 DNA 절편 중, 5' 말단이 수직정렬 되는 DNA 리드 중 표적 위치의 핵산 서열과 상이한 핵산 서열을 갖는 DNA 리드와 상보적 가닥 (상보적 서열을 갖는 가닥)이 염기교정기에 포함된 표적특이적 엔도뉴클레아제에 특이적인 PAM 서열을 포함하는 경우, 비표적 위치로 확인 (또는 결정)하는 단계를 포함할 수 있다.

또한, 상기 비표적 위치는 표적 위치의 서열과 상동성을 가지는 서열로 구성된 것일 수 있다. 보다 구체적으로, 표적 위치 서열은 PAM 서열을 포함하는 가닥의 핵산 서열로 표현되므로, 상기 비표적 위치는, 절단된 DNA 절편 중, 5' 말단이 수직정렬 되는 DNA 리드 중 표적 위치의 핵산 서열과 상이한 핵산 서열을 갖는 DNA 리드와 상보적 가닥 (상보적 서열을 갖는 가닥)의 핵산 서열이 표적 위치와 1 개 이상의 뉴클레오타이드 불일치 (mismatch)를 가지는 서열, 더욱 구체적으로 표적 위치(표적 서열)와 15개 이하 또는 10개 이하, 예컨대, 1개 내지 15개, 1개 내지 14개, 1개 내지 13개, 1개 내지 12개, 1개 내지 11개, 1개 내지 10개, 1개 내지 9개, 1개 내지 8개, 1개 내지 7개, 1개 내지 6개, 1개 내지 5개, 1개 내지 4개, 1개 내지 3개, 또는 1개 내지 2개의 뉴클레오타이드 불일치를 가지는 것일 수 있다.

따라서, 상기 단계 (iii)의 단일 가닥 절단 위치를 확인하는 단계는, (c) 절단된 DNA 절편 중, 5' 말단이 수직정렬 되는 DNA 리드 중 표적 위치의 핵산 서열과 상이한 핵산 서열을 갖는 DNA 리드와 상보적 가닥 (상보적 서열을 갖는 가닥)의 표적 위치 서열에 대한 불일치 뉴클레오타이드 수를 확인 (또는 측정)하는 단계를 추가로 포함할 수 있다. 이 경우, 상기 불일치 뉴클레오타이드 수가 15개 이하 또는 10개 이하, 예컨대, 1개 내지 15개, 1개 내지 14개, 1개 내지 13개, 1개 내지 12개, 1개 내지 11개, 1개 내지 10개, 1개 내지 9개, 1개 내지 8개, 1개 내지 7개, 1개 내지 6개, 1개 내지 5개, 1개 내지 4개, 1개 내지 3개, 또는 1개 내지 2개인 경우, 상기 DNA 리드를 표적 위치가 아닌 위치 (비표적 위치)에서 DNA 절단이 일어난 것으로 확인 (또는 결정)할 수 있다. 또한, 이 경우, 상기 단계 (iv)의 비표적 위치로 확인하는 단계는, (iv-3) 절단된 DNA 절편 중, 5' 말단이 수직정렬 되는 DNA 리드 중 표적 위치의 핵산 서열과 상이한 핵산 서열을 갖는 DNA 리드와 상보적 가닥 (상보적 서열을 갖는 가닥)의 표적 위치 서열에 대한 불일치 뉴클레오타이드가 15개 이하 또는 10개 이하, 예컨대, 1개 내지 15개, 1개 내지 14개, 1개 내지 13개, 1개 내지 12개, 1개 내지 11개, 1개 내지 10개, 1개 내지 9개, 1개 내지 8개, 1개 내지 7개, 1개 내지 6개, 1개 내지 5개, 1개 내지 4개, 1개 내지 3개, 또는 1개 내지 2개인 경우, 비표적 위치로 확인 (또는 결정)하는 단계를 포함할 수 있다.

상기 단계 (iii)는 단계 (a), (b), 및 (c) 중 하나 이상 (예컨대, 단계 (a) 및, (b)와 (c) 중 하나 이상)을 포함할 수 있으며, 상기 단계 (a), (b), 및 (c) 중 2 이상을 포함하는 경우, 이들은 동시에 또는 순서에 상관없이 순차적으로 수행되는 것일 수 있다. 또한, 단계 (iv)는 단계 (iv-1), (iv-2), 및 (iv-3) 중 하나 이상(예컨대, 단계 (iv-1) 및, (iv-2)와 (iv-3) 중 하나 이상)을 포함할 수 있으며, 상기 단계 (iv-1), (iv-2), 및 (iv-3) 중 2 이상을 포함하는 경우, 이들은 동시에 또는 순서에 상관없이 순차적으로 수행되는 것일 수 있다.

상기 단계 (iii-1)의 염기 교정 (예컨대, 시토신(C)의 우라실(U) 또는 티민 (T)으로의 변환) 여부를 확인하는 단계는, 절단된 DNA 절편 중, 5' 말단이 수직정렬 되는 DNA 리드 중 표적 위치의 핵산 서열과 상이한 핵산 서열을 갖는 DNA 리드와 상보적 가닥 (상보적 서열을 갖는 가닥)이 염기 교정 (하나 이상의 시토신(C)의 우라실(U) 또는 티민 (T)으로의 변환)을 포함하는지 여부를 확인 (측정)하는 단계를 포함하는 것일 수 있다. 이 경우, 상기 단계 (iv)의 비표적 위치로 확인하는 단계는, (iv-4) 절단된 DNA 절편 중, 5' 말단이 수직정렬 되는 DNA 리드 중 표적 위치의 핵산 서열과 상이한 핵산 서열을 갖는 DNA 리드와 상보적 가닥 (상보적 서열을 갖는 가닥)이 염기 교정 (하나 이상의 시토신(C)의 우라실(U) 또는 티민 (T)으로의 변환)을 포함하는 경우, 비표적 위치로 확인 (또는 결정)하는 단계를 포함할 수 있다.

일 실시예에서, 유전체 DNA에 대하여 상기 단계 (i)를 수행하여 단일 가닥 절단한 뒤, 전체 유전체 분석 (단계 (ii)) 수행 후, 이를 ISAAC로 정렬하여 절단된 위치에서는 수직 정렬, 절단되지 않은 위치에서는 스태거드 방식으로 정렬되는 패턴을 확인하여, 이를 5' 말단 플롯으로 나타내었을 때 절단 부위에서 독특한 패턴이 나타날 수 있다.

나아가 이에 제한되는 것은 아니나, 구체적인 일례로 왓슨 가닥 (Watson strand)과 크릭 가닥 (Crick strand)에 해당하는 염기서열 데이터 (sequence read)가 각각 두 개 이상씩 수직으로 정렬되는 위치를 비표적 위치인 것으로 판단할 수 있고, 또한 20 % 이상의 염기서열 데이터가 수직으로 정렬되고, 각각의 왓슨 가닥 및 크릭 가닥에서 동일한 5' 말단을 가진 염기서열 데이터의 수가 10 이상인 위치가 비표적 위치, 즉 절단되는 위치인 것으로 판단할 수 있다.

상기한 방법은 단계 (ii) 및 (iii)의 과정은 Digenome-seq (digested-genome sequencing일 수 있으며, 보다 구체적인 내용은 한국 특허공개 제10-2016-0058703호에 기재되어 있다 (상기 문헌은 본 발명에 참조로서 포함된다).

앞서 설명한 방법에 의하여, 디아미나제의 염기 교정 위치 및/또는 단일 가닥 절단 위치, on-target 부위에서의 염기 교정 효율 또는 표적 특이성 (즉, [on-target 부위에서의 염기 교정 또는 절단 빈도]/[전체 염기 교정 또는 절단 빈도]), 및/또는 비표적 위치 (off-target site; 디아미나제의 염기 교정 위치로 확인된 위치 중 on-target 위치가 아닌 위치)를 확인 (또는 측정 또는 검출)할 수 있다.

상기 비표적 위치 확인(검출)은 시험관 내 (in vitro)에서 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 유전체 DNA에 처리하여 수행될 수 있다. 이에 상기 방법을 통해 확인(검출)된 비표적 위치에 대하여 실질적으로 생체 내 (in vivo)에서도 비표적 효과가 나타나는지 확인해볼 수 있다. 다만 이는 추가적인 검증 과정에 불과하므로 본 발명의 범위에 필수적으로 수반되는 단계는 아니며, 필요에 따라 추가적으로 수행될 수 있는 단계에 불과하다.

본 명세서에 사용된 바로서, 용어 "비표적 효과 (off-target effect)"는 비표적 위치 (off-target site)에서 염기 교정 및/또는 이중 가닥 절단이 일어나는 수준을 의미하기 위한 것일 수 있다. 용어 "인델(Insertion and/or deletion; Indel)"은 DNA의 염기 배열에서 일부 염기가 중간에 삽입되거나 (insertion) 및/또는 결실된 (deletion) 변이를 총칭한다.

본 명세서에서 제공되는 시티딘 디아미나제를 이용한 DNA 단일 가닥 절단 방법 및 이를 이용한 핵산 서열 분석 기술에 의하여, 시티딘 디아미나제의 염기 교정 위치, 표적 특이성, 및/또는 비표적 위치를 보다 정확하고 효율적으로 확인할 수 있다.

도 1은 EMX1의 표적 위치에서의 C→U 변환 및 직선 정렬(straight alignment)을 보여주는 대표적인 IGV 이미지이다.
도 2는 Digenome-seq 결과 얻어진 하나의 가닥에서만 시퀀스 리드의 균일한 정렬을 갖는 절단 위치(nicked sites)의 개수 및 이들 위치 중 10개 이하의 mismatch를 갖는 PAM-포함 위치의 개수 보여준다.
도 3a는 rAPOBEC1-XTEN-dCas9-NLS 벡터의 개열지도이다.
도 3b는 rAPOBEC1-XTEN-dCas9-UGI-NLS 벡터의 개열지도이다.
도 3c는 rAPOBEC1-XTEN-Cas9n-UGI-NLS 벡터의 개열지도이다.
도 4는 Cas9 expression plasmid의 개열지도이다.
도 5는 pET28b-BE1 벡터의 개열지도이다.
도 6은 pET28b-BE3 delta UGI 벡터의 개열지도이다

이하 본 발명을 다음의 실시예에 의하여 보다 구체적으로 설명하고자 한다. 그러나 이들은 본 발명을 예시하기 위한 것일 뿐이며, 본 발명의 범위가 이들 실시예에 의하여 제한되는 것은 아니다.

[ 참고예 ]

1. 세포 배양 및 형질감염

HEK293T 세포 (ATCC CRL-11268)를 10%(w/v) FBS 및 1%(w/v) 페니실린/스트렙토 마이신 (Welgene)으로 보충된 DMEM (Dulbecco Modified Eagle Medium) 배지에서 유지시켰다. HEK293T 세포 (1.5x10⁵)를 24- 웰 플레이트에 접종하고, Lipofectamine 2000 (Invitrogen)을 사용하여 sgRNA plasmid (500 ng)와, Base Editor plasmid (Addgene plasmid #73019 (Expresses BE1 with C-terminal NLS in mammalian cells; rAPOBEC1-XTEN-dCas9-NLS; 도 3a), #73020 (Expresses BE2 in mammalian cells; rAPOBEC1-XTEN-dCas9-UGI-NLS; 도 3b), #73021 (Expresses BE3 in mammalian cells; rAPOBEC1-XTEN-Cas9n-UGI-NLS; 도 3c)) (1.5㎍) 또는 Cas9 expression plasmid (Addgene plasmid #43945; 도 4)를 형질감염시켰다 (at ~80% confluency). 형질감염 후 72 시간 후에 DNeasy Blood & Tissue Kit (Qiagen)을 사용하여 유전체 DNA를 분리하였다. 상기 세포에 대하여 마이코플라스마 오염 여부를 테스트하지 않았다.

하기하는 실시예에 사용된 sgRNA는 표적 부위 서열 (표적 서열; EMX1 on-target 서열; GAGTCCGAGCAGAAGAAGAAGGG (서열번호 14)) 중 5' 말단의 PAM 서열 (5'-NGG-3' (N은 A, T, G, 또는 C임))을 제외한 서열에서 T를 U로 바꾼 서열을 아래의 일반식 3의 표적화 서열 '(N_cas9)_l'로 하여 제작된 것을 사용하였다:

5'-(N_cas9)_l-(GUUUUAGAGCUA; 서열번호 1)-(GAAA)-(UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC; 서열번호 3)-3' (일반식 3; 올리고뉴클레오타이드 링커: GAAA).

2. 단백질 정제

His6-rAPOBEC1-XTEN-dCas9 단백질을 코딩하는 플라스미드(pET28b-BE1; Expresses BE1 with N-terminal His6 tag in E. Coli; 도 5)는 David Liu (Addgene plasmid #73018)로부터 제공받고, 상기 His6-rAPOBEC1-XTEN-dCas9 단백질을 코딩하는 플라스미드 pET28b-BE1에서 site directed mutagenesis를 이용하여 dCas9의 A840을 H840로 치환하여, His6-rAPOBEC1-nCas9 단백질 (BE3 delta UGI; UGI 도메인을 결여한 BE3 변이형)을 코딩하는 플라스미드(pET28b-BE3 delta UGI; 도 6)를 제작하였다.

Rosetta 발현 세포 (Novagen, catalog number: 70954-3CN)를 상기 준비된 pET28b-BE1 또는 pET28b-BE3 delta UGI로 형질 전환시키고, 100 ㎍/ml kanamycin 과 50 mg/ml carbenicilin을 포함하는 Luria-Bertani (LB) brot에서 37 조건으로 밤새 배양하였다. pET28b-BE1 또는 pET28b-BE3 delta UGI을 함유하는 Rosetta 세포를 밤새 배양한 배양물 10ml를 100㎍/ml kanamycin 및 50mg/ml carbenicilin을 함유하는 400ml LB broth에 접종하고 OD600이 0.5-0.6에 도달 할 때까지 30 조건에서 배양하였다. 상기 배양된 세포를 1 시간 동안 16 로 냉각시키고, 0.5 mM IPTG(Isopropyl β-D-1-thiogalactopyranoside)를 보충하여, 14-18 시간 동안 배양하였다.

단백질 정제를 위해, 세포를 4 에서 10 분 동안 5000xg에서 원심 분리하여 수확하고, 리소자임 (Sigma) 및 프로테아제 억제제 (Roche complete, EDTA-free)보충된 용해 완충액 (50 mM NaH₂PO₄, 300 mM NaCl, 1 mM DTT 및 10 mM imidazole, pH 8.0) 5 ml 에서 초음파 처리하여 용해시켰다. 상기 얻어진 세포 반응물을 4 에서 13,000 rpm로 30분 동안 원심분리하여 얻어진 용해성 세포 용해물을 Ni-NTA 아가로즈 레진(Qiagen)과 함께 4에서 1 시간 동안 배양하였다. 세포 용해물/Ni-NTA 혼합물을 컬럼에 적용하고 완충액 (50 mM NaH₂PO₄, 300 mM NaCl 및 20 mM 이미다졸, pH 8.0)으로 세척하였다. BE3 단백질을 용출 완충액 (50 mM NaH₂PO₄, 300 mM NaCl 및 250 mM 이미다졸, pH 8.0)으로 용출시켰다. 용출된 단백질을 저장 완충액 (20 mM HEPES-KOH (pH 7.5), 150 mM KCl, 1 mM DTT 및 20% 글리세롤)으로 버퍼 교체하여 저장하고 원심 분리 필터 유닛 (Millipore)을 사용하여 농축시켜, rAPOBEC1-nCas9 단백질을 정제하였다.

3. 유전체 DNA의 탈아민화

유전체 DNA는 제조자의 지시에 따라 DNeasy Blood & Tissue Kit (Qiagen)을 사용하여 HEK293T 세포로부터 정제(추출)하였다. 유전체 DNA (10 ㎍)를 상기 참고예 2에서 정제된 rAPOBEC1-nCas9 단백질 (300 nM)과 sgRNA (900 nM)와 함께 500 ㎕의 반응 용량으로 37 에서 8 시간 동안 완충액 (100 mM NaCl, 40 mM) Hris-HCl, 10 mM MgCl2, 및 100 ㎍/ml BSA, pH 7.9)에서 배양하였다.

상기 사용된 sgRNA는 표적 부위 서열 (표적 서열; EMX1 on-target 서열; GAGTCCGAGCAGAAGAAGAAGGG (서열번호 14)) 중 5' 말단의 PAM 서열 (5'-NGG-3' (N은 A, T, G, 또는 C임))을 제외한 서열에서 T를 U로 바꾼 서열을 아래의 일반식 3의 표적화 서열 '(N_cas9)_l'로 하여 제작된 것을 사용하였다:

5'-(N_cas9)_l-(GUUUUAGAGCUA)-(GAAA)-(UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC)-3' (일반식 3; 올리고뉴클레오타이드 링커: GAAA).

RNase A (50 ㎍/mL)를 사용하여 sgRNA를 제거한 후, 우라실 함유 유전체 DNA를 DNeasy Blood & Tissue Kit (Qiagen)로 정제하였다. 표적 부위를 SUN-PCR 블렌드를 사용하여 PCR 증폭시키고 생거 (Sanger) 서열 분석을 수행하여 BE3-매개 시토신 탈아민화 및 DNA 절단을 확인하였다.

4. 전체 유전체 및 Digenome Sequencing

Covaris 시스템 (Life Technologies)을 사용하여 400-500 bp 범위로 유전체 DNA (1 ㎍)를 단편화하고 End Repair Mix (Thermo Fischer)를 사용하여 blunt-ended 시켰다. 단편화된 DNA를 어댑터로 연결하여 라이브러리를 생성 한 다음, ㈜마크로젠에 의뢰하여 HiSeq X Ten Sequencer (Illumina)를 사용하여 WGS(whole genome sequencing)를 수행하였다 (Kim, D., Kim, S., Kim, S., Park, J. & Kim, J.S. Genome-wide target specificities of CRISPR-Cas9 nucleases revealed by multiplex Digenome-seq. Genome research 26, 406-415 (2016)).

5. 표적 심층 시퀀싱 (Targeted deep sequencing)

deep sequencing 라이브러리 생성을 위해, 표적과 잠재적인 비표적 부위를 KAPA HiFi HotStart PCR 키트 (KAPA Biosystems # KK2501)로 증폭시켰다. 풀링된 PCR 증폭물을 TruSeq HT Dual Index 시스템 (Illumina)이 장착된 MiniSeq (Illumina) 또는 Illumina Miseq(LAS Inc. 한국)을 사용하여 시퀀싱하였다.

상기 표적 심층 시퀀싱에 사용된 프라이머는 다음과 같다:

EMX1

On-target sequence: GAGTCCGAGCAGAAGAAGAAGGG (서열번호 14)

1st PCR

Forward(5'→3'):

AGTGTTGAGGCCCCAGTG (서열번호 15);

Reverse(5'→3'):

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGCAGCAAGCAGCACTCT (서열번호 16);

2nd PCR

Forward(5'→3'):

ACACTCTTTCCCTACACGACGCTCTTCCGATCTGGGCCTCCTGAGTTTCTCAT (서열번호 17);

Reverse(5'→3')

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGCAGCAAGCAGCACTCT (서열번호 18);

실시예 1. Digenome - seq를 이용한 BE3 비표적 위치 확인

생체 외에서 (in vitro), 인간 유전체 DNA에 EMX1 특이적 sgRNA (참고예 3 참조; on target 서열: 서열번호 14)와 rAPOBEC1-nCas9 단백질 (BE3: 참고예 2에서 정제됨)이 복합체를 형성한 리보핵산단백질을 처리하여 표적 (on-target) 위치 및 비표적 (off-target) 위치에서 한 가닥에는 C→U 변환을, 다른 가닥에서는 절단 (nick)을 유도한 후, 참고예 4를 참조하여 Digenome-seq를 수행하였다. 본 실시예에서, Uracil DNA glycosylase (UDG)와 DNA glycosylase-lyase Endonuclease VIII는 사용하지 않았다. end repair 및 adaptor ligation 후, BE3 처리된 유전체 DNA에 대하여 전체 유전체 시퀀싱 (WGS)을 수행하였다.

그 과정을 모식적으로 나타내면 다음과 같다:

한 가닥에서 서열 리드의 균일한 정렬 및 다른 가닥에서 C→U 변환이 일어난 표적 위치 및 비표적 위치를 계산적으로 확인하였다.

도 1은 EMX1의 표적 위치에서의 C→U 변환 및 직선 정렬(straight alignment)을 보여주는 대표적인 IGV 이미지이다.

상기 Digenome-seq 결과 얻어진 하나의 가닥에서만 시퀀스 리드의 균일한 정렬을 갖는 절단 위치(nicked sites; 5' 말단이 수직정렬을 갖는 위치(read))의 개수 및 이들 위치 중 10개 이하의 mismatch를 갖는 PAM-포함 위치(read)의 개수를 도 2에 나타내었다. 그룹 A와 B는 동일한 5' 말단을 갖는 시퀀스 리드의 절대 개수 (n ≥ 5 또는 10) 및 상대 개수 (각각 10% 또는 20%)를 갖는 것으로 확인되고 표적 서열과 상동성을 갖는 위치의 개수를 보여준다.

인간 유전체 전역에서 동일한 5' 말단을 갖는 서열 리드의 절대적 개수 (n≥ 5 또는 10) 및 상대적 개수 (각각 10 % 또는 20 %)를 계수하여 유전체 내에서의 균일한 정렬 패턴과 관련된 모든 위치를 열거하였다. 그 결과, 도 2에 나타난 바와 같이, 각각 90,496 또는 1,807 개의 해당 위치들을 확보하였다. 단일가닥 절단 (nick)이 있는 위치들 중 34 개 (그룹 A) 또는 142 개 (그룹 B; 상기 그룹 A를 포함함) 위치들은 각각 단일가닥 절단 위치의 하류방향의 PAM (5'-NGN-3' 또는 5'-NNG-3') 3 염기쌍을 가지며, 10 개 이하의 불일치 염기를 갖는 EMX1 표적 서열과 10개 이하의 mismatches를 갖는 정도의 상동성을 갖는다.

Digenome-seq를 통해 확인된 EMX1에 대한 BE3 비표적 위치에서의 Cas9 유도 indel 빈도와 BE3 유도 치환 빈도를 HEK293T 세포에서 표적심층시퀀싱(참고예 5 참조)을 사용하여 측정하였다. 손상되지 않은 유전체 DNA 또는 rAPOBEC1-nCas9로 처리된 유전체 DNA를 사용하여 얻어진 WGS 데이터에서의 이들 위치 각각에서 C→T 변환이 일어나는지 여부를 확인하였다.

EMX1에서 BE3에 의하여 절단된 DNA 서열 (표적 위치 1개 + 비표적 위치 141개 = 총 142개)을 아래의 표 1에 정리하였다 (아래 표 1에서, on target 서열과 mismatch인 염기는 소문자로 표시함).

	Chr	Position	DNA seq at a nickage sites	서열번호
EMX1-001 (on- target)	chr2	73160998	GAGTCCGAGCAGAAGAAGAAGGG	14
EMX1-002	chr4	131662222	GAaTCCaAG-AGAAGAAGAATGG	19
EMX1-003	chr2	219845072	GAGgCCGAGCAGAAGAAagACGG	20
EMX1-004	chr11	62365273	GAaTCCaAGCAGAAGAAGAgAAG	21
EMX1-005	chr8	128801258	GAGTCCtAGCAGgAGAAGAAGAG	22
EMX1-006	chr15	44109763	GAGTCtaAGCAGAAGAAGAAGAG	23
EMX1-007	chr19	24250503	GAGTCCaAGCAGtAGAgGAAGGG	24
EMX1-008	chr6	9118799	acGTCtGAGCAGAAGAAGAATGG	25
EMX1-009	chr5	9227162	aAGTCtGAGCAcAAGAAGAATGG	26
EMX1-010	chr1	4515013	GtGTCCtAG-AGAAGAAGAAGGG	27
EMX1-011	chr5	45359067	GAGTtaGAGCAGAAGAAGAAAGG	28
EMX1-012	chr13	96928092	GAGaCaGAG-AGAAGAAGAATGG	29
EMX1-013	chr18	34906762	GAGcCtGAGCgGAAGAgGAAAGG	30
EMX1-014	chr1	184236243	aAtaCaGAGCAGAAGAAGAATGG	31
EMX1-015	chr18	1677040	agtcCaGAGCAaAAtAAGAAGGG	32
EMX1-016	chr1	33606480	GAGcCtGAGCAGAAGgAGAAGGG	33
EMX1-017	chr3	111296327	GAagaaGAGCAaAAGAAGAAGGG	34
EMX1-018	chr22	34716275	GtGaCaGAGCAaAAGAAGAAAGG	35
EMX1-019	chr3	37781974	GAagagGAGCAaAAGAAGAAGGG	36
EMX1-020	chr20	6653999	aAGTCCagaCAGAAGAAGAAGGA	37
EMX1-021	chr16	78848850	aAaTCCaAcCAGAAGAAGAAAGG	38
EMX1-022	chr6	92449690	GttcaaGAGCAGgAGAAGAAGGG	39
EMX1-023	chr4	87256692	GAGTaaGAGaAGAAGAAGAAGGG	40
EMX1-024	chr11	43747948	aAGcCCGAGCAaAgGAAGAAAGG	41
EMX1-025	chr5	160643032	cctataGAGCAaAAGAAGAAAGG	42
EMX1-026	chr11	120873098	GAtcaaGAGaAGAAGAAGAAGGG	43
EMX1-027	chr5	62692054	cAaaaaGAGCAaAAGAAGAACGG	44
EMX1-028	chrX	3077291	tAcagtGAGCAaAAGAAGAAGGG	45
EMX1-029	chr14	98236084	GttcaaGAGCAGgAGAAGAAGGG	46
EMX1-030	chr2	205473563	ttcTCaGAGCAaAAGAAGAATGG	47
EMX1-031	chr3	189633259	cttTGCcAGGAGAAGgAcAtTGC	48
EMX1-032	chr10	58498683	agGTtaGAGCAaAAGAAGAAAGG	49
EMX1-033	chr1	35818892	tAtaCgGAGCAGAAGAAGAATGG	50
EMX1-034	chr3	45605387	GAGTCCacaCAGAAGAAGAAAGA	51
EMX1-035	chr3	5031614	GAaTCCaAGCAGgAGAAGAAGGA	52
EMX1-036	chr12	106646090	aAGTCCatGCAGAAGAgGAAGGG	53
EMX1-037	chr1	23720618	aAGTCCGAGgAGAgGAAGAAAGG	54
EMX1-038	chr11	107812992	aAGTCCaAGt-GAAGAAGAAAGG	55
EMX1-039	chr4	169444372	GAGaaCGAGaAGAAagAGgAGAG	56
EMX1-040	chr6	18327737	GAGagaGAGagagAGAgGgAGGG	57
EMX1-041	chr2	230161576	ctGgCaGAGCAaAAGAAGAgGGG	58
EMX1-042	chr3	95690186	tcaTCCaAGCAGAAGAAGAAGAG	59
EMX1-043	chr4	33321466	GtacagGAGCAGgAGAAGAATGG	60
EMX1-044	chr22	49900715	aAGaagGAGaAGAAGAAGAAGGG	61
EMX1-045	chr12	94591214	GAGagaGAGagagAGAgaAAGGG	62
EMX1-046	chr5	146833190	GAGcCgGAGCAGAAGAAGgAGGG	63
EMX1-047	chr6	111509461	GAGggaGAGagGgAGAgagAAAG	64
EMX1-048	chr1	26490139	ttaTCtccGagaAgGAAGAAGGG	65
EMX1-049	chr6	31265461	GAtTCtGtcCcGAAtcAGAAGGG	66
EMX1-050	chr14	30099303	atGcaaGAGaAGAAGAAGAAAGG	67
EMX1-051	chr3	83057859	agcaggGAGCAGAgGAAGAATGG	68
EMX1-052	chr15	35575311	GAGaagGAGaAGAAGAAGAAGGG	69
EMX1-053	chr1	55846672	actctaGAGCAGAAaAAGAATGG	70
EMX1-054	chr6	104384459	GAGgagGAGgAGgAGgAaggAGG	71
EMX1-055	chr19	9975831	aAagagGAGaAGAAGAAGAAGGG	72
EMX1-056	chr12	99525769	GgGgagGAGCAGAAGAAGAgAGG	73
EMX1-057	chr6	162280006	agGcCgagGCAGgAGAAtAgGAG	74
EMX1-058	chr7	85359110	GAGaagGAGCAGAAaAAGAATGG	75
EMX1-059	chr2	10462867	acagtaGAGCAGAAGAAGAcTGG	76
EMX1-060	chr3	18195303	atccaaGAGCAGgAGAAGAAGGG	77
EMX1-061	chr2	57855994	ataagaGAGCAaAAGAAGAAAGG	78
EMX1-062	chr6	33957284	GAGagaGAGagagAGAgaAACGG	79
EMX1-063	chr22	37474903	GAGaagGAGaAGAAGgAGAAGAG	80
EMX1-064	chr8	141193983	aAGaagaAGaAGAAGAAGAAGAG	81
EMX1-065	chr1	110038435	tttcggGAGCAGAAGAAGAACAG	82
EMX1-066	chr4	117483357	atcaCaGAGCAGgAGAAGAAGGG	83
EMX1-067	chr4	6150362	aAacagGAGCAGAgGAAGAAGGG	84
EMX1-068	chr2	116142148	aAGaagagGaAGAgGAgGAAAAG	85
EMX1-069	chr12	30794309	GAaatgGAGaAGAAGAAGAAGGG	86
EMX1-070	chr22	44527016	GAGagaGAaagaAAGAAaAAGGA	87
EMX1-071	chr9	96189722	GctgtgGAGCAaAAGAAGAAAGG	88
EMX1-072	chr8	113493465	GAGgagGAGCAGAAGAAGAAAAG	89
EMX1-073	chr11	46171476	tAaaagGAGCAGAAaAAGAAGGG	90
EMX1-074	chrX	3075272	tAccttGAGCAaAAGAAGAAGGG	91
EMX1-075	chr5	56038567	aAGaagGAGaAGAAGAAGAAGGG	92
EMX1-076	chr2	71789100	GcaggaGAGCAGAAGAAGAAAGG	93
EMX1-077	chr7	52389195	aAGagCGAGattAAGAgGAATGG	94
EMX1-078	chr5	31088930	aAGaaaGgagAGgAGAgGAgAGG	95
EMX1-079	chr11	111680806	agtagtGAGCAGAAGAAGAtAGG	96
EMX1-080	chr20	51306677	aAGaagGAGaAGAAGAAGAAGAG	97
EMX1-081	chr19	38433655	GAGagaGAGagagAGAgaAAGAG	98
EMX1-082	chr8	60956107	GgccagGAGCAGgAGAAGAAGGG	99
EMX1-083	chr16	26617803	agaggaGAGCAGAAGAAGgATGG	100
EMX1-084	chr12	52621931	aAGaagGAGaAGAAGAAGgAGGA	101
EMX1-085	chr3	156028864	cAtTaaGAGCAGgAGAAGAAGGG	102
EMX1-086	chr6	40280504	cgcTgatAcagaAAGAAGAATGG	103
EMX1-087	chr1	35385601	GAagtgGAGCAGgAGAAGAAGGG	104
EMX1-088	chr1	59299359	tttgtgGAGCAGAAaAAGAAAGG	105
EMX1-089	chr15	61646877	aAGTCaGAGgAGAAGAAGAAGGG	106
EMX1-090	chr2	159685754	aAagCtGAGCAGAAaAAGAAGGG	107
EMX1-091	chr12	41494108	GcagtgGAGCAGAAGAAGAtGGG	108
EMX1-092	chr7	119831026	acaaaaGAGCAGAgGAAGAAAGG	109
EMX1-093	chr1	234492864	GAagtaGAGCAGAAGAAGAAGCG	110
EMX1-094	chr14	104091588	aAagagGgagAGAAGAAGAAGGG	111
EMX1-095	chr1	31954326	aAGaagGAGaAGAAGAAGAAGAG	112
EMX1-096	chr8	120587501	aAGgCCaAGCAGAAGAgtAATGG	113
EMX1-097	chr2	46020469	acacaaGAGCAGAAGAAGAAAGA	114
EMX1-098	chr2	219294645	GccaatGAGCAGgAGAAGAAGGG	115
EMX1-099	chr8	11924153	cAtataGAGCAaAAGAAGAgAGG	116
EMX1-100	chr6	54740531	GAGgtgGAGggGAAGAgGgAAGG	117
EMX1-101	chr1	156786840	GAGagaGAGagagAGAgaAAGGG	118
EMX1-102	chr6	30791217	aAGgagGAGaAGAAGAAGAAGGG	119
EMX1-103	chr3	192777993	GAGggaGAGagagAGAgagAAAG	120
EMX1-104	chr2	36207879	agtcggGAGCAGgAGAAGAAAGG	121
EMX1-105	chr16	54831367	GttcaaGAGCAGAAGAAGAATGG	122
EMX1-106	chr6	160868147	tctaaaGAGCAGAAaAAGAAAGG	123
EMX1-107	chr2	24438043	actgatGAGCAGAAGAAGAAAGG	124
EMX1-108	chr22	37102243	aAGaagGAGaAGAAGAAGgAGGA	125
EMX1-109	chr11	121786535	agGaaaagagAGAAGAAGAAGGG	126
EMX1-110	chr7	3337380	GAGgagGAGaAGAAGAAGAAGGG	127
EMX1-111	chr8	112924257	GAGagaGAGagagAGAgaAAGGG	128
EMX1-112	chr16	69047289	GAGgCCGAagctgAGgtGggAGG	129
EMX1-113	chr8	105164125	GAGcCCaAGaAGAAGAAGAAGGA	130
EMX1-114	chr13	83353702	atGTaCagagAGAAGAAGAAAGG	131
EMX1-115	chr2	102929260	GccTtCagagAGAAGAAGAATGG	132
EMX1-116	chr15	22366621	GgagtaGAGCAGAgGAAGAAGGG	133
EMX1-117	chr2	172374203	GAagtaGAGCAGAAGAAGAAGCG	134
EMX1-118	chr8	31096390	GctcCtGAGCAGAAGAAGAACAG	135
EMX1-119	chr2	66729772	agtTCaGAGCAGgAGAAGAATGG	136
EMX1-120	chr2	14472327	atGaaCagagAGAAGAAGAATGG	137
EMX1-121	chr8	140468447	GAGagCGAGagagAGAgagAGGG	138
EMX1-122	chr7	52204863	aAaaagGAGCAGAAGAAGAAGGA	139
EMX1-123	chr1	151027598	ttcTCCaAGCAGAAGAAGAAGAG	140
EMX1-124	chr1	35590719	GAGagaGAGagagAGAgaAAGGG	141
EMX1-125	chr1	106744880	ttGgaaagagAGAAGAAGAAGGG	142
EMX1-126	chr10	115484209	aAGaggaAGaAGAAGAAGAAGAG	143
EMX1-127	chr3	119686684	GAGagaGAGaAagAGAAagAGAG	144
EMX1-128	chr8	53295601	GAagaaGAGaAGAAGAAGAAGGG	145
EMX1-129	chr18	12032247	GAtTCtGAGaAaAttAAGAtGGG	146
EMX1-130	chr15	61383748	GgGctCcgGCAGAAGAtGccATG	147
EMX1-131	chr1	209298672	GAtTCCaAGCAatgGAgGAgGGG	148
EMX1-132	chr7	17446438	GtccaaGAGCAGgAGAAGAAGGG	149
EMX1-133	chr13	74473871	atcTggGAGCAGgAGAAGAAGGG	150
EMX1-134	chr5	5141237	GAGgatccGagGAtGtAGAAGGG	151
EMX1-135	chr12	5041728	GAagaaGAagAaAgaAAGAAAGA	152
EMX1-136	chr8	112756160	cAGagaGAGaAtAAGtAGcATAG	153
EMX1-137	chr8	17384135	tgaggaagagAGAAGAAGAAAGG	154
EMX1-138	chr12	4545932	cAagCatgagAGAAGAAGAtGGG	155
EMX1-139	chr10	58848728	GAGcaCGAGCAagAGAAGAAGGG	156
EMX1-140	chr14	48932119	GAGTCCcAGCAaAAGAAGAAAAG	157
EMX1-141	chr3	145057362	GAGTCCct-CAGgAGAAGAAAGG	158
EMX1-142	chr9	111348573	GAGTCCttG-AGAAGAAGgAAGG	159

표 1에 열거된 절단 사이트에서 측정된 count (동일한 5' 말단을 갖는 sequence reads의 개수), depth (특정 위치에서의 sequence reads 개수), %(count/depth) 및 C→T 변환이 일어난 reads 개수를 아래의 표 2에 나타내었다:

	count	depth	%(count/depth)	C to T conversion		Group A	Group B
	count	depth	%(count/depth)	(+) Base editor	Untreated	Group A	Group B
EMX1-001 (on- target)	21	51	41.2	6	0	v	v
EMX1-002	21	39	53.8	8	0	v	v
EMX1-003	22	41	53.7	0	0	v	v
EMX1-004	36	79	45.6	10	0	v	v
EMX1-005	29	68	42.6	1	0	v	v
EMX1-006	26	62	41.9	9	0	v	v
EMX1-007	10	29	34.5	0	0	v	v
EMX1-008	24	86	27.9	0	0	v	v
EMX1-009	44	159	27.7	10	0	v	v
EMX1-010	11	41	26.8	0	0	v	v
EMX1-011	50	109	45.9	N.A.	N.A.	v	v
EMX1-012	15	43	34.9	1	0	v	v
EMX1-013	16	46	34.8	0	0	v	v
EMX1-014	22	64	34.4	0	1	v	v
EMX1-015	16	53	30.2	0	0	v	v
EMX1-016	19	63	30.2	1	0	v	v
EMX1-017	24	82	29.3	N.A.	N.A.	v	v
EMX1-018	24	85	28.2	0	0	v	v
EMX1-019	14	50	28.0	N.A.	N.A.	v	v
EMX1-020	10	36	27.8	0	0	v	v
EMX1-021	13	47	27.7	0	0	v	v
EMX1-022	13	48	27.1	1	0	v	v
EMX1-023	10	37	27.0	N.A.	N.A.	v	v
EMX1-024	11	42	26.2	0	0	v	v
EMX1-025	15	58	25.9	N.A.	N.A.	v	v
EMX1-026	11	43	25.6	0	0	v	v
EMX1-027	16	67	23.9	N.A.	N.A.	v	v
EMX1-028	10	44	22.7	N.A.	N.A.	v	v
EMX1-029	10	45	22.2	0	0	v	v
EMX1-030	14	63	22.2	0	0	v	v
EMX1-031	13	61	21.3	0	0	v	v
EMX1-032	13	61	21.3	N.A.	N.A.	v	v
EMX1-033	14	66	21.2	0	0	v	v
EMX1-034	14	53	26.4	2	0	v	v
EMX1-035	9	48	18.8	0	0	-	v
EMX1-036	8	46	17.4	1	0	-	v
EMX1-037	8	51	15.7	0	0	-	v
EMX1-038	6	42	14.3	0	0	-	v
EMX1-039	7	22	31.8	1	0	-	v
EMX1-040	7	22	31.8	N.A.	N.A.	-	v
EMX1-041	7	23	30.4	0	0	-	v
EMX1-042	7	25	28.0	0	0	-	v
EMX1-043	6	23	26.1	0	0	-	v
EMX1-044	7	27	25.9	N.A.	N.A.	-	v
EMX1-045	8	35	22.9	N.A.	N.A.	-	v
EMX1-046	9	40	22.5	0	0	-	v
EMX1-047	8	38	21.1	N.A.	N.A.	-	v
EMX1-048	5	24	20.8	0	0	-	v
EMX1-049	7	34	20.6	0	0	-	v
EMX1-050	8	40	20.0	0	0	-	v
EMX1-051	6	30	20.0	N.A.	N.A.	-	v
EMX1-052	10	51	19.6	N.A.	N.A.	-	v
EMX1-053	12	63	19.0	0	0	-	v
EMX1-054	7	37	18.9	N.A.	N.A.	-	v
EMX1-055	12	64	18.8	N.A.	N.A.	-	v
EMX1-056	8	43	18.6	N.A.	N.A.	-	v
EMX1-057	5	27	18.5	1	0	-	v
EMX1-058	9	49	18.4	N.A.	N.A.	-	v
EMX1-059	13	71	18.3	N.A.	N.A.	-	v
EMX1-060	10	55	18.2	0	0	-	v
EMX1-061	10	55	18.2	N.A.	N.A.	-	v
EMX1-062	5	28	17.9	N.A.	N.A.	-	v
EMX1-063	5	28	17.9	N.A.	N.A.	-	v
EMX1-064	7	40	17.5	N.A.	N.A.	-	v
EMX1-065	13	76	17.1	0	0	-	v
EMX1-066	5	30	16.7	0	0	-	v
EMX1-067	5	30	16.7	0	0	-	v
EMX1-068	6	36	16.7	N.A.	N.A.	-	v
EMX1-069	19	115	16.5	N.A.	N.A.	-	v
EMX1-070	6	37	16.2	N.A.	N.A.	-	v
EMX1-071	9	56	16.1	N.A.	N.A.	-	v
EMX1-072	15	94	16.0	N.A.	N.A.	-	v
EMX1-073	11	70	15.7	N.A.	N.A.	-	v
EMX1-074	7	45	15.6	0	0	-	v
EMX1-075	9	59	15.3	N.A.	N.A.	-	v
EMX1-076	9	59	15.3	N.A.	N.A.	-	v
EMX1-077	5	33	15.2	0	0	-	v
EMX1-078	14	93	15.1	N.A.	N.A.	-	v
EMX1-079	6	40	15.0	N.A.	N.A.	-	v
EMX1-080	11	75	14.7	N.A.	N.A.	-	v
EMX1-081	6	42	14.3	N.A.	N.A.	-	v
EMX1-082	6	43	14.0	0	0	-	v
EMX1-083	6	43	14.0	N.A.	N.A.	-	v
EMX1-084	7	50	14.0	N.A.	N.A.	-	v
EMX1-085	7	50	14.0	N.A.	N.A.	-	v
EMX1-086	5	36	13.9	N.A.	N.A.	-	v
EMX1-087	7	51	13.7	N.A.	N.A.	-	v
EMX1-088	7	51	13.7	N.A.	N.A.	-	v
EMX1-089	6	44	13.6	0	0	-	v
EMX1-090	10	74	13.5	0	0	-	v
EMX1-091	12	89	13.5	N.A.	N.A.	-	v
EMX1-092	5	37	13.5	N.A.	N.A.	-	v
EMX1-093	7	52	13.5	N.A.	N.A.	-	v
EMX1-094	6	45	13.3	N.A.	N.A.	-	v
EMX1-095	6	46	13.0	N.A.	N.A.	-	v
EMX1-096	11	85	12.9	0	0	-	v
EMX1-097	6	47	12.8	0	0	-	v
EMX1-098	5	39	12.8	N.A.	N.A.	-	v
EMX1-099	6	48	12.5	N.A.	N.A.	-	v
EMX1-100	6	48	12.5	N.A.	N.A.	-	v
EMX1-101	8	64	12.5	N.A.	N.A.	-	v
EMX1-102	7	57	12.3	N.A.	N.A.	-	v
EMX1-103	6	50	12.0	N.A.	N.A.	-	v
EMX1-104	7	59	11.9	0	0	-	v
EMX1-105	6	51	11.8	0	0	-	v
EMX1-106	9	77	11.7	N.A.	N.A.	-	v
EMX1-107	8	69	11.6	N.A.	N.A.	-	v
EMX1-108	5	43	11.6	N.A.	N.A.	-	v
EMX1-109	5	43	11.6	N.A.	N.A.	-	v
EMX1-110	7	61	11.5	N.A.	N.A.	-	v
EMX1-111	7	61	11.5	N.A.	N.A.	-	v
EMX1-112	5	44	11.4	0	0	-	v
EMX1-113	5	44	11.4	0	0	-	v
EMX1-114	7	62	11.3	0	0	-	v
EMX1-115	6	53	11.3	0	0	-	v
EMX1-116	8	71	11.3	N.A.	N.A.	-	v
EMX1-117	6	53	11.3	N.A.	N.A.	-	v
EMX1-118	6	54	11.1	0	0	-	v
EMX1-119	5	45	11.1	0	0	-	v
EMX1-120	5	46	10.9	0	0	-	v
EMX1-121	6	55	10.9	0	0	-	v
EMX1-122	6	55	10.9	N.A.	N.A.	-	v
EMX1-123	8	75	10.7	0	0	-	v
EMX1-124	6	56	10.7	N.A.	N.A.	-	v
EMX1-125	7	66	10.6	N.A.	N.A.	-	v
EMX1-126	5	47	10.6	N.A.	N.A.	-	v
EMX1-127	5	47	10.6	N.A.	N.A.	-	v
EMX1-128	8	76	10.5	N.A.	N.A.	-	v
EMX1-129	5	48	10.4	0	0	-	v
EMX1-130	5	48	10.4	0	0	-	v
EMX1-131	5	48	10.4	0	0	-	v
EMX1-132	5	48	10.4	1	0	-	v
EMX1-133	5	48	10.4	N.A.	N.A.	-	v
EMX1-134	7	68	10.3	0	0	-	v
EMX1-135	6	59	10.2	N.A.	N.A.	-	v
EMX1-136	5	49	10.2	N.A.	N.A.	-	v
EMX1-137	7	69	10.1	N.A.	N.A.	-	v
EMX1-138	5	50	10.0	0	0	-	v
EMX1-139	5	50	10.0	0	0	-	v
EMX1-140	7	44	15.9	0	0	-	v
EMX1-141	5	40	12.5	1	0	-	v
EMX1-142	6	49	12.2	1	0	-	v

(N.A.: not applicable because there are no cytosines to be deaminated at these sites)

상기 표 2에 나타난 바와 같이, BE-3 처리된 유전체 DNA 또는 손상되지 않은 (BE-3 미처리) 유전체 DNA를 사용하여 얻은 WGS 데이터에서 142개의 그룹 B 위치들 중 16개 위치 (BE-3 처리군) 또는 1개 위치(BE-3 미처리군)에서 C→T 변환이 각각 관찰되었다. 이들 위치들 중 70 개 위치는 BE3-매개 디아미네이션의 window인 4 내지 8 번 위치 (5'에서 3' 방향으로 1 내지 20번으로 넘버링됨)에 시토신을 갖지 않는다 (표 2에서 N.A.로 표시).

Digenome-seq에 의해 확인된 그룹 A와 그룹 B 사이트의 일부에서의 비표적 효과(off-target effect)를 확인하기 위하여, HEK293T 세포에서 targeted deep sequencing을 수행하고, BE3-유도 염기교정 빈도와 Cas9-유도 indel 빈도를 측정하여, 하기의 표 3에 나타내었다:

	Validation by NGS
	Indel frequency (%)			Base editing frequency (%)
	(-) Cas9	(+) Cas9	Validation	(-) BE3	(+) BE3	Validation
EMX1-001 (on- target)	0.15	61.59	Validated	0.10	49.33	Validated
EMX1-002	0.01	0.01	Invalidated	0.16	1.05	Validated
EMX1-003	0.00	7.94	Validated	0.24	4.04	Validated
EMX1-004	0.00	0.01	Validated	0.16	0.93	Validated
EMX1-005	0.00	8.63	Validated	0.05	2.47	Validated
EMX1-006	0.29	38.25	Validated	0.04	15.59	Validated
EMX1-007	0.01	0.01	Invalidated	0.08	0.13	Validated
EMX1-008	0.02	0.17	Validated	0.03	0.62	Validated
EMX1-009	0.10	3.45	Validated	0.02	0.15	Validated
EMX1-010	0.08	0.08	Invalidated	0.07	0.70	Validated
EMX1-034	0.00	0.00	Invalidated	0.33	0.40	Invalidated
EMX1-035	0.46	0.89	Validated	0.23	0.48	Validated
EMX1-036	0.01	0.02	Invalidated	0.09	0.31	Validated
EMX1-037	0.01	0.23	Validated	0.20	0.23	Validated
EMX1-038	0.01	0.01	Invalidated	0.14	0.16	Validated
EMX1-140	0.01	0.00	Invalidated	0.38	0.36	Invalidated
EMX1-141	0.00	0.00	Invalidated	0.30	0.37	Invalidated
EMX1-142	0.01	0.01	Invalidated	0.19	0.17	Invalidated

표 3에 나타난 바와 같이, 총 18 개 사이트를 분석하였으며, EMX1 on-target site를 포함한 14 개 사이트에서 시퀀싱 에러에 의한 noise 수준 (0.002~0.38%) 이상의 빈도로 BE3에 의한 점돌연변이가 일어남을 관찰하였다 (유효성 확인 비율 78%). BE3는 background noise 수준보다 낮은 빈도로 다른 BE3-관련 Digenome-양성 사이트에서 변이를 유도하는 것이 가능하다. 중요한 것은, 상기 방법에 의하여 0.13% 이하의 빈도로 염기 교정이 검출되는 BE3 비표적 위치의 확인이 가능하다는 것이며, 이는 Digenome-seq가 매우 민감한 방법임을 보여준다. EMX1에 특이적인 Cas9 뉴클레아제는 노이즈 수준 이상의 빈도로 18 개 위치 중 9 개 위치에서 indels를 유도하며, 이는 BE3 및 Cas9 비표적 위치가 종종 다르다는 것을 보여준다. 종합하면, 이러한 결과는 BE3 비표적 위치가 Digenome-seq 데이터를 사용하여 확인될 수 있음을 보여준다.

이상의 설명으로부터, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 이와 관련하여, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허 청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

<110> INSTITUTE FOR BASIC SCIENCE <120> METHOD OF IDENTIFYING GENOME-WIDE OFF-TARGET SITES OF BASE EDITORS BY DETECTING SINGLE STRAND BREAKS IN GENOMIC DNA <130> DPP20176864KR <150> 62/446,951 <151> 2017-01-17 <160> 159 <170> KopatentIn 3.0 <210> 1 <211> 12 <212> RNA <213> Artificial Sequence <220> <223> Essential part of crRNA <400> 1 guuuuagagc ua 12 <210> 2 <211> 10 <212> RNA <213> Artificial Sequence <220> <223> 3'-terminal part of crRNA <400> 2 ugcuguuuug 10 <210> 3 <211> 60 <212> RNA <213> Artificial Sequence <220> <223> Essential part of tracrRNA <400> 3 uagcaaguua aaauaaggcu aguccguuau caacuugaaa aaguggcacc gagucggugc 60 <210> 4 <211> 1368 <212> PRT <213> Artificial Sequence <220> <223> Cas9 from Streptococcus pyogenes <400> 4 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys 1010 1015 1020 Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser 1025 1030 1035 1040 Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu 1045 1050 1055 Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile 1060 1065 1070 Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser 1075 1080 1085 Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly 1090 1095 1100 Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile 1105 1110 1115 1120 Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser 1125 1130 1135 Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly 1140 1145 1150 Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile 1155 1160 1165 Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala 1170 1175 1180 Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys 1185 1190 1195 1200 Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser 1205 1210 1215 Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr 1220 1225 1230 Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His 1250 1255 1260 Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val 1265 1270 1275 1280 Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys 1285 1290 1295 His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu 1300 1305 1310 Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp 1315 1320 1325 Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp 1330 1335 1340 Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile 1345 1350 1355 1360 Asp Leu Ser Gln Leu Gly Gly Asp 1365 <210> 5 <211> 4107 <212> DNA <213> Artificial Sequence <220> <223> Cas9-coding sequence <400> 5 atggacaaga agtacagcat cggcctggac atcggtacca acagcgtggg ctgggccgtg 60 atcaccgacg agtacaaggt gcccagcaag aagttcaagg tgctgggcaa caccgaccgc 120 cacagcatca agaagaacct gatcggcgcc ctgctgttcg acagcggcga gaccgccgag 180 gccacccgcc tgaagcgcac cgcccgccgc cgctacaccc gccgcaagaa ccgcatctgc 240 tacctgcagg agatcttcag caacgagatg gccaaggtgg acgacagctt cttccaccgc 300 ctggaggaga gcttcctggt ggaggaggac aagaagcacg agcgccaccc catcttcggc 360 aacatcgtgg acgaggtggc ctaccacgag aagtacccca ccatctacca cctgcgcaag 420 aagctggtgg acagcaccga caaggccgac ctgcgcctga tctacctggc cctggcccac 480 atgatcaagt tccgcggcca cttcctgatc gagggcgacc tgaaccccga caacagcgac 540 gtggacaagc tgttcatcca gctggtgcag acctacaacc agctgttcga ggagaacccc 600 atcaacgcca gcggcgtgga cgccaaggcc atcctgagcg cccgcctgag caagagccgc 660 cgcctggaga acctgatcgc ccagctgccc ggcgagaaga agaacggcct gttcggcaac 720 ctgatcgccc tgagcctggg cctgaccccc aacttcaaga gcaacttcga cctggccgag 780 gacgccaagc tgcagctgag caaggacacc tacgacgacg acctggacaa cctgctggcc 840 cagatcggcg accagtacgc cgacctgttc ctggccgcca agaacctgag cgacgccatc 900 ctgctgagcg acatcctgcg cgtgaacacc gagatcacca aggcccccct gagcgccagc 960 atgatcaagc gctacgacga gcaccaccag gacctgaccc tgctgaaggc cctggtgcgc 1020 cagcagctgc ccgagaagta caaggagatc ttcttcgacc agagcaagaa cggctacgcc 1080 ggctacatcg acggcggcgc cagccaggag gagttctaca agttcatcaa gcccatcctg 1140 gagaagatgg acggcaccga ggagctgctg gtgaagctga accgcgagga cctgctgcgc 1200 aagcagcgca ccttcgacaa cggcagcatc ccccaccaga tccacctggg cgagctgcac 1260 gccatcctgc gccgccagga ggacttctac cccttcctga aggacaaccg cgagaagatc 1320 gagaagatcc tgaccttccg catcccctac tacgtgggcc ccctggcccg cggcaacagc 1380 cgcttcgcct ggatgacccg caagagcgag gagaccatca ccccctggaa cttcgaggag 1440 gtggtggaca agggcgccag cgcccagagc ttcatcgagc gcatgaccaa cttcgacaag 1500 aacctgccca acgagaaggt gctgcccaag cacagcctgc tgtacgagta cttcaccgtg 1560 tacaacgagc tgaccaaggt gaagtacgtg accgagggca tgcgcaagcc cgccttcctg 1620 agcggcgagc agaagaaggc catcgtggac ctgctgttca agaccaaccg caaggtgacc 1680 gtgaagcagc tgaaggagga ctacttcaag aagatcgagt gcttcgacag cgtggagatc 1740 agcggcgtgg aggaccgctt caacgccagc ctgggcacct accacgacct gctgaagatc 1800 atcaaggaca aggacttcct ggacaacgag gagaacgagg acatcctgga ggacatcgtg 1860 ctgaccctga ccctgttcga ggaccgcgag atgatcgagg agcgcctgaa gacctacgcc 1920 cacctgttcg acgacaaggt gatgaagcag ctgaagcgcc gccgctacac cggctggggc 1980 cgcctgagcc gcaagcttat caacggcatc cgcgacaagc agagcggcaa gaccatcctg 2040 gacttcctga agagcgacgg cttcgccaac cgcaacttca tgcagctgat ccacgacgac 2100 agcctgacct tcaaggagga catccagaag gcccaggtga gcggccaggg cgacagcctg 2160 cacgagcaca tcgccaacct ggccggcagc cccgccatca agaagggcat cctgcagacc 2220 gtgaaggtgg tggacgagct ggtgaaggtg atgggccgcc acaagcccga gaacatcgtg 2280 atcgagatgg cccgcgagaa ccagaccacc cagaagggcc agaagaacag ccgcgagcgc 2340 atgaagcgca tcgaggaggg catcaaggag ctgggcagcc agatcctgaa ggagcacccc 2400 gtggagaaca cccagctgca gaacgagaag ctgtacctgt actacctgca gaacggccgc 2460 gacatgtacg tggaccagga gctggacatc aaccgcctga gcgactacga cgtggaccac 2520 atcgtgcccc agagcttcct gaaggacgac agcatcgaca acaaggtgct gacccgcagc 2580 gacaagaacc gcggcaagag cgacaacgtg cccagcgagg aggtggtgaa gaagatgaag 2640 aactactggc gccagctgct gaacgccaag ctgatcaccc agcgcaagtt cgacaacctg 2700 accaaggccg agcgcggcgg cctgagcgag ctggacaagg ccggcttcat caagcgccag 2760 ctggtggaga cccgccagat caccaagcac gtggcccaga tcctggacag ccgcatgaac 2820 accaagtacg acgagaacga caagctgatc cgcgaggtga aggtgatcac cctgaagagc 2880 aagctggtga gcgacttccg caaggacttc cagttctaca aggtgcgcga gatcaacaac 2940 taccaccacg cccacgacgc ctacctgaac gccgtggtgg gcaccgccct gatcaagaag 3000 taccccaagc tggagagcga gttcgtgtac ggcgactaca aggtgtacga cgtgcgcaag 3060 atgatcgcca agagcgagca ggagatcggc aaggccaccg ccaagtactt cttctacagc 3120 aacatcatga acttcttcaa gaccgagatc accctggcca acggcgagat ccgcaagcgc 3180 cccctgatcg agaccaacgg cgagaccggc gagatcgtgt gggacaaggg ccgcgacttc 3240 gccaccgtgc gcaaggtgct gagcatgccc caggtgaaca tcgtgaagaa gaccgaggtg 3300 cagaccggcg gcttcagcaa ggagagcatc ctgcccaagc gcaacagcga caagctgatc 3360 gcccgcaaga aggactggga ccccaagaag tacggcggct tcgacagccc caccgtggcc 3420 tacagcgtgc tggtggtggc caaggtggag aagggcaaga gcaagaagct gaagagcgtg 3480 aaggagctgc tgggcatcac catcatggag cgcagcagct tcgagaagaa ccccatcgac 3540 ttcctggagg ccaagggcta caaggaggtg aagaaggacc tgatcatcaa gctgcccaag 3600 tacagcctgt tcgagctgga gaacggccgc aagcgcatgc tggccagcgc cggcgagctg 3660 cagaagggca acgagctggc cctgcccagc aagtacgtga acttcctgta cctggccagc 3720 cactacgaga agctgaaggg cagccccgag gacaacgagc agaagcagct gttcgtggag 3780 cagcacaagc actacctgga cgagatcatc gagcagatca gcgagttcag caagcgcgtg 3840 atcctggccg acgccaacct ggacaaggtg ctgagcgcct acaacaagca ccgcgacaag 3900 cccatccgcg agcaggccga gaacatcatc cacctgttca ccctgaccaa cctgggcgcc 3960 cccgccgcct tcaagtactt cgacaccacc atcgaccgca agcgctacac cagcaccaag 4020 gaggtgctgg acgccaccct gatccaccag agcatcaccg gtctgtacga gacccgcatc 4080 gacctgagcc agctgggcgg cgactaa 4107 <210> 6 <211> 229 <212> PRT <213> Artificial Sequence <220> <223> APOBEC-1 from Rattus norvegicus <400> 6 Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg 1 5 10 15 Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu 20 25 30 Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His 35 40 45 Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val 50 55 60 Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr 65 70 75 80 Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys 85 90 95 Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu 100 105 110 Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg Asn Arg 115 120 125 Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met 130 135 140 Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser 145 150 155 160 Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg 165 170 175 Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys 180 185 190 Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile 195 200 205 Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp 210 215 220 Ala Thr Gly Leu Lys 225 <210> 7 <211> 5148 <212> DNA <213> Artificial Sequence <220> <223> BE3 coding sequence <400> 7 catcatcatc atcatcacat gtcttctgaa accggtccgg ttgcggttga cccgaccctg 60 cgtcgtcgta tcgaaccgca cgaattcgaa gttttcttcg acccgcgtga actgcgtaaa 120 gaaacctgcc tgctgtacga aatcaactgg ggtggtcgtc actctatctg gcgtcacacc 180 tctcagaaca ccaacaaaca cgttgaagtt aacttcatcg aaaaattcac caccgaacgt 240 tacttctgcc cgaacacccg ttgctctatc acctggttcc tgtcttggtc tccgtgcggt 300 gaatgctctc gtgcgatcac cgaattcctg tctcgttacc cgcacgttac cctgttcatc 360 tacatcgcgc gtctgtacca ccacgcggac ccgcgtaacc gtcagggtct gcgtgacctg 420 atctcttctg gtgttaccat ccagatcatg accgaacagg aatctggtta ctgctggcgt 480 aacttcgtta actactctcc gtctaacgaa gcgcactggc cgcgttaccc gcacctgtgg 540 gttcgtctgt acgttctgga actgtactgc atcatcctgg gtctgccgcc gtgcctgaac 600 atcctgcgtc gtaaacagcc gcagctgacc ttcttcacca tcgcgctgca gtcttgccac 660 taccagcgtc tgccgccgca catcctgtgg gcgaccggtc tgaaatccgg tagcgaaaca 720 ccggggactt cagaatcggc caccccggag tctgataaga aatactcaat aggcttagct 780 atcggcacaa atagcgtcgg atgggcggtg atcactgatg aatataaggt tccgtctaaa 840 aagttcaagg ttctgggaaa tacagaccgc cacagtatca aaaaaaatct tataggggct 900 cttttatttg acagtggaga gacagcggaa gcgactcgtc tcaaacggac agctcgtaga 960 aggtatacac gtcggaagaa tcgtatttgt tatctacagg agattttttc aaatgagatg 1020 gcgaaagtag atgatagttt ctttcatcga cttgaagagt cttttttggt ggaagaagac 1080 aagaagcatg aacgtcatcc tatttttgga aatatagtag atgaagttgc ttatcatgag 1140 aaatatccaa ctatctatca tctgcgaaaa aaattggtag attctactga taaagcggat 1200 ttgcgcttaa tctatttggc cttagcgcat atgattaagt ttcgtggtca ttttttgatt 1260 gagggagatt taaatcctga taatagtgat gtggacaaac tatttatcca gttggtacaa 1320 acctacaatc aattatttga agaaaaccct attaacgcaa gtggagtaga tgctaaagcg 1380 attctttctg cacgattgag taaatcaaga cgattagaaa atctcattgc tcagctcccc 1440 ggtgagaaga aaaatggctt atttgggaat ctcattgctt tgtcattggg tttgacccct 1500 aattttaaat caaattttga tttggcagaa gatgctaaat tacagctttc aaaagatact 1560 tacgatgatg atttagataa tttattggcg caaattggag atcaatatgc tgatttgttt 1620 ttggcagcta agaatttatc agatgctatt ttactttcag atatcctaag agtaaatact 1680 gaaataacta aggctcccct atcagcttca atgattaaac gctacgatga acatcatcaa 1740 gacttgactc ttttaaaagc tttagttcga caacaacttc cagaaaagta taaagaaatc 1800 ttttttgatc aatcaaaaaa cggatatgca ggttatattg atgggggagc tagccaagaa 1860 gaattttata aatttatcaa accaatttta gaaaaaatgg atggtactga ggaattattg 1920 gtgaaactaa atcgtgaaga tttgctgcgc aagcaacgga cctttgacaa cggctctatt 1980 ccccatcaaa ttcacttggg tgagctgcat gctattttga gaagacaaga agacttttat 2040 ccatttttaa aagacaatcg tgagaagatt gaaaaaatct tgacttttcg aattccttat 2100 tatgttggtc cattggcgcg tggcaatagt cgttttgcat ggatgactcg gaagtctgaa 2160 gaaacaatta ccccatggaa ttttgaagaa gttgtcgata aaggtgcttc agctcaatca 2220 tttattgaac gcatgacaaa ctttgataaa aatcttccaa atgaaaaagt actaccaaaa 2280 catagtttgc tttatgagta ttttacggtt tataacgaat tgacaaaggt caaatatgtt 2340 actgaaggaa tgcgaaaacc agcatttctt tcaggtgaac agaagaaagc cattgttgat 2400 ttactcttca aaacaaatcg aaaagtaacc gttaagcaat taaaagaaga ttatttcaaa 2460 aaaatagaat gttttgatag tgttgaaatt tcaggagttg aagatagatt taatgcttca 2520 ttaggtacct accatgattt gctaaaaatt attaaagata aagatttttt ggataatgaa 2580 gaaaatgaag atatcttaga ggatattgtt ttaacattga ccttatttga agatagggag 2640 atgattgagg aaagacttaa aacatatgct cacctctttg atgataaggt gatgaaacag 2700 cttaaacgtc gccgttatac tggttgggga cgtttgtctc gaaaattgat taatggtatt 2760 agggataagc aatctggcaa aacaatatta gattttttga aatcagatgg ttttgccaat 2820 cgcaatttta tgcagctgat ccatgatgat agtttgacat ttaaagaaga cattcaaaaa 2880 gcacaagtgt ctggacaagg cgatagttta catgaacata ttgcaaattt agctggtagc 2940 cctgctatta aaaaaggtat tttacagact gtaaaagttg ttgatgaatt ggtcaaagta 3000 atggggcggc ataagccaga aaatatcgtt attgaaatgg cacgtgaaaa tcagacaact 3060 caaaagggcc agaaaaattc gcgagagcgt atgaaacgaa tcgaagaagg tatcaaagaa 3120 ttaggaagtc agattcttaa agagcatcct gttgaaaata ctcaattgca aaatgaaaag 3180 ctctatctct attatctcca aaatggaaga gacatgtatg tggaccaaga attagatatt 3240 aatcgtttaa gtgattatga tgtcgatcac attgttccac aaagtttcct taaagacgat 3300 tcaatagaca ataaggtctt aacgcgttct gataaaaatc gtggtaaatc ggataacgtt 3360 ccaagtgaag aagtagtcaa aaagatgaaa aactattgga gacaacttct aaacgccaag 3420 ttaatcactc aacgtaagtt tgataattta acgaaagctg aacgtggagg tttgagtgaa 3480 cttgataaag ctggttttat caaacgccaa ttggttgaaa ctcgccaaat cactaagcat 3540 gtggcacaaa ttttggatag tcgcatgaat actaaatacg atgaaaatga taaacttatt 3600 cgagaggtta aagtgattac cttaaaatct aaattagttt ctgacttccg aaaagatttc 3660 caattctata aagtacgtga gattaacaat taccatcatg cccatgatgc gtatctaaat 3720 gccgtcgttg gaactgcttt gattaagaaa tatccaaaac ttgaatcgga gtttgtctat 3780 ggtgattata aagtttatga tgttcgtaaa atgattgcta agtctgagca agaaataggc 3840 aaagcaaccg caaaatattt cttttactct aatatcatga acttcttcaa aacagaaatt 3900 acacttgcaa atggagagat tcgcaaacgc cctctaatcg aaactaatgg ggaaactgga 3960 gaaattgtct gggataaagg gcgagatttt gccacagtgc gcaaagtatt gtccatgccc 4020 caagtcaata ttgtcaagaa aacagaagta cagacaggcg gattctccaa ggagtcaatt 4080 ttaccaaaaa gaaattcgga caagcttatt gctcgtaaaa aagactggga tccaaaaaaa 4140 tatggtggtt ttgatagtcc aacggtagct tattcagtcc tagtggttgc taaggtggaa 4200 aaagggaaat cgaagaagtt aaaatccgtt aaagagttac tagggatcac aattatggaa 4260 agaagttcct ttgaaaaaaa tccgattgac tttttagaag ctaaaggata taaggaagtt 4320 aaaaaagact taatcattaa actacctaaa tatagtcttt ttgagttaga aaacggtcgt 4380 aaacggatgc tggctagtgc cggagaatta caaaaaggaa atgagctggc tctgccaagc 4440 aaatatgtga attttttata tttagctagt cattatgaaa agttgaaggg tagtccagaa 4500 gataacgaac aaaaacaatt gtttgtggag cagcataagc attatttaga tgagattatt 4560 gagcaaatca gtgaattttc taagcgtgtt attttagcag atgccaattt agataaagtt 4620 cttagtgcat ataacaaaca tagagacaaa ccaatacgtg aacaagcaga aaatattatt 4680 catttattta cgttgacgaa tcttggagct ccagccgcat tcaagtattt tgacacaacg 4740 atagatcgca aacgatacac ttctaccaag gaggtgctag acgcgacact gattcaccaa 4800 tccatcacgg gattatatga aactcggata gatttgtcac agcttggggg tgactctggt 4860 ggttctacta atctgtcaga tattattgaa aaggagaccg gtaagcaact ggttatccag 4920 gaatccatcc tcatgctccc agaggaggtg gaagaagtca ttgggaacaa gccggaaagc 4980 gatatactcg tgcacaccgc ctacgacgag agcaccgacg agaatgtcat gcttctgact 5040 agcgacgccc ctgaatacaa gccttgggct ctggtcatac aggatagcaa cggtgagaac 5100 aagattaaga tgctctctgg tggttctccc aagaagaaga ggaaagtc 5148 <210> 8 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> Hisx6 <400> 8 catcatcatc atcatcac 18 <210> 9 <211> 687 <212> DNA <213> Artificial Sequence <220> <223> rAPOBEC1 <400> 9 atgtcttctg aaaccggtcc ggttgcggtt gacccgaccc tgcgtcgtcg tatcgaaccg 60 cacgaattcg aagttttctt cgacccgcgt gaactgcgta aagaaacctg cctgctgtac 120 gaaatcaact ggggtggtcg tcactctatc tggcgtcaca cctctcagaa caccaacaaa 180 cacgttgaag ttaacttcat cgaaaaattc accaccgaac gttacttctg cccgaacacc 240 cgttgctcta tcacctggtt cctgtcttgg tctccgtgcg gtgaatgctc tcgtgcgatc 300 accgaattcc tgtctcgtta cccgcacgtt accctgttca tctacatcgc gcgtctgtac 360 caccacgcgg acccgcgtaa ccgtcagggt ctgcgtgacc tgatctcttc tggtgttacc 420 atccagatca tgaccgaaca ggaatctggt tactgctggc gtaacttcgt taactactct 480 ccgtctaacg aagcgcactg gccgcgttac ccgcacctgt gggttcgtct gtacgttctg 540 gaactgtact gcatcatcct gggtctgccg ccgtgcctga acatcctgcg tcgtaaacag 600 ccgcagctga ccttcttcac catcgcgctg cagtcttgcc actaccagcg tctgccgccg 660 cacatcctgt gggcgaccgg tctgaaa 687 <210> 10 <211> 48 <212> DNA <213> Artificial Sequence <220> <223> XTEN (linker) <400> 10 tccggtagcg aaacaccggg gacttcagaa tcggccaccc cggagtct 48 <210> 11 <211> 4101 <212> DNA <213> Artificial Sequence <220> <223> coding gene of Cas9 (D10A, nickase) <400> 11 gataagaaat actcaatagg cttagctatc ggcacaaata gcgtcggatg ggcggtgatc 60 actgatgaat ataaggttcc gtctaaaaag ttcaaggttc tgggaaatac agaccgccac 120 agtatcaaaa aaaatcttat aggggctctt ttatttgaca gtggagagac agcggaagcg 180 actcgtctca aacggacagc tcgtagaagg tatacacgtc ggaagaatcg tatttgttat 240 ctacaggaga ttttttcaaa tgagatggcg aaagtagatg atagtttctt tcatcgactt 300 gaagagtctt ttttggtgga agaagacaag aagcatgaac gtcatcctat ttttggaaat 360 atagtagatg aagttgctta tcatgagaaa tatccaacta tctatcatct gcgaaaaaaa 420 ttggtagatt ctactgataa agcggatttg cgcttaatct atttggcctt agcgcatatg 480 attaagtttc gtggtcattt tttgattgag ggagatttaa atcctgataa tagtgatgtg 540 gacaaactat ttatccagtt ggtacaaacc tacaatcaat tatttgaaga aaaccctatt 600 aacgcaagtg gagtagatgc taaagcgatt ctttctgcac gattgagtaa atcaagacga 660 ttagaaaatc tcattgctca gctccccggt gagaagaaaa atggcttatt tgggaatctc 720 attgctttgt cattgggttt gacccctaat tttaaatcaa attttgattt ggcagaagat 780 gctaaattac agctttcaaa agatacttac gatgatgatt tagataattt attggcgcaa 840 attggagatc aatatgctga tttgtttttg gcagctaaga atttatcaga tgctatttta 900 ctttcagata tcctaagagt aaatactgaa ataactaagg ctcccctatc agcttcaatg 960 attaaacgct acgatgaaca tcatcaagac ttgactcttt taaaagcttt agttcgacaa 1020 caacttccag aaaagtataa agaaatcttt tttgatcaat caaaaaacgg atatgcaggt 1080 tatattgatg ggggagctag ccaagaagaa ttttataaat ttatcaaacc aattttagaa 1140 aaaatggatg gtactgagga attattggtg aaactaaatc gtgaagattt gctgcgcaag 1200 caacggacct ttgacaacgg ctctattccc catcaaattc acttgggtga gctgcatgct 1260 attttgagaa gacaagaaga cttttatcca tttttaaaag acaatcgtga gaagattgaa 1320 aaaatcttga cttttcgaat tccttattat gttggtccat tggcgcgtgg caatagtcgt 1380 tttgcatgga tgactcggaa gtctgaagaa acaattaccc catggaattt tgaagaagtt 1440 gtcgataaag gtgcttcagc tcaatcattt attgaacgca tgacaaactt tgataaaaat 1500 cttccaaatg aaaaagtact accaaaacat agtttgcttt atgagtattt tacggtttat 1560 aacgaattga caaaggtcaa atatgttact gaaggaatgc gaaaaccagc atttctttca 1620 ggtgaacaga agaaagccat tgttgattta ctcttcaaaa caaatcgaaa agtaaccgtt 1680 aagcaattaa aagaagatta tttcaaaaaa atagaatgtt ttgatagtgt tgaaatttca 1740 ggagttgaag atagatttaa tgcttcatta ggtacctacc atgatttgct aaaaattatt 1800 aaagataaag attttttgga taatgaagaa aatgaagata tcttagagga tattgtttta 1860 acattgacct tatttgaaga tagggagatg attgaggaaa gacttaaaac atatgctcac 1920 ctctttgatg ataaggtgat gaaacagctt aaacgtcgcc gttatactgg ttggggacgt 1980 ttgtctcgaa aattgattaa tggtattagg gataagcaat ctggcaaaac aatattagat 2040 tttttgaaat cagatggttt tgccaatcgc aattttatgc agctgatcca tgatgatagt 2100 ttgacattta aagaagacat tcaaaaagca caagtgtctg gacaaggcga tagtttacat 2160 gaacatattg caaatttagc tggtagccct gctattaaaa aaggtatttt acagactgta 2220 aaagttgttg atgaattggt caaagtaatg gggcggcata agccagaaaa tatcgttatt 2280 gaaatggcac gtgaaaatca gacaactcaa aagggccaga aaaattcgcg agagcgtatg 2340 aaacgaatcg aagaaggtat caaagaatta ggaagtcaga ttcttaaaga gcatcctgtt 2400 gaaaatactc aattgcaaaa tgaaaagctc tatctctatt atctccaaaa tggaagagac 2460 atgtatgtgg accaagaatt agatattaat cgtttaagtg attatgatgt cgatcacatt 2520 gttccacaaa gtttccttaa agacgattca atagacaata aggtcttaac gcgttctgat 2580 aaaaatcgtg gtaaatcgga taacgttcca agtgaagaag tagtcaaaaa gatgaaaaac 2640 tattggagac aacttctaaa cgccaagtta atcactcaac gtaagtttga taatttaacg 2700 aaagctgaac gtggaggttt gagtgaactt gataaagctg gttttatcaa acgccaattg 2760 gttgaaactc gccaaatcac taagcatgtg gcacaaattt tggatagtcg catgaatact 2820 aaatacgatg aaaatgataa acttattcga gaggttaaag tgattacctt aaaatctaaa 2880 ttagtttctg acttccgaaa agatttccaa ttctataaag tacgtgagat taacaattac 2940 catcatgccc atgatgcgta tctaaatgcc gtcgttggaa ctgctttgat taagaaatat 3000 ccaaaacttg aatcggagtt tgtctatggt gattataaag tttatgatgt tcgtaaaatg 3060 attgctaagt ctgagcaaga aataggcaaa gcaaccgcaa aatatttctt ttactctaat 3120 atcatgaact tcttcaaaac agaaattaca cttgcaaatg gagagattcg caaacgccct 3180 ctaatcgaaa ctaatgggga aactggagaa attgtctggg ataaagggcg agattttgcc 3240 acagtgcgca aagtattgtc catgccccaa gtcaatattg tcaagaaaac agaagtacag 3300 acaggcggat tctccaagga gtcaatttta ccaaaaagaa attcggacaa gcttattgct 3360 cgtaaaaaag actgggatcc aaaaaaatat ggtggttttg atagtccaac ggtagcttat 3420 tcagtcctag tggttgctaa ggtggaaaaa gggaaatcga agaagttaaa atccgttaaa 3480 gagttactag ggatcacaat tatggaaaga agttcctttg aaaaaaatcc gattgacttt 3540 ttagaagcta aaggatataa ggaagttaaa aaagacttaa tcattaaact acctaaatat 3600 agtctttttg agttagaaaa cggtcgtaaa cggatgctgg ctagtgccgg agaattacaa 3660 aaaggaaatg agctggctct gccaagcaaa tatgtgaatt ttttatattt agctagtcat 3720 tatgaaaagt tgaagggtag tccagaagat aacgaacaaa aacaattgtt tgtggagcag 3780 cataagcatt atttagatga gattattgag caaatcagtg aattttctaa gcgtgttatt 3840 ttagcagatg ccaatttaga taaagttctt agtgcatata acaaacatag agacaaacca 3900 atacgtgaac aagcagaaaa tattattcat ttatttacgt tgacgaatct tggagctcca 3960 gccgcattca agtattttga cacaacgata gatcgcaaac gatacacttc taccaaggag 4020 gtgctagacg cgacactgat tcaccaatcc atcacgggat tatatgaaac tcggatagat 4080 ttgtcacagc ttgggggtga c 4101 <210> 12 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> NLS <400> 12 cccaagaaga agaggaaagt c 21 <210> 13 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> linker <400> 13 tctggtggtt ct 12 <210> 14 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1 on-target sequence <400> 14 gagtccgagc agaagaagaa ggg 23 <210> 15 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> 1st PCR forward primer for targeted deep sequencing <400> 15 agtgttgagg ccccagtg 18 <210> 16 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> 1st PCR reverse primer for targeted deep sequencing <400> 16 gtgactggag ttcagacgtg tgctcttccg atctcagcag caagcagcac tct 53 <210> 17 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> 2nd PCR forward primer for targeted deep sequencing <400> 17 acactctttc cctacacgac gctcttccga tctgggcctc ctgagtttct cat 53 <210> 18 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> 2nd PCR reverse primer for targeted deep sequencing <400> 18 gtgactggag ttcagacgtg tgctcttccg atctcagcag caagcagcac tct 53 <210> 19 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> EMX1-002 off-target sequence <400> 19 gaatccaaga gaagaagaat gg 22 <210> 20 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-003 off-target sequence <400> 20 gaggccgagc agaagaaaga cgg 23 <210> 21 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-004 off-target sequence <400> 21 gaatccaagc agaagaagag aag 23 <210> 22 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-005 off-target sequence <400> 22 gagtcctagc aggagaagaa gag 23 <210> 23 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-006 off-target sequence <400> 23 gagtctaagc agaagaagaa gag 23 <210> 24 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-007 off-target sequence <400> 24 gagtccaagc agtagaggaa ggg 23 <210> 25 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-008 off-target sequence <400> 25 acgtctgagc agaagaagaa tgg 23 <210> 26 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-009 off-target sequence <400> 26 aagtctgagc acaagaagaa tgg 23 <210> 27 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> EMX1-010 off-target sequence <400> 27 gtgtcctaga gaagaagaag gg 22 <210> 28 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-011 off-target sequence <400> 28 gagttagagc agaagaagaa agg 23 <210> 29 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> EMX1-012 off-target sequence <400> 29 gagacagaga gaagaagaat gg 22 <210> 30 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-013 off-target sequence <400> 30 gagcctgagc ggaagaggaa agg 23 <210> 31 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-014 off-target sequence <400> 31 aatacagagc agaagaagaa tgg 23 <210> 32 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-015 off-target sequence <400> 32 agtccagagc aaaataagaa ggg 23 <210> 33 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-016 off-target sequence <400> 33 gagcctgagc agaaggagaa ggg 23 <210> 34 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-017 off-target sequence <400> 34 gaagaagagc aaaagaagaa ggg 23 <210> 35 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-018 off-target sequence <400> 35 gtgacagagc aaaagaagaa agg 23 <210> 36 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-019 off-target sequence <400> 36 gaagaggagc aaaagaagaa ggg 23 <210> 37 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-020 off-target sequence <400> 37 aagtccagac agaagaagaa gga 23 <210> 38 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-021 off-target sequence <400> 38 aaatccaacc agaagaagaa agg 23 <210> 39 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-022 off-target sequence <400> 39 gttcaagagc aggagaagaa ggg 23 <210> 40 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-023 off-target sequence <400> 40 gagtaagaga agaagaagaa ggg 23 <210> 41 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-024 off-target sequence <400> 41 aagcccgagc aaaggaagaa agg 23 <210> 42 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-025 off-target sequence <400> 42 cctatagagc aaaagaagaa agg 23 <210> 43 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-026 off-target sequence <400> 43 gatcaagaga agaagaagaa ggg 23 <210> 44 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-027 off-target sequence <400> 44 caaaaagagc aaaagaagaa cgg 23 <210> 45 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-028 off-target sequence <400> 45 tacagtgagc aaaagaagaa ggg 23 <210> 46 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-029 off-target sequence <400> 46 gttcaagagc aggagaagaa ggg 23 <210> 47 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-030 off-target sequence <400> 47 ttctcagagc aaaagaagaa tgg 23 <210> 48 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-031 off-target sequence <400> 48 ctttgccagg agaaggacat tgc 23 <210> 49 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-032 off-target sequence <400> 49 aggttagagc aaaagaagaa agg 23 <210> 50 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-033 off-target sequence <400> 50 tatacggagc agaagaagaa tgg 23 <210> 51 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-034 off-target sequence <400> 51 gagtccacac agaagaagaa aga 23 <210> 52 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-035 off-target sequence <400> 52 gaatccaagc aggagaagaa gga 23 <210> 53 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-036 off-target sequence <400> 53 aagtccatgc agaagaggaa ggg 23 <210> 54 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-037 off-target sequence <400> 54 aagtccgagg agaggaagaa agg 23 <210> 55 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> EMX1-038 off-target sequence <400> 55 aagtccaagt gaagaagaaa gg 22 <210> 56 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-039 off-target sequence <400> 56 gagaacgaga agaaagagga gag 23 <210> 57 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-040 off-target sequence <400> 57 gagagagaga gagagaggga ggg 23 <210> 58 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-041 off-target sequence <400> 58 ctggcagagc aaaagaagag ggg 23 <210> 59 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-042 off-target sequence <400> 59 tcatccaagc agaagaagaa gag 23 <210> 60 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-043 off-target sequence <400> 60 gtacaggagc aggagaagaa tgg 23 <210> 61 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-044 off-target sequence <400> 61 aagaaggaga agaagaagaa ggg 23 <210> 62 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-045 off-target sequence <400> 62 gagagagaga gagagagaaa ggg 23 <210> 63 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-046 off-target sequence <400> 63 gagccggagc agaagaagga ggg 23 <210> 64 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-047 off-target sequence <400> 64 gagggagaga gggagagaga aag 23 <210> 65 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-048 off-target sequence <400> 65 ttatctccga gaaggaagaa ggg 23 <210> 66 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-049 off-target sequence <400> 66 gattctgtcc cgaatcagaa ggg 23 <210> 67 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-050 off-target sequence <400> 67 atgcaagaga agaagaagaa agg 23 <210> 68 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-051 off-target sequence <400> 68 agcagggagc agaggaagaa tgg 23 <210> 69 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-052 off-target sequence <400> 69 gagaaggaga agaagaagaa ggg 23 <210> 70 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-053 off-target sequence <400> 70 actctagagc agaaaaagaa tgg 23 <210> 71 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-054 off-target sequence <400> 71 gaggaggagg aggaggaagg agg 23 <210> 72 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-055 off-target sequence <400> 72 aaagaggaga agaagaagaa ggg 23 <210> 73 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-056 off-target sequence <400> 73 ggggaggagc agaagaagag agg 23 <210> 74 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-057 off-target sequence <400> 74 aggccgaggc aggagaatag gag 23 <210> 75 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-058 off-target sequence <400> 75 gagaaggagc agaaaaagaa tgg 23 <210> 76 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-059 off-target sequence <400> 76 acagtagagc agaagaagac tgg 23 <210> 77 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-060 off-target sequence <400> 77 atccaagagc aggagaagaa ggg 23 <210> 78 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-061 off-target sequence <400> 78 ataagagagc aaaagaagaa agg 23 <210> 79 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-062 off-target sequence <400> 79 gagagagaga gagagagaaa cgg 23 <210> 80 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-063 off-target sequence <400> 80 gagaaggaga agaaggagaa gag 23 <210> 81 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-064 off-target sequence <400> 81 aagaagaaga agaagaagaa gag 23 <210> 82 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-065 off-target sequence <400> 82 tttcgggagc agaagaagaa cag 23 <210> 83 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-066 off-target sequence <400> 83 atcacagagc aggagaagaa ggg 23 <210> 84 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-067 off-target sequence <400> 84 aaacaggagc agaggaagaa ggg 23 <210> 85 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-068 off-target sequence <400> 85 aagaagagga agaggaggaa aag 23 <210> 86 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-069 off-target sequence <400> 86 gaaatggaga agaagaagaa ggg 23 <210> 87 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-070 off-target sequence <400> 87 gagagagaaa gaaagaaaaa gga 23 <210> 88 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-071 off-target sequence <400> 88 gctgtggagc aaaagaagaa agg 23 <210> 89 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-072 off-target sequence <400> 89 gaggaggagc agaagaagaa aag 23 <210> 90 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-073 off-target sequence <400> 90 taaaaggagc agaaaaagaa ggg 23 <210> 91 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-074 off-target sequence <400> 91 taccttgagc aaaagaagaa ggg 23 <210> 92 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-075 off-target sequence <400> 92 aagaaggaga agaagaagaa ggg 23 <210> 93 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-076 off-target sequence <400> 93 gcaggagagc agaagaagaa agg 23 <210> 94 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-077 off-target sequence <400> 94 aagagcgaga ttaagaggaa tgg 23 <210> 95 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-078 off-target sequence <400> 95 aagaaaggag aggagaggag agg 23 <210> 96 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-079 off-target sequence <400> 96 agtagtgagc agaagaagat agg 23 <210> 97 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-080 off-target sequence <400> 97 aagaaggaga agaagaagaa gag 23 <210> 98 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-081 off-target sequence <400> 98 gagagagaga gagagagaaa gag 23 <210> 99 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-082 off-target sequence <400> 99 ggccaggagc aggagaagaa ggg 23 <210> 100 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-083 off-target sequence <400> 100 agaggagagc agaagaagga tgg 23 <210> 101 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-084 off-target sequence <400> 101 aagaaggaga agaagaagga gga 23 <210> 102 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-085 off-target sequence <400> 102 cattaagagc aggagaagaa ggg 23 <210> 103 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-086 off-target sequence <400> 103 cgctgataca gaaagaagaa tgg 23 <210> 104 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-087 off-target sequence <400> 104 gaagtggagc aggagaagaa ggg 23 <210> 105 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-088 off-target sequence <400> 105 tttgtggagc agaaaaagaa agg 23 <210> 106 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-089 off-target sequence <400> 106 aagtcagagg agaagaagaa ggg 23 <210> 107 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-090 off-target sequence <400> 107 aaagctgagc agaaaaagaa ggg 23 <210> 108 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-091 off-target sequence <400> 108 gcagtggagc agaagaagat ggg 23 <210> 109 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-092 off-target sequence <400> 109 acaaaagagc agaggaagaa agg 23 <210> 110 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-093 off-target sequence <400> 110 gaagtagagc agaagaagaa gcg 23 <210> 111 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-094 off-target sequence <400> 111 aaagagggag agaagaagaa ggg 23 <210> 112 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-095 off-target sequence <400> 112 aagaaggaga agaagaagaa gag 23 <210> 113 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-096 off-target sequence <400> 113 aaggccaagc agaagagtaa tgg 23 <210> 114 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-097 off-target sequence <400> 114 acacaagagc agaagaagaa aga 23 <210> 115 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-098 off-target sequence <400> 115 gccaatgagc aggagaagaa ggg 23 <210> 116 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-099 off-target sequence <400> 116 catatagagc aaaagaagag agg 23 <210> 117 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-100 off-target sequence <400> 117 gaggtggagg ggaagaggga agg 23 <210> 118 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-101 off-target sequence <400> 118 gagagagaga gagagagaaa ggg 23 <210> 119 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-102 off-target sequence <400> 119 aaggaggaga agaagaagaa ggg 23 <210> 120 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-103 off-target sequence <400> 120 gagggagaga gagagagaga aag 23 <210> 121 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-104 off-target sequence <400> 121 agtcgggagc aggagaagaa agg 23 <210> 122 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-105 off-target sequence <400> 122 gttcaagagc agaagaagaa tgg 23 <210> 123 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-106 off-target sequence <400> 123 tctaaagagc agaaaaagaa agg 23 <210> 124 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-107 off-target sequence <400> 124 actgatgagc agaagaagaa agg 23 <210> 125 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-108 off-target sequence <400> 125 aagaaggaga agaagaagga gga 23 <210> 126 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-109 off-target sequence <400> 126 aggaaaagag agaagaagaa ggg 23 <210> 127 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-110 off-target sequence <400> 127 gaggaggaga agaagaagaa ggg 23 <210> 128 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-111 off-target sequence <400> 128 gagagagaga gagagagaaa ggg 23 <210> 129 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-112 off-target sequence <400> 129 gaggccgaag ctgaggtggg agg 23 <210> 130 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-113 off-target sequence <400> 130 gagcccaaga agaagaagaa gga 23 <210> 131 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-114 off-target sequence <400> 131 atgtacagag agaagaagaa agg 23 <210> 132 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-115 off-target sequence <400> 132 gccttcagag agaagaagaa tgg 23 <210> 133 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-116 off-target sequence <400> 133 ggagtagagc agaggaagaa ggg 23 <210> 134 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-117 off-target sequence <400> 134 gaagtagagc agaagaagaa gcg 23 <210> 135 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-118 off-target sequence <400> 135 gctcctgagc agaagaagaa cag 23 <210> 136 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-119 off-target sequence <400> 136 agttcagagc aggagaagaa tgg 23 <210> 137 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-120 off-target sequence <400> 137 atgaacagag agaagaagaa tgg 23 <210> 138 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-121 off-target sequence <400> 138 gagagcgaga gagagagaga ggg 23 <210> 139 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-122 off-target sequence <400> 139 aaaaaggagc agaagaagaa gga 23 <210> 140 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-123 off-target sequence <400> 140 ttctccaagc agaagaagaa gag 23 <210> 141 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-124 off-target sequence <400> 141 gagagagaga gagagagaaa ggg 23 <210> 142 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-125 off-target sequence <400> 142 ttggaaagag agaagaagaa ggg 23 <210> 143 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-126 off-target sequence <400> 143 aagaggaaga agaagaagaa gag 23 <210> 144 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-127 off-target sequence <400> 144 gagagagaga aagagaaaga gag 23 <210> 145 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-128 off-target sequence <400> 145 gaagaagaga agaagaagaa ggg 23 <210> 146 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-129 off-target sequence <400> 146 gattctgaga aaattaagat ggg 23 <210> 147 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-130 off-target sequence <400> 147 gggctccggc agaagatgcc atg 23 <210> 148 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-131 off-target sequence <400> 148 gattccaagc aatggaggag ggg 23 <210> 149 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-132 off-target sequence <400> 149 gtccaagagc aggagaagaa ggg 23 <210> 150 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-133 off-target sequence <400> 150 atctgggagc aggagaagaa ggg 23 <210> 151 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-134 off-target sequence <400> 151 gaggatccga ggatgtagaa ggg 23 <210> 152 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-135 off-target sequence <400> 152 gaagaagaag aaagaaagaa aga 23 <210> 153 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-136 off-target sequence <400> 153 cagagagaga ataagtagca tag 23 <210> 154 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-137 off-target sequence <400> 154 tgaggaagag agaagaagaa agg 23 <210> 155 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-138 off-target sequence <400> 155 caagcatgag agaagaagat ggg 23 <210> 156 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-139 off-target sequence <400> 156 gagcacgagc aagagaagaa ggg 23 <210> 157 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> EMX1-140 off-target sequence <400> 157 gagtcccagc aaaagaagaa aag 23 <210> 158 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> EMX1-141 off-target sequence <400> 158 gagtccctca ggagaagaaa gg 22 <210> 159 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> EMX1-142 off-target sequence <400> 159 gagtccttga gaagaaggaa gg 22

Claims

삭제
(i) 시티딘 디아미나제 또는 이의 암호화 유전자, 불활성화된 표적특이적 엔도뉴클레아제 또는 이의 암호화 유전자, 및 가이드 RNA 또는 이의 암호화 유전자를 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시켜 DNA 단일 가닥 절단을 유도하는 단계;
(ii) 상기 단일 가닥 절단된 DNA 절편의 핵산 서열을 분석하는 단계; 및
(iii) 상기 분석에 의여 수득된 핵산 서열 데이터로부터 단일 가닥 절단 위치를 확인하는 단계
를 포함하고,
상기 불활성화된 표적특이적 엔도뉴클레아제는 DNA 이중 가닥을 절단하는 엔도뉴클레아제 활성을 상실한 Cas9 단백질 또는 Cpf1 단백질이고,
상기 단일 가닥 절단 위치를 확인하는 단계는 상기 단일 가닥 절단된 DNA 절편을 수직 정렬하여 동일한 5' 말단을 갖는 서열 리드의 수가 5개 이상이고, %([동일한 5' 말단을 갖는 서열 리드의 개수]/[특정 위치에서의 sequence reads 개수])가 10% 이상인 위치에 대하여 수행하는 것이고,
시험관 내 (in vitro)에서 수행되고,
단계 (i)의 세포로부터 분리된 DNA는 유전체 DNA이고,
단계 (ii)의 핵산 서열 분석은 전체 유전체 시퀀싱에 의하여 수행되는 것인,
시티딘 디아미나제의 염기 교정 위치 확인 방법.
(i) 시티딘 디아미나제 또는 이의 암호화 유전자, 불활성화된 표적특이적 엔도뉴클레아제 또는 이의 암호화 유전자, 및 가이드 RNA 또는 이의 암호화 유전자를 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시켜 DNA 단일 가닥 절단을 유도하는 단계;
(ii) 상기 단일 가닥 절단된 DNA 절편의 핵산 서열을 분석하는 단계; 및
(iii) 상기 분석에 의여 수득된 핵산 서열 데이터로부터 단일 가닥 절단 위치를 확인하는 단계
를 포함하고,
상기 불활성화된 표적특이적 엔도뉴클레아제는 DNA 이중 가닥을 절단하는 엔도뉴클레아제 활성을 상실한 Cas9 단백질 또는 Cpf1 단백질이고,
상기 단일 가닥 절단 위치를 확인하는 단계는 상기 단일 가닥 절단된 DNA 절편을 수직 정렬하여 동일한 5' 말단을 갖는 서열 리드의 수가 5개 이상이고, %([동일한 5' 말단을 갖는 서열 리드의 개수]/[특정 위치에서의 sequence reads 개수])가 10% 이상인 위치에 대하여 수행하는 것이고,
시험관 내 (in vitro)에서 수행되고,
단계 (i)의 세포로부터 분리된 DNA는 유전체 DNA이고,
단계 (ii)의 핵산 서열 분석은 전체 유전체 시퀀싱에 의하여 수행되는 것인,
시티딘 디아미나제의 비표적 위치 (off-target site) 확인 방법.
제2항 또는 제3항에 있어서, 상기 불활성화된 표적특이적 엔도뉴클레아제는 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질의,
(1) D10, H840, 또는 D10 및 H840;
(2) D1135, R1335, 및 T1337로 이루어진 군에서 선택된 하나 이상; 또는
(3) 상기 (1) 및 (2)의 아미노산 잔기 모두
가 야생형과 다른 아미노산으로 치환된 것인, 방법.
제2항 또는 제3항에 있어서, 상기 가이드 RNA는 CRISPR RNA (crRNA) 및 trans-activating crRNA (tracrRNA)를 포함하는 이중 RNA, 또는 단일 가이드 RNA (sgRNA)인, 방법.
제2항 또는 제3항에 있어서, 상기 시티딘 디아미나제는 APOBEC　(apolipoprotein B mRNA editing enzyme, catalytic polypeptide-like), AID (activation-induced cytidine deaminase), CDA (cytidine deaminase), 또는 이들이 조합인, 방법.
제2항 또는 제3항에 있어서, 상기 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제는
융합단백질 형태,
시티딘 디아미나제 또는 이를 암호화하는 mRNA와, 불활성화된 표적특이적 엔도뉴클레아제 또는 이를 암호화하는 mRNA의 혼합물 형태, 또는
시티딘 디아미나제 암호화 유전자와 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 각각 또는 함께 포함하는 플라스미드 형태
로 사용되는 것인, 방법
제2항 또는 제3항에 있어서, 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)를 사용하지 않고,
상기 우라실-특이적 제거 시약은 우라실 DNA 글라이코실라제 (Uracil DNA glycosylase; UDG), 엔도뉴클레아제 VIII, 및 이들의 조합인,
방법.
제2항 또는 제3항에 있어서, 상기 단일 가닥 절단 위치를 확인하는 단계는 상기 단일 가닥 절단된 DNA 절편을 수직 정렬하여 동일한 5' 말단을 갖는 서열 리드의 수가 10개 이상이고, %([동일한 5' 말단을 갖는 서열 리드의 개수]/[특정 위치에서의 sequence reads 개수])가 20% 이상인 위치에 대하여 수행하는 것인,
방법.
삭제
삭제
제3항에 있어서, 상기 단계 (iii) 이후에,
(iv) 상기 절단 위치가 표적 위치 (on-target site)가 아닌 경우, 비표적 위치 (off-target site)로 확인하는 단계를 추가로 포함하는, 방법.
삭제
삭제
제12항에 있어서,
상기 비표적 위치는 다음 중 하나 이상에 해당하는 것인, 방법:
DNA 절편 중 절단이 일어난 가닥과 상보적 가닥이 PAM 서열을 포함;
DNA 절편 중 절단이 일어난 가닥과 상보적 가닥이 표적 위치의 서열과 15개 이하의 불일치 뉴클레오타이드를 포함; 및
DNA 절편 중 절단이 일어난 가닥과 상보적 가닥이 하나 이상의 시토신(C)의 우라실(U) 또는 티민 (T)으로의 변환을 포함.