KR20230131229A - 부위 특이적 유전자 변형 - Google Patents

부위 특이적 유전자 변형 Download PDF

Info

Publication number
KR20230131229A
KR20230131229A KR1020237026348A KR20237026348A KR20230131229A KR 20230131229 A KR20230131229 A KR 20230131229A KR 1020237026348 A KR1020237026348 A KR 1020237026348A KR 20237026348 A KR20237026348 A KR 20237026348A KR 20230131229 A KR20230131229 A KR 20230131229A
Authority
KR
South Korea
Prior art keywords
arg
leu
template
ala
gly
Prior art date
Application number
KR1020237026348A
Other languages
English (en)
Inventor
샤오주 장
헤더 이. 업튼
브리아나 반 트릭
캐슬린 콜린스
Original Assignee
더 리젠트스 오브 더 유니이버시티 오브 캘리포니아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 리젠트스 오브 더 유니이버시티 오브 캘리포니아 filed Critical 더 리젠트스 오브 더 유니이버시티 오브 캘리포니아
Publication of KR20230131229A publication Critical patent/KR20230131229A/ko

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/43504Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates
    • C07K14/43563Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates from insects
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/43504Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates
    • C07K14/43563Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates from insects
    • C07K14/43577Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates from insects from flies
    • C07K14/43581Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates from insects from flies from Drosophila
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/461Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from fish
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • C12N9/1241Nucleotidyltransferases (2.7.7)
    • C12N9/1276RNA-directed DNA polymerase (2.7.7.49), i.e. reverse transcriptase or telomerase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y207/00Transferases transferring phosphorus-containing groups (2.7)
    • C12Y207/07Nucleotidyltransferases (2.7.7)
    • C12Y207/07049RNA-directed DNA polymerase (2.7.7.49), i.e. telomerase or reverse-transcriptase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/22Vectors comprising a coding region that has been codon optimised for expression in a respective host
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/90Vectors containing a transposable element

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Insects & Arthropods (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Toxicology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Tropical Medicine & Parasitology (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)

Abstract

관심 이식유전자의 대상 게놈으로의 표적 부위 특이적 삽입을 위한 시스템, 조성물 및 방법이 제공된다. 역전사효소(RT) 부위 특이적 이식유전자 삽입시 사용되는 레트로요소에 의해 매개되는 프라이밍 역전사(TPRT)를 촉진하는 시스템 및 방법도 또한 제공된다.

Description

부위 특이적 유전자 변형
관련 출원에 대한 상호 참조
본 출원은 내용 전체가 본원에 참고문헌으로 인용된 미국 가명세서 출원 제63/137,664호(2021년 1월 14일자 출원; 발명의 명칭 "SITE-SPECIFIC TRANSGENE ADDITION TO A EUKARYOTIC GENOME USING AN RNA TEMPLATE AND PARTNERED REVERSE TRANSCRIPTASE")에 대해 우선권을 주장한다.
서열목록에 관한 참조
본 출원은 전자 포맷의 서열목록과 함께 출원되어 있다. 파일명 SeqList.txt인 서열목록 파일은 2021년 12월 28일에 생성되었으며, 크기는 180,293 바이트이다. 서열 목록 전자 포맷에 담긴 정보는 전체로서 본원에 참고문헌으로 첨부되어 있다.
정부 지원에 관한 진술
본 발명은 미국국립보건원(National Institutes of Health)에 의해 수여된 정부 지원 보조금(번호 GM130315 및 DP1HL156819)으로 제작되었다. 정부는 본 발명에 대해 임의의 권리를 가진다.
본 발명의 분야
본 발명은, 무 긴말단반복(non-Long Terminal Repeat; non-LTR) 레트로트랜스포손을 사용하는, 이식유전자의 대상 게놈으로의 표적 프라이밍 역전사(Target Primed Reverse Transcription; TPRT) 삽입을 수행하기 위한 변형 단백질 및 폴리뉴클레오티드의 조성물, 방법 및/또는 용도를 제공한다.
이식유전자 또는 유전자 단편을 DNA에 삽입하는 것은, 다양한 유전 장애를 앓고 있는 개체의 건강과 웰빙(wellbeing)을 근본적으로 개선할 수 있는 것으로서, 잠재적으로 강력한 도구이다. 이는 또한 과학, 생물공학 및 연구 분야를 개혁할 수도 있다. 인간 게놈을 비롯한 진핵생물 게놈으로의 이식유전자 도입은, 유전적 구성성분을 사용하여, 그리고 사용하지 않고, 병태 및 질환을 치료할 폭넓은 기회를 제공한다. 이식유전자 도입과 삽입은 유전자 발현을 개선, 교정 및/또는 변경함과 아울러, 사라졌거나 교정된 서열을 임의의 게놈에 부가함으로써 질환을 치료하거나 질환의 증상을 경감시키는 역할을 할 수 있다. 다수의 유전적 문제들 가운데 성공적인 이식유전자 삽입을 통해 치료될 수 있었던 다수의 유전적 문제들은, 기능 상실, RNA 또는 단백질 발현, 이소폼(isoform) 발현의 특이성, 조작된 유전자 및 단백질 발현의 외부 제어, 그리고 내인성인 유전자 서열 녹아웃(knock-out), 돌연변이 또는 교정과 구별되는 기타 유용한 결과로부터 구조될 것이다.
그러나, DNA를 세포에 도입하여, 게놈으로 삽입하기 위한 임의의 방법에는 극복해야할 심각한 걸림돌이 있다. 예를 들어 DNA 전달은 몇몇 DNA의 진핵생물 세포 세포질로의 도입을 초래하는데, 이 과정에서 종종 세포나 유기체에 파괴적인 결과를 초래하고 세포나 유기체에 유해한 변화를 일으키는 면역 반응이 유도된다. 뿐 아니라, 상동성 재조합(HR)에 의해 게놈에 도입된 DNA의 부위 특이적 통합에는, 유전적으로, 그리고 후성적으로 돌연변이유발된 이중 가닥 DNA의 도입과, 통합 부위의 파괴를 필요로 한다. 더욱이 고등 진행생물에 있어 DNA 통합은, 특히 유사분열후 세포에서 종종 비특이적으로 이루어지는데, 그 이유는 대부분의 세포 주기 동안 비상동성 말단 접합(NHEJ)을 위해 HR이 억제되기 때문이다.
몇몇 경우에 있어 DNA를 도입하기 위해 바이러스 벡터가 사용되면, 전달이 개선되고/개선되거나 독성이 감소하지만, 이러한 발현 벡터는 매 세포분열시마다 복제를 충실히 진행시키지 못할 수 있고/못할 수 있거나, 반 무작위 통합(semi-random integration) 또는 선천적 면역 반응을 허용불가능하거나 비효과적인 수준으로 야기할 수 있다. 바이러스 벡터, 예컨대 아데노 연관 바이러스(AAV)에 도입될 수 있는 DNA 길이(이식유전자 크기)가 제한되는 것도 또한 사실이다.
이식유전자 DNA가 세포질에 도입되지 않으면서, 그 이식유전자 DNA 길이에 융통성을 보이며 살아있는 세포의 게놈, 예컨대 인간 게놈으로 효과적이고 정확하게 삽입되는 것은, 인간, 동물 및 식물 생물학에 엄청난 기여를 할 것이고, 연구 및 임상에 매우 자주 적용될 것이다.
이식유전자를 살아있는 세포로 삽입해야만 하는 점을 해결하기 위한 한 가지 접근법은, 역전사효소(RT)에 의해 상보성 DNA(cDNA) 합성을 위한 주형으로 사용될 수 있는 이식유전자 서열, 즉 RNA를 도입하는 것일 것이다. 그러나 이식유전자를 게놈의 서열 한정 "세이프 하버(safe-harbor)"표적 부위에 삽입시키기 위해 포유동물 세포로 도입된 RNA가 주형으로서 복제되는 것을 허용할 수 있었던 분자 신호는 현재 확인된 바 없다.
무 긴말단반복부(LTR) 레트로요소(RE) 또는 동등하게는 무 LTR 레트로트랜스포손이라 공지된 유전자 군은 포유동물 세포내 분자 신호 결여에 대해 흥미로운 해결책을 제시한다. 이러한 유전자는, cDNA의 레트로요소 전사체 RNA를 주형으로, 그리고 레트로요소 EN 단백질에 의해 촉매화되어 형성된, 게놈 DNA내 닉(nick)을 사용하여, 이 RNA와 결합한 후 cDNA를 합성하는 무 LTR 레트로트랜스포손 RT 단백질(nrRT)을 cDNA 합성 개시를 위한 프라이머로서 발현시킴으로써(RT 프라이머 신장), 자체의 숙주 게놈내에서 자가 증식할 수 있다. 표적 프라이밍 역전사(TPRT)라고도 공지된 이 과정은 게놈내 이중 가닥 DNA 레트로요소의 새 복사체를 출현시킨다.
TPRT 과정은, (1) DNA 서열 표적 부위와 nrRT 단백질 도메인이 결합하는 과정, (2) 역전사를 위한 프라이머를 제공하는 nrRT의 엔도뉴클레아제(EN) 도메인에 의해 표적 부위 아래 가닥에 닉을 생성하는 과정, (3) nrRT RT 도메인에 의해 아래 가닥에 대한 cDNA를 합성하는 과정, (4) 표적 부위 위 가닥에 닉을 생성하는 과정, 그리고 (5) 제2 가닥 합성을 진행시키는 과정을 포함하는 것으로 생각된다. 제2 가닥 합성의 매개는, 역전사효소 및/또는 세포성 중합효소에 의해 수행될 수 있다. 유리하게도, TPRT는 이중 가닥 DNA 파단을 동반하지 않고, HR을 필요로 하지 않고도 진행된다. 게다가, DNA 복제 및 세포 분열은, 기타 게놈 조작 방법들과는 대조적으로, 삽입 기작에 있어 필수가 아니다..
기계론적으로, 무 LTR 레트로트랜스포손에 의해 암호화된 RT 단백질은, 진화중인 숙주 게놈에서 이기적인 이동 요소로서 진화에 성공을 거두기 위해 또다른 숙주 세포 RNA 또는 레트로요소 RNA보다는 자체의 레트로요소 RNA 전사체(주형)와 우선적으로 결합하여 이것을 사용하여야 한다. 밀접하게 관련되어 있지만 변별적인 동일 게놈내 무 LTR 레트로트랜스포손 계통들은 독립적으로 증식하는 것으로 공지되어 있는데, 이는 적어도 몇몇 요소에 있어 주형 RNA와 자체의 동족 nrRT의 기능에 정교한 특이성이 존재함을 암시한다. 더욱이, 주어진 임의의 무 LTR 레트로요소 복사체 다수는 기능은 가지지 않지만 여전히 전사되므로, 진화 성공에는 기능성 단백질로 번역된 RNA 분자와 많이 동일한 RNA 분자를 우선적으로 인지하는 RT를 필요로 한다. 이러한 현상은, RT 단백질 자체로의 번역에 사용되는 RNA 분자와의 결합에 있어 "시스-선호성(cis-preference)"이라 지칭된다. nrRT 시스-선호성에 관하여는 자체 mRNA의 결합 및 복사에 관한 문헌에 기록된 바 있으나, mRNA가 암호화한 단백질 생성물이 다시 자기를 암호화한 mRNA 분자와 결합하는 것을 촉진하기 위한 내재적 요구조건은 아직 공지되어 있지 않다. 레트로요소 삽입이 전장 요소일지 아니면 가변적으로 5'이 절단된 형태의 것일지를 지배하는 인자도 또한 공지되어 있지 않다.
몇몇 nrRT는, 2-ORF 인간 LINE-1 레트로요소에 의해 암호화된 RT 단백질에 대해 보인 바와 같이, 완화된 RNA 주형 인지 요구조건을 가진다. 인간의 LINE-1 RT는 짧은 중간 이격 핵 요소(Short Interspersed Nuclear Element; SINE) RNA 전사체로부터 복사된 cDNA를 삽입할 수 있으며, 이는 인간 게놈 전반에 걸쳐 그러하다.
무 LTR 레트로트랜스포손 몇몇은 부위 특이성을 보이며 게놈내 특이적 표적 좌위에 삽입된다. 부위 특이적 진핵생물 레트로요소는, 통상 도처에 발현되는 필수 RNA를 암호화하는 다중 복사 좌위(multi-copy locus)에 삽입된다. 예를 들어 R 요소는 RNAP I에 의해 전사되는 대형 rRNA를 암호화하는 좌위에 삽입된다. R2 RT는 cDNA를, 진핵생물 진화에서 고도로 보존된 28S rRNA의 한 영역에 삽입한다.
신기하게도, 부위 특이적 무 LTR 레트로요소는 포유동물에서 검출된 적이 없었다. 만일 이종 R 요소가 인간 세포에 도입되어 인간 세포 배경에서 이동하게 되면, nrRT와 레트로요소 RNA의 리보핵단백질(RNP) 복합체는, 자체의 표적 부위 서열, 즉 변경되지 않거나 최소한으로 변경되었을 뿐 아니라 숙주 세포 내인성 레트로요소가 점유하지 않는 자체의 표적 부위 서열을 찾을 것이다. R 요소의 rRNA 유전자(rDNA) 표적 부위는 모든 인간 세포내 수백개의 rDNA 좌위 각각에 존재한다. 표적 부위는 반복되는 좌위에 있으므로, 극소수의 표적 부위 파괴는 유해하지 않다. 사실상 몇몇 드로소필라(Drosophila) 변종들은 레트로요소 삽입을 포함하는 자체의 rDNA 좌위를 50% 초과하여 가진다. 불행하게도, 무 LTR 레트로요소의 구조 및 기능에 관하여 현재 이해되는 바는 한정적이고, 야생형 단백질의 기능성 구성성분은 거의 특징규명되어 있지 않으며, 거의 합성되지 못하고 있다.
조상의 무 LTR 레트로요소 아키텍처는 5' 및 3' 미번역 영역(UnTranslated Region: UTR)이 측접하는 개방 판독틀(ORF) 1개를 가진다. 예를 들어 R2 무 LTR 레트로요소는 RNA 주형 및 DNA 표적 부위 서열과 결합할 수 있고, 자체의 엔도뉴클레아제 도메인으로 표적 부위 DNA 가닥 1개에 닉을 형성할 수 있으며, 자체가 RT 활성을 보이는 TPRT용 프라이머로서, 닉의 3' 하이드록실기(OH)를 사용할 수 있는 다중도메인 단백질을 생산하는 ORF 1개를 내포한다. 상이한 종의 R2 레트로요소 UTR은, 보존된 2차 구조 또는 서열 모티프가 없이 길이와 서열에 있어 매우 가변적이다. nrRT 단백질의 도메인 구조는 또한 다양하다(도 1). R2 D 계통분기 하위군들의 요소(예컨대 봄빅스 모리(Bombyx mori) 종의 R2D2 계통분기 요소 또는 드로소필라(Drosophila) 종의 R2D5 계통분기 요소)는 통상 N-말단 아연 핑거(ZF)를 1개 함유하는 반면, R2 A 계통분기 하위군들의 요소(예컨대 엘.폴리페무스(L. polyphemus) 및 오.라티페스(O. latipes)의 R2A3 계통분기 요소)는 통상 N-말단 아연 핑거를 3개 가진다. 몇몇 기타 R2 계통분기 및 R2 유사 무 LTR 레트로요소는 ZF를 2개 가지거나 가지지 않는다. 다수의 1-ORF 무 LTR 레트로요소는 자체의 숙주 유기체 게놈내 단일 서열로의 삽입에 대해 정교한 특이성을 가지는데, 이 특이성은 무독성에 기여함으로써 1-ORF 무 LTR 레트로요소의 장기 진화적 생존 및 계통발생학적 다양화를 가능하게 만들 수 있다. 무 LTR 레트로요소의 또다른 군은 ORF를 2개 가지는데, 이것들 중 "잉여(extra)" ORF1 단백질은 핵산과 결합할 가능성이 있고, 조립체를 안솔할 가능성이 있고/가능성이 있거나, 촉매성 ORF2 단백질의 국소화를 진행시킬 가능성이 있거/진행시킬 가능성이 있거나 이 ORF2 단백질 기능을 발휘시킬 가능성이 있다. 2 ORF 무 LTR 레트로요소는 RT 활성을 가지는 ORF2 단백질과, RT 도메인의 C-말단보다는 N-말단에 있는 상이한 유형의 엔도뉴클레아제 도메인(APE-EN)을 암호화한다. 2 ORF 무 LTR 레트로요소는 자체의 TPRT 매개 신규 요소 복사체 삽입에 있어 드물게 부위 특이적이기도 하다.
다수의 연구는, 진핵생물 게놈내 레트로요소 복사체 대부분이 더 이상 이동성을 가지지 않음을 보여주었다. 예를 들어 인간 무 LTR 레트로요소 LINE-1 복사체는 1% 미만이 활성을 가진다. 이는, 이동성이 매우 큰 레토로요소와는 대조적으로, 자발적 돌연변이유발 및/또는 숙주 선택에 대한 논리적 결과이다. 무 LTR 레트로요소의 구조 또는 구조/기능 관계에 대해서는 매우 적게 공지되어 있다. 실제로, 무 LTR RT 단백질의 전 영역은 공지된 기능을 가지지 않는다. 이러한 사정은, 만일 현재 불가능하지 않다면, 무 LTR 레트로요소 활성 복사체의 서열 기반 동정에 대해 도전의식을 고취시킨다.
이식유전자 삽입을 위해 무 LTR 구조를 변형하고자 하는 추가의 복잡한 시도들은, 무 LTR 레트로요소 암호화 단백질의 단백질 합성 개시 부위들이 통상적이지 않게 확정될 수 있고(즉 임의의 공지된 개시 코돈이 결여되어 있을 수 있고), RNA 서열로부터 예측가능하지 않을 수 있다는 사실을 바탕으로 한다. R1 유형 레트로요소 및 R2 유형 레트로요소를 포함한 다수의 무 LTR 레트로요소는, LTR 레트로요소에 전형적인 레트로요소 전사체 합성용 내부 프로모터를 가지는 것으로 보이지는 않는다. 그 대신, 단백질 번역을 위해 사용되는 ORF는 비전형적으로 가공되고, 비전형적으로 번역된 숙주 세포 중합효소 전사체 내부에 함유되어 있다. 예를 들어 R2 요소의 경우, 번역된 RNA는 리보좀 RNA(rRNA)를 암호화하는 미번역 RNA 중합효소 I(RNAP I) 전구 전사체로부터 어느 정도 가공되어야 한다. 번역된 레트로요소 RNA 서열은 전형적 RNAP II mRNA 5' 메틸구아노신 캡 또는 전사후 첨부된 긴 폴리아데노신 미부(이러한 캡과 미부 둘 다는 거의 모든 숙주 세포 mRNA의 번역에 결정적인 것으로 간주됨)를 가지지 않을 것이다. 무 LTR 레트로요소 전사체 번역이 메티오닌 개시 코돈을 전혀 사용하지 않는 것이 가능하다. 실제로 몇몇 유기체의 R2 요소를 포함하는 몇몇 무 LTR 레트로요소는, 보존된 단백질 모티프를 암호화하는 ORF 영역 상류에 틀 내(in-frame) 메티오닌 코돈이 결여되어 있다. 그러므로 무 LTR 레트로요소 DNA 서열은 생물학적으로 활성인 nrRT 단백질 서열을 완벽하게 예측해낼 수 없다.
무 LTR 세포내 과정들은 잘 파악되어 있지 않고, 주어진 임의의 요소가 활성을 가질지 여부를 파악하는 것도 어려운 일이므로, 이종 세포내에서의 활성에 대한 파악결과는 더욱더 예측하기 어렵다. 다수의 세포내 과정들 및 요인들로 말미암아 이러한 확정은 복잡해진다. 다른 종의 RT 단백질 및/또는 주형 RNA는 공지되었거나, 공지되지 않은 모든 세포 구획(리보핵단백질(RNP) 조립 또는 성숙에 필요한 구획)을 통해 성공적으로 교환될 것임은 명확히 입증된 바 없다. 표적 부위 염색질도 또한 상이할 수 있다. 이종 세포의 세포질, 핵 및 인 내부에서의 단백질, RNA 및 RNP 안정성에 대한 요구조건도 또한 상이하고 가변적일 수 있다. RT에 대한 결합 특이성은 자체의 의도된 주형 RNA에 대한 결합 특이성과 같이 자체의 친화성뿐 아니라, 경쟁 분자의 결합에 의존적이다. 각각의 유기체, 그리고 심지어는 유기체내 각각의 세포 유형내 전사산물(transcritome)은 상이하다. 뿐 아니라, 특히 이종 환경에서 표적 부위 서열내 심지어 미미한 차이는, 이종 세포내 이종 레트로요소 삽입에 대해 놀라운 결과를 초래할 수 있다. 예를 들어 엘. 폴리페무스(L. polyphemus), 에스. 만소니(S. mansoni), 씨. 인테스티날레스(C. intestinales), 디. 레리오(D. rerio), 티. 카스타네움(T. castaneum) 및 디. 멜라노가스터(D. melanogaster)의 28s rDNA 표적 부위에 대한 BLAST 분석은, 고도로 보존되어 있고, 작지만 잠재적으로 영향을 줄 수 있는 서열 변이가 발생한 영역을 보였다.
다양한 종으로부터 앞서 단리되었거나 이로부터 유래하였다고 기재된 단백질을, 잠재적 후보 RT 단백질인지 조사하는 것은 유용할 것이지만, 오로지 제한된 수의 공표된 검정들만이 부위 특이적 nrRT의 능력, 즉 게놈 DNA 내부 닉에서 cDNA를 합성하는 능력을 기재하고 있는데, 다만 이 검정들 모두 경고로 가득하다. 세포 검정에 있어, 다수의 경고는, 이식유전자 주형 RNA를 발현하는 DNA 플라스미드를 사용하는 것으로부터 시작되는데, 이와 같은 DNA 플라스미드의 사용은 플라스미드의 DNA 주형 합성 또는 재조합보다는 TPRT에 의해 발생하는 게놈내 이식유전자 서열의 출현에 대한 확실성을 희석시킨다. 혼란에 더하여, 본 발명 이전에 보고된 연구들은, 표적 부위의 nrRT 닉형성이 DNA 의존적 이식유전자 삽입을 촉진한다는 것을 입증하였다. 또한, 일관되지 않은 교시내용들중 가정적으로 엔도뉴클레아제에 의해 무력화된 단백질로서, 공표된 문헌의 결과와 닉형성 활성을 보유하였던 활성 부위 잔기들의 모델링으로부터 디자인된 단백질(이는 아마도 놀라운 것은 아닐 것임)은, nrRT 엔도뉴클레아제 기작에 관하여 공지된 공간 정보를 잘 제공하지 못하였다.
현재까지 공표된 결과들의 한계들을 이해하고, 본원의 발견들로부터 기인한 결과들을 구별하는데 있어 중요한 측면은, 별도 DNA 분자 2개 사이에 공유된 영역에 걸쳐 증폭이 진행되는 PCR 반응으로부터 인위적 위양성 결과가 용이하게 얻어진다는 점이다. 예를 들어 표적 부위-측접 rDNA내 역 프라이머와, 레트로요소-주형 DNA 플라스미드내 정 프라이머가 사용되는 PCR은, 선형 증폭 생성물 2개를 결찰 및 신장시켜, 숙주 염색체와 플라스미드 DNA 사이에 인위적 접합부를 생산할 수 있다(도 2). 위양성이라는 인위적 결과가 발생하는 성향은 인간 LINE-1 이동성에 관한 검정에서 명백하고, 기재된 실시예들 이전에 행해진 연구들은, 인간 세포내 R2 nrRT 매개 이식유전자의 삽입을 올바르지 않게 나타내는, 이러한 위양성 PCR 생성물을 입증하였다. 위양성 PCR 생성물의 잠재성은 주형 발현 플라스미드와 게놈 사이에 공유되는 DNA 소영역 길이와 함께 증가한다.
안정적 이식유전자 삽입에 대한 위양성은 또한 성공적인 제2 가닥 합성이 뒤따르지 않고 발생하는, TPRT 제1 가닥 cDNA 합성으로부터 기인한다. rDNA로 3' 삽입 접합부만을 검출하는 PCR은 완전한 이식유전자 통합을 입증하거나 분석할 수 없는데, 그 이유는 오로지 제1 가닥 cDNA 합성만이 발생할 수 있었기 때문이다(도 2). 5' 삽입 접합부에 대한 PCR 검정은 완전한 이식유전자 통합을 입증하는데 필요하다. 일반적으로 당 분야에서 이전에 행하여졌던 이식유전자 삽입 검정에서, 3' 삽입 접합부는 용이하게 검출될 수 있었지만, 이 검정은 신뢰성있는 임의의 검출가능 5' 삽입 접합부 PCR 생성물을 생성하지 못하였다[위양성 PCR 결과의 예에 관한 문헌(Su Y, Nichuguti N, Kuroki-Kami A, Fujiwara H. RNA 2019) 참조]. 5' 삽입 접합부를 성공적으로 검출하지 못하였음은, 성공적인 이식유전자 통합이 일어나지 않는 TPRT 및/또는 게놈으로부터 상류 표적 DNA가 제어되지 않으며 상실됨을 암시할 수 있다. 그러므로 선행 기술의 방법은 불완전하고, 진정한 TPRT 매개 이식유전자 삽입을 보이기 위한, 확고한 확인 단계가 결여되어 있다.
잠재적 위양성의 인위적결과 및/또는 5' 삽입 접합부 형성에 대한 증거 결여에 더하여, 현재 기재된 TPRT 매개 이식유전자 삽입 검정은 드물게 전장 이식유전자 서열의 삽입을 초래한다. 5' 삽입 접합부 크기 및 서열에 의해 확인되는 바에 따르면, 이식유전자 삽입에 유용한 임의의 방법은 의도된 전체 이식유전자 카세트의 삽입을 지지할 필요가 있음은 말할 필요 없다.
무 LTR 구조 및 과정에 대한 현재의 이해를 추가로 방해하는 점은, 단백질-RNA-DNA 상호작용 및 RT 활성의 생화학적 검정을 위해 정제된 부위 특이적 nrRT가, 단지 세균에 의해 생산된 재조합 단백질이라 검정된 봄빅스 모리(Bombyx mori)(즉 누에 나방) R2 단백질이라는 점이다. 생화학 연구는 처음 10년 이상 동안 이처럼 가정적으로 정제된 단백질, 즉 추후 요소 ORF의 5' 영역으로부터 약 350 뉴클레오티드(nt) 떨어진 RNA에 결합된 채 발견된 단백질을 사용하였다(도 1). 단단히 결합된 RNA는 단백질의 DNA 상호작용 부위를 완전히 변경하므로, 해당 시기에 진전된 기본적 이해와 그 이후로 행해진 모든 연구에는 잠재적으로 오류가 있을 수 있거나, 또는 적어도 오해의 소지가 꽤 있다.
기작과 이의 적당한 활용에 관하여 행해지는 이러한 오류의 분석 및 명징화가 본원에 제공되어 있다. 야생형 무 LTR 레트로트랜스포손의 구조 및 유관과정을 활용하는 것에 관하여 제안된 한 가지 방법에서는, 야생형 무 LTR 레트로트랜스포손이, 레트로요소 유래 RT 단백질 또는 이 RT 단백질을 암호화하는 서열, 그리고 요망되는 이식유전자를 함유하는 주형으로서, cDNA 합성을 위해 RT에 의하여 사용되는 주형을 전달하도록 이 야생형 무 LTR 레트로트랜스포손이 변형하였다.
당 분야에 공지된 다양한 예는, 재조합 DNA 또는 변형된 합성 mRNA 또는 심지어 직접적인 단백질 전달을 사용하여 세포에 기능성 단백질을 보충하기 위한 방법들의 상호전환가능성을 보였다. 도입된 DNA 발현 벡터 또는 변형되어 합성된 mRNA에서의 신호로서, 단백질 생산을 지휘 및 조절하는 신호도 또한 널리 확립되어 있다. 이러한 전달 방식들간 경우에 따른 선택은, 편리함, 관심 세포 또는 조직의 유형, 그리고 임상 적용의 효능과 이에 대한 승인여부를 포함하되, 이에 한정되는 것은 아닌 요인에 의존한다. 이러한 선례에 대한 비제한적 예는, DNA 발현 벡터, 정제된 mRNA 또는 정제된 단백질의 전달 방식을 사용하여 기능성 Cas9 단백질을 세포내에 도입함으로써 확립된다. 이론에 의해 국한되기 바라지 않을 때, Cas9은 DNA 플라스미드로부터 발현되거나, 또는 자체의 작은 크기, 비가변적 RNA 폴딩(folding) 및 강하게 결합된 Cas9 단백질에 의한 보호로 말미암아 RNA로서 직접 도입될 수 있는, 소형의 비암호화 RNA와 함께 기능을 발휘한다.
Cas 단백질 합성에서와는 달리, Cas9 매개 이식유전자 삽입과 nrRT 유도 TPRT의 구별에 명료성을 도모하기 위해 TPRT에 사용될 수 있으며, 훨씬 더 큰 이식유전자 주형 RNA는, 이식유전자 페이로드(payload)에 따라 상이하게 폴딩될 것이고, RNA 주형 길이 거의 전체는 nrRT와의 상호작용에 의해 보호되지 않을 것이다. 더욱이, 이론에 국한되기 바라지 않을 때, Cas9 결합 RNA의 기능은 정적 레지스터(static register)내 표적 DNA와 염기쌍을 형성하는 것인 반면에, nrRT 주형 RNA는 이식유전자 합성의 주형으로서의 기능에 대해 매우 동적인 요구조건을 가진다. 예를 들어 nrRT 주형 RNA는 자체의 3' 말단 또는 그 근처에서 시작되는 RT 활성 부위를 수송하되, 이러한 수송은 이식유전자 페이로드 전장에 대해 지속적으로 이루어져야 하고, 주형 기능은, RNA 주형 3' 모듈을 cDNA 이중체로 전환함으로써, 심지어 RNA가 nrRT와 특이적 결합을 못하게 된 이후에 조차도 지속되어야 한다.
본 발명은 이식유전자를 도입하는 방법으로서, RNA 주형 및 이것과 파트너를 형성하는 역전사효소(RT)를 사용하여 진핵생물 게놈에 부위 특이적으로 이식유전자를 부가하는 단계를 포함하는 방법을 제공한다.
몇몇 구현예에서, 방법은 직접 도입된 RNA 주형을 사용하여 이식유전자의 인간 세포 rDNA로의 TPRT 개시 삽입을 지지하기 위해 변형된 R2 레트로요소 단백질을 사용하는 단계를 포함한다.
몇몇 구현예에서, 방법은 R2 레트로요소 단백질, 또는 무 LTR RT 단백질의 R2/R8/R9 도메인 아키텍처, 또는 자연발생 단백질 또는 단백질 복합체를 배제하지 않을 수 있으며; TPRT 매개 이식유전자 삽입 또는 비게놈 표적에 대한 표적으로서 기타 종의 게놈을 배제하지 않을 수 있으며; 주형, 예컨대 추가 핵산 또는 핵산 유사 물질, 화학 합성된 구성성분, 천연 또는 합성 펩티드 또는 지질에 대한 비천연 부가/변형, 스캐폴드 부착 및 방출 역량 등을 배제하지 않을 수 있고/않을 수 있거나; RNA의 세포로의 "전달" 또는 도입은 표준적 방법, 예컨대 (본원에 기재된 모든 예에 사용되는 바와 같이) 지질을 통해 가능한 형질감염 또는 전기천공을 배제하지 않는다.
몇몇 구현예에서, 이식유전자는 치료적으로 활성인 유전자이다.
몇몇 구현예에서, 방법은 부위 특이적일 수 있는 시험관내 TPRT 및/또는 RT 프라이머 신장에 대해 검정되었을 때 활성을 보이는, TPRT 수용성 RT 및/또는 가닥 닉형성 엔도뉴클레아제 활성을 가지는 무 LTR 레트로요소 단백질을 사용하는 단계를 포함할 수 있다.
몇몇 구현예에서, 방법은 RT 매개 TPRT를 위한 것으로서, 쌍을 형성한 RT에 대해 동족이거나, 천연 동족체로부터 변형되었거나, 또는 관련 레트로요소의 계통발생조사 및 재구성 및/또는 변형으로부터 유래하였거나, 시험관내 및 세포내 3' 및 5' 접합부 형성에 대한 선택성, 효율 및 정확도에 대해 스크리닝(screening)하여 수득된 것으로서, 3'쪽에 있는 3' 주형 모듈 1개 이상을 사용하는 단계를 포함할 수 있다.
몇몇 구현예에서, 방법은 RT 매개 TPRT를 위한 것으로서, 쌍을 형성한 RT에 대해 동족이거나, 천연 동족체로부터 변형되었거나, 또는 관련 레트로요소의 계통발생조사 및 재구성 및/또는 변형으로부터 유래하였거나, 이종 레트로요소 5' 영역으로부터 변형되었거나, 천연 또는 디자인된 HDV RZ 폴드(fold)로부터 변형되었거나, 또는 시험관내 및 세포내 3' 및 5' 접합부 형성에 대한 선택성, 효율 및 정확도에 대해 스크리닝하여 수득된 것으로서, 5'쪽에 있는 5' 주형 모듈 1개 이상을 사용하는 단계를 포함할 수 있다.
몇몇 구현예에서, 방법은 표적 부위 또는 그 근처에 있는 rRNA 매칭 서열(들)의 5' 측접 및 3' 측접 서열, 예컨대 4개 ~ 29개 뉴클레오티드 사이의 서열(이에 한정되는 것은 아님)을 포함하되, 이에 한정되는 것은 아닌, 시험관내 및 세포내 3' 및 5' 접합부의 형성에 대한 정확도 및/또는 효율 및/또는 선택성을 개선하는 주형 말단 부가부 1개 이상을 이용하는 단계를 포함할 수 있는데, 단 이 부가부는 기타 rRNA의 길이를 배제하지 않고, 4개 ~ 20개 뉴클레오티드로 된 기능성 서열은 더 긴 길이에 포함될 수 있다.
몇몇 구현예에서, 방법은 세포내에서의 부위 특이적 이식유전자 삽입에 있어 생물학적 전달 또는 안정성 또는 효율을 개선하는 주형 말단 부가부, 예컨대 3' 측접 폴리아데노신 및/또는 5' 측접 자가 절단성 리보자임 모티프 또는 도입된 주형 RNA를 붕괴(degradation)로부터 보호하는 기타 구조(이에 한정되는 것은 아님) 1개 이상을 이용하는 단계를 포함할 수 있다.
몇몇 구현예에서, 방법은 기타 세포내 과정들, 예컨대 번역, DNA 수선, 염색질 변형, 관문 활성화에 영향을 미치거나, 상호작용으로 말미암아 전달 또는 안정성 또는 표적화 또는 단리를 개선하는 주형 변형부를 1개 이상 이용하는 단계를 포함할 수 있다.
몇몇 구현예에서, 방법은 인간 세포 28S rDNA에 삽입되고, 기능이 발휘되도록 발현되는 이식유전자 1개 이상을 사용하는 단계를 포함할 수 있다. 몇몇 구현예에서, 인간 rDNA는 성공적인 이식유전자 단백질 발현 카세트의 삽입을 위한 세이프 하버 부위이다.
몇몇 구현예에서, 방법은, 예를 들어 인간 질환에서 기능 상실을 구조하거나 유리한 기능을 부여하기 위해 RNA 주형에 도입되는 비천연 이식유전자 1개 이상을 사용하는 단계를 포함할 수 있다.
본 발명은 또한 표적 세포내 표적 부위에 생물학적으로 활성인 DNA 요소의 (RNA 중간체를 통한) 삽입을 유도하는 작용을 하는 요소 삽입 시스템(EIS)을 제공하고, 이 요소 삽입 시스템은 nrRT에 의한 TPRT를 통해 (a) 표적 세포 내에서 활성 DNA 요소를 생성하는 nrRT 모듈 및 (b) 표적 세포내 표적 부위에서 생물학적으로 활성인 DNA 요소 적어도 한 가닥의 합성을 주형화하는 삽입 주형 모듈을 포함한다.
몇몇 구현예에서, nrRT 모듈의 예로서는, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 활성 nrRT 또는 적합한 비활성 전구 단백질 nrRT; nrRT 또는 nrRT 전구 단백질을 암호화하거나, 그렇지 않으면 표적 세포에서 활성 nrRT의 존재를 유도할 수 있는 세포내 가공을 동반하거나 동반하지 않으면서 번역될 수 있으며, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 mRNA, 변형된 mRNA 또는 기타 핵산; 또는 표적 세포에서 활성 nrRT의 합성을 지휘하기에 적합한 mRNA를 생성하기 위해 전사될 수 있으며, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 DNA 구조물 또는 기타 핵산을 포함하나, 이에 한정되는 것은 아니다.
몇몇 구현예에서, 삽입 주형 모듈은, nrRT에 의한 TPRT를 통해 표적 세포내 표적 부위에서 생물학적으로 활성인 DNA 요소 적어도 한 가닥에 대한 cDNA 합성용 주형으로 사용될 수 있으며, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 RNA, 변형된 RNA 또는 기타 핵산을 포함한다.
몇몇 구현예에서, 삽입 주형 모듈은 특정 nrRT에 의해 우선적으로 사용되는 3' 분절과 같이, nrRT에 의한 TPRT용 삽입 주형 모듈의 효율적이고 선택적인 사용을 촉진하는 분절; 특정 nrRT에 의해 우선적으로 사용되는 5' 분절; 그리고 nrRT에 의한 TPRT와 양립가능한 것으로 선택되고, 생물학적으로 활성인 DNA 요소, 즉 cDNA에 대한 주형으로 사용될 수 있는 페이로드 구역을 포함할 수 있다.
몇몇 구현예에서, 생물학적으로 활성인 DNA 요소는 표적 세포의 표적 부위에 삽입될 때 해당 세포 또는 해당 세포를 포함하는 유기체의 생물학적 특성에 요망되는 변형을 제공하는 DNA 분절을 포함한다.
몇몇 구현예에서, 핵산 서열은 최적화된 코돈이다.
몇몇 구현예에서, 생물학적으로 활성인 DNA의 예는, 인체내 세포 또는 세포 세트에 대한 치료적 변화; 농업에 사용되는 식물이나 동물의 특징에 요망되는 변화; 또는 생태적 변화, 예컨대 침입 종 또는 질환 매개체의 박멸을 달성하기 위해 야생 동물 또는 식물에 요망되는 변화를 포함한다.
몇몇 구현예에서, 생물학적으로 활성인 DNA 요소는 삽입 부위 외부에 있는 프로모터에 의해 요소의 전사를 종결시킬 수 있는 서열 분절 1개 이상; 전사를 개시할 수 있는 프로모터 분절 1개 이상; 생물학적 기능을 가지는 단백질 또는 핵산 1개 이상을 암호화하는 효과기 분절 1개 이상; 및 요망되는 바와 같은 기타 서열 분절을 포함할 수 있다.
몇몇 구현예에서, EIS는 효율적이고 선택적으로 함께 작동하도록 변형, 디자인 또는 특별히 개조된 nrRT 모듈 및 삽입 주형 모듈을 포함한다.
본 발명은 마치 각각의 조합이 수고스럽게 나열된 것처럼 본원에 나열된 특정 구현예들의 모든 조합을 포함한다.
도 1은 대표적인 R2 레트로요소의 개략도이다. 단일 ORF는 DNA 결합 도메인(ZF, Myb), RNA 상호작용에 영향을 미치는 영역(RBD), 역전사효소 모티프(RT), 소위 제한 효소 유사 엔도뉴클레아제 도메인(EN) 및 기능이 미공지되어 보존된 기타 모듈, 예컨대 아연 너클(ZK)을 가지는 단백질을 암호화한다. 요소는 가설상의 ORF를 시작으로 축적 도시된다(ORF는 매우 가느다란 직사각형인 UTR에 비해 더 긴 직사각형내에 존재함). R2 단백질과 특이적으로 단단하게 결합하는 것으로 보이는 비. 모리 R2 RNA 영역은 BoMo 5' RNA로 표시된다.
도 2는 RNA 이식유전자 주형을 생성하기 위해 세포에 도입된 DNA가 사용되는 검정에서 인위적 위양성 발생 가능성을 예시하는 도해이다.
도 3은 nrRT 모듈(상단) 및 삽입 주형 모듈(하단)의 예시적인 디자인들을 도시하는 개략도이다. 무 LTR 레트로요소의 예는, 야생형 무 LTR 레트로요소 서열로부터 모듈의 다양한 일부들을 도출하기 위한 시나리오로서, 하나의 가능한 시나리오를 두 모듈 사이에 대략적으로 수직인 파선과 함께 보여주며 묘사되어 있다. 대략적으로 수평인 파선은 선택적 요소를 나타낸다. 도면은 축척된 것이 아니다.
도 4는 삽입 주형 모듈의 개략도(상단) 및 다양한 선택적 요소를 보여주는 삽입 주형 모듈의 확대도(하단)이다. 도면은 축척된 것이 아니다.
OLS = 선택적 연결 서열.
5' rRNA = (대상 게놈으로부터 유래하는) 선택적 5' 측접 rRNA
HDV-RV = 선택적 간염 델타 바이러스 모티프 자가절단 리보자임
3' rRNA = (대상 게놈으로부터 유래하는) 선택적 3' 측접 rRNA
PA= 짧은(예컨대 1 nt ~ 25 nt) 선택적 아데노신 소영역
태그 = 선택적 서열 태그 및 마커
도 5는 변성 PAGE 겔상에 나타난 결과를 나타낸다. 화살표는 올바른 RT 생성물에 대한 예상 크기를 나타낸다. 래인 B는 비. 모리 nrRT의 반응 생성물을 포함하고, 래인 D는 디. 시뮬란스(D. simulans) nrRT의 반응 생성물을 포함하고, 래인 O는 오. 라티페스(O. latipes)의 반응 생성물을 포함하고, 래인 O_RT-는 필수 역전사효소 활성 부위 측쇄의 돌연변이를 가지는 오. 라티페스(O. latipes) RT의 반응 생성물을 포함하고, 래인 N은 효소가 없는 반응 생성물을 포함한다. 래인들은 동일한 겔의 것들이다.
도 6a 및 도 6b: 도 6a는 동족 및 비동족 R2 요소 3'UTR을 사용하여 주형 구조물에 대한 nrRT 단백질 특이성을 테스트하기 위한 예시적 실험 디자인을 도시한 밑그림이다. 도 6b는 동족 및 비동족 주형 3' UTR에 대한 비. 모리, 디. 시뮬란스 및 오. 라티페스 nrRT의 선택성을 검정한 스팟 블럿 결과를 보여준다.
도 7은 TPRT 반응 생성물의 변성 PAGE 겔상에 나타난 결과를 나타낸다. 화살표는 올바른 TPRT 생성물에 대한 예상 크기를 나타낸다. 래인 B는 비. 모리 nrRT의 반응 생성물을 포함하고, 래인 D는 디. 시뮬란스 nrRT의 반응 생성물을 포함하고, 래인 O는 오. 라티페스의 반응 생성물을 포함하며, 래인 N은 효소가 없는 반응 생성물을 포함한다. 좌측 겔은 오. 라티페스 주형 3' UTR을 포함하는 주형("단독"이라 표시된 래인), 또는 4nt rRNA와 오. 라티페스 주형 3' UTR을 포함하는 주형(R4로 표시된 래인)과, 명시된 nrRT 단백질의 반응 생성물을 포함한다. 우측 겔은 디. 시뮬란스 주형 3' UTR을 포함하는 주형("단독"이라 표시된 래인), 또는 4nt rRNA와 디. 시뮬란스 주형 3' UTR을 함유하는 주형(R4로 표시된 래인)과, 명시된 nrRT 단백질의 반응 생성물을 포함한다.
도 8은 명시된 주형들과, 비. 모리 nrRT의 TPRT 반응 생성물에 관한 결과를 변성 PAGE 겔에 보여주는 것이다. 화살표는 올바른 TPRT 생성물에 대한 예상 크기를 나타내고, 원은 내부 개시로 말미암는 생성물의 길이를 나타낸다.
도 9a 및 도 9b는 명시된 주형들과, 오. 라티페스 nrRT의 TPRT 반응 생성물에 관한 결과를 변성 PAGE 겔에 보여주는 것이다.
도 10은 명시된 주형과, 티. 카스타네움(T. castaneum) nrRT의 TPRT 반응 생성물에 관한 결과를 변성 PAGE 겔에 보여주는 것이다. 의도된 TPRT 생성물 길이는 화살표로 표시되어 있다.
도 11은 변형된 오. 라티페스 nrRT를 사용하여 인간 세포 28S rDNA에 이식유전자가 삽입되었을 때의 결과를 보여준다. 초기 및 네스팅(nesting)된 PCR용 프라이머 디자인은 우측 도해로 묘사되어 있으며, 좌측 이미지는 삽입된 이식유전자 및 표적 부위 rDNA의 3' 접합부에 대한 PCR 결과이다. 예상 생성물은 박스로 식별되어 있다.
도 12는 변형된 오. 라티페스 nrRT를 사용하여 인간 세포 28S rDNA에 이식유전자가 삽입되었을 때의 결과를 보여준다. PCR을 위한 프라이머 디자인은 상단 2개의 도해로 도시되며, 하단 이미지는 삽입된 이식유전자와 표적 부위 rDNA의 5' 접합부에 대한 PCR 결과를 도시한다.
도 13은 변형된 티. 카스타네움 nrRT 및 명시된 주형 5' 및 3' UTR을 사용하여 인간 세포 28S rDNA에 이식유전자가 삽입되었을 때의 결과를 보여준다. 표적 rDNA 3' 접합부에 대한 이식유전자의 올바른 접합부 크기 및 서열은 검정색 화살표로 명시되어 있다.
도 14는 변형된 티. 카스타네움 nrRT 및 명시된 주형 5' 및 3' UTR을 사용하여 인간 세포 28S rDNA에 이식유전자가 삽입되었을 때의 결과를 보여준다. 이식유전자 5' 접합부에 대한 표적 rDNA의 올바른 접합부 크기 및 서열은 검정색 화살표로 명시되어 있다.
도 15a 및 도 15b는, 변형된 오. 라피테스 및 디. 시뮬란스 nrRT 및 퓨로마이신 내성을 제공하기 위한 이식유전자를 암호화하는 주형을 사용하여 인간 세포 28S rDNA에 이식유전자가 삽입되었을 때의 결과를 보여준다. 도 15a는 암호화된 이식유전자 및 프로모터를 포함하는 주형 디자인과 PCR용 디자인을 보여주는데; 퓨로 이식유전자 발현 주형이 사용되는 시험관내 TPRT는 OrLa 5' RZ 및 UTR을 포함한다. 각각의 nrRT는 동족 3' UTR을 포함하는 주형으로 테스트되었다. 도 15b는 퓨로마이신 환경에서 형질감염된 세포를 연속적으로 계대배양시킨 후 삽입된 이식유전자에 대한 PCR 결과를 보여준다. 화살표는 PCR 생성물의 예상 길이를 나타낸다. 주형에 사용된 3' UTR 및 하류 rRNA 서열과 nrRT는 각각의 래인 위에 도시되어 있다.
I. 도입
본 발명은 대상 게놈에 이식유전자를 삽입하기 위한 시스템을 제공한다. 시스템은, 서열 한정적인 세이프 하버 표적 부위에 이식유전자를 삽입하기 위한 주형으로서 복사될, 별도 발현 재조합 RNA 구조물과 쌍을 형성하여 부위 특이적 표적 프라이밍 역전사(TPRT)를 진행할 수 있으며, 진핵생물 게놈 조작 및 인간 유전자 치료를 허용하도록 선택적으로 변형되었으며, 길지 않은 말단 반복 레트로요소 역전사효소(nrRT)를 사용하는 것을 포함하고, 이의 사용을 제공한다. 본원에 사용된 바와 같은 "무 LTR 레트로요소 역전사효소(nrRT)"란 용어는, 무 LTR 레트로요소로부터 유래하는 역전사 활성을 가지는 단백질을 지칭한다.
본원에 사용된 바와 같은 "세이프 하버", "세이프 하버 부위", "세이프 하버 게놈 위치" 및 이들의 문법적 등가용어는, 예컨대 이종 서열 삽입에 의한 서열 파괴가 대상 세포 기능에 부정적인 영향을 미치지 않는, 대상 게놈내 임의의 부위를 지칭한다. 본원에 사용되는 예시적 세이프 하버 부위는 본원에서 리보솜 DNA(rDNA)라 지칭되는, 리보솜 RNA(rRNA)를 암호화하는 대상 게놈의 일부로서, 특히 28S rRNA를 암호화하는 게놈의 일부이다.
본원에 제공된 시스템 및 방법에서, 변형된 RT 단백질(nrRT)은, nrRT가 도입된 표적 부위에 형성된 닉에 의해 프라이밍되는 상보적 DNA(cDNA) 합성을 위한 RNA 주형을 사용하여, 표적 부위에서 주형 RNA를 cDNA로 복사함으로써 안정적인 이중 가닥 이식유전자 삽입을 유도한다. 독특하게도 관심 DNA 서열은, 이와 같은 이식유전자 부가 기작에 의해 방법의 임의의 단계에서 잉여 게놈 DNA를 필요로 하지 않고, DNA 통합효소, DNA 함유 바이러스 또는 HR을 필요로 하지 않고도, 게놈에 삽입되어 안정적으로 유전될 수 있으므로, 비상동성 DNA 파단 수선을 위해 도입된 DNA의 원치않는 사용으로 말미암아 대상 면역 반응 또는 게놈 돌연변이유발이 원치않게 발생하는 것이 방지된다.
마지막으로, 제공된 시스템은 별도로 발현된 RT와 직접 도입된 주형 RNA에 의한 이식유전자 삽입을 지원하기 때문에, 두 서열(예컨대 삽입된 이식유전자는 nrRT 단백질 ORF를 포함할 필요가 없음)과, 뉴클레오티드 또는 비뉴클레오티드 조성물(예컨대 RNA 주형 분자는 더 광범위한 화학기를 사용할 수 있음)에 대한 RNA 주형 분자의 변형이 용이하게 일어날 수 있다. 생물학적 안정성을 개선하고, 독성을 감소시키고, 도입된 RNA를, 이와 함께 도입된 RT에 의해 표적화되는 예시적인 변형; 그리고 주형 RNA 풀의 증가한 균질성에 대해 선택적으로 정제되는데 요망되는 특성 또는 폴드를 보이는 RNA가 본원에 제공된다.
II. 요소 삽입 시스템
본원에는 요소 삽입 시스템(EIS)이 제공된다. 본원에 사용되는 바와 같이, "요소 삽입 시스템"이라는 용어는, TPRT를 통해 대상 게놈의 특정 위치에 유전자 서열(이식유전자)을 삽입하기 위해 사용될 수 있는 구성요소의 시스템(모듈)이다(도 3). 본원에 기재된 EIS는, 별도로 발현되어 주형 3' 모듈과 결합하여 쌍을 형성하고, TPRT를 위해 인간 세포의 rDNA에 결합된 주형을 사용할 수 있는 변형된 부위 특이적 nrRT 단백질을 활용한다. 본원에 사용되는 바와 같은 "쌍을 형성하는 주형"이란 용어는, cDNA 합성을 위해 nrRT 단백질과 함께 전달되고 활용되는 RNA 구조물을 지칭한다. RT와 주형의 별도 발현 및 전달은, RT 이식유전자 RNA 주형의 독립적 디자인을 허용한다.
본원에 기재된 EIS는 다양한 모듈로 구성될 수 있다(도 3). 몇몇 구현예에서, EIS는 nrRT 모듈 적어도 1개를 포함한다. 몇몇 구현예에서, EIS는 삽입 주형 모듈 적어도 1개를 포함한다. 몇몇 구현예에서, EIS는 nrRT 모듈 적어도 1개와 삽입 주형 모듈 적어도 1개를 포함한다.
nrRT 모듈
본원에 기재된 요소 삽입 시스템은 활성 nrRT 단백질을 포함하거나 암호화하는 nrRT 모듈 적어도 1개를 포함한다. 본원에 사용되는 바와 같은 "nrRT 모듈"이라는 용어는 nrRT 적어도 1개를 포함하거나 암호화하는 생체중합체 구조물을 지칭한다.
nrRT 모듈은 표적 세포내에서 활성 nrRT를 생성하는 구성요소 적어도 1개를 포함한다. 몇몇 구현예에서, nrRT 모듈은 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 활성 nrRT 또는 적합한 불활성 전구단백질 nrRT를 포함할 수 있다. 몇몇 구현예에서, nrRT 모듈은, nrRT 또는 nrRT 전구단백질을 암호화하는 세포내 가공을 동반하거나 동반하지 않고 번역될 수 있고, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 mRNA, 변형된 mRNA 또는 기타 핵산을 포함할 수 있다. 몇몇 구현예에서, nrRT 모듈은 표적 세포에서 활성 nrRT의 합성을 지휘하기에 적합한 mRNA가 생성되도록 전사될 수 있고, 임의의 적합한 전달 시스템에 의해 표적 세포에 전달될 수 있는 DNA 구조물 또는 기타 핵산을 포함한다.
몇몇 구현예에서, nrRT 모듈은 RT 단백질 적어도 1개를 포함하거나, 이를 암호화한다. 몇몇 구현예에서, RT 단백질은 무 LTR RT 단백질일 수 있다. 몇몇 구현예에서, 무 LTR RT 단백질은 봄빅스 모리, 드로소필라 시뮬란스, 트리볼리움 카스타네움 또는 오라이지아스 라티페스(Oryzias latipes)로부터 유래되는 무 LTR R2 RT 단백질일 수 있다. 몇몇 구현예에서, RT 단백질은 변형될 수 있다. 몇몇 구현예에서, RT 단백질은 서열 번호 1 ~ 4에 의해 기재된 단백질일 수 있으나, 이에 한정되는 것은 아니다.
몇몇 구현예에서, nrRT 모듈은 RT 단백질 적어도 1개를 암호화하는 폴리뉴클레오티드를 포함할 수 있다. 몇몇 구현예에서, nrRT 모듈은 서열 번호 1 ~ 4의 단백질을 암호화하는 폴리뉴클레오티드를 포함한다.
일반적으로 cDNA로 도입된 RNA의 주형 복사를 달성하는 RT는, 예컨대 단백질 또는 mRNA, 또는 mRNA 및 단백질의 발현을 위한 DNA 벡터로서 어떤 것이 응용예에 최고로 적합한지에 따라서, 몇 가지 방식으로 제공될 수 있다. 본원에 제공된 실질적 예가 플라스미드 벡터로부터 발현된 RT를 사용할 때, 당 업자는 이 접근법을, 정제된 mRNA 또는 단백질을 도입하는 대안적 접근법과 용이하게 관련지을 것임이 이해되어야 할 것이다.
몇몇 구현예에서, 고도로 주형 선택적인 nrRT가 유용하다. 일반적으로 주형이 별도로 발현된 nrRT 단백질에 정제된 RNA로서 제공될 때, 상이한 부위 특이적 nrRT 단백질이, 자체의 의도된 주형들과만 결합하고 이것들만을 복사하는 것에 대해 기능적으로 상이한 특이성을 가지는지는 단지 서열 정보 만으로는 분명하지 않다. 이론에 국한되지 않을 때, 주형 RNA 사용에 대한 이러한 특이성의 결여는, 일반적으로 nrRT 단백질이 매우 높은 국소 농도로 존재하는 자체의 mRNA와 결합함에 있어 시스 선호성을 가진다고 인정된 내인성 레트로요소 배경과 비교되는, 이러한 배경에서의 단백질-RNA 상호작용상 차이와 관련되어 있을 수 있다.
비록 다수의 부위 특이적 후보 nrRT 단백질은 심지어 최소한으로 요구되는 프라이머 신장 RT 활성 검정에서조차 비활성이지만, nrRT 단백질에 의해 예시되는 바와 같은 nrRT 단백질중 일부 후보 nrRT 단백질은 비. 모리, 디. 시뮬란스 및 오. 라티페스뿐 아니라, 기타의 것 몇가지의 게놈 서열이 변형되지 않는다. 이전에 생화학적으로 활성이라 입증된 유일한 nrRT 단백질은 비. 모리 R2("BoMo") RT로서, 이는 세균내 재조합체 발현으로부터 정제된 후 검정되었다. 몇몇 구현예에서, 스크리닝은, 비활성 및 활성의 변형 nrRT 단백질을, 자체의 1차 서열만으로는 명백하게 예측될 수 없는, 이러한 단백질들간 차이로 식별할 수 있다.
TPRT 활성에 대한 검정
몇몇 구현예에서, 후보 nrRT 단백질은 TPRT에 대해 테스트될 수 있다. 몇몇 구현예에서, TPRT 활성에 대해 테스트하기 위한 검정은 (i) 세포 모집단을, nrRT 단백질을 암호화하고, 친화성 정제에 적합한 태그(예컨대 FLAG 태그)를 가지는 발현 플라스미드로 형질감염시키는 단계; (ii) 세포 모집단을 용해하고, 발현된 단백질 생성물을 당 분야에 공지된 적당한 방법을 통해 수집 및 정제하는 단계; (iii) 당 분야에 공지된 임의의 방법(예컨대 T7 RNA 중합효소 사용)에 의해 재조합체 주형 RNA를 제조하는 단계; (iv) 정제된 nrRT 단백질, 재조합체 주형, 그리고 표적 부위 올리고뉴클레오티드 이중체 DNA를 포함하는 뉴클레오티드 용액을, nrRT에 의한 역전사를 촉진하는 매질중 말단 방사능표지화 아래 가닥과 합하는 단계; 그리고 (v) 당 분야에 공지된 임의의 적합한 방법(예컨대 변성 PAGE)에 의해 생성물을 수집 및 분석하는 단계를 포함할 수 있다.
삽입 주형 모듈
본원에 기재된 요소 삽입 시스템은 삽입 주형 모듈 적어도 1개를 포함한다. 본원에 사용된 바와 같은 "삽입 주형 모듈" 및 "주형 모듈"이란 용어는, nrRT 단백질에 대하여 RNA 주형으로서의 역할을 하는 RNA 구조물을 지칭한다. 삽입 주형 모듈 자체는 다수개의 모듈로 구성되어 있다(도 3 및 도 4). 이러한 모듈은 표적 게놈으로의 삽입을 위한 이식유전자 서열(즉 페이로드 모듈) 및/또는 삽입 주형 모듈과, EIS의 nrRT 단백질 또는 대상 게놈과의 상호작용을 구현하는 모듈(5' 및 3' 모듈)을 포함할 수 있다. 일반적으로 5' 및 3' 모듈은 그 사이에 배치된 이식유전자의 길이 또는 서열을 제한하지 않는다.
몇몇 구현예에서, 삽입 주형 모듈은 5' 모듈 적어도 1개를 포함한다. 몇몇 구현예에서, 삽입 주형 모듈은 3' 모듈 적어도 1개를 포함한다. 몇몇 구현예에서, 삽입 주형 모듈은 페이로드 모듈 적어도 1개를 포함한다. 몇몇 구현예에서, 삽입 주형 모듈은 5' 모듈 적어도 1개, 페이로드 모듈 적어도 1개, 그리고 3' 모듈 적어도 1개를 포함한다.
몇몇 구현예에서, 이러한 모듈은 유용한 특징, 예컨대 주형 RNA가 세포에 도입된 후 파괴되지 않도록 보호하고, 쌍을 형성한 변형 nrRT를 특이적으로 점유하여 이를 활성화하고, 전장 제1 가닥 cDNA 합성을 촉진하고, 제2 가닥의 합성을 촉진하여 안정적으로 삽입된 이식유전자를 생성하는 특징을 가지도록 디자인된다. 당 업자는, 5' 및/또는 3' 이식유전자 주형 모듈에 의해 제공된 각각의 특성은 서로 독립적으로 유용함을 이해할 것이다.
이론에 국한되기 바라지 않을 때, 5' 및/또는 3' 주형 RNA 모듈의 핵심적인 특징은, 이 5' 및/또는 3' 주형 RNA 모듈이 화학 변형과 효소에 의한 변형을 허용하여, 세포내 전달, 국소화, 안정성, 조직 선택적 흡수 또는 기능, 그리고 기타 결과들, 예컨대 연구 또는 임상 응용예에서 유리할 것으로 보이는 결과들(이에 한정되는 것은 아님)을 개선한다는 점이다. 이러한 결과들과 기타 결과들 각각에 기여하는 RNA 변형은, 대표적 예로서 임상적으로 유용한 mRNA 백신 개발 및 개량과, 마이크로RNA, 안티센스 RNA, Cas9 안내 RNA 및 mRNA의 전달에 유용하다.
몇몇 구현예에서, 5' 및/또는 3' 주형 RNA 모듈의 변형은 사전 제조된 전장 주형 RNA 배경에서, 그리고/또는 결찰이나 기타 선택권의 표준적 실행에 의해 수행될 수 있다.
몇몇 구현예에서, 본 발명에 대해 기재된 5' 및 3' 모듈은 연속적 표적 부위 상보성을 보이는 뉴클레오티드, 즉 30 nt 미만의 뉴클레오티드, 예컨대 단지 4 nt인 (3' 측접) 뉴클레오티드 또는 단지 13 nt인 (5' 측접) 뉴클레오티드를 포함할 수 있다. 몇몇 구현예에서, 표적 부위 상보성의 제한은, 기타 게놈의 재배열이 일어나지 않도록 의도된 제2 가닥 합성 대신 원치않는 게놈 재배열을 조장할 수 있었던, 원치않는 제1 가닥 cDNA의 서열 상보성 게놈 부위로의 침입을 막아준다.
몇몇 구현예에서, 5' 및 3' 모듈은 숙주 세포 게놈 임의의 영역에 대해 연속적 서열 상보성을 보이는 뉴클레오티드, 즉 30 nt 미만의 뉴클레오티드를 포함할 수 있다. 일반적으로 이는 게놈에 삽입된 이식유전자 및 또다른 좌위의 HR, 즉 삽입된 이식유전자가 세포성 rDNA로부터 이탈하도록 만들거나 대규모 게놈 재배열을 초래할 수 있는 HR을 막아준다. 몇몇 구현예에서, 이식유전자 페이로드는 게놈내 임의의 곳 30 nt를 초과하는 만큼과 정확히 매칭되는 서열 적어도 1개를 함유할 수 있다. 몇몇 구현예에서, 이식유전자 페이로드가 게놈내 임의의 곳 30 nt를 초과하는 만큼과 정확히 매칭되는 서열 적어도 1개를 반드시 함유할 필요는 없다. 이론에 의해 국한되기 바라지 않을 때, 이중 가닥 이식유전자 합성시 cDNA 중간체는 또다른 게놈 위치에 대해 연속적 상보성을 보이는 30 nt만큼을 함유할 필요가 없으므로, cDNA 가닥이 상동성 이중체 서열로 침입하는 것과, 원치않으면서 부적당한 HR은 제한되거나 배제된다. 본 발명은, 비교적 긴 측접 rDNA, 예컨대 3' 측접 rRNA 100 nt만큼이, TPRT 매개 삽입에 중요한 인자로서 게놈에 삽입되는 현존 최첨단기술과 대조적임을 당 업자는 이해할 것이다[연속적 상보성을 보이는데 필요한 길이 또는 이상적 길이에 관련된 내용이 본원에 참고문헌으로 인용된 문헌(Kuroki-Kami A, Nichuguti N, Yatabe H, Mizuno S, Kawamura S, Fujiwara H. Mob DNA. 2019 및 미국특허출원 제20200109398호)을 참조한다].
몇몇 구현예에서, 본 발명은 삽입 주형 모듈로 사용하기 위한 조성물을 제공한다. 몇몇 구현예에서, 삽입 주형 모듈은 5' 모듈 적어도 1개를 포함할 수 있다. 몇몇 구현예에서, 삽입 주형은 3' 모듈 적어도 1개를 포함할 수 있다. 몇몇 구현예에서, 삽입 주형 모듈은 페이로드 구역을 포함할 수 있다. 몇몇 구현예에서, 삽입 주형 모듈은 5' 모듈, 3' 모듈 및/또는 페이로드 구역중 적어도 1개를 포함할 수 있다.
몇몇 구현예에서, 삽입 주형 모듈은 표적 세포내 표적 부위에서 TPRT를 통하여 nrRT에 의해 생물학적으로 활성인 DNA 요소 적어도 한 가닥에 대한 cDNA를 합성하는데 주형으로서 사용될 수 있는 RNA, 변형 RNA 또는 기타 핵산을 포함한다.
5' 모듈
몇몇 구현예에서, 이식유전자 주형 RNA에 대한 5' 모듈의 성공적 디자인은 3' 모듈의 디자인 원칙과는 상이한 원칙을 가진다. 이론에 의해 국한되기를 바라지 않을 때, 인간 세포내 이식유전자의 rDNA로의 삽입을 위한 5' 접합부 형성의 정확도와 효율에 최적인 5' 모듈은, 간염델타바이러스(HDV) 폴드를 가지는 자가 절단된 리보자임(RZ)의 제1 루프내 상류 rRNA 서열을 보호하는 모듈을 포함할 수 있다. 일반적으로 R2 요소의 (전부가 아닌) 일부 종(또는 종간 계통)은, 천연 ORF로부터 단백질 번역을 도모하기 위해 이러한 유형의 자가 절단 활성, 즉 자연에서 5' 주형 말단을 훨씬 더 큰 RNAP I 전구 rRNA 전사체의 내부로부터 해방시키도록 의도된 자가 절단 활성을 암호화한다(Ruminski DJ, Webb CT, Riccitelli NJ, Luptak A. J Biol Chem. 2011). 또한, 시험관내 전사되고, 직접 도입된 주형 RNA는, 전구 전사체로부터 자기를 해방시킴에 있어 RZ의 작용을 필요로 하지 않으므로, RZ 폴드를 가지도록 조작된 5' 모듈이 이식유전자 주형을 복사함으로써 5' 접합부 형성에 대하여 높은 효율 및 높은 정확도를 달성하는데 유용할지 불명확하였음이 이해될 것이다.
몇몇 구현예에서, RZ는 완전한 이식유전자 삽입에 필요하지 않을 수 있다. 몇몇 구현예에서, RZ는 5' 및 3' 이식유전자 삽입 접합부의 효율 및 정확도를 개선할 수 있다,
몇몇 구현예에서, 5' 모듈은, 상이한 변형 nrRT에 의한 이식유전자 합성용인 주형들간에 교환가능하다. 예를 들어 디. 시뮬란스 5' RZ는 rDNA 및 레트로요소의 5' 말단의 바로 그 접합부("+0")를 자가 절단하는 반면, 오. 라티페스의 5' RZ는 5' 측접 rRNA를 26 nt만큼 남기기 위해 초기의 아래 가닥 닉 위치 상류 (프로모터를 향하여) 28 nt 만큼("-28")을 자가 절단한다(표적 부위 중앙에 있는 서열의 두 염기쌍(2 bp)는 천연 레트로요소가 삽입될 때 결실됨).
몇몇 구현예에서, 추가의 효율, 그리고 이식유전자 5' 접합부 형성의 정확도는 다양한 요인들을 통해 제공될 수 있다. 해당 요인으로서는, 예컨대 폴딩의 개선, 세포내 안정성, 그리고 주형 5' 모듈 디자인 및 평가에 관한 기타 매개변수를 포함한다. 비제한적 예로서, 개선 1가지는 천연 리보자임과, HDV "+" 가닥 및 "-" 가닥 게놈 유래 변형 리보자임뿐 아니라, 자연 발생되었으며, 인간 세포내에서 기능에 대해 연구된 HDV 폴드 리보자임의 심층 특징규명을 이용한다. 몇몇 구현예에서, 교차 계통발생수 R2에 내포된 HDV 폴드 리보자임의 더 큰 목록도 역시 개선을 제공한다.
몇몇 구현예에서, (위치결정시 차이를 보이는 표적 부위와 결합하는) 각각의 변형 nrRT 단백질에 최적인 5' 측접 rRNA의 길이를 개별적으로 확정하는 과정의 일부로서, HDV 폴드 RZ는 5' 측접 rRNA 상이한 길이만큼을 보호하도록 재디자인될 수 있다. 몇몇 구현예에서, 최적의 5' 측접 rRNA 길이는 최적의 3' 측접 rRNA 길이와 상호관련될 수 있다. 몇몇 구현예에서, RZ의 촉매 비활성 돌연변이체는 또한 이식유전자 주형 5' 모듈로서 사용되도록 스크리닝될 수 있다. 일반적으로 이는, 뉴클레아제에 접근불가한 RNA 3차 구조내에 절단된 RNA의 5' 하이드록실이 매립됨으로 말미암아 유지된 RZ 폴드의 중요성을 부각시킬 수 있다. 몇몇 구현예에서, 5' 모듈 디자인은 또한 5' 이식유전자 접합부 형성에 있어 상이한 세포내 인자들의 모집을 지휘하도록 개조될 수 있다. 몇몇 구현예에서, 5' 모듈 디자인은 주형 RNA의 폴딩, 정제 또는 국소화를 촉진하는 모티프를 포함하도록 개조될 수 있다.
몇몇 구현예에서, 5' 모듈은 R2 레트로요소 서열로부터 유래하는 요소 적어도 1개를 포함한다. 몇몇 구현예에서, 5' 모듈은 붐빅스 모리, 드로소필라 시뮬란스, 트리볼리움 카스타네움 또는 오라이지아스 라티페스의 R2 레트로요소 서열로부터 유래한 요소 적어도 1개를 포함한다.
몇몇 구현예에서, 5' 모듈은 서열 번호 5 ~ 7에 기재되었거나 이에 의해 암호화되는 RNA일 수 있으나, 이에 한정되는 것은 아니다.
3' 모듈
몇몇 구현예에서, 3' 모듈 디자인의 안내수단은 주형 RNA 결합에 대한 검정 및/또는 주형 사용의 확고함과 특이성에 대한 TPRT 검정일 수 있다. 비제한적 예로서, 비록 디. 시뮬란스 RT는 오. 라티페스 3' UTR의 사용에 확고하지 않고, 오. 라티페스 RT는 디. 시뮬란스 3' UTR의 사용에 확고하지 않지만, 비. 모리 RT는 둘 다 사용할 수 있고, TPRT에 관한 이와 같은 결과는 결합 검정에서 RNA 상호작용의 특이성에 대응한다.
몇몇 구현에에서, 오. 라티페스 및 디. 시뮬란스 3' UTR 함유 RNA들(자체의 동족 RT와 함께 사용됨)의 결합 및 복사에 있어 더욱 우수한 특이성은, 이 RNA들이, 선택적 주형 사용을 지휘하는 이식유전자 주형 모듈용으로서 더 잘 선택될 수 있도록 만든다. 몇몇 구현예에서, RNA 결합에 대한 특이성이 더 크면, 세포내 더 적은 수의 RT 단백질은 목표 주형과의 결합에 대해 사용될 수 없게될 것이고, 의도치 않은 이식유전자 합성의 기회는 줄어든다. 몇몇 구현예에서, 주형 결합 및 사용에 관한 추가의 특이성, 효율 및 정확도는, 다른 어떤 매개변수들보다도 최적의 길이, 균일한 폴딩, 개선된 결합 및 TPRT 개시를 위한 개선된 위치결정을 제공하는 3' UTR 서열(또는 거의 동일하게 기능을 발휘하는 서열의 선택군) 최적화에 의해 제공된다.
몇몇 구현예에서, 주형 RNA 말단을 변형하는 것, 예를 들어 (예컨대 RNA 안정성을 개선하는데 사용될 수 있는) 서열 태그를 부가하는 것 또는 (예컨대 세포내 흡수를 촉진하는 펩티드를 융합하는데 사용될 수 있는) 공유 커플링을 수행하는 것은 유용하다. 몇몇 구현예에서, 20 nt ~ 25 nt의 아데노신(A) 소영역이 부가된다. 일반적으로 이 A 소영역(PA)은 시험관내 TPRT를 위한 주형 사용시 그 특이성 또는 정확도를 변경하지 않는다. 예를 들어 이하 실시예에 보인 바와 같이, 변형 R2 nrRT + 동족 3' UTR 주형과, 3' 측접 rRNA의 테스트된 임의의 쌍에 대해서, TPRT를 위한 주형 사용시의 특이성 또는 정확도의 변경은 관찰되지 않았다. 몇몇 구현예에서, 아데노신 소영역은, 세포내 폴리아데노신 결합 단백질을 모집하거나, 안정적으로 스택킹(stacking)된 RNA 염기들을 형성함으로써 주형 RNA 3' 말단을 보호할 수 있다. 몇몇 구현예에서, 세포내 이식유전자 삽입은 PA가 존재함으로써 촉진된다. 몇몇 구현예에서, 시험관내 TPRT를 방해하지 않는 말단 신장부가 이식유전자 주형의 3' 측접 rRNA 뒤에 부가될 수 있지만, 이 경우 이 신장부는 생체내 및/또는 시험관내 TPRT를 기능상 개선할 수 있다. 일반적으로 천연 발현 배경에 대해 이종성이고, 표적 부위에 대해 상동성을 보이지 않으며, RT 단백질 상호작용을 하는 것으로 공지되지 않은 말단 신장이 주형 RNA에 영향을 미칠 수 있다는 결과는, 지금까지 이해되어 확립된 바(문헌(Kuroki-Kami A, Nichuguti N, Yatabe H, Mizuno S, Kawamura S, Fujiwara H. Mob DNA. 2019) 참조)와 대조적이다.
몇몇 구현예에서, 동족 3' UTR 주형이 사용되고, 오. 라티페스 RT에 의해 진행되는 TPRT는 3'UTR 서열 뒤 3' 측접 rRNA 4 nt만큼이 존재함으로 말미암아 촉진된다. 몇몇 구현예에서, 3' 측접 rRNA 20 nt만큼은 오. 라티페스 RT의 TPRT 효율을 개선할 수 있다. 몇몇 구현예에서, 비. 모리 3'UTR 주형의 3'UTR 서열 말단 뒤 3' 측접 rRNA 4 nt만큼이 존재함은, 비. 모리 RT에 의한 TPRT 효율에 영향을 미치지 않는다. 몇몇 구현예에서, 3' 측접 하류 rRNA 4 nt만큼이 아닌 20 nt만큼은, 비. 모리 RT 내부 개시를 가능하게 함으로써 3' 접합의 정확도를 떨어뜨린다. 일반적으로 이러한 결과는, 상이한 nrRT 효소가, 3' 주형 모듈의 개별 재단된 디자인 몇 개로부터 이익을 얻는 것과 같이 본 발명자들이 제공하는 바에 대한 기초를 형성하는 검정의 대표적인 예인데; TPRT 효율 및/또는 정확도는 3' 측접 rRNA 서열의 존재 또는 길이에 차별적으로 의존할 수 있다. 주형내 3' 측접 rRNA 서열 한정시의 유용성은 놀랍게도, 공표된 논문(Kuroki-Kami A, Nichuguti N, Yatabe H, Mizuno S, Kawamura S, Fujiwara H. Mob DNA. 2019)에서 내려진 결론과 반대되는 결론임은 당 업자에 의해 이해될 것인데, 여기서 3' 측접 rRNA 서열의 역할이 평가될 때, 시험관내 TPRT에 있어 주형 선호도는, 일반적으로 인간 세포내 TPRT에 있어 주형 선호도와 비교되지 않았다. 몇몇 구현예에서, 시험관내 TPRT와 생체내 TPRT 사이의 상관성은 이식유전자 삽입을 최적화하기 위해 사용될 수 있다.
몇몇 구현예에서, 3' 모듈은 R2 레트로요소 서열로부터 유래한 요소 적어도 1개를 포함한다. 몇몇 구현예에서, 3' 모듈은 봄빅스 모리, 드로소필라 시뮬란스, 트리볼리움 카스타네움 또는 오라이지아스 라티페스의 R2 레트로요소 서열로부터 유래하는 요소 적어도 1개를 포함한다.
몇몇 구현예에서, 3' 모듈은, 서열 번호 8 ~ 11에 기재되었거나 이에 의해 암호화되는 RNA일 수 있으나, 이에 한정되는 것은 아니다.
RNA 합성의 불충분성
일반적으로 긴 단백질 비암호화 RNA(즉 미번역 RNA, 예컨대 본원에 기재된 주형 RNA)의 세포내 발현, 공동전사변경, 팩키징(packaging) 및 일반적 운명은, 다양하고, 경쟁적이며, 그다지 한정적이지 않은 경로로서, 서열, 폴딩, 가공 및 변형에 차이를 보이는 RNA의 이종 풀을 생성하는 경로에 의해 확정된다. 시험관내 합성을 사용하여, 기능성의 긴 미번역 RNA를 생성함에 있어 장애물은, 긴 미번역 RNA의 기능상 폴딩 및 단백질 조립이 세포내 발현을 필요로 하는 것으로 생각된다는 점이다. 이와 같이 세포내 발현에 예상되는 요구조건은 RNA 전구체 및 성숙 RNA를 순차적으로 변형, 폴딩 및 교환하는 역할을 하는 보조인자 및 샤페론의 복잡성, 그리고 RNA와 단백질 파트너를 공동으로 폴딩하는 추가의 조건 또는 기작으로 말미암는 것으로 생각된다. 긴 미번역 RNA는 세포내에서, 그리고 시험관내에서 동등하게 생성되지 않으므로, 시험관내에서 생성된 긴 미번역 RNA의 생물학적 기능을 입증하는 것은 필수이다. 몇몇 구현예에서, 선택적 정제와 통합된 시험관내 합성 및 폴딩, 그리고 변형은, 의도되지 않은 활성 또는 독성을 보이지 않고, 균일하게 폴딩된 RNA 분자 풀(들)을 생성할 수 있다.
페이로드 모듈
몇몇 구현예에서, 페이로드 모듈은 대상 게놈으로의 삽입을 목적으로 하는 관심 유전자 적어도 1개를 포함한다. 몇몇 구현예에서, 페이로드 모듈은 EIS를 대상 게놈으로 삽입할 수 있는 임의의 유전자를 포함한다.
본원에 개시된 바와 같이 개발된 이식유전자 삽입 전략은 무 LTR 레트로요소 삽입의 천연 과정에 고유한 것이 아니고, 세포내 합성된 레트로요소 유래 RNA 전사체가 미공지 단계들에 의해 이중 기능성 mRNA + RNA 주형 분자, 즉 단백질 합성과 cDNA 합성 둘 다를 지휘하는 이중 기능성 mRNA + RNA 주형 분자로 가공됨은 당 업자들에 의해 이해될 것이다. RNA 주형에 관한 몇몇 구현예에서, RNA 주형은 이중 기능성이 아니다. 몇몇 구현예에서, RNA 주형은 단백질 합성을 지휘하지 않는다.
개시된 조성물과 방법은, nrRT 매개 TPRT에 관하여 공표된 문헌에 기재된 조성물 및 방법과 상이함도 또한 당 업자에게 이해될 것이다. 일반적으로 이전에 개시된 nrRT 매개 TPRT 방법은, 전체 레트로요소 서열을 함유하는 전사체를 발현하여, 단백질을 생성하고, TPRT에 의해 cDNA를 합성하는데 주형으로 사용되는 DNA 벡터를 사용한다. 이러한 경우에 있어, 삽입된 이식유전자는 반드시 nrRT ORF를 함유하고, 활성 nrRT의 발현을 허용한다. 더욱이, 발현된 서열은, 보통 nrRT 단백질 및 기능성 주형 둘 다를 제조함에 있어 서열 자체의 필요성에 관한 제한을 넘어 재단될 수 없다. 삽입된 이식유전자에 관한 몇몇 구현예에서, 삽입된 이식유전자는 nrRT ORF를 함유하지 않는다. 몇몇 구현예에서, nrRT 단백질을 발현하는 벡터는 nrRT 단백질 및 기능성 주형 둘 다를 제조함에 있어 벡터 자체의 필요성에 관한 제한을 넘어 재단될 수 있다.
마지막으로, 당 업자는 개시된 조성물과 방법은 추후 주형으로 사용될 RNA 분자로서, 당 분야에 공지된 RNA 분자와 동일한 RNA 분자로부터 단백질이 생성되는 예들(즉 "시스-선호도(cis preference)"과는 상이함을 이해할 것이다. 몇몇 구현예에서, 본 발명은 별도로 제조된 nrRT 단백질 및 RNA 주형을 사용한다(즉 "트랜스-선호도(trans preference)"몇몇 구현예에서, 개시된 방법과 조성물은, 세포내에서 RNA 주형을 생산하는 것보다는 RNA 주형을 세포에 직접 도입하는 것에 대해 허용된다. 몇몇 구현예에서, 본 발명은 별도로 제조된 nrRT 및 RNA 주형 구성성분을 사용한다.
III. 제형 및 전달
전달 비이클
몇몇 구현예에서, 본원에 기재된 EIS는 전달 비이클에 제형될 수 있다. 예시적 전달 비이클로서, 본 발명을 실시하는데 적합한 전달 비이클은 지질 기반 나노입자(예컨대 지질 나노입자(LNP), 리포좀 및 미셀) 및 비지질 나노입자(예컨대 바이러스 유사 입자(VLP) 및 중합체 전달 입자)를 포함한다.
몇몇 구현예에서, 전달 비이클은 나노입자 적어도 1개를 포함할 수 있다. 일반적으로 본원에 사용된 바와 같은 "나노입자"란 용어는, 크기가 10 nm ~ 1000 nm 범위인 임의의 입자를 지칭할 수 있다.
지질 기반 입자
지질 나노입자
몇몇 구현예에서, 전달 비이클은 지질 나노입자(LNP)일 수 있다. 일반적으로 LNP는 비 LNP 환경에 노출되는 친수성 외표면을 포함하는 외부 지질층, (미셀 유사 LNP 및 소포 유사 LNP 각각의 경우) 비수성 또는 수성 내부 공간, 그리고 소수성 막간 공간 적어도 1개를 보유한다. LNP 막은 비층상 또는 층상일 수 있으며, 1개, 2개, 3개, 4개, 5개, 또는 5개를 초과하는 층으로 구성될 수 있다. LNP는 고체 또는 반고체일 수 있다. 몇몇 구현예에서, 적어도 1개의 카고(cargo) 또는 페이로드(예컨대 EIS)는 LNP의 내부 공간, 막간 공간, 외표면상, 또는 이의 임의의 조합에 존재할 수 있다.
미셀
몇몇 구현예에서, 전달 비이클은 미셀 적어도 1개를 포함한다. 몇몇 구현예에서, 미셀은 주로 제조 방법에 차이가 있는, 지질-나노입자의 구성성분과 동일한 구성성분중 임의의 가짓 수만큼 또는 이것들 모두로 구성될 수 있다. 본원에 사용된 바와 같은 "미셀"이란, 수성의 입자내 공간을 가지지 않는 소형 입자를 지칭한다. 이론에 의해 국한되기 바라지 않을 때, 미셀의 입자내 공간은 임의의 추가 지질 헤드기를 포함하지 않으며, 오히려 미셀막을 포함하고 EIS와 결합할 수 있는 지질의 소수성 미부가 점유하고 있다.
리포좀
몇몇 구현예에서, 전달 비이클은 리포좀 적어도 1개를 포함한다. 몇몇 구현예에서, 리포좀은 주로 제조 방법에 차이를 보이는, 지질 나노입자의 구성성분과 동일한 구성성분 임의의 가짓 수만큼 또는 이것들 모두를 지질 나노입자 구성성분의 양과 동일한 양만큼 포함할 수 있다. 본원에 사용된 바와 같은 "리포좀"이란, 수성의 나노입자 내부 공간을 포위하는 지질 이중층 막 적어도 1개로 구성된 소형의 소포를 지칭한다. 뿐 아니라, 리포좀은, 일반적으로 선조 세포/숙주 세포로부터 유래하지 않는다는 점에서 세포외 소포와 상이하다. 리포좀은 협소한 수성 공간에 의해 격리된 일련의 동심 이중층을 포함하였을 때 직경이 잠재적으로 수백 나노미터일 수 있고(즉 (대형의) 다중층 소포(MLV)), 직경이 잠재적으로 50 nm보다 작을 수 있으며(즉 소형의 단일셀 소포(SUV)), 직경이 잠재적으로 50 nm ~ 500 nm일 수 있다(대형의 단일셀 소포(LUV)).
엑소좀
몇몇 구현예에서, 전달 비이클은 엑소좀 적어도 1개를 포함한다. 일반적으로 "엑소좀"이란, 식작용 기원(endocytic origin)을 가지는 소형의 막 결합형 세포외 소포를 지칭한다. 엑소좀 막은, 일반적으로 나노입자간 수성의 공간을 가지는 층상의 지질 이중층으로 구성된다. 엑소좀은 디자인된 구성성분에 더하여 이것이 유래한 숙주/선조세포 막의 구성성분을 내포하는 경향을 보일 것이다. 이론에 의해 국한되기 바라지 않을 때, 엑소좀은, 일반적으로 다중소포체와 세포내 원형질막 융합후 숙주/선조세포로부터 세포외 환경으로 방출된다.
바이러스 유사 입자
몇몇 구현예에서, 전달 비이클은 바이러스 유사 입자(VLP) 적어도 1개를 포함한다. 일반적으로 바이러스 유사 입자는 주로 EIS가 로딩될 수 있는 바이러스 유래 단백질 캡시드(protein capsid), 외피(coat), 셸(shell) 또는 시스(sheath)로 이루어진 비감염성 소포이다(이 용어들은 모두 본원에서 호환되어 사용되는 동등한 용어인 것으로 이해됨). 몇몇 구현예에서, VLP들은 바이러스 캡시드 단백질 서열을 발현하기 위해 세포내 기구가 사용되어 합성된 다음, 자가 조립되면서 EIS를 통합할 수 있다. 몇몇 구현예에서, VLP는 발현 관련 세포내 기구 없이 캡시드 및 EIS 구성성분을 제공하고, 이것들이 자가 조립하도록 허용함으로써 형성될 수 있다.
VLP가 수득될 수 있는 바이러스 과 및 종의 비제한적 예로서는, 파르보비리대(Parvoviridae), 레트로비리대(Retroviridae), 플라비비리대(Flaviviridae), 파라믹소비리대(Paramyxoviridae), 아데노 연관 바이러스, HIV, C형간염바이러스, HPV, 박테리오파아지 또는 이의 임의의 조합을 포함한다.
직접 형질감염
몇몇 구현예에서, 본원에 개시된 EIS는 전달 비이클이 사용되지 않고 표적 세포를 직접 형질감염시켜 도입될 수 있다. 몇몇 구현예에서, 본원에 개시된 EIS는 당 분야에 공지된 임의의 기술이 사용되는 형질감염에 의해 표적 세포에 도입될 수 있다. 이러한 기술로서는 화학적 형질감염법(예컨대 인산칼슘 노출), 물리적 형질감염법(예컨대 전기천공, 미세주입 및 유전자총(biolistic particle delivery))을 포함할 수 있으나, 이에 한정되는 것은 아니다. 몇몇 구현예에서, 직접 형질감염은 지질 매개 형질감염 제제, 예컨대 리포펙타민, 리포펙타민 2000 및 이의 임의의 조합(이에 한정되는 것은 아님)이 사용되어 수행될 수 있다.
표적 부위에의 전달
몇몇 구현예에서, 본원에 개시된 EIS는 표적 부위에 전달될 수 있다. 몇몇 구현예에서, 표적 부위는 대상체의 특정 세포, 조직, 장기, 생리학적 시스템 또는 이의 임의의 조합을 포함할 수 있으나, 이에 한정되는 것은 아니다.
IV. 약학 조성물 및 투여 경로
본 발명은 EIS를 대상체에 투여하기 위한 약학 조성물을 제공한다. 몇몇 구현예에서, 본 발명은 치료법의 적응증을 치료함에 있어 의약품으로 사용하기 위한 약학 조성물을 제공한다. 몇몇 구현예에서, 약학 조성물은 활성 성분(예컨대 본 발명의 EIS) 적어도 1개와, 약학적으로 허용 가능한 부형제, 애주반트, 담체, 희석제 적어도 1개 또는 이의 임의의 조합을 포함한다. 몇몇 구현예에서, 약학 조성물은 투여 경로 적어도 1개를 위해 제제화된다. 몇몇 구현예에서, 약학 조성물은, 선택적으로 지정된 계획에 따라 활성 성분(예컨대 EIS) 적어도 1개의 지정된 용량만큼을 전달하기 위해 제형된다.
본원에 사용된 바와 같은 "약학 조성물"이란 용어는, 활성 성분 적어도 1개와, 선택적으로는 약학적으로 허용 가능한 부형제 1개 이상을 포함하는 조성물을 지칭한다. 본원에 사용된 바와 같은 "활성 성분"이란 어구는, 일반적으로 본원에 기재된 바와 같은 EIS, 대상 게놈으로의 삽입을 위해 EIS에 의해 운반되는 유전자 페이로드 또는 EIS에 의해 운반된 유전자 페이로드 발현 생성물 중 임의의 것을 지칭한다.
몇몇 구현예에서, 약학 조성물은 임의의 부형제, 애주반트, 희석제, 증량제, 보존제 및 안정화제 등을 포함할 수 있다.
몇몇 구현예에서, 본원에 기재된 약학 조성물의 제형은, 약물학 분야에 공지된 임의의 방법 또는 추후 개발될 방법에 의해 제조될 수 있다. 일반적으로 이러한 제조 방법은, 활성 성분과 부형제 및/또는 기타 보조 성분 1개 이상을 혼합하는 단계를 포함한다.
본원에 기재된 약학 조성물에 포함되는 EIS를 비롯한 EIS는, EIS를 대상 세포에 성공적으로 통합시키는 임의의 전달 경로에 의해 투여될 수 있다. 허용 가능한 투여 경로로서는, 귀(귀 내부 또는 귀를 통한 경로), 담관 관류, 협측(볼 내부에의 적용), 심장 관류, 미골부 차단, 결막, 피부, 치과 경로(치아 또는 치아들에의 적용), 치관, 진단, 점이, 전기-삼투압, 자궁경부내, 부비강내, 기관내, 관장, 장관(장내에의 적용), 경피(피부에의 적용), 경막외(경질막 내부에의 적용), 양막외 투여, 체외, 점안(결막으로의 적용), 위장관, 혈액 투석, 침윤, 주입(코 흡입), 간질, 복강내, 양막내, 동맥내(동맥에의 적용), 관절내, 담낭내, 기관지내, 점액낭내, 심장내(심장 내부에의 적용), 연골내(연골에의 적용), 미골내(마미 내부에의 적용), 해면체내 주사(intracavernous injection)(병리적 공동에의 적용), 방광강내(음경 기저부에의 적용), 대뇌내(대뇌에의 적용), 뇌실내(대뇌 뇌실에의 적용), 수조내(대조 내부에의 적용), 각막내(각막에의 적용), 관상동맥내(관상동맥에의 적용), 체내해면체내(intracorporus cavernosum)(음경 해면체의 확장 가능한 공간내에의 적용), 진피내(피부 자체에의 적용), 추간판내(디스크 내부에의 적용), 관내(선관 내부에의 적용), 십이지장내(십이지장 내부에의 적용), 경막 내(경막 내부 또는 아래로의 적용), 표피내(표피 내부에의 적용), 식도내(식도 내부에의 적용), 위내(위 내부에의 적용), 치은내(치은 내부에의 적용), 회장내(소장의 원위부 내에의 적용), 병변내(국소화된 병변 내부에의 적용 또는 국소화된 병변 자체에의 도입), 내강내(관의 내강에의 적용), 림프내(림프 내부에의 적용), 골수내(골수강 내부에의 적용) 수막내(수막 내부에의 적용), 근육내(근육 내부에의 적용), 심근내(심근 내부에의 적용), 안구내(눈 내부에의 적용), 골수내 주입(골수 내부에의 적용), 난소내(난소 내부에의 적용), 실질내(뇌 조직 내부에의 적용), 심낭내(심낭 내부에의 적용), 복막내(복막 내부에의 주입 또는 주사), 흉막내(흉막 내부에의 적용), 전립선내(전립선 내부에의 적용), 폐내(폐 또는 폐의 기관지 내부에의 적용), 부비강내(비강 또는 안와동(periorbital sinuses) 내부에의 적용), 척주내(척주 내부에의 적용), 활액막내(관절의 활액강 내부에의 적용), 힘줄내(힘줄 내부에의 적용), 고환내(고환 내부에의 적용), 척추강내(척추관 내부에의 적용), 척추강내(뇌척추축의 모든 구간의 뇌척수액에의 적용), 흉추내(흉추 내부에의 적용), 관내(장기의 세관 내부에의 적용), 종양내(종양 내부에의 적용), 고막내(중이(aurus media)에의 적용), 자궁내, 질내 투여, 혈관내(혈관 또는 혈관들 내부에의 적용), 정맥내(정맥 내부에의 적용), 정맥내 볼루스, 정맥내 점적, 뇌실내(뇌실 내부에의 적용), 방광내 주입, 유리체내(안구를 관통하여 적용), 이온 영동(가용성 염의 이온이 체내 조직으로 이동할 때 전류에 의한 적용), 관주(개방형 상처 또는 체강을 세척하거나 플러싱(flushing)함), 후두(후두에 직접 적용), 비강 투여(코를 통한 적용), 비위(코를 통해 위장으로 적용), 신경 차단, 폐색 드레싱 기술(국소 경로 투여후 해당 영역을 폐쇄하는 드레싱으로 덮는 기술), 안과적 경로(외안에의 적용), 구강 경로(입을 경유하여 적용), 구인두(입과 인두에 직접 적용), 비경구, 경피, 관절주위, 경막주위, 신경주위, 치주, 광역학적 경로, 직장, 호흡기(국소적 또는 전신적 효과를 얻기 위한 경로로서, 구강 또는 비강 흡입에 의해 기도 내부에의 적용), 후안(뇌교 뒤 또는 안구 뒤에의 적용), 연조직, 지주막하, 결막하, 피하(피부 아래), 입술밑, 설하, 점막하, 국소, 경피, 경피(전신 분포를 위해 손상되지 않은 피부를 통한 확산), 경점막(점막을 통한 확산), 경태반(태반을 통하거나 가로지르는 적용), 기관경유(기관벽을 통한 적용), 고실경유(고막 구멍을 가로지르거나 관통하여 작용), 경질, 수뇨관(수뇨관에의 적용), 요도(요도에의 적용), 질 및 척추 경로를 포함하나, 이에 한정되는 것은 아니다.
EIS 및/또는 EIS를 포함하는 약학 조성물은 대상체에서 원하는 효과(예컨대 원하는 치료 효과, 연구 결과 등)를 달성하는 임의의 양(즉 용량)으로 투여될 수 있다.
V. 사용 방법
본원에는 이식유전자를 대상체에 도입하기 위한 방법이 제공된다. 몇몇 구현예에서, 방법은 이식유전자를 포함하는 EIS 적어도 1개 유효량만큼을 대상체에 도입하는 단계를 포함한다.
몇몇 구현예에서, 방법은 이식유전자를 도입하는 단계를 포함하는데, 상기 방법은 RNA 주형 및 이와 파트너를 이루는 역전사효소를 사용하여 이식유전자를 진핵생물 게놈에 부위 특이적으로 부가하는 단계를 추가로 포함한다.
방법에 관한 몇몇 구현예에서, 직접 도입된 RNA 주형을 사용하는 방법으로서, 인간 세포 rDNA 대상 표적 프라이밍 역전사(TPRT) 개시 이식유전자 삽입을 지지하기 위해서는 변형된 R2 레트로요소 단백질이 사용된다.
몇몇 구현예에서, 시스템과 방법은 R2 레트로요소 단백질, 또는 무 LTR RT 단백질의 R2/R8/R9 도메인 아키텍처, 또는 자연발생 단백질 또는 단백질 복합체를 배제하지 않는다.
몇몇 구현예에서, 시스템 및 방법은 TPRT 매개 이식유전자 삽입용 표적 또는 비게놈 표적용 표적으로서 기타 종의 게놈을 배제하지 않는다.
몇몇 구현예에서, 시스템 및 방법은 주형, 예컨대 추가 핵산 또는 핵산 유사 물질, 화학 합성 구성성분, 천연 또는 합성 펩티드 또는 지질에 대한 비천연 부가/변형, 스캐폴드 부착 및 방출역량 등을 배제하지 않는다.
몇몇 구현예에서, RNA의 세포로의 "전달" 또는 도입은 (본원에 기재된 모든 실시예를 위해 사용된 바와 같은) 표준적 방법, 예컨대 지질에 의해 실행가능한 형질감염 또는 전기천공을 배제하지 않는다.
몇몇 구현예에서, 이식유전자는 치료적으로 활성인 유전자이다.
몇몇 구현예에서, 시스템 및 방법은 부위 특이적일 수 있고, RT 프라이머 신장 및/또는 시험관내 TPRT에 대해 검정되었을 때 활성을 보이는 것으로서, TPRT-수용성 RT 및/또는 가닥 닉형성 엔도뉴클레아제 활성을 가지는 무 LTR 레트로요소 단백질을 사용한다.
몇몇 구현예에서, 시스템 및 방법은 쌍을 형성한 RT와 동족이거나, 천연 동족체로부터 변형되었거나, 또는 관련 레트로요소들의 계통발생조사 및 재구성 및/또는 변형으로부터 유래하거나, 시험관내 및 세포내 3' 및 5' 접합부 형성의 선택성 및/또는 효율 및/또는 정확도에 대해 스크리닝함으로써 수득된 것으로서 3'쪽에 있는, RT 매개 TPRT용 3' 주형 모듈 1개 이상을 사용한다.
몇몇 구현예에서, 시스템 및 방법은 쌍을 형성한 RT와 동족이거나, 천연 동족체로부터 변형되었거나, 또는 관련 레트로요소들의 계통발생조사 및 재구성 및/또는 변형으로부터 유래하거나, 또는 이종 레트로요소 5' 영역으로부터 변형되었거나, 또는 천연 또는 디자인된 간염델타바이러스(HDV) 리보자임(RZ) 폴드로부터 변형되었거나, 또는 시험관내 및 세포내 3' 및 5' 접합부 형성의 선택성 및 효율 및 정확도에 대해 스크리닝함으로써 수득된 것으로서 5'쪽에 있는, RT 매개 TPRT용 5' 주형 모듈 1개 이상을 사용한다.
몇몇 구현예에서, 시스템 및 방법은 시험관내 및 세포내 3' 및 5' 접합부 형성, 예컨대 표적 부위 또는 그 근처에 있는 rRNA 매칭 서열(들)의 5' 측접 및 3' 측접 서열(이에 한정되는 것은 아님), 예컨대 4 뉴클레오티드 ~ 29 뉴클레오티드 서열(이에 한정되는 것은 아님) 형성의 선택성 및/또는 효율 및/또는 정확도를 개선하는 주형 말단 부가부 1개 이상을 사용하는데, 단 여기서 부가부는 기타 rRNA의 길이를 배제하지 않으며, 기능성인 4 뉴클레오티드 ~ 20 뉴클레오티드 서열은 더 긴 길이에 포함될 수 있다.
몇몇 구현예에서, 시스템 및 방법은 세포내 부위 특이적 이식유전자 삽입의 생물학적 전달 또는 안정성 또는 효율을 개선하는 주형 말단 부가부, 예컨대 도입된 주형 RNA가 붕괴되지 않도록 보호하는 3' 측접 폴리아데노신 및/또는 5' 측접 자가 절단성 리보자임 모티프 또는 기타 구조(이에 한정되는 것은 아님) 1개 이상을 사용한다.
몇몇 구현예에서, 시스템 및 방법은 상호작용으로 말미암아 전달 또는 안정성 또는 표적화 또는 단리를 개선하고, 기타 세포내 과정, 예컨대 번역, DNA 수선, 염색질 변형, 관문 활성화에 영향을 미치는 주형 변형 1개 이상을 사용한다.
몇몇 구현예에서, 시스템 및 방법은 인간 세포 28S rDNA에 삽입되어, 기능을 발휘하도록 발현되는 이식유전자 1개 이상을 사용하는데, 여기서 상기 인간 rDNA는 성공적인 이식유전자 단백질 발현 카세트 삽입을 위한 세이프 하버 부위이고/세이프 하버 부위이거나;
몇몇 구현예에서, 시스템 및 방법은, 예컨대 인간 질환에 있어 기능 상실을 구조하거나 유리한 기능을 부여하기 위해 RNA 주형에 도입된 비천연 이식유전자 1개 이상을 사용한다.
나열된 서열
단백질이 아미노산 서열에 의해 본원에 나열될 때, 합성 DNA를 포함하여, DNA 서열/RNA 서열을 암호화하는 서열은 용이하게 추론될 수 있다. 태그와 기타 변형이 단백질 서열에 포함되므로, 이 단백질 서열은 내인성 단백질이라기보다는 변형된 단백질이다. 주형 구성성분 전부가 배제된 채 RNA "모듈" 서열이 별도로 나열될 때, 전장 주형의 조립된 전체는 본원에 개시된 구성성분들을 몇 가지 유형으로 조합함으로써 용이하게 추론될 수 있다. 몇몇 구현예에서, 5' 및 3' rRNA 길이 및 위치, 그리고 3' rRNA의 3' 신장에 관하여는 본문에 기재될 수 있다. 관례상 RNA 서열이라 표지되거나 지칭되는 임의의 서열에 있어 T에 관한 임의의 목록은 U인 것으로 이해될 수 있다. 몇몇 구현예에서, 대표적인 페이로드로서는 퓨로R(퓨로마이신 내성 유전자)이 예시된다. 사용된 퓨로R 페이로드 버전은 구성성분들, 즉 RNAP I 종결인자, RNAP II 프로모터, 5'UTR, ORF, 3' mRNA 절단 및 폴리아데닐화 신호를 포함하였다. 나열된 서열은 전체 페이로드를 제공한다.
VI. 구현예의 열거
RNA 주형 및 이와 파트너를 이룬 역전사효소가 사용되어 진핵생물 게놈에 이식유전자를 부위 특이적으로 부가하는 단계를 포함하는, 이식유전자를 도입하는 방법.
구현예 2. 직접 도입된 RNA 주형을 사용하여 인간 세포 rDNA로의 TPRT 개시 이식유전자 삽입을 지지하기 위해, 변형 R2 레트로요소 단백질을 사용하는 구현예 1의 방법.
구현예 3. R2 레트로요소 단백질 또는 무 LTR RT 단백질의 R2/R8/R9 도메인 아키텍처 또는 자연발생 단백질 또는 단백질 복합체를 배제하지 않고; TPRT 매개 이식유전자 삽입 또는 비게놈 표적에 대한 표적으로서 기타 종의 게놈을 배제하지 않으며; 주형, 예컨대 추가 핵산 또는 핵산 유사 물질, 화학 합성 구성성분, 천연 또는 합성 펩티드 또는 지질에 대한 비천연 부가/변형, 스캐폴드 부착 및 방출 역량 등을 배제히지 않고/않거나; RNA를 세포로 "전달" 또는 도입하는 것은 표준적 방법, 예컨대 (본원에 기재된 모든 실시예를 위해 사용된 바와 같은) 지질에 의해 가능한 형질감염 또는 전기천공을 배제하지 않는, 구현예 1의 방법.
구현예 4. 이식유전자는 치료적으로 활성인 유전자인, 구현예 1의 방법.
구현예 5: TPRT-수용성 RT 및/또는 가닥 닉형성 엔도뉴클레아제 활성을 포함하는 무 LTR 레트로요소 단백질로서, RT 프라이머 신장 및/또는 시험관내 TPRT에 대해 검정되었을 때 활성을 보이고, 부위 특이적일 수 있는 무 LTR 레트로요소 단백질을 사용하는 구현예 1의 방법.
구현예 6. 쌍을 형성한 RT와 동족이거나, 천연 동족체로부터 변형되었거나, 또는 관련 레트로요소들의 계통발생조사 및 재구성 및/또는 변형으로부터 유래하거나, 시험관내 및 세포내 3' 및 5' 접합부 형성의 선택성 및/또는 효율 및/또는 정확도에 대해 스크리닝함으로써 수득된 것으로서 3'쪽에 있는, RT 매개 TPRT용 3' 주형 모듈 1개 이상이 사용되는, 구현예 1의 방법.
구현예 7. 쌍을 형성한 RT와 동족이거나, 천연 동족체로부터 변형되었거나, 또는 관련 레트로요소들의 계통발생조사 및 재구성 및/또는 변형으로부터 유래하거나, 또는 이종 레트로요소 5' 영역으로부터 변형되었거나, 또는 천연 또는 디자인된 HDV RZ 폴드로부터 변형되었거나, 또는 시험관내 및 세포내 3' 및 5' 접합부 형성의 선택성 및 효율 및 정확도에 대해 스크리닝함으로써 수득된 것으로서 5'쪽에 있는, RT 매개 TPRT용 5' 주형 모듈 1개 이상이 사용되는, 구현예 1의 방법.
구현예 8. 표적 부위 또는 그 근처에 있는 rRNA 매칭 서열(들)의 5' 측접 및 3' 측접 서열, 예컨대 4개 ~ 29개 뉴클레오티드 사이인 서열(이에 한정되는 것은 아님)을 포함하되, 이에 한정되는 것은 아닌, 시험관내 및 세포내 3' 및 5' 접합부 형성에 대한 정확도 및/또는 효율 및/또는 선택성을 개선하는 주형 말단 부가부를 1개 이상 사용하는 단계를 포함하되, 단 이 부가는 기타 rRNA 길이를 배제하지 않고, 기능성의 4개 ~ 20개 뉴클레오티드 서열은 더 긴 길이에 포함될 수 있는, 구현예 1의 방법.
구현예 9. 세포내에서의 부위 특이적 이식유전자 삽입부의 생물학적 전달 또는 안정성 또는 효율을 개선하는 주형 말단 부가부, 예컨대 3' 측접 폴리아데노신 및/또는 5' 측접 자가 절단성 리보자임 모티프 또는 도입된 주형 RNA를 붕괴로부터 보호하는 기타 구조(이에 한정되는 것은 아님)를 1개 이상 사용하는 단계를 포함하는, 구현예 1의 방법.
구현예 10. 기타 세포내 과정들, 예컨대 번역, DNA 수선, 염색질 변형, 관문 활성화에 영향을 미치거나, 또는 상호작용으로 말미암아 전달 또는 안정성 또는 표적화 또는 단리를 개선하는 주형 변형 1개 이상을 사용하는 단계를 포함하는, 구현예 1의 방법.
구현예 11. 인간 세포 28S rDNA에 삽입되어, 기능을 발휘하도록 발현되는 이식유전자 1개 이상이 사용되는, 구현예 1의 방법.
구현예 12. 인간 rDNA는 성공적인 이식유전자 단백질 발현 카세트 삽입을 위한 세이프 하버 부위인, 구현예 1의 방법.
구현예 13. RNA 주형에 도입되어, 예컨대 인간 질환에 있어 기능 상실을 구조하거나, 유리한 기능을 부여하기 위한 비천연 이식유전자 1개 이상을 사용하는, 구현예 1의 방법.
구현예 14. 생물학적으로 활성인 DNA 요소의 표적 세포내 표적 부위로의 삽입을 유도하도록 작동하고, 표적 세포내에서 활성인 nrRT를 생성하는 nrRT 모듈과, 표적 세포내 표적 부위에서 nrRT에 의한 TPRT를 통해 생물학적으로 활성인 DNA 요소 적어도 한 가닥의 합성을 주형화하는 삽입 주형 모듈을 포함하는 요소 삽입 시스템(EIS).
구현예 15. nrRT 모듈의 예는, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 활성 nrRT 또는 적합한 비활성 전구 단백질 nrRT; nrRT 또는 nrRT 전구 단백질을 암호화하거나, 그렇지 않으면 표적 세포내 활성 nrRT의 존재를 유도할 수 있는 세포내 가공을 동반하거나 동반하지 않으면서 번역될 수 있으며, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 mRNA, 변형된 mRNA 또는 기타 핵산; 또는 표적 세포내 활성 nrRT의 합성을 지휘하기에 적합한 mRNA를 생성하기 위해 전사될 수 있으며, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 DNA 구조물 또는 기타 핵산을 포함하나, 이에 한정되는 것은 아닌, 구현예 14의 EIS.
구현예 16. 삽입 주형 모듈은 표적 세포내 표적 부위에서 생물학적으로 활성인 DNA 요소의 적어도 한 가닥이 nrRT에 의한 TPRT를 통해 cDNA 합성용 주형으로 사용될 수 있으며, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 RNA, 변형된 RNA 또는 기타 핵산을 포함하는, 구현예 14의 EIS.
구현예 17. 삽입 주형 모듈은 nrRT에 의한 TPRT용 삽입 주형 모듈의 효율적이고 선택적인 사용을 촉진하는 분절, 예컨대 특정 nrRT에 의해 우선적으로 사용되는 3' 분절; 특정 nrRT에 의해 우선적으로 사용되는 5' 분절; 그리고 nrRT에 의한 TPRT와 양립가능한 것으로 선택되고, 생물학적으로 활성인 DNA 요소, 즉 cDNA에 대한 주형으로 사용될 수 있는 페이로드 구역을 포함할 수 있는, 구현예 14의 EIS.
구현예 18. 생물학적으로 활성인 DNA 요소는, 표적 세포의 표적 부위에 삽입될 때 해당 세포 또는 해당 세포를 포함하는 유기체의 생물학적 특성에 요망되는 변형을 제공하는 DNA 분절을 포함하는, 구현예 14의 EIS.
구현예 19. 생물학적으로 활성인 DNA의 예는 인체내 세포 또는 세포 세트에 대한 치료적 변화; 농업에 사용되는 식물이나 동물의 특징에 요망되는 변화; 또는 생태적 변화, 예컨대 침입 종 또는 질환 매개체의 박멸을 달성하기 위해 야생 동물 또는 식물에 요망되는 변화를 포함하는, 구현예 14의 EIS.
구현예 20. 생물학적으로 활성인 DNA 요소는 삽입 부위 외부에 있는 프로모터에 의해 요소의 전사를 종결시킬 수 있는 서열 분절 1개 이상; 전사를 개시할 수 있는 프로모터 분절 1개 이상; 생물학적 기능을 가지는 단백질 또는 핵산 1개 이상을 암호화하는 효과기 분절 1개 이상; 및 요망되는 바와 같은 기타 서열 분절을 포함할 수 있는, 구현예 14의 EIS.
구현예 21. 효율적이고 선택적으로 함께 작동하도록 변형, 디자인 또는 특별히 개조된 nrRT 모듈 및 삽입 주형 모듈을 포함하는, 구현예 14의 EIS.
구현예 22. 직접 도입된 RNA 주형을 사용하여 이식유전자의 인간 세포 rDNA로의 표적 프라이밍 역전사(TPRT) 개시 삽입을 지지하기 위한, 변형 R2 레트로요소 단백질의 용도로서, R2 레트로요소 단백질, 또는 무 LTR RT 단백질의 R2/R8/R9 도메인 아키텍처, 또는 자연발생 단백질 또는 단백질 복합체를 배제하지 않고; TPRT 매개 이식유전자 삽입용 표적 또는 비게놈 표적용 표적으로서 기타 종의 게놈을 배제하지 않고; 주형, 예컨대 추가 핵산 또는 핵산 유사 물질, 화학 합성 구성성분, 천연 또는 합성 펩티드 또는 지질에 대한 비천연 부가/변형, 스캐폴드 부착 및 방출역량 등을 배제하지 않고; RNA의 세포로의 "전달" 또는 도입은 (본원에 기재된 모든 실시예를 위해 사용딘 바와 같은) 표준적 방법, 예컨대 지질에 의해 실행가능한 형질감염 또는 전기천공을 배제하지 않되, 이식유전자는 치료적으로 활성인 유전자이고; 부위 특이적일 수 있고, RT 프라이머 신장 및/또는 시험관내 TPRT에 대해 검정되었을 때 활성을 보이는, TPRT 수용성 RT 및/또는 가닥 닉형성 엔도뉴클레아제 활성을 포함하는 무 LTR 레트로요소 단백질을 사용하고; 쌍을 형성한 RT와 동족이거나, 천연 동족체로부터 변형되었거나, 또는 관련 레트로요소들의 계통발생조사 및 재구성 및/또는 변형으로부터 유래하거나, 시험관내 및 세포내 3' 및 5' 접합부 형성의 선택성 및/또는 효율 및/또는 정확도에 대해 스크리닝함으로써 수득된 것으로서 3'쪽에 있는, RT 매개 TPRT용 3' 주형 모듈 1개 이상을 사용하고; 쌍을 형성한 RT와 동족이거나, 천연 동족체로부터 변형되었거나, 또는 관련 레트로요소들의 계통발생조사 및 재구성 및/또는 변형으로부터 유래하거나, 또는 이종 레트로요소 5' 영역으로부터 변형되었거나, 또는 천연 또는 디자인된 간염델타바이러스(HDV) 리보자임(RZ) 폴드로부터 변형되었거나, 또는 시험관내 및 세포내 3' 및 5' 접합부 형성의 선택성 및 효율 및 정확도에 대해 스크리닝함으로써 수득된 것으로서 5'쪽에 있는, RT 매개 TPRT용 5' 주형 모듈 1개 이상을 사용하고; 시험관내 및 세포내 3' 및 5' 접합부 형성의 선택성 및/또는 효율 및/또는 정확도를 개선하는 주형 말단 부가부 1개 이상, 예컨대 표적 부위 또는 그 근처에 있는 rRNA 매칭 서열(들)의 5' 측접 및 3' 측접 서열(이에 한정되는 것은 아님), 예컨대 4 뉴클레오티드 ~ 29 뉴클레오티드 서열(이에 한정되는 것은 아님)을 사용하되, 단 여기서 부가부는 기타 rRNA의 길이를 배제하지 않으며, 기능성인 4 뉴클레오티드 ~ 20 뉴클레오티드 서열은 더 긴 길이에 포함될 수 있고; 세포내 부위 특이적 이식유전자 삽입의 생물학적 전달 또는 안정성 또는 효율을 개선하는 주형 말단 부가부, 예컨대 도입된 주형 RNA가 붕괴되지 않도록 보호하는 3' 측접 폴리아데노신 및/또는 5' 측접 자가 절단성 리보자임 모티프 또는 기타 구조(이에 한정되는 것은 아님) 1개 이상을 사용하고; 상호작용으로 말미암아 전달 또는 안정성 또는 표적화 또는 단리를 개선하거나, 기타 세포내 과정, 예컨대 번역, DNA 수선, 염색질 변형, 관문 활성화에 영향을 미치는 주형 변형 1개 이상을 사용하고; 인간 세포 28S rDNA에 삽입되어, 기능을 발휘하도록 발현되는 이식유전자 1개 이상을 사용되되, 여기서 인간 rDNA는 성공적인 이식유전자 단백질 발현 카세트 삽입을 위한 세이프 하버 부위이고/부위이거나; 예컨대 인간 질환에 있어 기능 상실을 구조하거나 유리한 기능을 부여하기 위해 RNA 주형에 도입된 비천연 이식유전자 1개 이상을 사용하는, 용도.
구현예 23. 요소 삽입 시스템(EIS)를 포함하고, 이 EIS는 생물학적으로 활성인 DNA 요소가 표적 세포내 표적 부위로 삽입되는 것을 유도하는 기능을 가지고, EIS는 적어도 2개의 모듈, 즉 nrRT 모듈 및 삽입 주형 모듈을 포함하는, 본 발명의 한 측면.
구현예 24. 표적 세포내 활성인 nrRT를 생성하고, 그 예로서는 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 활성 nrRT 또는 적합한 비활성 전구 단백질 nrRT; nrRT 또는 nrRT 전구 단백질을 암호화하거나, 그렇지 않으면 표적 세포내 활성 nrRT의 존재를 유도할 수 있는 것으로서, 세포내 가공을 동반하거나 동반하지 않으면서 번역될 수 있으며, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 mRNA, 변형된 mRNA 또는 기타 핵산; 또는 표적 세포내 활성 nrRT의 합성을 지휘하기에 적합한 mRNA를 생성하기 위해 전사될 수 있으며, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 DNA 구조물 또는 기타 핵산을 포함하나, 이에 한정되는 것은 아닌, nrRT 모듈.
구현예 25. 표적 세포내 표적 부위에서 생물학적으로 활성인 DNA 요소 적어도 한 가닥의 nrRT에 의한 TPRT를 통해 cDNA 합성에 주형으로 사용될 수 있고, 임의의 적합한 전달 시스템에 의해 표적 세포에 전달될 수 있고, nrRT에 의한 TPRT용 삽입 주형 모듈의 효율적이고 선택적인 사용을 촉진하는 분절, 예컨대 특정 nrRT에 의해 우선적으로 사용되는 3' 분절, 특정 nrRT에 의해 우선적으로 사용되는 5' 분절, 그리고 nrRT에 의한 TPRT와 양립 가능하도록 선택되고, 생물학적으로 활성인 DNA 요소인 cDNA용 주형으로서 사용될 수 있는 페이로드 구역을 포함할 수 있는, 삽입 주형 모듈.
구현예 26. 표적 세포내 표적 부위에 삽입될 때, 해당 세포 또는 해당 세포를 포함하는 유기체의 생물학적 특성에 요망되는 변형을 제공하는 DNA의 분절을 포함하고, 그 예로서는 인체의 세포 또는 세포 세트에 대한 치료적 변화; 농업에 사용되는 식물 또는 동물의 특징에 요망되는 변화; 또는 야생 동물 또는 식물에 요망되는 변화로서, 생태학적 변화, 예컨대 침입종 또는 질환 매개체의 박멸을 구현하는 변화를 포함하나 이에 한정되는 것은 아니고, 삽입 부위 외부 프로모터에 의해 요소의 전사를 종결시킬 수 있는 서열 분절 1개 이상; 전사를 개시할 수 있는 프로모터 분절 1개 이상; 생물학적 기능을 발휘하는 단백질 또는 핵산 1개 이상을 암호화하는 효과기 분절 1개 이상; 및 요망되는 바와 같은 기타 서열 분절을 포함할 수 있는, 생물학적으로 활성인 DNA 요소.
구현예 27. 효율적으로, 그리고 선택적으로 함께 작용하도록 변형, 디자인 또는 특별히 개조된 nrRT 모듈 및 삽입 주형 모듈을 추가로 포함할 수 있는 EIS.
구현예 28. 마치 각각의 조합이 수고스럽게 나열된 것처럼 본원에 나열된 특정 구현예들의 모든 조합을 포함하는 본 발명.
VII. 정의
28S rDNA: 본원에 사용된 바와 같은 "28S rDNA"란 용어는, 진핵생물 세포질 리보좀의 대 서브유닛(LSU)에 대한 구조 리보좀 RNA(rRNA)를 암호화하는, 대상 게놈의 일부를 지칭한다.
3' 접합부: 본원에 사용된 바와 같은 "3' 접합부"란 용어는, 삽입된 서열의 3' 말단이 대상 게놈의 5' 말단과 연결되는 위치를 지칭한다.
3' 영역: 본원에 사용된 바와 같은 "3' 영역"이란 용어는, 개방해독틀에 대해 3'쪽에 위치하는 레트로요소 유전자의 일부를 지칭한다.
3' 주형 모듈: 본원에 사용된 바와 같은 "3' 주형 모듈"이란 용어는, 레트로요소 유전자 3' 영역으로부터 유래하는 요소 적어도 1개를 포함하는, 삽입 주형 모듈의 일부를 지칭한다.
5' 접합부: 본원에 사용된 바와 같은 "5' 접합부"란 용어는, 대상 게놈의 3' 말단이, 삽입된 서열의 3' 말단과 연결되는 위치를 지칭한다.
5' 영역: 본원에 사용된 바와 같은 "5' 영역"이란 용어는, 개방해독틀에 대해 5'쪽에 위치하는 레트로요소 유전자의 일부를 지칭한다.
5' 주형 모듈: 본원에 사용된 바와 같은 "5' 주형 모듈"이란 용어는, 레트로요소 유전자 5' 영역으로부터 유래하는 요소 적어도 1개를 포함하는, 삽입 주형 모듈의 일부를 지칭한다.
활성: 본원에 사용된 바와 같은 "활성"이란 용어는, 어떤 현상들이 발생중이거나 발생한 상태를 지칭한다. 본 발명의 단백질 및 핵산은 활성을 가질 수 있고, 이 활성은 생물 현상 1개 이상을 포함할 수 있다.
개조된: 본원에 사용된 바와 같은 "개조된"이란 용어는, 특성 및/또는 활성을 변경, 부가 또는 제거하기 위해 단백질 또는 아미노산 서열이 변경된 상태를 지칭한다.
부가: 본원에 사용된 바와 같은 "부가"란 용어는, 본 발명의 조성물 또는 방법에 포함된 요소의 수를 증가시키는 것을 지칭한다.
검정: "검정"이란 용어가 본원에서 동사로 사용될 때, 이는 최광의로 사용되고, 당 분야에 공지된 임의의 적합한 방법을 통해 행해지는 테스트 작업을 지칭한다. "검정"이란 용어가 본원에서 명사로 사용될 때, 이는 검정 대상체의 특성, 상태 및/또는 활성을 확정하기 위해 사용되는 테스트를 지칭한다.
~와 결합된: 본원에 사용된 바와 같은 "~와 결합된", "접합된", "연결된", "부착된" 및 "테더링된(tethered)"이란 용어들은, 2개 이상의 기에 관하여 사용될 때, 해당 기들이 직접적으로, 또는 결합제로 사용되는 추가 기 1개 이상을 통해 물리적으로 서로 결합되었거나 연결됨으로써 구조, 즉 이 구조가 사용되는 조건, 예컨대 생리학적 조건하에 기들이 물리적으로 결합된 채 유지되도록 충분히 안정적인 구조를 형성하는 경우를 의미한다. "결합"은 엄격하게 직접적인 공유 화학 결합을 통하여 이루어질 필요는 없다. 이온 또는 수소 결합, 아니면 수소화를 기반으로 한 연결이, "결합된" 해당 실체들이 물리적으로 결합된 채 유지되도록 충분히 안정적인 경우도 또한 암시할 수 있다.
생물학적 전달: 본원에 사용된 바와 같은 "생물학적 전달"이라는 용어는, 살아있는 세포 또는 살아있는 유기체에 화합물, 성분물질, 실체, 기, 카고 또는 페이로드를 전달하는 작업 또는 방식을 지칭한다. "전달" 및 "생물학적 전달"이란 용어들은 달리 명시되지 않는 한 호환되어 사용될 수 있다.
생물학적 특성: 본원에 사용된 바와 같은 "생물학적 특성" 및 "특성"이란 용어는, 유기체, 생리학적 시스템, 장기, 조직, 세포 또는 분자의, 측정될 수 있거나 관찰될 수 있는 임의의 특징 또는 활성을 지칭한다.
카고: 전달 비이클의 맥락에서 사용되는 경우를 제외하였을 때, "카고" 또는 "페이로드"란 용어는, 대상 게놈으로의 삽입을 의도로 하는 요소 삽입 시스템에 포함된, 임의의 핵산 서열(예컨대 관심 유전자)을 지칭할 수 있다. 전달 비이클의 맥락에 있어 "카고" 및 "페이로드"라는 용어는, 일반적으로 대상 세포, 조직, 장기 또는 생리학적 시스템으로의 전달되거나, 여기에 전달되거나, 또는 이 근처로 전달되도록 의도되는 임의의 화합물 또는 구조(예컨대 본 발명의 요소 삽입 시스템)를 지칭한다.
세포: 본원에 사용된 바와 같은 "세포"란 용어는, 자체의 가장 넓을 수 있는 의미로 주어지며, 이는 임의의 살아있는 막 결합 구조를 지칭한다.
세포내 과정: 본원에 사용된 바와 같은 "세포내 과정"이란 용어 및 이의 문법적 동등언어는, 세포내 수준으로 수행되거나, 단일 세포에 제한될 수 있거나 제한될 수 없는 임의의 과정을 지칭한다.
특징: 본원에 사용된 바와 같은 "특징" 및 "특성"은 호환되어 사용될 수 있다.
관문 활성화: 본원에 사용된 바와 같은 "관문 활성화"란 용어는, 세포 주기 제어 기작 적어도 1개의 활성화를 지칭한다.
염색질 변형: 본원에 사용된 바와 같은 "염색질 변형"이란 용어는, 게놈 응축(genomic condensation) 변화를 통해 게놈 DNA로의 접근경로를 변경하기 위한, 염색질 아키텍처의 변형을 지칭한다.
동족: 본원에 사용된 바와 같은 "동족"이란 용어는, EIS 요소들이 동일한 레트로요소 유전자로부터 유래한 경우를 지칭하는데 사용된다.
양립가능한: 본원에 사용된 바와 같은 "양립가능한"이란 용어는, 어떤 요소가, 표적 프라이밍 역전사에 부정적인 영향을 미치지 않고 EIS내에 포함되는 능력이 있는 경우를 지칭한다.
부여하다: 본원에 사용된 바와 같은 "부여하다"란 용어 및 이의 문법적 동등용어는, 대상체에 추가의 특징들을 부가하는 것을 의미한다.
구조물: 본원에 사용된 바와 같은 "구조물"란 명사는, 인위적으로 디자인된 생체중합체를 지칭한다. 예시적 생체중합체로서는 DNA, RNA 및 폴리펩티드를 포함한다. 일반적으로 본원에 기재된 구조물은 EIS에 사용되도록 디자인된다.
붕괴: 본원에 사용된 바와 같은 "붕괴"란, 경시적으로 조성물의 기능이 상실되는 것을 지칭한다.
전달: 본원에 사용된 바와 같은 "전달"이란, 화합물, 성분물질, 실체, 기, 카고 또는 페이로드를 전달하는 작업 또는 방식을 지칭한다.
전달 시스템: 본원에 사용된 바와 같은 "전달 시스템"이란 용어는, 본 발명의 EIS와 함께 제형될 때 EIS의 구성성분을, 표적 세포의 세포질에 전달하는 임의의 조성물, 방법 또는 이의 조합을 지칭한다. 전달 시스템의 비제한적 예로서는, 전달 비이클로 이루어진 시스템과 직접 형질감염을 위한 시스템을 포함한다.
디자인된: 본원에 사용된 바와 같은 "디자인된"이란 용어는, 조성물이 신규하고 이에 요망되는 특성 및/또는 활성을 가지도록, 이 조성물 천연의 것 또는 현재의 것에서 변경된 경우를 지칭한다.
질환 매개체: 본원에 사용된 바와 같은 "질환 매개체"란 용어는, 감염성 병원체를 또 다른 살아있는 유기체에 운반 및 전파하는 임의의 살아있는 제제를 지칭한다.
DNARNA: 본원에 사용된 바와 같은 "RNA" 또는 "RNA 분자" 또는 "리보핵산 분자"란 용어는, 리보뉴클레오티드들의 중합체를 지칭하고; "DNA" 또는 "DNA 분자" 또는 "데옥시리보핵산 분자"란 용어는, 데옥시리보뉴클레오티드들의 중합체를 지칭한다. DNA 및 RNA는 각각, 예컨대 DNA 복제 및 DNA 전사에 의해 자연 합성될 수 있거나, 또는 화학 합성될 수 있다. DNA 및 RNA는 (즉 각각 ssRNA 또는 ssDNA) 또는 다중 가닥(예컨대 이중 가닥, 즉 각각 dsRNA 및 dsDNA)일 수 있다. 본원에 사용된 바와 같은 "mRNA" 또는 "메신저 RNA"란 용어는, 폴리펩티드 사슬 1개 이상의 아미노산 서열을 암호화하는 RNA를 지칭한다.
DNA 수선: 본원에 사용된 바와 같은 "DNA 수선"이란 용어는, 세포 게놈에 대한 손상을 교정하기 위해 세포내에서 수행되는 내인성 과정들중 임의의 과정을 지칭한다.
생태학적: 본원에 사용된 바와 같은 "생태학적"이란 용어는, 살아있는 유기체들 서로간, 그리고 살아있는 유기체들과 이것들이 존재하는 물리적 주변 사이의 관계를 지칭한다.
효과기 분절: 본원에 사용된 바와 같은 "효과기 분절"이란 용어는, 기능성 생성물을 암호화하는 DNA 또는 RNA 서열을 지칭한다.
효율적인: 표적 프라이밍 역전사에 관하여 본원에 사용된 바와 같은 "효율적인"이란 용어 및 이의 문법적 동등용어는, nrRT 단백질, 5' 모듈 및 3' 모듈의 소정 조합이 요망되는 표적 부위로의 페이로드 모듈 전장의 삽입을 구현하는데 유효한 경우를 지칭한다.
요소: 본원에 사용된 바와 같은 "요소"란 용어는, 분자 또는 시스템 또는 방법의 한 단계의 불연속 구성성분 또는 구성요소 임의의 것을 지칭하는데 사용된다.
요소 삽입 시스템: 본원에 사용된 바와 같은 "요소 삽입 시스템(EIS)"이란 용어는, TPRT를 통해 유전자 서열(이식유전자)을, 대상 게놈의 특정 위치에 삽입하는데 사용될 수 있는 구성성분들(모듈들)의 시스템이다.
캡슐화하다: 본원에 사용된 바와 같은 "캡슐화하다"란 용어는, 감싸거나, 포위하거나, 둘러싸는 것을 의미한다.
암호화하다: 본원에 사용된 바와 같은 "암호화하다"란 용어는, 넓게 임의의 과정이 제1 분자와 상이한 제2 분자의 생산을 지휘하는데 중합체 거대분자내 정보를 사용하는 것을 지칭한다. 제2 분자는 그 화학적 성질이 제1 분자의 화학적 성질과 상이한, 화학 구조를 가질 수 있다.
엔도뉴클레아제: 본원에 사용된 바와 같은 "엔도뉴클레아제"란 용어는, 양 말단 뉴클레오티드 이외의 뉴클레오티드를 분리함으로써 폴리뉴클레오티드 사슬을 절단하는 임의의 단백질 또는 단백질 일부를 지칭한다.
엑소좀: 본원에 사용된 바와 같은 "엑소좀"은, 포유동물 세포 또는 RNA 붕괴에 연루된 복합체에 의해 분비되는 소포이다.
촉진하다: 본원에 사용된 바와 같은 "촉진하다"란 용어는, 최광의로 사용되는데, 명시된 요소를 부가함으로써 어떤 작용이나 과정이 일어날 가능성을 더 높이는 것을 지칭한다.
정확도: 본원에 사용된 바와 같은 "정확도"란 용어는, 관심 유전자가 대상 게놈에 삽입될 때의 정확도를 지칭한다. 높은 정확도는 관심유전자가, 뉴클레오티드 동일성, 서열 길이 및 표적 부위 위치에 있어 비교적 적은 수의 오류를 보이며 삽입되는 경우에 대응한다. 예를 들어 만일 주형 RNA가 대략 5,000개의 뉴클레오티드를 함유하고, nrRT 단백질에 의해 복사되어, 염기쌍 미스매칭을 일으키지 않고 cDNA를 생산할 수 있으면, 유전자 삽입은 높은 정확도를 보이는 것이다. 이식유전자 삽입의 목적에 따라, 제한된 수의 미스매칭이 발생할 수 있지만, 기능성 이식유전자를 생성하기에 충분히 높은 정확도를 여전히 보일 수 있을 것이다.
측접하는: 본원에 사용된 바와 같은 "측접하는"이란 용어는, 어떤 요소에 대해 5' 쪽에 있거나(5' 측접), 3' 쪽에 있는(3' 측접) 또다른 요소 1개의 위치결정 양상을 지칭한다. 측접한다고 칭하여지는 요소들은, 서로간에 직접 연결되어 있을 수 있거나, 또는 해당 요소들 사이 공간에 기타 요소들이 배치되어 있을 수 있다.
제형: 본원에 사용된 바와 같은 "제형"은, 본원에 기재된 EIS의 구성성분 적어도 1개와, 적어도 1개의 전달 제제 또는 약학적으로 허용 가능한 부형제, 또는 이것 둘 다를 포함한다.
기능상 활성인: 생체분자에 관하여 본원에 사용된 바와 같은 "기능성"이란 용어는, 어떤 생체분자가, 자기의 특징을 나타내주는 특성 및/또는 활성을 보이는 형태를 가지는 경우를 지칭한다.
유전자: 본원에 사용된 바와 같은 "유전자"란 용어는, 염색체의 일부를 형성하거나 형성할 수 있는 뉴클레오티드들의 변별적 서열과, 폴리펩티드 또는 핵산 분자내 단량체들의 순서를 결정하는 순서를 지칭하도록 최광의로 사용된다.
생성하다: 본원에 사용된 바와 같은 동사 "생성하다" 및 이의 복합어는, 지정된 생성물이 존재하도록 만드는 임의의 과정을 지칭하도록 최광의로 사용된다.
게놈: 본원에 사용된 바와 같은 "게놈"이란 용어는, 세포에 존재하는 모든 유전 물질을 지칭하도록 최광의로 사용된다.
HDV RZ 폴드: 본원에 사용된 바와 같은 "HDV RZ 폴드"란 용어는, 리보자임 기능을 가지는 간염델타바이러스(HDV) 리보자임으로부터 유래하는 임의의 RNA 서열을 지칭한다.
이종: 본원에 사용된 바와 같은 "이종"이란 용어는, 임의의 유전자 서열 또는 단백질 서열 또는 구조가, 해당 유전자 서열 또는 단백질 서열 또는 구조를 정상적으로 형성하지 않는 세포에 도입되었을 때를 지칭한다.
동종 재조합: 본원에 사용된 바와 같은 "동종 재조합"이란 용어는, 이식유전자와 대상 게놈 사이의 상동성에 의존하는 임의의 이식유전자 삽입 과정을 지칭한다.
시험관내: 본원에 사용된 바와 같은 "시험관내"란 용어는, 반응 또는 과정이 살아있는 세포나 유기체 외부에서 수행되는 경우를 지칭하는데 사용된다.
생체내: 본원에 사용된 바와 같은 "생체내"란 용어는, 반응 또는 과정이 살아있는 세포나 유기체 내부 또는 표면에서 수행되는 경우를 지칭하는데 사용된다.
비활성: 생체분자에 관하여 본원에 사용된 바와 같은 "비활성"이란 용어는, 생체분자가 해당 생체분자의 특징을 나타내주는 특성 및/또는 활성을 보이지 않는 형태를 가지는 경우를 지칭한다.
비활성 성분: 본원에 사용된 바와 같은 "비활성 성분"이란 용어는, 제형에 포함된 약학 조성물중 활성 성분의 활성에 기여하지 않는 제제 1개 이상을 지칭한다. 몇몇 구현예에서, 본 발명의 제형에 사용될 수 있는 비활성 성분들 모두 또는 일부는 미국식품의약국(FDA)에 의해 승인을 받았거나, 또는 본 발명의 제형에 사용될 수 있는 비활성 성분들 그 어떤 것도 FDA에 의해 승인을 받지 않았을 수 있다.
유도하다: 본원에 사용된 바와 같은 "유도하다" 및 이의 문법상 동등용어는, 어떤 과정이 방법의 단계에서 그 어떠한 특별한 제한도 없이 진술된 결과를 초래하는 것을 지칭한다.
삽입 주형 모듈: 본원에 사용된 바와 같은 "삽입 주형 모듈"이란 용어는, nrRT 단백질에 대한 RNA 주형으로 사용되는 RNA 구조물을 지칭한다.
도입하다: 본원에 사용된 바와 같은 "도입하다"란 용어는, 유전 물질, 종종 DNA를 세포에 부가하는 것을 지칭한다.
삽입하다: 본원에 사용된 바와 같은 "삽입하다"란 용어는, 뉴클레오티드를 DNA 서열에 부가하는 것을 지칭한다.
침입 종: 본원에 사용된 바와 같은 "침입 종"이란 용어는, 종의 천연 서식지 외부에서 생식을 하는 임의의 유기체를 지칭한다.
접합부: 본원에 사용된 바와 같은 "접합부"란 용어는, 대상체의 삽입 부위 DNA가, 삽입된 이식유전자의 cDNA와 연결된, 대상 게놈내 위치를 지칭한다.
지질 나노입자: 본원에 사용된 바와 같은 "지질 나노입자" 또는 "LNP"란, 지질(예컨대 양이온성 지질, 비양이온성 지질, PEG-변형 지질) 1개 이상을 포함하는 전달 비이클을 지칭한다.
리포좀: 본원에 사용된 바와 같은 "리포좀"이란, 일반적으로 1개 이상의 구형 이중층 또는 이중층에 배열된 지질(예컨대 양친매성 지질)로 이루어진 소포를 지칭한다.
기능 상실: 본원에 사용된 바와 같은 "기능 상실"이란 용어는, 야생형 유전자 기능이 결여된 변경 유전자 생성물이 생성되는, 대상 유전자에서의 임의의 변화를 지칭한다.
매개되는: 본원에 사용된 바와 같은 "매개되는"이란 용어는, 결과, 예컨대 생리학적 효과를 달성하는 것을 지칭한다.
변형된: 본원에 사용된 바와 같은 "변형된"이란, 분자의 변화된 상테 또는 구조가 변화된 경우를 지칭한다. 분자는 다수의 방식으로, 예컨대 화학적으로, 구조적으로, 그리고 기능적으로 변형될 수 있다.
모티프: 본원에 사용된 바와 같은 "모티프"란 용어는, 독특한 화학 기능 또는 생물 기능에 의해 규정될 수 있거나 규정될 수 없는, 인지 가능한 구조를 가지는 생체중합체의 임의의 영역을 지칭한다.
천연: 본원에 사용된 바와 같은 "천연"이란 용어는, 야생형 또는 자연발생 화합물, 생체분자(예컨대 단백질 또는 핵산) 또는 조성물을 지칭한다.
무 긴 말단 반복 레트로요소 역전사효소: 본원에 사용된 바와 같은 "무 긴 말단 반복(무 LTR) 레트로요소 역전사효소(nrRT)"란 용어는, 무 LTR 레트로요소 유전자로부터 유래하는 역전사 활성을 가지는 단백질을 지칭한다.
무 LTR 레트로요소 역전사효소: 본원에 사용된 바와 같은 "무 LTR 레트로요소 역전사효소(nrRT)"란 용어는, 무 LTR 레트로요소로부터 유래하는 역전사활성을 가지는 단백질을 지칭한다.
무 LTR 레트로요소: 본원에 사용된 바와 같은 "무 LTR 레트로요소"란 용어는, 긴 말단 반복부를 함유하지 않는 (레트로트랜스포손이라고도 공지된) 레트로요소 유전자의 군을 지칭한다.
nrRT 모듈: 본원에 사용된 바와 같은 "nrRT 모듈"이란 용어는, nrRT 적어도 1개를 포함하거나 이를 암호화하는 생체중합체 구조물을 지칭한다.
외부: 삽입 부위에 관하여 본원에 사용된 바와 같은 "외부"란 용어는, 약 60 bp를 초과하고, 삽입 부위에 대해 5'쪽 또는 3'쪽에 있는, 게놈의 임의의 부분을 지칭한다.
쌍을 형성한 RT: 본원에 사용된 바와 같은 "쌍을 형성한 RT"란 용어는, 삽입 주형 모듈을 포함하는 모듈 적어도 1개와 조합을 이룬 역전사효소(RT)를 지칭한다. 모듈은 그것과 쌍을 형성한 RT에 대해 동족일 수 있는데, 즉 RT와 모듈내 모든 요소는 동일한 레트로요소 유전자로부터 유래함을 의미한다. 모듈은 그것과 쌍을 형성한 RT에 대해 동족이 아닐 수 있는데, 즉 모듈 요소 적어도 1개가 RT의 레트로요소 유전자와 동일한 레트로요소 유전자로부터 유래하지 않음을 의미한다.
펩티드: 본원에 사용된 바와 같은 "펩티드"는 그 길이가 50개 이하, 예컨대 그 길이가 약 5개, 약 10개, 약 15개, 약 20개, 약 25개, 약 30개, 약 35개, 약 40개, 약 45개 또는 약 50개인 아미노산이다.
약학 조성물: 본원에 사용된 바와 같은 "약학 조성물"이란 용어는, 활성 성분 적어도 1개와, 선택적으로는 약학적으로 허용 가능한 부형제 1개 이상을 포함하는 조성물을 지칭한다.
계통발생조사: 본원에 사용된 바와 같은 "계통발생조사"란 용어는, 진화적 관련성을 사용하여, EIS 구성성분으로서 사용하기 위한 후보 서열을 선택하는 임의의 과정을 지칭한다.
폴리아데노신: 본원에 사용된 바와 같은 "폴리아데노신"이란 용어는, 임의의 길이를 가지는 아데노신 뉴클레오티드 서열을 지칭한다.
폴리아데노신 미부: 본원에 사용된 바와 같은 "폴리아데노신 미부" 또는 "미부"란 용어는, 그 길이가 약 50개 이상의 뉴클레오티드인 아데노신 뉴클레오티드 서열을 지칭하도록 사용된다.
폴리아데노신 소영역: 본원에 사용된 바와 같은 "폴리아데노신 소영역", "폴리A 소영역" 및 "A 소영역"(이것들 모두 PA로 약칭됨)은 동등한 용어로서, 그 길이가 약 1개 뉴클레오티드 ~ 약 50개 뉴클레오티드인 아데노신 뉴클레오티드 서열을 지칭하도록 호환되어 사용된다.
프로모터: 본원에 사용된 바와 같은 "프로모터"란 용어는, 단백질이 결합하면 전사를 개시하게 되는 임의의 DNA 서열을 지칭한다.
전구 단백질: 본원에 사용된 바와 같은 "단백질 전구체", "전구 단백질" 및 "전구 펩티드"란 용어는, 번역후 변형에 의해 활성 형태로 전환될 수 있는 비활성 단백질을 지칭한다.
보호하다: 본원에 사용된 바와 같은 "보호하다"란 용어 및 이의 문법상 동등용어는, 임의의 조성물 또는 과정이 생체중합체 전부 또는 일부의 붕괴를 막아주는 경우를 지칭한다.
단백질: 본원에 사용된 바와 같은 "단백질"은, 그 길이가 50개 아미노산을 초과하는, 아미노산 생체중합체를 지칭하도록 사용된다. 본원에 기재된 단백질의 비제한적 예로서는 효소, 역전사효소 및 엔도뉴클레아제가 있다.
재조합 RNA: 본원에 사용된 바와 같은 "재조합 RNA"는, 비내인성 발현 배경에서 생산된 RNA를 의미하고; "합성 RNA"는 자연에서 발생하지 않는 RNA를 의미하고; "닉"은 이중체중 한 가닥에 대한 포스포디에스테르 주쇄 파단부를 의미하고; "파괴하다"는 이중체의 두 가닥에 대한 포스포디에스테르 주쇄를 파단하는 것을 의미한다.
재구성: 본원에 사용된 바와 같은 "재구성"이란 용어는, 기능성 서열을 구성하기 위해 제2 공급원으로부터 DNA 샘플을 모으는 과정을 지칭한다.
영역: 본원에 사용된 바와 같은 "영역"이란 용어는, 뉴클레오티드 또는 아미노산 서열의 일부를 지칭한다. 영역은 그 길이가 공지되지 않았거나 규정되지 않은 것일 수 있는데, 이 경우 영역은, 영역 자체로부터 기인하는 기능 또는 서열내 다른 요소들을 기준으로 한 자체의 위치에 의해 명시된다.
레트로요소/레트로트랜스포손: 본원에 사용된 바와 같은 "레트로요소" 및 "레트로트랜스포손"이란 용어는, 이것 자체의 게놈내 신규 위치로 RNA 중간체를 통해 복제해 들어갈 수 있는 진핵생물 유전자 군을 지칭하는 것으로서 호환되어 사용된다.
역전사효소: 본원에 사용된 바와 같은 "역전사효소"란 용어는, RNA 주형 서열로부터 cDNA를 합성할 수 있는 임의의 단백질을 지칭한다.
리보좀 DNA: 본원에 사용된 바와 같은 "리보좀 DNA(rDNA)"란 용어는, 리보좀 RNA를 암호화하는 대상 게놈의 일부를 지칭하도록 사용된다.
리보좀 RNA: 본원에 사용된 바와 같은 "리보좀 RNA(rRNA)"란 용어는, 리보좀의 1차 구성성분인 비암호화 RNA를 지칭한다.
역전사효소 프라이머 신장: 본원에 사용된 바와 같은 "역전사효소(RT) 프라이머 신장"이란 어구는, 역전사효소가 프라이머, 통상 주형 폴리뉴클레오티드와 염기 쌍을 형성하는 DNA 올리고뉴클레오티드를 이용하여, 프라이머 3' 말단이 주형 상보성 DNA 합성을 위해 사용되면서 cDNA를 합성하는 임의의 과정을 지칭한다.
스크리닝: 본원에 사용된 바와 같은 "스크리닝"이란, 특정 유전자 서열 또는 단백질 서열에 대한 체계적 검색을 지칭한다.
분절: 본원에 사용된 바와 같은 "분절"이란 용어는, 서열의 일부를 지칭한다. 예를 들어 뉴클레오티드 서열의 분절은 자체의 전장에 못미치는, 유전자의 임의의 일부를 포함할 수 있다.
선택적: 본원에 사용된 바와 같은 "선택적" 및 "선택성"이란 용어는, 분자, 예컨대 기타 분자의 매우 제한된 종류, 구조, 단백질 또는 유전자 서열과 결합하는 경향이 있는 효소, 효소 단백질 및 유전자(이에 한정되는 것은 아님)를 지칭한다.
자가 절단성 리보자임: 본원에 사용된 바와 같은 "자가 절단성 리보자임"이란 용어는, 서열 특이적 분자내(또는 분자간) 절단을 촉매화하는 RNA 군을 지칭하도록 사용된다.
선택성: 본원에 사용된 바와 같은 "선택성"이란, nrRT가 비동족 5' 또는 3' 주형 모듈을 어떻게 활용할 수 있을지를 지칭한다.
서열: 본원에 사용된 바와 같은 "서열"이란 용어는, N-말단에서 C-말단으로 제공된 생체중합체의 아미노산 순서 또는 5'에서 3'으로 제공된 생체중합체의 뉴클레오티드 순서를 지칭한다.
부위 특이적: 본원에 사용된 바와 같은 "부위 특이적"이란 어구는, 예컨대 약 60 bp 영역의 좌위를 지칭한다.
안정성: 본원에 사용된 바와 같은 "안정성"이란 용어는, 어떤 조성물이 경시적으로 자체의 특성을 보유한 채 유지되는 능력을 지칭한다.
성공적 TPRT: 본원에 사용된 바와 같은 "성공적 TPRT"란 어구는, 표적 부위로의 이식유전자 삽입을 지칭한다.
적합한: 본원에 사용된 바와 같은 "적합한"이란 용어는, 어떤 것이 특정 목적 또는 용도로서 효과적이거나, 구현될 수 있거나, 이러한 목적 또는 용도에 부합하는 경우를 지칭한다.
합성의: 본원에 사용된 바와 같은 "합성의" 란 용어는, 어떤 것이 사람에 의해 직접 생산, 제조 및/또는 제작되는 경우를 지칭한다. 본 발명의 폴리뉴클레오티드 또는 폴리펩티드 또는 기타 분자의 합성은 화학적으로 이루어질 수 있거나, 효소에 의해 이루어질 수 있다.
합성: 본원에 사용된 바와 같은 "합성"이란 용어는, 서열이, 천연 또는 야생형 서열의 기능과 구조를 모방하는, 사람에 의해 제조된 분자인 경우를 지칭한다.
표적 세포: 본원에 사용된 바와 같은 "표적화된 세포"란 어구는, 임의의 관심 세포 1개 이상을 지칭한다. 세포는 시험관내, 생체내, 현장 또는 유기체의 조직 또는 장기내에서 발견될 수 있다. 유기체는 동물, 바람직하게는 포유동물, 더욱 바람직하게는 인간, 가장 바람직하게는 환자일 수 있다.
표적 프라이밍 역전사: 본원에 사용된 바와 같은 "표적 프라이밍 역전사"란 용어는, 역전사요소가 표적 부위 가용 DNA 3' 말단을, cDNA 합성을 개시하는 프라이머로 이용하는 임의의 과정을 지칭한다.
주형: 본원에 사용된 바와 같은 "주형" 및 "RNA 주형"이란 용어는, RT에 의해 cDNA로 전사되는, RNA의 서열을 지칭한다.
주형 말단: 본원에 사용된 바와 같은 "주형 말단"이란 용어는, RNA 주형의 5' 말단 또는 3' 말단을 지칭한다.
치료적으로 활성인: 본원에 사용된 바와 같은 "치료적으로 활성인"이란 용어는, 유전자 또는 유전자 생성물이 대상체에서 치료적 적응증을 치료 또는 완화하는 경우를 지칭한다.
전사: 본원에 사용된 바와 같은 "전사"란 용어는, 주형으로서 DNA 분자를 사용하는 RNA 중합효소에 의해 RNA 분자를 생성 또는 합성하는 것을 지칭한다.
형질감염: 본원에 사용된 바와 같은 "형질감염"이란 용어는, 외인성 핵산을 세포에 도입하는 방법을 지칭한다. 형질감염 방법으로서는 화학적 방법, 물리적 처리 및 양이온성 지질 또는 이의 조합을 포함하나, 이에 한정되는 것은 아니다.
이식유전자: 본원에 사용된 바와 같은 "이식유전자"란 용어는, 대상 게놈에 삽입된 임의의 유전자를 지칭한다.
이식유전자 단백질 발현 카세트: 본원에 사용된 바와 같은 "이식유전자 단백질 발현 카세트"란 용어는, 관심 유전자 적어도 1개와, 대상 게놈으로 삽입되도록 의도된 관심 유전자의 발현을 제어할 수 있는 임의의 추가 요소를 지칭한다.
번역: 본원에 사용된 바와 같은 "번역"이란 용어는, RNA 주형을 기반으로 리보좀에 의해 폴리펩티드 분자를 생성하는 것을 지칭한다.
치료하다/예방하다: 본원에 사용된 바와 같은 "치료하다" 또는 "예방하다"뿐 아니라, 이로부터 파생된 용어들은 반드시 100%의, 즉 완전한 치료 또는 예방을 달성하는 것을 암시하는 것은 아니다. 오히려 당 업자가 잠재적 이득 또는 치료 효과를 보이는 것으로서 인지하는 치료 또는 예방의 정도는 가변적이다. 또한 "예방"은 질환의 발생, 증상 또는 병태의 발현을 지연시키는 것을 포함할 수 있다.
비변형된: 본원에 사용된 바와 같은 "비변형된"이란 용어는, 임의의 성분, 화합물 또는 분자가 어떤 방식으로든 변화되기 전임을 지칭한다. "비변형된"은, 생체분자의 야생형 또는 천연 형태를 지칭할 수 있으나, 항상 그런 것은 아니다. 분자는, 각각의 변형된 분자가 "비변형된" 출발 분자로서 후속 변형을 위해 사용될 수 있는, 일련의 변형을 수행할 수 있다.
벡터: 본원에 사용된 바와 같은 "벡터"란 용어는, 이종 분자를 운송하거나, 형질도입시키거나, 또는 이종분자의 담체로서 작용하는 임의의 분자 또는 기이다.
VIII. 균등물 및 범위
당업자는 단지 일상적인 실험을 이용하여 본원에 기재된 개시내용에 따라 특정 실시예에 대한 다수의 균등물을 인지하거나 확인할 수 있을 것이다. 본 발명의 범위는 상기 발명의 설명에 제한될 것은 아니며, 첨부된 특허청구범위에 제시된 바와 같다.
특허청구범위에서 "한(a)", "하나의(an)" 및 "본(the)"과 같은 관사는 달리 명시되지 않거나 문맥으로부터 달리 명료하지 않는 한, 1개 또는 1개를 초과함을 의미할 수 있다. 어떤 군의 일원 1개 이상 사이에 "또는"을 포함하는 청구 또는 설명은, 만일 어떤 군의 일원중 1개 또는 1개를 초과하거나 모두가 특정 생성물 또는 방법에 존재하거나 사용되거나 달리 관련이 있으면, 반대로 명시되지 않거나 문맥으로부터 달리 명료하지 않는 한, 충족되는 것으로 간주된다. 본 발명은 해당 군의 일원 정확히 하나가, 주어진 생성물 또는 방법에 존재하거나, 사용되거나, 그렇지 않으면 이와 관련되는 구현예를 포함한다. 본 발명은, 주어진 생성물 또는 방법에 1개를 초과하거나 모든 군 일원이 존재하거나, 사용되거나, 그렇지 않으면 관련된 구현예를 포함한다.
"~을 포함하는(comprising)"이라는 용어는, 공개되고 허용되는 것으로 의도되지만, 추가 요소 또는 단계가 포함될 것을 필요로 하지 않는다는 점에 주의해야할 것이다. "~을 포함하는(comprising)"이라는 용어가 본원에 사용되는 경우, "~로 이루어진(consisting of)"이라는 용어도 또한 포함 및 개시되는 것이다.
범위가 주어지면 한계치들이 포함된다. 또한, 달리 명시되어 있지 않거나, 문맥으로부터 명료하지 않으며, 당 업자의 이해로부터 명료하지 않는 한, 범위로 표현된 값은, 달리 명시되지 않는 한, 본 발명의 상이한 구현예에 진술된 범위내 임의의 구체적인 값 또는 종속범위, 해당 범위의 하한 단위의 10분의 1을 가정할 수 있음이 이해되어야 할 것이다.
또한, 종래 기술에 속하는 본 발명의 임의의 특정 구현예는 특허청구범위의 청구항들중 임의의 것 1개 이상으로부터 명시적으로 배제될 수 있음이 이해되어야 한다. 이러한 구현예들은 당업자에게 공지된 것으로 간주되므로, 심지어 본원에 명시적으로 제시되어 있지 않더라도 배제될 수 있다. 본 발명의 조성물에 관한 임의의 특정 구현예(예를 들어, 임의의 항생제, 치료 또는 활성 성분; 임의의 제조 방법; 임의의 사용 방법 등)는 이와 관련하여 선행 기술이 존재하는지 여부에 관계없이 임의의 이유로 말미암아 임의의 청구항 1개 이상으로부터 배제될 수 있다.
사용된 단어는 제한을 위한 단어이라기보다는 설명을 위한 단어이며, 더 넓은 측면에서 본 발명의 진정한 범위 및 사상을 벗어나지 않고 첨부된 특허청구 범위 내에서 변경이 이루어질 수 있음이 이해되어야 한다.
본 발명이, 기재된 여러 실시예에 대해 어느 정도 구체적으로 기재되어 있지만, 이러한 세부내용 또는 구현예 임의의 것 또는 임의의 특정 구현예로 제한되도록 의도되는 것은 아니고, 선행 기술의 관점에서 이러한 특허청구범위에 대해 이루어질 수 있는 해석으로서, 가장 넓은 해석을 제공하고, 이에 따라 본 발명의 의도된 범위를 효과적으로 포함시키기 위해 첨부된 특허청구범위를 참조로 해석되어야할 것이다.
본 개시내용은 하기 비제한적 실시예에 의해 추가로 예시된다.
실시예
실시예 1. 시험관내 RNA 전사(IVT)
Q5 DNA 중합효소(NEB)를 사용하는 PCR에 의해 시험관내 RNA 전사(IVT)용 DNA 주형을 제조한 다음, 컬럼 클린업(column clean-up)(Bio Basic)을 통해 정제하였다. 1 ug DNA 주형(25 uL)으로 IVT 반응을 수행하였는데, 반응은 40 mM Tris(pH 7.9), 2.5 mM 스퍼미딘, 26 mM MgCl2, 0.01% Triton X-100, 대략 30 mM의 DTT, 8 mM GTP, 4 mM 기타 모든 rNTP, 0.5 uL RiboLock(Thermo Scientific), 0.5 uL 무기 피로포스파타아제(NEB), 0.5 uL T7 중합효소(세균내 과발현시킨 후 정제하여 20 mM KPO4 pH 7.5, 100 mM NaCl, 50% 글리세롤 10 mM DTT, 0.1 mM EDTA, 0.2% NaN3중에 50 mg/mL인 상태로 보관한 것)을 포함하였다. 반응물을 37℃에서 3일 ~ 4일 동안 항온처리한 다음, 여기에 1 uL DNase RQ1(Promega), 1.5 uL 20 mM CaCl2 및 2 uL H2O를 첨가하였다. 이후, 탈염(Roche 미니 신속 스핀 컬럼), 유기 추출 및 침전에 의해 주형을 정제하였다.
실시예 2. nrRT 단백질 스크리닝
재조합 단백질 제조 및 정제
봄빅스 모리(서열 번호 12), 드로소필라 시뮬란스(서열 번호 13), 오라이지아스 라티페스(서열 번호 14) 유래 변형 nrRT를 발현하는 플라스미드, 또는 돌연변이시킨 필수 역전사효소 활성 부위 측쇄(서열 번호 15)와 비활성 오. 라티페스 nrRT를 발현하는 플라스미드를 HEK293T 세포에 형질감염으로 도입하였다. 모든 서열에는, 번역을 표준적으로 개시하기 위해 조작된 Kozak 서열 뒤에 AUG 개시 코돈을 포함시켰고, 그 뒤로는 3' FLAG 태그 서열, 그리고 그 뒤로는 번역 종결 코돈을 포함시켰다.
세포를 용해한 다음, 용해물을 수집하였다. RT 단백질을 FLAG 항체 수지(Sigma)와 결합시킨 후 용리시켜 정제하였다. 단백질 태그에 대한 평행 면역블럿은, 발현 수준이 약 10배 더 낮은, 디. 시뮬란스 RT를 제외하고 모든 단백질의 회수율이 거의 동일하였음을 나타냈다.
RT 활성 스크리닝 검정
재조합 nrRT 단백질을, 생리학적 온도에서 cDNA 합성을 허용하기 충분한 시간 동안 32P-방사능표지화 dGTP(Perkin Elmer)를 함유하는 dNTP 용액중에서 주형 5' 오버행(overhang)을 가지도록 어닐링한 프라이머-주형과 합하였다.
프라이머 서열:
주형 서열:
실시예 1에 기재된 바와 같이 IVT 반응을 통해 주형을 제조하였다. 변성 PAGE 및 Typhoon Trio Imager System에 의해 영상화한 겔에 의해 생성물을 분석하였다.
도 5의 O, D 및 B 표시 래인에 보이는 바와 같이, PAGE 영상화 결과는, 비. 모리, 디. 시뮬란스 및 오. 라티페스로부터 유래하는 nrRT는 생화학적으로 활성이고, cDNA를 합성할 수 있음을 보여주었다. 예상한 바와 같이, RT 단백질/효소는 사용하지 않고 dNTP 반응 생성물을 함유하고, 돌연변이에 의해 비활성화된 오. 라티페스 nrRT를 함유하는 각각의 래인, 즉 N 및 O_RT- 래인에서는 cDNA 생성물이 관찰되지 않았다.
실시예 3. nrRT + 주형 3' 모듈 상호작용
3' UTR 특이성에 대한 생체내 nrRT 검정
HEK293T 세포 모집단 9개를, 실시예 1에 기재된 바와 같이 비. 모리, 디. 시뮬란스 및 오. 라티페스로부터 유래하며 변형된 nrRT 단백질을 발현하는 플라스미드들중 1개로 이루어진 플라스미드의 상이한 조합과, 비. 모리 유래 3' UTR RNA R2 요소(서열 번호 18), 디. 시뮬란스 유래 3' UTR RNA R2 요소(서열 번호 19), 또는 오. 라티페스 유래 3' UTR RNA R2 요소(서열 번호 20)를 발현하는 플라스미드로 형질감염하였다(도 6a 참조). 각각의 nrRT 단백질은 각각의 3' UTR RNA와 공동 발현시켰다.
nrRT 단백질 플라스미드가 전사 및 번역되고, 전사된 3' UTR RNA와 결합하기 충분한 시간이 경과하도록 허용된 후, 세포를 용해하고 나서, 임의의 nrRT 단백질 + RNA 주형 복합체를 FLAG 면역 정제(Sigma FLAG 항체 수지)에 의해 정제하였다. 각각의 인풋 세포 용해물중에 RNA가 존재하였으며, 각각의 면역정제된 샘플과 결합한 RNA를 정제하였다. 각각의 인풋 RNA 샘플과 각각의 nrRT 결합 RNA 샘플 동일 분취량만큼을 Hybond N+ 막(Cytiva)에 스팟(spot)으로 이루어진 격자 형태로 고정하였다. T4 폴리뉴클레오티드 키나아제(NEB)를 사용하여 32P 5' 말단 방사능표지한 상보성 올리고뉴클레오티드 프로브와의 혼성화에 의해 검출되는 바와 같이, 각각의 유형의 3' UTR RNA에 대한 스팟을 함유하는 막들을, 3' UTR RNA 존재에 대해 함께 프로빙(probing)하였다. 다시 말하면, 비. 모리 R2 3' UTR을 발현하는 세포로부터 수득한 샘플을, 비. 모리 3' UTR 서열에 대해 프로빙하였다[이 경우, 비. 모리 3'UTR 프로브는 ; ; 및 였음]. 디. 시뮬란스 R2 3' UTR RNA를 발현하는 샘플을, 디. 시뮬란스 3' UTR 서열에 대해 프로빙하였다[이 경우 디. 시뮬란스 3'UTR 프로브는 ; ; 및 였음]. 오. 라티페스 R2 3' UTR RNA를 발현하는 샘플들을, 오. 라티페스 3' UTR 서열에 대해 프로빙하였다[이 경우, 오. 라티페스 3'UTR 프로브는 ; 및 였음].
도 6b에서 볼 수 있는 바와 같이, 변형된 비. 모리 nrRT 단백질은 자체의 동족 3' UTR과 결합하였으나, 디. 시뮬란스 및 오. 라티페스 R2 요소의 3' UTR 서열과도 결합하였던 반면, 변형된 디. 시뮬란스 및 오. 라티페스 단백질은 선택성이 더 컸다. 여기서 비. 모리 nrRT는 인간 세포에서 비교적 구별이 어려운 RNA 상호작용이 있었음을 보여주는 것으로 파악된다.
시험관내 TPRT 검정
실시예 2 전반에 걸쳐 시험관내 TPRT 검정을 이용하였다. nrRT 단백질을 실시예 1에서와 같이 제조하였다. 실시예 1에 기재된 바와 같이 IVT 반응을 통해 TPRT용 주형 RNA를 제조하였다. TPRT를 위해 nrRT 단백질과 주형을, 표적 부위 올리고뉴클레오티드(아래 가닥이 마그네슘 반응 완충제중 T4 폴리뉴클레오티드 키나아제(NEB)와 dNTP를 사용하여 32P 5' 말단 방사능표지화됨) 이중체 DNA(여기서 표적 부위는 그 길이가 64 bp이거나 84 bp임)(각각 서열 번호 29 및 서열 번호 30)와 합한 다음, 37℃에서 30분 동안 항온처리하였다. 생성물을 변성 PAGE로 분석하였으며, Typhoon Trio Imager System으로 겔을 영상화하였다.
nrRT와 동족인 주형 3' UTR에 대한, nrRT의 시험관내 특이성
전술된 바와 같이 비. 모리, 디. 시뮬란스 및 오. 라티페스로부터 nrRT 단백질 을 합성한 다음, 정제하였다. 주형 DNA에 있어 T7 RNA 중합효소 프로모터 뒤에는, 표적 부위 바로 하류에 4 nt rRNA를 포함하거나(서열 번호 31) 포함하지 않는(서열 번호 32) 오. 라티페스 3'UTR과, 4 nt rRNA를 포함하거나(서열 번호 33) 포함하지 않는(서열 번호 34) 디. 시뮬란스 3'UTR이 따랐다. 주형 RNA를 제조하기 위한 IVT용으로 주형 DNA를 사용하였는데, 이 주형 RNA는 시험관내 TPRT 검정을 위해 사용하기 전에 정제하였다.
그 다음, 전술한 시험관내 TPRT 검정을, 각각의 nrRT와 각각의 주형 구조물의 조합을 사용하여 수행하였다.
TPRT를 위해 디. 시뮬란스 RT는 오. 라티페스 3' UTR을 이용하지 않았고, 오. 라티페스 RT는 디. 시뮬란스 3'UTR을 이용하지 않았지만, 비. 모리 RT는 TPRT를 위해 둘 다 이용할 수 있었다(도 7). 비. 모리에서는 TPRT 동안 기타 변형 R2 nrRT 단백질, 예컨대 오. 라티페스 R2 유래 RT(OrLa) 또는 디. 시뮬란스 R2 유래 RT(DrSi)와는 대조적으로, 구별 불가한 주형 복사가 일어났다.
따라서 이 스크리닝은, 변형 nrRT 단백질의 동족 3' UTR(주형)에 대해 더 많이 선택적이거나 덜 선택적인 변형 nrRT 단백질을, 이 변형 nrRT 단백질의 1차 서열 단독으로부터, 또는 심지어 인간 세포로부터 유사하게 발현 및 정제된 단백질의 역전사효소 활성의 상대적 수준으로부터 명료하게 예측가능하지 않았던, 이 단백질들간 변별력을 통해 동정하였다.
비. 모리 nrRT의 효율에 대한, 3' 모듈 조작의 영향
비. 모리로부터 nrRT 단백질을 합성한 다음, 전술한 바와 같이 정제하였다. 주형 구조물은 rRNA가 뒤따르지 않는 하나(R26_ BM3UTR, 서열 번호 35), 표적 부위 바로 하류에 4 nt rRNA가 뒤따르는 4개(GG_BM3UTR_R4, 서열 번호 36; GGG-R4_BM3UTR_R4, 서열 번호 37 및 R26_BM3UTR_R4, 서열 번호 38), 4 nt rRNA 및 20 nt ~ 25 nt 폴리A 소영역가 뒤따르는 하나(R26_ BM3UTR _R4_PA, 서열 번호 39), 그리고 표적 부위 바로 하류에 20 nt rRNA가 뒤 따르는 하나(R26_BM3UTR_R20, 서열 번호 40)를 포함하는, 비. 모리 유래 3'UTR을 포함하였다. 실시예 1에 기재된 바와 같이 IVT 반응을 통해 주형 RNA를 합성하였다. 그 정체성이 R4와 함께 시작되는 주형은 통합된 천연 요소 5' 말단에 측접하는 4 nt rRNA로 5' 신장이 이루어졌던 반면, R26과 함께 시작되는 주형은 26 nt rRNA로 5' 신장이 이루어졌다. 몇몇 서열에 5' 구아노신(G)이 부가되었으며, 그 결과 T7 RNA 중합효소 전사가 증가하였다.
전술한 바와 같이, 64 bp 표적 부위 및 84 bp 표적 부위 둘 다를 가지는 각각의 주형과 별도로 합한 오. 라티페스 nrRT 단백질로 시험관내 TPRT 검정을 수행하였다.
도 8에 보인 바와 같이, 비. 모리 3'UTR RNA의 3' 말단은 비. 모리 RT에 의한 TPRT 효율에 거의 영향을 미치지 않았으며; TPRT를 위한 주형에 3' 측접 rRNA는 필수가 아니었다. 그러나 3' 하류 rRNA 20 nt는 내부 개시(원으로 표시한 위치)를 가능하게 함으로써 3' 접합 정확도를, 4 nt 3'rRNA와 주형을 사용하였을 때의 더 높은 TPRT 정확도에 비해 떨어뜨렸다(화살표는 높은 정확도의 3' 접합부 형성 영역을 표시함). 그러므로 20 nt 3' 측접 rRNA 서열은, 4 nt 3' 측접 rRNA 서열에 비해 불리하였다. 주의할 점은, 3' 측접 rRNA는 올바른 생성물 합성에 대한 효율 또는 정확도가 저하되지 않고 20 nt 미만의 아데노신 소영역만큼 신장될 수 있었다는 점이다.
오. 라티페스 nrRT 효율에 대한 3' 모듈 조작의 영향
오. 라티페스 유래 nrRT 단백질을 합성하여, 전술한 바와 같이 정제하였다. 주형 구조물은, rRNA를 가지지 않는 하나(R26_OL, 서열 번호 41), 4 nt rRNA를 가지는 두개(R4_OL_R4, 서열 번호 42 및 R26_OL_R4, 서열 번호 43), 20 nt rRNA를 가지는 하나(R26_OL_R20, 서열 번호 44), 그리고 4 nt rRNA 및 폴리A 소영역을 가지는 하나(R26_OL_R4_PA, 서열 번호 45)를 포함하였던 오. 라티페스 유래 3'UTR을 포함하였다. 실시예 1에 기재된 바와 같은 IVT 반응을 통해 주형 RNA를 합성하였다. 그 정체성이 R4와 함께 시작되는 주형은 통합된 천연 요소의 5' 말단에 측접하는 4 nt rRNA에 의해 5' 신장이 이루어졌던 반면, R26과 함께 시작되는 주형은 통합된 천연 요소의 5' 말단에 측접하는 26 nt rRNA에 의해 5' 신장이 이루어졌다.
전술한 바와 같이, 각각의 주형과 별도로 합하여진 오. 라티페스 nrRT 단백질을 사용하여 시험관내 TPRT 검정을 수행하였다.
도 9a에 보인 바와 같이, rRNA의 3' 신장이 이루어지지 않은 오. 라티페스 3' UTR은 TPRT 오. 라티페스 RT에 효율적으로 사용되지 않았는데, 이는 비. 모리 RT가 3' 측접 rRNA에 의하지 않고 효율적인 TPRT를 수행하기 위한 비. 모리 3' UTR RNA를 사용하였음을 용도를 보여주는 도 8의 결과와는 달랐다. 비. 모리 구성성분들에 공통되게 3' 측접 rRNA는 오. 라티페스 RT TPRT가 억제되지 않으면서 20 nt 미만의 아데노신 소영역만큼 신장될 수 있었다.
5' rRNA 신장부는 함유하지 않고, 0 nt 3' rRNA를 함유하는 주형 구조물(R0-OL3-R0, 서열 번호 46), 4 nt 3' rRNA를 함유하는 주형 구조물(R0-OL3-R4, 서열 번호 47), 8 nt 3' rRNA를 함유하는 주형 구조물(R0-OL3-R8, 서열 번호 48), 12 nt 3' rRNA를 함유하는 주형 구조물(R0-OL3-R12, 서열 번호 49), 16 nt 3' rRNA를 함유하는 주형 구조물(R0-OL3-R16, 서열 번호 50), 그리고 20 nt 3' rRNA를 함유하는 주형 구조물(R0-OL3-R20, 서열 번호 51)중 어느 하나를 사용하여 이 절차를 반복하였다. 시험관내 TPRT 검정에 대해 앞서 기재한 바와 같이 주형 RNA를 합성하였다.
도 9b에 보인 바와같이, 이러한 결과는 상기 관찰된 바들을 확인시켜주는 것이다. rRNA의 3' 신장이 이루어지지 않으면, 오. 라티페스 RT에 의해 부적당하면서 희박한 수준의 내부 개시가 초래되었고, 4 nt rRNA의 존재는 TPRT 및 3' 접합의 정밀도를 도모하기에 충분하였다.
트리볼리움 카스타네움 nrRT 단백질
발현 플라스미드(서열 번호 52)로부터 티. 카스타네움 유래 nrRT 단백질을 합성하고 나서, 전술한 바와 같이 정제하였다. 주형 구조물은, 천연 티. 카스타네움 R2 3' UTR이, 5' rRNA 25 nt만큼 또는 3' rRNA 4 nt만큼중 하나에 측접하는 R25-UTR-R4(서열 번호 53), 5' 측접 rRNA 25 nt만큼 또는 3' 측접 rRNA 4 nt 만큼 뒤에 탠덤 아데노신 A 소영역 20 nt ~ 25 nt만큼이 뒤따르는 R25-UTR-R4_PA(서열 번호 54), 그리고 5' 측접 rDNA 25 nt만큼과 3' rRNA 10 nt만큼을 가지는 R25-UTR-R10(서열 번호 55)를 포함하였다. 앞서 시험관내 TPRT 검정에 대해 기재한 바와 같이 주형 RNA를 합성하였다.
전술한 바와 같이 시험관내 TPRT 검정을 수행하였다.
도 10에서 볼 수 있는 바와 같이, 티. 카스타네움 nrRT가 사용되는 TPRT는, 생화학적으로 활성이었고, 자체의 동족 3' UTR과 반응하였을 때, 표적 부위에서 효율적인 TPRT를 달성하였다. 뿐 아니라, 3' 측접 rRNA는 TPRT를 억제하지 않고 20 nt 미만의 아데노신 소영역만큼 신장될 수 있었다. 3' rRNA 길이를 4 nt 초과하는 만큼 증가시켰을 때 식별 가능한 효과는 관찰되지 않았다.
실시예 4. 생체내 주형 삽입
오. 라티페스
293T 세포를 형질감염시켜, 번역을 위한 단일 개시 코돈 AUG를 제시하는 서열을 가지는 오. 라티페스 R2 레트로요소 ORF(서열 번호 14)로부터 변형된 단백질을 발현시켰다. 그 다음, 이 세포를, 28S rDNA R2 표적 위치에서의 TPRT용 주형으로서 사용하고자 하는 RNA로서, T7 RNA 중합효소에 의해 시험관내 전사된 RNA로 형질감염시켰다.
주형 RNA는, (5' 측접 rRNA 26 nt만큼을 남기며) 자가 절단된 리보자임 5' 말단으로부터 신장되어, 5' UTR을 거쳐, 존재할 수 있는 천연 ORF 영역에 도달하는 오. 라티페스 5' 영역을 가지거나 가지지 않는, 오. 라티페스 요소 3' UTR(실제 번역 개시 부위는 공지되어 있지 않으므로, 각각의 경우 서열 번호 56 및 서열 번호 57)을 함유하였다. 3' UTR은 있지만 5' UTR은 없는 주형 RNA에 있어 RNA 5' 말단은 추가의 레트로요소 서열이 없는 천연 레트로요소 접합부 5'쪽에 rRNA 서열을 보유하였다. 3' UTR 뒤에 있는 주형 RNA의 3' 말단은 3' 삽입 접합부 하류 4 nt만큼의 rRNA를 가졌다.
형질감염 세포 풀의 게놈 DNA로부터 표적 28s rDNA 5' 말단까지의 초기 및 네스팅 PCR로서, 주형 3' 말단의 예측 접합부에 중첩하여 존재하는 프라이머를 사용하는 PCR을 통해, 28S rDNA에서의 성공적 TPRT를 나타내는 3' 삽입 접합부를 검출하였다.
1라운드 PCR 프라이머로서는, 정 프라이머 및 역 프라이머 가 있다.
네스팅 PCR 프라이머로서는, 정 프라이머 및 역 프라이머 가 있다.
서열결정하였을 때 내인성 R2 요소의 게놈 서열로부터 유래하는 정밀 접합 매칭부였던 목표 생성물의 검출은 RNA 주형의 형질감염 및 RT 단백질 발현 둘 다에 의존하였다(도 11).
형질감염한 세포 풀의 게놈 DNA를 PCR, 즉 표적 28S rDNA 3' 말단에서 주형 5' 말단까지의 예측 접합부에 중첩하여 존재하는 프라이머를 사용하는 PCR을 통해 증폭시켰는데, 이때 정 프라이머는 였고, 역 프라이머는 였다.
이 과정은 28S rDNA에서 성공적인 TPRT를 보였던 5' 삽입 접합부를 검출하였다. 목표 생성물, 즉 내인성 R2 요소의 게놈 서열로부터 유래하는 접합 매칭부의 검출은, 목표 TPRT RNA 주형의 형질감염 및 RT 단백질 발현 둘 다에 의존하였다(도 12).
서열결정되었을 때, 우세하게 존재하였던 293T 세포의 5' 접합부 및 3' 접합부는 주형 요소 서열에 대해 상상되었던, rDNA와의 무이음선 연결부를 규명하였다. 이 서열은, 293T 세포 표적 부위 및 이식유전자 주형 RNA 둘 다에 존재하는 rRNA 서열이 중복되어 존재하지 않았다. 목표 생성물의 검출은, 단지 RT 단백질 발현과 RNA 주형의 형질감염 둘 다가 일어났을 때에만 이루어졌다(도 12).
티. 카스타네움
293T 세포를 형질감염시켜, 트리볼리움 카스타네움(TriCas) R2 계통 3가지중 1개로부터 변형 단백질을 발현시켰는데, 이 경우 번역을 위한 단일 AUG 개시 코돈을 제시하는 합성 서열 ORF(서열 번호 52)가 사용되었다. 이후, 이 세포를, 28S rDNA의 R2 표적 부위에서 TPRT를 위한 주형으로 사용할 시험관내 전사 RNA, 즉 T7 RNA 중합효소에 의해 시험관내 전사한 RNA로 형질감염시켰다.
이 실험에서 탐구 대상이었던 주형 RNA는 티. 카스타네움 요소 3' UTR을 함유하였는데, 이 경우 주형 RNA 일부는, 자가 절단된 리보자임 5' 말단으로부터 초기의 아래 가닥 닉과 마주보고, (트리볼리움 게놈보다는 인간 게놈과 매칭되는 5' 측접 rRNA 13 nt만큼을 남기도록 디자인한) 인간 게놈의 위 가닥 부위를 거쳐 티. 카스타네움 5' UTR에 이르기까지 신장된 5' 영역을 가졌고, 주형 RNA의 다른 일부는 이 5' 영역을 가지지 않았다. 5' 영역은 ORF 영역까지 신장될 수 있지만, 실제 번역 개시 부위는 공지되어 있지 않은 것으로 생각된다. 주형 RNA 3' 말단은 4 nt rRNA, 20 nt ~ 25 nt A 소영역(PA)이 부가된 4 nt rRNA, 또는 10 nt rRNA중 하나였다. 주형 구조물 및 이의 서열에 관한 요약을 이하 표 1에 제시하였다.
형질감염된 세포 풀 유래 게놈 DNA의 PCR 증폭을 이용하여, 28S rDNA에서 성공적인 TPRT가 일어났음을 나타내는 3' 삽입 접합부를 검출하였는데, 이때 사용한 정프라이머는 였고, 역 프라이머는 였다(도 13). 3' 접합부 형성은 RNA 주형의 형질감염 및 RT 단백질 발현 둘 다가 일어났을 때 확인 가능하였다. rRNA 서열 4 nt만큼 뒤에 있는 3' UTR에 A 소영역이 부가됨에 따라, 5' 모듈은 3' 접합부 형성의 효율과 특이성을 개선하였다.
형질감염된 세포 풀의 게놈 DNA를 대상으로 한 PCR 증폭도 또한 이용하여, 28S rDNA에서 TPRT가 일어났음을 보여주는 5' 삽입 접합부를 검출하였는데, 이때 사용한 정 프라이머는 였고, 역 프라이머는 였다(도 14). 5' 삽입 접합부는 RNA 주형의 형질감염 및 RT 단백질 발현 둘 다가 일어났을 때 검출가능하였다. rRNA 서열 4 nt만큼 뒤에 A 소영역이 부가된 3' 모듈은 5' 접합부 형성의 효율과 특이성을 증가시켰다.
티. 카스타네움 R2 레트로요소 RZ의 한 형태를 함유하는 5' 모듈은 TriCas RT에 의해 달성된 5' 및 3' 이식유전자 삽입 접합의 효율과 정확도를 매우 많이 개선하였다(도 13 및 도 14). 5' RZ는 초기 아래 가닥 닉 위치의 13 nt 상류("-13")를 자가 절단하였으며, 그 결과 트리볼리움 게놈보다는 인간 게놈과 매칭되는 5' 측접 rRNA의 비천연 13 nt만큼이, 천연 트리볼리움 요소 5' 접합부와 비교되게, 잉여 뉴클레오티드와 함께 남았다.
퓨로마이신 내성
번역을 위한 단일 AUG 개시 코돈을 제시하는 합성 서열 ORF와 함께 디. 시뮬란스 R2를 발현하는 pcDNA3.1 플라스미드 벡터(서열 번호 13), 번역을 위한 단일 AUG 개시 코돈을 제시하는 합성 서열 ORF와 함께 오. 라티페스 R2를 발현하는 pcDNA3.1 플라스미드 벡터(서열 번호 14), 또는 빈 pcDNA3.1 플라스미드 벡터(서열 번호 73)로 HEK293T 세포를 형질감염시켰다. 3일 후, 퓨로마이신 내성을 부여할 정제 IVT 주형 RNA 암호화 이식유전자(서열 번호 74)로 세포를 형질감염시켰다. 4일차에, 0.75 ug/ml 퓨로마이신을 함유하는 선택 배지에 세포를 도입하였다. 선택 배지중 약 15회차 세포 분열을 진행시킨 후, 세포를 수확하였으며, 게놈 DNA를 추출하였다. 도 15에 있어 "조기"라 표시된 래인들은, 시간에 관한 주석이 없는 래인들의 샘플 제조 전 5회차 ~ 10회차 세포 분열 주기에서 수확한 세포 모집단의 결과임을 보여주는 반면, "후기"라 표시된 래인들은 또다른 시점 이후 5회차 ~ 10회차 세포 분열에서 수확한 세퍼 모집단의 결과였다. PCR 검정은, 비천연 퓨로마이신 내성 카세트내 어떤 영역을 증폭함으로써 도입된 주형 RNA 서열이 복사되어 DNA로서 존재하는지에 대해 테스트하는데 사용하였다.
만일 주형 RNA가 이식유전자로 복사되면, 이는 퓨로마이신 내성 단백질에 대한 RNAP II 발현 카세트를 제공할 것이다(도 15). 주형 RNA는 또한 (5' 측접 rRNA 26 nt만큼을 남기며) 자가 절단된 리보자임의 5' 말단에서 시작되는 오. 라티페스 R2 5' 영역과, RT 동족 레트로요소 3' UTR을 함유하였다. 주형 RNA의 3' 말단은 A 소영역이 부가되었거나 부가되지 않은 3' 측접 rRNA 4 nt 또는 20 nt만큼을 함유하였다(데이터는 보이지 않음). 주형 구조물 및 그 서열에 관한 요약을 이하 표 2에 제시하였다
형질감염된 세포 풀의 게놈 DNA를 대상으로 PCR을 수행함으로써, 삽입된 퓨로마이신 내성 카세트 서열을 검출하였는데, 이때 사용된 정 프라이머는 였고, 역 프라이머는 였다. 결과로 얻어진 PCR 생성물은, 이식유전자 주형으로 TPRT가 성공적으로 수행되었음을 나타낸다.
오. 라티페스 R2 3'UTR 및 5' 영역을 함유하는 이식유전자 RNA 주형 및 변형된 형태의 오. 라피테스 R2 RT 단백질이 형질감염된 배양액을 대상으로 삽입 이식유전자에 관한 확고한 검출을 수행하였다. 이식유전자 검출은 또한 세포 배양액중에서 잘 이루어졌는데, 이때 배양액은 디. 시뮬란스 R2 RT 단백질의 변형된 형태와, 디. 시뮬란스 R2 3' UTR, 그리고 비동족 오. 라티페스 R2 5' 영역을 함유하는 이식유전자 RNA 주형으로 형질감염시켰다(도 15).
효율성이 작은 이식유전자의 인간 세포 rDNA로의 삽입(그리고 관련된 검출)은, 디. 시뮬란스 RT를 직접 도입한 동족 5' 및 3' UTR, 그리고 디. 시뮬란스 이식유전자 주형과 합하여 사용하고, 5' 디. 시뮬란스 RZ도 또한 사용하여 수행하였다(데이터는 보이지 않음).
놀랍게도, 이식유전자 삽입 효율 및 접합 정확도는, 이종 RZ를 함유하는 오. 라티페스 5' RNA 영역을 사용하였을 때 개선되었다(이종 5' 모듈을 사용하는 것에 관하여는 도 15에 보임).
<110> The Regents of the University of California <120> SITE-SPECIFIC GENE MODIFICATIONS <130> 23K1041US <150> US 63/137,664 <151> 2021-01-14 <160> 80 <170> KoPatentIn 3.0 <210> 1 <211> 1081 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 1 Met Lys Lys Ser Asn Lys Glu Asn Arg Pro Glu Ala Ser Gly Leu Pro 1 5 10 15 Leu Glu Ser Glu Arg Thr Gly Asp Asn Pro Thr Val Arg Gly Ser Ala 20 25 30 Gly Ala Asp Pro Val Gly Gln Asp Ala Pro Gly Trp Thr Cys Gln Phe 35 40 45 Cys Glu Arg Thr Phe Ser Thr Asn Arg Gly Leu Gly Val His Lys Arg 50 55 60 Arg Ala His Pro Val Glu Thr Asn Thr Asp Ala Ala Pro Met Met Val 65 70 75 80 Lys Arg Arg Trp His Gly Glu Glu Ile Asp Leu Leu Ala Arg Thr Glu 85 90 95 Ala Arg Leu Leu Ala Glu Arg Gly Gln Cys Ser Gly Gly Asp Leu Phe 100 105 110 Gly Ala Leu Pro Gly Phe Gly Arg Thr Leu Glu Ala Ile Lys Gly Gln 115 120 125 Arg Arg Arg Glu Pro Tyr Arg Ala Leu Val Gln Ala His Leu Ala Arg 130 135 140 Phe Gly Ser Gln Pro Gly Pro Ser Ser Gly Gly Cys Ser Ala Glu Pro 145 150 155 160 Asp Phe Arg Arg Ala Ser Gly Ala Glu Glu Ala Gly Glu Glu Arg Cys 165 170 175 Ala Glu Asp Ala Ala Ala Tyr Asp Pro Ser Ala Val Gly Gln Met Ser 180 185 190 Pro Asp Ala Ala Arg Val Leu Ser Glu Leu Leu Glu Gly Ala Gly Arg 195 200 205 Arg Arg Ala Cys Arg Ala Met Arg Pro Lys Thr Ala Gly Arg Arg Asn 210 215 220 Asp Leu His Asp Asp Arg Thr Ala Ser Ala His Lys Thr Ser Arg Gln 225 230 235 240 Lys Arg Arg Ala Glu Tyr Ala Arg Val Gln Glu Leu Tyr Lys Lys Cys 245 250 255 Arg Ser Arg Ala Ala Ala Glu Val Ile Asp Gly Ala Cys Gly Gly Val 260 265 270 Gly His Ser Leu Glu Glu Met Glu Thr Tyr Trp Arg Pro Ile Leu Glu 275 280 285 Arg Val Ser Asp Ala Pro Gly Pro Thr Pro Glu Ala Leu His Ala Leu 290 295 300 Gly Arg Ala Glu Trp His Gly Gly Asn Arg Asp Tyr Thr Gln Leu Trp 305 310 315 320 Lys Pro Ile Ser Val Glu Glu Ile Lys Ala Ser Arg Phe Asp Trp Arg 325 330 335 Thr Ser Pro Gly Pro Asp Gly Ile Arg Ser Gly Gln Trp Arg Ala Val 340 345 350 Pro Val His Leu Lys Ala Glu Met Phe Asn Ala Trp Met Ala Arg Gly 355 360 365 Glu Ile Pro Glu Ile Leu Arg Gln Cys Arg Thr Val Phe Val Pro Lys 370 375 380 Val Glu Arg Pro Gly Gly Pro Gly Glu Tyr Arg Pro Ile Ser Ile Ala 385 390 395 400 Ser Ile Pro Leu Arg His Phe His Ser Ile Leu Ala Arg Arg Leu Leu 405 410 415 Ala Cys Cys Pro Pro Asp Ala Arg Gln Arg Gly Phe Ile Cys Ala Asp 420 425 430 Gly Thr Leu Glu Asn Ser Ala Val Leu Asp Ala Val Leu Gly Asp Ser 435 440 445 Arg Lys Lys Leu Arg Glu Cys His Val Ala Val Leu Asp Phe Ala Lys 450 455 460 Ala Phe Asp Thr Val Ser His Glu Ala Leu Val Glu Leu Leu Arg Leu 465 470 475 480 Arg Gly Met Pro Glu Gln Phe Cys Gly Tyr Ile Ala His Leu Tyr Asp 485 490 495 Thr Ala Ser Thr Thr Leu Ala Val Asn Asn Glu Met Ser Ser Pro Val 500 505 510 Lys Val Gly Arg Gly Val Arg Gln Gly Asp Pro Leu Ser Pro Ile Leu 515 520 525 Phe Asn Val Val Met Asp Leu Ile Leu Ala Ser Leu Pro Glu Arg Val 530 535 540 Gly Tyr Arg Leu Glu Met Glu Leu Val Ser Ala Leu Ala Tyr Ala Asp 545 550 555 560 Asp Leu Val Leu Leu Ala Gly Ser Lys Val Gly Met Gln Glu Ser Ile 565 570 575 Ser Ala Val Asp Cys Val Gly Arg Gln Met Gly Leu Arg Leu Asn Cys 580 585 590 Arg Lys Ser Ala Val Leu Ser Met Ile Pro Asp Gly His Arg Lys Lys 595 600 605 His His Tyr Leu Thr Glu Arg Thr Phe Asn Ile Gly Gly Lys Pro Leu 610 615 620 Arg Gln Val Ser Cys Val Glu Arg Trp Arg Tyr Leu Gly Val Asp Phe 625 630 635 640 Glu Ala Ser Gly Cys Val Thr Leu Glu His Ser Ile Ser Ser Ala Leu 645 650 655 Asn Asn Ile Ser Arg Ala Pro Leu Lys Pro Gln Gln Arg Leu Glu Ile 660 665 670 Leu Arg Ala His Leu Ile Pro Arg Phe Gln His Gly Phe Val Leu Gly 675 680 685 Asn Ile Ser Asp Asp Arg Leu Arg Met Leu Asp Val Gln Ile Arg Lys 690 695 700 Ala Val Gly Gln Trp Leu Arg Leu Pro Ala Asp Val Pro Lys Ala Tyr 705 710 715 720 Tyr His Ala Ala Val Gln Asp Gly Gly Leu Ala Ile Pro Ser Val Arg 725 730 735 Ala Thr Ile Pro Asp Leu Ile Val Arg Arg Phe Gly Gly Leu Asp Ser 740 745 750 Ser Pro Trp Ser Val Ala Arg Ala Ala Ala Lys Ser Asp Lys Ile Arg 755 760 765 Lys Lys Leu Arg Trp Ala Trp Lys Gln Leu Arg Arg Phe Ser Arg Val 770 775 780 Asp Ser Thr Thr Gln Arg Pro Ser Val Arg Leu Phe Trp Arg Glu His 785 790 795 800 Leu His Ala Ser Val Asp Gly Arg Glu Leu Arg Glu Ser Thr Arg Thr 805 810 815 Pro Thr Ser Thr Lys Trp Ile Arg Glu Arg Cys Ala Gln Ile Thr Gly 820 825 830 Arg Asp Phe Val Gln Phe Val His Thr His Ile Asn Ala Leu Pro Ser 835 840 845 Arg Ile Arg Gly Ser Arg Gly Arg Arg Gly Gly Gly Glu Ser Ser Leu 850 855 860 Thr Cys Arg Ala Gly Cys Lys Val Arg Glu Thr Thr Ala His Ile Leu 865 870 875 880 Gln Gln Cys His Arg Thr His Gly Gly Arg Ile Leu Arg His Asn Lys 885 890 895 Ile Val Ser Phe Val Ala Lys Ala Met Glu Glu Asn Lys Trp Thr Val 900 905 910 Glu Leu Glu Pro Arg Leu Arg Thr Ser Val Gly Leu Arg Lys Pro Asp 915 920 925 Ile Ile Ala Ser Arg Asp Gly Val Gly Val Ile Val Asp Val Gln Val 930 935 940 Val Ser Gly Gln Arg Ser Leu Asp Glu Leu His Arg Glu Lys Arg Asn 945 950 955 960 Lys Tyr Gly Asn His Gly Glu Leu Val Glu Leu Val Ala Gly Arg Leu 965 970 975 Gly Leu Pro Lys Ala Glu Cys Val Arg Ala Thr Ser Cys Thr Ile Ser 980 985 990 Trp Arg Gly Val Trp Ser Leu Thr Ser Tyr Lys Glu Leu Arg Ser Ile 995 1000 1005 Ile Gly Leu Arg Glu Pro Thr Leu Gln Ile Val Pro Ile Leu Ala Leu 1010 1015 1020 Arg Gly Ser His Met Asn Trp Thr Arg Phe Asn Gln Met Thr Ser Val 1025 1030 1035 1040 Met Gly Gly Gly Val Gly Gly Gly Gly Ser Gly Gly Ser Gly Gly Met 1045 1050 1055 Gly Ser Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile 1060 1065 1070 Asp Tyr Lys Asp Asp Asp Asp Lys Lys 1075 1080 <210> 2 <211> 1048 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 2 Met Thr Thr Arg Pro Ser Val Asp Ile Phe Pro Glu Asp Gln Tyr Glu 1 5 10 15 Pro Asn Ala Ala Ala Thr Leu Ser Arg Val Pro Cys Thr Val Cys Gly 20 25 30 Arg Ser Phe Asn Ser Lys Arg Gly Leu Gly Val His Met Arg Ser Arg 35 40 45 His Pro Asp Glu Leu Asp Glu Glu Arg Arg Arg Val Asp Ile Lys Ala 50 55 60 Arg Trp Ser Glu Glu Glu Lys Trp Met Met Ala Arg Lys Glu Val Glu 65 70 75 80 Leu Thr Ala Asn Gly His Lys His Met Asn Lys Gln Leu Ala Val Tyr 85 90 95 Phe Ala Asn Arg Ser Val Glu Ala Ile Lys Lys Leu Arg Gln Arg Gly 100 105 110 Asp Tyr Lys Glu Lys Ile Glu Gln Ile Arg Gly Gln Ser Ala Leu Val 115 120 125 Pro Glu Val Ala Asn Leu Thr Ile Arg Arg Arg Pro Ser Arg Ser Glu 130 135 140 Gln Asn His Gln Val Thr Thr Ser Glu Thr Thr Pro Ile Thr Pro Phe 145 150 155 160 Glu Gln Ser Asn Arg Glu Ile Leu Arg Thr Leu Arg Gly Tyr Ser Pro 165 170 175 Val Glu Cys His Ser Lys Trp Arg Ala Gln Glu Leu Gln Thr Ile Ile 180 185 190 Asp Arg Ala Glu Leu Glu Gly Lys Glu Thr Thr Leu Gln Cys Leu Ser 195 200 205 Leu Tyr Leu Leu Gly Ile Phe Pro Ala Gln Gly Val Arg His Thr Leu 210 215 220 Thr Arg Pro Pro Arg Arg Pro Arg Asn Arg Arg Glu Ser Arg Arg Gln 225 230 235 240 Gln Tyr Ala Val Val Gln Arg Asn Trp Asp Lys His Lys Gly Arg Cys 245 250 255 Ile Lys Ser Leu Leu Asn Gly Thr Asp Glu Ser Val Met Pro Ser Gln 260 265 270 Glu Val Met Val Pro Tyr Trp Arg Glu Val Met Thr Gln Pro Ser Pro 275 280 285 Ser Ser Cys Ser Gly Glu Val Ile Gln Met Asp His Ser Leu Glu Arg 290 295 300 Val Trp Ser Ala Ile Thr Glu His Asp Leu Arg Ala Ser Arg Ile Ser 305 310 315 320 Leu Ser Ser Ser Pro Gly Pro Asp Gly Ile Thr Pro Lys Ser Ala Arg 325 330 335 Glu Val Pro Ser Gly Ile Met Leu Arg Ile Met Asn Leu Ile Leu Trp 340 345 350 Cys Gly Asn Leu Pro His Ser Ile Arg Leu Ala Arg Thr Val Phe Ile 355 360 365 Pro Lys Thr Val Thr Ala Lys Arg Pro Gln Asp Phe Arg Pro Ile Ser 370 375 380 Val Pro Ser Val Leu Val Arg Gln Leu Asn Ala Ile Leu Ala Thr Arg 385 390 395 400 Leu Asn Ser Ser Ile Asn Trp Asp Pro Arg Gln Arg Gly Phe Leu Pro 405 410 415 Thr Asp Gly Cys Ala Asp Asn Ala Thr Ile Val Asp Leu Val Leu Arg 420 425 430 His Ser His Lys His Phe Arg Ser Cys Tyr Ile Ala Asn Leu Asp Val 435 440 445 Ser Lys Ala Phe Asp Ser Leu Ser His Ala Ser Ile Tyr Asp Thr Leu 450 455 460 Arg Ala Tyr Gly Ala Pro Lys Gly Phe Val Asp Tyr Val Gln Asn Thr 465 470 475 480 Tyr Glu Gly Gly Gly Thr Ser Leu Asn Gly Asp Gly Trp Ser Ser Glu 485 490 495 Glu Phe Val Pro Ala Arg Gly Val Lys Gln Gly Asp Pro Leu Ser Pro 500 505 510 Ile Leu Phe Asn Leu Val Met Asp Arg Leu Leu Arg Asn Leu Pro Ser 515 520 525 Glu Ile Gly Ala Lys Val Gly Asn Ala Ile Thr Asn Ala Ala Ala Phe 530 535 540 Ala Asp Asp Leu Val Leu Phe Ala Glu Thr Arg Met Gly Leu Gln Val 545 550 555 560 Leu Leu Asp Lys Thr Leu Asp Phe Leu Ser Leu Val Gly Leu Lys Leu 565 570 575 Asn Ala Asp Lys Cys Phe Thr Val Gly Ile Lys Gly Gln Pro Lys Gln 580 585 590 Lys Cys Thr Val Leu Glu Ala Gln Ser Phe Tyr Val Gly Ser Arg Glu 595 600 605 Ile Pro Ser Leu Lys Arg Thr Asp Glu Trp Lys Tyr Leu Gly Ile Asn 610 615 620 Phe Thr Ala Thr Gly Arg Val Arg Cys Asn Pro Ala Glu Asp Ile Gly 625 630 635 640 Pro Lys Leu Gln Arg Leu Thr Lys Ala Pro Leu Lys Pro Gln Gln Arg 645 650 655 Met Phe Ala Leu Arg Thr Val Leu Ile Pro Gln Leu Tyr His Lys Leu 660 665 670 Ala Leu Gly Ser Val Ala Ile Gly Val Leu Arg Lys Thr Asp Lys Leu 675 680 685 Ile Arg Tyr Tyr Val Arg Arg Trp Leu Asn Leu Pro Leu Asp Val Pro 690 695 700 Ile Ala Phe Ile His Ala Pro Pro Lys Ser Gly Gly Leu Gly Ile Pro 705 710 715 720 Ser Leu Arg Trp Val Ala Pro Met Leu Arg Leu Arg Arg Leu Ser Asn 725 730 735 Ile Lys Trp Pro His Leu Thr Gln Asn Glu Val Ala Ser Ser Phe Leu 740 745 750 Glu Ala Glu Lys Gln Arg Ala Arg Asp Arg Leu Leu Ala Glu Gln Asn 755 760 765 Glu Leu Leu Ser Arg Pro Ala Ile Glu Lys Tyr Trp Ala Asn Lys Leu 770 775 780 Tyr Leu Ser Val Asp Gly Ser Gly Leu Arg Glu Ala Gly His Trp Gly 785 790 795 800 Pro Gln His Gly Trp Val Asn Gln Pro Thr Arg Leu Leu Thr Gly Lys 805 810 815 Glu Tyr Ile Asp Gly Ile Arg Leu Arg Ile Asn Ala Leu Pro Thr Lys 820 825 830 Ser Arg Thr Thr Arg Gly Arg His Glu Leu Glu Arg Gln Cys Arg Ala 835 840 845 Gly Cys Asp Ala Pro Glu Thr Thr Asn His Ile Met Gln Lys Cys Tyr 850 855 860 Arg Ser His Gly Arg Arg Val Ala Arg His Asn Cys Val Val Asn Arg 865 870 875 880 Ile Lys Arg Gly Leu Glu Glu Arg Gly Cys Val Val Ile Val Glu Pro 885 890 895 Ser Leu Gln Cys Glu Ser Gly Leu Asn Lys Pro Asp Leu Val Ala Leu 900 905 910 Arg Gln Asp His Ile Asp Val Ile Asp Ile Gln Ile Val Thr Asp Gly 915 920 925 His Ser Met Asp Asp Ala His Gln Arg Lys Ile Asn Arg Tyr Asp Arg 930 935 940 Pro Asp Ile Arg Thr Glu Leu Arg Arg Arg Phe Glu Ala Ala Gly Asp 945 950 955 960 Ile Glu Phe His Ser Ala Thr Leu Asn Trp Arg Gly Ile Trp Ser Gly 965 970 975 Gln Ser Val Lys Arg Leu Ile Ala Lys Gly Leu Leu Ser Lys Tyr Asp 980 985 990 Ser His Ile Ile Ser Val Gln Val Met Arg Gly Ser Leu Gly Cys Phe 995 1000 1005 Lys Gln Phe Met Tyr Leu Ser Gly Phe Ser Arg Asp Trp Thr Met Gly 1010 1015 1020 Ser Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp 1025 1030 1035 1040 Tyr Lys Asp Asp Asp Asp Lys Lys 1045 <210> 3 <211> 1302 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 3 Met Gly Thr Asp Thr Val Tyr Val Gly Gln Asp Tyr Pro Ser Gly Leu 1 5 10 15 Ser Lys Arg Val Pro Ala Arg Leu Val Ala Gly Pro Met Leu Arg Glu 20 25 30 Arg Ser Cys His Ala His Val Phe Arg Ala Gly His Met Trp Asn Trp 35 40 45 Arg Thr Ser Leu Pro Ser Gly Arg Trp Asp Gln Pro Ala Leu Glu Lys 50 55 60 Ser Arg Val Leu Thr Arg Ser Val Ala Thr Ala Thr Asp Pro Glu Ile 65 70 75 80 Thr Ser Tyr Pro Gly Lys Ser Val Ser Thr Ser Thr Gln Val Gln Glu 85 90 95 Glu Asp Trp Cys Ser Arg Glu Ser Gly Trp Ile Ser Pro Gly Leu Ala 100 105 110 Pro Glu Glu Pro Ser Val Val Ser Glu Ile Thr Ala Ser Met Val Ala 115 120 125 Thr Met Arg Val Ala Thr Glu Glu Val Val Leu Glu Pro Gln Pro Glu 130 135 140 Gln Val Val Thr Ile Leu Pro Glu His Gly Arg Asn Val Pro Pro Gly 145 150 155 160 Leu Ala Glu Gln Asp Thr Ala Ser Pro Ile Glu Val Ser Val Leu Leu 165 170 175 Pro Asp Leu Ala Glu Asn Cys Pro Leu Cys Gly Val Pro Ser Gly Gly 180 185 190 Leu Arg Leu Leu Gly Lys His Phe Ala Val Arg His Ala Gly Val Pro 195 200 205 Val Thr Tyr Glu Cys Arg Lys Cys Ala Trp Arg Ser Pro Asn Ser His 210 215 220 Ser Ile Ser Cys His Val Pro Lys Cys Arg Gly Arg Ala Arg Met Pro 225 230 235 240 Ser Gly Asp Pro Gly Ile Ala Cys Asp Leu Cys Glu Ala Arg Phe Ala 245 250 255 Thr Glu Val Gly Val Ala Gln His Lys Arg His Val His Pro Val Glu 260 265 270 Trp Asn Lys Val Arg Leu Glu Arg Arg Gly Ala Arg Gly Gly Gly Ile 275 280 285 Lys Ala Thr Lys Leu Trp Ser Val Ala Glu Val Glu Thr Leu Ile Arg 290 295 300 Leu Ile Arg Glu His Gly Asp Ser Gly Ala Thr Tyr Gln Leu Ile Ala 305 310 315 320 Asp Glu Leu Gly Arg Gly Lys Thr Ala Glu Gln Val Arg Ser Lys Lys 325 330 335 Arg Leu Leu Arg Ile Asp Thr Ala Ser Asn Ser Pro Asp Asp Ala Glu 340 345 350 Val Glu Glu Glu Arg Leu Glu Ser Leu Ala Val Arg Ser Ser Ser Arg 355 360 365 Ser Pro Pro Ser Leu Val Ala Thr Arg Val Arg Glu Ala Val Ala Arg 370 375 380 Gly Glu Ser Glu Gly Gly Glu Glu Ile Arg Ala Ile Ala Ala Leu Ile 385 390 395 400 Arg Asp Val Asp Gln Asn Pro Cys Leu Ile Glu Thr Ser Ala Ser Asp 405 410 415 Ile Ile Ser Lys Leu Gly Arg Arg Val Asp Gly Pro Lys Arg Pro Arg 420 425 430 Pro Val Val Arg Glu Gln Thr Gln Glu Lys Gly Trp Val Arg Arg Leu 435 440 445 Ala Arg Arg Lys Arg Glu Tyr Arg Glu Ala Gln Tyr Leu Tyr Ser Arg 450 455 460 Asp Gln Ala Arg Leu Ala Ala Gln Ile Leu Asp Gly Ala Ala Ser Gln 465 470 475 480 Glu Cys Ala Leu Pro Val Asp Gln Val Tyr Gly Ala Phe Arg Glu Lys 485 490 495 Trp Glu Thr Val Gly Gln Phe His Gly Leu Gly Glu Phe Arg Thr Gly 500 505 510 Ala Arg Ala Asp Asn Trp Glu Phe Tyr Ser Pro Ile Leu Ala Ala Glu 515 520 525 Val Lys Glu Asn Leu Met Arg Met Ala Asn Gly Thr Ala Pro Gly Pro 530 535 540 Asp Arg Ile Ser Lys Lys Ala Leu Leu Asp Trp Asp Pro Arg Gly Glu 545 550 555 560 Gln Leu Ala Arg Leu Tyr Thr Thr Trp Leu Ile Gly Gly Val Ile Pro 565 570 575 Arg Val Phe Lys Glu Cys Arg Thr Lys Leu Leu Pro Lys Ser Ser Asp 580 585 590 Pro Val Glu Leu Gln Asp Ile Gly Gly Trp Arg Pro Val Thr Ile Gly 595 600 605 Ser Met Val Thr Arg Leu Phe Ser Arg Ile Leu Thr Met Arg Leu Thr 610 615 620 Arg Ala Cys Pro Ile Asn Pro Arg Gln Arg Gly Phe Leu Ala Ser Ser 625 630 635 640 Ser Gly Cys Ala Glu Asn Leu Leu Ile Phe Asp Glu Ile Val Arg Arg 645 650 655 Ser Arg Arg Asp Gly Gly Pro Leu Ala Val Val Phe Val Asp Phe Ala 660 665 670 Arg Ala Phe Asp Ser Ile Ser His Glu His Ile Leu Cys Val Leu Glu 675 680 685 Glu Gly Gly Leu Asp Arg His Val Ile Gly Leu Ile Arg Asn Ser Tyr 690 695 700 Val Asp Cys Val Thr Arg Val Gly Cys Val Glu Gly Met Thr Pro Pro 705 710 715 720 Ile Gln Met Lys Val Gly Val Lys Gln Gly Asp Pro Met Ser Pro Leu 725 730 735 Leu Phe Asn Leu Ala Met Asp Pro Leu Ile His Lys Leu Glu Thr Ala 740 745 750 Gly Thr Gly Leu Lys Trp Gly Asp Leu Ser Ile Ala Thr Leu Ala Phe 755 760 765 Ala Asp Asp Leu Val Leu Val Ser Asp Ser Glu Glu Gly Met Gly Arg 770 775 780 Ser Leu Gly Ile Leu Glu Lys Phe Cys Gln Leu Thr Gly Leu Arg Val 785 790 795 800 Gln Pro Arg Lys Cys His Gly Phe Phe Met Asp Lys Gly Val Val Asn 805 810 815 Gly Cys Gly Thr Trp Glu Ile Cys Gly Ser Pro Ile His Met Ile Pro 820 825 830 Pro Gly Glu Ser Val Arg Tyr Leu Gly Val Gln Val Gly Pro Gly Arg 835 840 845 Gly Val Met Glu Pro Asp Leu Ile Pro Thr Val His Thr Trp Ile Glu 850 855 860 Arg Ile Ser Glu Ala Pro Leu Lys Pro Ser Gln Arg Met Arg Val Leu 865 870 875 880 Asn Ser Phe Ala Leu Pro Arg Ile Ile Tyr Gln Ala Asp Leu Gly Lys 885 890 895 Val Thr Val Thr Lys Leu Ala Gln Ile Asp Gly Ile Val Arg Lys Ala 900 905 910 Val Lys Lys Trp Leu His Leu Ser Pro Ser Thr Cys Asn Gly Leu Leu 915 920 925 Tyr Ser Arg Asn Arg Asp Gly Gly Leu Gly Leu Leu Lys Leu Glu Arg 930 935 940 Leu Ile Pro Ser Val Arg Thr Lys Arg Ile Tyr Arg Met Ser Arg Ser 945 950 955 960 Pro Asp Ile Trp Thr Arg Arg Met Thr Ser His Ser Val Ser Lys Ser 965 970 975 Asp Trp Glu Met Leu Trp Val Gln Ala Gly Gly Glu Arg Gly Ser Ala 980 985 990 Pro Val Met Gly Ala Val Glu Ala Ala Pro Thr Asp Val Glu Arg Ser 995 1000 1005 Pro Asp Tyr Pro Asp Trp Arg Arg Glu Glu Asn Leu Ala Trp Ser Ala 1010 1015 1020 Leu Arg Val Gln Gly Val Gly Ala Asp Gln Phe Arg Gly Asp Arg Thr 1025 1030 1035 1040 Ser Ser Ser Trp Ile Ala Glu Pro Ala Ser Val Gly Phe Ala Gln Arg 1045 1050 1055 His Trp Leu Ala Ala Leu Ala Leu Arg Ala Gly Val Tyr Pro Thr Arg 1060 1065 1070 Glu Phe Leu Ala Arg Gly Lys Glu Lys Ser Gly Ala Ala Cys Arg Arg 1075 1080 1085 Cys Pro Ala Arg Leu Glu Ser Cys Ser His Ile Leu Gly Gln Cys Pro 1090 1095 1100 Phe Val Gln Ala Asn Arg Ile Ala Arg His Asn Lys Val Cys Val Leu 1105 1110 1115 1120 Leu Ala Thr Glu Ala Glu Arg Phe Gly Trp Thr Val Ile Arg Glu Phe 1125 1130 1135 Arg Leu Glu Asp Ala Ala Gly Gly Leu Lys Ile Pro Asp Leu Val Cys 1140 1145 1150 Lys Lys Ala Asp Thr Val Leu Ile Val Asp Val Thr Val Arg Tyr Glu 1155 1160 1165 Met Asp Gly Glu Thr Leu Lys Arg Ala Ala Ser Glu Lys Val Lys His 1170 1175 1180 Tyr Leu Pro Val Gly Gln Gln Ile Thr Asp Lys Val Gly Gly Arg Cys 1185 1190 1195 1200 Phe Lys Val Met Gly Phe Pro Val Gly Ala Arg Gly Lys Trp Pro Ala 1205 1210 1215 Ser Asn Asn Thr Val Leu Ala Glu Leu Gly Val Pro Ala Gly Arg Met 1220 1225 1230 Arg Thr Phe Ala Arg Leu Val Ser Arg Arg Thr Leu Leu Tyr Ser Leu 1235 1240 1245 Asp Ile Leu Arg Asp Phe Met Arg Glu Pro Ala Gly Arg Gly Thr Arg 1250 1255 1260 Val Ala Leu Ile Pro Ala Ala Thr Gly Ala Ala Asn Met Gly Ser Asp 1265 1270 1275 1280 Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp Tyr Lys 1285 1290 1295 Asp Asp Asp Asp Lys Lys 1300 <210> 4 <211> 1171 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 4 Met Asp Tyr Lys Asp Asp Asp Asp Lys Gly Thr Leu Pro Phe Gln Ser 1 5 10 15 Arg Ser Cys Gly Ile Cys Leu Asn Ala Gly Lys Gly Asn Phe Arg Ala 20 25 30 Leu Ser Leu Asp Asp Glu Glu Arg His Leu Arg Glu Arg His Pro Leu 35 40 45 Ser Leu Ile Leu Tyr Lys Cys Ser Asp Cys Lys Gly Gln Tyr Arg Ser 50 55 60 Lys Arg Ala Ala Leu Cys His Ala Pro Lys Cys Thr Gly Pro Thr Pro 65 70 75 80 Asp Pro Gln Gly Asn Ala Leu Arg Cys His Leu Cys Gly Leu Val Cys 85 90 95 Lys Ser Gln Ser Gly Val Thr Gln His Leu Arg His Arg His Pro Leu 100 105 110 Val Arg Asn Thr Gln Arg Ala Ala Glu Glu Ser Gly Arg Ala Glu Arg 115 120 125 Ala Ala Leu Pro Arg Pro Leu Arg Arg Asn Thr Arg Ser Val Phe Ser 130 135 140 Glu Glu Asp Glu Ala Lys Met Leu Glu Leu Glu Val Arg Phe Gln Asn 145 150 155 160 Glu Arg Cys Val Ala Lys Cys Met Leu Pro Phe Phe Pro Asn Arg Thr 165 170 175 Cys Lys Gln Ile Arg Asp Lys Arg Asn Thr Asp Ala Tyr Lys Arg Arg 180 185 190 Arg Glu Leu Tyr Phe Glu Gly Val Arg Val Gln Asp Pro Ala Gly Ala 195 200 205 Glu Asp Ser Val Leu Pro Val Val Glu Thr Asp Glu Pro Ala Glu Glu 210 215 220 Asn Ile Pro Leu Glu Tyr Pro Glu Leu Pro Gly Asp Glu Glu Gly Ala 225 230 235 240 Pro Ala Cys Ser Gln Thr Ile Leu Asn Thr Glu Gly Pro Asp Gly Leu 245 250 255 Gly Ser Pro Pro Val Pro Val Glu Glu Glu Met Ala Ser Ser Gly Ser 260 265 270 Thr Ser Asn Asn Val Asp Thr Gly Trp Arg Glu Ser Ile Ile Thr Ala 275 280 285 Ala Leu Gly Val Glu Ile Pro Lys Ala Ile Ser Gln Glu Pro Ala Ala 290 295 300 Val Ile Gln Glu Leu Gln Asp Ala Leu Arg Glu Ala Val Ile Gly Val 305 310 315 320 Phe Pro Gln Asp Arg Leu Asp Glu Met Tyr Glu Arg Val Leu Lys Val 325 330 335 Val Asn Pro Asp Asp Thr Gln Glu Arg Pro Lys Arg Gln Arg Lys Lys 340 345 350 Gly Lys Ser Arg Asn Ala Phe Arg Arg Tyr Val Tyr Ser Gln Thr Gln 355 360 365 Asp Leu Phe Lys Lys Asn Pro Gly Gln Leu Ala Arg Tyr Val Arg Glu 370 375 380 Asp Val Arg Trp Leu Glu Gln Gly Arg Val Gln Leu Gln Arg Asp Asp 385 390 395 400 Ile Glu Arg Met Tyr Asn Lys Leu Trp Gly Thr Lys Pro Asp Val Leu 405 410 415 Pro Pro His Trp Asp Tyr Pro Leu Pro Leu Asp Thr Ala Asp Val Leu 420 425 430 Thr Pro Ile Glu Leu Lys Glu Val Arg Lys Arg Ile Ser Gln Thr Lys 435 440 445 Leu Lys Ser Ala Ala Gly Pro Asp Gly Leu Gln Lys Arg His Leu Val 450 455 460 Arg Arg Val Val Gln Glu Ile Leu Arg Leu Leu Tyr Asn Leu Leu Met 465 470 475 480 Cys Cys Ala Met Gln Pro Thr Gln Trp Arg Met Asn Arg Thr Gln Leu 485 490 495 Leu Leu Lys Gln Gly Lys Asp Pro Leu Asp Val Ala Ser Tyr Arg Pro 500 505 510 Ile Thr Ile Ser Ser Ile Leu Cys Arg Leu Tyr Trp Gly Ile Ile Asp 515 520 525 Gln Lys Leu Arg Glu His Val Arg Phe His Pro Arg Gln Lys Gly Phe 530 535 540 Val Ser Glu Ala Gly Cys Phe Asn Asn Val Gln Ile Leu Asn Glu Leu 545 550 555 560 Leu Arg His Ser Lys Gly Gln His Lys Asn Leu Val Ala Val Cys Leu 565 570 575 Asp Val Ser Lys Ala Phe Asp Thr Val Pro His Ser Ile Leu Gly Pro 580 585 590 Ala Leu Arg Met Lys Gly Leu Pro Glu Gln Val Val Arg Leu Val Glu 595 600 605 Asp Ser Tyr Lys Asp Leu His Thr Val Val Lys Gln Gly Thr Ala Glu 610 615 620 Val Thr Leu Ser Leu Gln Arg Gly Val Lys Gln Gly Asp Pro Leu Ser 625 630 635 640 Pro Phe Leu Phe Asn Ala Val Leu Glu Pro Leu Leu Leu Gln Leu Glu 645 650 655 Ser His Pro Gly Tyr Lys Val Gly Gly Glu Leu Ala Ser Val Ser Cys 660 665 670 Met Ala Phe Ala Asp Asp Ile Phe Leu Ile Ala Ala Asn Val Pro Gln 675 680 685 Ala Cys Thr Leu Leu Arg Val Thr Glu Asp Tyr Leu Glu Arg Leu Gly 690 695 700 Met Arg Ile Ser Ala Pro Lys Cys Thr Ser Phe Glu Ile Arg Pro Thr 705 710 715 720 Lys Asp Ser Trp Tyr Val Ala Asp Pro Gly Leu Thr Leu Thr Lys Gly 725 730 735 Glu Arg Ile Pro Val Ala Ala Val Asp Ala Val Phe Ser Tyr Leu Gly 740 745 750 Val Glu Ile Ser Pro Trp Ala Gly Ile Thr Ser Glu Gly Ile Glu Arg 755 760 765 Asp Trp Arg Gly Thr Leu His Arg Val Gln Arg Leu Pro Leu Lys Pro 770 775 780 His Gln Lys Leu Glu Leu Ile Ser Arg Tyr Leu Val Pro His Phe Leu 785 790 795 800 Tyr Lys Leu Val Val Thr Ile Pro Ser Ile Thr Leu Ile Arg Gln Leu 805 810 815 Asp Gln Glu Leu Arg Val Val Val Lys Gln Ile Cys His Leu Pro Gln 820 825 830 Ser Thr Ala Asp Gly Met Ile Tyr Cys Arg Arg Val Asp Gly Gly Leu 835 840 845 Gly Ile Pro Lys Leu Glu Ile Val Thr Val Thr Ser Ile Leu Lys Ala 850 855 860 Gly Leu Lys Phe Arg Asp Ser Gln Asp Lys Ile Met Gln Ala Leu Trp 865 870 875 880 Leu Ala Ser Gly Met Ser Ser Arg Leu Asn Ser Leu Ala Lys Ala Thr 885 890 895 Arg Val Gln Pro Trp Pro Pro Asn Asn Ile Lys Asp Leu Asp Arg His 900 905 910 Lys Val Ala Arg Lys Lys Glu Glu Leu Ala Arg Trp Ala Ser Leu Thr 915 920 925 Ser Gln Gly Lys Ser Val Lys Ser Phe Ala Gly Ser Arg Thr Ala Asn 930 935 940 Ala Trp Leu Ile Asn Lys Lys Leu Leu Lys Pro Ser Thr Phe Ile Ser 945 950 955 960 Ala Leu Arg Leu Arg Gly Asn Val Ala Gly Asp Arg Val Ala Leu Asn 965 970 975 Arg Ala Ile Pro Gln Ala Asn Leu Met Cys Arg Arg Cys Gly Ser Gln 980 985 990 Arg Glu Thr Leu Gly His Ile Leu Gly Ile Cys Thr Ser Thr Lys Ala 995 1000 1005 Leu Arg Ile Ser Arg His Asp Glu Ile Lys Asn Leu Ile Val Asp Glu 1010 1015 1020 Ala Ala Lys Lys Asp Asp Glu Val Ala Val Thr Leu Glu Pro Thr Ile 1025 1030 1035 1040 Arg His Pro Val Arg Gly Asn Leu Lys Pro Asp Leu Val Val Gln Asn 1045 1050 1055 Arg Glu Gly Val Tyr Val Val Asp Val Thr Val Arg His Glu Asp Gly 1060 1065 1070 Asn Leu Leu Ala Gln Gly Arg Gln Asp Lys Leu Asp Lys Tyr Glu Val 1075 1080 1085 Leu Leu Pro Ile Leu Gln Glu Arg Leu Gly Ala Pro Thr Gly Glu Val 1090 1095 1100 Leu Pro Ile Val Val Gly Thr Arg Gly Ala Met Pro Lys Glu Thr Val 1105 1110 1115 1120 Glu Ala Leu Lys Lys Leu Arg Ile Thr Asp Arg Gln Thr Leu Leu Thr 1125 1130 1135 Ile Ser Leu Ile Ala Leu Arg Met Ser Val Lys Ile Tyr His Thr Phe 1140 1145 1150 Met Asp Tyr Ala Asn Ala Arg Pro Arg Pro Gly Gly Gly Ala Asn Tyr 1155 1160 1165 Pro His Arg 1170 <210> 5 <211> 335 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 5 cgcacagggg acacagagcc tgcccaagta ccgctcccga gggagcggga aacggggggg 60 tgactatccc ctggggtccg gcgagagcgc tggtctacgg accaggggtg gctgtgggca 120 ggctgctcct caggccagtt gattagttac gcatgggctg tacctccacg tggtcccgct 180 ggtaacgact tgtcggctaa atcagcccgc ccaccatctg ggatatggtt gaccgtctaa 240 ccccagtact caggtcacaa acaaaatggg aacagataca gtgtatgtcg gccaggacta 300 cccttctggc ttatcaaaac gggtaccagc acggt 335 <210> 6 <211> 284 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 6 ggggatctgg ggtaattgcg agcagagggg gagtattttt ctgtaattcg taagtcatat 60 catatggtgt gcggaagggg aattttactc tgtaactcac aagtctctcc tttactcaag 120 tcgactcaaa acctcctcgt ggtggtcccc ggtaatgcta aacttgttta gcagctaatt 180 tgagcggcaa aaacttttcc gatgggctgg ttacccagag gaaatttact catattggaa 240 ctacgaacac aaataacgag cctcggatat ctttacacaa tctg 284 <210> 7 <211> 390 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 7 gaagaccccg cccatgaggc ttggagagtg tgatcctgat cagatcacac ttgaaaagtt 60 atgctgagta cgtccgcgtc gtgagagtcg gtaactgtcc caggatggtc tgggataggc 120 taaacctcag caggggaaag ttgtaggggc ctgccacccc tacactttat tggtatggca 180 ttcgataccc ctaacgaagc ctcggacttg gaggagcacg gttcccctcc tcctcgtatt 240 agaccaggaa ccaactgtcc tgacaacccc attggaccta tgggagcgga ccatgctatg 300 gacatggatt ccgaagacga agcgggggca cacggacccc ccgccgatag tgctcactta 360 acgtcaggcg aaccccttga aatcatcttg 390 <210> 8 <211> 638 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 8 taaaatctcc tgaccaacta gctcactgac taattttaaa ctgtcctgtc ttacttgttt 60 tacacgtgct ctgtggcggg gccatttaca ccccgtcgca acacaacctg taaatacttg 120 tgtatgtctg tttatgtcct aatttattat tttaaacaga tcttggccat ggtctcggcc 180 aaccaattaa agtcagtgat gcgagtcgca atgcggagca agagacctag gcgtgtattt 240 attgctggca tgcggcgccg gagccggtca tctgctatgg ggagcaatgg ccgggcggat 300 acctccacgt ggttccctgt gggtggcccg tcgaggacgg taaccagcga aactccgtaa 360 agtccttctt acgagaagga actccggtta aagatttttc caagcctgta cacgtgattc 420 ccttggaaca agcaaagtgt ggttccctcg agagggccca ggtcaggagt tcgcaatagt 480 gggctgcaag agttcatgct gggctacagt gtcaggacga agagtgggta gtgatcgcaa 540 aatcacgtga atagctaccc cccgcctggc accactagac aacaacaagg ggtacgacag 600 ctcttctgtc gaaagttcgg gcgcacaccc gtaaaagg 638 <210> 9 <211> 111 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 9 tgagggggac agctgggagt ctcggcatga ttacaaatct tgcgctgcac tcggatgtcg 60 tccccgtgac ggacacatta atccggaaag cgagtggtga ctcgcctcaa g 111 <210> 10 <211> 255 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 10 ctaaaacgtt tggttcaaaa catttgcttg ctgtcttggc ataacatcaa taaaggcata 60 aacatcgcaa aataatggtt atatataaat ggctatgagg atggttttag tacgtaggcg 120 ttgcggaact tcggttcaga tagagcaatg aatcgtgcat gctaggaaaa ctgaccacac 180 gcagtgttgg cagccctagt atctttcgat agatttccat acctccgcga tcaaaaaaaa 240 aaaaaaaaaa aaaaa 255 <210> 11 <211> 249 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 11 ggccttgcac agtagtccag cggtaagggt gtagatcagg cccgtctgtt tctcccccgg 60 agctcgctcc cttggcttcc cttatatatt ttaacatcag aaacagacat taaacatcta 120 ctgatccaat ttcgccggcg tacggccacg atcgggaggg tgggaatctc gggggtcttc 180 cgatcctaat ccatgatgat tacgacctga gtcactaaag acgatggcat gatgatccgg 240 cgatgaaaa 249 <210> 12 <211> 8185 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 12 gacggatcgg gagatctccc gatcccctat ggtcgactct cagtacaatc tgctctgatg 60 ccgcatagtt aagccagtat ctgctccctg cttgtgtgtt ggaggtcgct gagtagtgcg 120 cgagcaaaat ttaagctaca acaaggcaag gcttgaccga caattgcatg aagaatctgc 180 ttagggttag gcgttttgcg ctgcttcgcg atgtacgggc cagatatacg cgttgacatt 240 gattattgac tagttattaa tagtaatcaa ttacggggtc attagttcat agcccatata 300 tggagttccg cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc 360 cccgcccatt gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc 420 attgacgtca atgggtggac tatttacggt aaactgccca cttggcagta catcaagtgt 480 atcatatgcc aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt 540 atgcccagta catgacctta tgggactttc ctacttggca gtacatctac gtattagtca 600 tcgctattac catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg 660 actcacgggg atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc 720 aaaatcaacg ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg 780 gtaggcgtgt acggtgggag gtctatataa gcagagctct ctggctaact agagaaccca 840 ctgcttactg gcttatcgaa attaatacga ctcactatag ggagacccaa gctggctagc 900 gtttaaacgg gccctgccac catgaagaaa agcaacaagg agaaccgtcc ggaagcgagc 960 ggtctgccgc tggagagcga acgtaccggc gataacccga ccgtgcgtgg tagcgcgggt 1020 gcggacccgg ttggtcagga tgcgccgggt tggacctgcc aattctgcga gcgtaccttt 1080 agcaccaacc gtggtctggg cgtgcacaag cgtcgtgcgc acccggttga aaccaacacc 1140 gacgcggcgc cgatgatggt gaaacgtcgt tggcacggcg aggaaatcga tctgctggcg 1200 cgtaccgagg cgcgtctgct ggcggaacgt ggccagtgca gcggtggcga cctgttcggc 1260 gcgctgccgg gttttggtcg taccctggag gcgattaaag gtcaacgtcg tcgtgaaccg 1320 tatcgtgcgc tggttcaggc gcatctggcg cgttttggta gccaaccggg tccgagcagc 1380 ggtggctgca gcgcggagcc ggattttcgt cgtgcgagcg gtgcggagga agcgggcgag 1440 gaacgttgcg cggaagatgc ggcggcgtat gatccgagcg cggtgggtca aatgagcccg 1500 gatgcggcgc gtgtgctgag cgaactgctg gagggtgcgg gtcgtcgtcg tgcgtgccgt 1560 gcgatgcgtc cgaagaccgc gggtcgtcgt aacgacctgc acgacgatcg taccgcgagc 1620 gcgcacaaga ccagccgtca gaaacgtcgt gcggagtacg cgcgtgtgca agaactgtat 1680 aagaaatgcc gtagccgtgc ggcggcggaa gtgatcgatg gtgcgtgcgg tggcgttggt 1740 cacagcctgg aggaaatgga aacctactgg cgtccgattc tggaacgtgt gagcgacgcg 1800 ccgggtccga ccccggaggc gctgcacgcg ctgggtcgtg cggaatggca cggtggcaac 1860 cgtgattata cccagctgtg gaagccgatc agcgttgagg aaattaaagc gagccgtttc 1920 gactggcgta ccagcccggg tccggatggt atccgtagcg gccagtggcg tgcggtgccg 1980 gttcacctga aggcggaaat gttcaacgcg tggatggcgc gtggcgagat cccggaaatt 2040 ctgcgtcaat gccgtaccgt gtttgttccg aaagttgagc gtccgggtgg cccgggtgaa 2100 taccgtccga tcagcattgc gagcatcccg ctgcgtcact tccacagcat tctggcgcgt 2160 cgtctgctgg cgtgctgccc gccggacgcg cgtcagcgtg gctttatctg cgcggatggt 2220 accctggaga acagcgcggt gctggacgcg gttctgggtg atagccgtaa gaaactgcgt 2280 gaatgccacg tggcggttct ggacttcgcg aaggcgtttg ataccgtgag ccacgaggcg 2340 ctggttgaac tgctgcgtct gcgtggcatg ccggagcagt tctgcggtta cattgcgcac 2400 ctgtatgaca ccgcgagcac caccctggcg gtgaacaacg aaatgagcag cccggtgaaa 2460 gttggccgtg gtgttcgtca aggcgacccg ctgagcccga tcctgtttaa cgtggttatg 2520 gatctgattc tggcgagcct gccggagcgt gtgggttacc gtctggagat ggaactggtt 2580 agcgcgctgg cgtatgcgga cgatctggtg ctgctggcgg gcagcaaggt tggtatgcag 2640 gaaagcatca gcgcggtgga ctgcgttggc cgtcaaatgg gtctgcgtct gaactgccgt 2700 aaaagcgcgg tgctgagcat gatcccggat ggtcaccgta agaaacacca ctacctgacc 2760 gagcgtacct tcaacattgg tggcaagccg ctgcgtcagg tgagctgcgt tgaacgttgg 2820 cgttatctgg gcgtggactt tgaggcgagc ggttgcgtta ccctggaaca cagcatcagc 2880 agcgcgctga acaacattag ccgtgcgccg ctgaaaccgc agcaacgtct ggagatcctg 2940 cgtgcgcacc tgattccgcg tttccagcac ggctttgttc tgggtaacat cagcgacgat 3000 cgtctgcgta tgctggatgt gcagattcgt aaggcggttg gtcaatggct gcgtctgccg 3060 gcggacgtgc cgaaagcgta ctatcacgcg gcggttcaag atggtggcct ggcgatcccg 3120 agcgtgcgtg cgaccatccc ggacctgatt gttcgtcgtt ttggtggcct ggatagcagc 3180 ccgtggagcg tggcgcgtgc ggcggcgaag agcgacaaaa ttcgtaagaa actgcgttgg 3240 gcgtggaagc agctgcgtcg tttcagccgt gtggatagca ccacccaacg tccgagcgtt 3300 cgtctgtttt ggcgtgagca cctgcacgcg agcgttgacg gtcgtgagct gcgtgaaagc 3360 acccgtaccc cgaccagcac caaatggatt cgtgaacgtt gcgcgcagat taccggtcgt 3420 gatttcgtgc aatttgttca cacccacatc aacgcgctgc cgagccgtat tcgtggcagc 3480 cgtggccgtc gtggtggcgg tgagagcagc ctgacctgcc gtgcgggttg caaagtgcgt 3540 gaaaccaccg cgcacatcct gcagcaatgc caccgtaccc acggcggtcg tatcctgcgt 3600 cacaacaaga ttgtgagctt cgttgcgaag gcgatggagg aaaacaaatg gaccgtggag 3660 ctggaaccgc gtctgcgtac cagcgttggc ctgcgtaaac cggacatcat tgcgagccgt 3720 gatggcgtgg gtgttatcgt ggacgttcag gtggttagcg gtcaacgtag cctggatgag 3780 ctgcaccgtg aaaagcgtaa caaatacggc aaccacggtg agctggttga gctggttgcg 3840 ggccgtctgg gtctgccgaa agcggagtgc gtgcgtgcga ccagctgcac cattagctgg 3900 cgtggcgttt ggagcctgac cagctataaa gagctgcgta gcatcattgg tctgcgtgaa 3960 ccgaccctgc agatcgtgcc gattctggcg ctgcgtggca gccacatgaa ctggacccgt 4020 tttaaccaaa tgaccagcgt gatgggtggc ggtgttggtg gtggaggtag cgggggcagt 4080 ggagggatgg ggagcgacta caaagaccat gacggtgatt ataaagatca tgacatcgat 4140 tacaaggatg acgatgacaa gaagtaataa taagtttaaa ccgctgatca gcctcgactg 4200 tgccttctag ttgccagcca tctgttgttt gcccctcccc cgtgccttcc ttgaccctgg 4260 aaggtgccac tcccactgtc ctttcctaat aaaatgagga aattgcatcg cattgtctga 4320 gtaggtgtca ttctattctg gggggtgggg tggggcagga cagcaagggg gaggattggg 4380 aagacaatag caggcatgct ggggatgcgg tgggctctat ggcttctgag gcggaaagaa 4440 ccagctgggg ctctaggggg tatccccacg cgccctgtag cggcgcatta agcgcggcgg 4500 gtgtggtggt tacgcgcagc gtgaccgcta cacttgccag cgccctagcg cccgctcctt 4560 tcgctttctt cccttccttt ctcgccacgt tcgccggctt tccccgtcaa gctctaaatc 4620 ggggcatccc tttagggttc cgatttagtg ctttacggca cctcgacccc aaaaaacttg 4680 attagggtga tggttcacgt agtgggccat cgccctgata gacggttttt cgccctttga 4740 cgttggagtc cacgttcttt aatagtggac tcttgttcca aactggaaca acactcaacc 4800 ctatctcggt ctattctttt gatttataag ggattttggg gatttcggcc tattggttaa 4860 aaaatgagct gatttaacaa aaatttaacg cgaattaatt ctgtggaatg tgtgtcagtt 4920 agggtgtgga aagtccccag gctccccagg caggcagaag tatgcaaagc atgcatctca 4980 attagtcagc aaccaggtgt ggaaagtccc caggctcccc agcaggcaga agtatgcaaa 5040 gcatgcatct caattagtca gcaaccatag tcccgcccct aactccgccc atcccgcccc 5100 taactccgcc cagttccgcc cattctccgc cccatggctg actaattttt tttatttatg 5160 cagaggccga ggccgcctct gcctctgagc tattccagaa gtagtgagga ggcttttttg 5220 gaggcctagg cttttgcaaa aagctcccgg gagcttgtat atccattttc ggatctgatc 5280 agcacgtgtt gacaattaat catcggcata gtatatcggc atagtataat acgacaaggt 5340 gaggaactaa accatggcca agttgaccag tgccgttccg gtgctcaccg cgcgcgacgt 5400 cgccggagcg gtcgagttct ggaccgaccg gctcgggttc tcccgggact tcgtggagga 5460 cgacttcgcc ggtgtggtcc gggacgacgt gaccctgttc atcagcgcgg tccaggacca 5520 ggtggtgccg gacaacaccc tggcctgggt gtgggtgcgc ggcctggacg agctgtacgc 5580 cgagtggtcg gaggtcgtgt ccacgaactt ccgggacgcc tccgggccgg ccatgaccga 5640 gatcggcgag cagccgtggg ggcgggagtt cgccctgcgc gacccggccg gcaactgcgt 5700 gcacttcgtg gccgaggagc aggactgaca cgtgctacga gatttcgatt ccaccgccgc 5760 cttctatgaa aggttgggct tcggaatcgt tttccgggac gccggctgga tgatcctcca 5820 gcgcggggat ctcatgctgg agttcttcgc ccaccccaac ttgtttattg cagcttataa 5880 tggttacaaa taaagcaata gcatcacaaa tttcacaaat aaagcatttt tttcactgca 5940 ttctagttgt ggtttgtcca aactcatcaa tgtatcttat catgtctgta taccgtcgac 6000 ctctagctag agcttggcgt aatcatggtc atagctgttt cctgtgtgaa attgttatcc 6060 gctcacaatt ccacacaaca tacgagccgg aagcataaag tgtaaagcct ggggtgccta 6120 atgagtgagc taactcacat taattgcgtt gcgctcactg cccgctttcc agtcgggaaa 6180 cctgtcgtgc cagctgcatt aatgaatcgg ccaacgcgcg gggagaggcg gtttgcgtat 6240 tgggcgctct tccgcttcct cgctcactga ctcgctgcgc tcggtcgttc ggctgcggcg 6300 agcggtatca gctcactcaa aggcggtaat acggttatcc acagaatcag gggataacgc 6360 aggaaagaac atgtgagcaa aaggccagca aaaggccagg aaccgtaaaa aggccgcgtt 6420 gctggcgttt ttccataggc tccgcccccc tgacgagcat cacaaaaatc gacgctcaag 6480 tcagaggtgg cgaaacccga caggactata aagataccag gcgtttcccc ctggaagctc 6540 cctcgtgcgc tctcctgttc cgaccctgcc gcttaccgga tacctgtccg cctttctccc 6600 ttcgggaagc gtggcgcttt ctcaatgctc acgctgtagg tatctcagtt cggtgtaggt 6660 cgttcgctcc aagctgggct gtgtgcacga accccccgtt cagcccgacc gctgcgcctt 6720 atccggtaac tatcgtcttg agtccaaccc ggtaagacac gacttatcgc cactggcagc 6780 agccactggt aacaggatta gcagagcgag gtatgtaggc ggtgctacag agttcttgaa 6840 gtggtggcct aactacggct acactagaag gacagtattt ggtatctgcg ctctgctgaa 6900 gccagttacc ttcggaaaaa gagttggtag ctcttgatcc ggcaaacaaa ccaccgctgg 6960 tagcggtggt ttttttgttt gcaagcagca gattacgcgc agaaaaaaag gatctcaaga 7020 agatcctttg atcttttcta cggggtctga cgctcagtgg aacgaaaact cacgttaagg 7080 gattttggtc atgagattat caaaaaggat cttcacctag atccttttaa attaaaaatg 7140 aagttttaaa tcaatctaaa gtatatatga gtaaacttgg tctgacagtt accaatgctt 7200 aatcagtgag gcacctatct cagcgatctg tctatttcgt tcatccatag ttgcctgact 7260 ccccgtcgtg tagataacta cgatacggga gggcttacca tctggcccca gtgctgcaat 7320 gataccgcga gacccacgct caccggctcc agatttatca gcaataaacc agccagccgg 7380 aagggccgag cgcagaagtg gtcctgcaac tttatccgcc tccatccagt ctattaattg 7440 ttgccgggaa gctagagtaa gtagttcgcc agttaatagt ttgcgcaacg ttgttgccat 7500 tgctacaggc atcgtggtgt cacgctcgtc gtttggtatg gcttcattca gctccggttc 7560 ccaacgatca aggcgagtta catgatcccc catgttgtgc aaaaaagcgg ttagctcctt 7620 cggtcctccg atcgttgtca gaagtaagtt ggccgcagtg ttatcactca tggttatggc 7680 agcactgcat aattctctta ctgtcatgcc atccgtaaga tgcttttctg tgactggtga 7740 gtactcaacc aagtcattct gagaatagtg tatgcggcga ccgagttgct cttgcccggc 7800 gtcaatacgg gataataccg cgccacatag cagaacttta aaagtgctca tcattggaaa 7860 acgttcttcg gggcgaaaac tctcaaggat cttaccgctg ttgagatcca gttcgatgta 7920 acccactcgt gcacccaact gatcttcagc atcttttact ttcaccagcg tttctgggtg 7980 agcaaaaaca ggaaggcaaa atgccgcaaa aaagggaata agggcgacac ggaaatgttg 8040 aatactcata ctcttccttt ttcaatatta ttgaagcatt tatcagggtt attgtctcat 8100 gagcggatac atatttgaat gtatttagaa aaataaacaa ataggggttc cgcgcacatt 8160 tccccgaaaa gtgccacctg acgtc 8185 <210> 13 <211> 8163 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 13 gacggatcgg gagatctccc gatcccctat ggtcgactct cagtacaatc tgctctgatg 60 ccgcatagtt aagccagtat ctgctccctg cttgtgtgtt ggaggtcgct gagtagtgcg 120 cgagcaaaat ttaagctaca acaaggcaag gcttgaccga caattgcatg aagaatctgc 180 ttagggttag gcgttttgcg ctgcttcgcg atgtacgggc cagatatacg cgttgacatt 240 gattattgac tagttattaa tagtaatcaa ttacggggtc attagttcat agcccatata 300 tggagttccg cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc 360 cccgcccatt gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc 420 attgacgtca atgggtggac tatttacggt aaactgccca cttggcagta catcaagtgt 480 atcatatgcc aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt 540 atgcccagta catgacctta tgggactttc ctacttggca gtacatctac gtattagtca 600 tcgctattac catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg 660 actcacgggg atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc 720 aaaatcaacg ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg 780 gtaggcgtgt acggtgggag gtctatataa gcagagctct ctggctaact agagaaccca 840 ctgcttactg gcttatcgaa attaatacga ctcactatag ggagacccaa gctggctagc 900 gtttaaacgg gccctctaga ctcgagcggc cgccactgtg ctggatatct gcagaattcc 960 accacactgg actagtggat ccgagctcgg taccagccac catgaccacc cgtccgagcg 1020 tggatatctt cccggaagac cagtacgagc cgaatgcggc cgctaccctg agccgtgtgc 1080 catgcaccgt gtgcggtcgt agctttaaca gcaaacgcgg tctgggcgtg cacatgcgca 1140 gccgtcaccc ggacgagctg gacgaggaac gtcgccgtgt ggatatcaag gcgcgttgga 1200 gcgaggaaga gaaatggatg atggctcgca aggaagtgga gctgaccgcc aacggccaca 1260 agcacatgaa caaacagctg gctgtgtact tcgccaaccg tagcgtggag gccattaaga 1320 aactgcgcca gcgtggtgac tataaggaaa aaattgagca gatccgtggt cagagcgctc 1380 tggtgccaga agtggctaac ctgaccattc gtcgtcgtcc gagccgtagc gagcagaacc 1440 accaggtgac caccagcgaa accaccccga tcaccccgtt cgaacagagc aaccgtgaga 1500 ttctgcgtac cctgcgtggt tacagcccag tggagtgcca cagcaaatgg cgtgctcagg 1560 aactgcagac catcattgac cgcgccgaac tggagggcaa ggagaccacc ctgcagtgcc 1620 tgagcctgta cctgctgggt atttttccgg cgcagggcgt gcgtcatacc ctgacccgtc 1680 caccacgtcg tccgcgtaac cgtcgtgaaa gccgtcgtca gcagtatgct gtggtgcagc 1740 gtaactggga taagcacaaa ggtcgctgca tcaaaagcct gctgaacggc accgacgaga 1800 gcgtgatgcc gagccaggaa gtgatggtgc cgtattggcg tgaggtgatg acccagccaa 1860 gcccaagcag ctgcagcggt gaagtgattc agatggatca cagcctggag cgtgtgtgga 1920 gcgccatcac cgaacacgac ctgcgtgcta gccgcattag cctgagcagc agcccaggtc 1980 cagatggtat caccccaaag agcgcccgtg aggtgccgag cggtattatg ctgcgcatca 2040 tgaacctgat tctgtggtgc ggcaacctgc cgcacagcat tcgtctggcc cgcaccgtgt 2100 tcattccgaa gaccgtgacc gcgaaacgtc cgcaggactt tcgcccaatc agcgtgccga 2160 gcgtgctggt gcgtcagctg aacgctatcc tggccacccg cctgaacagc agcattaact 2220 gggacccgcg tcagcgtggt ttcctgccaa ccgatggctg cgccgacaac gctaccatcg 2280 tggacctggt gctgcgtcac agccacaaac acttccgcag ctgctacatt gccaacctgg 2340 acgtgagcaa ggccttcgac agcctgagcc acgctagcat ctacgatacc ctgcgtgcct 2400 atggtgcgcc gaagggcttt gtggactacg tgcagaacac ctatgagggc ggtggcacca 2460 gcctgaacgg cgacggctgg agcagcgaag agttcgtgcc ggcccgtggt gtgaaacagg 2520 gcgatccgct gagcccgatc ctgttcaacc tggttatgga ccgtctgctg cgcaacctgc 2580 cgagcgagat cggtgctaag gtgggtaacg ccattaccaa cgccgcggct ttcgccgacg 2640 atctggtgct gtttgcggaa acccgtatgg gtctgcaggt gctgctggac aagaccctgg 2700 acttcctgag cctggtgggc ctgaagctga acgccgacaa atgctttacc gtgggtatca 2760 agggccagcc gaagcagaaa tgcaccgtgc tggaggcgca gagcttctac gtgggtagcc 2820 gtgagatccc gagcctgaaa cgcaccgatg aatggaagta tctgggtatt aactttaccg 2880 ctaccggtcg cgtgcgttgc aacccagcgg aggacattgg cccgaaactg cagcgtctga 2940 ccaaggcgcc gctgaaaccg cagcagcgta tgttcgctct gcgcaccgtg ctgatcccgc 3000 agctgtacca caagctggcg ctgggtagcg tggctatcgg cgtgctgcgt aagaccgata 3060 aactgattcg ctactatgtg cgtcgttggc tgaacctgcc actggatgtg ccaattgcgt 3120 tcattcatgc tccgccgaaa agcggtggtc tgggtattcc aagcctgcgt tgggtggccc 3180 caatgctgcg tctgcgtcgt ctgagcaaca tcaaatggcc gcacctgacc cagaacgagg 3240 tggctagcag ctttctggaa gcggagaaac agcgtgcccg tgatcgtctg ctggctgaac 3300 agaacgagct gctgagccgt ccggcgatcg agaagtactg ggctaacaaa ctgtatctga 3360 gcgtggatgg tagcggtctg cgtgaagccg gtcactgggg tccacagcat ggttgggtga 3420 accagccaac ccgtctgctg accggtaaag agtacattga tggcatccgt ctgcgcatta 3480 atgctctgcc aaccaagagc cgtaccaccc gtggtcgtca tgaactggaa cgccagtgcc 3540 gtgctggttg cgatgccccg gaaaccacca accacatcat gcagaaatgc tatcgtagcc 3600 atggtcgtcg tgtggctcgt cacaactgcg tggtgaaccg tatcaagcgc ggtctggaag 3660 agcgtggctg cgtggtgatt gtggaaccga gcctgcagtg cgagagcggt ctgaacaaac 3720 cggatctggt ggctctgcgt caggaccaca ttgatgtgat cgacattcag atcgtgaccg 3780 acggccacag catggacgat gcccaccagc gtaagatcaa ccgttacgat cgcccggaca 3840 ttcgcaccga actgcgtcgt cgttttgagg cggccggtga tatcgaattt cacagcgcga 3900 ccctgaactg gcgtggtatc tggagcggcc agagcgtgaa gcgcctgatt gctaaaggcc 3960 tgctgagcaa gtatgacagc cacatcatta gcgtgcaggt gatgcgtggt tccctgggct 4020 gtttcaagca attcatgtat ctgagcggtt tctcccgtga ctggaccatg gggagcgact 4080 acaaagacca tgacggtgat tataaagatc atgacatcga ttacaaggat gacgatgaca 4140 agaagtagta agtttaaacc gctgatcagc ctcgactgtg ccttctagtt gccagccatc 4200 tgttgtttgc ccctcccccg tgccttcctt gaccctggaa ggtgccactc ccactgtcct 4260 ttcctaataa aatgaggaaa ttgcatcgca ttgtctgagt aggtgtcatt ctattctggg 4320 gggtggggtg gggcaggaca gcaaggggga ggattgggaa gacaatagca ggcatgctgg 4380 ggatgcggtg ggctctatgg cttctgaggc ggaaagaacc agctggggct ctagggggta 4440 tccccacgcg ccctgtagcg gcgcattaag cgcggcgggt gtggtggtta cgcgcagcgt 4500 gaccgctaca cttgccagcg ccctagcgcc cgctcctttc gctttcttcc cttcctttct 4560 cgccacgttc gccggctttc cccgtcaagc tctaaatcgg ggcatccctt tagggttccg 4620 atttagtgct ttacggcacc tcgaccccaa aaaacttgat tagggtgatg gttcacgtag 4680 tgggccatcg ccctgataga cggtttttcg ccctttgacg ttggagtcca cgttctttaa 4740 tagtggactc ttgttccaaa ctggaacaac actcaaccct atctcggtct attcttttga 4800 tttataaggg attttgggga tttcggccta ttggttaaaa aatgagctga tttaacaaaa 4860 atttaacgcg aattaattct gtggaatgtg tgtcagttag ggtgtggaaa gtccccaggc 4920 tccccaggca ggcagaagta tgcaaagcat gcatctcaat tagtcagcaa ccaggtgtgg 4980 aaagtcccca ggctccccag caggcagaag tatgcaaagc atgcatctca attagtcagc 5040 aaccatagtc ccgcccctaa ctccgcccat cccgccccta actccgccca gttccgccca 5100 ttctccgccc catggctgac taattttttt tatttatgca gaggccgagg ccgcctctgc 5160 ctctgagcta ttccagaagt agtgaggagg cttttttgga ggcctaggct tttgcaaaaa 5220 gctcccggga gcttgtatat ccattttcgg atctgatcag cacgtgttga caattaatca 5280 tcggcatagt atatcggcat agtataatac gacaaggtga ggaactaaac catggccaag 5340 ttgaccagtg ccgttccggt gctcaccgcg cgcgacgtcg ccggagcggt cgagttctgg 5400 accgaccggc tcgggttctc ccgggacttc gtggaggacg acttcgccgg tgtggtccgg 5460 gacgacgtga ccctgttcat cagcgcggtc caggaccagg tggtgccgga caacaccctg 5520 gcctgggtgt gggtgcgcgg cctggacgag ctgtacgccg agtggtcgga ggtcgtgtcc 5580 acgaacttcc gggacgcctc cgggccggcc atgaccgaga tcggcgagca gccgtggggg 5640 cgggagttcg ccctgcgcga cccggccggc aactgcgtgc acttcgtggc cgaggagcag 5700 gactgacacg tgctacgaga tttcgattcc accgccgcct tctatgaaag gttgggcttc 5760 ggaatcgttt tccgggacgc cggctggatg atcctccagc gcggggatct catgctggag 5820 ttcttcgccc accccaactt gtttattgca gcttataatg gttacaaata aagcaatagc 5880 atcacaaatt tcacaaataa agcatttttt tcactgcatt ctagttgtgg tttgtccaaa 5940 ctcatcaatg tatcttatca tgtctgtata ccgtcgacct ctagctagag cttggcgtaa 6000 tcatggtcat agctgtttcc tgtgtgaaat tgttatccgc tcacaattcc acacaacata 6060 cgagccggaa gcataaagtg taaagcctgg ggtgcctaat gagtgagcta actcacatta 6120 attgcgttgc gctcactgcc cgctttccag tcgggaaacc tgtcgtgcca gctgcattaa 6180 tgaatcggcc aacgcgcggg gagaggcggt ttgcgtattg ggcgctcttc cgcttcctcg 6240 ctcactgact cgctgcgctc ggtcgttcgg ctgcggcgag cggtatcagc tcactcaaag 6300 gcggtaatac ggttatccac agaatcaggg gataacgcag gaaagaacat gtgagcaaaa 6360 ggccagcaaa aggccaggaa ccgtaaaaag gccgcgttgc tggcgttttt ccataggctc 6420 cgcccccctg acgagcatca caaaaatcga cgctcaagtc agaggtggcg aaacccgaca 6480 ggactataaa gataccaggc gtttccccct ggaagctccc tcgtgcgctc tcctgttccg 6540 accctgccgc ttaccggata cctgtccgcc tttctccctt cgggaagcgt ggcgctttct 6600 caatgctcac gctgtaggta tctcagttcg gtgtaggtcg ttcgctccaa gctgggctgt 6660 gtgcacgaac cccccgttca gcccgaccgc tgcgccttat ccggtaacta tcgtcttgag 6720 tccaacccgg taagacacga cttatcgcca ctggcagcag ccactggtaa caggattagc 6780 agagcgaggt atgtaggcgg tgctacagag ttcttgaagt ggtggcctaa ctacggctac 6840 actagaagga cagtatttgg tatctgcgct ctgctgaagc cagttacctt cggaaaaaga 6900 gttggtagct cttgatccgg caaacaaacc accgctggta gcggtggttt ttttgtttgc 6960 aagcagcaga ttacgcgcag aaaaaaagga tctcaagaag atcctttgat cttttctacg 7020 gggtctgacg ctcagtggaa cgaaaactca cgttaaggga ttttggtcat gagattatca 7080 aaaaggatct tcacctagat ccttttaaat taaaaatgaa gttttaaatc aatctaaagt 7140 atatatgagt aaacttggtc tgacagttac caatgcttaa tcagtgaggc acctatctca 7200 gcgatctgtc tatttcgttc atccatagtt gcctgactcc ccgtcgtgta gataactacg 7260 atacgggagg gcttaccatc tggccccagt gctgcaatga taccgcgaga cccacgctca 7320 ccggctccag atttatcagc aataaaccag ccagccggaa gggccgagcg cagaagtggt 7380 cctgcaactt tatccgcctc catccagtct attaattgtt gccgggaagc tagagtaagt 7440 agttcgccag ttaatagttt gcgcaacgtt gttgccattg ctacaggcat cgtggtgtca 7500 cgctcgtcgt ttggtatggc ttcattcagc tccggttccc aacgatcaag gcgagttaca 7560 tgatccccca tgttgtgcaa aaaagcggtt agctccttcg gtcctccgat cgttgtcaga 7620 agtaagttgg ccgcagtgtt atcactcatg gttatggcag cactgcataa ttctcttact 7680 gtcatgccat ccgtaagatg cttttctgtg actggtgagt actcaaccaa gtcattctga 7740 gaatagtgta tgcggcgacc gagttgctct tgcccggcgt caatacggga taataccgcg 7800 ccacatagca gaactttaaa agtgctcatc attggaaaac gttcttcggg gcgaaaactc 7860 tcaaggatct taccgctgtt gagatccagt tcgatgtaac ccactcgtgc acccaactga 7920 tcttcagcat cttttacttt caccagcgtt tctgggtgag caaaaacagg aaggcaaaat 7980 gccgcaaaaa agggaataag ggcgacacgg aaatgttgaa tactcatact cttccttttt 8040 caatattatt gaagcattta tcagggttat tgtctcatga gcggatacat atttgaatgt 8100 atttagaaaa ataaacaaat aggggttccg cgcacatttc cccgaaaagt gccacctgac 8160 gtc 8163 <210> 14 <211> 8925 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 14 gacggatcgg gagatctccc gatcccctat ggtcgactct cagtacaatc tgctctgatg 60 ccgcatagtt aagccagtat ctgctccctg cttgtgtgtt ggaggtcgct gagtagtgcg 120 cgagcaaaat ttaagctaca acaaggcaag gcttgaccga caattgcatg aagaatctgc 180 ttagggttag gcgttttgcg ctgcttcgcg atgtacgggc cagatatacg cgttgacatt 240 gattattgac tagttattaa tagtaatcaa ttacggggtc attagttcat agcccatata 300 tggagttccg cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc 360 cccgcccatt gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc 420 attgacgtca atgggtggac tatttacggt aaactgccca cttggcagta catcaagtgt 480 atcatatgcc aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt 540 atgcccagta catgacctta tgggactttc ctacttggca gtacatctac gtattagtca 600 tcgctattac catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg 660 actcacgggg atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc 720 aaaatcaacg ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg 780 gtaggcgtgt acggtgggag gtctatataa gcagagctct ctggctaact agagaaccca 840 ctgcttactg gcttatcgaa attaatacga ctcactatag ggagacccaa gctggctagc 900 gtttaaacgg gccctctaga ctcgagcggc cgccactgtg ctggatatct gcagaattcc 960 accacactgg actagtggat ccgagctcgg taccagccac catgggcacc gataccgttt 1020 atgtgggtca agattatcca agcggcctgt ccaagcgcgt tccggctcgt ctggttgctg 1080 gtccaatgct gcgcgagcgc agctgccatg cccacgtgtt ccgtgctggt cacatgtgga 1140 attggcgcac cagcctgccg agcggtcgtt gggaccagcc ggccctggag aagagccgcg 1200 tgctgacccg tagcgtggct accgccaccg atccggagat caccagctac ccgggcaaga 1260 gcgtgagcac cagcacccag gtgcaggaag aggactggtg cagccgtgaa agcggctgga 1320 tcagcccggg tctggctcca gaggaaccga gcgtggtgag cgagattacc gctagcatgg 1380 tggctaccat gcgtgtggct accgaggaag tggtgctgga accgcagccg gagcaggtgg 1440 tgaccattct gccagaacat ggtcgtaacg tgccgccggg tctggctgaa caggacaccg 1500 cgagcccgat tgaggtgagc gtgctgctgc cggatctggc ggagaactgc ccactgtgcg 1560 gtgtgccgag cggcggtctg cgtctgctgg gcaagcactt cgcggtgcgt catgctggtg 1620 tgccagtgac ctacgagtgc cgcaaatgcg cgtggcgtag cccgaacagc cacagcatca 1680 gctgccatgt gccgaagtgc cgcggtcgtg ctcgtatgcc gagcggcgac ccgggtattg 1740 cttgcgatct gtgcgaagcg cgctttgcta ccgaggtggg tgtggcccag cacaagcgtc 1800 acgtgcaccc ggtggaatgg aacaaagtgc gcctggagcg tcgcggtgcc cgtggcggtg 1860 gcatcaaggc gaccaaactg tggagcgtgg ctgaagtgga aaccctgatc cgtctgattc 1920 gtgagcacgg cgacagcggt gcgacctatc agctgatcgc tgatgaactg ggtcgtggca 1980 agaccgccga gcaggtgcgt agcaagaaac gcctgctgcg tattgacacc gccagcaaca 2040 gcccggacga tgcggaagtg gaggaagagc gcctggagag cctggccgtg cgtagcagca 2100 gccgtagccc gccgagcctg gtggccaccc gcgtgcgtga agcggtggct cgtggtgaaa 2160 gcgagggtgg cgaagagatc cgcgccattg ccgcgctgat ccgtgacgtg gatcagaacc 2220 cgtgcctgat tgaaaccagc gccagcgaca tcattagcaa gctgggccgt cgcgtggacg 2280 gcccgaaacg cccgcgtccg gtggtgcgtg aacagaccca ggagaagggt tgggtgcgtc 2340 gcctggcccg tcgcaaacgc gaataccgtg aggctcagta cctgtatagc cgcgaccagg 2400 ctcgtctggc tgcgcagatc ctggacggcg ccgctagcca ggagtgcgcc ctgccagtgg 2460 accaggtgta tggtgctttc cgtgagaagt gggaaaccgt gggccagttc cacggtctgg 2520 gcgaatttcg caccggtgcg cgtgctgata actgggagtt ctacagcccg atcctggccg 2580 cggaagtgaa ggagaacctg atgcgcatgg ctaatggtac cgccccaggt ccagaccgta 2640 ttagcaagaa agccctgctg gattgggacc cgcgtggtga acagctggcc cgtctgtata 2700 ccacctggct gatcggtggc gtgattccgc gcgtgttcaa ggaatgccgt accaagctgc 2760 tgccgaagag cagcgacccg gtggagctgc aggatatcgg tggctggcgt ccggtgacca 2820 ttggtagcat ggtgacccgc ctgtttagcc gtatcctgac catgcgtctg acccgcgcgt 2880 gcccgattaa cccgcgccag cgtggcttcc tggccagcag cagcggttgc gccgagaacc 2940 tgctgatctt tgacgagatt gtgcgtcgca gccgtcgcga tggtggccca ctggccgtgg 3000 tgttcgtgga ctttgcccgt gccttcgaca gcatcagcca cgaacacatt ctgtgcgtgc 3060 tggaagaggg tggcctggac cgtcacgtga tcggtctgat tcgtaacagc tacgtggatt 3120 gcgtgacccg tgtgggctgc gtggagggta tgaccccgcc gatccagatg aaagtgggcg 3180 tgaaacaggg tgacccgatg agcccgctgc tgtttaacct ggcgatggac ccgctgatcc 3240 acaagctgga aaccgctggt accggcctga aatggggcga cctgagcatt gccaccctgg 3300 ctttcgccga cgatctggtg ctggtgagcg atagcgaaga gggtatgggc cgtagcctgg 3360 gcattctgga gaagttctgc cagctgaccg gtctgcgtgt gcagccgcgt aagtgccacg 3420 gcttctttat ggataaaggt gtggtgaacg gttgcggcac ctgggaaatc tgcggcagcc 3480 cgatccacat gattccgccg ggtgagagcg tgcgctacct gggtgtgcaa gtgggtccgg 3540 gtcgtggtgt gatggagcca gacctgattc cgaccgtgca cacctggatc gaacgcatta 3600 gcgaagcccc gctgaaaccg agccagcgca tgcgtgtgct gaacagcttc gctctgccgc 3660 gtatcatcta ccaggccgac ctgggcaagg tgaccgtgac caaactggcc cagatcgatg 3720 gtattgtgcg taaggcggtg aagaaatggc tgcacctgag cccgagcacc tgcaacggcc 3780 tgctgtacag ccgcaaccgt gatggtggcc tgggtctgct gaagctggag cgtctgatcc 3840 cgagcgtgcg caccaaacgt atctaccgca tgagccgtag cccggacatc tggacccgtc 3900 gcatgaccag ccacagcgtg agcaagagcg attgggaaat gctgtgggtg caggcgggtg 3960 gcgagcgtgg cagcgccccg gttatgggtg cggtggaagc ggctccaacc gacgtggagc 4020 gtagcccgga ctacccagat tggcgtcgcg aagagaacct ggcctggagc gcgctgcgtg 4080 tgcagggcgt gggtgccgac cagttccgcg gcgaccgtac cagcagcagc tggatcgctg 4140 aaccagccag cgtgggcttc gcccagcgtc actggctggc ggctctggcg ctgcgtgctg 4200 gcgtgtatcc aacccgcgaa ttcctggccc gtggcaagga gaagagcggt gctgcctgcc 4260 gtcgctgccc agctcgtctg gagagctgca gccacattct gggccagtgc ccgtttgtgc 4320 aggctaaccg cattgcccgt cacaacaaag tgtgcgtgct gctggctacc gaagccgagc 4380 gtttcggctg gaccgtgatc cgcgaatttc gtctggagga cgctgccggc ggcctgaaga 4440 tcccggatct ggtgtgcaag aaagccgaca ccgtgctgat tgtggacgtg accgtgcgct 4500 acgaaatgga cggtgaaacc ctgaagcgtg cggctagcga gaaggtgaag cactatctgc 4560 cggtgggtca gcagatcacc gataaagtgg gtggccgctg cttcaaagtg atgggctttc 4620 cggtgggtgc tcgtggcaag tggccggcca gcaacaatac cgtgctggcc gaactgggcg 4680 tgccggctgg tcgcatgcgt accttcgcgc gtctggtgag ccgtcgcacc ctgctgtata 4740 gcctggacat tctgcgcgac ttcatgcgtg aaccagcagg tcgtggcacc cgtgtggcac 4800 tgattccagc agcaaccggc gcagcaaata tggggagcga ctacaaagac catgacggtg 4860 attataaaga tcatgacatc gattacaagg atgacgatga caagaagtga taagtttaaa 4920 ccgctgatca gcctcgactg tgccttctag ttgccagcca tctgttgttt gcccctcccc 4980 cgtgccttcc ttgaccctgg aaggtgccac tcccactgtc ctttcctaat aaaatgagga 5040 aattgcatcg cattgtctga gtaggtgtca ttctattctg gggggtgggg tggggcagga 5100 cagcaagggg gaggattggg aagacaatag caggcatgct ggggatgcgg tgggctctat 5160 ggcttctgag gcggaaagaa ccagctgggg ctctaggggg tatccccacg cgccctgtag 5220 cggcgcatta agcgcggcgg gtgtggtggt tacgcgcagc gtgaccgcta cacttgccag 5280 cgccctagcg cccgctcctt tcgctttctt cccttccttt ctcgccacgt tcgccggctt 5340 tccccgtcaa gctctaaatc ggggcatccc tttagggttc cgatttagtg ctttacggca 5400 cctcgacccc aaaaaacttg attagggtga tggttcacgt agtgggccat cgccctgata 5460 gacggttttt cgccctttga cgttggagtc cacgttcttt aatagtggac tcttgttcca 5520 aactggaaca acactcaacc ctatctcggt ctattctttt gatttataag ggattttggg 5580 gatttcggcc tattggttaa aaaatgagct gatttaacaa aaatttaacg cgaattaatt 5640 ctgtggaatg tgtgtcagtt agggtgtgga aagtccccag gctccccagg caggcagaag 5700 tatgcaaagc atgcatctca attagtcagc aaccaggtgt ggaaagtccc caggctcccc 5760 agcaggcaga agtatgcaaa gcatgcatct caattagtca gcaaccatag tcccgcccct 5820 aactccgccc atcccgcccc taactccgcc cagttccgcc cattctccgc cccatggctg 5880 actaattttt tttatttatg cagaggccga ggccgcctct gcctctgagc tattccagaa 5940 gtagtgagga ggcttttttg gaggcctagg cttttgcaaa aagctcccgg gagcttgtat 6000 atccattttc ggatctgatc agcacgtgtt gacaattaat catcggcata gtatatcggc 6060 atagtataat acgacaaggt gaggaactaa accatggcca agttgaccag tgccgttccg 6120 gtgctcaccg cgcgcgacgt cgccggagcg gtcgagttct ggaccgaccg gctcgggttc 6180 tcccgggact tcgtggagga cgacttcgcc ggtgtggtcc gggacgacgt gaccctgttc 6240 atcagcgcgg tccaggacca ggtggtgccg gacaacaccc tggcctgggt gtgggtgcgc 6300 ggcctggacg agctgtacgc cgagtggtcg gaggtcgtgt ccacgaactt ccgggacgcc 6360 tccgggccgg ccatgaccga gatcggcgag cagccgtggg ggcgggagtt cgccctgcgc 6420 gacccggccg gcaactgcgt gcacttcgtg gccgaggagc aggactgaca cgtgctacga 6480 gatttcgatt ccaccgccgc cttctatgaa aggttgggct tcggaatcgt tttccgggac 6540 gccggctgga tgatcctcca gcgcggggat ctcatgctgg agttcttcgc ccaccccaac 6600 ttgtttattg cagcttataa tggttacaaa taaagcaata gcatcacaaa tttcacaaat 6660 aaagcatttt tttcactgca ttctagttgt ggtttgtcca aactcatcaa tgtatcttat 6720 catgtctgta taccgtcgac ctctagctag agcttggcgt aatcatggtc atagctgttt 6780 cctgtgtgaa attgttatcc gctcacaatt ccacacaaca tacgagccgg aagcataaag 6840 tgtaaagcct ggggtgccta atgagtgagc taactcacat taattgcgtt gcgctcactg 6900 cccgctttcc agtcgggaaa cctgtcgtgc cagctgcatt aatgaatcgg ccaacgcgcg 6960 gggagaggcg gtttgcgtat tgggcgctct tccgcttcct cgctcactga ctcgctgcgc 7020 tcggtcgttc ggctgcggcg agcggtatca gctcactcaa aggcggtaat acggttatcc 7080 acagaatcag gggataacgc aggaaagaac atgtgagcaa aaggccagca aaaggccagg 7140 aaccgtaaaa aggccgcgtt gctggcgttt ttccataggc tccgcccccc tgacgagcat 7200 cacaaaaatc gacgctcaag tcagaggtgg cgaaacccga caggactata aagataccag 7260 gcgtttcccc ctggaagctc cctcgtgcgc tctcctgttc cgaccctgcc gcttaccgga 7320 tacctgtccg cctttctccc ttcgggaagc gtggcgcttt ctcaatgctc acgctgtagg 7380 tatctcagtt cggtgtaggt cgttcgctcc aagctgggct gtgtgcacga accccccgtt 7440 cagcccgacc gctgcgcctt atccggtaac tatcgtcttg agtccaaccc ggtaagacac 7500 gacttatcgc cactggcagc agccactggt aacaggatta gcagagcgag gtatgtaggc 7560 ggtgctacag agttcttgaa gtggtggcct aactacggct acactagaag gacagtattt 7620 ggtatctgcg ctctgctgaa gccagttacc ttcggaaaaa gagttggtag ctcttgatcc 7680 ggcaaacaaa ccaccgctgg tagcggtggt ttttttgttt gcaagcagca gattacgcgc 7740 agaaaaaaag gatctcaaga agatcctttg atcttttcta cggggtctga cgctcagtgg 7800 aacgaaaact cacgttaagg gattttggtc atgagattat caaaaaggat cttcacctag 7860 atccttttaa attaaaaatg aagttttaaa tcaatctaaa gtatatatga gtaaacttgg 7920 tctgacagtt accaatgctt aatcagtgag gcacctatct cagcgatctg tctatttcgt 7980 tcatccatag ttgcctgact ccccgtcgtg tagataacta cgatacggga gggcttacca 8040 tctggcccca gtgctgcaat gataccgcga gacccacgct caccggctcc agatttatca 8100 gcaataaacc agccagccgg aagggccgag cgcagaagtg gtcctgcaac tttatccgcc 8160 tccatccagt ctattaattg ttgccgggaa gctagagtaa gtagttcgcc agttaatagt 8220 ttgcgcaacg ttgttgccat tgctacaggc atcgtggtgt cacgctcgtc gtttggtatg 8280 gcttcattca gctccggttc ccaacgatca aggcgagtta catgatcccc catgttgtgc 8340 aaaaaagcgg ttagctcctt cggtcctccg atcgttgtca gaagtaagtt ggccgcagtg 8400 ttatcactca tggttatggc agcactgcat aattctctta ctgtcatgcc atccgtaaga 8460 tgcttttctg tgactggtga gtactcaacc aagtcattct gagaatagtg tatgcggcga 8520 ccgagttgct cttgcccggc gtcaatacgg gataataccg cgccacatag cagaacttta 8580 aaagtgctca tcattggaaa acgttcttcg gggcgaaaac tctcaaggat cttaccgctg 8640 ttgagatcca gttcgatgta acccactcgt gcacccaact gatcttcagc atcttttact 8700 ttcaccagcg tttctgggtg agcaaaaaca ggaaggcaaa atgccgcaaa aaagggaata 8760 agggcgacac ggaaatgttg aatactcata ctcttccttt ttcaatatta ttgaagcatt 8820 tatcagggtt attgtctcat gagcggatac atatttgaat gtatttagaa aaataaacaa 8880 ataggggttc cgcgcacatt tccccgaaaa gtgccacctg acgtc 8925 <210> 15 <211> 8925 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 15 gacggatcgg gagatctccc gatcccctat ggtcgactct cagtacaatc tgctctgatg 60 ccgcatagtt aagccagtat ctgctccctg cttgtgtgtt ggaggtcgct gagtagtgcg 120 cgagcaaaat ttaagctaca acaaggcaag gcttgaccga caattgcatg aagaatctgc 180 ttagggttag gcgttttgcg ctgcttcgcg atgtacgggc cagatatacg cgttgacatt 240 gattattgac tagttattaa tagtaatcaa ttacggggtc attagttcat agcccatata 300 tggagttccg cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc 360 cccgcccatt gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc 420 attgacgtca atgggtggac tatttacggt aaactgccca cttggcagta catcaagtgt 480 atcatatgcc aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt 540 atgcccagta catgacctta tgggactttc ctacttggca gtacatctac gtattagtca 600 tcgctattac catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg 660 actcacgggg atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc 720 aaaatcaacg ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg 780 gtaggcgtgt acggtgggag gtctatataa gcagagctct ctggctaact agagaaccca 840 ctgcttactg gcttatcgaa attaatacga ctcactatag ggagacccaa gctggctagc 900 gtttaaacgg gccctctaga ctcgagcggc cgccactgtg ctggatatct gcagaattcc 960 accacactgg actagtggat ccgagctcgg taccagccac catgggaaca gatacagtgt 1020 atgtcggcca ggactaccct tctggcttat caaaacgggt accagcacgg ttagtggcgg 1080 gaccgatgct gcgagagcga agctgtcacg cccatgtgtt tagggctgga cacatgtgga 1140 actggcgaac cagccttccg agcgggcgct gggaccagcc cgctttggag aagtctcggg 1200 tcctaacccg gtcggtggcg acggccaccg accccgaaat tacctcttac ccaggaaagt 1260 ccgtatcgac aagtacgcag gttcaggagg aggactggtg tagccgggag agcgggtgga 1320 tctcgccagg acttgctcct gaagaaccct cggtggtgtc cgaaattaca gcctccatgg 1380 tagcgacaat gagggtagca accgaggagg tcgtgctgga accacagcct gaacaggtcg 1440 tcacaatact gccggagcat ggtcgaaacg ttcctccggg gctggcagaa caggacaccg 1500 ccagccccat agaagtctcg gtgctcctcc cagacctcgc tgagaactgc ccattgtgtg 1560 gcgtgccgag cgggggccta cgcttgctcg ggaagcattt tgctgtccga catgcggggg 1620 tgcctgtaac gtatgagtgc cgtaagtgtg cgtggcggag ccccaacagc cactcaatct 1680 cgtgtcacgt ccccaaatgc cgggggcgtg cgcggatgcc cagtggcgat ccagggatcg 1740 cctgcgatct ctgtgaagcc cggtttgcca cggaggttgg ggtcgcccaa cacaagcggc 1800 acgttcatcc ggtggagtgg aacaaggtga ggctggaaag gagaggtgcg cgcggagggg 1860 gaattaaggc gacgaagctc tggagtgtag cggaggtaga gacgctaatc cggctcatcc 1920 gtgagcacgg agattcaggt gccacttacc agctcattgc cgatgagctg ggaaggggca 1980 agacggccga acaggtgagg agtaaaaaga ggctcctgcg catagatacg gcaagcaata 2040 gcccagatga tgcagaggtt gaggaggaga ggttggaatc tctggcggtt cggtcctcgt 2100 cacggtcacc cccgagcctg gtggcgacca gggtcaggga ggcagttgcc aggggtgaat 2160 cagaaggtgg cgaggagatc agggctattg ctgctctcat tagggacgta gatcagaatc 2220 cttgtctgat tgaaacctcg gcgtcggaca tcatctcgaa gctgggaagg agggtggatg 2280 ggcccaagag acccaggccc gttgtcagag aacagaccca agagaaggga tgggtaaggc 2340 ggcttgcccg gcggaaaagg gagtacagag aagcgcagta cctgtactca agggatcaag 2400 caaggctggc ggcccagatc ctcgatggtg ccgccagcca ggaatgcgcc ctcccggtgg 2460 accaggtcta cggagcgttc cgtgagaaat gggaaaccgt agggcagttc cacggacttg 2520 gtgagttccg gacgggtgca cgcgcagaca actgggagtt ctactctcca attctggcgg 2580 ctgaggtgaa agaaaaccta atgagaatgg ctaacggcac ggccccggga ccagacagga 2640 taagcaaaaa ggctctgctt gactgggacc cccggggtga gcaactggca cggctgtaca 2700 cgacgtggct gatcggtggg gtcataccaa gggtcttcaa ggagtgcagg actaagctgc 2760 taccgaaatc cagcgacccg gtcgagttgc aggacatcgg tggatggagg ccggtgacga 2820 ttgggtcgat ggtgactagg ctgttcagtc ggattctaac gatgaggcta acccgagcct 2880 gtccgatcaa tccgaggcag cgcggtttct tggcctcctc gagtggatgc gcggaaaacc 2940 tgttgatctt tgacgagatc gtcaggcgct cgaggcggga cggggggccg ctggcagtgg 3000 tgtttgtgga ctttgcgagg gcctttgact ccatctcaca tgaacatatc ctgtgtgttc 3060 tcgaagaagg cgggcttgac aggcacgtta tcgggttgat ccgaaactcg tacgtggatt 3120 gcgtgaccag ggtgggttgt gtcgagggca tgacaccacc aatacaaatg aaggttggag 3180 tgaagcaggg agaccccatg tcccccttgc tcttcaacct ggctatggat cccctcatcc 3240 ataaactcga gacggccgga actggactga aatggggcga tctttcaatc gccacgctgg 3300 cctttgccgc cgctctggtg ctggtgagtg actctgagga aggcatgggg aggagtctcg 3360 ggattttgga gaagttttgc caactgactg ggctgagggt tcagcccagg aagtgtcacg 3420 gtttctttat ggacaagggc gtggtgaacg gctgtggaac ctgggaaatc tgtgggtcac 3480 cgatccacat gattcccccg ggggaatcag ttcgttattt gggagtccag gtaggcccgg 3540 ggcgcggcgt gatggaaccg gatcttatcc ctacggtcca cacgtggatc gaaaggatct 3600 cggaggctcc tctaaagccc tcacaacgca tgagggtttt gaactcattc gctctccccc 3660 ggataattta ccaggccgat ctagggaagg ttacggtaac caaattggcc cagatagatg 3720 ggattgtccg gaaggctgtg aagaagtggc tccatttgtc accatccacg tgcaatggac 3780 tgctgtattc acggaaccgc gacggtggtt tgggcctcct aaagctggaa agactaatcc 3840 catccgtgcg cacgaagcgt atctatcgga tgtccaggtc tccggatatc tggacacggc 3900 gaatgaccag ccattctgtg tcaaaatctg actgggagat gttgtgggtc caagcgggag 3960 gtgagagggg cagtgcacct gtaatgggtg ccgtggaggc tgccccgacc gatgtggaga 4020 gatcgccaga ctacccagac tggcggcgtg aggaaaacct ggcatggtcg gccctgcggg 4080 tgcagggtgt gggtgcagac cagtttcgag gcgacaggac cagcagctct tggatcgccg 4140 agcccgcttc ggttgggttc gcgcagcgcc actggttggc tgccctggcg ctgagggctg 4200 gggtgtatcc gactcgggag tttctggctc ggggtaagga aaagtcagga gcagcttgca 4260 gacgctgccc ggccaggttg gaatcatgtt cacacatact tgggcaatgt ccgttcgttc 4320 aggcgaacag aattgcgagg cacaacaagg tgtgtgtgct cttggccacg gaggcggaga 4380 ggttcggctg gacggtaata agggagttcc gtcttgagga cgccgctggc ggtctcaaga 4440 tacccgacct ggtttgcaag aaggccgaca cagttctcat tgtcgacgtg accgtccggt 4500 acgagatgga tggagagacg ctaaaaaggg ccgcatcgga gaaggtgaaa cactatctcc 4560 cagtagggca acagataacg gacaaggtcg gagggcgttg ctttaaagtc atggggttcc 4620 ctgtaggtgc taggggaaag tggccggcga gcaacaacac agttttggct gagttaggcg 4680 tccctgcagg tcggatgagg acctttgcca ggctggtgag ccggaggact cttctttatt 4740 ctttggatat attgagggac ttcatgcgtg agccggccgg caggggaact cgggttgctc 4800 tcatccctgc ggcaacgggt gccgcgaata tggggagcga ctacaaagac catgacggtg 4860 attataaaga tcatgacatc gattacaagg atgacgatga caagaagtga taagtttaaa 4920 ccgctgatca gcctcgactg tgccttctag ttgccagcca tctgttgttt gcccctcccc 4980 cgtgccttcc ttgaccctgg aaggtgccac tcccactgtc ctttcctaat aaaatgagga 5040 aattgcatcg cattgtctga gtaggtgtca ttctattctg gggggtgggg tggggcagga 5100 cagcaagggg gaggattggg aagacaatag caggcatgct ggggatgcgg tgggctctat 5160 ggcttctgag gcggaaagaa ccagctgggg ctctaggggg tatccccacg cgccctgtag 5220 cggcgcatta agcgcggcgg gtgtggtggt tacgcgcagc gtgaccgcta cacttgccag 5280 cgccctagcg cccgctcctt tcgctttctt cccttccttt ctcgccacgt tcgccggctt 5340 tccccgtcaa gctctaaatc ggggcatccc tttagggttc cgatttagtg ctttacggca 5400 cctcgacccc aaaaaacttg attagggtga tggttcacgt agtgggccat cgccctgata 5460 gacggttttt cgccctttga cgttggagtc cacgttcttt aatagtggac tcttgttcca 5520 aactggaaca acactcaacc ctatctcggt ctattctttt gatttataag ggattttggg 5580 gatttcggcc tattggttaa aaaatgagct gatttaacaa aaatttaacg cgaattaatt 5640 ctgtggaatg tgtgtcagtt agggtgtgga aagtccccag gctccccagg caggcagaag 5700 tatgcaaagc atgcatctca attagtcagc aaccaggtgt ggaaagtccc caggctcccc 5760 agcaggcaga agtatgcaaa gcatgcatct caattagtca gcaaccatag tcccgcccct 5820 aactccgccc atcccgcccc taactccgcc cagttccgcc cattctccgc cccatggctg 5880 actaattttt tttatttatg cagaggccga ggccgcctct gcctctgagc tattccagaa 5940 gtagtgagga ggcttttttg gaggcctagg cttttgcaaa aagctcccgg gagcttgtat 6000 atccattttc ggatctgatc agcacgtgtt gacaattaat catcggcata gtatatcggc 6060 atagtataat acgacaaggt gaggaactaa accatggcca agttgaccag tgccgttccg 6120 gtgctcaccg cgcgcgacgt cgccggagcg gtcgagttct ggaccgaccg gctcgggttc 6180 tcccgggact tcgtggagga cgacttcgcc ggtgtggtcc gggacgacgt gaccctgttc 6240 atcagcgcgg tccaggacca ggtggtgccg gacaacaccc tggcctgggt gtgggtgcgc 6300 ggcctggacg agctgtacgc cgagtggtcg gaggtcgtgt ccacgaactt ccgggacgcc 6360 tccgggccgg ccatgaccga gatcggcgag cagccgtggg ggcgggagtt cgccctgcgc 6420 gacccggccg gcaactgcgt gcacttcgtg gccgaggagc aggactgaca cgtgctacga 6480 gatttcgatt ccaccgccgc cttctatgaa aggttgggct tcggaatcgt tttccgggac 6540 gccggctgga tgatcctcca gcgcggggat ctcatgctgg agttcttcgc ccaccccaac 6600 ttgtttattg cagcttataa tggttacaaa taaagcaata gcatcacaaa tttcacaaat 6660 aaagcatttt tttcactgca ttctagttgt ggtttgtcca aactcatcaa tgtatcttat 6720 catgtctgta taccgtcgac ctctagctag agcttggcgt aatcatggtc atagctgttt 6780 cctgtgtgaa attgttatcc gctcacaatt ccacacaaca tacgagccgg aagcataaag 6840 tgtaaagcct ggggtgccta atgagtgagc taactcacat taattgcgtt gcgctcactg 6900 cccgctttcc agtcgggaaa cctgtcgtgc cagctgcatt aatgaatcgg ccaacgcgcg 6960 gggagaggcg gtttgcgtat tgggcgctct tccgcttcct cgctcactga ctcgctgcgc 7020 tcggtcgttc ggctgcggcg agcggtatca gctcactcaa aggcggtaat acggttatcc 7080 acagaatcag gggataacgc aggaaagaac atgtgagcaa aaggccagca aaaggccagg 7140 aaccgtaaaa aggccgcgtt gctggcgttt ttccataggc tccgcccccc tgacgagcat 7200 cacaaaaatc gacgctcaag tcagaggtgg cgaaacccga caggactata aagataccag 7260 gcgtttcccc ctggaagctc cctcgtgcgc tctcctgttc cgaccctgcc gcttaccgga 7320 tacctgtccg cctttctccc ttcgggaagc gtggcgcttt ctcaatgctc acgctgtagg 7380 tatctcagtt cggtgtaggt cgttcgctcc aagctgggct gtgtgcacga accccccgtt 7440 cagcccgacc gctgcgcctt atccggtaac tatcgtcttg agtccaaccc ggtaagacac 7500 gacttatcgc cactggcagc agccactggt aacaggatta gcagagcgag gtatgtaggc 7560 ggtgctacag agttcttgaa gtggtggcct aactacggct acactagaag gacagtattt 7620 ggtatctgcg ctctgctgaa gccagttacc ttcggaaaaa gagttggtag ctcttgatcc 7680 ggcaaacaaa ccaccgctgg tagcggtggt ttttttgttt gcaagcagca gattacgcgc 7740 agaaaaaaag gatctcaaga agatcctttg atcttttcta cggggtctga cgctcagtgg 7800 aacgaaaact cacgttaagg gattttggtc atgagattat caaaaaggat cttcacctag 7860 atccttttaa attaaaaatg aagttttaaa tcaatctaaa gtatatatga gtaaacttgg 7920 tctgacagtt accaatgctt aatcagtgag gcacctatct cagcgatctg tctatttcgt 7980 tcatccatag ttgcctgact ccccgtcgtg tagataacta cgatacggga gggcttacca 8040 tctggcccca gtgctgcaat gataccgcga gacccacgct caccggctcc agatttatca 8100 gcaataaacc agccagccgg aagggccgag cgcagaagtg gtcctgcaac tttatccgcc 8160 tccatccagt ctattaattg ttgccgggaa gctagagtaa gtagttcgcc agttaatagt 8220 ttgcgcaacg ttgttgccat tgctacaggc atcgtggtgt cacgctcgtc gtttggtatg 8280 gcttcattca gctccggttc ccaacgatca aggcgagtta catgatcccc catgttgtgc 8340 aaaaaagcgg ttagctcctt cggtcctccg atcgttgtca gaagtaagtt ggccgcagtg 8400 ttatcactca tggttatggc agcactgcat aattctctta ctgtcatgcc atccgtaaga 8460 tgcttttctg tgactggtga gtactcaacc aagtcattct gagaatagtg tatgcggcga 8520 ccgagttgct cttgcccggc gtcaatacgg gataataccg cgccacatag cagaacttta 8580 aaagtgctca tcattggaaa acgttcttcg gggcgaaaac tctcaaggat cttaccgctg 8640 ttgagatcca gttcgatgta acccactcgt gcacccaact gatcttcagc atcttttact 8700 ttcaccagcg tttctgggtg agcaaaaaca ggaaggcaaa atgccgcaaa aaagggaata 8760 agggcgacac ggaaatgttg aatactcata ctcttccttt ttcaatatta ttgaagcatt 8820 tatcagggtt attgtctcat gagcggatac atatttgaat gtatttagaa aaataaacaa 8880 ataggggttc cgcgcacatt tccccgaaaa gtgccacctg acgtc 8925 <210> 16 <211> 26 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 16 cagcactaga tttttggggt tgaatg 26 <210> 17 <211> 163 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 17 atacccgctt aattcattca gatctgtaat agaactgtca ttcaacccca aaaatctagt 60 gctgatataa ccttcaccaa ttaggttcaa ataagtggta atgcgggaca aaagactatc 120 gacatttgat acactattta tcaatggatg tcttattttt ttt 163 <210> 18 <211> 3578 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 18 gaccaaaatc ccttaacgtg agttttcgtt ccactgagcg tcagaccccg tagaaaagat 60 caaaggatct tcttgagatc ctttttttct gcgcgtaatc tgctgcttgc aaacaaaaaa 120 accaccgcta ccagcggtgg tttgtttgcc ggatcaagag ctaccaactc tttttccgaa 180 ggtaactggc ttcagcagag cgcagatacc aaatactgtc cttctagtgt agccgtagtt 240 aggccaccac ttcaagaact ctgtagcacc gcctacatac ctcgctctgc taatcctgtt 300 accagtggct gctgccagtg gcgataagtc gtgtcttacc gggttggact caagacgata 360 gttaccggat aaggcgcagc ggtcgggctg aacggggggt tcgtgcacac agcccagctt 420 ggagcgaacg acctacaccg aactgagata cctacagcgt gagctatgag aaagcgccac 480 gcttcccgaa gggagaaagg cggacaggta tccggtaagc ggcagggtcg gaacaggaga 540 gcgcacgagg gagcttccag ggggaaacgc ctggtatctt tatagtcctg tcgggtttcg 600 ccacctctga cttgagcgtc gatttttgtg atgctcgtca ggggggcgga gcctatggaa 660 aaacgccagc aacgcggcct ttttacggtt cctggccttt tgctggcctt ttgctcacat 720 gttctttcct gcgttatccc ctgattctgt ggataaccgt attaccgcct ttgagtgagc 780 tgataccgct cgccgcagcc gaacgaccga gcgcagcgag tcagtgagcg aggaagcgga 840 agagcgccca atacgcaaac cgcctctccc cgcgcgttgg ccgattcatt aatgcagctg 900 gcacgacagg tttcccgact ggaaagcggg cagtgagcgc aacgcaatta atgtgagtta 960 gctcactcat taggcacccc aggctttaca ctttatgctt ccggctcgta tgttgtgtgg 1020 aattgtgagc ggataacaat ttcacacagg aaacagctat gaccatgatt acgccaagct 1080 cgaaattaac cctcactaaa gggaacaaaa gctgggtacc gggccccccc tcgaggtcga 1140 cggatcggga gatcttcgca aaacgctggg attcccggat tacaggcggg cgcaccacac 1200 caggagcaaa cacttccggt tttaaaaatt cagtttgtga ttggctgtca ttcagtatta 1260 tgctaattaa gcatgcccgg ttttaaacct cttaaaacaa tttttaaaat tacctttcca 1320 cctaaaacgt taaaatttgt caagtgataa tattcgaaaa gctgttattg ccaaactatt 1380 ttcctatttg tttcctaatg gcatcggaac tagcgaaagt ttctcgccat cagttaaaag 1440 tttgcggcag atgtagacct agcagaggtg tgcgaggagg ccttgcacag tagtccagcg 1500 gtaagggtgt agatcaggcc cgtctgtttc tcccccggag ctcgctccct tggcttccct 1560 tatatatttt aacatcagaa acagacatta aacatctact gatccaattt cgccggcgta 1620 cggccacgat cgggagggtg ggaatctcgg gggtcttccg atcctaatcc atgatgatta 1680 cgacctgagt cactaaagac gatggcatga tgatccggcg atgaaaaagg gcggcatggt 1740 cccagcctcc tcgctggcgc cgcctgggca acatgcttcg gcatggcgaa tgggaccaaa 1800 ggatccacta gttctagagc ggccgccacc gcggtggagc tccaattcgc cctatagtga 1860 gtcgtattac aattcactgg ccgtcgtttt acaacgtcgt gactgggaaa accctggcgt 1920 tacccaactt aatcgccttg cagcacatcc ccctttcgcc agctggcgta atagcgaaga 1980 ggcccgcacc gatcgccctt cccaacagtt gcgcagcctg aatggcgaat gggacgcgcc 2040 ctgtagcggc gcattaagcg cggcgggtgt ggtggttacg cgcagcgtga ccgctacact 2100 tgccagcgcc ctagcgcccg ctcctttcgc tttcttccct tcctttctcg ccacgttcgc 2160 cggctttccc cgtcaagctc taaatcgggg gctcccttta gggttccgat ttagtgcttt 2220 acggcacctc gaccccaaaa aacttgatta gggtgatggt tcacgtagtg ggccatcgcc 2280 ctgatagacg gtttttcgcc ctttgacgtt ggagtccacg ttctttaata gtggactctt 2340 gttccaaact ggaacaacac tcaaccctat ctcggtctat tcttttgatt tataagggat 2400 tttgccgatt tcggcctatt ggttaaaaaa tgagctgatt taacaaaaat ttaacgcgaa 2460 ttttaacaaa atattaacgc ttacaattta ggtggcactt ttcggggaaa tgtgcgcgga 2520 acccctattt gtttattttt ctaaatacat tcaaatatgt atccgctcat gagacaataa 2580 ccctgataaa tgcttcaata atattgaaaa aggaagagta tgagtattca acatttccgt 2640 gtcgccctta ttcccttttt tgcggcattt tgccttcctg tttttgctca cccagaaacg 2700 ctggtgaaag taaaagatgc tgaagatcag ttgggtgcac gagtgggtta catcgaactg 2760 gatctcaaca gcggtaagat ccttgagagt tttcgccccg aagaacgttt tccaatgatg 2820 agcactttta aagttctgct atgtggcgcg gtattatccc gtattgacgc cgggcaagag 2880 caactcggtc gccgcataca ctattctcag aatgacttgg ttgagtactc accagtcaca 2940 gaaaagcatc ttacggatgg catgacagta agagaattat gcagtgctgc cataaccatg 3000 agtgataaca ctgcggccaa cttacttctg acaacgatcg gaggaccgaa ggagctaacc 3060 gcttttttgc acaacatggg ggatcatgta actcgccttg atcgttggga accggagctg 3120 aatgaagcca taccaaacga cgagcgtgac accacgatgc ctgtagcaat ggcaacaacg 3180 ttgcgcaaac tattaactgg cgaactactt actctagctt cccggcaaca attaatagac 3240 tggatggagg cggataaagt tgcaggacca cttctgcgct cggcccttcc ggctggctgg 3300 tttattgctg ataaatctgg agccggtgag cgtgggtctc gcggtatcat tgcagcactg 3360 gggccagatg gtaagccctc ccgtatcgta gttatctaca cgacggggag tcaggcaact 3420 atggatgaac gaaatagaca gatcgctgag ataggtgcct cactgattaa gcattggtaa 3480 ctgtcagacc aagtttactc atatatactt tagattgatt taaaacttca tttttaattt 3540 aaaaggatct aggtgaagat cctttttgat aatctcat 3578 <210> 19 <211> 3584 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 19 gaccaaaatc ccttaacgtg agttttcgtt ccactgagcg tcagaccccg tagaaaagat 60 caaaggatct tcttgagatc ctttttttct gcgcgtaatc tgctgcttgc aaacaaaaaa 120 accaccgcta ccagcggtgg tttgtttgcc ggatcaagag ctaccaactc tttttccgaa 180 ggtaactggc ttcagcagag cgcagatacc aaatactgtc cttctagtgt agccgtagtt 240 aggccaccac ttcaagaact ctgtagcacc gcctacatac ctcgctctgc taatcctgtt 300 accagtggct gctgccagtg gcgataagtc gtgtcttacc gggttggact caagacgata 360 gttaccggat aaggcgcagc ggtcgggctg aacggggggt tcgtgcacac agcccagctt 420 ggagcgaacg acctacaccg aactgagata cctacagcgt gagctatgag aaagcgccac 480 gcttcccgaa gggagaaagg cggacaggta tccggtaagc ggcagggtcg gaacaggaga 540 gcgcacgagg gagcttccag ggggaaacgc ctggtatctt tatagtcctg tcgggtttcg 600 ccacctctga cttgagcgtc gatttttgtg atgctcgtca ggggggcgga gcctatggaa 660 aaacgccagc aacgcggcct ttttacggtt cctggccttt tgctggcctt ttgctcacat 720 gttctttcct gcgttatccc ctgattctgt ggataaccgt attaccgcct ttgagtgagc 780 tgataccgct cgccgcagcc gaacgaccga gcgcagcgag tcagtgagcg aggaagcgga 840 agagcgccca atacgcaaac cgcctctccc cgcgcgttgg ccgattcatt aatgcagctg 900 gcacgacagg tttcccgact ggaaagcggg cagtgagcgc aacgcaatta atgtgagtta 960 gctcactcat taggcacccc aggctttaca ctttatgctt ccggctcgta tgttgtgtgg 1020 aattgtgagc ggataacaat ttcacacagg aaacagctat gaccatgatt acgccaagct 1080 cgaaattaac cctcactaaa gggaacaaaa gctgggtacc gggccccccc tcgaggtcga 1140 cggatcggga gatcttcgca aaacgctggg attcccggat tacaggcggg cgcaccacac 1200 caggagcaaa cacttccggt tttaaaaatt cagtttgtga ttggctgtca ttcagtatta 1260 tgctaattaa gcatgcccgg ttttaaacct cttaaaacaa tttttaaaat tacctttcca 1320 cctaaaacgt taaaatttgt caagtgataa tattcgaaaa gctgttattg ccaaactatt 1380 ttcctatttg tttcctaatg gcatcggaac tagcgaaagt ttctcgccat cagttaaaag 1440 tttgcggcag atgtagacct agcagaggtg tgcgaggagc taaaacgttt ggttcaaaac 1500 atttgcttgc tgtcttggca taacatcaat aaaggcataa acatcgcaaa ataatggtta 1560 tatataaatg gctatgagga tggttttagt acgtaggcgt tgcggaactt cggttcagat 1620 agagcaatga atcgtgcatg ctaggaaaac tgaccacacg cagtgttggc agccctagta 1680 tctttcgata gatttccata cctccgcgat caaaaaaaaa aaaaaaaaaa aaaagggcgg 1740 catggtccca gcctcctcgc tggcgccgcc tgggcaacat gcttcggcat ggcgaatggg 1800 accaaaggat ccactagttc tagagcggcc gccaccgcgg tggagctcca attcgcccta 1860 tagtgagtcg tattacaatt cactggccgt cgttttacaa cgtcgtgact gggaaaaccc 1920 tggcgttacc caacttaatc gccttgcagc acatccccct ttcgccagct ggcgtaatag 1980 cgaagaggcc cgcaccgatc gcccttccca acagttgcgc agcctgaatg gcgaatggga 2040 cgcgccctgt agcggcgcat taagcgcggc gggtgtggtg gttacgcgca gcgtgaccgc 2100 tacacttgcc agcgccctag cgcccgctcc tttcgctttc ttcccttcct ttctcgccac 2160 gttcgccggc tttccccgtc aagctctaaa tcgggggctc cctttagggt tccgatttag 2220 tgctttacgg cacctcgacc ccaaaaaact tgattagggt gatggttcac gtagtgggcc 2280 atcgccctga tagacggttt ttcgcccttt gacgttggag tccacgttct ttaatagtgg 2340 actcttgttc caaactggaa caacactcaa ccctatctcg gtctattctt ttgatttata 2400 agggattttg ccgatttcgg cctattggtt aaaaaatgag ctgatttaac aaaaatttaa 2460 cgcgaatttt aacaaaatat taacgcttac aatttaggtg gcacttttcg gggaaatgtg 2520 cgcggaaccc ctatttgttt atttttctaa atacattcaa atatgtatcc gctcatgaga 2580 caataaccct gataaatgct tcaataatat tgaaaaagga agagtatgag tattcaacat 2640 ttccgtgtcg cccttattcc cttttttgcg gcattttgcc ttcctgtttt tgctcaccca 2700 gaaacgctgg tgaaagtaaa agatgctgaa gatcagttgg gtgcacgagt gggttacatc 2760 gaactggatc tcaacagcgg taagatcctt gagagttttc gccccgaaga acgttttcca 2820 atgatgagca cttttaaagt tctgctatgt ggcgcggtat tatcccgtat tgacgccggg 2880 caagagcaac tcggtcgccg catacactat tctcagaatg acttggttga gtactcacca 2940 gtcacagaaa agcatcttac ggatggcatg acagtaagag aattatgcag tgctgccata 3000 accatgagtg ataacactgc ggccaactta cttctgacaa cgatcggagg accgaaggag 3060 ctaaccgctt ttttgcacaa catgggggat catgtaactc gccttgatcg ttgggaaccg 3120 gagctgaatg aagccatacc aaacgacgag cgtgacacca cgatgcctgt agcaatggca 3180 acaacgttgc gcaaactatt aactggcgaa ctacttactc tagcttcccg gcaacaatta 3240 atagactgga tggaggcgga taaagttgca ggaccacttc tgcgctcggc ccttccggct 3300 ggctggttta ttgctgataa atctggagcc ggtgagcgtg ggtctcgcgg tatcattgca 3360 gcactggggc cagatggtaa gccctcccgt atcgtagtta tctacacgac ggggagtcag 3420 gcaactatgg atgaacgaaa tagacagatc gctgagatag gtgcctcact gattaagcat 3480 tggtaactgt cagaccaagt ttactcatat atactttaga ttgatttaaa acttcatttt 3540 taatttaaaa ggatctaggt gaagatcctt tttgataatc tcat 3584 <210> 20 <211> 3432 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 20 gaccaaaatc ccttaacgtg agttttcgtt ccactgagcg tcagaccccg tagaaaagat 60 caaaggatct tcttgagatc ctttttttct gcgcgtaatc tgctgcttgc aaacaaaaaa 120 accaccgcta ccagcggtgg tttgtttgcc ggatcaagag ctaccaactc tttttccgaa 180 ggtaactggc ttcagcagag cgcagatacc aaatactgtc cttctagtgt agccgtagtt 240 aggccaccac ttcaagaact ctgtagcacc gcctacatac ctcgctctgc taatcctgtt 300 accagtggct gctgccagtg gcgataagtc gtgtcttacc gggttggact caagacgata 360 gttaccggat aaggcgcagc ggtcgggctg aacggggggt tcgtgcacac agcccagctt 420 ggagcgaacg acctacaccg aactgagata cctacagcgt gagctatgag aaagcgccac 480 gcttcccgaa gggagaaagg cggacaggta tccggtaagc ggcagggtcg gaacaggaga 540 gcgcacgagg gagcttccag ggggaaacgc ctggtatctt tatagtcctg tcgggtttcg 600 ccacctctga cttgagcgtc gatttttgtg atgctcgtca ggggggcgga gcctatggaa 660 aaacgccagc aacgcggcct ttttacggtt cctggccttt tgctggcctt ttgctcacat 720 gttctttcct gcgttatccc ctgattctgt ggataaccgt attaccgcct ttgagtgagc 780 tgataccgct cgccgcagcc gaacgaccga gcgcagcgag tcagtgagcg aggaagcgga 840 agagcgccca atacgcaaac cgcctctccc cgcgcgttgg ccgattcatt aatgcagctg 900 gcacgacagg tttcccgact ggaaagcggg cagtgagcgc aacgcaatta atgtgagtta 960 gctcactcat taggcacccc aggctttaca ctttatgctt ccggctcgta tgttgtgtgg 1020 aattgtgagc ggataacaat ttcacacagg aaacagctat gaccatgatt acgccaagct 1080 cgaaattaac cctcactaaa gggaacaaaa gctgggtacc gggccccccc tcgaggtcga 1140 cggatcggga gatcttcgca aaacgctggg attcccggat tacaggcggg cgcaccacac 1200 caggagcaaa cacttccggt tttaaaaatt cagtttgtga ttggctgtca ttcagtatta 1260 tgctaattaa gcatgcccgg ttttaaacct cttaaaacaa tttttaaaat tacctttcca 1320 cctaaaacgt taaaatttgt caagtgataa tattcgaaaa gctgttattg ccaaactatt 1380 ttcctatttg tttcctaatg gcatcggaac tagcgaaagt ttctcgccat cagttaaaag 1440 tttgcggcag atgtagacct agcagaggtg tgcgaggagg ggggacagct gggagtctcg 1500 gcatgattac aaatcttgcg ctgcactcgg atgtcgtccc cgtgacggac acattaatcc 1560 ggaaagcgag tggtgactcg cctcaagggg cggcatggtc ccagcctcct cgctggcgcc 1620 gcctgggcaa catgcttcgg catggcgaat gggaccaaac actagttcta gagcggccgc 1680 caccgcggtg gagctccaat tcgccctata gtgagtcgta ttacaattca ctggccgtcg 1740 ttttacaacg tcgtgactgg gaaaaccctg gcgttaccca acttaatcgc cttgcagcac 1800 atcccccttt cgccagctgg cgtaatagcg aagaggcccg caccgatcgc ccttcccaac 1860 agttgcgcag cctgaatggc gaatgggacg cgccctgtag cggcgcatta agcgcggcgg 1920 gtgtggtggt tacgcgcagc gtgaccgcta cacttgccag cgccctagcg cccgctcctt 1980 tcgctttctt cccttccttt ctcgccacgt tcgccggctt tccccgtcaa gctctaaatc 2040 gggggctccc tttagggttc cgatttagtg ctttacggca cctcgacccc aaaaaacttg 2100 attagggtga tggttcacgt agtgggccat cgccctgata gacggttttt cgccctttga 2160 cgttggagtc cacgttcttt aatagtggac tcttgttcca aactggaaca acactcaacc 2220 ctatctcggt ctattctttt gatttataag ggattttgcc gatttcggcc tattggttaa 2280 aaaatgagct gatttaacaa aaatttaacg cgaattttaa caaaatatta acgcttacaa 2340 tttaggtggc acttttcggg gaaatgtgcg cggaacccct atttgtttat ttttctaaat 2400 acattcaaat atgtatccgc tcatgagaca ataaccctga taaatgcttc aataatattg 2460 aaaaaggaag agtatgagta ttcaacattt ccgtgtcgcc cttattccct tttttgcggc 2520 attttgcctt cctgtttttg ctcacccaga aacgctggtg aaagtaaaag atgctgaaga 2580 tcagttgggt gcacgagtgg gttacatcga actggatctc aacagcggta agatccttga 2640 gagttttcgc cccgaagaac gttttccaat gatgagcact tttaaagttc tgctatgtgg 2700 cgcggtatta tcccgtattg acgccgggca agagcaactc ggtcgccgca tacactattc 2760 tcagaatgac ttggttgagt actcaccagt cacagaaaag catcttacgg atggcatgac 2820 agtaagagaa ttatgcagtg ctgccataac catgagtgat aacactgcgg ccaacttact 2880 tctgacaacg atcggaggac cgaaggagct aaccgctttt ttgcacaaca tgggggatca 2940 tgtaactcgc cttgatcgtt gggaaccgga gctgaatgaa gccataccaa acgacgagcg 3000 tgacaccacg atgcctgtag caatggcaac aacgttgcgc aaactattaa ctggcgaact 3060 acttactcta gcttcccggc aacaattaat agactggatg gaggcggata aagttgcagg 3120 accacttctg cgctcggccc ttccggctgg ctggtttatt gctgataaat ctggagccgg 3180 tgagcgtggg tctcgcggta tcattgcagc actggggcca gatggtaagc cctcccgtat 3240 cgtagttatc tacacgacgg ggagtcaggc aactatggat gaacgaaata gacagatcgc 3300 tgagataggt gcctcactga ttaagcattg gtaactgtca gaccaagttt actcatatat 3360 actttagatt gatttaaaac ttcattttta atttaaaagg atctaggtga agatcctttt 3420 tgataatctc at 3432 <210> 21 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 21 catcatggat taggatcgga agacccccg 29 <210> 22 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 22 gtacgccggc gaaattggat cagtagatg 29 <210> 23 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 23 gagaaacaga cgggcctgat ctacaccc 28 <210> 24 <211> 34 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 24 ctatctgaac cgaagttccg caacgcctac gtac 34 <210> 25 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 25 cactgcgtgt ggtcagtttt cctagcatgc acg 33 <210> 26 <211> 42 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 26 gatgttatgc caagacagca agcaaatgtt ttgaaccaaa cg 42 <210> 27 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 27 ttgaggcgag tcaccactcg ctttccgg 28 <210> 28 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 28 gtgtccgtca cggggacgac atccgagtg 29 <210> 29 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 29 caagcgcggg taaacggcgg gagtaactat gactctctta aggtagccaa atgcctcgtc 60 atct 64 <210> 30 <211> 84 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 30 caagcgcggg taaacggcgg gagtaactat gactctctta aggtagccaa atgcctcgtc 60 atctaattag tgacgcgcat gaat 84 <210> 31 <211> 185 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 31 gaaattaata cgactcacta tagggttaat acgactcact atagggcggg agtaactatg 60 actctcttaa tgagggggac agctgggagt ctcggcatga ttacaaatct tgcgctgcac 120 tcggatgtcg tccccgtgac ggacacatta atccggaaag cgagtggtga ctcgcctcaa 180 gtagc 185 <210> 32 <211> 181 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 32 gaaattaata cgactcacta tagggttaat acgactcact atagggcggg agtaactatg 60 actctcttaa tgagggggac agctgggagt ctcggcatga ttacaaatct tgcgctgcac 120 tcggatgtcg tccccgtgac ggacacatta atccggaaag cgagtggtga ctcgcctcaa 180 g 181 <210> 33 <211> 284 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 33 gaaattaata cgactcacta tagggctaaa acgtttggtt caaaacattt gcttgctgtc 60 ttggcataac atcaataaag gcataaacat cgcaaaataa tggttatata taaatggcta 120 tgaggatggt tttagtacgt aggcgttgcg gaacttcggt tcagatagag caatgaatcg 180 tgcatgctag gaaaactgac cacacgcagt gttggcagcc ctagtatctt tcgatagatt 240 tccatacctc cgcgatcaaa aaaaaaaaaa aaaaaaaaaa tagc 284 <210> 34 <211> 280 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 34 gaaattaata cgactcacta tagggctaaa acgtttggtt caaaacattt gcttgctgtc 60 ttggcataac atcaataaag gcataaacat cgcaaaataa tggttatata taaatggcta 120 tgaggatggt tttagtacgt aggcgttgcg gaacttcggt tcagatagag caatgaatcg 180 tgcatgctag gaaaactgac cacacgcagt gttggcagcc ctagtatctt tcgatagatt 240 tccatacctc cgcgatcaaa aaaaaaaaaa aaaaaaaaaa 280 <210> 35 <211> 276 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 35 gaaattaata cgactcacta tagggccttg cacagtagtc cagcggtaag ggtgtagatc 60 aggcccgtct gtttctcccc cggagctcgc tcccttggct tcccttatat attttaacat 120 cagaaacaga cattaaacat ctactgatcc aatttcgccg gcgtacggcc acgatcggga 180 gggtgggaat ctcgggggtc ttccgatcct aatccatgat gattacgacc tgagtcacta 240 aagacgatgg catgatgatc cggcgatgaa aatagc 276 <210> 36 <211> 276 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 36 gaaattaata cgactcacta tagggccttg cacagtagtc cagcggtaag ggtgtagatc 60 aggcccgtct gtttctcccc cggagctcgc tcccttggct tcccttatat attttaacat 120 cagaaacaga cattaaacat ctactgatcc aatttcgccg gcgtacggcc acgatcggga 180 gggtgggaat ctcgggggtc ttccgatcct aatccatgat gattacgacc tgagtcacta 240 aagacgatgg catgatgatc cggcgatgaa aatagc 276 <210> 37 <211> 281 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 37 gaaattaata cgactcacta tagggttaag ccttgcacag tagtccagcg gtaagggtgt 60 agatcaggcc cgtctgtttc tcccccggag ctcgctccct tggcttccct tatatatttt 120 aacatcagaa acagacatta aacatctact gatccaattt cgccggcgta cggccacgat 180 cgggagggtg ggaatctcgg gggtcttccg atcctaatcc atgatgatta cgacctgagt 240 cactaaagac gatggcatga tgatccggcg atgaaaatag c 281 <210> 38 <211> 297 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 38 gaaattaata cgactcacta tagggcggga gtaactatga ctctcttaag ccttgcacag 60 tagtccagcg gtaagggtgt agatcaggcc cgtctgtttc tcccccggag ctcgctccct 120 tggcttccct tatatatttt aacatcagaa acagacatta aacatctact gatccaattt 180 cgccggcgta cggccacgat cgggagggtg ggaatctcgg gggtcttccg atcctaatcc 240 atgatgatta cgacctgagt cactaaagac gatggcatga tgatccggcg atgaaaa 297 <210> 39 <211> 323 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 39 gaaattaata cgactcacta tagggcggga gtaactatga ctctcttaag ccttgcacag 60 tagtccagcg gtaagggtgt agatcaggcc cgtctgtttc tcccccggag ctcgctccct 120 tggcttccct tatatatttt aacatcagaa acagacatta aacatctact gatccaattt 180 cgccggcgta cggccacgat cgggagggtg ggaatctcgg gggtcttccg atcctaatcc 240 atgatgatta cgacctgagt cactaaagac gatggcatga tgatccggcg atgaaaatag 300 caaaaaaaaa aaaaaaaaaa aaa 323 <210> 40 <211> 317 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 40 gaaattaata cgactcacta tagggcggga gtaactatga ctctcttaag ccttgcacag 60 tagtccagcg gtaagggtgt agatcaggcc cgtctgtttc tcccccggag ctcgctccct 120 tggcttccct tatatatttt aacatcagaa acagacatta aacatctact gatccaattt 180 cgccggcgta cggccacgat cgggagggtg ggaatctcgg gggtcttccg atcctaatcc 240 atgatgatta cgacctgagt cactaaagac gatggcatga tgatccggcg atgaaaatag 300 ccaaatgcct cgtcatc 317 <210> 41 <211> 157 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 41 gaaattaata cgactcacta tagggcggga gtaactatga ctctcttaag ggggacagct 60 gggagtctcg gcatgattac aaatcttgcg ctgcactcgg atgtcgtccc cgtgacggac 120 acattaatcc ggaaagcgag tggtgactcg cctcaag 157 <210> 42 <211> 141 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 42 gaaattaata cgactcacta tagggttaag ggggacagct gggagtctcg gcatgattac 60 aaatcttgcg ctgcactcgg atgtcgtccc cgtgacggac acattaatcc ggaaagcgag 120 tggtgactcg cctcaagtag c 141 <210> 43 <211> 161 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 43 gaaattaata cgactcacta tagggcggga gtaactatga ctctcttaag ggggacagct 60 gggagtctcg gcatgattac aaatcttgcg ctgcactcgg atgtcgtccc cgtgacggac 120 acattaatcc ggaaagcgag tggtgactcg cctcaagtag c 161 <210> 44 <211> 177 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 44 gaaattaata cgactcacta tagggcggga gtaactatga ctctcttaag ggggacagct 60 gggagtctcg gcatgattac aaatcttgcg ctgcactcgg atgtcgtccc cgtgacggac 120 acattaatcc ggaaagcgag tggtgactcg cctcaagtag ccaaatgcct cgtcatc 177 <210> 45 <211> 183 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 45 gaaattaata cgactcacta tagggcggga gtaactatga ctctcttaag ggggacagct 60 gggagtctcg gcatgattac aaatcttgcg ctgcactcgg atgtcgtccc cgtgacggac 120 acattaatcc ggaaagcgag tggtgactcg cctcaagtag caaaaaaaaa aaaaaaaaaa 180 aaa 183 <210> 46 <211> 130 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 46 gaaattaata cgactcacta tagggggaca gctgggagtc tcggcatgat tacaaatctt 60 gcgctgcact cggatgtcgt ccccgtgacg gacacattaa tccggaaagc gagtggtgac 120 tcgcctcaag 130 <210> 47 <211> 134 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 47 gaaattaata cgactcacta tagggggaca gctgggagtc tcggcatgat tacaaatctt 60 gcgctgcact cggatgtcgt ccccgtgacg gacacattaa tccggaaagc gagtggtgac 120 tcgcctcaag tagc 134 <210> 48 <211> 138 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 48 gaaattaata cgactcacta tagggggaca gctgggagtc tcggcatgat tacaaatctt 60 gcgctgcact cggatgtcgt ccccgtgacg gacacattaa tccggaaagc gagtggtgac 120 tcgcctcaag tagccaaa 138 <210> 49 <211> 142 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 49 gaaattaata cgactcacta tagggggaca gctgggagtc tcggcatgat tacaaatctt 60 gcgctgcact cggatgtcgt ccccgtgacg gacacattaa tccggaaagc gagtggtgac 120 tcgcctcaag tagccaaatg cc 142 <210> 50 <211> 146 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 50 gaaattaata cgactcacta tagggggaca gctgggagtc tcggcatgat tacaaatctt 60 gcgctgcact cggatgtcgt ccccgtgacg gacacattaa tccggaaagc gagtggtgac 120 tcgcctcaag tagccaaatg cctcgt 146 <210> 51 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 51 gaaattaata cgactcacta tagggggaca gctgggagtc tcggcatgat tacaaatctt 60 gcgctgcact cggatgtcgt ccccgtgacg gacacattaa tccggaaagc gagtggtgac 120 tcgcctcaag tagccaaatg cctcgtcatc 150 <210> 52 <211> 8882 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 52 gacggatcgg gagatctccc gatcccctat ggtgcactct cagtacaatc tgctctgatg 60 ccgcatagtt aagccagtat ctgctccctg cttgtgtgtt ggaggtcgct gagtagtgcg 120 cgagcaaaat ttaagctaca acaaggcaag gcttgaccga caattgcatg aagaatctgc 180 ttagggttag gcgttttgcg ctgcttcgcg atgtacgggc cagatatacg cgttgacatt 240 gattattgac tagttattaa tagtaatcaa ttacggggtc attagttcat agcccatata 300 tggagttccg cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc 360 cccgcccatt gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc 420 attgacgtca atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt 480 atcatatgcc aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt 540 atgcccagta catgacctta tgggactttc ctacttggca gtacatctac gtattagtca 600 tcgctattac catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg 660 actcacgggg atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc 720 aaaatcaacg ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg 780 gtaggcgtgt acggtgggag gtctatataa gcagagctct ctggctaact agagaaccca 840 ctgcttactg gcttatcgaa attaatacga ctcactatag ggagacccaa gctggctagc 900 gtttaaactt aagcttgcca ccatggatta caaggatgac gacgataagg gtaccctgcc 960 ttttcagagc agaagctgcg gcatctgtct gaatgccggt aaaggtaact tccgcgcgct 1020 gagcctggac gacgaagaac ggcacctgcg tgaacggcat ccactgtccc tgatcctcta 1080 taaatgcagc gattgcaagg gccagtacag atccaagagg gccgccctgt gccacgcccc 1140 caagtgcacc ggaccgaccc ctgatcctca aggcaatgcc ctgcgttgtc atctgtgtgg 1200 tcttgtttgt aaaagccaga gtggtgttac ccagcattta cgtcatagac accctctggt 1260 cagaaacacc cagcgggcag ctgaagaaag cggtagagcc gaacgtgctg cactgcctcg 1320 gcctctgcgt cgtaacaccc gttcggtttt cagcgaagag gatgaagcaa aaatgctgga 1380 gctggaagtg cggttccaga acgagcgttg tgttgcaaaa tgcatgctgc cgttttttcc 1440 gaatagaact tgcaagcaga tccgtgataa gcgtaatacc gatgcatata aacggagaag 1500 agaactgtac ttcgagggcg tccgggtgca ggaccctgca ggcgccgagg acagcgttct 1560 ccctgttgtg gaaaccgacg aacccgccga ggaaaatatt ccgctggagt accccgagct 1620 gcctggcgat gaagagggtg ctcctgcctg cagccagact attctgaaca cagaaggtcc 1680 ggatggactg ggcagcccac cggtgcccgt tgaagaagaa atggcaagtt cgggtagcac 1740 atctaataac gtggataccg gttggagaga aagcattatc acagctgcac tcggcgttga 1800 aattccgaaa gcaatcagcc aagagcccgc cgccgttatt caggagctgc aggatgctct 1860 gcgcgaggcc gtgatcggcg tgtttccgca ggatcgcctg gacgagatgt acgagcgggt 1920 actcaaagtg gtcaacccgg atgatacaca ggaacgcccg aaacgtcaaa gaaagaaagg 1980 caagtctcgt aatgccttcc gccgttatgt gtacagccag acccaggacc tgttcaagaa 2040 aaatcctgga cagctggcac gttatgttag ggaagatgtg agatggctgg aacagggccg 2100 ggtgcagttg cagagagatg atattgaaag aatgtacaac aagctgtggg gcaccaagcc 2160 ggatgtgctg cctccccact gggattatcc actgccactc gacaccgctg atgttctgac 2220 cccgattgag ctgaaagaag tccggaaaag aatatctcag acgaaactca aatctgcagc 2280 agggcccgac ggtctgcaga aaagacatct ggtgcgtcgc gttgtgcaag aaattctgcg 2340 cctgctgtat aacctgctga tgtgttgtgc aatgcagcct acacagtggc ggatgaaccg 2400 tacccaactg ttactgaagc agggtaaaga tcctctggat gtcgctagtt atcgtcctat 2460 aaccatctcc agcatccttt gtcgtctgta ctggggtata atcgaccaga agctgcgtga 2520 gcatgttcgt ttccacccac gtcagaaagg cttcgtgagc gaggcaggtt gttttaataa 2580 tgtgcaaatt ctgaatgaac tgctgcgtca cagcaagggc cagcacaaaa atctggttgc 2640 cgtgtgcctg gatgtttcta aagcatttga taccgttcct catagcatcc tcggccccgc 2700 cctgcgcatg aagggcctgc cggaacaggt cgttcgtctg gttgaagata gctacaaaga 2760 tctgcatact gtcgttaaac aggggaccgc agaagtgacg ctgagcctgc agcgtggagt 2820 gaagcagggc gaccccctga gccccttcct gttcaacgcc gtgctggagc cgctgctgct 2880 gcagctggaa agccatcctg gttataaagt gggcggtgaa ctggcctctg ttagctgtat 2940 ggcctttgca gatgatatct ttctgattgc agctaatgtt ccgcaggcct gtaccctgct 3000 gagggtcacg gaagattatc tggaaagact gggcatgcgt atcagcgccc ctaaatgtac 3060 cagctttgaa atccgtccga ccaaagatag ctggtatgtt gcagatccgg ggcttacact 3120 gaccaaagga gaacgtatcc ctgtcgctgc tgtggatgcc gtttttagct acctgggtgt 3180 tgaaattagc ccttgggcag gtatcaccag cgagggcatc gaacgggatt ggcggggtac 3240 actgcatcgt gtgcaacgcc tgccgctgaa gccccaccag aaactggaac tgatcagcag 3300 atacctggtt cctcattttc tgtataaact ggtggtgacc atccctagca taaccctgat 3360 tagacagctg gatcaggaac tgcgggttgt ggtgaagcag atctgtcatc tgcctcagag 3420 caccgccgac ggcatgatct attgtcggag agtggacggc ggtctgggta ttccgaagct 3480 ggaaattgtt accgtgacca gcatactgaa agcaggcctg aaatttagag atagccagga 3540 caaaatcatg caggcactct ggctggcatc aggtatgagc agccgtctga acagcctggc 3600 caaggcgacc agagtacaac cttggccccc gaacaatatt aaagatctgg acagacataa 3660 agttgctcgt aagaaagaag aactggcccg atgggccagt ttgaccagcc agggtaaaag 3720 cgtgaaaagc ttcgccggca gccgtaccgc caatgcatgg ctgattaaca agaagttact 3780 gaagccctct acctttatca gcgccttaag actgagaggc aatgtcgctg gagaccgtgt 3840 ggccctgaat agagcaatcc cgcaggccaa cctgatgtgc agacgttgcg gtagccagag 3900 ggaaactctg ggccacatcc tgggtatctg taccagcacc aaagccctac gtatttcacg 3960 ccatgatgag atcaagaatc tgatcgtgga cgaagcagca aagaaggacg acgaagtggc 4020 tgttacactg gagccaacca ttcgtcaccc tgttcgtggt aacctgaaac cggacctggt 4080 ggttcaaaac agagaaggcg tgtacgttgt tgacgtgaca gtgagacacg aggatggcaa 4140 cctgcttgca cagggacgtc aggataaact ggacaagtac gaagtgctgc tgccgattct 4200 gcaagaaaga ctgggtgctc ctaccggtga ggttctgccg attgttgttg gcacccgtgg 4260 cgccatgcct aaagagacag tggaagcctt gaagaaactg cgcattaccg accggcagac 4320 cctgctcacg atcagcctga ttgccctgag aatgtctgtg aaaatttatc ataccttcat 4380 ggactatgca aacgccagac cgcgtccggg cggcggtgca aactaccccc acagatgata 4440 atctagaggg cccgtttaaa cccgctgatc agcctcgact gtgccttcta gttgccagcc 4500 atctgttgtt tgcccctccc ccgtgccttc cttgaccctg gaaggtgcca ctcccactgt 4560 cctttcctaa taaaatgagg aaattgcatc gcattgtctg agtaggtgtc attctattct 4620 ggggggtggg gtggggcagg acagcaaggg ggaggattgg gaagacaata gcaggcatgc 4680 tggggatgcg gtgggctcta tggcttctga ggcggaaaga accagctggg gctctagggg 4740 gtatccccac gcgccctgta gcggcgcatt aagcgcggcg ggtgtggtgg ttacgcgcag 4800 cgtgaccgct acacttgcca gcgccctagc gcccgctcct ttcgctttct tcccttcctt 4860 tctcgccacg ttcgccggct ttccccgtca agctctaaat cgggggctcc ctttagggtt 4920 ccgatttagt gctttacggc acctcgaccc caaaaaactt gattagggtg atggttcacg 4980 tagtgggcca tcgccctgat agacggtttt tcgccctttg acgttggagt ccacgttctt 5040 taatagtgga ctcttgttcc aaactggaac aacactcaac cctatctcgg tctattcttt 5100 tgatttataa gggattttgc cgatttcggc ctattggtta aaaaatgagc tgatttaaca 5160 aaaatttaac gcgaattaat tctgtggaat gtgtgtcagt tagggtgtgg aaagtcccca 5220 ggctccccag caggcagaag tatgcaaagc atgcatctca attagtcagc aaccaggtgt 5280 ggaaagtccc caggctcccc agcaggcaga agtatgcaaa gcatgcatct caattagtca 5340 gcaaccatag tcccgcccct aactccgccc atcccgcccc taactccgcc cagttccgcc 5400 cattctccgc cccatggctg actaattttt tttatttatg cagaggccga ggccgcctct 5460 gcctctgagc tattccagaa gtagtgagga ggcttttttg gaggcctagg cttttgcaaa 5520 aagctcccgg gagcttgtat atccattttc ggatctgatc aagagacagg atgaggatcg 5580 tttcgcatga ttgaacaaga tggattgcac gcaggttctc cggccgcttg ggtggagagg 5640 ctattcggct atgactgggc acaacagaca atcggctgct ctgatgccgc cgtgttccgg 5700 ctgtcagcgc aggggcgccc ggttcttttt gtcaagaccg acctgtccgg tgccctgaat 5760 gaactgcagg acgaggcagc gcggctatcg tggctggcca cgacgggcgt tccttgcgca 5820 gctgtgctcg acgttgtcac tgaagcggga agggactggc tgctattggg cgaagtgccg 5880 gggcaggatc tcctgtcatc tcaccttgct cctgccgaga aagtatccat catggctgat 5940 gcaatgcggc ggctgcatac gcttgatccg gctacctgcc cattcgacca ccaagcgaaa 6000 catcgcatcg agcgagcacg tactcggatg gaagccggtc ttgtcgatca ggatgatctg 6060 gacgaagagc atcaggggct cgcgccagcc gaactgttcg ccaggctcaa ggcgcgcatg 6120 cccgacggcg aggatctcgt cgtgacccat ggcgatgcct gcttgccgaa tatcatggtg 6180 gaaaatggcc gcttttctgg attcatcgac tgtggccggc tgggtgtggc ggaccgctat 6240 caggacatag cgttggctac ccgtgatatt gctgaagagc ttggcggcga atgggctgac 6300 cgcttcctcg tgctttacgg tatcgccgct cccgattcgc agcgcatcgc cttctatcgc 6360 cttcttgacg agttcttctg agcgggactc tggggttcga aatgaccgac caagcgacgc 6420 ccaacctgcc atcacgagat ttcgattcca ccgccgcctt ctatgaaagg ttgggcttcg 6480 gaatcgtttt ccgggacgcc ggctggatga tcctccagcg cggggatctc atgctggagt 6540 tcttcgccca ccccaacttg tttattgcag cttataatgg ttacaaataa agcaatagca 6600 tcacaaattt cacaaataaa gcattttttt cactgcattc tagttgtggt ttgtccaaac 6660 tcatcaatgt atcttatcat gtctgtatac cgtcgacctc tagctagagc ttggcgtaat 6720 catggtcata gctgtttcct gtgtgaaatt gttatccgct cacaattcca cacaacatac 6780 gagccggaag cataaagtgt aaagcctggg gtgcctaatg agtgagctaa ctcacattaa 6840 ttgcgttgcg ctcactgccc gctttccagt cgggaaacct gtcgtgccag ctgcattaat 6900 gaatcggcca acgcgcgggg agaggcggtt tgcgtattgg gcgctcttcc gcttcctcgc 6960 tcactgactc gctgcgctcg gtcgttcggc tgcggcgagc ggtatcagct cactcaaagg 7020 cggtaatacg gttatccaca gaatcagggg ataacgcagg aaagaacatg tgagcaaaag 7080 gccagcaaaa ggccaggaac cgtaaaaagg ccgcgttgct ggcgtttttc cataggctcc 7140 gcccccctga cgagcatcac aaaaatcgac gctcaagtca gaggtggcga aacccgacag 7200 gactataaag ataccaggcg tttccccctg gaagctccct cgtgcgctct cctgttccga 7260 ccctgccgct taccggatac ctgtccgcct ttctcccttc gggaagcgtg gcgctttctc 7320 atagctcacg ctgtaggtat ctcagttcgg tgtaggtcgt tcgctccaag ctgggctgtg 7380 tgcacgaacc ccccgttcag cccgaccgct gcgccttatc cggtaactat cgtcttgagt 7440 ccaacccggt aagacacgac ttatcgccac tggcagcagc cactggtaac aggattagca 7500 gagcgaggta tgtaggcggt gctacagagt tcttgaagtg gtggcctaac tacggctaca 7560 ctagaagaac agtatttggt atctgcgctc tgctgaagcc agttaccttc ggaaaaagag 7620 ttggtagctc ttgatccggc aaacaaacca ccgctggtag cggtggtttt tttgtttgca 7680 agcagcagat tacgcgcaga aaaaaaggat ctcaagaaga tcctttgatc ttttctacgg 7740 ggtctgacgc tcagtggaac gaaaactcac gttaagggat tttggtcatg agattatcaa 7800 aaaggatctt cacctagatc cttttaaatt aaaaatgaag ttttaaatca atctaaagta 7860 tatatgagta aacttggtct gacagttacc aatgcttaat cagtgaggca cctatctcag 7920 cgatctgtct atttcgttca tccatagttg cctgactccc cgtcgtgtag ataactacga 7980 tacgggaggg cttaccatct ggccccagtg ctgcaatgat accgcgagac ccacgctcac 8040 cggctccaga tttatcagca ataaaccagc cagccggaag ggccgagcgc agaagtggtc 8100 ctgcaacttt atccgcctcc atccagtcta ttaattgttg ccgggaagct agagtaagta 8160 gttcgccagt taatagtttg cgcaacgttg ttgccattgc tacaggcatc gtggtgtcac 8220 gctcgtcgtt tggtatggct tcattcagct ccggttccca acgatcaagg cgagttacat 8280 gatcccccat gttgtgcaaa aaagcggtta gctccttcgg tcctccgatc gttgtcagaa 8340 gtaagttggc cgcagtgtta tcactcatgg ttatggcagc actgcataat tctcttactg 8400 tcatgccatc cgtaagatgc ttttctgtga ctggtgagta ctcaaccaag tcattctgag 8460 aatagtgtat gcggcgaccg agttgctctt gcccggcgtc aatacgggat aataccgcgc 8520 cacatagcag aactttaaaa gtgctcatca ttggaaaacg ttcttcgggg cgaaaactct 8580 caaggatctt accgctgttg agatccagtt cgatgtaacc cactcgtgca cccaactgat 8640 cttcagcatc ttttactttc accagcgttt ctgggtgagc aaaaacagga aggcaaaatg 8700 ccgcaaaaaa gggaataagg gcgacacgga aatgttgaat actcatactc ttcctttttc 8760 aatattattg aagcatttat cagggttatt gtctcatgag cggatacata tttgaatgta 8820 tttagaaaaa taaacaaata ggggttccgc gcacatttcc ccgaaaagtg ccacctgacg 8880 tc 8882 <210> 53 <211> 689 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 53 gaaattaata cgactcacta tagggagtaa ctatgactct cttaaggtaa aatctcctga 60 ccaactagct cactgactaa ttttaaactg tcctgtctta cttgttttac acgtgctctg 120 tggcggggcc atttacaccc cgtcgcaaca caacctgtaa atacttgtgt atgtctgttt 180 atgtcctaat ttattatttt aaacagatct tggccatggt ctcggccaac caattaaagt 240 cagtgatgcg agtcgcaatg cggagcaaga gacctaggcg tgtatttatt gctggcatgc 300 ggcgccggag ccggtcatct gctatgggga gcaatggccg ggcggatacc tccacgtggt 360 tccctgtggg tggcccgtcg aggacggtaa ccagcgaaac tccgtaaagt ccttcttacg 420 agaaggaact ccggttaaag atttttccaa gcctgtacac gtgattccct tggaacaagc 480 aaagtgtggt tccctcgaga gggcccaggt caggagttcg caatagtggg ctgcaagagt 540 tcatgctggg ctacagtgtc aggacgaaga gtgggtagtg atcgcaaaat cacgtgaata 600 gctacccccc gcctggcacc actagacaac aacaaggggt acgacagctc ttctgtcgaa 660 agttcgggcg cacacccgta aaaggtagc 689 <210> 54 <211> 711 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 54 gaaattaata cgactcacta tagggagtaa ctatgactct cttaaggtaa aatctcctga 60 ccaactagct cactgactaa ttttaaactg tcctgtctta cttgttttac acgtgctctg 120 tggcggggcc atttacaccc cgtcgcaaca caacctgtaa atacttgtgt atgtctgttt 180 atgtcctaat ttattatttt aaacagatct tggccatggt ctcggccaac caattaaagt 240 cagtgatgcg agtcgcaatg cggagcaaga gacctaggcg tgtatttatt gctggcatgc 300 ggcgccggag ccggtcatct gctatgggga gcaatggccg ggcggatacc tccacgtggt 360 tccctgtggg tggcccgtcg aggacggtaa ccagcgaaac tccgtaaagt ccttcttacg 420 agaaggaact ccggttaaag atttttccaa gcctgtacac gtgattccct tggaacaagc 480 aaagtgtggt tccctcgaga gggcccaggt caggagttcg caatagtggg ctgcaagagt 540 tcatgctggg ctacagtgtc aggacgaaga gtgggtagtg atcgcaaaat cacgtgaata 600 gctacccccc gcctggcacc actagacaac aacaaggggt acgacagctc ttctgtcgaa 660 agttcgggcg cacacccgta aaaggtagca aaaaaaaaaa aaaaaaaaaa a 711 <210> 55 <211> 695 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 55 gaaattaata cgactcacta tagggagtaa ctatgactct cttaaggtaa aatctcctga 60 ccaactagct cactgactaa ttttaaactg tcctgtctta cttgttttac acgtgctctg 120 tggcggggcc atttacaccc cgtcgcaaca caacctgtaa atacttgtgt atgtctgttt 180 atgtcctaat ttattatttt aaacagatct tggccatggt ctcggccaac caattaaagt 240 cagtgatgcg agtcgcaatg cggagcaaga gacctaggcg tgtatttatt gctggcatgc 300 ggcgccggag ccggtcatct gctatgggga gcaatggccg ggcggatacc tccacgtggt 360 tccctgtggg tggcccgtcg aggacggtaa ccagcgaaac tccgtaaagt ccttcttacg 420 agaaggaact ccggttaaag atttttccaa gcctgtacac gtgattccct tggaacaagc 480 aaagtgtggt tccctcgaga gggcccaggt caggagttcg caatagtggg ctgcaagagt 540 tcatgctggg ctacagtgtc aggacgaaga gtgggtagtg atcgcaaaat cacgtgaata 600 gctacccccc gcctggcacc actagacaac aacaaggggt acgacagctc ttctgtcgaa 660 agttcgggcg cacacccgta aaaggtagcc aaatg 695 <210> 56 <211> 526 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 56 gaaattaata cgactcacta tagggaacgg cgggagtaac tatgactctc ttaacgcaca 60 ggggacacag agcctgccca agtaccgctc ccgagggagc gggaaacggg ggggtgacta 120 tcccctgggg tccggcgaga gcgctggtct acggaccagg ggtggctgtg ggcaggctgc 180 tcctcaggcc agttgattag ttacgcatgg gctgtacctc cacgtggtcc cgctggtaac 240 gacttgtcgg ctaaatcagc ccgcccacca tctgggatat ggttgaccgt ctaaccccag 300 tactcaggtc acaaacaaaa tgggaacaga tacagtgtat gtcggccagg actacccttc 360 tggcttatca aaacgggtac cagcacggtt gagggggaca gctgggagtc tcggcatgat 420 tacaaatctt gcgctgcact cggatgtcgt ccccgtgacg gacacattaa tccggaaagc 480 gagtggtgac tcgcctcaag tagcaaaaaa aaaaaaaaaa aaaaaa 526 <210> 57 <211> 191 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 57 gaaattaata cgactcacta tagggaacgg cgggagtaac tatgactctc ttaatgaggg 60 ggacagctgg gagtctcggc atgattacaa atcttgcgct gcactcggat gtcgtccccg 120 tgacggacac attaatccgg aaagcgagtg gtgactcgcc tcaagtagca aaaaaaaaaa 180 aaaaaaaaaa a 191 <210> 58 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 58 gacagctggg agtctcggca tg 22 <210> 59 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 59 ccgttccctt ggctgtggtt tcgc 24 <210> 60 <211> 44 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 60 aaaagctggg taccgggccc caaatcttgc gctgcactcg gatg 44 <210> 61 <211> 49 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 61 attggagctc caccgcggtg ccattcatgc gcgtcactaa ttagatgac 49 <210> 62 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 62 ctagcagccg acttagaact ggtgcgg 27 <210> 63 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 63 cttgaggcga gtcaccactc gc 22 <210> 64 <211> 689 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 64 gaaattaata cgactcacta tagggagtaa ctatgactct cttaaggtaa aatctcctga 60 ccaactagct cactgactaa ttttaaactg tcctgtctta cttgttttac acgtgctctg 120 tggcggggcc atttacaccc cgtcgcaaca caacctgtaa atacttgtgt atgtctgttt 180 atgtcctaat ttattatttt aaacagatct tggccatggt ctcggccaac caattaaagt 240 cagtgatgcg agtcgcaatg cggagcaaga gacctaggcg tgtatttatt gctggcatgc 300 ggcgccggag ccggtcatct gctatgggga gcaatggccg ggcggatacc tccacgtggt 360 tccctgtggg tggcccgtcg aggacggtaa ccagcgaaac tccgtaaagt ccttcttacg 420 agaaggaact ccggttaaag atttttccaa gcctgtacac gtgattccct tggaacaagc 480 aaagtgtggt tccctcgaga gggcccaggt caggagttcg caatagtggg ctgcaagagt 540 tcatgctggg ctacagtgtc aggacgaaga gtgggtagtg atcgcaaaat cacgtgaata 600 gctacccccc gcctggcacc actagacaac aacaaggggt acgacagctc ttctgtcgaa 660 agttcgggcg cacacccgta aaaggtagc 689 <210> 65 <211> 695 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 65 gaaattaata cgactcacta tagggagtaa ctatgactct cttaaggtaa aatctcctga 60 ccaactagct cactgactaa ttttaaactg tcctgtctta cttgttttac acgtgctctg 120 tggcggggcc atttacaccc cgtcgcaaca caacctgtaa atacttgtgt atgtctgttt 180 atgtcctaat ttattatttt aaacagatct tggccatggt ctcggccaac caattaaagt 240 cagtgatgcg agtcgcaatg cggagcaaga gacctaggcg tgtatttatt gctggcatgc 300 ggcgccggag ccggtcatct gctatgggga gcaatggccg ggcggatacc tccacgtggt 360 tccctgtggg tggcccgtcg aggacggtaa ccagcgaaac tccgtaaagt ccttcttacg 420 agaaggaact ccggttaaag atttttccaa gcctgtacac gtgattccct tggaacaagc 480 aaagtgtggt tccctcgaga gggcccaggt caggagttcg caatagtggg ctgcaagagt 540 tcatgctggg ctacagtgtc aggacgaaga gtgggtagtg atcgcaaaat cacgtgaata 600 gctacccccc gcctggcacc actagacaac aacaaggggt acgacagctc ttctgtcgaa 660 agttcgggcg cacacccgta aaaggtagcc aaatg 695 <210> 66 <211> 711 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 66 gaaattaata cgactcacta tagggagtaa ctatgactct cttaaggtaa aatctcctga 60 ccaactagct cactgactaa ttttaaactg tcctgtctta cttgttttac acgtgctctg 120 tggcggggcc atttacaccc cgtcgcaaca caacctgtaa atacttgtgt atgtctgttt 180 atgtcctaat ttattatttt aaacagatct tggccatggt ctcggccaac caattaaagt 240 cagtgatgcg agtcgcaatg cggagcaaga gacctaggcg tgtatttatt gctggcatgc 300 ggcgccggag ccggtcatct gctatgggga gcaatggccg ggcggatacc tccacgtggt 360 tccctgtggg tggcccgtcg aggacggtaa ccagcgaaac tccgtaaagt ccttcttacg 420 agaaggaact ccggttaaag atttttccaa gcctgtacac gtgattccct tggaacaagc 480 aaagtgtggt tccctcgaga gggcccaggt caggagttcg caatagtggg ctgcaagagt 540 tcatgctggg ctacagtgtc aggacgaaga gtgggtagtg atcgcaaaat cacgtgaata 600 gctacccccc gcctggcacc actagacaac aacaaggggt acgacagctc ttctgtcgaa 660 agttcgggcg cacacccgta aaaggtagca aaaaaaaaaa aaaaaaaaaa a 711 <210> 67 <211> 1079 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 67 gaaattaata cgactcacta tagggagtaa ctatgactct cttaagggaa gaccccgccc 60 atgaggcttg gagagtgtga tcctgatcag atcacacttg aaaagttatg ctgagtacgt 120 ccgcgtcgtg agagtcggta actgtcccag gatggtctgg gataggctaa acctcagcag 180 gggaaagttg taggggcctg ccacccctac actttattgg tatggcattc gataccccta 240 acgaagcctc ggacttggag gagcacggtt cccctcctcc tcgtattaga ccaggaacca 300 actgtcctga caaccccatt ggacctatgg gagcggacca tgctatggac atggattccg 360 aagacgaagc gggggcacac ggaccccccg ccgatagtgc tcacttaacg tcaggcgaac 420 cccttgaaat catcttgtaa aatctcctga ccaactagct cactgactaa ttttaaactg 480 tcctgtctta cttgttttac acgtgctctg tggcggggcc atttacaccc cgtcgcaaca 540 caacctgtaa atacttgtgt atgtctgttt atgtcctaat ttattatttt aaacagatct 600 tggccatggt ctcggccaac caattaaagt cagtgatgcg agtcgcaatg cggagcaaga 660 gacctaggcg tgtatttatt gctggcatgc ggcgccggag ccggtcatct gctatgggga 720 gcaatggccg ggcggatacc tccacgtggt tccctgtggg tggcccgtcg aggacggtaa 780 ccagcgaaac tccgtaaagt ccttcttacg agaaggaact ccggttaaag atttttccaa 840 gcctgtacac gtgattccct tggaacaagc aaagtgtggt tccctcgaga gggcccaggt 900 caggagttcg caatagtggg ctgcaagagt tcatgctggg ctacagtgtc aggacgaaga 960 gtgggtagtg atcgcaaaat cacgtgaata gctacccccc gcctggcacc actagacaac 1020 aacaaggggt acgacagctc ttctgtcgaa agttcgggcg cacacccgta aaaggtagc 1079 <210> 68 <211> 1085 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 68 gaaattaata cgactcacta tagggagtaa ctatgactct cttaagggaa gaccccgccc 60 atgaggcttg gagagtgtga tcctgatcag atcacacttg aaaagttatg ctgagtacgt 120 ccgcgtcgtg agagtcggta actgtcccag gatggtctgg gataggctaa acctcagcag 180 gggaaagttg taggggcctg ccacccctac actttattgg tatggcattc gataccccta 240 acgaagcctc ggacttggag gagcacggtt cccctcctcc tcgtattaga ccaggaacca 300 actgtcctga caaccccatt ggacctatgg gagcggacca tgctatggac atggattccg 360 aagacgaagc gggggcacac ggaccccccg ccgatagtgc tcacttaacg tcaggcgaac 420 cccttgaaat catcttgtaa aatctcctga ccaactagct cactgactaa ttttaaactg 480 tcctgtctta cttgttttac acgtgctctg tggcggggcc atttacaccc cgtcgcaaca 540 caacctgtaa atacttgtgt atgtctgttt atgtcctaat ttattatttt aaacagatct 600 tggccatggt ctcggccaac caattaaagt cagtgatgcg agtcgcaatg cggagcaaga 660 gacctaggcg tgtatttatt gctggcatgc ggcgccggag ccggtcatct gctatgggga 720 gcaatggccg ggcggatacc tccacgtggt tccctgtggg tggcccgtcg aggacggtaa 780 ccagcgaaac tccgtaaagt ccttcttacg agaaggaact ccggttaaag atttttccaa 840 gcctgtacac gtgattccct tggaacaagc aaagtgtggt tccctcgaga gggcccaggt 900 caggagttcg caatagtggg ctgcaagagt tcatgctggg ctacagtgtc aggacgaaga 960 gtgggtagtg atcgcaaaat cacgtgaata gctacccccc gcctggcacc actagacaac 1020 aacaaggggt acgacagctc ttctgtcgaa agttcgggcg cacacccgta aaaggtagcc 1080 aaatg 1085 <210> 69 <211> 1101 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 69 gaaattaata cgactcacta tagggagtaa ctatgactct cttaagggaa gaccccgccc 60 atgaggcttg gagagtgtga tcctgatcag atcacacttg aaaagttatg ctgagtacgt 120 ccgcgtcgtg agagtcggta actgtcccag gatggtctgg gataggctaa acctcagcag 180 gggaaagttg taggggcctg ccacccctac actttattgg tatggcattc gataccccta 240 acgaagcctc ggacttggag gagcacggtt cccctcctcc tcgtattaga ccaggaacca 300 actgtcctga caaccccatt ggacctatgg gagcggacca tgctatggac atggattccg 360 aagacgaagc gggggcacac ggaccccccg ccgatagtgc tcacttaacg tcaggcgaac 420 cccttgaaat catcttgtaa aatctcctga ccaactagct cactgactaa ttttaaactg 480 tcctgtctta cttgttttac acgtgctctg tggcggggcc atttacaccc cgtcgcaaca 540 caacctgtaa atacttgtgt atgtctgttt atgtcctaat ttattatttt aaacagatct 600 tggccatggt ctcggccaac caattaaagt cagtgatgcg agtcgcaatg cggagcaaga 660 gacctaggcg tgtatttatt gctggcatgc ggcgccggag ccggtcatct gctatgggga 720 gcaatggccg ggcggatacc tccacgtggt tccctgtggg tggcccgtcg aggacggtaa 780 ccagcgaaac tccgtaaagt ccttcttacg agaaggaact ccggttaaag atttttccaa 840 gcctgtacac gtgattccct tggaacaagc aaagtgtggt tccctcgaga gggcccaggt 900 caggagttcg caatagtggg ctgcaagagt tcatgctggg ctacagtgtc aggacgaaga 960 gtgggtagtg atcgcaaaat cacgtgaata gctacccccc gcctggcacc actagacaac 1020 aacaaggggt acgacagctc ttctgtcgaa agttcgggcg cacacccgta aaaggtagca 1080 aaaaaaaaaa aaaaaaaaaa a 1101 <210> 70 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 70 ctcctgacca actagctcac tgactaattt taaac 35 <210> 71 <211> 34 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 71 ccacttattc tacacctctc atgtctcttc accg 34 <210> 72 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 72 cttcgtcttc ggaatccatg tccatagc 28 <210> 73 <211> 5428 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 73 gacggatcgg gagatctccc gatcccctat ggtgcactct cagtacaatc tgctctgatg 60 ccgcatagtt aagccagtat ctgctccctg cttgtgtgtt ggaggtcgct gagtagtgcg 120 cgagcaaaat ttaagctaca acaaggcaag gcttgaccga caattgcatg aagaatctgc 180 ttagggttag gcgttttgcg ctgcttcgcg atgtacgggc cagatatacg cgttgacatt 240 gattattgac tagttattaa tagtaatcaa ttacggggtc attagttcat agcccatata 300 tggagttccg cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc 360 cccgcccatt gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc 420 attgacgtca atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt 480 atcatatgcc aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt 540 atgcccagta catgacctta tgggactttc ctacttggca gtacatctac gtattagtca 600 tcgctattac catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg 660 actcacgggg atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc 720 aaaatcaacg ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg 780 gtaggcgtgt acggtgggag gtctatataa gcagagctct ctggctaact agagaaccca 840 ctgcttactg gcttatcgaa attaatacga ctcactatag ggagacccaa gctggctagc 900 gtttaaactt aagcttggta ccgagctcgg atccactagt ccagtgtggt ggaattctgc 960 agatatccag cacagtggcg gccgctcgag tctagagggc ccgtttaaac ccgctgatca 1020 gcctcgactg tgccttctag ttgccagcca tctgttgttt gcccctcccc cgtgccttcc 1080 ttgaccctgg aaggtgccac tcccactgtc ctttcctaat aaaatgagga aattgcatcg 1140 cattgtctga gtaggtgtca ttctattctg gggggtgggg tggggcagga cagcaagggg 1200 gaggattggg aagacaatag caggcatgct ggggatgcgg tgggctctat ggcttctgag 1260 gcggaaagaa ccagctgggg ctctaggggg tatccccacg cgccctgtag cggcgcatta 1320 agcgcggcgg gtgtggtggt tacgcgcagc gtgaccgcta cacttgccag cgccctagcg 1380 cccgctcctt tcgctttctt cccttccttt ctcgccacgt tcgccggctt tccccgtcaa 1440 gctctaaatc gggggctccc tttagggttc cgatttagtg ctttacggca cctcgacccc 1500 aaaaaacttg attagggtga tggttcacgt agtgggccat cgccctgata gacggttttt 1560 cgccctttga cgttggagtc cacgttcttt aatagtggac tcttgttcca aactggaaca 1620 acactcaacc ctatctcggt ctattctttt gatttataag ggattttgcc gatttcggcc 1680 tattggttaa aaaatgagct gatttaacaa aaatttaacg cgaattaatt ctgtggaatg 1740 tgtgtcagtt agggtgtgga aagtccccag gctccccagc aggcagaagt atgcaaagca 1800 tgcatctcaa ttagtcagca accaggtgtg gaaagtcccc aggctcccca gcaggcagaa 1860 gtatgcaaag catgcatctc aattagtcag caaccatagt cccgccccta actccgccca 1920 tcccgcccct aactccgccc agttccgccc attctccgcc ccatggctga ctaatttttt 1980 ttatttatgc agaggccgag gccgcctctg cctctgagct attccagaag tagtgaggag 2040 gcttttttgg aggcctaggc ttttgcaaaa agctcccggg agcttgtata tccattttcg 2100 gatctgatca agagacagga tgaggatcgt ttcgcatgat tgaacaagat ggattgcacg 2160 caggttctcc ggccgcttgg gtggagaggc tattcggcta tgactgggca caacagacaa 2220 tcggctgctc tgatgccgcc gtgttccggc tgtcagcgca ggggcgcccg gttctttttg 2280 tcaagaccga cctgtccggt gccctgaatg aactgcagga cgaggcagcg cggctatcgt 2340 ggctggccac gacgggcgtt ccttgcgcag ctgtgctcga cgttgtcact gaagcgggaa 2400 gggactggct gctattgggc gaagtgccgg ggcaggatct cctgtcatct caccttgctc 2460 ctgccgagaa agtatccatc atggctgatg caatgcggcg gctgcatacg cttgatccgg 2520 ctacctgccc attcgaccac caagcgaaac atcgcatcga gcgagcacgt actcggatgg 2580 aagccggtct tgtcgatcag gatgatctgg acgaagagca tcaggggctc gcgccagccg 2640 aactgttcgc caggctcaag gcgcgcatgc ccgacggcga ggatctcgtc gtgacccatg 2700 gcgatgcctg cttgccgaat atcatggtgg aaaatggccg cttttctgga ttcatcgact 2760 gtggccggct gggtgtggcg gaccgctatc aggacatagc gttggctacc cgtgatattg 2820 ctgaagagct tggcggcgaa tgggctgacc gcttcctcgt gctttacggt atcgccgctc 2880 ccgattcgca gcgcatcgcc ttctatcgcc ttcttgacga gttcttctga gcgggactct 2940 ggggttcgaa atgaccgacc aagcgacgcc caacctgcca tcacgagatt tcgattccac 3000 cgccgccttc tatgaaaggt tgggcttcgg aatcgttttc cgggacgccg gctggatgat 3060 cctccagcgc ggggatctca tgctggagtt cttcgcccac cccaacttgt ttattgcagc 3120 ttataatggt tacaaataaa gcaatagcat cacaaatttc acaaataaag catttttttc 3180 actgcattct agttgtggtt tgtccaaact catcaatgta tcttatcatg tctgtatacc 3240 gtcgacctct agctagagct tggcgtaatc atggtcatag ctgtttcctg tgtgaaattg 3300 ttatccgctc acaattccac acaacatacg agccggaagc ataaagtgta aagcctgggg 3360 tgcctaatga gtgagctaac tcacattaat tgcgttgcgc tcactgcccg ctttccagtc 3420 gggaaacctg tcgtgccagc tgcattaatg aatcggccaa cgcgcgggga gaggcggttt 3480 gcgtattggg cgctcttccg cttcctcgct cactgactcg ctgcgctcgg tcgttcggct 3540 gcggcgagcg gtatcagctc actcaaaggc ggtaatacgg ttatccacag aatcagggga 3600 taacgcagga aagaacatgt gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc 3660 cgcgttgctg gcgtttttcc ataggctccg cccccctgac gagcatcaca aaaatcgacg 3720 ctcaagtcag aggtggcgaa acccgacagg actataaaga taccaggcgt ttccccctgg 3780 aagctccctc gtgcgctctc ctgttccgac cctgccgctt accggatacc tgtccgcctt 3840 tctcccttcg ggaagcgtgg cgctttctca tagctcacgc tgtaggtatc tcagttcggt 3900 gtaggtcgtt cgctccaagc tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg 3960 cgccttatcc ggtaactatc gtcttgagtc caacccggta agacacgact tatcgccact 4020 ggcagcagcc actggtaaca ggattagcag agcgaggtat gtaggcggtg ctacagagtt 4080 cttgaagtgg tggcctaact acggctacac tagaagaaca gtatttggta tctgcgctct 4140 gctgaagcca gttaccttcg gaaaaagagt tggtagctct tgatccggca aacaaaccac 4200 cgctggtagc ggtttttttg tttgcaagca gcagattacg cgcagaaaaa aaggatctca 4260 agaagatcct ttgatctttt ctacggggtc tgacgctcag tggaacgaaa actcacgtta 4320 agggattttg gtcatgagat tatcaaaaag gatcttcacc tagatccttt taaattaaaa 4380 atgaagtttt aaatcaatct aaagtatata tgagtaaact tggtctgaca gttaccaatg 4440 cttaatcagt gaggcaccta tctcagcgat ctgtctattt cgttcatcca tagttgcctg 4500 actccccgtc gtgtagataa ctacgatacg ggagggctta ccatctggcc ccagtgctgc 4560 aatgataccg cgagacccac gctcaccggc tccagattta tcagcaataa accagccagc 4620 cggaagggcc gagcgcagaa gtggtcctgc aactttatcc gcctccatcc agtctattaa 4680 ttgttgccgg gaagctagag taagtagttc gccagttaat agtttgcgca acgttgttgc 4740 cattgctaca ggcatcgtgg tgtcacgctc gtcgtttggt atggcttcat tcagctccgg 4800 ttcccaacga tcaaggcgag ttacatgatc ccccatgttg tgcaaaaaag cggttagctc 4860 cttcggtcct ccgatcgttg tcagaagtaa gttggccgca gtgttatcac tcatggttat 4920 ggcagcactg cataattctc ttactgtcat gccatccgta agatgctttt ctgtgactgg 4980 tgagtactca accaagtcat tctgagaata gtgtatgcgg cgaccgagtt gctcttgccc 5040 ggcgtcaata cgggataata ccgcgccaca tagcagaact ttaaaagtgc tcatcattgg 5100 aaaacgttct tcggggcgaa aactctcaag gatcttaccg ctgttgagat ccagttcgat 5160 gtaacccact cgtgcaccca actgatcttc agcatctttt actttcacca gcgtttctgg 5220 gtgagcaaaa acaggaaggc aaaatgccgc aaaaaaggga ataagggcga cacggaaatg 5280 ttgaatactc atactcttcc tttttcaata ttattgaagc atttatcagg gttattgtct 5340 catgagcgga tacatatttg aatgtattta gaaaaataaa caaatagggg ttccgcgcac 5400 atttccccga aaagtgccac ctgacgtc 5428 <210> 74 <211> 1338 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 74 ucgaccagau guccgagguc gaccaguugu ccggaauucu accggguagg ggaggcgcuu 60 uucccaaggc agucuggagc augcgcuuua gcagccccgc ugggcacuug gcgcuacaca 120 aguggccucu ggccucgcac acauuccaca uccaccggua ggcgccaacc ggcuccguuc 180 uuugguggcc ccuucgcgcc accuucuacu ccuccccuag ucaggaaguu cccccccgcc 240 ccgcagcucg cgucgugcag gacgugacaa auggaaguag cacgucucac uagucucgug 300 cagauggaca gcaccgcuga gcaauggaag cggguaggcc uuuggggcag cggccaauag 360 cagcuuugcu ccuucgcuuu cugggcucag gggcggggcg ggcgcccgaa gguccuccgg 420 aggcccggca uucugcacgc uucaaaagcg cacgucugcc gcgcuguucu ccucuuccuc 480 aucuccgggc cuuucgaccu gcaucccgcc accaugaccg aguacaagcc cacggugcgc 540 cucgccaccc gcgacgacgu ccccagggcc guacgcaccc ucgccgccgc guucgccgac 600 uaccccgcca cgcgccacac cgucgauccg gaccgccaca ucgagcgggu caccgagcug 660 caagaacucu uccucacgcg cgucgggcuc gacaucggca aggugugggu cgcggacgac 720 ggcgccgcgg uggcggucug gaccacgccg gagagcgucg aagcgggggc gguguucgcc 780 gagaucggcc cgcgcauggc cgaguugagc gguucccggc uggccgcgca gcaacagaug 840 gaaggccucc uggcgccgca ccggcccaag gagcccgcgu gguuccuggc caccgucggc 900 gucucgcccg accaccaggg caagggucug ggcagcgccg ucgugcuccc cggaguggag 960 gcggccgagc gcgccggggu gcccgccuuc cuggagaccu ccgcgccccg caaccucccc 1020 uucuacgagc ggcucggcuu caccgucacc gccgacgucg aggugcccga aggaccgcgc 1080 accuggugca ugacccgcaa gcccggugcc ugacugugcc uucuaguugc cagccaucug 1140 uuguuugccc cucccccgug ccuuccuuga cccuggaagg ugccacuccc acuguccuuu 1200 ccuaauaaaa ugaggaaauu gcaucgcauu gucugaguag gugucauucu auucuggggg 1260 gugggguggg gcaggacagc aagggggagg auugggaaga caauagcagg caugcugggg 1320 augcgguggg cucuaugg 1338 <210> 75 <211> 5034 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 75 tcgccttgat cgttgggaac cggagctgaa tgaagccata ccaaacgacg agcgtgacac 60 cacgatgcct gtagcaatgg caacaacgtt gcgcaaacta ttaactggcg aactacttac 120 tctagcttcc cggcaacaat taatagactg gatggaggcg gataaagttg caggaccact 180 tctgcgctcg gcccttccgg ctggctggtt tattgctgat aaatctggag ccggtgagcg 240 tgggtctcgc ggtatcattg cagcactggg gccagatggt aagccctccc gtatcgtagt 300 tatctacacg acggggagtc aggcaactat ggatgaacga aatagacaga tcgctgagat 360 aggtgcctca ctgattaagc attggtaact gtcagaccaa gtttactcat atatacttta 420 gattgattta aaacttcatt tttaatttaa aaggatctag gtgaagatcc tttttgataa 480 tctcatgacc aaaatccctt aacgtgagtt ttcgttccac tgagcgtcag accccgtaga 540 aaagatcaaa ggatcttctt gagatccttt ttttctgcgc gtaatctgct gcttgcaaac 600 aaaaaaacca ccgctaccag cggtggtttg tttgccggat caagagctac caactctttt 660 tccgaaggta actggcttca gcagagcgca gataccaaat actgtccttc tagtgtagcc 720 gtagttaggc caccacttca agaactctgt agcaccgcct acatacctcg ctctgctaat 780 cctgttacca gtggctgctg ccagtggcga taagtcgtgt cttaccgggt tggactcaag 840 acgatagtta ccggataagg cgcagcggtc gggctgaacg gggggttcgt gcacacagcc 900 cagcttggag cgaacgacct acaccgaact gagataccta cagcgtgagc tatgagaaag 960 cgccacgctt cccgaaggga gaaaggcgga caggtatccg gtaagcggca gggtcggaac 1020 aggagagcgc acgagggagc ttccaggggg aaacgcctgg tatctttata gtcctgtcgg 1080 gtttcgccac ctctgacttg agcgtcgatt tttgtgatgc tcgtcagggg ggcggagcct 1140 atggaaaaac gccagcaacg cggccttttt acggttcctg gccttttgct ggccttttgc 1200 tcacatgttc tttcctgcgt tatcccctga ttctgtggat aaccgtatta ccgcctttga 1260 gtgagctgat accgctcgcc gcagccgaac gaccgagcgc agcgagtcag tgagcgagga 1320 agcggaagag cgcccaatac gcaaaccgcc tctccccgcg cgttggccga ttcattaatg 1380 cagctggcac gacaggtttc ccgactggaa agcgggcagt gagcgcaacg caattaatgt 1440 gagttagctc actcattagg caccccaggc tttacacttt atgcttccgg ctcgtatgtt 1500 gtgtggaatt gtgagcggat aacaatttca cacaggaaac agctatgacc atgattacgc 1560 caagcttgca tgcctgcagg tcgactctag agaaattaat acgactcact atagggaacg 1620 gcgggagtaa ctatgactct cttaacgcac aggggacaca gagcctgccc aagtaccgct 1680 cccgagggag cgggaaacgg gggggtgact atcccctggg gtccggcgag agcgctggtc 1740 tacggaccag gggtggctgt gggcaggctg ctcctcaggc cagttgatta gttacgcatg 1800 ggctgtacct ccacgtggtc ccgctggtaa cgacttgtcg gctaaatcag cccgcccacc 1860 atctgggata tggttgaccg tctaacccca gtactcaggt cacaaacaaa atgggaacag 1920 atacagtgta tgtcggccag gactaccctt ctggcttatc aaaacgggta ccagcacgga 1980 ggtcgaccag atgtccgagg tcgaccagtt gtccggaatt ctaccgggta ggggaggcgc 2040 ttttcccaag gcagtctgga gcatgcgctt tagcagcccc gctgggcact tggcgctaca 2100 caagtggcct ctggcctcgc acacattcca catccaccgg taggcgccaa ccggctccgt 2160 tctttggtgg ccccttcgcg ccaccttcta ctcctcccct agtcaggaag ttcccccccg 2220 ccccgcagct cgcgtcgtgc aggacgtgac aaatggaagt agcacgtctc actagtctcg 2280 tgcagatgga cagcaccgct gagcaatgga agcgggtagg cctttggggc agcggccaat 2340 agcagctttg ctccttcgct ttctgggctc aggggcgggg cgggcgcccg aaggtcctcc 2400 ggaggcccgg cattctgcac gcttcaaaag cgcacgtctg ccgcgctgtt ctcctcttcc 2460 tcatctccgg gcctttcgac ctgcatcccg ccaccatgac cgagtacaag cccacggtgc 2520 gcctcgccac ccgcgacgac gtccccaggg ccgtacgcac cctcgccgcc gcgttcgccg 2580 actaccccgc cacgcgccac accgtcgatc cggaccgcca catcgagcgg gtcaccgagc 2640 tgcaagaact cttcctcacg cgcgtcgggc tcgacatcgg caaggtgtgg gtcgcggacg 2700 acggcgccgc ggtggcggtc tggaccacgc cggagagcgt cgaagcgggg gcggtgttcg 2760 ccgagatcgg cccgcgcatg gccgagttga gcggttcccg gctggccgcg cagcaacaga 2820 tggaaggcct cctggcgccg caccggccca aggagcccgc gtggttcctg gccaccgtcg 2880 gcgtctcgcc cgaccaccag ggcaagggtc tgggcagcgc cgtcgtgctc cccggagtgg 2940 aggcggccga gcgcgccggg gtgcccgcct tcctggagac ctccgcgccc cgcaacctcc 3000 ccttctacga gcggctcggc ttcaccgtca ccgccgacgt cgaggtgccc gaaggaccgc 3060 gcacctggtg catgacccgc aagcccggtg cctgactgtg ccttctagtt gccagccatc 3120 tgttgtttgc ccctcccccg tgccttcctt gaccctggaa ggtgccactc ccactgtcct 3180 ttcctaataa aatgaggaaa ttgcatcgca ttgtctgagt aggtgtcatt ctattctggg 3240 gggtggggtg gggcaggaca gcaaggggga ggattgggaa gacaatagca ggcatgctgg 3300 ggatgcggtg ggctctatgg tgagggggac agctgggagt ctcggcatga ttacaaatct 3360 tgcgctgcac tcggatgtcg tccccgtgac ggacacatta atccggaaag cgagtggtga 3420 ctcgcctcaa gtagcaaaaa aaaaaaaaaa aaaaaaaaaa agaagagccc cgggtaccga 3480 gctcgaattc actggccgtc gttttacaac gtcgtgactg ggaaaaccct ggcgttaccc 3540 aacttaatcg ccttgcagca catccccctt tcgccagctg gcgtaatagc gaagaggccc 3600 gcaccgatcg cccttcccaa cagttgcgca gcctgaatgg cgaatggcgc ctgatgcggt 3660 attttctcct tacgcatctg tgcggtattt cacaccgcat acgtcaaagc aaccatagta 3720 cgcgccctgt agcggcgcat taagcgcggc gggtgtggtg gttacgcgca gcgtgaccgc 3780 tacacttgcc agcgccctag cgcccgctcc tttcgctttc ttcccttcct ttctcgccac 3840 gttcgccggc tttccccgtc aagctctaaa tcgggggctc cctttagggt tccgatttag 3900 tgctttacgg cacctcgacc ccaaaaaact tgatttgggt gatggttcac gtagtgggcc 3960 atcgccctga tagacggttt ttcgcccttt gacgttggag tccacgttct ttaatagtgg 4020 actcttgttc caaactggaa caacactcaa ccctatctcg ggctattctt ttgatttata 4080 agggattttg ccgatttcgg cctattggtt aaaaaatgag ctgatttaac aaaaatttaa 4140 cgcgaatttt aacaaaatat taacgtttac aattttatgg tgcactctca gtacaatctg 4200 ctctgatgcc gcatagttaa gccagccccg acacccgcca acacccgctg acgcgccctg 4260 acgggcttgt ctgctcccgg catccgctta cagacaagct gtgaccgtct ccgggagctg 4320 catgtgtcag aggttttcac cgtcatcacc gaaacgcgcg agacgaaagg gcctcgtgat 4380 acgcctattt ttataggtta atgtcatgat aataatggtt tcttagacgt caggtggcac 4440 ttttcgggga aatgtgcgcg gaacccctat ttgtttattt ttctaaatac attcaaatat 4500 gtatccgctc atgagacaat aaccctgata aatgcttcaa taatattgaa aaaggaagag 4560 tatgagtatt caacatttcc gtgtcgccct tattcccttt tttgcggcat tttgccttcc 4620 tgtttttgct cacccagaaa cgctggtgaa agtaaaagat gctgaagatc agttgggtgc 4680 acgagtgggt tacatcgaac tggatctcaa cagcggtaag atccttgaga gttttcgccc 4740 cgaagaacgt tttccaatga tgagcacttt taaagttctg ctatgtggcg cggtattatc 4800 ccgtattgac gccgggcaag agcaactcgg tcgccgcata cactattctc agaatgactt 4860 ggttgagtac tcaccagtca cagaaaagca tcttacggat ggcatgacag taagagaatt 4920 atgcagtgct gccataacca tgagtgataa cactgcggcc aacttacttc tgacaacgat 4980 cggaggaccg aaggagctaa ccgctttttt gcacaacatg ggggatcatg taac 5034 <210> 76 <211> 5050 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 76 tcgccttgat cgttgggaac cggagctgaa tgaagccata ccaaacgacg agcgtgacac 60 cacgatgcct gtagcaatgg caacaacgtt gcgcaaacta ttaactggcg aactacttac 120 tctagcttcc cggcaacaat taatagactg gatggaggcg gataaagttg caggaccact 180 tctgcgctcg gcccttccgg ctggctggtt tattgctgat aaatctggag ccggtgagcg 240 tgggtctcgc ggtatcattg cagcactggg gccagatggt aagccctccc gtatcgtagt 300 tatctacacg acggggagtc aggcaactat ggatgaacga aatagacaga tcgctgagat 360 aggtgcctca ctgattaagc attggtaact gtcagaccaa gtttactcat atatacttta 420 gattgattta aaacttcatt tttaatttaa aaggatctag gtgaagatcc tttttgataa 480 tctcatgacc aaaatccctt aacgtgagtt ttcgttccac tgagcgtcag accccgtaga 540 aaagatcaaa ggatcttctt gagatccttt ttttctgcgc gtaatctgct gcttgcaaac 600 aaaaaaacca ccgctaccag cggtggtttg tttgccggat caagagctac caactctttt 660 tccgaaggta actggcttca gcagagcgca gataccaaat actgtccttc tagtgtagcc 720 gtagttaggc caccacttca agaactctgt agcaccgcct acatacctcg ctctgctaat 780 cctgttacca gtggctgctg ccagtggcga taagtcgtgt cttaccgggt tggactcaag 840 acgatagtta ccggataagg cgcagcggtc gggctgaacg gggggttcgt gcacacagcc 900 cagcttggag cgaacgacct acaccgaact gagataccta cagcgtgagc tatgagaaag 960 cgccacgctt cccgaaggga gaaaggcgga caggtatccg gtaagcggca gggtcggaac 1020 aggagagcgc acgagggagc ttccaggggg aaacgcctgg tatctttata gtcctgtcgg 1080 gtttcgccac ctctgacttg agcgtcgatt tttgtgatgc tcgtcagggg ggcggagcct 1140 atggaaaaac gccagcaacg cggccttttt acggttcctg gccttttgct ggccttttgc 1200 tcacatgttc tttcctgcgt tatcccctga ttctgtggat aaccgtatta ccgcctttga 1260 gtgagctgat accgctcgcc gcagccgaac gaccgagcgc agcgagtcag tgagcgagga 1320 agcggaagag cgcccaatac gcaaaccgcc tctccccgcg cgttggccga ttcattaatg 1380 cagctggcac gacaggtttc ccgactggaa agcgggcagt gagcgcaacg caattaatgt 1440 gagttagctc actcattagg caccccaggc tttacacttt atgcttccgg ctcgtatgtt 1500 gtgtggaatt gtgagcggat aacaatttca cacaggaaac agctatgacc atgattacgc 1560 caagcttgca tgcctgcagg tcgactctag agaaattaat acgactcact atagggaacg 1620 gcgggagtaa ctatgactct cttaacgcac aggggacaca gagcctgccc aagtaccgct 1680 cccgagggag cgggaaacgg gggggtgact atcccctggg gtccggcgag agcgctggtc 1740 tacggaccag gggtggctgt gggcaggctg ctcctcaggc cagttgatta gttacgcatg 1800 ggctgtacct ccacgtggtc ccgctggtaa cgacttgtcg gctaaatcag cccgcccacc 1860 atctgggata tggttgaccg tctaacccca gtactcaggt cacaaacaaa atgggaacag 1920 atacagtgta tgtcggccag gactaccctt ctggcttatc aaaacgggta ccagcacgga 1980 ggtcgaccag atgtccgagg tcgaccagtt gtccggaatt ctaccgggta ggggaggcgc 2040 ttttcccaag gcagtctgga gcatgcgctt tagcagcccc gctgggcact tggcgctaca 2100 caagtggcct ctggcctcgc acacattcca catccaccgg taggcgccaa ccggctccgt 2160 tctttggtgg ccccttcgcg ccaccttcta ctcctcccct agtcaggaag ttcccccccg 2220 ccccgcagct cgcgtcgtgc aggacgtgac aaatggaagt agcacgtctc actagtctcg 2280 tgcagatgga cagcaccgct gagcaatgga agcgggtagg cctttggggc agcggccaat 2340 agcagctttg ctccttcgct ttctgggctc aggggcgggg cgggcgcccg aaggtcctcc 2400 ggaggcccgg cattctgcac gcttcaaaag cgcacgtctg ccgcgctgtt ctcctcttcc 2460 tcatctccgg gcctttcgac ctgcatcccg ccaccatgac cgagtacaag cccacggtgc 2520 gcctcgccac ccgcgacgac gtccccaggg ccgtacgcac cctcgccgcc gcgttcgccg 2580 actaccccgc cacgcgccac accgtcgatc cggaccgcca catcgagcgg gtcaccgagc 2640 tgcaagaact cttcctcacg cgcgtcgggc tcgacatcgg caaggtgtgg gtcgcggacg 2700 acggcgccgc ggtggcggtc tggaccacgc cggagagcgt cgaagcgggg gcggtgttcg 2760 ccgagatcgg cccgcgcatg gccgagttga gcggttcccg gctggccgcg cagcaacaga 2820 tggaaggcct cctggcgccg caccggccca aggagcccgc gtggttcctg gccaccgtcg 2880 gcgtctcgcc cgaccaccag ggcaagggtc tgggcagcgc cgtcgtgctc cccggagtgg 2940 aggcggccga gcgcgccggg gtgcccgcct tcctggagac ctccgcgccc cgcaacctcc 3000 ccttctacga gcggctcggc ttcaccgtca ccgccgacgt cgaggtgccc gaaggaccgc 3060 gcacctggtg catgacccgc aagcccggtg cctgactgtg ccttctagtt gccagccatc 3120 tgttgtttgc ccctcccccg tgccttcctt gaccctggaa ggtgccactc ccactgtcct 3180 ttcctaataa aatgaggaaa ttgcatcgca ttgtctgagt aggtgtcatt ctattctggg 3240 gggtggggtg gggcaggaca gcaaggggga ggattgggaa gacaatagca ggcatgctgg 3300 ggatgcggtg ggctctatgg tgagggggac agctgggagt ctcggcatga ttacaaatct 3360 tgcgctgcac tcggatgtcg tccccgtgac ggacacatta atccggaaag cgagtggtga 3420 ctcgcctcaa gtagccaaat gcctcgtcat caaaaaaaaa aaaaaaaaaa aaaaaaagaa 3480 gagccccggg taccgagctc gaattcactg gccgtcgttt tacaacgtcg tgactgggaa 3540 aaccctggcg ttacccaact taatcgcctt gcagcacatc cccctttcgc cagctggcgt 3600 aatagcgaag aggcccgcac cgatcgccct tcccaacagt tgcgcagcct gaatggcgaa 3660 tggcgcctga tgcggtattt tctccttacg catctgtgcg gtatttcaca ccgcatacgt 3720 caaagcaacc atagtacgcg ccctgtagcg gcgcattaag cgcggcgggt gtggtggtta 3780 cgcgcagcgt gaccgctaca cttgccagcg ccctagcgcc cgctcctttc gctttcttcc 3840 cttcctttct cgccacgttc gccggctttc cccgtcaagc tctaaatcgg gggctccctt 3900 tagggttccg atttagtgct ttacggcacc tcgaccccaa aaaacttgat ttgggtgatg 3960 gttcacgtag tgggccatcg ccctgataga cggtttttcg ccctttgacg ttggagtcca 4020 cgttctttaa tagtggactc ttgttccaaa ctggaacaac actcaaccct atctcgggct 4080 attcttttga tttataaggg attttgccga tttcggccta ttggttaaaa aatgagctga 4140 tttaacaaaa atttaacgcg aattttaaca aaatattaac gtttacaatt ttatggtgca 4200 ctctcagtac aatctgctct gatgccgcat agttaagcca gccccgacac ccgccaacac 4260 ccgctgacgc gccctgacgg gcttgtctgc tcccggcatc cgcttacaga caagctgtga 4320 ccgtctccgg gagctgcatg tgtcagaggt tttcaccgtc atcaccgaaa cgcgcgagac 4380 gaaagggcct cgtgatacgc ctatttttat aggttaatgt catgataata atggtttctt 4440 agacgtcagg tggcactttt cggggaaatg tgcgcggaac ccctatttgt ttatttttct 4500 aaatacattc aaatatgtat ccgctcatga gacaataacc ctgataaatg cttcaataat 4560 attgaaaaag gaagagtatg agtattcaac atttccgtgt cgcccttatt cccttttttg 4620 cggcattttg ccttcctgtt tttgctcacc cagaaacgct ggtgaaagta aaagatgctg 4680 aagatcagtt gggtgcacga gtgggttaca tcgaactgga tctcaacagc ggtaagatcc 4740 ttgagagttt tcgccccgaa gaacgttttc caatgatgag cacttttaaa gttctgctat 4800 gtggcgcggt attatcccgt attgacgccg ggcaagagca actcggtcgc cgcatacact 4860 attctcagaa tgacttggtt gagtactcac cagtcacaga aaagcatctt acggatggca 4920 tgacagtaag agaattatgc agtgctgcca taaccatgag tgataacact gcggccaact 4980 tacttctgac aacgatcgga ggaccgaagg agctaaccgc ttttttgcac aacatggggg 5040 atcatgtaac 5050 <210> 77 <211> 5181 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 77 tcgccttgat cgttgggaac cggagctgaa tgaagccata ccaaacgacg agcgtgacac 60 cacgatgcct gtagcaatgg caacaacgtt gcgcaaacta ttaactggcg aactacttac 120 tctagcttcc cggcaacaat taatagactg gatggaggcg gataaagttg caggaccact 180 tctgcgctcg gcccttccgg ctggctggtt tattgctgat aaatctggag ccggtgagcg 240 tgggtctcgc ggtatcattg cagcactggg gccagatggt aagccctccc gtatcgtagt 300 tatctacacg acggggagtc aggcaactat ggatgaacga aatagacaga tcgctgagat 360 aggtgcctca ctgattaagc attggtaact gtcagaccaa gtttactcat atatacttta 420 gattgattta aaacttcatt tttaatttaa aaggatctag gtgaagatcc tttttgataa 480 tctcatgacc aaaatccctt aacgtgagtt ttcgttccac tgagcgtcag accccgtaga 540 aaagatcaaa ggatcttctt gagatccttt ttttctgcgc gtaatctgct gcttgcaaac 600 aaaaaaacca ccgctaccag cggtggtttg tttgccggat caagagctac caactctttt 660 tccgaaggta actggcttca gcagagcgca gataccaaat actgtccttc tagtgtagcc 720 gtagttaggc caccacttca agaactctgt agcaccgcct acatacctcg ctctgctaat 780 cctgttacca gtggctgctg ccagtggcga taagtcgtgt cttaccgggt tggactcaag 840 acgatagtta ccggataagg cgcagcggtc gggctgaacg gggggttcgt gcacacagcc 900 cagcttggag cgaacgacct acaccgaact gagataccta cagcgtgagc tatgagaaag 960 cgccacgctt cccgaaggga gaaaggcgga caggtatccg gtaagcggca gggtcggaac 1020 aggagagcgc acgagggagc ttccaggggg aaacgcctgg tatctttata gtcctgtcgg 1080 gtttcgccac ctctgacttg agcgtcgatt tttgtgatgc tcgtcagggg ggcggagcct 1140 atggaaaaac gccagcaacg cggccttttt acggttcctg gccttttgct ggccttttgc 1200 tcacatgttc tttcctgcgt tatcccctga ttctgtggat aaccgtatta ccgcctttga 1260 gtgagctgat accgctcgcc gcagccgaac gaccgagcgc agcgagtcag tgagcgagga 1320 agcggaagag cgcccaatac gcaaaccgcc tctccccgcg cgttggccga ttcattaatg 1380 cagctggcac gacaggtttc ccgactggaa agcgggcagt gagcgcaacg caattaatgt 1440 gagttagctc actcattagg caccccaggc tttacacttt atgcttccgg ctcgtatgtt 1500 gtgtggaatt gtgagcggat aacaatttca cacaggaaac agctatgacc atgattacgc 1560 caagcttgca tgcctgcagg tcgactctag agaaattaat acgactcact atagggaacg 1620 gcgggagtaa ctatgactct cttaacgcac aggggacaca gagcctgccc aagtaccgct 1680 cccgagggag cgggaaacgg gggggtgact atcccctggg gtccggcgag agcgctggtc 1740 tacggaccag gggtggctgt gggcaggctg ctcctcaggc cagttgatta gttacgcatg 1800 ggctgtacct ccacgtggtc ccgctggtaa cgacttgtcg gctaaatcag cccgcccacc 1860 atctgggata tggttgaccg tctaacccca gtactcaggt cacaaacaaa atgggaacag 1920 atacagtgta tgtcggccag gactaccctt ctggcttatc aaaacgggta ccagcacgga 1980 ggtcgaccag atgtccgagg tcgaccagtt gtccggaatt ctaccgggta ggggaggcgc 2040 ttttcccaag gcagtctgga gcatgcgctt tagcagcccc gctgggcact tggcgctaca 2100 caagtggcct ctggcctcgc acacattcca catccaccgg taggcgccaa ccggctccgt 2160 tctttggtgg ccccttcgcg ccaccttcta ctcctcccct agtcaggaag ttcccccccg 2220 ccccgcagct cgcgtcgtgc aggacgtgac aaatggaagt agcacgtctc actagtctcg 2280 tgcagatgga cagcaccgct gagcaatgga agcgggtagg cctttggggc agcggccaat 2340 agcagctttg ctccttcgct ttctgggctc aggggcgggg cgggcgcccg aaggtcctcc 2400 ggaggcccgg cattctgcac gcttcaaaag cgcacgtctg ccgcgctgtt ctcctcttcc 2460 tcatctccgg gcctttcgac ctgcatcccg ccaccatgac cgagtacaag cccacggtgc 2520 gcctcgccac ccgcgacgac gtccccaggg ccgtacgcac cctcgccgcc gcgttcgccg 2580 actaccccgc cacgcgccac accgtcgatc cggaccgcca catcgagcgg gtcaccgagc 2640 tgcaagaact cttcctcacg cgcgtcgggc tcgacatcgg caaggtgtgg gtcgcggacg 2700 acggcgccgc ggtggcggtc tggaccacgc cggagagcgt cgaagcgggg gcggtgttcg 2760 ccgagatcgg cccgcgcatg gccgagttga gcggttcccg gctggccgcg cagcaacaga 2820 tggaaggcct cctggcgccg caccggccca aggagcccgc gtggttcctg gccaccgtcg 2880 gcgtctcgcc cgaccaccag ggcaagggtc tgggcagcgc cgtcgtgctc cccggagtgg 2940 aggcggccga gcgcgccggg gtgcccgcct tcctggagac ctccgcgccc cgcaacctcc 3000 ccttctacga gcggctcggc ttcaccgtca ccgccgacgt cgaggtgccc gaaggaccgc 3060 gcacctggtg catgacccgc aagcccggtg cctgactgtg ccttctagtt gccagccatc 3120 tgttgtttgc ccctcccccg tgccttcctt gaccctggaa ggtgccactc ccactgtcct 3180 ttcctaataa aatgaggaaa ttgcatcgca ttgtctgagt aggtgtcatt ctattctggg 3240 gggtggggtg gggcaggaca gcaaggggga ggattgggaa gacaatagca ggcatgctgg 3300 ggatgcggtg ggctctatgg tagctaaaac gtttggttca aaacatttgc ttgctgtctt 3360 ggcataacat caataaaggc ataaacatcg caaaataatg gttatatata aatggctatg 3420 aggatggttt tagtacgtag gcgttgcgga acttcggttc agatagagca atgaatcgtg 3480 catgctagga aaactgacca cacgcagtgt tggcagccct agtatctttc gatagatttc 3540 catacctccg cgatcaaaaa aaaaaaaaaa aaaaaaaata gcaaaaaaaa aaaaaaaaaa 3600 aaaaaaaaga agagccccgg gtaccgagct cgaattcact ggccgtcgtt ttacaacgtc 3660 gtgactggga aaaccctggc gttacccaac ttaatcgcct tgcagcacat ccccctttcg 3720 ccagctggcg taatagcgaa gaggcccgca ccgatcgccc ttcccaacag ttgcgcagcc 3780 tgaatggcga atggcgcctg atgcggtatt ttctccttac gcatctgtgc ggtatttcac 3840 accgcatacg tcaaagcaac catagtacgc gccctgtagc ggcgcattaa gcgcggcggg 3900 tgtggtggtt acgcgcagcg tgaccgctac acttgccagc gccctagcgc ccgctccttt 3960 cgctttcttc ccttcctttc tcgccacgtt cgccggcttt ccccgtcaag ctctaaatcg 4020 ggggctccct ttagggttcc gatttagtgc tttacggcac ctcgacccca aaaaacttga 4080 tttgggtgat ggttcacgta gtgggccatc gccctgatag acggtttttc gccctttgac 4140 gttggagtcc acgttcttta atagtggact cttgttccaa actggaacaa cactcaaccc 4200 tatctcgggc tattcttttg atttataagg gattttgccg atttcggcct attggttaaa 4260 aaatgagctg atttaacaaa aatttaacgc gaattttaac aaaatattaa cgtttacaat 4320 tttatggtgc actctcagta caatctgctc tgatgccgca tagttaagcc agccccgaca 4380 cccgccaaca cccgctgacg cgccctgacg ggcttgtctg ctcccggcat ccgcttacag 4440 acaagctgtg accgtctccg ggagctgcat gtgtcagagg ttttcaccgt catcaccgaa 4500 acgcgcgaga cgaaagggcc tcgtgatacg cctattttta taggttaatg tcatgataat 4560 aatggtttct tagacgtcag gtggcacttt tcggggaaat gtgcgcggaa cccctatttg 4620 tttatttttc taaatacatt caaatatgta tccgctcatg agacaataac cctgataaat 4680 gcttcaataa tattgaaaaa ggaagagtat gagtattcaa catttccgtg tcgcccttat 4740 tccctttttt gcggcatttt gccttcctgt ttttgctcac ccagaaacgc tggtgaaagt 4800 aaaagatgct gaagatcagt tgggtgcacg agtgggttac atcgaactgg atctcaacag 4860 cggtaagatc cttgagagtt ttcgccccga agaacgtttt ccaatgatga gcacttttaa 4920 agttctgcta tgtggcgcgg tattatcccg tattgacgcc gggcaagagc aactcggtcg 4980 ccgcatacac tattctcaga atgacttggt tgagtactca ccagtcacag aaaagcatct 5040 tacggatggc atgacagtaa gagaattatg cagtgctgcc ataaccatga gtgataacac 5100 tgcggccaac ttacttctga caacgatcgg aggaccgaag gagctaaccg cttttttgca 5160 caacatgggg gatcatgtaa c 5181 <210> 78 <211> 5197 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 78 tcgccttgat cgttgggaac cggagctgaa tgaagccata ccaaacgacg agcgtgacac 60 cacgatgcct gtagcaatgg caacaacgtt gcgcaaacta ttaactggcg aactacttac 120 tctagcttcc cggcaacaat taatagactg gatggaggcg gataaagttg caggaccact 180 tctgcgctcg gcccttccgg ctggctggtt tattgctgat aaatctggag ccggtgagcg 240 tgggtctcgc ggtatcattg cagcactggg gccagatggt aagccctccc gtatcgtagt 300 tatctacacg acggggagtc aggcaactat ggatgaacga aatagacaga tcgctgagat 360 aggtgcctca ctgattaagc attggtaact gtcagaccaa gtttactcat atatacttta 420 gattgattta aaacttcatt tttaatttaa aaggatctag gtgaagatcc tttttgataa 480 tctcatgacc aaaatccctt aacgtgagtt ttcgttccac tgagcgtcag accccgtaga 540 aaagatcaaa ggatcttctt gagatccttt ttttctgcgc gtaatctgct gcttgcaaac 600 aaaaaaacca ccgctaccag cggtggtttg tttgccggat caagagctac caactctttt 660 tccgaaggta actggcttca gcagagcgca gataccaaat actgtccttc tagtgtagcc 720 gtagttaggc caccacttca agaactctgt agcaccgcct acatacctcg ctctgctaat 780 cctgttacca gtggctgctg ccagtggcga taagtcgtgt cttaccgggt tggactcaag 840 acgatagtta ccggataagg cgcagcggtc gggctgaacg gggggttcgt gcacacagcc 900 cagcttggag cgaacgacct acaccgaact gagataccta cagcgtgagc tatgagaaag 960 cgccacgctt cccgaaggga gaaaggcgga caggtatccg gtaagcggca gggtcggaac 1020 aggagagcgc acgagggagc ttccaggggg aaacgcctgg tatctttata gtcctgtcgg 1080 gtttcgccac ctctgacttg agcgtcgatt tttgtgatgc tcgtcagggg ggcggagcct 1140 atggaaaaac gccagcaacg cggccttttt acggttcctg gccttttgct ggccttttgc 1200 tcacatgttc tttcctgcgt tatcccctga ttctgtggat aaccgtatta ccgcctttga 1260 gtgagctgat accgctcgcc gcagccgaac gaccgagcgc agcgagtcag tgagcgagga 1320 agcggaagag cgcccaatac gcaaaccgcc tctccccgcg cgttggccga ttcattaatg 1380 cagctggcac gacaggtttc ccgactggaa agcgggcagt gagcgcaacg caattaatgt 1440 gagttagctc actcattagg caccccaggc tttacacttt atgcttccgg ctcgtatgtt 1500 gtgtggaatt gtgagcggat aacaatttca cacaggaaac agctatgacc atgattacgc 1560 caagcttgca tgcctgcagg tcgactctag agaaattaat acgactcact atagggaacg 1620 gcgggagtaa ctatgactct cttaacgcac aggggacaca gagcctgccc aagtaccgct 1680 cccgagggag cgggaaacgg gggggtgact atcccctggg gtccggcgag agcgctggtc 1740 tacggaccag gggtggctgt gggcaggctg ctcctcaggc cagttgatta gttacgcatg 1800 ggctgtacct ccacgtggtc ccgctggtaa cgacttgtcg gctaaatcag cccgcccacc 1860 atctgggata tggttgaccg tctaacccca gtactcaggt cacaaacaaa atgggaacag 1920 atacagtgta tgtcggccag gactaccctt ctggcttatc aaaacgggta ccagcacgga 1980 ggtcgaccag atgtccgagg tcgaccagtt gtccggaatt ctaccgggta ggggaggcgc 2040 ttttcccaag gcagtctgga gcatgcgctt tagcagcccc gctgggcact tggcgctaca 2100 caagtggcct ctggcctcgc acacattcca catccaccgg taggcgccaa ccggctccgt 2160 tctttggtgg ccccttcgcg ccaccttcta ctcctcccct agtcaggaag ttcccccccg 2220 ccccgcagct cgcgtcgtgc aggacgtgac aaatggaagt agcacgtctc actagtctcg 2280 tgcagatgga cagcaccgct gagcaatgga agcgggtagg cctttggggc agcggccaat 2340 agcagctttg ctccttcgct ttctgggctc aggggcgggg cgggcgcccg aaggtcctcc 2400 ggaggcccgg cattctgcac gcttcaaaag cgcacgtctg ccgcgctgtt ctcctcttcc 2460 tcatctccgg gcctttcgac ctgcatcccg ccaccatgac cgagtacaag cccacggtgc 2520 gcctcgccac ccgcgacgac gtccccaggg ccgtacgcac cctcgccgcc gcgttcgccg 2580 actaccccgc cacgcgccac accgtcgatc cggaccgcca catcgagcgg gtcaccgagc 2640 tgcaagaact cttcctcacg cgcgtcgggc tcgacatcgg caaggtgtgg gtcgcggacg 2700 acggcgccgc ggtggcggtc tggaccacgc cggagagcgt cgaagcgggg gcggtgttcg 2760 ccgagatcgg cccgcgcatg gccgagttga gcggttcccg gctggccgcg cagcaacaga 2820 tggaaggcct cctggcgccg caccggccca aggagcccgc gtggttcctg gccaccgtcg 2880 gcgtctcgcc cgaccaccag ggcaagggtc tgggcagcgc cgtcgtgctc cccggagtgg 2940 aggcggccga gcgcgccggg gtgcccgcct tcctggagac ctccgcgccc cgcaacctcc 3000 ccttctacga gcggctcggc ttcaccgtca ccgccgacgt cgaggtgccc gaaggaccgc 3060 gcacctggtg catgacccgc aagcccggtg cctgactgtg ccttctagtt gccagccatc 3120 tgttgtttgc ccctcccccg tgccttcctt gaccctggaa ggtgccactc ccactgtcct 3180 ttcctaataa aatgaggaaa ttgcatcgca ttgtctgagt aggtgtcatt ctattctggg 3240 gggtggggtg gggcaggaca gcaaggggga ggattgggaa gacaatagca ggcatgctgg 3300 ggatgcggtg ggctctatgg tagctaaaac gtttggttca aaacatttgc ttgctgtctt 3360 ggcataacat caataaaggc ataaacatcg caaaataatg gttatatata aatggctatg 3420 aggatggttt tagtacgtag gcgttgcgga acttcggttc agatagagca atgaatcgtg 3480 catgctagga aaactgacca cacgcagtgt tggcagccct agtatctttc gatagatttc 3540 catacctccg cgatcaaaaa aaaaaaaaaa aaaaaaaata gccaaatgcc tcgtcatcaa 3600 aaaaaaaaaa aaaaaaaaaa aaaagaagag ccccgggtac cgagctcgaa ttcactggcc 3660 gtcgttttac aacgtcgtga ctgggaaaac cctggcgtta cccaacttaa tcgccttgca 3720 gcacatcccc ctttcgccag ctggcgtaat agcgaagagg cccgcaccga tcgcccttcc 3780 caacagttgc gcagcctgaa tggcgaatgg cgcctgatgc ggtattttct ccttacgcat 3840 ctgtgcggta tttcacaccg catacgtcaa agcaaccata gtacgcgccc tgtagcggcg 3900 cattaagcgc ggcgggtgtg gtggttacgc gcagcgtgac cgctacactt gccagcgccc 3960 tagcgcccgc tcctttcgct ttcttccctt cctttctcgc cacgttcgcc ggctttcccc 4020 gtcaagctct aaatcggggg ctccctttag ggttccgatt tagtgcttta cggcacctcg 4080 accccaaaaa acttgatttg ggtgatggtt cacgtagtgg gccatcgccc tgatagacgg 4140 tttttcgccc tttgacgttg gagtccacgt tctttaatag tggactcttg ttccaaactg 4200 gaacaacact caaccctatc tcgggctatt cttttgattt ataagggatt ttgccgattt 4260 cggcctattg gttaaaaaat gagctgattt aacaaaaatt taacgcgaat tttaacaaaa 4320 tattaacgtt tacaatttta tggtgcactc tcagtacaat ctgctctgat gccgcatagt 4380 taagccagcc ccgacacccg ccaacacccg ctgacgcgcc ctgacgggct tgtctgctcc 4440 cggcatccgc ttacagacaa gctgtgaccg tctccgggag ctgcatgtgt cagaggtttt 4500 caccgtcatc accgaaacgc gcgagacgaa agggcctcgt gatacgccta tttttatagg 4560 ttaatgtcat gataataatg gtttcttaga cgtcaggtgg cacttttcgg ggaaatgtgc 4620 gcggaacccc tatttgttta tttttctaaa tacattcaaa tatgtatccg ctcatgagac 4680 aataaccctg ataaatgctt caataatatt gaaaaaggaa gagtatgagt attcaacatt 4740 tccgtgtcgc ccttattccc ttttttgcgg cattttgcct tcctgttttt gctcacccag 4800 aaacgctggt gaaagtaaaa gatgctgaag atcagttggg tgcacgagtg ggttacatcg 4860 aactggatct caacagcggt aagatccttg agagttttcg ccccgaagaa cgttttccaa 4920 tgatgagcac ttttaaagtt ctgctatgtg gcgcggtatt atcccgtatt gacgccgggc 4980 aagagcaact cggtcgccgc atacactatt ctcagaatga cttggttgag tactcaccag 5040 tcacagaaaa gcatcttacg gatggcatga cagtaagaga attatgcagt gctgccataa 5100 ccatgagtga taacactgcg gccaacttac ttctgacaac gatcggagga ccgaaggagc 5160 taaccgcttt tttgcacaac atgggggatc atgtaac 5197 <210> 79 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 79 caccgagctg caagaactct tcctcacg 28 <210> 80 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic Sequence <400> 80 cttgcgggtc atgcaccagg tgc 23

Claims (20)

  1. 부위 특이적 이식유전자 부가용 조성물을 대상체에 투여하는 단계를 포함하되, 상기 조성물은 RNA 주형 및 이와 파트너를 형성하는 역전사효소를 포함하는 이식유전자를 진핵생물 게놈에 도입하는, 방법.
  2. 제1항에 있어서, 상기 부위 특이적 이식유전자 부가용 조성물은, 직접 도입된 RNA 주형이 사용되는, 인간 세포 rDNA로의 TPRT 개시 이식유전자 삽입을 지지하는 변형 R2 레트로요소 단백질을 포함하는, 방법.
  3. 제1항에 있어서, 상기 이식유전자는 치료적으로 활성인 유전자 또는 치료적으로 활성인 이의 단편인 방법.
  4. 제1항에 있어서, 상기 부위 특이적 이식유전자 부가용 조성물은 RT 프라이머 신장 및/또는 시험관내 TPRT에 대해 검정되었을 때 활성을 보이는, TPRT 수용성 RT 및/또는 가닥 닉형성 엔도뉴클레아제 활성을 포함하는 무 LTR 레트로요소 단백질을 포함하는, 방법.
  5. 제1항에 있어서, 상기 부위 특이적 이식유전자 부가용 조성물은 RT 매개 TPRT를 위한 것으로서, 쌍을 형성한 RT에 대해 동족이거나, 천연 동족체로부터 변형되었거나, 또는 관련 레트로요소의 계통발생조사 및 재구성 및/또는 변형으로부터 유래하였거나, 시험관내 및 세포내 3' 및 5' 접합부 형성에 대한 선택성 및/또는 효율 및/또는 정확도에 대해 스크리닝하여 수득된 것으로서, 3'쪽에 있는, 3' 주형 모듈 1개 이상을 포함하는, 방법.
  6. 제1항에 있어서, 상기 부위 특이적 이식유전자 부가용 조성물은
    RT 매개 TPRT를 위한 것으로서, 쌍을 형성한 RT에 대해 동족이거나, 천연 동족체로부터 변형되었거나, 또는 관련 레트로요소의 계통발생조사 및 재구성 및/또는 변형으로부터 유래하였거나, 이종 레트로요소 5' 영역으로부터 변형되었거나, 천연 또는 디자인된 HDV RZ 폴드로부터 변형되었거나, 또는 시험관내 및 세포내 3' 및 5' 접합부 형성에 대한 선택성, 효율 및 정확도에 대해 스크리닝하여 수득된 것으로서, 5'쪽에 있는 5' 주형 모듈 1개 이상을 포함하는, 방법.
  7. 제1항에 있어서, 표적 부위 또는 그 근처에 있는 rRNA 매칭 서열(들)의 5' 측접 및 3' 측접 서열, 예컨대 4개 ~ 29개 뉴클레오티드 사이의 서열(이에 한정되는 것은 아님)을 포함하되, 이에 한정되는 것은 아닌, 시험관내 및 세포내 3' 및 5' 접합부의 형성에 대한 정확도 및/또는 효율 및/또는 선택성을 개선하는 주형 말단 부가부 1개 이상을 제조하는 단계를 포함하는 방법으로서, 단 상기 부가부는 기타 rRNA의 길이를 배제하지 않고, 4개 ~ 20개 뉴클레오티드로 된 기능성 서열은 더 긴 길이에 포함될 수 있는, 방법.
  8. 제1항에 있어서, 세포내에서의 부위 특이적 이식유전자 삽입에 있어 생물학적 전달 또는 안정성 또는 효율을 개선하는 주형 말단 부가부, 예컨대 3' 측접 폴리아데노신 및/또는 5' 측접 자가 절단성 리보자임 모티프 또는 도입된 주형 RNA를 붕괴로부터 보호하는 기타 구조(이에 한정되는 것은 아님) 1개 이상을 제조하는 단계를 포함하는, 방법.
  9. 제1항에 있어서, 기타 세포내 과정들, 예컨대 번역, DNA 수선, 염색질 변형, 관문 활성화에 영향을 미치거나, 상호작용으로 말미암아 전달 또는 안정성 또는 표적화 또는 단리를 개선하는 주형 변형부 1개 이상을 제조하는 단계를 포함하는, 방법.
  10. 제1항에 있어서, 상기 부위 특이적 이식유전자 부가용 조성물은 인간 세포 28S rDNA에 삽입되고, 기능이 발휘되도록 발현되는 이식유전자 1개 이상을 포함하는, 방법.
  11. 제1항에 있어서, 성공적인 이식유전자 단백질 발현 카세트의 삽입을 위한 세이프 하버 부위로서 인간 rDNA를 사용하는 단계를 포함하는, 방법.
  12. 제1항에 있어서, 상기 부위 특이적 이식유전자 부가용 조성물은 인간 질환에 있어 기능 상실을 구조하거나 유리한 기능을 부여하기 위해 RNA 주형에 도입된 비천연 이식유전자 1개 이상을 포함하는, 방법.
  13. 표적 세포 게놈내 표적 부위에 생물학적으로 활성인 DNA 요소의 (RNA 중간체를 통한) 삽입을 유도하는 작용을 하는 요소 삽입 시스템(EIS)으로서,
    (a) 표적 세포내에서 활성 nrRT를 생성하는 nrRT 모듈; 및
    (b) 표적 세포내 표적 부위에서 생물학적으로 활성인 DNA 요소 적어도 한 가닥의 nrRT에 의한 TPRT를 통한 합성을 주형화하는 삽입 주형 모듈
    을 포함하는 요소 삽입 시스템(EIS).
  14. 제13항에 있어서, 상기 nrRT 모듈은 (a) 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 활성 nrRT 또는 적합한 비활성 전구 단백질 nrRT; (b) 세포내 가공을 동반하거나 동반하지 않으면서 번역될 수 있는 mRNA, 변형된 mRNA 또는 기타 핵산; (c) nrRT 또는 nrRT 전구 단백질이거나, 그렇지 않으면 표적 세포에서 활성 nrRT의 존재를 유도할 수 있으며, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 mRNA, 변형된 mRNA 또는 기타 핵산; 또는 (d) 상기의 것들중 임의의 것을 암호화하는 DNA 분자로부터 선택되는, EIS.
  15. 제13항에 있어서, 상기 삽입 주형 모듈은, nrRT에 의한 TPRT를 통해 표적 세포내 표적 부위에서 생물학적으로 활성인 DNA 요소 적어도 한 가닥에 대한 cDNA 합성용 주형으로 사용될 수 있으며, 임의의 적합한 전달 시스템에 의해 표적 세포로 전달될 수 있는 RNA, 변형된 RNA 또는 기타 핵산을 포함하는, EIS.
  16. 제13항에 있어서, 상기 삽입 주형 모듈은, 단채로 nrRT에 의한 TPRT용 삽입 주형 모듈의 효율적이고 선택적인 사용을 촉진하는 3' 분절, 5' 분절 및 페이로드 분절을 포함하되, 상기 3' 분절은 특정 nrRT에 의해 우선적으로 사용되고; 상기 5' 분절은 특정 nrRT에 의해 우선적으로 사용되고; nrRT에 의한 TPRT와 양립가능한 것으로 선택되고, 상기 페이로드 분절은 생물학적으로 활성인 DNA 요소, 즉 cDNA에 대한 주형으로 사용될 수 있는, EIS.
  17. 제13항에 있어서, 상기 생물학적으로 활성인 DNA 요소는 표적 세포의 표적 부위에 삽입될 때 해당 세포 또는 해당 세포를 포함하는 유기체의 생물학적 특성에 요망되는 변형을 제공하는 DNA 분절을 포함하는, EIS.
  18. 제13항에 있어서, 상기 생물학적으로 활성인 DNA는 (a) 인체내 세포 또는 세포 세트에 대한 치료적 변화; (b) 농업에 사용되는 식물이나 동물의 특징에 요망되는 변화; 또는 (c) 생태적 변화, 예컨대 침입 종 또는 질환 매개체의 박멸을 달성하기 위해 야생 동물 또는 식물에 요망되는 변화를 유도하는 서열을 암호화하는, EIS.
  19. 제13항에 있어서, 상기 생물학적으로 활성인 DNA 요소는 (a) 삽입 부위 외부에 있는 프로모터에 의해 요소의 전사를 종결시킬 수 있는 서열 분절 1개 이상; (b) 전사를 개시할 수 있는 프로모터 분절 1개 이상; 및/또는 (c) 생물학적 기능을 가지는 단백질 또는 핵산 1개 이상을 암호화하는 효과기 분절 1개 이상을 포함하는, EIS.
  20. 제13항에 있어서, 화학적으로 변형되었거나, 코돈 최적화되었거나, 이것들이 조합하여 진행된 삽입 주형 모듈 및 nrRT를 포함하는, EIS.
KR1020237026348A 2021-01-14 2022-01-06 부위 특이적 유전자 변형 KR20230131229A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163137664P 2021-01-14 2021-01-14
US63/137,664 2021-01-14
PCT/US2022/011514 WO2022155055A1 (en) 2021-01-14 2022-01-06 Site-specific gene modifications

Publications (1)

Publication Number Publication Date
KR20230131229A true KR20230131229A (ko) 2023-09-12

Family

ID=82448505

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237026348A KR20230131229A (ko) 2021-01-14 2022-01-06 부위 특이적 유전자 변형

Country Status (7)

Country Link
US (1) US20230340523A1 (ko)
JP (1) JP2024504630A (ko)
KR (1) KR20230131229A (ko)
CN (1) CN116745428A (ko)
AU (1) AU2022207939A1 (ko)
CA (1) CA3202040A1 (ko)
WO (1) WO2022155055A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2022343268A1 (en) 2021-09-08 2024-03-28 Flagship Pioneering Innovations Vi, Llc Methods and compositions for modulating a genome
WO2023069972A1 (en) * 2021-10-19 2023-04-27 Massachusetts Institute Of Technology Genomic editing with site-specific retrotransposons
CN117511947B (zh) * 2024-01-08 2024-03-29 艾斯拓康医药科技(北京)有限公司 一种优化的5`utr序列及其应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113286880A (zh) * 2018-08-28 2021-08-20 旗舰先锋创新Vi有限责任公司 调控基因组的方法和组合物

Also Published As

Publication number Publication date
US20230340523A1 (en) 2023-10-26
WO2022155055A1 (en) 2022-07-21
EP4277993A1 (en) 2023-11-22
AU2022207939A9 (en) 2024-05-30
AU2022207939A1 (en) 2023-07-06
CN116745428A (zh) 2023-09-12
JP2024504630A (ja) 2024-02-01
CA3202040A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
AU2021204620A1 (en) Central nervous system targeting polynucleotides
KR101982360B1 (ko) 콤팩트 tale-뉴클레아제의 발생 방법 및 이의 용도
KR102523318B1 (ko) 증진된 hAT 패밀리 트랜스포존 매개 유전자 전달 및 연관된 조성물, 시스템, 및 방법
KR20210149060A (ko) Tn7-유사 트랜스포존을 사용한 rna-유도된 dna 통합
US11672874B2 (en) Methods and compositions for genomic integration
KR20230131229A (ko) 부위 특이적 유전자 변형
AU2013336601B2 (en) Vector for liver-directed gene therapy of hemophilia and methods and use thereof
AU2016343979A1 (en) Delivery of central nervous system targeting polynucleotides
CN113271955A (zh) 用于细胞介导的溶瘤病毒疗法的增强的***
CN107849583B (zh) 使用细胞***基因座控制细胞增殖的工具和方法
US20040003420A1 (en) Modified recombinase
KR20220125332A (ko) Pcsk9의 표적화를 위한 조성물 및 방법
CN111733174B (zh) 一种分离的核酸分子及其用途
PT1984512T (pt) Sistema de expressão génica utilizando excisão-união em insetos
JP2003534775A (ja) タンパク質を不安定化する方法とその使用
CN111094569A (zh) 光控性病毒蛋白质、其基因及包含该基因的病毒载体
CN113692225B (zh) 经基因组编辑的鸟类
CN111315212B (zh) 经过基因组编辑的鸟
KR20210151785A (ko) 비바이러스성 dna 벡터 및 fviii 치료제 발현을 위한 이의 용도
KR20240037192A (ko) 게놈 통합을 위한 방법 및 조성물
EP1395612A2 (en) Modified recombinase
CN113614234A (zh) 肝脏特异性诱导型启动子及其使用方法
RU2812852C2 (ru) Невирусные днк-векторы и варианты их применения для экспрессии терапевтического средства на основе фактора viii (fviii)
KR20240029020A (ko) Dna 변형을 위한 crispr-트랜스포손 시스템
CN116997657A (zh) 编码GJB2的重组腺相关病毒(rAAV)及其用途