KR20220054434A - 신규한 crispr dna 표적화 효소 및 시스템 - Google Patents
신규한 crispr dna 표적화 효소 및 시스템 Download PDFInfo
- Publication number
- KR20220054434A KR20220054434A KR1020227011364A KR20227011364A KR20220054434A KR 20220054434 A KR20220054434 A KR 20220054434A KR 1020227011364 A KR1020227011364 A KR 1020227011364A KR 20227011364 A KR20227011364 A KR 20227011364A KR 20220054434 A KR20220054434 A KR 20220054434A
- Authority
- KR
- South Korea
- Prior art keywords
- crispr
- seq
- sequence
- lys
- nucleic acid
- Prior art date
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N1/00—Microorganisms, e.g. protozoa; Compositions thereof; Processes of propagating, maintaining or preserving microorganisms or compositions thereof; Processes of preparing or isolating a composition containing a microorganism; Culture media therefor
- C12N1/20—Bacteria; Culture media therefor
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/102—Mutagenizing nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/111—General methods applicable to biologically active non-coding nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/70—Vectors or expression systems specially adapted for E. coli
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/85—Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/87—Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
- C12N15/90—Stable introduction of foreign DNA into chromosome
- C12N15/902—Stable introduction of foreign DNA into chromosome using homologous recombination
- C12N15/907—Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N5/00—Undifferentiated human, animal or plant cells, e.g. cell lines; Tissues; Cultivation or maintenance thereof; Culture media therefor
- C12N5/06—Animal cells or tissues; Human cells or tissues
- C12N5/0602—Vertebrate cells
- C12N5/0684—Cells of the urinary tract or kidneys
- C12N5/0687—Renal stem cells; Renal progenitors
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6816—Hybridisation assays characterised by the detection means
- C12Q1/6823—Release of bound markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2800/00—Nucleic acids vectors
- C12N2800/10—Plasmid DNA
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2800/00—Nucleic acids vectors
- C12N2800/80—Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Plant Pathology (AREA)
- Medicinal Chemistry (AREA)
- Cell Biology (AREA)
- Mycology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Urology & Nephrology (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Virology (AREA)
- Tropical Medicine & Parasitology (AREA)
- Peptides Or Proteins (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Enzymes And Modification Thereof (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 개시는 표적화된 방식으로 핵산의 조작을 위한 신규한 시스템, 방법, 및 조성물을 기술한다. 본 개시는 핵산의 표적화된 변형을 위한 비-자연 발생의 조작된 CRISPR 시스템, 구성 요소, 및 방법을 기술한다. 각 시스템은 표적 핵산과 함께 하나 이상의 단백질 구성 요소 및 하나 이상의 핵산 구성 요소를 포함한다.
Description
관련 출원
본 출원은 2019년 9월 9일에 출원된 미국 가출원 제62/897,859호의 우선권을 주장하고, 상기 출원의 전체 내용은 본원에 참조로 포함된다.
서열 목록
본 출원은 ASCII 포맷으로 전자 제출된 서열 목록을 포함하며 그 전체가 본원에 참조로 포함된다. 2020년 9월 9일자로 만들어진 상기 ASCII 사본은 A2186-7028WO_SL.txt로 명명되며 그 크기가 475,511 바이트이다.
발명의 분야
본 개시는 신규한 클러스터링되고 규칙적으로 산재된 짧은 회문 반복부(Clustered Regularly Interspaced Short Palindromic Repeat; CRISPR) 및 CRISPR-연관(Cas) 유전자를 사용한 게놈 편집 및 유전자 발현 조절을 위한 시스템 및 방법에 관한 것이다.
최근 게놈 시퀀싱 기술 및 분석의 진보는 원핵 생합성 경로에서 인간 병리에 이르기까지 수많은 다양한 자연 영역에서 생물학적 활성의 유전적 기초에 대한 중요한 통찰력을 제공했다. 제공된 방대한 양의 정보를 충분히 이해하고 평가하기 위해서는 게놈 및 에피게놈 조작을 위한 서열 기술의 규모, 효능 및 용이성에서 등가의 증가가 요구된다. 이러한 신규한 기술은 생명공학, 농업 및 인간 치료제를 포함한 수많은 영역에서 신규한 적용의 개발을 가속화할 것이다.
총괄하여 CRISPR-Cas 또는 CRISPR/Cas 시스템으로 알려져 있는 클러스터링된 규칙적으로 산재된 짧은 회문 반복부(CRISPR) 및 CRISPR-연관(Cas) 유전자는 외래 유전 요소에 대항하여 특정 종을 방어하는 고세균 및 세균에서 적응 면역 시스템이다. CRISPR-Cas 시스템은 매우 다양한 그룹의 단백질 이펙터, 비-코딩 요소 및 유전자좌 구조를 포함하며, 이들의 일부 예는 중요한 생명공학적 진보를 야기하도록 조작되고 구성되었다.
숙주 방어에 관여하는 시스템의 구성 요소는 핵산을 변형시킬 수 있는 하나 이상의 이펙터 단백질 및 이펙터 단백질(들)을 파지 핵산 상의 특정 서열로 표적화하는 역할을 하는 RNA 가이드 요소를 포함한다. RNA 가이드는 CRISPR RNA(crRNA)로 구성되며, 이펙터 단백질(들)에 의해 표적화된 핵산 조작을 가능하게 하기 위해 추가적인 트랜스-활성화 RNA(tracrRNA)가 요구될 수 있다. crRNA는 crRNA에 대한 단백질 결합을 담당하는 직접 반복부 및 요망되는 핵산 표적 서열에 상보적인 스페이서 서열로 이루어진다. CRISPR 시스템은 crRNA의 스페이서 서열을 변형시킴으로써 대체 DNA 또는 RNA 표적을 표적화하도록 재프로그래밍될 수 있다.
CRISPR-Cas 시스템은 광범위하게 두 가지 클래스로 분류될 수 있다: 클래스 1 시스템은 함께 crRNA 주위에 복합체를 형성하는 다중 이펙터 단백질로 구성되고, 클래스 2 시스템은 RNA 가이드와 표적 핵산 기질로 복합되는 하나의 이펙터 단백질로 이루어진다. 클래스 2 시스템의 단일-서브유닛 이펙터 조성물은 조작 및 적용 번역을 위한 더 간단한 구성 요소 세트를 제공하며, 이에 따라 지금까지 프로그래밍 가능한 이펙터의 중요한 소스였다. 그럼에도 불구하고, 이들의 고유한 성질을 통해 신규한 적용을 가능하게 하는, 더 작은 이펙터 및/또는 고유한 PAM 서열 요건을 갖는 이펙터와 같이, 현재의 CRISPR-Cas 시스템을 넘어서 핵산 및 폴리뉴클레오티드(즉, DNA, RNA, 또는 임의의 혼성체, 유도체 또는 변형)를 변형시키기 위한 추가적인 프로그래밍 가능한 이펙터 및 시스템에 대한 필요성이 남아 있다.
본 개시는, 먼저 게놈 데이터베이스로부터 계산적으로 동정되고 이후에 조작되고 실험적으로 검증된, 신규한 단일-이펙터 클래스 2 CRISPR-Cas 시스템을 위한 비-자연-발생의 조작된 시스템 및 조성물을 제공한다. 특히, 이들 CRISPR-Cas 시스템의 구성 요소의 동정은 비-자연 환경, 예를 들어, 시스템이 처음 발견된 것들 이외의 세균에서 또는 포유류 세포와 같은 진핵 세포에서 이들의 사용을 가능하게 한다. 이들 새로운 이펙터는 기존의 클래스 2 CRISPR 이펙터의 오솔로그 및 동족체와 비교하여 기능 및 서열이 다르다.
일 양태에서, 본 개시는 CRISPR-연관 단백질(여기서, CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함함), 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하는, CLUST.091979의 조작된 비-자연 발생 클러스터링된 규칙적으로 산재된 짧은 회문 반복부(CRISPR) - Cas 시스템을 제공하고, 여기서 CRISPR-연관 단백질은 RNA 가이드에 결합하고 스페이서 서열에 상보적인 표적 핵산 서열을 변형시킬 수 있다. 일 양태에서, 본 개시는 CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산(여기서, CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함함), 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드, 또는 RNA 가이드를 인코딩하는 핵산을 포함하는, CLUST.091979의 조작된 비-자연 발생 클러스터링된 규칙적으로 산재된 짧은 회문 반복부(CRISPR) - Cas 시스템을 제공하고, 여기서 CRISPR-연관 단백질은 RNA 가이드에 결합하고 스페이서 서열에 상보적인 표적 핵산 서열을 변형시킬 수 있다.
일부 양태에서, 본 개시는 CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산(여기서, CRISPR-연관 단백질은 SEQ ID NO: 241의 아미노산 서열을 포함함); 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하는, CLUST.091979의 조작된 비-자연 발생 클러스터링된 규칙적으로 산재된 짧은 회문 반복부(CRISPR) - Cas 시스템을 제공하고, 여기서 CRISPR-연관 단백질은 RNA 가이드에 결합하고 스페이서 서열에 상보적인 표적 핵산 서열을 변형시킬 수 있다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4, SEQ ID NO: 10, SEQ ID NO: 12, 또는 SEQ ID NO: 14에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다.
본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 적어도 1 개(예를 들어, 1 개, 2 개, 또는 3 개)의 RuvC 도메인 또는 적어도 1 개의 스플릿 RuvC 도메인을 포함한다.
본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 다음 서열들 중 하나 이상을 포함한다: (a) PX1X2X3X4F(SEQ ID NO: 216)(여기서, X1은 L 또는 M 또는 I 또는 C 또는 F이고, X2는 Y 또는 W 또는 F이고, X3는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X4는 I 또는 L 또는 M임); (b) RX1X2X3L(SEQ ID NO: 217)(여기서, X1은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X2는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X3는 L 또는 I 또는 T 또는 C 또는 M 또는 K임); (c) NX1YX2(SEQ ID NO: 218)(여기서, X1은 I 또는 L 또는 F이고, X2는 K 또는 R 또는 V 또는 E임); (d) KX1X2X3FAX4X5KD(SEQ ID NO: 219)(여기서, X1은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X2는 I 또는 V 또는 L 또는 S이고, X3는 H 또는 S 또는 G 또는 R이고, X4는 D 또는 S 또는 E이고, X5는 I 또는 V 또는 M 또는 T 또는 N임); (e) LX1NX2(SEQ ID NO: 220)(여기서, X1은 G 또는 S 또는 C 또는 T이고, X2는 N 또는 Y 또는 K 또는 S임); (f) PX1X2X3X4SQX5DS(SEQ ID NO: 221)(여기서, X1은 S 또는 P 또는 A이고, X2는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X3는 F 또는 Y 또는 H이고, X4는 T 또는 S이고, X5는 M 또는 T 또는 I임); (g) KX1X2VRX3X4QEX5H(SEQ ID NO: 222)(여기서, X1은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X2는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X3는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X4는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X5는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및 (h) X1NGX2X3X4DX5NX6X7X8N(SEQ ID NO: 223)(여기서, X1은 I 또는 K 또는 V 또는 L이고, X2는 L 또는 M이고, X3는 N 또는 H 또는 P이고, X4는 A 또는 S 또는 C이고, X5는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X6는 A 또는 S이고, X7은 S 또는 A 또는 P이고, X8은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임). 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 216의 서열은 N-말단 서열이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 219의 서열은 C-말단 서열이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 220의 서열은 C-말단 서열이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 221의 서열은 C-말단 서열이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 222의 서열은 C-말단 서열이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 223의 서열은 C-말단 서열이다.
본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 다음 서열들 중 하나 이상을 포함한다: (a) ECPITKDVINEYK(SEQ ID NO: 290); (b) NLTSITIG(SEQ ID NO: 231); (c) NYRTKIRTLN(SEQ ID NO: 232); (d) ISYIENVEN(SEQ ID NO: 233); (e) ELLSVEQLK(SEQ ID NO: 234);(f) HINSMTINIQDFKIE(SEQ ID NO: 235); (g) KENSLGFIL(SEQ ID NO: 236); (h) GNRQIKKG(SEQ ID NO: 237); (i) DVNFKHA(SEQ ID NO: 238); (j) GYINLYKYLLEH(SEQ ID NO: 239); (k) KEQVLSKLLY(SEQ ID NO: 240); (l) EYIYVSCVNKLRAKYVSYFILKEKYYEKQKEYDIEMGF(SEQ ID NO: 241); (m) DDSTESKESMDKRR(SEQ ID NO: 242); (n) NVQQDINGCLKNIINY(SEQ ID NO: 243); (o) ALENLENSNFEK(SEQ ID NO: 244); (p) QVLPTIKSLL(SEQ ID NO: 245); (q) YHKLENQN(SEQ ID NO: 246); (r) ASDKVKEYIE(SEQ ID NO: 247); (s) TNENNEIVDAKYT(SEQ ID NO: 248); (t) ANFFNLMMKSLHFAS(SEQ ID NO: 249); (u) LLSNNGKTQIALVPSE(SEQ ID NO: 250); (v) HINGLNADFNAANNIKYI(SEQ ID NO: 251), 또는 임의의 상기에 대해 1 개, 2 개, 또는 3 개 이하의 서열 차이(예를 들어, 치환)을 갖는 서열. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4와 적어도 70% 동일한 서열을 갖는다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10과 적어도 70% 동일한 서열을 갖는다.
본원에 기재된 임의의 시스템의 일부 구현예에서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열에 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열에 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다.
본원에 기재된 임의의 시스템의 일부 구현예에서, 직접 반복부 서열은 다음 서열들 중 하나 이상을 포함한다: (a) X1X2TX3X4X5X6X7X8(SEQ ID NO: 224)(여기서, X1은 A 또는 C 또는 G이고, X2는 T 또는 C 또는 A이고, X3는 T 또는 G 또는 A이고, X4는 T 또는 G이고, X5는 T 또는 G 또는 A이고, X6는 G 또는 T 또는 A이고, X7은 T 또는 G 또는 A이고, X8은 A 또는 G 또는 T임)(예를 들어, ATTGTTGDA(SEQ ID NO: 225)); (b) X1X2X3X4X5X6X7X8X9(SEQ ID NO: 226)(여기서, X1은 T 또는 C 또는 A이고, X2는 T 또는 A 또는 G이고, X3는 T 또는 C 또는 A이고, X4는 T 또는 A이고, X5는 T 또는 A 또는 G이고, X6는 T 또는 A이고, X7은 A 또는 T이고, X8은 A 또는 G 또는 C 또는 T이고, X9은 G 또는 A 또는 C임)(예를 들어, TTTTWTARG(SEQ ID NO: 227)); 및 (c) X1X2X3AC(SEQ ID NO: 228)(여기서, X1은 A 또는 C 또는 G이고, X2는 C 또는 A이고, X3는 A 또는 C임)(예를 들어, ACAAC(SEQ ID NO: 229)). 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 224는 직접 반복부의 5' 말단에 근접한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 228은 직접 반복부의 3' 말단에 근접한다.
본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM)를 인식할 수 있고, 여기서 PAM은 5'-NTTN-3', 5'-NTTR-3', 5'-RTTR-3', 5'-TNNT-3', 5'-TNRT-3', 5'-TSRT-3', 5'-TGRT-3', 5'-TNRY-3', 5'-TTNR-3', 5'-TTYR-3', 5'-TTTR-3', 5'-TTCV-3', 5'-DTYR-3', 5'-WTTR-3', 5'-NNR-3', 5'-NYR-3', 5'-YYR-3', 5'-TYR-3', 5'-TTN-3', 5'-TTR-3', 5'-CNT-3', 5'-NGG-3', 5'-BGG-3', 또는 5'-R-3'로서 기재된 핵산 서열을 포함한 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "B"는 C 또는 G 또는 T이고, "D"는 A 또는 G 또는 T이고, "R"은 A 또는 G이고, "S"는 G 또는 C이고, "V"는 A 또는 C 또는 G이고, "W"는 A 또는 T이고, "Y"는 C 또는 T이다.
본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.
본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.
본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, 여기서, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.
본원에 기재된 임의의 시스템의 일부 구현예에서, RNA 가이드의 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, RNA 가이드의 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함한다.
본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 촉매 잔기(예를 들어, 아스파트산 또는 글루탐산)을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 표적 핵산을 절단한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 펩티드 태그, 형광 단백질, 염기-편집 도메인, DNA 메틸화 도메인, 히스톤 잔기 변형 도메인, 국재화 인자, 전사 조절 인자, 광-개폐 제어 인자, 화학적 유도성 인자, 또는 염색질 시각화 인자를 추가로 포함한다.
본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 세포, 예를 들어, 진핵 세포, 예를 들어, 포유류 세포, 예를 들어, 인간 세포에서의 발현을 위해 코돈-최적화된다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 프로모터에 작동 가능하게 연결된다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 벡터에 있다. 일부 구현예에서, 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 파지 벡터, 아데노바이러스 벡터, 아데노-연관 벡터, 또는 단순 포진 벡터를 포함한다.
본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산은 DNA 분자이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산은 PAM 서열을 포함한다.
본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 비-특이적 뉴클레오티드 활성을 갖는다.
본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으킨다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산의 변형은 이중-가닥 절단 사건이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산의 변형은 단일-가닥 절단 사건이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산의 변형은 삽입 사건을 일으킨다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산의 변형은 결실 사건을 일으킨다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산의 변형은 세포 독성 또는 세포 사멸을 일으킨다.
본원에 기재된 임의의 시스템의 일부 구현예에서, 시스템은 도너 주형 핵산을 추가로 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 도너 주형 핵산은 DNA 분자이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 도너 주형 핵산은 RNA 분자이다.
본원에 기재된 임의의 시스템의 일부 구현예에서, RNA 가이드는 선택적으로 tracrRNA 및/또는 조절자 RNA를 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 시스템은 tracrRNA를 추가로 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 시스템은 tracrRNA를 포함하지 않는다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 자가-가공이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 시스템은 조절자 RNA를 추가로 포함한다.
본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 152, SEQ ID NO: 153, 또는 SEQ ID NO: 154의 뉴클레오티드와 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다.
본원에 기재된 임의의 시스템의 일부 구현예에서, 시스템은 나노입자, 리포좀, 엑소좀, 미세소포체, 또는 유전자-총을 포함하는 전달 조성물에 존재한다.
본원에 기재된 임의의 시스템의 일부 구현예에서, 시스템은 세포 내에 있다. 일부 구현예에서, 세포는 진핵 세포이다. 일부 구현예에서, 세포는 포유류 세포이다. 일부 구현예에서, 세포는 인간 세포이다. 일부 구현예에서, 세포는 원핵 세포이다.
또 다른 양태에서, 본 개시는 세포로서, CRISPR-연관 단백질; 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하는 세포를 제공하고, 여기서 CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다. 또 다른 양태에서, 본 개시는 세포로서, CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산; 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드, 또는 RNA 가이드를 인코딩하는 핵산을 포함하는 세포를 제공하고, 여기서 CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다.
본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 적어도 1 개(예를 들어, 1 개, 2 개, 또는 3 개)의 RuvC 도메인 또는 적어도 1 개의 스플릿 RuvC 도메인을 포함한다.
본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 다음 서열들 중 하나 이상을 포함한다: (a) PX1X2X3X4F(SEQ ID NO: 216)(여기서, X1은 L 또는 M 또는 I 또는 C 또는 F이고, X2는 Y 또는 W 또는 F이고, X3는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X4는 I 또는 L 또는 M임); (b) RX1X2X3L(SEQ ID NO: 217)(여기서, X1은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X2는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X3는 L 또는 I 또는 T 또는 C 또는 M 또는 K임); (c) NX1YX2(SEQ ID NO: 218)(여기서, X1은 I 또는 L 또는 F이고, X2는 K 또는 R 또는 V 또는 E임); (d) KX1X2X3FAX4X5KD(SEQ ID NO: 219)(여기서, X1은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X2는 I 또는 V 또는 L 또는 S이고, X3는 H 또는 S 또는 G 또는 R이고, X4는 D 또는 S 또는 E이고, X5는 I 또는 V 또는 M 또는 T 또는 N임); (e) LX1NX2(SEQ ID NO: 220)(여기서, X1은 G 또는 S 또는 C 또는 T이고, X2는 N 또는 Y 또는 K 또는 S임); (f) PX1X2X3X4SQX5DS(SEQ ID NO: 221)(여기서, X1은 S 또는 P 또는 A이고, X2는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X3는 F 또는 Y 또는 H이고, X4는 T 또는 S이고, X5는 M 또는 T 또는 I임); (g) KX1X2VRX3X4QEX5H(SEQ ID NO: 222)(여기서, X1은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X2는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X3는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X4는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X5는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및 (h) X1NGX2X3X4DX5NX6X7X8N(SEQ ID NO: 223)(여기서, X1은 I 또는 K 또는 V 또는 L이고, X2는 L 또는 M이고, X3는 N 또는 H 또는 P이고, X4는 A 또는 S 또는 C이고, X5는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X6는 A 또는 S이고, X7은 S 또는 A 또는 P이고, X8은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임). 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 216의 서열은 N-말단 서열이다. 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 219의 서열은 C-말단 서열이다. 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 220의 서열은 C-말단 서열이다. 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 221의 서열은 C-말단 서열이다. 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 222의 서열은 C-말단 서열이다. 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 223의 서열은 C-말단 서열이다.
본원에 기재된 임의의 세포의 일부 구현예에서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다.
본원에 기재된 임의의 세포의 일부 구현예에서, 직접 반복부 서열은 다음 서열들 중 하나 이상을 포함한다: (a) X1X2TX3X4X5X6X7X8(SEQ ID NO: 224)(여기서, X1은 A 또는 C 또는 G이고, X2는 T 또는 C 또는 A이고, X3는 T 또는 G 또는 A이고, X4는 T 또는 G이고, X5는 T 또는 G 또는 A이고, X6는 G 또는 T 또는 A이고, X7은 T 또는 G 또는 A이고, X8은 A 또는 G 또는 T임)(예를 들어, ATTGTTGDA(SEQ ID NO: 225)); (b) X1X2X3X4X5X6X7X8X9(SEQ ID NO: 226)(여기서, X1은 T 또는 C 또는 A이고, X2는 T 또는 A 또는 G이고, X3는 T 또는 C 또는 A이고, X4는 T 또는 A이고, X5는 T 또는 A 또는 G이고, X6는 T 또는 A이고, X7은 A 또는 T이고, X8은 A 또는 G 또는 C 또는 T이고, X9은 G 또는 A 또는 C임)(예를 들어, TTTTWTARG(SEQ ID NO: 227)); 및 (c) X1X2X3AC(SEQ ID NO: 228)(여기서, X1은 A 또는 C 또는 G이고, X2는 C 또는 A이고, X3는 A 또는 C임)(예를 들어, ACAAC(SEQ ID NO: 229)). 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 224는 직접 반복부의 5' 말단에 근접한다. 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 228은 직접 반복부의 3' 말단에 근접한다.
본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.
본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.
본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.
본원에 기재된 임의의 세포의 일부 구현예에서, 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함한다.
본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 촉매 잔기(예를 들어, 아스파트산 또는 글루탐산)을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 표적 핵산을 절단한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 펩티드 태그, 형광 단백질, 염기-편집 도메인, DNA 메틸화 도메인, 히스톤 잔기 변형 도메인, 국재화 인자, 전사 조절 인자, 광-개폐 제어 인자, 화학적 유도성 인자, 또는 염색질 시각화 인자를 추가로 포함한다.
본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 세포, 예를 들어, 진핵 세포, 예를 들어, 포유류 세포, 예를 들어, 인간 세포에서의 발현을 위해 코돈-최적화된다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 프로모터에 작동 가능하게 연결된다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 벡터에 있다. 일부 구현예에서, 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 파지 벡터, 아데노바이러스 벡터, 아데노-연관 벡터, 또는 단순 포진 벡터를 포함한다.
본원에 기재된 임의의 세포의 일부 구현예에서, RNA 가이드는 선택적으로 tracrRNA 및/또는 조절자 RNA를 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 tracrRNA를 추가로 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 tracrRNA를 포함하지 않는다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 자가-가공이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 조절자 RNA를 추가로 포함한다.
본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 진핵 세포이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 포유류 세포이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 인간 세포이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 원핵 세포이다.
본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산은 DNA 분자이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산은 PAM 서열을 포함한다.
본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 비-특이적 뉴클레아제 활성을 갖는다.
본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으킨다. 본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산의 변형은 이중-가닥 절단 사건이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산의 변형은 단일-가닥 절단 사건이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산의 변형은 삽입 사건을 일으킨다. 본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산의 변형은 결실 사건을 일으킨다. 본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산의 변형은 세포 독성 또는 세포 사멸을 일으킨다.
또 다른 양태에서, 본 개시는 세포에서 표적 핵산에 본원에 기재된 시스템을 결합하는 방법으로서, (a) 시스템을 제공하는 단계; 및 (b) 시스템을 세포에 전달하는 단계를 포함하고, 세포는 표적 핵산을 포함하고, CRISPR-연관-단백질은 RNA 가이드에 결합하고, 스페이서 서열은 표적 핵산에 결합하는, 방법을 제공한다. 일부 구현예에서, 세포는 진핵 세포, 예를 들어, 포유류 세포, 예를 들어, 인간 세포이다.
또 다른 양태에서, 본 개시는 표적 핵산을 변형시키는 방법으로서, 상기 방법은 CRISPR-연관 단백질(여기서, CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함함); 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하는 조작된 비-자연 발생 CRISPR-Cas 시스템을 표적 핵산에 전달하는 단계를 포함하고, CRISPR-연관 단백질은 RNA 가이드에 결합할 수 있고; CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으키는, 방법을 제공한다. 또 다른 양태에서, 본 개시는 표적 핵산을 변형시키는 방법으로서, 상기 방법이 CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산, 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하는 조작된 비-자연 발생 CRISPR-Cas 시스템을 표적 핵산에 전달하는 단계를 포함하고, CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, CRISPR-연관 단백질은 RNA 가이드에 결합할 수 있고, CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으키는, 방법을 제공한다.
본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 다음 서열들 중 하나 이상을 포함한다: (a) PX1X2X3X4F(SEQ ID NO: 216)(여기서, X1은 L 또는 M 또는 I 또는 C 또는 F이고, X2는 Y 또는 W 또는 F이고, X3는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X4는 I 또는 L 또는 M임); (b) RX1X2X3L(SEQ ID NO: 217)(여기서, X1은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X2는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X3는 L 또는 I 또는 T 또는 C 또는 M 또는 K임); (c) NX1YX2(SEQ ID NO: 218)(여기서, X1은 I 또는 L 또는 F이고, X2는 K 또는 R 또는 V 또는 E임); (d) KX1X2X3FAX4X5KD(SEQ ID NO: 219)(여기서, X1은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X2는 I 또는 V 또는 L 또는 S이고, X3는 H 또는 S 또는 G 또는 R이고, X4는 D 또는 S 또는 E이고, X5는 I 또는 V 또는 M 또는 T 또는 N임); (e) LX1NX2(SEQ ID NO: 220)(여기서, X1은 G 또는 S 또는 C 또는 T이고, X2는 N 또는 Y 또는 K 또는 S임); (f) PX1X2X3X4SQX5DS(SEQ ID NO: 221)(여기서, X1은 S 또는 P 또는 A이고, X2는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X3는 F 또는 Y 또는 H이고, X4는 T 또는 S이고, X5는 M 또는 T 또는 I임); (g) KX1X2VRX3X4QEX5H(SEQ ID NO: 222)(여기서, X1은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X2는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X3는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X4는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X5는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및 (h) X1NGX2X3X4DX5NX6X7X8N(SEQ ID NO: 223)(여기서, X1은 I 또는 K 또는 V 또는 L이고, X2는 L 또는 M이고, X3는 N 또는 H 또는 P이고, X4는 A 또는 S 또는 C이고, X5는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X6는 A 또는 S이고, X7은 S 또는 A 또는 P이고, X8은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임). 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 216의 서열은 N-말단 서열이다. 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 219의 서열은 C-말단 서열이다. 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 220의 서열은 C-말단 서열이다. 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 221의 서열은 C-말단 서열이다. 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 222의 서열은 C-말단 서열이다. 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 223의 서열은 C-말단 서열이다.
본원에 기재된 임의의 방법의 일부 구현예에서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다.
본원에 기재된 임의의 방법의 일부 구현예에서, 직접 반복부 서열은 다음 서열들 중 하나 이상을 포함한다: (a) X1X2TX3X4X5X6X7X8(SEQ ID NO: 224)(여기서, X1은 A 또는 C 또는 G이고, X2는 T 또는 C 또는 A이고, X3는 T 또는 G 또는 A이고, X4는 T 또는 G이고, X5는 T 또는 G 또는 A이고, X6는 G 또는 T 또는 A이고, X7은 T 또는 G 또는 A이고, X8은 A 또는 G 또는 T임)(예를 들어, ATTGTTGDA(SEQ ID NO: 225)); (b) X1X2X3X4X5X6X7X8X9(SEQ ID NO: 226)(여기서, X1은 T 또는 C 또는 A이고, X2는 T 또는 A 또는 G이고, X3는 T 또는 C 또는 A이고, X4는 T 또는 A이고, X5는 T 또는 A 또는 G이고, X6는 T 또는 A이고, X7은 A 또는 T이고, X8은 A 또는 G 또는 C 또는 T이고, X9은 G 또는 A 또는 C임)(예를 들어, TTTTWTARG (SEQ ID NO: 227)); 및 (c) X1X2X3AC(SEQ ID NO: 228)(여기서, X1은 A 또는 C 또는 G이고, X2는 C 또는 A이고, X3는 A 또는 C임)(예를 들어, ACAAC(SEQ ID NO: 229)). 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 224는 직접 반복부의 5' 말단에 근접한다. 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 228는 직접 반복부의 3' 말단에 근접한다.
본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.
본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3') 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.
본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.
본원에 기재된 임의의 방법의 일부 구현예에서, 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함한다.
본원에 기재된 임의의 방법의 일부 구현예에서, RNA 가이드는 선택적으로 tracrRNA 및/또는 조절자 RNA를 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, 시스템은 tracrRNA를 추가로 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, 시스템은 tracrRNA를 포함하지 않는다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 자가-가공이다. 본원에 기재된 임의의 방법의 일부 구현예에서, 시스템은 조절자 RNA를 추가로 포함한다.
본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산은 DNA 분자이다. 본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산은 PAM 서열을 포함한다.
본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 비-특이적 뉴클레아제 활성을 갖는다.
본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산의 변형은 이중-가닥 절단 사건이다. 본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산의 변형은 단일-가닥 절단 사건이다. 본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산의 변형은 삽입 사건을 일으킨다. 본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산의 변형은 결실 사건을 일으킨다. 본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산의 변형은 세포 독성 또는 세포 사멸을 일으킨다.
또 다른 양태에서, 본 개시는 표적 핵산을 편집하는 방법으로서, 본원에 기재된 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법을 제공한다. 또 다른 양태에서, 본 개시는 표적 핵산의 발현을 변형시키는 방법으로서, 본원에 기재된 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법을 제공한다. 또 다른 양태에서, 본 개시는 표적 핵산에서의 부위에서 페이로드 핵산의 삽입을 표적화하는 방법으로서, 본원에 기재된 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법을 제공한다. 또 다른 양태에서, 본 개시는 표적 핵산의 부위로부터 페이로드 핵산의 절제를 표적화하는 방법으로서, 본원에 기재된 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법을 제공한다. 또 다른 양태에서, 본 개시는 DNA 표적 핵산의 인식 시 단일-가닥 DNA를 비-특이적으로 분해하는 방법으로서, 본원에 기재된 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법을 제공한다.
본원에 제공된 임의의 시스템 또는 방법의 일부 구현예에서, 접촉은 직접 접촉 또는 간접 접촉을 포함한다. 본원에 제공된 임의의 시스템 또는 방법의 일부 구현예에서, 간접 접촉은 RNA 가이드 및/또는 CRISPR-관련 단백질의 생성을 가능하게 하는 조건 하에 본원에 기재된 RNA 가이드 또는 CRISPR-연관 단백질을 인코딩하는 하나 이상의 핵산을 투여하는 것을 포함한다. 본원에 제공된 임의의 시스템 또는 방법의 일부 구현예에서, 접촉은 생체내 접촉 또는 시험관내 접촉을 포함한다. 본원에 제공된 임의의 시스템 또는 방법의 일부 구현예에서, 표적 핵산을 시스템과 접촉시키는 것은 CRISPR-관련 단백질 및 가이드 RNA가 표적 핵산에 도달하게 하는 조건 하에 시스템과 핵산을 포함하는 세포를 접촉시키는 것을 포함한다. 본원에 제공된 임의의 시스템 또는 방법의 일부 구현예에서, 시스템과 생체내 세포를 접촉시키는 것은 CRISPR-관련 단백질 및 가이드 RNA가 세포에 도달하거나 세포에서 생성되게 하는 조건 하에 세포를 포함하는 대상체에 시스템을 투여하는 것을 포함한다.
또 다른 양태에서, 본 개시는 (a) 표적 핵산의 표적화 및 편집; (b) 핵산의 인식 시 단일-가닥 핵산의 비-특이적 분해; (c) 이중-가닥 표적의 스페이서 상보적 가닥의 인식 시 이중-가닥 표적의 비-스페이서 상보적 가닥의 표적화 및 닉킹; (d) 이중-가닥 표적 핵산의 표적화 및 절단; (e) 샘플 내 표적 핵산의 검출; (f) 이중-가닥 핵산의 특이적 편집; (g) 이중-가닥 핵산의 염기 편집; (h) 세포에서 유전자형-특이적 또는 전사-상태-특이적 세포 사멸 또는 휴면 유도; (i) 이중-가닥 핵산 표적 내 인델 형성; (j) 이중-가닥 핵산 표적 내 서열 삽입; 또는 (k) 이중-가닥 핵산 표적 내 서열 결실 또는 역위의, 시험관내 또는 생체외 방법에서 사용하기 위한 본원에 제공된 시스템을 제공한다.
또 다른 양태에서, 본 개시는 (a) CRISPR-연관 단백질(여기서, CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함함); 및 (b) 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드(또는 RNA 가이드를 인코딩하는 핵산)의 형질감염을 포함하는, 포유류 세포에서 표적 핵산으로의 삽입 또는 결실을 도입하는 방법으로서, CRISPR-연관 단백질은 RNA 가이드에 결합할 수 있고; CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으키는, 방법을 제공한다.
본원에 제공된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, 직접 반복부는 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, 직접 반복부는 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, 표적 핵산은 PAM 서열에 인접하고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, 여기서 "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.
본원에 제공된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, 직접 반복부는 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, 직접 반복부는 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, 표적 핵산은 PAM 서열에 인접하고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, 여기서 "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.
본원에 제공된 임의의 방법의 일부 구현예에서, 형질전환은 일시적 형질전환이다. 본원에 제공된 임의의 방법의 일부 구현예에서, 세포는 인간 세포이다.
또 다른 양태에서, 본 개시는 (a) CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산, 및 (b) 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하는 조성물로서; CRISPR-연관 단백질은 다음 아미노산 서열들 중 하나 이상을 포함하고: (i) PX1X2X3X4F(SEQ ID NO: 216)(여기서, X1은 L 또는 M 또는 I 또는 C 또는 F이고, X2는 Y 또는 W 또는 F이고, X3는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X4는 I 또는 L 또는 M임); (ii) RX1X2X3L(SEQ ID NO: 217)(여기서, X1은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X2는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X3는 L 또는 I 또는 T 또는 C 또는 M 또는 K임); (iii) NX1YX2(SEQ ID NO: 218)(여기서, X1은 I 또는 L 또는 F이고, X2는 K 또는 R 또는 V 또는 E임); (iv) KX1X2X3FAX4X5KD(SEQ ID NO: 219)(여기서, X1은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X2는 I 또는 V 또는 L 또는 S이고, X3는 H 또는 S 또는 G 또는 R이고, X4는 D 또는 S 또는 E이고, X5는 I 또는 V 또는 M 또는 T 또는 N임); (v) LX1NX2 (SEQ ID NO: 220)(여기서, X1은 G 또는 S 또는 C 또는 T이고, X2는 N 또는 Y 또는 K 또는 S임); (vi) PX1X2X3X4SQX5DS(SEQ ID NO: 221)(여기서, X1은 S 또는 P 또는 A이고, X2는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X3는 F 또는 Y 또는 H이고, X4는 T 또는 S이고, X5는 M 또는 T 또는 I임); (vii) KX1X2VRX3X4QEX5H(SEQ ID NO: 222)(여기서, X1은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X2는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X3는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X4는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X5는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및 (viii) X1NGX2X3X4DX5NX6X7X8N(SEQ ID NO: 223)(여기서, X1은 I 또는 K 또는 V 또는 L이고, X2는 L 또는 M이고, X3는 N 또는 H 또는 P이고, X4는 A 또는 S 또는 C이고, X5는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X6는 A 또는 S이고, X7은 S 또는 A 또는 P이고, X8은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임); CRISPR-연관 단백질은 RNA 가이드에 결합하고 스페이서 서열에 상보적인 표적 핵산 서열을 변형시킬 수 있는, 조성물을 제공한다.
본원에 기재된 임의의 조성물의 일부 구현예에서, 직접 반복부 서열은 다음 서열들 중 하나 이상을 포함한다: (a) X1X2TX3X4X5X6X7X8(SEQ ID NO: 224)(여기서, X1은 A 또는 C 또는 G이고, X2는 T 또는 C 또는 A이고, X3는 T 또는 G 또는 A이고, X4는 T 또는 G이고, X5는 T 또는 G 또는 A이고, X6는 G 또는 T 또는 A이고, X7은 T 또는 G 또는 A이고, X8은 A 또는 G 또는 T임)(예를 들어, ATTGTTGDA(SEQ ID NO: 225)); (b) X1X2X3X4X5X6X7X8X9(SEQ ID NO: 226)(여기서, X1은 T 또는 C 또는 A이고, X2는 T 또는 A 또는 G이고, X3는 T 또는 C 또는 A이고, X4는 T 또는 A이고, X5는 T 또는 A 또는 G이고, X6는 T 또는 A이고, X7는 A 또는 T이고, X8은 A 또는 G 또는 C 또는 T이고, X9은 G 또는 A 또는 C임)(예를 들어, TTTTWTARG(SEQ ID NO: 227)); 및 (c) X1X2X3AC(SEQ ID NO: 228)(여기서, X1은 A 또는 C 또는 G이고, X2는 C 또는 A이고, X3는 A 또는 C임)(예를 들어, ACAAC(SEQ ID NO: 229)). 본원에 기재된 임의의 조성물의 일부 구현예에서, SEQ ID NO: 224는 직접 반복부의 5' 말단에 근접한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, SEQ ID NO: 228는 직접 반복부의 3' 말단에 근접한다.
본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질은 적어도 1 개(예를 들어, 1 개, 2 개, 또는 3 개)의 RuvC 도메인 또는 적어도 1 개의 스플릿 RuvC 도메인을 포함한다.
본원에 기재된 임의의 조성물의 일부 구현예에서, RNA 가이드의 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, RNA 가이드의 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함한다.
본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질은 촉매 잔기(예를 들어, 아스파트산 또는 글루탐산)를 포함한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질은 표적 핵산을 절단한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질은 펩티드 태그, 형광 단백질, 염기-편집 도메인, DNA 메틸화 도메인, 히스톤 잔기 변형 도메인, 국재화 인자, 전사 조절 인자, 광-개폐 제어 인자, 화학적 유도성 인자, 또는 염색질 시각화 인자를 추가로 포함한다.
본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 세포, 예를 들어, 진핵 세포, 예를 들어, 포유류 세포, 예를 들어, 인간 세포에서의 발현을 위해 코돈-최적화된다. 본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 프로모터에 작동 가능하게 연결된다. 본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 벡터에 있다. 일부 구현예에서, 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 파지 벡터, 아데노바이러스 벡터, 아데노-연관 벡터, 또는 단순 포진 벡터를 포함한다.
본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산은 DNA 분자이다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산은 PAM 서열을 포함한다.
본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질은 비-특이적 뉴클레아제 활성을 갖는다.
본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으킨다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산의 변형은 이중-가닥 절단 사건이다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산의 변형은 단일-가닥 절단 사건이다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산의 변형은 삽입 사건을 일으킨다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산의 변형은 결실 사건을 일으킨다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산의 변형은 세포 독성 또는 세포 사멸을 일으킨다.
본원에 기재된 임의의 조성물의 일부 구현예에서, 시스템은 도너 주형 핵산을 추가로 포함한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 도너 주형 핵산은 DNA 분자이다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 도너 주형 핵산은 RNA 분자이다.
본원에 기재된 임의의 조성물의 일부 구현예에서, RNA 가이드는 선택적으로 tracrRNA를 포함한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 시스템은 tracrRNA를 추가로 포함한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 시스템은 tracrRNA를 포함하지 않는다. 본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질은 자가-가공이다.
본원에 기재된 임의의 조성물의 일부 구현예에서, 시스템은 나노입자, 리포좀, 엑소좀, 미세소포체, 또는 유전자-총을 포함하는 전달 조성물에 존재한다.
본원에 기재된 임의의 조성물의 일부 구현예에서, 조성물은 세포 내에 있다. 일부 구현예에서, 세포는 진핵 세포이다. 일부 구현예에서, 세포는 포유류 세포이다. 일부 구현예에서, 세포는 인간 세포이다. 일부 구현예에서, 세포는 원핵 세포이다.
본원에 기재된 이펙터는 1) 신규한 핵산 편집 성질 및 제어 메커니즘, 2) 전달 전략에서 더 큰 다양성을 위한 더 작은 크기, 3) 세포 사멸과 같은 유전자형 촉발 세포 과정, 및 4) 프로그래밍 가능한 RNA-가이드 DNA 삽입, 절제 및 동원, 및 5) 비-인간 공생원을 통한 기존 면역의 분화된 프로파일을 포함하지만, 이로 제한되지 않는 추가 특징들을 제공한다. 예를 들어, 실시예 1, 실시예 4, 및 실시예 5 및 도 1 내지 도 3 및 도 5 내지 도 11d를 참조한다. 게놈 및 에피게놈 조작을 위한 기법의 툴박스에 본원에 기재된 신규한 DNA-표적화 시스템을 추가하면, 특정 프로그래밍된 섭동에 대한 광범위한 적용이 가능해진다.
본 발명의 다른 특징 및 이점은 하기 상세한 설명 및 청구항으로부터 명백해질 것이다.
도면은 CLUST.091979로 지칭되는 단백질 클러스터의 분석 결과를 나타내는 일련의 개략도이다.
도 1a, 도 1b, 도 1c, 도 1d, 도 1e, 도 1f, 도 1g, 도 1h, 도 1i, 도 1j, 도 1k, 및 도 1l은 SEQ ID NO: 1 내지 4, 14, 15, 17 내지 19, 21 내지 25, 27 내지 33, 35 내지 49, 51 내지 56의 이펙터의 정렬을 총괄적으로 나타낸 것이다.
도 2는 표 6에 나타낸 서열의 컨센서스 서열에 기초한 CLUST.091979 이펙터의 RuvC 도메인을 나타내는 개략도이다.
도 3은 SEQ ID NO: 57, 58, 60, 62, 63, 70, 72 내지 74, 76, 77, 80, 83, 84, 86 내지 88, 90, 128, 130, 139, 및 213의 직접 반복부 서열의 정렬을 나타낸 것이다. 컨센서스 서열(SEQ ID NO: 230)은 정렬의 상부에 나타나 있다.
도 4a는 실시예 4에 기재된 생체내 음성 선별 스크리닝 검정의 구성 요소의 개략도이다. 2 개의 DR이 측접하고 J23119에 의해 발현되는 pACYC184 또는 이. 콜라이(E. coli) 필수 유전자의 둘 모두의 가닥으로부터 균일하게 샘플링된 비-대표적 스페이서를 포함하는 CRISPR 어레이 라이브러리가 설계되었다.
도 4b는 실시예 4에 기재된 생체내 음성 선별 스크리닝 흐름도의 개략도이다. CRISPR 어레이 라이브러리는 이펙터 플라스미드로 클로닝되었다. 이펙터 플라스미드 및 비-코딩 플라스미드는 이. 콜라이로 형질전환되고, 이어서 pACYC184 또는 이. 콜라이 필수 유전자로부터의 전사체에 대한 간섭을 부여하는 CRISPR 어레이의 음성 선별에 대한 파생물로 형질전환되었다. 이펙터 플라스미드의 표적화된 시퀀싱은 고갈된 CRISPR 어레이를 동정하는 데 사용되었다. 성숙한 crRNA 및 잠재적인 tracrRNA 요건을 동정하기 위해 작은 RNAseq가 추가로 수행되었다.
도 5는 비-코딩 서열이 있는, pACYC184를 표적화하는 스페이서 및 직접 반복부 전사 방향에 대한 조작된 조성물의 고갈 활성도를 나타내는 CLUST.091979 AUXO013988882(SEQ ID NO: 1에 기재된 이펙터)에 대한 그래프이다. "정" 방향(5'-ACTA…AACT-[스페이서]-3')에서 직접 반복부 및 "역" 방향(5'-AGTT…TAGT-[스페이서]-3')에서 직접 반복부로의 고갈 정도가 도시되어 있다.
도 6a는 pACYC184 플라스미드 상의 위치에 따른, 비-코딩 서열이 있는 CLUST.091979 AUXO013988882에 대한 고갈 및 비-고갈 표적의 밀도를 나타내는 그래프 도식이다. 도 6b는 이. 콜라이 균주, 이. 클로니(E. Cloni) 상의 위치에 따른, 비-코딩 서열이 있는 CLUST.091979 AUXO013988882에 대한 고갈 및 비-고갈 표적의 밀도를 나타내는 그래프 도식이다. 상부 가닥 및 하부 가닥의 표적은 주석이 달린 유전자의 방향과 관련하여 별도로 나타나 있다. 밴드의 크기는 고갈 정도를 지시하며, 더 밝은 밴드는 3의 히트 임계치에 가깝다. 구배는 상대 전사체 존재비를 보여주는 RNA 시퀀싱의 히트맵이다.
도 7은 CLUST.091979 AUXO013988882(비-코딩 서열 있음)에 대한 PAM 서열의 예측으로서 이. 클로니에서 고갈된 표적이 측접한 서열의 WebLogo이다.
도 8은 비-코딩 서열이 있는 pACYC184를 표적화하는 스페이서 및 직접 반복부 전사 방향에 대한 조작된 조성물의 고갈 활성도를 나타내는 CLUST.091979 SRR3181151(SEQ ID NO: 4에 기재된 이펙터)에 대한 그래프이다. "정" 방향(5'-GTTG…CAGG-[스페이서]-3')에서 직접 반복부 및 "역" 방향(5'-CCTG…CAAC-[스페이서]-3')에서 직접 반복부로의 고갈 정도가 나타나 있다.
도 9a는 pACYC184 플라스미드 상의 위치에 따른, 비-코딩 서열이 있는 CLUST.091979 SRR3181151에 대한 고갈 및 비-고갈 표적의 밀도를 나타내는 그래프 도식이다. 도 9b는 이. 콜라이 균주, 이. 클로니 상의 위치에 따른, 비-코딩 서열이 있는 CLUST.091979 SRR3181151에 대한 고갈 및 비-고갈 표적의 밀도를 나타내는 그래프 도식이다. 상부 가닥 및 하부 가닥의 표적은 주석이 달린 유전자의 방향과 관련하여 별도로 나타나 있다. 밴드의 크기는 고갈도를 지시하며, 여기서 밴드가 밝을수록 3의 히트 임계치에 가깝다. 구배는 상대 전사체 존재비를 보여주는 RNA 시퀀싱의 히트맵이다.
도 10은 CLUST.091979 SRR3181151(비-코딩 서열 있음)에 대한 PAM 서열의 예측으로서 이. 클로니에서 고갈된 표적이 측접한 서열의 WebLogo이다.
도 11a는 HEK293 세포에서 SEQ ID NO: 206의 AAVS1 표적 유전자좌 및 SEQ ID NO: 208의 VEGFA 표적 유전자좌에서 SEQ ID NO: 4의 이펙터에 의해 유도된 인델을 나타낸다. 도 11b는 HEK293 세포에서 SEQ ID NO: 253, 255, 257, 259, 및 275의 AAVS1 표적 유전자좌, SEQ ID NO: 263, 265, 267, 269, 271, 273, 및 277의 VEGFA 표적 유전자좌, 및 SEQ ID NO: 261의 EMX1 표적 유전자좌에서 SEQ ID NO: 4의 이펙터에 의해 유도된 인델을 나타낸다. 도 11c는 HEK293 세포에서 SEQ ID NO: 210의 AAVS1 표적 유전자좌, SEQ ID NO: 212의 AAVS1 표적 유전자좌, 및 SEQ ID NO: 215의 VEGFA 표적 유전자좌에서 SEQ ID NO: 10의 이펙터에 의해 유도된 인델을 나타낸다. 도 11d는 HEK293 세포에서 SEQ ID NO: 279, 281, 285, 및 287의 AAVS1 표적 유전자좌, SEQ ID NO: 283의 VEGFA 표적 유전자좌, 및 SEQ ID NO: 289의 EMX1 표적 유전자좌에서 SEQ ID NO: 10의 이펙터에 의해 유도된 인델을 나타낸다.
도 1a, 도 1b, 도 1c, 도 1d, 도 1e, 도 1f, 도 1g, 도 1h, 도 1i, 도 1j, 도 1k, 및 도 1l은 SEQ ID NO: 1 내지 4, 14, 15, 17 내지 19, 21 내지 25, 27 내지 33, 35 내지 49, 51 내지 56의 이펙터의 정렬을 총괄적으로 나타낸 것이다.
도 2는 표 6에 나타낸 서열의 컨센서스 서열에 기초한 CLUST.091979 이펙터의 RuvC 도메인을 나타내는 개략도이다.
도 3은 SEQ ID NO: 57, 58, 60, 62, 63, 70, 72 내지 74, 76, 77, 80, 83, 84, 86 내지 88, 90, 128, 130, 139, 및 213의 직접 반복부 서열의 정렬을 나타낸 것이다. 컨센서스 서열(SEQ ID NO: 230)은 정렬의 상부에 나타나 있다.
도 4a는 실시예 4에 기재된 생체내 음성 선별 스크리닝 검정의 구성 요소의 개략도이다. 2 개의 DR이 측접하고 J23119에 의해 발현되는 pACYC184 또는 이. 콜라이(E. coli) 필수 유전자의 둘 모두의 가닥으로부터 균일하게 샘플링된 비-대표적 스페이서를 포함하는 CRISPR 어레이 라이브러리가 설계되었다.
도 4b는 실시예 4에 기재된 생체내 음성 선별 스크리닝 흐름도의 개략도이다. CRISPR 어레이 라이브러리는 이펙터 플라스미드로 클로닝되었다. 이펙터 플라스미드 및 비-코딩 플라스미드는 이. 콜라이로 형질전환되고, 이어서 pACYC184 또는 이. 콜라이 필수 유전자로부터의 전사체에 대한 간섭을 부여하는 CRISPR 어레이의 음성 선별에 대한 파생물로 형질전환되었다. 이펙터 플라스미드의 표적화된 시퀀싱은 고갈된 CRISPR 어레이를 동정하는 데 사용되었다. 성숙한 crRNA 및 잠재적인 tracrRNA 요건을 동정하기 위해 작은 RNAseq가 추가로 수행되었다.
도 5는 비-코딩 서열이 있는, pACYC184를 표적화하는 스페이서 및 직접 반복부 전사 방향에 대한 조작된 조성물의 고갈 활성도를 나타내는 CLUST.091979 AUXO013988882(SEQ ID NO: 1에 기재된 이펙터)에 대한 그래프이다. "정" 방향(5'-ACTA…AACT-[스페이서]-3')에서 직접 반복부 및 "역" 방향(5'-AGTT…TAGT-[스페이서]-3')에서 직접 반복부로의 고갈 정도가 도시되어 있다.
도 6a는 pACYC184 플라스미드 상의 위치에 따른, 비-코딩 서열이 있는 CLUST.091979 AUXO013988882에 대한 고갈 및 비-고갈 표적의 밀도를 나타내는 그래프 도식이다. 도 6b는 이. 콜라이 균주, 이. 클로니(E. Cloni) 상의 위치에 따른, 비-코딩 서열이 있는 CLUST.091979 AUXO013988882에 대한 고갈 및 비-고갈 표적의 밀도를 나타내는 그래프 도식이다. 상부 가닥 및 하부 가닥의 표적은 주석이 달린 유전자의 방향과 관련하여 별도로 나타나 있다. 밴드의 크기는 고갈 정도를 지시하며, 더 밝은 밴드는 3의 히트 임계치에 가깝다. 구배는 상대 전사체 존재비를 보여주는 RNA 시퀀싱의 히트맵이다.
도 7은 CLUST.091979 AUXO013988882(비-코딩 서열 있음)에 대한 PAM 서열의 예측으로서 이. 클로니에서 고갈된 표적이 측접한 서열의 WebLogo이다.
도 8은 비-코딩 서열이 있는 pACYC184를 표적화하는 스페이서 및 직접 반복부 전사 방향에 대한 조작된 조성물의 고갈 활성도를 나타내는 CLUST.091979 SRR3181151(SEQ ID NO: 4에 기재된 이펙터)에 대한 그래프이다. "정" 방향(5'-GTTG…CAGG-[스페이서]-3')에서 직접 반복부 및 "역" 방향(5'-CCTG…CAAC-[스페이서]-3')에서 직접 반복부로의 고갈 정도가 나타나 있다.
도 9a는 pACYC184 플라스미드 상의 위치에 따른, 비-코딩 서열이 있는 CLUST.091979 SRR3181151에 대한 고갈 및 비-고갈 표적의 밀도를 나타내는 그래프 도식이다. 도 9b는 이. 콜라이 균주, 이. 클로니 상의 위치에 따른, 비-코딩 서열이 있는 CLUST.091979 SRR3181151에 대한 고갈 및 비-고갈 표적의 밀도를 나타내는 그래프 도식이다. 상부 가닥 및 하부 가닥의 표적은 주석이 달린 유전자의 방향과 관련하여 별도로 나타나 있다. 밴드의 크기는 고갈도를 지시하며, 여기서 밴드가 밝을수록 3의 히트 임계치에 가깝다. 구배는 상대 전사체 존재비를 보여주는 RNA 시퀀싱의 히트맵이다.
도 10은 CLUST.091979 SRR3181151(비-코딩 서열 있음)에 대한 PAM 서열의 예측으로서 이. 클로니에서 고갈된 표적이 측접한 서열의 WebLogo이다.
도 11a는 HEK293 세포에서 SEQ ID NO: 206의 AAVS1 표적 유전자좌 및 SEQ ID NO: 208의 VEGFA 표적 유전자좌에서 SEQ ID NO: 4의 이펙터에 의해 유도된 인델을 나타낸다. 도 11b는 HEK293 세포에서 SEQ ID NO: 253, 255, 257, 259, 및 275의 AAVS1 표적 유전자좌, SEQ ID NO: 263, 265, 267, 269, 271, 273, 및 277의 VEGFA 표적 유전자좌, 및 SEQ ID NO: 261의 EMX1 표적 유전자좌에서 SEQ ID NO: 4의 이펙터에 의해 유도된 인델을 나타낸다. 도 11c는 HEK293 세포에서 SEQ ID NO: 210의 AAVS1 표적 유전자좌, SEQ ID NO: 212의 AAVS1 표적 유전자좌, 및 SEQ ID NO: 215의 VEGFA 표적 유전자좌에서 SEQ ID NO: 10의 이펙터에 의해 유도된 인델을 나타낸다. 도 11d는 HEK293 세포에서 SEQ ID NO: 279, 281, 285, 및 287의 AAVS1 표적 유전자좌, SEQ ID NO: 283의 VEGFA 표적 유전자좌, 및 SEQ ID NO: 289의 EMX1 표적 유전자좌에서 SEQ ID NO: 10의 이펙터에 의해 유도된 인델을 나타낸다.
자연적으로 다양한 CRISPR-Cas 시스템은 프로그래밍 가능한 생명공학에 이용될 수 있는 광범위한 활성 메커니즘 및 기능적 요소를 포함한다. 본질적으로, 이들 시스템은 자기-표적화를 피하기 위해 자기 대 비-자기 차별을 제공하면서 외래 DNA 및 바이러스에 대한 효율적인 방어를 가능하게 한다. 조작된 환경에서, 이들 시스템은 분자 기술의 다양한 툴박스를 제공하고, 표적화 공간의 경계를 규정한다. 본원에 기재된 방법은 RNA-프로그래밍 가능한 핵산 조작의 능력을 확장시키는 단일 서브유닛 클래스 2 이펙터 시스템 내에서 추가적인 메커니즘 및 매개변수를 발견하는 데 사용되었다.
달리 정의되지 않는 한, 본원에서 사용되는 모든 기술 및 과학 용어는 본 발명이 속하는 기술 분야의 당업자에게 일반적으로 이해되는 의미와 동일한 의미를 갖는다. 본원에 기재된 것들과 유사하거나 등가인 방법 및 재료가 본 발명의 실시 또는 시험에 사용될 수 있지만, 적합한 방법 및 재료가 후술된다. 본원에서 언급되는 모든 간행물, 특허 출원, 특허, 및 기타 참고문헌은 그 전체가 본원에 참조로 포함된다. 상충되는 경우, 본 명세서가 정의를 포함하여 우선될 것이다. 또한, 재료, 방법, 및 실시예는 단지 예시적인 것이며, 제한하려고 의도된 것이 아니다. 본 출원인은 특허법의 표준 관행에 따라 "포함하는", "본질적으로 이루어진" 또는 "이루어진"이라는 연결어를 사용하여 임의의 개시된 발명을 대안적으로 청구할 권리를 보유한다.
본원에서 사용되는 단수 형태인 부정관사 및 정관사는 문맥이 달리 명백하게 지시하지 않는 한 복수의 대상을 포함한다. 예를 들어, "핵산"에 대한 언급은 하나 이상의 핵산을 의미한다.
"바람직하게", "적합하게", "일반적으로", 및 "전형적으로"와 같은 용어는 청구된 발명의 범위를 제한하거나 특정 특징이 청구된 발명의 구조 또는 기능에 중대하거나, 필수적이거나, 심지어 중요하다는 것을 암시하기 위해 본원에서 사용된 것이 아님이 주지된다. 오히려, 이들 용어는 단지 본 발명의 특정 구현예에서 사용될 수 있거나 사용될 수 없는 대안적인 또는 추가적인 특징을 강조하기 위해 의도된 것이다.
본 발명을 기술하고 정의할 목적으로, 용어 "실질적으로"는 임의의 정량적 비교, 값, 측정, 또는 다른 표현에 기인할 수 있는 고유한 불확실성 정도를 나타내기 위해 본원에서 사용된다는 점이 주지된다. 용어 "실질적으로"는 또한 정량적 표현이 쟁점 주제의 기본 기능의 변화를 초래하지 않으면서 명시된 참조로부터 달라질 수 있는 정도를 나타내기 위해 본원에서 사용된다.
본원에서 사용되는 용어 "CRISPR-Cas 시스템"은 CRISPR 이펙터를 인코딩하는 서열을 비롯하여 CRISPR 이펙터, RNA 가이드, 및 CRISPR 유전자좌로부터의 다른 서열 및 전사체의 발현에 관여하거나 이의 활성을 유도하는 핵산 및/또는 단백질을 지칭한다.
본원에서 상호교환 가능하게 사용되는 용어 "CRISPR-연관 단백질", "CRISPR-Cas 이펙터", "CRISPR 이펙터", "이펙터", "이펙터 단백질", "CRISPR 효소" 등은 효소 활성을 수행하거나 RNA 가이드에 의해 지정된 핵산에 대한 표적 부위에 결합하는 단백질을 지칭한다. 일부 구현예에서, CRISPR 이펙터는 엔도뉴클레아제 활성, 닉카제 활성, 및/또는 엑소뉴클레아제 활성을 갖는다.
본원에서 사용되는 용어 "RNA 가이드", "가이드 RNA", "gRNA", 및 "가이드 서열"은 DNA 및/또는 RNA와 같이 표적 핵산에 대한 본원에 기재된 이펙터의 표적화를 용이하게 하는 임의의 RNA 분자를 지칭한다. 예시적인 "RNA 가이드"는 crRNA, 뿐만 아니라 tracrRNA 및/또는 조절자 RNA에 혼성화되거나 융합되는 crRNA를 포함하지만, 이로 제한되지 않는다. 일부 구현예에서, RNA 가이드는 단일 RNA 분자에 융합된 또는 개별 RNA 분자로서의 crRNA와 tracrRNA 둘 모두를 포함한다. 일부 구현예에서, RNA 가이드는 단일 RNA 분자에 융합된 또는 개별 RNA 분자로서의 crRNA 및 조절자 RNA를 포함한다. 일부 구현예에서, RNA 가이드는 단일 RNA 분자에 융합된 또는 개별 RNA 분자로서의 crRNA, tracrRNA 및 조절자 RNA를 포함한다.
본원에서 사용되는 용어 "CRISPR 이펙터 복합체", "이펙터 복합체" 또는 "감시 복합체"는 CRISPR 이펙터 및 RNA 가이드를 함유하는 복합체를 지칭한다. CRISPR 이펙터 복합체는 하나 이상의 보조 단백질을 추가로 포함할 수 있다. 하나 이상의 보조 단백질은 비-촉매 및/또는 비-표적 결합일 수 있다.
본원에서 사용되는 용어 "CRISPR RNA" 및 "crRNA"는 핵산 서열을 특이적으로 인식하기 위해 CRISPR 이펙터에 의해 사용되는 가이드 서열을 포함하는 RNA 분자를 지칭한다. crRNA "스페이서" 서열은 핵산 표적 서열에 상보적이고 부분적으로 또는 완전히 결합할 수 있다. crRNA는 tracrRNA에 혼성화하는 서열을 포함할 수 있다. 다음으로, crRNA : tracrRNA 이중체는 CRISPR 이펙터에 결합할 수 있다. 본원에서 사용되는 용어 "pre-crRNA"는 DR-스페이서-DR 서열을 포함하는 미가공 RNA 분자를 지칭한다. 본원에서 사용되는 용어 "성숙 crRNA"는 가공된 형태의 pre-crRNA를 지칭하고; 성숙 crRNA는 DR-스페이서 서열을 포함할 수 있고, 여기서 DR은 pre-crRNA의 절두된 형태의 DR이고/이거나 스페이서는 pre-crRNA의 절두된 형태의 스페이서이다.
본원에서 사용되는 용어 "전사-활성화 crRNA" 또는 "tracrRNA"는 특정 표적 핵산에 결합하기 위해 CRISPR 이펙터에 필요한 구조 및/또는 서열 모티프를 형성하는 서열을 포함하는 RNA 분자를 지칭한다.
본원에서 사용되는 용어 "CRISPR 어레이"는 제1 CRISPR 반복부의 첫 뉴클레오티드로 시작하여 마지막(말단) CRISPR 반복부의 마지막 뉴클레오티드로 종결되는, CRISPR 반복부 및 스페이서를 포함하는 핵산(예를 들어, DNA) 세그먼트를 지칭한다. 전형적으로, CRISPR 어레이에서 각각의 스페이서는 두 반복부 사이에 위치한다. 본원에서 사용되는 용어 "CRISPR 반복부", "CRISPR 직접 반복부" 및 "직접 반복부"는 CRISPR 어레이 내에서 서열 변이를 거의 또는 전혀 나타내지 않는 다수의 짧은 직접 반복부 서열을 지칭한다.
본원에 기재된 바와 같은 용어 "조절자 RNA"는 CRISPR 이펙터 또는 CRISPR 이펙터를 포함하는 핵단백질 복합체의 활성을 조절(예를 들어, 증가 또는 감소)하는 임의의 RNA 분자를 지칭한다. 일부 구현예에서, 조절자 RNA는 CRISPR 이펙터 또는 CRISPR 이펙터를 포함하는 핵단백질 복합체의 뉴클레아제 활성을 조절한다.
본원에서 사용되는 용어 "표적 핵산"은 RNA 가이드에서 스페이서의 전체 또는 일부에 상보적인 뉴클레오티드 서열을 포함하는 핵산을 지칭한다. 일부 구현예에서, 표적 핵산은 유전자를 포함한다. 일부 구현예에서, 표적 핵산은 비-코딩 영역(예를 들어, 프로모터)을 포함한다. 일부 구현예에서, 표적 핵산은 단일-가닥이다. 일부 구현예에서, 표적 핵산은 이중-가닥이다. 본원에서 사용되는 "전사-활성 부위"는 활성적으로 번역되는 핵산 서열 내 부위를 지칭한다.
본원에서 사용되는 용어 "프로토스페이서 인접 모티프" 또는 "PAM"은 이펙터 및 RNA 가이드를 포함하는 복합체가 결합하는 표적 서열에 인접한 DNA 서열을 지칭한다. 일부 구현예에서, 효소 활성을 위해서는 PAM이 필요하다. 본원에서 사용되는 용어 "인접한"은 복합체의 RNA 가이드가 PAM에 바로 인접한 표적 서열과 특이적으로 결합하거나, 상호 작용하거나, 회합하는 경우를 포함한다. 그러한 경우, 표적 서열과 PAM 사이에는 뉴클레오티드가 존재하지 않는다. 용어 "인접한"은 또한 표적화 모이어티가 결합하는 표적 서열과 PAM 사이에 소수(예를 들어, 1 개, 2 개, 3 개, 4 개 또는 5 개)의 뉴클레오티드가 있는 경우를 포함한다. 본원에서 사용되는 용어 "PAM 서열을 인식하는"은 CRISPR-연관 단백질 및 crRNA를 포함하는 복합체가 표적 핵산에 결합하는 것을 지칭하며, 여기서 표적 핵산은 PAM 서열에 인접하다.
본원에서 사용되는 용어 "활성화된 CRISPR 복합체", "활성화된 CRISPR 복합체", 및 "활성화된 복합체"는 표적 핵산을 변형시킬 수 있는 CRISPR 이펙터 복합체를 지칭한다. 일부 구현예에서, 활성화된 CRISPR 복합체는 표적 핵산에 대한 활성화된 CRISPR 복합체의 결합 후에 표적 핵산을 변형시킬 수 있다. 일부 구현예에서, 활성화된 CRISPR 복합체의 표적 핵산에의 결합은 부가적인 절단 사건, 예컨대, 부수적 절단을 초래한다.
본원에서 사용되는 용어 "절단 사건"은 DNA 및/또는 RNA와 같은 핵산 내 파손을 지칭한다. 일부 구현예에서, 절단 사건은 본원에 기재된 CRISPR 시스템의 뉴클레아제에 의해 생성된 표적 핵산 내 파손을 지칭한다. 일부 구현예에서, 절단 사건은 이중-가닥 DNA 파손이다. 일부 구현예에서, 절단 사건은 단일-가닥 DNA 파손이다. 일부 구현예에서, 절단 사건은 부수적 핵산 내 파손을 지칭한다.
본원에서 사용되는 용어 "부수적 핵산"은 활성화된 CRISPR 복합체에 의해 비-특이적으로 절단되는 핵산 기질을 지칭한다. CRISPR 이펙터와 관련하여 본원에서 사용되는 용어 "부수적 DNase 활성"은 활성화된 CRISPR 복합체의 비-특이적 DNase 활성을 지칭한다. CRISPR 이펙터와 관련하여 본원에서 사용되는 용어 "부수적 RNase 활성"은 활성화된 CRISPR 복합체의 비-특이적 RNase 활성을 지칭한다.
본원에서 사용되는 용어 "도너 주형 핵산"은 본원에 기재된 CRISPR 이펙터가 변형된 표적 핵산을 갖은 후 표적 서열 또는 표적-근위 서열에 주형화된 변화를 일으키는 데 사용될 수 있는 핵산 분자를 지칭한다. 일부 구현예에서, 도너 주형 핵산은 이중-가닥 핵산이다. 일부 구현예에서, 도너 주형 핵산은 단일-가닥 핵산이다. 일부 구현예에서, 도너 주형 핵산은 선형이다. 일부 구현예에서, 도너 주형 핵산은 원형이다(예를 들어, 플라스미드). 일부 구현예에서, 도너 주형 핵산은 외인성 핵산 분자이다. 일부 구현예에서, 도너 주형 핵산은 내인성 핵산 분자(예를 들어, 염색체)이다.
본원에서 사용되는 용어 "폴리뉴클레오티드", "뉴클레오티드", "올리고뉴클레오티드" 및 "핵산"은 DNA, RNA, 이들의 유도체, 또는 이들의 조합을 포함하는 핵산을 지칭하기 위해 상호교환 가능하게 사용될 수 있다. 당업자에게 잘 알려진 방법은 본 발명에 따른 유전자 발현 작제물 및 재조합 세포를 구축하기 위해 사용될 수 있다. 이들 방법은 시험관내 재조합 DNA 기법, 합성 기법, 생체내 재조합 기법, 및 중합효소 연쇄 반응(PCR) 기법을 포함한다. 예를 들어, 문헌[Maniatis et al., 1989, MOLECULAR CLONING: A LABORATORY MANUAL, Cold Spring Harbor Laboratory, New York; Ausubel et al., 1989, CURRENT PROTOCOLS IN MOLECULAR BIOLOGY, Greene Publishing Associates and Wiley Interscience, New York, and PCR Protocols: A Guide to Methods and Applications (Innis et al., 1990, Academic Press, San Diego, Calif.)]에 기재된 바와 같은 기법을 참조한다.
용어 "유전적 변형" 또는 "유전적 조작"은 광범위하게 세포의 게놈 또는 핵산의 조작을 지칭한다. 마찬가지로, 용어 "유전적으로 조작된" 및 "조작된"은 조작된 게놈 또는 핵산을 포함하는 세포를 지칭한다. 유전적 변형의 방법은, 예를 들어, 이종 유전자 발현, 유전자 또는 프로모터 삽입 또는 결실, 핵산 돌연변이, 변경된 유전자 발현 또는 불활성화, 효소 조작, 유도 진화, 지식-기반 설계, 무작위 돌연변이유발법, 유전자 셔플링, 및 코돈 최적화를 포함한다.
용어 "재조합"은 핵산, 단백질 또는 세포가 유전적 변형, 조작 또는 재조합의 산물임을 지시한다. 일반적으로, 용어 "재조합"은 다중 공급원으로부터 유래된 유전 물질을 함유하거나 이에 의해 인코딩되는 핵산, 단백질, 또는 세포를 지칭한다. 본원에서 사용되는 용어 "재조합"은 또한 내인성 핵산 또는 단백질의 돌연변이된 형태를 포함하여, 돌연변이된 핵산 또는 단백질을 포함하는 세포를 기술하는 데 사용될 수 있다. 용어 "재조합 세포" 및 "재조합 숙주"는 상호교환 가능하게 사용될 수 있다. 일부 구현예에서, 재조합 세포는 본원에 개시된 CRISPR 이펙터를 포함한다. CRISPR 이펙터는 재조합 세포에서의 발현을 위해 코돈-최적화될 수 있다. 일부 구현예에서, 본원에 개시된 재조합 세포는 RNA 가이드를 추가로 포함한다. 일부 구현예에서, 본원에 개시된 재조합 세포의 RNA 가이드는 tracrRNA를 포함한다. 일부 구현예에서, 본원에 개시된 재조합 세포는 조절자 RNA를 포함한다. 일부 구현예에서, 재조합 세포는 원핵 세포, 예컨대, 이. 콜라이 세포이다. 일부 구현예에서, 재조합 세포는 진핵 세포, 예컨대, 인간 세포를 비롯한 포유류 세포이다.
CLUST.091979의 동정
본 출원은 본원에서 "CLUST.091979"로 지칭되는 신규한 단백질 패밀리의 동정, 조작 및 용도에 관한 것이다. 도 2에 도시된 바와 같이, CLUST.091979의 단백질은 RuvC 도메인(RuvC I, RuvC II, 및 RuvC III로 표시됨)을 포함한다. 표 5에 도시된 바와 같이, CLUST.091979의 이펙터는 약 700 개 아미노산 내지 약 800 개 아미노산 크기의 범위이다. 따라서, CLUST.091979의 이펙터는 하기 나타낸 바와 같이 당업계에 공지된 이펙터보다 작다. 예를 들어, 표 1을 참조한다.
[표 1]
공지된 CRISPR-Cas 시스템 이펙터의 크기.
CLUST.091979의 이펙터는 특정 다른 특징과 강한 동시-발생 패턴을 나타내는 단백질을 검색하고 동정하기 위한 계산 방법 및 알고리즘을 사용하여 동정되었다. 특정 구현예에서, 이들 계산 방법은 CRISPR 어레이에 매우 근접하여 동시-발생 단백질을 동정하는 것과 관련되었다. 본원에 개시된 방법은 또한 비-코딩과 단백질-코딩 둘 모두(예를 들어, 박테리아 유전자좌 또는 CRISPR Cas1 단백질의 비-코딩 영역에서 파지 서열의 단편)에서 다른 특징에 매우 근접하여 자연 발생하는 단백질을 동정하는 데 유용하다. 본원에 기재된 방법 및 계산은 하나 이상의 계산 장치에서 수행될 수 있음이 이해된다.
게놈 서열의 세트는 게놈 또는 메타게놈 데이터베이스로부터 얻어졌다. 데이터베이스는 짧은 판독, 또는 콘티그 수준 데이터, 또는 조립된 스캐폴드, 또는 유기체의 완전한 게놈 서열을 포함하였다. 마찬가지로, 데이터베이스는 원핵 유기체 또는 진핵 유기체로부터의 게놈 서열 데이터를 포함할 수 있거나, 메타게놈 환경 샘플로부터의 데이터를 포함할 수 있다. 데이터베이스 리포지토리의 예는 국립 생명공학 정보 센터(National Center for Biotechnology Information; NCBI) RefSeq, NCBI GenBank, NCBI 전체 게놈 샷건(Whole Genome Shotgun; WGS), 및 공동 게놈 연구소(Joint Genome Institute; JGI) 통합 미생물 게놈(Integrated Microbial Genome; IMG)을 포함한다.
일부 구현예에서, 지정된 최소 길이의 게놈 서열 데이터를 선택하기 위해 최소 크기 요건이 부과된다. 특정의 예시적인 구현예에서, 최소 콘티그 길이는 100 개 뉴클레오티드, 500 nt, 1 kb, 1.5 kb, 2 kb, 3 kb, 4 kb, 5 kb, 10 kb, 20 kb, 40 kb, 또는 50 kb일 수 있다.
일부 구현예에서, 공지되거나 예측된 단백질은 완전한 또는 선택된 게놈 서열 데이터 세트로부터 추출된다. 일부 구현예에서, 공지되거나 예측된 단백질은 소스 데이터베이스에 의해 제공되는 주석의 코딩 서열(CDS) 추출로부터 취해진다. 일부 구현예에서, 예측된 단백질은 뉴클레오티드 서열로부터 단백질을 동정하기 위해 계산 방법을 적용함으로써 결정된다. 일부 구현예에서, GeneMark Suite는 게놈 서열로부터 단백질을 예측하는 데 사용된다. 일부 구현예에서, Prodigal은 게놈 서열로부터 단백질을 예측하는 데 사용된다. 일부 구현예에서, 다중 단백질 예측 알고리즘은 중복제거된 얻어진 단백질 세트와 함께 동일한 서열 데이터 세트에 걸쳐 사용될 수 있다.
일부 구현예에서, CRISPR 어레이는 게놈 서열 데이터로부터 동정된다. 일부 구현예에서, PILER-CR은 CRISPR 어레이를 동정하는 데 사용된다. 일부 구현예에서, CRISPR 어레이를 동정하기 위해 CRISPR 인식 툴(CRT)이 사용된다. 일부 구현예에서, CRISPR 어레이는 최소 횟수(예를 들어, 2 회, 3 회 또는 4 회) 반복된 뉴클레오티드 모티프를 동정하는 휴리스틱에 의해 동정되며, 여기서 반복되는 모티프의 연속 발생 사이의 간격은 지정된 길이(예를 들어, 50 개, 100 개, 또는 150 개 뉴클레오티드)를 초과하지 않는다. 일부 구현예에서, 다중 CRISPR 어레이 동정 툴은 중복제거된 얻어진 CRISPR 어레이 세트와 함께 동일한 서열 데이터 세트에 걸쳐 사용될 수 있다.
일부 구현예에서, CRISPR 어레이에 매우 근접한 단백질(본원에서 "CRISPR-근위 단백질 클러스터"로 지칭됨)이 동정된다. 일부 구현예에서, 근접성은 뉴클레오티드 거리로 규정되며, 20 kb, 15 kb 또는 5 kb 이내 일 수 있다. 일부 구현예에서, 근접성은 단백질과 CRISPR 어레이 사이의 개방형 해독 틀(ORF)의 수로 규정되고, 특정의 예시적인 거리는 10 개, 5 개, 4 개, 3 개, 2 개, 1 개, 또는 0 개 ORF일 수 있다. 그 후에, CRISPR 어레이에 매우 근접한 것으로 동정된 단백질은 상동성 단백질의 클러스터로 그룹화된다. 일부 구현예에서, 블라스트클러스트는 CRISPR-근위 단백질 클러스터를 형성하는 데 사용된다. 특정의 다른 구현예에서, mmseqs2는 CRISPR-근위 단백질 클러스터를 형성하는 데 사용된다.
CRISPR-근위 단백질 클러스터의 구성원들 사이에 강한 공동-발생 패턴을 확립하기 위해, 단백질 클러스터의 각 구성원의 BLAST 검색이 이전에 컴파일링된 완전한 공지된 및 예측된 단백질 세트에 대해 수행될 수 있다. 일부 구현예에서, UBLAST 또는 mmseqs2는 유사한 단백질을 검색하는 데 사용될 수 있다. 일부 구현예에서, 검색은 패밀리 내의 대표적인 단백질 서브세트에 대해서만 수행될 수 있다.
일부 구현예에서, CRISPR-근위 단백질 클러스터는 동시-발생을 결정하기 위해 메트릭에 의해 순위가 매겨지거나 필터링된다. 하나의 예시적인 메트릭은 특정 E 값 임계치까지의 BLAST 매칭 수에 대한 단백질 클러스터 내 요소 수의 비율이다. 일부 구현예에서, 일정한 E 값 임계치가 사용될 수 있다. 다른 구현예에서, E 값 임계치는 단백질 클러스터의 가장 먼 구성원에 의해 결정될 수 있다. 일부 구현예에서, 단백질의 글로벌 세트는 클러스터링되고 공동-발생 메트릭은 함유하는 글로벌 클러스터(들)의 요소 수에 대한 CRISPR-근위 단백질 클러스터의 요소 수의 비율이다.
일부 구현예에서, 수동 검토 프로세스는 클러스터에서 단백질의 자연 발생 유전자좌 구조에 기초하여 조작된 시스템의 잠재적인 기능 및 최소 구성 요소 세트를 평가하기 위해 사용된다. 일부 구현예에서, 단백질 클러스터의 그래프 표현은 수동 검토에 도움이 될 수 있으며, 쌍별 서열 유사성, 계통수, 근원 유기체/환경, 예측된 기능 도메인, 및 유전자좌 구조의 그래프 도식을 포함하는 정보를 함유할 수 있다. 일부 구현예에서, 유전자좌 구조의 그래프 도식은 높은 표현을 갖는 인근 단백질 패밀리에 대해 필터링할 수 있다. 일부 구현예에서, 표현은 함유하는 전체 클러스터(들)의 크기(들)에 대한 관련된 주변 단백질의 수의 비율에 의해 계산될 수 있다. 특정의 예시적인 구현예에서, 단백질 클러스터의 그래프 표현은 자연 발생 유전자좌의 CRISPR 어레이 구조의 도식을 함유할 수 있다. 일부 구현예에서, 단백질 클러스터의 그래프 표현은 추정 CRISPR 어레이의 길이 대비 보존된 직접 반복부의 수 또는 추정 CRISPR 어레이의 길이 대비 고유한 스페이서 서열의 수에 대한 도식을 함유할 수 있다. 일부 구현예에서, 단백질 클러스터의 그래프 표현은 새로운 CRISPR-Cas 시스템을 예측하고 이들의 구성 요소를 동정하는 추정 이펙터와 CRISPR 어레이의 동시-발생에 대한 다양한 메트릭의 도식을 함유할 수 있다.
CLUST.091979의 풀링-스크리닝
본원에서 동정된 조작된 CLUST.091979 CRISPR-Cas 시스템의 활성, 메커니즘, 및 기능적 매개변수를 효율적으로 검증하기 위해, 이. 콜라이에서 풀링-스크리닝 접근법을 실시예 4에 기재된 바와 같이 사용하였다. 첫째로, CLUST.091979 CRISPR-Cas 시스템의 보존된 단백질 및 비코딩 요소의 계산적 동정으로부터, DNA 합성 및 분자 클로닝이 일 구현예에서 pET-28a+ 백본을 기반으로 한 단일 인공 발현 벡터로 개별 구성 요소를 조립하는 데 사용되었다. 두 번째 구현예에서, 이펙터 및 비코딩 요소는 mRNA 전사체에 전사되고, 상이한 리보솜 결합 부위는 개별 이펙터를 번역하는 데 사용된다.
둘째로, 천연 crRNA 및 표적화 스페이서는 제2 플라스미드인 pACYC184를 표적화하는 비-천연 스페이서를 함유하는 미가공 crRNA의 라이브러리로 대체되었다. 이러한 crRNA 라이브러리는 이펙터 및 비코딩 요소(예를 들어, pET-28a+)를 포함하는 벡터 백본으로 클로닝되고, 이어서 라이브러리가 pACYC184 플라스미드 표적과 함께 이. 콜라이로 형질전환되었다. 결과적으로, 각각의 생성된 이. 콜라이 세포는 1 개 이하의 표적화 어레이를 함유한다. 대안적인 구현예에서, 비-천연 스페이서를 함유하는 미가공 crRNA의 라이브러리는 각각의 전체 내용이 본원에 참조로 포함되는 문헌[Baba et al. (2006) Mol. Syst. Biol. 2: 2006.0008; 및 Gerdes et al. (2003) J. Bacteriol. 185(19): 5673-84]에 기재된 것들과 같은 공급원으로부터 유래된 이. 콜라이 필수 유전자를 추가적으로 표적화한다. 이러한 구현예에서, 필수 유전자 기능을 파괴하는 신규한 CRISPR-Cas 시스템의 양성의 표적화된 활성은 세포 사멸 또는 성장 정지를 초래한다. 일부 구현예에서, 필수 유전자 표적화 스페이서는 pACYC184 표적과 조합될 수 있다.
셋째로, 이. 콜라이는 항생제 선별 하에 성장되었다. 일 구현예에서, 삼중 항생제 선택이 사용된다: 조작된 CRISPR 이펙터 시스템을 함유하는 pET-28a+ 벡터의 성공적인 형질전환을 보장하기 위한 카나마이신 및 pACYC184 표적 벡터의 성공적인 공동-형질전환을 보장하기 위한 클로람페니콜 및 테트라사이클린. pACYC184는 일반적으로 클로람페니콜 및 테트라사이클린에 대한 내성을 부여하기 때문에, 항생제 선별 하에서, 플라스미드를 표적화하는 신규한 CRISPR-Cas 시스템의 양성 활성은 이펙터, 비코딩 요소 및 crRNA 라이브러리의 특정 활성 요소를 능동적으로 발현하는 세포를 제거할 것이다. 전형적으로, 생존 세포의 집단은 형질전환 후 12 시간 내지 14 시간에 분석된다. 일부 구현예에서, 생존 세포의 분석은 형질전환 후 6 시간 내지 8 시간, 형질전환 후 8 시간 내지 12 시간, 형질전환 후 24 시간 이하, 또는 형질전환 후 24 시간 초과에 실시된다. 초기 시점과 비교하여 후기 시점에 생존 세포의 집단을 조사하면 비활성 crRNA에 비해 고갈된 신호가 생성된다.
일부 구현예에서, 이중 항생제 선별이 사용된다. 선택적 압력을 제거하기 위한 클로람페니콜 또는 테트라사이클린의 회수는 표적화 기질, 서열 특이성 및 효능에 관한 새로운 정보를 제공할 수 있다. 예를 들어, 선별되거나 선별되지 않은 유전자에서 dsDNA의 절단은 이. 콜라이에서 음성 선별을 초래할 수 있고, 여기서 선별된 유전자와 선별되지 않은 유전자 둘 모두의 고갈이 관찰된다. CRISPR-Cas 시스템이 전사 또는 번역을 간섭하는 경우(예를 들어, 결합 또는 전사체 절단에 의해), 선별은 표적에 대해, 선별되지 않은 내성 유전자에서가 아니라, 선별된 내성 유전자에서만 관찰될 것이다.
일부 구현예에서, 조작된 CRISPR-Cas 시스템을 포함하는 pET-28a+ 벡터의 성공적인 형질전환을 보장하기 위해 카나마이신만이 사용된다. 이러한 구현예는 이. 콜라이 필수 유전자를 표적화하는 스페이서를 함유하는 라이브러리에 적합한데, 그 이유는 성장 변화를 관찰하기 위해 카나마이신 이외에 추가 선별이 필요하지 않기 때문이다. 이러한 구현예에서, 클로람페니콜 및 테트라사이클린 의존성이 없어지고, 라이브러리에서의 이들의 표적(존재 시)은 표적화 기질, 서열 특이성, 및 역가에 관한 추가의 음성 또는 양성 정보 소스를 제공한다.
pACYC184 플라스미드는 CRISPR-Cas 시스템의 활성에 영향을 미칠 수 있는 다양한 특징 및 서열 세트를 함유하기 때문에, 풀링된 스크린으로부터 pACYC184 상에 활성 crRNA를 맵핑하면 상이한 활성 메커니즘 및 기능적 매개변수를 암시할 수 있는 활성 패턴이 제공된다. 이러한 방식으로, 이종 원핵 생물 종에서 신규한 CRISPR-Cas 시스템을 재구성하는 데 필요한 특징은 보다 포괄적으로 시험되고 연구될 수 있다.
본원에 기재된 생체내 풀링-스크린의 주요 이점은 하기를 포함한다:
(1) 다양성 - 플라스미드 설계에 의해 다중 이펙터 및/또는 비코딩 요소 발현 가능; 라이브러리 클로닝 전략에 의해 계산적으로 예측된 crRNA의 두 가지 전사 방향이 모두 발현 가능;
(2) 활성 메커니즘 및 기능적 매개변수의 포괄적 시험 - 핵산 절단을 포함하여 다양한 간섭 메커니즘 평가; 전사, 플라스미드 DNA 복제와 같은 특징의 동시-발생 조사; 및 crRNA 라이브러리에 대한 측접 서열의 사용으로 4N의 복합 등가성을 갖는 PAM이 신뢰성 있게 결정;
(3) 민감도 - pACYC184는 낮은 카피 플라스미드이므로, 적당한 간섭률조차도 플라스미드에 의해 인코딩된 항생제 내성을 없앨 수 있기 때문에 CRISPR-Cas 활성에 대해 높은 민감성 가능; 및
(4) 효율 - 더 빠른 속도 및 처리량의 RNA-시퀀싱을 가능하게 하는 최적화된 분자 생물학 단계로 단백질 발현 샘플이 스크린에서 생존 세포로부터 바로 채취 가능.
본원에 기재된 신규한 CLUST.091979 CRISPR-Cas 패밀리는 작동 요소, 메커니즘, 및 매개변수뿐만 아니라 이의 내인성 세포 환경 외부의 조작된 시스템에서 활성이고 재프로그래밍되는 이의 능력을 평가하기 위해 이러한 생체내 풀링-스크린을 사용하여 평가되었다.
CRISPR 이펙터 활성 및 변형
일부 구현예에서, CLUST.091979의 CRISPR 이펙터 및 RNA 가이드는 다른 구성 요소를 포함할 수 있는 "이원" 복합체를 형성한다. 이원 복합체는 RNA 가이드에서 스페이서 서열에 상보적인 핵산 기질(즉, 서열-특이적 기질 또는 표적 핵산)에 결합할 때 활성화된다. 일부 구현예에서, 서열-특이적 기질은 이중-가닥 DNA이다. 일부 구현예에서, 서열-특이적 기질은 단일-가닥 DNA이다. 일부 구현예에서, 서열-특이적 기질은 단일-가닥 RNA이다. 일부 구현예에서, 서열-특이적 기질은 이중-가닥 RNA이다. 일부 구현예에서, 서열-특이성은 표적 기질에 대해 RNA 가이드(예를 들어, crRNA) 내 스페이서 서열의 완전 매칭을 요구한다. 다른 구현예에서, 서열 특이성은 표적 기질에 대해 RNA 가이드(예를 들어, crRNA) 내 스페이서 서열의 부분(인접 또는 비-인접) 매칭을 요구한다.
일부 구현예에서, 본 발명의 CRISPR 이펙터는 광범위한 pH 조건에 걸쳐 효소 활성, 예를 들어, 뉴클레아제 활성을 갖는다. 일부 구현예에서, 뉴클레아제는 약 3.0 내지 약 12.0의 pH에서 효소 활성, 예를 들어, 뉴클레아제 활성을 갖는다. 일부 구현예에서, CRISPR 이펙터는 약 4.0 내지 약 10.5의 pH에서 효소 활성을 갖는다. 일부 구현예에서, CRISPR 이펙터는 약 5.5 내지 약 8.5의 pH에서 효소 활성을 갖는다. 일부 구현예에서, CRISPR 이펙터는 약 6.0 내지 약 8.0의 pH에서 효소 활성을 갖는다. 일부 구현예에서, CRISPR 이펙터는 약 7.0의 pH에서 효소 활성을 갖는다.
일부 구현예에서, 본 발명의 CRISPR 이펙터는 약 10℃ 내지 약 100℃의 온도 범위에서 효소 활성, 예를 들어, 뉴클레아제 활성을 갖는다. 일부 구현예에서, 본 발명의 CRISPR 이펙터는 약 20℃ 내지 약 90℃의 온도 범위에서 효소 활성을 갖는다. 일부 구현예에서, 본 발명의 CRISPR 이펙터는 약 20℃ 내지 약 25℃의 온도 또는 약 37℃의 온도에서 효소 활성을 갖는다.
일부 구현예에서, 이원 복합체는 표적 기질에 결합할 때 활성화된다. 일부 구현예에서, 활성화된 복합체는 "다중 턴오버" 활성을 나타내며, 이에 의해 표적 기질에 작용(예를 들어, 절단) 시 활성화된 복합체가 활성화된 상태로 유지된다. 일부 구현예에서, 활성화된 이원 복합체는 "단일 턴오버" 활성을 나타내며, 이에 의해 표적 기질 상에 작용할 때 이원 복합체가 비활성 상태로 되돌아간다. 일부 구현예에서, 활성화된 이원 복합체는 비-특이적(즉, "부수적") 절단 활성을 나타내며, 이에 의해 복합체가 비-표적 핵산을 절단한다. 일부 구현예에서, 비-표적 핵산은 DNA 분자(예를 들어, 단일-가닥 또는 이중-가닥 DNA)이다. 일부 구현예에서, 비-표적 핵산은 RNA 분자(예를 들어, 단일-가닥 또는 이중-가닥 RNA)이다.
본 발명의 CRISPR 이펙터가 표적 핵산(예를 들어, 게놈 DNA)에서 이중-가닥 파손 또는 단일-가닥 파손을 유도하는 일부 구현예에서, 이중-가닥 파손은 상동성 직접 수선(HDR), 비-상동성 말단 접합(NHEJ), 또는 대체 비-상동성 말단-결합(A-NHEJ)을 포함하여 세포 내인성 DNA-수복 경로를 자극할 수 있다. NHEJ는 상동성 주형에 대한 필요 없이도 절단된 표적 핵산을 수복할 수 있다. 이는 표적 유전자좌에서 하나 이상의 뉴클레오티드의 결실 또는 삽입을 초래할 수 있다. HDR은 도너 DNA와 같은 상동성 주형으로 발생할 수 있다. 상동성 주형은 표적 핵산 절단 부위에 측접한 서열에 상동성인 서열을 포함할 수 있다. 일부 경우에, HDR은 절단 표적 유전자좌에 외인성 폴리뉴클레오티드 서열을 삽입할 수 있다. NHEJ 및/또는 HDR로 인한 표적 DNA의 변형은, 예를 들어, 돌연변이, 결실, 변경, 통합, 유전자 교정, 유전자 대체, 유전자 태깅, 트랜스진 녹-인, 유전자 파괴, 및/또는 유전자 녹-아웃을 초래할 수 있다.
일부 구현예에서, 본원에 기재된 CRISPR 이펙터는 His-태그, GST-태그, FLAG-태그, 또는 myc-태그를 포함하는 하나 이상의 펩티드 태그에 융합될 수 있다. 일부 구현예에서, 본원에 기재된 CRISPR 이펙터는 형광 단백질(예를 들어, 녹색 형광 단백질 또는 황색 형광 단백질)과 같은 검출 가능한 모이어티에 융합될 수 있다. 일부 구현예에서, 본 개시의 CRISPR 이펙터 및/또는 보조 단백질은 단백질이 조직, 세포, 또는 세포의 영역에 들어가거나 국재화되게 하는 펩티드 또는 비-펩티드 모이어티에 융합된다. 예를 들어, 본 개시의 CRISPR 이펙터는 SV40(시미안 바이러스 40) NLS, c-Myc NLS, 또는 다른 적합한 단립형 NLS와 같은 핵 국재화 서열(NLS)을 포함할 수 있다. NLS는 CRISPR 이펙터의 N-말단 및/또는 C-말단에 융합될 수 있고, 단일로 융합되거나(즉, 단일 NLS) 또는 연결될 수 있다(예를 들어, 2 개, 3 개, 4 개 등의 NLS 사슬).
일부 구현예에서, 적어도 하나의 핵 외수송 신호(NES)는 CRISPR 이펙터를 인코딩하는 핵산 서열에 부착된다. 일부 구현예에서, C-말단 및/또는 N-말단 NLS 또는 NES는 진핵 세포, 예를 들어, 인간 세포에서 최적의 발현 및 핵 표적화를 위해 부착된다.
태그가 CRISPR 이펙터에 융합된 구현예에서, 이러한 태그는, 예를 들어, 고정된 친화성 또는 이온-교환 시약을 사용하는 액체 크로마토그래피 또는 비드 분리에 의해 CRISPR 이펙터의 친화성 기반 또는 전하-기반 정제를 용이하게 할 수 있다. 비-제한적 예로서, 본 개시의 재조합 CRISPR 이펙터는 폴리히스티딘(His) 태그를 포함하고, 정제를 위해 고정된 금속 이온(예를 들어, 수지 상에 고정된 킬레이트 리간드에 의해 킬레이트화된 Zn2+, Ni2+, Cu2+ 이온)을 포함하는 크로마토그래피 컬럼 상에 로딩되고, 상기 수지는 개별적으로 제조된 수지 또는 상업적으로 입수 가능한 수지 또는 GE Healthcare Life Sciences(말버러, 매사추세츠)에 의해 상업화된 HisTrap FF 컬럼과 같은 즉시 사용 가능한 컬럼일 수 있다. 로딩 단계 후에, 컬럼은, 예를 들어, 하나 이상의 적합한 완충액을 사용하여 선택적으로 세정되고, 이어서 His-태그 단백질이 적합한 용리 완충액을 사용하여 용리된다. 대안적으로 또는 추가적으로, 본 개시의 재조합 CRISPR 이펙터가 FLAG-태그를 사용하는 경우, 이러한 단백질은 업계에 공지된 면역 침전법을 사용하여 정제될 수 있다. 본 개시의 태깅된 CRISPR 이펙터 또는 보조 단백질에 대한 다른 적합한 정제 방법은 당업자에게 자명할 것이다.
본원에 기재된 단백질(예를 들어, CRISPR 이펙터 또는 보조 단백질)은 핵산 분자 또는 폴리펩티드로서 전달되거나 사용될 수 있다. 핵산 분자를 사용하는 경우, CRISPR 이펙터를 인코딩하는 핵산 분자는 코돈-최적화될 수 있다. 핵산은 임의의 관심 유기체, 특히 인간 세포 또는 박테리아에서 사용하기 위해 코돈-최적화될 수 있다. 예를 들어, 핵산은 마우스, 랫트, 토끼, 개, 가축, 또는 비-인간 영장류를 포함하는 임의의 비-인간 진핵 생물에 대해 코돈-최적화될 수 있다. 코돈 사용 표는, 예를 들어, "코돈 사용 데이터베이스"(www.kazusa.orjp/codon/에서 이용 가능함)에서 용이하게 이용 가능하며, 이들 표는 다수의 방식으로 적용될 수 있다. 그 전체가 본원에 참조로 포함되는 문헌[Nakamura et al. Nucl. Acids Res. 28:292 (2000)]을 참조한다. 특정 숙주 세포에서의 발현을 위해 특정 서열을 코돈 최적화시키는 컴퓨터 알고리즘도 또한 이용 가능하며, 예를 들어, Gene Forge(Aptagen; 야코부스, PA)도 또한 이용 가능하다.
일부 예에서, 진핵 세포(예를 들어, 인간 또는 다른 포유류 세포)에서의 발현을 위해 CRISPR 이펙터를 인코딩하는 본 개시의 핵산은 하나 이상의 인트론, 즉, 제1 말단(예를 들어, 5' 말단)에서 스플라이스-도너 서열 및 제2 말단(예를 들어, 3' 말단)에서 스플라이스 억셉터 서열을 포함하는 하나 이상의 비-코딩 서열을 포함한다. 제한 없이, 시미안 바이러스 40(SV40) 인트론, 베타-글로빈 인트론, 및 합성 인트론을 포함하는 임의의 적합한 스플라이스 도너/스플라이스 억셉터가 본 개시의 다양한 구현예에서 사용될 수 있다. 대안적으로 또는 추가적으로, CRISPR 이펙터 또는 보조 단백질을 인코딩하는 본 개시의 핵산은 DNA 코딩 서열의 3' 말단에서 폴리아데닐화(polyA) 신호와 같은 전사 정지 신호를 포함할 수 있다. 일부 예에서, polyA 신호는 SV40 인트론과 같은 인트론에 매우 근접하거나 인접하게 위치한다.
탈활성화/비활성화 CRISPR 이펙터
본원에 기재된 CRISPR 이펙터는 감소된 뉴클레아제 활성, 예를 들어, 야생형 CRISPR 이펙터와 비교하여 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 적어도 97%, 또는 100%의 뉴클레아제 비활성화를 갖도록 변형될 수 있다. 뉴클레아제 활성은 당업계에 공지된 여러 방법, 예를 들어, 단백질의 뉴클레아제 도메인으로 돌연변이를 도입함으로써 감소될 수 있다. 일부 구현예에서, 뉴클레아제 활성에 대한 촉매 잔기가 동정되고, 이들 아미노산 잔기는 뉴클레아제 활성을 감소시키기 위해 상이한 아미노산 잔기(예를 들어, 글리신 또는 알라닌)로 치환될 수 있다.
비활성화된 CRISPR 이펙터는 하나 이상의 기능적 도메인(예를 들어, 융합 단백질, 링커 펩티드, "GS" 링커 등을 통해)을 포함하거나 이와 관련될 수 있다. 이들 기능적 도메인은 다양한 활성, 예를 들어, 메틸라제 활성, 데메틸라제 활성, 전사 활성화 활성, 전사 억제 활성, 전사 방출 인자 활성, 히스톤 변형 활성, RNA 절단 활성, DNA 절단 활성, 핵산 결합 활성, 및 스위치 활성(예를 들어, 광 유도성)을 가질 수 있다. 일부 구현예에서, 기능적 도메인은 크루펠 관련 박스(Krppel associated box; KRAB), VP64, VP16, Fok1, P65, HSF1, MyoD1, 및 비오틴-APEX이다.
비활성화된 CRISPR 이펙터 상에 하나 이상의 기능적 도메인의 위치 선정은 기능적 도메인이 귀속된 기능적 효과로 표적에 작용하도록 정확한 공간 방향을 가능하게 하는 것이다. 예를 들어, 기능적 도메인이 전자 활성화제(예를 들어, VP16, VP64, 또는 p65)인 경우, 전사 활성화제는, 표적의 전사에 작용하도록 하는 공간 방향으로 위치된다. 마찬가지로, 전사 억제제는 표적의 전사에 작용하도록 위치되고, 뉴클레아제(예를 들어, Fok1)는 표적을 절단 또는 부분 절단하도록 위치된다. 일부 구현예에서, 기능적 도메인은 CRISPR 이펙터의 N-말단에 위치한다. 일부 구현예에서, 기능적 도메인은 CRISPR 이펙터의 C-말단에 위치한다. 일부 구현예에서, 비활성화된 CRISPR 이펙터는 N-말단에서 제1 기능적 도메인을 포함하도록 변형되고, C-말단에 제2 기능적 도메인을 포함하도록 변형된다.
분할 효소
본 개시는 또한 본원에 기재된 CRISPR 이펙터의 분할 버전을 제공한다. CRISPR 이펙터의 분할 버전은 전달에 유리할 수 있다. 일부 구현예에서, CRISPR 이펙터는 기능하는 CRISPR 이펙터를 실질적으로 함께 포함하는 효소의 두 부분으로 분할된다.
분할은 촉매 도메인(들)이 영향을 받지 않는 방식으로 이루어질 수 있다. CRISPR 이펙터는 뉴클레아제로서 기능할 수 있거나 비활성화된 효소일 수 있으며, 이는 본질적으로 촉매 활성이 거의 없는 또는 전혀 없는 RNA-결합 단백질이다(예를 들어, 이의 촉매 도메인에서의 돌연변이(들)로 인해).
일부 구현예에서, 뉴클레아제 로브 및 α-나선 로브는 별도의 폴리펩티드로서 발현된다. 로브가 자체적으로 상호 작용하지는 않지만, RNA 가이드는 이들을 삼원 복합체로 모집하여 전장 CRISPR 이펙터의 활성을 재현(recapitulate)하고 부위-지정 DNA 절단을 촉매작용한다. 변형된 RNA 가이드의 사용은 이량체화를 방지함으로써 분할 효소 활성을 없애서, 유도성 이량체화 시스템의 발달을 가능하게 한다. 분할 효소는, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Wright et al. "Rational design of a split-Cas9 enzyme complex," Proc. Natl. Acad. Sci., 112.10 (2015): 2984-2989]에 기재되어 있다.
일부 구현예에서, 분할 효소는, 예를 들어, 라파마이신 민감성 이량체화 도메인을 사용함으로써 이량체화 파트너에 융합될 수 있다. 이는 CRISPR 이펙터 활성의 일시적 제어를 위해 화학적으로 유도 가능한 CRISPR 이펙터의 생성을 가능하게 한다. 따라서, CRISPR 이펙터는 2 개의 단편으로 분할됨으로써 화학적으로 유도 가능하게 될 수 있고, 라파마이신-민감성 이량체화 도메인은 CRISPR 이펙터의 제어된 재조립에 사용될 수 있다.
분할 지점은 전형적으로 인 실리코로 설계되고 작제물에 클로닝된다. 이 과정에서, 돌연변이가 분할 효소에 도입될 수 있고 비-기능적 도메인이 제거될 수 있다. 일부 구현예에서, 분할 CRISPR 이펙터(즉, N-말단 및 C-말단 단편)의 두 부분 또는 단편은, 예를 들어, 야생형 CRISPR 이펙터의 서열의 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 또는 적어도 99%를 포함하는 전체 CRISPR 이펙터를 형성할 수 있다.
자가-활성화 또는 비활성화 효소
본원에 기재된 CRISPR 이펙터는 자가-활성화 또는 자가-비활성화하도록 설계될 수 있다. 일부 구현예에서, CRISPR 이펙터는 자가-비활성화한다. 예를 들어, 표적 서열은 CRISPR 이펙터 코딩 작제물에 도입될 수 있다. 따라서, CRISPR 이펙터는 효소를 인코딩하는 작제물뿐만 아니라 표적 서열을 절단하여 이들의 발현을 자가-비활성화할 수 있다. 자가-비활성화 CRISPR 시스템을 구축하는 방법은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Epstein et al., "Engineering a Self-Inactivating CRISPR System for AAV Vectors," Mol. Ther., 24 (2016): S50]에 기재되어 있다.
일부 다른 구현예에서, 약한 프로모터(예를 들어, 7SK 프로모터)의 제어 하에 발현된 추가적인 RNA 가이드는 CRISPR 이펙터를 인코딩하는 핵산 서열을 표적화하여 이의 발현을 방지 및/또는 차단할 수 있다(예를 들어, 핵산의 전사 및/또는 번역을 방지함으로써). CRISPR 이펙터, RNA 가이드, 및 CRISPR 이펙터를 인코딩하는 핵산을 표적화하는 RNA 가이드를 발현하는 벡터로 세포를 형질감염시키면 CRISPR 이펙터를 인코딩하는 핵산의 효율적인 파괴를 야기하고, CRISPR 이펙터의 수준을 감소시켜서, 게놈 편집 활성을 제한할 수 있다.
일부 구현예에서, CRISPR 이펙터의 게놈 편집 활성은 포유류 세포에서 내인성 RNA 시그니처(예를 들어, miRNA)를 통해 조절될 수 있다. CRISPR 이펙터 스위치는 CRISPR 이펙터를 인코딩하는 mRNA의 5'-UTR에서 miRNA-상보적 서열을 사용함으로써 이루어질 수 있다. 스위치는 표적 세포에서 miRNA에 선택적이고 효율적으로 반응한다. 따라서, 스위치는 이종 세포 집단 내에서 내인성 miRNA 활성을 감지함으로써 게놈 편집을 차별적으로 제어할 수 있다. 따라서, 스위치 시스템은 세포내 miRNA 정보에 기초한 세포-유형 선택적 게놈 편집 및 세포 조작을 위한 프레임워크를 제공할 수 있다(Hirosawa et al. "Cell-type-specific genome editing with a microRNA-responsive CRISPR-Cas9 switch," Nucl. Acids Res., 2017 Jul 27; 45(13): e118).
유도성 CRISPR 이펙터
CRISPR 이펙터는 유도성, 예를 들어, 광유도성 또는 화학적 유도성일 수 있다. 이러한 메커니즘은 CRISPR 이펙터에서 기능적 도메인의 활성화를 가능하게 한다. 광유도성은, 예를 들어, CRY2PHR/CIBN 쌍이 분할 CRISPR 이펙터에서 사용되는 융합 복합체를 설계함으로써 당업계에 공지된 다양한 방법에 의해 달성될 수 있다(예를 들어, 문헌[Konermann et al., "Optical control of mammalian endogenous transcription and epigenetic states," Nature, 500.7463 (2013): 472] 참조). 화학적 유도성은, 예를 들어, FKBP/FRB(FK506 결합 단백질/FKBP 라파마이신 결합 도메인) 쌍이 분할 CRISPR 이펙터에서 사용되는 융합 복합체를 설계함으로써 달성될 수 있다. 라파마이신은 융합 복합체를 형성시키고, 이에 따라 CRISPR 이펙터를 활성화시키기 위해 필요하다(예를 들어, 문헌[Zetsche et al., "A split-Cas9 architecture for inducible genome editing and transcription modulation," Nature Biotech., 33.2 (2015): 139-142] 참조).
또한, CRISPR 이펙터의 발현은 유도성 프로모터, 예를 들어, 테트라사이클린 또는 독시사이클린 제어 전사 활성화(Tet-On 및 Tet-Off 발현 시스템), 호르몬 유도성 유전자 발현 시스템(예를 들어, 엑디손 유도성 유전자 발현 시스템), 및 아라비노스-유도성 발현 시스템에 의해 조절될 수 있다. RNA로서 전달될 때, RNA 표적화 이펙터 단백질의 발현은 테트라사이클린과 같은 소분자를 감지할 수 있는 리보스위치를 통해 조절될 수 있다(예를 들어, 문헌[Goldfless et al., "Direct and specific chemical control of eukaryotic translation with a synthetic RNA-protein interaction," Nucl. Acids Res., 40.9 (2012): e64-e64] 참조).
유도성 CRISPR 이펙터 및 유도성 CRISPR 시스템의 다양한 구현예는, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 US 8871445, US 20160208243, 및 WO 2016205764에 기재되어 있다.
기능적 돌연변이
특이성 및/또는 견고성을 개선하기 위해 본원에 기재된 바와 같이 다양한 돌연변이 또는 변형이 CRISPR 이펙터에 도입될 수 있다. 일부 구현예에서, 프로토스페이서 인접 모티프(PAM)를 인식하는 아미노산 잔기가 동정된다. 본원에 기재된 CRISPR 이펙터는 추가로, 예를 들어, PAM을 인식하는 아미노산 잔기를 다른 아미노산 잔기로 대체함으로써 상이한 PAM을 인식하도록 변형될 수 있다. 일부 구현예에서, CRISPR 이펙터는, 예를 들어, 5'-NTTN-3', 5'-NTTR-3', 5'-RTTR-3', 5'-TNNT-3', 5'-TNRT-3', 5'-TSRT-3', 5'-TGRT-3', 5'-TNRY-3', 5'-TTNR-3', 5'-TTYR-3', 5'-TTTR-3', 5'-TTCV-3', 5'-DTYR-3', 5'-WTTR-3', 5'-NNR-3', 5'-NYR-3', 5'-YYR-3', 5'-TYR-3', 5'-TTN-3', 5'-TTR-3', 5'-CNT-3', 5'-NGG-3', 5'-BGG-3', 또는 5'-R-3'를 인식할 수 있고, 여기서 "N"는 임의의 뉴클레오티드이고, "B"는 C 또는 G 또는 T이고, "D"는 A 또는 G 또는 T이고, "R"은 A 또는 G이고, "S"는 G 또는 C이고, "V"는 A 또는 C 또는 G이고, "W"는 A 또는 T이고, "Y"는 C 또는 T이다.
일부 구현예에서, 본원에 기재된 CRISPR 이펙터는 하나 이상의 기능적 활성을 변형시키도록 하나 이상의 아미노산 잔기에서 돌연변이될 수 있다. 예를 들어, 일부 구현예에서, CRISPR 이펙터는 이의 헬리카제 활성을 변형시키도록 하나 이상의 아미노산 잔기에서 돌연변이된다. 일부 구현예에서, CRISPR 이펙터는 하나 이상의 아미노산 잔기에서 이의 뉴클레아제 활성(예를 들어, 엔도뉴클레아제 활성 또는 엑소뉴클레아제 활성)을 변형시키도록 돌연변이된다. 일부 구현예에서, CRISPR 이펙터는 RNA 가이드와 기능적으로 회합되는 이의 능력을 변형시키도록 하나 이상의 아미노산 잔기에서 돌연변이된다. 일부 구현예에서, CRISPR 이펙터는 표적 핵산과 기능적으로 회합되는 이의 능력을 변형시키도록 하나 이상의 아미노산 잔기에서 돌연변이된다.
일부 구현예에서, 본원에 기재된 CRISPR 이펙터는 표적 핵산 분자를 절단할 수 있다. 일부 구현예에서, CRISPR 이펙터는 표적 핵산 분자의 양 가닥을 절단한다. 그러나, 일부 구현예에서, CRISPR 이펙터는 이의 절단 활성을 변형시키도록 하나 이상의 아미노산 잔기에서 돌연변이된다. 예를 들어, 일부 구현예에서, CRISPR 이펙터는 표적 핵산을 절단하는 CRISPR 이펙터의 능력을 증가시키는 하나 이상의 돌연변이를 포함할 수 있다. 또 다른 예에서, 일부 구현예에서, CRISPR 이펙터는 효소가 표적 핵산을 절단할 수 없게 만드는 하나 이상의 돌연변이를 포함할 수 있다. 다른 구현예에서, CRISPR 이펙터는 효소가 표적 핵산의 가닥을 절단할 수 있도록(즉, 닉카제 활성) 하나 이상의 돌연변이를 포함할 수 있다. 일부 구현예에서, CRISPR 이펙터는 RNA 가이드가 혼성화하는 가닥에 상보적인 표적 핵산의 가닥을 절단할 수 있다. 일부 구현예에서, CRISPR 이펙터는 RNA 가이드가 혼성화하는 표적 핵산의 가닥을 절단할 수 있다.
일부 구현예에서, 본원에 개시된 CRISPR 이펙터의 하나 이상의 잔기는 아르기닌 모이어티로 돌연변이된다. 일부 구현예에서, 본원에 개시된 CRISPR 이펙터의 하나 이상의 잔기는 글리신 모이어티로 돌연변이된다. 일부 구현예에서, 본원에 개시된 CRISPR 이펙터의 하나 이상의 잔기는 본원에 개시된 CRISPR 이펙터의 계통발생학적 정렬의 콘센서스 잔기에 기초하여 돌연변이된다.
일부 구현예에서, 본원에 기재된 CRISPR 이펙터는 하나 이상의 요망되는 기능적 활성(예를 들어, 뉴클레아제 활성 및 RNA 가이드와 상호작용하는 능력)을 보유하면서 효소의 크기를 감소시키기 위해 하나 이상의 아미노산 잔기에 결실을 포함하도록 조작될 수 있다. 절두된 CRISPR 이펙터는 부하 제한을 갖는 전달 시스템과 조합하여 유리하게 사용될 수 있다.
일 양태에서, 본 개시는 도 2에 나타낸 도메인 구조를 유지하면서 본원에 기재된 핵산 서열과 적어도 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% 동일한 핵산 서열을 제공한다. 또 다른 양태에서, 본 개시는 또한 도 2에 나타낸 도메인 구조를 유지하면서 본원에 기재된 아미노산 서열과 적어도 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% 동일한 아미노산 서열을 제공한다.
일부 구현예에서, 핵산 서열은 본원에 기재된 서열과 동일한 적어도 일부(예를 들어, 적어도 1 개, 2 개, 3 개, 4 개, 5 개, 6 개, 7 개, 8 개, 9 개, 10 개, 11 개, 12 개, 13 개, 14 개, 15 개, 20 개, 30 개, 40 개, 50 개, 60 개, 70 개, 80 개, 90 개, 또는 100 개 뉴클레오티드, 예를 들어, 인접 또는 비-인접 뉴클레오티드)를 갖는다. 일부 구현예에서, 핵산 서열은 본원에 기재된 서열과 상이한 적어도 일부(예를 들어, 적어도 1 개, 2 개, 3 개, 4 개, 5 개, 6 개, 7 개, 8 개, 9 개, 10 개, 11 개, 12 개, 13 개, 14 개, 15 개, 20 개, 30 개, 40 개, 50 개, 60 개, 70 개, 80 개, 90 개, 또는 100 개 뉴클레오티드, 예를 들어, 인접 또는 비-인접 뉴클레오티드)를 갖는다.
일부 구현예에서, 아미노산 서열은 본원에 기재된 서열과 동일한 적어도 일부(예를 들어, 적어도 1 개, 2 개, 3 개, 4 개, 5 개, 6 개, 7 개, 8 개, 9 개, 10 개, 11 개, 12 개, 13 개, 14 개, 15 개, 20 개, 30 개, 40 개, 50 개, 60 개, 70 개, 80 개, 90 개, 또는 100 개 아미노산 잔기, 예를 들어, 인접 또는 비-인접 아미노산 잔기)를 갖는다. 일부 구현예에서, 아미노산 서열은 본원에 기재된 서열과 상이한 적어도 일부(예를 들어, 적어도 1 개, 2 개, 3 개, 4 개, 5 개, 6 개, 7 개, 8 개, 9 개, 10 개, 11 개, 12 개, 13 개, 14 개, 15 개, 20 개, 30 개, 40 개, 50 개, 60 개, 70 개, 80 개, 90 개, 또는 100 개 아미노산 잔기, 예를 들어, 인접 또는 비-인접 아미노산 잔기)를 갖는다.
두 개의 아미노산 서열, 또는 두 개의 핵산 서열의 동일성 퍼센트를 결정하기 위해, 서열은 최적의 비교 목적을 위해 정렬된다(예를 들어, 최적의 정렬을 위해 제1 및 제2 아미노산 또는 핵산 서열들 중 하나 또는 이 둘 모두에 갭이 도입될 수 있고, 비-상동성 서열이 비교 목적으로 무시될 수 있음). 일반적으로, 비교 목적으로 정렬된 참조 서열 길이는 참조 서열 길이의 적어도 80%여야 하고, 일부 구현예에서 참조 서열의 길이의 적어도 90%, 95%, 또는 100%여야 한다. 상응하는 아미노산 위치 또는 뉴클레오티드 위치에서 아미노산 잔기 또는 뉴클레오티드가 이후 비교된다. 제1 서열에서의 위치가 제2 서열에서 상응하는 위치와 동일한 아미노산 잔기 또는 뉴클레오티드에 의해 점유되는 경우, 분자는 그러한 위치에서 동일하다. 두 서열 간의 동일성 퍼센트는 두 서열의 최적의 정렬을 위해 도입되어야 하는 갭의 수, 및 각 갭의 길이를 고려하여 서열이 공유하는 동일한 위치의 수의 함수이다. 본 개시의 목적 상, 서열의 비교 및 두 서열 간의 동일성 퍼센트의 결정은 12의 갭 페널티, 4의 갭 확장 페널티, 및 5의 프레임시프트 갭 페널티를 갖는 Blossum 62 스코어링 매트릭스를 사용하여 달성될 수 있다.
일부 구현예에서, 뉴클레아제는 PX1X2X3X4F(SEQ ID NO: 216)로서 기재된 서열을 포함하고, 여기서 X1은 L 또는 M 또는 I 또는 C 또는 F이고, X2는 Y 또는 W 또는 F이고, X3는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X4는 I 또는 L 또는 M이다. 일부 구현예에서, SEQ ID NO: 216에 기재된 서열은 N-말단 서열이다. 일부 구현예에서, 뉴클레아제는 RX1X2X3L(SEQ ID NO: 217)로서 기재된 서열을 포함하고, 여기서 X1은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X2는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X3는 L 또는 I 또는 T 또는 C 또는 M 또는 K이다. 일부 구현예에서, 뉴클레아제는 NX1YX2(SEQ ID NO: 218)로서 기재된 서열을 포함하고, 여기서 X1은 I 또는 L 또는 F이고, X2는 K 또는 R 또는 V 또는 E이다. 일부 구현예에서, 뉴클레아제는 KX1X2X3FAX4X5KD(SEQ ID NO: 219)로서 기재된 서열을 포함하고, 여기서 X1은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X2는 I 또는 V 또는 L 또는 S이고, X3는 H 또는 S 또는 G 또는 R이고, X4는 D 또는 S 또는 E이고, X5는 I 또는 V 또는 M 또는 T 또는 N이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 219의 서열은 C-말단 서열이다. 일부 구현예에서, 뉴클레아제는 LX1NX2(SEQ ID NO: 220)로서 기재된 서열을 포함하고, 여기서 X1는 G 또는 S 또는 C 또는 T이고, X2는 N 또는 Y 또는 K 또는 S이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 220의 서열은 C-말단 서열이다. 일부 구현예에서, 뉴클레아제는 PX1X2X3X4SQX5DS(SEQ ID NO: 221)로서 기재된 서열을 포함하고, 여기서 X1는 S 또는 P 또는 A이고, X2는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X3는 F 또는 Y 또는 H이고, X4는 T 또는 S이고, X5는 M 또는 T 또는 I이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 221의 서열은 C-말단 서열이다. 일부 구현예에서, 뉴클레아제는 KX1X2VRX3X4QEX5H(SEQ ID NO: 222)로서 기재된 서열을 포함하고, 여기서 X1은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X2는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X3는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X4는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X5는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 222의 서열은 C-말단 서열이다. 일부 구현예에서, 뉴클레아제는 X1NGX2X3X4DX5NX6X7X8N(SEQ ID NO: 223)로서 기재된 서열을 포함하고, 여기서 X1은 I 또는 K 또는 V 또는 L이고, X2는 L 또는 M이고, X3는 N 또는 H 또는 P이고, X4는 A 또는 S 또는 C이고, X5는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X6는 A 또는 S이고, X7은 S 또는 A 또는 P이고, X8은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 223의 서열은 C-말단 서열이다.
RNA 및 RNA 가이드 변형
일부 구현예에서, 본원에 기재된 RNA 가이드는 우라실(U)을 포함한다. 일부 구현예에서, 본원에 기재된 RNA 가이드는 티민(T)을 포함한다. 일부 구현예에서, 본원에 기재된 RNA 가이드의 직접 반복부 서열은 우라실(U)을 포함한다. 일부 구현예에서, 본원에 기재된 RNA 가이드의 직접 반복부 서열은 티민(T)을 포함한다. 일부 구현예에서, 표 2 또는 표 8에 따른 직접 반복부 서열은 표 2 또는 표 8의 상응하는 서열에서 티민으로서 지시된 하나 이상의 위치에 우라실을 포함하는 서열을 포함한다.
일부 구현예에서, 직접 반복부는 내인성 CRISPR 어레이에서 반복되는 서열의 하나의 카피만을 포함한다. 일부 구현예에서, 직접 반복부는 내인성 CRISPR 어레이에서 발견되는 하나 이상의 스페이서 서열에 인접한(예를 들어, 측접한) 전장 서열이다. 일부 구현예에서, 직접 반복부는 내인성 CRISPR 어레이에서 발견되는 하나 이상의 스페이서 서열에 인접한(예를 들어, 측접한) 전장 서열의 일부(예를 들어, 가공된 부분)이다.
스페이서 및 직접 반복부
RNA 가이드의 스페이서 길이는 약 15 개 내지 55 개 뉴클레오티드의 범위일 수 있다. RNA 가이드의 스페이서 길이는 약 20 개 내지 45 개 뉴클레오티드의 범위일 수 있다. 일부 구현예에서, RNA 가이드의 스페이서 길이는 적어도 15 개 뉴클레오티드, 적어도 16 개 뉴클레오티드, 적어도 17 개 뉴클레오티드, 적어도 18 개 뉴클레오티드, 적어도 19 개 뉴클레오티드, 적어도 20 개 뉴클레오티드, 적어도 21 개 뉴클레오티드, 또는 적어도 22 개 뉴클레오티드이다. 일부 구현예에서, 스페이서 길이는 15 개 내지 17 개 뉴클레오티드, 15 개 내지 23 개 뉴클레오티드, 16 개 내지 22 개 뉴클레오티드, 17 개 내지 20 개 뉴클레오티드, 20 개 내지 24 개 뉴클레오티드(예를 들어, 20 개, 21 개, 22 개, 23 개, 또는 24 개 뉴클레오티드), 23 개 내지 25 개 뉴클레오티드(예를 들어, 23 개, 24 개, 또는 25 개 뉴클레오티드), 24 개 내지 27 개 뉴클레오티드, 27 개 내지 30 개 뉴클레오티드, 30 개 내지 45 개 뉴클레오티드(예를 들어, 30 개, 31 개, 32 개, 33 개, 34 개, 35 개, 40 개, 또는 45 개 뉴클레오티드), 30 개 또는 35 개 내지 40 개 뉴클레오티드, 41 개 내지 45 개 뉴클레오티드, 45 개 내지 50 개 뉴클레오티드, 또는 그 초과이다.
일부 구현예에서, RNA 가이드의 직접 반복부 길이는 적어도 16 개 뉴클레오티드, 또는 16 개 내지 20 개 뉴클레오티드(예를 들어, 16 개, 17 개, 18 개, 19 개, 또는 20 개 뉴클레오티드)이다. 일부 구현예에서, RNA 가이드의 직접 반복부 길이는 약 19 개 내지 약 40 개 뉴클레오티드이다.
예시적인 직접 반복부 서열(예를 들어, pre-crRNA의 직접 반복부 서열(예를 들어, 미가공 crRNA) 또는 성숙 crRNA(예를 들어, 가공 crRNA의 직접 반복부 서열)은 표 2에 나타나 있다. 또한, 표 8을 참조한다.
[표 2]
crRNA 서열의 예시적인 직접 반복부 서열.
일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 57의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 2의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 58의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 3의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 59의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 60의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 14의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 128의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 15의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 63의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 17의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 130의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 18의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 70의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 21의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 72의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 22의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 73의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 23의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 74의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 24의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 63의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 27의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 76의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 28의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 77의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 29의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 139의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 31의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 58의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 32의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 80의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 35의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 77의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 36의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 139의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 38의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 80의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 39의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 58의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 41의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 83의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 42의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 84의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 44의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 86의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 45의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 130의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 46의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 84의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 47의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 87의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 48의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 88의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 51의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 84의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 53의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 84의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 55의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 88의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 56의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 90의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다.
일부 구현예에서, RNA 가이드는 도 3에 나타낸 직접 반복부 서열을 포함한다. 예를 들어, 일부 구현예에서, RNA 가이드는 도 3에 나타낸 컨센서스 서열의 직접 반복부 또는 도 3에 나타낸 컨센서스 서열의 일부를 포함한다. 일부 구현예에서, RNA 가이드는 X1X2TX3X4X5X6X7X8(SEQ ID NO: 224)로서 기재된 서열을 갖는 직접 반복부를 포함하고, 여기서 X1은 A 또는 C 또는 G이고, X2는 T 또는 C 또는 A이고, X3는 T 또는 G 또는 A이고, X4는 T 또는 G이고, X5는 T 또는 G 또는 A이고, X6는 G 또는 T 또는 A이고, X7은 T 또는 G 또는 A이고, X8은 A 또는 G 또는 T이다. 예를 들어, 일부 구현예에서, RNA 가이드는 ATTGTTGDA(SEQ ID NO: 225)로서 기재된 서열을 갖는 직접 반복부를 포함한다. 일부 구현예에서, SEQ ID NO: 224는 직접 반복부의 5' 말단에 근접한다. 일부 구현예에서, SEQ ID NO: 225는 직접 반복부의 5' 말단에 근접한다. 일부 구현예에서, RNA 가이드는 X1X2X3X4X5X6X7X8X9(SEQ ID NO: 226)로서 기재된 서열을 갖는 직접 반복부를 포함하고, 여기서 X1은 T 또는 C 또는 A이고, X2는 T 또는 A 또는 G이고, X3는 T 또는 C 또는 A이고, X4는 T 또는 A이고, X5는 T 또는 A 또는 G이고, X6는 T 또는 A이고, X7은 A 또는 T이고, X8은 A 또는 G 또는 C 또는 T이고, X9은 G 또는 A 또는 C이다. 예를 들어, 일부 구현예에서, RNA 가이드는 TTTTWTARG(SEQ ID NO: 227)로서 기재된 서열을 갖는 직접 반복부를 포함한다. 일부 구현예에서, RNA 가이드는 X1X2X3AC(SEQ ID NO: 228)로서 기재된 서열을 갖는 직접 반복부를 포함하고, 여기서 X1은 A 또는 C 또는 G이고, X2는 C 또는 A이고, X3는 A 또는 C이다. 예를 들어, 일부 구현예에서, RNA 가이드는 ACAAC(SEQ ID NO: 229)로서 기재된 서열을 갖는 직접 반복부를 포함한다. 일부 구현예에서, SEQ ID NO: 228는 직접 반복부의 3' 말단에 근접한다. 일부 구현예에서, SEQ ID NO: 229는 직접 반복부의 3' 말단에 근접한다.
일부 구현예에서, RNA 가이드의 스페이서는 표 3의 PAM 서열에 인접한 표적 핵산에 결합된다. 예를 들어, 일부 구현예에서, 본원에 개시된 RNA 가이드와 이펙터의 복합체는 표 3에 지시된 바와 같은 PAM 서열에 인접한 표적 핵산에 결합된다.
[표 3]
CLUST.091979 이펙터에 상응하는 PAM 서열.
일부 구현예에서, RNA 가이드는 tracrRNA를 추가로 포함한다. 일부 구현예에서, tracrRNA는 필요하지 않다(예를 들어, tracrRNA는 선택적임). 일부 구현예에서, tracrRNA는 표 9에 나타낸 비-코딩 서열의 일부이다. 예를 들어, 일부 구현예에서, tracrRNA는 표 4의 서열이다.
[표 4] 예시적인 tracrRNA 서열.
일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 152, SEQ ID NO: 153, 또는 SEQ ID NO: 154의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 2의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 155, SEQ ID NO: 156, SEQ ID NO: 157, 또는 SEQ ID NO: 158의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 3의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 159, SEQ ID NO: 160, 또는 SEQ ID NO: 161의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 14의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 162의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 17의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 163, SEQ ID NO: 164, SEQ ID NO: 165, 또는 SEQ ID NO: 166의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 18의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 167 또는 SEQ ID NO: 168의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 21의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 169, SEQ ID NO: 170, 또는 SEQ ID NO: 171의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 22의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 172, SEQ ID NO: 173, SEQ ID NO: 174, 또는 SEQ ID NO: 175의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 23의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 176, SEQ ID NO: 177, SEQ ID NO: 178, 또는 SEQ ID NO: 179의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 27의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 180 또는 SEQ ID NO: 181의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 29의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 182, SEQ ID NO: 183, 또는 SEQ ID NO: 184의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 31의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 185, SEQ ID NO: 186, SEQ ID NO: 187, 또는 SEQ ID NO: 188의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 32의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 189 또는 SEQ ID NO: 190의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 36의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 182, SEQ ID NO: 183, 또는 SEQ ID NO: 184의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 38의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 189 또는 SEQ ID NO: 190의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 39의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 185, SEQ ID NO: 186, SEQ ID NO: 187, 또는 SEQ ID NO: 188의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 41의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 191, SEQ ID NO: 192, SEQ ID NO: 193, 또는 SEQ ID NO: 194의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 43의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 197, SEQ ID NO: 198, 또는 SEQ ID NO: 199의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 44의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 195 또는 SEQ ID NO: 196의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 45의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 163, SEQ ID NO: 164, SEQ ID NO: 165, 또는 SEQ ID NO: 166의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 48의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 200, SEQ ID NO: 201, 또는 SEQ ID NO: 202의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 52의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 197, SEQ ID NO: 198, 또는 SEQ ID NO: 199의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 55의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 200, SEQ ID NO: 201, 또는 SEQ ID NO: 202의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 56의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 203 또는 SEQ ID NO: 204의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다.
RNA 가이드 서열은 CRISPR 복합체의 형성 및 표적에 대한 성공적인 결합을 허용하는 동시에 성공적인 뉴클레아제 활성을 허용하지 않는(즉, 뉴클레아제 활성 없는/인델 유발 없는) 방식으로 변형될 수 있다. 이들 변형된 가이드 서열은 "데드 가이드" 또는 "데드 가이드 서열"로 지칭된다. 이들 데드 가이드 또는 데드 가이드 서열은 뉴클레아제 활성과 관련하여 촉매적으로 비활성이거나 입체적으로 비활성일 수 있다. 데드 가이드 서열은 전형적으로 활성 RNA 절단을 초래하는 각각의 가이드서열보다 짧다. 일부 구현예에서, 데드 가이드는 뉴클레아제 활성을 갖는 각각의 RNA 가이드보다 5%, 10%, 20%, 30%, 40%, 또는 50% 더 짧다. RNA 가이드의 데드 가이드 서열은 13 개 내지 15 개 뉴클레오티드 길이(예를 들어, 13 개, 14 개, 또는 15 개 뉴클레오티드 길이), 15 개 내지 19 개 뉴클레오티드 길이, 또는 17 개 내지 18 개 뉴클레오티드 길이(예를 들어, 17 개 뉴클레오티드 길이)일 수 있다.
따라서, 일 양태에서, 본 개시는 본원에 기재된 바와 같은 기능적 CLUST.091979 CRISPR 이펙터 및 RNA 가이드를 포함하는 비-자연 발생 또는 조작된 CRISPR 시스템을 제공하고, 여기서 RNA 가이드는 데드 가이드 서열을 포함하고, 이에 의해 RNA 가이드는 CRISPR 시스템이 검출 가능한 절단 활성 없이 세포에서 관심 게놈 유전자좌로 유도되도록 표적 서열에 혼성화될 수 있다. 데드 가이드에 대한 상세한 설명은, 예를 들어, 그 전체가 본원에 참조로 포함되는 WO 2016094872에 기재되어 있다.
유도성 RNA 가이드
RNA 가이드는 유도성 시스템의 구성 요소로 생성될 수 있다. 시스템의 유도성 성질은 유전자 편집 또는 유전자 발현의 시공간적 제어를 허용한다. 일부 구현예에서, 유도성 시스템에 대한 자극은, 예를 들어, 전자기 복사, 음향 에너지, 화학적 에너지 및/또는 열 에너지를 포함한다.
일부 구현예에서, RNA 가이드의 전사는 유도성 프로모터, 예를 들어, 테트라사이클린 또는 독시사이클린 제어 전사 활성화(Tet-On 및 Tet-Off 발현 시스템), 호르몬 유도성 유전자 발현 시스템(예를 들어, 엑디손 유도성 유전자 발현 시스템), 및 아라비노스-유도성 유전자 발현 시스템에 의해 조절될 수 있다. 유도성 시스템의 다른 예는, 예를 들어, 소분자 2-하이브리드 전사 활성화 시스템(FKBP, ABA 등), 광 유도성 시스템(피토크롬, LOV 도메인, 또는 크립토크롬), 또는 광 유도성 전사 이펙터(LITE)를 포함한다. 이들 유도성 시스템은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 WO 2016205764 및 US 8795965에 기재되어 있다.
화학적 변형
화학적 변형은 RNA 가이드의 포스페이트 백본, 당, 및/또는 염기에 적용될 수 있다. 포스포로티오에이트와 같은 백본 변형은 포스페이트 백본에 대한 전하를 변형시키고, 올리고뉴클레오티드의 전달 및 뉴클레아제 내성(예를 들어, 문헌[Eckstein, "Phosphorothioates, essential components of therapeutic oligonucleotides," Nucl. Acid Ther., 24 (2014), pp. 374-387] 참조); 당, 예컨대, 2'-O-메틸(2'-OMe), 2'-F, 및 잠금 핵산(LNA)의 변형을 돕고, 염기 쌍형성과 뉴클레아제 내성 둘 모두를 향상시킨다(예를 들어, 문헌[Allerson et al. "Fully 2 '-modified oligonucleotide duplexes with improved in vitro potency and stability compared to unmodified small interfering RNA," J. Med. Chem., 48.4 (2005): 901-904] 참조). 특히, 2-티오우리딘 또는 N6-메틸아데노신과 같은 화학적 변형 염기는 더 강하거나 더 약한 염기 쌍형성을 가능하게 할 수 있다(예를 들어, 문헌[Bramsen et al., "Development of therapeutic-grade small interfering RNAs by chemical engineering," Front. Genet., 2012 Aug 20; 3:154] 참조). 추가로, RNA는 형광 염료, 폴리에틸렌 글리콜, 또는 단백질을 포함하는 다양한 기능적 모이어티와 5' 말단 접합과 3' 말단 접합 둘 모두에 적합하다.
매우 다양한 변형이 화학적으로 합성된 RNA 가이드 분자에 적용될 수 있다. 예를 들어, 뉴클레아제 내성을 개선하기 위해 2'-OMe로 올리고뉴클레오티드를 변형시키는 것은 왓슨-크릭(Watson-Crick) 염기 쌍형성의 결합 에너지를 변경할 수 있다. 또한, 2'-OMe 변형은 올리고뉴클레오티드가 세포에서 형질감염 시약, 단백질 또는 임의의 다른 분자와 상호작용하는 방식에 영향을 미칠 수 있다. 이들 변형의 효과는 경험적 시험에 의해 결정될 수 있다.
일부 구현예에서, RNA 가이드는 하나 이상의 포스포로티오에이트 변형을 포함한다. 일부 구현예에서, RNA 가이드는 염기 쌍형성을 향상시키고/향상시키거나 뉴클레아제 내성을 증가시키기 위한 목적으로 하나 이상의 잠금 핵산을 포함한다.
이들 화학적 변형의 요약은, 예를 들어, 각각 그 전체가 참조로 포함되는 문헌[Kelley et al., "Versatility of chemically synthesized guide RNAs for CRISPR-Cas9 genome editing," J. Biotechnol. 2016 Sep 10; 233:74-83; WO 2016205764]; 및 US 8795965에서 찾아볼 수 있다.
서열 변형
본원에 기재된 RNA 가이드, tracrRNA, 및 crRNA의 서열 및 길이는 최적화될 수 있다. 일부 구현예에서, RNA 가이드의 최적화된 길이는 가공된 형태의 tracrRNA 및/또는 crRNA를 동정함으로써, 또는 RNA 가이드, tracrRNA, crRNA, 및 tracrRNA 테트라루프에 대한 경험적 길이 연구에 의해 결정될 수 있다.
RNA 가이드는 또한 하나 이상의 압타머 서열을 포함할 수 있다. 압타머는 특정 표적 분자에 결합할 수 있는 올리고뉴클레오티드 또는 펩티드 분자이다. 압타머는 유전자 이펙터, 유전자 활성화제, 또는 유전자 억제자에 특이적일 수 있다. 일부 구현예에서, 압타머는 단백질에 특이적일 수 있으며, 이는 차례로 특정 유전자 이펙터, 유전자 활성화제 또는 유전자 억제자에 특이적이고 동원/결합한다. 이펙터, 활성화제, 또는 억제자는 융합 단백질의 형태로 존재할 수 있다. 일부 구현예에서, RNA 가이드는 동일한 어댑터 단백질에 특이적인 둘 이상의 압타머 서열을 갖는다. 일부 구현예에서, 둘 이상의 압타머 서열은 상이한 어댑터 단백질에 특이적이다. 어댑터 단백질은, 예를 들어, MS2, PP7, Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, φCb5, φCb8r, φCb12r, φCb23r, 7s, 및 PRR1을 포함할 수 있다. 따라서, 일부 구현예에서, 압타머는 본원에 기재된 바와 같은 어댑터 단백질 중 어느 하나를 특이적으로 결합하는 결합 단백질로부터 선택된다. 일부 구현예에서, 압타머 서열은 MS2 루프이다. 압타머의 상세한 설명은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 문헌[Nowak et al., "Guide RNA engineering for versatile Cas9 functionality," Nucl. Acid. Res., 2016 Nov 16;44(20):9555-9564]; 및 WO 2016205764에서 찾아볼 수 있다.
가이드: 표적 서열 매칭 요건
CRISPR 시스템에서, 가이드 서열과 이의 상응하는 표적 서열 사이의 상보성 정도는 약 50%, 60%, 75%, 80%, 85%, 90%, 95%, 97.5%, 99%, 또는 100%일 수 있다. 표적 외 상호작용을 감소시키기 위해, 예를 들어, 낮은 상보성을 갖는 표적 서열과 상호작용하는 가이드를 감소시키기 위해, CRISPR 시스템이 80%, 85%, 90%, 또는 95% 초과의 상보성을 갖는 표적 서열과 표적 외 서열 사이를 구별할 수 있도록 돌연변이가 CRISPR 시스템에 도입될 수 있다. 일부 구현예에서, 상보성 정도는 80% 내지 95%, 예를 들어, 약 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 또는 95%이다(예를 들어, 1 개, 2 개, 또는 3 개 미스매치를 갖는 18 개 뉴클레오티드의 표적 외로부터 18 개 뉴클레오티드를 갖는 표적 사이를 구별하는). 따라서, 일부 구현예에서, 가이드 서열과 이의 상응하는 표적 서열 사이의 상보성 정도는 94.5%, 95%, 95.5%, 96%, 96.5%, 97%, 97.5%, 98%, 98.5%, 99%, 99.5%, 또는 99.9% 초과이다. 일부 구현예에서, 상보성 정도는 100%이다.
기능적이기에 충분한 상보성이 있는 한 완전한 상보성이 필요하지 않다는 것은 당 분야에서 알려져 있다. 절단 효율의 조절은 스페이서/표적에 따른 미스매치의 위치를 포함하여 스페이서 서열과 표적 서열 사이의 미스매치, 예를 들어, 하나 이상의 미스매치, 예컨대, 1 개 또는 2 개의 미스매치의 도입에 의해 이루어질 수 있다. 더 중심적인(즉, 3' 말단 또는 5' 말단이 아님) 미스매치, 예를 들어, 이중 미스매치가 위치하며; 더 큰 절단 효율이 영향을 받는다. 따라서, 스페이서 서열에 따라 미스매치 위치를 선택함으로써, 절단 효율이 조절될 수 있다. 예를 들어, 표적의 100% 미만의 절단이 요망된다면(예를 들어, 세포 집단에서), 스페이서와 표적 서열 사이에 1 개 또는 2 개의 미스매치가 스페이서 서열에 도입될 수 있다.
CRISPR 시스템의 사용 방법
본원에 기재된 CRISPR 시스템은 다수의 세포 유형에서 표적 폴리뉴클레오티드를 변형(예를 들어, 결실, 삽입, 전위, 비활성화 또는 활성화)시키는 것을 포함하는 매우 다양한 용도를 갖는다. CRISPR 시스템은, 예를 들어, DNA/RNA 검출(예를 들어, 특정 고감도 효소 리포터 잠금 해제(SHERLOCK)), 핵산의 추적 및 표지, 존재비 검정(배경으로부터 요망되는 서열 추출), 순환하는 종양 DNA 검출, 차세대 라이브러리 제조, 약물 스크리닝, 질병 진단 및 예후, 및 다양한 유전 장애 치료에 광범위한 적용을 갖는다.
DNA/RNA 검출
일 양태에서, 본원에 기재된 CRISPR 시스템은 DNA/RNA 검출에 사용될 수 있다. 단일 이펙터 RNA-가이드 DNase는 CRISPR RNA(crRNA)로 재프로그래밍되어 특정 단일 가닥 DNA(ssDNA) 감지를 위한 플랫폼을 제공할 수 있다. 이의 DNA 표적이 인식되면, 활성화된 V형 단일 이펙터 DNA-가이드 DNase는 부근의 비-표적 ssDNA의 "부수적" 절단에 관여한다. 이러한 crRNA-프로그래밍된 부수적 절단 활성은 CRISPR 시스템이 표지된 ssDNA의 비특이적 분해에 의해 특정 DNA의 존재를 검출할 수 있게 한다.
부수적 ssDNA 활성은 DNA 검출을 위한 아토몰 감도를 달성하는, DNA 엔도뉴클레아제-표적화 CRISPR 트랜스 리포터(DNA Endonuclease-Targeted CRISPR trans reporter; DETECTR) 방법이라 불리는 방법과 같은 DNA 검출 적용에서 리포터와 조합될 수 있다(예를 들어, 그 전체가 참조로 본원에 포함되는 문헌[Chen et al., Science, 360(6387):436-439, 2018] 참조). 본원에 기재된 효소를 사용하는 한 가지 적용은 시험관내 환경에서 비-특이적 ssDNA를 분해하는 것이다. 형광단과 소광제를 연결하는 "리포터" ssDNA 분자는 또한 미지의 DNA(단일-가닥 또는 이중-가닥) 샘플과 함께 시험관내 시스템에 첨가될 수 있다. 미지의 DNA 조각에서 표적 서열을 인식하면, 이펙터 복합체는 리포터 ssDNA를 절단하여 형광 판독을 한다.
다른 구현예에서, SHERLOCK 방법(특정 고감도 효소 리포터 잠금해제)은 또한 표적의 실시간 검출을 가능하게 하는 리포터 ssDNA의 부수적 절단 및 핵산 증폭에 기초한 아토몰(또는 단일-분자) 감도를 갖는 시험관내 핵산 검출 플랫폼을 제공한다. SHERLOCK에서 CRISPR를 사용하는 방법은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Gootenberg, et al. "Nucleic acid detection with CRISPR-Cas13a/C2c2," Science, 356(6336):438-442 (2017)]에 상세히 기재되어 있다.
일부 구현예에서, 본원에 기재된 CRISPR 시스템은 다중 오류-강성 형광 인 시튜 혼성화(MERFISH)에 사용될 수 있다. 이들 방법은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Chen et al., "Spatially resolved, highly multiplexed RNA profiling in single cells," Science, 2015 Apr 24; 348(6233):aaa6090]에 기재되어 있다.
핵산의 추적 및 표지
세포 과정은 단백질, RNA 및 DNA 간의 분자 상호작용 네트워크에 좌우된다. 단백질-DNA 및 단백질-RNA 상호작용의 정확한 검출은 이러한 과정을 이해하는 데 중요하다. 시험관내 근접 표지 기법은 리포터 그룹, 예를 들어, 광활성 기와 조합된 친화성 태그를 사용하여 시험관내에서 관심 단백질 또는 RNA의 부근에 있는 폴리펩티드 및 RNA를 표지한다. UV 조사 후, 광활성 기는 태그가 있는 분자에 매우 근접한 단백질 및 다른 분자와 반응하여 이들을 표지한다. 표지된 상호작용 분자는 후속적으로 회수되고 동정될 수 있다. 예를 들어, RNA 표적화 이펙터 단백질은 선택된 RNA 서열에 대해 프로브를 표적화하는 데 사용될 수 있다. 이들 적용은 또한 질환 또는 배양하기 어려운 세포 유형의 생체내 영상화를 위한 동물 모델에 적용될 수 있다. 핵산의 추적 및 표지 방법은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 US 8795965; WO 2016205764; 및 WO 2017070605에 기재되어 있다.
고처리량 스크리닝
본원에 기재된 CRISPR 시스템은 차세대 시퀀싱(NGS) 라이브러리를 제조하는데 사용될 수 있다. 예를 들어, 비용-효과적인 NGS 라이브러리를 생성하기 위해, CRISPR 시스템을 사용하여 표적 유전자의 코딩 서열을 방해할 수 있으며, CRISPR 이펙터 형질감염된 클론은 차세대 시퀀싱(예를 들어, Ion Torrent PGM 시스템에서)에 의해 동시에 스크리닝될 수 있다. NGS 라이브러리를 제조하는 방법에 관한 상세한 설명은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Bell et al., "A high-throughput screening strategy for detecting CRISPR-Cas9 induced mutations using next-generation sequencing," BMC Genomics, 15.1 (2014): 1002]에서 찾아볼 수 있다.
조작된 세포
미생물(예를 들어, 이. 콜라이, 효모 및 미세조류)은 합성 생물학에 널리 사용된다. 합성 생물학의 발전은 다양한 임상적 적용을 포함하여 광범위한 유용성을 갖는다. 예를 들어, 프로그래밍 가능한 CRISPR 시스템은, 예를 들어, 표적 전사체로서 암-연결된 RNA를 사용하여 표적화된 세포 사멸을 위한 독성 도메인의 단백질을 분할하는 데 사용될 수 있다. 또한, 단백질-단백질 상호작용을 포함하는 경로는, 예를 들어, 키나제 또는 효소와 같은 적절한 이펙터와의 융합 복합체가 있는 합성 생물학적 시스템에서 영향을 받을 수 있다.
일부 구현예에서, 파지 서열을 표적화하는 RNA 가이드 서열은 미생물에 도입될 수 있다. 따라서, 본 개시는 또한 파지 감염에 대항하여 미생물(예를 들어, 생산 균주)을 "백신접종"하는 방법을 제공한다.
일부 구현예에서, 본원에 제공된 CRISPR 시스템은, 예를 들어, 수율을 향상시키거나 발효 효율을 향상시키기 위해 미생물을 조작하는 데 사용될 수 있다. 예를 들어, 본원에 기재된 CRISPR 시스템은 효모와 같은 미생물을 조작하여 발효 가능한 당으로부터 바이오연료 또는 바이오폴리머를 생산하거나, 발효 가능한 당의 공급원으로서 농업 폐기물로부터 유래된 식물-유래 리그노셀룰로스를 분해하는 데 사용될 수 있다. 보다 구체적으로, 본원에 기재된 방법은 바이오연료 생산에 필요한 내인성 유전자의 발현을 변형시키고/변형시키거나 바이오연료 합성을 방해할 수 있는 내인성 유전자를 변형시키는 데 사용될 수 있다. 미생물을 조작하는 이들 방법은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 문헌[Verwaal et al., "CRISPR/Cpf1 enables fast and simple genome editing of Saccharomyces cerevisiae," Yeast, 2017 Sep 8. doi: 10.1002/yea.3278; 및 Hlavova et al., "Improving microalgae for biotechnology―from genetics to synthetic biology," Biotechnol. Adv., 2015 Nov 1; 33:1194-203]에 기재되어 있다.
일부 구현예에서, 본원에 제공된 CRISPR 시스템은 진핵 세포 또는 진핵 유기체를 조작하는 데 사용될 수 있다. 예를 들어, 본원에 기재된 CRISPR 시스템은 식물 세포, 진균 세포, 포유류 세포, 파충류 세포, 곤충 세포, 조류 세포, 어류 세포, 기생충 세포, 절지 동물 세포, 무척추 동물 세포, 척추 동물 세포, 설치류 세포, 마우스 세포, 랫트 세포, 영장류 세포, 비-인간 영장류 세포, 또는 인간 세포로 국한되지 않는 진핵 세포를 조작하는 데 사용될 수 있다. 일부 구현예에서, 진핵 세포는 시험관내 배양이다. 일부 구현예에서, 진핵 세포는 생체내이다. 일부 구현예에서, 진핵 세포는 생체외이다.
일부 구현예에서, 세포는 세포주로부터 유래된다. 조직 배양을 위한 매우 다양한 세포주가 당업계에 공지되어 있다. 세포주의 예는 293T, MF7, K562, HeLa 및 이들의 트랜스제닉 변종을 포함하지만, 이로 제한되지 않는다. 세포주는 당업자에게 공지된 다양한 공급원으로부터 입수 가능하다(예를 들어, 미국형 배양물 보관소(American Type Culture Collection; ATCC)(Manassas, Va.) 참조). 일부 구현예에서, 하나 이상의 핵산(예컨대, 뉴클레아제 폴리펩티드 인코딩 벡터 및 RNA 가이드)으로 형질감염된 세포는 표적 핵산 또는 표적 유전자좌에 대한 변형을 포함하는 새로운 세포주를 확립하기 위해 하나 이상의 벡터-유래된 서열을 포함하는 새로운 세포주를 확립하는 데 사용된다. 일부 구현예에서, 세포는 불멸 또는 불멸화된 세포이다.
일부 구현예에서, 세포는 일차 세포이다. 일부 구현예에서, 세포는 전능성 줄기 세포(예를 들어, 전능성), 다능성 줄기 세포, 다능성 줄기 세포, 과소능성 줄기 세포, 또는 단능성 줄기 세포와 같은 줄기 세포이다. 일부 구현예에서, 세포는 유도된 다능성 줄기 세포(iPSC)이거나 iPSC로부터 유래된다. 일부 구현예에서, 세포는 분화된 세포이다. 예를 들어, 일부 구현예에서, 분화된 세포는 근육 세포(예를 들어, 근세포), 지방 세포(예를 들어, 지방세포(adipocyte)), 골 세포(예를 들어, 조골세포, 골세포, 파골세포), 혈액 세포(예를 들어, 단핵구, 림프구, 호중구, 호산구, 호염기구, 대식세포, 적혈구 또는 혈소판), 신경 세포(예를 들어, 뉴런), 상피 세포, 면역 세포(예를 들어, 림프구, 호중구, 단핵구, 또는 대식세포), 간 세포(예를 들어, 간세포(hepatocyte)), 섬유아세포, 또는 성세포이다. 일부 구현예에서, 세포는 말단 분화된 세포이다. 예를 들어, 일부 구현예에서, 말단 분화 세포는 신경 세포, 지방 세포, 심근 세포, 골격근 세포, 표피 세포 또는 장 세포이다. 일부 구현예에서, 세포는 포유류 세포, 예를 들어, 인간 세포 또는 뮤린 세포이다. 일부 구현예에서, 뮤린 세포는 야생형 마우스, 면역억제된 마우스, 또는 질병-특이적 마우스 모델로부터 유래된다.
유전자 드라이브
유전자 드라이브는 특정 유전자 또는 유전자 세트의 유전이 유리하게 편향되는 현상이다. 본원에 기재된 CRISPR 시스템은 유전자 드라이브를 구축하는 데 사용될 수 있다. 예를 들어, CRISPR 시스템은 유전자의 특정 대립유전자를 표적화하고 파괴하여 세포가 두 번째 대립유전자를 복제하여 서열을 고정시키도록 설계될 수 있다. 복제로 인해, 제1 대립유전자가 제2 대립유전자로 전환되어 제2 대립유전자가 자손에게 전파될 가능성이 증가할 것이다. 유전자 드라이브를 구축하기 위해 본원에 기재된 CRISPR 시스템을 어떻게 사용하는 지에 관한 상세한 방법은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Hammond et al., "A CRISPR-Cas9 gene drive system targeting female reproduction in the malaria mosquito vector Anopheles gambiae," Nat. Biotechnol., 2016 Jan; 34(1):78-83]에 기재되어 있다.
풀링-스크리닝
본원에 기재된 바와 같이, 풀링된 CRISPR 스크리닝은 세포 증식, 약물 내성, 및 바이러스 감염과 같은 생물학적 메커니즘에 관여하는 유전자를 동정하기 위한 강력한 도구이다. 세포는 본원에 기재된 RNA 가이드-인코딩 벡터의 라이브러리로 대량으로 형질도입되고, gRNA의 분포는 선택적 공격을 적용하기 전 및 후에 측정된다. 풀링된 CRISPR 스크린은 세포 생존 및 증식에 영향을 미치는 메커니즘에 대해 잘 작동하며, 이들은 개별 유전자의 활성을 측정하도록 확장될 수 있다(예를 들어, 조작된 리포터 세포주를 사용함으로써). 단지 하나의 유전자만 한 번에 표적화되는 배열된 CRISPR 스크린은 판독 값으로서 RNA-seq를 사용할 수 있게 한다. 일부 구현예에서, 본원에 기재된 바와 같은 CRISPR 시스템은 단일-세포 CRISPR 스크린에서 사용될 수 있다. 풀링된 CRISPR 스크리닝에 관한 상세한 설명은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Datlinger et al., "Pooled CRISPR screening with single-cell transcriptome read-out," Nat. Methods., 2017 Mar; 14(3):297-301]에서 찾아볼 수 있다.
포화 돌연변이유발("바싱(Bashing)")
본원에 기재된 CRISPR 시스템은 인 시튜 포화 돌연변이유발에 사용될 수 있다. 일부 구현예에서, 풀링된 RNA 가이드 라이브러리는 특정 유전자 또는 조절 요소에 대한 인 시튜 포화 돌연변이유발을 수행하는 데 사용될 수 있다. 이러한 방법은 이들 유전자 또는 조절 요소(예를 들어, 인핸서)의 중요한 최소 특징 및 별개의 취약성을 나타낼 수 있다. 이들 방법은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Canver et al., "BCL11A enhancer dissection by Cas9-mediated in situ saturating mutagenesis," Nature, 2015 Nov 12; 527(7577):192-7]에 기재되어 있다.
치료적 적용
일부 구현예에서, 본원에 기재된 CRISPR 시스템은 표적 핵산을 변형시키도록(예를 들어, 하나 이상의 아미노산 잔기를 삽입, 결실, 또는 돌연변이시킴으로써) 표적 핵산을 편집하는 데 사용될 수 있다. 예를 들어, 일부 구현예에서, 본원에 기재된 CRISPR 시스템은 바람직한 핵산 서열을 포함하는 외인성 도너 주형 핵산(예를 들어, DNA 분자 또는 RNA 분자)을 포함한다. 본원에 기재된 CRISPR 시스템으로 유도된 절단 사건의 해결 시, 세포의 분자 기구는 절단 사건을 수복 및/또는 해결하는 데 외인성 도너 주형 핵산을 이용할 수 있다. 대안적으로, 세포의 분자 기구는 절단 사건을 수복 및/또는 해결하는 데 내인성 주형을 이용할 수 있다. 일부 구현예에서, 본원에 기재된 CRISPR 시스템은 표적 핵산을 변형시켜 삽입, 결실, 및/또는 점 돌연변이를 야기하는 데 사용될 수 있다. 일부 구현예에서, 삽입은 흔적이 없는 삽입(즉, 절단 사건의 해결 시 추가적인 의도하지 않은 핵산 서열을 생성하지 않는 표적 핵산으로 의도된 핵산 서열의 삽입)이다. 도너 주형 핵산은 이중-가닥 또는 단일-가닥 핵산 분자(예를 들어, DNA 또는 RNA)일 수 있다. 외인성 도너 주형 핵산을 설계하는 방법은, 예를 들어, 전체 내용이 참조로 본원에 분명히 포함되는 WO 2016094874에 기재되어 있다.
또 다른 양태에서, 본 개시는 RNA 서열 특이적 간섭; RNA 서열-특이적 유전자 조절; RNA, RNA 산물, lncRNA, 비-코딩 RNA, 핵 RNA, 또는 mRNA의 스크리닝; 돌연변이유발; RNA 스플라이싱의 억제; 형광 인 시튜 혼성화; 번식; 세포 휴면 유도; 세포 주기 정지 유도; 세포 성장 및/또는 세포 증식의 감소; 세포 무반응 유도; 세포 아폽토시스 유도; 세포 괴사 유도; 세포 사멸 유도; 또는 세포 예정사의 유도로 이루어진 군으로부터 선택된 방법에서 본원에 기재된 시스템의 용도를 제공한다.
본원에 기재된 CRISPR 시스템은 다양한 치료적 적용을 가질 수 있다. 일부 구현예에서, 새로운 CRISPR 시스템은 다양한 질환 및 장애, 예를 들어, 유전적 장애(예를 들어, 단성생성 질환) 또는 뉴클레아제 활성에 의해 치료될 수 있는 질환(예를 들어, Pcsk9 표적화 또는 BCL11a 표적화)을 치료하는 데 사용될 수 있다. 일부 구현예에서, 본원에 기재된 방법은 대상체, 예를 들어, 인간 환자와 같은 포유류를 치료하는 데 사용된다. 포유류 대상체는 또한 개, 고양이, 말, 원숭이, 토끼, 래트, 마우스, 소, 염소 또는 양과 같은 가축일 수 있다.
방법은 감염성 병태 또는 질환을 포함할 수 있고, 여기서 감염제는 인간 면역결핍 바이러스(HIV), 단순 포진 바이러스-1(HSV1), 및 단순 포진 바이러스-2(HSV2)로 이루어진 군으로부터 선택된다.
일 양태에서, 본원에 기재된 CRISPR 시스템은 RNA, 독성 RNA 및/또는 돌연변이된 RNA의 과발현(예를 들어, 스플라이싱 결함 또는 절두)에 의해 초래된 질환을 치료하는 데 사용될 수 있다. 예를 들어, 독성 RNA의 발현은 핵 내포물의 형성 및 뇌, 심장, 또는 골격근의 후기 발병 퇴행성 변화와 관련이 있을 수 있다. 일부 구현예에서, 장애는 근이영양증이다. 근이영양증에서, 독성 RNA의 주요 병원성 효과는 결합 단백질을 격리하고 대체 스플라이싱의 조절을 손상시키는 것이다(예를 들어, 문헌[Osborne et al., "RNA-dominant diseases," Hum. Mol. Genet., 2009 Apr 15; 18(8):1471-81] 참조). 근이영양증(근긴장성 영양증(DM))은 매우 광범위한 임상적 특징을 생성하기 때문에 유전학자에게 특히 관심의 대상이 된다. 현재 1형 DM(DM1)으로 불리는 고전적인 형태의 DM은 세포질 단백질 키나제를 인코딩하는 유전자인 DMPK의 3'-비번역 영역(UTR)에서 CTG 반복부의 확장에 의해 초래된다. 본원에 기재된 바와 같은 CRISPR 시스템은 DM1 골격근, 심장 또는 뇌에서 과발현된 RNA 또는 독성 RNA, 예를 들어, DMPK 유전자 또는 임의의 잘못조절된 대체 스플라이싱을 표적화할 수 있다.
본원에 기재된 CRISPR 시스템은 또한, 예를 들어, 프라더 윌리 증후군(Prader Willi syndrome), 척추 근위축증(SMA), 및 선천성 각화증과 같은 다양한 질환을 유발하는 RNA-의존적 기능에 영향을 미치는 트랜스-작용 돌연변이를 표적화할 수 있다. 본원에 기재된 CRISPR 시스템을 사용하여 치료될 수 있는 질환의 목록은 각각 그 전체가 본원에 참조로 포함되는 문헌[Cooper et al., "RNA and disease," Cell, 136.4 (2009): 777-793], 및 WO 2016205764에 요약되어 있다.
본원에 기재된 CRISPR 시스템은 또한, 예를 들어, 일차 및 이차 타우병증, 예컨대, 일차 연령-관련 타우병증(PART)/신경섬유 엉킴증(NFT)-우세 노인성 치매(알츠하이머 병(AD)에서 보이지만 플라크는 없는 것들과 유사한 NFT가 있는), 권투선수 치매(만성 외상성 뇌병증), 및 진행성 핵상 마비를 포함하는 다양한 타우병증의 치료에 사용될 수 있다. 타우병증 및 이들 질환을 치료하는 방법의 유용한 목록은, 예를 들어, 그 전체가 본원에 참조로 포함되는 WO 2016205764에 기재되어 있다.
본원에 기재된 CRISPR 시스템은 또한 스플라이싱 결손 및 질환을 일으킬 수 있는 시스-작용 스플라이싱 코드를 파괴하는 돌연변이를 표적화하는 데 사용될 수 있다. 이들 질환은, 예를 들어, SMN1 유전자의 결실로부터 기인한 운동 뉴런 퇴행성 질환(예를 들어, 척수성 근위축증), 뒤센 근이영양증(DMD), 전두측두엽 치매, 17 번 염색체에 연결된 파킨슨병(FTDP-17), 및 낭포성 섬유증을 포함한다.
본원에 기재된 CRISPR 시스템은 추가로 특히 RNA 바이러스에 대항하는 항바이러스 활성을 위해 사용될 수 있다. 이펙터 단백질은 바이러스 RNA를 표적화하도록 선택된 적합한 RNA 가이드를 사용하여 바이러스 RNA 서열을 표적화할 수 있다.
또한, 시험관내 RNA 감지 분석은 특정 RNA 기질을 검출하는 데 사용될 수 있다. RNA 표적화 이펙터 단백질은 살아 있는 세포에서 RNA-기반 감지에 사용될 수 있다. 적용의 예는, 예를 들어, 질환-특이적 RNA를 감지하여 진단하는 것이다.
본원에 기재된 CRISPR 시스템의 치료 용도의 상세한 설명은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 US 8795965, EP 3009511, WO 2016205764, 및 WO 2017070605에서 찾아볼 수 있다.
식물에서의 적용
본원에 기재된 CRISPR 시스템은 식물에서 매우 다양한 유용성을 갖는다. 일부 구현예에서, CRISPR 시스템은 식물의 게놈을 조작하기 위해 사용될 수 있다(예를 들어, 생산 개선, 요망되는 번역후 변형을 갖는 제품 제조, 또는 산업적 제품 생산을 위한 유전자 도입). 일부 구현예에서, CRISPR 시스템은 식물에 요망되는 형질을 도입하거나(예를 들어, 게놈에 대해 유전적 변형을 갖거나 갖지 않는), 식물 세포 또는 전체 식물에서 내인성 유전자의 발현을 조절하는 데 사용될 수 있다.
일부 구현예에서, CRISPR 시스템은 특정 단백질, 예를 들어, 알레르겐 단백질(예를 들어, 땅콩, 대두, 편두, 완두, 녹두, 및 길두에서의 알레르겐 단백질)을 인코딩하는 유전자를 동정, 편집 및/또는 침묵시키기 위해 사용될 수 있다. 단백질을 인코딩하는 유전자를 동정, 편집 및/또는 침묵시키는 방법에 관한 상세한 설명은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 문헌[Nicolaou et al., "Molecular diagnosis of peanut and legume allergy," Curr. Opin. Allergy Clin. Immunol., 11(3):222-8 (2011)] 및 WO 2016205764에 기재되어 있다.
CRISPR 시스템의 전달
본 개시 및 당 분야의 지식을 통해, 본원에 기재된 CRISPR 시스템, 이의 구성 요소, 이의 핵산 분자, 또는 이의 구성 요소를 인코딩하거나 제공하는 핵산 분자는 벡터, 예를 들어, 플라스미드 또는 바이러스 전달 벡터와 같은 다양한 전달 시스템에 의해 전달될 수 있다. 본원에 개시된 CRISPR 이펙터 및/또는 임의의 RNA(예를 들어, RNA 가이드)는 적합한 벡터, 예를 들어, 플라스미드 또는 바이러스 벡터, 예컨대, 아데노-관련 바이러스(AAV), 렌티바이러스, 아데노바이러스, 및 기타 바이러스 벡터, 또는 이들의 조합을 이용하여 전달될 수 있다. 이펙터 및 하나 이상의 RNA 가이드는 하나 이상의 벡터, 예를 들어, 플라스미드 또는 바이러스 벡터로 패키징될 수 있다.
일부 구현예에서, 벡터, 예를 들어, 플라스미드 또는 바이러스 벡터는, 예를 들어, 근육내 주사, 정맥내 투여, 경피 투여, 비강내 투여, 경구 투여 또는 점막 투여에 의해 관심 조직으로 전달된다. 이러한 전달은 1 회 용량 또는 다중 용량을 통해 이루어질 수 있다. 당업자는 본원의 전달될 실제 투여량이 벡터 선택, 표적 세포, 유기체, 조직, 치료하고자 하는 대상체의 전반적인 상태, 추구되는 형질전환/변형의 정도, 투여 경로, 투여 방식, 및 추구되는 형질전환/변형의 유형을 포함하지만, 이로 제한되지 않는 다양한 인자들에 좌우하여 크게 달라질 수 있음을 이해한다.
특정의 구현예에서, 전달은 아데노바이러스를 통해 이루어지며, 이는 아데노바이러스의 적어도 1 × 105 개 입자(입자 단위, pu로도 지칭됨)를 함유하는 1 회 용량일 수 있다. 일부 구현예에서, 용량은 바람직하게는 아데노바이러스의 적어도 약 1 × 106 개 입자, 적어도 약 1 × 107 개 입자, 적어도 약 1 × 108 개 입자, 및 적어도 약 1 × 109 개 입자이다. 전달 방법 및 용량은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 WO 2016205764 및 US 8454972에 기재되어 있다.
일부 구현예에서, 전달은 플라스미드를 통해 이루어진다. 투여량은 반응을 유발하기에 충분한 수의 플라스미드일 수 있다. 일부 경우에, 플라스미드 조성물 중 플라스미드 DNA의 적합한 양은 약 0.1 mg 내지 약 2 mg일 수 있다. 플라스미드는 일반적으로 (i) 프로모터; (ii) 프로모터에 작동 가능하게 연결된 핵산-표적화 CRISPR 이펙터를 인코딩하는 서열; (iii) 선택 가능한 마커; (iv) 복제 기점; 및 (v) (ii)의 하류이며 또한 (ii)에 작동 가능하게 연결된 전사 종결자를 포함할 것이다. 플라스미드는 또한 CRISPR 복합체의 RNA 구성 요소를 인코딩할 수 있지만, 이들 중 하나 이상은 대신에 상이한 벡터에서 인코딩될 수 있다. 투여 빈도는 의학 또는 수의학 전문의(예를 들어, 의사, 수의사) 또는 당업자의 범위 내에 있다.
또 다른 구현예에서, 전달은 리포좀 또는 리포펙틴 제형 등을 통해 이루어지며, 당업자에게 공지된 방법에 의해 제조될 수 있다. 이러한 방법은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 WO 2016205764, US 5593972, US 5589466, 및 US 5580859에 기재되어 있다.
일부 구현예에서, 전달은 나노입자 또는 엑소좀을 통해 이루어진다. 예를 들어, 엑소좀은 전달 RNA에 특히 유용한 것으로 나타났다.
본원에 기재된 CRISPR 시스템의 하나 이상의 구성 요소를 세포에 도입하는 추가 수단은 세포-침투 펩티드(CPP)를 사용하는 것이다. 일부 구현예에서, 세포 침투 펩티드는 CRISPR 이펙터에 연결된다. 일부 구현예에서, CRISPR 이펙터 및/또는 RNA 가이드는 세포(예를 들어, 식물 원형질체)로의 수송을 위해 하나 이상의 CPP에 커플링된다. 일부 구현예에서, CRISPR 이펙터 및/또는 RNA 가이드(들)는 세포 전달을 위해 하나 이상의 CPP에 커플링된 하나 이상의 원형 또는 비-원형 DNA 분자에 의해 인코딩된다.
CPP는 수용체 독립적 방식으로 세포막을 가로 질러 생물분자를 수송할 수 있는 단백질로부터 또는 키메라 서열로부터 유래된 35 개 미만의 아미노산의 짧은 펩티드이다. CPP는 양이온성 펩티드, 소수성 서열을 갖는 펩티드, 양극성 펩타이드, 프롤린-풍부 및 항-미생물 서열을 갖는 펩티드, 및 키메라 또는 이분 펩티드일 수 있다. CPP의 예는, 예를 들어, Tat(1형 HIV에 의한 바이러스 복제에 필요한 핵 전사 활성자 단백질임), 페네트라틴, 카포시 섬유아세포 성장 인자(FGF) 신호 펩티드 서열, 인테그린 β3 신호 펩티드 서열, 폴리알기닌 펩티드 Arg 서열, 구아닌 풍부-분자 수송체, 및 스윗 애로우 펩티드(sweet arrow peptide)를 포함한다. CPP 및 이들을 사용하는 방법은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 문헌[Hllbrink et al., "Prediction of cell-penetrating peptides," Methods Mol. Biol., 2015; 1324:39-58; Ramakrishna et al., "Gene disruption by cell-penetrating peptide-mediated delivery of Cas9 protein and guide RNA," Genome Res., 2014 Jun;24(6):1020-7]; 및 WO 2016205764에 기재되어 있다.
본원에 기재된 CRISPR 시스템에 대한 다양한 전달 방법은 또한, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 US 8795965, EP 3009511, WO 2016205764, 및 WO 2017070605에 기재되어 있다.
실시예
본 발명은 하기 실시예에서 추가로 기술되며, 하기 실시예는 청구항에 기재된 발명의 범위를 제한하지 않는다.
실시예 1 - CLUST.091979 CRISPR-Cas 시스템의 구성 요소 동정
이러한 단백질 패밀리를 상술된 계산 방법을 사용하여 동정하였다. CLUST.091979 시스템은 장, 소의 장, 인간의 장, 양의 장, 지상, 분변 및 포유류의 소화계 환경에 국한되지 않는 환경으로부터 수집된 비배양 메타게놈 서열에서 발견되는 CRISPR 시스템과 관련된 단일 이펙터를 포함한다(표 5). 예시적인 CLUST.091979 이펙터는 하기 표 5 및 표 6에 나타낸 것들을 포함한다. SEQ ID NO: 1 내지 4, 14, 15, 17 내지 19, 21 내지 25, 27 내지 33, 35 내지 49, 51 내지 56에 기재된 이펙터 서열을 도 1a 내지 도 1l에 나타낸 바와 같이 서열 유사성의 영역을 동정하도록 정렬하였다. 막대 그래프는 서열 유사성을 도시한 것이고, 가장 큰 막대는 가장 높은 유사성을 갖는 잔류물을 나타낸다. 서열 유사성의 비-제한적 영역은 표 7에 나타나 있다. 서열 유사성의 영역은 본원에 개시된 이펙터가 뉴클레아제를 나타내는 보존된 C-말단 RuvC 도메인이 있는 패밀리라는 것을 지시한다.
[표 51] 대표적인 CLUST.091979 이펙터 단백질
[표 62] 대표적인 CLUST.091979 이펙터 단백질의 아미노산 서열
[표 73] CLUST.091979 이펙터의 보존된 서열.
이들 시스템에 대한 직접 반복부 서열 및 스페이서 길이의 예는 표 8에 나타나 있다.
[표 84] 대표적인 CLUST.091979 직접 반복부의 뉴클레오티드 서열 및 스페이서 길이
실시예 2 - 전사활성화 RNA 요소의 동정
이펙터 단백질 및 crRNA 이외에, 본원에 기재된 일부 CRISPR 시스템은 또한 전사활성화 RNA(tracrRNA)로 지칭되는 강력한 효소 활성을 활성화하는 추가의 소형 RNA를 포함할 수 있다. 이러한 tracrRNA는 전형적으로 crRNA에 혼성화하는 상보적 영역을 포함한다. crRNA-tracrRNA 혼성체는 이펙터와 함께 복합체를 형성하여 프로그래밍 가능한 효소 활성을 활성화시킨다.
●
tracrRNA 서열은 crRNA의 직접 반복부 부분과 상동성인 짧은 서열 모티프에 대해 CRISPR 어레이에 측접한 게놈 서열을 검색함으로써 동정될 수 있다. 검색 방법은 완전 직접 반복부(DR) 또는 DR 서브서열에 대한 정확한 또는 수정된 서열 매칭을 포함한다. 예를 들어, n 개 뉴클레오티드 길이의 DR은 중첩되는 일련의 6 nt kmer 내지 10 nt kmer로 분해될 수 있다. 이들 kmer는 CRISPR 유전자좌에 측접한 서열에 정렬될 수 있으며, 1 kmer 이상의 정렬을 갖는 상동성 영역은 tracrRNA로서 실험적 검증을 위한 DR 상동성 영역으로 동정될 수 있다. 대안적으로, RNA 코폴드 자유 에너지는 CRISPR 시스템의 요소에 측접한 게놈 서열로부터 짧은 kmer 서열 및 완전 DR 또는 DR 서브서열에 대해 계산될 수 있다. 낮은 최소 자유 에너지 구조를 갖는 측접 서열 요소는 tracrRNA로서 실험적 검증을 위한 DR 상동성 영역으로 동정될 수 있다.
●
tracrRNA 요소는 종종 CRISPR 관련 유전자 또는 CRISPR 어레이에 매우 근접하여 발생한다. tracrRNA 요소를 동정하기 위해 DR 상동성 영역을 검색하는 것에 대한 대안으로서, tracrRNA의 직접적인 실험적 검증을 위해 클로닝 또는 유전자 합성에 의해 CRISPR 이펙터 또는 CRISPR 어레이에 측접한 비-코딩 서열이 단리될 수 있다.
●
tracrRNA 요소의 실험적 검증은 CRISPR 시스템에 대한 숙주 유기체의 작은 RNA 시퀀싱 또는 비-천연 종에서 이종으로 발현된 합성 서열을 사용하여 수행될 수 있다. 기원한 게놈 유전자좌로부터의 작은 RNA 서열의 정렬은 완전 tracrRNA 요소에 전형적인 DR 상동성 영역 및 스테로타이핑된 가공을 함유하는 발현된 RNA 산물을 동정하는 데 사용될 수 있다.
●
RNA 시퀀싱에 의해 동정된 완전 tracrRNA 후보는 tracrRNA 후보와 조합하여 또는 tracrRNA 후보 없이 crRNA 및 이펙터를 발현하고 이펙터 효소 활성의 활성화를 모니터링함으로써 시험관내 또는 생체내에서 검증될 수 있다.
●
조작된 작제물에서, tracrRNA의 발현은 포유류 세포에서의 발현을 위한 U6, U1, 및 H1 프로모터 또는 박테리아에서의 발현을 위한 J23119 프로모터를 포함하지만 이로 제한되지 않는 프로모터에 의해 유발될 수 있다.
●
일부 예에서, tracrRNA는 crRNA와 융합되고 단일 RNA 가이드로서 발현될 수 있다.
●
시스템은 표 9에 열거된 비-코딩 서열 내에 함유된 tracrRNA를 포함할 수 있다. 예를 들어, 일부 구현예에서, 시스템은 SEQ ID NO: 152 내지 204 중 어느 하나에 기재된 tracrRNA를 포함한다.
[표 95] 대표적인 CLUST.091979 시스템의 비-코딩 서열
실시예 3 - 효소 활성의 신규한 RNA 조절자의 동정
이펙터 단백질 및 crRNA 이외에, 본원에 기재된 일부 CRISPR 시스템은 또한 본원에서 RNA 조절자로 지칭되는 이펙터 활성을 활성화시키거나 조절하는 추가의 소형 RNA를 포함할 수 있다.
●
RNA 조절자는 CRISPR-연관 유전자 또는 CRISPR 어레이에 매우 근접하여 발생할 것으로 예상된다. RNA 조절자를 동정하거나 검증하기 위해, CRISPR 이펙터 또는 CRISPR 어레이에 측접한 비-코딩 서열은 직접적인 실험적 검증을 위해 클로닝 또는 유전자 합성에 의해 단리될 수 있다.
●
RNA 조절자의 실험적 검증은 CRISPR 시스템에 대한 숙주 유기체의 작은 RNA 시퀀싱 또는 비-천연 종에서 이종으로 발현된 합성 서열을 사용하여 수행될 수 있다. 기원한 게놈 유전자좌로의 작은 RNA 서열의 정렬은 DR 상동성 영역 및 스테로타이핑된 가공을 함유하는 발현된 RNA 산물을 동정하는 데 사용될 수 있다.
●
RNA 시퀀싱에 의해 동정된 후보 RNA 조절자는 후보 RNA 조절자와 조합하여 또는 RNA 조절자 없이 crRNA 및 이펙터를 발현하고 이펙터 효소 활성의 변경을 모니터링함으로써 시험관내 또는 생체내에서 검증될 수 있다.
●
조작된 작제물에서, RNA 조절자는 포유류 세포에서의 발현을 위한 U6, U1, 및 H1 프로모터, 또는 박테리아에서의 발현을 위한 J23119 프로모터를 포함하는 프로모터에 의해 유발될 수 있다.
●
일부 예에서, RNA 조절자는 crRNA, tracrRNA, 또는 이 둘 모두와 인공적으로 융합되고 단일 RNA 요소로서 발현될 수 있다.
실시예 4 - 조작된 CLUST.091979 CRISPR-Cas 시스템의 기능 검증
CLUST.091979 CRISPR-Cas 시스템의 구성 요소를 동정한 후, AUXO013988882(SEQ ID NO: 1)로 명명된 메타게놈 소스로부터 및 SRR3181151(SEQ ID NO: 4)로 명명된 메타게놈 소스로부터의 유전자좌를 기능 검증을 위해 선택하였다.
DNA 합성 및 이펙터 라이브러리 클로닝
예시적인 CLUST.091979 CRISPR-Cas 시스템의 활성을 시험하기 위해, pET28a(+) 벡터를 사용하여 시스템을 설계하고 합성하였다. 간략히, CLUST.091979 AUXO013988882 이펙터를 인코딩하는 이. 콜라이 코돈-최적화된 핵산 서열(표 6에 나타낸 SEQ ID NO: 1) 및 CLUST.091979 SRR3181151 이펙터를 인코딩하는 이. 콜라이 코돈-최적화된 핵산 서열(표 6에 나타낸 SEQ ID NO: 4)을 합성하고(Genscript), pET-28a(+) (EMD-Millipore)로부터 유래된 커스텀 발현 시스템으로 개별적으로 클로닝하였다. 벡터는 lac 프로모터 및 이. 콜라이 리보솜 결합 서열의 제어 하에 CLUST.091979 이펙터를 인코딩하는 핵산을 포함하였다. 벡터는 또한 CLUST.091979 이펙터에 대한 개방형 해독 틀에 따라 J23119 프로모터에 의해 유발되는 CRISPR 어레이 라이브러리에 대한 억셉터 부위를 포함하였다. CLUST.091979 AUXO013988882 이펙터에 사용된 비-코딩 서열(SEQ ID NO: 1)은 SEQ ID NO: 98에 기재되고, CLUST.091979 SRR3181151 이펙터에 사용된 비-코딩 서열(SEQ ID NO: 4)은 표 9에 나타낸 바와 같이 SEQ ID NO: 99에 기재된다. CLUST.091979 이펙터를 비-코딩 서열 없이 개별적으로 pET28a(+)에 클로닝한 추가 조건을 시험하였다. 도 4a를 참조한다.
"반복부-스페이서-반복부" 서열을 함유하는 올리고뉴클레오티드 라이브러리 합성(OLS) 풀을 계산적으로 설계하였고, 여기서 "반복부"는 이펙터와 관련된 CRISPR 어레이에서 확인되는 콘센서스 직접 반복부 서열을 나타내고, "스페이서"는 pACYC184 플라스미드 또는 이. 콜라이 필수 유전자를 타일링(tiling)하는 서열을 나타낸다. 특히, 표 8에 나타낸 바와 같이, CLUST.091979 AUXO013988882 이펙터에 사용된 반복부 서열(SEQ ID NO: 1)은 SEQ ID NO: 57에 기재되고, CLUST.091979 SRR3181151 이펙터에 사용된 반복부 서열(SEQ ID NO: 4)은 SEQ ID NO: 60에 기재된다. 스페이서 길이는 내인성 CRISPR 어레이에서 확인되는 스페이서 길이의 모드에 의해 결정되었다. 반복부-스페이서-반복부 서열은 상기 언급된 CRISPR 어레이 라이브러리 억셉터 부위로 단편의 양방향 클로닝을 가능하게 하는 제한 부위, 뿐만 아니라 더 큰 풀로부터 특정 반복부-스페이서-반복부 라이브러리의 특정 증폭을 가능하게 하는 고유한 PCR 프라이밍 부위가 추가되었다.
다음으로, 반복부-스페이서-반복부 라이브러리를 Golden Gate 조립법을 사용하여 플라스미드로 클로닝하였다. 간략히, 각각의 반복부-스페이서-반복부를 고유한 PCR 프라이머를 사용하여 OLS 풀(Agilent Genomics)로부터 먼저 증폭시키고, 잠재적인 배경을 감소시키기 위해 BsaI를 사용하여 플라스미드 백본을 예비-선형화시켰다. 둘 모두의 DNA 단편을 골든 게이트 어셈블리 마스터 믹스(New England Biolabs)에 첨가하기 전에 Ampure XP(Beckman Coulter)로 정제하고, 제조업체의 지침에 따라 인큐베이션하였다. 골든 게이트 반응을 박테리아 스크린의 후속 단계에서 최대 형질전환 효율을 가능하게 하기 위해 추가로 정제하고 농축시켰다.
별개의 반복부-스페이서-반복부 요소 및 CRISPR 이펙터를 함유하는 플라스미드 라이브러리를 Lucigen에서 권장하는 프로토콜에 따라 Gene Pulser Xcell®(Bio-rad)을 사용하여 이. 클로니 전기적격 이. 콜라이(Lucigen)로 전기천공하였다. 라이브러리를 정제된 pACYC184 플라스미드로 공동-형질전환시키거나 pACYC184-함유 이. 클로니 전기적격 이. 콜라이(Lucigen)로 바로 형질전환시키고, BioAssay® 디쉬(Thermo Fisher)에 클로람페니콜(Fisher), 테트라사이클린(Alfa Aesar) 및 카나마이신(Alfa Aesar)을 함유한 한천 상에 플레이팅하고, 37℃에서 10 시간 내지 12 시간 동안 인큐베이션하였다. 박테리아 플레이트에서 충분한 라이브러리 표현을 보장하기 위해 대략적인 콜로니 수를 추정한 후, 박테리아를 수확하고, "출력 라이브러리"를 생성하기 위해 QIAprep Spin Miniprep® 키트(Qiagen)를 사용하여 플라스미드 DNA WAS를 추출하였다. Illumina 시퀀싱 화학과 상용성인 바코드 및 부위를 함유하는 맞춤형 프라이머를 사용하여 PCR을 수행함으로써, 바코드화된 차세대 시퀀싱 라이브러리를 형질전환 전 "입력 라이브러리"와 수확 후 "출력 라이브러리" 둘 모두에서 생성한 다음, 풀링하고, Nextseq 550(Illumina) 상에 로딩하여 이펙터를 평가하였다. 일관성을 보장하기 위해 각 스크린에 대해 적어도 2 회의 독립적인 생물학적 복제를 수행하였다. 도 4b를 참조한다.
박테리아 스크린 시퀀싱 분석
스크린 입력 및 출력 라이브러리에 대한 차세대 시퀀싱 데이터를 Illumina bcl2fastq를 사용하여 역다중화시켰다. 스크리닝 플라스미드 라이브러리에 대한 CRISPR 어레이 요소를 함유한 각 샘플에 대하여 생성된 fastq 파일을 판독하였다. CRISPR 어레이의 직접 반복부 서열을 사용하여 어레이 방향을 결정하고, 스페이서 서열을 소스(pACYC184 또는 이. 클로니) 또는 음성 대조군 서열(GFP)에 맵핑하여 상응하는 표적을 결정하였다. 각 샘플에 대해, 주어진 플라스미드 라이브러리에서 각각의 고유한 어레이 요소(ra)에 대한 총 판독수를 계산하고, 다음과 같이 정규화하였다: (ra+1)/모든 라이브러리 어레이 요소에 대한 총 판독 수. 주어진 어레이 요소에 대한 정규화된 출력 판독치를 정규화된 입력 판독치로 나눔으로써 고갈 점수를 계산하였다.
효소 활성 및 박테리아 세포 사멸을 야기하는 특정 매개변수를 확인하기 위해, 차세대 시퀀싱(NGS)을 사용하여 입력 및 출력 플라스미드 라이브러리의 PCR 산물에서 개별 CRISPR 어레이(즉, 반복부-스페이서-반복부)의 표현을 정량화하고 비교하였다. 정규화된 출력 판독치를 정규화된 입력 판독치로 나눈 값으로 어레이 고갈 비율을 규정하였다. 고갈 비율이 0.3 미만인 경우 어레이는 "강하게 고갈된"것으로 간주되며(3 배가 넘는 고갈), 이는 도 5 및 도 8에서 점선으로 표시되어 있다. 생물학적 복제물에 걸친 어레이 고갈 비율을 계산할 때, 모든 실험에 걸쳐 주어진 CRISPR 어레이에 대한 최대 고갈 비율 값을 얻었다(즉, 강하게 고갈된 어레이는 모든 생물학적 복제물에서 강하게 고갈되어야 함). 어레이 고갈 비율을 포함하는 매트릭스 및 다음 특징을 각 스페이서 표적에 대해 생성하였다: 표적 가닥, 전사체 표적화, ORI 표적화, 표적 서열 모티프, 측접 서열 모티프, 및 표적 이차 구조. 이러한 매트릭스의 상이한 특징이 CLUST.091979 시스템에 대한 표적 고갈을 설명한 정도를 조사하였다.
도 5 및 도 8은 주어진 표적에 대해, 스크린 입력 대비 스크린 출력에서 시퀀싱 판독치의 정규화된 비율을 플롯팅함으로써, 비-코딩 서열을 갖는 조작된 CLUST.091979 조성물의 간섭 활성도를 나타낸 것이다. 결과는 각 DR 전사 방향에 대해 플롯팅된 것이다. 상기 조성물에 대한 기능적 스크리닝에서, 활성 RNA 가이드와 복합된 활성 이펙터는 클로람페니콜 및 테트라사이클린에 대한 이. 콜라이 내성을 부여하는 pACYC184의 능력을 방해하여 풀 내에서 스페이서 요소 고갈 및 세포 사멸을 초래할 것이다. 살아 있는 형질전환된 이. 콜라이(스크린 출력) 대비 초기 DNA 라이브러리(스크린 입력)을 딥 시퀀싱한 결과의 비교는 활성의 프로그래밍 가능한 CRISPR 시스템을 가능하게 하는 특정 표적 서열 및 DR 전사 방향을 시사한다. 스크린은 또한 이펙터 복합체가 DR의 한 방향에서만 활성이라는 것을 지시한다. 따라서, 스크린은 CLUST.091979 AUXO013988882 이펙터가 DR의 "정" 방향(5'-ACTA…AACT-[스페이서]-3')으로 활성이었고(도 5), CLUST.091979 SRR3181151 이펙터가 DR의 "역" 방향(5'-CCTG…CAAC-[스페이서]-3')에서 활성이었다(도 8)는 것을 지시하였다.
도 6a 및 도 6b는 각각 pACYC184 및 이. 콜라이 이. 클로니 필수 유전자를 표적화하는 CLUST.091979 AUXO013988882 이펙터(비-코딩 서열과 함께)에 대한 강하게 고갈된 표적의 위치를 도시한 것이다. 마찬가지로, 도 9a 및 도 9b는 각각 pACYC184 및 이. 콜라이 이. 클로니 필수 유전자를 표적화하는 CLUST.091979 SRR3181151 이펙터에 대한 강하게 고갈된 표적의 위치를 도시한 것이다. 고갈된 표적의 측접 서열을 분석하여 CLUST.091979 AUXO013988882 및 CLUST.091979 SRR3181151에 대한 PAM 서열을 결정하였다. CLUST.091979 AUXO013988882 및 CLUST.091979 SRR3181151에 대한 PAM 서열의 WebLogo 표현(Crooks et al., Genome Research 14: 1188-90, 2004)은 각각 도 7 및 도 10에 나타나 있으며, 여기서 "20" 위치는 표적의 5' 말단에 인접한 뉴클레오티드에 상응한다.
따라서, CLUST.091979 CRISPR-Cas의 다중 이펙터는 생체내 활성을 나타낸다.
실시예 5 - CLUST.091979에 의한 포유류 유전자의 표적화
본 실시예는 일시적 형질감염에 의해 포유류 세포에 도입된 CLUST.091979로부터의 뉴클레아제를 사용한 다중 표적에 대한 인델 평가를 기술한 것이다.
SEQ ID NO: 4 및 SEQ ID NO: 10의 이펙터를 pcda3.1 백본(Invitrogen)에 클로닝하였다. 플라스미드를 이후 맥시-프렙핑하고, 1 μg/μL로 희석하였다. RNA 가이드 제조를 위해, crRNA를 인코딩하는 dsDNA 단편을 표적 서열 스캐폴드를 함유하는 울트라머, 및 U6 프로모터에 의해 유발하였다. 울트라머를 7.5의 pH에서 100 μM의 최종 스톡 농도로 10 mM Tris·HCl에 재현탁시켰다. 이후 작업 스톡을 다시 10 mM Tris·HCl을 사용함으로써 10 μM로 희석하여 PCR 반응을 위한 주형으로 사용하였다. crRNA의 증폭을 다음 성분들을 사용하여 50 μL 반응으로 수행하였다: 0.02 μl의 상기 언급된 주형, 2.5 μl의 정방향 프라이머, 2.5 μl의 역방향 프라이머, 25 μL의 NEB HiFi 중합 효소, 및 20 μl의 물. 사이클링 조건은 다음과 같았다: 1 × (98℃에서 30s), 30 × (98℃에서 10s, 67℃에서 15s), 1 × (72℃에서 2min). PCR 산물을 1.8X SPRI 처리로 세정하고, 25 ng/μL로 정규화하였다. 제조된 crRNA 서열 및 이들의 상응하는 표적 서열은 표 10에 나타나 있다. SEQ ID NO: 205, SEQ ID NO: 207, SEQ ID NO: 252, SEQ ID NO: 254, SEQ ID NO: 256, SEQ ID NO: 258, SEQ ID NO: 260, SEQ ID NO: 262, SEQ ID NO: 264, SEQ ID NO: 266, SEQ ID NO: 268, SEQ ID NO: 270, SEQ ID NO: 272, SEQ ID NO: 274, 및 SEQ ID NO: 276의 성숙 crRNA의 직접 반복부 서열은 SEQ ID NO: 60에 기재된다. SEQ ID NO: 209 및 SEQ ID NO: 214의 성숙 crRNA의 직접 반복부는 SEQ ID NO: 62에 기재된다. SEQ ID NO: 211, SEQ ID NO: 278, SEQ ID NO: 280, SEQ ID NO: 282, SEQ ID NO: 284, SEQ ID NO: 286, 및 SEQ ID NO: 288의 성숙 crRNA의 직접 반복부는 SEQ ID NO: 213에 기재된다.
[표 10]
일시적 형질감염 검정에 대한 RNA 가이드 및 표적 서열.
형질감염 약 16 시간 전에, DMEM/10% FBS+Pen/Strep 중 100 μl의 25,000 개 HEK293T 세포를 96-웰 플레이트의 각 웰에 플레이팅하였다. 형질감염 당일, 세포는 70% 내지 90% 융합성이었다. 형질감염될 각 웰에 대해, 0.5 μl의 리포펙타민 2000 및 9.5 μl의 Opti-MEM의 혼합물을 제조한 다음 실온에서 5 분 내지 20 분 동안 인큐베이션하였다(용액 1). 인큐베이션 후, 리포펙타민:OptiMEM 혼합물을 182 ng의 이펙터 플라스미드 및 14 ng의 crRNA 및 최대 10 μL의 물을 함유하는 별개의 혼합물에 첨가하였다(용액 2). 음성 대조군의 경우, crRNA는 용액 2에 포함되지 않았다. 용액 1 및 용액 2 혼합물을 위아래로 피펫팅하여 혼합한 다음 실온에서 25 분 동안 인큐베이션하였다. 인큐베이션 후, 20 μL의 용액 1 및 용액 2 혼합물을 세포를 함유하는 96 웰 플레이트의 각 웰에 적가하였다. 형질감염 72 시간 후, 세포를 각 웰의 중앙에 10 μL의 TrypLE을 첨가하여 트립신화하고, 약 5 분 동안 인큐베이션하였다. 다음으로, 100 μL의 D10 배지를 각 웰에 첨가하고, 혼합하여 세포를 재현탁시켰다. 그 후에, 세포를 500 g에서 10 분 동안 회전시키고, 상청액을 폐기하였다. QuickExtract 완충액을 본래의 세포 현탁액 부피의 1/5 양으로 첨가하였다. 세포를 65℃에서 15 분, 68℃에서 15 분, 및 98℃에서 10 분 동안 인큐베이션하였다.
차세대 시퀀싱을 위한 샘플을 2 라운드의 PCR에 의해 제조하였다. 제1 라운드(PCR1)를 사용하여 표적에 좌우하여 특정 게놈 영역을 증폭시켰다. PCR1 산물을 컬럼 정제에 의해 정제하였다. Illumina 어댑터 및 인덱스를 추가하기 위해 라운드 2 PCR(PCR2)을 수행하였다. 그 후에, 반응을 풀링하고, 컬럼 정제에 의해 정제하였다. 150 사이클 NextSeq v2.5 중 또는 고 출력 키트로 시퀀싱 실행을 수행하였다.
도 11a, 도 11b, 도 11c, 및 도 11d는 각각 SEQ ID NO: 4 또는 SEQ ID NO: 10의 이펙터로 형질감염 후 HEK293T 세포에서 AAVS1, VEGFA, 및 EMX1 표적 유전자좌 중 인델 퍼센트를 나타낸다. 막대는 2 개의 생물복제물에서 측정된 평균 인델 퍼센트를 반영한다. SEQ ID NO: 4 및 SEQ ID NO: 10의 이펙터에 대해, 인델 퍼센트는 각각의 표적에서 음성 대조군의 인델 퍼센트보다 높았다.
도 11a에 도시된 바와 같이, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 205의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 206의 AAVS1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 207의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 208의 VEGFA 표적에서 활성이었다. 도 11b에 도시된 바와 같이, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 252의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 253의 AAVS1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 254의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 255의 AAVS1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 256의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 257의 AAVS1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 258의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 259의 AAVS1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 274의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 275의 AAVS1 표적에서 활성이었다. 또한, 도 11b에 나타낸 바와 같이, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 260의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 261의 EMX1 표적에서 활성이었다. 또한, 도 11b에 나타낸 바와 같이, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 262의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 263의 VEGFA1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 264의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 265의 VEGFA1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 266의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 267의 VEGFA1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 268의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 269의 VEGFA1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 270의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 271의 VEGFA1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 272의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 273의 VEGFA1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 274의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 275의 VEGFA1 표적에서 활성이었다. SEQ ID NO: 4의 이펙터는 도 11a 및 도 11b에서 각 표적에 대하여 5'-TTTG-3' PAM을 사용하였다.
도 11c에 나타낸 바와 같이, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 209의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 210의 AAVS1 표적에서 활성이고, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 211의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 212의 AAVS1 표적에서 활성이고, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 214의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 215의 VEGFA 표적에서 활성이었다. 도 11d에 나타낸 바와 같이, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 278의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 279의 AAVS1 표적에서 활성이고, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 280의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 281의 AAVS1 표적에서 활성이고, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 284의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 285의 AAVS1 표적에서 활성이고, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 286의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 287의 AAVS1 표적에서 활성이었다. 또한, 도 11d에 나타낸 바와 같이, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 288의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 289의 EMX1 표적에서 활성이고, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 282의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 283의 VEGFA 표적에서 활성이었다. SEQ ID NO: 10의 이펙터는 도 11c 및 도 11d에서 표적에 대하여 5'-ATTG-3' PAM 및 5'-GTTA-3' PAM을 사용하였다.
본 실시예는 CLUST.091979 패밀리에서 뉴클레아제가 포유류 세포에서 활성을 갖는다는 것을 시사한다.
기타 구현예
본 발명은 발명의 상세한 설명과 함께 기술되었지만, 상기 설명은 본 발명을 예시하려고 의도된 것이고 본 발명의 범위를 제한하려고 의도된 것이 아니며, 본 발명의 범위는 첨부된 청구항의 범위에 의해 규정된다는 것을 이해해야 한다. 기타 양태, 이점, 및 변형은 하기 청구항의 범위 내에 있다.
SEQUENCE LISTING
<110> ARBOR BIOTECHNOLOGIES, INC.
<120> NOVEL CRISPR DNA TARGETING ENZYMES AND SYSTEMS
<130> A2186-7028WO
<140>
<141>
<150> 62/897,859
<151> 2019-09-09
<160> 290
<170> PatentIn version 3.5
<210> 1
<211> 775
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
gut metagenome sequence
<400> 1
Met Gly Asn Thr Thr Lys Lys Gly Asn Leu Thr Lys Thr Tyr Leu Phe
1 5 10 15
Lys Ala Asn Leu Ser Glu Gln Asp Phe Lys Leu Trp Arg Ser Ile Val
20 25 30
Glu Glu Tyr Gln Arg Tyr Lys Glu Val Leu Ser Lys Trp Val Cys Asp
35 40 45
His Leu Thr Thr Met Lys Ile Gly Asp Ile Leu Pro Tyr Ile Asp Arg
50 55 60
Tyr Ser Lys Lys Ile Asp Asn Lys Thr Gly Glu Tyr Pro Glu Asn Thr
65 70 75 80
Tyr Tyr Ser Leu Cys Glu Glu His Lys Asp Glu Pro Leu Tyr Lys Ile
85 90 95
Phe Gln Phe Asp Ser Asn Cys Arg Asn Asn Ala Leu Tyr Glu Val Ile
100 105 110
Arg Lys Ile Asn Cys Asp Leu Tyr Thr Gly Asn Ile Leu Asn Leu Gly
115 120 125
Glu Thr Tyr Tyr Arg Arg Asn Gly Phe Val Lys Arg Val Leu Ala Asn
130 135 140
Tyr Ala Thr Lys Ile Ser Gly Met Lys Pro Ser Val Arg Lys Arg Lys
145 150 155 160
Val Thr Ser Asp Ser Thr Glu Glu Glu Ile Arg Asn Gln Val Val Tyr
165 170 175
Glu Ile Phe Asn Asn Asn Ile Lys Asn Glu Lys Asp Phe Lys Gly Val
180 185 190
Leu Glu Tyr Ala Glu Ser Lys Cys Lys Thr Asn Glu Ala Tyr Val Glu
195 200 205
Arg Ile Arg Leu Leu Tyr Asp Phe Tyr Ile Lys His Thr Asp Glu Ile
210 215 220
Lys Glu Tyr Val Glu Tyr Ile Cys Val Glu Gln Leu Lys Glu Phe Cys
225 230 235 240
Gly Val Lys Val Asn Arg Ser Lys Ser Ser Met Asn Ile Asn Ile Gln
245 250 255
Asn Phe Ser Ile Thr Arg Val Asp Gly Lys Cys Thr Tyr Ile Leu His
260 265 270
Leu Pro Ile Gly Lys Lys Val Tyr Asp Ile Lys Leu Trp Gly Asn Arg
275 280 285
Gln Val Val Leu Asn Val Asp Gly Thr Pro Val Asp Ile Ile Asp Ile
290 295 300
Ile Asn Arg His Gly Glu Ser Ile Asp Ile Ile Phe Lys Asn Gly Asp
305 310 315 320
Ile Tyr Phe Ser Phe Val Val Ser Glu Asp Phe Lys Lys Asp Asp Phe
325 330 335
Glu Ile Gly Asn Val Val Gly Val Asp Val Asn Thr Lys His Met Leu
340 345 350
Ile Gln Thr Asn Ile Val Asp Asn Gly Asn Val Asp Gly Phe Phe Asn
355 360 365
Ile Tyr Lys Glu Leu Val Asn Asp Lys Glu Phe Ser Glu Cys Val Ser
370 375 380
Lys Glu Asp Leu Glu Leu Phe Lys Glu Leu Ser Lys Tyr Val Ser Phe
385 390 395 400
Cys Pro Ile Glu Cys Gln Phe Leu Phe Thr Arg Tyr Ala Glu Gln Lys
405 410 415
Gly Ile Leu Val Tyr Glu Lys Leu Arg Leu Ala Glu Lys Ile Leu Thr
420 425 430
Ser Val Leu Asp Arg Ser Phe Glu Lys Tyr Asn Gly Ile Asp Cys Asn
435 440 445
Ile Ala Asn Tyr Ile Ser Asn Val Arg Met Leu Arg Ser Lys Cys Lys
450 455 460
Ser Tyr Phe Thr Leu Lys Met Lys Tyr Lys Glu Leu Gln His Lys Tyr
465 470 475 480
Asp Asn Glu Met Gly Tyr Val Asp Thr Phe Ser Asp Ser Cys Val Glu
485 490 495
Met Asp Ser Arg Arg Lys Glu Asn Pro Phe Val Gln Thr Asn Glu Ala
500 505 510
Met Glu Leu Ile Gly Lys Met Glu Ser Val Ala Gln Asp Ile Ile Gly
515 520 525
Cys Arg Asp Asn Ile Ile Thr Tyr Ala Tyr Asn Val Phe Arg Arg Asn
530 535 540
Gly Tyr Asp Thr Val Gly Leu Glu Asn Leu Glu Ser Ser Gln Phe Glu
545 550 555 560
Arg Phe Ser Ser Val Arg Ser Pro Lys Ser Leu Leu Asn Tyr His His
565 570 575
Leu Lys Gly Lys His Ile Asp Phe Ile Asp Ser Asp Glu Cys Ser Val
580 585 590
Lys Val Asn Lys Asp Leu Tyr Asn Phe Thr Leu Glu Asp Asp Gly Thr
595 600 605
Ile Ser Asp Ile Thr Leu Ser Asp Lys Gly Lys Tyr Arg Asn Asp Leu
610 615 620
Ser Met Phe Tyr Asn Gln Ile Ile Lys Thr Ile His Phe Ala Asp Ile
625 630 635 640
Lys Asp Lys Phe Ile Gln Leu Gly Asn Asn Gly Asn Val Gln Thr Val
645 650 655
Leu Val Pro Ser Tyr Phe Thr Ser Gln Met Asn Ser Lys Thr His Lys
660 665 670
Ile Tyr Val Val Asn Val Lys Asn Glu Arg Thr Gly Lys Thr Glu Gln
675 680 685
Lys Leu Ala Asn Lys Asn Met Val Arg Leu Gly Gln Glu Arg His Ile
690 695 700
Asn Gly Leu Asn Ala Asp Val Asn Ala Ser Met Asn Ile Ala Tyr Ile
705 710 715 720
Val Glu Asn Lys Glu Met Arg Asn Ala Met Cys Thr Asn Pro Lys Ser
725 730 735
Glu Thr Gly Tyr Ser Val Pro Phe Leu Thr Ser Arg Ile Lys Lys Gln
740 745 750
Asn Ile Met Val Val Glu Leu Lys Lys Met Gly Met Val Glu Val Leu
755 760 765
Asn Glu Lys Ser Thr Glu Ile
770 775
<210> 2
<211> 786
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 2
Met Ala Gln His Lys Ser Asn Asn Glu Glu Ser Ala Ile Asn Lys Thr
1 5 10 15
Phe Ile Phe Lys Ala Lys Cys Asp Lys Asn Asp Val Ile Ser Leu Trp
20 25 30
Glu Pro Ala Ala Lys Glu Tyr Cys Asp Tyr Tyr Asn Lys Val Ser Lys
35 40 45
Trp Ile Ala Asp Asn Leu Ile Thr Met Lys Ile Gly Asp Leu Ala Gln
50 55 60
Tyr Ile Thr Asn Gln Asn Ser Lys Tyr Tyr Thr Ala Val Thr Asn Lys
65 70 75 80
Lys Lys Lys Asp Leu Pro Leu Tyr Arg Ile Phe Gln Lys Gly Phe Ser
85 90 95
Ser Gln Cys Ala Asp Asn Ala Leu Tyr Cys Ala Ile Lys Ser Ile Asn
100 105 110
Pro Glu Asn Tyr Lys Gly Asn Ser Leu Gly Ile Gly Glu Ser Asp Tyr
115 120 125
Arg Arg Phe Gly Tyr Ile Gln Ser Val Val Ser Asn Phe Arg Thr Lys
130 135 140
Met Ser Ser Leu Lys Ala Thr Val Lys Trp Lys Lys Phe Asp Val Asn
145 150 155 160
Asn Val Asp Asp Glu Thr Leu Lys Ile Gln Thr Ile Tyr Asp Val Asp
165 170 175
Lys Tyr Gly Ile Glu Thr Ala Lys Glu Phe Lys Glu Leu Ile Glu Thr
180 185 190
Leu Lys Thr Arg Val Glu Thr Pro Gln Leu Asn Asp Thr Ile Ala Arg
195 200 205
Leu Glu Cys Leu Cys Asp Tyr Tyr Ser Lys Asn Glu Lys Ala Ile Asn
210 215 220
Asn Glu Ile Glu Thr Met Ala Ile Ala Asp Leu Gln Lys Phe Gly Gly
225 230 235 240
Cys Gln Arg Lys Ser Leu Asn Ala Phe Thr Ile His Lys Gln Asp Ser
245 250 255
Leu Met Glu Lys Val Gly Asn Thr Ser Phe Arg Leu Gln Leu Pro Phe
260 265 270
Arg Lys Lys Thr Tyr Val Ile Asn Leu Leu Gly Asn Arg Gln Val Val
275 280 285
Asn Phe Val Asn Gly Lys Arg Val Asp Leu Ile Asp Ile Ala Glu Asn
290 295 300
His Gly Asp Leu Val Thr Phe Asn Ile Lys Asn Gly Val Leu Phe Val
305 310 315 320
His Leu Thr Ser Pro Ile Val Phe Asp Lys Asp Val Arg Asp Ile Arg
325 330 335
Asn Val Val Gly Ile Asp Val Asn Ile Lys His Ser Met Leu Ala Thr
340 345 350
Ser Ile Lys Asp Val Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Lys
355 360 365
Glu Leu Leu Asn Asp Asp Glu Phe Val Ser Thr Cys Asn Glu Ser Glu
370 375 380
Leu Ala Leu Tyr Arg Gln Met Ser Glu Asn Val Asn Phe Gly Ile Leu
385 390 395 400
Glu Thr Asp Ser Leu Phe Glu Arg Ile Val Asn Gln Ser Lys Gly Gly
405 410 415
Cys Leu Lys Asn Lys Leu Ile Arg Arg Glu Leu Ala Met Gln Lys Val
420 425 430
Phe Glu Arg Ile Thr Lys Thr Asn Lys Asp Gln Asn Ile Val Asp Tyr
435 440 445
Val Asn Tyr Val Lys Met Met Arg Ala Lys Cys Lys Ala Ser Tyr Ile
450 455 460
Leu Lys Glu Lys Tyr Asp Glu Lys Gln Lys Glu Tyr Tyr Val Lys Met
465 470 475 480
Gly Phe Thr Asp Glu Ser Thr Glu Ser Lys Glu Thr Met Asp Lys Arg
485 490 495
Arg Glu Glu Phe Pro Phe Val Asn Thr Asp Thr Ala Lys Glu Leu Leu
500 505 510
Val Lys Gln Asn Asn Ile Arg Gln Asp Ile Ile Gly Cys Arg Asp Asn
515 520 525
Ile Val Thr Tyr Ala Phe Asn Val Phe Lys Asn Asn Glu Tyr Asp Thr
530 535 540
Leu Ser Val Glu Tyr Leu Asp Ser Ser Gln Phe Asp Lys Arg Arg Ile
545 550 555 560
Ala Thr Pro Lys Ser Leu Leu Lys Tyr His Lys Phe Glu Gly Lys Thr
565 570 575
Lys Asp Glu Val Glu Asn Met Met Lys Ser Glu Lys Leu Ser Asn Ala
580 585 590
Tyr Tyr Thr Phe Lys Tyr Glu Asn Asp Val Val Ser Asp Ile Asp Tyr
595 600 605
Ser Asp Glu Gly Asn Leu Arg Arg Ser Lys Leu Asn Phe Gly Asn Trp
610 615 620
Ile Ile Lys Ser Ile His Phe Ala Asp Ile Lys Asp Lys Phe Val Gln
625 630 635 640
Leu Ser Asn Asn Asn Lys Met Asn Ile Val Phe Cys Pro Ser Ala Phe
645 650 655
Ser Ser Gln Met Asp Ser Ile Thr His Thr Leu Tyr Tyr Val Glu Lys
660 665 670
Ile Thr Lys Asn Lys Lys Gly Lys Glu Lys Lys Lys Tyr Val Leu Ala
675 680 685
Asn Lys Lys Met Val Arg Thr Gln Gln Glu Lys His Ile Asn Gly Leu
690 695 700
Asn Ala Asp Tyr Asn Ser Ala Cys Asn Leu Lys Tyr Ile Ala Leu Asn
705 710 715 720
Asp Glu Leu Arg Asp Lys Met Thr Asp Arg Phe Lys Ala Ser Lys Lys
725 730 735
Ile Lys Thr Met Tyr Asn Ile Pro Ala Tyr Asn Ile Lys Ser Asn Phe
740 745 750
Lys Lys Asn Leu Ser Ala Lys Thr Ile Gln Thr Phe Arg Glu Leu Gly
755 760 765
His Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Met Phe Val Glu Asn
770 775 780
Leu Glu
785
<210> 3
<211> 774
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
gut metagenome sequence
<400> 3
Met Leu Asn Ile Lys Asn Asn Gly Glu Ser Val Asp Met Asn Thr Ile
1 5 10 15
Glu Leu Ala Met Lys Glu Tyr Asn Arg Tyr Tyr Asn Ile Cys Ser Asp
20 25 30
Trp Ile Cys Asn Asn Leu Met Thr Pro Ile Gly Ser Leu Tyr Gln Tyr
35 40 45
Ile Asp Asp Lys Cys Lys Asn Asn Ala Tyr Ala Gln Asn Leu Ile Ala
50 55 60
Glu Glu Trp Lys Asp Lys Pro Leu Tyr Tyr Met Phe Tyr Lys Gly Tyr
65 70 75 80
Asn Ala Asn Asn Cys Ala Asn Ala Ile Cys Cys Ala Ile Arg Ser Gln
85 90 95
Val Pro Glu Val Asn Lys Ala Glu Asn Ile Leu Asn Leu Ser Tyr Thr
100 105 110
Tyr Tyr Phe Arg Asn Gly Val Ile Lys Ser Val Ile Ser Asn Tyr Ala
115 120 125
Ser Lys Met Arg Ile Leu Ser Asp Lys Gln Ile Lys Tyr Cys Ile Val
130 135 140
Ser Glu Asn Thr Pro Asp Lys Ile Leu Ile Glu Gln Cys Ile Leu Glu
145 150 155 160
Leu Lys Arg Arg His Glu Asp Leu Lys Asp Trp Glu Glu Asn Leu Lys
165 170 175
Tyr Leu Ile Leu Lys Gly Asn Glu Ser Ala Ile Thr Arg Phe Thr Ile
180 185 190
Leu Lys Asp Phe Tyr Ser Lys Asn Ile Glu Arg Val Lys Glu Glu Arg
195 200 205
Glu Ile Met Ala Ile Ala Glu Leu Lys Asp Phe Gly Gly Cys Arg Arg
210 215 220
Lys Asp Asp Lys Leu Ser Met Cys Ile Gln Ser Ala Gly Asn Ser Lys
225 230 235 240
Asp Ile Lys Val Ser Arg Val Lys Thr Thr His Asn Tyr Thr Glu Leu
245 250 255
Val Asp Asp Tyr Thr Glu Asn Phe Asn Ile Lys Phe Ser Ala Leu Asp
260 265 270
Phe Asn Val Met Gly Arg Arg Asp Val Val Lys Thr Lys Leu Asn Lys
275 280 285
Thr Glu Asp Asp Ser Asn Thr Trp Gly Gly Thr Glu Leu Leu Val Asp
290 295 300
Ile Ile Asn Asn His Gly Cys Ser Leu Thr Phe Lys Leu Val Asp Asp
305 310 315 320
Lys Leu Tyr Val Asp Ile Pro Ile Asp Thr Glu His Ile Asn Lys Thr
325 330 335
Thr Asp Phe Lys Lys Ser Val Gly Ile Asp Val Asn Leu Lys His Ser
340 345 350
Leu Leu Asn Thr Asp Ile Leu Asp Asn Gly Gly Ile Asn Gly Tyr Ile
355 360 365
Asn Ile Tyr Lys Lys Leu Leu Ala Asp Asp Ala Phe Met Ser Ala Cys
370 375 380
Thr Lys Ala Asp Leu Val Asn Tyr Ile Asp Ile Ala Lys Thr Val Thr
385 390 395 400
Phe Cys Pro Ile Glu Ala Asp Phe Ile Ile Ser Asn Val Val Glu Lys
405 410 415
Tyr Leu His Met Lys Asp Asn Thr Asn Lys Met Glu Ile Ala Phe Ser
420 425 430
Ser Val Leu Met Asn Ile Arg Lys Glu Leu Glu Ile Lys Leu Leu His
435 440 445
Ser Ser Lys Glu Glu Ser Pro Leu Ile Arg Lys Gln Ile Ile Tyr Ile
450 455 460
Asn Cys Ile Ile Cys Leu Arg Asn Glu Leu Lys Gln Tyr Ala Ile Ala
465 470 475 480
Lys His Arg Tyr Tyr Lys Lys Gln Gln Glu Tyr Asp Thr Leu Cys Asp
485 490 495
Thr Leu His Gly Val Asp Tyr Lys Gln Ile His Pro Tyr Ala Gln Ser
500 505 510
Lys Glu Gly Ala Glu Gln Met Lys Lys Met Lys Thr Ile Glu Asn Asn
515 520 525
Leu Ile Ala Asn Arg Asn Asn Ile Ile Glu Tyr Ala Tyr Thr Val Phe
530 535 540
Glu Leu Asn Asn Phe Asp Leu Ile Ala Leu Glu Asn Ile Thr Lys Asp
545 550 555 560
Ile Met Glu Asp Lys Lys Lys Arg Lys Ser Phe Pro Ser Ile Asn Ser
565 570 575
Leu Leu Lys Tyr His Lys Val Ile Asn Cys Thr Glu Asp Asn Ile Asn
580 585 590
Asp Asn Glu Thr Tyr Gln Lys Phe Ala Lys Tyr Tyr Asn Val Ser Tyr
595 600 605
Glu Asn Gly Lys Val Thr Gly Ala Thr Leu Ser Gln Glu Gly Asn Lys
610 615 620
Val Lys Leu Lys Asp Asp Phe Tyr Asp Lys Leu Leu Lys Val Leu His
625 630 635 640
Phe Thr Ser Ile Lys Asp Tyr Phe Thr Thr Leu Ser Asn Lys Arg Lys
645 650 655
Ile Ala Val Ala His Val Pro Ala Tyr Tyr Thr Ser Gln Ile Asp Ser
660 665 670
Ile Asp Asn Lys Ile Cys Met Ile Lys Ser Thr Asp Lys Asn Gly Lys
675 680 685
Ser Thr Tyr Lys Ile Ala Asp Lys Thr Ile Val Arg Pro Thr Gln Glu
690 695 700
Lys His Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile
705 710 715 720
Asn Phe Ile Val Ala Asp Glu Lys Trp Arg Lys Lys Phe Val Arg Pro
725 730 735
Thr Asn Thr Asn Lys Pro Leu Tyr Asn Ser Pro Val Phe Ser Pro Ala
740 745 750
Val Lys Ser Glu Gly Gly Thr Ile Lys Asn Leu Gln Ile Leu Ser Ala
755 760 765
Thr Lys Thr Ile Ile Leu
770
<210> 4
<211> 756
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 4
Met Thr Thr Lys Gln Val Lys Ser Ile Val Leu Lys Val Lys Asn Thr
1 5 10 15
Asn Glu Cys Pro Ile Thr Lys Asp Val Ile Asn Glu Tyr Lys Lys Tyr
20 25 30
Tyr Asn Ile Cys Ser Glu Trp Ile Lys Asp Asn Leu Thr Ser Ile Thr
35 40 45
Ile Gly Asp Ile Ala Ser Phe Leu Lys Glu Ala Thr Asn Lys Asp Thr
50 55 60
Ile Pro Thr Tyr Ile Asn Met Gly Leu Ser Glu Glu Trp Lys Tyr Lys
65 70 75 80
Pro Ile Tyr His Leu Phe Thr Asp Asp Tyr His Glu Lys Ser Ala Asn
85 90 95
Asn Leu Leu Tyr Ala Tyr Phe Lys Glu Lys Asn Leu Asp Cys Tyr Asn
100 105 110
Gly Asn Ile Leu Asn Leu Ser Glu Thr Tyr Tyr Arg Arg Asn Gly Tyr
115 120 125
Phe Lys Ser Val Val Gly Asn Tyr Arg Thr Lys Ile Arg Thr Leu Asn
130 135 140
Tyr Lys Ile Lys Arg Lys Asn Val Asp Glu Asn Ser Thr Asn Glu Asp
145 150 155 160
Ile Glu Leu Gln Val Met Tyr Glu Ile Ala Lys Arg Lys Leu Asn Ile
165 170 175
Lys Lys Asp Trp Glu Asn Tyr Ile Ser Tyr Ile Glu Asn Val Glu Asn
180 185 190
Ile Asn Ile Lys Asn Ile Asp Arg Tyr Asn Leu Leu Tyr Lys His Phe
195 200 205
Cys Glu Asn Glu Ser Thr Ile Asn Cys Lys Met Glu Leu Leu Ser Val
210 215 220
Glu Gln Leu Lys Glu Phe Gly Gly Cys Val Met Lys Gln His Ile Asn
225 230 235 240
Ser Met Thr Ile Asn Ile Gln Asp Phe Lys Ile Glu Asn Lys Glu Asn
245 250 255
Ser Leu Gly Phe Ile Leu Asn Leu Pro Leu Asn Lys Lys Lys Tyr Gln
260 265 270
Ile Glu Leu Trp Gly Asn Arg Gln Ile Lys Lys Gly Asn Lys Asp Asn
275 280 285
Tyr Lys Thr Leu Val Asp Phe Ile Asn Thr Tyr Gly Gln Asn Ile Ile
290 295 300
Phe Thr Ile Lys Asn Asn Lys Ile Tyr Val Val Phe Ser Tyr Glu Cys
305 310 315 320
Glu Leu Lys Glu Lys Glu Ile Asn Phe Asp Lys Ile Val Gly Ile Asp
325 330 335
Val Asn Phe Lys His Ala Leu Phe Val Ala Ser Glu Arg Asp Lys Asn
340 345 350
Pro Leu Gln Asp Asn Asn Gln Leu Lys Gly Tyr Ile Asn Leu Tyr Lys
355 360 365
Tyr Leu Leu Glu His Asn Glu Phe Thr Ser Leu Leu Thr Lys Glu Glu
370 375 380
Leu Asp Ile Tyr Lys Glu Ile Ala Lys Gly Val Thr Phe Cys Pro Leu
385 390 395 400
Glu Tyr Asn Leu Leu Phe Thr Arg Ile Glu Asn Lys Gly Gly Lys Ser
405 410 415
Asn Asp Lys Glu Gln Val Leu Ser Lys Leu Leu Tyr Ser Leu Gln Ile
420 425 430
Lys Leu Lys Asn Glu Asn Lys Ile Gln Glu Tyr Ile Tyr Val Ser Cys
435 440 445
Val Asn Lys Leu Arg Ala Lys Tyr Val Ser Tyr Phe Ile Leu Lys Glu
450 455 460
Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Glu Met Gly Phe Thr
465 470 475 480
Asp Asp Ser Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg Leu Glu
485 490 495
Phe Pro Phe Arg Asn Thr Gln Ile Ala Asn Gly Phe Leu Glu Lys Leu
500 505 510
Ser Asn Val Gln Gln Asp Ile Asn Gly Cys Leu Lys Asn Ile Ile Asn
515 520 525
Tyr Ala Tyr Lys Val Phe Glu Gln Asn Gly Phe Gly Val Ile Ala Leu
530 535 540
Glu Asn Leu Glu Asn Ser Asn Phe Glu Lys Thr Gln Val Leu Pro Thr
545 550 555 560
Ile Lys Ser Leu Leu Glu Tyr His Lys Leu Glu Asn Gln Asn Ile Asn
565 570 575
Asn Ile Asn Ala Ser Asp Lys Val Lys Glu Tyr Ile Glu Lys Glu Tyr
580 585 590
Tyr Glu Leu Thr Thr Asn Glu Asn Asn Glu Ile Val Asp Ala Lys Tyr
595 600 605
Thr Lys Lys Gly Ile Ile Lys Val Lys Lys Ala Asn Phe Phe Asn Leu
610 615 620
Met Met Lys Ser Leu His Phe Ala Ser Asn Lys Asp Glu Phe Ile Leu
625 630 635 640
Leu Ser Asn Asn Gly Lys Thr Gln Ile Ala Leu Val Pro Ser Glu Tyr
645 650 655
Thr Ser Gln Met Asp Ser Ile Glu His Cys Leu Tyr Val Asp Lys Asn
660 665 670
Gly Lys Lys Val Asp Lys Lys Lys Val Arg Gln Lys Gln Glu Thr His
675 680 685
Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala Asn Asn Ile Lys Tyr
690 695 700
Ile Ile Glu Asn Glu Asn Leu Arg Lys Leu Phe Cys Gly Lys Leu Lys
705 710 715 720
Val Ser Gly Tyr Asn Thr Pro Ile Leu Asp Ala Thr Lys Lys Gly Gln
725 730 735
Phe Asn Ile Leu Ala Glu Leu Lys Lys Gln Asn Lys Ile Lys Ile Phe
740 745 750
Glu Ile Glu Lys
755
<210> 5
<211> 746
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 5
Met Ala Ser His Lys Lys Thr Glu Ser Asn Gln Ile Ile Lys Thr Phe
1 5 10 15
Pro Phe Lys Leu Lys Asn Ala Asn Gly Leu Ser Leu Asp Val Leu Asn
20 25 30
Asp Ala Ile Thr Glu Tyr Gln Asn Tyr Tyr Asn Ile Cys Ser Asp Trp
35 40 45
Ile Lys Asp His Leu Thr Met Lys Ile Ser Glu Leu Tyr Lys Tyr Ile
50 55 60
Pro Asp Glu Lys Lys Asn Ser Gly Tyr Ala Leu Thr Leu Ile Ser Asp
65 70 75 80
Glu Trp Lys Asp Lys Pro Met Tyr Met Met Phe Lys Lys Gly Tyr Pro
85 90 95
Ala Asn Asn Arg Asp Asn Ala Ile Tyr Glu Thr Leu Asn Thr Cys Asn
100 105 110
Thr Glu His Tyr Thr Gly Asn Ile Leu Asn Phe Pro Asp Thr Tyr Tyr
115 120 125
Arg Arg Phe Gly Tyr Val Ala Ser Thr Ile Ser Asn Tyr Val Thr Lys
130 135 140
Ile Ser Lys Met Ser Thr Gly Ser Arg Ser Lys Asn Ile Ser Asn Asp
145 150 155 160
Ser Asp Val Asp Thr Ile Met Glu Gln Val Ile Tyr Glu Met Glu His
165 170 175
Asn Gly Trp Thr Ser Val Lys Asp Trp Glu Asn Gln Met Glu Tyr Leu
180 185 190
Glu Ser Lys Thr Asp Ser Asn Pro Asn Phe Val Tyr Arg Met Thr Thr
195 200 205
Leu Tyr Glu Phe Tyr Lys Ser His Ile Asp Glu Val Asn Ser Lys Met
210 215 220
Glu Thr Met Ser Ile Asp Leu Leu Ile Lys Phe Gly Gly Cys Arg Arg
225 230 235 240
Lys Asp Ser Lys Lys Ser Met Tyr Ile Met Gly Gly Ser Asn Thr Pro
245 250 255
Phe Asp Ile Thr Gln Ile Gly Asp Asn Ser Leu Asn Ile Lys Phe Ser
260 265 270
Lys Asn Leu Asn Val Asp Val Phe Gly Arg Tyr Asp Val Ile Lys Asp
275 280 285
Asn Thr Leu Leu Val Asp Ile Ile Asn Gly His Gly Ala Ser Phe Val
290 295 300
Leu Lys Ile Ile Asn Asp Glu Ile Tyr Ile Asp Ile Asn Val Ser Val
305 310 315 320
Pro Phe Asp Lys Lys Ile Ala Thr Thr Asn Lys Val Val Gly Ile Asp
325 330 335
Val Asn Ile Lys His Met Leu Leu Ala Thr Asn Ile Leu Asp Asp Gly
340 345 350
Asn Val Lys Gly Tyr Val Asn Ile Tyr Lys Glu Val Ile Asn Asp Ser
355 360 365
Asp Phe Lys Lys Val Cys Asn Ser Thr Val Met Lys Tyr Phe Thr Asp
370 375 380
Phe Ser Lys Phe Val Thr Phe Cys Pro Leu Glu Phe Asp Phe Leu Phe
385 390 395 400
Ser Arg Val Cys Asn Gln Lys Gly Ile Tyr Asn Asp Asn Ser Val Met
405 410 415
Glu Lys Ser Phe Ser Asp Val Leu Asn Lys Leu Lys Trp Asn Phe Ile
420 425 430
Glu Thr Gly Asp Asn Thr Lys Arg Ile Tyr Ile Glu Asn Val Met Lys
435 440 445
Leu Arg Thr Gln Met Lys Ala Tyr Ala Ile Val Lys Asn Ala Tyr Tyr
450 455 460
Lys Gln Gln Ser Glu Tyr Asp Phe Gly Lys Ser Glu Glu Phe Ile Gln
465 470 475 480
Glu His Pro Phe Ser Asn Thr Asp Lys Gly Ile Glu Ile Leu His Lys
485 490 495
Leu Asp Asn Ile Ser Lys Lys Ile Leu Gly Cys Arg Asn Asn Ile Ile
500 505 510
Gln Tyr Ser Tyr Asn Leu Phe Glu Ile Asn Gly Tyr Asp Met Ile Ser
515 520 525
Leu Glu Lys Leu Thr Ser Ser Gln Phe Lys Lys Lys Ser Phe Pro Thr
530 535 540
Val Asn Ser Leu Leu Lys Tyr His Lys Ile Leu Gly Cys Thr Gln Glu
545 550 555 560
Glu Met Glu Lys Lys Asp Ile Tyr Ser Val Ile Lys Lys Gly Tyr Tyr
565 570 575
Asp Ile Ile Phe Asp Asn Asp Val Val Thr Asp Ala Lys Leu Ser Thr
580 585 590
Lys Gly Glu Leu Ser Lys Phe Lys Asp Asp Phe Phe Asn Leu Met Ile
595 600 605
Lys Ser Ile His Phe Ala Asp Ile Lys Asp Tyr Phe Ile Thr Leu Ser
610 615 620
Asn Asn Gly Thr Ala Gly Val Ser Leu Val Pro Ser Phe Phe Thr Ser
625 630 635 640
Gln Met Asp Ser Ile Asp His Lys Ile Tyr Phe Val Gln Asp Asn Lys
645 650 655
Ser Gly Lys Leu Lys Leu Ala Asn Lys His Lys Val Arg Ser Ser Gln
660 665 670
Glu Lys His Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Arg Asn
675 680 685
Ile Ala Tyr Ile Met Glu Asn Thr Glu Cys Arg Asn Met Phe Met Lys
690 695 700
Gln Ser Arg Thr Asp Lys Ser Leu Tyr Asn Lys Pro Ser Tyr Glu Thr
705 710 715 720
Phe Ile Lys Thr Gln Gly Ser Ala Val Ala Lys Leu Lys Lys Glu Gly
725 730 735
Phe Met Lys Ile Leu Asp Glu Ala Ser Val
740 745
<210> 6
<211> 733
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 6
Met Ala His Lys Lys Asn Ile Gly Ala Glu Ile Val Lys Thr Tyr Ser
1 5 10 15
Phe Lys Val Lys Asn Thr Asn Gly Ile Thr Met Glu Lys Leu Met Asn
20 25 30
Ala Ile Asp Glu Tyr Gln Ser Tyr Tyr Asn Leu Cys Ser Asp Trp Ile
35 40 45
Cys Lys Asn Leu Thr Thr Met Thr Ile Gly Asp Leu Asp Arg Tyr Ile
50 55 60
Pro Glu Lys Ala Lys Asp Asn Ile Tyr Ala Thr Val Leu Leu Asp Glu
65 70 75 80
Val Trp Lys Asn Gln Pro Leu Tyr Lys Ile Phe Gly Lys Lys Tyr Ser
85 90 95
Ser Asn Asn Arg Asn Asn Ala Leu Tyr Cys Ala Leu Ser Ser Val Ile
100 105 110
Asp Met Thr Lys Glu Asn Val Leu Gly Phe Ser Lys Thr His Tyr Ile
115 120 125
Arg Asn Gly Tyr Ile Leu Asn Val Ile Ser Asn Tyr Ala Ser Lys Leu
130 135 140
Ser Lys Leu Asn Thr Gly Val Lys Ser Arg Ala Ile Lys Glu Thr Ser
145 150 155 160
Asp Glu Ala Thr Ile Ile Glu Gln Val Ile Tyr Glu Met Glu His Asn
165 170 175
Lys Trp Glu Ser Ile Glu Asp Trp Lys Asn Gln Ile Glu Tyr Leu Asn
180 185 190
Ser Lys Thr Asp Tyr Asn Pro Thr Tyr Met Glu Arg Met Lys Thr Leu
195 200 205
Ser Ala Tyr Tyr Ser Thr His Lys Ser Glu Val Asp Ala Lys Met Gln
210 215 220
Glu Met Ala Val Glu Asn Leu Val Lys Phe Gly Gly Cys Arg Arg Asn
225 230 235 240
Asn Ser Lys Lys Ser Met Phe Ile Met Gly Ser Asn Thr Thr Asn Tyr
245 250 255
Thr Ile Ser Tyr Ile Gly Asp Asn Cys Phe Asn Ile Asn Phe Ala Asn
260 265 270
Ile Leu Asn Phe Asp Val Tyr Gly Arg Arg Asp Val Val Lys Asn Gly
275 280 285
Glu Val Leu Val Asp Ile Met Ala Asn His Gly Asp Ser Ile Val Leu
290 295 300
Lys Ile Val Asn Gly Glu Leu Tyr Ala Asp Val Pro Cys Ser Val Thr
305 310 315 320
Leu Asn Lys Val Glu Ser Asn Phe Asp Lys Val Val Gly Ile Asp Val
325 330 335
Asn Met Lys His Met Leu Leu Ser Thr Ser Val Thr Asp Asn Gly Ser
340 345 350
Ser Asp Phe Val Asn Ile Tyr Lys Glu Met Ser Asn Asn Ala Glu Phe
355 360 365
Met Ala Leu Cys Pro Glu Lys Asp Arg Lys Tyr Tyr Lys Asp Ile Ser
370 375 380
Gln Tyr Val Thr Phe Ala Pro Leu Glu Leu Asp Leu Leu Phe Ser Arg
385 390 395 400
Ile Ser Lys Gln Gly Glu Val Lys Met Glu Lys Ala Tyr Ser Glu Ile
405 410 415
Leu Glu Ser Leu Lys Trp Lys Phe Phe Ala Asn Gly Asp Asn Lys Asn
420 425 430
Arg Ile Tyr Val Glu Ser Ile Gln Lys Ile Arg Gln Gln Ile Lys Ala
435 440 445
Leu Cys Val Ile Lys Asn Ala Tyr Tyr Glu Gln Gln Ser Ala Tyr Asp
450 455 460
Ile Asp Lys Thr Gln Glu Tyr Ile Glu Thr His Pro Phe Ser Leu Thr
465 470 475 480
Glu Lys Gly Met Ser Ile Lys Ser Lys Met Asp Lys Ile Cys Gln Thr
485 490 495
Ile Ile Gly Cys Arg Asn Asn Ile Ile Asp Leu Ala Tyr Ser Phe Phe
500 505 510
Glu Arg Asn Gly Tyr Ser Ile Ile Gly Leu Glu Lys Leu Thr Ser Ser
515 520 525
Gln Phe Lys Asn Thr Lys Ser Met Pro Thr Cys Lys Ser Leu Leu Asn
530 535 540
Leu His Lys Val Leu Gly His Thr Leu Ser Glu Leu Glu Thr Leu Pro
545 550 555 560
Ile Asn Asp Ile Val Lys Tyr Tyr Thr Phe Thr Thr Asp Asn Glu Gly
565 570 575
Arg Ile Thr Asp Ala Ser Leu Ser Glu Lys Gly Lys Ile Arg Lys Met
580 585 590
Lys Asp Arg Phe Leu Asn Gln Ala Ile Lys Ala Ile His Phe Ala Asp
595 600 605
Val Lys Asp Tyr Phe Ala Thr Leu Ser Asn Asn Gly Gln Thr Gly Ile
610 615 620
Phe Phe Val Pro Ser Gln Phe Thr Ser Gln Met Asp Ser Asn Thr His
625 630 635 640
Asn Leu Tyr Phe Glu Val Asp Lys Asn Gly Gly Leu Lys Met Ala Ser
645 650 655
Lys Asp Lys Thr Arg Pro Lys Gln Glu Tyr His Arg Asn Gly Leu Pro
660 665 670
Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Tyr Ile Gly Leu Asp Glu
675 680 685
Thr Met Arg Asn Thr Phe Leu Lys Lys Val Asn Ser Asn Lys Ser Leu
690 695 700
Tyr Asn Gln Pro Ile Tyr Asp Thr Gly Ile Lys Lys Thr Ala Gly Val
705 710 715 720
Phe Ser Arg Met Lys Lys Leu Lys Arg Tyr Glu Ile Ile
725 730
<210> 7
<211> 744
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 7
Met Ile Lys Ser Ile Lys Leu Lys Val Lys Gly Asp Cys Pro Ile Thr
1 5 10 15
Lys Asp Val Ile Asn Glu Tyr Lys Glu Tyr Tyr Asn Arg Cys Ser Asp
20 25 30
Trp Ile Lys Asn Asn Leu Thr Ser Ile Thr Ile Gly Glu Ile Gly Lys
35 40 45
Phe Leu Gln Asp Val Thr Gly Lys Thr Thr Gly Tyr Ile Glu Val Ala
50 55 60
Leu Ser Asp Lys Trp Lys Asp Lys Pro Met Tyr Tyr Leu Phe Thr Asp
65 70 75 80
Gln Tyr Asp Thr Asn His Ala Asn Asn Leu Leu Tyr Ser Phe Ile Gln
85 90 95
Glu Asn Asn Leu Asp Gly Tyr Asp Gly Asn Ser Leu Asn Ile Ser Gly
100 105 110
Thr Tyr Tyr Arg Lys Gln Gly Tyr Phe Lys Leu Val Ser Ser Asn Tyr
115 120 125
Arg Thr Lys Ile Arg Thr Leu Asn Cys Lys Ile Lys Arg Lys Lys Val
130 135 140
Asp Val Asp Ser Thr Ser Glu Asp Ile Glu Ser Gln Val Met Tyr Glu
145 150 155 160
Ile Ile Asn Arg Ser Leu Asn Lys Lys Ser Asp Trp Asp Ser Phe Ile
165 170 175
Ser Tyr Ile Glu Asn Val Glu Asn Pro Asn Ile Asp Ser Ile Asn Arg
180 185 190
Tyr Thr Leu Leu Arg Asp Tyr Phe Cys Asp Asn Glu Asp Val Ile Lys
195 200 205
Asn Lys Ile Glu Leu Leu Ser Ile Glu Gln Leu Lys Asp Phe Gly Gly
210 215 220
Cys Ile Met Lys Gln His Ile Asn Thr Met Ser Leu Asn Ile Gln His
225 230 235 240
Phe Lys Ile Glu Glu Lys Glu Asn Ser Leu Gly Phe Ile Leu Tyr Leu
245 250 255
Pro Leu Asn Lys Lys Gln Tyr Gln Ile Glu Leu Trp Gly His Arg Gln
260 265 270
Ile Lys Lys Gly Ser Lys Glu Ser Cys Glu Thr Leu Val Asp Phe Ile
275 280 285
Asn Thr Tyr Gly Glu Asn Ile Val Phe Thr Ile Asn Asn Asp Glu Leu
290 295 300
Tyr Val Val Phe Ser Tyr Glu Ser Glu Phe Gly Lys Glu Glu Thr Asn
305 310 315 320
Phe Glu Lys Ser Val Gly Leu Asp Ile Asn Phe Lys His Ala Leu Phe
325 330 335
Val Thr Ser Glu Leu Asp Asn Asp Gln Phe Asp Gly Tyr Ile Asn Leu
340 345 350
Tyr Lys Tyr Ile Leu Ser His Ser Glu Phe Thr Asn Leu Leu Thr Glu
355 360 365
Asp Glu Arg Lys Asp Tyr Glu Glu Leu Ser Lys Val Val Thr Phe Cys
370 375 380
Pro Phe Glu Asn Gln Leu Leu Phe Ala Arg Tyr Asp Lys Met Ser Lys
385 390 395 400
Phe Cys Lys Lys Glu Gln Val Leu Ser Lys Leu Leu Tyr Ser Leu Gln
405 410 415
Lys Lys Leu Lys Asn Glu Asn Arg Thr Lys Glu Tyr Ile Tyr Val Ser
420 425 430
Cys Val Asn Lys Leu Arg Ala Lys Tyr Ile Ser Tyr Phe Ile Leu Arg
435 440 445
Glu Lys Tyr Asp Glu Lys Asn Lys Glu Tyr Asp Ile Glu Met Gly Phe
450 455 460
Val Asp Asp Ser Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg Phe
465 470 475 480
Glu Asn Pro Phe Arg Asn Thr Leu Val Ala Asn Glu Leu Leu Ala Lys
485 490 495
Met Ser Lys Val Gln Gln Asp Ile Asn Gly Cys Met Ser Asn Ile Ile
500 505 510
Asn Tyr Val Tyr Lys Val Phe Glu Gln Asn Gly Tyr Asn Ile Ile Ala
515 520 525
Leu Glu Asn Leu Glu Asn Ser Asn Phe Glu Lys Arg Gln Val Leu Pro
530 535 540
Thr Ile Lys Ser Leu Leu Lys Tyr His Lys Leu Glu Asn Gln Asn Ile
545 550 555 560
Asn Asp Ile Lys Ala Ser Asp Lys Ile Lys Glu Tyr Ile Glu Asn Gly
565 570 575
Tyr Tyr Ser Phe Thr Thr Asn Glu Asn Asn Glu Ile Val Asp Ala Lys
580 585 590
Tyr Thr Ala Lys Gly Asp Ile Lys Val Lys Asn Ala Lys Phe Phe Asn
595 600 605
Leu Met Met Lys Ile Leu His Phe Ala Ser Ile Lys Asp Glu Phe Val
610 615 620
Leu Leu Ser Asn Asn Gly Lys Ser Gln Ile Ala Leu Val Pro Pro Glu
625 630 635 640
Tyr Thr Ser Gln Met Asp Ser Ile Asp His Cys Ile Tyr Met Thr Glu
645 650 655
Asn Asp Lys Gly Lys Ile Val Lys Val Asp Lys Arg Lys Val Arg Thr
660 665 670
Lys Gln Glu Arg His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala
675 680 685
Asn Asn Ile Lys Tyr Ile Val Ser Asn Glu Lys Trp Arg Asn Val Phe
690 695 700
Cys Thr Pro Lys Lys Ala Lys Tyr Asn Thr Pro Ala Leu Asp Ala Thr
705 710 715 720
Lys Lys Gly Gln Phe Arg Ile Leu Asp Asp Met Lys Lys Leu Asn Ala
725 730 735
Thr Lys Leu Leu Glu Ile Glu Lys
740
<210> 8
<211> 754
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 8
Met Tyr Gln Leu Asn Gln Tyr Ile Met Ala Ser His Lys Lys Thr Glu
1 5 10 15
Ser Asn Gln Ile Ile Lys Thr Phe Ser Phe Lys Ile Lys Asn Ala Asn
20 25 30
Gly Leu Ser Leu Asp Val Leu Asn Asp Ala Ile Thr Glu Tyr Gln Asn
35 40 45
Tyr Tyr Asn Ile Cys Ser Asp Trp Ile Lys Asp His Leu Thr Met Lys
50 55 60
Ile Ser Glu Leu Tyr Lys Tyr Ile Pro Asp Glu Lys Lys Asn Ser Gly
65 70 75 80
Tyr Ala Leu Thr Leu Ile Ser Asp Glu Trp Lys Asp Lys Pro Met Tyr
85 90 95
Met Met Phe Lys Lys Gly Tyr Pro Ala Asn Asn Arg Asp Asn Ala Ile
100 105 110
Tyr Glu Thr Leu Asn Thr Cys Asn Thr Glu His Tyr Thr Gly Asn Ile
115 120 125
Leu Asn Phe Ser Asp Thr Tyr Tyr Arg Arg Phe Gly Tyr Val Ala Ser
130 135 140
Ala Ile Ser Asn Tyr Val Thr Lys Ile Ser Lys Met Ser Thr Gly Ser
145 150 155 160
Arg Tyr Lys Asn Ile Ser Asn Asp Ser Asp Val Asp Thr Ile Met Glu
165 170 175
Gln Val Ile Tyr Glu Met Glu His Asn Gly Trp Thr Ser Val Lys Asp
180 185 190
Trp Glu Asn Gln Met Glu Tyr Leu Glu Ser Lys Thr Asp Ser Asn Pro
195 200 205
Asn Phe Val Tyr Arg Met Thr Thr Leu Tyr Glu Phe Tyr Lys Ser His
210 215 220
Ile Asp Glu Val Asn Ser Lys Met Glu Thr Met Ser Ile Asp Ser Leu
225 230 235 240
Ile Lys Phe Gly Gly Cys Arg Arg Lys Asp Ser Lys Lys Ser Met Tyr
245 250 255
Ile Met Gly Gly Ser Asn Thr Pro Phe Asp Ile Thr Gln Ile Gly Gly
260 265 270
Asn Ser Leu Asn Ile Lys Phe Ser Lys Asn Leu Asn Val Asp Val Phe
275 280 285
Gly Arg Tyr Asp Val Ile Lys Asp Asn Thr Leu Leu Val Asp Ile Ile
290 295 300
Asn Gly His Gly Ala Ser Phe Val Leu Lys Ile Ile Asn Asp Glu Ile
305 310 315 320
Tyr Ile Asp Ile Asn Val Ser Val Pro Phe Asp Lys Lys Ile Ala Thr
325 330 335
Thr Asn Lys Val Val Gly Ile Asp Val Asn Ile Lys His Met Leu Leu
340 345 350
Ala Thr Asn Ile Leu Asp Asp Gly Asn Val Lys Gly Tyr Val Asn Ile
355 360 365
Tyr Lys Glu Val Ile Asn Asp Ser Asp Phe Lys Lys Val Cys Asn Ser
370 375 380
Thr Val Met Lys Tyr Phe Thr Asp Phe Ser Lys Phe Val Thr Phe Cys
385 390 395 400
Pro Leu Glu Phe Asp Phe Leu Phe Ser Arg Val Cys Asn Gln Lys Gly
405 410 415
Ile Tyr Asn Asp Asn Ser Ala Met Glu Lys Ser Phe Ser Asp Val Leu
420 425 430
Asn Lys Leu Lys Trp Asn Phe Ile Glu Thr Gly Asp Asn Thr Lys Arg
435 440 445
Ile Tyr Ile Glu Asn Val Met Lys Leu Arg Ser Gln Met Lys Ala Tyr
450 455 460
Ala Ile Val Lys Asn Ala Tyr Tyr Lys Gln Gln Ser Glu Tyr Asp Phe
465 470 475 480
Gly Lys Ser Glu Glu Phe Ile Gln Glu His Pro Phe Ser Asn Thr Asp
485 490 495
Lys Gly Ile Glu Ile Leu His Lys Leu Asp Asn Ile Ser Lys Lys Ile
500 505 510
Leu Gly Cys Arg Asn Asn Ile Ile Gln Tyr Ser Tyr Asn Leu Phe Glu
515 520 525
Ile Asn Gly Tyr Asp Met Ile Ser Leu Glu Lys Leu Thr Ser Ser Gln
530 535 540
Phe Lys Lys Lys Pro Phe Pro Thr Val Asn Ser Leu Leu Lys Tyr His
545 550 555 560
Lys Ile Leu Gly Cys Thr Gln Glu Glu Met Glu Lys Lys Asp Ile Tyr
565 570 575
Ser Val Ile Lys Lys Gly Tyr Tyr Asp Ile Ile Phe Asp Asn Gly Val
580 585 590
Val Ile Asp Ala Lys Leu Ser Ala Lys Gly Glu Leu Ser Lys Phe Lys
595 600 605
Asp Asp Phe Phe Asn Leu Met Ile Lys Ser Ile His Phe Ala Asp Ile
610 615 620
Lys Asp Tyr Phe Ile Thr Leu Ser Asn Asn Gly Thr Ala Gly Val Ser
625 630 635 640
Leu Val Pro Ser Tyr Phe Thr Ser Gln Met Asp Ser Ile Asp His Lys
645 650 655
Ile Tyr Phe Val Gln Asp Asn Lys Ser Gly Lys Leu Lys Leu Ala Asn
660 665 670
Lys His Lys Val Arg Ser Ser Gln Glu Lys His Ile Asn Gly Leu Asn
675 680 685
Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Tyr Ile Met Glu Asn Thr
690 695 700
Glu Cys Arg Asn Met Phe Met Lys Gln Ser Arg Thr Asp Lys Ser Leu
705 710 715 720
Tyr Asn Lys Pro Ser Tyr Glu Thr Phe Ile Lys Thr Gln Gly Ser Ala
725 730 735
Val Ser Lys Leu Lys Lys Asp Gly Phe Val Lys Ile Leu Asp Glu Ala
740 745 750
Ser Val
<210> 9
<211> 746
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 9
Met Ala Ser His Lys Lys Thr Glu Ser Asn Gln Ile Ile Lys Thr Phe
1 5 10 15
Ser Phe Lys Ile Lys Asn Ala Asn Gly Leu Ser Leu Asp Val Leu Asn
20 25 30
Asp Ala Ile Thr Glu Tyr Gln Asn Tyr Tyr Asn Ile Cys Ser Asp Trp
35 40 45
Ile Lys Asp His Leu Thr Met Lys Ile Ser Glu Leu Tyr Lys Tyr Ile
50 55 60
Pro Asp Glu Lys Lys Asn Ser Gly Tyr Ala Leu Thr Leu Ile Ser Asp
65 70 75 80
Glu Trp Lys Asp Lys Pro Met Tyr Met Met Phe Lys Lys Gly Tyr Pro
85 90 95
Ala Asn Asn Arg Asp Asn Ala Ile Tyr Glu Thr Leu Asn Thr Cys Asn
100 105 110
Thr Glu His Tyr Thr Gly Asn Ile Leu Asn Phe Ser Asp Thr Tyr Tyr
115 120 125
Arg Arg Phe Gly Tyr Val Ala Ser Ala Ile Ser Asn Tyr Val Thr Lys
130 135 140
Ile Ser Lys Met Ser Thr Gly Ser Arg Tyr Lys Asn Ile Ser Asn Asp
145 150 155 160
Ser Asp Val Asp Thr Ile Met Glu Gln Val Ile Tyr Glu Met Glu His
165 170 175
Asn Gly Trp Thr Ser Val Lys Asp Trp Glu Asn Gln Met Glu Tyr Leu
180 185 190
Glu Ser Lys Thr Asp Ser Asn Pro Asn Phe Val Tyr Arg Met Thr Thr
195 200 205
Leu Tyr Glu Phe Tyr Lys Ser His Ile Asp Glu Val Asn Ser Lys Met
210 215 220
Glu Thr Met Ser Ile Asp Ser Leu Ile Lys Phe Gly Gly Cys Arg Arg
225 230 235 240
Lys Asp Ser Lys Lys Ser Met Tyr Ile Met Gly Gly Ser Asn Thr Pro
245 250 255
Phe Asp Ile Thr Gln Ile Gly Gly Asn Ser Leu Asn Ile Lys Phe Ser
260 265 270
Lys Asn Leu Asn Val Asp Val Phe Gly Arg Tyr Asp Val Ile Lys Asp
275 280 285
Asn Thr Leu Leu Val Asp Ile Ile Asn Gly His Gly Ala Ser Phe Val
290 295 300
Leu Lys Ile Ile Asn Asp Glu Ile Tyr Ile Asp Ile Asn Val Ser Val
305 310 315 320
Pro Phe Asp Lys Lys Ile Ala Thr Thr Asn Lys Val Val Gly Ile Asp
325 330 335
Val Asn Ile Lys His Met Leu Leu Ala Thr Asn Ile Leu Asp Asp Gly
340 345 350
Asn Val Lys Gly Tyr Val Asn Ile Tyr Lys Glu Val Ile Asn Asp Ser
355 360 365
Asp Phe Lys Lys Val Cys Asn Ser Thr Val Met Lys Tyr Phe Thr Asp
370 375 380
Phe Ser Lys Phe Val Thr Phe Cys Pro Leu Glu Phe Asp Phe Leu Phe
385 390 395 400
Ser Arg Val Cys Asn Gln Lys Gly Ile Tyr Asn Asp Asn Ser Ala Met
405 410 415
Glu Lys Ser Phe Ser Asp Val Leu Asn Lys Leu Lys Trp Asn Phe Ile
420 425 430
Glu Thr Gly Asp Asn Thr Lys Arg Ile Tyr Ile Glu Asn Val Met Lys
435 440 445
Leu Arg Ser Gln Met Lys Ala Tyr Ala Ile Val Lys Asn Ala Tyr Tyr
450 455 460
Lys Gln Gln Ser Glu Tyr Asp Phe Gly Lys Ser Glu Glu Phe Ile Gln
465 470 475 480
Glu His Pro Phe Ser Asn Thr Asp Lys Gly Ile Glu Ile Leu His Lys
485 490 495
Leu Asp Asn Ile Ser Lys Lys Ile Leu Gly Cys Arg Asn Asn Ile Ile
500 505 510
Gln Tyr Ser Tyr Asn Leu Phe Glu Ile Asn Gly Tyr Asp Met Ile Ser
515 520 525
Leu Glu Lys Leu Thr Ser Ser Gln Phe Lys Lys Lys Pro Phe Pro Thr
530 535 540
Val Asn Ser Leu Leu Lys Tyr His Lys Ile Leu Gly Cys Thr Gln Glu
545 550 555 560
Glu Met Glu Lys Lys Asp Ile Tyr Ser Val Ile Lys Lys Gly Tyr Tyr
565 570 575
Asp Ile Ile Phe Asp Asn Gly Val Val Ile Asp Ala Lys Leu Ser Ala
580 585 590
Lys Gly Glu Leu Ser Lys Phe Lys Asp Asp Phe Phe Asn Leu Met Ile
595 600 605
Lys Ser Ile His Phe Ala Asp Ile Lys Asp Tyr Phe Ile Thr Leu Ser
610 615 620
Asn Asn Gly Thr Ala Gly Val Ser Leu Val Pro Ser Tyr Phe Thr Ser
625 630 635 640
Gln Met Asp Ser Ile Asp His Lys Ile Tyr Phe Val Gln Asp Asn Lys
645 650 655
Ser Gly Lys Leu Lys Leu Ala Asn Lys His Lys Val Arg Ser Ser Gln
660 665 670
Glu Lys His Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Arg Asn
675 680 685
Ile Ala Tyr Ile Met Glu Asn Thr Glu Cys Arg Asn Met Phe Met Lys
690 695 700
Gln Ser Arg Thr Asp Lys Ser Leu Tyr Asn Lys Pro Ser Tyr Glu Thr
705 710 715 720
Phe Ile Lys Thr Gln Gly Ser Ala Val Ser Lys Leu Lys Lys Asp Gly
725 730 735
Phe Val Lys Ile Leu Asp Glu Ala Ser Val
740 745
<210> 10
<211> 745
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 10
Met Ile Lys Ser Ile Gln Leu Lys Val Lys Gly Glu Cys Pro Ile Thr
1 5 10 15
Lys Asp Val Ile Asn Glu Tyr Lys Glu Tyr Tyr Asn Asn Cys Ser Asp
20 25 30
Trp Ile Lys Asn Asn Leu Thr Ser Ile Thr Ile Gly Glu Met Ala Lys
35 40 45
Phe Leu Gln Ser Leu Ser Asp Lys Glu Val Ala Tyr Ile Ser Met Gly
50 55 60
Leu Ser Asp Glu Trp Lys Asp Lys Pro Leu Tyr His Leu Phe Thr Lys
65 70 75 80
Lys Tyr His Thr Lys Asn Ala Asp Asn Leu Leu Tyr Tyr Tyr Ile Lys
85 90 95
Glu Lys Asn Leu Asp Gly Tyr Lys Gly Asn Thr Leu Asn Ile Ser Asn
100 105 110
Thr Ser Phe Arg Gln Phe Gly Tyr Phe Lys Leu Val Val Ser Asn Tyr
115 120 125
Arg Thr Lys Ile Arg Thr Leu Asn Cys Lys Ile Lys Arg Lys Lys Ile
130 135 140
Asp Ala Asp Ser Thr Ser Glu Asp Ile Glu Met Gln Val Met Tyr Glu
145 150 155 160
Ile Ile Lys Tyr Ser Leu Asn Lys Lys Ser Asp Trp Asp Asn Phe Ile
165 170 175
Ser Tyr Ile Glu Asn Val Glu Asn Pro Asn Ile Asp Asn Ile Asn Arg
180 185 190
Tyr Lys Leu Leu Arg Glu Cys Phe Cys Glu Asn Glu Asn Met Ile Lys
195 200 205
Asn Lys Leu Glu Leu Leu Ser Val Glu Gln Leu Lys Lys Phe Gly Gly
210 215 220
Cys Ile Met Lys Pro His Ile Asn Ser Met Thr Ile Asn Ile Gln Asp
225 230 235 240
Phe Lys Ile Glu Glu Lys Glu Asn Ser Leu Gly Phe Ile Leu His Leu
245 250 255
Pro Leu Asn Lys Lys Gln Tyr Gln Ile Glu Leu Leu Gly Asn Arg Gln
260 265 270
Ile Lys Lys Gly Thr Lys Glu Ile His Glu Thr Leu Val Asp Ile Thr
275 280 285
Asn Thr His Gly Glu Asn Ile Val Phe Thr Ile Lys Asn Asp Asn Leu
290 295 300
Tyr Ile Val Phe Ser Tyr Glu Ser Glu Phe Glu Lys Glu Glu Val Asn
305 310 315 320
Phe Ala Lys Thr Val Gly Leu Asp Val Asn Phe Lys His Ala Phe Phe
325 330 335
Val Thr Ser Glu Lys Asp Asn Cys His Leu Asp Gly Tyr Ile Asn Leu
340 345 350
Tyr Lys Tyr Leu Leu Glu His Asp Glu Phe Thr Asn Leu Leu Thr Glu
355 360 365
Asp Glu Arg Lys Asp Tyr Glu Glu Leu Ser Lys Val Val Thr Phe Cys
370 375 380
Pro Phe Glu Asn Gln Leu Leu Phe Ala Arg Tyr Asn Lys Met Ser Lys
385 390 395 400
Phe Cys Lys Lys Glu Gln Val Leu Ser Lys Leu Leu Tyr Ala Leu Gln
405 410 415
Lys Lys Leu Lys Asp Glu Asn Arg Thr Lys Glu Tyr Ile Tyr Val Ser
420 425 430
Cys Val Asn Lys Leu Arg Ala Lys Tyr Val Ser Tyr Phe Ile Leu Lys
435 440 445
Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Glu Met Gly Phe
450 455 460
Val Asp Asp Ser Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg Thr
465 470 475 480
Glu Tyr Pro Phe Arg Asn Thr Pro Val Ala Asn Glu Leu Leu Ser Lys
485 490 495
Leu Asn Asn Val Gln Gln Asp Ile Asn Gly Cys Leu Lys Asn Ile Ile
500 505 510
Asn Tyr Ile Tyr Lys Ile Phe Glu Gln Asn Gly Tyr Lys Val Val Ala
515 520 525
Leu Glu Asn Leu Glu Asn Ser Asn Phe Glu Lys Lys Gln Val Leu Pro
530 535 540
Thr Ile Lys Ser Leu Leu Lys Tyr His Lys Leu Glu Asn Gln Asn Val
545 550 555 560
Asn Asp Ile Lys Ala Ser Asp Lys Val Lys Glu Tyr Ile Glu Asn Gly
565 570 575
Tyr Tyr Glu Leu Met Thr Asn Glu Asn Asn Glu Ile Val Asp Ala Lys
580 585 590
Tyr Thr Glu Lys Gly Ala Met Lys Val Lys Asn Ala Asn Phe Phe Asn
595 600 605
Leu Met Met Lys Ser Leu His Phe Ala Ser Val Lys Asp Glu Phe Val
610 615 620
Leu Leu Ser Asn Asn Gly Lys Thr Gln Ile Ala Leu Val Pro Ser Glu
625 630 635 640
Phe Thr Ser Gln Met Asp Ser Thr Asp His Cys Leu Tyr Met Lys Lys
645 650 655
Asn Asp Lys Gly Lys Leu Val Lys Ala Asp Lys Lys Glu Val Arg Thr
660 665 670
Lys Gln Glu Arg His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala
675 680 685
Asn Asn Ile Lys Tyr Ile Val Glu Asn Glu Val Trp Arg Gly Ile Phe
690 695 700
Cys Thr Arg Pro Lys Lys Thr Glu Tyr Asn Val Pro Ser Leu Asp Thr
705 710 715 720
Thr Lys Lys Gly Pro Ser Ala Ile Leu Asn Met Leu Lys Lys Ile Glu
725 730 735
Ala Ile Lys Val Leu Glu Thr Glu Lys
740 745
<210> 11
<211> 744
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 11
Met Ile Lys Ser Ile Val Phe Lys Val Lys Gly Asp Cys Pro Ile Thr
1 5 10 15
Lys Asp Val Ile Lys Glu Tyr Lys Glu Tyr Tyr Asn Arg Cys Ser Glu
20 25 30
Trp Ile Lys Asn Asn Leu Thr Ser Ile Thr Ile Gly Glu Ile Gly Lys
35 40 45
Phe Leu Gln Asp Thr Met Gly Lys Thr His Gly Tyr Ile Lys Val Ala
50 55 60
Leu Ser Asp Glu Trp Lys Asp Lys Pro Met Tyr Tyr Leu Phe Thr Glu
65 70 75 80
Lys Tyr Asp Thr Lys His Ala Asn Asn Leu Leu Tyr Tyr Phe Ile Gln
85 90 95
Glu Asn Asn Leu Asp Arg Tyr Glu Gly Asn Ser Leu Asn Ile Pro Ser
100 105 110
Tyr Tyr Tyr Lys Arg Glu Gly Tyr Phe Lys Leu Val Thr Ser Asn Tyr
115 120 125
Arg Thr Lys Ile Arg Thr Leu Asn Cys Lys Ile Lys Arg Lys Lys Ile
130 135 140
Asp Val Asp Ser Thr Cys Val Asp Ile Glu Asn Gln Val Ile Tyr Glu
145 150 155 160
Ile Ile Lys Lys Gly Leu Asn Lys Lys Ser Asp Trp Asp Asn Tyr Ile
165 170 175
Ser Tyr Ile Glu Asn Ile Glu Met Pro Asn Ile Asp Ser Ile Asn Arg
180 185 190
Tyr Lys Leu Leu Arg Asp Tyr Phe Cys Glu Asn Glu Asn Val Ile Lys
195 200 205
Asn Lys Ile Glu Leu Leu Ser Ile Glu Gln Leu Lys Asn Phe Gly Gly
210 215 220
Cys Ile Met Lys Gln His Ile Asn Thr Met Ile Leu Asn Ile Lys Arg
225 230 235 240
Leu Lys Ile Glu Glu Lys Glu Asn Ser Leu Gly Phe Ile Leu His Leu
245 250 255
Pro Leu Asn Lys Lys Gln Tyr Gln Ile Glu Leu Trp Gly Asn Arg Gln
260 265 270
Ile Lys Lys Gly Thr Lys Glu Ser Asn Glu Thr Leu Val Asp Phe Ile
275 280 285
Asn Thr Tyr Gly Glu Asp Val Val Phe Thr Ile Lys Lys Asn Glu Leu
290 295 300
Tyr Ala Lys Phe Ser Tyr Glu Cys Glu Phe Glu Lys Glu Glu Thr Asn
305 310 315 320
Phe Glu Lys Ser Val Gly Leu Asp Ile Asn Phe Lys His Ala Leu Phe
325 330 335
Val Thr Ser Glu Leu Asp Asp Asp Gln Phe Tyr Gly Tyr Ile Asn Leu
340 345 350
Tyr Lys Tyr Ile Leu Ser His Ser Glu Phe Thr Asn Leu Leu Thr Glu
355 360 365
Asp Glu Lys Lys Asp Tyr Glu Asp Leu Ser Asn Ala Ile Thr Phe Cys
370 375 380
Pro Phe Glu Asn Gln Leu Leu Phe Thr Arg Tyr Asp Lys Lys Ser Lys
385 390 395 400
Leu Tyr Lys Lys Glu Gln Val Leu Ser Lys Ile Leu Tyr Ser Leu Gln
405 410 415
Lys Lys Leu Lys Asp Glu Asn Arg Lys Gln Glu Tyr Ile Tyr Val Ser
420 425 430
Cys Val Asn Lys Leu Arg Ala Lys Tyr Val Ser Tyr Phe Ile Leu Lys
435 440 445
Glu Lys Tyr Asn Glu Lys Gln Lys Glu Tyr Asp Ile Glu Met Gly Phe
450 455 460
Val Asp Asp Ser Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg Tyr
465 470 475 480
Glu Tyr Pro Phe Arg Asn Thr Pro Val Ala Asn Glu Leu Leu Glu Lys
485 490 495
Met Asn Asn Val Gln Gln Asp Ile Ser Gly Cys Leu Lys Asn Ile Ile
500 505 510
Asn Tyr Ala Tyr Lys Val Phe Glu Gln Asn Gly Tyr Asn Ile Val Ala
515 520 525
Leu Glu Asn Leu Glu Asn Ser Asn Phe Glu Lys Arg Asn Val Leu Pro
530 535 540
Thr Ile Lys Ser Leu Leu Lys Tyr His Lys Leu Glu Asn Gln Asn Ile
545 550 555 560
Thr Asp Ile Lys Ala Ser Asp Lys Ile Lys Glu Tyr Ile Glu Asn Gly
565 570 575
Tyr Tyr Glu Leu Ile Thr Asn Glu Asn Asn Glu Ile Ile Asp Ala Lys
580 585 590
Tyr Thr Glu Asn Gly Asp Ile Lys Val Lys Asn Ala Arg Phe Phe Asn
595 600 605
Leu Met Met Lys Ser Leu His Phe Ala Ser Ile Lys Asp Glu Phe Val
610 615 620
Leu Leu Ser Asn Asn Gly Lys Ser Gln Ile Ala Leu Val Pro Ser Glu
625 630 635 640
Tyr Thr Ser Gln Met Asp Ser Thr Asp His Cys Ile Tyr Met Thr Glu
645 650 655
Asn Asp Lys Gly Lys Leu Val Lys Val Asp Lys Arg Lys Val Arg Thr
660 665 670
Lys Gln Glu Arg His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala
675 680 685
Asn Asn Ile Lys Tyr Ile Val Glu Asn Glu Lys Trp Arg Lys Val Phe
690 695 700
Cys Ala Pro Gln Lys Ala Lys Tyr Asn Thr Pro Thr Leu Asp Ala Thr
705 710 715 720
Lys Lys Gly Gln Phe Arg Ile Leu Glu Asp Leu Lys Lys Leu Lys Ala
725 730 735
Thr Lys Leu Leu Glu Ile Gly Lys
740
<210> 12
<211> 745
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 12
Met Ile Lys Ser Ile Gln Leu Lys Val Lys Gly Glu Cys Pro Ile Thr
1 5 10 15
Lys Asp Val Ile Asn Glu Tyr Lys Glu Tyr Tyr Asn Asn Cys Ser Asp
20 25 30
Trp Ile Lys Asn Asn Leu Thr Ser Ile Thr Ile Gly Glu Met Ala Lys
35 40 45
Phe Leu Gln Ser Leu Ser Asp Lys Glu Val Ala Tyr Ile Ser Met Gly
50 55 60
Leu Ser Asp Glu Trp Lys Asp Lys Pro Leu Tyr His Leu Phe Thr Lys
65 70 75 80
Lys Tyr His Thr Lys Asn Ala Asp Asn Leu Leu Tyr Tyr Tyr Ile Lys
85 90 95
Glu Lys Asn Leu Asp Gly Tyr Lys Gly Asn Thr Leu Asn Ile Ser Asn
100 105 110
Thr Ser Phe Arg Gln Phe Gly Tyr Phe Lys Leu Val Val Ser Asn Tyr
115 120 125
Arg Thr Lys Ile Arg Thr Leu Asn Cys Lys Ile Lys Arg Lys Lys Ile
130 135 140
Asp Ala Asp Ser Thr Ser Glu Asp Ile Glu Met Gln Val Met Tyr Glu
145 150 155 160
Ile Ile Lys Tyr Ser Leu Asn Lys Lys Ser Asp Trp Asp Asn Phe Ile
165 170 175
Ser Tyr Ile Glu Asn Val Glu Asn Pro Asn Ile Asp Asn Ile Asn Arg
180 185 190
Tyr Lys Leu Leu Arg Glu Cys Phe Cys Glu Asn Glu Asn Met Ile Lys
195 200 205
Asn Lys Leu Glu Leu Leu Ser Val Glu Gln Leu Lys Lys Phe Gly Gly
210 215 220
Cys Ile Met Lys Pro His Ile Asn Ser Met Thr Ile Asn Ile Gln Asp
225 230 235 240
Phe Lys Ile Glu Glu Lys Glu Asn Ser Leu Gly Phe Ile Leu His Leu
245 250 255
Pro Leu Asn Lys Lys Gln Tyr Gln Ile Glu Leu Leu Gly Asn Arg Gln
260 265 270
Ile Lys Lys Gly Thr Lys Glu Ser His Glu Thr Leu Val Asp Ile Thr
275 280 285
Asn Thr His Gly Glu Asn Ile Val Phe Thr Ile Lys Asn Asp Asn Leu
290 295 300
Tyr Ile Val Phe Ser Tyr Glu Ser Glu Phe Glu Lys Glu Glu Val Asn
305 310 315 320
Phe Ala Lys Thr Val Gly Leu Asp Val Asn Phe Lys His Ala Phe Phe
325 330 335
Val Thr Ser Glu Lys Asp Asn Cys His Leu Asp Gly Tyr Ile Asn Leu
340 345 350
Tyr Lys Tyr Leu Leu Glu His Asp Glu Phe Thr Asn Leu Leu Thr Glu
355 360 365
Asp Glu Arg Lys Asp Tyr Glu Glu Leu Ser Lys Val Val Thr Phe Cys
370 375 380
Pro Phe Glu Asn Gln Leu Leu Phe Ala Arg Tyr Asn Lys Met Ser Lys
385 390 395 400
Phe Cys Lys Lys Glu Gln Val Leu Ser Lys Leu Leu Tyr Ala Leu Gln
405 410 415
Lys Lys Leu Lys Asp Glu Asn Arg Thr Lys Glu Tyr Ile Tyr Val Ser
420 425 430
Cys Val Asn Lys Leu Arg Ala Lys Tyr Val Ser Tyr Phe Ile Leu Lys
435 440 445
Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Glu Met Gly Phe
450 455 460
Val Asp Asp Ser Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg Thr
465 470 475 480
Glu Tyr Pro Phe Arg Asn Thr Pro Val Ala Asn Glu Leu Leu Ser Lys
485 490 495
Leu Asn Asn Val Gln Gln Asp Ile Asn Gly Cys Leu Lys Asn Ile Ile
500 505 510
Asn Tyr Ile Tyr Lys Ile Phe Glu Gln Asn Gly Tyr Lys Val Val Ala
515 520 525
Leu Glu Asn Leu Glu Asn Ser Asn Phe Glu Lys Lys Gln Val Leu Pro
530 535 540
Thr Ile Lys Ser Leu Leu Lys Tyr His Lys Leu Glu Asn Gln Asn Val
545 550 555 560
Asn Asp Ile Lys Ala Ser Asp Lys Val Lys Glu Tyr Ile Glu Asn Gly
565 570 575
Tyr Tyr Glu Leu Met Thr Asn Glu Asn Asn Glu Ile Val Asp Ala Lys
580 585 590
Tyr Thr Glu Lys Gly Ala Met Lys Val Lys Asn Ala Asn Phe Phe Asn
595 600 605
Leu Met Met Lys Ser Leu His Phe Ala Ser Val Lys Asp Glu Phe Val
610 615 620
Leu Leu Ser Asn Asn Gly Lys Thr Gln Ile Ala Leu Val Pro Ser Glu
625 630 635 640
Phe Thr Ser Gln Met Asp Ser Thr Asp His Cys Leu Tyr Met Lys Lys
645 650 655
Asn Asp Lys Gly Lys Leu Val Lys Ala Asp Lys Lys Glu Val Arg Thr
660 665 670
Lys Gln Glu Arg His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala
675 680 685
Asn Asn Ile Lys Tyr Ile Val Glu Asn Glu Val Trp Arg Gly Ile Phe
690 695 700
Cys Thr Arg Pro Lys Lys Thr Glu Tyr Asn Val Pro Ser Leu Asp Thr
705 710 715 720
Thr Lys Lys Gly Pro Ser Ala Ile Leu Asn Met Leu Lys Lys Ile Glu
725 730 735
Ala Val Lys Ile Leu Glu Thr Glu Lys
740 745
<210> 13
<211> 712
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 13
Met Lys Asn Asn Leu Thr Thr Val Thr Ile Gly Glu Met Ala Lys Phe
1 5 10 15
Leu Gln Glu Thr Thr Gly Lys Asn Val Thr Tyr Ile Thr Met Gly Leu
20 25 30
Ser Glu Glu Trp Lys Asp Lys Pro Leu Tyr His Leu Phe Tyr Gly Lys
35 40 45
Tyr His Thr Lys Asn Ala Asp Asn Leu Leu Tyr Tyr Phe Ile Lys Ala
50 55 60
Lys Lys Leu Asp Glu Tyr Asp Gly Asn Met Leu Asn Leu Gly Asp Thr
65 70 75 80
Tyr Tyr Arg Gln Phe Gly Tyr Phe Lys Leu Val Val Ser Asn Tyr Arg
85 90 95
Thr Lys Ile Arg Thr Leu Asn Leu Asn Val Lys Arg Lys Arg Val Asp
100 105 110
Val Asp Ser Thr Ser Glu Asp Ile Glu Ser Gln Val Met Tyr Glu Ile
115 120 125
Val Lys Arg Asn Leu Asn Thr Ile Ser Asp Trp Glu Asn Tyr Ile Ser
130 135 140
Tyr Ile Glu Asp Val Glu Thr Pro Asn Ile Asp Asn Ile Asn Arg Tyr
145 150 155 160
Lys Phe Leu Gln Asn Tyr Phe Cys Glu Asn Glu Glu Asp Ile Lys Asn
165 170 175
Lys Ile Glu Phe Leu Ser Ile Glu Gln Leu Lys Asp Phe Gly Gly Cys
180 185 190
Ile Met Lys Pro His Ile Asn Ser Met Thr Ile Asn Ile Gln Asp Phe
195 200 205
Lys Ile Glu Glu Ile Glu Asn Ser Leu Gly Phe Val Leu Gln Leu Pro
210 215 220
Leu Asn Lys Lys Tyr His Gln Ile Glu Leu Tyr Gly Asn Arg Gln Val
225 230 235 240
Lys Lys Gly Thr Lys Glu Asn Tyr Lys Thr Leu Val Asp Ile Ile Asn
245 250 255
Thr His Gly Glu Asn Ile Val Phe Thr Ile Glu Asn Asn Glu Leu Tyr
260 265 270
Val Val Phe Ser Tyr Glu Tyr Glu Leu Lys Lys Lys Asp Ile Asn Phe
275 280 285
Glu Lys Met Ala Gly Ile Asp Val Asn Phe Lys His Ala Leu Phe Val
290 295 300
Thr Ser Glu Thr Asp Asn Asn Gln Leu Asn His Tyr Ile Asn Leu Tyr
305 310 315 320
Lys His Ile Leu Glu His Asn Glu Phe Thr Thr Leu Leu Thr Asp Ser
325 330 335
Glu Arg Lys Asp Tyr Glu Glu Ile Ala Lys Thr Val Thr Phe Cys Pro
340 345 350
Phe Glu Tyr Gln Leu Leu Phe Thr Arg Phe Asp Lys Asn Ser Asn Ala
355 360 365
Asn Val Lys Glu Gln Ala Leu Ser Lys Ile Leu Tyr Asp Leu Gln Lys
370 375 380
Lys Leu Lys Ser Gln Asn Lys Ile Lys Glu Tyr Ile Tyr Val Ser Cys
385 390 395 400
Val Asn Lys Leu Arg Ala Lys Tyr Val Ser Tyr Phe Ile Leu Lys Glu
405 410 415
Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Gln Met Gly Phe Val
420 425 430
Asp Asp Ser Thr Glu Ser Lys Ser Ser Met Val Lys Arg Arg Val Glu
435 440 445
Tyr Pro Phe Arg Asn Thr Pro Val Ala Asn Ala Leu Leu Ala Ile Val
450 455 460
Asn Asn Val Gln Gln Asp Ile Asn Gly Cys Leu Lys Asn Ile Ile Asn
465 470 475 480
Tyr Ala Tyr Lys Val Phe Glu Leu Asn Asp Tyr Asn Val Val Ala Leu
485 490 495
Glu Asn Leu Glu Asn Ala Asn Phe Glu Lys Lys Gln Val Ile Pro Thr
500 505 510
Ile Lys Ser Leu Leu Lys Tyr His Lys Leu Glu Met Gln Asn Ile Asn
515 520 525
Asp Ile Lys Ala Asn Asp Thr Ile Lys Lys Tyr Ile Glu Asn Glu Tyr
530 535 540
Tyr Gln Leu Ile Thr Asn Glu Asn Asn Glu Ile Val Asn Ala Ile Tyr
545 550 555 560
Thr Pro Lys Gly Ile Thr Lys Leu Lys Tyr Ala Asn Phe Phe Asn Leu
565 570 575
Leu Met Lys Ser Leu His Phe Ala Ser Ile Lys Asp Glu Phe Ile Leu
580 585 590
Leu Ser Asn Asn Gly Asn Thr Asn Ile Ala Leu Val Pro His Glu Tyr
595 600 605
Thr Ser Gln Met Asp Ser Ile Asp His Cys Ile Tyr Met Val Gln Asn
610 615 620
Asp Lys Gly Asn Leu Val Lys Ala His Lys Thr Lys Val Arg Thr Lys
625 630 635 640
Gln Glu Lys His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala Asn
645 650 655
Asn Ile Lys Tyr Ile Val Glu Asn Glu Lys Trp Arg Asn Ile Phe Cys
660 665 670
Lys Ile Pro Lys Lys Ile Glu Tyr Asn Thr Pro Val Leu Asp Val Thr
675 680 685
Lys Lys Gly Gln Ser Asn Ile Ile Lys Thr Leu Lys Asn Leu Asn Ala
690 695 700
Thr Lys Ile Leu Glu Ile Lys Lys
705 710
<210> 14
<211> 741
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
terrestrial metagenome sequence
<400> 14
Met Lys Lys Ser Ile Lys Phe Lys Val Lys Gly Asn Cys Pro Ile Thr
1 5 10 15
Lys Asp Val Ile Asn Glu Tyr Lys Glu Tyr Tyr Asn Lys Cys Ser Asp
20 25 30
Trp Ile Lys Asn Asn Leu Thr Ser Ile Thr Ile Gly Glu Met Ala Lys
35 40 45
Phe Leu Gln Glu Thr Leu Gly Lys Asp Val Ala Tyr Ile Ser Met Gly
50 55 60
Leu Ser Asp Glu Trp Lys Asp Lys Pro Leu Tyr His Leu Phe Thr Lys
65 70 75 80
Lys Tyr His Thr Asn Asn Ala Asp Asn Leu Leu Tyr Tyr Tyr Ile Lys
85 90 95
Glu Lys Asn Leu Asp Gly Tyr Lys Gly Asn Thr Leu Asn Ile Gly Asn
100 105 110
Thr Phe Phe Arg Gln Phe Gly Tyr Phe Lys Leu Val Val Ser Asn Tyr
115 120 125
Arg Thr Lys Ile Arg Thr Leu Asn Cys Glu Ile Lys Arg Lys Lys Ile
130 135 140
Asp Ala Asp Ser Thr Ser Glu Asp Ile Glu Met Gln Thr Met Tyr Glu
145 150 155 160
Ile Ile Lys His Asn Leu Asn Lys Lys Thr Asp Trp Asp Glu Phe Ile
165 170 175
Ser Tyr Ile Glu Asn Val Glu Asn Pro Asn Ile Asp Asn Ile Asn Arg
180 185 190
Tyr Lys Leu Leu Arg Lys Cys Phe Cys Glu Asn Glu Asn Met Ile Lys
195 200 205
Asn Lys Leu Glu Leu Leu Ser Ile Glu Gln Leu Lys Asn Phe Gly Gly
210 215 220
Cys Ile Met Lys Gln His Ile Asn Ser Met Thr Leu Ile Ile Gln His
225 230 235 240
Phe Lys Ile Glu Glu Lys Glu Asn Ser Leu Gly Phe Ile Leu Asn Leu
245 250 255
Pro Leu Asn Lys Lys Gln Tyr Gln Ile Glu Leu Trp Gly Asn Arg Gln
260 265 270
Val Asn Lys Gly Thr Lys Glu Arg Asp Ala Phe Leu Asn Thr Tyr Gly
275 280 285
Glu Asn Ile Val Phe Ile Ile Asn Asn Asp Glu Leu Tyr Val Val Phe
290 295 300
Ser Tyr Glu Tyr Glu Leu Glu Lys Glu Glu Ala Asn Phe Val Lys Thr
305 310 315 320
Val Gly Leu Asp Val Asn Phe Lys His Ala Phe Phe Val Thr Ser Glu
325 330 335
Lys Asp Asn Cys His Leu Asp Gly Tyr Ile Asn Leu Tyr Lys Tyr Leu
340 345 350
Leu Glu His Asp Glu Phe Thr Asn Leu Leu Thr Asn Asp Glu Lys Lys
355 360 365
Asp Tyr Glu Glu Leu Ser Lys Val Val Thr Phe Cys Pro Phe Glu Asn
370 375 380
Gln Leu Leu Phe Ala Arg Tyr Asn Lys Met Ser Lys Phe Cys Lys Lys
385 390 395 400
Glu Gln Val Leu Ser Lys Leu Leu Tyr Ala Leu Gln Lys Gln Leu Lys
405 410 415
Asp Glu Asn Arg Thr Lys Glu Tyr Ile Tyr Val Ser Cys Val Asn Lys
420 425 430
Leu Arg Ala Lys Tyr Val Ser Tyr Phe Ile Leu Lys Glu Lys Tyr Tyr
435 440 445
Glu Lys Gln Lys Glu Tyr Asp Ile Glu Met Gly Phe Val Asp Asp Ser
450 455 460
Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg Thr Glu Phe Pro Phe
465 470 475 480
Arg Asn Thr Pro Val Ala Asn Glu Leu Leu Ser Lys Leu Asn Asn Val
485 490 495
Gln Gln Asp Ile Asn Gly Cys Leu Lys Asn Ile Ile Asn Tyr Ile Tyr
500 505 510
Lys Ile Phe Glu Gln Asn Gly Tyr Lys Ile Val Ala Leu Glu Asn Leu
515 520 525
Glu Asn Ser Asn Phe Glu Lys Lys Gln Val Leu Pro Thr Ile Lys Ser
530 535 540
Leu Leu Lys Tyr His Lys Leu Glu Asn Gln Asn Val Asn Asp Ile Lys
545 550 555 560
Ala Ser Asp Lys Val Lys Glu Tyr Ile Glu Asn Gly Tyr Tyr Glu Leu
565 570 575
Ile Thr Asn Glu Asn Asn Glu Ile Val Asp Ala Lys Tyr Thr Glu Lys
580 585 590
Gly Ala Met Lys Val Lys Asn Ala Asn Phe Phe Asn Leu Met Met Lys
595 600 605
Ser Leu His Phe Ala Ser Val Lys Asp Glu Phe Val Leu Leu Ser Asn
610 615 620
Asn Gly Lys Thr Gln Ile Ala Leu Val Pro Ser Glu Phe Thr Ser Gln
625 630 635 640
Met Asp Ser Thr Asp His Cys Leu Tyr Met Lys Lys Asn Asp Lys Gly
645 650 655
Lys Leu Val Lys Ala Asp Lys Lys Glu Val Arg Thr Lys Gln Glu Lys
660 665 670
His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala Asn Asn Ile Lys
675 680 685
Tyr Ile Val Glu Asn Glu Val Trp Arg Glu Ile Phe Cys Thr Arg Pro
690 695 700
Lys Lys Ala Glu Tyr Asn Val Pro Ser Leu Asp Thr Thr Lys Lys Gly
705 710 715 720
Pro Ser Ala Ile Leu His Met Leu Lys Lys Ile Glu Ala Ile Lys Ile
725 730 735
Leu Glu Thr Glu Lys
740
<210> 15
<211> 752
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
feces metagenome sequence
<400> 15
Met Ala Lys Ser Ile Met Lys Lys Ser Ile Lys Phe Lys Val Lys Gly
1 5 10 15
Asn Ser Pro Ile Asn Glu Asp Ile Ile Asn Glu Tyr Lys Gly Tyr Tyr
20 25 30
Asn Thr Cys Ser Asn Trp Ile Asn Asn Asn Leu Thr Ser Ile Thr Ile
35 40 45
Gly Glu Met Gly Lys Phe Leu Lys Asp Val Met Arg Lys Thr Thr Gly
50 55 60
Tyr Ile Asp Val Ala Leu Ser Asp Glu Trp Lys Asp Lys Pro Met Tyr
65 70 75 80
Tyr Leu Phe Thr Lys Lys Tyr Asn Pro Lys His Ala Asn Asn Leu Leu
85 90 95
Tyr Tyr Phe Ile Lys Glu Lys Lys Leu Asp Lys Phe Asn Gly Asn Ile
100 105 110
Leu Asn Val Pro Glu Tyr Tyr Tyr Arg Lys Glu Gly Tyr Phe Lys Leu
115 120 125
Val Ala Gly Asn Tyr Arg Thr Lys Ile Asn Thr Leu Asn Phe Lys Ile
130 135 140
Lys Ser Lys Lys Val Asp Ala Asn Ser Leu Ser Glu Asp Ile Glu Met
145 150 155 160
Gln Thr Ile Tyr Glu Ile Val Lys Arg Gly Leu Asn Lys Lys Ser Asp
165 170 175
Trp Asp Ser Tyr Ile Ser Tyr Ile Glu Cys Val Gln Asn Pro Asn Ile
180 185 190
Asp Asn Ile Asn Arg Tyr Lys Leu Leu Arg Asp Tyr Phe Cys Glu Asn
195 200 205
Glu Asp Val Ile Lys Asn Lys Ile Glu Ile Leu Ser Ile Glu Gln Ile
210 215 220
Lys Glu Phe Gly Gly Cys Ile Met Lys Pro His Ile Asn Ser Met Thr
225 230 235 240
Phe Gly Ile Gln Lys Phe Lys Ile Glu Glu Ile Glu Asn Ser Leu Gly
245 250 255
Phe Thr Phe Asn Leu Pro Leu Asn Lys Asn Asn Tyr Lys Ile Glu Leu
260 265 270
Trp Gly His Arg Gln Leu Lys Lys Gly Asn Lys Glu Ser Asn Val Asn
275 280 285
Val Ser Leu Asp Asp Phe Ile Asn Thr Tyr Gly Gln Asn Val Val Phe
290 295 300
Thr Ile Lys Arg Lys Lys Leu Tyr Ile Val Phe Ser Tyr Asp Tyr Glu
305 310 315 320
Phe Glu Arg Gly Glu Cys Asn Phe Glu Lys Ser Val Gly Leu Asp Val
325 330 335
Asn Phe Lys His Ser Leu Phe Val Thr Ser Glu Ile Asp Asn Asn Gln
340 345 350
Phe Asp Gly Tyr Ile Asn Leu Tyr Lys Tyr Ile Leu Ser Asn Asn Glu
355 360 365
Phe Thr Ser Leu Leu Thr Asp Ser Glu Arg Lys Asp Tyr Glu Asp Leu
370 375 380
Ala Asn Ile Val Thr Phe Cys Pro Phe Glu Tyr Gln Leu Leu Phe Ser
385 390 395 400
Arg Tyr Asp Lys Leu Ser Lys Ile Ser Glu Lys Glu Lys Val Leu Ser
405 410 415
Lys Ile Leu Tyr Ser Leu Gln Lys Lys Leu Lys Asn Glu Lys Arg Thr
420 425 430
Lys Glu Tyr Ile Tyr Val Ser Cys Val Asn Lys Leu Arg Ala Lys Tyr
435 440 445
Val Ser Tyr Phe Lys Leu Lys Gln Lys Tyr Asn Glu Lys Gln Lys Glu
450 455 460
Tyr Asp Ile Glu Met Gly Phe Val Asp Asp Ser Thr Glu Ser Lys Glu
465 470 475 480
Ser Met Asp Lys Arg Arg Phe Glu Asn Pro Phe Ile Asn Thr Pro Val
485 490 495
Ala Lys Glu Leu Leu Glu Lys Met Asn Asn Val Lys Gln Asp Ile Asn
500 505 510
Gly Cys Lys Lys Asn Ile Val Val Tyr Ala Tyr Lys Val Leu Glu Gln
515 520 525
Asn Gly Tyr Asn Ile Ile Ala Leu Glu Asn Leu Glu Asn Ser Asn Phe
530 535 540
Glu Lys Ile Arg Val Leu Pro Lys Ile Lys Ser Leu Leu Glu Tyr His
545 550 555 560
Lys Phe Glu Asn Lys Asn Ile Asn Asp Ile Lys Asn Ser Asp Lys Tyr
565 570 575
Lys Glu Phe Ile Glu Pro Gly Tyr Phe Glu Leu Ile Thr Asn Glu Asn
580 585 590
Asn Glu Ile Ile Asp Ala Lys Tyr Thr Gln Lys Gly Asp Ile Lys Ile
595 600 605
Lys Asn Ala Asp Phe Ile Asn Ile Met Ile Lys Ala Leu Asn Phe Ala
610 615 620
Ser Ile Lys Asp Glu Phe Ile Leu Leu Ser His Asn Gly Lys Ser Gln
625 630 635 640
Ile Ala Leu Val Pro Ala Glu Tyr Thr Ser Gln Met Asp Ser Ile Asp
645 650 655
His Cys Ile Tyr Met Thr Lys Asn Asp Lys Gly Lys Leu Val Lys Val
660 665 670
Asp Lys Arg Lys Val Arg Thr Lys Gln Glu Arg His Ile Asn Gly Leu
675 680 685
Asn Ala Asp Phe Asn Ala Ala Cys Asn Ile Lys Tyr Ile Val Thr Asn
690 695 700
Glu Asp Trp Arg Lys Val Phe Cys Ile Lys Pro Lys Lys Glu Asp Tyr
705 710 715 720
Asn Thr Pro Leu Leu Asp Ala Thr Lys Asn Gly Gln Phe Arg Ile Leu
725 730 735
Asp Lys Leu Lys Lys Leu Asn Ala Thr Lys Leu Leu Glu Met Glu Lys
740 745 750
<210> 16
<211> 766
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
feces metagenome sequence
<400> 16
Met Ala Asn Lys Lys Phe Lys Leu Thr Lys Asn Glu Val Val Lys Ser
1 5 10 15
Phe Val Leu Lys Val Ala Asn Gln Lys Lys Cys Ala Ile Thr Asn Glu
20 25 30
Thr Leu Gln Glu Tyr Lys Asn Tyr Tyr Asn Lys Val Ser Gln Trp Ile
35 40 45
Asn Asn Asn Leu Thr Lys Met Thr Ile Gly Asp Leu Ile Gln Tyr Ala
50 55 60
Pro Thr Val Ser Lys Lys Gly Lys Lys Gln Pro Asp Gly Thr Met Val
65 70 75 80
Tyr Asp Thr Pro Leu Tyr Val Thr Tyr Ala Met Ser Asp Glu Trp Lys
85 90 95
Asn Lys Pro Leu Tyr Tyr Ile Phe Lys Lys Glu Tyr Asn Thr Asn Asn
100 105 110
Ala Asn Asn Leu Leu Tyr Glu Ala Ile Arg Asn Leu Asn Val Asp Glu
115 120 125
Tyr Asp Gly Asn Gln Leu Asn Phe Asn Ser Thr Tyr Tyr Arg Thr Gln
130 135 140
Gly Tyr Val Asn Arg Val Phe Ser Asn Tyr Arg Thr Lys Ile Asn Thr
145 150 155 160
Leu Asp Ile Lys Ile Lys Lys Ser Lys Val Asp Glu Asn Ser Asp Val
165 170 175
Glu Thr Leu Glu Leu Gln Thr Met Tyr Glu Ile Asn Lys Leu Asn Leu
180 185 190
Lys Thr Asn Lys Asp Trp Glu Glu Arg Leu Gln Tyr Leu Thr Met Gln
195 200 205
Glu Asn Pro Asn Gln Asn Thr Ile Asp Arg Thr Lys Ile Leu Phe Asn
210 215 220
Tyr Phe Ile Asn Asn Asn Asp Thr Ile Phe Gln Lys Met Glu Glu Leu
225 230 235 240
Ser Ile Lys Gln Leu Thr Glu Phe Gly Gly Cys Lys Met Lys Asp Asn
245 250 255
Thr Thr Ser Met Thr Ile Asn Ile Gln Asp Phe Lys Ile Lys Arg Lys
260 265 270
Glu Asn Ser Ile Gly Tyr Ile Met Thr Ile Pro Phe Asn Lys Lys Asn
275 280 285
Val Asp Val Glu Leu Tyr Gly His Lys Gln Thr Ile Lys Gly His Lys
290 295 300
Asn Ser Tyr Thr Glu Ile Val Asp Ile Val Asn Lys His Gly Asn Thr
305 310 315 320
Ile Thr Phe Lys Ile Lys Asn Asn Gln Leu Phe Ala Ile Ile Thr Ser
325 330 335
Asp Thr Glu Val Thr Lys Pro Glu Pro Gln Tyr Glu Lys Ile Val Gly
340 345 350
Val Asp Val Asn Ile Lys His Thr Leu Met Val Thr Ser Glu Lys Asp
355 360 365
Asn Gly Lys Leu Lys Gly Tyr Ile Asn Leu Tyr Lys Glu Val Leu Lys
370 375 380
Asn Asp Glu Phe Lys Lys Leu Leu Asn Lys Thr Glu Leu Asp Asn Phe
385 390 395 400
Lys Ser Leu Ser Gln Ile Val Thr Phe Cys Pro Ile Glu Tyr Asp Phe
405 410 415
Leu Phe Ser Arg Ile Phe Asp Asp Glu Asn Thr Lys Lys Glu Leu Ala
420 425 430
Phe Ser Asn Val Leu Tyr Asp Ile Gln Lys Gln Leu Lys Asn Thr Asn
435 440 445
Asn Ile Leu Gln Tyr Asn Tyr Ile Ala Cys Val Asn Lys Leu Arg Ala
450 455 460
Lys Tyr Lys Ala Tyr Phe Val Leu Lys Met Ser Tyr Met Lys Gln Gln
465 470 475 480
Lys Ile Tyr Asp Thr Asn Met Gly Phe Phe Asp Ile Ser Thr Glu Ser
485 490 495
Lys Glu Thr Met Asp Gln Arg Arg Ser Leu Tyr Pro Phe Ile Asn Thr
500 505 510
Glu Ile Ala Gln Asn Ile Ile Thr Lys Met Asn Asn Val Gln Gln Asp
515 520 525
Ile Asn Gly Cys Leu Lys Asn Ile Phe Lys Tyr Thr Tyr Thr Val Phe
530 535 540
Glu Asn Asn Asn Tyr Asp Thr Ile Val Leu Glu Asn Leu Glu Asn Ala
545 550 555 560
Asn Phe Glu Lys His Asn Pro Leu Pro Asn Ile Thr Ser Leu Leu Lys
565 570 575
Tyr His Lys Val Gln Gly Leu Thr Ile Gln Glu Ala Glu Gln His Glu
580 585 590
Lys Val Gly Asn Leu Ile Gln Asn Asp Asn Tyr Ile Phe Gln Leu Asn
595 600 605
Glu Asp Asn Lys Ile Ile Asn Ala Asp Tyr Ser Gln Lys Ala Tyr Tyr
610 615 620
Lys Val Cys Lys Ala Leu Phe Phe Asn Gln Ala Ile Lys Thr Leu His
625 630 635 640
Phe Ala Ser Val Lys Asp Glu Met Ile Lys Leu Ser Asn Asn Asn Lys
645 650 655
Val Cys Val Ala Ile Ile Pro Pro Glu Tyr Thr Ser Gln Ile Asp Ser
660 665 670
Asn Thr His Lys Leu Tyr Phe Ile Asn Lys Asp Gly Lys Leu Leu Lys
675 680 685
Ala Asp Lys Lys Thr Val Arg Lys Thr Gln Glu Lys His Ile Asn Gly
690 695 700
Leu Asn Ala Asp Phe Asn Ala Ala Ser Asn Ile Lys Tyr Ile Val Gln
705 710 715 720
Asn Glu Thr Trp Arg Asn Leu Phe Thr Asn Lys Thr Asn Asn Thr Tyr
725 730 735
Gly Leu Pro Ile Leu Thr Pro Ser Lys Lys Gly Gln Ser Asn Ile Ile
740 745 750
Thr Gln Leu Met Lys Ile Asn Ala Thr Gln Glu Leu Val Val
755 760 765
<210> 17
<211> 784
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
sheep gut metagenome sequence
<400> 17
Met Tyr Asn Ser Lys Lys Lys Gly Glu Gly Asp Ile Gln Lys Ser Phe
1 5 10 15
Lys Phe Lys Val Lys Thr Asp Lys Glu Thr Val Glu Leu Phe Arg Lys
20 25 30
Ala Ala Val Glu Tyr Ser Glu Tyr Tyr Lys Arg Leu Thr Thr Phe Leu
35 40 45
Cys Glu Arg Leu Thr Asp Met Thr Trp Gly Glu Val Ala Ser Phe Ile
50 55 60
Pro Glu Lys Tyr Arg Lys Asn Glu Tyr Tyr Lys Tyr Leu Ile Lys Glu
65 70 75 80
Glu Asn Lys Asp Leu Pro Leu Tyr Lys Met Phe Thr Lys Ala Ala Ser
85 90 95
Ser Met Phe Ile Asp His Ser Ile Glu Arg Tyr Val Glu Ala Leu Asn
100 105 110
Pro Glu Gly Asn Thr Gly Asn Ile Leu Gly Phe Cys Lys Ser Ser Tyr
115 120 125
Val Arg Gly Gly Tyr Leu Lys Asn Val Val Ser Asn Ile Arg Thr Lys
130 135 140
Phe Ala Thr Leu Lys Thr Gly Ile Lys Tyr Lys Lys Phe Asn Pro Ala
145 150 155 160
Glu Asp Asp Glu Glu Thr Ile Leu Gly Gln Thr Val Phe Glu Met Glu
165 170 175
Lys Arg Gly Leu Glu Phe Lys Cys Asp Phe Glu Lys Thr Ile Lys Tyr
180 185 190
Leu Asn Glu Lys Gly Lys Thr Gln Glu Ala Glu Arg Leu Gln Cys Leu
195 200 205
Met Glu Tyr Phe Ser Thr Asn Thr Asp Lys Ile Asn Glu Tyr Arg Glu
210 215 220
Ser Leu Val Leu Asp Asp Ile Arg Lys Phe Gly Gly Cys Asn Arg Ser
225 230 235 240
Lys Ser Asn Ser Phe Ser Val Thr Leu Glu Lys Ala Asp Ile Lys Glu
245 250 255
Asp Gly Leu Thr Gly Tyr Thr Met Lys Val Ser Lys Lys Leu Lys Glu
260 265 270
Ile His Leu Leu Gly His Arg Arg Val Val Glu Val Val Asn Gly Arg
275 280 285
Arg Val Asn Leu Val Asp Ile Cys Gly Asp Lys Ser Gly Asp Ser Lys
290 295 300
Val Phe Val Val Asp Gly Asp Asn Leu Tyr Val Cys Ile Ser Ala Pro
305 310 315 320
Val Lys Phe Ser Lys Asn Gly Met Glu Ala Lys Lys Tyr Ile Gly Val
325 330 335
Asp Met Asn Met Lys His Ser Ile Ile Ser Val Ser Asp Asn Ala Ser
340 345 350
Asp Met Lys Gly Phe Leu Asn Ile Tyr Lys Glu Leu Leu Lys Asp Glu
355 360 365
Gly Phe Arg Lys Thr Leu Asn Ala Thr Glu Leu Glu Lys Tyr Glu Lys
370 375 380
Leu Ala Glu Gly Val Asn Ile Gly Ile Ile Glu Tyr Asp Gly Leu Tyr
385 390 395 400
Glu Arg Ile Val Lys Gln Lys Lys Glu Asn Ser Val Asp Gly Leu Lys
405 410 415
Val Gln Ala Glu Lys Lys Leu Ile Glu Arg Glu Ala Ala Ile Glu Arg
420 425 430
Val Leu Asp Lys Leu Arg Lys Gly Thr Ser Asp Thr Asp Thr Glu Asn
435 440 445
Tyr Ile Asn Tyr Asn Lys Ile Leu Arg Ala Lys Ile Lys Ser Ala Tyr
450 455 460
Ile Leu Lys Asp Lys Tyr Tyr Glu Met Leu Gly Lys Tyr Asp Ser Glu
465 470 475 480
Arg Ala Gly Ser Gly Asp Leu Ser Glu Glu Asn Lys Ile Lys Tyr Lys
485 490 495
Asp Glu Phe Asn Glu Thr Glu Lys Gly Lys Glu Ile Leu Gly Lys Leu
500 505 510
Asn Asn Val Tyr Lys Asp Ile Ile Gly Cys Arg Asp Asn Ile Val Thr
515 520 525
Tyr Ala Val Asn Leu Phe Ile Arg Asn Gly Tyr Asp Thr Val Ala Leu
530 535 540
Glu Tyr Leu Glu Ser Ser Gln Met Lys Ala Arg Arg Ile Pro Ser Thr
545 550 555 560
Gly Gly Leu Leu Lys Gly His Lys Leu Glu Gly Lys Pro Glu Gly Glu
565 570 575
Val Thr Ala Tyr Leu Lys Ala Asn Lys Ile Pro Lys Ser Tyr Tyr Ser
580 585 590
Phe Glu Tyr Asp Gly Asn Gly Met Leu Thr Asp Val Lys Tyr Ser Asp
595 600 605
Met Gly Glu Lys Ala Arg Gly Arg Asn Arg Phe Lys Asn Leu Val Pro
610 615 620
Lys Phe Leu Arg Trp Ala Ser Ile Lys Asp Lys Phe Val Gln Leu Ser
625 630 635 640
Asn Tyr Lys Asp Ile Gln Met Val Tyr Val Pro Ser Pro Tyr Thr Ser
645 650 655
Gln Thr Asp Ser Arg Thr His Ser Leu Tyr Tyr Ile Glu Thr Val Lys
660 665 670
Val Asp Glu Lys Thr Gly Lys Glu Lys Lys Glu His Ile Val Ala Pro
675 680 685
Lys Glu Ser Val Arg Thr Glu Gln Glu Ser Phe Val Asn Gly Met Asn
690 695 700
Ala Asp Thr Asn Ser Ala Asn Asn Ile Lys Tyr Ile Phe Glu Asn Glu
705 710 715 720
Thr Leu Arg Asp Lys Phe Leu Lys Arg Thr Lys Asp Gly Thr Glu Met
725 730 735
Tyr Asn Arg Pro Ala Phe Asp Leu Lys Glu Cys Tyr Lys Lys Asn Ser
740 745 750
Asn Val Ser Val Phe Asn Thr Leu Lys Lys Thr Leu Gly Ala Ile Tyr
755 760 765
Gly Lys Leu Asp Glu Asn Gly Asn Phe Ile Glu Asn Glu Cys Asn Lys
770 775 780
<210> 18
<211> 782
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
gut metagenome sequence
<400> 18
Met Ala Gly His Ser Lys Ile Lys Glu Asn His Ile Met Lys Ala Phe
1 5 10 15
Leu Met Lys Val Lys Glu Thr Arg Lys Lys Gln Trp Gln Ser Asn Phe
20 25 30
Ile Arg Ser Glu Ile Ala Lys Phe Thr Asn Tyr Tyr Asn Gly Leu Ser
35 40 45
Lys Phe Ile Ala Asp Arg Leu Leu Asp Asp Met Val Thr Thr Leu Ala
50 55 60
Pro Leu Ile Glu Glu Lys Lys Arg Asn Ser Glu Tyr Tyr Lys Tyr Leu
65 70 75 80
Thr Asn Gly Asp Trp Asp Gly Lys Pro Leu Tyr Phe Ile Phe Lys Glu
85 90 95
Gly Phe Asn Ser Thr Asn Ala Asp Asn Ile Leu Ala Asn Ser Leu Val
100 105 110
Arg Val Tyr Cys Glu Gln Asn Tyr Thr Gly Asn Gly Phe Gly Leu Ser
115 120 125
Tyr Ser Tyr Tyr Val Val Ile Gly Phe Ala Lys Glu Val Ile Ala Asn
130 135 140
Tyr Arg Ser Ser Phe Gln Lys Pro Lys Val Lys Ile Lys Lys Lys Lys
145 150 155 160
Leu Ser Glu Asn Pro Thr Glu Asp Glu Leu Ile Glu Gln Cys Ile Tyr
165 170 175
Thr Ile Tyr Tyr Glu Phe Asn Glu Lys Lys Asp Ile Gln Lys Trp Lys
180 185 190
Asp Glu Ile Lys Phe Leu Lys Glu Arg Gly Glu Ser Lys Glu Thr Arg
195 200 205
Leu Lys Arg Ile Gln Thr Leu Phe Glu Phe Tyr Lys Asp Lys Ser His
210 215 220
Lys Glu Leu Val Asp Glu Arg Val Ala Asn Leu Val Val Asp Asn Ile
225 230 235 240
Lys Glu Phe Gly Gly Cys Lys Arg Asp Ile Asp Cys Pro Ser Met Gly
245 250 255
Ile Gln Ile Gln His Asn Phe Asp Ile Ser Ile Asn Glu Lys Arg Asn
260 265 270
Gly Tyr Thr Ile Cys Phe Gly Pro Asn Lys Lys Asn Leu Thr Lys Leu
275 280 285
Glu Val Phe Gly Asn Arg Met Val Leu Leu Asn Gly Glu Glu Ile Val
290 295 300
Asp Leu Pro Asn Thr His Gly Glu Lys Leu Thr Leu Ile Asp Arg Gly
305 310 315 320
Asn Ala Ile Tyr Ala Ala Ile Thr Ala Gln Val Pro Phe Glu Lys His
325 330 335
Met Pro Asp Gly Asn Lys Thr Val Gly Ile Asp Leu Asn Leu Lys His
340 345 350
Ser Val Phe Ala Thr Ser Ile Val Asp Asn Gly Lys Leu Ala Gly Tyr
355 360 365
Ile Ser Ile Tyr Lys Glu Leu Leu Lys Asp Asp Glu Phe Val Lys Tyr
370 375 380
Cys Pro Lys Asp Leu Leu Arg Phe Met Lys Asp Ala Ser Lys Tyr Val
385 390 395 400
Phe Phe Ala Pro Ile Glu Ile Glu Leu Leu Arg Ser Arg Val Ile Tyr
405 410 415
Asn Lys Gly Tyr Ala Cys Val Glu Asn Tyr Glu Asn Val Tyr Lys Ala
420 425 430
Glu Val Ala Phe Val Asn Val Ile Lys Arg Leu Gln Ser Gln Cys Glu
435 440 445
Ala Asn Gly Asp Ala Gln Gly Ala Leu Tyr Met Ser Tyr Leu Ser Lys
450 455 460
Met Arg Ala Gln Leu Lys Asn Tyr Ile Asn Leu Lys Leu Ala Tyr Tyr
465 470 475 480
Asp His Gln Ser Ala Tyr Asp Leu Lys Met Gly Phe Thr Asp Ile Ser
485 490 495
Thr Glu Ser Lys Glu Thr Met Asp Glu Arg Arg Lys Leu Phe Pro Phe
500 505 510
Asn Lys Glu Lys Glu Ala Gln Glu Ile Leu Ala Lys Met Lys Asn Ile
515 520 525
Ser Asn Val Ile Ile Ala Cys Arg Asn Asn Ile Ala Val Tyr Met Tyr
530 535 540
Lys Met Phe Glu Arg Asn Gly Tyr Asp Phe Ile Gly Leu Glu Lys Leu
545 550 555 560
Glu Ser Ser Gln Met Lys Lys Arg Gln Ser Arg Ser Phe Pro Thr Val
565 570 575
Lys Ser Leu Leu Asn Tyr His Lys Leu Ala Gly Met Thr Met Asp Glu
580 585 590
Ile Lys Lys Gln Glu Val Ser Ser Asn Ile Lys Lys Gly Phe Tyr Asp
595 600 605
Leu Glu Phe Asp Ala Asp Gly Lys Leu Tyr Gly Ala Lys Tyr Ser Asn
610 615 620
Lys Gly Asn Val His Phe Ile Glu Asp Glu Phe Tyr Ile Ser Gly Leu
625 630 635 640
Lys Ala Ile His Phe Ala Asp Met Lys Asp Tyr Phe Val Arg Leu Ser
645 650 655
Asn Asn Gly Lys Val Ser Val Ala Leu Val Pro Pro Ser Phe Thr Ser
660 665 670
Gln Met Asp Ser Val Glu His Lys Phe Phe Met Lys Lys Asn Ala Asn
675 680 685
Gly Lys Leu Ile Val Ala Asp Lys Lys Asp Val Arg Ser Cys Gln Glu
690 695 700
Lys His Lys Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Cys Asn
705 710 715 720
Ile Gly Phe Ile Val Glu Asp Asp Tyr Met Arg Glu Ser Leu Leu Gly
725 730 735
Ser Pro Thr Gly Gly Thr Tyr Asp Thr Ala Tyr Phe Asp Thr Lys Ile
740 745 750
Gln Gly Ser Lys Gly Val Tyr Asp Lys Ile Lys Glu Asn Gly Glu Thr
755 760 765
Tyr Ile Ala Val Leu Ser Asp Asp Val Ile Thr Ala Glu Val
770 775 780
<210> 19
<211> 735
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
human gut metagenome sequence
<400> 19
Met Ala His Lys Lys Asn Val Gly Ala Glu Ile Val Lys Thr Tyr Ser
1 5 10 15
Phe Lys Val Lys Asn Thr Asn Gly Ile Thr Met Glu Lys Leu Met Asn
20 25 30
Ala Ile Asp Glu Phe Gln Ser Tyr Tyr Asn Leu Cys Ser Asp Trp Ile
35 40 45
Cys Lys Asn Leu Thr Thr Met Thr Ile Gly Asp Leu Asp Gln Tyr Ile
50 55 60
Pro Glu Lys Ala Lys Gly Asn Thr Tyr Ala Thr Val Leu Leu Asp Glu
65 70 75 80
Ala Trp Lys Asn Gln Pro Leu Tyr Lys Ile Phe Gly Lys Lys Tyr Ser
85 90 95
Ser Asn Asn Arg Asn Asn Ala Leu Tyr Cys Ala Leu Ser Ser Val Ile
100 105 110
Asp Met Thr Lys Glu Asn Val Leu Gly Phe Ser Lys Thr His Tyr Ile
115 120 125
Arg Asn Asp Tyr Ile Leu Asn Val Ile Ser Asn Tyr Ala Ser Lys Leu
130 135 140
Ser Lys Leu Asn Thr Gly Val Lys Ser Arg Ala Ile Lys Glu Thr Ser
145 150 155 160
Asp Glu Ala Thr Ile Ile Glu Gln Val Ile Tyr Glu Met Glu His Asn
165 170 175
Lys Trp Glu Ser Ile Glu Asp Trp Lys Asn Gln Ile Glu Tyr Leu Asn
180 185 190
Ser Lys Thr Asp Tyr Asn Pro Thr Tyr Met Glu Arg Met Lys Thr Leu
195 200 205
Ser Ala Tyr Tyr Ser Thr His Lys Ser Glu Val Asp Ala Lys Met Gln
210 215 220
Glu Met Ala Val Glu Asn Leu Val Lys Phe Gly Gly Cys Arg Arg Asn
225 230 235 240
Asn Ser Lys Lys Ser Met Phe Ile Met Gly Ser Asn Thr Thr Asn Tyr
245 250 255
Thr Ile Ser Tyr Ile Gly Gly Asn Ser Phe Asn Ile Asn Phe Ala Asn
260 265 270
Ile Leu Asn Phe Asp Val Tyr Gly Arg Arg Asp Val Val Lys Asn Gly
275 280 285
Glu Val Leu Val Asp Ile Met Ala Asn His Gly Asp Ser Ile Val Leu
290 295 300
Lys Ile Val Asn Gly Glu Leu Tyr Ala Asp Val Pro Cys Ser Val Thr
305 310 315 320
Leu Asn Lys Val Glu Ser Asn Phe Asp Lys Val Val Gly Ile Asp Val
325 330 335
Asn Met Lys His Met Leu Leu Ser Thr Ser Ile Thr Asp Asn Gly Ser
340 345 350
Ser Asp Phe Leu Asn Ile Tyr Lys Glu Met Ser Asn Asn Ala Glu Phe
355 360 365
Met Ala Leu Cys Pro Glu Glu Asp Arg Lys Tyr Tyr Lys Asp Ile Ser
370 375 380
Lys Tyr Val Thr Phe Ala Pro Leu Glu Leu Asp Leu Leu Phe Ser Arg
385 390 395 400
Ile Ser Lys Gln Gly Lys Val Lys Met Glu Lys Val Tyr Ser Glu Ile
405 410 415
Leu Glu Ala Leu Lys Trp Lys Phe Phe Ala Asn Gly Asp Asn Lys Asn
420 425 430
Arg Ile Tyr Val Glu Ser Ile Gln Lys Ile Arg Gln Gln Ile Lys Ala
435 440 445
Leu Cys Val Ile Lys Asn Ala Tyr Tyr Glu Gln Gln Ser Ala Tyr Asp
450 455 460
Ile Asp Lys Thr Gln Glu Tyr Ile Glu Thr His Pro Phe Ser Leu Thr
465 470 475 480
Glu Lys Gly Met Ser Ile Lys Ser Lys Met Asp Lys Ile Cys Gln Thr
485 490 495
Ile Ile Gly Cys Arg Asn Asn Ile Ile Asp Tyr Ala Tyr Ser Phe Phe
500 505 510
Glu Arg Asn Gly Tyr Ser Ile Ile Gly Leu Glu Lys Leu Thr Ser Ser
515 520 525
Gln Phe Glu Lys Thr Lys Ser Met Pro Thr Cys Lys Ser Leu Leu Asn
530 535 540
Phe His Lys Val Leu Gly His Thr Leu Ser Glu Leu Glu Thr Leu Pro
545 550 555 560
Ile Asn Asp Val Val Lys Lys Gly Tyr Tyr Thr Phe Thr Thr Asp Asn
565 570 575
Glu Gly Lys Ile Thr Asp Ala Ser Leu Ser Glu Lys Gly Lys Val Arg
580 585 590
Lys Met Lys Asp Asp Phe Phe Asn Gln Ala Ile Lys Ala Ile His Phe
595 600 605
Ala Asp Val Lys Asp Tyr Phe Ala Thr Leu Ser Asn Asn Gly Gln Thr
610 615 620
Gly Ile Phe Phe Val Pro Ser Gln Phe Thr Ser Gln Met Asp Ser Asn
625 630 635 640
Thr His Asn Leu Tyr Phe Glu Asn Ala Lys Asn Gly Gly Leu Lys Leu
645 650 655
Ala Pro Lys Tyr Lys Val Arg Gln Thr Gln Glu Tyr His Leu Asn Gly
660 665 670
Leu Pro Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Tyr Ile Gly Leu
675 680 685
Asp Glu Thr Met Arg Asn Thr Phe Leu Lys Lys Ala Asn Ser Asn Lys
690 695 700
Ser Leu Tyr Asn Gln Pro Ile Tyr Asp Thr Gly Ile Lys Lys Thr Ala
705 710 715 720
Gly Val Phe Ser Arg Met Lys Lys Leu Lys Arg Tyr Glu Ile Ile
725 730 735
<210> 20
<211> 774
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-asian elephant fecal-elephas maximus sequence
<400> 20
Met Leu Asn Ile Lys Asn Asn Gly Glu Ser Val Asp Met Asn Thr Ile
1 5 10 15
Glu Leu Ala Met Lys Glu Tyr Asn Arg Tyr Tyr Asn Ile Cys Ser Asp
20 25 30
Trp Ile Cys Asn Asn Leu Met Thr Pro Ile Gly Ser Leu Tyr Gln Tyr
35 40 45
Ile Asp Asp Lys Cys Lys Asn Asn Ala Tyr Ala Gln Asn Leu Ile Ala
50 55 60
Glu Glu Trp Lys Asp Lys Pro Leu Tyr Tyr Met Phe Tyr Lys Gly Tyr
65 70 75 80
Asn Ala Asn Asn Cys Ala Asn Ala Ile Cys Cys Ala Ile Arg Ser Gln
85 90 95
Val Pro Glu Val Asn Lys Ala Glu Asn Ile Leu Asn Leu Ser Tyr Thr
100 105 110
Tyr Tyr Phe Arg Asn Gly Val Ile Lys Ser Val Ile Ser Asn Tyr Ala
115 120 125
Ser Lys Met Arg Ile Leu Ser Asp Lys Gln Ile Lys Tyr Cys Ile Val
130 135 140
Ser Glu Asn Thr Pro Asp Lys Ile Leu Ile Glu Gln Cys Ile Leu Glu
145 150 155 160
Leu Lys Arg Arg His Glu Asp Leu Lys Asp Trp Glu Glu Asn Leu Lys
165 170 175
Tyr Leu Ile Leu Lys Gly Asn Glu Ser Ala Ile Thr Arg Phe Thr Ile
180 185 190
Leu Lys Asp Phe Tyr Ser Lys Asn Ile Glu Arg Val Lys Glu Glu Arg
195 200 205
Glu Ile Met Ala Ile Ala Glu Leu Lys Asp Phe Gly Gly Cys Arg Arg
210 215 220
Lys Asp Asp Lys Leu Ser Met Cys Ile Gln Ser Ala Gly Asn Ser Lys
225 230 235 240
Asp Ile Lys Val Ser Arg Val Lys Thr Thr His Asn Tyr Thr Glu Leu
245 250 255
Val Asp Asp Tyr Thr Glu Asn Phe Asn Ile Lys Phe Ser Ala Leu Asp
260 265 270
Phe Asn Val Met Gly Arg Arg Asp Val Val Lys Thr Lys Leu Asn Lys
275 280 285
Thr Glu Asp Asp Ser Asn Thr Trp Gly Gly Thr Glu Leu Leu Val Asp
290 295 300
Ile Ile Asn Asn His Gly Cys Ser Leu Thr Phe Lys Leu Val Asp Asp
305 310 315 320
Lys Leu Tyr Val Asp Ile Pro Ile Asp Thr Glu His Ile Asn Lys Thr
325 330 335
Thr Asp Phe Lys Lys Ser Val Gly Ile Asp Val Asn Leu Lys His Ser
340 345 350
Leu Leu Asn Thr Asp Ile Leu Asp Asn Gly Gly Ile Asn Gly Tyr Ile
355 360 365
Asn Ile Tyr Lys Lys Leu Leu Ala Asp Asp Ala Phe Met Ser Ala Cys
370 375 380
Thr Lys Ala Asp Leu Val Asn Tyr Ile Asp Ile Ala Lys Thr Val Thr
385 390 395 400
Phe Cys Pro Ile Glu Ala Asp Phe Ile Ile Ser Asn Val Val Glu Lys
405 410 415
Tyr Leu His Met Lys Asp Asn Thr Asn Lys Met Glu Ile Ala Phe Ser
420 425 430
Ser Val Leu Met Asn Ile Arg Lys Glu Leu Glu Ile Lys Leu Leu His
435 440 445
Ser Ser Lys Glu Glu Ser Pro Leu Ile Arg Lys Gln Ile Ile Tyr Ile
450 455 460
Asn Cys Ile Ile Cys Leu Arg Asn Glu Leu Lys Gln Tyr Ala Ile Ala
465 470 475 480
Lys His Arg Tyr Tyr Lys Lys Gln Gln Glu Tyr Asp Thr Leu Cys Asp
485 490 495
Thr Leu His Gly Val Asp Tyr Lys Gln Ile His Pro Tyr Ala Gln Ser
500 505 510
Lys Glu Gly Ala Glu Gln Met Lys Lys Met Lys Thr Ile Glu Asn Asn
515 520 525
Leu Ile Ala Asn Arg Asn Asn Ile Ile Glu Tyr Ala Tyr Thr Val Phe
530 535 540
Glu Leu Asn Asn Phe Asp Leu Ile Ala Leu Glu Asn Ile Thr Lys Asp
545 550 555 560
Ile Met Glu Asp Lys Lys Lys Arg Lys Ser Phe Pro Ser Ile Asn Ser
565 570 575
Leu Leu Lys Tyr His Lys Val Ile Asn Cys Thr Glu Asp Asn Ile Asn
580 585 590
Asp Asn Glu Thr Tyr Gln Lys Phe Ala Lys Tyr Tyr Asn Val Ser Tyr
595 600 605
Glu Asn Gly Lys Val Thr Gly Ala Thr Leu Ser Gln Glu Gly Asn Lys
610 615 620
Val Lys Leu Lys Asp Asp Phe Tyr Asp Lys Leu Leu Lys Val Leu His
625 630 635 640
Phe Thr Ser Ile Lys Asp Tyr Phe Thr Thr Leu Ser Asn Lys Arg Lys
645 650 655
Ile Ala Val Ala His Val Pro Ala Tyr Tyr Thr Ser Gln Ile Asp Ser
660 665 670
Ile Asp Asn Lys Ile Cys Met Ile Lys Ser Thr Asp Lys Asn Gly Lys
675 680 685
Ser Thr Tyr Lys Ile Ala Asp Lys Thr Ile Val Arg Pro Thr Gln Glu
690 695 700
Lys His Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile
705 710 715 720
Asn Phe Ile Val Ala Asp Glu Lys Trp Arg Lys Lys Phe Val Arg Pro
725 730 735
Thr Asn Thr Asn Lys Pro Leu Tyr Asn Ser Pro Val Phe Ser Pro Ala
740 745 750
Val Lys Ser Glu Gly Gly Thr Ile Lys Asn Leu Gln Ile Leu Ser Ala
755 760 765
Thr Lys Thr Ile Ile Leu
770
<210> 21
<211> 755
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-cattle and sheep rumen sequence
<400> 21
Met Ala His Val Arg Thr Lys Asn Glu Gly Asn Met Ala Lys Thr Tyr
1 5 10 15
Ser Phe Lys Val Arg Glu Thr Asn Leu Lys Lys Asp Val Met Ile Glu
20 25 30
Tyr Asn Glu Tyr Tyr Asn Arg Leu Ser Asp Trp Ile Cys Gly Asn Leu
35 40 45
Thr Lys Met Thr Ile Gly Glu Leu Ala Glu Leu Val Pro Glu Lys Lys
50 55 60
Arg Asn Thr Ser Tyr Tyr Leu Ala Ala Thr Asp Glu Lys Trp Ile Asn
65 70 75 80
Glu Pro Met Tyr Lys Leu Phe Thr Asp Glu Tyr Thr Lys Lys Ser Ser
85 90 95
Phe Thr Asp Pro Leu Val Ala Asn Ser Asn Asn Cys Asp Asn Leu Ile
100 105 110
Leu Thr Ala Thr Asp Val Leu Asn Pro Glu Gly Tyr Glu Gly Asn Leu
115 120 125
Leu Ser Leu Cys Lys Ser Thr Tyr Arg Thr Phe Gly Tyr Ala Lys Gln
130 135 140
Ile Ile Ser Asn Met Lys Thr Lys Ile Gly Ala Leu Lys Pro Asn Val
145 150 155 160
Lys Arg Arg Val Leu Gly Glu Asn Pro Thr Tyr Asp Glu Lys Met Ile
165 170 175
Gln Val Leu Tyr Glu Met Tyr Asn Asn Gly Ile Ala Asp Val Thr Gly
180 185 190
Phe Asn Asp Arg Ile Lys Tyr Leu Lys Lys Gln Glu Thr Pro Asn Glu
195 200 205
Lys Leu Ile Ser Arg Met Lys Met Leu Arg Asp Phe Phe Lys Glu Asn
210 215 220
Arg Asn Asp Ile Met Asp Lys Cys Arg Ile Met Ala Val Glu Gln Leu
225 230 235 240
Val Ser Phe Gly Gly Cys Lys Arg Asn Ile Asn Gly Ala Ser Met Thr
245 250 255
Leu Arg Asn Gln Cys Ile Ser Val Lys Arg Lys Asp Gly Cys Gln Gly
260 265 270
Tyr Val Val Ala Ile Pro Val Gly Thr Lys Asn Ser Ile Val Phe Asp
275 280 285
Leu Tyr Gly Arg Arg Asp Val Ile Lys Asp Gly Val Glu Leu Val Asp
290 295 300
Val Cys Gly Lys His Thr Asp Thr Ile Thr Ile Lys Ser Val Asn Gly
305 310 315 320
Glu Leu Phe Leu Asp Met Pro Val Ala Ile Asn Phe Glu Lys Lys Ser
325 330 335
Gly Lys Cys Thr Lys Thr Val Gly Ile Asp Val Asn Thr Lys His Met
340 345 350
Leu Ile Gln Thr Ser Val Lys Asp Asn Gly Lys Phe Asp Tyr Tyr Val
355 360 365
Asn Leu Tyr Lys Ile Phe Ala Glu Asp Glu Glu Leu Asn Lys Ile Leu
370 375 380
Gly Asp Asp Glu Val Met Val Asn Ile Lys Lys Asn Ala Glu Asn Leu
385 390 395 400
Ser Phe Leu Pro Leu Glu Met Asp Leu Leu Tyr Ser Arg Ile Leu Asp
405 410 415
Gly Pro Gln Lys Tyr Lys Leu Ala Glu Asp Arg Ile Thr Glu Leu Leu
420 425 430
Lys Gln Trp Gly Ile Asn Phe Asp Ala Gly Cys Met Ser Gln Glu Arg
435 440 445
Ile Tyr Val Gln Cys Val Arg Lys Leu Arg Gly Asn Leu Lys Arg Leu
450 455 460
Leu Tyr Leu Gln Asn Lys Tyr Tyr Glu Ala Gln Gln Glu Tyr Asp Lys
465 470 475 480
Lys Met Gly Phe Asp Asp Lys Ser Thr Asp Ser Lys Glu Thr Met Asp
485 490 495
Lys Arg Arg Trp Glu Ser Pro Phe Arg Asn Thr Glu Glu Gly Thr Lys
500 505 510
Leu Tyr Asp Glu Ile Asn Thr Tyr Gln Asn Arg Ile Ile Gly Ile Arg
515 520 525
Asn Ser Ile Ile Asp Tyr Ala Tyr Leu Val Leu Glu Tyr Asn Gly Tyr
530 535 540
Asp Asn Leu Ser Leu Glu Tyr Leu Thr Ser Ser Gln Phe Lys Val Asn
545 550 555 560
Lys Thr Phe Pro Thr Thr Asn Ser Leu Leu Lys Tyr His Lys Leu Gln
565 570 575
Gly Lys Thr Lys Thr Glu Ala Glu Lys Cys Asp Ala Tyr Ile Ser His
580 585 590
Lys Ser Lys Tyr Lys Leu Ser Leu Lys Asp Gly Val Ile Asp Ser Ile
595 600 605
Asp Tyr Ser Ala Glu Gly Leu Lys Gln Ile Lys Lys Asp Arg Ser Arg
610 615 620
Asn Ile Ile Ile Lys Ala Ile His Phe Ala Asp Val Lys Asp Arg Phe
625 630 635 640
Val Leu Ser Ser Asn Asn Gly Asn Ala Ser Val Thr Phe Val Pro Ser
645 650 655
Tyr His Thr Ser Gln Ile Asp Ser Thr Asp His Lys Met Phe Val Thr
660 665 670
Asn Lys Gly Lys Ile Val Asp Lys Arg Lys Val Arg Gln Ile Gln Glu
675 680 685
Thr His Val Asn Gly Leu Asn Ser Asp Phe Asn Ala Ala Arg Asn Ile
690 695 700
Gln Tyr Ile Ser Glu Asn Glu Glu Trp Arg Asn Ala Leu Cys Lys Pro
705 710 715 720
Thr Glu Asn Met Tyr Asn Glu Pro Ile Tyr Val Pro Leu Val Lys Ser
725 730 735
Gln Asn Gly Met Phe Lys Ala Ile Lys Lys Leu Gly Ala Thr Lys Ile
740 745 750
Trp Gln Glu
755
<210> 22
<211> 789
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-cattle and sheep rumen sequence
<400> 22
Met Ala His Arg Asn Lys Asn Leu Ala Glu Asn Cys Ile Asn Lys Thr
1 5 10 15
Phe Ser Phe Lys Val Lys Ala Glu Lys Glu Glu Ile Asn Ser Lys Trp
20 25 30
Ile Pro Ala Ile Lys Glu Tyr Thr Ala Tyr Tyr Asn Arg Ile Ser Asp
35 40 45
Trp Ile Cys Asp Arg Leu Thr Asn Thr Thr Val Gly Glu Leu Ile Gly
50 55 60
Ile Ile Gly Tyr Lys Thr Asp Lys Lys Gly Asn Ala Leu Ala Tyr Ile
65 70 75 80
Lys Asp Gly Ser Ser Glu Lys Tyr Arg Asn Leu Pro Leu Tyr Cys Met
85 90 95
Phe Lys Lys Asn Phe Pro Ala Thr Thr Ala Asp Asn Ile Met Tyr Gln
100 105 110
Val Ile Glu Lys Leu Gly Val Asp Lys Tyr Asn Gly Asn Ser Leu Gly
115 120 125
Leu Ser Gly Thr Tyr Tyr Arg Arg Ile Gly Tyr Ile Ala Asn Val Ile
130 135 140
Gly Asn Tyr Arg Thr Lys Val Arg Gly Met Lys Ala Ser Val Lys Tyr
145 150 155 160
Arg Asn Phe Asp Pro Asn Asp Val Thr Glu Asp Val Leu Glu Asn Gln
165 170 175
Thr Ile Phe Glu Ile Asn Lys Asn Gly Phe Glu Cys Lys Gly Asp Phe
180 185 190
Glu Lys His Ile Glu Tyr Leu Lys Asn Arg Glu Leu Thr Asp Arg Leu
195 200 205
Asn Lys Leu Ile Leu Arg Met Glu Cys Leu Tyr Asn Tyr Tyr Val Glu
210 215 220
His Glu Asp Ala Val Lys Ala Lys Met Glu Asn Tyr Ala Ile Glu Ser
225 230 235 240
Phe Lys Thr Phe Gly Gly Cys His Arg Asn Ser Asn Arg Ser Met Ser
245 250 255
Ile Gln Phe Thr Asn Asn Ser Pro Leu Glu Ile Lys Lys Val Gly Lys
260 265 270
Thr Ser Phe Asp Leu Tyr Met Pro Ile Asn Gly Glu Val Ala Cys Leu
275 280 285
Gln Leu Met Gly Asn Lys Gln Ala Val Cys Val Gly Glu Asn Gly Glu
290 295 300
Arg Cys Asp Leu Val Asp Ile Val Asn Ser His Ser Lys Thr Ile Thr
305 310 315 320
Ile Lys Ile Ile Asn Gly Glu Met Tyr Val Asp Ile Pro Cys Val Val
325 330 335
Asn Phe Glu Lys Lys Asp Glu Asp Thr Ile Lys Ser Val Gly Val Asp
340 345 350
Val Asn Ile Lys His Glu Ile Leu Ala Thr Ser Val Ile Asp Asn Gly
355 360 365
Gln Leu Asn Gly Tyr Phe Asn Ile Tyr Lys Glu Leu Ile Asn Asn Lys
370 375 380
Glu Phe Val Asp Thr Phe Asn Gly Asp Ile Lys Ala Phe Glu Ala Phe
385 390 395 400
Lys Asp Asn Ala Ala Tyr Val Thr Phe Gly Leu Leu Glu Pro Asp Leu
405 410 415
Leu Phe Thr Arg Phe Tyr Glu Arg Ser Gly Phe Glu Lys Asp Asp Arg
420 425 430
His Ile Lys Leu Arg Glu Arg Glu Arg Ile Leu Thr Gly Ile Leu Lys
435 440 445
Arg Ile Gly Gln Glu His Ser Asp Val Asp Val Arg Asn Tyr Val Arg
450 455 460
Phe Val Asn Met Leu Arg Ser Lys Tyr Glu Ser Tyr Phe Val Leu Lys
465 470 475 480
Asn Lys Tyr Tyr Glu Lys Met Gln Glu Phe Asp Ser Thr Gln Asn Tyr
485 490 495
Val Asp Val Ser Thr Ala Ser Lys Glu Thr Met Asp Lys Arg Arg Phe
500 505 510
Asp Asn Pro Phe Arg Asn Thr Glu Val Ala Asn Glu Leu Leu Gly Lys
515 520 525
Ile Asp Asn Val Leu Gly Asp Ile Lys Gly Cys Met Ala Asn Ile Ile
530 535 540
Thr Tyr Ala Phe Lys Val Leu Gln Lys Asn Gly Tyr Asn Thr Ile Gly
545 550 555 560
Leu Glu Tyr Leu Asp Ser Ser Gln Phe Glu Asn Met Arg Thr Leu Thr
565 570 575
Pro Thr Ser Ile Leu Lys Tyr His Lys Met Glu Gly Lys Ser Val Asp
580 585 590
Ala Val Glu Ser Trp Ile Lys Glu Asn Lys Ile Pro Ser Asn Arg Tyr
595 600 605
Asp Phe Ile Tyr Glu Asp Asn His Leu Thr Asp Val Leu Leu Asn Ser
610 615 620
Asn Gly Ile Ala Tyr Gln Lys Lys Asn Leu Phe Met Asn Leu Val Ile
625 630 635 640
Lys Ala Ile Ser Phe Ala Asp Ile Lys Asn Lys Phe Val Gln Leu Ser
645 650 655
Asn Asn Thr Asn Val Ser Ile Leu Phe Ala Pro Ala Ala Phe Thr Ser
660 665 670
Gln Met Asp Ser Asn Arg His Val Ile Tyr Thr Val Lys Asn Asn Lys
675 680 685
Gly Lys Leu Ala Leu Val Asp Lys Lys Arg Val Arg Pro Asn Gln Glu
690 695 700
Lys His Ile Asn Gly Leu His Ser Gly Tyr Asn Ala Ala Cys Asn Val
705 710 715 720
Lys Phe Ile Cys Asp Asn Glu Phe Phe Arg Asn Thr Met Thr Ile Ser
725 730 735
Asn Lys Gly Lys Asn Leu Tyr Ser Gln Pro Thr Tyr Asp Ile Lys Glu
740 745 750
Ala Tyr Lys Lys Asn Ala Gly Cys Lys Val Ile Asn Asp Phe Ile Lys
755 760 765
Asn Gly Asn Ala Val Ile Cys Cys Ile Glu Asn Asn Lys Leu Ile Glu
770 775 780
Thr Asn Gly Arg Gln
785
<210> 23
<211> 766
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-fecal sequence
<400> 23
Met Ala Asn Lys Lys Phe Lys Leu Thr Lys Asn Glu Val Val Lys Ser
1 5 10 15
Phe Val Leu Lys Val Ala Asn Gln Lys Lys Cys Ala Ile Thr Asn Glu
20 25 30
Thr Leu Gln Glu Tyr Lys Asn Tyr Tyr Asn Lys Val Ser Gln Trp Ile
35 40 45
Asn Asn Asn Leu Thr Lys Met Thr Ile Gly Asp Leu Ile Gln Tyr Ala
50 55 60
Pro Thr Val Ser Lys Lys Gly Lys Lys Gln Pro Asp Gly Thr Met Val
65 70 75 80
Tyr Asp Thr Pro Leu Tyr Val Thr Tyr Ala Met Ser Asp Glu Trp Lys
85 90 95
Asn Lys Pro Leu Tyr Tyr Ile Phe Lys Lys Glu Tyr Asn Thr Asn Asn
100 105 110
Ala Asn Asn Leu Leu Tyr Glu Ala Ile Arg Asn Leu Asn Val Asp Glu
115 120 125
Tyr Asp Gly Asn Gln Leu Asn Phe Asn Ser Thr Tyr Tyr Arg Thr Gln
130 135 140
Gly Tyr Val Asn Arg Val Phe Ser Asn Tyr Arg Thr Lys Ile Asn Thr
145 150 155 160
Leu Asp Ile Lys Ile Lys Lys Ser Lys Val Asp Glu Asn Ser Asp Val
165 170 175
Glu Thr Leu Glu Pro Gln Thr Met Tyr Glu Ile Asn Lys Leu Asn Leu
180 185 190
Lys Thr Asn Lys Asp Trp Glu Glu Arg Leu Gln Tyr Leu Thr Met Gln
195 200 205
Glu Asn Pro Asn Gln Asn Thr Ile Asp Arg Thr Lys Ile Leu Phe Asn
210 215 220
Tyr Phe Ile Asn Asn Asn Asp Thr Ile Phe Gln Lys Met Glu Glu Leu
225 230 235 240
Ser Ile Lys Gln Leu Thr Glu Phe Gly Gly Cys Lys Met Lys Asp Asn
245 250 255
Thr Thr Ser Met Thr Ile Asn Ile Gln Asp Phe Lys Ile Lys Arg Lys
260 265 270
Glu Asn Ser Ile Gly Tyr Ile Met Thr Ile Pro Phe Asn Lys Lys Asn
275 280 285
Val Asp Val Glu Leu Tyr Gly His Lys Gln Thr Ile Lys Gly His Lys
290 295 300
Asn Ser Tyr Thr Glu Ile Val Asp Ile Val Asn Lys His Gly Asn Thr
305 310 315 320
Ile Thr Phe Lys Ile Lys Asn Asn Gln Leu Phe Ala Ile Ile Thr Ser
325 330 335
Asp Thr Glu Val Thr Lys Pro Glu Pro Gln Tyr Glu Lys Ile Val Gly
340 345 350
Val Asp Val Asn Ile Lys His Thr Leu Met Val Thr Ser Glu Lys Asp
355 360 365
Asn Gly Lys Leu Lys Gly Tyr Ile Asn Leu Tyr Lys Glu Val Leu Lys
370 375 380
Asn Asp Glu Phe Lys Lys Leu Leu Asn Lys Thr Glu Leu Asp Asn Phe
385 390 395 400
Lys Ser Leu Ser Gln Ile Val Thr Phe Cys Pro Ile Glu Tyr Asp Phe
405 410 415
Leu Phe Ser Arg Ile Phe Asp Asp Glu Asn Thr Lys Lys Glu Leu Ala
420 425 430
Phe Ser Asn Val Leu Tyr Asp Ile Gln Lys Gln Leu Lys Asn Thr Asn
435 440 445
Asn Ile Leu Gln Tyr Asn Tyr Ile Ala Cys Val Asn Lys Leu Arg Ala
450 455 460
Lys Tyr Lys Ala Tyr Phe Val Leu Lys Met Ser Tyr Met Lys Gln Gln
465 470 475 480
Lys Ile Tyr Asp Thr Asn Met Gly Phe Phe Asp Ile Ser Thr Glu Ser
485 490 495
Lys Glu Thr Met Asp Gln Arg Arg Ser Leu Tyr Pro Phe Ile Asn Thr
500 505 510
Glu Ile Ala Gln Asn Ile Ile Thr Lys Met Asn Asn Val Gln Gln Asp
515 520 525
Ile Asn Gly Cys Leu Lys Asn Ile Phe Lys Tyr Thr Tyr Thr Val Phe
530 535 540
Glu Asn Asn Asn Tyr Asp Thr Ile Val Leu Glu Asn Leu Glu Asn Ala
545 550 555 560
Asn Phe Glu Lys His Asn Pro Leu Pro Asn Ile Thr Ser Leu Leu Lys
565 570 575
Tyr His Lys Val Gln Gly Leu Thr Ile Gln Glu Ala Glu Gln His Glu
580 585 590
Lys Val Gly Asn Leu Ile Gln Asn Asp Asn Tyr Ile Phe Gln Leu Asn
595 600 605
Glu Asp Asn Lys Ile Ile Asn Ala Asp Tyr Ser Gln Lys Ala Tyr Tyr
610 615 620
Lys Val Cys Lys Ala Leu Phe Phe Asn Gln Ala Ile Lys Thr Leu His
625 630 635 640
Phe Ala Ser Val Lys Asp Glu Met Ile Lys Leu Ser Asn Asn Asn Lys
645 650 655
Val Cys Val Ala Ile Ile Pro Pro Glu Tyr Thr Ser Gln Ile Asp Ser
660 665 670
Asn Thr His Lys Leu Tyr Phe Ile Asn Lys Asp Gly Lys Leu Leu Lys
675 680 685
Ala Asp Lys Lys Thr Val Arg Lys Thr Gln Glu Lys His Ile Asn Gly
690 695 700
Leu Asn Ala Asp Phe Asn Ala Ala Ser Asn Ile Lys Tyr Ile Val Gln
705 710 715 720
Asn Glu Thr Trp Arg Asn Leu Phe Thr Asn Lys Thr Asn Asn Thr Tyr
725 730 735
Gly Leu Pro Ile Leu Thr Pro Ser Lys Lys Gly Gln Ser Asn Ile Ile
740 745 750
Thr Gln Leu Met Lys Ile Asn Ala Thr Gln Glu Leu Val Val
755 760 765
<210> 24
<211> 752
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-fecal sequence
<400> 24
Met Ala Lys Ser Ile Met Lys Lys Ser Ile Lys Phe Lys Val Lys Gly
1 5 10 15
Asn Ser Pro Ile Asn Glu Asp Ile Ile Asn Glu Tyr Lys Gly Tyr Tyr
20 25 30
Asn Thr Cys Ser Asn Trp Ile Asn Asn Asn Leu Thr Ser Ile Thr Ile
35 40 45
Gly Glu Met Gly Lys Phe Leu Lys Asp Val Met Arg Lys Thr Thr Gly
50 55 60
Tyr Ile Asp Val Ala Leu Ser Asp Glu Trp Lys Asp Lys Pro Met Tyr
65 70 75 80
Tyr Leu Phe Thr Lys Lys Tyr Asn Pro Lys His Ala Asn Asn Leu Leu
85 90 95
Tyr Tyr Phe Ile Lys Glu Lys Lys Leu Asp Lys Phe Asn Gly Asn Ile
100 105 110
Leu Asn Val Pro Glu Tyr Tyr Tyr Arg Lys Glu Gly Tyr Phe Lys Leu
115 120 125
Val Ala Gly Asn Tyr Arg Thr Lys Ile Asn Thr Leu Asn Phe Lys Ile
130 135 140
Lys Ser Lys Lys Val Asp Ala Asn Ser Leu Ser Glu Asp Ile Glu Met
145 150 155 160
Gln Thr Ile Tyr Glu Ile Val Lys Arg Gly Leu Asn Lys Lys Ser Asp
165 170 175
Trp Asp Ser Tyr Ile Ser Tyr Ile Glu Cys Val Gln Asn Pro Asn Ile
180 185 190
Asp Asn Ile Asn Arg Tyr Lys Leu Leu Arg Asp Tyr Phe Cys Glu Asn
195 200 205
Glu Asp Val Ile Lys Asn Lys Ile Glu Ile Leu Ser Ile Glu Gln Ile
210 215 220
Lys Glu Phe Gly Gly Cys Ile Met Lys Pro His Ile Asn Ser Met Thr
225 230 235 240
Phe Gly Ile Gln Lys Phe Lys Ile Glu Glu Ile Glu Asn Ser Leu Gly
245 250 255
Phe Thr Phe Asn Leu Pro Leu Asn Lys Asn Asn Tyr Lys Ile Glu Leu
260 265 270
Trp Gly His Arg Gln Leu Lys Lys Gly Asn Lys Glu Ser Asn Val Asn
275 280 285
Val Ser Leu Asp Asp Phe Ile Asn Thr Tyr Gly Gln Asn Val Val Phe
290 295 300
Thr Ile Lys Arg Lys Lys Leu Tyr Ile Val Phe Ser Tyr Asp Tyr Glu
305 310 315 320
Phe Glu Arg Gly Glu Cys Asn Phe Glu Lys Ser Val Gly Leu Asp Val
325 330 335
Asn Phe Lys His Ser Leu Phe Val Thr Ser Glu Ile Asp Asn Asn Gln
340 345 350
Phe Asp Gly Tyr Ile Asn Leu Tyr Lys Tyr Ile Leu Ser Asn Asn Glu
355 360 365
Phe Thr Ser Leu Leu Thr Asp Ser Glu Arg Lys Asp Tyr Glu Asp Leu
370 375 380
Ala Asn Ile Val Thr Phe Cys Pro Phe Glu Tyr Gln Leu Leu Phe Ser
385 390 395 400
Arg Tyr Asp Lys Leu Ser Lys Ile Ser Glu Lys Glu Lys Val Leu Ser
405 410 415
Lys Ile Leu Tyr Ser Leu Gln Lys Lys Leu Lys Asn Glu Lys Arg Thr
420 425 430
Lys Glu Tyr Ile Tyr Val Ser Cys Val Asn Lys Leu Arg Ala Lys Tyr
435 440 445
Val Ser Tyr Phe Lys Leu Lys Gln Lys Tyr Asn Glu Lys Gln Lys Glu
450 455 460
Tyr Asp Ile Glu Met Gly Phe Val Asp Asp Ser Thr Glu Ser Lys Glu
465 470 475 480
Ser Met Asp Lys Arg Arg Phe Glu Asn Pro Phe Ile Asn Thr Pro Val
485 490 495
Ala Lys Glu Leu Leu Glu Lys Met Asn Asn Val Lys Gln Asp Ile Asn
500 505 510
Gly Cys Lys Lys Asn Ile Val Val Tyr Ala Tyr Lys Val Leu Glu Gln
515 520 525
Asn Gly Tyr Asn Ile Ile Ala Leu Glu Asn Leu Glu Asn Ser Asn Phe
530 535 540
Glu Lys Ile Arg Val Leu Pro Lys Ile Lys Ser Leu Leu Glu Tyr His
545 550 555 560
Lys Phe Glu Asn Lys Asn Ile Asn Asp Ile Lys Asn Ser Asp Lys Tyr
565 570 575
Lys Glu Phe Ile Glu Pro Gly Tyr Phe Glu Leu Ile Thr Asn Glu Asn
580 585 590
Asn Glu Ile Ile Asp Ala Lys Tyr Thr Gln Lys Gly Asp Ile Lys Ile
595 600 605
Lys Asn Ala Asp Phe Ile Asn Ile Met Ile Lys Ala Leu Asn Phe Ala
610 615 620
Ser Ile Lys Asp Glu Phe Ile Leu Leu Ser His Asn Gly Lys Ser Gln
625 630 635 640
Ile Ala Leu Val Pro Ala Glu Tyr Thr Ser Gln Met Asp Ser Ile Asp
645 650 655
His Cys Ile Tyr Met Thr Lys Asn Asp Lys Gly Lys Leu Val Lys Val
660 665 670
Asp Lys Arg Lys Val Arg Thr Lys Gln Glu Arg His Ile Asn Gly Leu
675 680 685
Asn Ala Asp Phe Asn Ala Ala Cys Asn Ile Lys Tyr Ile Val Thr Asn
690 695 700
Glu Asp Trp Arg Lys Val Phe Cys Ile Lys Pro Lys Lys Glu Asp Tyr
705 710 715 720
Asn Thr Pro Leu Leu Asp Ala Thr Lys Asn Gly Gln Phe Arg Ile Leu
725 730 735
Asp Lys Leu Lys Lys Leu Asn Ala Thr Lys Leu Leu Glu Met Glu Lys
740 745 750
<210> 25
<211> 814
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 25
Met Val Lys Val Phe Ile Asn Val Phe Leu Ser Glu Lys Asn Gln Ile
1 5 10 15
Thr Thr Asn Ile Phe Asp Thr Glu Lys Ile Ser Asn Ser Tyr Ile Asn
20 25 30
His Ile Asn His Gln Phe Met Ala Thr His Lys Lys Thr Asp Asn Gln
35 40 45
Thr Ile Val Lys Ala Tyr Val Met Lys Ala Lys Met Ser Lys His Asp
50 55 60
Ile Glu Arg Val Trp Lys Pro Thr Ile Asp Glu Tyr Ile Asn Tyr Tyr
65 70 75 80
Asn Lys Leu Ser Asp Trp Ile Cys Lys Asn Leu Thr Ser Val Thr Ile
85 90 95
Gly Asp Leu Leu Lys Tyr Val Gly Glu Lys Gln Ile Asn Lys Gly Val
100 105 110
Gly Tyr Tyr Thr Tyr Phe Ile Asp Glu Gln Lys Thr Asp Leu Pro Leu
115 120 125
Tyr Thr Leu Phe Thr Asp Cys Pro Lys Thr His Ala Asp Asn Leu Leu
130 135 140
Phe Glu Ala Val Arg Lys Ile Asn Pro Glu Asn Tyr Asn Gly Asn Leu
145 150 155 160
Leu Ser Leu Phe Glu Thr Gly Tyr Arg Arg Asn Gly Tyr Phe Asp Asn
165 170 175
Val Ile Ser Asn Tyr Arg Thr Lys Met Thr Thr Leu Lys Ile Asn Pro
180 185 190
Lys Tyr Lys Arg Phe Ser Ser Glu Asn Met Pro Thr Asp Glu Val Leu
195 200 205
Leu Glu Gln Thr Val Tyr Glu Val Thr Lys Asn Asp Phe Lys Asn Asp
210 215 220
Asp Asp Trp Lys Lys Ser Ile Asp Tyr Met Lys Gln Lys Ser Glu Pro
225 230 235 240
Asn Thr Ala Leu Ile Phe Arg Met Glu Thr Leu Phe Asp Tyr Trp Lys
245 250 255
Asp His Lys Gln Asp Val Glu Gln Tyr Ile Asn Gln Lys Arg Val Glu
260 265 270
Cys Leu Lys Asp Phe Gly Gly Cys Lys Arg Arg Ala Asp Gly Leu Ser
275 280 285
Met Val Ile Leu Leu Asn Lys Lys Leu Thr Lys Ile Glu Ala Asp Gly
290 295 300
Leu Thr Ser Tyr Lys Leu Thr Thr Asn Leu Phe Gly Gly Lys Tyr Met
305 310 315 320
Ile Asn Ile Phe Gly His Arg Ala Leu Val Ser Val Cys Asn Gly Glu
325 330 335
Arg Ala Glu Asn Glu Asn Ile Asp Ile Cys Asn Lys His Gly Glu Arg
340 345 350
Phe Thr Phe Lys Ile Glu Asn Gly Asn Leu Phe Val Ala Leu Thr Ala
355 360 365
Asp Tyr Asn Tyr Glu Lys Gln Pro Asn Leu Pro Lys Asn Ile Val Gly
370 375 380
Val Asp Ile Asn Ile Lys His Ser Met Leu Asn Ser Ser Ile Glu Asp
385 390 395 400
Lys Gly Lys Val Lys Gly Tyr Val Asn Leu Tyr Lys Glu Phe Leu Ser
405 410 415
Asp Lys Asn Phe Arg Lys Thr Ile Thr Ser Asp Glu Glu Leu Asn Gln
420 425 430
Tyr Ile Glu Leu Ser Lys Tyr Ala Thr Phe Gly Ile Thr Glu Leu Asp
435 440 445
Ser Leu Phe Ala Arg Ala Thr Asp Thr Glu Lys Ser Ile Leu Cys Lys
450 455 460
Arg Glu Leu Ala Met Gln Asp Val Phe Glu Lys Leu Glu Lys Arg Tyr
465 470 475 480
Lys Asp Asp His Lys Ile Lys Phe Tyr Leu Gly Ser Thr Gln Lys Leu
485 490 495
Arg Ala Gln Tyr Ile Ser Tyr Phe Lys Ile Lys Glu Ala Tyr Asn Arg
500 505 510
Lys Gln Gln Glu Tyr Asp Leu Ala His Gly Lys Thr Asp Asn Pro Asp
515 520 525
Glu Val Tyr Lys Ser Asp Phe Ile Asn Glu Pro Ser Ala Lys Glu Met
530 535 540
Leu Val Lys Leu Asn Arg Ile Glu Arg Lys Ile Ile Gly Cys Arg Asn
545 550 555 560
Asn Ile Val Thr Tyr Ala Phe Asn Val Ile Lys Asn Asn Gly Tyr Asp
565 570 575
Thr Ile Gly Val Glu Tyr Leu Thr Ser Ser Gln Phe Glu Lys Lys Arg
580 585 590
Arg Leu Pro Ser Ile Lys Ser Leu Leu Asn Tyr Arg Lys Leu Leu Gly
595 600 605
Lys Pro Lys Asp Glu Trp Asn Leu Lys Glu Trp Asn Asp Val Tyr Met
610 615 620
Cys Tyr Arg Pro Glu Leu Asp Asp Ala Gly Asn Ile Met Asn Phe Thr
625 630 635 640
Ile Thr Asn Glu Gly Ile Lys Arg Asn Lys Glu Ser Thr Phe Tyr Asn
645 650 655
Ser Phe Ile Lys Ala Ile His Phe Ala Asp Val Lys Asp Lys Phe Ala
660 665 670
Gln Leu Thr Asn Asn Asn Thr Met Asn Thr Val Phe Ile Pro Ser Ser
675 680 685
Phe Thr Ser Gln Ile Asp Ser Lys Thr Arg Lys Leu Tyr Leu Leu Glu
690 695 700
Tyr Thr Glu Lys Cys Asp Asn Gly Lys Thr Lys Lys Val Val Lys Phe
705 710 715 720
Ile Asn Lys Arg Val Leu Arg Lys Ile Gln Glu Gln His Leu Asn Gly
725 730 735
Met Asn Ala Asp Asn Asn Ala Ala Arg Asn Ile Arg Asp Ile Thr Lys
740 745 750
Asn Leu Arg Asp Val Phe Thr Lys Lys Gln Thr Asp Lys Asn Cys Tyr
755 760 765
Asn Ser Ala Glu Phe Met Ile Gln Thr Lys Phe Lys Lys Arg Leu Pro
770 775 780
Gln Ala Thr Val Phe Gly Glu Leu Asn Arg Asn Gly Tyr Val Lys Val
785 790 795 800
Leu Thr Gln Glu Glu Tyr Asp Glu Leu Thr Lys Ser Ala Lys
805 810
<210> 26
<211> 776
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 26
Met Ala Thr His Lys Lys Thr Asp Asn Gln Thr Ile Val Lys Ala Tyr
1 5 10 15
Val Met Lys Ala Lys Met Ser Lys His Asp Ile Glu Arg Val Trp Lys
20 25 30
Pro Thr Ile Asp Glu Tyr Ile Asn Tyr Tyr Asn Lys Leu Ser Asp Trp
35 40 45
Ile Cys Lys Asn Leu Thr Ser Val Thr Ile Gly Asp Leu Leu Lys Tyr
50 55 60
Val Gly Glu Lys Gln Ile Asn Lys Gly Val Gly Tyr Tyr Thr Tyr Phe
65 70 75 80
Ile Asp Glu Gln Lys Thr Asp Leu Pro Leu Tyr Thr Leu Phe Thr Asp
85 90 95
Cys Pro Lys Thr His Ala Asp Asn Leu Leu Phe Glu Ala Val Arg Lys
100 105 110
Ile Asn Pro Glu Asn Tyr Asn Gly Asn Leu Leu Ser Leu Phe Glu Thr
115 120 125
Gly Tyr Arg Arg Asn Gly Tyr Phe Asp Asn Val Ile Ser Asn Tyr Arg
130 135 140
Thr Lys Met Thr Thr Leu Lys Ile Asn Pro Lys Tyr Lys Arg Phe Ser
145 150 155 160
Ser Glu Asn Met Pro Thr Asp Glu Val Leu Leu Glu Gln Thr Val Tyr
165 170 175
Glu Val Thr Lys Asn Asp Phe Lys Asn Asp Asp Asp Trp Lys Lys Ser
180 185 190
Ile Asp Tyr Met Lys Gln Lys Ser Glu Pro Asn Thr Ala Leu Ile Phe
195 200 205
Arg Met Glu Thr Leu Phe Asp Tyr Trp Lys Asp His Lys Gln Asp Val
210 215 220
Glu Gln Tyr Ile Asn Gln Lys Arg Val Glu Cys Leu Lys Asp Phe Gly
225 230 235 240
Gly Cys Lys Arg Arg Ala Asp Gly Leu Ser Met Val Ile Leu Leu Asn
245 250 255
Lys Lys Leu Thr Lys Ile Glu Ala Asp Gly Leu Thr Ser Tyr Lys Leu
260 265 270
Thr Thr Asn Leu Phe Gly Gly Lys Tyr Met Ile Asn Ile Phe Gly His
275 280 285
Arg Ala Leu Val Ser Val Cys Asn Gly Glu Arg Ala Glu Asn Glu Asn
290 295 300
Ile Asp Ile Cys Asn Lys His Gly Glu Arg Phe Thr Phe Lys Ile Glu
305 310 315 320
Asn Gly Asn Leu Phe Val Ala Leu Thr Ala Asp Tyr Asn Tyr Glu Lys
325 330 335
Gln Pro Asn Leu Pro Lys Asn Ile Val Gly Val Asp Ile Asn Ile Lys
340 345 350
His Ser Met Leu Asn Ser Ser Ile Glu Asp Lys Gly Lys Val Lys Gly
355 360 365
Tyr Val Asn Leu Tyr Lys Glu Phe Leu Ser Asp Lys Asn Phe Arg Lys
370 375 380
Thr Ile Thr Ser Asp Glu Glu Leu Asn Gln Tyr Ile Glu Leu Ser Lys
385 390 395 400
Tyr Ala Thr Phe Gly Ile Thr Glu Leu Asp Ser Leu Phe Ala Arg Ala
405 410 415
Thr Asp Thr Glu Lys Ser Ile Leu Cys Lys Arg Glu Leu Ala Met Gln
420 425 430
Asp Val Phe Glu Lys Leu Glu Lys Arg Tyr Lys Asp Asp His Lys Ile
435 440 445
Lys Phe Tyr Leu Gly Ser Thr Gln Lys Leu Arg Ala Gln Tyr Ile Ser
450 455 460
Tyr Phe Lys Ile Lys Glu Ala Tyr Asn Arg Lys Gln Gln Glu Tyr Asp
465 470 475 480
Leu Ala His Gly Lys Thr Asp Asn Pro Asp Glu Val Tyr Lys Ser Asp
485 490 495
Phe Ile Asn Glu Pro Ser Ala Lys Glu Met Leu Val Lys Leu Asn Arg
500 505 510
Ile Glu Arg Lys Ile Ile Gly Cys Arg Asn Asn Ile Val Thr Tyr Ala
515 520 525
Phe Asn Val Ile Lys Asn Asn Gly Tyr Asp Thr Ile Gly Val Glu Tyr
530 535 540
Leu Thr Ser Ser Gln Phe Glu Lys Lys Arg Arg Leu Pro Ser Ile Lys
545 550 555 560
Ser Leu Leu Asn Tyr Arg Lys Leu Leu Gly Lys Pro Lys Asp Glu Trp
565 570 575
Asn Leu Lys Glu Trp Asn Asp Val Tyr Met Cys Tyr Arg Pro Glu Leu
580 585 590
Asp Asp Ala Gly Asn Ile Met Asn Phe Thr Ile Thr Asn Glu Gly Ile
595 600 605
Lys Arg Asn Lys Glu Ser Thr Phe Tyr Asn Ser Phe Ile Lys Ala Ile
610 615 620
His Phe Ala Asp Val Lys Asp Lys Phe Ala Gln Leu Thr Asn Asn Asn
625 630 635 640
Thr Met Asn Thr Val Phe Ile Pro Ser Ser Phe Thr Ser Gln Ile Asp
645 650 655
Ser Lys Thr Arg Lys Leu Tyr Leu Leu Glu Tyr Thr Glu Lys Cys Asp
660 665 670
Asn Gly Lys Thr Lys Lys Val Val Lys Phe Ile Asn Lys Arg Val Leu
675 680 685
Arg Lys Ile Gln Glu Gln His Leu Asn Gly Met Asn Ala Asp Asn Asn
690 695 700
Ala Ala Arg Asn Ile Arg Asp Ile Thr Lys Asn Leu Arg Asp Val Phe
705 710 715 720
Thr Lys Lys Gln Thr Asp Lys Asn Cys Tyr Asn Ser Ala Glu Phe Met
725 730 735
Ile Gln Thr Lys Phe Lys Lys Arg Leu Pro Gln Ala Thr Val Phe Gly
740 745 750
Glu Leu Asn Arg Asn Gly Tyr Val Lys Val Leu Thr Gln Glu Glu Tyr
755 760 765
Asp Glu Leu Thr Lys Ser Ala Lys
770 775
<210> 27
<211> 778
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 27
Met Ala His Lys Gly Glu Lys Glu Gly Tyr Gln Ile Lys Thr Leu Lys
1 5 10 15
Phe Lys Val Arg Ser His Asp Ile Gly Lys Ser Leu Tyr Asp Ile Val
20 25 30
Asn Glu Tyr Thr Asn Tyr Tyr Asn Lys Val Ser Lys Trp Ile Cys Asp
35 40 45
Asn Leu Asp Thr Pro Ile Gly Glu Leu Ser Lys Asn Ile Ser Glu Lys
50 55 60
Arg His Asn Ser Lys Tyr Tyr Arg Ala Thr Asn Asp Pro Asn Trp Lys
65 70 75 80
Asn Glu Pro Met Trp Lys Ile Phe Thr Lys Lys Phe Ser Asn Gly Glu
85 90 95
Thr Phe Ser Glu Gln Gly Lys Asn Asp Lys Leu Ala Asn Leu Ser Asn
100 105 110
Cys Asp Asn Ile Leu Ser Tyr Ser Ile Ile Asp Tyr Asn Ile Asp Gly
115 120 125
Tyr Thr Gly Asn Ile Leu Gly Leu Thr Asp Thr Ser Tyr Arg Leu Asn
130 135 140
Gly Tyr Ile Ser Asn Cys Ile Ser Asn Tyr Lys Thr Lys Ile Arg Thr
145 150 155 160
Ala Lys Pro Lys Val Arg Ser Thr Ala Ile Thr Glu His Ser Thr Val
165 170 175
Glu Glu Lys Thr Asn Asn Thr Ile Tyr Glu Met Val Arg Lys Gly Phe
180 185 190
Met Ser Pro Asn Asp Phe Lys Asn Gln Ile Lys Tyr Leu Thr Glu Lys
195 200 205
Glu Asn Pro Asn Asp Lys Leu Ile Asp Arg Leu Ser Ile Leu His Ser
210 215 220
Phe Tyr Thr Glu Asn Glu Glu Asp Val Asn Asn Ala Phe Ser Arg Met
225 230 235 240
Ser Val Glu Met Leu Lys Asn Asn Asn Gly Cys Thr Arg Asn Gly Asp
245 250 255
Lys Lys Thr Leu Asn Ile Ser Ser Ile Asp Tyr Lys Val Thr Arg Lys
260 265 270
Glu Gly Cys Asp Gly Tyr Ile Leu Ser Phe Gly Ser Arg Asn Gln Lys
275 280 285
Tyr Asn Ile Asp Leu Trp Gly Arg Arg Asp Thr Ile Ser Asn Gly Lys
290 295 300
Glu Leu Ile Asp Leu Ser Glu His Gly Glu Pro Leu Thr Ile Thr Ser
305 310 315 320
Glu Asn Gly Asp Tyr Tyr Val Cys Met Thr Val Asp Val Pro Phe Glu
325 330 335
Lys Lys Ser Thr Gly Ser Thr Glu Lys Val Ala Ser Val Asp Val Asn
340 345 350
Thr Lys His Thr Met Leu Ser Thr Asp Val Ile Asp Asp Gly Thr Leu
355 360 365
Lys Gly Tyr Leu Asn Ile Tyr Lys Lys Leu Leu Leu Asp Thr Glu Leu
370 375 380
Thr Ser Leu Leu His Lys Gln Asp Phe Asp Asp Met Lys Glu Leu Ser
385 390 395 400
His Asn Val Cys Phe Gly Pro Ile Glu Tyr Asn Phe Leu Leu Ser Arg
405 410 415
Ile Leu Asp Leu Asp Ala Tyr Glu Lys Lys Val Glu Asp Arg Ile Thr
420 425 430
His Ser Met Lys Glu Met Leu Lys Thr Glu Thr Asp Glu Arg Asn Lys
435 440 445
Met Tyr Leu Gly Ser Val Ile Lys Met Arg Ala Leu Leu Lys Val Tyr
450 455 460
Ile Ser Thr Lys Asn Arg Tyr His Lys Glu Gln Gln Ser Tyr Asp Glu
465 470 475 480
Ser Met Gly Phe Thr Asp Thr Ser Thr Ala Ser Lys Asp Thr Met Asp
485 490 495
Lys Arg Arg Phe Glu Asn Pro Phe Ser Glu Thr Glu Thr Gly Lys Lys
500 505 510
Leu Asn Asn Asp Leu Ser Ala Leu Ser Lys Lys Ile Ile Gly Cys Arg
515 520 525
Asp Asn Ile Val Arg Tyr Ala Tyr Thr Thr Leu Gln Asp Asn Gly Tyr
530 535 540
Thr Met Ile Gly Val Glu Asp Leu Asn Ser Ser Thr Phe Ala Asn Thr
545 550 555 560
Arg Asn Pro Phe Pro Thr Ile Lys Ser Leu Leu Asn Tyr His His Leu
565 570 575
Ser Gly Lys Thr Pro Glu Glu Ala Arg Asn Ile Asp Thr Tyr Ser Lys
580 585 590
Phe Ser Asp His Tyr Thr Leu Thr Thr Asp Glu Glu Gly Lys Ile Thr
595 600 605
Asp Ala Lys Tyr Thr Lys Lys Ala Glu Thr Lys Ile Lys Lys Lys Arg
610 615 620
Ala Arg Asp Thr Ile Ile Lys Ala Ile His Phe Ala Glu Val Lys Asp
625 630 635 640
Val Met Cys Val Met Ser Asn Asn Gly Thr Ala Ser Val Ala Phe Glu
645 650 655
Pro Ser Tyr Phe Ser Ser Gln Met Asp Ser Ala Thr His Lys Val Tyr
660 665 670
Thr Thr Arg Asn Lys Lys Gly Lys Asp Val Ile Ala Ser Lys Glu Thr
675 680 685
Val Arg Pro Arg Gln Glu Lys His Ile Asn Gly Met Asn Cys Asp Ile
690 695 700
Asn Ser Pro Lys Asn Leu Ser Tyr Leu Ile Thr Asn Glu Glu Phe Arg
705 710 715 720
Glu Met Phe Leu Thr Pro Thr Lys Asn Gly Tyr Asn Glu Pro Phe Tyr
725 730 735
Lys Ser Arg Val Lys Ser Ala Ala Ser Met Met Ser Gly Leu Lys Lys
740 745 750
Leu Gly Ala Thr Met Pro Leu Thr Asp Glu Asn Ala Ile Phe Ser Thr
755 760 765
Pro Lys Pro Lys Lys Asn Ile Gly Lys Gln
770 775
<210> 28
<211> 772
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 28
Met Gly Asn Lys Val Gln Ser Asn Glu Thr Ile Val Lys Thr Tyr Thr
1 5 10 15
Phe Lys Val Arg Glu Phe Ile Ser Gly Ala Thr His Glu Ile Met Lys
20 25 30
Ser Ala Ile Lys Gln Tyr Ile Glu Asp Ser Asn Asn Leu Ser Asp Trp
35 40 45
Ile Asn Asn Gln Leu Thr Asn Lys Thr Ile Cys Glu Val Gly Ala Leu
50 55 60
Ile Pro Ile Glu Lys Arg Glu Thr Ser Tyr Tyr Lys Ser Thr Val Asp
65 70 75 80
Glu Leu Trp Ala Asn Lys Pro Cys Phe Lys Met Phe Thr Asn Asp Phe
85 90 95
Thr Lys Glu Glu Asn Phe Ala Thr Arg Asn Ile Gly Asn Gly Lys Asn
100 105 110
Cys Lys Asn Ile Ile Thr Ser Ala Tyr Lys Ser Thr Val Asn Pro Ser
115 120 125
Phe Arg Asn Val Leu Asp Leu Thr Glu Lys Val Tyr Phe Ser Asp Gly
130 135 140
Tyr Gly Ala Asn Val Cys Ser Asn Tyr Lys Thr Lys Leu Arg Thr Leu
145 150 155 160
Lys Pro Ala Lys Ile Lys Leu Val Ser Ser Leu Ser Asp Cys Asp Asp
165 170 175
Asn Thr Leu Thr Glu Gln Val Ile Arg Glu Lys Gln Lys Tyr Gly Tyr
180 185 190
Ser Thr Pro Lys Asp Phe Glu Lys Arg Ile Glu Tyr Leu Asn Glu Lys
195 200 205
Glu Lys Ser Glu Gln Asn Ser Lys Ile Ile Glu Arg Leu Gln Lys Leu
210 215 220
Tyr Glu Phe Tyr Asp Asn Asn Thr Lys Leu Val Glu Glu Lys Glu Leu
225 230 235 240
Glu Leu Ser Val Lys Ser Leu Val Glu Phe Gly Gly Cys Arg Arg Gly
245 250 255
Glu Lys Thr Met Thr Leu Asn Leu Pro Asp Ile Gly Tyr Glu Ile Gln
260 265 270
Arg Lys Asp Asp Lys Tyr Gly Tyr Ile Phe Thr Leu Lys Cys Ser Lys
275 280 285
Lys Arg Lys Ile Ile Ile Asp Val Trp Gly Ser Lys Ala Thr Ile Asp
290 295 300
Ser Asn Gly Asn Asp Lys Val Asp Ile Ile Asn Thr His Gly Lys Ser
305 310 315 320
Ile Asn Phe Lys Ile Ile Asn Asn Glu Met Tyr Ile Asp Ile Thr Val
325 330 335
Asp Val Pro Phe Ala Lys Arg Lys Leu Gly Ile Lys Lys Val Val Gly
340 345 350
Ile Asp Val Asn Thr Lys His Met Leu Met Ala Thr Asn Ile Lys Val
355 360 365
Thr Asp Ser Ile Lys Gly Tyr Val Asn Leu Tyr Lys Glu Phe Leu Asn
370 375 380
Ser Lys Glu Ile Met Asp Val Ala Ser Pro Glu Thr Lys Lys Asn Phe
385 390 395 400
Glu Asp Met Ser Met Phe Val Asn Phe Cys Pro Ile Glu Tyr Asn Thr
405 410 415
Met Phe Ala Leu Ile Phe Lys Leu Asn Asn Gly Asp Ile Arg Thr Glu
420 425 430
Gln Ala Ile Arg Arg Thr Leu His Gln Leu Ser Lys Lys Phe Ser Asp
435 440 445
Gly Asn His Glu Thr Glu Arg Ile Tyr Val Gln Asn Val Phe Ser Ile
450 455 460
Arg Glu Gln Leu Lys His Phe Ile Leu Leu Ser Asn Arg Tyr Tyr Ser
465 470 475 480
Glu Gln Ser Asp Tyr Asp Thr Lys Met Gly Phe Ile Asp Glu Asn Thr
485 490 495
Thr Ser Asn Ala Thr Met Asp Lys Arg Arg Phe Asp Lys Ser Leu Met
500 505 510
Phe Arg Tyr Thr Gln Arg Gly Arg Gln Leu Tyr Glu Glu Arg Ile Glu
515 520 525
Cys Gly Arg Lys Ile Thr Glu Ile Arg Asp Asn Ile Ile Thr Tyr Ala
530 535 540
Arg Asn Val Phe Val Leu Asn Gly Tyr Asp Thr Ile Ala Leu Glu Tyr
545 550 555 560
Leu Thr Asn Ala Thr Ile Gln Lys Pro Thr Arg Pro Thr Ser Pro Lys
565 570 575
Ser Leu Leu Asp Tyr Phe Lys Leu Lys Gly Lys Pro Val Val Glu Ala
580 585 590
Glu Lys Asn Glu Arg Ile Thr Lys Asn Arg Lys Tyr Tyr Asn Leu Ile
595 600 605
Pro Asp Glu Asn Asp Asn Val Ile Asn Ile Glu Tyr Thr Glu Glu Gly
610 615 620
Lys Val Ala Ile Lys Lys Ser Ile Ala Arg Asp His Ile Met Lys Ala
625 630 635 640
Val His Phe Ala Glu Val Lys Asp Lys Phe Ile Gln Leu Ser Asn Asn
645 650 655
Gly Lys Thr Gln Val Ala Leu Val Pro Ser Asn Tyr Thr Ser Gln Met
660 665 670
Asn Ser Glu Thr His Thr Val Tyr Leu Met Lys Asn Pro Lys Thr Lys
675 680 685
Lys Leu Val Ile Met Asp Lys Asp Lys Val Arg Pro Ile Gln Glu Lys
690 695 700
Tyr Lys Leu Asn Gly Leu Asn Ala Asp Phe Asn Ser Ala Arg Asn Ile
705 710 715 720
Ala Tyr Ile Val Glu Asn Glu Ile Leu Arg Asn Ser Phe Leu Lys Glu
725 730 735
Glu Thr Lys Lys Tyr Thr Tyr Asn Thr Pro Leu Phe Thr Pro Arg Leu
740 745 750
Lys Ser Ser Glu Lys Ile Ile Thr Glu Leu Lys Lys Leu Gly Met Thr
755 760 765
Thr Val Ile Glu
770
<210> 29
<211> 781
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 29
Met Ala Asn Lys Ser Thr Lys Gly Asn Leu Pro Lys Thr Ile Ile Met
1 5 10 15
Lys Ala Asn Leu Ser Pro Asp Gly Phe Thr Gln Trp Glu Arg Val Val
20 25 30
Lys Glu Tyr Gln Ala Tyr Lys Asp Thr Leu Ser Lys Trp Val Ala Gln
35 40 45
Asn Leu Thr Ala Met Lys Ile Gly Asp Leu Leu Pro Tyr Leu Asp Lys
50 55 60
Tyr Ser Lys Lys Thr Asn Lys Glu Thr Gly Glu Arg Pro Val Asn Val
65 70 75 80
Tyr Tyr Gln Leu Cys Glu Gln His Lys Asp Glu Pro Leu Tyr Lys Leu
85 90 95
Phe Thr Tyr Asp Ser Asn Ser Arg Asn Asn Ala Met Tyr Glu Ile Ile
100 105 110
Arg Lys Thr Asn Cys Asp Gly Tyr Lys Gly Asn Ile Leu Gly Ile Ser
115 120 125
Glu Thr His Tyr Arg Arg Asn Gly Phe Val Lys Asn Ile Leu Ala Asn
130 135 140
Tyr Thr Thr Lys Ile Ser Thr Leu Glu Leu Ser Glu Arg Lys Arg Lys
145 150 155 160
Ile Asp Ser Asp Ser Pro Glu Asp Leu Ile Arg Ser Gln Val Val Tyr
165 170 175
Glu Met Gln Lys Asn Asn Ile Lys Asp Ala Lys Gly Phe Lys Ser Ile
180 185 190
Ile Glu Tyr Leu Lys Ser Lys Lys Glu Val Asn Ile Gln Tyr Leu Glu
195 200 205
Arg Leu Gln Ile Leu Tyr Glu Tyr Phe Lys Asn His Glu Asn Glu Ile
210 215 220
Lys Glu Tyr Ile Thr Leu Ala Ala Val Glu Gln Leu Lys Ser Phe Gly
225 230 235 240
Gly Val Arg Val Asn Asn Glu Lys Ser Ser Met Asn Leu Glu Ile Gln
245 250 255
Gly Phe Ser Ile Thr Arg Val Asp Gly Ala Cys Thr Tyr Ile Leu His
260 265 270
Leu Pro Ile Asn Gly Lys Ile His Gly Ile Lys Leu Trp Gly Asn Arg
275 280 285
Gln Val Val Val Asn Lys Asp Gly Thr Pro Val Asp Ile Leu Asp Leu
290 295 300
Thr Asn Gln His Gly Ser Thr Ile Asn Ile Thr Ile Lys Asn Gly Glu
305 310 315 320
Ile Tyr Phe Ala Phe Thr Val Thr Ser Asp Phe Val Lys Pro Glu His
325 330 335
Gln Ile Lys Asn Val Val Gly Val Asp Val Asn Thr Lys His Met Leu
340 345 350
Met Gln Ser Asn Ile Thr Asp Asn Gly Asn Val Lys Gly Tyr Phe Asn
355 360 365
Ile Tyr Lys Val Leu Val Glu Asp Arg Arg Phe Thr Ser Leu Leu Ser
370 375 380
Glu Glu Gln Leu Lys Tyr Phe Cys Glu Leu Ala Asn Ile Val Ser Phe
385 390 395 400
Cys Pro Ile Glu Thr Glu Phe Leu Phe Ala Arg Tyr Ala Glu Tyr Lys
405 410 415
Lys Met Ser Asn Asn Ala Glu Met Arg Gln Ile Glu Lys Val Phe Ser
420 425 430
Asp Ile Leu Asp Glu Gln Tyr Lys Lys Tyr Lys Asp Ile Asp Thr Ser
435 440 445
Ile Ala Asn Tyr Ile Ser Tyr Val Arg Lys Leu Arg Ser Gln Cys Cys
450 455 460
Ala Tyr Phe Lys Leu Lys Met Lys Tyr Lys Glu Leu Gln Arg Gln Phe
465 470 475 480
Asp Lys Glu Gln Asp Tyr Lys Asp Leu Ser Thr Glu Ser Lys Glu Thr
485 490 495
Met Asp Lys Arg Arg Trp Glu Asn Pro Phe Arg Asn Thr Pro Glu Ala
500 505 510
Ser Lys Leu Ile Lys Lys Met Asp Asn Val Ser Arg Gln Leu Ile Gly
515 520 525
Cys Arg Asp Asn Ile Ile Thr Tyr Ala Tyr Arg Val Phe Glu Lys Asn
530 535 540
Gly Tyr Asp Thr Ile Ser Leu Glu Asn Leu Glu Ser Ser Gln Phe Glu
545 550 555 560
Asn Asn Asp His Val Ile Ala Pro Lys Ser Leu Leu Glu Tyr His His
565 570 575
Leu Lys Gly Lys Thr Met Asn Tyr Leu Leu Ser Asp Glu Cys Lys Val
580 585 590
Arg Ile Thr Thr Lys Asp Gly Lys Val Lys Glu Trp Tyr His Val Glu
595 600 605
Leu Asn Asp Lys Asp Glu Ile Asp Asn Ile Phe Leu Thr Pro Glu Gly
610 615 620
Glu Thr Glu Lys Glu Lys Asn Leu Phe Asn Asn Met Val Ile Lys Ile
625 630 635 640
Val His Phe Ala Asp Ile Lys Asp Lys Phe Ile Gln Leu Gly Asn Tyr
645 650 655
Asn Lys Leu Gln Thr Val Leu Val Pro Ser Tyr Phe Thr Ser Gln Met
660 665 670
Asp Ser Lys Thr His Ser Val Tyr Val Val Glu Thr Ala Asn Thr Lys
675 680 685
Thr Ser Lys Lys Glu Leu Lys Leu Val Ser Lys Lys Arg Val Arg Arg
690 695 700
Gln Gln Glu Trp His Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala
705 710 715 720
Cys Asn Ile Ala His Ile Ala Lys Asn Ile Glu Leu Arg Gln Ile Met
725 730 735
Cys Lys Thr Pro Gln Thr Lys Asn Gly Tyr Ser Ser Pro Val Leu Thr
740 745 750
Ser Lys Val Lys Ser Gln Val Glu Met Val Arg Glu Leu Lys Lys Met
755 760 765
Gly Lys Thr Ile Leu Tyr Ser Asn Asp Ser Leu Pro Phe
770 775 780
<210> 30
<211> 798
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 30
Met Ala His Arg Lys Lys Lys Asp Asp Glu Ala Thr Leu Ser Tyr Lys
1 5 10 15
Phe Lys Val Lys Val Ile Glu Gly Asp Leu Thr Ala Asp Asp Ile Thr
20 25 30
Lys Cys Ile Ala Glu Asn Ala Glu Gln Gly Asn His Phe Ser Glu Phe
35 40 45
Ile His Lys Asn Leu Thr Ser Lys Thr Ile Gly Glu Phe Ala Ser Gln
50 55 60
Leu Pro Val Glu Lys Arg Gln Phe Gly Tyr Tyr Gln Tyr Ala Ile Gly
65 70 75 80
Gly Thr Met Pro Ala Lys Lys Asn Ala Ser Asp Glu Asp Lys Pro Lys
85 90 95
Gly Glu Leu Ile Asp Trp Ser Lys Lys Pro Phe Tyr Val Leu Phe Ser
100 105 110
Lys Gly Tyr Ser Ala Thr His Ala Val Asn Leu Ile Phe Asn Val Tyr
115 120 125
Leu Asn Ser Glu Glu Gly Lys Ala Phe Ser Ala Lys Asn Ser Met Asn
130 135 140
Leu Ser Lys Ser Gln Phe Ala Tyr Ser Gly Phe Val Gln Ile Val Cys
145 150 155 160
Ala Asn Tyr Ala Ser Met Leu Ala Asn Ala Arg Pro Asp Lys Ile Lys
165 170 175
Phe Glu Glu Ile Thr Glu Ala Thr Asp Asp Gly Thr Lys Lys Met Gln
180 185 190
Val Val Arg Glu Met Ala Glu Arg Tyr Leu Met Lys Pro Lys Asn Phe
195 200 205
Ala Ser Arg Ile Glu Tyr Leu Glu Ala Asn Asn Thr Lys Gly Lys Phe
210 215 220
Asp Lys Thr Ile Gln Arg Leu Arg Leu Leu Gln Pro Phe Phe Glu Lys
225 230 235 240
Asn Glu Glu Gly Ile Thr Glu Leu Tyr Tyr Asp Leu Ser Val Lys Ala
245 250 255
Leu Glu His Ser Gly Gln Cys Thr Tyr Lys Gly Gly Arg Thr Ile Ser
260 265 270
Ile Leu Glu Ile Gly Asp Ile Arg Ile Ser Arg Lys Glu Asn Ala Lys
275 280 285
Gly Tyr Leu Leu Thr Ile Pro Ile Asn Arg Lys Ser Val Val Phe Asp
290 295 300
Leu Tyr Gly Arg Lys Asp Thr Ile Gly Gly Asp Gly Arg Asp Leu Ile
305 310 315 320
Asp Ile Met Asn Thr His Gly Ser Ser Leu Gln Phe Thr Ala Asp Gly
325 330 335
Asn Asp Ile Tyr Leu Thr Ile Thr Ala Thr Lys Asn Phe Ile Lys Glu
340 345 350
Lys Pro Thr Phe Asn Glu Asp Thr Val Leu Gly Gly Asp Val Asn Ile
355 360 365
Lys His Ser Tyr Thr Val Phe Ser Thr Ser Pro Lys Asp Ile Pro Asp
370 375 380
Phe Val Asn Phe Tyr Glu Tyr Phe Ala Lys Asp Gly Glu Ile Met Lys
385 390 395 400
Leu Ala Pro Lys Pro Met Trp Asp Tyr Ile Val Ala Ala Ala Thr Lys
405 410 415
Phe Leu Thr Ile Leu Pro Ile Glu Thr Pro Ala Ile Ser Ala Thr Val
420 425 430
Tyr Gly Lys Arg Thr Glu Glu Gly Ile Ser Arg Ala Thr Phe Arg Glu
435 440 445
Thr Gln Lys Leu Ile Ala Leu Glu Lys Ala Ile Glu Arg Val Met Lys
450 455 460
Gln Val Phe Asp Lys Tyr Asn Asp Gly Lys His Pro Leu Glu Ala Ile
465 470 475 480
Tyr Ile Gly Asn Ala Ile Lys Tyr Arg Arg Leu Ile Lys Gly Tyr Leu
485 490 495
Ala Gln Lys Lys Lys Tyr Tyr Ser Ala His Ser Glu Tyr Asp Lys Ala
500 505 510
Met Gly Tyr Thr Asp Asp Asp Thr Asp Arg Lys Glu Asn Met Asp Glu
515 520 525
Arg Arg Phe Asp Asp Ser Lys Lys Phe Arg Tyr Thr Pro Glu Ala Gln
530 535 540
Ala Leu Leu Asp Thr Met His Thr Ile Glu Lys Lys Ile Val Gly Cys
545 550 555 560
Val Ser Asn Ala Ile Ser Tyr Ala Tyr His Lys Phe Asp Glu Asn Gly
565 570 575
Phe Asn Val Ile Ala Leu Glu Asn Leu Thr Ser Ala Thr Phe Ala Lys
580 585 590
Lys Tyr Lys Ser Asp Lys Pro Glu Ser Ile Lys Lys Leu Leu Asn Phe
595 600 605
Asp Lys Leu Leu Gly Lys Thr Leu Asp Glu Ala Lys Ala Ser Lys Ser
610 615 620
Ile Ser Lys His Pro Asn Trp Tyr Glu Leu Val Ala Asp Glu Asn Gly
625 630 635 640
Cys Val Ser Asp Ile Arg Ile Thr Asp Glu Gly Gln Ser Ala Thr Tyr
645 650 655
Arg Ser Leu Val Thr Glu Thr Ile Met Lys Val Ser His Phe Ala Glu
660 665 670
Thr Lys Asp Arg Phe Ile Gly Leu Ala Asn Ser Gly Arg Leu Gln Val
675 680 685
Gly Leu Val Pro Ser Gln Tyr Thr Ser Tyr Ile Asp Ser Thr Thr His
690 695 700
Thr Leu Tyr Ala Val Ile Glu Asp Gly Lys Thr Val Leu Ala Pro Lys
705 710 715 720
Glu Val Val Arg Ala Ser Gln Glu Arg His Ile Asn Gly Leu Asn Ala
725 730 735
Asp Tyr Asn Ser Ala Leu Asn Leu Lys Tyr Met Ile Thr Asp Glu Asn
740 745 750
Phe Arg Lys Thr Phe Thr Ser Glu Thr Ser Ala Asp Lys Phe Gly Trp
755 760 765
Gly Lys Pro Met Phe Ser Pro Thr Thr Arg Ser Gln Asp Glu Val Phe
770 775 780
Ser Ala Ile Lys Lys Ile Gly Ala Ile Thr Val Leu Glu Asp
785 790 795
<210> 31
<211> 786
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 31
Met Ala Gln His Lys Ser Asn Asn Glu Glu Ser Ala Ile Asn Lys Thr
1 5 10 15
Phe Ile Phe Lys Ala Lys Cys Glu Lys Asn Asp Val Ile Ser Leu Trp
20 25 30
Glu Pro Ala Ala Lys Glu Tyr Gly Asp Tyr Tyr Asn Lys Val Ser Lys
35 40 45
Trp Ile Ala Asp Asn Leu Ile Thr Met Lys Ile Gly Asp Leu Ala Gln
50 55 60
Tyr Ile Thr Asn Gln Asn Ser Lys Tyr Tyr Thr Ala Val Thr Asn Lys
65 70 75 80
Lys Lys Lys Asp Leu Pro Leu Tyr Arg Ile Phe Gln Lys Gly Phe Ser
85 90 95
Ser Gln Cys Ala Asp Asn Ala Leu Tyr Cys Ala Ile Lys Ser Ile Asn
100 105 110
Pro Glu Asn Tyr Lys Gly Asn Ser Leu Gly Ile Gly Glu Ser Asp Tyr
115 120 125
Arg Arg Phe Gly Tyr Ile Gln Ser Val Val Ser Asn Phe Arg Thr Lys
130 135 140
Met Ser Ser Leu Lys Val Ser Val Lys Tyr Lys Lys Phe Asp Val Ser
145 150 155 160
Asn Val Asp Asp Glu Thr Leu Lys Ile Gln Thr Ile Tyr Asp Val Asp
165 170 175
Lys Tyr Gly Ile Glu Thr Ala Lys Glu Phe Lys Glu Leu Ile Glu Thr
180 185 190
Leu Lys Thr Arg Val Glu Thr Pro Gln Leu Asn Asp Thr Ile Ala Arg
195 200 205
Leu Lys Cys Leu Cys Asp Tyr Tyr Ser Lys Asn Glu Lys Ala Ile Asn
210 215 220
Asn Glu Ile Glu Thr Met Ala Ile Ala Asp Leu Gln Lys Phe Gly Gly
225 230 235 240
Cys Gln Arg Lys Ser Leu Asn Ala Phe Thr Ile His Lys Gln Asp Ser
245 250 255
Leu Met Glu Lys Val Gly Asn Thr Ser Phe Arg Leu Gln Leu Ser Phe
260 265 270
Arg Lys Lys Thr Tyr Val Ile Asn Leu Leu Gly Asn Arg Gln Val Val
275 280 285
Asn Phe Val Asn Gly Lys Arg Val Asp Leu Ile Asp Ile Ala Glu Asn
290 295 300
His Gly Asp Leu Ile Thr Phe Asn Ile Lys Asn Gly Glu Leu Phe Leu
305 310 315 320
His Ile Thr Ser Pro Ile Val Phe Asp Lys Asp Val Arg Asp Ile Arg
325 330 335
Asn Val Val Gly Ile Asp Val Asn Ile Lys His Ser Met Leu Ala Thr
340 345 350
Ser Ile Lys Asp Asp Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Lys
355 360 365
Glu Leu Leu Asn Asp Asp Val Phe Val Ser Thr Cys Asn Glu Ser Glu
370 375 380
Leu Ala Leu Tyr Arg Gln Met Ser Glu Asn Val Asn Phe Gly Ile Leu
385 390 395 400
Glu Thr Asp Ser Leu Phe Glu Arg Ile Val Asn Gln Ser Lys Gly Gly
405 410 415
Cys Leu Lys Asn Lys Leu Ile Arg Arg Glu Leu Ala Met Gln Lys Val
420 425 430
Phe Glu Arg Ile Thr Lys Thr Asn Lys Asp Gln Asn Ile Val Asp Tyr
435 440 445
Val Asn Tyr Val Lys Met Met Arg Ala Lys Cys Lys Ala Ser Tyr Ile
450 455 460
Leu Lys Glu Lys Tyr Asp Glu Lys Gln Lys Glu Tyr Tyr Val Lys Met
465 470 475 480
Gly Phe Thr Asp Glu Ser Thr Glu Ser Lys Glu Thr Met Asp Lys Arg
485 490 495
Arg Glu Glu Phe Pro Phe Val Asn Thr Asp Thr Ala Lys Glu Leu Leu
500 505 510
Val Lys Gln Asn Asn Ile Arg Gln Asp Ile Ile Gly Cys Arg Asp Asn
515 520 525
Ile Val Thr Tyr Ala Phe Asn Val Phe Lys Asn Asn Glu Tyr Asp Thr
530 535 540
Leu Ser Val Glu Tyr Leu Asp Ser Ser Gln Phe Asp Lys Arg Arg Ile
545 550 555 560
Pro Thr Pro Lys Ser Leu Leu Lys Tyr His Lys Phe Glu Gly Lys Thr
565 570 575
Lys Asp Glu Val Glu Asn Met Met Lys Ser Glu Lys Leu Ser Asn Ala
580 585 590
Tyr Tyr Thr Phe Lys Tyr Glu Asn Asp Val Val Ser Asp Ile Asp Tyr
595 600 605
Ser Asp Glu Gly Asn Leu Arg Arg Ser Lys Leu Asn Phe Gly Asn Trp
610 615 620
Ile Ile Lys Ala Ile His Phe Ala Asp Ile Lys Asp Lys Phe Val Gln
625 630 635 640
Leu Ser Asn Asn Asn Lys Met Asn Ile Val Phe Cys Pro Ser Ala Phe
645 650 655
Ser Ser Gln Met Asp Ser Ile Thr His Thr Leu Tyr Tyr Val Glu Lys
660 665 670
Ile Thr Lys Asn Lys Lys Gly Lys Glu Lys Lys Lys Tyr Val Leu Ala
675 680 685
Asn Lys Lys Met Val Arg Thr Gln Gln Glu Thr His Ile Asn Gly Leu
690 695 700
Asn Ala Asp Tyr Asn Ser Ala Cys Asn Leu Lys Tyr Ile Ala Leu Asn
705 710 715 720
Tyr Glu Leu Arg Asp Lys Met Thr Asp Arg Phe Lys Ala Ser Lys Lys
725 730 735
Ile Lys Thr Met Tyr Asn Ile Pro Ala Tyr Asn Ile Lys Ser Asn Phe
740 745 750
Lys Lys Asn Leu Ser Ala Lys Thr Ile Gln Thr Phe Arg Glu Leu Gly
755 760 765
His Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Met Phe Val Glu Ile
770 775 780
Leu Glu
785
<210> 32
<211> 781
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 32
Met Ala His Lys Asn Ser Asp Gly Glu Asn Thr Ile Asn Lys Thr Phe
1 5 10 15
Ile Phe Lys Val Lys Cys Glu Lys Asn Asp Ile Ile Ser Phe Trp Lys
20 25 30
Pro Ala Ala Glu Glu Tyr Cys Asn Tyr Tyr Asn Lys Leu Ser Glu Trp
35 40 45
Ile Gly Lys Asn Leu Ile Ser Met Lys Ile Gly Asp Leu Ala Lys Tyr
50 55 60
Ile Asp Asn Pro Lys Ser Lys Tyr Tyr Leu Ser Val Thr Asp Glu Asn
65 70 75 80
Lys Lys Asp Leu Pro Leu Tyr Lys Ile Phe Gln Lys Gly Phe Ser Ser
85 90 95
Ile Asp Ala Asp Asn Ala Leu Tyr Cys Ala Ile Asp Lys Leu Asn Pro
100 105 110
Glu Gly Tyr Asn Gly Asn Ile Leu Gly Val Gly Lys Ser Asp Tyr Arg
115 120 125
Arg Asn Gly Tyr Val Ser Ser Val Ile Gly Asn Phe Arg Thr Lys Met
130 135 140
Val Ser Leu Lys Ala Asn Val Arg Trp Lys Lys Ile Asp Ile Gly Asn
145 150 155 160
Val Asp Glu Glu Thr Leu Arg Arg Gln Thr Ile Cys Asp Val Glu Lys
165 170 175
Tyr Arg Ile Glu Ser Glu Lys Asp Phe Arg Asp Leu Ile Asp Ile Leu
180 185 190
Lys Ala Arg Glu Glu Thr Pro Arg Leu Lys Glu Lys Ile Ser Arg Leu
195 200 205
Glu Leu Leu Tyr Asp Tyr Tyr Ser Lys Asn Thr Lys Thr Ile Lys Ser
210 215 220
Glu Met Glu Asn Met Ala Ile Ser Asp Leu Gln Lys Phe Gly Gly Cys
225 230 235 240
Val Arg Lys Ser Leu Asn Thr Ile Thr Ile His Lys Gln Asp Ser Lys
245 250 255
Ile Glu Lys Glu Gly Asn Thr Ser Phe Arg Leu His Met Val Phe Asn
260 265 270
Lys Lys Pro Tyr Thr Ile Thr Leu Leu Gly Asn Arg Gln Val Val Lys
275 280 285
Tyr Ile Asp Gly Lys Arg Val Asp Ile Val Asn Ile Val Glu Lys His
290 295 300
Gly Asp Trp Ile Thr Phe Asn Ile Lys Asn Gly Glu Leu Phe Val His
305 310 315 320
Leu Thr Lys Cys Val Glu Phe Ser Lys Gly Gln Lys Glu Ile Lys Lys
325 330 335
Ala Ala Gly Val Asp Val Asn Ile Lys His Ala Met Leu Ala Ala Ser
340 345 350
Ile Val Asp Asp Gly Gln Leu Lys Gly Tyr Val Asn Leu Tyr Arg Glu
355 360 365
Leu Ile Glu Asp Asp Asp Phe Val Ser Thr Phe Gly Asp Ser Asp Ser
370 375 380
Gly Lys Thr Glu Leu Gly Met Tyr Gln Lys Met Ala Lys Thr Val Phe
385 390 395 400
Phe Gly Val Leu Glu Val Glu Ser Leu Phe Glu Arg Val Val Asn Gln
405 410 415
Gln Ser Gly Trp Lys Leu Asp Asn Gln Leu Ile Arg Arg Glu Arg Ala
420 425 430
Met Glu Lys Val Phe Asp Arg Ile Val Lys Thr Thr Ser Asn Lys His
435 440 445
Ile Ile Asp Tyr Val Asn Tyr Val Lys Met Leu Arg Ala Lys Tyr Lys
450 455 460
Ala Tyr Phe Ile Leu Asp Glu Lys Tyr His Glu Lys Gln Arg Glu Tyr
465 470 475 480
Asp Leu Ser Met Gly Phe Thr Asp Glu Ser Asp Glu Arg Arg Glu Leu
485 490 495
Tyr Pro Phe Ile Asn Thr Glu Thr Ala Lys Glu Ile Leu Gly Lys Lys
500 505 510
Arg Asn Val Glu Gln Asp Leu Ile Gly Cys Arg Asp Asn Ile Val Thr
515 520 525
Tyr Ala Phe Asn Val Leu Arg Asn Asn Gly Tyr Asp Thr Ile Ser Val
530 535 540
Glu Tyr Leu Asp Ser Ser Gln Phe Asp Lys Arg Arg Met Pro Thr Pro
545 550 555 560
Lys Ser Leu Leu Glu Tyr His Lys Phe Lys Gly Lys Thr Gln Asp Glu
565 570 575
Val Glu Arg Leu Met Ser Glu Lys Lys Phe Ala Lys Thr Asn Tyr Asp
580 585 590
Ile His Tyr Asp Gly Glu Asn Lys Val Asp Gly Ile Val Tyr Ser Lys
595 600 605
Glu Gly Glu Leu Arg Gln Lys Lys Leu Asn Phe Met Asn Leu Val Ile
610 615 620
Lys Ala Ile His Phe Ala Asp Ile Lys Asp Lys Phe Ala Gln Leu Cys
625 630 635 640
Asn Asn Asn Asp Val Asn Val Val Phe Gly Pro Ser Ala Phe Thr Ser
645 650 655
Gln Met Asp Ser Glu Thr His Ser Leu Tyr Tyr Val Glu Lys Glu Thr
660 665 670
Asn Gly Lys Asn Gly Lys Thr Gly Lys Lys Phe Val Leu Ala Asp Lys
675 680 685
Lys Ser Val Arg Arg Arg Gln Glu Thr His Ile Asn Gly Leu Asn Ala
690 695 700
Asp Phe Asn Ala Ala Arg Asn Leu Glu Tyr Ile Ala Ser Asn Pro Glu
705 710 715 720
Leu Leu Glu Arg Met Thr Lys Arg Thr Lys Ser Gly Lys Asp Met Tyr
725 730 735
Asn Thr Pro Ser Trp Asn Ile Arg Gln Glu Phe Lys Lys Asn Leu Ser
740 745 750
Val Arg Thr Ile Asn Thr Phe Arg Glu Leu Gly Asn Val Lys Tyr Gly
755 760 765
Lys Ile Asn Asn Glu Gly Leu Phe Val Glu Asp Asp Val
770 775 780
<210> 33
<211> 798
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 33
Met Ala His Arg Lys Lys Lys Asp Asp Glu Ala Thr Leu Ser Tyr Lys
1 5 10 15
Phe Lys Val Lys Val Ile Glu Gly Asp Leu Thr Ala Asp Asp Ile Thr
20 25 30
Lys Cys Ile Ala Glu Asn Ala Glu Gln Gly Asn His Phe Ser Glu Phe
35 40 45
Ile His Lys Asn Leu Thr Ser Lys Thr Ile Gly Glu Phe Ala Ser Gln
50 55 60
Leu Pro Ala Glu Lys Arg Gln Phe Gly Tyr Tyr Gln Tyr Ala Ile Gly
65 70 75 80
Gly Thr Met Pro Ala Lys Lys Asn Ala Ser Asp Glu Asp Lys Pro Lys
85 90 95
Gly Glu Leu Ile Asp Trp Ser Lys Lys Pro Phe Tyr Val Leu Phe Ser
100 105 110
Lys Gly Tyr Ser Ala Thr His Ala Val Asn Leu Ile Phe Asn Val Tyr
115 120 125
Leu Asn Ser Glu Glu Gly Lys Ala Phe Ser Ala Lys Asn Ser Met Asn
130 135 140
Leu Ser Lys Ser Gln Phe Ala Tyr Ser Gly Phe Val Gln Ile Val Cys
145 150 155 160
Ala Asn Tyr Ala Ser Met Leu Ala Asn Ala Arg Pro Asp Lys Ile Lys
165 170 175
Phe Glu Glu Ile Thr Glu Ala Thr Asp Asp Gly Thr Lys Lys Met Gln
180 185 190
Val Val Arg Glu Met Ala Glu Arg Tyr Leu Met Lys Pro Lys Asn Phe
195 200 205
Ala Ser Arg Ile Glu Tyr Leu Glu Ala Asn Asn Thr Lys Gly Lys Phe
210 215 220
Asp Lys Thr Ile Gln Arg Leu Arg Leu Leu Gln Pro Phe Phe Glu Lys
225 230 235 240
Asn Glu Glu Ser Ile Thr Glu Leu Tyr Tyr Asp Leu Ser Val Lys Ala
245 250 255
Leu Glu His Ser Gly Gln Cys Thr Tyr Lys Gly Gly Arg Thr Ile Ser
260 265 270
Ile Leu Glu Ile Gly Asp Ile Arg Ile Ser Arg Lys Glu Asn Ala Lys
275 280 285
Gly Tyr Leu Leu Thr Ile Pro Ile Asn Arg Lys Ser Val Val Phe Asp
290 295 300
Leu Tyr Gly Arg Lys Asp Thr Ile Gly Gly Asp Gly Arg Asp Leu Ile
305 310 315 320
Asp Ile Met Asn Thr His Gly Ser Ser Leu Gln Phe Thr Ala Asp Glu
325 330 335
Asn Asp Ile Tyr Leu Thr Ile Thr Ala Thr Lys Asn Phe Ile Lys Glu
340 345 350
Lys Pro Thr Phe Asn Glu Asp Thr Val Leu Gly Gly Asp Val Asn Ile
355 360 365
Lys His Ser Tyr Thr Val Phe Ser Ala Ser Pro Lys Asp Ile Pro Asp
370 375 380
Phe Val Asn Phe Tyr Glu Tyr Phe Ala Lys Asp Gly Glu Ile Met Lys
385 390 395 400
Leu Ala Pro Lys Pro Met Trp Asp Tyr Ile Val Ala Ala Ala Thr Lys
405 410 415
Phe Leu Thr Ile Leu Pro Ile Glu Thr Pro Ala Ile Ser Ala Thr Val
420 425 430
Tyr Gly Lys Arg Thr Glu Glu Gly Ile Ser Arg Ala Thr Phe Arg Glu
435 440 445
Thr Gln Lys Leu Ile Ala Leu Glu Lys Ala Ile Glu Arg Val Met Lys
450 455 460
Gln Val Phe Asp Lys Tyr Asn Asp Gly Lys His Pro Leu Glu Ala Ile
465 470 475 480
Tyr Ile Gly Asn Ala Ile Lys Tyr Arg Arg Leu Ile Lys Gly Tyr Leu
485 490 495
Ala Gln Lys Lys Lys Tyr Tyr Ser Ala His Ser Glu Tyr Asp Lys Ala
500 505 510
Met Gly Tyr Thr Asp Asp Asp Thr Asp Arg Lys Glu Asn Met Asp Glu
515 520 525
Arg Arg Phe Asp Asp Ser Lys Lys Phe Arg Tyr Thr Pro Glu Ala Gln
530 535 540
Ala Leu Leu Asp Thr Met His Thr Ile Glu Lys Lys Ile Val Gly Cys
545 550 555 560
Val Ser Asn Ala Ile Ser Tyr Ala Tyr His Lys Phe Asp Glu Asn Gly
565 570 575
Phe Asn Val Ile Ala Leu Glu Asn Leu Thr Ser Ala Thr Phe Ala Lys
580 585 590
Lys Tyr Lys Ser Asp Lys Pro Glu Ser Ile Lys Lys Leu Leu Asn Phe
595 600 605
Asp Lys Leu Leu Gly Lys Thr Leu Asp Glu Ala Lys Ala Ser Lys Ser
610 615 620
Ile Ser Lys His Pro Asn Trp Tyr Glu Leu Val Ala Asp Glu Asn Gly
625 630 635 640
Cys Val Ser Asp Ile Arg Ile Thr Asp Glu Gly Gln Ser Ala Thr Tyr
645 650 655
Arg Ser Leu Val Thr Glu Thr Ile Met Lys Val Ser His Phe Ala Glu
660 665 670
Thr Lys Asp Arg Phe Ile Gly Leu Ala Asn Ser Gly Arg Leu Gln Val
675 680 685
Gly Leu Val Pro Ser Gln Tyr Thr Ser Tyr Ile Asp Ser Thr Thr His
690 695 700
Thr Leu Tyr Ala Val Ile Glu Asp Gly Lys Thr Val Leu Ala Pro Lys
705 710 715 720
Glu Val Val Arg Ala Ser Gln Glu Arg His Ile Asn Gly Leu Asn Ala
725 730 735
Asp Tyr Asn Ser Ala Leu Asn Leu Lys Tyr Met Ile Thr Asp Glu Asn
740 745 750
Phe Arg Lys Thr Phe Thr Ser Glu Thr Ser Ala Asp Lys Phe Gly Trp
755 760 765
Gly Lys Pro Met Phe Ser Pro Thr Thr Arg Ser Gln Asp Glu Val Phe
770 775 780
Ser Ala Ile Lys Lys Ile Gly Ala Ile Thr Val Leu Glu Asp
785 790 795
<210> 34
<211> 724
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 34
Met Val Thr Thr Leu Ala Pro Leu Ile Glu Glu Lys Lys Arg Asp Ser
1 5 10 15
Glu Tyr Tyr Lys Tyr Leu Thr Asn Gly Asp Trp Asp Gly Lys Pro Leu
20 25 30
Tyr Phe Ile Phe Lys Glu Gly Phe Asn Ser Thr Asn Ala Asp Asn Ile
35 40 45
Leu Ala Asn Ser Leu Val Arg Val Tyr Cys Glu Gln Asn Tyr Thr Gly
50 55 60
Asn Gly Phe Gly Leu Ser Tyr Ser Tyr Tyr Val Val Ile Gly Phe Ala
65 70 75 80
Lys Glu Val Ile Ala Asn Tyr Arg Ser Ser Phe Gln Lys Pro Lys Val
85 90 95
Lys Ile Lys Lys Lys Lys Leu Ser Glu Asn Pro Thr Glu Asp Glu Leu
100 105 110
Ile Glu Gln Cys Ile Tyr Thr Ile Tyr Tyr Glu Phe Asn Glu Lys Lys
115 120 125
Asp Ile Lys Lys Trp Lys Asp Glu Ile Lys Phe Leu Lys Glu Arg Gly
130 135 140
Glu Ser Lys Glu Thr Arg Leu Lys Arg Ile Gln Thr Leu Phe Glu Phe
145 150 155 160
Tyr Lys Asp Lys Asn His Lys Glu Leu Val Asp Glu Arg Val Ala Asn
165 170 175
Leu Val Val Asp Asn Ile Lys Glu Phe Gly Gly Cys Lys Arg Asp Ile
180 185 190
Gly Cys Pro Ser Met Gly Ile Gln Ile Gln His Asn Phe Asp Ile Ser
195 200 205
Ile Asn Glu Lys Arg Asn Gly Tyr Thr Ile Cys Phe Gly Pro Asn Lys
210 215 220
Lys Asn Leu Thr Lys Leu Glu Val Phe Gly Asn Arg Met Val Leu Leu
225 230 235 240
Asn Gly Glu Glu Ile Val Asp Leu Pro Asn Thr His Gly Glu Lys Leu
245 250 255
Thr Leu Ile Asp Arg Gly Asn Ala Ile Tyr Ala Ala Leu Thr Ala Gln
260 265 270
Val Pro Phe Glu Lys His Met Pro Asp Gly Asn Lys Thr Val Gly Ile
275 280 285
Asp Leu Asn Leu Lys His Ser Val Phe Ala Thr Ser Ile Val Asp Asn
290 295 300
Gly Lys Leu Ala Gly Tyr Ile Ser Ile Tyr Lys Glu Leu Leu Lys Asp
305 310 315 320
Asp Glu Phe Val Lys Tyr Cys Pro Lys Asp Leu Leu Arg Phe Met Lys
325 330 335
Asp Ala Ser Lys Tyr Val Phe Phe Ala Pro Ile Glu Ile Glu Leu Leu
340 345 350
Arg Ser Arg Val Ile Tyr Asn Lys Gly Tyr Ala Cys Val Glu Asn Tyr
355 360 365
Glu Asn Val Tyr Lys Ala Glu Val Ala Phe Val Asn Val Ile Lys Arg
370 375 380
Leu Gln Ser Gln Cys Glu Ala Asn Gly Asp Ala Gln Gly Ala Leu Tyr
385 390 395 400
Met Ser Tyr Leu Ser Lys Met Arg Ala Gln Leu Lys Asn Tyr Ile Asn
405 410 415
Leu Lys Leu Ala Tyr Tyr Asp His Gln Ser Ala Tyr Asp Leu Lys Met
420 425 430
Gly Phe Asn Asp Ile Ser Ala Glu Ser Lys Glu Thr Ile Asp Glu Arg
435 440 445
Arg Lys Leu Phe Pro Phe Ser Lys Glu Lys Glu Ala Gln Glu Ile Leu
450 455 460
Ala Lys Met Lys Asn Ile Ser Asn Val Ile Ile Ala Cys Arg Asn Asn
465 470 475 480
Ile Ala Val Tyr Met Tyr Lys Met Phe Glu Arg Asn Gly Tyr Asp Phe
485 490 495
Ile Gly Leu Glu Lys Leu Glu Ser Ser Gln Met Lys Lys Arg Gln Ser
500 505 510
Arg Ser Phe Pro Thr Val Lys Ser Leu Leu Asn Tyr His Lys Leu Ala
515 520 525
Gly Met Thr Met Asp Glu Ile Lys Lys Gln Glu Val Ser Ser Asn Ile
530 535 540
Lys Lys Gly Phe Tyr Asp Leu Glu Phe Asp Ala Asp Gly Lys Leu Tyr
545 550 555 560
Gly Ala Lys Tyr Ser Asn Lys Gly Asn Val His Phe Ile Glu Asp Glu
565 570 575
Phe Tyr Ile Ser Gly Leu Lys Ala Ile His Phe Ala Asp Met Lys Asp
580 585 590
Tyr Phe Val Arg Leu Ser Asn Asn Gly Lys Val Ser Val Ala Leu Val
595 600 605
Pro Pro Ser Phe Thr Ser Gln Met Asp Ser Val Glu His Lys Phe Phe
610 615 620
Met Lys Lys Asn Ala Asn Gly Lys Leu Ile Val Ala Asp Lys Lys Asp
625 630 635 640
Val Arg Ser Cys Gln Glu Lys His Lys Ile Asn Gly Leu Asn Ala Asp
645 650 655
Tyr Asn Ala Ala Cys Asn Ile Gly Phe Ile Val Glu Asp Asp Tyr Met
660 665 670
Arg Glu Ser Leu Leu Gly Ser Pro Thr Gly Gly Thr Tyr Asp Thr Ala
675 680 685
Tyr Phe Asp Thr Lys Ile Gln Gly Ser Lys Gly Val Tyr Asp Lys Ile
690 695 700
Lys Glu Asn Gly Glu Thr Tyr Ile Ala Val Leu Ser Asp Asp Val Ile
705 710 715 720
Thr Ala Glu Glu
<210> 35
<211> 772
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 35
Met Gly Asn Lys Val Gln Ser Asn Glu Thr Ile Val Lys Thr Tyr Thr
1 5 10 15
Phe Lys Val Arg Glu Phe Ile Ser Gly Ala Thr His Glu Ile Met Lys
20 25 30
Ser Ala Ile Lys Gln Tyr Ile Glu Asp Ser Asn Asn Leu Ser Asp Trp
35 40 45
Ile Asn Asn Gln Leu Thr Asn Lys Thr Ile Cys Glu Val Gly Ala Leu
50 55 60
Ile Pro Ile Glu Lys Arg Glu Thr Ser Tyr Tyr Lys Ser Thr Val Asp
65 70 75 80
Glu Leu Trp Ala Asn Lys Pro Cys Phe Lys Met Phe Thr Asn Asp Phe
85 90 95
Thr Lys Glu Glu Asn Phe Ala Thr Arg Asn Ile Gly Asn Gly Lys Asn
100 105 110
Cys Lys Asn Ile Ile Thr Ser Ala Tyr Lys Ser Thr Val Asn Pro Ser
115 120 125
Phe Arg Asn Val Leu Asp Leu Thr Glu Lys Val Tyr Phe Ser Asp Gly
130 135 140
Tyr Gly Ala Asn Val Cys Ser Asn Tyr Lys Thr Lys Leu Arg Thr Leu
145 150 155 160
Lys Pro Ala Lys Ile Lys Leu Val Ser Ser Leu Ser Asp Cys Asp Asp
165 170 175
Asn Thr Leu Thr Glu Gln Val Ile Arg Glu Lys Gln Lys Tyr Gly Tyr
180 185 190
Ser Thr Pro Lys Asp Phe Glu Lys Arg Ile Glu Tyr Leu Asn Glu Lys
195 200 205
Glu Lys Ser Glu Gln Asn Ser Lys Ile Ile Glu Arg Leu Gln Lys Leu
210 215 220
Tyr Glu Phe Tyr Asp Asn Asn Thr Lys Leu Val Glu Glu Lys Glu Leu
225 230 235 240
Glu Leu Ser Val Lys Ser Leu Val Glu Phe Gly Gly Cys Arg Arg Gly
245 250 255
Glu Lys Thr Met Thr Leu Asn Leu Pro Asp Ile Gly Tyr Glu Ile Gln
260 265 270
Arg Lys Asp Asp Lys Tyr Gly Tyr Ile Phe Thr Leu Lys Cys Ser Lys
275 280 285
Lys Arg Lys Ile Ile Ile Asp Val Trp Gly Ser Lys Ala Thr Ile Asp
290 295 300
Ser Asn Gly Asn Asp Lys Val Asp Ile Ile Asn Thr His Gly Lys Ser
305 310 315 320
Ile Asn Phe Lys Ile Ile Asn Asn Glu Met Tyr Ile Asp Ile Thr Val
325 330 335
Asp Val Pro Phe Ala Lys Arg Lys Leu Gly Ile Lys Lys Val Val Gly
340 345 350
Ile Asp Val Asn Thr Lys His Met Leu Met Ala Thr Asn Ile Lys Val
355 360 365
Thr Asp Ser Ile Lys Gly Tyr Val Asn Leu Tyr Lys Glu Phe Leu Asn
370 375 380
Ser Lys Glu Ile Met Asp Val Ala Ser Pro Glu Thr Lys Lys Asn Phe
385 390 395 400
Glu Asp Met Ser Met Phe Val Asn Phe Cys Pro Ile Glu Tyr Asn Thr
405 410 415
Met Phe Ala Leu Ile Phe Lys Leu Asn Asn Gly Asp Ile Arg Thr Glu
420 425 430
Gln Ala Ile Arg Arg Thr Leu His Gln Leu Ser Lys Lys Phe Ser Asp
435 440 445
Gly Asn His Glu Thr Glu Arg Ile Tyr Val Gln Asn Val Phe Ser Ile
450 455 460
Arg Glu Gln Leu Lys His Phe Ile Leu Leu Ser Asn Arg Tyr Tyr Ser
465 470 475 480
Glu Gln Ser Asp Tyr Asp Thr Lys Met Gly Phe Ile Asp Glu Asn Thr
485 490 495
Thr Ser Asn Ala Thr Met Asp Lys Arg Arg Phe Asp Lys Ser Leu Met
500 505 510
Phe Arg Tyr Thr Gln Arg Gly Arg Gln Leu Tyr Glu Glu Arg Ile Glu
515 520 525
Cys Gly Arg Lys Ile Thr Glu Ile Arg Asp Asn Ile Ile Thr Tyr Ala
530 535 540
Arg Asn Val Phe Val Leu Asn Gly Tyr Asp Thr Ile Ala Leu Glu Tyr
545 550 555 560
Leu Thr Asn Ala Thr Ile Gln Lys Pro Thr Arg Pro Thr Ser Pro Lys
565 570 575
Ser Leu Leu Asp Tyr Phe Lys Leu Lys Gly Lys Pro Val Val Glu Ala
580 585 590
Glu Lys Asn Glu Arg Ile Thr Lys Asn Arg Lys Tyr Tyr Asn Leu Ile
595 600 605
Pro Asp Glu Asn Asp Asn Val Ile Asn Ile Glu Tyr Thr Glu Glu Gly
610 615 620
Lys Val Ala Ile Lys Lys Ser Ile Ala Arg Asp His Ile Met Lys Ala
625 630 635 640
Val His Phe Ala Glu Val Lys Asp Lys Phe Ile Gln Leu Ser Asn Asn
645 650 655
Gly Lys Thr Gln Val Ala Leu Val Pro Ser Asn Tyr Thr Ser Gln Met
660 665 670
Asn Ser Glu Thr His Thr Val Tyr Leu Met Lys Asn Pro Lys Thr Lys
675 680 685
Lys Leu Val Ile Met Asp Lys Asp Lys Val Arg Pro Ile Gln Glu Lys
690 695 700
Tyr Lys Leu Asn Gly Leu Asn Ala Asp Phe Asn Ser Ala Arg Asn Ile
705 710 715 720
Ala Tyr Ile Val Glu Asn Glu Ile Leu Arg Asn Ser Phe Leu Lys Glu
725 730 735
Glu Thr Lys Lys Tyr Thr Tyr Asn Thr Pro Leu Phe Thr Pro Arg Leu
740 745 750
Lys Ser Ser Glu Lys Ile Ile Thr Glu Leu Lys Lys Leu Gly Met Thr
755 760 765
Thr Val Ile Glu
770
<210> 36
<211> 781
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 36
Met Ala Asn Lys Ser Thr Lys Gly Asn Leu Pro Lys Thr Ile Ile Met
1 5 10 15
Lys Ala Asn Leu Ser Pro Asp Gly Phe Thr Gln Trp Glu Arg Val Val
20 25 30
Lys Glu Tyr Gln Ala Tyr Lys Asp Thr Leu Ser Lys Trp Val Ala Gln
35 40 45
Asn Leu Thr Ala Met Lys Ile Gly Asp Leu Leu Pro Tyr Leu Asp Lys
50 55 60
Tyr Ser Lys Lys Thr Asn Lys Glu Thr Gly Glu Arg Pro Val Asn Val
65 70 75 80
Tyr Tyr Gln Leu Cys Glu Gln His Lys Asp Glu Pro Leu Tyr Lys Leu
85 90 95
Phe Thr Tyr Asp Ser Asn Ser Arg Asn Asn Ala Met Tyr Glu Ile Ile
100 105 110
Arg Lys Thr Asn Cys Asp Gly Tyr Lys Gly Asn Ile Leu Gly Ile Ser
115 120 125
Glu Thr His Tyr Arg Arg Asn Gly Phe Val Lys Asn Ile Leu Ala Asn
130 135 140
Tyr Thr Thr Lys Ile Ser Thr Leu Glu Leu Ser Glu Arg Lys Arg Lys
145 150 155 160
Ile Asp Ser Asp Ser Pro Glu Asp Leu Ile Arg Ser Gln Val Val Tyr
165 170 175
Glu Met Gln Lys Asn Asn Ile Lys Asp Ala Lys Gly Phe Lys Ser Ile
180 185 190
Ile Glu Tyr Leu Lys Ser Lys Lys Glu Val Asn Ile Gln Tyr Leu Glu
195 200 205
Arg Leu Gln Ile Leu Tyr Glu Tyr Phe Lys Asn His Glu Asn Glu Ile
210 215 220
Lys Glu Tyr Ile Thr Leu Ala Ala Val Glu Gln Leu Lys Ser Phe Gly
225 230 235 240
Gly Val Arg Val Asn Asn Glu Lys Ser Ser Met Asn Leu Glu Ile Gln
245 250 255
Gly Phe Ser Ile Thr Arg Val Asp Gly Ala Cys Thr Tyr Ile Leu His
260 265 270
Leu Pro Ile Asn Gly Lys Ile His Gly Ile Lys Leu Trp Gly Asn Arg
275 280 285
Gln Val Val Val Asn Lys Asp Gly Thr Pro Val Asp Ile Leu Asp Leu
290 295 300
Thr Asn Gln His Gly Ser Thr Ile Asn Ile Thr Ile Lys Asn Gly Glu
305 310 315 320
Ile Tyr Phe Ala Phe Thr Val Thr Ser Asp Phe Val Lys Pro Glu His
325 330 335
Gln Ile Lys Asn Val Val Gly Val Asp Val Asn Thr Lys His Met Leu
340 345 350
Met Gln Ser Asn Ile Thr Asp Asn Gly Asn Val Lys Gly Tyr Phe Asn
355 360 365
Ile Tyr Lys Val Leu Val Glu Asp Arg Arg Phe Thr Ser Leu Leu Ser
370 375 380
Glu Glu Gln Leu Lys Tyr Phe Cys Glu Leu Ala Asn Ile Val Ser Phe
385 390 395 400
Cys Pro Ile Glu Thr Glu Phe Leu Phe Ala Arg Tyr Ala Glu Tyr Lys
405 410 415
Lys Met Ser Asn Asn Ala Glu Met Arg Gln Ile Glu Lys Val Phe Ser
420 425 430
Asp Ile Leu Asp Glu Gln Tyr Lys Lys Tyr Lys Asp Ile Asp Thr Ser
435 440 445
Ile Ala Asn Tyr Ile Ser Tyr Val Arg Lys Leu Arg Ser Gln Cys Cys
450 455 460
Ala Tyr Phe Lys Leu Lys Met Lys Tyr Lys Glu Leu Gln Arg Gln Phe
465 470 475 480
Asp Lys Glu Gln Asp Tyr Lys Asp Leu Ser Thr Glu Ser Lys Glu Thr
485 490 495
Met Asp Lys Arg Arg Trp Glu Asn Pro Phe Arg Asn Thr Pro Glu Ala
500 505 510
Ser Lys Leu Ile Lys Lys Met Asp Asn Val Ser Arg Gln Leu Ile Gly
515 520 525
Cys Arg Asp Asn Ile Ile Thr Tyr Ala Tyr Arg Val Phe Glu Lys Asn
530 535 540
Gly Tyr Asp Thr Ile Ser Leu Glu Asn Leu Glu Ser Ser Gln Phe Glu
545 550 555 560
Asn Asn Asp His Val Ile Ala Pro Lys Ser Leu Leu Glu Tyr His His
565 570 575
Leu Lys Gly Lys Thr Met Asn Tyr Leu Leu Ser Asp Glu Cys Lys Val
580 585 590
Arg Ile Thr Thr Lys Asp Gly Lys Val Lys Glu Trp Tyr His Val Glu
595 600 605
Leu Asn Asp Lys Asp Glu Ile Asp Asn Ile Phe Leu Thr Pro Glu Gly
610 615 620
Glu Thr Glu Lys Glu Lys Asn Leu Phe Asn Asn Met Val Ile Lys Ile
625 630 635 640
Val His Phe Ala Asp Ile Lys Asp Lys Phe Ile Gln Leu Gly Asn Tyr
645 650 655
Asn Lys Leu Gln Thr Val Leu Val Pro Ser Tyr Phe Thr Ser Gln Met
660 665 670
Asp Ser Lys Thr His Ser Val Tyr Val Val Glu Thr Ala Asn Thr Lys
675 680 685
Thr Ser Lys Lys Glu Leu Lys Leu Val Ser Lys Lys Arg Val Arg Arg
690 695 700
Gln Gln Glu Trp His Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala
705 710 715 720
Cys Asn Ile Ala His Ile Ala Lys Asn Ile Glu Leu Arg Gln Ile Met
725 730 735
Cys Lys Thr Pro Gln Thr Lys Asn Gly Tyr Ser Ser Pro Val Leu Thr
740 745 750
Ser Lys Val Lys Ser Gln Val Glu Met Val Arg Glu Leu Lys Lys Met
755 760 765
Gly Lys Thr Ile Leu Tyr Ser Asn Asp Ser Leu Pro Phe
770 775 780
<210> 37
<211> 798
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 37
Met Ala His Arg Lys Lys Lys Asp Asp Glu Ala Thr Leu Ser Tyr Lys
1 5 10 15
Phe Lys Val Lys Val Ile Glu Gly Asp Leu Thr Ala Asp Asp Ile Thr
20 25 30
Lys Cys Ile Ala Glu Asn Ala Glu Gln Gly Asn His Phe Ser Glu Phe
35 40 45
Ile His Lys Asn Leu Thr Ser Lys Thr Ile Gly Glu Phe Ala Ser Gln
50 55 60
Leu Pro Val Glu Lys Arg Gln Phe Gly Tyr Tyr Gln Tyr Ala Ile Gly
65 70 75 80
Gly Thr Met Pro Ala Lys Lys Asn Ala Ser Asp Glu Asp Lys Pro Lys
85 90 95
Gly Glu Leu Ile Asp Trp Ser Lys Lys Pro Phe Tyr Val Leu Phe Ser
100 105 110
Lys Gly Tyr Ser Ala Thr His Ala Val Asn Leu Ile Phe Asn Val Tyr
115 120 125
Leu Asn Ser Glu Glu Gly Lys Ala Phe Ser Ala Lys Asn Ser Met Asn
130 135 140
Leu Ser Lys Ser Gln Phe Ala Tyr Ser Gly Phe Val Gln Ile Val Cys
145 150 155 160
Ala Asn Tyr Ala Ser Met Leu Ala Asn Ala Arg Pro Asp Lys Ile Lys
165 170 175
Phe Glu Glu Ile Thr Glu Ala Thr Asp Asp Gly Thr Lys Lys Met Gln
180 185 190
Val Val Arg Glu Met Ala Glu Arg Tyr Leu Met Lys Pro Lys Asn Phe
195 200 205
Ala Ser Arg Ile Glu Tyr Leu Glu Ala Asn Asn Thr Lys Gly Lys Phe
210 215 220
Asp Lys Thr Ile Gln Arg Leu Arg Leu Leu Gln Pro Phe Phe Glu Lys
225 230 235 240
Asn Glu Glu Gly Ile Thr Glu Leu Tyr Tyr Asp Leu Ser Val Lys Ala
245 250 255
Leu Glu His Ser Gly Gln Cys Thr Tyr Lys Gly Gly Arg Thr Ile Ser
260 265 270
Ile Leu Glu Ile Gly Asp Ile Arg Ile Ser Arg Lys Glu Asn Ala Lys
275 280 285
Gly Tyr Leu Leu Thr Ile Pro Ile Asn Arg Lys Ser Val Val Phe Asp
290 295 300
Leu Tyr Gly Arg Lys Asp Thr Ile Gly Gly Asp Gly Arg Asp Leu Ile
305 310 315 320
Asp Ile Met Asn Thr His Gly Ser Ser Leu Gln Phe Thr Ala Asp Gly
325 330 335
Asn Asp Ile Tyr Leu Thr Ile Thr Ala Thr Lys Asn Phe Ile Lys Glu
340 345 350
Lys Pro Thr Phe Asn Glu Asp Thr Val Leu Gly Gly Asp Val Asn Ile
355 360 365
Lys His Ser Tyr Thr Val Phe Ser Thr Ser Pro Lys Asp Ile Pro Asp
370 375 380
Phe Val Asn Phe Tyr Glu Tyr Phe Ala Lys Asp Gly Glu Ile Met Lys
385 390 395 400
Leu Ala Pro Lys Pro Met Trp Asp Tyr Ile Val Ala Ala Ala Thr Lys
405 410 415
Phe Leu Thr Ile Leu Pro Ile Glu Thr Pro Ala Ile Ser Ala Thr Val
420 425 430
Tyr Gly Lys Arg Thr Glu Glu Gly Ile Ser Arg Ala Thr Phe Arg Glu
435 440 445
Thr Gln Lys Leu Ile Ala Leu Glu Lys Ala Ile Glu Arg Val Met Lys
450 455 460
Gln Val Phe Asp Lys Tyr Asn Asp Gly Lys His Pro Leu Glu Ala Ile
465 470 475 480
Tyr Ile Gly Asn Ala Ile Lys Tyr Arg Arg Leu Ile Lys Gly Tyr Leu
485 490 495
Ala Gln Lys Lys Lys Tyr Tyr Ser Ala His Ser Glu Tyr Asp Lys Ala
500 505 510
Met Gly Tyr Thr Asp Asp Asp Thr Asp Arg Lys Glu Asn Met Asp Glu
515 520 525
Arg Arg Phe Asp Asp Ser Lys Lys Phe Arg Tyr Thr Pro Glu Ala Gln
530 535 540
Ala Leu Leu Asp Thr Met His Thr Ile Glu Lys Lys Ile Val Gly Cys
545 550 555 560
Val Ser Asn Ala Ile Ser Tyr Ala Tyr His Lys Phe Asp Glu Asn Gly
565 570 575
Phe Asn Val Ile Ala Leu Glu Asn Leu Thr Ser Ala Thr Phe Ala Lys
580 585 590
Lys Tyr Lys Ser Asp Lys Pro Glu Ser Ile Lys Lys Leu Leu Asn Phe
595 600 605
Asp Lys Leu Leu Gly Lys Thr Leu Asp Glu Ala Lys Ala Ser Lys Ser
610 615 620
Ile Ser Lys His Pro Asn Trp Tyr Glu Leu Val Ala Asp Glu Asn Gly
625 630 635 640
Cys Val Ser Asp Ile Arg Ile Thr Asp Glu Gly Gln Ser Ala Thr Tyr
645 650 655
Arg Ser Leu Val Thr Glu Thr Ile Met Lys Val Ser His Phe Ala Glu
660 665 670
Thr Lys Asp Arg Phe Ile Gly Leu Ala Asn Ser Gly Arg Leu Gln Val
675 680 685
Gly Leu Val Pro Ser Gln Tyr Thr Ser Tyr Ile Asp Ser Thr Thr His
690 695 700
Thr Leu Tyr Ala Val Ile Glu Asp Gly Lys Thr Val Leu Ala Pro Lys
705 710 715 720
Glu Val Val Arg Ala Ser Gln Glu Arg His Ile Asn Gly Leu Asn Ala
725 730 735
Asp Tyr Asn Ser Ala Leu Asn Leu Lys Tyr Met Ile Thr Asp Glu Asn
740 745 750
Phe Arg Lys Thr Phe Thr Ser Glu Thr Ser Ala Asp Lys Phe Gly Trp
755 760 765
Gly Lys Pro Met Phe Ser Pro Thr Thr Arg Ser Gln Asp Glu Val Phe
770 775 780
Ser Ala Ile Lys Lys Ile Gly Ala Ile Thr Val Leu Glu Asp
785 790 795
<210> 38
<211> 781
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 38
Met Ala His Lys Asn Ser Asp Gly Glu Asn Thr Ile Asn Lys Thr Phe
1 5 10 15
Ile Phe Lys Val Lys Cys Glu Lys Asn Asp Ile Ile Ser Phe Trp Lys
20 25 30
Pro Ala Ala Glu Glu Tyr Cys Asn Tyr Tyr Asn Lys Leu Ser Glu Trp
35 40 45
Ile Gly Lys Asn Leu Ile Ser Met Lys Ile Gly Asp Leu Ala Lys Tyr
50 55 60
Ile Asp Asn Pro Lys Ser Lys Tyr Tyr Leu Ser Val Thr Asp Glu Asn
65 70 75 80
Lys Lys Asp Leu Pro Leu Tyr Lys Ile Phe Gln Lys Gly Phe Ser Ser
85 90 95
Ile Asp Ala Asp Asn Ala Leu Tyr Cys Ala Ile Asp Lys Leu Asn Pro
100 105 110
Glu Gly Tyr Asn Gly Asn Ile Leu Gly Val Gly Lys Ser Asp Tyr Arg
115 120 125
Arg Asn Gly Tyr Val Ser Ser Val Ile Gly Asn Phe Arg Thr Lys Met
130 135 140
Val Ser Leu Lys Ala Asn Val Arg Trp Lys Lys Ile Asp Ile Gly Asn
145 150 155 160
Val Asp Glu Glu Thr Leu Arg Arg Gln Thr Ile Cys Asp Val Glu Lys
165 170 175
Tyr Arg Ile Glu Ser Glu Lys Asp Phe Arg Asp Leu Ile Asp Ile Leu
180 185 190
Lys Ala Arg Glu Glu Thr Pro Arg Leu Lys Glu Lys Ile Ser Arg Leu
195 200 205
Glu Leu Leu Tyr Asp Tyr Tyr Ser Lys Asn Thr Lys Thr Ile Lys Ser
210 215 220
Glu Met Glu Asn Met Ala Ile Ser Asp Leu Gln Lys Phe Gly Gly Cys
225 230 235 240
Val Arg Lys Ser Leu Asn Thr Ile Thr Ile His Lys Gln Asp Ser Lys
245 250 255
Ile Glu Lys Glu Gly Asn Thr Ser Phe Arg Leu His Met Val Phe Asn
260 265 270
Lys Lys Pro Tyr Thr Ile Thr Leu Leu Gly Asn Arg Gln Val Val Lys
275 280 285
Tyr Ile Asp Gly Lys Arg Val Asp Ile Val Asn Ile Val Glu Lys His
290 295 300
Gly Asp Trp Ile Thr Phe Asn Ile Lys Asn Gly Glu Leu Phe Val His
305 310 315 320
Leu Thr Lys Cys Val Glu Phe Ser Lys Gly Gln Lys Glu Ile Lys Lys
325 330 335
Ala Ala Gly Val Asp Val Asn Ile Lys His Ala Met Leu Ala Ala Ser
340 345 350
Ile Val Asp Asp Gly Gln Leu Lys Gly Tyr Val Asn Leu Tyr Arg Glu
355 360 365
Leu Ile Glu Asp Asp Asp Phe Val Ser Thr Phe Gly Asp Ser Asp Ser
370 375 380
Gly Lys Thr Glu Leu Gly Met Tyr Gln Lys Met Ala Lys Thr Val Phe
385 390 395 400
Phe Gly Val Leu Glu Val Glu Ser Leu Phe Glu Arg Val Val Asn Gln
405 410 415
Gln Ser Gly Trp Lys Leu Asp Asn Gln Leu Ile Arg Arg Glu Arg Ala
420 425 430
Met Glu Lys Val Phe Asp Arg Ile Val Lys Thr Thr Ser Asn Lys His
435 440 445
Ile Ile Asp Tyr Val Asn Tyr Val Lys Met Leu Arg Ala Lys Tyr Lys
450 455 460
Ala Tyr Phe Ile Leu Asp Glu Lys Tyr His Glu Lys Gln Arg Glu Tyr
465 470 475 480
Asp Leu Ser Met Gly Phe Thr Asp Glu Ser Asp Glu Arg Arg Glu Leu
485 490 495
Tyr Pro Phe Ile Asn Thr Glu Thr Ala Lys Glu Ile Leu Gly Lys Lys
500 505 510
Arg Asn Val Glu Gln Asp Leu Ile Gly Cys Arg Asp Asn Ile Val Thr
515 520 525
Tyr Ala Phe Asn Val Leu Arg Asn Asn Gly Tyr Asp Thr Ile Ser Val
530 535 540
Glu Tyr Leu Asp Ser Ser Gln Phe Asp Lys Arg Arg Met Pro Thr Pro
545 550 555 560
Lys Ser Leu Leu Glu Tyr His Lys Phe Lys Gly Lys Thr Gln Asp Glu
565 570 575
Val Glu Arg Leu Met Ser Glu Lys Lys Phe Ala Lys Thr Asn Tyr Asp
580 585 590
Ile His Tyr Asp Gly Glu Asn Lys Val Asp Gly Ile Val Tyr Ser Lys
595 600 605
Glu Gly Glu Leu Arg Gln Lys Lys Leu Asn Phe Met Asn Leu Val Ile
610 615 620
Lys Ala Ile His Phe Ala Asp Ile Lys Asp Lys Phe Ala Gln Leu Cys
625 630 635 640
Asn Asn Asn Asp Val Asn Val Val Phe Gly Pro Ser Ala Phe Thr Ser
645 650 655
Gln Met Asp Ser Glu Thr His Ser Leu Tyr Tyr Val Glu Lys Glu Thr
660 665 670
Asn Gly Lys Asn Gly Lys Thr Gly Lys Lys Phe Val Leu Ala Asp Lys
675 680 685
Lys Ser Val Arg Arg Arg Gln Glu Thr His Ile Asn Gly Leu Asn Ala
690 695 700
Asp Phe Asn Ala Ala Arg Asn Leu Glu Tyr Ile Ala Ser Asn Pro Glu
705 710 715 720
Leu Leu Glu Arg Met Thr Lys Arg Thr Lys Ser Gly Lys Asp Met Tyr
725 730 735
Asn Thr Pro Ser Trp Asn Ile Arg Gln Glu Phe Lys Lys Asn Leu Ser
740 745 750
Val Arg Thr Ile Asn Thr Phe Arg Glu Leu Gly Asn Val Lys Tyr Gly
755 760 765
Lys Ile Asn Asn Glu Gly Leu Phe Val Glu Asp Asp Val
770 775 780
<210> 39
<211> 786
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 39
Met Ala Gln His Lys Ser Asn Asn Glu Glu Ser Ala Ile Asn Lys Thr
1 5 10 15
Phe Ile Phe Lys Ala Lys Cys Glu Lys Asn Asp Val Ile Ser Leu Trp
20 25 30
Glu Pro Ala Ala Lys Glu Tyr Gly Asp Tyr Tyr Asn Lys Val Ser Lys
35 40 45
Trp Ile Ala Asp Asn Leu Ile Thr Met Lys Ile Gly Asp Leu Ala Gln
50 55 60
Tyr Ile Thr Asn Gln Asn Ser Lys Tyr Tyr Thr Ala Val Thr Asn Lys
65 70 75 80
Lys Lys Lys Asp Leu Pro Leu Tyr Arg Ile Phe Gln Lys Gly Phe Ser
85 90 95
Ser Gln Cys Ala Asp Asn Ala Leu Tyr Cys Ala Ile Lys Ser Ile Asn
100 105 110
Pro Glu Asn Tyr Lys Gly Asn Ser Leu Gly Ile Gly Glu Ser Asp Tyr
115 120 125
Arg Arg Phe Gly Tyr Ile Gln Ser Val Val Ser Asn Phe Arg Thr Lys
130 135 140
Met Ser Ser Leu Lys Val Ser Val Lys Tyr Lys Lys Phe Asp Val Ser
145 150 155 160
Asn Val Asp Asp Glu Thr Leu Lys Ile Gln Thr Ile Tyr Asp Val Asp
165 170 175
Lys Tyr Gly Ile Glu Thr Ala Lys Glu Phe Lys Glu Leu Ile Glu Thr
180 185 190
Leu Lys Thr Arg Val Glu Thr Pro Gln Leu Asn Asp Thr Ile Ala Arg
195 200 205
Leu Lys Cys Leu Cys Asp Tyr Tyr Ser Lys Asn Glu Lys Ala Ile Asn
210 215 220
Asn Glu Ile Glu Thr Met Ala Ile Ala Asp Leu Gln Lys Phe Gly Gly
225 230 235 240
Cys Gln Arg Lys Ser Leu Asn Ala Phe Thr Ile His Lys Gln Asp Ser
245 250 255
Leu Met Glu Lys Val Gly Asn Thr Ser Phe Arg Leu Gln Leu Ser Phe
260 265 270
Arg Lys Lys Thr Tyr Val Ile Asn Leu Leu Gly Asn Arg Gln Val Val
275 280 285
Asn Phe Val Asn Gly Lys Arg Val Asp Leu Ile Asp Ile Ala Glu Asn
290 295 300
His Gly Asp Leu Ile Thr Phe Asn Ile Lys Asn Gly Glu Leu Phe Leu
305 310 315 320
His Ile Thr Ser Pro Ile Val Phe Asp Lys Asp Val Arg Asp Ile Arg
325 330 335
Asn Val Val Gly Ile Asp Val Asn Ile Lys His Ser Met Leu Ala Thr
340 345 350
Ser Ile Lys Asp Asp Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Lys
355 360 365
Glu Leu Leu Asn Asp Asp Val Phe Val Ser Thr Cys Asn Glu Ser Glu
370 375 380
Leu Ala Leu Tyr Arg Gln Met Ser Glu Asn Val Asn Phe Gly Ile Leu
385 390 395 400
Glu Thr Asp Ser Leu Phe Glu Arg Ile Val Asn Gln Ser Lys Gly Gly
405 410 415
Cys Leu Lys Asn Lys Leu Ile Arg Arg Glu Leu Ala Met Gln Lys Val
420 425 430
Phe Glu Arg Ile Thr Lys Thr Asn Lys Asp Gln Asn Ile Val Asp Tyr
435 440 445
Val Asn Tyr Val Lys Met Met Arg Ala Lys Cys Lys Ala Ser Tyr Ile
450 455 460
Leu Lys Glu Lys Tyr Asp Glu Lys Gln Lys Glu Tyr Tyr Val Lys Met
465 470 475 480
Gly Phe Thr Asp Glu Ser Thr Glu Ser Lys Glu Thr Met Asp Lys Arg
485 490 495
Arg Glu Glu Phe Pro Phe Val Asn Thr Asp Thr Ala Lys Glu Leu Leu
500 505 510
Val Lys Gln Asn Asn Ile Arg Gln Asp Ile Ile Gly Cys Arg Asp Asn
515 520 525
Ile Val Thr Tyr Ala Phe Asn Val Phe Lys Asn Asn Glu Tyr Asp Thr
530 535 540
Leu Ser Val Glu Tyr Leu Asp Ser Ser Gln Phe Asp Lys Arg Arg Ile
545 550 555 560
Pro Thr Pro Lys Ser Leu Leu Lys Tyr His Lys Phe Glu Gly Lys Thr
565 570 575
Lys Asp Glu Val Glu Asn Met Met Lys Ser Glu Lys Leu Ser Asn Ala
580 585 590
Tyr Tyr Thr Phe Lys Tyr Glu Asn Asp Val Val Ser Asp Ile Asp Tyr
595 600 605
Ser Asp Glu Gly Asn Leu Arg Arg Ser Lys Leu Asn Phe Gly Asn Trp
610 615 620
Ile Ile Lys Ala Ile His Phe Ala Asp Ile Lys Asp Lys Phe Val Gln
625 630 635 640
Leu Ser Asn Asn Asn Lys Met Asn Ile Val Phe Cys Pro Ser Ala Phe
645 650 655
Ser Ser Gln Met Asp Ser Ile Thr His Thr Leu Tyr Tyr Val Glu Lys
660 665 670
Ile Thr Lys Asn Lys Lys Gly Lys Glu Lys Lys Lys Tyr Val Leu Ala
675 680 685
Asn Lys Lys Met Val Arg Thr Gln Gln Glu Thr His Ile Asn Gly Leu
690 695 700
Asn Ala Asp Tyr Asn Ser Ala Cys Asn Leu Lys Tyr Ile Ala Leu Asn
705 710 715 720
Tyr Glu Leu Arg Asp Lys Met Thr Asp Arg Phe Lys Ala Ser Lys Lys
725 730 735
Ile Lys Thr Met Tyr Asn Ile Pro Ala Tyr Asn Ile Lys Ser Asn Phe
740 745 750
Lys Lys Asn Leu Ser Ala Lys Thr Ile Gln Thr Phe Arg Glu Leu Gly
755 760 765
His Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Met Phe Val Glu Ile
770 775 780
Leu Glu
785
<210> 40
<211> 798
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 40
Met Ala His Arg Lys Lys Lys Asp Asp Glu Ala Thr Leu Ser Tyr Lys
1 5 10 15
Phe Lys Val Lys Val Ile Glu Gly Asp Leu Thr Ala Asp Asp Ile Thr
20 25 30
Lys Cys Ile Ala Glu Asn Ala Glu Gln Gly Asn His Phe Ser Glu Phe
35 40 45
Ile His Lys Asn Leu Thr Ser Lys Thr Ile Gly Glu Phe Ala Ser Gln
50 55 60
Leu Pro Ala Glu Lys Arg Gln Phe Gly Tyr Tyr Gln Tyr Ala Ile Gly
65 70 75 80
Gly Thr Met Pro Ala Lys Lys Asn Ala Ser Asp Glu Asp Lys Pro Lys
85 90 95
Gly Glu Leu Ile Asp Trp Ser Lys Lys Pro Phe Tyr Val Leu Phe Ser
100 105 110
Lys Gly Tyr Ser Ala Thr His Ala Val Asn Leu Ile Phe Asn Val Tyr
115 120 125
Leu Asn Ser Glu Glu Gly Lys Ala Phe Ser Ala Lys Asn Ser Met Asn
130 135 140
Leu Ser Lys Ser Gln Phe Ala Tyr Ser Gly Phe Val Gln Ile Val Cys
145 150 155 160
Ala Asn Tyr Ala Ser Met Leu Ala Asn Ala Arg Pro Asp Lys Ile Lys
165 170 175
Phe Glu Glu Ile Thr Glu Ala Thr Asp Asp Gly Thr Lys Lys Met Gln
180 185 190
Val Val Arg Glu Met Ala Glu Arg Tyr Leu Met Lys Pro Lys Asn Phe
195 200 205
Ala Ser Arg Ile Glu Tyr Leu Glu Ala Asn Asn Thr Lys Gly Lys Phe
210 215 220
Asp Lys Thr Ile Gln Arg Leu Arg Leu Leu Gln Pro Phe Phe Glu Lys
225 230 235 240
Asn Glu Glu Ser Ile Thr Glu Leu Tyr Tyr Asp Leu Ser Val Lys Ala
245 250 255
Leu Glu His Ser Gly Gln Cys Thr Tyr Lys Gly Gly Arg Thr Ile Ser
260 265 270
Ile Leu Glu Ile Gly Asp Ile Arg Ile Ser Arg Lys Glu Asn Ala Lys
275 280 285
Gly Tyr Leu Leu Thr Ile Pro Ile Asn Arg Lys Ser Val Val Phe Asp
290 295 300
Leu Tyr Gly Arg Lys Asp Thr Ile Gly Gly Asp Gly Arg Asp Leu Ile
305 310 315 320
Asp Ile Met Asn Thr His Gly Ser Ser Leu Gln Phe Thr Ala Asp Glu
325 330 335
Asn Asp Ile Tyr Leu Thr Ile Thr Ala Thr Lys Asn Phe Ile Lys Glu
340 345 350
Lys Pro Thr Phe Asn Glu Asp Thr Val Leu Gly Gly Asp Val Asn Ile
355 360 365
Lys His Ser Tyr Thr Val Phe Ser Ala Ser Pro Lys Asp Ile Pro Asp
370 375 380
Phe Val Asn Phe Tyr Glu Tyr Phe Ala Lys Asp Gly Glu Ile Met Lys
385 390 395 400
Leu Ala Pro Lys Pro Met Trp Asp Tyr Ile Val Ala Ala Ala Thr Lys
405 410 415
Phe Leu Thr Ile Leu Pro Ile Glu Thr Pro Ala Ile Ser Ala Thr Val
420 425 430
Tyr Gly Lys Arg Thr Glu Glu Gly Ile Ser Arg Ala Thr Phe Arg Glu
435 440 445
Thr Gln Lys Leu Ile Ala Leu Glu Lys Ala Ile Glu Arg Val Met Lys
450 455 460
Gln Val Phe Asp Lys Tyr Asn Asp Gly Lys His Pro Leu Glu Ala Ile
465 470 475 480
Tyr Ile Gly Asn Ala Ile Lys Tyr Arg Arg Leu Ile Lys Gly Tyr Leu
485 490 495
Ala Gln Lys Lys Lys Tyr Tyr Ser Ala His Ser Glu Tyr Asp Lys Ala
500 505 510
Met Gly Tyr Thr Asp Asp Asp Thr Asp Arg Lys Glu Asn Met Asp Glu
515 520 525
Arg Arg Phe Asp Asp Ser Lys Lys Phe Arg Tyr Thr Pro Glu Ala Gln
530 535 540
Ala Leu Leu Asp Thr Met His Thr Ile Glu Lys Lys Ile Val Gly Cys
545 550 555 560
Val Ser Asn Ala Ile Ser Tyr Ala Tyr His Lys Phe Asp Glu Asn Gly
565 570 575
Phe Asn Val Ile Ala Leu Glu Asn Leu Thr Ser Ala Thr Phe Ala Lys
580 585 590
Lys Tyr Lys Ser Asp Lys Pro Glu Ser Ile Lys Lys Leu Leu Asn Phe
595 600 605
Asp Lys Leu Leu Gly Lys Thr Leu Asp Glu Ala Lys Ala Ser Lys Ser
610 615 620
Ile Ser Lys His Pro Asn Trp Tyr Glu Leu Val Ala Asp Glu Asn Gly
625 630 635 640
Cys Val Ser Asp Ile Arg Ile Thr Asp Glu Gly Gln Ser Ala Thr Tyr
645 650 655
Arg Ser Leu Val Thr Glu Thr Ile Met Lys Val Ser His Phe Ala Glu
660 665 670
Thr Lys Asp Arg Phe Ile Gly Leu Ala Asn Ser Gly Arg Leu Gln Val
675 680 685
Gly Leu Val Pro Ser Gln Tyr Thr Ser Tyr Ile Asp Ser Thr Thr His
690 695 700
Thr Leu Tyr Ala Val Ile Glu Asp Gly Lys Thr Val Leu Ala Pro Lys
705 710 715 720
Glu Val Val Arg Ala Ser Gln Glu Arg His Ile Asn Gly Leu Asn Ala
725 730 735
Asp Tyr Asn Ser Ala Leu Asn Leu Lys Tyr Met Ile Thr Asp Glu Asn
740 745 750
Phe Arg Lys Thr Phe Thr Ser Glu Thr Ser Ala Asp Lys Phe Gly Trp
755 760 765
Gly Lys Pro Met Phe Ser Pro Thr Thr Arg Ser Gln Asp Glu Val Phe
770 775 780
Ser Ala Ile Lys Lys Ile Gly Ala Ile Thr Val Leu Glu Asp
785 790 795
<210> 41
<211> 771
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 41
Met Ala Asn Lys Arg Thr Asp Thr Thr Ile Asn Leu Asn Lys Thr Val
1 5 10 15
Ile Met Leu Thr Asn Met Leu Pro Glu Val Arg Ala Met Phe Gln Ala
20 25 30
Gly Ile Arg Gln Ala Gln Ala Tyr Ala Asp Leu Val Asn Lys Trp Ile
35 40 45
Cys Ser Asn Leu Thr Asn Lys Ile Gly Glu Val Leu Leu Pro Tyr Ile
50 55 60
Asp Asn Lys Asn Cys Val Tyr Tyr Glu Leu Cys Tyr Lys Tyr Lys Glu
65 70 75 80
Ala Pro Leu Tyr Thr Ile Phe Met Lys Gly Lys Phe Asp Leu Asn Ser
85 90 95
Arg Asn Asn Ala Leu Tyr Cys Ala Val Val Ala Gln Asn Ile Asp Asn
100 105 110
Tyr Ser Gly Asn Ile Phe Gly Phe Ser Gln Ser Asp Tyr Arg Arg Asn
115 120 125
Gly Tyr Cys Lys Val Val Phe Ser Asn Tyr Ala Thr Lys Met Ser Ser
130 135 140
Leu Lys Pro Ser Ile Lys Lys Val Thr Ile Asn Glu Glu Ser Thr Glu
145 150 155 160
Glu Thr Ile Gln Ser Gln Val Ile Tyr Glu Met Phe Thr Asn Gly Arg
165 170 175
Gln Trp Gly Lys Pro Glu Tyr Phe Ala Glu His Leu Lys Tyr Leu Glu
180 185 190
Met Lys Asp Asn Val Ser Asp Lys Leu Met Phe Arg Met Lys Thr Leu
195 200 205
Cys Glu Tyr Tyr Gln Thr His Thr Asp Leu Ile Asp Thr Met Ala Met
210 215 220
Asn Ala Gly Val Glu Ala Leu Lys Gln Phe Glu Gly Leu Lys Leu Asn
225 230 235 240
Arg Asp Lys Phe Ser Met Thr Ile Thr Thr Asn Ser Thr Ser Pro Tyr
245 250 255
Thr Leu Thr Arg Val Ala Gly Thr Cys Ala Tyr Asn Leu His Ile Pro
260 265 270
Cys Arg Lys Arg Ser Tyr Asp Ile Arg Leu Trp Gly Asn Arg Gln Thr
275 280 285
Val Arg Trp Val Asn Gly Glu Leu Val Asp Ile Ala Asp Ile Ile Asn
290 295 300
Gln His Gly Gln Thr Ile Ile Phe Thr Ile Lys Asn Gly Asn Val Tyr
305 310 315 320
Val His Ile Pro Tyr Gly Leu Asn Phe Glu Lys Thr Glu His Glu Ile
325 330 335
Lys Asn Val Val Gly Val Asp Val Asn Thr Lys His Met Leu Met Gln
340 345 350
Thr Ser Ile Lys Asp Asn Gly Trp Val Lys Gly Tyr Val Asn Ile Tyr
355 360 365
Lys Ala Leu Val Glu Asp Glu Glu Phe Val Lys Tyr Ile Ser Lys Ser
370 375 380
Asp Leu Lys Leu Tyr Lys Asp Leu Ser Lys Tyr Val Ser Phe Cys Pro
385 390 395 400
Leu Glu Leu Asn Leu Leu Tyr Thr Arg Tyr Leu Ser Lys Lys Gly Leu
405 410 415
Pro Phe Asn Glu Ala Asp Asn Asn Ala Glu Lys Cys Val Glu Lys Val
420 425 430
Leu Asn Asn Leu Val Lys Gln Tyr Glu Gly Asp Asp Val His Val Val
435 440 445
Asn Tyr Ile His Asn Val Lys Lys Leu Arg Ala Leu Cys Lys Ala Ser
450 455 460
Phe Val Leu Tyr Lys Lys Tyr Ala Glu Leu Gln Lys Ala Phe Asp Asp
465 470 475 480
Ala Gln Gly Tyr Asn Asp Gln Ser Thr Glu Thr Lys Glu Thr Met Asp
485 490 495
Lys Arg Arg Trp Glu Asn Pro Phe Ile Gln Thr Arg Glu Ala Gln Glu
500 505 510
Leu Ile Ala Lys Met Asp Asn Ala Val Ala Gly Ile Ile Gly Cys Arg
515 520 525
Asp Asn Ile Ile Thr Tyr Ala Tyr Lys Val Phe Gly Asp Asn Asn Tyr
530 535 540
Asp Thr Val Gly Leu Glu Asn Leu Thr Thr Ser Gln Phe Asp Asn Tyr
545 550 555 560
Ser Thr Val Lys Ser Pro Lys Ser Leu Leu Ser Tyr Tyr Gly Leu Leu
565 570 575
Gly Gln Gln Val Asp Ser Asp Lys Tyr Asn Ala Val Met Thr Glu Ser
580 585 590
Asn Lys Asp Trp Tyr Asp Phe Lys Thr Asp Gly Asp Gly Asn Ile Thr
595 600 605
Asp Ile Thr Leu Thr Ala Ala Gly Glu Ala Gln Lys Ala Lys Ser Leu
610 615 620
Phe Asn Asn Lys Val Leu Lys Asn Ile His Phe Ala Asp Val Lys Asp
625 630 635 640
Lys Phe Ile Gln Leu Gly Asn Asn Gly Ser Ile Gln Thr Val Leu Val
645 650 655
Pro Pro Ser Tyr Thr Ser Gln Met Asp Ser Lys Thr His Thr Ile Tyr
660 665 670
Val Lys Glu Thr Val Asp Pro Lys Asn Lys Asn Lys Lys Lys Leu Lys
675 680 685
Leu Val Asp Lys Lys Leu Val Arg His Gly Gln Glu Tyr His Lys Asn
690 695 700
Gly Leu Asn Ala Asp Ile Asn Ala Ala Leu Asn Ile Ala Tyr Ile Val
705 710 715 720
Glu Asn Gln Glu Met Arg Glu Val Met Cys Leu His Pro Ser Lys Lys
725 730 735
Asp Gly Val Tyr Asp Gln Pro Phe Leu Lys Ala Thr Thr Lys Tyr Pro
740 745 750
Ala Thr Val Ala Gly Ile Leu Leu Lys Met Gly Lys Thr Thr Asn Trp
755 760 765
Gly Glu Lys
770
<210> 42
<211> 764
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 42
Met Asn Lys Ser Tyr Val Phe Lys Ser Asn Val Ala Ile Asp Asp Ile
1 5 10 15
Met Ser Leu Phe Glu Pro Ala Ile Glu Glu Tyr Ile Asn Tyr Tyr Asn
20 25 30
Arg Thr Ser Asp Phe Ile Cys Asp Asn Leu Thr Ser Met Lys Ile Gly
35 40 45
Asp Leu Ala Asn Tyr Ile Lys Asn Lys Glu Asn Val Tyr Cys Lys Phe
50 55 60
Val Leu Asn Asp Asp Ile Lys Asp Leu Pro Leu Tyr Lys Ile Phe Ser
65 70 75 80
Leu Asn Leu Asn Ser Ser Gln Lys Lys Asn Ala Asp Asn Ala Leu Tyr
85 90 95
Glu Ala Ile Lys Val Leu Asn Ala Asp Gly Tyr Lys Gly Lys Asn Ile
100 105 110
Leu Gly Leu Gly Asp Thr Tyr Phe Arg Arg Asn Gly Tyr Val Lys Asn
115 120 125
Val Ile Ser Asn Tyr Arg Thr Lys Phe Val Thr Leu Lys Pro Asn Val
130 135 140
Lys Tyr Ser Lys Ile Asp Ile Asn Ser Val Thr Glu Gln Leu Ile Lys
145 150 155 160
Thr Gln Thr Ile Phe Glu Val Val Asn Lys Lys Ile Glu Ser Glu Thr
165 170 175
Asp Phe Glu Asn Leu Ile Thr Tyr Phe Lys Asn Arg Glu Thr Pro Asn
180 185 190
Asp Glu Lys Ile Lys Arg Leu Glu Leu Leu Phe Asp Tyr Tyr Thr Lys
195 200 205
His Lys Asn Glu Ile Asn Glu Glu Ile Glu Lys His Ala Val Glu Ser
210 215 220
Leu Lys Ser Phe Asn Gly Cys Arg Arg Asn Gly Asn Arg Lys Thr Met
225 230 235 240
Thr Val Gln Met Gln Lys Met Leu Leu Lys Lys His Gly Leu Thr Ser
245 250 255
Tyr Ile Leu His Leu Val Leu Asp Lys Lys Pro Tyr Asp Ile Asn Leu
260 265 270
Met Gly Asn Arg Gln Thr Val Lys Val Asp Asn Asn Gly Asn Arg Val
275 280 285
Asp Leu Val Asp Ile Ser Ser Lys His Gly Tyr Asp Leu Thr Phe Glu
290 295 300
Val Lys Gly Lys Thr Leu Phe Phe Thr Phe Ser Ser Glu Lys Asp Phe
305 310 315 320
Ser Lys Lys Glu Gln Glu Ile Lys Asn Ile Leu Gly Ile Asp Ile Asn
325 330 335
Thr Lys His Ser Met Leu Ala Thr Ser Ile Thr Asp Asn Gly Lys Val
340 345 350
Lys Gly Tyr Ile Asn Ile Tyr Val Glu Leu Leu Lys Asn Lys Asp Phe
355 360 365
Val Ser Thr Leu Asn Lys Glu Glu Leu Ala Tyr Tyr Thr Glu Met Ala
370 375 380
Lys Phe Val Ser Phe Gly Leu Leu Glu Ile Pro Ser Leu Phe Glu Arg
385 390 395 400
Val Ser Asn Gln Tyr Asp Lys Lys Asn Asn Val Ser Ile Thr Asp Glu
405 410 415
Thr Leu Leu Lys Arg Glu Ile Ala Ile Ser Gln Thr Leu Asp Asn Leu
420 425 430
Ala Lys Lys Tyr Arg Asp Lys Asn Cys Lys Ile Ala Ser Tyr Ile Asp
435 440 445
Tyr Thr Lys Met Leu Arg Ser Lys Tyr Lys Ser Tyr Phe Ile Leu Lys
450 455 460
Gln Lys Tyr Tyr Glu Lys Asn His Glu Tyr Asp Asp Lys Met Gly Phe
465 470 475 480
Ser Asp Ile Ser Thr Asn Ser Lys Glu Thr Met Asp Pro Arg Arg Phe
485 490 495
Glu Asn Pro Phe Ile Asn Thr Asp Ile Ala Lys Gly Leu Ile Val Lys
500 505 510
Leu Glu Asn Val Lys Cys Asp Ile Val Gly Cys Arg Asp Asn Ile Ile
515 520 525
Lys Tyr Ala Tyr Asp Val Ile Val Leu Asn Gly Phe Asp Thr Ile Gly
530 535 540
Leu Glu Tyr Leu Asp Ser Ser Asn Phe Glu Arg Asp Arg Leu Pro Phe
545 550 555 560
Pro Thr Ala Lys Ser Leu Met Thr Tyr Tyr Gly Phe Glu Gly Lys Lys
565 570 575
Tyr Ser Glu Ile Asp Lys Ser Val Phe Asn Thr Lys Tyr Tyr Asn Phe
580 585 590
Ile Phe Asn Glu Asn Glu Thr Ile Lys Asp Ile Ser Tyr Ser Val Tyr
595 600 605
Gly Leu Lys Glu Ile Gln Lys Lys Arg Phe Lys Asn Leu Val Ile Lys
610 615 620
Ala Ile Gly Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu Ser Asn
625 630 635 640
Asn Thr Asn Met Asn Val Ile Phe Val Pro Ala Ala Phe Thr Ser Gln
645 650 655
Met Asp Ser Asn Thr His Lys Ile Tyr Val Lys Glu Ile Met Asp Lys
660 665 670
Asn Asn Lys Lys Gln Leu Gln Leu Ile Asp Lys Arg Lys Val Arg Thr
675 680 685
Lys Gln Glu Phe His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala
690 695 700
Asn Asn Ile Lys Tyr Ile Ala Glu Asn Asn Asp Leu Leu Leu Thr Met
705 710 715 720
Cys Thr Lys Thr Lys Glu Asn Asn Arg Tyr Gly Asn Pro Leu Tyr Asn
725 730 735
Ile Lys Asp Thr Phe Lys Lys Lys Ile Pro Ser Ser Ile Leu Asn Ile
740 745 750
Phe Lys Lys Lys Asp Met Tyr Gln Ile Ile Cys Asp
755 760
<210> 43
<211> 768
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 43
Met Phe Arg Ile Phe Ala Ala Leu Lys Leu Thr Asn Met Gly His Val
1 5 10 15
Arg Leu Gln Lys Arg Glu Gly Glu Val Tyr Lys Thr Tyr Lys Leu Lys
20 25 30
Val Lys Ser Phe Ser Gly Asn Val Asp Ile Lys Ala Gly Ile Val Glu
35 40 45
Tyr Asp Gln Lys Phe Asn Asn Val Ser Gln Trp Ile Ala Asp His Leu
50 55 60
Thr Ser Met Thr Ile Gly Glu Ala Ala Ser Arg Ile Ser Pro His Lys
65 70 75 80
Met Asp Ser Gln Tyr Ala Met Thr Ser Leu Ser Asp Glu Trp Lys Asp
85 90 95
Gln Pro Leu Tyr Lys Ile Phe Thr Arg Gly Phe Gly Gly Met Asn Ala
100 105 110
Asp Asn Leu Ile Ile Glu Cys Thr Lys Thr Glu Glu Asn Cys Lys Tyr
115 120 125
Asp Lys Glu Lys Ser Leu Gly Phe Ser Glu Ser Val Phe Arg Thr Phe
130 135 140
Gly Phe Ala Ala Asn Ala Ser Ser Asp Met Lys Ser Arg Met Thr Gln
145 150 155 160
Ala Lys Val Lys Ile Gly Arg Lys Asn Ile Asp Glu Asp Ser Ala Asp
165 170 175
Asp Glu Lys Cys Leu Gln Ala Ile Tyr Glu Ile Gln Lys Asn Glu Leu
180 185 190
Leu Thr Asp Asp Asn Trp Lys Asp Arg Ile Gly Tyr Leu Glu Met Lys
195 200 205
Gly Asp Gln Glu Arg Glu Leu Glu Arg Thr Thr Ile Leu Tyr Asp Tyr
210 215 220
Tyr Arg Ala Asn Arg Thr Thr Val Leu Asp Lys Leu Asp Asn Leu Lys
225 230 235 240
Val Glu Thr Leu Ser Lys Phe Arg Gly Ser Lys Arg Lys Ser Asp Arg
245 250 255
Lys Ile Leu Thr Leu Asn Gly Ile Ser Tyr Asp Ile Lys Arg Lys Glu
260 265 270
Gly Cys Gln Gly Phe Glu Leu Lys Phe Ser Val Asp Lys Asn His Met
275 280 285
Glu Phe Asp Leu Leu Gly His Arg Ala Leu Ile Lys Asn Gly Glu Met
290 295 300
Leu Val Asp Ile Glu Asn Cys His Gly Ser Gln Leu Ser Leu Glu Ile
305 310 315 320
Asp Gly Asp Asp Met Tyr Ala Ile Ile Ser Met Arg Thr Phe Cys Glu
325 330 335
Lys Asn Glu Ser Lys Leu Glu Lys Ile Ile Gly Ala Asp Val Asn Ile
340 345 350
Lys His Met Phe Leu Met Thr Ser Glu Lys Asp Asp Gly Asn Thr Lys
355 360 365
Cys Tyr Val Asn Leu Tyr Arg Glu Leu Leu Ser Asp Ser Asp Phe Thr
370 375 380
Asp Val Leu Asn Lys Glu Glu Tyr Glu Ile Phe Ser Glu Leu Ser Lys
385 390 395 400
Tyr Val Met Phe Gly Leu Ile Glu Thr Pro Tyr Leu Gly Ser Arg Val
405 410 415
Ile Gly Thr Thr Gln His Glu Lys Ile Val Glu Asp Lys Ile Thr Ser
420 425 430
Gly Met Lys Lys Ile Ala Ile Arg Leu Phe Gln Glu Gly Lys Val Arg
435 440 445
Glu Arg Ile Tyr Val Gln Asn Val Leu Lys Ile Arg Ala Leu Leu Lys
450 455 460
Ala Leu Phe Ser Thr Lys Leu Ala Tyr Ser Asn Glu Gln Lys Ile Tyr
465 470 475 480
Asp Asn Leu Met Arg Phe Gly Glu Lys Asp Asp Arg Arg Lys Asp Glu
485 490 495
Gly Phe His Thr Thr Cys Arg Gly Thr Ser Leu Arg Ser Glu Met Asp
500 505 510
Met Leu Ser Lys Lys Ile Leu Ala Cys Arg Asp Asn Ile Val Glu Tyr
515 520 525
Gly Tyr Tyr Val Ile Gly Leu Asn Gly Phe Asp Gly Ile Ser Leu Glu
530 535 540
Asn Leu Glu Ser Ser Thr Phe Met Asp Val Lys Ile Ser Tyr Pro Ser
545 550 555 560
Cys Asn Ser Met Leu Asp His Phe Lys Leu Lys Gly Lys Thr Ile Glu
565 570 575
Glu Ala Glu Asn His Glu Thr Val Gly Lys Phe Ile Lys Lys Gly Tyr
580 585 590
Tyr Val Met Thr Leu Val Asn Gly Lys Ile Asn Asp Ile Asn Tyr Ser
595 600 605
Glu Lys Ala Val Met Leu His Lys Lys Asn Leu Leu Tyr Asp Thr Val
610 615 620
Ile Lys Ser Thr His Phe Ala Asp Val Lys Asp Lys Phe Val Glu Leu
625 630 635 640
Ser Asn Asn Gly Lys Val Ser Val Val Ile Val Pro Pro Tyr Phe Ser
645 650 655
Ser Gln Met Asp Ser Val Thr His Lys Val Phe Thr Glu Glu Ile Val
660 665 670
Val Gln Lys Lys Ser Ser Asn Gly Lys Val Arg Lys Thr Lys Lys Thr
675 680 685
Val Leu Val Asp Lys Arg Lys Val Arg Lys Thr Gln Glu Ser His Ile
690 695 700
Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Leu Lys Tyr Ile
705 710 715 720
Ala Glu Thr Ile Asp Trp Arg Ser Thr Leu Cys Phe Lys Thr Trp Asn
725 730 735
Thr Tyr Gly Ser Pro Gln Trp Asp Ser Lys Ile Lys Asn Gln Lys Thr
740 745 750
Met Ile Asp Arg Leu Asp Ser Leu Gly Ala Ile Glu Leu Lys Asn Trp
755 760 765
<210> 44
<211> 789
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 44
Met Ser His Glu Phe Asn Lys Asn Lys Gly Glu Asn Glu Ile Ser Lys
1 5 10 15
Thr Phe Ile Phe Lys Thr Lys Cys Gly Lys Asn Asp Ile Thr Ser Leu
20 25 30
Trp Val Pro Ala Met Glu Glu Tyr Cys Thr Tyr Tyr Asn Arg Val Ser
35 40 45
Lys Trp Ile Cys Asp Asn Leu Thr Glu Met Arg Ile Gly Asp Leu Ala
50 55 60
Gln Tyr Ile Asp Asn His Gly Ser Ala Tyr Tyr Ser Ala Val Thr Asp
65 70 75 80
Ile Thr Lys Lys Asp Leu Pro Leu Tyr Lys Ile Phe Lys Lys Gly Phe
85 90 95
Ser Gly Leu Cys Ala Asp Asn Ala Leu Tyr Cys Ala Ile Ala Lys Leu
100 105 110
Asn Pro Glu Gly Tyr Asp Gly Asn Met Phe Gly Leu Ser Glu Thr Tyr
115 120 125
Tyr Arg Arg Gln Gly Tyr Ile Ala Asn Val Phe Gly Asn Tyr Arg Thr
130 135 140
Lys Met Asn Ala Gly Leu Lys Val Gly Cys Ala Lys Trp Lys Lys Phe
145 150 155 160
Asp Thr Asn Asp Val Asp Asp Glu Ile Leu Met Glu Gln Val Ile Val
165 170 175
Asp Val Val Lys Tyr Asp Ile Asp Ser Lys Asn Glu Phe Lys Glu Tyr
180 185 190
Ile Glu Val Leu Lys Cys Arg Glu Glu Asn Pro Lys Leu Leu Glu Thr
195 200 205
Ile Glu Arg Leu Glu Cys Leu Tyr Gly Tyr Tyr Ser Gln His Glu Glu
210 215 220
Asp Ile Lys Lys Lys Ile Glu Glu Leu Val Val Glu Glu Leu Lys Thr
225 230 235 240
Phe Gly Gly Cys Val Arg Lys Ser Met Thr Ser Cys Thr Ile Thr Val
245 250 255
Gln Asp Phe Val Met Glu Arg Ile Gly Asn Thr Gly Tyr Arg Ile Asn
260 265 270
Leu Thr Phe Asn Lys Lys Pro Tyr Val Leu Gly Leu Leu Gly Asn Arg
275 280 285
Gln Val Val Arg Tyr Val Asp Gly Asp Arg Val Glu Leu Val Asp Ile
290 295 300
Val Asn Asn His Gly Asn Gln Ile Thr Phe Asn Leu Lys Asn Gly Glu
305 310 315 320
Leu Phe Val His Leu Thr Ser Gly Val Asp Phe Ser Lys Glu Glu Ser
325 330 335
Ser Met Glu Asn Ile Val Gly Val Asp Val Asn Ile Lys His Ser Met
340 345 350
Leu Ala Ser Ser Ile Val Asp Asp Gly Asn Val Asn Gly Tyr Ile Asn
355 360 365
Ile Tyr Lys Glu Leu Val Asn Asp Asp Glu Phe Val Ser Thr Phe Gly
370 375 380
Asp Ser Glu Ser Gly Leu Asn Glu Leu Glu Leu Tyr Arg Gln Met Ala
385 390 395 400
Glu Ser Val Asn Phe Gly Leu Met Glu Thr Asp Ser Leu Phe Glu Arg
405 410 415
Tyr Val Glu Gln Trp Lys Gly Ser Asp Ser Asp Ser Arg Leu Ala Arg
420 425 430
Arg Glu Arg Val Val Gly Lys Val Phe Asp Arg Ile Val Lys Thr Asn
435 440 445
Gly Asp Val His Val Val Asn Tyr Ile His Ala Val Lys Met Leu Arg
450 455 460
Ala Lys Cys Lys Ala Tyr Phe Val Leu Lys Gln Lys Tyr Tyr Glu Lys
465 470 475 480
Gln Lys Glu Tyr Asp Asp Ala His Gly Tyr Thr Asp Glu Ser Thr Ala
485 490 495
Ser Lys Glu Thr Met Asp Lys Arg Arg Phe Glu Asn Pro Phe Val Glu
500 505 510
Thr Asp Val Ala Lys Glu Leu Leu Gly Lys Leu Ala Cys Val Glu Gln
515 520 525
Asp Ile Ile Gly Cys Arg Asp Asn Ile Val Thr Tyr Ala Phe Asn Val
530 535 540
Phe Arg Arg Asn Gly Tyr Asp Thr Ile Ser Leu Glu Tyr Leu Asp Ser
545 550 555 560
Ser Gln Phe Lys Lys Ile Gly Met Gly Ala Pro Thr Pro Lys Ser Leu
565 570 575
Leu Lys Tyr His Lys Leu Glu Gly Lys Thr Val Glu Glu Val Glu Ser
580 585 590
Ile Ile Ser Glu Lys Gly Leu Lys Lys Asn Leu Tyr Val Phe Lys Phe
595 600 605
Gly Asp Asn Gly Leu Leu Ser Asp Ile Glu Tyr Ser Asp Glu Gly Leu
610 615 620
Ile Arg Lys Lys Lys Ala Asp Phe Gly Asn Ile Ile Thr Lys Ala Ile
625 630 635 640
His Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu Thr Asn Asn Ser
645 650 655
Asp Met Gly Val Val Phe Cys Pro Ser Ala Phe Thr Ser Gln Met Asp
660 665 670
Ser Lys Thr His Arg Leu Tyr Phe Val Glu Gly Leu Asp Gly Asn Gly
675 680 685
Lys Asn Lys Tyr Val Leu Ala Asn Lys Trp Ser Val Arg Arg Gln Gln
690 695 700
Glu Arg His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ser Ala Cys Asn
705 710 715 720
Cys Gln His Ile Ala Tyr Asp Pro Ile Leu Arg Asp Ala Met Thr Ile
725 730 735
Lys Val Glu Ala Gly Lys Gly Met Tyr Asn Lys Pro Ser Tyr Asp Ile
740 745 750
Arg Lys Lys Phe Lys Lys Asn Leu Ser Ala Ala Thr Leu Lys Thr Phe
755 760 765
Ile Lys Leu Gly Asn Thr Val Lys Gly Met Ile Val Asn Gly Gln Phe
770 775 780
Val Glu Met Glu Ser
785
<210> 45
<211> 784
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 45
Met Tyr Asn Ser Lys Lys Lys Gly Glu Gly Asp Ile Gln Lys Ser Phe
1 5 10 15
Lys Phe Lys Val Lys Thr Asp Lys Glu Thr Val Glu Leu Phe Arg Lys
20 25 30
Ala Ala Val Glu Tyr Ser Glu Tyr Tyr Lys Arg Leu Thr Thr Phe Leu
35 40 45
Cys Glu Arg Leu Thr Asp Met Thr Trp Gly Glu Val Ala Ser Phe Ile
50 55 60
Pro Glu Lys Tyr Arg Lys Asn Glu Tyr Tyr Lys Tyr Leu Ile Lys Glu
65 70 75 80
Glu Asn Lys Asp Leu Pro Leu Tyr Lys Met Phe Thr Lys Ala Ala Ser
85 90 95
Ser Met Phe Ile Asp His Ser Ile Glu Arg Tyr Val Glu Ala Leu Asn
100 105 110
Pro Glu Gly Asn Thr Gly Asn Ile Leu Gly Phe Cys Lys Ser Ser Tyr
115 120 125
Val Arg Gly Gly Tyr Leu Lys Asn Val Val Ser Asn Ile Arg Thr Lys
130 135 140
Phe Ala Thr Leu Lys Thr Gly Ile Lys Tyr Lys Lys Phe Asn Pro Ala
145 150 155 160
Glu Asp Asp Glu Glu Thr Ile Leu Gly Gln Thr Val Phe Glu Met Glu
165 170 175
Lys Arg Gly Leu Glu Phe Lys Cys Asp Phe Glu Lys Thr Ile Lys Tyr
180 185 190
Leu Asn Glu Lys Gly Lys Thr Gln Glu Ala Glu Arg Leu Gln Cys Leu
195 200 205
Met Glu Tyr Phe Ser Thr Asn Thr Asp Lys Ile Asn Glu Tyr Arg Glu
210 215 220
Ser Leu Val Leu Asp Asp Ile Arg Lys Phe Gly Gly Cys Asn Arg Ser
225 230 235 240
Lys Ser Asn Ser Phe Ser Val Thr Leu Glu Lys Ala Asp Ile Lys Glu
245 250 255
Asp Gly Leu Thr Gly Tyr Thr Met Lys Val Ser Lys Lys Leu Lys Glu
260 265 270
Ile His Leu Leu Gly His Arg Arg Val Val Glu Val Val Asn Gly Arg
275 280 285
Arg Val Asn Leu Val Asp Ile Cys Gly Asp Lys Ser Gly Asp Ser Lys
290 295 300
Val Phe Val Val Asp Gly Asp Asn Leu Tyr Val Cys Ile Ser Ala Pro
305 310 315 320
Val Lys Phe Ser Lys Asn Gly Met Glu Ala Lys Lys Tyr Ile Gly Val
325 330 335
Asp Met Asn Met Lys His Ser Ile Ile Ser Val Ser Asp Asn Ala Ser
340 345 350
Asp Met Lys Gly Phe Leu Asn Ile Tyr Lys Glu Leu Leu Lys Asp Glu
355 360 365
Gly Phe Arg Lys Thr Leu Asn Ala Thr Glu Leu Glu Lys Tyr Glu Lys
370 375 380
Leu Ala Glu Gly Val Asn Ile Gly Ile Ile Glu Tyr Asp Gly Leu Tyr
385 390 395 400
Glu Arg Ile Val Lys Gln Lys Lys Glu Asn Ser Val Asp Gly Leu Lys
405 410 415
Val Gln Ala Glu Lys Lys Leu Ile Glu Arg Glu Ala Ala Ile Glu Arg
420 425 430
Val Leu Asp Lys Leu Arg Lys Gly Thr Ser Asp Thr Asp Thr Glu Asn
435 440 445
Tyr Ile Asn Tyr Asn Lys Ile Leu Arg Ala Lys Ile Lys Ser Ala Tyr
450 455 460
Ile Leu Lys Asp Lys Tyr Tyr Glu Met Leu Gly Lys Tyr Asp Ser Glu
465 470 475 480
Arg Ala Gly Ser Gly Asp Leu Ser Glu Glu Asn Lys Ile Lys Tyr Lys
485 490 495
Asp Glu Phe Asn Glu Thr Glu Lys Gly Lys Glu Ile Leu Gly Lys Leu
500 505 510
Asn Asn Val Tyr Lys Asp Ile Ile Gly Cys Arg Asp Asn Ile Val Thr
515 520 525
Tyr Ala Val Asn Leu Phe Ile Arg Asn Gly Tyr Asp Thr Val Ala Leu
530 535 540
Glu Tyr Leu Glu Ser Ser Gln Met Lys Ala Arg Arg Ile Pro Ser Thr
545 550 555 560
Gly Gly Leu Leu Lys Gly His Lys Leu Glu Gly Lys Pro Glu Gly Glu
565 570 575
Val Thr Ala Tyr Leu Lys Ala Asn Lys Ile Pro Lys Ser Tyr Tyr Ser
580 585 590
Phe Glu Tyr Asp Gly Asn Gly Met Leu Thr Asp Val Lys Tyr Ser Asp
595 600 605
Met Gly Glu Lys Ala Arg Gly Arg Asn Arg Phe Lys Asn Leu Val Pro
610 615 620
Lys Phe Leu Arg Trp Ala Ser Ile Lys Asp Lys Phe Val Gln Leu Ser
625 630 635 640
Asn Tyr Lys Asp Ile Gln Met Val Tyr Val Pro Ser Pro Tyr Thr Ser
645 650 655
Gln Thr Asp Ser Arg Thr His Ser Leu Tyr Tyr Ile Glu Thr Val Lys
660 665 670
Val Asp Glu Lys Thr Gly Lys Glu Lys Lys Glu His Ile Val Ala Pro
675 680 685
Lys Glu Ser Val Arg Thr Glu Gln Glu Ser Phe Val Asn Gly Met Asn
690 695 700
Ala Asp Thr Asn Ser Ala Asn Asn Ile Lys Tyr Ile Phe Glu Asn Glu
705 710 715 720
Thr Leu Arg Asp Lys Phe Leu Lys Arg Thr Lys Asp Gly Thr Glu Met
725 730 735
Tyr Asn Arg Pro Ala Phe Asp Leu Lys Glu Cys Tyr Lys Lys Asn Ser
740 745 750
Asn Val Ser Val Phe Asn Thr Leu Lys Lys Thr Leu Gly Ala Ile Tyr
755 760 765
Gly Lys Leu Asp Glu Asn Gly Asn Phe Ile Glu Asn Glu Cys Asn Lys
770 775 780
<210> 46
<211> 764
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 46
Met Asn Lys Ser Tyr Val Phe Lys Ser Asn Val Ala Ile Asp Asp Ile
1 5 10 15
Met Ser Leu Phe Glu Pro Ala Ile Glu Glu Tyr Ile Asn Tyr Tyr Asn
20 25 30
Arg Thr Ser Asp Phe Ile Cys Asp Asn Leu Thr Ser Met Lys Ile Gly
35 40 45
Asp Leu Ala Asn Tyr Ile Lys Asn Lys Glu Asn Val Tyr Cys Lys Phe
50 55 60
Val Leu Asn Asp Asp Ile Lys Asp Leu Pro Leu Tyr Lys Ile Phe Ser
65 70 75 80
Leu Asn Leu Asn Ser Ser Gln Lys Lys Asn Ala Asp Asn Ala Leu Tyr
85 90 95
Glu Ala Ile Lys Val Leu Asn Ala Asp Gly Tyr Lys Gly Lys Asn Ile
100 105 110
Leu Gly Leu Gly Asp Thr Tyr Phe Arg Arg Asn Gly Tyr Val Lys Asn
115 120 125
Val Ile Ser Asn Tyr Arg Thr Lys Phe Val Thr Leu Lys Pro Asn Val
130 135 140
Lys Tyr Ser Lys Ile Asp Ile Asn Ser Val Thr Glu Gln Leu Ile Lys
145 150 155 160
Thr Gln Thr Ile Phe Glu Val Val Asn Lys Lys Ile Glu Ser Glu Thr
165 170 175
Asp Phe Glu Asn Leu Ile Thr Tyr Phe Lys Asn Arg Glu Thr Pro Asn
180 185 190
Asp Glu Lys Ile Lys Arg Leu Glu Leu Leu Phe Asp Tyr Tyr Thr Lys
195 200 205
His Lys Asn Glu Ile Asn Glu Glu Ile Glu Lys His Ala Val Glu Ser
210 215 220
Leu Lys Ser Phe Asn Gly Cys Arg Arg Asn Gly Asn Arg Lys Thr Met
225 230 235 240
Thr Val Gln Met Gln Lys Met Leu Leu Lys Lys His Gly Leu Thr Ser
245 250 255
Tyr Ile Leu His Leu Val Leu Asp Lys Lys Pro Tyr Asp Ile Asn Leu
260 265 270
Met Gly Asn Arg Gln Thr Val Lys Val Asp Asn Asn Gly Asn Arg Val
275 280 285
Asp Leu Val Asp Ile Ser Ser Lys His Gly Tyr Asp Leu Thr Phe Glu
290 295 300
Val Lys Gly Lys Thr Leu Phe Phe Thr Phe Ser Ser Glu Lys Asp Phe
305 310 315 320
Ser Lys Lys Glu Gln Glu Ile Lys Asn Ile Leu Gly Ile Asp Ile Asn
325 330 335
Thr Lys His Ser Met Leu Ala Thr Ser Ile Thr Asp Asn Gly Lys Val
340 345 350
Lys Gly Tyr Ile Asn Ile Tyr Val Glu Leu Leu Lys Asn Lys Asp Phe
355 360 365
Val Ser Thr Leu Asn Lys Glu Glu Leu Ala Tyr Tyr Thr Glu Met Ala
370 375 380
Lys Phe Val Ser Phe Gly Leu Leu Glu Ile Pro Ser Leu Phe Glu Arg
385 390 395 400
Val Ser Asn Gln Tyr Asp Lys Lys Asn Asn Val Ser Ile Thr Asp Glu
405 410 415
Thr Leu Leu Lys Arg Glu Ile Ala Ile Ser Gln Thr Leu Asp Asn Leu
420 425 430
Ala Lys Lys Tyr Arg Asp Lys Asn Cys Lys Ile Ala Ser Tyr Ile Asp
435 440 445
Tyr Thr Lys Met Leu Arg Ser Lys Tyr Lys Ser Tyr Phe Ile Leu Lys
450 455 460
Gln Lys Tyr Tyr Glu Lys Asn His Glu Tyr Asp Asp Lys Met Gly Phe
465 470 475 480
Ser Asp Ile Ser Thr Asn Ser Lys Glu Thr Met Asp Pro Arg Arg Phe
485 490 495
Glu Asn Pro Phe Ile Asn Thr Asp Ile Ala Lys Gly Leu Ile Val Lys
500 505 510
Leu Glu Asn Val Lys Cys Asp Ile Val Gly Cys Arg Asp Asn Ile Ile
515 520 525
Lys Tyr Ala Tyr Asp Val Ile Val Leu Asn Gly Phe Asp Thr Ile Gly
530 535 540
Leu Glu Tyr Leu Asp Ser Ser Asn Phe Glu Arg Asp Arg Leu Pro Phe
545 550 555 560
Pro Thr Ala Lys Ser Leu Met Thr Tyr Tyr Gly Phe Glu Gly Lys Lys
565 570 575
Tyr Ser Glu Ile Asp Lys Ser Val Phe Asn Thr Lys Tyr Tyr Asn Phe
580 585 590
Ile Phe Asn Glu Asn Glu Thr Ile Lys Asp Ile Ser Tyr Ser Val Tyr
595 600 605
Gly Leu Lys Glu Ile Gln Lys Lys Arg Phe Lys Asn Leu Val Ile Lys
610 615 620
Ala Ile Gly Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu Ser Asn
625 630 635 640
Asn Thr Asn Met Asn Val Ile Phe Val Pro Ala Ala Phe Thr Ser Gln
645 650 655
Met Asp Ser Asn Thr His Lys Ile Tyr Val Lys Glu Ile Met Asp Lys
660 665 670
Asn Asn Lys Lys Gln Leu Gln Leu Ile Asp Lys Arg Lys Val Arg Thr
675 680 685
Lys Gln Glu Phe His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala
690 695 700
Asn Asn Ile Lys Tyr Ile Ala Glu Asn Asn Asp Leu Leu Leu Thr Met
705 710 715 720
Cys Thr Lys Thr Lys Glu Asn Asn Arg Tyr Gly Asn Pro Leu Tyr Asn
725 730 735
Ile Lys Asp Thr Phe Lys Lys Lys Ile Pro Ser Ser Ile Leu Asn Ile
740 745 750
Phe Lys Lys Lys Asp Met Tyr Gln Ile Ile Cys Asp
755 760
<210> 47
<211> 758
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 47
Met Ala His Lys Thr Lys Glu Ser Glu Lys Leu Val Lys Ser Phe Lys
1 5 10 15
Leu Lys Val Asp Ile Ser Asn Cys Glu Ile Glu Lys Lys Trp Ile Pro
20 25 30
Ser Phe Glu Glu Tyr Thr Asn Tyr Tyr Asn Gly Val Ser Asn Trp Ile
35 40 45
Cys Glu Asn Leu Ile Ser Met Lys Ile Gly Asp Leu Gly Gln Tyr Ile
50 55 60
Lys Asn Thr Glu Ser Val Tyr Tyr Lys Phe Ile Thr Asp Glu Ser Ile
65 70 75 80
Ser Asn Leu Pro Leu Tyr Lys Ile Phe Thr Leu Lys Gln Thr Gln Asn
85 90 95
Val Asp Asn Ala Leu Phe Cys Ala Ile Lys Glu Ile Asn Pro Glu Lys
100 105 110
Tyr Asn Gly Asn Ser Ile Gly Leu Gly Glu Thr Asp Tyr Arg Arg Phe
115 120 125
Gly Tyr Val Gln Cys Val Ile Ser Asn Tyr Arg Thr Lys Ile Gly Thr
130 135 140
Met Lys Ala Ser Ile Lys Tyr Lys Thr Leu Pro Glu Asn Gln Ser Tyr
145 150 155 160
Asp Val Ile Phe Glu Gln Thr Met Tyr Glu Met Ile Asp Lys Ser Leu
165 170 175
Glu Lys Lys Glu Asp Trp Glu Asn Ile Ile Ser Asn Tyr Lys Ala Lys
180 185 190
Gln Thr Glu Asn Thr Ser Lys Ile Asn Arg Met Glu Thr Leu Tyr Ser
195 200 205
Phe Phe Ile Glu His Ser Glu Glu Ile Ile Glu Lys Ser Asn Leu Val
210 215 220
Ala Ile Glu Gln Leu Ala Leu Phe Asn Gly Cys Lys Arg Lys Ser Leu
225 230 235 240
Ser Thr Met Thr Ile His Ser Gln His Ser Lys Leu Gln Lys Asn Gly
245 250 255
Leu Thr Ser Phe Val Phe Cys Ile Asn Gln Lys Ile Gly Ser Ile Asn
260 265 270
Leu Phe Gly Asn Arg Gln Leu Val Ser Val Asp Glu Asn Gly Asn Arg
275 280 285
Asn Asp Ile Ile Asp Ile Cys Asn Asn Tyr Gly Asp Phe Ile Thr Phe
290 295 300
Gln Ile Lys Asn Gly Lys Met Phe Ile Ile Leu Thr Ala Lys Val Asp
305 310 315 320
Phe Asp Lys Glu Asn Ile Glu Ile Lys Asn Val Val Gly Ala Asp Val
325 330 335
Asn Ile Lys His Asn Met Ile Ala Ser Ser Ile Ile Asp Asn Gly Asn
340 345 350
Val Phe Gly Tyr Ile Asn Ile Tyr Lys Glu Leu Leu Asn Asp Glu Asp
355 360 365
Phe Cys Ser Ser Cys Thr Asn Glu Glu Leu Asp Ile Tyr Lys Glu Ile
370 375 380
Ser Lys Ser Val Asn Phe Gly Leu Leu Glu Cys Glu Ser Leu Phe Ser
385 390 395 400
Arg Val Ser Ala Gln Ile Tyr Lys Glu Asn Glu Ser Ile Ser Lys Leu
405 410 415
Asp Asp Arg Phe Leu Arg Arg Glu Lys Ser Ile Glu Asn Val Leu Asn
420 425 430
Arg Leu Ser Lys Gln Tyr Arg Tyr Lys Asp Cys Lys Ile Ala Thr Tyr
435 440 445
Ile Asp Tyr Thr Lys Ile Met Arg Asp Ser Tyr Lys Ser Tyr Phe Ile
450 455 460
Ile Lys Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Ser Met
465 470 475 480
Gly Tyr Val Asp Glu Ser Thr Asn Ser Lys Lys Thr Met Asp Lys Arg
485 490 495
Arg Phe Glu Asn Pro Phe Ile Glu Thr Glu Thr Ala Lys Asn Ile Leu
500 505 510
Ser Lys Leu Asn Arg Ile Glu Ser Arg Leu Ile Gly Cys Arg Asn Asn
515 520 525
Ile Thr Asn Tyr Ala Phe Asp Val Phe Lys Asn Asn Gly Phe Asp Thr
530 535 540
Ile Ala Leu Glu Tyr Leu Asp Ser Ser Gln Phe Asp Lys Thr Lys Val
545 550 555 560
Leu Thr Pro Ile Ser Met Leu Lys Tyr His Lys Phe Glu Gly Lys Ser
565 570 575
Ile Glu Glu Val Lys Thr Leu Asn Val Lys Phe Ser Met Asp Asn Tyr
580 585 590
Glu Phe Glu Phe Asp Asn Asn Gly Lys Ile Thr Asn Ile Ser Phe Ser
595 600 605
Gln Leu Gly Lys Arg Glu Val Met Lys Thr Asn Phe Phe Asn Leu Ile
610 615 620
Ile Lys Ala Ile His Phe Ala Glu Ile Lys Asp Lys Phe Ile Gln Leu
625 630 635 640
Ser Asn Asn Lys Pro Ile Asn Ile Val Leu Val Pro Ser Ala Phe Ser
645 650 655
Ser Gln Met Asp Ser Lys Asp His Lys Leu Tyr Val Asp Glu Asn Gly
660 665 670
Lys Leu Ile Asn Lys Arg Lys Val Arg Lys Gln Gln Glu Arg His Ile
675 680 685
Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala Cys Asn Leu Ser Tyr Leu
690 695 700
Ala Lys Asn Asn Glu Leu Leu Glu Lys Val Cys Leu Lys Arg Lys Lys
705 710 715 720
Phe Gly Lys Ala Ser Tyr Ser Val Pro Tyr Trp Asn Val Lys Asp Ala
725 730 735
Phe Lys Lys Asn Val Ser Ser Asn Met Ile Ala Thr Ile Lys Lys Met
740 745 750
Asn Met Val Lys Val Phe
755
<210> 48
<211> 785
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 48
Met Ala His Lys Thr Asn Asn Gly Glu Asn Thr Ile Asn Lys Thr Phe
1 5 10 15
Ile Phe Lys Ala Lys Cys Glu Lys Asn Asp Ile Ile Ser Leu Trp Lys
20 25 30
Pro Ala Ala Glu Glu Tyr Cys Asn Tyr Tyr Asn Lys Leu Ser Lys Trp
35 40 45
Ile Gly Asp Ser Leu Thr Thr Met Lys Ile Gly Asp Leu Ala Gln Tyr
50 55 60
Ile Thr Asn Gln Asn Ser Ala Tyr Tyr Leu Ala Val Thr Asn Asp Ser
65 70 75 80
Lys Lys Asp Leu Pro Leu Tyr Lys Ile Phe Gln Lys Gly Phe Ser Ser
85 90 95
Gln Cys Ala Asp Asn Ala Leu Tyr Ser Ala Ile Lys Ala Ile Asn Pro
100 105 110
Glu Asn Tyr Asn Gly Asn Ser Leu Glu Ile Gly Glu Thr Asp Tyr Arg
115 120 125
Arg Phe Gly Tyr Val Gln Ser Val Ile Gly Asn Phe Arg Thr Lys Met
130 135 140
Ser Ser Leu Lys Val Ser Val Lys Tyr Lys Lys Phe Asp Val Asn Asp
145 150 155 160
Val Asp Glu Glu Thr Leu Lys Thr Gln Thr Ile Tyr Asp Val Asp Lys
165 170 175
Tyr Gly Ile Glu Ser Ile Lys Asp Phe Asn Glu Phe Ile Glu Val Leu
180 185 190
Lys Leu Arg Glu Glu Thr Pro Gln Leu Asn Glu Lys Ile Thr Arg Leu
195 200 205
Glu Cys Leu Cys Gly Tyr Tyr Ser Lys Asn Glu Glu Asn Ile Lys Asn
210 215 220
Glu Ile Glu Thr Met Ala Ile Ser Asp Leu Gln Lys Phe Gly Gly Cys
225 230 235 240
Gln Arg Lys Ser Leu Asn Thr Leu Thr Ile His Lys Gln Asn Ser Leu
245 250 255
Met Glu Lys Val Gly Asn Thr Ser Phe Thr Leu Gln Leu Ser Phe Asn
260 265 270
Lys Lys Pro Tyr Thr Ile Asn Leu Leu Gly Asn Arg Gln Val Val Lys
275 280 285
Phe Val Asp Gly Lys Arg Val Asp Leu Ile Asp Ile Thr Glu Lys His
290 295 300
Gly Asp Trp Val Thr Phe Asn Ile Lys Asn Asp Glu Leu Phe Val His
305 310 315 320
Leu Thr Ser Pro Ile Asp Phe Glu Lys Glu Val Cys Glu Ile Lys Asn
325 330 335
Ala Val Gly Val Asp Val Asn Ile Lys His Asn Met Leu Ala Thr Ser
340 345 350
Ile Lys Asp Asp Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Lys Glu
355 360 365
Leu Val Asn Asp Cys Asp Phe Ile Ser Thr Cys Asn Glu Asp Glu Phe
370 375 380
Asp Leu Tyr Arg Gln Met Ser Glu Ser Val Asn Phe Gly Ile Leu Glu
385 390 395 400
Thr Asp Ser Leu Phe Glu Arg Val Val Asn Gln Ser Lys Gly Gly Cys
405 410 415
Leu Asn Asn Lys Phe Ile Arg Arg Glu Leu Ala Met Gln Lys Val Phe
420 425 430
Asp Asn Ile Thr Lys Thr Asn Lys Asp Gln Asn Ile Val Asp Tyr Val
435 440 445
Asn Tyr Val Lys Met Leu Arg Ala Lys Tyr Lys Ala Tyr Phe Ile Leu
450 455 460
Lys Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Lys Met Gly
465 470 475 480
Phe Thr Asp Val Ser Thr Glu Ser Lys Glu Thr Met Asp Lys Arg Arg
485 490 495
Met Glu Phe Pro Phe Val Asn Thr Asp Thr Ala Lys Glu Leu Leu Ala
500 505 510
Lys Leu Asn Asn Ile Glu Gln Asp Leu Ile Gly Cys Arg Asp Asn Ile
515 520 525
Val Thr Tyr Ala Phe Asn Ile Phe Lys Asn Asn Gly Tyr Asp Thr Leu
530 535 540
Ala Val Glu Tyr Leu Asp Ser Ala Gln Phe Asp Lys Arg Arg Met Pro
545 550 555 560
Thr Pro Thr Ser Leu Leu Lys Tyr His Lys Phe Glu Gly Lys Thr Lys
565 570 575
Asp Glu Val Glu Asp Met Met Lys Ser Lys Lys Phe Ser Asn Ala Tyr
580 585 590
Tyr Thr Phe Lys Phe Glu Asn Asp Val Val Ser Asn Ile Glu Tyr Ser
595 600 605
Asn Asp Gly Ile Trp Lys Gln Lys Gln Leu Asn Phe Gly Asn Leu Ile
610 615 620
Ile Lys Ala Ile His Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu
625 630 635 640
Cys Asn Asn Asn Lys Met Asn Ile Val Phe Cys Pro Ser Ala Phe Thr
645 650 655
Ser Gln Met Asp Ser Ile Thr His Thr Leu Tyr Tyr Val Glu Lys Ile
660 665 670
Thr Lys Lys Lys Asn Gly Lys Glu Glu Lys Lys Tyr Val Leu Ala Asn
675 680 685
Lys Lys Met Val Arg Thr Gln Gln Glu Thr His Ile Asn Gly Leu Asn
690 695 700
Ala Asp Tyr Asn Ser Ala Cys Asn Leu Lys Tyr Ile Ala Leu Asn Asp
705 710 715 720
Glu Leu Arg Asn Glu Met Thr Asp Thr Phe Lys Val Thr Asn Arg Gln
725 730 735
Lys Thr Met Tyr Gly Ile Pro Ala Tyr Asn Ile Lys Arg Gly Phe Lys
740 745 750
Lys Asn Leu Ser Ala Lys Thr Ile Asn Thr Phe Arg Lys Leu Gly His
755 760 765
Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Met Phe Val Glu Thr Leu
770 775 780
Ala
785
<210> 49
<211> 805
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 49
Met Ala His Lys Thr Asn Asn Gly Glu Asn Thr Ile Asn Lys Thr Phe
1 5 10 15
Ile Phe Lys Ala Lys Cys Asp Asn Asn Asp Ile Ile Ser Leu Trp Lys
20 25 30
Pro Ala Met Glu Glu Tyr Cys Thr Tyr Tyr Asn Lys Leu Ser Gln Trp
35 40 45
Ile Cys Asn Asn Leu Thr Ser Met Lys Val Lys Asp Leu Phe Ala Tyr
50 55 60
Leu Asp Asp Lys Gln Lys Thr Lys Pro Cys Val Asp Lys Lys Thr Gly
65 70 75 80
Glu Thr Lys Ile Gly Val Gly Tyr Tyr Arg Tyr Phe Ile Glu Asn Asn
85 90 95
Lys Glu Asp Met Pro Leu Tyr Trp Leu Phe Thr Lys Asn Cys Ser Ser
100 105 110
Ser His Ala Asp Asn Leu Leu Phe Glu Phe Val Arg Lys Val Asn His
115 120 125
Glu Glu Tyr Asn Gly Asn Ser Leu Gly Met Gly Glu Thr Asp Tyr Arg
130 135 140
Arg Phe Gly Tyr Phe Gln Asn Val Ile Ser Asn Phe Arg Thr Lys Met
145 150 155 160
Ser Ser Leu Lys Ala Thr Thr Lys Trp Lys Lys Phe Asp Val Asn Asp
165 170 175
Val Asp Glu Asp Thr Leu Lys Asn Gln Thr Ile Tyr Asp Val Asp Lys
180 185 190
Tyr Gly Ile Glu Ser Val Asn Asp Phe Asn Glu Arg Ile Asp Ile Leu
195 200 205
Lys Ile Arg Glu Glu Thr Glu Gln Thr Lys Asp Lys Ile Ala Arg Leu
210 215 220
Glu Cys Leu Cys Lys Tyr Tyr Lys Glu His Glu Glu Asp Ile Lys Asn
225 230 235 240
Glu Ile Ala Thr Met Ala Ile Ala Asp Leu Gln Lys Phe Gly Gly Cys
245 250 255
Gln Arg Lys Ser Met Asn Thr Leu Thr Ile His Lys Gln Asp Ser Pro
260 265 270
Met Glu Lys Val Gly Asn Thr Ser Phe Asn Leu Arg Leu Thr Phe Asn
275 280 285
Lys Lys Pro Tyr Thr Leu Asn Leu Leu Gly Asn Arg Gln Val Val Lys
290 295 300
Phe Val Gly Gly Lys Arg Ile Asp Leu Ile Asn Ile Thr Glu Asn His
305 310 315 320
Gly Asp Trp Ile Thr Phe Asn Ile Lys Asn Asn Glu Leu Phe Val His
325 330 335
Met Thr Ser Pro Val Asp Phe Glu Lys Glu Val Cys Glu Ile Lys Asn
340 345 350
Ala Val Gly Val Asp Val Asn Ile Lys His Met Met Leu Ala Thr Ser
355 360 365
Ile Val Asp Asp Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Arg Glu
370 375 380
Leu Val Asn Asn Asn Asp Phe Ile Ala Thr Phe Gly Asn Ser Lys Asn
385 390 395 400
Gly His Gln Gly Leu Glu Ile Tyr Glu Gln Met Ala Glu Asn Val Asn
405 410 415
Phe Gly Ile Leu Glu Thr Glu Ser Leu Phe Glu Arg Val Val Asn Gln
420 425 430
Ser Asn Gly Gly Glu Leu Asn Asn Gln Leu Ile Arg Arg Glu Ile Ala
435 440 445
Met Gln Lys Val Phe Asp Asn Ile Thr Lys Thr Asn Asn Asp Lys Asn
450 455 460
Ile Val Asn Tyr Val Asn Tyr Val Lys Met Leu Arg Ala Lys Tyr Lys
465 470 475 480
Ala Tyr Phe Ile Leu Lys Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr
485 490 495
Asp Asp Met Met Gly Phe Asn Asp Glu Ser Thr Glu Asn Lys Glu Met
500 505 510
Met Asp Lys Arg Arg Phe Glu Phe Ser Phe Ile Asn Thr Asp Thr Ala
515 520 525
Gln Glu Leu Leu Ile Lys Leu Asn Lys Val Glu Gln Asp Leu Ile Gly
530 535 540
Cys Arg Asp Asn Ile Val Thr Tyr Ala Phe Asn Val Phe Lys Thr Asn
545 550 555 560
Gly Tyr Asp Thr Leu Ala Val Glu Tyr Leu Asp Ser Ala Gln Phe Asp
565 570 575
Lys Ala Lys Met Pro Thr Pro Lys Ser Leu Leu Lys Tyr His Lys Phe
580 585 590
Glu Gly Lys Thr Ile Asp Glu Val Lys Glu Met Met Asn Asn Lys Asn
595 600 605
Phe Thr Asn Ala Tyr Tyr Asn Phe Lys Phe Glu Asn Glu Ile Val Lys
610 615 620
Asp Ile Glu Tyr Ser Thr Asp Gly Ile Trp Arg Gln Lys Lys Leu Asn
625 630 635 640
Phe Met Asn Leu Ile Ile Lys Ala Ile His Phe Ala Asp Ile Lys Asp
645 650 655
Lys Phe Val Gln Leu Cys Asn Asn Asn Ser Met Asn Val Val Phe Cys
660 665 670
Pro Ser Ala Phe Thr Ser Gln Met Asp Ser Ile Thr His Ser Leu Tyr
675 680 685
Tyr Ile Glu Lys Thr Ser Lys Thr Lys Asn Gly Lys Glu Lys Lys Gln
690 695 700
Tyr Val Leu Ala Asn Lys Lys Met Val Arg Thr Gln Gln Glu Lys His
705 710 715 720
Ile Asn Gly Leu Asn Ala Asp Phe Asn Ser Ala Cys Asn Leu Lys Tyr
725 730 735
Ile Ala Leu Asp Glu Glu Leu Arg Asn Ala Met Thr Asp Glu Phe Asn
740 745 750
Pro Lys Lys Gln Lys Thr Met Tyr Gly Val Pro Ala Tyr Asn Ile Lys
755 760 765
Asn Gly Phe Lys Lys Asn Leu Ser Thr Lys Thr Ile Asn Thr Phe Arg
770 775 780
Thr Leu Gly His Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Val Phe
785 790 795 800
Val Glu Asn Leu Ala
805
<210> 50
<211> 784
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 50
Met Tyr Asn Ser Lys Lys Lys Gly Glu Gly Asp Ile Gln Lys Ser Phe
1 5 10 15
Lys Phe Lys Val Lys Thr Asp Lys Glu Thr Val Glu Leu Phe Arg Lys
20 25 30
Ala Ala Val Glu Tyr Ser Glu Tyr Tyr Lys Arg Leu Thr Thr Phe Leu
35 40 45
Cys Glu Arg Leu Thr Asp Met Thr Trp Gly Glu Val Ala Ser Phe Ile
50 55 60
Pro Glu Lys Tyr Arg Lys Asn Glu Tyr Tyr Lys Tyr Leu Ile Lys Glu
65 70 75 80
Glu Asn Lys Asp Leu Pro Leu Tyr Lys Met Phe Thr Lys Ala Ala Ser
85 90 95
Ser Met Phe Ile Asp His Ser Ile Glu Arg Tyr Val Glu Ala Leu Asn
100 105 110
Pro Glu Gly Asn Thr Gly Asn Ile Leu Gly Phe Cys Lys Ser Ser Tyr
115 120 125
Val Arg Gly Gly Tyr Leu Lys Asn Val Val Ser Asn Ile Arg Thr Lys
130 135 140
Phe Ala Thr Leu Lys Thr Gly Ile Lys Tyr Lys Lys Phe Asn Pro Ala
145 150 155 160
Glu Asp Asp Glu Glu Thr Ile Leu Gly Gln Thr Val Phe Glu Met Glu
165 170 175
Lys Arg Gly Leu Glu Phe Lys Cys Asp Phe Glu Lys Thr Ile Lys Tyr
180 185 190
Leu Asn Glu Lys Gly Lys Thr Gln Glu Ala Glu Arg Leu Gln Cys Leu
195 200 205
Met Glu Tyr Phe Ser Thr Asn Thr Asp Lys Ile Asn Glu Tyr Arg Glu
210 215 220
Ser Leu Val Leu Asp Asp Ile Arg Lys Phe Gly Gly Cys Asn Arg Ser
225 230 235 240
Lys Ser Asn Ser Phe Ser Val Thr Leu Glu Lys Ala Asp Ile Lys Glu
245 250 255
Asp Gly Leu Thr Gly Tyr Thr Met Lys Val Ser Lys Lys Leu Lys Glu
260 265 270
Ile His Leu Leu Gly His Arg Arg Val Val Glu Val Val Asn Gly Arg
275 280 285
Arg Val Asn Leu Val Asp Ile Cys Gly Asp Lys Ser Gly Asp Ser Lys
290 295 300
Val Phe Val Val Asp Gly Asp Asn Leu Tyr Val Cys Ile Ser Ala Pro
305 310 315 320
Val Lys Phe Ser Lys Asn Gly Met Glu Ala Lys Lys Tyr Ile Gly Val
325 330 335
Asp Met Asn Met Lys His Ser Ile Ile Ser Val Ser Asp Asn Ala Ser
340 345 350
Asp Met Lys Gly Phe Leu Asn Ile Tyr Lys Glu Leu Leu Lys Asp Glu
355 360 365
Gly Phe Arg Lys Thr Leu Asn Ala Thr Glu Leu Glu Lys Tyr Glu Lys
370 375 380
Leu Ala Glu Gly Val Asn Ile Gly Ile Ile Glu Tyr Asp Gly Leu Tyr
385 390 395 400
Glu Arg Ile Val Lys Gln Lys Lys Glu Asn Ser Val Asp Gly Leu Lys
405 410 415
Val Gln Ala Glu Lys Lys Leu Ile Glu Arg Glu Ala Ala Ile Glu Arg
420 425 430
Val Leu Asp Lys Leu Arg Lys Gly Thr Ser Asp Thr Asp Thr Glu Asn
435 440 445
Tyr Ile Asn Tyr Asn Lys Ile Leu Arg Ala Lys Ile Lys Ser Ala Tyr
450 455 460
Ile Leu Lys Asp Lys Tyr Tyr Glu Met Leu Gly Lys Tyr Asp Ser Glu
465 470 475 480
Arg Ala Gly Ser Gly Asp Leu Ser Glu Glu Asn Lys Ile Lys Tyr Lys
485 490 495
Asp Glu Phe Asn Glu Thr Glu Lys Gly Lys Glu Ile Leu Gly Lys Leu
500 505 510
Asn Asn Val Tyr Lys Asp Ile Ile Gly Cys Arg Asp Asn Ile Val Thr
515 520 525
Tyr Ala Val Asn Leu Phe Ile Arg Asn Gly Tyr Asp Thr Val Ala Leu
530 535 540
Glu Tyr Leu Glu Ser Ser Gln Met Lys Ala Arg Arg Ile Pro Ser Thr
545 550 555 560
Gly Gly Leu Leu Lys Gly His Lys Leu Glu Gly Lys Pro Glu Gly Glu
565 570 575
Val Thr Ala Tyr Leu Lys Ala Asn Lys Ile Pro Lys Ser Tyr Tyr Ser
580 585 590
Phe Glu Tyr Asp Gly Asn Gly Met Leu Thr Asp Val Lys Tyr Ser Asp
595 600 605
Met Gly Glu Lys Ala Arg Gly Arg Asn Arg Phe Lys Asn Leu Val Pro
610 615 620
Lys Phe Leu Arg Trp Ala Ser Ile Lys Asp Lys Phe Val Gln Leu Ser
625 630 635 640
Asn Tyr Lys Asp Ile Gln Met Val Tyr Val Pro Ser Pro Tyr Thr Ser
645 650 655
Gln Thr Asp Ser Arg Thr His Ser Leu Tyr Tyr Ile Glu Thr Val Lys
660 665 670
Val Asp Glu Lys Thr Gly Lys Glu Lys Lys Glu His Ile Val Ala Pro
675 680 685
Lys Glu Ser Val Arg Thr Glu Gln Glu Ser Phe Val Asn Gly Met Asn
690 695 700
Ala Asp Thr Asn Ser Ala Asn Asn Ile Lys Tyr Ile Phe Glu Asn Glu
705 710 715 720
Thr Leu Arg Asp Lys Phe Leu Lys Arg Thr Lys Asp Gly Thr Glu Met
725 730 735
Tyr Asn Arg Pro Ala Phe Asp Leu Lys Glu Cys Tyr Lys Lys Asn Ser
740 745 750
Asn Val Ser Val Phe Asn Thr Leu Lys Lys Thr Leu Gly Ala Ile Tyr
755 760 765
Gly Lys Leu Asp Glu Asn Gly Asn Phe Ile Glu Asn Glu Cys Asn Lys
770 775 780
<210> 51
<211> 764
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 51
Met Asn Lys Ser Tyr Val Phe Lys Ser Asn Val Ala Ile Asp Asp Ile
1 5 10 15
Met Ser Leu Phe Glu Pro Ala Ile Glu Glu Tyr Ile Asn Tyr Tyr Asn
20 25 30
Arg Thr Ser Asp Phe Ile Cys Asp Asn Leu Thr Ser Met Lys Ile Gly
35 40 45
Asp Leu Ala Asn Tyr Ile Lys Asn Lys Glu Asn Val Tyr Cys Lys Phe
50 55 60
Val Leu Asn Asp Asp Ile Lys Asp Leu Pro Leu Tyr Lys Ile Phe Ser
65 70 75 80
Leu Asn Leu Asn Ser Ser Gln Lys Lys Asn Ala Asp Asn Ala Leu Tyr
85 90 95
Glu Ala Ile Lys Val Leu Asn Ala Asp Gly Tyr Lys Gly Lys Asn Ile
100 105 110
Leu Gly Leu Gly Asp Thr Tyr Phe Arg Arg Asn Gly Tyr Val Lys Asn
115 120 125
Val Ile Ser Asn Tyr Arg Thr Lys Phe Val Thr Leu Lys Pro Asn Val
130 135 140
Lys Tyr Ser Lys Ile Asp Ile Asn Ser Val Thr Glu Gln Leu Ile Lys
145 150 155 160
Thr Gln Thr Ile Phe Glu Val Val Asn Lys Lys Ile Glu Ser Glu Thr
165 170 175
Asp Phe Glu Asn Leu Ile Thr Tyr Phe Lys Asn Arg Glu Thr Pro Asn
180 185 190
Asp Glu Lys Ile Lys Arg Leu Glu Leu Leu Phe Asp Tyr Tyr Thr Lys
195 200 205
His Lys Asn Glu Ile Asn Glu Glu Ile Glu Lys His Ala Val Glu Ser
210 215 220
Leu Lys Ser Phe Asn Gly Cys Arg Arg Asn Gly Asn Arg Lys Thr Met
225 230 235 240
Thr Val Gln Met Gln Lys Met Leu Leu Lys Lys His Gly Leu Thr Ser
245 250 255
Tyr Ile Leu His Leu Val Leu Asp Lys Lys Pro Tyr Asp Ile Asn Leu
260 265 270
Met Gly Asn Arg Gln Thr Val Lys Val Asp Asn Asn Gly Asn Arg Val
275 280 285
Asp Leu Val Asp Ile Ser Ser Lys His Gly Tyr Asp Leu Thr Phe Glu
290 295 300
Val Lys Gly Lys Thr Leu Phe Phe Thr Phe Ser Ser Glu Lys Asp Phe
305 310 315 320
Ser Lys Lys Glu Gln Glu Ile Lys Asn Ile Leu Gly Ile Asp Ile Asn
325 330 335
Thr Lys His Ser Met Leu Ala Thr Ser Ile Thr Asp Asn Gly Lys Val
340 345 350
Lys Gly Tyr Ile Asn Ile Tyr Val Glu Leu Leu Lys Asn Lys Asp Phe
355 360 365
Val Ser Thr Leu Asn Lys Glu Glu Leu Ala Tyr Tyr Thr Glu Met Ala
370 375 380
Lys Phe Val Ser Phe Gly Leu Leu Glu Ile Pro Ser Leu Phe Glu Arg
385 390 395 400
Val Ser Asn Gln Tyr Asp Lys Lys Asn Asn Val Ser Ile Thr Asp Glu
405 410 415
Thr Leu Leu Lys Arg Glu Ile Ala Ile Ser Gln Thr Leu Asp Asn Leu
420 425 430
Ala Lys Lys Tyr Arg Asp Lys Asn Cys Lys Ile Ala Ser Tyr Ile Asp
435 440 445
Tyr Thr Lys Met Leu Arg Ser Lys Tyr Lys Ser Tyr Phe Ile Leu Lys
450 455 460
Gln Lys Tyr Tyr Glu Lys Asn His Glu Tyr Asp Asp Lys Met Gly Phe
465 470 475 480
Ser Asp Ile Ser Thr Asn Ser Lys Glu Thr Met Asp Pro Arg Arg Phe
485 490 495
Glu Asn Pro Phe Ile Asn Thr Asp Ile Ala Lys Gly Leu Ile Val Lys
500 505 510
Leu Glu Asn Val Lys Cys Asp Ile Val Gly Cys Arg Asp Asn Ile Ile
515 520 525
Lys Tyr Ala Tyr Asp Val Ile Val Leu Asn Gly Phe Asp Thr Ile Gly
530 535 540
Leu Glu Tyr Leu Asp Ser Ser Asn Phe Glu Arg Asp Arg Leu Pro Phe
545 550 555 560
Pro Thr Ala Lys Ser Leu Met Thr Tyr Tyr Gly Phe Glu Gly Lys Lys
565 570 575
Tyr Ser Glu Ile Asp Lys Ser Val Phe Asn Thr Lys Tyr Tyr Asn Phe
580 585 590
Ile Phe Asn Glu Asn Glu Thr Ile Lys Asp Ile Ser Tyr Ser Val Tyr
595 600 605
Gly Leu Lys Glu Ile Gln Lys Lys Arg Phe Lys Asn Leu Val Ile Lys
610 615 620
Ala Ile Gly Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu Ser Asn
625 630 635 640
Asn Thr Asn Met Asn Val Ile Phe Val Pro Ala Ala Phe Thr Ser Gln
645 650 655
Met Asp Ser Asn Thr His Lys Ile Tyr Val Lys Glu Ile Met Asp Lys
660 665 670
Asn Asn Lys Lys Gln Leu Gln Leu Ile Asp Lys Arg Lys Val Arg Thr
675 680 685
Lys Gln Glu Phe His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala
690 695 700
Asn Asn Ile Lys Tyr Ile Ala Glu Asn Asn Asp Leu Leu Leu Thr Met
705 710 715 720
Cys Thr Lys Thr Lys Glu Asn Asn Arg Tyr Gly Asn Pro Leu Tyr Asn
725 730 735
Ile Lys Asp Thr Phe Lys Lys Lys Ile Pro Ser Ser Ile Leu Asn Ile
740 745 750
Phe Lys Lys Lys Asp Met Tyr Gln Ile Ile Cys Asp
755 760
<210> 52
<211> 768
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 52
Met Phe Arg Ile Phe Ala Ala Leu Lys Leu Thr Asn Met Gly His Val
1 5 10 15
Arg Leu Gln Lys Arg Glu Gly Glu Val Tyr Lys Thr Tyr Lys Leu Lys
20 25 30
Val Lys Ser Phe Ser Gly Asn Val Asp Ile Lys Ala Gly Ile Val Glu
35 40 45
Tyr Asp Gln Lys Phe Asn Asn Val Ser Gln Trp Ile Ala Asp His Leu
50 55 60
Thr Ser Met Thr Ile Gly Glu Ala Ala Ser Arg Ile Ser Pro His Lys
65 70 75 80
Met Asp Ser Gln Tyr Ala Met Thr Ser Leu Ser Asp Glu Trp Lys Asp
85 90 95
Gln Pro Leu Tyr Lys Ile Phe Thr Arg Gly Phe Gly Gly Met Asn Ala
100 105 110
Asp Asn Leu Ile Ile Glu Cys Thr Lys Thr Glu Glu Asn Cys Lys Tyr
115 120 125
Asp Lys Glu Lys Ser Leu Gly Phe Ser Glu Ser Val Phe Arg Thr Phe
130 135 140
Gly Phe Ala Ala Asn Ala Ser Ser Asp Met Lys Ser Arg Met Thr Gln
145 150 155 160
Ala Lys Val Lys Ile Gly Arg Lys Asn Ile Asp Glu Asp Ser Ala Asp
165 170 175
Asp Glu Lys Cys Leu Gln Ala Ile Tyr Glu Ile Gln Lys Asn Glu Leu
180 185 190
Leu Thr Asp Asp Asn Trp Lys Asp Arg Ile Gly Tyr Leu Glu Met Lys
195 200 205
Gly Asp Gln Glu Arg Glu Leu Glu Arg Thr Thr Ile Leu Tyr Asp Tyr
210 215 220
Tyr Arg Ala Asn Arg Thr Thr Val Leu Asp Lys Leu Asp Asn Leu Lys
225 230 235 240
Val Glu Thr Leu Ser Lys Phe Arg Gly Ser Lys Arg Lys Ser Asp Arg
245 250 255
Lys Ile Leu Thr Leu Asn Gly Ile Ser Tyr Asp Ile Lys Arg Lys Glu
260 265 270
Gly Cys Gln Gly Phe Glu Leu Lys Phe Ser Val Asp Lys Asn His Met
275 280 285
Glu Phe Asp Leu Leu Gly His Arg Ala Leu Ile Lys Asn Gly Glu Met
290 295 300
Leu Val Asp Ile Glu Asn Cys His Gly Ser Gln Leu Ser Leu Glu Ile
305 310 315 320
Asp Gly Asp Asp Met Tyr Ala Ile Ile Ser Met Arg Thr Phe Cys Glu
325 330 335
Lys Asn Glu Ser Lys Leu Glu Lys Ile Ile Gly Ala Asp Val Asn Ile
340 345 350
Lys His Met Phe Leu Met Thr Ser Glu Lys Asp Asp Gly Asn Thr Lys
355 360 365
Cys Tyr Val Asn Leu Tyr Arg Glu Leu Leu Ser Asp Ser Asp Phe Thr
370 375 380
Asp Val Leu Asn Lys Glu Glu Tyr Glu Ile Phe Ser Glu Leu Ser Lys
385 390 395 400
Tyr Val Met Phe Gly Leu Ile Glu Thr Pro Tyr Leu Gly Ser Arg Val
405 410 415
Ile Gly Thr Thr Gln His Glu Lys Ile Val Glu Asp Lys Ile Thr Ser
420 425 430
Gly Met Lys Lys Ile Ala Ile Arg Leu Phe Gln Glu Gly Lys Val Arg
435 440 445
Glu Arg Ile Tyr Val Gln Asn Val Leu Lys Ile Arg Ala Leu Leu Lys
450 455 460
Ala Leu Phe Ser Thr Lys Leu Ala Tyr Ser Asn Glu Gln Lys Ile Tyr
465 470 475 480
Asp Asn Leu Met Arg Phe Gly Glu Lys Asp Asp Arg Arg Lys Asp Glu
485 490 495
Gly Phe His Thr Thr Cys Arg Gly Thr Ser Leu Arg Ser Glu Met Asp
500 505 510
Met Leu Ser Lys Lys Ile Leu Ala Cys Arg Asp Asn Ile Val Glu Tyr
515 520 525
Gly Tyr Tyr Val Ile Gly Leu Asn Gly Phe Asp Gly Ile Ser Leu Glu
530 535 540
Asn Leu Glu Ser Ser Thr Phe Met Asp Val Lys Ile Ser Tyr Pro Ser
545 550 555 560
Cys Asn Ser Met Leu Asp His Phe Lys Leu Lys Gly Lys Thr Ile Glu
565 570 575
Glu Ala Glu Asn His Glu Thr Val Gly Lys Phe Ile Lys Lys Gly Tyr
580 585 590
Tyr Val Met Thr Leu Val Asn Gly Lys Ile Asn Asp Ile Asn Tyr Ser
595 600 605
Glu Lys Ala Val Met Leu His Lys Lys Asn Leu Leu Tyr Asp Thr Val
610 615 620
Ile Lys Ser Thr His Phe Ala Asp Val Lys Asp Lys Phe Val Glu Leu
625 630 635 640
Ser Asn Asn Gly Lys Val Ser Val Val Ile Val Pro Pro Tyr Phe Ser
645 650 655
Ser Gln Met Asp Ser Val Thr His Lys Val Phe Thr Glu Glu Ile Val
660 665 670
Val Gln Lys Lys Ser Ser Asn Gly Lys Val Arg Lys Thr Lys Lys Thr
675 680 685
Val Leu Val Asp Lys Arg Lys Val Arg Lys Thr Gln Glu Ser His Ile
690 695 700
Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Leu Lys Tyr Ile
705 710 715 720
Ala Glu Thr Ile Asp Trp Arg Ser Thr Leu Cys Phe Lys Thr Trp Asn
725 730 735
Thr Tyr Gly Ser Pro Gln Trp Asp Ser Lys Ile Lys Asn Gln Lys Thr
740 745 750
Met Ile Asp Arg Leu Asp Ser Leu Gly Ala Ile Glu Leu Lys Asn Trp
755 760 765
<210> 53
<211> 764
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 53
Met Asn Lys Ser Tyr Val Phe Lys Ser Asn Val Ala Ile Asp Asp Ile
1 5 10 15
Met Ser Leu Phe Glu Pro Ala Ile Glu Glu Tyr Ile Asn Tyr Tyr Asn
20 25 30
Arg Thr Ser Asp Phe Ile Cys Asp Asn Leu Thr Ser Met Lys Ile Gly
35 40 45
Asp Leu Ala Asn Tyr Ile Lys Asn Lys Glu Asn Val Tyr Cys Lys Phe
50 55 60
Val Leu Asn Asp Asp Ile Lys Asp Leu Pro Leu Tyr Lys Ile Phe Ser
65 70 75 80
Leu Asn Leu Asn Ser Ser Gln Lys Lys Asn Ala Asp Asn Ala Leu Tyr
85 90 95
Glu Ala Ile Lys Val Leu Asn Ala Asp Gly Tyr Lys Gly Lys Asn Ile
100 105 110
Leu Gly Leu Gly Asp Thr Tyr Phe Arg Arg Asn Gly Tyr Val Lys Asn
115 120 125
Val Ile Ser Asn Tyr Arg Thr Lys Phe Val Thr Leu Lys Pro Asn Val
130 135 140
Lys Tyr Ser Lys Ile Asp Ile Asn Ser Val Thr Glu Gln Leu Ile Lys
145 150 155 160
Thr Gln Thr Ile Phe Glu Val Val Asn Lys Lys Ile Glu Ser Glu Thr
165 170 175
Asp Phe Glu Asn Leu Ile Thr Tyr Phe Lys Asn Arg Glu Thr Pro Asn
180 185 190
Asp Glu Lys Ile Lys Arg Leu Glu Leu Leu Phe Asp Tyr Tyr Thr Lys
195 200 205
His Lys Asn Glu Ile Asn Glu Glu Ile Glu Lys His Ala Val Glu Ser
210 215 220
Leu Lys Ser Phe Asn Gly Cys Arg Arg Asn Gly Asn Arg Lys Thr Met
225 230 235 240
Thr Val Gln Met Gln Lys Met Leu Leu Lys Lys His Gly Leu Thr Ser
245 250 255
Tyr Ile Leu His Leu Val Leu Asp Lys Lys Pro Tyr Asp Ile Asn Leu
260 265 270
Met Gly Asn Arg Gln Thr Val Lys Val Asp Asn Asn Gly Asn Arg Val
275 280 285
Asp Leu Val Asp Ile Ser Ser Lys His Gly Tyr Asp Leu Thr Phe Glu
290 295 300
Val Lys Gly Lys Thr Leu Phe Phe Thr Phe Ser Ser Glu Lys Asp Phe
305 310 315 320
Ser Lys Lys Glu Gln Glu Ile Lys Asn Ile Leu Gly Ile Asp Ile Asn
325 330 335
Thr Lys His Ser Met Leu Ala Thr Ser Ile Thr Asp Asn Gly Lys Val
340 345 350
Lys Gly Tyr Ile Asn Ile Tyr Val Glu Leu Leu Lys Asn Lys Asp Phe
355 360 365
Val Ser Thr Leu Asn Lys Glu Glu Leu Ala Tyr Tyr Thr Glu Met Ala
370 375 380
Lys Phe Val Ser Phe Gly Leu Leu Glu Ile Pro Ser Leu Phe Glu Arg
385 390 395 400
Val Ser Asn Gln Tyr Asp Lys Lys Asn Asn Val Ser Ile Thr Asp Glu
405 410 415
Thr Leu Leu Lys Arg Glu Ile Ala Ile Ser Gln Thr Leu Asp Asn Leu
420 425 430
Ala Lys Lys Tyr Arg Asp Lys Asn Cys Lys Ile Ala Ser Tyr Ile Asp
435 440 445
Tyr Thr Lys Met Leu Arg Ser Lys Tyr Lys Ser Tyr Phe Ile Leu Lys
450 455 460
Gln Lys Tyr Tyr Glu Lys Asn His Glu Tyr Asp Asp Lys Met Gly Phe
465 470 475 480
Ser Asp Ile Ser Thr Asn Ser Lys Glu Thr Met Asp Pro Arg Arg Phe
485 490 495
Glu Asn Pro Phe Ile Asn Thr Asp Ile Ala Lys Gly Leu Ile Val Lys
500 505 510
Leu Glu Asn Val Lys Cys Asp Ile Val Gly Cys Arg Asp Asn Ile Ile
515 520 525
Lys Tyr Ala Tyr Asp Val Ile Val Leu Asn Gly Phe Asp Thr Ile Gly
530 535 540
Leu Glu Tyr Leu Asp Ser Ser Asn Phe Glu Arg Asp Arg Leu Pro Phe
545 550 555 560
Pro Thr Ala Lys Ser Leu Met Thr Tyr Tyr Gly Phe Glu Gly Lys Lys
565 570 575
Tyr Ser Glu Ile Asp Lys Ser Val Phe Asn Thr Lys Tyr Tyr Asn Phe
580 585 590
Ile Phe Asn Glu Asn Glu Thr Ile Lys Asp Ile Ser Tyr Ser Val Tyr
595 600 605
Gly Leu Lys Glu Ile Gln Lys Lys Arg Phe Lys Asn Leu Val Ile Lys
610 615 620
Ala Ile Gly Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu Ser Asn
625 630 635 640
Asn Thr Asn Met Asn Val Ile Phe Val Pro Ala Ala Phe Thr Ser Gln
645 650 655
Met Asp Ser Asn Thr His Lys Ile Tyr Val Lys Glu Ile Met Asp Lys
660 665 670
Asn Asn Lys Lys Gln Leu Gln Leu Ile Asp Lys Arg Lys Val Arg Thr
675 680 685
Lys Gln Glu Phe His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala
690 695 700
Asn Asn Ile Lys Tyr Ile Ala Glu Asn Asn Asp Leu Leu Leu Thr Met
705 710 715 720
Cys Thr Lys Thr Lys Glu Asn Asn Arg Tyr Gly Asn Pro Leu Tyr Asn
725 730 735
Ile Lys Asp Thr Phe Lys Lys Lys Ile Pro Ser Ser Ile Leu Asn Ile
740 745 750
Phe Lys Lys Lys Asp Met Tyr Gln Ile Ile Cys Asp
755 760
<210> 54
<211> 805
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 54
Met Ala His Lys Thr Asn Asn Gly Glu Asn Thr Ile Asn Lys Thr Phe
1 5 10 15
Ile Phe Lys Ala Lys Cys Asp Asn Asn Asp Ile Ile Ser Leu Trp Lys
20 25 30
Pro Ala Met Glu Glu Tyr Cys Thr Tyr Tyr Asn Lys Leu Ser Gln Trp
35 40 45
Ile Cys Asn Asn Leu Thr Ser Met Lys Val Lys Asp Leu Phe Ala Tyr
50 55 60
Leu Asp Asp Lys Gln Lys Thr Lys Pro Cys Val Asp Lys Lys Thr Gly
65 70 75 80
Glu Thr Lys Ile Gly Val Gly Tyr Tyr Arg Tyr Phe Ile Glu Asn Asn
85 90 95
Lys Glu Asp Met Pro Leu Tyr Trp Leu Phe Thr Lys Asn Cys Ser Ser
100 105 110
Ser His Ala Asp Asn Leu Leu Phe Glu Phe Val Arg Lys Val Asn His
115 120 125
Glu Glu Tyr Asn Gly Asn Ser Leu Gly Met Gly Glu Thr Asp Tyr Arg
130 135 140
Arg Phe Gly Tyr Phe Gln Asn Val Ile Ser Asn Phe Arg Thr Lys Met
145 150 155 160
Ser Ser Leu Lys Ala Thr Thr Lys Trp Lys Lys Phe Asp Val Asn Asp
165 170 175
Val Asp Glu Asp Thr Leu Lys Asn Gln Thr Ile Tyr Asp Val Asp Lys
180 185 190
Tyr Gly Ile Glu Ser Val Asn Asp Phe Asn Glu Arg Ile Asp Ile Leu
195 200 205
Lys Ile Arg Glu Glu Thr Glu Gln Thr Lys Asp Lys Ile Ala Arg Leu
210 215 220
Glu Cys Leu Cys Lys Tyr Tyr Lys Glu His Glu Glu Asp Ile Lys Asn
225 230 235 240
Glu Ile Ala Thr Met Ala Ile Ala Asp Leu Gln Lys Phe Gly Gly Cys
245 250 255
Gln Arg Lys Ser Met Asn Thr Leu Thr Ile His Lys Gln Asp Ser Pro
260 265 270
Met Glu Lys Val Gly Asn Thr Ser Phe Asn Leu Arg Leu Thr Phe Asn
275 280 285
Lys Lys Pro Tyr Thr Leu Asn Leu Leu Gly Asn Arg Gln Val Val Lys
290 295 300
Phe Val Gly Gly Lys Arg Ile Asp Leu Ile Asn Ile Thr Glu Asn His
305 310 315 320
Gly Asp Trp Ile Thr Phe Asn Ile Lys Asn Asn Glu Leu Phe Val His
325 330 335
Met Thr Ser Pro Val Asp Phe Glu Lys Glu Val Cys Glu Ile Lys Asn
340 345 350
Ala Val Gly Val Asp Val Asn Ile Lys His Met Met Leu Ala Thr Ser
355 360 365
Ile Val Asp Asp Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Arg Glu
370 375 380
Leu Val Asn Asn Asn Asp Phe Ile Ala Thr Phe Gly Asn Ser Lys Asn
385 390 395 400
Gly His Gln Gly Leu Glu Ile Tyr Glu Gln Met Ala Glu Asn Val Asn
405 410 415
Phe Gly Ile Leu Glu Thr Glu Ser Leu Phe Glu Arg Val Val Asn Gln
420 425 430
Ser Asn Gly Gly Glu Leu Asn Asn Gln Leu Ile Arg Arg Glu Ile Ala
435 440 445
Met Gln Lys Val Phe Asp Asn Ile Thr Lys Thr Asn Asn Asp Lys Asn
450 455 460
Ile Val Asn Tyr Val Asn Tyr Val Lys Met Leu Arg Ala Lys Tyr Lys
465 470 475 480
Ala Tyr Phe Ile Leu Lys Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr
485 490 495
Asp Asp Met Met Gly Phe Asn Asp Glu Ser Thr Glu Asn Lys Glu Met
500 505 510
Met Asp Lys Arg Arg Phe Glu Phe Ser Phe Ile Asn Thr Asp Thr Ala
515 520 525
Gln Glu Leu Leu Ile Lys Leu Asn Lys Val Glu Gln Asp Leu Ile Gly
530 535 540
Cys Arg Asp Asn Ile Val Thr Tyr Ala Phe Asn Val Phe Lys Thr Asn
545 550 555 560
Gly Tyr Asp Thr Leu Ala Val Glu Tyr Leu Asp Ser Ala Gln Phe Asp
565 570 575
Lys Ala Lys Met Pro Thr Pro Lys Ser Leu Leu Lys Tyr His Lys Phe
580 585 590
Glu Gly Lys Thr Ile Asp Glu Val Lys Glu Met Met Asn Asn Lys Asn
595 600 605
Phe Thr Asn Ala Tyr Tyr Asn Phe Lys Phe Glu Asn Glu Ile Val Lys
610 615 620
Asp Ile Glu Tyr Ser Thr Asp Gly Ile Trp Arg Gln Lys Lys Leu Asn
625 630 635 640
Phe Met Asn Leu Ile Ile Lys Ala Ile His Phe Ala Asp Ile Lys Asp
645 650 655
Lys Phe Val Gln Leu Cys Asn Asn Asn Ser Met Asn Val Val Phe Cys
660 665 670
Pro Ser Ala Phe Thr Ser Gln Met Asp Ser Ile Thr His Ser Leu Tyr
675 680 685
Tyr Ile Glu Lys Thr Ser Lys Thr Lys Asn Gly Lys Glu Lys Lys Gln
690 695 700
Tyr Val Leu Ala Asn Lys Lys Met Val Arg Thr Gln Gln Glu Lys His
705 710 715 720
Ile Asn Gly Leu Asn Ala Asp Phe Asn Ser Ala Cys Asn Leu Lys Tyr
725 730 735
Ile Ala Leu Asp Glu Glu Leu Arg Asn Ala Met Thr Asp Glu Phe Asn
740 745 750
Pro Lys Lys Gln Lys Thr Met Tyr Gly Val Pro Ala Tyr Asn Ile Lys
755 760 765
Asn Gly Phe Lys Lys Asn Leu Ser Thr Lys Thr Ile Asn Thr Phe Arg
770 775 780
Thr Leu Gly His Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Val Phe
785 790 795 800
Val Glu Asn Leu Ala
805
<210> 55
<211> 785
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 55
Met Ala His Lys Thr Asn Asn Gly Glu Asn Thr Ile Asn Lys Thr Phe
1 5 10 15
Ile Phe Lys Ala Lys Cys Glu Lys Asn Asp Ile Ile Ser Leu Trp Lys
20 25 30
Pro Ala Ala Glu Glu Tyr Cys Asn Tyr Tyr Asn Lys Leu Ser Lys Trp
35 40 45
Ile Gly Asp Ser Leu Thr Thr Met Lys Ile Gly Asp Leu Ala Gln Tyr
50 55 60
Ile Thr Asn Gln Asn Ser Ala Tyr Tyr Leu Ala Val Thr Asn Asp Ser
65 70 75 80
Lys Lys Asp Leu Pro Leu Tyr Lys Ile Phe Gln Lys Gly Phe Ser Ser
85 90 95
Gln Cys Ala Asp Asn Ala Leu Tyr Ser Ala Ile Lys Ala Ile Asn Pro
100 105 110
Glu Asn Tyr Asn Gly Asn Ser Leu Glu Ile Gly Glu Thr Asp Tyr Arg
115 120 125
Arg Phe Gly Tyr Val Gln Ser Val Ile Gly Asn Phe Arg Thr Lys Met
130 135 140
Ser Ser Leu Lys Val Ser Val Lys Tyr Lys Lys Phe Asp Val Asn Asp
145 150 155 160
Val Asp Glu Glu Thr Leu Lys Thr Gln Thr Ile Tyr Asp Val Asp Lys
165 170 175
Tyr Gly Ile Glu Ser Ile Lys Asp Phe Asn Glu Phe Ile Glu Val Leu
180 185 190
Lys Leu Arg Glu Glu Thr Pro Gln Leu Asn Glu Lys Ile Thr Arg Leu
195 200 205
Glu Cys Leu Cys Gly Tyr Tyr Ser Lys Asn Glu Glu Asn Ile Lys Asn
210 215 220
Glu Ile Glu Thr Met Ala Ile Ser Asp Leu Gln Lys Phe Gly Gly Cys
225 230 235 240
Gln Arg Lys Ser Leu Asn Thr Leu Thr Ile His Lys Gln Asn Ser Leu
245 250 255
Met Glu Lys Val Gly Asn Thr Ser Phe Thr Leu Gln Leu Ser Phe Asn
260 265 270
Lys Lys Pro Tyr Thr Ile Asn Leu Leu Gly Asn Arg Gln Val Val Lys
275 280 285
Phe Val Asp Gly Lys Arg Val Asp Leu Ile Asp Ile Thr Glu Lys His
290 295 300
Gly Asp Trp Val Thr Phe Asn Ile Lys Asn Asp Glu Leu Phe Val His
305 310 315 320
Leu Thr Ser Pro Ile Asp Phe Glu Lys Glu Val Cys Glu Ile Lys Asn
325 330 335
Ala Val Gly Val Asp Val Asn Ile Lys His Asn Met Leu Ala Thr Ser
340 345 350
Ile Lys Asp Asp Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Lys Glu
355 360 365
Leu Val Asn Asp Cys Asp Phe Ile Ser Thr Cys Asn Glu Asp Glu Phe
370 375 380
Asp Leu Tyr Arg Gln Met Ser Glu Ser Val Asn Phe Gly Ile Leu Glu
385 390 395 400
Thr Asp Ser Leu Phe Glu Arg Val Val Asn Gln Ser Lys Gly Gly Cys
405 410 415
Leu Asn Asn Lys Phe Ile Arg Arg Glu Leu Ala Met Gln Lys Val Phe
420 425 430
Asp Asn Ile Thr Lys Thr Asn Lys Asp Gln Asn Ile Val Asp Tyr Val
435 440 445
Asn Tyr Val Lys Met Leu Arg Ala Lys Tyr Lys Ala Tyr Phe Ile Leu
450 455 460
Lys Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Lys Met Gly
465 470 475 480
Phe Thr Asp Val Ser Thr Glu Ser Lys Glu Thr Met Asp Lys Arg Arg
485 490 495
Met Glu Phe Pro Phe Val Asn Thr Asp Thr Ala Lys Glu Leu Leu Ala
500 505 510
Lys Leu Asn Asn Ile Glu Gln Asp Leu Ile Gly Cys Arg Asp Asn Ile
515 520 525
Val Thr Tyr Ala Phe Asn Ile Phe Lys Asn Asn Gly Tyr Asp Thr Leu
530 535 540
Ala Val Glu Tyr Leu Asp Ser Ala Gln Phe Asp Lys Arg Arg Met Pro
545 550 555 560
Thr Pro Thr Ser Leu Leu Lys Tyr His Lys Phe Glu Gly Lys Thr Lys
565 570 575
Asp Glu Val Glu Asp Met Met Lys Ser Lys Lys Phe Ser Asn Ala Tyr
580 585 590
Tyr Thr Phe Lys Phe Glu Asn Asp Val Val Ser Asn Ile Glu Tyr Ser
595 600 605
Asn Asp Gly Ile Trp Lys Gln Lys Gln Leu Asn Phe Gly Asn Leu Ile
610 615 620
Ile Lys Ala Ile His Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu
625 630 635 640
Cys Asn Asn Asn Lys Met Asn Ile Val Phe Cys Pro Ser Ala Phe Thr
645 650 655
Ser Gln Met Asp Ser Ile Thr His Thr Leu Tyr Tyr Val Glu Lys Ile
660 665 670
Thr Lys Lys Lys Asn Gly Lys Glu Glu Lys Lys Tyr Val Leu Ala Asn
675 680 685
Lys Lys Met Val Arg Thr Gln Gln Glu Thr His Ile Asn Gly Leu Asn
690 695 700
Ala Asp Tyr Asn Ser Ala Cys Asn Leu Lys Tyr Ile Ala Leu Asn Asp
705 710 715 720
Glu Leu Arg Asn Glu Met Thr Asp Thr Phe Lys Val Thr Asn Arg Gln
725 730 735
Lys Thr Met Tyr Gly Ile Pro Ala Tyr Asn Ile Lys Arg Gly Phe Lys
740 745 750
Lys Asn Leu Ser Ala Lys Thr Ile Asn Thr Phe Arg Lys Leu Gly His
755 760 765
Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Met Phe Val Glu Thr Leu
770 775 780
Ala
785
<210> 56
<211> 735
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
pig gut metagenome sequence
<400> 56
Met Ala His Lys Lys Asn Ile Gly Ala Glu Ile Val Lys Thr Tyr Ser
1 5 10 15
Phe Lys Val Lys Asn Thr Asn Gly Ile Thr Met Glu Lys Leu Met Ala
20 25 30
Ala Ile Asp Glu Tyr Gln Ser Tyr Tyr Asn Leu Cys Ser Asp Trp Ile
35 40 45
Cys Lys Asn Leu Thr Thr Met Thr Ile Gly Asp Leu Asp Arg Tyr Ile
50 55 60
Pro Glu Lys Ser Lys Asp Asn Ile Tyr Ala Thr Val Leu Leu Asp Glu
65 70 75 80
Val Trp Lys Asn Gln Pro Leu Tyr Lys Ile Phe Gly Lys Lys Tyr Ser
85 90 95
Ala Asn Asn Arg Asn Asn Ala Leu Tyr Cys Ala Leu Ser Ser Val Ile
100 105 110
Asp Met Asn Lys Glu Asn Val Leu Gly Phe Ser Lys Thr His Tyr Val
115 120 125
Arg Asn Gly Tyr Ile Leu Asn Val Ile Ser Asn Tyr Ala Ser Lys Leu
130 135 140
Ser Lys Leu Asn Thr Gly Val Lys Ser Arg Ala Ile Lys Glu Thr Ser
145 150 155 160
Asp Glu Ala Thr Ile Ile Glu Gln Val Ile Tyr Glu Met Glu His Asn
165 170 175
Lys Trp Glu Ser Ile Glu Asp Trp Lys Asn Gln Ile Glu Tyr Leu Asn
180 185 190
Ser Lys Thr Asp Tyr Asn Pro Thr Tyr Met Glu Arg Met Lys Thr Leu
195 200 205
Ser Ala Tyr Tyr Ser Glu His Lys Ser Glu Ile Asp Ala Lys Met Gln
210 215 220
Glu Met Ala Val Glu Asn Leu Val Lys Phe Gly Gly Cys Arg Arg Asn
225 230 235 240
Asn Ser Lys Lys Ser Met Phe Ile Met Gly Ser Asn His Thr Asn Tyr
245 250 255
Thr Ile Ser Tyr Ile Gly Glu Asn Cys Phe Asn Ile Asn Phe Ala Asn
260 265 270
Ile Leu Asn Phe Asp Val Tyr Gly Arg Arg Asp Val Val Lys Asn Gly
275 280 285
Glu Val Leu Val Asp Ile Met Ala Asn His Gly Asp Ser Ile Val Leu
290 295 300
Lys Ile Val Asn Gly Glu Leu Tyr Ala Asp Val Pro Cys Ser Val Thr
305 310 315 320
Leu Asn Lys Val Glu Ser Asn Phe Asp Lys Val Val Gly Ile Asp Val
325 330 335
Asn Met Lys His Met Leu Leu Ser Thr Ser Val Thr Asp Asn Gly Ser
340 345 350
Leu Asp Phe Leu Asn Ile Tyr Lys Glu Met Ser Asn Asn Ala Glu Phe
355 360 365
Met Ala Leu Cys Pro Glu Lys Asp Arg Lys Tyr Tyr Lys Asp Ile Ser
370 375 380
Gln Tyr Val Thr Phe Ala Pro Leu Glu Leu Asp Leu Leu Phe Ser Arg
385 390 395 400
Ile Ser Lys Gln Asp Lys Val Lys Met Glu Lys Ala Tyr Ser Glu Ile
405 410 415
Leu Glu Ala Leu Lys Trp Lys Phe Phe Ala Asn Gly Asp Asn Lys Asn
420 425 430
Arg Ile Tyr Val Glu Ser Ile Gln Lys Ile Arg Gln Gln Ile Lys Ala
435 440 445
Leu Cys Val Ile Lys Asn Ala Tyr Tyr Glu Gln Gln Ser Ala Tyr Asp
450 455 460
Ile Asp Lys Thr Gln Glu Tyr Ile Glu Thr His Pro Phe Ser Leu Thr
465 470 475 480
Glu Lys Gly Met Ser Ile Lys Ser Lys Met Asp Lys Ile Cys Gln Thr
485 490 495
Ile Ile Gly Cys Arg Asn Asn Ile Ile Asp Tyr Ala Tyr Ser Phe Phe
500 505 510
Glu Arg Asn Gly Tyr Thr Ile Ile Gly Leu Glu Lys Leu Thr Ser Ser
515 520 525
Gln Phe Glu Lys Thr Lys Ser Met Pro Thr Cys Lys Ser Leu Leu Asn
530 535 540
Phe His Lys Val Leu Gly His Thr Leu Ser Glu Leu Glu Thr Leu Pro
545 550 555 560
Ile Asn Asp Val Val Lys Lys Gly Tyr Tyr Ala Phe Thr Thr Asp Asn
565 570 575
Glu Gly Arg Ile Thr Asp Ala Ser Leu Ser Glu Lys Gly Lys Val Arg
580 585 590
Lys Met Lys Asp Asp Phe Phe Asn Gln Ala Ile Lys Ala Ile His Phe
595 600 605
Ala Asp Val Lys Asp Tyr Phe Ala Thr Leu Ser Asn Asn Gly Gln Thr
610 615 620
Gly Ile Phe Phe Val Pro Ser Gln Phe Thr Ser Gln Met Asp Ser Asn
625 630 635 640
Thr His Asn Leu Tyr Phe Glu Asn Ala Lys Asn Gly Gly Leu Lys Leu
645 650 655
Ala Ser Lys Ser Lys Val Arg Lys Ser Gln Glu Tyr His Leu Asn Gly
660 665 670
Leu Pro Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Tyr Ile Gly Leu
675 680 685
Asp Glu Ile Met Arg Asn Thr Phe Leu Lys Lys Ala Asn Ser Asn Lys
690 695 700
Ser Leu Tyr Asn Gln Pro Ile Tyr Asp Thr Gly Ile Lys Lys Thr Ala
705 710 715 720
Gly Val Phe Ser Arg Met Lys Lys Leu Lys Lys Tyr Lys Val Ile
725 730 735
<210> 57
<211> 37
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 57
actatgttgg aatacatttt tataggtatt tacaact 37
<210> 58
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 58
attgttggaa tatcactttt gtagggtatt cacaac 36
<210> 59
<211> 19
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 59
aatgttgttc acccttttt 19
<210> 60
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 60
cctgttgtga atactctttt ataggtatca aacaac 36
<210> 61
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 61
attgttgtaa ctcttatttt gtatggagta aacaac 36
<210> 62
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 62
attgttgtag acaccttttt ataaggattg aacaac 36
<210> 63
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 63
cttgttgtat atactctttt ataggtatta aacaac 36
<210> 64
<211> 29
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 64
cttgttgtat atgtcctttt ataggtatt 29
<210> 65
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 65
cttgttgtat atgtcttttt ataggtattg aacaac 36
<210> 66
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 66
tactcttttt taggtaatga acaac 25
<210> 67
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 67
cttgttgtat atattctttt ataggtatta aacaac 36
<210> 68
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 68
catgttgtac atactatttt ttaagtatta aacaac 36
<210> 69
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 69
gatgttggac actatgtttt atacggtgga tacaac 36
<210> 70
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 70
gatgttgtta tgctgttttt gtaagtaata aacaac 36
<210> 71
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 71
attgttgtag acctcttttt ataaggattg aacaac 36
<210> 72
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 72
attgttgtac gaaccatttt atatggtaat aacaac 36
<210> 73
<211> 39
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 73
actgtaaaac ccctgcagat gaaaggaaag tacaacagt 39
<210> 74
<211> 40
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 74
atcatgttgt acatactatt ttttaagtat taaacaacta 40
<210> 75
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 75
attgttgaat ggctatgttt gtatgctatt tacaac 36
<210> 76
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 76
attgttgggg tacttctttt atagggtact cacaac 36
<210> 77
<211> 37
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 77
attgttgtag accttgtgtt ttaggggtct aacaacg 37
<210> 78
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 78
actgtgttgg aatacaatat gagatgtatt tacaac 36
<210> 79
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 79
attgttgtgg cataccgcaa ggcggatgct gacaac 36
<210> 80
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 80
aattgttgag ataccgtttt ttatggtatt ggcaac 36
<210> 81
<211> 35
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 81
attgttgtgg cataccgtat tacgggtgct gacaa 35
<210> 82
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 82
attgttgtgg cataccgtat tacgggtgct gacaac 36
<210> 83
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 83
attgtgttgg gatacacttt tataggtatt tacaac 36
<210> 84
<211> 37
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 84
tattgttgaa tacctttctt ataaaggtaa ttacaac 37
<210> 85
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 85
tgttgtaaat ggctttttat gggcaacgaa caactc 36
<210> 86
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 86
attgttgaat gtattctttt ttaggacaga tacaac 36
<210> 87
<211> 37
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 87
attgttgaat ggtatctttt atagactgat tacaact 37
<210> 88
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 88
attgttggat aataggtttt ttatcttaat tacaac 36
<210> 89
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 89
actgttgaat agttgatttt atatcctatt tacaac 36
<210> 90
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 90
attgttgtag ataccttttt gtaaggattg aacaac 36
<210> 91
<211> 644
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 91
tatatcgtgg ccgaatatgt taacgcggac gacgtccgtc ttgtgaagtt tcaggacgag 60
gatttcgaca ggcttcttga caaggttaga gaatggaaca agaaacatct tgttgttgga 120
aatcggaact tcgaagaaaa atttgcgtaa tccaaaaatt ttccgtatat ttgcggcgtg 180
aaattaaaaa tatgtttaac taaaaacaaa gattatggca cacaagaatc ctgatgggga 240
gaacaccatc aacaaaactt ttattttcaa agtgaaatgc gagaagaatg atattatatc 300
gttctggaaa cccgcagctg aagagtattg caactattac aacaaactta gcgaatggat 360
tggcaaagat atgtataaca cgccgtcatg gaacatccgg caagagttca agaagaattt 420
aagtgttaga accataaaca cgtttcgtga gcttggcaat gtgaaatacg gcaaaatcaa 480
caatgaaggg ctttttgtcg aagacgatgt gtaaacatta agatttccat acgacaggat 540
tcaaaaaaac gttctttgaa atattggatt ggtggcaaga ggctgttttt tttaggctaa 600
aaagttgtgt aaatagcaga aacacagaac ataacataaa atct 644
<210> 92
<211> 264
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 92
aactgctaca attctgccga gtttatgatt cagacaaaat tcaaaaaaag acttccgcaa 60
gcaaccgttt ttggtgaatt gaacagaaac gggtatgtta aagtattgac ccaagaagaa 120
tatgacgaac tcacaaaatc agcaaaataa tttattactg attgaaaaat aaagcgttct 180
ttgacatatt gtataacaaa caagcatttt tgtaagagat aacccatttc attttattga 240
tatacaatga aatgaaaaga atat 264
<210> 93
<211> 614
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 93
gataaatttg cccgtaatgt tatcgggttc aagtcatatc acgaactgct tgataatgct 60
atcataaaag aaaaattaca acgggaattt ggttatgaag atgctccgaa aacgtggttg 120
ttcggacaac aaaaaaatga atgtttctaa tgtattaaaa caataattca attacaattt 180
taagattatg gcacaacaca aatcaaacaa cgaagaatca gcaatcaaca agactttcat 240
tttcaaggca aaatgcgata agaacgatgt catatcgtta tgggaaccag cggcaaagga 300
atactgcgac tattataaca aagtgagcaa gtggattaaa actatgtata acatacccgc 360
atataacatt aagtccaatt tcaagaaaaa tttgagcgcc aaaacaattc aaacttttag 420
agaacttgga cactaccgtg acggaaaaat aaatgaggat ggtatgtttg ttgaaaactt 480
ggaataattc tgtatatacc aattagaatt gaaaaaaaaa cgctctttga catattgttt 540
tctacataaa aacaagattt tacacaacgc aatacatcat aaagtgttgc gttataacaa 600
ataacaaaaa ttct 614
<210> 94
<211> 1041
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-cattle and sheep rumen sequence
<400> 94
tttattcaat gcgaaccaga ggtcttgacg catgaatctg gctatacata tcgttatgcg 60
accgacgaag agaaaatatt gattaaaaga tgcaaatatt gaataggcaa ttttaaattg 120
tgaaaaaaaa aatgattgaa tataagttta cgtttgaact ggatggacat ctatcggcgt 180
acgattttgt tacgttgcaa gaacggtttg aaagggaatt gaatccttat tttgatgatg 240
ggagcatatc tggtactctt tcttatgcaa atgatgatta atatgcaaat aatatggcac 300
atgtaagaac aaaaaatgaa ggaaacatgg caaaaacata ttcttttaag gtcagagaaa 360
caaaccttaa aaaggatgtg atgattgaat ataacgaata ttataacagg ttatccgatt 420
ggatatgtgg caatttaacc aaaatctcgg aaaatgaaga atggaggaat gccttatgca 480
aaccaacaga aaacatgtac aacgaaccga tttacgttcc cttggttaaa tcacagaacg 540
gaatgttcaa ggcaattaaa aaattgggcg caacgaagat atggcaagaa tagaaagacc 600
gatttttaaa tctgaaatca cttctaacga attgtatact aaagaaatat aaagaatata 660
catcttttat gacattatga tattgttgta tgcatcattt cacatggtaa taacaacgaa 720
gagaaacacc gagcgaccca caaacctatt gtcgtacgca tcatttcaca tgataataac 780
aacgaatatt cctgcaagca tgatttaaca atttttaaga acctggtggt ttctccgttg 840
ggttcttttt agtatctttg ccttgttgaa acaaataaaa caaattgaat tatgatttat 900
aaaggcaaag aaatagacga aagttaccac atcaataaat gggaagatga agagatttac 960
tctggtccaa cccattatga atcattcgaa gccgatgaaa taaaagagtt ctacctcaag 1020
gcacttgcaa aggaaaagga a 1041
<210> 95
<211> 1545
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
gut metagenome sequence
<400> 95
gtgcgcatat acactcaatt cgccgatgac cgtgtgtacg cgaaggattg tatcgacgga 60
ttctttagta taagacaaga taccgaaatg cgcctcgtgt ataaaaatga gatagcacgc 120
gggcttgagt gtatcaatat tgtaagatag tagttttctg ttattttaca tattgatgtg 180
ttttggcatg gtttttgtta aaatataatc tagcagtatt gagactgcgg agtaacgtgt 240
ctaactgttt cattataagc agtaaagact aatattttta tatcttaaac ttatttttat 300
tatggctggt cacagcaaaa tcaaagaaaa tcacattatg aaggcgtttc ttatgaaagt 360
aaaagaaacg cgaaaaaaac agtggcaatc aaattttatt agaagtgaga ttgctaagtt 420
tacaaattat tacaatgggc tgtcaaagtt ccttcttgga agcccgactg gagggacata 480
tgacactgca tattttgata caaagattca aggctccaag ggggtatatg ataagattaa 540
agaaaacgga gaaacttata ttgcagtatt aagtgatgac gttattacgg cagaggtgta 600
aaatcctctg ccaacatcgc aagtaactca ttgaaaatta gttaaatgcg aatgccaaca 660
aaagtgaacg aactgacttg taaagcagga tgttgttata tctttttgta gataataagc 720
aacaagatac aatcaatcgc gagtttatac tgaaatgttg ttacactgtt tttgtaagtg 780
ttaaacaacc ttgcacaaat gtcatctacc agtacaatag atgttgttat actgttttgt 840
aggtattaaa caaccattgc gcagactgac agagtaacct ttcctgatat gttgttacac 900
atttttgtaa gtgttaaaca actgacgcat tgatattgcc ttgtctatta agaatgttgt 960
tatgctcttt ttattggtat aaacaaccga gcaactggta ctcaaatttt aaatactgtc 1020
gcgctatgtt atgtacatcg aacagctacc actcaatggc tttgtttgca accgtgatta 1080
attcaatcgc ggttgcattt gttttatgat gtgtttttgt atatattatg tatatatgga 1140
aaaggaaaac agggtatcgg agttatggag caagttctct gatattgact tgcgccgaag 1200
ccaaatgaca tatatgccaa taagaggtag taaaagatac ggcagaagaa taaaacgtag 1260
tgacatcgag tacgagtaca gatatctgta tagagcaaac aaacattggt aatatgaccg 1320
tagctaaatt atcaagtaat cataagccag cgtgccttgg acgaatctca gctttaaaca 1380
ccccgattag atttgagtgt cgggctggta atagtataag gcctggcaac atagagtata 1440
gctataaaag atggaaaacg tcgtaatttc aactatgcac aacccgcata cgctggctta 1500
ttaccaaggt aagctggctc ctatgcattt cagacaagat acagg 1545
<210> 96
<211> 1380
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-cattle and sheep rumen sequence
<400> 96
agcctgtata cagggacaag gttaagtaca acaccaaggc tgaggcaaag aagagggctg 60
atgatatgaa caaacagaat agggtcatac accagctgtc tgtttatttg tgtcctaaat 120
gtcataagtg gcatataggt aggagcagtg tggagagtgt gcgcagggaa gggtacttta 180
gtcagatttg aaattaattg ttatatggcg catagaaata aaaacctagc agaaaactgc 240
attaacaaaa cattcagttt taaagtcaaa gccgaaaaag aggagataaa ttcaaaatgg 300
attccagcca ttaaagaata tactgcttat tataacagga taagtgactg gataaacctg 360
tattcacagc ctacttatga tattaaggaa gtttataaga aaaacgctgg ttgcaaagtg 420
ataaacgact tcattaaaaa cggtaacgcc gttatatgtt gtatcgaaaa taacaaacta 480
attgagacaa atggaagaca atagttcaaa ttttaaatgt aaaacagtca ttaatgtatt 540
aatatataat acatagcaaa aatccagatg ttgaatacat ttcttttaag tgtacttaca 600
acgcggtggc attgctaaaa tatagtcctg tggatgttga atacatttct tttaagtgta 660
cttacaacca acgctgtaca cattgctaat ggatgatgac gatatagagg tgttgaacta 720
ccttaatgaa aactacacca atgaaaacat tgagtatata cgcggttggt ggatggatga 780
cgacgataaa ctccagacac ttgacaggtt tttgaaaaat ttttcaatat agacctgtca 840
ctgttgcggc tataagaaga ccgatttgac actgaaagac cgatactggg tttgccccga 900
atgcggtgca aaactagacc gcgataccaa tgcaggaata aacattaaga atgagacaat 960
tagactgata aacaaagaat aatgagaact ataataggga ggtgtacccc cgaatttaag 1020
ccagtggaga accatacaaa cctatcatat aggggttcaa tgaatctgga atttctgaca 1080
aaaacagggt ttaacagcca gtgtaccaat gactaacaca ggacatataa agacaaatct 1140
aacaataaaa aaaaatattg accaattctg cagaaaaaac aggttggttt cggttatgtt 1200
ggtgaataaa gacagttaga ttaattttat atggaaatga aaatagagac aaaagacgag 1260
aacatctacg tattcatcta tgccaagtcc gcctacttcg gcaatacatt tgaatatggc 1320
ggcacatttt ccgtcggcaa ggacgacaac tggaacgatg tgagaggcca cgttaccgaa 1380
<210> 97
<211> 853
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 97
gacaacatcc tggtcaagac cgaggttaac agaaggtact gccgccttat gaccgacgag 60
aacggagtgt ggctcctgag gaaaaacgac aaacatccaa catattttat ctaccagaac 120
ggaacactct atcaatatga ggaagattga ttagttgatg ttttcataat aattttatct 180
ggaatttgaa aagattccag attttttttt tatttcgact gtacaaaaaa caggttccgt 240
tgcgttatat aggtgtaaat taaaaattca gtcaaacaaa aattggaata aaatatggct 300
aacaagagaa cagacacaac aatcaacctt aacaaaaccg ttataatgtt aacgaacatg 360
ctgccagaag tacgggcaat gtttcaggcg ggaatacgcc aggctcaagt ttatgcagac 420
ttggtgaaca agtggatatg ttcacaggaa atgagagagg ttatgtgtct ccatccgtca 480
aaaaaggacg gggtgtacga ccaaccgttc ctgaaagcta caaccaaata cccagccacg 540
gtagctggta tcctgcttaa gatgggaaaa acaaccaatt ggggtgagaa ataataccca 600
cccgccccat ttttttacac tgattagttc tttgacttat tgatttatat tggtttacac 660
aaattatcga cacaataaat aaaaaaaatt gtatattagt agtatgatga cagaagaaac 720
acggaagaca atagagagcg tcatagtggt tctcggcata gcaatcatgc tggcagccgc 780
cgtccgaata atgacgcaga acaaagcaat tgtgaaatat gatgaacagg ttgaaaccat 840
gcaaacttgc ata 853
<210> 98
<211> 795
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
gut metagenome sequence
<400> 98
atggaagttg tacgtggtgg aaatcaatgg gaggtttatg acaattacga tgagactatg 60
aaagcatcaa aaaatgtaag gtctgtattg ggacttccgg aagtaaaata tccacctgag 120
gattttagga catataattt ctaataaaaa tgaacggaaa aatttccgtt catttttttt 180
ttgtttattg gtgaaaaaat agtatctttg taaaaaataa atgttaaaat attttttatg 240
ggaaatacta caaaaaaagg aaatttgacg aagacttatt tattcaaagc caatctttca 300
gaacaagact ttaaattatg gaggtctatt gttgaagagt atcaaagata taaggaagtg 360
ttgagtaaat gggtatgtga ccatcttaga aatgcaatgt gtacgaaccc gaaaagtgag 420
actggatatt ctgtaccgtt cttgacttca agaatcaaga aacagaacat tatggttgta 480
gaattgaaaa aaatgggcat ggttgaagtc ttgaatgaaa aatcaacaga aatttaagaa 540
aaaaatattt atataatgta ctgaaaataa gtaaataata aatattgtgt aaaaaacttg 600
atattttttt tttgttatct ttataatata aaataaaatg taaatatgaa aaatctgtta 660
aaactcaaag aacaaatcaa ggattacaaa catcttcagt ttgtgttgga gaaagaagat 720
gaatctgaac tccattatag atgtatgact gaagattttt cgttcaaggt atctgaagaa 780
aaagacggaa cactt 795
<210> 99
<211> 420
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
bovine gut metagenome sequence
<400> 99
ttataaacat ctaaaaagaa agacttatga caacaaaaca agttaaatca atcgttttaa 60
aagtaaaaaa cactaatgaa tgccctatta caaaagatgt aataaatgaa tataaaaaat 120
attataatat atgtagtgaa tggattaaag ataatctaac aagtattact attggaaacg 180
aaaatttacg aaaattattt tgtggtaaac ttaaagtaag tggatataat acaccaatat 240
tagacgcaac aaaaaaaggt caatttaata tattggcaga attaaaaaaa cagaataaaa 300
ttaaaatatt tgaaatagaa aaataagtct tatgattaca aaaataatag atttcaaaca 360
ttttttttaa ttctatttta ttgactaatt cattgaaata taaataatta caaataaccc 420
<210> 100
<211> 1058
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 100
gatagatata gtattgcagc atttctggct tgcgaatcat cagcaatgca aaaatgtgac 60
tattggaaca atgatgatgc ccaagattac ataagaaact acaaagaggc ttatagtaat 120
gcagtaagac ttgcgttttt taatgattaa gcaacacgct taacattgtc aaatgtaacg 180
acattaagtg cgtgtttcat aagggcagcg aacctttcgc cgcccttctt tttttgttgc 240
tgtaacggaa ttatgtttac ttttgtgcca tcaagtatat agttccctta ataaattgta 300
tattaattaa aagtttggca caatatttga tgcgtacaaa ttaaaataaa aacattttga 360
attttaaaat ttaatttgta attttaaata agaaagtttt atttaactaa aataaaaaaa 420
atgaataaat cttatgtttt taagtcgaat gtggctattg atgacattat gtctttattt 480
gaaccggcaa ttgaagagta cataaactat tacaatagaa ccagcgattt catttgtgat 540
aatcttacat caatgaaaat cggagatttg ttgcttctaa caatgtgtac taagacaaaa 600
gaaaataata gatacggtaa ccccctctat aatatcaaag atacttttaa aaagaaaata 660
ccatcttcaa tacttaatat attcaaaaaa aaggatatgt atcaaataat atgtgattaa 720
ttatgccttt ttttaataaa aaattgttaa ataatacttt gtttattaat aaattataaa 780
tatcacagta aactattagg gatttgtaaa atttatggaa attatataca tgatggcact 840
aagatttggt tattaagaaa tttttctgta taagtataat aacctattta taattataat 900
tgaataaaat gtataatatg gaaaacacag gcttttatac agtttcaaat attgaaactt 960
ctcataagcc aaccgaaaat tctaatgacg aaattcttag gattttcaat aaaagaaggc 1020
cttattgccc ttcagacttt aagaagcaac attttatt 1058
<210> 101
<211> 554
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 101
aggctcaacc tcctcaaccc gatttatctt gagatcgcca agtacggaca cttcgggagg 60
aagagctatg tgaaggacgg catcaagtac ttcccgtggg aggatttgga tttggttgaa 120
gacatcagaa aaattttcga aatggaatag agggaaccgg aattttttcc ggtttttctt 180
tgtcctttcg aaaataaata gtatctttgt aaaaaaacaa cagattatgt acaatagtaa 240
gaagaagggg gagggtgaca ttcagaagtc gttcaagttc aaggtcaaaa cggacaagga 300
gacggtcgaa ttattcagaa aggccgcagt cgaatactcg gaatactaca agaggctgac 360
aacattcctc tgtgagatgt ataacagacc agcgtttgac ttgaaggagt gctacaagaa 420
aaattccaat gtaagtgtct tcaacacatt gaagaaaact ctcggtgcaa tatatggaaa 480
gctcgatgaa aacggaaatt ttattgagaa tgaatgtaat aagtaactgg aataaaagaa 540
attagacaga gtaa 554
<210> 102
<211> 1039
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 102
ttgtattggt tgctgtatgg cgacggaagt gacatatatg atgacgggtg gtttgactgt 60
gttcataatt ttgcccgtaa tgttatcggg tttcagtcat atcacgaact gcttgataat 120
gctattataa aagaaaaatt acaacggtaa tttggttatg aagatgctcc gaaaacgtgg 180
ttgttcggac aacaaaaaaa tgaatgtttc taatgtatta aaacaataat tcaattacaa 240
ttttaagatt atggcacaac acaaatcaaa caacgaagaa tcagcaatca acaagacttt 300
cattttcaag gcaaaatgcg agaagaacga tgtcatatcg ttatgggaac cagcagcaaa 360
ggaatacggc gactattata acaaagtgag caagtggatt aaaactatgt ataacatacc 420
cgcatataac attaagtcca atttcaagaa aaatttgagc gccaaaacaa ttcaaacttt 480
tagagaactt ggacactacc gtgacggaaa aataaatgag gatggtatgt ttgttgaaat 540
tttggaataa ttctgtatat accaattaga attgaaaaaa aaacgctctt tgacatattg 600
ttttctacat aaaaacaaga ttttacacaa cgcaatacat cataaagtgt tgcgttataa 660
caaataacaa aaattctgga cgggaaagga agatgtcaga cgtttttatt gttggaatac 720
tcgtttttta cggtatttac aactgccccg tagcggaatc aaaataccac cgcattgttg 780
gagtacaagt tttacacggt attcacagta cgaacaccga atgaactgaa aaaaataaac 840
ccgaccttgc aaccgtagat ataaataaag caatacaaaa tttgaaacta tggcacacat 900
taaaaaaatt gacgaaatgg caagtcaaac tgtttcactc cgttctgacg cattgttcaa 960
aaaagcgttt gaggaatttg aaaaggagtt gaaagaagtt ctcaaatcgc acaacaatat 1020
catttattgt ggaggtgat 1039
<210> 103
<211> 1252
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 103
ctcatcaaat tgtacaagtc gttgacggac actgaatttg acaagaagaa aatcatcaat 60
gatgtctacg acggcacttt tgagataatc ctcaaatacc caaagaagaa gaacgggaca 120
ttcgtgttct ggaaacatta caagaagtaa cacaatgata cacagtatgt tgtaagaaat 180
aagatttagg ctttaatttt aatatatgaa aatatggcac acaaaggaga aaaggaaggc 240
taccaaatca agacactgaa gttcaaggta cgctcgcatg acatcgggaa atcactttat 300
gatattgtca acgaatacac caactactat aacaaagtaa gcaaatggat atgtgacaac 360
cttggttaca acgagccatt ctacaagtca agggtgaaaa gcgccgcctc catgatgtca 420
ggattgaaaa aactgggcgc caccatgcca ttgacggatg aaaatgccat tttttcaaca 480
ccaaaaccga agaaaaacat tggaaaacaa taatttacac aaagtctacg gcgggaatcg 540
tgataaaaat gaacgagatt gttgggatat accttttata ggattttcac aacatctgag 600
ttgtttgatg ttaaaaactt taactaataa ggcaagaagt cccattcctt caggtggggg 660
tagttcattt gttgggatac tcgtttcaca cggtattcac aacttccaac caaccattaa 720
aaaaccttca aatattgttg gagtacccgt tttatacggt gcaaagcctc cccgacgatt 780
tcaagttcct gtacgaagat gtcaattttg gatagcaact gttaccaata aacatattca 840
aaagtaatca aatatattca aaaacaactc gtataaatat ataaagttcg tgatatttat 900
tataaagaag ccgaaggaga gagcggtttc cgaacaataa agatatacag aggttttatt 960
cttgacggca ctctctcctt tagccgcaag tttaattcct cttttttatt gcactatggt 1020
catcgacagc aaatatacca agacattcaa gtcaaacgga ctgacccatc agaaatatga 1080
cgagttgctc tcgtttgctt ctatgctgcg tgaccataag aacaccatct ccgaatatgt 1140
caatgccaac cttgaacact acctcgaata ctcaaaactc gacttcctta aggaaatgcg 1200
tgcgaggtac aaggatgtcg ttccgagttc gtttgacgct caactctaca cg 1252
<210> 104
<211> 1131
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
pig gut metagenome sequence
<400> 104
agaatctgtc ctatatgtgg gaaacattgc gaatatgagg aaatggaggg cgaccacatt 60
gttccatggt caaagggcgg taaaaccgat ataggcaacc tccaaatgct atgcaagaag 120
tgcaatcacg aaaagtccaa tagatattag tggcgtaatc aaaaatttgt ttgtgttgag 180
gaaaagcagt gaaaaaaaac attgtttttc ctcaattttt atttgcataa ttcaaataat 240
tttttatttt ataggataat agagctaaca agcattaaca attattaaaa cgatttatat 300
tgaaaataaa ttttgtggga atatttattt ttactacctt tgcatcgtaa tacaattaaa 360
caaatttttg attatggcac acaaaaagaa cataggagca gagatagtaa aaacttactc 420
ttttaaggtg aagaatacca atggtatcac aatggaaaaa ttaatggccg ccattgatga 480
gtatcagtcg tactataacc tttgcagtga ttggatatgc aagggtcttg acgaaataat 540
gaggaatact tttctgaaaa aagcaaatag caataaatca ttgtataatc agccaatcta 600
cgatacgggt atcaagaaaa ccgcaggtgt gtttcctaga atgaaaaaat taaagaaata 660
taaagttatc tgaaataaaa tatgtatttt tctttgtgga aatacctatt aatagactga 720
tttctaataa gttataagaa atactgtatg tagtaaataa gatatcatat ttttgcggag 780
aggcacatgg agtatgctat agggtttttg ctaccgagca gaaagcaaaa gaaaaaatgc 840
agggatgata tcatttcatt cttgcatttt gcttatacat attcaatcaa gtatcatttt 900
ctgtttttac tattatccta taaaataaaa ttttcctcaa catttccaaa tttaatttgc 960
aataattttt tttgataaaa agtgcaaata aattttatag attcaaaact tttgattaac 1020
tttgtaacaa gaaaaacatt aaggattatg ggttacacat attttagggt tactgatgaa 1080
agggcaaggg atgttatgcc aaaggcggct gaaatcataa aggatatttt c 1131
<210> 105
<211> 3677
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 105
cttcacctcg tacagccgac aataagtttc gcttggactg aacttatgtg cgcctgcgca 60
ttcatagcgg gtggcgtatc aggctatctc atcaagggca agatgccaaa cgacgggaac 120
aagtaccagt cggtagaggg aaaggaatag gacaaaaaaa aacacatcac ccccagcgca 180
tcgggcgcgg aggtcgggtg tgcatataac ggtgtctgtg gcgcaactgg tagcgcagtg 240
gattgtggtt ccaaaggttg cgagttcgag cctcgccaga cacccattat cacacggaag 300
cattggatgg aagtgcaagt acctactggg aacttcctga aagcgcaagc aaagtcgagg 360
tctaacggta cttatgaccg aggtaatggc ggggcgttgg ttcgagtcca acacaatgtt 420
tccatttaca cggagagttg caggagtggt aactggtcag attgctaatc tgaagcccac 480
ctcgttgtgg caggggtccg aatcccttac tctccgccaa gcaacatacc cgcagagtag 540
tcgcgtatat tctgtcggtg tggtcagaaa gaagtgaatg tgatgcgaac gcgcgaaacc 600
atcgcattta gagtccgaat ctcctctgcg gtagccagtc cgcatagttt aatcaggtta 660
aaacattctg acgctttttt aaatcgcggg agtagttcag tggtagaaca tcggcttccc 720
aagccgaggg tcgcgggttc gagtcccgtt tcccgctcaa cacataggct gtggacaagg 780
tgggcgaaag tattttttcc atagttttac accaacgccc gccttttcct aaacgcattg 840
gagagataga ggacttgcct tctaaacaag cagtacgggg gaacttgcat ccgacctccg 900
tttcaatgcg gtagaactcc gctcccgtga cagcgacgaa tgatgcaata gcggttcacg 960
agatacctca agaaacttca tttttcaaaa gccacaatag ttcaactggt agaacggcgg 1020
tatcgtaaac cgcaggttgc tggttcaatt cctgcttgtg gctcaacaat ttcgggggct 1080
tgcaacgctg ccactgcggg tggaagccag cgacaagaac ttgtgtgaag ccgaaacgca 1140
gtccttcggg agaggggcga aggggcaagc gagatgtgtc ccactttttt aaagtaacag 1200
gctttaataa atatttatca ttcccgaaag gctgtgcgga acagcctctc ggcttttacg 1260
gggatttagt tcagttggta gaacatctgg ttcgcaatca gaaggtcgcg ggttcgactc 1320
ccgcaatctc cacaaatata aatatagtat tgccctgtgg tgcaatcggt aacacaccag 1380
attctgaatc tggaatttcg agttcgagcc tcggtggggc aacacaatag gcagccgtac 1440
tgccgaatac aagcctgtgg agaacccaac cgtggatgac cgttgcctat gcaacctaaa 1500
aagcggtggt tctgtgaagc aggaagcgga aatacaatat tccgcatacg gtggtggtgt 1560
aatcggtaac ataacaatat ccgaaaagtt taaaccatac acccgacgat tatttttatt 1620
cattgttagc gaccgccgtg aggcggacgc aggctggcgg tcggataatg acgcataatg 1680
gcggttgtga aagccgacgg aaagcactac atcgttaagt gccagccacc ataataggca 1740
gccgtactgc cgaatttaag cctgtggaga acccaaccgt ggatgaccgt tgcgtaagca 1800
acctaaaaag cgatggttct gcgaagcagg aaggaaatgc ccaatttatt aggtttttcc 1860
atacggtatg acagcctcta actgtagcgc attacaaaac aaacgctacc attacataaa 1920
tggtcagagg cataacgccg agcgcaggta tggtatgcgt tcaagtcgca gtcacggaag 1980
ccccagataa aaatgggagg tgcttgcggt caagcgagtg gtcagcgggc ttgcactcgg 2040
tgtggcaaca atggtcgttt ccgaacttac gaccattcaa aaagataagg tagtggcttg 2100
tgagtgaaaa gaaactctcg atacgctcct ttcgtctaac ggtcaggacg cgagattctc 2160
aatctcgtaa tgcgggttcg attcccgcag ggagtacaat ggcgaacaca cgacaatcca 2220
aactgaaggg gaactggaaa accctcgctc cgagataaca tcagcgcaga gaggttggtg 2280
aggcaaccgt aaaagtaatc ctgtgtgcaa gcaagaagga agttcgggtt caagtcccga 2340
tgaggattat tgttgaagag ggatatgatt caaccatagc acttatggtg ctgtgcaagg 2400
gttataggca gccgtactgc cgaatacaag cctgtggaga acccaacagt ggatgaccgt 2460
tgcctatgca acctaaaaag cggtggttct gcgaagcagg aaggaaatgc ccaatttatt 2520
aggtttttcc atacggtatc actactcgcg gtggatgtgg aaataaccgc gatttggtca 2580
gttggtgaag ttggttatca tacctgcctg tcacgcaggt gttcacgagt tcgagcctcg 2640
tactgaccgc agacaaagac aaagaacgag aggacttgta tgacttgcaa atgtcacgga 2700
ctcaaacaag aaaagtttat aggctattag aggatgactg tttctttaat ttgttttctt 2760
gtactgaagg tcatcactgc cgtgccacca agccgtgcaa gtccaaatgg tgcgttagtt 2820
cagttggtta gaatgccagc ctgtcacgct ggaggtcgcg ggttcgattc ccgcacgcac 2880
cgcaataatc tggatatagg caaattacac atatcatatg tcgccccgcg taatcataga 2940
cgacactgcg gacgacagcg gcgagaatgt cgaaaggctc gacagcataa tgacattcga 3000
catcaccgac accccgatat acgaaggcgg ggaggaactt gagataaacg caaaattcaa 3060
cagatagaaa taattaaaac aaacggcaat ggcacacaga aaaaagaaag atgacgaagc 3120
aacgctatcg tacaagttca aggtaaaggt catagagggc gacctgacgg cagacgacat 3180
aacgaagtgt atcgcggaaa acgcggagca gggcaaccat ttctccgagt tcatacacga 3240
tgagaatttc aggaagacct tcacatccga gatcagcgcg gacaagttcg gatggggcaa 3300
gccgatgttc agcccgacca ccagaagtca ggacgaagtg ttctccgcga taaagaaaat 3360
cggggcgata accgtgctgg aagattagcg catattattc tcatatctaa aattggaagg 3420
acacctgcgg acgcgggtgt ccttttttct taaaatgcca atttataaat aatatataac 3480
ttatatttat tgtacttttt ttgtttaact aaaacacata gacaaatatg gaaattcaac 3540
agattaggtt tataaaccca gttgattttg aagaaacaat cgttaatgta cccacggaga 3600
agggcgaaag attcctgaga acaaaaatct atacggacga gtattcaccc gaaacattca 3660
taaaactctg cgagaag 3677
<210> 106
<211> 831
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 106
tggcgattat tcttacggca aaggccttat ccatgcatac ataaatcgag acatcaaaag 60
tttttgcttg ccaaacactt taatatgtga atgccatata ccaaaacata ccagatatat 120
tactgattac tcaggtacaa atatagccgc aaagaaaatc atcatcgaca aagttgtctg 180
ggagaaggta tgtataaaaa cataatggta ttaggggaga aattttcttg gacggaatga 240
atataatttc ataccaacac cgtgcattga ttaaactaaa ttaaattatc aagcataaaa 300
agtttggcac ggtttttgat atagtaaatt tgtatttaaa atttttaata tggcacacaa 360
aactaaagaa tcagaaaaat tagtaaagtc tttcaaatta aaagtagaca ttagcaattg 420
cgaaattgaa aagaaatgga ttccttcttt tgaagaatac acaaattatt ataatggagt 480
aagtaattgg atttgtgaac tattagaaaa agtttgcctg aaaagaaaaa aatttggaaa 540
ggcttcttat tcagtaccat attggaacgt taaagacgca tttaagaaaa acgttagctc 600
aaacatgatt gctacaatta aaaaaatgaa tatggtaaag gttttttaat gcgtgattat 660
ggcgtttttt aaacataaaa tcatttataa tatattgaaa aacattttat tatataaaat 720
atgcatctta gtgaaaccgt gttttcgtat agattgctgg attatacttt tttataggat 780
aattacagct cgaacttctt tgatggcatt aataagatat tgttggatta t 831
<210> 107
<211> 634
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 107
atcatggctg aaagcgtccg cctgattgca gagcaaaccg caagcccgaa ggttgtcatc 60
aagagccgtt acgctctggt cgacgcaggt ttctatcctg agttgaacta tgtgaccttc 120
ttcgtgaaca ctccagatca actggtttaa tcactgcggg tagcaagcga ttgactacgg 180
aaggccgatt cgatagagtc ggtcttcttt tttttttgta tattttcttt ttttggtttg 240
gaaatgttcc gtatatttgc agcactaaaa ctaaccaata tgggacatgt acgtttgcaa 300
aaaagagagg gagaggttta taagacctac aaacttaaag taaagagctt ttctggcaat 360
gtagacatta aagctggtat cgttgaatac gatatcgccg aaacaattga ttggagaagt 420
acgctttgtt tcaagacatg gaatacgtat ggttctcctc aatgggactc gaagatcaag 480
aaccagaaaa cgatgatcga tcgactggat tcgttgggtg caatagaatt gaaaaactgg 540
tgattttgat catggttttg aaacaaaata ttgatttttc gttctttgac atgcttgtta 600
aaaattgagt atcagtttaa tataaagaat atat 634
<210> 108
<211> 1154
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
human gut metagenome sequence
<400> 108
ggaaacaatt ataacgatgc ctacaaaacg ttaattcaaa tgagagacaa aggaatttta 60
acgcaggaag ttgtaaatgt atttacccta ttgaaagggc ggtatattaa agaaaaagaa 120
tacggaacac aatataatac tatcaattaa attttttggt agtttcattt ggaattgcca 180
attatttttt tattttatag aataatagag ccaacaagca ttagcaatta ttaaatcgat 240
ttatattgaa aataaatttt gtgggaatat ttatttttac tatctttgca tcgtaagata 300
attacaaaac attaacaaca tttattaaac aattaaacaa attttaatta tggcgcacaa 360
aaagaacgta ggagcagaga tagtaaaaac ttactctttt aaggtaaaga ataccaatgg 420
tatcacaatg gaaaaattga tgaacgccat tgacgagttt cagtcatact ataacctttg 480
tagcgattgg atatgcaagg gtcttgacga aacaatgagg aacacttttc tgaaaaaagc 540
aaatagcaat aaatcattgt ataatcagcc aatctacgat acgggtatca agaagaccgc 600
aggtgtgttt tccagaatga aaaaattaaa gagatatgaa attatctaaa ataaaatatg 660
aatttttctt tgcggaaata ccttttaata gattgatttc taataagtta taagaaatac 720
aatagatact gaaggaaaat caaagtgtaa tcaaaaattt gtttgtgttg aggaagcagt 780
gaagaaattt cattgtttcc tcaattttta tttgcataat ccaaaaagtt ttttatttta 840
taggataata agactaacaa atctcaacga ctattaaaac gatttatata aaaaaagttt 900
tgcagttcca atcttttttg ctatctttgc agtgttgaaa gacaacaaag atttaagttt 960
aacaaacaaa tactttttat tacatatttt aatttttttg tattatgaca atagaagaaa 1020
aagcaaggga agaataccct tatataaccc catctgatgg gtatgaatgc catgattata 1080
atgaagccgc taaagacggt tttattgagg gggcaaaatg gatgcttgaa aaagccgctg 1140
aatggtttaa gaat 1154
<210> 109
<211> 1048
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 109
atatgggcaa agcgtgataa aattgaaaac aaatatgtca aagaaccatt aaaacgagtc 60
aatgaagata tgtggtggat gtactatgtt tatgaatgga atgtgtttta tgtgcttgaa 120
gaaaatgtcc atccatatat gaaaaaataa attttaccac acatattatt attcgtgtca 180
tgccgatgag gtttggcacg atttttgttt atatggagag acataatgtc agtcaataca 240
tgacaacttg tcacaataac tgacattaaa agtttggcac aatatttgct tataagaaaa 300
acgaacaagt aaaattaaaa ttttatagat tatggcacac aaaacaaaca acggagaaaa 360
caccatcaac aaaactttca tcttcaaagc aaaatgcgag aagaacgata ttatatcgtt 420
atggaaaccc gcagcagaag agtattgcaa ctattataac aaattgagca aatggattgg 480
taaaacaatg tacggcattc ctgcatataa catcaaaaga ggttttaaga agaatttaag 540
tgccaaaact ataaacacat ttagaaaact tggacactat cgtgatggaa aaataaatga 600
ggatggcatg tttgttgaaa ctttggcata gaatttgcat ataccaatta gaattgaaaa 660
aatcgctctt tgacacactg aaacatacaa aaacaccaca attttttaat ccttttctat 720
ttgtatttta ttgaaataaa atgtattata gtaatatatc tgctaaggtc atatttttca 780
ttgttctcaa attgttggat aatgttttgt gtgtttcatt tttgtcattg tgtcacctta 840
actgacaagg tggcacattt tttatgtcaa tatgtcagtt gaggttttgg cataattttt 900
gtataatggt aaatggataa gaattgaaat tacaatgaca acaaaacaaa ggttaataaa 960
gagaataaac aaggcattcg gatttgaatt aacggatgca acaccttgtt tccaccatca 1020
aggtagaaga tggggaagcg gtggtttc 1048
<210> 110
<211> 968
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 110
gaaggcggcg cgtttgaaat cgctaacgta attgaaaatg ccaagaagca gaatctcggg 60
gagggtggat acaaggaatt gtgcaatgat ttcctgaaac atgcgaggga aacgtttttc 120
agtgggaaat acgaacacca ttcttggtag tggatttgtt attttggtaa atataattaa 180
cgcggcattg tcgtcagtga atataatatt gcatttcgac agtattttat aagtattttg 240
acttataaac agtatttata agttattcgg cttataggtt aattagccta tagatgttgt 300
ttataggttg gatgacctat agtgccaagt tttgaagaaa tcgttatagt catcgttctg 360
ccctattaga tattccgtat ttctttaaga ctgttataat acaaatatac tacaaatcat 420
gcaatttttg atttttaaca aaaattaaga aatagggtat tattgtgtat tgttttttgt 480
tatatatttg tcctgttagg ttaaatcacc gcgcctgatg acgaagtcgg tggtagaatt 540
agactaatat taaatatgtc tcatgaattt aacaagaata aaggtgagaa tgagattagc 600
aagaccttta ttttcaaaac aaaatgcggg aagaatgata ttacatcatt atgggttccc 660
gcgatggagg agtattgcac gtattacaac agggtaagca aatgggggaa aggtatgtac 720
aacaagccgt catatgacat acggaagaaa ttcaagaaga acttgagtgc ggctactttg 780
aaaactttca ttaagttggg aaacacggtg aaagggatga ttgtcaacgg acagtttgtt 840
gaaatggaat cataggttga cagaaacgga aaatcggttt gtttgttaga agaatatttg 900
ttgaaattca tttttctttt gctaacgtat atacaaataa ctgtaataga atatcttata 960
taagatat 968
<210> 111
<211> 1542
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-fecal sequence
<400> 111
acaaatgaaa ttatgggaca agtaaaactt aataaacctc ttctgtatat caaaatattg 60
actatcttta gacataacct tgtcaaataa taaatctaaa ttactctttt ccttttcttt 120
tttaaataat ttcatattaa atattcccat aatttattaa tatatttttt tttcattact 180
tatttctctg ttatataaat agttacataa aaaaattaaa actatttttt aaaaagtctt 240
gtgtatataa aaaaaatata gtacctttgc acccgaaatc aagatttaat cctgttttca 300
tattatattt atcaatttta tactaattaa taaacttatg gcaaataaaa aatttaaact 360
tacaaaaaat gaagtcgtga aatcattcgt actcaaagtt gctaaccaaa aaaaatgtgc 420
tatcactaac gaaacacttc aagaatataa aaactattat aataaggtaa gtcagtggat 480
taataacatc gtacaaaatg aaacgtggag aaatctattt actaacaaaa ccaataatac 540
atatggatta cctatactaa caccttcaaa aaaaggacaa tctaatatca ttacacaatt 600
aatgaaaatt aatgcaacac aagaacttgt tgtataatat aatctatttt taaatttata 660
atactaatat aattcattga taattaaata attatataaa attcctatat acaatagaaa 720
gactttccac agacatgttg tacatacatt tttttaagta ttaaacaacg catacccacc 780
aatggtacac gaaaattttc atgttgtaca tactattttt aggtattaaa caactcactg 840
ttttgacgat taatataggc atgttgtaca tactcttttt agatattaac aacctgtaaa 900
caataacaat atttacaaca ataatccatt tttgaaataa tgaaaaattt tctggaaaaa 960
ttttttaaca agtctgtttt tgaaataatg aaaaaatttc tggaaaaatt tttttaacaa 1020
acccattttt gattggttca ttttttattg gaaaattagt gtgtggaact acccacccgt 1080
atatgagcaa gtgttatggg gtgtaacgtg gggagggtta catagggggg tctttggtag 1140
ggggtacata ggtagggtaa taatggggtc tttggtaggg ggtacatagg tagtccccat 1200
atattattat aaaaagtaaa ataaatgata tatgcaagag tttttgaaaa tttattttta 1260
ttttgctact tagactttac aaaaagtaga tatatagtat tttcttttca aaatattttg 1320
tagtttggaa aaaaagcagt acctttgcac acggaaacga aaaacaagtt taacctatta 1380
aatttttagt ttatggcaat aaacattttg acttattctg ctatggcaga aaaatcttgg 1440
gaaaatttta tgcgtgaaaa ttgcggttac gagcgcatta gtacatttta tagtgatttc 1500
actattgcag accattgtgg tggtgtaaac gcaataaaag ac 1542
<210> 112
<211> 920
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-fecal sequence
<400> 112
gatgtgaatg aagaatttct tggtggcttg cgaagcacta tgacatatct tggagcaaag 60
agattgaaag atattccgaa atgttgcgtt ttctatcgtg taaatcatca gttgaataca 120
atttatgaga atacaacgat aggaaaataa tataaatttt atattatttt gagaaaaaga 180
gtctaaattt gggctctttt ttcgtttttt atgaaaaaat atgaaaaaag tttgtaaaaa 240
atttgtaata ttgaaaaaat agtattatat ttgtatcaaa tttaaaaata aaatataaat 300
atggcaaaat caataatgaa aaaatcaatt aaattcaaag taaaaggaaa tagtccaata 360
aacgaagata ttataaatga gtataaaggt tattataata cctgtagtaa ttggattaat 420
aataatttaa caagcataac tattggtgaa aatgaagact ggagaaaagt gttttgtatc 480
aaaccaaaaa aagaagatta caatacacct ttattggatg ctacgaaaaa tggtcaattt 540
agaatacttg acaagttgaa aaaattaaat gctactaaat tattagaaat ggaaaaataa 600
taaatatata caataaattt atataatttt gtctattttt aattttagtt cattagataa 660
tatgttcata aattcattga catataatta taaataaata tatatgcaat aaaattcgag 720
agacatttca tcagagatgt ctctttttta ttttttgtta tatttatatt atgaatatta 780
gattggaact cataaagaca aaggataaac agaacattgc aaagcgtata gtggaaagca 840
atcactcata tgttccaacc tggcgtagtg taggacgaag gatagattat cttatttatt 900
tggataatga tgttgtcgga 920
<210> 113
<211> 1217
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-ovis aries sequence
<400> 113
gtgaactata tctacgaatc aatcgaagga atattgacaa aaacaatgaa tccaaccact 60
ttacaggata tcatccttaa cggaatcaca tatacaccag tggaagacaa cacaacaaca 120
tgcgacggat gtgaatttaa agacacataa ggccaatgta tgctaacaca cctattcgat 180
aacgacatgg tccaaaactg cctcaaggaa aaaaacggcg ttgcagatat catatatgtc 240
aaaaaagaaa attaatcgga atcttgattt ggattttaat attatttgtt gtataattac 300
aatagaaaga aaattttgta tattttaaaa tttgtaaatt aaaatttaga aaaatggcac 360
acaaaacaaa caacggagaa aatacaatca ataaaacttt tattttcaaa gcaaagtgcg 420
ataataacga tattatatcg ttatggaaac ccgcaatgga agagtattgt acttattaca 480
ataaattaag ccaatggatt tgcaagacaa tgtatggagt accagcttac aacattaaaa 540
acggtttcaa aaaaaatctg agcacaaaga caatcaatac gtttagaacg cttggccact 600
atcgtgacgg aaaaataaac gaagacggcg tattcgttga aaacctggca taataaggag 660
taaaaaaatg ttctttgata ttctgacaca aatgaaaaaa caatcaaaaa tttatttctg 720
ttttgcttgt aatttattga aataaaatgt attatataga aatatgtcgg tggataatag 780
tcaaatagtc tgttgactgt tgaatagtaa gttttttact ctattgacaa caggtgatgt 840
ggatggaaca tacaaagttt attgttgagt aataggtttt acacttttac cacaacttta 900
gtgattttat gtataaaata attaaaatca tatataaaaa tttttccaga aagtagtact 960
tattgaatta aaattatatt gtgaaaaatg gtttttgatt ttaattttat ttgttgtata 1020
attgaaatgt aatttaattt agaattgtat aaataaaaaa cgtaaaaatg agactgccaa 1080
cagaaattta tgagtcaggc acaatggtta gtaagatatc ggaaaaacca tttaaatcag 1140
gtttaagggt taatactgta aagtctgtag ttgaacatcc acataagatt gacccgaata 1200
ctaataaggg tgttcca 1217
<210> 114
<211> 930
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 114
gactacgact ggttctcaaa tgtgtacggc gccatcaggg aggaacgtga gaaaatgaga 60
agggaagagg aggaacgcag gaagaacgaa cccaagacgg tgaaaaccaa agaggttgac 120
ttgttcgggg atgatgacct gccgttctaa taaaaaaaaa aacaaacctc tccgaaattg 180
aacgtatcaa cttcggagag gttatatagg gtgatggaaa tgttaaataa aaagtttaaa 240
aataactatg ggaaacaaag tacaaagtaa tgaaacaata gttaagactt atacatttaa 300
agtgcgtgga ttcataagtg gtgctaccca cgaaataatg aaatcagcca taaaacaata 360
tatagaagat tctaacaatc tatcagattg gattaatgta gagaatgaaa tacttaggaa 420
ctctttcctt aaagaagaga ctaaaaaata cacttataat acaccattat tcactcccag 480
acttaagtca tcggaaaaaa taataacaga attgaaaaaa ttgggtatga ctacggttat 540
agaataacca ttacacattt ttttcataac aaacgttctt taacatattg gaaaataaga 600
aaatacgata ttcatataaa aatccgtccc acacaaaatt aatgtaatat cttagttttg 660
ttacatcaac actatataat taaaaaaata aaaaaatatt ttgtggattc aaaaaatcat 720
tatatatttg cgtccgaaaa ttaacactta tgtcaaacaa atttaaaatg taaaagaact 780
atgcaaacag aaacacagaa tttcacaggc gagttgagag caatcaacac aacaatgggt 840
tcaagcaaga gctacaagac aatctgccgt tgcgcacttg acatcctcaa gggatatatc 900
gttacgcacg acattaggga caacttctca 930
<210> 115
<211> 1087
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
mammals-digestive system-rumen-bos taurus sequence
<400> 115
acagagggtg tatggatagg catgaaccac caaggcaaaa tactgatggc ttgcagggag 60
gctttgtgta acaactgtga acccccgatt gattacaagg cactgaacga tgccgagata 120
tatttttatg gaaaagaagt taaattttaa aaattaaaag atatggcgaa caaaagcaca 180
aaaggaaacc tgcccaagac aatcataatg aaggcaaacc ttagccccga tggtttcact 240
caatgggaaa gggttgtaaa agaataccaa gcctacaaag acacgttgag taaatgggta 300
gcccaaaatc tcagacaaat aatgtgcaag acaccgcaga caaagaacgg ctactcatca 360
cctgtgctca cctcaaaggt taaaagccaa gtggaaatgg taagagaatt gaaaaaaatg 420
ggaaaaacca ttctttattc caatgattca cttccttttt gaaactaaaa tgtcttatgt 480
gtatttgaat tataggctaa tataaagatt gtactgtgtt gagatacact tttagaggta 540
tttacaacaa aatgcgtgat atggaaatga agaaataact gtgttgagat acacttttag 600
aggtatttac aacaccatat aaacctgacc atctcctgaa tctcgcccga cacggataat 660
gttagatatg ttcacaatac aactgcatgt gctattcaag aaaaaatagt atatttacaa 720
tatgttggtg cataatatta gatgtgctta cacaacgcag acctgaaaag ccaggataaa 780
agtatgcggg attgtgtttt tagaacactg ttcaatccgc tgtatgtcgc ttgaagcgtc 840
agtaacctat gtcgaaacaa tccttttaga ggtgtttacg accgaccaga aacagcaaga 900
cctgtattta tgttggtata cggttctttt taggggatta gtagttgaat cccttttcac 960
ccttggtgtt cacgggttgt gagacattct tcatacccat gcgtgtcttc tcagccatct 1020
taccgaaagt tataggcaca atatgttcaa tgcctgcctg ctgagcattg tagcatatat 1080
cagacag 1087
<210> 116
<211> 1064
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
gut metagenome sequence
<400> 116
agaatgcttt ccccaattga atgtgaaaga ctacagacac tgccagataa ctataccgaa 60
ggtgttagca aatgcgcaag atataaggca atcggaaacg gatggacagt tgatgtaatt 120
tcacatattt ttaagaattt gaaaaattaa tttggtattt tgaaatattt gacttatttt 180
tgcaacataa aatttaaaac aaatttatat ggcacacgcg aaaaaaaaat tttgacaaag 240
gaaagcaaat aacaaaaacg ttctctttca aggtgttaaa tattaagaac aatggcgaat 300
cagttgatat gaatactata gaattagcca tgaaagagta caataggtat tataacattt 360
gtagtgattg gatttgcaac aatctaatga cgccaattgg ttccctatat caatacatag 420
atgatgagaa atggagaaaa aaatttgttc gcccaacaaa cactaataaa ccgttgtata 480
actctccagt tttctcccct gctgtaaaat ctgaaggtgg tactattaaa aatctccaaa 540
ttttaagcgc aacaaagacc ataattcttt gatttaatta ttaatacata tatcgttcgt 600
aaatttaata caaccacaac caaatatgat aatttgcata attaaaaaaa ttcacatatc 660
tttgtagcat aaaaacaaat agagaaaaaa tgacacttta cagatttaca cttttaggca 720
atacacaaat ttatgtatat gctggcacgt ttgaagatgc tctcaggaca tttcgtaaat 780
catatggaga tacgggattc aagtcaattg aagagcttcc tgaatttaga gataacatac 840
ttatacaact agattgattg aaacaaacgt caattaccca ccactgaagt agtgggtttc 900
tttgcagtga ttttatgaaa acgatagaag acagagcaga catagcaagc gatattgcta 960
aaagagaatt tgaagaagat agttattgga gtcattacgc agacgatatg gtaacatctg 1020
cttttgttga aggatgctat aaaggctata tttcaggtgc gaca 1064
<210> 117
<211> 1617
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
terrestrial metagenome sequence
<400> 117
aaggagatag attatgacag ggaaggtaat atcacaaata tatatcttta ctatgagtca 60
gatagtttat ggaatgaaaa atttgaattt atattaacat tagatggtta tgaattaaag 120
atacctattt ttatagtaag tgtaagatag ttttggcacg gaaattgcag taatgttttc 180
ctgtcaagaa caaataaaat aaaaaatatg aaaaaatcaa ttaaattcaa agtaaaagga 240
aattgtccaa taaccaaaga tgttataaat gaatataaag aatattataa taaatgcagt 300
gattggatta agaataattt aacaagcata actattgggg aaatggcaaa atttctcaat 360
gaagtgtgga gagaaatatt ttgtacaagg cctaaaaagg cagaatataa cgttccatcg 420
ttggatacaa caaaaaaagg accatctgca atattgcata tgttgaaaaa aatcgaggca 480
attaaaatat tagaaacaga aaagtagtga ctatagatat aaacttctat gatagatatc 540
tgttttttaa ttctattatg caatataata tattgaaata taaacaatta taaataaaac 600
gggtgtatac aacaagtttt ttgtttttct tattcattat ctgtatattt gtattataaa 660
caaatacaaa tatgtataat gaatcaggaa tatattgcta taaaaacaaa ataaacggaa 720
aattatatat tggacaggcg ctaaatctta aaagaagata tttaaacttt ttaaatatca 780
accacagata tgcgggtcaa gtaatagaaa acgcacgtaa aaaatatggt gtagataact 840
ttgaatattc aatccttact cactgtccag tagacgaatt aaattattgg gaagcatttt 900
atgtagaaag attaaattgt gtcacacccc acggttataa tatgactaat gggggcgatt 960
cagtatatac ttctacacaa gcatttaaag atgcacaaac tgaaaagttg aagcaaacta 1020
ttctatctaa gaatcctaat cttaatgtca gcaaagtaaa atatgaaggt aatagaattt 1080
cagttataat tacttgccca atacatggca catttaaaaa aacgcctgat tactttagaa 1140
atccagaaat aaatgatttg tgttgtccta aatgtgtgag ggaagatata agacaaaaga 1200
ctgaagatag tttctttaaa caagcaacaa agaaatgggg agataagtat gattattcta 1260
aaactataat agtagataga attaccccag ttacaattac ttgccctata cacggagatt 1320
ttacagtatt accagggaac catgtgtgta aagataaaaa tactggagga tgccaacaat 1380
gtagtgaaga aagacaacat attgaatcat tagaaaaagg tagcgtgaag gtcattaaga 1440
tgataaagaa aaagtttgga aacaaatatt cattagataa attcgaatat aggggagata 1500
aagaaaaagt aattcttatt tgccctattc atggagaatt ttcaatgacg ccaggtaatt 1560
taagatatag caacggttgt ccacaatgca ctttagaaaa tgcttatcgt ataaaat 1617
<210> 118
<211> 37
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 118
agttgtaaat acctataaaa atgtattcca acatagt 37
<210> 119
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 119
gttgtgaata ccctacaaaa gtgatattcc aacaat 36
<210> 120
<211> 19
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 120
aaaaagggtg aacaacatt 19
<210> 121
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 121
gttgtttgat acctataaaa gagtattcac aacagg 36
<210> 122
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 122
gttgtttact ccatacaaaa taagagttac aacaat 36
<210> 123
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 123
gttgttcaat ccttataaaa aggtgtctac aacaat 36
<210> 124
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 124
gttgtttaat acctataaaa gagtatatac aacaag 36
<210> 125
<211> 29
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 125
aatacctata aaaggacata tacaacaag 29
<210> 126
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 126
gttgttcaat acctataaaa agacatatac aacaag 36
<210> 127
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 127
gttgttcatt acctaaaaaa gagta 25
<210> 128
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 128
gttgtttaat acctataaaa gaatatatac aacaag 36
<210> 129
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 129
gttgtttaat acttaaaaaa tagtatgtac aacatg 36
<210> 130
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 130
gttgtatcca ccgtataaaa catagtgtcc aacatc 36
<210> 131
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 131
gttgtttatt acttacaaaa acagcataac aacatc 36
<210> 132
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 132
gttgttcaat ccttataaaa agaggtctac aacaat 36
<210> 133
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 133
gttgttatta ccatataaaa tggttcgtac aacaat 36
<210> 134
<211> 39
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 134
actgttgtac tttcctttca tctgcagggg ttttacagt 39
<210> 135
<211> 40
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 135
tagttgttta atacttaaaa aatagtatgt acaacatgat 40
<210> 136
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 136
gttgtaaata gcatacaaac atagccattc aacaat 36
<210> 137
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 137
gttgtgagta ccctataaaa gaagtacccc aacaat 36
<210> 138
<211> 37
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 138
cgttgttaga cccctaaaac acaaggtcta caacaat 37
<210> 139
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 139
gttgtaaata catctcatat tgtattccaa cacagt 36
<210> 140
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 140
gttgtcagca tccgccttgc ggtatgccac aacaat 36
<210> 141
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 141
gttgccaata ccataaaaaa cggtatctca acaatt 36
<210> 142
<211> 35
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 142
ttgtcagcac ccgtaatacg gtatgccaca acaat 35
<210> 143
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 143
gttgtcagca cccgtaatac ggtatgccac aacaat 36
<210> 144
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 144
gttgtaaata cctataaaag tgtatcccaa cacaat 36
<210> 145
<211> 37
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 145
gttgtaatta cctttataag aaaggtattc aacaata 37
<210> 146
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 146
gagttgttcg ttgcccataa aaagccattt acaaca 36
<210> 147
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 147
gttgtatctg tcctaaaaaa gaatacattc aacaat 36
<210> 148
<211> 37
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 148
agttgtaatc agtctataaa agataccatt caacaat 37
<210> 149
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 149
gttgtaatta agataaaaaa cctattatcc aacaat 36
<210> 150
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 150
gttgtaaata ggatataaaa tcaactattc aacagt 36
<210> 151
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 151
gttgttcaat ccttacaaaa aggtatctac aacaat 36
<210> 152
<211> 103
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 152
attgggactt ccggaagtaa aatatccacc tgaggatttt aggacatata atttctaata 60
aaaatgaacg gaaaaatttc cgttcatttt ttttttgttt att 103
<210> 153
<211> 105
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 153
tattgggact tccggaagta aaatatccac ctgaggattt taggacatat aatttctaat 60
aaaaatgaac ggaaaaattt ccgttcattt tttttttgtt tattg 105
<210> 154
<211> 163
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 154
gacgagaacg gagtgtggct cctgaggaaa aacgacaaac atccaacata ttttatctac 60
cagaacggaa cactctatca atatgaggaa gattgattag ttgatgtttt cataataatt 120
ttatctggaa tttgaaaaga ttccagattt tttttttatt tcg 163
<210> 155
<211> 66
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 155
gcaatcaaca agactttcat tttcaaggca aaatgcgata agaacgatgt catatcgtta 60
tgggaa 66
<210> 156
<211> 59
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 156
gatgctccga aaacgtggtt gttcggacaa caaaaaaatg aatgtttcta atgtattaa 59
<210> 157
<211> 70
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 157
gacggaaaaa taaatgagga tggtatgttt gttgaaaact tggaataatt ctgtatatac 60
caattagaat 70
<210> 158
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 158
tgttgattgc tgattcttcg ttgtttgatt tgtgttgtgc cataatctta aaatt 55
<210> 159
<211> 83
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 159
cgcaagatat aaggcaatcg gaaacggatg gacagttgat gtaatttcac atatttttaa 60
gaatttgaaa aattaatttg gta 83
<210> 160
<211> 95
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 160
ggacatttcg taaatcatat ggagatacgg agttcaagtc aattgaagag cttcctgaat 60
ttagagataa catacttata caactagatt gattg 95
<210> 161
<211> 59
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 161
atcaatacat agatgatgag aaatggagaa aaaaatttgt tcgcccaaca aacactaat 59
<210> 162
<211> 80
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 162
ctggtaatac tgtaaaatct ccgtgtatag ggcaagtaat tgtaactggg gtaattctat 60
ctactattat agttttagaa 80
<210> 163
<211> 56
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 163
cagaagtcgt tcaagttcaa ggtcaaaacg gacaaggaga cggtcgaatt attcag 56
<210> 164
<211> 66
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 164
gggagggtga cattcagaag tcgttcaagt tcaaggtcaa aacggacaag gagacggtcg 60
aattat 66
<210> 165
<211> 102
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 165
aagtgtcttc aacacattga agaaaactct cggtgcaata tatggaaagc tcgatgaaaa 60
cggaaatttt attgagaatg aatgtaataa gtaactggaa ta 102
<210> 166
<211> 98
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 166
ccgtgggagg atttggattt ggttgaagac atcagaaaaa ttttcgaaat ggaatagagg 60
gaaccggaat tttttccggt ttttctttgt cctttcga 98
<210> 167
<211> 82
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 167
cagagtaacc tttcctgata tgttgttaca catttttgta agtgttaaac aactgacgca 60
ttgatattgc cttgtctatt aa 82
<210> 168
<211> 82
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 168
caatcgcgag tttatactga aatgttgtta cactgttttt gtaagtgtta aacaaccttg 60
cacaaatgtc atctaccagt ac 82
<210> 169
<211> 78
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 169
ccgagcgacc cacaaaccta ttgtcgtacg catcatttca catgataata acaacgaata 60
ttcctgcaag catgattt 78
<210> 170
<211> 77
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 170
tatgacatta tgatattgtt gtatgcatca tttcacatgg taataacaac gaagagaaac 60
accgagcgac ccacaaa 77
<210> 171
<211> 85
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 171
acatctttta tgacattatg atattgttgt atgcatcatt tcacatggta ataacaacga 60
agagaaacac cgagcgaccc acaaa 85
<210> 172
<211> 82
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 172
gctaaaatat agtcctgtgg atgttgaata catttctttt aagtgtactt acaaccaacg 60
ctgtacacat tgctaatgga tg 82
<210> 173
<211> 83
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 173
tgctaaaata tagtcctgtg gatgttgaat acatttcttt taagtgtact tacaaccaac 60
gctgtacaca ttgctaatgg atg 83
<210> 174
<211> 87
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 174
caacaccaag gctgaggcaa agaagagggc tgatgatatg aacaaacaga atagggtcat 60
acaccagctg tctgtttatt tgtgtcc 87
<210> 175
<211> 95
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 175
aattagactg ataaacaaag aataatgaga actataatag ggaggtgtac ccccgaattt 60
aagccagtgg agaaccatac aaacctatca tatag 95
<210> 176
<211> 72
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 176
tgggtatgcg ttgtttaata cttaaaaaaa tgtatgtaca acatgtctgt ggaaagtctt 60
tctattgtat at 72
<210> 177
<211> 68
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 177
cgttgtttaa tacttaaaaa aatgtatgta caacatgtct gtggaaagtc tttctattgt 60
atatagga 68
<210> 178
<211> 118
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 178
tgggtatgcg ttgtttaata cttaaaaaaa tgtatgtaca acatgtctgt ggaaagtctt 60
tctattgtat ataggaattt tatataatta tttaattatc aatgaattat attagtat 118
<210> 179
<211> 58
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 179
ggtgggtatg cgttgtttaa tacttaaaaa aatgtatgta caacatgtct gtggaaag 58
<210> 180
<211> 73
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 180
aatgaacgag attgttggga tatacctttt ataggatttt cacaacatct gagttgtttg 60
atgttaaaaa ctt 73
<210> 181
<211> 80
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 181
gataaaaatg aacgagattg ttgggatata ccttttatag gattttcaca acatctgagt 60
tgtttgatgt taaaaacttt 80
<210> 182
<211> 75
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 182
gctaatataa agattgtact gtgttgagat acacttttag aggtatttac aacaaaatgc 60
gtgatatgga aatga 75
<210> 183
<211> 90
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 183
ataccaacat aaatacaggt cttgctgttt ctggtcggtc gtaaacacct ctaaaaggat 60
tgtttcgaca taggttactg acgcttcaag 90
<210> 184
<211> 72
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 184
aatgaagaaa taactgtgtt gagatacact tttagaggta tttacaacac catataaacc 60
tgaccatctc ct 72
<210> 185
<211> 84
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 185
aggaagatgt cagacgtttt tattgttgga atactcgttt tttacggtat ttacaactgc 60
cccgtagcgg aatcaaaata ccac 84
<210> 186
<211> 76
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 186
atgtcagacg tttttattgt tggaatactc gttttttacg gtatttacaa ctgccccgta 60
gcggaatcaa aatacc 76
<210> 187
<211> 99
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 187
aaataacaaa aattctggac gggaaaggaa gatgtcagac gtttttattg ttggaatact 60
cgttttttac ggtatttaca actgccccgt agcggaatc 99
<210> 188
<211> 96
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 188
ataacaaaaa ttctggacgg gaaaggaaga tgtcagacgt ttttattgtt ggaatactcg 60
ttttttacgg tatttacaac tgccccgtag cggaat 96
<210> 189
<211> 60
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 189
tattgcaact attacaacaa acttagcgaa tggattggca aagatatgta taacacgccg 60
<210> 190
<211> 59
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 190
attgcaacta ttacaacaaa cttagcgaat ggattggcaa agatatgtat aacacgccg 59
<210> 191
<211> 71
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 191
gtatgatgac agaagaaaca cggaagacaa tagagagcgt catagtggtt ctcggcatag 60
caatcatgct g 71
<210> 192
<211> 118
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 192
atgatgacag aagaaacacg gaagacaata gagagcgtca tagtggttct cggcatagca 60
atcatgctgg cagccgccgt ccgaataatg acgcagaaca aagcaattgt gaaatatg 118
<210> 193
<211> 57
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 193
agaaggtact gccgccttat gaccgacgag aacggagtgt ggctcctgag gaaaaac 57
<210> 194
<211> 163
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 194
gacgagaacg gagtgtggct cctgaggaaa aacgacaaac atccaacata ttttatctac 60
cagaacggaa cactctatca atatgaggaa gattgattag ttgatgtttt cataataatt 120
ttatctggaa tttgaaaaga ttccagattt tttttttatt tcg 163
<210> 195
<211> 92
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 195
tttttgttat atatttgtcc tgttaggtta aatcaccgcg cctgatgacg aagtcggtgg 60
tagaattaga ctaatattaa atatgtctca tg 92
<210> 196
<211> 82
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 196
cctattagat attccgtatt tctttaagac tgttataata caaatatact acaaatcatg 60
caatttttga tttttaacaa aa 82
<210> 197
<211> 103
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 197
tcgttgaata cgatatcgcc gaaacaattg attggagaag tacgctttgt ttcaagacat 60
ggaatacgta tggttctcct caatgggact cgaagatcaa gaa 103
<210> 198
<211> 108
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 198
atcgttgaat acgatatcgc cgaaacaatt gattggagaa gtacgctttg tttcaagaca 60
tggaatacgt atggttctcc tcaatgggac tcgaagatca agaaccag 108
<210> 199
<211> 73
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 199
gagcttttct ggcaatgtag acattaaagc tggtatcgtt gaatacgata tcgccgaaac 60
aattgattgg aga 73
<210> 200
<211> 98
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 200
tttttcattg ttctcaaatt gttggataat gttttgtgtg tttcattttt gtcattgtgt 60
caccttaact gacaaggtgg cacatttttt atgtcaat 98
<210> 201
<211> 98
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 201
ttttcattgt tctcaaattg ttggataatg ttttgtgtgt ttcatttttg tcattgtgtc 60
accttaactg acaaggtggc acatttttta tgtcaata 98
<210> 202
<211> 122
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 202
aatatatctg ctaaggtcat atttttcatt gttctcaaat tgttggataa tgttttgtgt 60
gtttcatttt tgtcattgtg tcaccttaac tgacaaggtg gcacattttt tatgtcaata 120
tg 122
<210> 203
<211> 75
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 203
acaaattttt gattatggca cacaaaaaga acataggagc agagatagta aaaacttact 60
cttttaaggt gaaga 75
<210> 204
<211> 136
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 204
ttattttata ggataataga gctaacaagc attaacaatt attaaaacga tttatattga 60
aaataaattt tgtgggaata tttattttta ctacctttgc atcgtaatac aattaaacaa 120
atttttgatt atggca 136
<210> 205
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 205
cctgttgtga atactctttt ataggtatca aacaacggaa gtggttggtc agcatggatt 60
a 61
<210> 206
<211> 25
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
target sequence
<400> 206
ggaagtggtt ggtcagcatg gatta 25
<210> 207
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 207
cctgttgtga atactctttt ataggtatca aacaactgtg aagtgacctg ggagctaact 60
g 61
<210> 208
<211> 25
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
target sequence
<400> 208
tgtgaagtga cctgggagct aactg 25
<210> 209
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 209
attgttgtag acaccttttt ataaggattg aacaacaacc cccgtctacc tgcccacagg 60
g 61
<210> 210
<211> 25
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
target sequence
<400> 210
aacccccgtc tacctgccca caggg 25
<210> 211
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 211
cttgttgtat atgtcctttt ataggtatta aacaacgtag agggagaaat ggaatccata 60
t 61
<210> 212
<211> 25
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
target sequence
<400> 212
gtagagggag aaatggaatc catat 25
<210> 213
<211> 36
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 213
cttgttgtat atgtcctttt ataggtatta aacaac 36
<210> 214
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 214
attgttgtag acaccttttt ataaggattg aacaacgcac caacgggtag atttggtggt 60
g 61
<210> 215
<211> 25
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
target sequence
<400> 215
gcaccaacgg gtagatttgg tggtg 25
<210> 216
<211> 6
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<220>
<221> MOD_RES
<222> (2)..(2)
<223> L, M, I, C, or F
<220>
<221> MOD_RES
<222> (3)..(3)
<223> Y, W, or F
<220>
<221> MOD_RES
<222> (4)..(4)
<223> K, T, C, R, W, Y, H, or V
<220>
<221> MOD_RES
<222> (5)..(5)
<223> I, L, or M
<400> 216
Pro Xaa Xaa Xaa Xaa Phe
1 5
<210> 217
<211> 5
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<220>
<221> MOD_RES
<222> (2)..(2)
<223> I, L, M, Y, T, or F
<220>
<221> MOD_RES
<222> (3)..(3)
<223> R, Q, K, E, S, or T
<220>
<221> MOD_RES
<222> (4)..(4)
<223> L, I, T, C, M, or K
<400> 217
Arg Xaa Xaa Xaa Leu
1 5
<210> 218
<211> 4
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<220>
<221> MOD_RES
<222> (2)..(2)
<223> I, L, or F
<220>
<221> MOD_RES
<222> (4)..(4)
<223> K, R, V, or E
<400> 218
Asn Xaa Tyr Xaa
1
<210> 219
<211> 10
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<220>
<221> MOD_RES
<222> (2)..(2)
<223> T, I, N, A, S, F, or V
<220>
<221> MOD_RES
<222> (3)..(3)
<223> I, V, L, or S
<220>
<221> MOD_RES
<222> (4)..(4)
<223> H, S, G, or R
<220>
<221> MOD_RES
<222> (7)..(7)
<223> D, S, or E
<220>
<221> MOD_RES
<222> (8)..(8)
<223> I, V, M, T, or N
<400> 219
Lys Xaa Xaa Xaa Phe Ala Xaa Xaa Lys Asp
1 5 10
<210> 220
<211> 4
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<220>
<221> MOD_RES
<222> (2)..(2)
<223> G, S, C, or T
<220>
<221> MOD_RES
<222> (4)..(4)
<223> N, Y, K, or S
<400> 220
Leu Xaa Asn Xaa
1
<210> 221
<211> 10
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<220>
<221> MOD_RES
<222> (2)..(2)
<223> S, P, or A
<220>
<221> MOD_RES
<222> (3)..(3)
<223> Y, S, A, P, E, Y, Q, or N
<220>
<221> MOD_RES
<222> (4)..(4)
<223> F, Y, or H
<220>
<221> MOD_RES
<222> (5)..(5)
<223> T or S
<220>
<221> MOD_RES
<222> (8)..(8)
<223> M, T, or I
<400> 221
Pro Xaa Xaa Xaa Xaa Ser Gln Xaa Asp Ser
1 5 10
<210> 222
<211> 11
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<220>
<221> MOD_RES
<222> (2)..(2)
<223> N, K, W, R, E, T, or Y
<220>
<221> MOD_RES
<222> (3)..(3)
<223> M, R, L, S, K, V, E, T, I, or D
<220>
<221> MOD_RES
<222> (6)..(6)
<223> L, R, H, P, T, K, Q, P, S, or A
<220>
<221> MOD_RES
<222> (7)..(7)
<223> G, Q, N, R, K, E, I, T, S, or C
<220>
<221> MOD_RES
<222> (10)..(10)
<223> R, W, Y, K, T, F, S, or Q
<400> 222
Lys Xaa Xaa Val Arg Xaa Xaa Gln Glu Xaa His
1 5 10
<210> 223
<211> 13
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<220>
<221> MOD_RES
<222> (1)..(1)
<223> I, K, V, or L
<220>
<221> MOD_RES
<222> (4)..(4)
<223> L or M
<220>
<221> MOD_RES
<222> (5)..(5)
<223> N, H, or P
<220>
<221> MOD_RES
<222> (6)..(6)
<223> A, S, or C
<220>
<221> MOD_RES
<222> (8)..(8)
<223> V, Y, I, F, T, N, or Y
<220>
<221> MOD_RES
<222> (10)..(10)
<223> A or S
<220>
<221> MOD_RES
<222> (11)..(11)
<223> S, A, or P
<220>
<221> MOD_RES
<222> (12)..(12)
<223> M, C, L, R, N, S, K, or L
<400> 223
Xaa Asn Gly Xaa Xaa Xaa Asp Xaa Asn Xaa Xaa Xaa Asn
1 5 10
<210> 224
<211> 9
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 224
vhtdkdddd 9
<210> 225
<211> 9
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 225
attgttgda 9
<210> 226
<211> 9
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<220>
<221> modified_base
<222> (8)..(8)
<223> a, c, t, g, unknown or other
<400> 226
hdhwdwwnv 9
<210> 227
<211> 9
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 227
ttttwtarg 9
<210> 228
<211> 5
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 228
vmmac 5
<210> 229
<211> 5
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 229
acaac 5
<210> 230
<211> 41
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<220>
<221> modified_base
<222> (18)..(18)
<223> a, c, t, g, unknown or other
<400> 230
atattgttgd akrwwyyntt ttwtargkww wwwacaacwr b 41
<210> 231
<211> 8
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 231
Asn Leu Thr Ser Ile Thr Ile Gly
1 5
<210> 232
<211> 10
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 232
Asn Tyr Arg Thr Lys Ile Arg Thr Leu Asn
1 5 10
<210> 233
<211> 9
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 233
Ile Ser Tyr Ile Glu Asn Val Glu Asn
1 5
<210> 234
<211> 9
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 234
Glu Leu Leu Ser Val Glu Gln Leu Lys
1 5
<210> 235
<211> 15
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 235
His Ile Asn Ser Met Thr Ile Asn Ile Gln Asp Phe Lys Ile Glu
1 5 10 15
<210> 236
<211> 9
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 236
Lys Glu Asn Ser Leu Gly Phe Ile Leu
1 5
<210> 237
<211> 8
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 237
Gly Asn Arg Gln Ile Lys Lys Gly
1 5
<210> 238
<211> 7
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 238
Asp Val Asn Phe Lys His Ala
1 5
<210> 239
<211> 12
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 239
Gly Tyr Ile Asn Leu Tyr Lys Tyr Leu Leu Glu His
1 5 10
<210> 240
<211> 10
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 240
Lys Glu Gln Val Leu Ser Lys Leu Leu Tyr
1 5 10
<210> 241
<211> 38
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 241
Glu Tyr Ile Tyr Val Ser Cys Val Asn Lys Leu Arg Ala Lys Tyr Val
1 5 10 15
Ser Tyr Phe Ile Leu Lys Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr
20 25 30
Asp Ile Glu Met Gly Phe
35
<210> 242
<211> 14
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 242
Asp Asp Ser Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg
1 5 10
<210> 243
<211> 16
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 243
Asn Val Gln Gln Asp Ile Asn Gly Cys Leu Lys Asn Ile Ile Asn Tyr
1 5 10 15
<210> 244
<211> 12
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 244
Ala Leu Glu Asn Leu Glu Asn Ser Asn Phe Glu Lys
1 5 10
<210> 245
<211> 10
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 245
Gln Val Leu Pro Thr Ile Lys Ser Leu Leu
1 5 10
<210> 246
<211> 8
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 246
Tyr His Lys Leu Glu Asn Gln Asn
1 5
<210> 247
<211> 10
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 247
Ala Ser Asp Lys Val Lys Glu Tyr Ile Glu
1 5 10
<210> 248
<211> 13
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 248
Thr Asn Glu Asn Asn Glu Ile Val Asp Ala Lys Tyr Thr
1 5 10
<210> 249
<211> 15
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 249
Ala Asn Phe Phe Asn Leu Met Met Lys Ser Leu His Phe Ala Ser
1 5 10 15
<210> 250
<211> 16
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 250
Leu Leu Ser Asn Asn Gly Lys Thr Gln Ile Ala Leu Val Pro Ser Glu
1 5 10 15
<210> 251
<211> 18
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 251
His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala Asn Asn Ile Lys
1 5 10 15
Tyr Ile
<210> 252
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 252
cctgttgtga atactctttt ataggtatca aacaacgaga ggtgagggac ttggggggta 60
a 61
<210> 253
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 253
gagaggtgag ggacttgggg ggtaa 25
<210> 254
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 254
cctgttgtga atactctttt ataggtatca aacaactgag aatggtgcgt cctaggtgtt 60
c 61
<210> 255
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 255
tgagaatggt gcgtcctagg tgttc 25
<210> 256
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 256
cctgttgtga atactctttt ataggtatca aacaacgcag cctgtgctga cccatgcagt 60
c 61
<210> 257
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 257
gcagcctgtg ctgacccatg cagtc 25
<210> 258
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 258
cctgttgtga atactctttt ataggtatca aacaacggaa gtggttggtc agcatggatt 60
a 61
<210> 259
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 259
ggaagtggtt ggtcagcatg gatta 25
<210> 260
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 260
cctgttgtga atactctttt ataggtatca aacaacagcc agtgttgcta gtcaagggca 60
g 61
<210> 261
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 261
agccagtgtt gctagtcaag ggcag 25
<210> 262
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 262
cctgttgtga atactctttt ataggtatca aacaacttga cattgtccac acctggaatc 60
g 61
<210> 263
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 263
ttgacattgt ccacacctgg aatcg 25
<210> 264
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 264
cctgttgtga atactctttt ataggtatca aacaacgaaa tctattgagg ctctggagag 60
a 61
<210> 265
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 265
gaaatctatt gaggctctgg agaga 25
<210> 266
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 266
cctgttgtga atactctttt ataggtatca aacaacggaa gctggatgag cctggtccat 60
g 61
<210> 267
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 267
ggaagctgga tgagcctggt ccatg 25
<210> 268
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 268
cctgttgtga atactctttt ataggtatca aacaacccca tactggggac caaggaagtg 60
t 61
<210> 269
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 269
cccatactgg ggaccaagga agtgt 25
<210> 270
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 270
cctgttgtga atactctttt ataggtatca aacaacatga tgctttgccg taacccttcg 60
t 61
<210> 271
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 271
atgatgcttt gccgtaaccc ttcgt 25
<210> 272
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 272
cctgttgtga atactctttt ataggtatca aacaacaaga gtcattgccc cactttaccc 60
t 61
<210> 273
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 273
aagagtcatt gccccacttt accct 25
<210> 274
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 274
cctgttgtga atactctttt ataggtatca aacaacgaga ggtgagggac ttggggggta 60
a 61
<210> 275
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 275
gagaggtgag ggacttgggg ggtaa 25
<210> 276
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 276
cctgttgtga atactctttt ataggtatca aacaacgtga agttctaaac ttcatattac 60
c 61
<210> 277
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 277
gtgaagttct aaacttcata ttacc 25
<210> 278
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 278
cttgttgtat atgtcctttt ataggtatta aacaacgtag agggagaaat ggaatccata 60
t 61
<210> 279
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 279
gtagagggag aaatggaatc catat 25
<210> 280
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 280
cttgttgtat atgtcctttt ataggtatta aacaacgagt cgctttaact ggccctggct 60
t 61
<210> 281
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 281
gagtcgcttt aactggccct ggctt 25
<210> 282
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 282
cttgttgtat atgtcctttt ataggtatta aacaactcca cacctggaat cggctttcag 60
c 61
<210> 283
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 283
tccacacctg gaatcggctt tcagc 25
<210> 284
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 284
cttgttgtat atgtcctttt ataggtatta aacaacaacc cccgtctacc tgcccacagg 60
g 61
<210> 285
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 285
aacccccgtc tacctgccca caggg 25
<210> 286
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 286
cttgttgtat atgtcctttt ataggtatta aacaacgtag agggagaaat ggaatccata 60
t 61
<210> 287
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 287
gtagagggag aaatggaatc catat 25
<210> 288
<211> 61
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 288
cttgttgtat atgtcctttt ataggtatta aacaacgacc catgggagca gctggtcaga 60
g 61
<210> 289
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 289
gacccatggg agcagctggt cagag 25
<210> 290
<211> 13
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 290
Glu Cys Pro Ile Thr Lys Asp Val Ile Asn Glu Tyr Lys
1 5 10
Claims (121)
- CLUST.091979의 조작된 비-자연 발생 클러스터링된 규칙적으로 산재된 짧은 회문 반복부(Clustered Regularly Interspaced Short Palindromic Repeat; CRISPR) - Cas 시스템으로서,
(a) CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산; 및
(b) 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하고,
CRISPR-연관 단백질은 SEQ ID NO: 241의 아미노산 서열을 포함하고,
CRISPR-연관 단백질은 RNA 가이드에 결합하고, 스페이서 서열에 상보적인 표적 핵산 서열을 변형시킬 수 있는, 시스템. - 제1항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4, SEQ ID NO: 10, SEQ ID NO: 12, 또는 SEQ ID NO: 14에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하는, 시스템.
- CLUST.091979의 조작된 비-자연 발생 클러스터링된 규칙적으로 산재된 짧은 회문 반복부(CRISPR) - Cas 시스템으로서,
(a) CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산; 및
(b) 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하고,
CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고,
CRISPR-연관 단백질은 RNA 가이드에 결합하고, 스페이서 서열에 상보적인 표적 핵산 서열을 변형시킬 수 있는, 시스템. - 제1항 내지 제3항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 적어도 하나의 RuvC 도메인 또는 적어도 하나의 스플릿 RuvC 도메인을 포함하는, 시스템.
- 제1항 내지 제4항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 하기 서열들 중 하나 이상을 포함하는, 시스템:
(a) PX1X2X3X4F(SEQ ID NO: 216)(여기서, X1은 L 또는 M 또는 I 또는 C 또는 F이고, X2는 Y 또는 W 또는 F이고, X3는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X4는 I 또는 L 또는 M임);
(b) RX1X2X3L(SEQ ID NO: 217)(여기서, X1은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X2는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X3는 L 또는 I 또는 T 또는 C 또는 M 또는 K임);
(c) NX1YX2(SEQ ID NO: 218)(여기서, X1은 I 또는 L 또는 F이고, X2는 K 또는 R 또는 V 또는 E임);
(d) KX1X2X3FAX4X5KD(SEQ ID NO: 219)(여기서, X1은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X2는 I 또는 V 또는 L 또는 S이고, X3는 H 또는 S 또는 G 또는 R이고, X4는 D 또는 S 또는 E이고, X5는 I 또는 V 또는 M 또는 T 또는 N임);
(e) LX1NX2(SEQ ID NO: 220)(여기서, X1은 G 또는 S 또는 C 또는 T이고, X2는 N 또는 Y 또는 K 또는 S임);
(f) PX1X2X3X4SQX5DS(SEQ ID NO: 221)(여기서, X1은 S 또는 P 또는 A이고, X2는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X3는 F 또는 Y 또는 H이고, X4는 T 또는 S이고, X5는 M 또는 T 또는 I임);
(g) KX1X2VRX3X4QEX5H(SEQ ID NO: 222)(여기서, X1은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X2는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X3는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X4는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X5는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및
(h) X1NGX2X3X4DX5NX6X7X8N(SEQ ID NO: 223)(여기서, X1은 I 또는 K 또는 V 또는 L이고, X2는 L 또는 M이고, X3는 N 또는 H 또는 P이고, X4는 A 또는 S 또는 C이고, X5는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X6는 A 또는 S이고, X7은 S 또는 A 또는 P이고, X8은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임). - 제1항 내지 제5항 중 어느 한 항에 있어서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
- 제1항 내지 제6항 중 어느 한 항에 있어서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
- 제1항 내지 제7항 중 어느 한 항에 있어서, 직접 반복부 서열은 하기 서열들 중 하나 이상을 포함하는, 시스템:
(a) X1X2TX3X4X5X6X7X8(SEQ ID NO: 224)(여기서, X1은 A 또는 C 또는 G이고, X2는 T 또는 C 또는 A이고, X3는 T 또는 G 또는 A이고, X4는 T 또는 G이고, X5는 T 또는 G 또는 A이고, X6는 G 또는 T 또는 A이고, X7은 T 또는 G 또는 A이고, X8은 A 또는 G 또는 T임);
(b) X1X2X3X4X5X6X7X8X9(SEQ ID NO: 226)(여기서, X1은 T 또는 C 또는 A이고, X2는 T 또는 A 또는 G이고, X3는 T 또는 C 또는 A이고, X4는 T 또는 A이고, X5는 T 또는 A 또는 G이고, X6는 T 또는 A이고, X7은 A 또는 T이고, X8은 A 또는 G 또는 C 또는 T이고, X9은 G 또는 A 또는 C임); 및
(c) X1X2X3AC(SEQ ID NO: 228)(여기서, X1은 A 또는 C 또는 G이고, X2는 C 또는 A이고, X3는 A 또는 C임). - 제1항 내지 제8항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
- 제1항 내지 제9항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
- 제1항 내지 제10항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 시스템.
- 제1항 내지 제11항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 시스템.
- 제1항 내지 제12항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
- 제1항 내지 제13항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
- 제1항 내지 제14항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 시스템.
- 제1항 내지 제15항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 시스템.
- 제1항 내지 제16항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
- 제1항 내지 제17항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
- 제1항 내지 제18항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 시스템.
- 제1항 내지 제19항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 시스템.
- 제1항 내지 제20항 중 어느 한 항에 있어서, RNA 가이드의 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함하는, 시스템.
- 제1항 내지 제21항 중 어느 한 항에 있어서, RNA 가이드의 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함하는, 시스템.
- 제1항 내지 제22항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 촉매 잔기(예를 들어, 아스파트산 또는 글루탐산)를 포함하는, 시스템.
- 제1항 내지 제23항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 표적 핵산을 절단하는, 시스템.
- 제1항 내지 제24항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 펩티드 태그, 형광 단백질, 염기-편집 도메인, DNA 메틸화 도메인, 히스톤 잔기 변형 도메인, 국재화 인자, 전사 조절 인자, 광-개폐 제어 인자, 화학적 유도성 인자, 또는 염색질 시각화 인자를 추가로 포함하는, 시스템.
- 제1항 내지 제25항 중 어느 한 항에 있어서, CRISPR-연관 단백질을 인코딩하는 핵산은 세포에서 발현을 위해 코돈-최적화되는, 시스템.
- 제1항 내지 제26항 중 어느 한 항에 있어서, CRISPR-연관 단백질을 인코딩하는 핵산은 프로모터에 작동 가능하게 연결되는, 시스템.
- 제1항 내지 제27항 중 어느 한 항에 있어서, CRISPR-연관 단백질을 인코딩하는 핵산은 벡터에 있는, 시스템.
- 제28항에 있어서, 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 파지 벡터, 아데노바이러스 벡터, 아데노-연관 벡터, 또는 단순 포진 벡터를 포함하는, 시스템.
- 제1항 내지 제29항 중 어느 한 항에 있어서, 표적 핵산은 DNA 분자인, 시스템.
- 제1항 내지 제30항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 비-특이적 뉴클레아제 활성을 포함하는, 시스템.
- 제1항 내지 제31항 중 어느 한 항에 있어서, CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으키는, 시스템.
- 제32항에 있어서, 표적 핵산의 변형은 이중-가닥 절단 사건인, 시스템.
- 제32항에 있어서, 표적 핵산의 변형은 단일-가닥 절단 사건인, 시스템.
- 제1항 내지 제34항 중 어느 한 항에 있어서, 표적 핵산의 변형은 삽입 사건을 일으키는, 시스템.
- 제1항 내지 제35항 중 어느 한 항에 있어서, 표적 핵산의 변형은 결실 사건을 일으키는, 시스템.
- 제1항 내지 제36항 중 어느 한 항에 있어서, 표적 핵산의 변형은 세포 독성 또는 세포 사멸을 일으키는, 시스템.
- 제1항 내지 제37항 중 어느 한 항에 있어서, 도너 주형 핵산을 추가로 포함하는, 시스템.
- 제38항에 있어서, 도너 주형 핵산은 DNA 분자인, 시스템.
- 제38항에 있어서, 도너 주형 핵산은 RNA 분자인, 시스템.
- 제1항 내지 제40항 중 어느 한 항에 있어서, RNA 가이드는 선택적으로 tracrRNA를 포함하는, 시스템.
- 제1항 내지 제41항 중 어느 한 항에 있어서, 시스템은 tracrRNA를 포함하지 않는, 시스템.
- 제1항 내지 제42항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 자가-가공인, 시스템.
- 제1항 내지 제43항 중 어느 한 항에 있어서, 시스템은 나노입자, 리포좀, 엑소좀, 미세소포체, 또는 유전자-총을 포함하는 전달 조성물에 존재하는, 시스템.
- 제1항 내지 제 44항 중 어느 한 항에 있어서, 세포 내에 있는, 시스템.
- 제45항에 있어서, 세포는 진핵 세포인, 시스템.
- 제45항에 있어서, 세포는 원핵 세포인, 시스템.
- 세포로서, 세포는
(a) CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산; 및
(b) 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하고,
CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하는, 세포. - 제48항에 있어서, CRISPR-연관 단백질은 하기 서열들 중 하나 이상을 포함하는, 세포:
(a) PX1X2X3X4F(SEQ ID NO: 216)(여기서, X1은 L 또는 M 또는 I 또는 C 또는 F이고, X2는 Y 또는 W 또는 F이고, X3는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X4는 I 또는 L 또는 M임);
(b) RX1X2X3L(SEQ ID NO: 217)(여기서, X1은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X2는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X3는 L 또는 I 또는 T 또는 C 또는 M 또는 K임);
(c) NX1YX2(SEQ ID NO: 218)(여기서, X1은 I 또는 L 또는 F이고, X2는 K 또는 R 또는 V 또는 E임);
(d) KX1X2X3FAX4X5KD(SEQ ID NO: 219)(여기서, X1은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X2는 I 또는 V 또는 L 또는 S이고, X3는 H 또는 S 또는 G 또는 R이고, X4는 D 또는 S 또는 E이고, X5는 I 또는 V 또는 M 또는 T 또는 N임);
(e) LX1NX2(SEQ ID NO: 220)(여기서, X1은 G 또는 S 또는 C 또는 T이고, X2는 N 또는 Y 또는 K 또는 S임);
(f) PX1X2X3X4SQX5DS(SEQ ID NO: 221)(여기서, X1은 S 또는 P 또는 A이고, X2는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X3는 F 또는 Y 또는 H이고, X4는 T 또는 S이고, X5는 M 또는 T 또는 I임);
(g) KX1X2VRX3X4QEX5H(SEQ ID NO: 222)(여기서, X1은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X2는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X3는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X4는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X5는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및
(h) X1NGX2X3X4DX5NX6X7X8N(SEQ ID NO: 223)(여기서, X1은 I 또는 K 또는 V 또는 L이고, X2는 L 또는 M이고, X3는 N 또는 H 또는 P이고, X4는 A 또는 S 또는 C이고, X5는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X6는 A 또는 S이고, X7은 S 또는 A 또는 P이고, X8은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임). - 제1항 내지 제49항 중 어느 한 항에 있어서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
- 제1항 내지 제50항 중 어느 한 항에 있어서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
- 제1항 내지 제51항 중 어느 한 항에 있어서, 직접 반복부 서열은 하기 서열들 중 하나 이상을 포함하는, 세포:
(a) X1X2TX3X4X5X6X7X8(SEQ ID NO: 224)(여기서, X1은 A 또는 C 또는 G이고, X2는 T 또는 C 또는 A이고, X3는 T 또는 G 또는 A이고, X4는 T 또는 G이고, X5는 T 또는 G 또는 A이고, X6는 G 또는 T 또는 A이고, X7은 T 또는 G 또는 A이고, X8은 A 또는 G 또는 T임);
(b) X1X2X3X4X5X6X7X8X9(SEQ ID NO: 226)(여기서, X1은 T 또는 C 또는 A이고, X2는 T 또는 A 또는 G이고, X3는 T 또는 C 또는 A이고, X4는 T 또는 A이고, X5는 T 또는 A 또는 G이고, X6는 T 또는 A이고, X7은 A 또는 T이고, X8은 A 또는 G 또는 C 또는 T이고, X9은 G 또는 A 또는 C임); 및
(c) X1X2X3AC(SEQ ID NO: 228)(여기서, X1은 A 또는 C 또는 G이고, X2는 C 또는 A이고, X3는 A 또는 C임). - 제1항 내지 제52항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
- 제1항 내지 제53항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
- 제1항 내지 제54항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 세포.
- 제1항 내지 제55항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 세포.
- 제1항 내지 제56항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
- 제1항 내지 제57항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
- 제1항 내지 제58항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 세포.
- 제1항 내지 제59항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 세포.
- 제1항 내지 제60항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
- 제1항 내지 제61항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
- 제1항 내지 제62항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 세포.
- 제1항 내지 제63항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 세포.
- 제1항 내지 제64항 중 어느 한 항에 있어서, 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함하는, 세포.
- 제1항 내지 제65항 중 어느 한 항에 있어서, 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함하는, 세포.
- 제1항 내지 제66항 중 어느 한 항에 있어서, 세포는 tracrRNA를 추가로 포함하는, 세포.
- 제1항 내지 제67항 중 어느 한 항에 있어서, 시스템은 tracrRNA를 포함하지 않는, 세포.
- 제1항 내지 제68항 중 어느 한 항에 있어서, 진핵 세포, 예를 들어, 포유류 세포, 예를 들어, 인간 세포인, 세포.
- 제1항 내지 제69항 중 어느 한 항에 있어서, 원핵 세포인, 세포.
- 세포에서 표적 핵산에 제1항 내지 제70항 중 어느 한 항의 시스템을 결합하는 방법으로서,
(a) 시스템을 제공하는 단계; 및
(b) 시스템을 세포에 전달하는 단계를 포함하고,
세포는 표적 핵산을 포함하고, CRISPR-연관-단백질은 RNA 가이드에 결합하고, 스페이서 서열은 표적 핵산에 결합하는, 방법. - 제71항에 있어서, 세포는 진핵 세포, 예를 들어, 포유류 세포, 예를 들어, 인간 세포인, 방법.
- 표적 핵산을 변형시키는 방법으로서, 상기 방법은
(a) CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산; 및
(b) 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드
를 포함하는 조작된 비-자연 발생 CRISPR-Cas 시스템을 표적 핵산에 전달하는 단계를 포함하고,
CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고,
CRISPR-연관 단백질은 RNA 가이드에 결합할 수 있고,
CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으키는, 방법. - 제73항에 있어서, CRISPR-연관 단백질은 하기 서열들 중 하나 이상을 포함하는, 방법:
(a) PX1X2X3X4F(SEQ ID NO: 216)(여기서, X1은 L 또는 M 또는 I 또는 C 또는 F이고, X2는 Y 또는 W 또는 F이고, X3는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X4는 I 또는 L 또는 M임);
(b) RX1X2X3L(SEQ ID NO: 217)(여기서, X1은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X2는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X3는 L 또는 I 또는 T 또는 C 또는 M 또는 K임);
(c) NX1YX2(SEQ ID NO: 218)(여기서, X1은 I 또는 L 또는 F이고, X2는 K 또는 R 또는 V 또는 E임);
(d) KX1X2X3FAX4X5KD(SEQ ID NO: 219)(여기서, X1은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X2는 I 또는 V 또는 L 또는 S이고, X3는 H 또는 S 또는 G 또는 R이고, X4는 D 또는 S 또는 E이고, X5는 I 또는 V 또는 M 또는 T 또는 N임);
(e) LX1NX2(SEQ ID NO: 220)(여기서, X1은 G 또는 S 또는 C 또는 T이고, X2는 N 또는 Y 또는 K 또는 S임);
(f) PX1X2X3X4SQX5DS(SEQ ID NO: 221)(여기서, X1은 S 또는 P 또는 A이고, X2는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X3는 F 또는 Y 또는 H이고, X4는 T 또는 S이고, X5는 M 또는 T 또는 I임);
(g) KX1X2VRX3X4QEX5H(SEQ ID NO: 222)(여기서, X1은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X2는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X3는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X4는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X5는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및
(h) X1NGX2X3X4DX5NX6X7X8N(SEQ ID NO: 223)(여기서, X1은 I 또는 K 또는 V 또는 L이고, X2는 L 또는 M이고, X3는 N 또는 H 또는 P이고, X4는 A 또는 S 또는 C이고, X5는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X6는 A 또는 S이고, X7은 S 또는 A 또는 P이고, X8은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임). - 제1항 내지 제74항 중 어느 한 항에 있어서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
- 제1항 내지 제75항 중 어느 한 항에 있어서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
- 제1항 내지 제76항 중 어느 한 항에 있어서, 직접 반복부 서열은 하기 서열들 중 하나 이상을 포함하는, 방법:
(a) X1X2TX3X4X5X6X7X8(SEQ ID NO: 224)(여기서, X1은 A 또는 C 또는 G이고, X2는 T 또는 C 또는 A이고, X3는 T 또는 G 또는 A이고, X4는 T 또는 G이고, X5는 T 또는 G 또는 A이고, X6는 G 또는 T 또는 A이고, X7은 T 또는 G 또는 A이고, X8은 A 또는 G 또는 T임);
(b) X1X2X3X4X5X6X7X8X9(SEQ ID NO: 226)(여기서, X1은 T 또는 C 또는 A이고, X2는 T 또는 A 또는 G이고, X3는 T 또는 C 또는 A이고, X4는 T 또는 A이고, X5는 T 또는 A 또는 G이고, X6는 T 또는 A이고, X7은 A 또는 T이고, X8은 A 또는 G 또는 C 또는 T이고, X9은 G 또는 A 또는 C임); 및
(c) X1X2X3AC(SEQ ID NO: 228)(여기서, X1은 A 또는 C 또는 G이고, X2는 C 또는 A이고, X3는 A 또는 C임). - 제1항 내지 제77항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
- 제1항 내지 제78항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
- 제1항 내지 제79항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
- 제1항 내지 제80항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
- 제1항 내지 제81항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
- 제1항 내지 제82항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
- 제1항 내지 제83항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
- 제1항 내지 제84항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
- 제1항 내지 제85항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
- 제1항 내지 제86항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
- 제1항 내지 제87항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
- 제1항 내지 제88항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
- 제1항 내지 제89항 중 어느 한 항에 있어서, 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함하는, 방법.
- 제1항 내지 제90항 중 어느 한 항에 있어서, 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함하는, 방법.
- 제1항 내지 제91항 중 어느 한 항에 있어서, 시스템은 tracrRNA를 추가로 포함하는, 방법.
- 제1항 내지 제92항 중 어느 한 항에 있어서, 시스템은 tracrRNA를 포함하지 않는, 방법.
- 제1항 내지 제93항 중 어느 한 항에 있어서, 표적 핵산은 DNA 분자인, 방법.
- 제1항 내지 제94항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 비-특이적 뉴클레아제 활성을 포함하는, 방법.
- 제1항 내지 제95항 중 어느 한 항에 있어서, 표적 핵산의 변형은 이중-가닥 절단 사건인, 방법.
- 제1항 내지 제96항 중 어느 한 항에 있어서, 표적 핵산의 변형은 단일-가닥 절단 사건인, 방법.
- 제1항 내지 제97항 중 어느 한 항에 있어서, 표적 핵산의 변형은 삽입 사건을 일으키는, 방법.
- 제1항 내지 제98항 중 어느 한 항에 있어서, 표적 핵산의 변형은 결실 사건을 일으키는, 방법.
- 제1항 내지 제99항 중 어느 한 항에 있어서, 표적 핵산의 변형은 세포 독성 또는 세포 사멸을 일으키는, 방법.
- 표적 핵산을 편집하는 방법으로서, 제1항 내지 제100항 중 어느 한 항의 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법.
- 표적 핵산의 발현을 변형시키는 방법으로서, 제1항 내지 제101항 중 어느 한 항의 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법.
- 표적 핵산의 부위에서 페이로드 핵산의 삽입을 표적화하는 방법으로서, 제1항 내지 제102항 중 어느 한 항의 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법.
- 표적 핵산에서의 부위로부터 페이로드 핵산의 절제를 표적화하는 방법으로서, 제1항 내지 제103항 중 어느 한 항의 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법.
- DNA 표적 핵산의 인식 시 단일-가닥 DNA를 비-특이적으로 분해하는 방법으로서, 제1항 내지 제104항 중 어느 한 항의 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법.
- 샘플에서 표적 핵산을 검출하는 방법으로서,
(a) 샘플을 제1항 내지 제105항 중 어느 한 항의 시스템 및 표지된 리포터 핵산과 접촉시키는 단계로서, 표적 핵산에 대한 스페이서 서열의 혼성화가 표지된 리포터 핵산의 절단을 일으키는 단계; 및
(b) 표지된 리포터 핵산의 절단에 의해 생성된 검출 가능한 신호를 측정함으로써 샘플에서 표적 핵산의 존재를 검출하는 단계를 포함하는, 방법. - (a) 표적 핵산의 표적화 및 편집;
(b) 핵산의 인식 시 단일-가닥 핵산의 비-특이적 분해;
(c) 이중-가닥 표적의 스페이서 상보적 가닥의 인식 시 이중-가닥 표적의 비-스페이서 상보적 가닥의 표적화 및 닉킹;
(d) 이중-가닥 표적 핵산의 표적화 및 절단;
(e) 샘플 내 표적 핵산의 검출;
(f) 이중-가닥 핵산의 특이적 편집;
(g) 이중-가닥 핵산의 염기 편집;
(h) 세포에서 유전자형-특이적 또는 전사-상태-특이적 세포 사멸 또는 휴면 유도;
(i) 이중-가닥 핵산 표적 내 인델 형성;
(j) 이중-가닥 핵산 표적 내 서열 삽입; 또는
(k) 이중-가닥 핵산 표적 내 서열 결실 또는 역위
의 시험관내 또는 생체외 방법에서 제1항 내지 제106항 중 어느 한 항의 시스템의 용도. - 포유류 세포에서 표적 핵산으로 삽입 또는 결실을 도입하는 방법으로서,
(a) CRISPR-연관 단백질을 인코딩하는 핵산 서열; 및
(b) 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드(또는 RNA 가이드를 인코딩하는 핵산)의 형질감염을 포함하고,
CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고,
CRISPR-연관 단백질은 RNA 가이드에 결합할 수 있고;
CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으키는, 방법. - 제108항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하는, 방법.
- 제1항 내지 제109항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하는, 방법.
- 제1항 내지 제110항 중 어느 한 항에 있어서, 직접 반복부는 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
- 제1항 내지 제111항 중 어느 한 항에 있어서, 직접 반복부는 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
- 제1항 내지 제112항 중 어느 한 항에 있어서, 표적 핵산은 PAM 서열에 인접하고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
- 제108항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하는, 방법.
- 제1항 내지 제114항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하는, 방법.
- 제1항 내지 제115항 중 어느 한 항에 있어서, 직접 반복부는 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
- 제1항 내지 제116항 중 어느 한 항에 있어서, 직접 반복부는 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
- 제1항 내지 제117항 중 어느 한 항에 있어서, 표적 핵산은 PAM 서열에 인접하고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
- 제1항 내지 제118항 중 어느 한 항에 있어서, 형질감염은 일시적 형질감염인, 방법.
- 제1항 내지 제119항 중 어느 한 항에 있어서, 세포는 인간 세포인, 방법.
- (a) CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산, 및
(b) 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드
를 포함하는, 조성물로서,
CRISPR-연관 단백질은 하기 아미노산 서열들
(i) PX1X2X3X4F(SEQ ID NO: 216)(여기서, X1은 L 또는 M 또는 I 또는 C 또는 F이고, X2는 Y 또는 W 또는 F이고, X3는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X4는 I 또는 L 또는 M임);
(ii) RX1X2X3L(SEQ ID NO: 217)(여기서, X1은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X2는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X3는 L 또는 I 또는 T 또는 C 또는 M 또는 K임);
(iii) NX1YX2(SEQ ID NO: 218)(여기서, X1은 I 또는 L 또는 F이고, X2는 K 또는 R 또는 V 또는 E임);
(iv) KX1X2X3FAX4X5KD(SEQ ID NO: 219)(여기서, X1은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X2는 I 또는 V 또는 L 또는 S이고, X3는 H 또는 S 또는 G 또는 R이고, X4는 D 또는 S 또는 E이고, X5는 I 또는 V 또는 M 또는 T 또는 N임);
(v) LX1NX2(SEQ ID NO: 220)(여기서, X1은 G 또는 S 또는 C 또는 T이고, X2는 N 또는 Y 또는 K 또는 S임);
(vi) PX1X2X3X4SQX5DS(SEQ ID NO: 221)(여기서, X1은 S 또는 P 또는 A이고, X2는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X3는 F 또는 Y 또는 H이고, X4는 T 또는 S이고, X5는 M 또는 T 또는 I임);
(vii) KX1X2VRX3X4QEX5H(SEQ ID NO: 222)(여기서, X1은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X2는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X3는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X4는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X5는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임);
(viii) X1NGX2X3X4DX5NX6X7X8N(SEQ ID NO: 223)(여기서, X1은 I 또는 K 또는 V 또는 L이고, X2는 L 또는 M이고, X3는 N 또는 H 또는 P이고, X4는 A 또는 S 또는 C이고, X5는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X6는 A 또는 S이고, X7은 S 또는 A 또는 P이고, X8은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임) 중 하나 이상을 포함하고,
CRISPR-연관 단백질은 RNA 가이드에 결합하고, 스페이서는 표적 핵산에 결합하는, 조성물.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962897859P | 2019-09-09 | 2019-09-09 | |
US62/897,859 | 2019-09-09 | ||
PCT/US2020/049923 WO2021050534A1 (en) | 2019-09-09 | 2020-09-09 | Novel crispr dna targeting enzymes and systems |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220054434A true KR20220054434A (ko) | 2022-05-02 |
Family
ID=74866391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227011364A KR20220054434A (ko) | 2019-09-09 | 2020-09-09 | 신규한 crispr dna 표적화 효소 및 시스템 |
Country Status (11)
Country | Link |
---|---|
US (5) | US20220282308A1 (ko) |
EP (1) | EP4028047A4 (ko) |
JP (1) | JP2022547524A (ko) |
KR (1) | KR20220054434A (ko) |
CN (1) | CN114340657A (ko) |
AU (1) | AU2020347147A1 (ko) |
CA (1) | CA3150454A1 (ko) |
IL (1) | IL291095A (ko) |
MX (1) | MX2022002872A (ko) |
WO (1) | WO2021050534A1 (ko) |
ZA (1) | ZA202202628B (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4028047A4 (en) | 2019-09-09 | 2023-07-26 | Arbor Biotechnologies, Inc. | NOVEL ENZYMES AND SYSTEMS TARGETING CRISPR DNA |
CA3158403A1 (en) * | 2019-12-23 | 2021-07-01 | Jennifer A. Doudna | Crispr-cas effector polypeptides and methods of use thereof |
CA3210992A1 (en) | 2021-03-09 | 2022-09-15 | Shaorong Chong | Compositions comprising a variant polypeptide and uses thereof |
US20230023791A1 (en) | 2021-06-01 | 2023-01-26 | Arbor Biotechnologies, Inc. | Gene editing systems comprising a crispr nuclease and uses thereof |
WO2023250384A2 (en) * | 2022-06-22 | 2023-12-28 | The Regents Of The University Of California | Crispr-cas effector polypeptides and methods of use thereof |
WO2024020557A1 (en) * | 2022-07-22 | 2024-01-25 | Arbor Biotechnologies, Inc. | Compositions comprising a variant nuclease and uses thereof |
WO2024020567A1 (en) * | 2022-07-22 | 2024-01-25 | Arbor Biotechnologies, Inc. | Compositions comprising a variant polypeptide and uses thereof |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040052799A1 (en) * | 1996-11-15 | 2004-03-18 | Astra Aktiebolag | Nucleic acid and amino acid sequences relating to Helicobacter pylori for diagnostics and therapeutics |
US20040216190A1 (en) * | 2003-04-28 | 2004-10-28 | Kovalic David K. | Nucleic acid molecules and other molecules associated with plants and uses thereof for plant improvement |
US8703147B2 (en) * | 2007-11-05 | 2014-04-22 | The Walter And Eliza Hall Institute Of Medical Research | Methods and compositions for treating and preventing malaria (2) |
EP2550529B1 (en) * | 2010-03-23 | 2021-11-17 | Iogenetics, LLC. | Bioinformatic processes for determination of peptide binding |
US9662379B2 (en) * | 2011-12-02 | 2017-05-30 | Rhode Island Hospital | Vaccine for falciparum malaria |
EP4159856A1 (en) * | 2015-06-18 | 2023-04-05 | The Broad Institute, Inc. | Novel crispr enzymes and systems |
US20170211142A1 (en) * | 2015-10-22 | 2017-07-27 | The Broad Institute, Inc. | Novel crispr enzymes and systems |
AU2017257274B2 (en) * | 2016-04-19 | 2023-07-13 | Massachusetts Institute Of Technology | Novel CRISPR enzymes and systems |
US10125246B2 (en) * | 2016-06-24 | 2018-11-13 | King Fahd University Of Petroleum And Minerals | Low density polyethylene (LDPE)-asphaltene composition and method of preparation |
WO2018071672A1 (en) * | 2016-10-12 | 2018-04-19 | The Regents Of The University Of Colorado | Novel engineered and chimeric nucleases |
US11168322B2 (en) * | 2017-06-30 | 2021-11-09 | Arbor Biotechnologies, Inc. | CRISPR RNA targeting enzymes and systems and uses thereof |
EP4028047A4 (en) | 2019-09-09 | 2023-07-26 | Arbor Biotechnologies, Inc. | NOVEL ENZYMES AND SYSTEMS TARGETING CRISPR DNA |
-
2020
- 2020-09-09 EP EP20863249.7A patent/EP4028047A4/en active Pending
- 2020-09-09 US US17/641,523 patent/US20220282308A1/en active Pending
- 2020-09-09 MX MX2022002872A patent/MX2022002872A/es unknown
- 2020-09-09 CN CN202080062919.7A patent/CN114340657A/zh active Pending
- 2020-09-09 AU AU2020347147A patent/AU2020347147A1/en active Pending
- 2020-09-09 KR KR1020227011364A patent/KR20220054434A/ko unknown
- 2020-09-09 WO PCT/US2020/049923 patent/WO2021050534A1/en active Application Filing
- 2020-09-09 CA CA3150454A patent/CA3150454A1/en active Pending
- 2020-09-09 JP JP2022515511A patent/JP2022547524A/ja active Pending
-
2021
- 2021-10-19 US US17/505,578 patent/US11453867B2/en active Active
-
2022
- 2022-03-03 IL IL291095A patent/IL291095A/en unknown
- 2022-03-03 ZA ZA2022/02628A patent/ZA202202628B/en unknown
- 2022-08-17 US US17/820,444 patent/US11795442B2/en active Active
- 2022-12-28 US US18/147,408 patent/US11976308B2/en active Active
-
2023
- 2023-09-12 US US18/465,755 patent/US20240101990A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230212542A1 (en) | 2023-07-06 |
EP4028047A4 (en) | 2023-07-26 |
CN114340657A (zh) | 2022-04-12 |
US11453867B2 (en) | 2022-09-27 |
EP4028047A1 (en) | 2022-07-20 |
ZA202202628B (en) | 2023-12-20 |
WO2021050534A1 (en) | 2021-03-18 |
JP2022547524A (ja) | 2022-11-14 |
US20220282308A1 (en) | 2022-09-08 |
US20230057102A1 (en) | 2023-02-23 |
AU2020347147A1 (en) | 2022-03-03 |
US20220033793A1 (en) | 2022-02-03 |
US11795442B2 (en) | 2023-10-24 |
MX2022002872A (es) | 2022-08-04 |
IL291095A (en) | 2022-05-01 |
US11976308B2 (en) | 2024-05-07 |
US20240101990A1 (en) | 2024-03-28 |
CA3150454A1 (en) | 2021-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10808245B2 (en) | CRISPR DNA targeting enzymes and systems | |
KR20220054434A (ko) | 신규한 crispr dna 표적화 효소 및 시스템 | |
CA3169710A1 (en) | Type vi-e and type vi-f crispr-cas system and uses thereof | |
WO2019006471A2 (en) | NOVEL CRISPR RNA TARGETING ENZYMES, SYSTEMS AND USES THEREOF | |
US20220372456A1 (en) | Novel crispr dna targeting enzymes and systems | |
CN114269912A (zh) | 新型crispr dna靶向酶及*** | |
US20220282283A1 (en) | Novel crispr dna targeting enzymes and systems | |
US20230016656A1 (en) | Novel crispr dna targeting enzymes and systems | |
WO2020180699A1 (en) | Novel crispr dna targeting enzymes and systems |