KR20220054434A

KR20220054434A - 신규한 crispr dna 표적화 효소 및 시스템

Info

Publication number: KR20220054434A
Application number: KR1020227011364A
Authority: KR
Inventors: 데이비드 에이. 스콧; 데이비드 알. 쳉; 윈스톤 엑스. 얀; 티아 엠. 디토마소
Original assignee: 아버 바이오테크놀로지스, 인크.
Priority date: 2019-09-09
Filing date: 2020-09-09
Publication date: 2022-05-02
Also published as: US20230212542A1; EP4028047A4; CN114340657A; US11453867B2; EP4028047A1; ZA202202628B; WO2021050534A1; JP2022547524A; US20220282308A1; US20230057102A1; AU2020347147A1; US20220033793A1; US11795442B2; MX2022002872A; IL291095A; US11976308B2; US20240101990A1; CA3150454A1

Abstract

본 개시는 표적화된 방식으로 핵산의 조작을 위한 신규한 시스템, 방법, 및 조성물을 기술한다. 본 개시는 핵산의 표적화된 변형을 위한 비-자연 발생의 조작된 CRISPR 시스템, 구성 요소, 및 방법을 기술한다. 각 시스템은 표적 핵산과 함께 하나 이상의 단백질 구성 요소 및 하나 이상의 핵산 구성 요소를 포함한다.

Description

신규한 CRISPR DNA 표적화 효소 및 시스템

관련 출원

본 출원은 2019년 9월 9일에 출원된 미국 가출원 제62/897,859호의 우선권을 주장하고, 상기 출원의 전체 내용은 본원에 참조로 포함된다.

서열 목록

본 출원은 ASCII 포맷으로 전자 제출된 서열 목록을 포함하며 그 전체가 본원에 참조로 포함된다. 2020년 9월 9일자로 만들어진 상기 ASCII 사본은 A2186-7028WO_SL.txt로 명명되며 그 크기가 475,511 바이트이다.

발명의 분야

본 개시는 신규한 클러스터링되고 규칙적으로 산재된 짧은 회문 반복부(Clustered Regularly Interspaced Short Palindromic Repeat; CRISPR) 및 CRISPR-연관(Cas) 유전자를 사용한 게놈 편집 및 유전자 발현 조절을 위한 시스템 및 방법에 관한 것이다.

최근 게놈 시퀀싱 기술 및 분석의 진보는 원핵 생합성 경로에서 인간 병리에 이르기까지 수많은 다양한 자연 영역에서 생물학적 활성의 유전적 기초에 대한 중요한 통찰력을 제공했다. 제공된 방대한 양의 정보를 충분히 이해하고 평가하기 위해서는 게놈 및 에피게놈 조작을 위한 서열 기술의 규모, 효능 및 용이성에서 등가의 증가가 요구된다. 이러한 신규한 기술은 생명공학, 농업 및 인간 치료제를 포함한 수많은 영역에서 신규한 적용의 개발을 가속화할 것이다.

총괄하여 CRISPR-Cas 또는 CRISPR/Cas 시스템으로 알려져 있는 클러스터링된 규칙적으로 산재된 짧은 회문 반복부(CRISPR) 및 CRISPR-연관(Cas) 유전자는 외래 유전 요소에 대항하여 특정 종을 방어하는 고세균 및 세균에서 적응 면역 시스템이다. CRISPR-Cas 시스템은 매우 다양한 그룹의 단백질 이펙터, 비-코딩 요소 및 유전자좌 구조를 포함하며, 이들의 일부 예는 중요한 생명공학적 진보를 야기하도록 조작되고 구성되었다.

숙주 방어에 관여하는 시스템의 구성 요소는 핵산을 변형시킬 수 있는 하나 이상의 이펙터 단백질 및 이펙터 단백질(들)을 파지 핵산 상의 특정 서열로 표적화하는 역할을 하는 RNA 가이드 요소를 포함한다. RNA 가이드는 CRISPR RNA(crRNA)로 구성되며, 이펙터 단백질(들)에 의해 표적화된 핵산 조작을 가능하게 하기 위해 추가적인 트랜스-활성화 RNA(tracrRNA)가 요구될 수 있다. crRNA는 crRNA에 대한 단백질 결합을 담당하는 직접 반복부 및 요망되는 핵산 표적 서열에 상보적인 스페이서 서열로 이루어진다. CRISPR 시스템은 crRNA의 스페이서 서열을 변형시킴으로써 대체 DNA 또는 RNA 표적을 표적화하도록 재프로그래밍될 수 있다.

CRISPR-Cas 시스템은 광범위하게 두 가지 클래스로 분류될 수 있다: 클래스 1 시스템은 함께 crRNA 주위에 복합체를 형성하는 다중 이펙터 단백질로 구성되고, 클래스 2 시스템은 RNA 가이드와 표적 핵산 기질로 복합되는 하나의 이펙터 단백질로 이루어진다. 클래스 2 시스템의 단일-서브유닛 이펙터 조성물은 조작 및 적용 번역을 위한 더 간단한 구성 요소 세트를 제공하며, 이에 따라 지금까지 프로그래밍 가능한 이펙터의 중요한 소스였다. 그럼에도 불구하고, 이들의 고유한 성질을 통해 신규한 적용을 가능하게 하는, 더 작은 이펙터 및/또는 고유한 PAM 서열 요건을 갖는 이펙터와 같이, 현재의 CRISPR-Cas 시스템을 넘어서 핵산 및 폴리뉴클레오티드(즉, DNA, RNA, 또는 임의의 혼성체, 유도체 또는 변형)를 변형시키기 위한 추가적인 프로그래밍 가능한 이펙터 및 시스템에 대한 필요성이 남아 있다.

본 개시는, 먼저 게놈 데이터베이스로부터 계산적으로 동정되고 이후에 조작되고 실험적으로 검증된, 신규한 단일-이펙터 클래스 2 CRISPR-Cas 시스템을 위한 비-자연-발생의 조작된 시스템 및 조성물을 제공한다. 특히, 이들 CRISPR-Cas 시스템의 구성 요소의 동정은 비-자연 환경, 예를 들어, 시스템이 처음 발견된 것들 이외의 세균에서 또는 포유류 세포와 같은 진핵 세포에서 이들의 사용을 가능하게 한다. 이들 새로운 이펙터는 기존의 클래스 2 CRISPR 이펙터의 오솔로그 및 동족체와 비교하여 기능 및 서열이 다르다.

일 양태에서, 본 개시는 CRISPR-연관 단백질(여기서, CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함함), 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하는, CLUST.091979의 조작된 비-자연 발생 클러스터링된 규칙적으로 산재된 짧은 회문 반복부(CRISPR) - Cas 시스템을 제공하고, 여기서 CRISPR-연관 단백질은 RNA 가이드에 결합하고 스페이서 서열에 상보적인 표적 핵산 서열을 변형시킬 수 있다. 일 양태에서, 본 개시는 CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산(여기서, CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함함), 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드, 또는 RNA 가이드를 인코딩하는 핵산을 포함하는, CLUST.091979의 조작된 비-자연 발생 클러스터링된 규칙적으로 산재된 짧은 회문 반복부(CRISPR) - Cas 시스템을 제공하고, 여기서 CRISPR-연관 단백질은 RNA 가이드에 결합하고 스페이서 서열에 상보적인 표적 핵산 서열을 변형시킬 수 있다.

일부 양태에서, 본 개시는 CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산(여기서, CRISPR-연관 단백질은 SEQ ID NO: 241의 아미노산 서열을 포함함); 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하는, CLUST.091979의 조작된 비-자연 발생 클러스터링된 규칙적으로 산재된 짧은 회문 반복부(CRISPR) - Cas 시스템을 제공하고, 여기서 CRISPR-연관 단백질은 RNA 가이드에 결합하고 스페이서 서열에 상보적인 표적 핵산 서열을 변형시킬 수 있다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4, SEQ ID NO: 10, SEQ ID NO: 12, 또는 SEQ ID NO: 14에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다.

본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 적어도 1 개(예를 들어, 1 개, 2 개, 또는 3 개)의 RuvC 도메인 또는 적어도 1 개의 스플릿 RuvC 도메인을 포함한다.

본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 다음 서열들 중 하나 이상을 포함한다: (a) PX₁X₂X₃X₄F(SEQ ID NO: 216)(여기서, X₁은 L 또는 M 또는 I 또는 C 또는 F이고, X₂는 Y 또는 W 또는 F이고, X₃는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X₄는I 또는 L 또는 M임); (b) RX₁X₂X₃L(SEQ ID NO: 217)(여기서, X₁은I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X₂는R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X₃는 L 또는 I 또는 T 또는 C 또는 M 또는 K임); (c) NX₁YX₂(SEQ ID NO: 218)(여기서, X₁은I 또는 L 또는 F이고, X₂는 K 또는 R 또는 V 또는 E임); (d) KX₁X₂X₃FAX₄X₅KD(SEQ ID NO: 219)(여기서, X₁은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X₂는 I 또는 V 또는 L 또는 S이고, X₃는 H 또는 S 또는 G 또는 R이고, X₄는 D 또는 S 또는 E이고, X₅는 I 또는 V 또는 M 또는 T 또는 N임); (e) LX₁NX₂(SEQ ID NO: 220)(여기서, X₁은 G 또는 S 또는 C 또는 T이고, X₂는 N 또는 Y 또는 K 또는 S임); (f) PX₁X₂X₃X₄SQX₅DS(SEQ ID NO: 221)(여기서, X₁은 S 또는 P 또는 A이고, X₂는Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X₃는 F 또는 Y 또는 H이고, X₄는 T 또는 S이고, X₅는M 또는 T 또는 I임); (g) KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO: 222)(여기서, X₁은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X₂는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X₃는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X₄는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X₅는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및 (h) X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO: 223)(여기서, X₁은 I 또는 K 또는 V 또는 L이고, X₂는 L 또는 M이고, X₃는 N 또는 H 또는 P이고, X₄는 A 또는 S 또는 C이고, X₅는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X₆는 A 또는 S이고, X₇은 S 또는 A 또는 P이고, X₈은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임). 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 216의 서열은 N-말단 서열이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 219의 서열은 C-말단 서열이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 220의 서열은 C-말단 서열이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 221의 서열은 C-말단 서열이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 222의 서열은 C-말단 서열이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 223의 서열은 C-말단 서열이다.

본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 다음 서열들 중 하나 이상을 포함한다: (a) ECPITKDVINEYK(SEQ ID NO: 290); (b) NLTSITIG(SEQ ID NO: 231); (c) NYRTKIRTLN(SEQ ID NO: 232); (d) ISYIENVEN(SEQ ID NO: 233); (e) ELLSVEQLK(SEQ ID NO: 234);(f) HINSMTINIQDFKIE(SEQ ID NO: 235); (g) KENSLGFIL(SEQ ID NO: 236); (h) GNRQIKKG(SEQ ID NO: 237); (i) DVNFKHA(SEQ ID NO: 238); (j) GYINLYKYLLEH(SEQ ID NO: 239); (k) KEQVLSKLLY(SEQ ID NO: 240); (l) EYIYVSCVNKLRAKYVSYFILKEKYYEKQKEYDIEMGF(SEQ ID NO: 241); (m) DDSTESKESMDKRR(SEQ ID NO: 242); (n) NVQQDINGCLKNIINY(SEQ ID NO: 243); (o) ALENLENSNFEK(SEQ ID NO: 244); (p) QVLPTIKSLL(SEQ ID NO: 245); (q) YHKLENQN(SEQ ID NO: 246); (r) ASDKVKEYIE(SEQ ID NO: 247); (s) TNENNEIVDAKYT(SEQ ID NO: 248); (t) ANFFNLMMKSLHFAS(SEQ ID NO: 249); (u) LLSNNGKTQIALVPSE(SEQ ID NO: 250); (v) HINGLNADFNAANNIKYI(SEQ ID NO: 251), 또는 임의의 상기에 대해 1 개, 2 개, 또는 3 개 이하의 서열 차이(예를 들어, 치환)을 갖는 서열. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4와 적어도 70% 동일한 서열을 갖는다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10과 적어도 70% 동일한 서열을 갖는다.

본원에 기재된 임의의 시스템의 일부 구현예에서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열에 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열에 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다.

본원에 기재된 임의의 시스템의 일부 구현예에서, 직접 반복부 서열은 다음 서열들 중 하나 이상을 포함한다: (a) X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO: 224)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 T 또는 C 또는 A이고, X₃는 T 또는 G 또는 A이고, X₄는 T 또는 G이고, X₅는 T 또는 G 또는 A이고, X₆는 G 또는 T 또는 A이고, X₇은 T 또는 G 또는 A이고, X₈은 A 또는 G 또는 T임)(예를 들어, ATTGTTGDA(SEQ ID NO: 225)); (b) X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO: 226)(여기서, X₁은 T 또는 C 또는 A이고, X₂는 T 또는 A 또는 G이고, X₃는 T 또는 C 또는 A이고, X₄는 T 또는 A이고, X₅는 T 또는 A 또는 G이고, X₆는 T 또는 A이고, X₇은 A 또는 T이고, X₈은 A 또는 G 또는 C 또는 T이고, X₉은 G 또는 A 또는 C임)(예를 들어, TTTTWTARG(SEQ ID NO: 227)); 및 (c) X₁X₂X₃AC(SEQ ID NO: 228)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 C 또는 A이고, X₃는 A 또는 C임)(예를 들어, ACAAC(SEQ ID NO: 229)). 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 224는 직접 반복부의 5' 말단에 근접한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 228은 직접 반복부의 3' 말단에 근접한다.

본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM)를 인식할 수 있고, 여기서 PAM은 5'-NTTN-3', 5'-NTTR-3', 5'-RTTR-3', 5'-TNNT-3', 5'-TNRT-3', 5'-TSRT-3', 5'-TGRT-3', 5'-TNRY-3', 5'-TTNR-3', 5'-TTYR-3', 5'-TTTR-3', 5'-TTCV-3', 5'-DTYR-3', 5'-WTTR-3', 5'-NNR-3', 5'-NYR-3', 5'-YYR-3', 5'-TYR-3', 5'-TTN-3', 5'-TTR-3', 5'-CNT-3', 5'-NGG-3', 5'-BGG-3', 또는 5'-R-3'로서 기재된 핵산 서열을 포함한 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "B"는 C 또는 G 또는 T이고, "D"는 A 또는 G 또는 T이고, "R"은 A 또는 G이고, "S"는 G 또는 C이고, "V"는 A 또는 C 또는 G이고, "W"는 A 또는 T이고, "Y"는 C 또는 T이다.

본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.

본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.

본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, 여기서, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.

본원에 기재된 임의의 시스템의 일부 구현예에서, RNA 가이드의 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, RNA 가이드의 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함한다.

본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 촉매 잔기(예를 들어, 아스파트산 또는 글루탐산)을 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 표적 핵산을 절단한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 펩티드 태그, 형광 단백질, 염기-편집 도메인, DNA 메틸화 도메인, 히스톤 잔기 변형 도메인, 국재화 인자, 전사 조절 인자, 광-개폐 제어 인자, 화학적 유도성 인자, 또는 염색질 시각화 인자를 추가로 포함한다.

본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 세포, 예를 들어, 진핵 세포, 예를 들어, 포유류 세포, 예를 들어, 인간 세포에서의 발현을 위해 코돈-최적화된다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 프로모터에 작동 가능하게 연결된다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 벡터에 있다. 일부 구현예에서, 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 파지 벡터, 아데노바이러스 벡터, 아데노-연관 벡터, 또는 단순 포진 벡터를 포함한다.

본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산은 DNA 분자이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산은 PAM 서열을 포함한다.

본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 비-특이적 뉴클레오티드 활성을 갖는다.

본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으킨다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산의 변형은 이중-가닥 절단 사건이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산의 변형은 단일-가닥 절단 사건이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산의 변형은 삽입 사건을 일으킨다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산의 변형은 결실 사건을 일으킨다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 표적 핵산의 변형은 세포 독성 또는 세포 사멸을 일으킨다.

본원에 기재된 임의의 시스템의 일부 구현예에서, 시스템은 도너 주형 핵산을 추가로 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 도너 주형 핵산은 DNA 분자이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 도너 주형 핵산은 RNA 분자이다.

본원에 기재된 임의의 시스템의 일부 구현예에서, RNA 가이드는 선택적으로 tracrRNA 및/또는 조절자 RNA를 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 시스템은 tracrRNA를 추가로 포함한다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 시스템은 tracrRNA를 포함하지 않는다. 본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 자가-가공이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, 시스템은 조절자 RNA를 추가로 포함한다.

본원에 기재된 임의의 시스템의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 152, SEQ ID NO: 153, 또는 SEQ ID NO: 154의 뉴클레오티드와 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다.

본원에 기재된 임의의 시스템의 일부 구현예에서, 시스템은 나노입자, 리포좀, 엑소좀, 미세소포체, 또는 유전자-총을 포함하는 전달 조성물에 존재한다.

본원에 기재된 임의의 시스템의 일부 구현예에서, 시스템은 세포 내에 있다. 일부 구현예에서, 세포는 진핵 세포이다. 일부 구현예에서, 세포는 포유류 세포이다. 일부 구현예에서, 세포는 인간 세포이다. 일부 구현예에서, 세포는 원핵 세포이다.

또 다른 양태에서, 본 개시는 세포로서, CRISPR-연관 단백질; 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하는 세포를 제공하고, 여기서 CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다. 또 다른 양태에서, 본 개시는 세포로서, CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산; 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드, 또는 RNA 가이드를 인코딩하는 핵산을 포함하는 세포를 제공하고, 여기서 CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다.

본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 적어도 1 개(예를 들어, 1 개, 2 개, 또는 3 개)의 RuvC 도메인 또는 적어도 1 개의 스플릿 RuvC 도메인을 포함한다.

본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 다음 서열들 중 하나 이상을 포함한다: (a) PX₁X₂X₃X₄F(SEQ ID NO: 216)(여기서, X₁은 L 또는 M 또는 I 또는 C 또는 F이고, X₂는 Y 또는 W 또는 F이고, X₃는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X₄는 I 또는 L 또는 M임); (b) RX₁X₂X₃L(SEQ ID NO: 217)(여기서, X₁은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X₂는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X₃는 L 또는 I 또는 T 또는 C 또는 M 또는 K임); (c) NX₁YX₂(SEQ ID NO: 218)(여기서, X₁은 I 또는 L 또는 F이고, X₂는 K 또는 R 또는 V 또는 E임); (d) KX₁X₂X₃FAX₄X₅KD(SEQ ID NO: 219)(여기서, X₁은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X₂는 I 또는 V 또는 L 또는 S이고, X₃는 H 또는 S 또는 G 또는 R이고, X₄는 D 또는 S 또는 E이고, X₅는 I 또는 V 또는 M 또는 T 또는 N임); (e) LX₁NX₂(SEQ ID NO: 220)(여기서, X₁은 G 또는 S 또는 C 또는 T이고, X₂는 N 또는 Y 또는 K 또는 S임); (f) PX₁X₂X₃X₄SQX₅DS(SEQ ID NO: 221)(여기서, X₁은 S 또는 P 또는 A이고, X₂는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X₃는 F 또는 Y 또는 H이고, X₄는 T 또는 S이고, X₅는 M 또는 T 또는 I임); (g) KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO: 222)(여기서, X₁은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X₂는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X₃는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X₄는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X₅는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및 (h) X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO: 223)(여기서, X₁은 I 또는 K 또는 V 또는 L이고, X₂는 L 또는 M이고, X₃는 N 또는 H 또는 P이고, X₄는 A 또는 S 또는 C이고, X₅는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X₆는 A 또는 S이고, X₇은 S 또는 A 또는 P이고, X₈은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임). 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 216의 서열은 N-말단 서열이다. 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 219의 서열은 C-말단 서열이다. 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 220의 서열은 C-말단 서열이다. 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 221의 서열은 C-말단 서열이다. 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 222의 서열은 C-말단 서열이다. 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 223의 서열은 C-말단 서열이다.

본원에 기재된 임의의 세포의 일부 구현예에서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다.

본원에 기재된 임의의 세포의 일부 구현예에서, 직접 반복부 서열은 다음 서열들 중 하나 이상을 포함한다: (a) X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO: 224)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 T 또는 C 또는 A이고, X₃는 T 또는 G 또는 A이고, X₄는 T 또는 G이고, X₅는 T 또는 G 또는 A이고, X₆는 G 또는 T 또는 A이고, X₇은 T 또는 G 또는 A이고, X₈은 A 또는 G 또는 T임)(예를 들어, ATTGTTGDA(SEQ ID NO: 225)); (b) X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO: 226)(여기서, X₁은 T 또는 C 또는 A이고, X₂는 T 또는 A 또는 G이고, X₃는 T 또는 C 또는 A이고, X₄는 T 또는 A이고, X₅는 T 또는 A 또는 G이고, X₆는 T 또는 A이고, X₇은 A 또는 T이고, X₈은 A 또는 G 또는 C 또는 T이고, X₉은 G 또는 A 또는 C임)(예를 들어, TTTTWTARG(SEQ ID NO: 227)); 및 (c) X₁X₂X₃AC(SEQ ID NO: 228)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 C 또는 A이고, X₃는 A 또는 C임)(예를 들어, ACAAC(SEQ ID NO: 229)). 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 224는 직접 반복부의 5' 말단에 근접한다. 본원에 기재된 임의의 세포의 일부 구현예에서, SEQ ID NO: 228은 직접 반복부의 3' 말단에 근접한다.

본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.

본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.

본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.

본원에 기재된 임의의 세포의 일부 구현예에서, 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함한다.

본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 촉매 잔기(예를 들어, 아스파트산 또는 글루탐산)을 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 표적 핵산을 절단한다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 펩티드 태그, 형광 단백질, 염기-편집 도메인, DNA 메틸화 도메인, 히스톤 잔기 변형 도메인, 국재화 인자, 전사 조절 인자, 광-개폐 제어 인자, 화학적 유도성 인자, 또는 염색질 시각화 인자를 추가로 포함한다.

본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 세포, 예를 들어, 진핵 세포, 예를 들어, 포유류 세포, 예를 들어, 인간 세포에서의 발현을 위해 코돈-최적화된다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 프로모터에 작동 가능하게 연결된다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 벡터에 있다. 일부 구현예에서, 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 파지 벡터, 아데노바이러스 벡터, 아데노-연관 벡터, 또는 단순 포진 벡터를 포함한다.

본원에 기재된 임의의 세포의 일부 구현예에서, RNA 가이드는 선택적으로 tracrRNA 및/또는 조절자 RNA를 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 tracrRNA를 추가로 포함한다. 본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 tracrRNA를 포함하지 않는다. 본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 자가-가공이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 조절자 RNA를 추가로 포함한다.

본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 진핵 세포이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 포유류 세포이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 인간 세포이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 세포는 원핵 세포이다.

본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산은 DNA 분자이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산은 PAM 서열을 포함한다.

본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질은 비-특이적 뉴클레아제 활성을 갖는다.

본원에 기재된 임의의 세포의 일부 구현예에서, CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으킨다. 본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산의 변형은 이중-가닥 절단 사건이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산의 변형은 단일-가닥 절단 사건이다. 본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산의 변형은 삽입 사건을 일으킨다. 본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산의 변형은 결실 사건을 일으킨다. 본원에 기재된 임의의 세포의 일부 구현예에서, 표적 핵산의 변형은 세포 독성 또는 세포 사멸을 일으킨다.

또 다른 양태에서, 본 개시는 세포에서 표적 핵산에 본원에 기재된 시스템을 결합하는 방법으로서, (a) 시스템을 제공하는 단계; 및 (b) 시스템을 세포에 전달하는 단계를 포함하고, 세포는 표적 핵산을 포함하고, CRISPR-연관-단백질은 RNA 가이드에 결합하고, 스페이서 서열은 표적 핵산에 결합하는, 방법을 제공한다. 일부 구현예에서, 세포는 진핵 세포, 예를 들어, 포유류 세포, 예를 들어, 인간 세포이다.

또 다른 양태에서, 본 개시는 표적 핵산을 변형시키는 방법으로서, 상기 방법은 CRISPR-연관 단백질(여기서, CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함함); 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하는 조작된 비-자연 발생 CRISPR-Cas 시스템을 표적 핵산에 전달하는 단계를 포함하고, CRISPR-연관 단백질은 RNA 가이드에 결합할 수 있고; CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으키는, 방법을 제공한다. 또 다른 양태에서, 본 개시는 표적 핵산을 변형시키는 방법으로서, 상기 방법이 CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산, 및 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하는 조작된 비-자연 발생 CRISPR-Cas 시스템을 표적 핵산에 전달하는 단계를 포함하고, CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, CRISPR-연관 단백질은 RNA 가이드에 결합할 수 있고, CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으키는, 방법을 제공한다.

본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 다음 서열들 중 하나 이상을 포함한다: (a) PX₁X₂X₃X₄F(SEQ ID NO: 216)(여기서, X₁은 L 또는 M 또는 I 또는 C 또는 F이고, X₂는 Y 또는 W 또는 F이고, X₃는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X₄는 I 또는 L 또는 M임); (b) RX₁X₂X₃L(SEQ ID NO: 217)(여기서, X₁은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X₂는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X₃는 L 또는 I 또는 T 또는 C 또는 M 또는 K임); (c) NX₁YX₂(SEQ ID NO: 218)(여기서, X₁은 I 또는 L 또는 F이고, X₂는 K 또는 R 또는 V 또는 E임); (d) KX₁X₂X₃FAX₄X₅KD(SEQ ID NO: 219)(여기서, X₁은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X₂는 I 또는 V 또는 L 또는 S이고, X₃는 H 또는 S 또는 G 또는 R이고, X₄는 D 또는 S 또는 E이고, X₅는 I 또는 V 또는 M 또는 T 또는 N임); (e) LX₁NX₂(SEQ ID NO: 220)(여기서, X₁은 G 또는 S 또는 C 또는 T이고, X₂는 N 또는 Y 또는 K 또는 S임); (f) PX₁X₂X₃X₄SQX₅DS(SEQ ID NO: 221)(여기서, X₁은 S 또는 P 또는 A이고, X₂는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X₃는 F 또는 Y 또는 H이고, X₄는 T 또는 S이고, X₅는 M 또는 T 또는 I임); (g) KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO: 222)(여기서, X₁은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X₂는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X₃는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X₄는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X₅는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및 (h) X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO: 223)(여기서, X₁은 I 또는 K 또는 V 또는 L이고, X₂는 L 또는 M이고, X₃는 N 또는 H 또는 P이고, X₄는 A 또는 S 또는 C이고, X₅는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X₆는 A 또는 S이고, X₇은 S 또는 A 또는 P이고, X₈은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임). 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 216의 서열은 N-말단 서열이다. 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 219의 서열은 C-말단 서열이다. 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 220의 서열은 C-말단 서열이다. 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 221의 서열은 C-말단 서열이다. 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 222의 서열은 C-말단 서열이다. 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 223의 서열은 C-말단 서열이다.

본원에 기재된 임의의 방법의 일부 구현예에서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다.

본원에 기재된 임의의 방법의 일부 구현예에서, 직접 반복부 서열은 다음 서열들 중 하나 이상을 포함한다: (a) X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO: 224)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 T 또는 C 또는 A이고, X₃는 T 또는 G 또는 A이고, X₄는 T 또는 G이고, X₅는 T 또는 G 또는 A이고, X₆는 G 또는 T 또는 A이고, X₇은 T 또는 G 또는 A이고, X₈은 A 또는 G 또는 T임)(예를 들어, ATTGTTGDA(SEQ ID NO: 225)); (b) X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO: 226)(여기서, X₁은 T 또는 C 또는 A이고, X₂는 T 또는 A 또는 G이고, X₃는 T 또는 C 또는 A이고, X₄는 T 또는 A이고, X₅는 T 또는 A 또는 G이고, X₆는 T 또는 A이고, X₇은 A 또는 T이고, X₈은 A 또는 G 또는 C 또는 T이고, X₉은 G 또는 A 또는 C임)(예를 들어, TTTTWTARG (SEQ ID NO: 227)); 및 (c) X₁X₂X₃AC(SEQ ID NO: 228)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 C 또는 A이고, X₃는 A 또는 C임)(예를 들어, ACAAC(SEQ ID NO: 229)). 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 224는 직접 반복부의 5' 말단에 근접한다. 본원에 기재된 임의의 방법의 일부 구현예에서, SEQ ID NO: 228는 직접 반복부의 3' 말단에 근접한다.

본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.

본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3') 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.

본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 여기서 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, 여기서 PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.

본원에 기재된 임의의 방법의 일부 구현예에서, 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함한다.

본원에 기재된 임의의 방법의 일부 구현예에서, RNA 가이드는 선택적으로 tracrRNA 및/또는 조절자 RNA를 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, 시스템은 tracrRNA를 추가로 포함한다. 본원에 기재된 임의의 방법의 일부 구현예에서, 시스템은 tracrRNA를 포함하지 않는다. 본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 자가-가공이다. 본원에 기재된 임의의 방법의 일부 구현예에서, 시스템은 조절자 RNA를 추가로 포함한다.

본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산은 DNA 분자이다. 본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산은 PAM 서열을 포함한다.

본원에 기재된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 비-특이적 뉴클레아제 활성을 갖는다.

본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산의 변형은 이중-가닥 절단 사건이다. 본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산의 변형은 단일-가닥 절단 사건이다. 본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산의 변형은 삽입 사건을 일으킨다. 본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산의 변형은 결실 사건을 일으킨다. 본원에 기재된 임의의 방법의 일부 구현예에서, 표적 핵산의 변형은 세포 독성 또는 세포 사멸을 일으킨다.

또 다른 양태에서, 본 개시는 표적 핵산을 편집하는 방법으로서, 본원에 기재된 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법을 제공한다. 또 다른 양태에서, 본 개시는 표적 핵산의 발현을 변형시키는 방법으로서, 본원에 기재된 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법을 제공한다. 또 다른 양태에서, 본 개시는 표적 핵산에서의 부위에서 페이로드 핵산의 삽입을 표적화하는 방법으로서, 본원에 기재된 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법을 제공한다. 또 다른 양태에서, 본 개시는 표적 핵산의 부위로부터 페이로드 핵산의 절제를 표적화하는 방법으로서, 본원에 기재된 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법을 제공한다. 또 다른 양태에서, 본 개시는 DNA 표적 핵산의 인식 시 단일-가닥 DNA를 비-특이적으로 분해하는 방법으로서, 본원에 기재된 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법을 제공한다.

본원에 제공된 임의의 시스템 또는 방법의 일부 구현예에서, 접촉은 직접 접촉 또는 간접 접촉을 포함한다. 본원에 제공된 임의의 시스템 또는 방법의 일부 구현예에서, 간접 접촉은 RNA 가이드 및/또는 CRISPR-관련 단백질의 생성을 가능하게 하는 조건 하에 본원에 기재된 RNA 가이드 또는 CRISPR-연관 단백질을 인코딩하는 하나 이상의 핵산을 투여하는 것을 포함한다. 본원에 제공된 임의의 시스템 또는 방법의 일부 구현예에서, 접촉은 생체내 접촉 또는 시험관내 접촉을 포함한다. 본원에 제공된 임의의 시스템 또는 방법의 일부 구현예에서, 표적 핵산을 시스템과 접촉시키는 것은 CRISPR-관련 단백질 및 가이드 RNA가 표적 핵산에 도달하게 하는 조건 하에 시스템과 핵산을 포함하는 세포를 접촉시키는 것을 포함한다. 본원에 제공된 임의의 시스템 또는 방법의 일부 구현예에서, 시스템과 생체내 세포를 접촉시키는 것은 CRISPR-관련 단백질 및 가이드 RNA가 세포에 도달하거나 세포에서 생성되게 하는 조건 하에 세포를 포함하는 대상체에 시스템을 투여하는 것을 포함한다.

또 다른 양태에서, 본 개시는 (a) 표적 핵산의 표적화 및 편집; (b) 핵산의 인식 시 단일-가닥 핵산의 비-특이적 분해; (c) 이중-가닥 표적의 스페이서 상보적 가닥의 인식 시 이중-가닥 표적의 비-스페이서 상보적 가닥의 표적화 및 닉킹; (d) 이중-가닥 표적 핵산의 표적화 및 절단; (e) 샘플 내 표적 핵산의 검출; (f) 이중-가닥 핵산의 특이적 편집; (g) 이중-가닥 핵산의 염기 편집; (h) 세포에서 유전자형-특이적 또는 전사-상태-특이적 세포 사멸 또는 휴면 유도; (i) 이중-가닥 핵산 표적 내 인델 형성; (j) 이중-가닥 핵산 표적 내 서열 삽입; 또는 (k) 이중-가닥 핵산 표적 내 서열 결실 또는 역위의, 시험관내 또는 생체외 방법에서 사용하기 위한 본원에 제공된 시스템을 제공한다.

또 다른 양태에서, 본 개시는 (a) CRISPR-연관 단백질(여기서, CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함함); 및 (b) 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드(또는 RNA 가이드를 인코딩하는 핵산)의 형질감염을 포함하는, 포유류 세포에서 표적 핵산으로의 삽입 또는 결실을 도입하는 방법으로서, CRISPR-연관 단백질은 RNA 가이드에 결합할 수 있고; CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으키는, 방법을 제공한다.

본원에 제공된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, 직접 반복부는 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, 직접 반복부는 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, 표적 핵산은 PAM 서열에 인접하고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, 여기서 "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.

본원에 제공된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, 직접 반복부는 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, 직접 반복부는 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 본원에 제공된 임의의 방법의 일부 구현예에서, 표적 핵산은 PAM 서열에 인접하고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, 여기서 "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G이다.

본원에 제공된 임의의 방법의 일부 구현예에서, 형질전환은 일시적 형질전환이다. 본원에 제공된 임의의 방법의 일부 구현예에서, 세포는 인간 세포이다.

또 다른 양태에서, 본 개시는 (a) CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산, 및 (b) 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하는 조성물로서; CRISPR-연관 단백질은 다음 아미노산 서열들 중 하나 이상을 포함하고: (i) PX₁X₂X₃X₄F(SEQ ID NO: 216)(여기서, X₁은 L 또는 M 또는 I 또는 C 또는 F이고, X₂는 Y 또는 W 또는 F이고, X₃는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X₄는 I 또는 L 또는 M임); (ii) RX₁X₂X₃L(SEQ ID NO: 217)(여기서, X₁은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X₂는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X₃는 L 또는 I 또는 T 또는 C 또는 M 또는 K임); (iii) NX₁YX₂(SEQ ID NO: 218)(여기서, X₁은 I 또는 L 또는 F이고, X₂는 K 또는 R 또는 V 또는 E임); (iv) KX₁X₂X₃FAX₄X₅KD(SEQ ID NO: 219)(여기서, X₁은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X₂는 I 또는 V 또는 L 또는 S이고, X₃는 H 또는 S 또는 G 또는 R이고, X₄는 D 또는 S 또는 E이고, X₅는 I 또는 V 또는 M 또는 T 또는 N임); (v) LX₁NX₂(SEQ ID NO: 220)(여기서, X₁은 G 또는 S 또는 C 또는 T이고, X₂는 N 또는 Y 또는 K 또는 S임); (vi) PX₁X₂X₃X₄SQX₅DS(SEQ ID NO: 221)(여기서, X₁은 S 또는 P 또는 A이고, X₂는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X₃는 F 또는 Y 또는 H이고, X₄는 T 또는 S이고, X₅는 M 또는 T 또는 I임); (vii) KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO: 222)(여기서, X₁은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X₂는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X₃는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X₄는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X₅는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및 (viii) X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO: 223)(여기서, X₁은 I 또는 K 또는 V 또는 L이고, X₂는 L 또는 M이고, X₃는 N 또는 H 또는 P이고, X₄는 A 또는 S 또는 C이고, X₅는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X₆는 A 또는 S이고, X₇은 S 또는 A 또는 P이고, X₈은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임); CRISPR-연관 단백질은 RNA 가이드에 결합하고 스페이서 서열에 상보적인 표적 핵산 서열을 변형시킬 수 있는, 조성물을 제공한다.

본원에 기재된 임의의 조성물의 일부 구현예에서, 직접 반복부 서열은 다음 서열들 중 하나 이상을 포함한다: (a) X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO: 224)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 T 또는 C 또는 A이고, X₃는 T 또는 G 또는 A이고, X₄는 T 또는 G이고, X₅는 T 또는 G 또는 A이고, X₆는 G 또는 T 또는 A이고, X₇은 T 또는 G 또는 A이고, X₈은 A 또는 G 또는 T임)(예를 들어, ATTGTTGDA(SEQ ID NO: 225)); (b) X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO: 226)(여기서, X₁은 T 또는 C 또는 A이고, X₂는 T 또는 A 또는 G이고, X₃는 T 또는 C 또는 A이고, X₄는 T 또는 A이고, X₅는 T 또는 A 또는 G이고, X₆는 T 또는 A이고, X₇는 A 또는 T이고, X₈은 A 또는 G 또는 C 또는 T이고, X₉은 G 또는 A 또는 C임)(예를 들어, TTTTWTARG(SEQ ID NO: 227)); 및 (c) X₁X₂X₃AC(SEQ ID NO: 228)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 C 또는 A이고, X₃는 A 또는 C임)(예를 들어, ACAAC(SEQ ID NO: 229)). 본원에 기재된 임의의 조성물의 일부 구현예에서, SEQ ID NO: 224는 직접 반복부의 5' 말단에 근접한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, SEQ ID NO: 228는 직접 반복부의 3' 말단에 근접한다.

본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질은 적어도 1 개(예를 들어, 1 개, 2 개, 또는 3 개)의 RuvC 도메인 또는 적어도 1 개의 스플릿 RuvC 도메인을 포함한다.

본원에 기재된 임의의 조성물의 일부 구현예에서, RNA 가이드의 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, RNA 가이드의 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함한다.

본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질은 촉매 잔기(예를 들어, 아스파트산 또는 글루탐산)를 포함한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질은 표적 핵산을 절단한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질은 펩티드 태그, 형광 단백질, 염기-편집 도메인, DNA 메틸화 도메인, 히스톤 잔기 변형 도메인, 국재화 인자, 전사 조절 인자, 광-개폐 제어 인자, 화학적 유도성 인자, 또는 염색질 시각화 인자를 추가로 포함한다.

본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 세포, 예를 들어, 진핵 세포, 예를 들어, 포유류 세포, 예를 들어, 인간 세포에서의 발현을 위해 코돈-최적화된다. 본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 프로모터에 작동 가능하게 연결된다. 본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질을 인코딩하는 핵산은 벡터에 있다. 일부 구현예에서, 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 파지 벡터, 아데노바이러스 벡터, 아데노-연관 벡터, 또는 단순 포진 벡터를 포함한다.

본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산은 DNA 분자이다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산은 PAM 서열을 포함한다.

본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질은 비-특이적 뉴클레아제 활성을 갖는다.

본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으킨다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산의 변형은 이중-가닥 절단 사건이다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산의 변형은 단일-가닥 절단 사건이다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산의 변형은 삽입 사건을 일으킨다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산의 변형은 결실 사건을 일으킨다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 표적 핵산의 변형은 세포 독성 또는 세포 사멸을 일으킨다.

본원에 기재된 임의의 조성물의 일부 구현예에서, 시스템은 도너 주형 핵산을 추가로 포함한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 도너 주형 핵산은 DNA 분자이다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 도너 주형 핵산은 RNA 분자이다.

본원에 기재된 임의의 조성물의 일부 구현예에서, RNA 가이드는 선택적으로 tracrRNA를 포함한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 시스템은 tracrRNA를 추가로 포함한다. 본원에 기재된 임의의 조성물의 일부 구현예에서, 시스템은 tracrRNA를 포함하지 않는다. 본원에 기재된 임의의 조성물의 일부 구현예에서, CRISPR-연관 단백질은 자가-가공이다.

본원에 기재된 임의의 조성물의 일부 구현예에서, 시스템은 나노입자, 리포좀, 엑소좀, 미세소포체, 또는 유전자-총을 포함하는 전달 조성물에 존재한다.

본원에 기재된 임의의 조성물의 일부 구현예에서, 조성물은 세포 내에 있다. 일부 구현예에서, 세포는 진핵 세포이다. 일부 구현예에서, 세포는 포유류 세포이다. 일부 구현예에서, 세포는 인간 세포이다. 일부 구현예에서, 세포는 원핵 세포이다.

본원에 기재된 이펙터는 1) 신규한 핵산 편집 성질 및 제어 메커니즘, 2) 전달 전략에서 더 큰 다양성을 위한 더 작은 크기, 3) 세포 사멸과 같은 유전자형 촉발 세포 과정, 및 4) 프로그래밍 가능한 RNA-가이드 DNA 삽입, 절제 및 동원, 및 5) 비-인간 공생원을 통한 기존 면역의 분화된 프로파일을 포함하지만, 이로 제한되지 않는 추가 특징들을 제공한다. 예를 들어, 실시예 1, 실시예 4, 및 실시예 5 및 도 1 내지 도 3 및 도 5 내지 도 11d를 참조한다. 게놈 및 에피게놈 조작을 위한 기법의 툴박스에 본원에 기재된 신규한 DNA-표적화 시스템을 추가하면, 특정 프로그래밍된 섭동에 대한 광범위한 적용이 가능해진다.

본 발명의 다른 특징 및 이점은 하기 상세한 설명 및 청구항으로부터 명백해질 것이다.

도면은 CLUST.091979로 지칭되는 단백질 클러스터의 분석 결과를 나타내는 일련의 개략도이다.
도 1a, 도 1b, 도 1c, 도 1d, 도 1e, 도 1f, 도 1g, 도 1h, 도 1i, 도 1j, 도 1k, 및 도 1l은 SEQ ID NO: 1 내지 4, 14, 15, 17 내지 19, 21 내지 25, 27 내지 33, 35 내지 49, 51 내지 56의 이펙터의 정렬을 총괄적으로 나타낸 것이다.
도 2는 표 6에 나타낸 서열의 컨센서스 서열에 기초한 CLUST.091979 이펙터의 RuvC 도메인을 나타내는 개략도이다.
도 3은 SEQ ID NO: 57, 58, 60, 62, 63, 70, 72 내지 74, 76, 77, 80, 83, 84, 86 내지 88, 90, 128, 130, 139, 및 213의 직접 반복부 서열의 정렬을 나타낸 것이다. 컨센서스 서열(SEQ ID NO: 230)은 정렬의 상부에 나타나 있다.
도 4a는 실시예 4에 기재된 생체내 음성 선별 스크리닝 검정의 구성 요소의 개략도이다. 2 개의 DR이 측접하고 J23119에 의해 발현되는 pACYC184 또는 이. 콜라이(E. coli) 필수 유전자의 둘 모두의 가닥으로부터 균일하게 샘플링된 비-대표적 스페이서를 포함하는 CRISPR 어레이 라이브러리가 설계되었다.
도 4b는 실시예 4에 기재된 생체내 음성 선별 스크리닝 흐름도의 개략도이다. CRISPR 어레이 라이브러리는 이펙터 플라스미드로 클로닝되었다. 이펙터 플라스미드 및 비-코딩 플라스미드는 이. 콜라이로 형질전환되고, 이어서 pACYC184 또는 이. 콜라이 필수 유전자로부터의 전사체에 대한 간섭을 부여하는 CRISPR 어레이의 음성 선별에 대한 파생물로 형질전환되었다. 이펙터 플라스미드의 표적화된 시퀀싱은 고갈된 CRISPR 어레이를 동정하는 데 사용되었다. 성숙한 crRNA 및 잠재적인 tracrRNA 요건을 동정하기 위해 작은 RNAseq가 추가로 수행되었다.
도 5는 비-코딩 서열이 있는, pACYC184를 표적화하는 스페이서 및 직접 반복부 전사 방향에 대한 조작된 조성물의 고갈 활성도를 나타내는 CLUST.091979 AUXO013988882(SEQ ID NO: 1에 기재된 이펙터)에 대한 그래프이다. "정" 방향(5'-ACTA…AACT-[스페이서]-3')에서 직접 반복부 및 "역" 방향(5'-AGTT…TAGT-[스페이서]-3')에서 직접 반복부로의 고갈 정도가 도시되어 있다.
도 6a는 pACYC184 플라스미드 상의 위치에 따른, 비-코딩 서열이 있는 CLUST.091979 AUXO013988882에 대한 고갈 및 비-고갈 표적의 밀도를 나타내는 그래프 도식이다. 도 6b는 이. 콜라이 균주, 이. 클로니(E. Cloni) 상의 위치에 따른, 비-코딩 서열이 있는 CLUST.091979 AUXO013988882에 대한 고갈 및 비-고갈 표적의 밀도를 나타내는 그래프 도식이다. 상부 가닥 및 하부 가닥의 표적은 주석이 달린 유전자의 방향과 관련하여 별도로 나타나 있다. 밴드의 크기는 고갈 정도를 지시하며, 더 밝은 밴드는 3의 히트 임계치에 가깝다. 구배는 상대 전사체 존재비를 보여주는 RNA 시퀀싱의 히트맵이다.
도 7은 CLUST.091979 AUXO013988882(비-코딩 서열 있음)에 대한 PAM 서열의 예측으로서 이. 클로니에서 고갈된 표적이 측접한 서열의 WebLogo이다.
도 8은 비-코딩 서열이 있는 pACYC184를 표적화하는 스페이서 및 직접 반복부 전사 방향에 대한 조작된 조성물의 고갈 활성도를 나타내는 CLUST.091979 SRR3181151(SEQ ID NO: 4에 기재된 이펙터)에 대한 그래프이다. "정" 방향(5'-GTTG…CAGG-[스페이서]-3')에서 직접 반복부 및 "역" 방향(5'-CCTG…CAAC-[스페이서]-3')에서 직접 반복부로의 고갈 정도가 나타나 있다.
도 9a는 pACYC184 플라스미드 상의 위치에 따른, 비-코딩 서열이 있는 CLUST.091979 SRR3181151에 대한 고갈 및 비-고갈 표적의 밀도를 나타내는 그래프 도식이다. 도 9b는 이. 콜라이 균주, 이. 클로니 상의 위치에 따른, 비-코딩 서열이 있는 CLUST.091979 SRR3181151에 대한 고갈 및 비-고갈 표적의 밀도를 나타내는 그래프 도식이다. 상부 가닥 및 하부 가닥의 표적은 주석이 달린 유전자의 방향과 관련하여 별도로 나타나 있다. 밴드의 크기는 고갈도를 지시하며, 여기서 밴드가 밝을수록 3의 히트 임계치에 가깝다. 구배는 상대 전사체 존재비를 보여주는 RNA 시퀀싱의 히트맵이다.
도 10은 CLUST.091979 SRR3181151(비-코딩 서열 있음)에 대한 PAM 서열의 예측으로서 이. 클로니에서 고갈된 표적이 측접한 서열의 WebLogo이다.
도 11a는 HEK293 세포에서 SEQ ID NO: 206의 AAVS1 표적 유전자좌 및 SEQ ID NO: 208의 VEGFA 표적 유전자좌에서 SEQ ID NO: 4의 이펙터에 의해 유도된 인델을 나타낸다. 도 11b는 HEK293 세포에서 SEQ ID NO: 253, 255, 257, 259, 및 275의 AAVS1 표적 유전자좌, SEQ ID NO: 263, 265, 267, 269, 271, 273, 및 277의 VEGFA 표적 유전자좌, 및 SEQ ID NO: 261의 EMX1 표적 유전자좌에서 SEQ ID NO: 4의 이펙터에 의해 유도된 인델을 나타낸다. 도 11c는 HEK293 세포에서 SEQ ID NO: 210의 AAVS1 표적 유전자좌, SEQ ID NO: 212의 AAVS1 표적 유전자좌, 및 SEQ ID NO: 215의 VEGFA 표적 유전자좌에서 SEQ ID NO: 10의 이펙터에 의해 유도된 인델을 나타낸다. 도 11d는 HEK293 세포에서 SEQ ID NO: 279, 281, 285, 및 287의 AAVS1 표적 유전자좌, SEQ ID NO: 283의 VEGFA 표적 유전자좌, 및 SEQ ID NO: 289의 EMX1 표적 유전자좌에서 SEQ ID NO: 10의 이펙터에 의해 유도된 인델을 나타낸다.

자연적으로 다양한 CRISPR-Cas 시스템은 프로그래밍 가능한 생명공학에 이용될 수 있는 광범위한 활성 메커니즘 및 기능적 요소를 포함한다. 본질적으로, 이들 시스템은 자기-표적화를 피하기 위해 자기 대 비-자기 차별을 제공하면서 외래 DNA 및 바이러스에 대한 효율적인 방어를 가능하게 한다. 조작된 환경에서, 이들 시스템은 분자 기술의 다양한 툴박스를 제공하고, 표적화 공간의 경계를 규정한다. 본원에 기재된 방법은 RNA-프로그래밍 가능한 핵산 조작의 능력을 확장시키는 단일 서브유닛 클래스 2 이펙터 시스템 내에서 추가적인 메커니즘 및 매개변수를 발견하는 데 사용되었다.

달리 정의되지 않는 한, 본원에서 사용되는 모든 기술 및 과학 용어는 본 발명이 속하는 기술 분야의 당업자에게 일반적으로 이해되는 의미와 동일한 의미를 갖는다. 본원에 기재된 것들과 유사하거나 등가인 방법 및 재료가 본 발명의 실시 또는 시험에 사용될 수 있지만, 적합한 방법 및 재료가 후술된다. 본원에서 언급되는 모든 간행물, 특허 출원, 특허, 및 기타 참고문헌은 그 전체가 본원에 참조로 포함된다. 상충되는 경우, 본 명세서가 정의를 포함하여 우선될 것이다. 또한, 재료, 방법, 및 실시예는 단지 예시적인 것이며, 제한하려고 의도된 것이 아니다. 본 출원인은 특허법의 표준 관행에 따라 "포함하는", "본질적으로 이루어진" 또는 "이루어진"이라는 연결어를 사용하여 임의의 개시된 발명을 대안적으로 청구할 권리를 보유한다.

본원에서 사용되는 단수 형태인 부정관사 및 정관사는 문맥이 달리 명백하게 지시하지 않는 한 복수의 대상을 포함한다. 예를 들어, "핵산"에 대한 언급은 하나 이상의 핵산을 의미한다.

"바람직하게", "적합하게", "일반적으로", 및 "전형적으로"와 같은 용어는 청구된 발명의 범위를 제한하거나 특정 특징이 청구된 발명의 구조 또는 기능에 중대하거나, 필수적이거나, 심지어 중요하다는 것을 암시하기 위해 본원에서 사용된 것이 아님이 주지된다. 오히려, 이들 용어는 단지 본 발명의 특정 구현예에서 사용될 수 있거나 사용될 수 없는 대안적인 또는 추가적인 특징을 강조하기 위해 의도된 것이다.

본 발명을 기술하고 정의할 목적으로, 용어 "실질적으로"는 임의의 정량적 비교, 값, 측정, 또는 다른 표현에 기인할 수 있는 고유한 불확실성 정도를 나타내기 위해 본원에서 사용된다는 점이 주지된다. 용어 "실질적으로"는 또한 정량적 표현이 쟁점 주제의 기본 기능의 변화를 초래하지 않으면서 명시된 참조로부터 달라질 수 있는 정도를 나타내기 위해 본원에서 사용된다.

본원에서 사용되는 용어 "CRISPR-Cas 시스템"은 CRISPR 이펙터를 인코딩하는 서열을 비롯하여 CRISPR 이펙터, RNA 가이드, 및 CRISPR 유전자좌로부터의 다른 서열 및 전사체의 발현에 관여하거나 이의 활성을 유도하는 핵산 및/또는 단백질을 지칭한다.

본원에서 상호교환 가능하게 사용되는 용어 "CRISPR-연관 단백질", "CRISPR-Cas 이펙터", "CRISPR 이펙터", "이펙터", "이펙터 단백질", "CRISPR 효소" 등은 효소 활성을 수행하거나 RNA 가이드에 의해 지정된 핵산에 대한 표적 부위에 결합하는 단백질을 지칭한다. 일부 구현예에서, CRISPR 이펙터는 엔도뉴클레아제 활성, 닉카제 활성, 및/또는 엑소뉴클레아제 활성을 갖는다.

본원에서 사용되는 용어 "RNA 가이드", "가이드 RNA", "gRNA", 및 "가이드 서열"은 DNA 및/또는 RNA와 같이 표적 핵산에 대한 본원에 기재된 이펙터의 표적화를 용이하게 하는 임의의 RNA 분자를 지칭한다. 예시적인 "RNA 가이드"는 crRNA, 뿐만 아니라 tracrRNA 및/또는 조절자 RNA에 혼성화되거나 융합되는 crRNA를 포함하지만, 이로 제한되지 않는다. 일부 구현예에서, RNA 가이드는 단일 RNA 분자에 융합된 또는 개별 RNA 분자로서의 crRNA와 tracrRNA 둘 모두를 포함한다. 일부 구현예에서, RNA 가이드는 단일 RNA 분자에 융합된 또는 개별 RNA 분자로서의 crRNA 및 조절자 RNA를 포함한다. 일부 구현예에서, RNA 가이드는 단일 RNA 분자에 융합된 또는 개별 RNA 분자로서의 crRNA, tracrRNA 및 조절자 RNA를 포함한다.

본원에서 사용되는 용어 "CRISPR 이펙터 복합체", "이펙터 복합체" 또는 "감시 복합체"는 CRISPR 이펙터 및 RNA 가이드를 함유하는 복합체를 지칭한다. CRISPR 이펙터 복합체는 하나 이상의 보조 단백질을 추가로 포함할 수 있다. 하나 이상의 보조 단백질은 비-촉매 및/또는 비-표적 결합일 수 있다.

본원에서 사용되는 용어 "CRISPR RNA" 및 "crRNA"는 핵산 서열을 특이적으로 인식하기 위해 CRISPR 이펙터에 의해 사용되는 가이드 서열을 포함하는 RNA 분자를 지칭한다. crRNA "스페이서" 서열은 핵산 표적 서열에 상보적이고 부분적으로 또는 완전히 결합할 수 있다. crRNA는 tracrRNA에 혼성화하는 서열을 포함할 수 있다. 다음으로, crRNA : tracrRNA 이중체는 CRISPR 이펙터에 결합할 수 있다. 본원에서 사용되는 용어 "pre-crRNA"는 DR-스페이서-DR 서열을 포함하는 미가공 RNA 분자를 지칭한다. 본원에서 사용되는 용어 "성숙 crRNA"는 가공된 형태의 pre-crRNA를 지칭하고; 성숙 crRNA는 DR-스페이서 서열을 포함할 수 있고, 여기서 DR은 pre-crRNA의 절두된 형태의 DR이고/이거나 스페이서는 pre-crRNA의 절두된 형태의 스페이서이다.

본원에서 사용되는 용어 "전사-활성화 crRNA" 또는 "tracrRNA"는 특정 표적 핵산에 결합하기 위해 CRISPR 이펙터에 필요한 구조 및/또는 서열 모티프를 형성하는 서열을 포함하는 RNA 분자를 지칭한다.

본원에서 사용되는 용어 "CRISPR 어레이"는 제1 CRISPR 반복부의 첫 뉴클레오티드로 시작하여 마지막(말단) CRISPR 반복부의 마지막 뉴클레오티드로 종결되는, CRISPR 반복부 및 스페이서를 포함하는 핵산(예를 들어, DNA) 세그먼트를 지칭한다. 전형적으로, CRISPR 어레이에서 각각의 스페이서는 두 반복부 사이에 위치한다. 본원에서 사용되는 용어 "CRISPR 반복부", "CRISPR 직접 반복부" 및 "직접 반복부"는 CRISPR 어레이 내에서 서열 변이를 거의 또는 전혀 나타내지 않는 다수의 짧은 직접 반복부 서열을 지칭한다.

본원에 기재된 바와 같은 용어 "조절자 RNA"는 CRISPR 이펙터 또는 CRISPR 이펙터를 포함하는 핵단백질 복합체의 활성을 조절(예를 들어, 증가 또는 감소)하는 임의의 RNA 분자를 지칭한다. 일부 구현예에서, 조절자 RNA는 CRISPR 이펙터 또는 CRISPR 이펙터를 포함하는 핵단백질 복합체의 뉴클레아제 활성을 조절한다.

본원에서 사용되는 용어 "표적 핵산"은 RNA 가이드에서 스페이서의 전체 또는 일부에 상보적인 뉴클레오티드 서열을 포함하는 핵산을 지칭한다. 일부 구현예에서, 표적 핵산은 유전자를 포함한다. 일부 구현예에서, 표적 핵산은 비-코딩 영역(예를 들어, 프로모터)을 포함한다. 일부 구현예에서, 표적 핵산은 단일-가닥이다. 일부 구현예에서, 표적 핵산은 이중-가닥이다. 본원에서 사용되는 "전사-활성 부위"는 활성적으로 번역되는 핵산 서열 내 부위를 지칭한다.

본원에서 사용되는 용어 "프로토스페이서 인접 모티프" 또는 "PAM"은 이펙터 및 RNA 가이드를 포함하는 복합체가 결합하는 표적 서열에 인접한 DNA 서열을 지칭한다. 일부 구현예에서, 효소 활성을 위해서는 PAM이 필요하다. 본원에서 사용되는 용어 "인접한"은 복합체의 RNA 가이드가 PAM에 바로 인접한 표적 서열과 특이적으로 결합하거나, 상호 작용하거나, 회합하는 경우를 포함한다. 그러한 경우, 표적 서열과 PAM 사이에는 뉴클레오티드가 존재하지 않는다. 용어 "인접한"은 또한 표적화 모이어티가 결합하는 표적 서열과 PAM 사이에 소수(예를 들어, 1 개, 2 개, 3 개, 4 개 또는 5 개)의 뉴클레오티드가 있는 경우를 포함한다. 본원에서 사용되는 용어 "PAM 서열을 인식하는"은 CRISPR-연관 단백질 및 crRNA를 포함하는 복합체가 표적 핵산에 결합하는 것을 지칭하며, 여기서 표적 핵산은 PAM 서열에 인접하다.

본원에서 사용되는 용어 "활성화된 CRISPR 복합체", "활성화된 CRISPR 복합체", 및 "활성화된 복합체"는 표적 핵산을 변형시킬 수 있는 CRISPR 이펙터 복합체를 지칭한다. 일부 구현예에서, 활성화된 CRISPR 복합체는 표적 핵산에 대한 활성화된 CRISPR 복합체의 결합 후에 표적 핵산을 변형시킬 수 있다. 일부 구현예에서, 활성화된 CRISPR 복합체의 표적 핵산에의 결합은 부가적인 절단 사건, 예컨대, 부수적 절단을 초래한다.

본원에서 사용되는 용어 "절단 사건"은 DNA 및/또는 RNA와 같은 핵산 내 파손을 지칭한다. 일부 구현예에서, 절단 사건은 본원에 기재된 CRISPR 시스템의 뉴클레아제에 의해 생성된 표적 핵산 내 파손을 지칭한다. 일부 구현예에서, 절단 사건은 이중-가닥 DNA 파손이다. 일부 구현예에서, 절단 사건은 단일-가닥 DNA 파손이다. 일부 구현예에서, 절단 사건은 부수적 핵산 내 파손을 지칭한다.

본원에서 사용되는 용어 "부수적 핵산"은 활성화된 CRISPR 복합체에 의해 비-특이적으로 절단되는 핵산 기질을 지칭한다. CRISPR 이펙터와 관련하여 본원에서 사용되는 용어 "부수적 DNase 활성"은 활성화된 CRISPR 복합체의 비-특이적 DNase 활성을 지칭한다. CRISPR 이펙터와 관련하여 본원에서 사용되는 용어 "부수적 RNase 활성"은 활성화된 CRISPR 복합체의 비-특이적 RNase 활성을 지칭한다.

본원에서 사용되는 용어 "도너 주형 핵산"은 본원에 기재된 CRISPR 이펙터가 변형된 표적 핵산을 갖은 후 표적 서열 또는 표적-근위 서열에 주형화된 변화를 일으키는 데 사용될 수 있는 핵산 분자를 지칭한다. 일부 구현예에서, 도너 주형 핵산은 이중-가닥 핵산이다. 일부 구현예에서, 도너 주형 핵산은 단일-가닥 핵산이다. 일부 구현예에서, 도너 주형 핵산은 선형이다. 일부 구현예에서, 도너 주형 핵산은 원형이다(예를 들어, 플라스미드). 일부 구현예에서, 도너 주형 핵산은 외인성 핵산 분자이다. 일부 구현예에서, 도너 주형 핵산은 내인성 핵산 분자(예를 들어, 염색체)이다.

본원에서 사용되는 용어 "폴리뉴클레오티드", "뉴클레오티드", "올리고뉴클레오티드" 및 "핵산"은 DNA, RNA, 이들의 유도체, 또는 이들의 조합을 포함하는 핵산을 지칭하기 위해 상호교환 가능하게 사용될 수 있다. 당업자에게 잘 알려진 방법은 본 발명에 따른 유전자 발현 작제물 및 재조합 세포를 구축하기 위해 사용될 수 있다. 이들 방법은 시험관내 재조합 DNA 기법, 합성 기법, 생체내 재조합 기법, 및 중합효소 연쇄 반응(PCR) 기법을 포함한다. 예를 들어, 문헌[Maniatis et al., 1989, MOLECULAR CLONING: A LABORATORY MANUAL, Cold Spring Harbor Laboratory, New York; Ausubel et al., 1989, CURRENT PROTOCOLS IN MOLECULAR BIOLOGY, Greene Publishing Associates and Wiley Interscience, New York, and PCR Protocols: A Guide to Methods and Applications (Innis et al., 1990, Academic Press, San Diego, Calif.)]에 기재된 바와 같은 기법을 참조한다.

용어 "유전적 변형" 또는 "유전적 조작"은 광범위하게 세포의 게놈 또는 핵산의 조작을 지칭한다. 마찬가지로, 용어 "유전적으로 조작된" 및 "조작된"은 조작된 게놈 또는 핵산을 포함하는 세포를 지칭한다. 유전적 변형의 방법은, 예를 들어, 이종 유전자 발현, 유전자 또는 프로모터 삽입 또는 결실, 핵산 돌연변이, 변경된 유전자 발현 또는 불활성화, 효소 조작, 유도 진화, 지식-기반 설계, 무작위 돌연변이유발법, 유전자 셔플링, 및 코돈 최적화를 포함한다.

용어 "재조합"은 핵산, 단백질 또는 세포가 유전적 변형, 조작 또는 재조합의 산물임을 지시한다. 일반적으로, 용어 "재조합"은 다중 공급원으로부터 유래된 유전 물질을 함유하거나 이에 의해 인코딩되는 핵산, 단백질, 또는 세포를 지칭한다. 본원에서 사용되는 용어 "재조합"은 또한 내인성 핵산 또는 단백질의 돌연변이된 형태를 포함하여, 돌연변이된 핵산 또는 단백질을 포함하는 세포를 기술하는 데 사용될 수 있다. 용어 "재조합 세포" 및 "재조합 숙주"는 상호교환 가능하게 사용될 수 있다. 일부 구현예에서, 재조합 세포는 본원에 개시된 CRISPR 이펙터를 포함한다. CRISPR 이펙터는 재조합 세포에서의 발현을 위해 코돈-최적화될 수 있다. 일부 구현예에서, 본원에 개시된 재조합 세포는 RNA 가이드를 추가로 포함한다. 일부 구현예에서, 본원에 개시된 재조합 세포의 RNA 가이드는 tracrRNA를 포함한다. 일부 구현예에서, 본원에 개시된 재조합 세포는 조절자 RNA를 포함한다. 일부 구현예에서, 재조합 세포는 원핵 세포, 예컨대, 이. 콜라이 세포이다. 일부 구현예에서, 재조합 세포는 진핵 세포, 예컨대, 인간 세포를 비롯한 포유류 세포이다.

CLUST.091979의 동정

본 출원은 본원에서 "CLUST.091979"로 지칭되는 신규한 단백질 패밀리의 동정, 조작 및 용도에 관한 것이다. 도 2에 도시된 바와 같이, CLUST.091979의 단백질은 RuvC 도메인(RuvC I, RuvC II, 및 RuvC III로 표시됨)을 포함한다. 표 5에 도시된 바와 같이, CLUST.091979의 이펙터는 약 700 개 아미노산 내지 약 800 개 아미노산 크기의 범위이다. 따라서, CLUST.091979의 이펙터는 하기 나타낸 바와 같이 당업계에 공지된 이펙터보다 작다. 예를 들어, 표 1을 참조한다.

[표 1]

공지된 CRISPR-Cas 시스템 이펙터의 크기.

CLUST.091979의 이펙터는 특정 다른 특징과 강한 동시-발생 패턴을 나타내는 단백질을 검색하고 동정하기 위한 계산 방법 및 알고리즘을 사용하여 동정되었다. 특정 구현예에서, 이들 계산 방법은 CRISPR 어레이에 매우 근접하여 동시-발생 단백질을 동정하는 것과 관련되었다. 본원에 개시된 방법은 또한 비-코딩과 단백질-코딩 둘 모두(예를 들어, 박테리아 유전자좌 또는 CRISPR Cas1 단백질의 비-코딩 영역에서 파지 서열의 단편)에서 다른 특징에 매우 근접하여 자연 발생하는 단백질을 동정하는 데 유용하다. 본원에 기재된 방법 및 계산은 하나 이상의 계산 장치에서 수행될 수 있음이 이해된다.

게놈 서열의 세트는 게놈 또는 메타게놈 데이터베이스로부터 얻어졌다. 데이터베이스는 짧은 판독, 또는 콘티그 수준 데이터, 또는 조립된 스캐폴드, 또는 유기체의 완전한 게놈 서열을 포함하였다. 마찬가지로, 데이터베이스는 원핵 유기체 또는 진핵 유기체로부터의 게놈 서열 데이터를 포함할 수 있거나, 메타게놈 환경 샘플로부터의 데이터를 포함할 수 있다. 데이터베이스 리포지토리의 예는 국립 생명공학 정보 센터(National Center for Biotechnology Information; NCBI) RefSeq, NCBI GenBank, NCBI 전체 게놈 샷건(Whole Genome Shotgun; WGS), 및 공동 게놈 연구소(Joint Genome Institute; JGI) 통합 미생물 게놈(Integrated Microbial Genome; IMG)을 포함한다.

일부 구현예에서, 지정된 최소 길이의 게놈 서열 데이터를 선택하기 위해 최소 크기 요건이 부과된다. 특정의 예시적인 구현예에서, 최소 콘티그 길이는 100 개 뉴클레오티드, 500 nt, 1 kb, 1.5 kb, 2 kb, 3 kb, 4 kb, 5 kb, 10 kb, 20 kb, 40 kb, 또는 50 kb일 수 있다.

일부 구현예에서, 공지되거나 예측된 단백질은 완전한 또는 선택된 게놈 서열 데이터 세트로부터 추출된다. 일부 구현예에서, 공지되거나 예측된 단백질은 소스 데이터베이스에 의해 제공되는 주석의 코딩 서열(CDS) 추출로부터 취해진다. 일부 구현예에서, 예측된 단백질은 뉴클레오티드 서열로부터 단백질을 동정하기 위해 계산 방법을 적용함으로써 결정된다. 일부 구현예에서, GeneMark Suite는 게놈 서열로부터 단백질을 예측하는 데 사용된다. 일부 구현예에서, Prodigal은 게놈 서열로부터 단백질을 예측하는 데 사용된다. 일부 구현예에서, 다중 단백질 예측 알고리즘은 중복제거된 얻어진 단백질 세트와 함께 동일한 서열 데이터 세트에 걸쳐 사용될 수 있다.

일부 구현예에서, CRISPR 어레이는 게놈 서열 데이터로부터 동정된다. 일부 구현예에서, PILER-CR은 CRISPR 어레이를 동정하는 데 사용된다. 일부 구현예에서, CRISPR 어레이를 동정하기 위해 CRISPR 인식 툴(CRT)이 사용된다. 일부 구현예에서, CRISPR 어레이는 최소 횟수(예를 들어, 2 회, 3 회 또는 4 회) 반복된 뉴클레오티드 모티프를 동정하는 휴리스틱에 의해 동정되며, 여기서 반복되는 모티프의 연속 발생 사이의 간격은 지정된 길이(예를 들어, 50 개, 100 개, 또는 150 개 뉴클레오티드)를 초과하지 않는다. 일부 구현예에서, 다중 CRISPR 어레이 동정 툴은 중복제거된 얻어진 CRISPR 어레이 세트와 함께 동일한 서열 데이터 세트에 걸쳐 사용될 수 있다.

일부 구현예에서, CRISPR 어레이에 매우 근접한 단백질(본원에서 "CRISPR-근위 단백질 클러스터"로 지칭됨)이 동정된다. 일부 구현예에서, 근접성은 뉴클레오티드 거리로 규정되며, 20 kb, 15 kb 또는 5 kb 이내 일 수 있다. 일부 구현예에서, 근접성은 단백질과 CRISPR 어레이 사이의 개방형 해독 틀(ORF)의 수로 규정되고, 특정의 예시적인 거리는 10 개, 5 개, 4 개, 3 개, 2 개, 1 개, 또는 0 개 ORF일 수 있다. 그 후에, CRISPR 어레이에 매우 근접한 것으로 동정된 단백질은 상동성 단백질의 클러스터로 그룹화된다. 일부 구현예에서, 블라스트클러스트는 CRISPR-근위 단백질 클러스터를 형성하는 데 사용된다. 특정의 다른 구현예에서, mmseqs2는 CRISPR-근위 단백질 클러스터를 형성하는 데 사용된다.

CRISPR-근위 단백질 클러스터의 구성원들 사이에 강한 공동-발생 패턴을 확립하기 위해, 단백질 클러스터의 각 구성원의 BLAST 검색이 이전에 컴파일링된 완전한 공지된 및 예측된 단백질 세트에 대해 수행될 수 있다. 일부 구현예에서, UBLAST 또는 mmseqs2는 유사한 단백질을 검색하는 데 사용될 수 있다. 일부 구현예에서, 검색은 패밀리 내의 대표적인 단백질 서브세트에 대해서만 수행될 수 있다.

일부 구현예에서, CRISPR-근위 단백질 클러스터는 동시-발생을 결정하기 위해 메트릭에 의해 순위가 매겨지거나 필터링된다. 하나의 예시적인 메트릭은 특정 E 값 임계치까지의 BLAST 매칭 수에 대한 단백질 클러스터 내 요소 수의 비율이다. 일부 구현예에서, 일정한 E 값 임계치가 사용될 수 있다. 다른 구현예에서, E 값 임계치는 단백질 클러스터의 가장 먼 구성원에 의해 결정될 수 있다. 일부 구현예에서, 단백질의 글로벌 세트는 클러스터링되고 공동-발생 메트릭은 함유하는 글로벌 클러스터(들)의 요소 수에 대한 CRISPR-근위 단백질 클러스터의 요소 수의 비율이다.

일부 구현예에서, 수동 검토 프로세스는 클러스터에서 단백질의 자연 발생 유전자좌 구조에 기초하여 조작된 시스템의 잠재적인 기능 및 최소 구성 요소 세트를 평가하기 위해 사용된다. 일부 구현예에서, 단백질 클러스터의 그래프 표현은 수동 검토에 도움이 될 수 있으며, 쌍별 서열 유사성, 계통수, 근원 유기체/환경, 예측된 기능 도메인, 및 유전자좌 구조의 그래프 도식을 포함하는 정보를 함유할 수 있다. 일부 구현예에서, 유전자좌 구조의 그래프 도식은 높은 표현을 갖는 인근 단백질 패밀리에 대해 필터링할 수 있다. 일부 구현예에서, 표현은 함유하는 전체 클러스터(들)의 크기(들)에 대한 관련된 주변 단백질의 수의 비율에 의해 계산될 수 있다. 특정의 예시적인 구현예에서, 단백질 클러스터의 그래프 표현은 자연 발생 유전자좌의 CRISPR 어레이 구조의 도식을 함유할 수 있다. 일부 구현예에서, 단백질 클러스터의 그래프 표현은 추정 CRISPR 어레이의 길이 대비 보존된 직접 반복부의 수 또는 추정 CRISPR 어레이의 길이 대비 고유한 스페이서 서열의 수에 대한 도식을 함유할 수 있다. 일부 구현예에서, 단백질 클러스터의 그래프 표현은 새로운 CRISPR-Cas 시스템을 예측하고 이들의 구성 요소를 동정하는 추정 이펙터와 CRISPR 어레이의 동시-발생에 대한 다양한 메트릭의 도식을 함유할 수 있다.

CLUST.091979의 풀링-스크리닝

본원에서 동정된 조작된 CLUST.091979 CRISPR-Cas 시스템의 활성, 메커니즘, 및 기능적 매개변수를 효율적으로 검증하기 위해, 이. 콜라이에서 풀링-스크리닝 접근법을 실시예 4에 기재된 바와 같이 사용하였다. 첫째로, CLUST.091979 CRISPR-Cas 시스템의 보존된 단백질 및 비코딩 요소의 계산적 동정으로부터, DNA 합성 및 분자 클로닝이 일 구현예에서 pET-28a+ 백본을 기반으로 한 단일 인공 발현 벡터로 개별 구성 요소를 조립하는 데 사용되었다. 두 번째 구현예에서, 이펙터 및 비코딩 요소는 mRNA 전사체에 전사되고, 상이한 리보솜 결합 부위는 개별 이펙터를 번역하는 데 사용된다.

둘째로, 천연 crRNA 및 표적화 스페이서는 제2 플라스미드인 pACYC184를 표적화하는 비-천연 스페이서를 함유하는 미가공 crRNA의 라이브러리로 대체되었다. 이러한 crRNA 라이브러리는 이펙터 및 비코딩 요소(예를 들어, pET-28a+)를 포함하는 벡터 백본으로 클로닝되고, 이어서 라이브러리가 pACYC184 플라스미드 표적과 함께 이. 콜라이로 형질전환되었다. 결과적으로, 각각의 생성된 이. 콜라이 세포는 1 개 이하의 표적화 어레이를 함유한다. 대안적인 구현예에서, 비-천연 스페이서를 함유하는 미가공 crRNA의 라이브러리는 각각의 전체 내용이 본원에 참조로 포함되는 문헌[Baba et al. (2006) Mol. Syst. Biol. 2: 2006.0008; 및 Gerdes et al. (2003) J. Bacteriol. 185(19): 5673-84]에 기재된 것들과 같은 공급원으로부터 유래된 이. 콜라이 필수 유전자를 추가적으로 표적화한다. 이러한 구현예에서, 필수 유전자 기능을 파괴하는 신규한 CRISPR-Cas 시스템의 양성의 표적화된 활성은 세포 사멸 또는 성장 정지를 초래한다. 일부 구현예에서, 필수 유전자 표적화 스페이서는 pACYC184 표적과 조합될 수 있다.

셋째로, 이. 콜라이는 항생제 선별 하에 성장되었다. 일 구현예에서, 삼중 항생제 선택이 사용된다: 조작된 CRISPR 이펙터 시스템을 함유하는 pET-28a+ 벡터의 성공적인 형질전환을 보장하기 위한 카나마이신 및 pACYC184 표적 벡터의 성공적인 공동-형질전환을 보장하기 위한 클로람페니콜 및 테트라사이클린. pACYC184는 일반적으로 클로람페니콜 및 테트라사이클린에 대한 내성을 부여하기 때문에, 항생제 선별 하에서, 플라스미드를 표적화하는 신규한 CRISPR-Cas 시스템의 양성 활성은 이펙터, 비코딩 요소 및 crRNA 라이브러리의 특정 활성 요소를 능동적으로 발현하는 세포를 제거할 것이다. 전형적으로, 생존 세포의 집단은 형질전환 후 12 시간 내지 14 시간에 분석된다. 일부 구현예에서, 생존 세포의 분석은 형질전환 후 6 시간 내지 8 시간, 형질전환 후 8 시간 내지 12 시간, 형질전환 후 24 시간 이하, 또는 형질전환 후 24 시간 초과에 실시된다. 초기 시점과 비교하여 후기 시점에 생존 세포의 집단을 조사하면 비활성 crRNA에 비해 고갈된 신호가 생성된다.

일부 구현예에서, 이중 항생제 선별이 사용된다. 선택적 압력을 제거하기 위한 클로람페니콜 또는 테트라사이클린의 회수는 표적화 기질, 서열 특이성 및 효능에 관한 새로운 정보를 제공할 수 있다. 예를 들어, 선별되거나 선별되지 않은 유전자에서 dsDNA의 절단은 이. 콜라이에서 음성 선별을 초래할 수 있고, 여기서 선별된 유전자와 선별되지 않은 유전자 둘 모두의 고갈이 관찰된다. CRISPR-Cas 시스템이 전사 또는 번역을 간섭하는 경우(예를 들어, 결합 또는 전사체 절단에 의해), 선별은 표적에 대해, 선별되지 않은 내성 유전자에서가 아니라, 선별된 내성 유전자에서만 관찰될 것이다.

일부 구현예에서, 조작된 CRISPR-Cas 시스템을 포함하는 pET-28a+ 벡터의 성공적인 형질전환을 보장하기 위해 카나마이신만이 사용된다. 이러한 구현예는 이. 콜라이 필수 유전자를 표적화하는 스페이서를 함유하는 라이브러리에 적합한데, 그 이유는 성장 변화를 관찰하기 위해 카나마이신 이외에 추가 선별이 필요하지 않기 때문이다. 이러한 구현예에서, 클로람페니콜 및 테트라사이클린 의존성이 없어지고, 라이브러리에서의 이들의 표적(존재 시)은 표적화 기질, 서열 특이성, 및 역가에 관한 추가의 음성 또는 양성 정보 소스를 제공한다.

pACYC184 플라스미드는 CRISPR-Cas 시스템의 활성에 영향을 미칠 수 있는 다양한 특징 및 서열 세트를 함유하기 때문에, 풀링된 스크린으로부터 pACYC184 상에 활성 crRNA를 맵핑하면 상이한 활성 메커니즘 및 기능적 매개변수를 암시할 수 있는 활성 패턴이 제공된다. 이러한 방식으로, 이종 원핵 생물 종에서 신규한 CRISPR-Cas 시스템을 재구성하는 데 필요한 특징은 보다 포괄적으로 시험되고 연구될 수 있다.

본원에 기재된 생체내 풀링-스크린의 주요 이점은 하기를 포함한다:

(1) 다양성 - 플라스미드 설계에 의해 다중 이펙터 및/또는 비코딩 요소 발현 가능; 라이브러리 클로닝 전략에 의해 계산적으로 예측된 crRNA의 두 가지 전사 방향이 모두 발현 가능;

(2) 활성 메커니즘 및 기능적 매개변수의 포괄적 시험 - 핵산 절단을 포함하여 다양한 간섭 메커니즘 평가; 전사, 플라스미드 DNA 복제와 같은 특징의 동시-발생 조사; 및 crRNA 라이브러리에 대한 측접 서열의 사용으로 4N의 복합 등가성을 갖는 PAM이 신뢰성 있게 결정;

(3) 민감도 - pACYC184는 낮은 카피 플라스미드이므로, 적당한 간섭률조차도 플라스미드에 의해 인코딩된 항생제 내성을 없앨 수 있기 때문에 CRISPR-Cas 활성에 대해 높은 민감성 가능; 및

(4) 효율 - 더 빠른 속도 및 처리량의 RNA-시퀀싱을 가능하게 하는 최적화된 분자 생물학 단계로 단백질 발현 샘플이 스크린에서 생존 세포로부터 바로 채취 가능.

본원에 기재된 신규한 CLUST.091979 CRISPR-Cas 패밀리는 작동 요소, 메커니즘, 및 매개변수뿐만 아니라 이의 내인성 세포 환경 외부의 조작된 시스템에서 활성이고 재프로그래밍되는 이의 능력을 평가하기 위해 이러한 생체내 풀링-스크린을 사용하여 평가되었다.

CRISPR 이펙터 활성 및 변형

일부 구현예에서, CLUST.091979의 CRISPR 이펙터 및 RNA 가이드는 다른 구성 요소를 포함할 수 있는 "이원" 복합체를 형성한다. 이원 복합체는 RNA 가이드에서 스페이서 서열에 상보적인 핵산 기질(즉, 서열-특이적 기질 또는 표적 핵산)에 결합할 때 활성화된다. 일부 구현예에서, 서열-특이적 기질은 이중-가닥 DNA이다. 일부 구현예에서, 서열-특이적 기질은 단일-가닥 DNA이다. 일부 구현예에서, 서열-특이적 기질은 단일-가닥 RNA이다. 일부 구현예에서, 서열-특이적 기질은 이중-가닥 RNA이다. 일부 구현예에서, 서열-특이성은 표적 기질에 대해 RNA 가이드(예를 들어, crRNA) 내 스페이서 서열의 완전 매칭을 요구한다. 다른 구현예에서, 서열 특이성은 표적 기질에 대해 RNA 가이드(예를 들어, crRNA) 내 스페이서 서열의 부분(인접 또는 비-인접) 매칭을 요구한다.

일부 구현예에서, 본 발명의 CRISPR 이펙터는 광범위한 pH 조건에 걸쳐 효소 활성, 예를 들어, 뉴클레아제 활성을 갖는다. 일부 구현예에서, 뉴클레아제는 약 3.0 내지 약 12.0의 pH에서 효소 활성, 예를 들어, 뉴클레아제 활성을 갖는다. 일부 구현예에서, CRISPR 이펙터는 약 4.0 내지 약 10.5의 pH에서 효소 활성을 갖는다. 일부 구현예에서, CRISPR 이펙터는 약 5.5 내지 약 8.5의 pH에서 효소 활성을 갖는다. 일부 구현예에서, CRISPR 이펙터는 약 6.0 내지 약 8.0의 pH에서 효소 활성을 갖는다. 일부 구현예에서, CRISPR 이펙터는 약 7.0의 pH에서 효소 활성을 갖는다.

일부 구현예에서, 본 발명의 CRISPR 이펙터는 약 10℃ 내지 약 100℃의 온도 범위에서 효소 활성, 예를 들어, 뉴클레아제 활성을 갖는다. 일부 구현예에서, 본 발명의 CRISPR 이펙터는 약 20℃ 내지 약 90℃의 온도 범위에서 효소 활성을 갖는다. 일부 구현예에서, 본 발명의 CRISPR 이펙터는 약 20℃ 내지 약 25℃의 온도 또는 약 37℃의 온도에서 효소 활성을 갖는다.

일부 구현예에서, 이원 복합체는 표적 기질에 결합할 때 활성화된다. 일부 구현예에서, 활성화된 복합체는 "다중 턴오버" 활성을 나타내며, 이에 의해 표적 기질에 작용(예를 들어, 절단) 시 활성화된 복합체가 활성화된 상태로 유지된다. 일부 구현예에서, 활성화된 이원 복합체는 "단일 턴오버" 활성을 나타내며, 이에 의해 표적 기질 상에 작용할 때 이원 복합체가 비활성 상태로 되돌아간다. 일부 구현예에서, 활성화된 이원 복합체는 비-특이적(즉, "부수적") 절단 활성을 나타내며, 이에 의해 복합체가 비-표적 핵산을 절단한다. 일부 구현예에서, 비-표적 핵산은 DNA 분자(예를 들어, 단일-가닥 또는 이중-가닥 DNA)이다. 일부 구현예에서, 비-표적 핵산은 RNA 분자(예를 들어, 단일-가닥 또는 이중-가닥 RNA)이다.

본 발명의 CRISPR 이펙터가 표적 핵산(예를 들어, 게놈 DNA)에서 이중-가닥 파손 또는 단일-가닥 파손을 유도하는 일부 구현예에서, 이중-가닥 파손은 상동성 직접 수선(HDR), 비-상동성 말단 접합(NHEJ), 또는 대체 비-상동성 말단-결합(A-NHEJ)을 포함하여 세포 내인성 DNA-수복 경로를 자극할 수 있다. NHEJ는 상동성 주형에 대한 필요 없이도 절단된 표적 핵산을 수복할 수 있다. 이는 표적 유전자좌에서 하나 이상의 뉴클레오티드의 결실 또는 삽입을 초래할 수 있다. HDR은 도너 DNA와 같은 상동성 주형으로 발생할 수 있다. 상동성 주형은 표적 핵산 절단 부위에 측접한 서열에 상동성인 서열을 포함할 수 있다. 일부 경우에, HDR은 절단 표적 유전자좌에 외인성 폴리뉴클레오티드 서열을 삽입할 수 있다. NHEJ 및/또는 HDR로 인한 표적 DNA의 변형은, 예를 들어, 돌연변이, 결실, 변경, 통합, 유전자 교정, 유전자 대체, 유전자 태깅, 트랜스진 녹-인, 유전자 파괴, 및/또는 유전자 녹-아웃을 초래할 수 있다.

일부 구현예에서, 본원에 기재된 CRISPR 이펙터는 His-태그, GST-태그, FLAG-태그, 또는 myc-태그를 포함하는 하나 이상의 펩티드 태그에 융합될 수 있다. 일부 구현예에서, 본원에 기재된 CRISPR 이펙터는 형광 단백질(예를 들어, 녹색 형광 단백질 또는 황색 형광 단백질)과 같은 검출 가능한 모이어티에 융합될 수 있다. 일부 구현예에서, 본 개시의 CRISPR 이펙터 및/또는 보조 단백질은 단백질이 조직, 세포, 또는 세포의 영역에 들어가거나 국재화되게 하는 펩티드 또는 비-펩티드 모이어티에 융합된다. 예를 들어, 본 개시의 CRISPR 이펙터는 SV40(시미안 바이러스 40) NLS, c-Myc NLS, 또는 다른 적합한 단립형 NLS와 같은 핵 국재화 서열(NLS)을 포함할 수 있다. NLS는 CRISPR 이펙터의 N-말단 및/또는 C-말단에 융합될 수 있고, 단일로 융합되거나(즉, 단일 NLS) 또는 연결될 수 있다(예를 들어, 2 개, 3 개, 4 개 등의 NLS 사슬).

일부 구현예에서, 적어도 하나의 핵 외수송 신호(NES)는 CRISPR 이펙터를 인코딩하는 핵산 서열에 부착된다. 일부 구현예에서, C-말단 및/또는 N-말단 NLS 또는 NES는 진핵 세포, 예를 들어, 인간 세포에서 최적의 발현 및 핵 표적화를 위해 부착된다.

태그가 CRISPR 이펙터에 융합된 구현예에서, 이러한 태그는, 예를 들어, 고정된 친화성 또는 이온-교환 시약을 사용하는 액체 크로마토그래피 또는 비드 분리에 의해 CRISPR 이펙터의 친화성 기반 또는 전하-기반 정제를 용이하게 할 수 있다. 비-제한적 예로서, 본 개시의 재조합 CRISPR 이펙터는 폴리히스티딘(His) 태그를 포함하고, 정제를 위해 고정된 금속 이온(예를 들어, 수지 상에 고정된 킬레이트 리간드에 의해 킬레이트화된 Zn²⁺, Ni²⁺, Cu²⁺이온)을 포함하는 크로마토그래피 컬럼 상에 로딩되고, 상기 수지는 개별적으로 제조된 수지 또는 상업적으로 입수 가능한 수지 또는 GE Healthcare Life Sciences(말버러, 매사추세츠)에 의해 상업화된 HisTrap FF 컬럼과 같은 즉시 사용 가능한 컬럼일 수 있다. 로딩 단계 후에, 컬럼은, 예를 들어, 하나 이상의 적합한 완충액을 사용하여 선택적으로 세정되고, 이어서 His-태그 단백질이 적합한 용리 완충액을 사용하여 용리된다. 대안적으로 또는 추가적으로, 본 개시의 재조합 CRISPR 이펙터가 FLAG-태그를 사용하는 경우, 이러한 단백질은 업계에 공지된 면역 침전법을 사용하여 정제될 수 있다. 본 개시의 태깅된 CRISPR 이펙터 또는 보조 단백질에 대한 다른 적합한 정제 방법은 당업자에게 자명할 것이다.

본원에 기재된 단백질(예를 들어, CRISPR 이펙터 또는 보조 단백질)은 핵산 분자 또는 폴리펩티드로서 전달되거나 사용될 수 있다. 핵산 분자를 사용하는 경우, CRISPR 이펙터를 인코딩하는 핵산 분자는 코돈-최적화될 수 있다. 핵산은 임의의 관심 유기체, 특히 인간 세포 또는 박테리아에서 사용하기 위해 코돈-최적화될 수 있다. 예를 들어, 핵산은 마우스, 랫트, 토끼, 개, 가축, 또는 비-인간 영장류를 포함하는 임의의 비-인간 진핵 생물에 대해 코돈-최적화될 수 있다. 코돈 사용 표는, 예를 들어, "코돈 사용 데이터베이스"(www.kazusa.orjp/codon/에서 이용 가능함)에서 용이하게 이용 가능하며, 이들 표는 다수의 방식으로 적용될 수 있다. 그 전체가 본원에 참조로 포함되는 문헌[Nakamura et al. Nucl. Acids Res. 28:292 (2000)]을 참조한다. 특정 숙주 세포에서의 발현을 위해 특정 서열을 코돈 최적화시키는 컴퓨터 알고리즘도 또한 이용 가능하며, 예를 들어, Gene Forge(Aptagen; 야코부스, PA)도 또한 이용 가능하다.

일부 예에서, 진핵 세포(예를 들어, 인간 또는 다른 포유류 세포)에서의 발현을 위해 CRISPR 이펙터를 인코딩하는 본 개시의 핵산은 하나 이상의 인트론, 즉, 제1 말단(예를 들어, 5' 말단)에서 스플라이스-도너 서열 및 제2 말단(예를 들어, 3' 말단)에서 스플라이스 억셉터 서열을 포함하는 하나 이상의 비-코딩 서열을 포함한다. 제한 없이, 시미안 바이러스 40(SV40) 인트론, 베타-글로빈 인트론, 및 합성 인트론을 포함하는 임의의 적합한 스플라이스 도너/스플라이스 억셉터가 본 개시의 다양한 구현예에서 사용될 수 있다. 대안적으로 또는 추가적으로, CRISPR 이펙터 또는 보조 단백질을 인코딩하는 본 개시의 핵산은 DNA 코딩 서열의 3' 말단에서 폴리아데닐화(polyA) 신호와 같은 전사 정지 신호를 포함할 수 있다. 일부 예에서, polyA 신호는 SV40 인트론과 같은 인트론에 매우 근접하거나 인접하게 위치한다.

탈활성화/비활성화 CRISPR 이펙터

본원에 기재된 CRISPR 이펙터는 감소된 뉴클레아제 활성, 예를 들어, 야생형 CRISPR 이펙터와 비교하여 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 적어도 97%, 또는 100%의 뉴클레아제 비활성화를 갖도록 변형될 수 있다. 뉴클레아제 활성은 당업계에 공지된 여러 방법, 예를 들어, 단백질의 뉴클레아제 도메인으로 돌연변이를 도입함으로써 감소될 수 있다. 일부 구현예에서, 뉴클레아제 활성에 대한 촉매 잔기가 동정되고, 이들 아미노산 잔기는 뉴클레아제 활성을 감소시키기 위해 상이한 아미노산 잔기(예를 들어, 글리신 또는 알라닌)로 치환될 수 있다.

비활성화된 CRISPR 이펙터는 하나 이상의 기능적 도메인(예를 들어, 융합 단백질, 링커 펩티드, "GS" 링커 등을 통해)을 포함하거나 이와 관련될 수 있다. 이들 기능적 도메인은 다양한 활성, 예를 들어, 메틸라제 활성, 데메틸라제 활성, 전사 활성화 활성, 전사 억제 활성, 전사 방출 인자 활성, 히스톤 변형 활성, RNA 절단 활성, DNA 절단 활성, 핵산 결합 활성, 및 스위치 활성(예를 들어, 광 유도성)을 가질 수 있다. 일부 구현예에서, 기능적 도메인은 크루펠 관련 박스(Kr

ppel associated box; KRAB), VP64, VP16, Fok1, P65, HSF1, MyoD1, 및 비오틴-APEX이다.

비활성화된 CRISPR 이펙터 상에 하나 이상의 기능적 도메인의 위치 선정은 기능적 도메인이 귀속된 기능적 효과로 표적에 작용하도록 정확한 공간 방향을 가능하게 하는 것이다. 예를 들어, 기능적 도메인이 전자 활성화제(예를 들어, VP16, VP64, 또는 p65)인 경우, 전사 활성화제는, 표적의 전사에 작용하도록 하는 공간 방향으로 위치된다. 마찬가지로, 전사 억제제는 표적의 전사에 작용하도록 위치되고, 뉴클레아제(예를 들어, Fok1)는 표적을 절단 또는 부분 절단하도록 위치된다. 일부 구현예에서, 기능적 도메인은 CRISPR 이펙터의 N-말단에 위치한다. 일부 구현예에서, 기능적 도메인은 CRISPR 이펙터의 C-말단에 위치한다. 일부 구현예에서, 비활성화된 CRISPR 이펙터는 N-말단에서 제1 기능적 도메인을 포함하도록 변형되고, C-말단에 제2 기능적 도메인을 포함하도록 변형된다.

분할 효소

본 개시는 또한 본원에 기재된 CRISPR 이펙터의 분할 버전을 제공한다. CRISPR 이펙터의 분할 버전은 전달에 유리할 수 있다. 일부 구현예에서, CRISPR 이펙터는 기능하는 CRISPR 이펙터를 실질적으로 함께 포함하는 효소의 두 부분으로 분할된다.

분할은 촉매 도메인(들)이 영향을 받지 않는 방식으로 이루어질 수 있다. CRISPR 이펙터는 뉴클레아제로서 기능할 수 있거나 비활성화된 효소일 수 있으며, 이는 본질적으로 촉매 활성이 거의 없는 또는 전혀 없는 RNA-결합 단백질이다(예를 들어, 이의 촉매 도메인에서의 돌연변이(들)로 인해).

일부 구현예에서, 뉴클레아제 로브 및 α-나선 로브는 별도의 폴리펩티드로서 발현된다. 로브가 자체적으로 상호 작용하지는 않지만, RNA 가이드는 이들을 삼원 복합체로 모집하여 전장 CRISPR 이펙터의 활성을 재현(recapitulate)하고 부위-지정 DNA 절단을 촉매작용한다. 변형된 RNA 가이드의 사용은 이량체화를 방지함으로써 분할 효소 활성을 없애서, 유도성 이량체화 시스템의 발달을 가능하게 한다. 분할 효소는, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Wright et al. "Rational design of a split-Cas9 enzyme complex," Proc. Natl. Acad. Sci., 112.10 (2015): 2984-2989]에 기재되어 있다.

일부 구현예에서, 분할 효소는, 예를 들어, 라파마이신 민감성 이량체화 도메인을 사용함으로써 이량체화 파트너에 융합될 수 있다. 이는 CRISPR 이펙터 활성의 일시적 제어를 위해 화학적으로 유도 가능한 CRISPR 이펙터의 생성을 가능하게 한다. 따라서, CRISPR 이펙터는 2 개의 단편으로 분할됨으로써 화학적으로 유도 가능하게 될 수 있고, 라파마이신-민감성 이량체화 도메인은 CRISPR 이펙터의 제어된 재조립에 사용될 수 있다.

분할 지점은 전형적으로 인 실리코로 설계되고 작제물에 클로닝된다. 이 과정에서, 돌연변이가 분할 효소에 도입될 수 있고 비-기능적 도메인이 제거될 수 있다. 일부 구현예에서, 분할 CRISPR 이펙터(즉, N-말단 및 C-말단 단편)의 두 부분 또는 단편은, 예를 들어, 야생형 CRISPR 이펙터의 서열의 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 또는 적어도 99%를 포함하는 전체 CRISPR 이펙터를 형성할 수 있다.

자가-활성화 또는 비활성화 효소

본원에 기재된 CRISPR 이펙터는 자가-활성화 또는 자가-비활성화하도록 설계될 수 있다. 일부 구현예에서, CRISPR 이펙터는 자가-비활성화한다. 예를 들어, 표적 서열은 CRISPR 이펙터 코딩 작제물에 도입될 수 있다. 따라서, CRISPR 이펙터는 효소를 인코딩하는 작제물뿐만 아니라 표적 서열을 절단하여 이들의 발현을 자가-비활성화할 수 있다. 자가-비활성화 CRISPR 시스템을 구축하는 방법은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Epstein et al., "Engineering a Self-Inactivating CRISPR System for AAV Vectors," Mol. Ther., 24 (2016): S50]에 기재되어 있다.

일부 다른 구현예에서, 약한 프로모터(예를 들어, 7SK 프로모터)의 제어 하에 발현된 추가적인 RNA 가이드는 CRISPR 이펙터를 인코딩하는 핵산 서열을 표적화하여 이의 발현을 방지 및/또는 차단할 수 있다(예를 들어, 핵산의 전사 및/또는 번역을 방지함으로써). CRISPR 이펙터, RNA 가이드, 및 CRISPR 이펙터를 인코딩하는 핵산을 표적화하는 RNA 가이드를 발현하는 벡터로 세포를 형질감염시키면 CRISPR 이펙터를 인코딩하는 핵산의 효율적인 파괴를 야기하고, CRISPR 이펙터의 수준을 감소시켜서, 게놈 편집 활성을 제한할 수 있다.

일부 구현예에서, CRISPR 이펙터의 게놈 편집 활성은 포유류 세포에서 내인성 RNA 시그니처(예를 들어, miRNA)를 통해 조절될 수 있다. CRISPR 이펙터 스위치는 CRISPR 이펙터를 인코딩하는 mRNA의 5'-UTR에서 miRNA-상보적 서열을 사용함으로써 이루어질 수 있다. 스위치는 표적 세포에서 miRNA에 선택적이고 효율적으로 반응한다. 따라서, 스위치는 이종 세포 집단 내에서 내인성 miRNA 활성을 감지함으로써 게놈 편집을 차별적으로 제어할 수 있다. 따라서, 스위치 시스템은 세포내 miRNA 정보에 기초한 세포-유형 선택적 게놈 편집 및 세포 조작을 위한 프레임워크를 제공할 수 있다(Hirosawa et al. "Cell-type-specific genome editing with a microRNA-responsive CRISPR-Cas9 switch," Nucl. Acids Res., 2017 Jul 27; 45(13): e118).

유도성 CRISPR 이펙터

CRISPR 이펙터는 유도성, 예를 들어, 광유도성 또는 화학적 유도성일 수 있다. 이러한 메커니즘은 CRISPR 이펙터에서 기능적 도메인의 활성화를 가능하게 한다. 광유도성은, 예를 들어, CRY2PHR/CIBN 쌍이 분할 CRISPR 이펙터에서 사용되는 융합 복합체를 설계함으로써 당업계에 공지된 다양한 방법에 의해 달성될 수 있다(예를 들어, 문헌[Konermann et al., "Optical control of mammalian endogenous transcription and epigenetic states," Nature, 500.7463 (2013): 472] 참조). 화학적 유도성은, 예를 들어, FKBP/FRB(FK506 결합 단백질/FKBP 라파마이신 결합 도메인) 쌍이 분할 CRISPR 이펙터에서 사용되는 융합 복합체를 설계함으로써 달성될 수 있다. 라파마이신은 융합 복합체를 형성시키고, 이에 따라 CRISPR 이펙터를 활성화시키기 위해 필요하다(예를 들어, 문헌[Zetsche et al., "A split-Cas9 architecture for inducible genome editing and transcription modulation," Nature Biotech., 33.2 (2015): 139-142] 참조).

또한, CRISPR 이펙터의 발현은 유도성 프로모터, 예를 들어, 테트라사이클린 또는 독시사이클린 제어 전사 활성화(Tet-On 및 Tet-Off 발현 시스템), 호르몬 유도성 유전자 발현 시스템(예를 들어, 엑디손 유도성 유전자 발현 시스템), 및 아라비노스-유도성 발현 시스템에 의해 조절될 수 있다. RNA로서 전달될 때, RNA 표적화 이펙터 단백질의 발현은 테트라사이클린과 같은 소분자를 감지할 수 있는 리보스위치를 통해 조절될 수 있다(예를 들어, 문헌[Goldfless et al., "Direct and specific chemical control of eukaryotic translation with a synthetic RNA-protein interaction," Nucl. Acids Res., 40.9 (2012): e64-e64] 참조).

유도성 CRISPR 이펙터 및 유도성 CRISPR 시스템의 다양한 구현예는, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 US 8871445, US 20160208243, 및 WO 2016205764에 기재되어 있다.

기능적 돌연변이

특이성 및/또는 견고성을 개선하기 위해 본원에 기재된 바와 같이 다양한 돌연변이 또는 변형이 CRISPR 이펙터에 도입될 수 있다. 일부 구현예에서, 프로토스페이서 인접 모티프(PAM)를 인식하는 아미노산 잔기가 동정된다. 본원에 기재된 CRISPR 이펙터는 추가로, 예를 들어, PAM을 인식하는 아미노산 잔기를 다른 아미노산 잔기로 대체함으로써 상이한 PAM을 인식하도록 변형될 수 있다. 일부 구현예에서, CRISPR 이펙터는, 예를 들어, 5'-NTTN-3', 5'-NTTR-3', 5'-RTTR-3', 5'-TNNT-3', 5'-TNRT-3', 5'-TSRT-3', 5'-TGRT-3', 5'-TNRY-3', 5'-TTNR-3', 5'-TTYR-3', 5'-TTTR-3', 5'-TTCV-3', 5'-DTYR-3', 5'-WTTR-3', 5'-NNR-3', 5'-NYR-3', 5'-YYR-3', 5'-TYR-3', 5'-TTN-3', 5'-TTR-3', 5'-CNT-3', 5'-NGG-3', 5'-BGG-3', 또는 5'-R-3'를 인식할 수 있고, 여기서 "N"는 임의의 뉴클레오티드이고, "B"는 C 또는 G 또는 T이고, "D"는 A 또는 G 또는 T이고, "R"은 A 또는 G이고, "S"는 G 또는 C이고, "V"는 A 또는 C 또는 G이고, "W"는 A 또는 T이고, "Y"는 C 또는 T이다.

일부 구현예에서, 본원에 기재된 CRISPR 이펙터는 하나 이상의 기능적 활성을 변형시키도록 하나 이상의 아미노산 잔기에서 돌연변이될 수 있다. 예를 들어, 일부 구현예에서, CRISPR 이펙터는 이의 헬리카제 활성을 변형시키도록 하나 이상의 아미노산 잔기에서 돌연변이된다. 일부 구현예에서, CRISPR 이펙터는 하나 이상의 아미노산 잔기에서 이의 뉴클레아제 활성(예를 들어, 엔도뉴클레아제 활성 또는 엑소뉴클레아제 활성)을 변형시키도록 돌연변이된다. 일부 구현예에서, CRISPR 이펙터는 RNA 가이드와 기능적으로 회합되는 이의 능력을 변형시키도록 하나 이상의 아미노산 잔기에서 돌연변이된다. 일부 구현예에서, CRISPR 이펙터는 표적 핵산과 기능적으로 회합되는 이의 능력을 변형시키도록 하나 이상의 아미노산 잔기에서 돌연변이된다.

일부 구현예에서, 본원에 기재된 CRISPR 이펙터는 표적 핵산 분자를 절단할 수 있다. 일부 구현예에서, CRISPR 이펙터는 표적 핵산 분자의 양 가닥을 절단한다. 그러나, 일부 구현예에서, CRISPR 이펙터는 이의 절단 활성을 변형시키도록 하나 이상의 아미노산 잔기에서 돌연변이된다. 예를 들어, 일부 구현예에서, CRISPR 이펙터는 표적 핵산을 절단하는 CRISPR 이펙터의 능력을 증가시키는 하나 이상의 돌연변이를 포함할 수 있다. 또 다른 예에서, 일부 구현예에서, CRISPR 이펙터는 효소가 표적 핵산을 절단할 수 없게 만드는 하나 이상의 돌연변이를 포함할 수 있다. 다른 구현예에서, CRISPR 이펙터는 효소가 표적 핵산의 가닥을 절단할 수 있도록(즉, 닉카제 활성) 하나 이상의 돌연변이를 포함할 수 있다. 일부 구현예에서, CRISPR 이펙터는 RNA 가이드가 혼성화하는 가닥에 상보적인 표적 핵산의 가닥을 절단할 수 있다. 일부 구현예에서, CRISPR 이펙터는 RNA 가이드가 혼성화하는 표적 핵산의 가닥을 절단할 수 있다.

일부 구현예에서, 본원에 개시된 CRISPR 이펙터의 하나 이상의 잔기는 아르기닌 모이어티로 돌연변이된다. 일부 구현예에서, 본원에 개시된 CRISPR 이펙터의 하나 이상의 잔기는 글리신 모이어티로 돌연변이된다. 일부 구현예에서, 본원에 개시된 CRISPR 이펙터의 하나 이상의 잔기는 본원에 개시된 CRISPR 이펙터의 계통발생학적 정렬의 콘센서스 잔기에 기초하여 돌연변이된다.

일부 구현예에서, 본원에 기재된 CRISPR 이펙터는 하나 이상의 요망되는 기능적 활성(예를 들어, 뉴클레아제 활성 및 RNA 가이드와 상호작용하는 능력)을 보유하면서 효소의 크기를 감소시키기 위해 하나 이상의 아미노산 잔기에 결실을 포함하도록 조작될 수 있다. 절두된 CRISPR 이펙터는 부하 제한을 갖는 전달 시스템과 조합하여 유리하게 사용될 수 있다.

일 양태에서, 본 개시는 도 2에 나타낸 도메인 구조를 유지하면서 본원에 기재된 핵산 서열과 적어도 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% 동일한 핵산 서열을 제공한다. 또 다른 양태에서, 본 개시는 또한 도 2에 나타낸 도메인 구조를 유지하면서 본원에 기재된 아미노산 서열과 적어도 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% 동일한 아미노산 서열을 제공한다.

일부 구현예에서, 핵산 서열은 본원에 기재된 서열과 동일한 적어도 일부(예를 들어, 적어도 1 개, 2 개, 3 개, 4 개, 5 개, 6 개, 7 개, 8 개, 9 개, 10 개, 11 개, 12 개, 13 개, 14 개, 15 개, 20 개, 30 개, 40 개, 50 개, 60 개, 70 개, 80 개, 90 개, 또는 100 개 뉴클레오티드, 예를 들어, 인접 또는 비-인접 뉴클레오티드)를 갖는다. 일부 구현예에서, 핵산 서열은 본원에 기재된 서열과 상이한 적어도 일부(예를 들어, 적어도 1 개, 2 개, 3 개, 4 개, 5 개, 6 개, 7 개, 8 개, 9 개, 10 개, 11 개, 12 개, 13 개, 14 개, 15 개, 20 개, 30 개, 40 개, 50 개, 60 개, 70 개, 80 개, 90 개, 또는 100 개 뉴클레오티드, 예를 들어, 인접 또는 비-인접 뉴클레오티드)를 갖는다.

일부 구현예에서, 아미노산 서열은 본원에 기재된 서열과 동일한 적어도 일부(예를 들어, 적어도 1 개, 2 개, 3 개, 4 개, 5 개, 6 개, 7 개, 8 개, 9 개, 10 개, 11 개, 12 개, 13 개, 14 개, 15 개, 20 개, 30 개, 40 개, 50 개, 60 개, 70 개, 80 개, 90 개, 또는 100 개 아미노산 잔기, 예를 들어, 인접 또는 비-인접 아미노산 잔기)를 갖는다. 일부 구현예에서, 아미노산 서열은 본원에 기재된 서열과 상이한 적어도 일부(예를 들어, 적어도 1 개, 2 개, 3 개, 4 개, 5 개, 6 개, 7 개, 8 개, 9 개, 10 개, 11 개, 12 개, 13 개, 14 개, 15 개, 20 개, 30 개, 40 개, 50 개, 60 개, 70 개, 80 개, 90 개, 또는 100 개 아미노산 잔기, 예를 들어, 인접 또는 비-인접 아미노산 잔기)를 갖는다.

두 개의 아미노산 서열, 또는 두 개의 핵산 서열의 동일성 퍼센트를 결정하기 위해, 서열은 최적의 비교 목적을 위해 정렬된다(예를 들어, 최적의 정렬을 위해 제1 및 제2 아미노산 또는 핵산 서열들 중 하나 또는 이 둘 모두에 갭이 도입될 수 있고, 비-상동성 서열이 비교 목적으로 무시될 수 있음). 일반적으로, 비교 목적으로 정렬된 참조 서열 길이는 참조 서열 길이의 적어도 80%여야 하고, 일부 구현예에서 참조 서열의 길이의 적어도 90%, 95%, 또는 100%여야 한다. 상응하는 아미노산 위치 또는 뉴클레오티드 위치에서 아미노산 잔기 또는 뉴클레오티드가 이후 비교된다. 제1 서열에서의 위치가 제2 서열에서 상응하는 위치와 동일한 아미노산 잔기 또는 뉴클레오티드에 의해 점유되는 경우, 분자는 그러한 위치에서 동일하다. 두 서열 간의 동일성 퍼센트는 두 서열의 최적의 정렬을 위해 도입되어야 하는 갭의 수, 및 각 갭의 길이를 고려하여 서열이 공유하는 동일한 위치의 수의 함수이다. 본 개시의 목적 상, 서열의 비교 및 두 서열 간의 동일성 퍼센트의 결정은 12의 갭 페널티, 4의 갭 확장 페널티, 및 5의 프레임시프트 갭 페널티를 갖는 Blossum 62 스코어링 매트릭스를 사용하여 달성될 수 있다.

일부 구현예에서, 뉴클레아제는 PX₁X₂X₃X₄F(SEQ ID NO: 216)로서 기재된 서열을 포함하고, 여기서 X₁은 L 또는 M 또는 I 또는 C 또는 F이고, X₂는 Y 또는 W 또는 F이고, X₃는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X₄는 I 또는 L 또는 M이다. 일부 구현예에서, SEQ ID NO: 216에 기재된 서열은 N-말단 서열이다. 일부 구현예에서, 뉴클레아제는 RX₁X₂X₃L(SEQ ID NO: 217)로서 기재된 서열을 포함하고, 여기서 X₁은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X₂는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X₃는 L 또는 I 또는 T 또는 C 또는 M 또는 K이다. 일부 구현예에서, 뉴클레아제는 NX₁YX₂(SEQ ID NO: 218)로서 기재된 서열을 포함하고, 여기서 X₁은 I 또는 L 또는 F이고, X₂는 K 또는 R 또는 V 또는 E이다. 일부 구현예에서, 뉴클레아제는 KX₁X₂X₃FAX₄X₅KD(SEQ ID NO: 219)로서 기재된 서열을 포함하고, 여기서 X₁은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X₂는 I 또는 V 또는 L 또는 S이고, X₃는 H 또는 S 또는 G 또는 R이고, X₄는 D 또는 S 또는 E이고, X₅는 I 또는 V 또는 M 또는 T 또는 N이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 219의 서열은 C-말단 서열이다. 일부 구현예에서, 뉴클레아제는 LX₁NX₂(SEQ ID NO: 220)로서 기재된 서열을 포함하고, 여기서 X₁는 G 또는 S 또는 C 또는 T이고, X₂는 N 또는 Y 또는 K 또는 S이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 220의 서열은 C-말단 서열이다. 일부 구현예에서, 뉴클레아제는 PX₁X₂X₃X₄SQX₅DS(SEQ ID NO: 221)로서 기재된 서열을 포함하고, 여기서 X₁는 S 또는 P 또는 A이고, X₂는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X₃는 F 또는 Y 또는 H이고, X₄는 T 또는 S이고, X₅는 M 또는 T 또는 I이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 221의 서열은 C-말단 서열이다. 일부 구현예에서, 뉴클레아제는 KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO: 222)로서 기재된 서열을 포함하고, 여기서 X₁은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X₂는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X₃는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X₄는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X₅는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 222의 서열은 C-말단 서열이다. 일부 구현예에서, 뉴클레아제는 X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO: 223)로서 기재된 서열을 포함하고, 여기서 X₁은 I 또는 K 또는 V 또는 L이고, X₂는 L 또는 M이고, X₃는 N 또는 H 또는 P이고, X₄는 A 또는 S 또는 C이고, X₅는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X₆는 A 또는 S이고, X₇은 S 또는 A 또는 P이고, X₈은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L이다. 본원에 기재된 임의의 시스템의 일부 구현예에서, SEQ ID NO: 223의 서열은 C-말단 서열이다.

RNA 및 RNA 가이드 변형

일부 구현예에서, 본원에 기재된 RNA 가이드는 우라실(U)을 포함한다. 일부 구현예에서, 본원에 기재된 RNA 가이드는 티민(T)을 포함한다. 일부 구현예에서, 본원에 기재된 RNA 가이드의 직접 반복부 서열은 우라실(U)을 포함한다. 일부 구현예에서, 본원에 기재된 RNA 가이드의 직접 반복부 서열은 티민(T)을 포함한다. 일부 구현예에서, 표 2 또는 표 8에 따른 직접 반복부 서열은 표 2 또는 표 8의 상응하는 서열에서 티민으로서 지시된 하나 이상의 위치에 우라실을 포함하는 서열을 포함한다.

일부 구현예에서, 직접 반복부는 내인성 CRISPR 어레이에서 반복되는 서열의 하나의 카피만을 포함한다. 일부 구현예에서, 직접 반복부는 내인성 CRISPR 어레이에서 발견되는 하나 이상의 스페이서 서열에 인접한(예를 들어, 측접한) 전장 서열이다. 일부 구현예에서, 직접 반복부는 내인성 CRISPR 어레이에서 발견되는 하나 이상의 스페이서 서열에 인접한(예를 들어, 측접한) 전장 서열의 일부(예를 들어, 가공된 부분)이다.

스페이서 및 직접 반복부

RNA 가이드의 스페이서 길이는 약 15 개 내지 55 개 뉴클레오티드의 범위일 수 있다. RNA 가이드의 스페이서 길이는 약 20 개 내지 45 개 뉴클레오티드의 범위일 수 있다. 일부 구현예에서, RNA 가이드의 스페이서 길이는 적어도 15 개 뉴클레오티드, 적어도 16 개 뉴클레오티드, 적어도 17 개 뉴클레오티드, 적어도 18 개 뉴클레오티드, 적어도 19 개 뉴클레오티드, 적어도 20 개 뉴클레오티드, 적어도 21 개 뉴클레오티드, 또는 적어도 22 개 뉴클레오티드이다. 일부 구현예에서, 스페이서 길이는 15 개 내지 17 개 뉴클레오티드, 15 개 내지 23 개 뉴클레오티드, 16 개 내지 22 개 뉴클레오티드, 17 개 내지 20 개 뉴클레오티드, 20 개 내지 24 개 뉴클레오티드(예를 들어, 20 개, 21 개, 22 개, 23 개, 또는 24 개 뉴클레오티드), 23 개 내지 25 개 뉴클레오티드(예를 들어, 23 개, 24 개, 또는 25 개 뉴클레오티드), 24 개 내지 27 개 뉴클레오티드, 27 개 내지 30 개 뉴클레오티드, 30 개 내지 45 개 뉴클레오티드(예를 들어, 30 개, 31 개, 32 개, 33 개, 34 개, 35 개, 40 개, 또는 45 개 뉴클레오티드), 30 개 또는 35 개 내지 40 개 뉴클레오티드, 41 개 내지 45 개 뉴클레오티드, 45 개 내지 50 개 뉴클레오티드, 또는 그 초과이다.

일부 구현예에서, RNA 가이드의 직접 반복부 길이는 적어도 16 개 뉴클레오티드, 또는 16 개 내지 20 개 뉴클레오티드(예를 들어, 16 개, 17 개, 18 개, 19 개, 또는 20 개 뉴클레오티드)이다. 일부 구현예에서, RNA 가이드의 직접 반복부 길이는 약 19 개 내지 약 40 개 뉴클레오티드이다.

예시적인 직접 반복부 서열(예를 들어, pre-crRNA의 직접 반복부 서열(예를 들어, 미가공 crRNA) 또는 성숙 crRNA(예를 들어, 가공 crRNA의 직접 반복부 서열)은 표 2에 나타나 있다. 또한, 표 8을 참조한다.

[표 2]

crRNA 서열의 예시적인 직접 반복부 서열.

일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 57의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 2의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 58의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 3의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 59의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 4의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 60의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 10의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 14의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 128의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 15의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 63의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 17의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 130의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 18의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 70의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 21의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 72의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 22의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 73의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 23의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 74의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 24의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 63의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 27의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 76의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 28의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 77의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 29의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 139의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 31의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 58의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 32의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 80의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 35의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 77의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 36의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 139의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 38의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 80의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 39의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 58의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 41의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 83의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 42의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 84의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 44의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 86의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 45의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 130의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 46의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 84의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 47의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 87의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 48의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 88의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 51의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 84의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 53의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 84의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 55의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 88의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 56의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, 직접 반복부 서열은 SEQ ID NO: 90의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다.

일부 구현예에서, RNA 가이드는 도 3에 나타낸 직접 반복부 서열을 포함한다. 예를 들어, 일부 구현예에서, RNA 가이드는 도 3에 나타낸 컨센서스 서열의 직접 반복부 또는 도 3에 나타낸 컨센서스 서열의 일부를 포함한다. 일부 구현예에서, RNA 가이드는 X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO: 224)로서 기재된 서열을 갖는 직접 반복부를 포함하고, 여기서 X₁은 A 또는 C 또는 G이고, X₂는 T 또는 C 또는 A이고, X₃는 T 또는 G 또는 A이고, X₄는 T 또는 G이고, X₅는 T 또는 G 또는 A이고, X₆는 G 또는 T 또는 A이고, X₇은 T 또는 G 또는 A이고, X₈은 A 또는 G 또는 T이다. 예를 들어, 일부 구현예에서, RNA 가이드는 ATTGTTGDA(SEQ ID NO: 225)로서 기재된 서열을 갖는 직접 반복부를 포함한다. 일부 구현예에서, SEQ ID NO: 224는 직접 반복부의 5' 말단에 근접한다. 일부 구현예에서, SEQ ID NO: 225는 직접 반복부의 5' 말단에 근접한다. 일부 구현예에서, RNA 가이드는 X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO: 226)로서 기재된 서열을 갖는 직접 반복부를 포함하고, 여기서 X₁은 T 또는 C 또는 A이고, X₂는 T 또는 A 또는 G이고, X₃는 T 또는 C 또는 A이고, X₄는 T 또는 A이고, X₅는 T 또는 A 또는 G이고, X₆는 T 또는 A이고, X₇은 A 또는 T이고, X₈은 A 또는 G 또는 C 또는 T이고, X₉은 G 또는 A 또는 C이다. 예를 들어, 일부 구현예에서, RNA 가이드는 TTTTWTARG(SEQ ID NO: 227)로서 기재된 서열을 갖는 직접 반복부를 포함한다. 일부 구현예에서, RNA 가이드는 X₁X₂X₃AC(SEQ ID NO: 228)로서 기재된 서열을 갖는 직접 반복부를 포함하고, 여기서 X₁은 A 또는 C 또는 G이고, X₂는 C 또는 A이고, X₃는 A 또는 C이다. 예를 들어, 일부 구현예에서, RNA 가이드는 ACAAC(SEQ ID NO: 229)로서 기재된 서열을 갖는 직접 반복부를 포함한다. 일부 구현예에서, SEQ ID NO: 228는 직접 반복부의 3' 말단에 근접한다. 일부 구현예에서, SEQ ID NO: 229는 직접 반복부의 3' 말단에 근접한다.

일부 구현예에서, RNA 가이드의 스페이서는 표 3의 PAM 서열에 인접한 표적 핵산에 결합된다. 예를 들어, 일부 구현예에서, 본원에 개시된 RNA 가이드와 이펙터의 복합체는 표 3에 지시된 바와 같은 PAM 서열에 인접한 표적 핵산에 결합된다.

[표 3]

CLUST.091979 이펙터에 상응하는 PAM 서열.

일부 구현예에서, RNA 가이드는 tracrRNA를 추가로 포함한다. 일부 구현예에서, tracrRNA는 필요하지 않다(예를 들어, tracrRNA는 선택적임). 일부 구현예에서, tracrRNA는 표 9에 나타낸 비-코딩 서열의 일부이다. 예를 들어, 일부 구현예에서, tracrRNA는 표 4의 서열이다.

[표 4] 예시적인 tracrRNA 서열.

일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 1의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 152, SEQ ID NO: 153, 또는 SEQ ID NO: 154의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 2의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 155, SEQ ID NO: 156, SEQ ID NO: 157, 또는 SEQ ID NO: 158의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 3의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 159, SEQ ID NO: 160, 또는 SEQ ID NO: 161의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 14의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 162의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 17의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 163, SEQ ID NO: 164, SEQ ID NO: 165, 또는 SEQ ID NO: 166의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 18의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 167 또는 SEQ ID NO: 168의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 21의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 169, SEQ ID NO: 170, 또는 SEQ ID NO: 171의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 22의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 172, SEQ ID NO: 173, SEQ ID NO: 174, 또는 SEQ ID NO: 175의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 23의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 176, SEQ ID NO: 177, SEQ ID NO: 178, 또는 SEQ ID NO: 179의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 27의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 180 또는 SEQ ID NO: 181의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 29의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 182, SEQ ID NO: 183, 또는 SEQ ID NO: 184의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 31의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 185, SEQ ID NO: 186, SEQ ID NO: 187, 또는 SEQ ID NO: 188의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 32의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 189 또는 SEQ ID NO: 190의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 36의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 182, SEQ ID NO: 183, 또는 SEQ ID NO: 184의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 38의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 189 또는 SEQ ID NO: 190의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 39의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 185, SEQ ID NO: 186, SEQ ID NO: 187, 또는 SEQ ID NO: 188의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 41의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 191, SEQ ID NO: 192, SEQ ID NO: 193, 또는 SEQ ID NO: 194의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 43의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 197, SEQ ID NO: 198, 또는 SEQ ID NO: 199의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 44의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 195 또는 SEQ ID NO: 196의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 45의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 163, SEQ ID NO: 164, SEQ ID NO: 165, 또는 SEQ ID NO: 166의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 48의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 200, SEQ ID NO: 201, 또는 SEQ ID NO: 202의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 52의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 197, SEQ ID NO: 198, 또는 SEQ ID NO: 199의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 55의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 200, SEQ ID NO: 201, 또는 SEQ ID NO: 202의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다. 일부 구현예에서, CRISPR-연관 단백질은 SEQ ID NO: 56의 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고, tracrRNA 서열은 SEQ ID NO: 203 또는 SEQ ID NO: 204의 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함한다.

RNA 가이드 서열은 CRISPR 복합체의 형성 및 표적에 대한 성공적인 결합을 허용하는 동시에 성공적인 뉴클레아제 활성을 허용하지 않는(즉, 뉴클레아제 활성 없는/인델 유발 없는) 방식으로 변형될 수 있다. 이들 변형된 가이드 서열은 "데드 가이드" 또는 "데드 가이드 서열"로 지칭된다. 이들 데드 가이드 또는 데드 가이드 서열은 뉴클레아제 활성과 관련하여 촉매적으로 비활성이거나 입체적으로 비활성일 수 있다. 데드 가이드 서열은 전형적으로 활성 RNA 절단을 초래하는 각각의 가이드서열보다 짧다. 일부 구현예에서, 데드 가이드는 뉴클레아제 활성을 갖는 각각의 RNA 가이드보다 5%, 10%, 20%, 30%, 40%, 또는 50% 더 짧다. RNA 가이드의 데드 가이드 서열은 13 개 내지 15 개 뉴클레오티드 길이(예를 들어, 13 개, 14 개, 또는 15 개 뉴클레오티드 길이), 15 개 내지 19 개 뉴클레오티드 길이, 또는 17 개 내지 18 개 뉴클레오티드 길이(예를 들어, 17 개 뉴클레오티드 길이)일 수 있다.

따라서, 일 양태에서, 본 개시는 본원에 기재된 바와 같은 기능적 CLUST.091979 CRISPR 이펙터 및 RNA 가이드를 포함하는 비-자연 발생 또는 조작된 CRISPR 시스템을 제공하고, 여기서 RNA 가이드는 데드 가이드 서열을 포함하고, 이에 의해 RNA 가이드는 CRISPR 시스템이 검출 가능한 절단 활성 없이 세포에서 관심 게놈 유전자좌로 유도되도록 표적 서열에 혼성화될 수 있다. 데드 가이드에 대한 상세한 설명은, 예를 들어, 그 전체가 본원에 참조로 포함되는 WO 2016094872에 기재되어 있다.

유도성 RNA 가이드

RNA 가이드는 유도성 시스템의 구성 요소로 생성될 수 있다. 시스템의 유도성 성질은 유전자 편집 또는 유전자 발현의 시공간적 제어를 허용한다. 일부 구현예에서, 유도성 시스템에 대한 자극은, 예를 들어, 전자기 복사, 음향 에너지, 화학적 에너지 및/또는 열 에너지를 포함한다.

일부 구현예에서, RNA 가이드의 전사는 유도성 프로모터, 예를 들어, 테트라사이클린 또는 독시사이클린 제어 전사 활성화(Tet-On 및 Tet-Off 발현 시스템), 호르몬 유도성 유전자 발현 시스템(예를 들어, 엑디손 유도성 유전자 발현 시스템), 및 아라비노스-유도성 유전자 발현 시스템에 의해 조절될 수 있다. 유도성 시스템의 다른 예는, 예를 들어, 소분자 2-하이브리드 전사 활성화 시스템(FKBP, ABA 등), 광 유도성 시스템(피토크롬, LOV 도메인, 또는 크립토크롬), 또는 광 유도성 전사 이펙터(LITE)를 포함한다. 이들 유도성 시스템은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 WO 2016205764 및 US 8795965에 기재되어 있다.

화학적 변형

화학적 변형은 RNA 가이드의 포스페이트 백본, 당, 및/또는 염기에 적용될 수 있다. 포스포로티오에이트와 같은 백본 변형은 포스페이트 백본에 대한 전하를 변형시키고, 올리고뉴클레오티드의 전달 및 뉴클레아제 내성(예를 들어, 문헌[Eckstein, "Phosphorothioates, essential components of therapeutic oligonucleotides," Nucl. Acid Ther., 24 (2014), pp. 374-387] 참조); 당, 예컨대, 2'-O-메틸(2'-OMe), 2'-F, 및 잠금 핵산(LNA)의 변형을 돕고, 염기 쌍형성과 뉴클레아제 내성 둘 모두를 향상시킨다(예를 들어, 문헌[Allerson et al. "Fully 2 '-modified oligonucleotide duplexes with improved in vitro potency and stability compared to unmodified small interfering RNA," J. Med. Chem., 48.4 (2005): 901-904] 참조). 특히, 2-티오우리딘 또는 N6-메틸아데노신과 같은 화학적 변형 염기는 더 강하거나 더 약한 염기 쌍형성을 가능하게 할 수 있다(예를 들어, 문헌[Bramsen et al., "Development of therapeutic-grade small interfering RNAs by chemical engineering," Front. Genet., 2012 Aug 20; 3:154] 참조). 추가로, RNA는 형광 염료, 폴리에틸렌 글리콜, 또는 단백질을 포함하는 다양한 기능적 모이어티와 5' 말단 접합과 3' 말단 접합 둘 모두에 적합하다.

매우 다양한 변형이 화학적으로 합성된 RNA 가이드 분자에 적용될 수 있다. 예를 들어, 뉴클레아제 내성을 개선하기 위해 2'-OMe로 올리고뉴클레오티드를 변형시키는 것은 왓슨-크릭(Watson-Crick) 염기 쌍형성의 결합 에너지를 변경할 수 있다. 또한, 2'-OMe 변형은 올리고뉴클레오티드가 세포에서 형질감염 시약, 단백질 또는 임의의 다른 분자와 상호작용하는 방식에 영향을 미칠 수 있다. 이들 변형의 효과는 경험적 시험에 의해 결정될 수 있다.

일부 구현예에서, RNA 가이드는 하나 이상의 포스포로티오에이트 변형을 포함한다. 일부 구현예에서, RNA 가이드는 염기 쌍형성을 향상시키고/향상시키거나 뉴클레아제 내성을 증가시키기 위한 목적으로 하나 이상의 잠금 핵산을 포함한다.

이들 화학적 변형의 요약은, 예를 들어, 각각 그 전체가 참조로 포함되는 문헌[Kelley et al., "Versatility of chemically synthesized guide RNAs for CRISPR-Cas9 genome editing," J. Biotechnol. 2016 Sep 10; 233:74-83; WO 2016205764]; 및 US 8795965에서 찾아볼 수 있다.

서열 변형

본원에 기재된 RNA 가이드, tracrRNA, 및 crRNA의 서열 및 길이는 최적화될 수 있다. 일부 구현예에서, RNA 가이드의 최적화된 길이는 가공된 형태의 tracrRNA 및/또는 crRNA를 동정함으로써, 또는 RNA 가이드, tracrRNA, crRNA, 및 tracrRNA 테트라루프에 대한 경험적 길이 연구에 의해 결정될 수 있다.

RNA 가이드는 또한 하나 이상의 압타머 서열을 포함할 수 있다. 압타머는 특정 표적 분자에 결합할 수 있는 올리고뉴클레오티드 또는 펩티드 분자이다. 압타머는 유전자 이펙터, 유전자 활성화제, 또는 유전자 억제자에 특이적일 수 있다. 일부 구현예에서, 압타머는 단백질에 특이적일 수 있으며, 이는 차례로 특정 유전자 이펙터, 유전자 활성화제 또는 유전자 억제자에 특이적이고 동원/결합한다. 이펙터, 활성화제, 또는 억제자는 융합 단백질의 형태로 존재할 수 있다. 일부 구현예에서, RNA 가이드는 동일한 어댑터 단백질에 특이적인 둘 이상의 압타머 서열을 갖는다. 일부 구현예에서, 둘 이상의 압타머 서열은 상이한 어댑터 단백질에 특이적이다. 어댑터 단백질은, 예를 들어, MS2, PP7, Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, φCb5, φCb8r, φCb12r, φCb23r, 7s, 및 PRR1을 포함할 수 있다. 따라서, 일부 구현예에서, 압타머는 본원에 기재된 바와 같은 어댑터 단백질 중 어느 하나를 특이적으로 결합하는 결합 단백질로부터 선택된다. 일부 구현예에서, 압타머 서열은 MS2 루프이다. 압타머의 상세한 설명은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 문헌[Nowak et al., "Guide RNA engineering for versatile Cas9 functionality," Nucl. Acid. Res., 2016 Nov 16;44(20):9555-9564]; 및 WO 2016205764에서 찾아볼 수 있다.

가이드: 표적 서열 매칭 요건

CRISPR 시스템에서, 가이드 서열과 이의 상응하는 표적 서열 사이의 상보성 정도는 약 50%, 60%, 75%, 80%, 85%, 90%, 95%, 97.5%, 99%, 또는 100%일 수 있다. 표적 외 상호작용을 감소시키기 위해, 예를 들어, 낮은 상보성을 갖는 표적 서열과 상호작용하는 가이드를 감소시키기 위해, CRISPR 시스템이 80%, 85%, 90%, 또는 95% 초과의 상보성을 갖는 표적 서열과 표적 외 서열 사이를 구별할 수 있도록 돌연변이가 CRISPR 시스템에 도입될 수 있다. 일부 구현예에서, 상보성 정도는 80% 내지 95%, 예를 들어, 약 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 또는 95%이다(예를 들어, 1 개, 2 개, 또는 3 개 미스매치를 갖는 18 개 뉴클레오티드의 표적 외로부터 18 개 뉴클레오티드를 갖는 표적 사이를 구별하는). 따라서, 일부 구현예에서, 가이드 서열과 이의 상응하는 표적 서열 사이의 상보성 정도는 94.5%, 95%, 95.5%, 96%, 96.5%, 97%, 97.5%, 98%, 98.5%, 99%, 99.5%, 또는 99.9% 초과이다. 일부 구현예에서, 상보성 정도는 100%이다.

기능적이기에 충분한 상보성이 있는 한 완전한 상보성이 필요하지 않다는 것은 당 분야에서 알려져 있다. 절단 효율의 조절은 스페이서/표적에 따른 미스매치의 위치를 포함하여 스페이서 서열과 표적 서열 사이의 미스매치, 예를 들어, 하나 이상의 미스매치, 예컨대, 1 개 또는 2 개의 미스매치의 도입에 의해 이루어질 수 있다. 더 중심적인(즉, 3' 말단 또는 5' 말단이 아님) 미스매치, 예를 들어, 이중 미스매치가 위치하며; 더 큰 절단 효율이 영향을 받는다. 따라서, 스페이서 서열에 따라 미스매치 위치를 선택함으로써, 절단 효율이 조절될 수 있다. 예를 들어, 표적의 100% 미만의 절단이 요망된다면(예를 들어, 세포 집단에서), 스페이서와 표적 서열 사이에 1 개 또는 2 개의 미스매치가 스페이서 서열에 도입될 수 있다.

CRISPR 시스템의 사용 방법

본원에 기재된 CRISPR 시스템은 다수의 세포 유형에서 표적 폴리뉴클레오티드를 변형(예를 들어, 결실, 삽입, 전위, 비활성화 또는 활성화)시키는 것을 포함하는 매우 다양한 용도를 갖는다. CRISPR 시스템은, 예를 들어, DNA/RNA 검출(예를 들어, 특정 고감도 효소 리포터 잠금 해제(SHERLOCK)), 핵산의 추적 및 표지, 존재비 검정(배경으로부터 요망되는 서열 추출), 순환하는 종양 DNA 검출, 차세대 라이브러리 제조, 약물 스크리닝, 질병 진단 및 예후, 및 다양한 유전 장애 치료에 광범위한 적용을 갖는다.

DNA/RNA 검출

일 양태에서, 본원에 기재된 CRISPR 시스템은 DNA/RNA 검출에 사용될 수 있다. 단일 이펙터 RNA-가이드 DNase는 CRISPR RNA(crRNA)로 재프로그래밍되어 특정 단일 가닥 DNA(ssDNA) 감지를 위한 플랫폼을 제공할 수 있다. 이의 DNA 표적이 인식되면, 활성화된 V형 단일 이펙터 DNA-가이드 DNase는 부근의 비-표적 ssDNA의 "부수적" 절단에 관여한다. 이러한 crRNA-프로그래밍된 부수적 절단 활성은 CRISPR 시스템이 표지된 ssDNA의 비특이적 분해에 의해 특정 DNA의 존재를 검출할 수 있게 한다.

부수적 ssDNA 활성은 DNA 검출을 위한 아토몰 감도를 달성하는, DNA 엔도뉴클레아제-표적화 CRISPR 트랜스 리포터(DNA Endonuclease-Targeted CRISPR trans reporter; DETECTR) 방법이라 불리는 방법과 같은 DNA 검출 적용에서 리포터와 조합될 수 있다(예를 들어, 그 전체가 참조로 본원에 포함되는 문헌[Chen et al., Science, 360(6387):436-439, 2018] 참조). 본원에 기재된 효소를 사용하는 한 가지 적용은 시험관내 환경에서 비-특이적 ssDNA를 분해하는 것이다. 형광단과 소광제를 연결하는 "리포터" ssDNA 분자는 또한 미지의 DNA(단일-가닥 또는 이중-가닥) 샘플과 함께 시험관내 시스템에 첨가될 수 있다. 미지의 DNA 조각에서 표적 서열을 인식하면, 이펙터 복합체는 리포터 ssDNA를 절단하여 형광 판독을 한다.

다른 구현예에서, SHERLOCK 방법(특정 고감도 효소 리포터 잠금해제)은 또한 표적의 실시간 검출을 가능하게 하는 리포터 ssDNA의 부수적 절단 및 핵산 증폭에 기초한 아토몰(또는 단일-분자) 감도를 갖는 시험관내 핵산 검출 플랫폼을 제공한다. SHERLOCK에서 CRISPR를 사용하는 방법은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Gootenberg, et al. "Nucleic acid detection with CRISPR-Cas13a/C2c2," Science, 356(6336):438-442 (2017)]에 상세히 기재되어 있다.

일부 구현예에서, 본원에 기재된 CRISPR 시스템은 다중 오류-강성 형광 인 시튜 혼성화(MERFISH)에 사용될 수 있다. 이들 방법은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Chen et al., "Spatially resolved, highly multiplexed RNA profiling in single cells," Science, 2015 Apr 24; 348(6233):aaa6090]에 기재되어 있다.

핵산의 추적 및 표지

세포 과정은 단백질, RNA 및 DNA 간의 분자 상호작용 네트워크에 좌우된다. 단백질-DNA 및 단백질-RNA 상호작용의 정확한 검출은 이러한 과정을 이해하는 데 중요하다. 시험관내 근접 표지 기법은 리포터 그룹, 예를 들어, 광활성 기와 조합된 친화성 태그를 사용하여 시험관내에서 관심 단백질 또는 RNA의 부근에 있는 폴리펩티드 및 RNA를 표지한다. UV 조사 후, 광활성 기는 태그가 있는 분자에 매우 근접한 단백질 및 다른 분자와 반응하여 이들을 표지한다. 표지된 상호작용 분자는 후속적으로 회수되고 동정될 수 있다. 예를 들어, RNA 표적화 이펙터 단백질은 선택된 RNA 서열에 대해 프로브를 표적화하는 데 사용될 수 있다. 이들 적용은 또한 질환 또는 배양하기 어려운 세포 유형의 생체내 영상화를 위한 동물 모델에 적용될 수 있다. 핵산의 추적 및 표지 방법은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 US 8795965; WO 2016205764; 및 WO 2017070605에 기재되어 있다.

고처리량 스크리닝

본원에 기재된 CRISPR 시스템은 차세대 시퀀싱(NGS) 라이브러리를 제조하는데 사용될 수 있다. 예를 들어, 비용-효과적인 NGS 라이브러리를 생성하기 위해, CRISPR 시스템을 사용하여 표적 유전자의 코딩 서열을 방해할 수 있으며, CRISPR 이펙터 형질감염된 클론은 차세대 시퀀싱(예를 들어, Ion Torrent PGM 시스템에서)에 의해 동시에 스크리닝될 수 있다. NGS 라이브러리를 제조하는 방법에 관한 상세한 설명은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Bell et al., "A high-throughput screening strategy for detecting CRISPR-Cas9 induced mutations using next-generation sequencing," BMC Genomics, 15.1 (2014): 1002]에서 찾아볼 수 있다.

조작된 세포

미생물(예를 들어, 이. 콜라이, 효모 및 미세조류)은 합성 생물학에 널리 사용된다. 합성 생물학의 발전은 다양한 임상적 적용을 포함하여 광범위한 유용성을 갖는다. 예를 들어, 프로그래밍 가능한 CRISPR 시스템은, 예를 들어, 표적 전사체로서 암-연결된 RNA를 사용하여 표적화된 세포 사멸을 위한 독성 도메인의 단백질을 분할하는 데 사용될 수 있다. 또한, 단백질-단백질 상호작용을 포함하는 경로는, 예를 들어, 키나제 또는 효소와 같은 적절한 이펙터와의 융합 복합체가 있는 합성 생물학적 시스템에서 영향을 받을 수 있다.

일부 구현예에서, 파지 서열을 표적화하는 RNA 가이드 서열은 미생물에 도입될 수 있다. 따라서, 본 개시는 또한 파지 감염에 대항하여 미생물(예를 들어, 생산 균주)을 "백신접종"하는 방법을 제공한다.

일부 구현예에서, 본원에 제공된 CRISPR 시스템은, 예를 들어, 수율을 향상시키거나 발효 효율을 향상시키기 위해 미생물을 조작하는 데 사용될 수 있다. 예를 들어, 본원에 기재된 CRISPR 시스템은 효모와 같은 미생물을 조작하여 발효 가능한 당으로부터 바이오연료 또는 바이오폴리머를 생산하거나, 발효 가능한 당의 공급원으로서 농업 폐기물로부터 유래된 식물-유래 리그노셀룰로스를 분해하는 데 사용될 수 있다. 보다 구체적으로, 본원에 기재된 방법은 바이오연료 생산에 필요한 내인성 유전자의 발현을 변형시키고/변형시키거나 바이오연료 합성을 방해할 수 있는 내인성 유전자를 변형시키는 데 사용될 수 있다. 미생물을 조작하는 이들 방법은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 문헌[Verwaal et al., "CRISPR/Cpf1 enables fast and simple genome editing of Saccharomyces cerevisiae," Yeast, 2017 Sep 8. doi: 10.1002/yea.3278; 및 Hlavova et al., "Improving microalgae for biotechnology―from genetics to synthetic biology," Biotechnol. Adv., 2015 Nov 1; 33:1194-203]에 기재되어 있다.

일부 구현예에서, 본원에 제공된 CRISPR 시스템은 진핵 세포 또는 진핵 유기체를 조작하는 데 사용될 수 있다. 예를 들어, 본원에 기재된 CRISPR 시스템은 식물 세포, 진균 세포, 포유류 세포, 파충류 세포, 곤충 세포, 조류 세포, 어류 세포, 기생충 세포, 절지 동물 세포, 무척추 동물 세포, 척추 동물 세포, 설치류 세포, 마우스 세포, 랫트 세포, 영장류 세포, 비-인간 영장류 세포, 또는 인간 세포로 국한되지 않는 진핵 세포를 조작하는 데 사용될 수 있다. 일부 구현예에서, 진핵 세포는 시험관내 배양이다. 일부 구현예에서, 진핵 세포는 생체내이다. 일부 구현예에서, 진핵 세포는 생체외이다.

일부 구현예에서, 세포는 세포주로부터 유래된다. 조직 배양을 위한 매우 다양한 세포주가 당업계에 공지되어 있다. 세포주의 예는 293T, MF7, K562, HeLa 및 이들의 트랜스제닉 변종을 포함하지만, 이로 제한되지 않는다. 세포주는 당업자에게 공지된 다양한 공급원으로부터 입수 가능하다(예를 들어, 미국형 배양물 보관소(American Type Culture Collection; ATCC)(Manassas, Va.) 참조). 일부 구현예에서, 하나 이상의 핵산(예컨대, 뉴클레아제 폴리펩티드 인코딩 벡터 및 RNA 가이드)으로 형질감염된 세포는 표적 핵산 또는 표적 유전자좌에 대한 변형을 포함하는 새로운 세포주를 확립하기 위해 하나 이상의 벡터-유래된 서열을 포함하는 새로운 세포주를 확립하는 데 사용된다. 일부 구현예에서, 세포는 불멸 또는 불멸화된 세포이다.

일부 구현예에서, 세포는 일차 세포이다. 일부 구현예에서, 세포는 전능성 줄기 세포(예를 들어, 전능성), 다능성 줄기 세포, 다능성 줄기 세포, 과소능성 줄기 세포, 또는 단능성 줄기 세포와 같은 줄기 세포이다. 일부 구현예에서, 세포는 유도된 다능성 줄기 세포(iPSC)이거나 iPSC로부터 유래된다. 일부 구현예에서, 세포는 분화된 세포이다. 예를 들어, 일부 구현예에서, 분화된 세포는 근육 세포(예를 들어, 근세포), 지방 세포(예를 들어, 지방세포(adipocyte)), 골 세포(예를 들어, 조골세포, 골세포, 파골세포), 혈액 세포(예를 들어, 단핵구, 림프구, 호중구, 호산구, 호염기구, 대식세포, 적혈구 또는 혈소판), 신경 세포(예를 들어, 뉴런), 상피 세포, 면역 세포(예를 들어, 림프구, 호중구, 단핵구, 또는 대식세포), 간 세포(예를 들어, 간세포(hepatocyte)), 섬유아세포, 또는 성세포이다. 일부 구현예에서, 세포는 말단 분화된 세포이다. 예를 들어, 일부 구현예에서, 말단 분화 세포는 신경 세포, 지방 세포, 심근 세포, 골격근 세포, 표피 세포 또는 장 세포이다. 일부 구현예에서, 세포는 포유류 세포, 예를 들어, 인간 세포 또는 뮤린 세포이다. 일부 구현예에서, 뮤린 세포는 야생형 마우스, 면역억제된 마우스, 또는 질병-특이적 마우스 모델로부터 유래된다.

유전자 드라이브

유전자 드라이브는 특정 유전자 또는 유전자 세트의 유전이 유리하게 편향되는 현상이다. 본원에 기재된 CRISPR 시스템은 유전자 드라이브를 구축하는 데 사용될 수 있다. 예를 들어, CRISPR 시스템은 유전자의 특정 대립유전자를 표적화하고 파괴하여 세포가 두 번째 대립유전자를 복제하여 서열을 고정시키도록 설계될 수 있다. 복제로 인해, 제1 대립유전자가 제2 대립유전자로 전환되어 제2 대립유전자가 자손에게 전파될 가능성이 증가할 것이다. 유전자 드라이브를 구축하기 위해 본원에 기재된 CRISPR 시스템을 어떻게 사용하는 지에 관한 상세한 방법은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Hammond et al., "A CRISPR-Cas9 gene drive system targeting female reproduction in the malaria mosquito vector Anopheles gambiae," Nat. Biotechnol., 2016 Jan; 34(1):78-83]에 기재되어 있다.

풀링-스크리닝

본원에 기재된 바와 같이, 풀링된 CRISPR 스크리닝은 세포 증식, 약물 내성, 및 바이러스 감염과 같은 생물학적 메커니즘에 관여하는 유전자를 동정하기 위한 강력한 도구이다. 세포는 본원에 기재된 RNA 가이드-인코딩 벡터의 라이브러리로 대량으로 형질도입되고, gRNA의 분포는 선택적 공격을 적용하기 전 및 후에 측정된다. 풀링된 CRISPR 스크린은 세포 생존 및 증식에 영향을 미치는 메커니즘에 대해 잘 작동하며, 이들은 개별 유전자의 활성을 측정하도록 확장될 수 있다(예를 들어, 조작된 리포터 세포주를 사용함으로써). 단지 하나의 유전자만 한 번에 표적화되는 배열된 CRISPR 스크린은 판독 값으로서 RNA-seq를 사용할 수 있게 한다. 일부 구현예에서, 본원에 기재된 바와 같은 CRISPR 시스템은 단일-세포 CRISPR 스크린에서 사용될 수 있다. 풀링된 CRISPR 스크리닝에 관한 상세한 설명은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Datlinger et al., "Pooled CRISPR screening with single-cell transcriptome read-out," Nat. Methods., 2017 Mar; 14(3):297-301]에서 찾아볼 수 있다.

포화 돌연변이유발("바싱(Bashing)")

본원에 기재된 CRISPR 시스템은 인 시튜 포화 돌연변이유발에 사용될 수 있다. 일부 구현예에서, 풀링된 RNA 가이드 라이브러리는 특정 유전자 또는 조절 요소에 대한 인 시튜 포화 돌연변이유발을 수행하는 데 사용될 수 있다. 이러한 방법은 이들 유전자 또는 조절 요소(예를 들어, 인핸서)의 중요한 최소 특징 및 별개의 취약성을 나타낼 수 있다. 이들 방법은, 예를 들어, 그 전체가 본원에 참조로 포함되는 문헌[Canver et al., "BCL11A enhancer dissection by Cas9-mediated in situ saturating mutagenesis," Nature, 2015 Nov 12; 527(7577):192-7]에 기재되어 있다.

치료적 적용

일부 구현예에서, 본원에 기재된 CRISPR 시스템은 표적 핵산을 변형시키도록(예를 들어, 하나 이상의 아미노산 잔기를 삽입, 결실, 또는 돌연변이시킴으로써) 표적 핵산을 편집하는 데 사용될 수 있다. 예를 들어, 일부 구현예에서, 본원에 기재된 CRISPR 시스템은 바람직한 핵산 서열을 포함하는 외인성 도너 주형 핵산(예를 들어, DNA 분자 또는 RNA 분자)을 포함한다. 본원에 기재된 CRISPR 시스템으로 유도된 절단 사건의 해결 시, 세포의 분자 기구는 절단 사건을 수복 및/또는 해결하는 데 외인성 도너 주형 핵산을 이용할 수 있다. 대안적으로, 세포의 분자 기구는 절단 사건을 수복 및/또는 해결하는 데 내인성 주형을 이용할 수 있다. 일부 구현예에서, 본원에 기재된 CRISPR 시스템은 표적 핵산을 변형시켜 삽입, 결실, 및/또는 점 돌연변이를 야기하는 데 사용될 수 있다. 일부 구현예에서, 삽입은 흔적이 없는 삽입(즉, 절단 사건의 해결 시 추가적인 의도하지 않은 핵산 서열을 생성하지 않는 표적 핵산으로 의도된 핵산 서열의 삽입)이다. 도너 주형 핵산은 이중-가닥 또는 단일-가닥 핵산 분자(예를 들어, DNA 또는 RNA)일 수 있다. 외인성 도너 주형 핵산을 설계하는 방법은, 예를 들어, 전체 내용이 참조로 본원에 분명히 포함되는 WO 2016094874에 기재되어 있다.

또 다른 양태에서, 본 개시는 RNA 서열 특이적 간섭; RNA 서열-특이적 유전자 조절; RNA, RNA 산물, lncRNA, 비-코딩 RNA, 핵 RNA, 또는 mRNA의 스크리닝; 돌연변이유발; RNA 스플라이싱의 억제; 형광 인 시튜 혼성화; 번식; 세포 휴면 유도; 세포 주기 정지 유도; 세포 성장 및/또는 세포 증식의 감소; 세포 무반응 유도; 세포 아폽토시스 유도; 세포 괴사 유도; 세포 사멸 유도; 또는 세포 예정사의 유도로 이루어진 군으로부터 선택된 방법에서 본원에 기재된 시스템의 용도를 제공한다.

본원에 기재된 CRISPR 시스템은 다양한 치료적 적용을 가질 수 있다. 일부 구현예에서, 새로운 CRISPR 시스템은 다양한 질환 및 장애, 예를 들어, 유전적 장애(예를 들어, 단성생성 질환) 또는 뉴클레아제 활성에 의해 치료될 수 있는 질환(예를 들어, Pcsk9 표적화 또는 BCL11a 표적화)을 치료하는 데 사용될 수 있다. 일부 구현예에서, 본원에 기재된 방법은 대상체, 예를 들어, 인간 환자와 같은 포유류를 치료하는 데 사용된다. 포유류 대상체는 또한 개, 고양이, 말, 원숭이, 토끼, 래트, 마우스, 소, 염소 또는 양과 같은 가축일 수 있다.

방법은 감염성 병태 또는 질환을 포함할 수 있고, 여기서 감염제는 인간 면역결핍 바이러스(HIV), 단순 포진 바이러스-1(HSV1), 및 단순 포진 바이러스-2(HSV2)로 이루어진 군으로부터 선택된다.

일 양태에서, 본원에 기재된 CRISPR 시스템은 RNA, 독성 RNA 및/또는 돌연변이된 RNA의 과발현(예를 들어, 스플라이싱 결함 또는 절두)에 의해 초래된 질환을 치료하는 데 사용될 수 있다. 예를 들어, 독성 RNA의 발현은 핵 내포물의 형성 및 뇌, 심장, 또는 골격근의 후기 발병 퇴행성 변화와 관련이 있을 수 있다. 일부 구현예에서, 장애는 근이영양증이다. 근이영양증에서, 독성 RNA의 주요 병원성 효과는 결합 단백질을 격리하고 대체 스플라이싱의 조절을 손상시키는 것이다(예를 들어, 문헌[Osborne et al., "RNA-dominant diseases," Hum. Mol. Genet., 2009 Apr 15; 18(8):1471-81] 참조). 근이영양증(근긴장성 영양증(DM))은 매우 광범위한 임상적 특징을 생성하기 때문에 유전학자에게 특히 관심의 대상이 된다. 현재 1형 DM(DM1)으로 불리는 고전적인 형태의 DM은 세포질 단백질 키나제를 인코딩하는 유전자인 DMPK의 3'-비번역 영역(UTR)에서 CTG 반복부의 확장에 의해 초래된다. 본원에 기재된 바와 같은 CRISPR 시스템은 DM1 골격근, 심장 또는 뇌에서 과발현된 RNA 또는 독성 RNA, 예를 들어, DMPK 유전자 또는 임의의 잘못조절된 대체 스플라이싱을 표적화할 수 있다.

본원에 기재된 CRISPR 시스템은 또한, 예를 들어, 프라더 윌리 증후군(Prader Willi syndrome), 척추 근위축증(SMA), 및 선천성 각화증과 같은 다양한 질환을 유발하는 RNA-의존적 기능에 영향을 미치는 트랜스-작용 돌연변이를 표적화할 수 있다. 본원에 기재된 CRISPR 시스템을 사용하여 치료될 수 있는 질환의 목록은 각각 그 전체가 본원에 참조로 포함되는 문헌[Cooper et al., "RNA and disease," Cell, 136.4 (2009): 777-793], 및 WO 2016205764에 요약되어 있다.

본원에 기재된 CRISPR 시스템은 또한, 예를 들어, 일차 및 이차 타우병증, 예컨대, 일차 연령-관련 타우병증(PART)/신경섬유 엉킴증(NFT)-우세 노인성 치매(알츠하이머 병(AD)에서 보이지만 플라크는 없는 것들과 유사한 NFT가 있는), 권투선수 치매(만성 외상성 뇌병증), 및 진행성 핵상 마비를 포함하는 다양한 타우병증의 치료에 사용될 수 있다. 타우병증 및 이들 질환을 치료하는 방법의 유용한 목록은, 예를 들어, 그 전체가 본원에 참조로 포함되는 WO 2016205764에 기재되어 있다.

본원에 기재된 CRISPR 시스템은 또한 스플라이싱 결손 및 질환을 일으킬 수 있는 시스-작용 스플라이싱 코드를 파괴하는 돌연변이를 표적화하는 데 사용될 수 있다. 이들 질환은, 예를 들어, SMN1 유전자의 결실로부터 기인한 운동 뉴런 퇴행성 질환(예를 들어, 척수성 근위축증), 뒤센 근이영양증(DMD), 전두측두엽 치매, 17 번 염색체에 연결된 파킨슨병(FTDP-17), 및 낭포성 섬유증을 포함한다.

본원에 기재된 CRISPR 시스템은 추가로 특히 RNA 바이러스에 대항하는 항바이러스 활성을 위해 사용될 수 있다. 이펙터 단백질은 바이러스 RNA를 표적화하도록 선택된 적합한 RNA 가이드를 사용하여 바이러스 RNA 서열을 표적화할 수 있다.

또한, 시험관내 RNA 감지 분석은 특정 RNA 기질을 검출하는 데 사용될 수 있다. RNA 표적화 이펙터 단백질은 살아 있는 세포에서 RNA-기반 감지에 사용될 수 있다. 적용의 예는, 예를 들어, 질환-특이적 RNA를 감지하여 진단하는 것이다.

본원에 기재된 CRISPR 시스템의 치료 용도의 상세한 설명은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 US 8795965, EP 3009511, WO 2016205764, 및 WO 2017070605에서 찾아볼 수 있다.

식물에서의 적용

본원에 기재된 CRISPR 시스템은 식물에서 매우 다양한 유용성을 갖는다. 일부 구현예에서, CRISPR 시스템은 식물의 게놈을 조작하기 위해 사용될 수 있다(예를 들어, 생산 개선, 요망되는 번역후 변형을 갖는 제품 제조, 또는 산업적 제품 생산을 위한 유전자 도입). 일부 구현예에서, CRISPR 시스템은 식물에 요망되는 형질을 도입하거나(예를 들어, 게놈에 대해 유전적 변형을 갖거나 갖지 않는), 식물 세포 또는 전체 식물에서 내인성 유전자의 발현을 조절하는 데 사용될 수 있다.

일부 구현예에서, CRISPR 시스템은 특정 단백질, 예를 들어, 알레르겐 단백질(예를 들어, 땅콩, 대두, 편두, 완두, 녹두, 및 길두에서의 알레르겐 단백질)을 인코딩하는 유전자를 동정, 편집 및/또는 침묵시키기 위해 사용될 수 있다. 단백질을 인코딩하는 유전자를 동정, 편집 및/또는 침묵시키는 방법에 관한 상세한 설명은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 문헌[Nicolaou et al., "Molecular diagnosis of peanut and legume allergy," Curr. Opin. Allergy Clin. Immunol., 11(3):222-8 (2011)] 및 WO 2016205764에 기재되어 있다.

CRISPR 시스템의 전달

본 개시 및 당 분야의 지식을 통해, 본원에 기재된 CRISPR 시스템, 이의 구성 요소, 이의 핵산 분자, 또는 이의 구성 요소를 인코딩하거나 제공하는 핵산 분자는 벡터, 예를 들어, 플라스미드 또는 바이러스 전달 벡터와 같은 다양한 전달 시스템에 의해 전달될 수 있다. 본원에 개시된 CRISPR 이펙터 및/또는 임의의 RNA(예를 들어, RNA 가이드)는 적합한 벡터, 예를 들어, 플라스미드 또는 바이러스 벡터, 예컨대, 아데노-관련 바이러스(AAV), 렌티바이러스, 아데노바이러스, 및 기타 바이러스 벡터, 또는 이들의 조합을 이용하여 전달될 수 있다. 이펙터 및 하나 이상의 RNA 가이드는 하나 이상의 벡터, 예를 들어, 플라스미드 또는 바이러스 벡터로 패키징될 수 있다.

일부 구현예에서, 벡터, 예를 들어, 플라스미드 또는 바이러스 벡터는, 예를 들어, 근육내 주사, 정맥내 투여, 경피 투여, 비강내 투여, 경구 투여 또는 점막 투여에 의해 관심 조직으로 전달된다. 이러한 전달은 1 회 용량 또는 다중 용량을 통해 이루어질 수 있다. 당업자는 본원의 전달될 실제 투여량이 벡터 선택, 표적 세포, 유기체, 조직, 치료하고자 하는 대상체의 전반적인 상태, 추구되는 형질전환/변형의 정도, 투여 경로, 투여 방식, 및 추구되는 형질전환/변형의 유형을 포함하지만, 이로 제한되지 않는 다양한 인자들에 좌우하여 크게 달라질 수 있음을 이해한다.

특정의 구현예에서, 전달은 아데노바이러스를 통해 이루어지며, 이는 아데노바이러스의 적어도 1 × 10⁵ 개 입자(입자 단위, pu로도 지칭됨)를 함유하는 1 회 용량일 수 있다. 일부 구현예에서, 용량은 바람직하게는 아데노바이러스의 적어도 약 1 × 10⁶ 개 입자, 적어도 약 1 × 10⁷ 개 입자, 적어도 약 1 × 10⁸ 개 입자, 및 적어도 약 1 × 10⁹ 개 입자이다. 전달 방법 및 용량은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 WO 2016205764 및 US 8454972에 기재되어 있다.

일부 구현예에서, 전달은 플라스미드를 통해 이루어진다. 투여량은 반응을 유발하기에 충분한 수의 플라스미드일 수 있다. 일부 경우에, 플라스미드 조성물 중 플라스미드 DNA의 적합한 양은 약 0.1 mg 내지 약 2 mg일 수 있다. 플라스미드는 일반적으로 (i) 프로모터; (ii) 프로모터에 작동 가능하게 연결된 핵산-표적화 CRISPR 이펙터를 인코딩하는 서열; (iii) 선택 가능한 마커; (iv) 복제 기점; 및 (v) (ii)의 하류이며 또한 (ii)에 작동 가능하게 연결된 전사 종결자를 포함할 것이다. 플라스미드는 또한 CRISPR 복합체의 RNA 구성 요소를 인코딩할 수 있지만, 이들 중 하나 이상은 대신에 상이한 벡터에서 인코딩될 수 있다. 투여 빈도는 의학 또는 수의학 전문의(예를 들어, 의사, 수의사) 또는 당업자의 범위 내에 있다.

또 다른 구현예에서, 전달은 리포좀 또는 리포펙틴 제형 등을 통해 이루어지며, 당업자에게 공지된 방법에 의해 제조될 수 있다. 이러한 방법은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 WO 2016205764, US 5593972, US 5589466, 및 US 5580859에 기재되어 있다.

일부 구현예에서, 전달은 나노입자 또는 엑소좀을 통해 이루어진다. 예를 들어, 엑소좀은 전달 RNA에 특히 유용한 것으로 나타났다.

본원에 기재된 CRISPR 시스템의 하나 이상의 구성 요소를 세포에 도입하는 추가 수단은 세포-침투 펩티드(CPP)를 사용하는 것이다. 일부 구현예에서, 세포 침투 펩티드는 CRISPR 이펙터에 연결된다. 일부 구현예에서, CRISPR 이펙터 및/또는 RNA 가이드는 세포(예를 들어, 식물 원형질체)로의 수송을 위해 하나 이상의 CPP에 커플링된다. 일부 구현예에서, CRISPR 이펙터 및/또는 RNA 가이드(들)는 세포 전달을 위해 하나 이상의 CPP에 커플링된 하나 이상의 원형 또는 비-원형 DNA 분자에 의해 인코딩된다.

CPP는 수용체 독립적 방식으로 세포막을 가로 질러 생물분자를 수송할 수 있는 단백질로부터 또는 키메라 서열로부터 유래된 35 개 미만의 아미노산의 짧은 펩티드이다. CPP는 양이온성 펩티드, 소수성 서열을 갖는 펩티드, 양극성 펩타이드, 프롤린-풍부 및 항-미생물 서열을 갖는 펩티드, 및 키메라 또는 이분 펩티드일 수 있다. CPP의 예는, 예를 들어, Tat(1형 HIV에 의한 바이러스 복제에 필요한 핵 전사 활성자 단백질임), 페네트라틴, 카포시 섬유아세포 성장 인자(FGF) 신호 펩티드 서열, 인테그린 β3 신호 펩티드 서열, 폴리알기닌 펩티드 Arg 서열, 구아닌 풍부-분자 수송체, 및 스윗 애로우 펩티드(sweet arrow peptide)를 포함한다. CPP 및 이들을 사용하는 방법은, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 문헌[H

llbrink et al., "Prediction of cell-penetrating peptides," Methods Mol. Biol., 2015; 1324:39-58; Ramakrishna et al., "Gene disruption by cell-penetrating peptide-mediated delivery of Cas9 protein and guide RNA," Genome Res., 2014 Jun;24(6):1020-7]; 및 WO 2016205764에 기재되어 있다.

본원에 기재된 CRISPR 시스템에 대한 다양한 전달 방법은 또한, 예를 들어, 각각 그 전체가 본원에 참조로 포함되는 US 8795965, EP 3009511, WO 2016205764, 및 WO 2017070605에 기재되어 있다.

실시예

본 발명은 하기 실시예에서 추가로 기술되며, 하기 실시예는 청구항에 기재된 발명의 범위를 제한하지 않는다.

실시예 1 - CLUST.091979 CRISPR-Cas 시스템의 구성 요소 동정

이러한 단백질 패밀리를 상술된 계산 방법을 사용하여 동정하였다. CLUST.091979 시스템은 장, 소의 장, 인간의 장, 양의 장, 지상, 분변 및 포유류의 소화계 환경에 국한되지 않는 환경으로부터 수집된 비배양 메타게놈 서열에서 발견되는 CRISPR 시스템과 관련된 단일 이펙터를 포함한다(표 5). 예시적인 CLUST.091979 이펙터는 하기 표 5 및 표 6에 나타낸 것들을 포함한다. SEQ ID NO: 1 내지 4, 14, 15, 17 내지 19, 21 내지 25, 27 내지 33, 35 내지 49, 51 내지 56에 기재된 이펙터 서열을 도 1a 내지 도 1l에 나타낸 바와 같이 서열 유사성의 영역을 동정하도록 정렬하였다. 막대 그래프는 서열 유사성을 도시한 것이고, 가장 큰 막대는 가장 높은 유사성을 갖는 잔류물을 나타낸다. 서열 유사성의 비-제한적 영역은 표 7에 나타나 있다. 서열 유사성의 영역은 본원에 개시된 이펙터가 뉴클레아제를 나타내는 보존된 C-말단 RuvC 도메인이 있는 패밀리라는 것을 지시한다.

[표 51] 대표적인 CLUST.091979 이펙터 단백질

[표 62] 대표적인 CLUST.091979 이펙터 단백질의 아미노산 서열

[표 73] CLUST.091979 이펙터의 보존된 서열.

이들 시스템에 대한 직접 반복부 서열 및 스페이서 길이의 예는 표 8에 나타나 있다.

[표 84] 대표적인 CLUST.091979 직접 반복부의 뉴클레오티드 서열 및 스페이서 길이

실시예 2 - 전사활성화 RNA 요소의 동정

이펙터 단백질 및 crRNA 이외에, 본원에 기재된 일부 CRISPR 시스템은 또한 전사활성화 RNA(tracrRNA)로 지칭되는 강력한 효소 활성을 활성화하는 추가의 소형 RNA를 포함할 수 있다. 이러한 tracrRNA는 전형적으로 crRNA에 혼성화하는 상보적 영역을 포함한다. crRNA-tracrRNA 혼성체는 이펙터와 함께 복합체를 형성하여 프로그래밍 가능한 효소 활성을 활성화시킨다.

● tracrRNA 서열은 crRNA의 직접 반복부 부분과 상동성인 짧은 서열 모티프에 대해 CRISPR 어레이에 측접한 게놈 서열을 검색함으로써 동정될 수 있다. 검색 방법은 완전 직접 반복부(DR) 또는 DR 서브서열에 대한 정확한 또는 수정된 서열 매칭을 포함한다. 예를 들어, n 개 뉴클레오티드 길이의 DR은 중첩되는 일련의 6 nt kmer 내지 10 nt kmer로 분해될 수 있다. 이들 kmer는 CRISPR 유전자좌에 측접한 서열에 정렬될 수 있으며, 1 kmer 이상의 정렬을 갖는 상동성 영역은 tracrRNA로서 실험적 검증을 위한 DR 상동성 영역으로 동정될 수 있다. 대안적으로, RNA 코폴드 자유 에너지는 CRISPR 시스템의 요소에 측접한 게놈 서열로부터 짧은 kmer 서열 및 완전 DR 또는 DR 서브서열에 대해 계산될 수 있다. 낮은 최소 자유 에너지 구조를 갖는 측접 서열 요소는 tracrRNA로서 실험적 검증을 위한 DR 상동성 영역으로 동정될 수 있다.

● tracrRNA 요소는 종종 CRISPR 관련 유전자 또는 CRISPR 어레이에 매우 근접하여 발생한다. tracrRNA 요소를 동정하기 위해 DR 상동성 영역을 검색하는 것에 대한 대안으로서, tracrRNA의 직접적인 실험적 검증을 위해 클로닝 또는 유전자 합성에 의해 CRISPR 이펙터 또는 CRISPR 어레이에 측접한 비-코딩 서열이 단리될 수 있다.

● tracrRNA 요소의 실험적 검증은 CRISPR 시스템에 대한 숙주 유기체의 작은 RNA 시퀀싱 또는 비-천연 종에서 이종으로 발현된 합성 서열을 사용하여 수행될 수 있다. 기원한 게놈 유전자좌로부터의 작은 RNA 서열의 정렬은 완전 tracrRNA 요소에 전형적인 DR 상동성 영역 및 스테로타이핑된 가공을 함유하는 발현된 RNA 산물을 동정하는 데 사용될 수 있다.

● RNA 시퀀싱에 의해 동정된 완전 tracrRNA 후보는 tracrRNA 후보와 조합하여 또는 tracrRNA 후보 없이 crRNA 및 이펙터를 발현하고 이펙터 효소 활성의 활성화를 모니터링함으로써 시험관내 또는 생체내에서 검증될 수 있다.

● 조작된 작제물에서, tracrRNA의 발현은 포유류 세포에서의 발현을 위한 U6, U1, 및 H1 프로모터 또는 박테리아에서의 발현을 위한 J23119 프로모터를 포함하지만 이로 제한되지 않는 프로모터에 의해 유발될 수 있다.

● 일부 예에서, tracrRNA는 crRNA와 융합되고 단일 RNA 가이드로서 발현될 수 있다.

● 시스템은 표 9에 열거된 비-코딩 서열 내에 함유된 tracrRNA를 포함할 수 있다. 예를 들어, 일부 구현예에서, 시스템은 SEQ ID NO: 152 내지 204 중 어느 하나에 기재된 tracrRNA를 포함한다.

[표 95] 대표적인 CLUST.091979 시스템의 비-코딩 서열

실시예 3 - 효소 활성의 신규한 RNA 조절자의 동정

이펙터 단백질 및 crRNA 이외에, 본원에 기재된 일부 CRISPR 시스템은 또한 본원에서 RNA 조절자로 지칭되는 이펙터 활성을 활성화시키거나 조절하는 추가의 소형 RNA를 포함할 수 있다.

● RNA 조절자는 CRISPR-연관 유전자 또는 CRISPR 어레이에 매우 근접하여 발생할 것으로 예상된다. RNA 조절자를 동정하거나 검증하기 위해, CRISPR 이펙터 또는 CRISPR 어레이에 측접한 비-코딩 서열은 직접적인 실험적 검증을 위해 클로닝 또는 유전자 합성에 의해 단리될 수 있다.

● RNA 조절자의 실험적 검증은 CRISPR 시스템에 대한 숙주 유기체의 작은 RNA 시퀀싱 또는 비-천연 종에서 이종으로 발현된 합성 서열을 사용하여 수행될 수 있다. 기원한 게놈 유전자좌로의 작은 RNA 서열의 정렬은 DR 상동성 영역 및 스테로타이핑된 가공을 함유하는 발현된 RNA 산물을 동정하는 데 사용될 수 있다.

● RNA 시퀀싱에 의해 동정된 후보 RNA 조절자는 후보 RNA 조절자와 조합하여 또는 RNA 조절자 없이 crRNA 및 이펙터를 발현하고 이펙터 효소 활성의 변경을 모니터링함으로써 시험관내 또는 생체내에서 검증될 수 있다.

● 조작된 작제물에서, RNA 조절자는 포유류 세포에서의 발현을 위한 U6, U1, 및 H1 프로모터, 또는 박테리아에서의 발현을 위한 J23119 프로모터를 포함하는 프로모터에 의해 유발될 수 있다.

● 일부 예에서, RNA 조절자는 crRNA, tracrRNA, 또는 이 둘 모두와 인공적으로 융합되고 단일 RNA 요소로서 발현될 수 있다.

실시예 4 - 조작된 CLUST.091979 CRISPR-Cas 시스템의 기능 검증

CLUST.091979 CRISPR-Cas 시스템의 구성 요소를 동정한 후, AUXO013988882(SEQ ID NO: 1)로 명명된 메타게놈 소스로부터 및 SRR3181151(SEQ ID NO: 4)로 명명된 메타게놈 소스로부터의 유전자좌를 기능 검증을 위해 선택하였다.

DNA 합성 및 이펙터 라이브러리 클로닝

예시적인 CLUST.091979 CRISPR-Cas 시스템의 활성을 시험하기 위해, pET28a(+) 벡터를 사용하여 시스템을 설계하고 합성하였다. 간략히, CLUST.091979 AUXO013988882 이펙터를 인코딩하는 이. 콜라이 코돈-최적화된 핵산 서열(표 6에 나타낸 SEQ ID NO: 1) 및 CLUST.091979 SRR3181151 이펙터를 인코딩하는 이. 콜라이 코돈-최적화된 핵산 서열(표 6에 나타낸 SEQ ID NO: 4)을 합성하고(Genscript), pET-28a(+) (EMD-Millipore)로부터 유래된 커스텀 발현 시스템으로 개별적으로 클로닝하였다. 벡터는 lac 프로모터 및 이. 콜라이 리보솜 결합 서열의 제어 하에 CLUST.091979 이펙터를 인코딩하는 핵산을 포함하였다. 벡터는 또한 CLUST.091979 이펙터에 대한 개방형 해독 틀에 따라 J23119 프로모터에 의해 유발되는 CRISPR 어레이 라이브러리에 대한 억셉터 부위를 포함하였다. CLUST.091979 AUXO013988882 이펙터에 사용된 비-코딩 서열(SEQ ID NO: 1)은 SEQ ID NO: 98에 기재되고, CLUST.091979 SRR3181151 이펙터에 사용된 비-코딩 서열(SEQ ID NO: 4)은 표 9에 나타낸 바와 같이 SEQ ID NO: 99에 기재된다. CLUST.091979 이펙터를 비-코딩 서열 없이 개별적으로 pET28a(+)에 클로닝한 추가 조건을 시험하였다. 도 4a를 참조한다.

"반복부-스페이서-반복부" 서열을 함유하는 올리고뉴클레오티드 라이브러리 합성(OLS) 풀을 계산적으로 설계하였고, 여기서 "반복부"는 이펙터와 관련된 CRISPR 어레이에서 확인되는 콘센서스 직접 반복부 서열을 나타내고, "스페이서"는 pACYC184 플라스미드 또는 이. 콜라이 필수 유전자를 타일링(tiling)하는 서열을 나타낸다. 특히, 표 8에 나타낸 바와 같이, CLUST.091979 AUXO013988882 이펙터에 사용된 반복부 서열(SEQ ID NO: 1)은 SEQ ID NO: 57에 기재되고, CLUST.091979 SRR3181151 이펙터에 사용된 반복부 서열(SEQ ID NO: 4)은 SEQ ID NO: 60에 기재된다. 스페이서 길이는 내인성 CRISPR 어레이에서 확인되는 스페이서 길이의 모드에 의해 결정되었다. 반복부-스페이서-반복부 서열은 상기 언급된 CRISPR 어레이 라이브러리 억셉터 부위로 단편의 양방향 클로닝을 가능하게 하는 제한 부위, 뿐만 아니라 더 큰 풀로부터 특정 반복부-스페이서-반복부 라이브러리의 특정 증폭을 가능하게 하는 고유한 PCR 프라이밍 부위가 추가되었다.

다음으로, 반복부-스페이서-반복부 라이브러리를 Golden Gate 조립법을 사용하여 플라스미드로 클로닝하였다. 간략히, 각각의 반복부-스페이서-반복부를 고유한 PCR 프라이머를 사용하여 OLS 풀(Agilent Genomics)로부터 먼저 증폭시키고, 잠재적인 배경을 감소시키기 위해 BsaI를 사용하여 플라스미드 백본을 예비-선형화시켰다. 둘 모두의 DNA 단편을 골든 게이트 어셈블리 마스터 믹스(New England Biolabs)에 첨가하기 전에 Ampure XP(Beckman Coulter)로 정제하고, 제조업체의 지침에 따라 인큐베이션하였다. 골든 게이트 반응을 박테리아 스크린의 후속 단계에서 최대 형질전환 효율을 가능하게 하기 위해 추가로 정제하고 농축시켰다.

별개의 반복부-스페이서-반복부 요소 및 CRISPR 이펙터를 함유하는 플라스미드 라이브러리를 Lucigen에서 권장하는 프로토콜에 따라 Gene Pulser Xcell^®(Bio-rad)을 사용하여 이. 클로니 전기적격 이. 콜라이(Lucigen)로 전기천공하였다. 라이브러리를 정제된 pACYC184 플라스미드로 공동-형질전환시키거나 pACYC184-함유 이. 클로니 전기적격 이. 콜라이(Lucigen)로 바로 형질전환시키고, BioAssay^® 디쉬(Thermo Fisher)에 클로람페니콜(Fisher), 테트라사이클린(Alfa Aesar) 및 카나마이신(Alfa Aesar)을 함유한 한천 상에 플레이팅하고, 37℃에서 10 시간 내지 12 시간 동안 인큐베이션하였다. 박테리아 플레이트에서 충분한 라이브러리 표현을 보장하기 위해 대략적인 콜로니 수를 추정한 후, 박테리아를 수확하고, "출력 라이브러리"를 생성하기 위해 QIAprep Spin Miniprep® 키트(Qiagen)를 사용하여 플라스미드 DNA WAS를 추출하였다. Illumina 시퀀싱 화학과 상용성인 바코드 및 부위를 함유하는 맞춤형 프라이머를 사용하여 PCR을 수행함으로써, 바코드화된 차세대 시퀀싱 라이브러리를 형질전환 전 "입력 라이브러리"와 수확 후 "출력 라이브러리" 둘 모두에서 생성한 다음, 풀링하고, Nextseq 550(Illumina) 상에 로딩하여 이펙터를 평가하였다. 일관성을 보장하기 위해 각 스크린에 대해 적어도 2 회의 독립적인 생물학적 복제를 수행하였다. 도 4b를 참조한다.

박테리아 스크린 시퀀싱 분석

스크린 입력 및 출력 라이브러리에 대한 차세대 시퀀싱 데이터를 Illumina bcl2fastq를 사용하여 역다중화시켰다. 스크리닝 플라스미드 라이브러리에 대한 CRISPR 어레이 요소를 함유한 각 샘플에 대하여 생성된 fastq 파일을 판독하였다. CRISPR 어레이의 직접 반복부 서열을 사용하여 어레이 방향을 결정하고, 스페이서 서열을 소스(pACYC184 또는 이. 클로니) 또는 음성 대조군 서열(GFP)에 맵핑하여 상응하는 표적을 결정하였다. 각 샘플에 대해, 주어진 플라스미드 라이브러리에서 각각의 고유한 어레이 요소(r_a)에 대한 총 판독수를 계산하고, 다음과 같이 정규화하였다: (r_a+1)/모든 라이브러리 어레이 요소에 대한 총 판독 수. 주어진 어레이 요소에 대한 정규화된 출력 판독치를 정규화된 입력 판독치로 나눔으로써 고갈 점수를 계산하였다.

효소 활성 및 박테리아 세포 사멸을 야기하는 특정 매개변수를 확인하기 위해, 차세대 시퀀싱(NGS)을 사용하여 입력 및 출력 플라스미드 라이브러리의 PCR 산물에서 개별 CRISPR 어레이(즉, 반복부-스페이서-반복부)의 표현을 정량화하고 비교하였다. 정규화된 출력 판독치를 정규화된 입력 판독치로 나눈 값으로 어레이 고갈 비율을 규정하였다. 고갈 비율이 0.3 미만인 경우 어레이는 "강하게 고갈된"것으로 간주되며(3 배가 넘는 고갈), 이는 도 5 및 도 8에서 점선으로 표시되어 있다. 생물학적 복제물에 걸친 어레이 고갈 비율을 계산할 때, 모든 실험에 걸쳐 주어진 CRISPR 어레이에 대한 최대 고갈 비율 값을 얻었다(즉, 강하게 고갈된 어레이는 모든 생물학적 복제물에서 강하게 고갈되어야 함). 어레이 고갈 비율을 포함하는 매트릭스 및 다음 특징을 각 스페이서 표적에 대해 생성하였다: 표적 가닥, 전사체 표적화, ORI 표적화, 표적 서열 모티프, 측접 서열 모티프, 및 표적 이차 구조. 이러한 매트릭스의 상이한 특징이 CLUST.091979 시스템에 대한 표적 고갈을 설명한 정도를 조사하였다.

도 5 및 도 8은 주어진 표적에 대해, 스크린 입력 대비 스크린 출력에서 시퀀싱 판독치의 정규화된 비율을 플롯팅함으로써, 비-코딩 서열을 갖는 조작된 CLUST.091979 조성물의 간섭 활성도를 나타낸 것이다. 결과는 각 DR 전사 방향에 대해 플롯팅된 것이다. 상기 조성물에 대한 기능적 스크리닝에서, 활성 RNA 가이드와 복합된 활성 이펙터는 클로람페니콜 및 테트라사이클린에 대한 이. 콜라이 내성을 부여하는 pACYC184의 능력을 방해하여 풀 내에서 스페이서 요소 고갈 및 세포 사멸을 초래할 것이다. 살아 있는 형질전환된 이. 콜라이(스크린 출력) 대비 초기 DNA 라이브러리(스크린 입력)을 딥 시퀀싱한 결과의 비교는 활성의 프로그래밍 가능한 CRISPR 시스템을 가능하게 하는 특정 표적 서열 및 DR 전사 방향을 시사한다. 스크린은 또한 이펙터 복합체가 DR의 한 방향에서만 활성이라는 것을 지시한다. 따라서, 스크린은 CLUST.091979 AUXO013988882 이펙터가 DR의 "정" 방향(5'-ACTA…AACT-[스페이서]-3')으로 활성이었고(도 5), CLUST.091979 SRR3181151 이펙터가 DR의 "역" 방향(5'-CCTG…CAAC-[스페이서]-3')에서 활성이었다(도 8)는 것을 지시하였다.

도 6a 및 도 6b는 각각 pACYC184 및 이. 콜라이 이. 클로니 필수 유전자를 표적화하는 CLUST.091979 AUXO013988882 이펙터(비-코딩 서열과 함께)에 대한 강하게 고갈된 표적의 위치를 도시한 것이다. 마찬가지로, 도 9a 및 도 9b는 각각 pACYC184 및 이. 콜라이 이. 클로니 필수 유전자를 표적화하는 CLUST.091979 SRR3181151 이펙터에 대한 강하게 고갈된 표적의 위치를 도시한 것이다. 고갈된 표적의 측접 서열을 분석하여 CLUST.091979 AUXO013988882 및 CLUST.091979 SRR3181151에 대한 PAM 서열을 결정하였다. CLUST.091979 AUXO013988882 및 CLUST.091979 SRR3181151에 대한 PAM 서열의 WebLogo 표현(Crooks et al., Genome Research 14: 1188-90, 2004)은 각각 도 7 및 도 10에 나타나 있으며, 여기서 "20" 위치는 표적의 5' 말단에 인접한 뉴클레오티드에 상응한다.

따라서, CLUST.091979 CRISPR-Cas의 다중 이펙터는 생체내 활성을 나타낸다.

실시예 5 - CLUST.091979에 의한 포유류 유전자의 표적화

본 실시예는 일시적 형질감염에 의해 포유류 세포에 도입된 CLUST.091979로부터의 뉴클레아제를 사용한 다중 표적에 대한 인델 평가를 기술한 것이다.

SEQ ID NO: 4 및 SEQ ID NO: 10의 이펙터를 pcda3.1 백본(Invitrogen)에 클로닝하였다. 플라스미드를 이후 맥시-프렙핑하고, 1 μg/μL로 희석하였다. RNA 가이드 제조를 위해, crRNA를 인코딩하는 dsDNA 단편을 표적 서열 스캐폴드를 함유하는 울트라머, 및 U6 프로모터에 의해 유발하였다. 울트라머를 7.5의 pH에서 100 μM의 최종 스톡 농도로 10 mM Tris·HCl에 재현탁시켰다. 이후 작업 스톡을 다시 10 mM Tris·HCl을 사용함으로써 10 μM로 희석하여 PCR 반응을 위한 주형으로 사용하였다. crRNA의 증폭을 다음 성분들을 사용하여 50 μL 반응으로 수행하였다: 0.02 μl의 상기 언급된 주형, 2.5 μl의 정방향 프라이머, 2.5 μl의 역방향 프라이머, 25 μL의 NEB HiFi 중합 효소, 및 20 μl의 물. 사이클링 조건은 다음과 같았다: 1 × (98℃에서 30s), 30 × (98℃에서 10s, 67℃에서 15s), 1 × (72℃에서 2min). PCR 산물을 1.8X SPRI 처리로 세정하고, 25 ng/μL로 정규화하였다. 제조된 crRNA 서열 및 이들의 상응하는 표적 서열은 표 10에 나타나 있다. SEQ ID NO: 205, SEQ ID NO: 207, SEQ ID NO: 252, SEQ ID NO: 254, SEQ ID NO: 256, SEQ ID NO: 258, SEQ ID NO: 260, SEQ ID NO: 262, SEQ ID NO: 264, SEQ ID NO: 266, SEQ ID NO: 268, SEQ ID NO: 270, SEQ ID NO: 272, SEQ ID NO: 274, 및 SEQ ID NO: 276의 성숙 crRNA의 직접 반복부 서열은 SEQ ID NO: 60에 기재된다. SEQ ID NO: 209 및 SEQ ID NO: 214의 성숙 crRNA의 직접 반복부는 SEQ ID NO: 62에 기재된다. SEQ ID NO: 211, SEQ ID NO: 278, SEQ ID NO: 280, SEQ ID NO: 282, SEQ ID NO: 284, SEQ ID NO: 286, 및 SEQ ID NO: 288의 성숙 crRNA의 직접 반복부는 SEQ ID NO: 213에 기재된다.

[표 10]

일시적 형질감염 검정에 대한 RNA 가이드 및 표적 서열.

형질감염 약 16 시간 전에, DMEM/10% FBS+Pen/Strep 중 100 μl의 25,000 개 HEK293T 세포를 96-웰 플레이트의 각 웰에 플레이팅하였다. 형질감염 당일, 세포는 70% 내지 90% 융합성이었다. 형질감염될 각 웰에 대해, 0.5 μl의 리포펙타민 2000 및 9.5 μl의 Opti-MEM의 혼합물을 제조한 다음 실온에서 5 분 내지 20 분 동안 인큐베이션하였다(용액 1). 인큐베이션 후, 리포펙타민:OptiMEM 혼합물을 182 ng의 이펙터 플라스미드 및 14 ng의 crRNA 및 최대 10 μL의 물을 함유하는 별개의 혼합물에 첨가하였다(용액 2). 음성 대조군의 경우, crRNA는 용액 2에 포함되지 않았다. 용액 1 및 용액 2 혼합물을 위아래로 피펫팅하여 혼합한 다음 실온에서 25 분 동안 인큐베이션하였다. 인큐베이션 후, 20 μL의 용액 1 및 용액 2 혼합물을 세포를 함유하는 96 웰 플레이트의 각 웰에 적가하였다. 형질감염 72 시간 후, 세포를 각 웰의 중앙에 10 μL의 TrypLE을 첨가하여 트립신화하고, 약 5 분 동안 인큐베이션하였다. 다음으로, 100 μL의 D10 배지를 각 웰에 첨가하고, 혼합하여 세포를 재현탁시켰다. 그 후에, 세포를 500 g에서 10 분 동안 회전시키고, 상청액을 폐기하였다. QuickExtract 완충액을 본래의 세포 현탁액 부피의 1/5 양으로 첨가하였다. 세포를 65℃에서 15 분, 68℃에서 15 분, 및 98℃에서 10 분 동안 인큐베이션하였다.

차세대 시퀀싱을 위한 샘플을 2 라운드의 PCR에 의해 제조하였다. 제1 라운드(PCR1)를 사용하여 표적에 좌우하여 특정 게놈 영역을 증폭시켰다. PCR1 산물을 컬럼 정제에 의해 정제하였다. Illumina 어댑터 및 인덱스를 추가하기 위해 라운드 2 PCR(PCR2)을 수행하였다. 그 후에, 반응을 풀링하고, 컬럼 정제에 의해 정제하였다. 150 사이클 NextSeq v2.5 중 또는 고 출력 키트로 시퀀싱 실행을 수행하였다.

도 11a, 도 11b, 도 11c, 및 도 11d는 각각 SEQ ID NO: 4 또는 SEQ ID NO: 10의 이펙터로 형질감염 후 HEK293T 세포에서 AAVS1, VEGFA, 및 EMX1 표적 유전자좌 중 인델 퍼센트를 나타낸다. 막대는 2 개의 생물복제물에서 측정된 평균 인델 퍼센트를 반영한다. SEQ ID NO: 4 및 SEQ ID NO: 10의 이펙터에 대해, 인델 퍼센트는 각각의 표적에서 음성 대조군의 인델 퍼센트보다 높았다.

도 11a에 도시된 바와 같이, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 205의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 206의 AAVS1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 207의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 208의 VEGFA 표적에서 활성이었다. 도 11b에 도시된 바와 같이, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 252의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 253의 AAVS1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 254의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 255의 AAVS1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 256의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 257의 AAVS1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 258의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 259의 AAVS1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 274의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 275의 AAVS1 표적에서 활성이었다. 또한, 도 11b에 나타낸 바와 같이, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 260의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 261의 EMX1 표적에서 활성이었다. 또한, 도 11b에 나타낸 바와 같이, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 262의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 263의 VEGFA1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 264의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 265의 VEGFA1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 266의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 267의 VEGFA1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 268의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 269의 VEGFA1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 270의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 271의 VEGFA1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 272의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 273의 VEGFA1 표적에서 활성이고, SEQ ID NO: 4의 이펙터와 SEQ ID NO: 274의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 275의 VEGFA1 표적에서 활성이었다. SEQ ID NO: 4의 이펙터는 도 11a 및 도 11b에서 각 표적에 대하여 5'-TTTG-3' PAM을 사용하였다.

도 11c에 나타낸 바와 같이, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 209의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 210의 AAVS1 표적에서 활성이고, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 211의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 212의 AAVS1 표적에서 활성이고, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 214의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 215의 VEGFA 표적에서 활성이었다. 도 11d에 나타낸 바와 같이, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 278의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 279의 AAVS1 표적에서 활성이고, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 280의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 281의 AAVS1 표적에서 활성이고, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 284의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 285의 AAVS1 표적에서 활성이고, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 286의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 287의 AAVS1 표적에서 활성이었다. 또한, 도 11d에 나타낸 바와 같이, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 288의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 289의 EMX1 표적에서 활성이고, SEQ ID NO: 10의 이펙터와 SEQ ID NO: 282의 crRNA에 의해 형성된 복합체는 SEQ ID NO: 283의 VEGFA 표적에서 활성이었다. SEQ ID NO: 10의 이펙터는 도 11c 및 도 11d에서 표적에 대하여 5'-ATTG-3' PAM 및 5'-GTTA-3' PAM을 사용하였다.

본 실시예는 CLUST.091979 패밀리에서 뉴클레아제가 포유류 세포에서 활성을 갖는다는 것을 시사한다.

기타 구현예

본 발명은 발명의 상세한 설명과 함께 기술되었지만, 상기 설명은 본 발명을 예시하려고 의도된 것이고 본 발명의 범위를 제한하려고 의도된 것이 아니며, 본 발명의 범위는 첨부된 청구항의 범위에 의해 규정된다는 것을 이해해야 한다. 기타 양태, 이점, 및 변형은 하기 청구항의 범위 내에 있다.

SEQUENCE LISTING <110> ARBOR BIOTECHNOLOGIES, INC. <120> NOVEL CRISPR DNA TARGETING ENZYMES AND SYSTEMS <130> A2186-7028WO <140> <141> <150> 62/897,859 <151> 2019-09-09 <160> 290 <170> PatentIn version 3.5 <210> 1 <211> 775 <212> PRT <213> Unknown <220> <223> Description of Unknown: gut metagenome sequence <400> 1 Met Gly Asn Thr Thr Lys Lys Gly Asn Leu Thr Lys Thr Tyr Leu Phe 1 5 10 15 Lys Ala Asn Leu Ser Glu Gln Asp Phe Lys Leu Trp Arg Ser Ile Val 20 25 30 Glu Glu Tyr Gln Arg Tyr Lys Glu Val Leu Ser Lys Trp Val Cys Asp 35 40 45 His Leu Thr Thr Met Lys Ile Gly Asp Ile Leu Pro Tyr Ile Asp Arg 50 55 60 Tyr Ser Lys Lys Ile Asp Asn Lys Thr Gly Glu Tyr Pro Glu Asn Thr 65 70 75 80 Tyr Tyr Ser Leu Cys Glu Glu His Lys Asp Glu Pro Leu Tyr Lys Ile 85 90 95 Phe Gln Phe Asp Ser Asn Cys Arg Asn Asn Ala Leu Tyr Glu Val Ile 100 105 110 Arg Lys Ile Asn Cys Asp Leu Tyr Thr Gly Asn Ile Leu Asn Leu Gly 115 120 125 Glu Thr Tyr Tyr Arg Arg Asn Gly Phe Val Lys Arg Val Leu Ala Asn 130 135 140 Tyr Ala Thr Lys Ile Ser Gly Met Lys Pro Ser Val Arg Lys Arg Lys 145 150 155 160 Val Thr Ser Asp Ser Thr Glu Glu Glu Ile Arg Asn Gln Val Val Tyr 165 170 175 Glu Ile Phe Asn Asn Asn Ile Lys Asn Glu Lys Asp Phe Lys Gly Val 180 185 190 Leu Glu Tyr Ala Glu Ser Lys Cys Lys Thr Asn Glu Ala Tyr Val Glu 195 200 205 Arg Ile Arg Leu Leu Tyr Asp Phe Tyr Ile Lys His Thr Asp Glu Ile 210 215 220 Lys Glu Tyr Val Glu Tyr Ile Cys Val Glu Gln Leu Lys Glu Phe Cys 225 230 235 240 Gly Val Lys Val Asn Arg Ser Lys Ser Ser Met Asn Ile Asn Ile Gln 245 250 255 Asn Phe Ser Ile Thr Arg Val Asp Gly Lys Cys Thr Tyr Ile Leu His 260 265 270 Leu Pro Ile Gly Lys Lys Val Tyr Asp Ile Lys Leu Trp Gly Asn Arg 275 280 285 Gln Val Val Leu Asn Val Asp Gly Thr Pro Val Asp Ile Ile Asp Ile 290 295 300 Ile Asn Arg His Gly Glu Ser Ile Asp Ile Ile Phe Lys Asn Gly Asp 305 310 315 320 Ile Tyr Phe Ser Phe Val Val Ser Glu Asp Phe Lys Lys Asp Asp Phe 325 330 335 Glu Ile Gly Asn Val Val Gly Val Asp Val Asn Thr Lys His Met Leu 340 345 350 Ile Gln Thr Asn Ile Val Asp Asn Gly Asn Val Asp Gly Phe Phe Asn 355 360 365 Ile Tyr Lys Glu Leu Val Asn Asp Lys Glu Phe Ser Glu Cys Val Ser 370 375 380 Lys Glu Asp Leu Glu Leu Phe Lys Glu Leu Ser Lys Tyr Val Ser Phe 385 390 395 400 Cys Pro Ile Glu Cys Gln Phe Leu Phe Thr Arg Tyr Ala Glu Gln Lys 405 410 415 Gly Ile Leu Val Tyr Glu Lys Leu Arg Leu Ala Glu Lys Ile Leu Thr 420 425 430 Ser Val Leu Asp Arg Ser Phe Glu Lys Tyr Asn Gly Ile Asp Cys Asn 435 440 445 Ile Ala Asn Tyr Ile Ser Asn Val Arg Met Leu Arg Ser Lys Cys Lys 450 455 460 Ser Tyr Phe Thr Leu Lys Met Lys Tyr Lys Glu Leu Gln His Lys Tyr 465 470 475 480 Asp Asn Glu Met Gly Tyr Val Asp Thr Phe Ser Asp Ser Cys Val Glu 485 490 495 Met Asp Ser Arg Arg Lys Glu Asn Pro Phe Val Gln Thr Asn Glu Ala 500 505 510 Met Glu Leu Ile Gly Lys Met Glu Ser Val Ala Gln Asp Ile Ile Gly 515 520 525 Cys Arg Asp Asn Ile Ile Thr Tyr Ala Tyr Asn Val Phe Arg Arg Asn 530 535 540 Gly Tyr Asp Thr Val Gly Leu Glu Asn Leu Glu Ser Ser Gln Phe Glu 545 550 555 560 Arg Phe Ser Ser Val Arg Ser Pro Lys Ser Leu Leu Asn Tyr His His 565 570 575 Leu Lys Gly Lys His Ile Asp Phe Ile Asp Ser Asp Glu Cys Ser Val 580 585 590 Lys Val Asn Lys Asp Leu Tyr Asn Phe Thr Leu Glu Asp Asp Gly Thr 595 600 605 Ile Ser Asp Ile Thr Leu Ser Asp Lys Gly Lys Tyr Arg Asn Asp Leu 610 615 620 Ser Met Phe Tyr Asn Gln Ile Ile Lys Thr Ile His Phe Ala Asp Ile 625 630 635 640 Lys Asp Lys Phe Ile Gln Leu Gly Asn Asn Gly Asn Val Gln Thr Val 645 650 655 Leu Val Pro Ser Tyr Phe Thr Ser Gln Met Asn Ser Lys Thr His Lys 660 665 670 Ile Tyr Val Val Asn Val Lys Asn Glu Arg Thr Gly Lys Thr Glu Gln 675 680 685 Lys Leu Ala Asn Lys Asn Met Val Arg Leu Gly Gln Glu Arg His Ile 690 695 700 Asn Gly Leu Asn Ala Asp Val Asn Ala Ser Met Asn Ile Ala Tyr Ile 705 710 715 720 Val Glu Asn Lys Glu Met Arg Asn Ala Met Cys Thr Asn Pro Lys Ser 725 730 735 Glu Thr Gly Tyr Ser Val Pro Phe Leu Thr Ser Arg Ile Lys Lys Gln 740 745 750 Asn Ile Met Val Val Glu Leu Lys Lys Met Gly Met Val Glu Val Leu 755 760 765 Asn Glu Lys Ser Thr Glu Ile 770 775 <210> 2 <211> 786 <212> PRT <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 2 Met Ala Gln His Lys Ser Asn Asn Glu Glu Ser Ala Ile Asn Lys Thr 1 5 10 15 Phe Ile Phe Lys Ala Lys Cys Asp Lys Asn Asp Val Ile Ser Leu Trp 20 25 30 Glu Pro Ala Ala Lys Glu Tyr Cys Asp Tyr Tyr Asn Lys Val Ser Lys 35 40 45 Trp Ile Ala Asp Asn Leu Ile Thr Met Lys Ile Gly Asp Leu Ala Gln 50 55 60 Tyr Ile Thr Asn Gln Asn Ser Lys Tyr Tyr Thr Ala Val Thr Asn Lys 65 70 75 80 Lys Lys Lys Asp Leu Pro Leu Tyr Arg Ile Phe Gln Lys Gly Phe Ser 85 90 95 Ser Gln Cys Ala Asp Asn Ala Leu Tyr Cys Ala Ile Lys Ser Ile Asn 100 105 110 Pro Glu Asn Tyr Lys Gly Asn Ser Leu Gly Ile Gly Glu Ser Asp Tyr 115 120 125 Arg Arg Phe Gly Tyr Ile Gln Ser Val Val Ser Asn Phe Arg Thr Lys 130 135 140 Met Ser Ser Leu Lys Ala Thr Val Lys Trp Lys Lys Phe Asp Val Asn 145 150 155 160 Asn Val Asp Asp Glu Thr Leu Lys Ile Gln Thr Ile Tyr Asp Val Asp 165 170 175 Lys Tyr Gly Ile Glu Thr Ala Lys Glu Phe Lys Glu Leu Ile Glu Thr 180 185 190 Leu Lys Thr Arg Val Glu Thr Pro Gln Leu Asn Asp Thr Ile Ala Arg 195 200 205 Leu Glu Cys Leu Cys Asp Tyr Tyr Ser Lys Asn Glu Lys Ala Ile Asn 210 215 220 Asn Glu Ile Glu Thr Met Ala Ile Ala Asp Leu Gln Lys Phe Gly Gly 225 230 235 240 Cys Gln Arg Lys Ser Leu Asn Ala Phe Thr Ile His Lys Gln Asp Ser 245 250 255 Leu Met Glu Lys Val Gly Asn Thr Ser Phe Arg Leu Gln Leu Pro Phe 260 265 270 Arg Lys Lys Thr Tyr Val Ile Asn Leu Leu Gly Asn Arg Gln Val Val 275 280 285 Asn Phe Val Asn Gly Lys Arg Val Asp Leu Ile Asp Ile Ala Glu Asn 290 295 300 His Gly Asp Leu Val Thr Phe Asn Ile Lys Asn Gly Val Leu Phe Val 305 310 315 320 His Leu Thr Ser Pro Ile Val Phe Asp Lys Asp Val Arg Asp Ile Arg 325 330 335 Asn Val Val Gly Ile Asp Val Asn Ile Lys His Ser Met Leu Ala Thr 340 345 350 Ser Ile Lys Asp Val Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Lys 355 360 365 Glu Leu Leu Asn Asp Asp Glu Phe Val Ser Thr Cys Asn Glu Ser Glu 370 375 380 Leu Ala Leu Tyr Arg Gln Met Ser Glu Asn Val Asn Phe Gly Ile Leu 385 390 395 400 Glu Thr Asp Ser Leu Phe Glu Arg Ile Val Asn Gln Ser Lys Gly Gly 405 410 415 Cys Leu Lys Asn Lys Leu Ile Arg Arg Glu Leu Ala Met Gln Lys Val 420 425 430 Phe Glu Arg Ile Thr Lys Thr Asn Lys Asp Gln Asn Ile Val Asp Tyr 435 440 445 Val Asn Tyr Val Lys Met Met Arg Ala Lys Cys Lys Ala Ser Tyr Ile 450 455 460 Leu Lys Glu Lys Tyr Asp Glu Lys Gln Lys Glu Tyr Tyr Val Lys Met 465 470 475 480 Gly Phe Thr Asp Glu Ser Thr Glu Ser Lys Glu Thr Met Asp Lys Arg 485 490 495 Arg Glu Glu Phe Pro Phe Val Asn Thr Asp Thr Ala Lys Glu Leu Leu 500 505 510 Val Lys Gln Asn Asn Ile Arg Gln Asp Ile Ile Gly Cys Arg Asp Asn 515 520 525 Ile Val Thr Tyr Ala Phe Asn Val Phe Lys Asn Asn Glu Tyr Asp Thr 530 535 540 Leu Ser Val Glu Tyr Leu Asp Ser Ser Gln Phe Asp Lys Arg Arg Ile 545 550 555 560 Ala Thr Pro Lys Ser Leu Leu Lys Tyr His Lys Phe Glu Gly Lys Thr 565 570 575 Lys Asp Glu Val Glu Asn Met Met Lys Ser Glu Lys Leu Ser Asn Ala 580 585 590 Tyr Tyr Thr Phe Lys Tyr Glu Asn Asp Val Val Ser Asp Ile Asp Tyr 595 600 605 Ser Asp Glu Gly Asn Leu Arg Arg Ser Lys Leu Asn Phe Gly Asn Trp 610 615 620 Ile Ile Lys Ser Ile His Phe Ala Asp Ile Lys Asp Lys Phe Val Gln 625 630 635 640 Leu Ser Asn Asn Asn Lys Met Asn Ile Val Phe Cys Pro Ser Ala Phe 645 650 655 Ser Ser Gln Met Asp Ser Ile Thr His Thr Leu Tyr Tyr Val Glu Lys 660 665 670 Ile Thr Lys Asn Lys Lys Gly Lys Glu Lys Lys Lys Tyr Val Leu Ala 675 680 685 Asn Lys Lys Met Val Arg Thr Gln Gln Glu Lys His Ile Asn Gly Leu 690 695 700 Asn Ala Asp Tyr Asn Ser Ala Cys Asn Leu Lys Tyr Ile Ala Leu Asn 705 710 715 720 Asp Glu Leu Arg Asp Lys Met Thr Asp Arg Phe Lys Ala Ser Lys Lys 725 730 735 Ile Lys Thr Met Tyr Asn Ile Pro Ala Tyr Asn Ile Lys Ser Asn Phe 740 745 750 Lys Lys Asn Leu Ser Ala Lys Thr Ile Gln Thr Phe Arg Glu Leu Gly 755 760 765 His Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Met Phe Val Glu Asn 770 775 780 Leu Glu 785 <210> 3 <211> 774 <212> PRT <213> Unknown <220> <223> Description of Unknown: gut metagenome sequence <400> 3 Met Leu Asn Ile Lys Asn Asn Gly Glu Ser Val Asp Met Asn Thr Ile 1 5 10 15 Glu Leu Ala Met Lys Glu Tyr Asn Arg Tyr Tyr Asn Ile Cys Ser Asp 20 25 30 Trp Ile Cys Asn Asn Leu Met Thr Pro Ile Gly Ser Leu Tyr Gln Tyr 35 40 45 Ile Asp Asp Lys Cys Lys Asn Asn Ala Tyr Ala Gln Asn Leu Ile Ala 50 55 60 Glu Glu Trp Lys Asp Lys Pro Leu Tyr Tyr Met Phe Tyr Lys Gly Tyr 65 70 75 80 Asn Ala Asn Asn Cys Ala Asn Ala Ile Cys Cys Ala Ile Arg Ser Gln 85 90 95 Val Pro Glu Val Asn Lys Ala Glu Asn Ile Leu Asn Leu Ser Tyr Thr 100 105 110 Tyr Tyr Phe Arg Asn Gly Val Ile Lys Ser Val Ile Ser Asn Tyr Ala 115 120 125 Ser Lys Met Arg Ile Leu Ser Asp Lys Gln Ile Lys Tyr Cys Ile Val 130 135 140 Ser Glu Asn Thr Pro Asp Lys Ile Leu Ile Glu Gln Cys Ile Leu Glu 145 150 155 160 Leu Lys Arg Arg His Glu Asp Leu Lys Asp Trp Glu Glu Asn Leu Lys 165 170 175 Tyr Leu Ile Leu Lys Gly Asn Glu Ser Ala Ile Thr Arg Phe Thr Ile 180 185 190 Leu Lys Asp Phe Tyr Ser Lys Asn Ile Glu Arg Val Lys Glu Glu Arg 195 200 205 Glu Ile Met Ala Ile Ala Glu Leu Lys Asp Phe Gly Gly Cys Arg Arg 210 215 220 Lys Asp Asp Lys Leu Ser Met Cys Ile Gln Ser Ala Gly Asn Ser Lys 225 230 235 240 Asp Ile Lys Val Ser Arg Val Lys Thr Thr His Asn Tyr Thr Glu Leu 245 250 255 Val Asp Asp Tyr Thr Glu Asn Phe Asn Ile Lys Phe Ser Ala Leu Asp 260 265 270 Phe Asn Val Met Gly Arg Arg Asp Val Val Lys Thr Lys Leu Asn Lys 275 280 285 Thr Glu Asp Asp Ser Asn Thr Trp Gly Gly Thr Glu Leu Leu Val Asp 290 295 300 Ile Ile Asn Asn His Gly Cys Ser Leu Thr Phe Lys Leu Val Asp Asp 305 310 315 320 Lys Leu Tyr Val Asp Ile Pro Ile Asp Thr Glu His Ile Asn Lys Thr 325 330 335 Thr Asp Phe Lys Lys Ser Val Gly Ile Asp Val Asn Leu Lys His Ser 340 345 350 Leu Leu Asn Thr Asp Ile Leu Asp Asn Gly Gly Ile Asn Gly Tyr Ile 355 360 365 Asn Ile Tyr Lys Lys Leu Leu Ala Asp Asp Ala Phe Met Ser Ala Cys 370 375 380 Thr Lys Ala Asp Leu Val Asn Tyr Ile Asp Ile Ala Lys Thr Val Thr 385 390 395 400 Phe Cys Pro Ile Glu Ala Asp Phe Ile Ile Ser Asn Val Val Glu Lys 405 410 415 Tyr Leu His Met Lys Asp Asn Thr Asn Lys Met Glu Ile Ala Phe Ser 420 425 430 Ser Val Leu Met Asn Ile Arg Lys Glu Leu Glu Ile Lys Leu Leu His 435 440 445 Ser Ser Lys Glu Glu Ser Pro Leu Ile Arg Lys Gln Ile Ile Tyr Ile 450 455 460 Asn Cys Ile Ile Cys Leu Arg Asn Glu Leu Lys Gln Tyr Ala Ile Ala 465 470 475 480 Lys His Arg Tyr Tyr Lys Lys Gln Gln Glu Tyr Asp Thr Leu Cys Asp 485 490 495 Thr Leu His Gly Val Asp Tyr Lys Gln Ile His Pro Tyr Ala Gln Ser 500 505 510 Lys Glu Gly Ala Glu Gln Met Lys Lys Met Lys Thr Ile Glu Asn Asn 515 520 525 Leu Ile Ala Asn Arg Asn Asn Ile Ile Glu Tyr Ala Tyr Thr Val Phe 530 535 540 Glu Leu Asn Asn Phe Asp Leu Ile Ala Leu Glu Asn Ile Thr Lys Asp 545 550 555 560 Ile Met Glu Asp Lys Lys Lys Arg Lys Ser Phe Pro Ser Ile Asn Ser 565 570 575 Leu Leu Lys Tyr His Lys Val Ile Asn Cys Thr Glu Asp Asn Ile Asn 580 585 590 Asp Asn Glu Thr Tyr Gln Lys Phe Ala Lys Tyr Tyr Asn Val Ser Tyr 595 600 605 Glu Asn Gly Lys Val Thr Gly Ala Thr Leu Ser Gln Glu Gly Asn Lys 610 615 620 Val Lys Leu Lys Asp Asp Phe Tyr Asp Lys Leu Leu Lys Val Leu His 625 630 635 640 Phe Thr Ser Ile Lys Asp Tyr Phe Thr Thr Leu Ser Asn Lys Arg Lys 645 650 655 Ile Ala Val Ala His Val Pro Ala Tyr Tyr Thr Ser Gln Ile Asp Ser 660 665 670 Ile Asp Asn Lys Ile Cys Met Ile Lys Ser Thr Asp Lys Asn Gly Lys 675 680 685 Ser Thr Tyr Lys Ile Ala Asp Lys Thr Ile Val Arg Pro Thr Gln Glu 690 695 700 Lys His Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile 705 710 715 720 Asn Phe Ile Val Ala Asp Glu Lys Trp Arg Lys Lys Phe Val Arg Pro 725 730 735 Thr Asn Thr Asn Lys Pro Leu Tyr Asn Ser Pro Val Phe Ser Pro Ala 740 745 750 Val Lys Ser Glu Gly Gly Thr Ile Lys Asn Leu Gln Ile Leu Ser Ala 755 760 765 Thr Lys Thr Ile Ile Leu 770 <210> 4 <211> 756 <212> PRT <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 4 Met Thr Thr Lys Gln Val Lys Ser Ile Val Leu Lys Val Lys Asn Thr 1 5 10 15 Asn Glu Cys Pro Ile Thr Lys Asp Val Ile Asn Glu Tyr Lys Lys Tyr 20 25 30 Tyr Asn Ile Cys Ser Glu Trp Ile Lys Asp Asn Leu Thr Ser Ile Thr 35 40 45 Ile Gly Asp Ile Ala Ser Phe Leu Lys Glu Ala Thr Asn Lys Asp Thr 50 55 60 Ile Pro Thr Tyr Ile Asn Met Gly Leu Ser Glu Glu Trp Lys Tyr Lys 65 70 75 80 Pro Ile Tyr His Leu Phe Thr Asp Asp Tyr His Glu Lys Ser Ala Asn 85 90 95 Asn Leu Leu Tyr Ala Tyr Phe Lys Glu Lys Asn Leu Asp Cys Tyr Asn 100 105 110 Gly Asn Ile Leu Asn Leu Ser Glu Thr Tyr Tyr Arg Arg Asn Gly Tyr 115 120 125 Phe Lys Ser Val Val Gly Asn Tyr Arg Thr Lys Ile Arg Thr Leu Asn 130 135 140 Tyr Lys Ile Lys Arg Lys Asn Val Asp Glu Asn Ser Thr Asn Glu Asp 145 150 155 160 Ile Glu Leu Gln Val Met Tyr Glu Ile Ala Lys Arg Lys Leu Asn Ile 165 170 175 Lys Lys Asp Trp Glu Asn Tyr Ile Ser Tyr Ile Glu Asn Val Glu Asn 180 185 190 Ile Asn Ile Lys Asn Ile Asp Arg Tyr Asn Leu Leu Tyr Lys His Phe 195 200 205 Cys Glu Asn Glu Ser Thr Ile Asn Cys Lys Met Glu Leu Leu Ser Val 210 215 220 Glu Gln Leu Lys Glu Phe Gly Gly Cys Val Met Lys Gln His Ile Asn 225 230 235 240 Ser Met Thr Ile Asn Ile Gln Asp Phe Lys Ile Glu Asn Lys Glu Asn 245 250 255 Ser Leu Gly Phe Ile Leu Asn Leu Pro Leu Asn Lys Lys Lys Tyr Gln 260 265 270 Ile Glu Leu Trp Gly Asn Arg Gln Ile Lys Lys Gly Asn Lys Asp Asn 275 280 285 Tyr Lys Thr Leu Val Asp Phe Ile Asn Thr Tyr Gly Gln Asn Ile Ile 290 295 300 Phe Thr Ile Lys Asn Asn Lys Ile Tyr Val Val Phe Ser Tyr Glu Cys 305 310 315 320 Glu Leu Lys Glu Lys Glu Ile Asn Phe Asp Lys Ile Val Gly Ile Asp 325 330 335 Val Asn Phe Lys His Ala Leu Phe Val Ala Ser Glu Arg Asp Lys Asn 340 345 350 Pro Leu Gln Asp Asn Asn Gln Leu Lys Gly Tyr Ile Asn Leu Tyr Lys 355 360 365 Tyr Leu Leu Glu His Asn Glu Phe Thr Ser Leu Leu Thr Lys Glu Glu 370 375 380 Leu Asp Ile Tyr Lys Glu Ile Ala Lys Gly Val Thr Phe Cys Pro Leu 385 390 395 400 Glu Tyr Asn Leu Leu Phe Thr Arg Ile Glu Asn Lys Gly Gly Lys Ser 405 410 415 Asn Asp Lys Glu Gln Val Leu Ser Lys Leu Leu Tyr Ser Leu Gln Ile 420 425 430 Lys Leu Lys Asn Glu Asn Lys Ile Gln Glu Tyr Ile Tyr Val Ser Cys 435 440 445 Val Asn Lys Leu Arg Ala Lys Tyr Val Ser Tyr Phe Ile Leu Lys Glu 450 455 460 Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Glu Met Gly Phe Thr 465 470 475 480 Asp Asp Ser Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg Leu Glu 485 490 495 Phe Pro Phe Arg Asn Thr Gln Ile Ala Asn Gly Phe Leu Glu Lys Leu 500 505 510 Ser Asn Val Gln Gln Asp Ile Asn Gly Cys Leu Lys Asn Ile Ile Asn 515 520 525 Tyr Ala Tyr Lys Val Phe Glu Gln Asn Gly Phe Gly Val Ile Ala Leu 530 535 540 Glu Asn Leu Glu Asn Ser Asn Phe Glu Lys Thr Gln Val Leu Pro Thr 545 550 555 560 Ile Lys Ser Leu Leu Glu Tyr His Lys Leu Glu Asn Gln Asn Ile Asn 565 570 575 Asn Ile Asn Ala Ser Asp Lys Val Lys Glu Tyr Ile Glu Lys Glu Tyr 580 585 590 Tyr Glu Leu Thr Thr Asn Glu Asn Asn Glu Ile Val Asp Ala Lys Tyr 595 600 605 Thr Lys Lys Gly Ile Ile Lys Val Lys Lys Ala Asn Phe Phe Asn Leu 610 615 620 Met Met Lys Ser Leu His Phe Ala Ser Asn Lys Asp Glu Phe Ile Leu 625 630 635 640 Leu Ser Asn Asn Gly Lys Thr Gln Ile Ala Leu Val Pro Ser Glu Tyr 645 650 655 Thr Ser Gln Met Asp Ser Ile Glu His Cys Leu Tyr Val Asp Lys Asn 660 665 670 Gly Lys Lys Val Asp Lys Lys Lys Val Arg Gln Lys Gln Glu Thr His 675 680 685 Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala Asn Asn Ile Lys Tyr 690 695 700 Ile Ile Glu Asn Glu Asn Leu Arg Lys Leu Phe Cys Gly Lys Leu Lys 705 710 715 720 Val Ser Gly Tyr Asn Thr Pro Ile Leu Asp Ala Thr Lys Lys Gly Gln 725 730 735 Phe Asn Ile Leu Ala Glu Leu Lys Lys Gln Asn Lys Ile Lys Ile Phe 740 745 750 Glu Ile Glu Lys 755 <210> 5 <211> 746 <212> PRT <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 5 Met Ala Ser His Lys Lys Thr Glu Ser Asn Gln Ile Ile Lys Thr Phe 1 5 10 15 Pro Phe Lys Leu Lys Asn Ala Asn Gly Leu Ser Leu Asp Val Leu Asn 20 25 30 Asp Ala Ile Thr Glu Tyr Gln Asn Tyr Tyr Asn Ile Cys Ser Asp Trp 35 40 45 Ile Lys Asp His Leu Thr Met Lys Ile Ser Glu Leu Tyr Lys Tyr Ile 50 55 60 Pro Asp Glu Lys Lys Asn Ser Gly Tyr Ala Leu Thr Leu Ile Ser Asp 65 70 75 80 Glu Trp Lys Asp Lys Pro Met Tyr Met Met Phe Lys Lys Gly Tyr Pro 85 90 95 Ala Asn Asn Arg Asp Asn Ala Ile Tyr Glu Thr Leu Asn Thr Cys Asn 100 105 110 Thr Glu His Tyr Thr Gly Asn Ile Leu Asn Phe Pro Asp Thr Tyr Tyr 115 120 125 Arg Arg Phe Gly Tyr Val Ala Ser Thr Ile Ser Asn Tyr Val Thr Lys 130 135 140 Ile Ser Lys Met Ser Thr Gly Ser Arg Ser Lys Asn Ile Ser Asn Asp 145 150 155 160 Ser Asp Val Asp Thr Ile Met Glu Gln Val Ile Tyr Glu Met Glu His 165 170 175 Asn Gly Trp Thr Ser Val Lys Asp Trp Glu Asn Gln Met Glu Tyr Leu 180 185 190 Glu Ser Lys Thr Asp Ser Asn Pro Asn Phe Val Tyr Arg Met Thr Thr 195 200 205 Leu Tyr Glu Phe Tyr Lys Ser His Ile Asp Glu Val Asn Ser Lys Met 210 215 220 Glu Thr Met Ser Ile Asp Leu Leu Ile Lys Phe Gly Gly Cys Arg Arg 225 230 235 240 Lys Asp Ser Lys Lys Ser Met Tyr Ile Met Gly Gly Ser Asn Thr Pro 245 250 255 Phe Asp Ile Thr Gln Ile Gly Asp Asn Ser Leu Asn Ile Lys Phe Ser 260 265 270 Lys Asn Leu Asn Val Asp Val Phe Gly Arg Tyr Asp Val Ile Lys Asp 275 280 285 Asn Thr Leu Leu Val Asp Ile Ile Asn Gly His Gly Ala Ser Phe Val 290 295 300 Leu Lys Ile Ile Asn Asp Glu Ile Tyr Ile Asp Ile Asn Val Ser Val 305 310 315 320 Pro Phe Asp Lys Lys Ile Ala Thr Thr Asn Lys Val Val Gly Ile Asp 325 330 335 Val Asn Ile Lys His Met Leu Leu Ala Thr Asn Ile Leu Asp Asp Gly 340 345 350 Asn Val Lys Gly Tyr Val Asn Ile Tyr Lys Glu Val Ile Asn Asp Ser 355 360 365 Asp Phe Lys Lys Val Cys Asn Ser Thr Val Met Lys Tyr Phe Thr Asp 370 375 380 Phe Ser Lys Phe Val Thr Phe Cys Pro Leu Glu Phe Asp Phe Leu Phe 385 390 395 400 Ser Arg Val Cys Asn Gln Lys Gly Ile Tyr Asn Asp Asn Ser Val Met 405 410 415 Glu Lys Ser Phe Ser Asp Val Leu Asn Lys Leu Lys Trp Asn Phe Ile 420 425 430 Glu Thr Gly Asp Asn Thr Lys Arg Ile Tyr Ile Glu Asn Val Met Lys 435 440 445 Leu Arg Thr Gln Met Lys Ala Tyr Ala Ile Val Lys Asn Ala Tyr Tyr 450 455 460 Lys Gln Gln Ser Glu Tyr Asp Phe Gly Lys Ser Glu Glu Phe Ile Gln 465 470 475 480 Glu His Pro Phe Ser Asn Thr Asp Lys Gly Ile Glu Ile Leu His Lys 485 490 495 Leu Asp Asn Ile Ser Lys Lys Ile Leu Gly Cys Arg Asn Asn Ile Ile 500 505 510 Gln Tyr Ser Tyr Asn Leu Phe Glu Ile Asn Gly Tyr Asp Met Ile Ser 515 520 525 Leu Glu Lys Leu Thr Ser Ser Gln Phe Lys Lys Lys Ser Phe Pro Thr 530 535 540 Val Asn Ser Leu Leu Lys Tyr His Lys Ile Leu Gly Cys Thr Gln Glu 545 550 555 560 Glu Met Glu Lys Lys Asp Ile Tyr Ser Val Ile Lys Lys Gly Tyr Tyr 565 570 575 Asp Ile Ile Phe Asp Asn Asp Val Val Thr Asp Ala Lys Leu Ser Thr 580 585 590 Lys Gly Glu Leu Ser Lys Phe Lys Asp Asp Phe Phe Asn Leu Met Ile 595 600 605 Lys Ser Ile His Phe Ala Asp Ile Lys Asp Tyr Phe Ile Thr Leu Ser 610 615 620 Asn Asn Gly Thr Ala Gly Val Ser Leu Val Pro Ser Phe Phe Thr Ser 625 630 635 640 Gln Met Asp Ser Ile Asp His Lys Ile Tyr Phe Val Gln Asp Asn Lys 645 650 655 Ser Gly Lys Leu Lys Leu Ala Asn Lys His Lys Val Arg Ser Ser Gln 660 665 670 Glu Lys His Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Arg Asn 675 680 685 Ile Ala Tyr Ile Met Glu Asn Thr Glu Cys Arg Asn Met Phe Met Lys 690 695 700 Gln Ser Arg Thr Asp Lys Ser Leu Tyr Asn Lys Pro Ser Tyr Glu Thr 705 710 715 720 Phe Ile Lys Thr Gln Gly Ser Ala Val Ala Lys Leu Lys Lys Glu Gly 725 730 735 Phe Met Lys Ile Leu Asp Glu Ala Ser Val 740 745 <210> 6 <211> 733 <212> PRT <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 6 Met Ala His Lys Lys Asn Ile Gly Ala Glu Ile Val Lys Thr Tyr Ser 1 5 10 15 Phe Lys Val Lys Asn Thr Asn Gly Ile Thr Met Glu Lys Leu Met Asn 20 25 30 Ala Ile Asp Glu Tyr Gln Ser Tyr Tyr Asn Leu Cys Ser Asp Trp Ile 35 40 45 Cys Lys Asn Leu Thr Thr Met Thr Ile Gly Asp Leu Asp Arg Tyr Ile 50 55 60 Pro Glu Lys Ala Lys Asp Asn Ile Tyr Ala Thr Val Leu Leu Asp Glu 65 70 75 80 Val Trp Lys Asn Gln Pro Leu Tyr Lys Ile Phe Gly Lys Lys Tyr Ser 85 90 95 Ser Asn Asn Arg Asn Asn Ala Leu Tyr Cys Ala Leu Ser Ser Val Ile 100 105 110 Asp Met Thr Lys Glu Asn Val Leu Gly Phe Ser Lys Thr His Tyr Ile 115 120 125 Arg Asn Gly Tyr Ile Leu Asn Val Ile Ser Asn Tyr Ala Ser Lys Leu 130 135 140 Ser Lys Leu Asn Thr Gly Val Lys Ser Arg Ala Ile Lys Glu Thr Ser 145 150 155 160 Asp Glu Ala Thr Ile Ile Glu Gln Val Ile Tyr Glu Met Glu His Asn 165 170 175 Lys Trp Glu Ser Ile Glu Asp Trp Lys Asn Gln Ile Glu Tyr Leu Asn 180 185 190 Ser Lys Thr Asp Tyr Asn Pro Thr Tyr Met Glu Arg Met Lys Thr Leu 195 200 205 Ser Ala Tyr Tyr Ser Thr His Lys Ser Glu Val Asp Ala Lys Met Gln 210 215 220 Glu Met Ala Val Glu Asn Leu Val Lys Phe Gly Gly Cys Arg Arg Asn 225 230 235 240 Asn Ser Lys Lys Ser Met Phe Ile Met Gly Ser Asn Thr Thr Asn Tyr 245 250 255 Thr Ile Ser Tyr Ile Gly Asp Asn Cys Phe Asn Ile Asn Phe Ala Asn 260 265 270 Ile Leu Asn Phe Asp Val Tyr Gly Arg Arg Asp Val Val Lys Asn Gly 275 280 285 Glu Val Leu Val Asp Ile Met Ala Asn His Gly Asp Ser Ile Val Leu 290 295 300 Lys Ile Val Asn Gly Glu Leu Tyr Ala Asp Val Pro Cys Ser Val Thr 305 310 315 320 Leu Asn Lys Val Glu Ser Asn Phe Asp Lys Val Val Gly Ile Asp Val 325 330 335 Asn Met Lys His Met Leu Leu Ser Thr Ser Val Thr Asp Asn Gly Ser 340 345 350 Ser Asp Phe Val Asn Ile Tyr Lys Glu Met Ser Asn Asn Ala Glu Phe 355 360 365 Met Ala Leu Cys Pro Glu Lys Asp Arg Lys Tyr Tyr Lys Asp Ile Ser 370 375 380 Gln Tyr Val Thr Phe Ala Pro Leu Glu Leu Asp Leu Leu Phe Ser Arg 385 390 395 400 Ile Ser Lys Gln Gly Glu Val Lys Met Glu Lys Ala Tyr Ser Glu Ile 405 410 415 Leu Glu Ser Leu Lys Trp Lys Phe Phe Ala Asn Gly Asp Asn Lys Asn 420 425 430 Arg Ile Tyr Val Glu Ser Ile Gln Lys Ile Arg Gln Gln Ile Lys Ala 435 440 445 Leu Cys Val Ile Lys Asn Ala Tyr Tyr Glu Gln Gln Ser Ala Tyr Asp 450 455 460 Ile Asp Lys Thr Gln Glu Tyr Ile Glu Thr His Pro Phe Ser Leu Thr 465 470 475 480 Glu Lys Gly Met Ser Ile Lys Ser Lys Met Asp Lys Ile Cys Gln Thr 485 490 495 Ile Ile Gly Cys Arg Asn Asn Ile Ile Asp Leu Ala Tyr Ser Phe Phe 500 505 510 Glu Arg Asn Gly Tyr Ser Ile Ile Gly Leu Glu Lys Leu Thr Ser Ser 515 520 525 Gln Phe Lys Asn Thr Lys Ser Met Pro Thr Cys Lys Ser Leu Leu Asn 530 535 540 Leu His Lys Val Leu Gly His Thr Leu Ser Glu Leu Glu Thr Leu Pro 545 550 555 560 Ile Asn Asp Ile Val Lys Tyr Tyr Thr Phe Thr Thr Asp Asn Glu Gly 565 570 575 Arg Ile Thr Asp Ala Ser Leu Ser Glu Lys Gly Lys Ile Arg Lys Met 580 585 590 Lys Asp Arg Phe Leu Asn Gln Ala Ile Lys Ala Ile His Phe Ala Asp 595 600 605 Val Lys Asp Tyr Phe Ala Thr Leu Ser Asn Asn Gly Gln Thr Gly Ile 610 615 620 Phe Phe Val Pro Ser Gln Phe Thr Ser Gln Met Asp Ser Asn Thr His 625 630 635 640 Asn Leu Tyr Phe Glu Val Asp Lys Asn Gly Gly Leu Lys Met Ala Ser 645 650 655 Lys Asp Lys Thr Arg Pro Lys Gln Glu Tyr His Arg Asn Gly Leu Pro 660 665 670 Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Tyr Ile Gly Leu Asp Glu 675 680 685 Thr Met Arg Asn Thr Phe Leu Lys Lys Val Asn Ser Asn Lys Ser Leu 690 695 700 Tyr Asn Gln Pro Ile Tyr Asp Thr Gly Ile Lys Lys Thr Ala Gly Val 705 710 715 720 Phe Ser Arg Met Lys Lys Leu Lys Arg Tyr Glu Ile Ile 725 730 <210> 7 <211> 744 <212> PRT <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 7 Met Ile Lys Ser Ile Lys Leu Lys Val Lys Gly Asp Cys Pro Ile Thr 1 5 10 15 Lys Asp Val Ile Asn Glu Tyr Lys Glu Tyr Tyr Asn Arg Cys Ser Asp 20 25 30 Trp Ile Lys Asn Asn Leu Thr Ser Ile Thr Ile Gly Glu Ile Gly Lys 35 40 45 Phe Leu Gln Asp Val Thr Gly Lys Thr Thr Gly Tyr Ile Glu Val Ala 50 55 60 Leu Ser Asp Lys Trp Lys Asp Lys Pro Met Tyr Tyr Leu Phe Thr Asp 65 70 75 80 Gln Tyr Asp Thr Asn His Ala Asn Asn Leu Leu Tyr Ser Phe Ile Gln 85 90 95 Glu Asn Asn Leu Asp Gly Tyr Asp Gly Asn Ser Leu Asn Ile Ser Gly 100 105 110 Thr Tyr Tyr Arg Lys Gln Gly Tyr Phe Lys Leu Val Ser Ser Asn Tyr 115 120 125 Arg Thr Lys Ile Arg Thr Leu Asn Cys Lys Ile Lys Arg Lys Lys Val 130 135 140 Asp Val Asp Ser Thr Ser Glu Asp Ile Glu Ser Gln Val Met Tyr Glu 145 150 155 160 Ile Ile Asn Arg Ser Leu Asn Lys Lys Ser Asp Trp Asp Ser Phe Ile 165 170 175 Ser Tyr Ile Glu Asn Val Glu Asn Pro Asn Ile Asp Ser Ile Asn Arg 180 185 190 Tyr Thr Leu Leu Arg Asp Tyr Phe Cys Asp Asn Glu Asp Val Ile Lys 195 200 205 Asn Lys Ile Glu Leu Leu Ser Ile Glu Gln Leu Lys Asp Phe Gly Gly 210 215 220 Cys Ile Met Lys Gln His Ile Asn Thr Met Ser Leu Asn Ile Gln His 225 230 235 240 Phe Lys Ile Glu Glu Lys Glu Asn Ser Leu Gly Phe Ile Leu Tyr Leu 245 250 255 Pro Leu Asn Lys Lys Gln Tyr Gln Ile Glu Leu Trp Gly His Arg Gln 260 265 270 Ile Lys Lys Gly Ser Lys Glu Ser Cys Glu Thr Leu Val Asp Phe Ile 275 280 285 Asn Thr Tyr Gly Glu Asn Ile Val Phe Thr Ile Asn Asn Asp Glu Leu 290 295 300 Tyr Val Val Phe Ser Tyr Glu Ser Glu Phe Gly Lys Glu Glu Thr Asn 305 310 315 320 Phe Glu Lys Ser Val Gly Leu Asp Ile Asn Phe Lys His Ala Leu Phe 325 330 335 Val Thr Ser Glu Leu Asp Asn Asp Gln Phe Asp Gly Tyr Ile Asn Leu 340 345 350 Tyr Lys Tyr Ile Leu Ser His Ser Glu Phe Thr Asn Leu Leu Thr Glu 355 360 365 Asp Glu Arg Lys Asp Tyr Glu Glu Leu Ser Lys Val Val Thr Phe Cys 370 375 380 Pro Phe Glu Asn Gln Leu Leu Phe Ala Arg Tyr Asp Lys Met Ser Lys 385 390 395 400 Phe Cys Lys Lys Glu Gln Val Leu Ser Lys Leu Leu Tyr Ser Leu Gln 405 410 415 Lys Lys Leu Lys Asn Glu Asn Arg Thr Lys Glu Tyr Ile Tyr Val Ser 420 425 430 Cys Val Asn Lys Leu Arg Ala Lys Tyr Ile Ser Tyr Phe Ile Leu Arg 435 440 445 Glu Lys Tyr Asp Glu Lys Asn Lys Glu Tyr Asp Ile Glu Met Gly Phe 450 455 460 Val Asp Asp Ser Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg Phe 465 470 475 480 Glu Asn Pro Phe Arg Asn Thr Leu Val Ala Asn Glu Leu Leu Ala Lys 485 490 495 Met Ser Lys Val Gln Gln Asp Ile Asn Gly Cys Met Ser Asn Ile Ile 500 505 510 Asn Tyr Val Tyr Lys Val Phe Glu Gln Asn Gly Tyr Asn Ile Ile Ala 515 520 525 Leu Glu Asn Leu Glu Asn Ser Asn Phe Glu Lys Arg Gln Val Leu Pro 530 535 540 Thr Ile Lys Ser Leu Leu Lys Tyr His Lys Leu Glu Asn Gln Asn Ile 545 550 555 560 Asn Asp Ile Lys Ala Ser Asp Lys Ile Lys Glu Tyr Ile Glu Asn Gly 565 570 575 Tyr Tyr Ser Phe Thr Thr Asn Glu Asn Asn Glu Ile Val Asp Ala Lys 580 585 590 Tyr Thr Ala Lys Gly Asp Ile Lys Val Lys Asn Ala Lys Phe Phe Asn 595 600 605 Leu Met Met Lys Ile Leu His Phe Ala Ser Ile Lys Asp Glu Phe Val 610 615 620 Leu Leu Ser Asn Asn Gly Lys Ser Gln Ile Ala Leu Val Pro Pro Glu 625 630 635 640 Tyr Thr Ser Gln Met Asp Ser Ile Asp His Cys Ile Tyr Met Thr Glu 645 650 655 Asn Asp Lys Gly Lys Ile Val Lys Val Asp Lys Arg Lys Val Arg Thr 660 665 670 Lys Gln Glu Arg His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala 675 680 685 Asn Asn Ile Lys Tyr Ile Val Ser Asn Glu Lys Trp Arg Asn Val Phe 690 695 700 Cys Thr Pro Lys Lys Ala Lys Tyr Asn Thr Pro Ala Leu Asp Ala Thr 705 710 715 720 Lys Lys Gly Gln Phe Arg Ile Leu Asp Asp Met Lys Lys Leu Asn Ala 725 730 735 Thr Lys Leu Leu Glu Ile Glu Lys 740 <210> 8 <211> 754 <212> PRT <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 8 Met Tyr Gln Leu Asn Gln Tyr Ile Met Ala Ser His Lys Lys Thr Glu 1 5 10 15 Ser Asn Gln Ile Ile Lys Thr Phe Ser Phe Lys Ile Lys Asn Ala Asn 20 25 30 Gly Leu Ser Leu Asp Val Leu Asn Asp Ala Ile Thr Glu Tyr Gln Asn 35 40 45 Tyr Tyr Asn Ile Cys Ser Asp Trp Ile Lys Asp His Leu Thr Met Lys 50 55 60 Ile Ser Glu Leu Tyr Lys Tyr Ile Pro Asp Glu Lys Lys Asn Ser Gly 65 70 75 80 Tyr Ala Leu Thr Leu Ile Ser Asp Glu Trp Lys Asp Lys Pro Met Tyr 85 90 95 Met Met Phe Lys Lys Gly Tyr Pro Ala Asn Asn Arg Asp Asn Ala Ile 100 105 110 Tyr Glu Thr Leu Asn Thr Cys Asn Thr Glu His Tyr Thr Gly Asn Ile 115 120 125 Leu Asn Phe Ser Asp Thr Tyr Tyr Arg Arg Phe Gly Tyr Val Ala Ser 130 135 140 Ala Ile Ser Asn Tyr Val Thr Lys Ile Ser Lys Met Ser Thr Gly Ser 145 150 155 160 Arg Tyr Lys Asn Ile Ser Asn Asp Ser Asp Val Asp Thr Ile Met Glu 165 170 175 Gln Val Ile Tyr Glu Met Glu His Asn Gly Trp Thr Ser Val Lys Asp 180 185 190 Trp Glu Asn Gln Met Glu Tyr Leu Glu Ser Lys Thr Asp Ser Asn Pro 195 200 205 Asn Phe Val Tyr Arg Met Thr Thr Leu Tyr Glu Phe Tyr Lys Ser His 210 215 220 Ile Asp Glu Val Asn Ser Lys Met Glu Thr Met Ser Ile Asp Ser Leu 225 230 235 240 Ile Lys Phe Gly Gly Cys Arg Arg Lys Asp Ser Lys Lys Ser Met Tyr 245 250 255 Ile Met Gly Gly Ser Asn Thr Pro Phe Asp Ile Thr Gln Ile Gly Gly 260 265 270 Asn Ser Leu Asn Ile Lys Phe Ser Lys Asn Leu Asn Val Asp Val Phe 275 280 285 Gly Arg Tyr Asp Val Ile Lys Asp Asn Thr Leu Leu Val Asp Ile Ile 290 295 300 Asn Gly His Gly Ala Ser Phe Val Leu Lys Ile Ile Asn Asp Glu Ile 305 310 315 320 Tyr Ile Asp Ile Asn Val Ser Val Pro Phe Asp Lys Lys Ile Ala Thr 325 330 335 Thr Asn Lys Val Val Gly Ile Asp Val Asn Ile Lys His Met Leu Leu 340 345 350 Ala Thr Asn Ile Leu Asp Asp Gly Asn Val Lys Gly Tyr Val Asn Ile 355 360 365 Tyr Lys Glu Val Ile Asn Asp Ser Asp Phe Lys Lys Val Cys Asn Ser 370 375 380 Thr Val Met Lys Tyr Phe Thr Asp Phe Ser Lys Phe Val Thr Phe Cys 385 390 395 400 Pro Leu Glu Phe Asp Phe Leu Phe Ser Arg Val Cys Asn Gln Lys Gly 405 410 415 Ile Tyr Asn Asp Asn Ser Ala Met Glu Lys Ser Phe Ser Asp Val Leu 420 425 430 Asn Lys Leu Lys Trp Asn Phe Ile Glu Thr Gly Asp Asn Thr Lys Arg 435 440 445 Ile Tyr Ile Glu Asn Val Met Lys Leu Arg Ser Gln Met Lys Ala Tyr 450 455 460 Ala Ile Val Lys Asn Ala Tyr Tyr Lys Gln Gln Ser Glu Tyr Asp Phe 465 470 475 480 Gly Lys Ser Glu Glu Phe Ile Gln Glu His Pro Phe Ser Asn Thr Asp 485 490 495 Lys Gly Ile Glu Ile Leu His Lys Leu Asp Asn Ile Ser Lys Lys Ile 500 505 510 Leu Gly Cys Arg Asn Asn Ile Ile Gln Tyr Ser Tyr Asn Leu Phe Glu 515 520 525 Ile Asn Gly Tyr Asp Met Ile Ser Leu Glu Lys Leu Thr Ser Ser Gln 530 535 540 Phe Lys Lys Lys Pro Phe Pro Thr Val Asn Ser Leu Leu Lys Tyr His 545 550 555 560 Lys Ile Leu Gly Cys Thr Gln Glu Glu Met Glu Lys Lys Asp Ile Tyr 565 570 575 Ser Val Ile Lys Lys Gly Tyr Tyr Asp Ile Ile Phe Asp Asn Gly Val 580 585 590 Val Ile Asp Ala Lys Leu Ser Ala Lys Gly Glu Leu Ser Lys Phe Lys 595 600 605 Asp Asp Phe Phe Asn Leu Met Ile Lys Ser Ile His Phe Ala Asp Ile 610 615 620 Lys Asp Tyr Phe Ile Thr Leu Ser Asn Asn Gly Thr Ala Gly Val Ser 625 630 635 640 Leu Val Pro Ser Tyr Phe Thr Ser Gln Met Asp Ser Ile Asp His Lys 645 650 655 Ile Tyr Phe Val Gln Asp Asn Lys Ser Gly Lys Leu Lys Leu Ala Asn 660 665 670 Lys His Lys Val Arg Ser Ser Gln Glu Lys His Ile Asn Gly Leu Asn 675 680 685 Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Tyr Ile Met Glu Asn Thr 690 695 700 Glu Cys Arg Asn Met Phe Met Lys Gln Ser Arg Thr Asp Lys Ser Leu 705 710 715 720 Tyr Asn Lys Pro Ser Tyr Glu Thr Phe Ile Lys Thr Gln Gly Ser Ala 725 730 735 Val Ser Lys Leu Lys Lys Asp Gly Phe Val Lys Ile Leu Asp Glu Ala 740 745 750 Ser Val <210> 9 <211> 746 <212> PRT <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 9 Met Ala Ser His Lys Lys Thr Glu Ser Asn Gln Ile Ile Lys Thr Phe 1 5 10 15 Ser Phe Lys Ile Lys Asn Ala Asn Gly Leu Ser Leu Asp Val Leu Asn 20 25 30 Asp Ala Ile Thr Glu Tyr Gln Asn Tyr Tyr Asn Ile Cys Ser Asp Trp 35 40 45 Ile Lys Asp His Leu Thr Met Lys Ile Ser Glu Leu Tyr Lys Tyr Ile 50 55 60 Pro Asp Glu Lys Lys Asn Ser Gly Tyr Ala Leu Thr Leu Ile Ser Asp 65 70 75 80 Glu Trp Lys Asp Lys Pro Met Tyr Met Met Phe Lys Lys Gly Tyr Pro 85 90 95 Ala Asn Asn Arg Asp Asn Ala Ile Tyr Glu Thr Leu Asn Thr Cys Asn 100 105 110 Thr Glu His Tyr Thr Gly Asn Ile Leu Asn Phe Ser Asp Thr Tyr Tyr 115 120 125 Arg Arg Phe Gly Tyr Val Ala Ser Ala Ile Ser Asn Tyr Val Thr Lys 130 135 140 Ile Ser Lys Met Ser Thr Gly Ser Arg Tyr Lys Asn Ile Ser Asn Asp 145 150 155 160 Ser Asp Val Asp Thr Ile Met Glu Gln Val Ile Tyr Glu Met Glu His 165 170 175 Asn Gly Trp Thr Ser Val Lys Asp Trp Glu Asn Gln Met Glu Tyr Leu 180 185 190 Glu Ser Lys Thr Asp Ser Asn Pro Asn Phe Val Tyr Arg Met Thr Thr 195 200 205 Leu Tyr Glu Phe Tyr Lys Ser His Ile Asp Glu Val Asn Ser Lys Met 210 215 220 Glu Thr Met Ser Ile Asp Ser Leu Ile Lys Phe Gly Gly Cys Arg Arg 225 230 235 240 Lys Asp Ser Lys Lys Ser Met Tyr Ile Met Gly Gly Ser Asn Thr Pro 245 250 255 Phe Asp Ile Thr Gln Ile Gly Gly Asn Ser Leu Asn Ile Lys Phe Ser 260 265 270 Lys Asn Leu Asn Val Asp Val Phe Gly Arg Tyr Asp Val Ile Lys Asp 275 280 285 Asn Thr Leu Leu Val Asp Ile Ile Asn Gly His Gly Ala Ser Phe Val 290 295 300 Leu Lys Ile Ile Asn Asp Glu Ile Tyr Ile Asp Ile Asn Val Ser Val 305 310 315 320 Pro Phe Asp Lys Lys Ile Ala Thr Thr Asn Lys Val Val Gly Ile Asp 325 330 335 Val Asn Ile Lys His Met Leu Leu Ala Thr Asn Ile Leu Asp Asp Gly 340 345 350 Asn Val Lys Gly Tyr Val Asn Ile Tyr Lys Glu Val Ile Asn Asp Ser 355 360 365 Asp Phe Lys Lys Val Cys Asn Ser Thr Val Met Lys Tyr Phe Thr Asp 370 375 380 Phe Ser Lys Phe Val Thr Phe Cys Pro Leu Glu Phe Asp Phe Leu Phe 385 390 395 400 Ser Arg Val Cys Asn Gln Lys Gly Ile Tyr Asn Asp Asn Ser Ala Met 405 410 415 Glu Lys Ser Phe Ser Asp Val Leu Asn Lys Leu Lys Trp Asn Phe Ile 420 425 430 Glu Thr Gly Asp Asn Thr Lys Arg Ile Tyr Ile Glu Asn Val Met Lys 435 440 445 Leu Arg Ser Gln Met Lys Ala Tyr Ala Ile Val Lys Asn Ala Tyr Tyr 450 455 460 Lys Gln Gln Ser Glu Tyr Asp Phe Gly Lys Ser Glu Glu Phe Ile Gln 465 470 475 480 Glu His Pro Phe Ser Asn Thr Asp Lys Gly Ile Glu Ile Leu His Lys 485 490 495 Leu Asp Asn Ile Ser Lys Lys Ile Leu Gly Cys Arg Asn Asn Ile Ile 500 505 510 Gln Tyr Ser Tyr Asn Leu Phe Glu Ile Asn Gly Tyr Asp Met Ile Ser 515 520 525 Leu Glu Lys Leu Thr Ser Ser Gln Phe Lys Lys Lys Pro Phe Pro Thr 530 535 540 Val Asn Ser Leu Leu Lys Tyr His Lys Ile Leu Gly Cys Thr Gln Glu 545 550 555 560 Glu Met Glu Lys Lys Asp Ile Tyr Ser Val Ile Lys Lys Gly Tyr Tyr 565 570 575 Asp Ile Ile Phe Asp Asn Gly Val Val Ile Asp Ala Lys Leu Ser Ala 580 585 590 Lys Gly Glu Leu Ser Lys Phe Lys Asp Asp Phe Phe Asn Leu Met Ile 595 600 605 Lys Ser Ile His Phe Ala Asp Ile Lys Asp Tyr Phe Ile Thr Leu Ser 610 615 620 Asn Asn Gly Thr Ala Gly Val Ser Leu Val Pro Ser Tyr Phe Thr Ser 625 630 635 640 Gln Met Asp Ser Ile Asp His Lys Ile Tyr Phe Val Gln Asp Asn Lys 645 650 655 Ser Gly Lys Leu Lys Leu Ala Asn Lys His Lys Val Arg Ser Ser Gln 660 665 670 Glu Lys His Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Arg Asn 675 680 685 Ile Ala Tyr Ile Met Glu Asn Thr Glu Cys Arg Asn Met Phe Met Lys 690 695 700 Gln Ser Arg Thr Asp Lys Ser Leu Tyr Asn Lys Pro Ser Tyr Glu Thr 705 710 715 720 Phe Ile Lys Thr Gln Gly Ser Ala Val Ser Lys Leu Lys Lys Asp Gly 725 730 735 Phe Val Lys Ile Leu Asp Glu Ala Ser Val 740 745 <210> 10 <211> 745 <212> PRT <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 10 Met Ile Lys Ser Ile Gln Leu Lys Val Lys Gly Glu Cys Pro Ile Thr 1 5 10 15 Lys Asp Val Ile Asn Glu Tyr Lys Glu Tyr Tyr Asn Asn Cys Ser Asp 20 25 30 Trp Ile Lys Asn Asn Leu Thr Ser Ile Thr Ile Gly Glu Met Ala Lys 35 40 45 Phe Leu Gln Ser Leu Ser Asp Lys Glu Val Ala Tyr Ile Ser Met Gly 50 55 60 Leu Ser Asp Glu Trp Lys Asp Lys Pro Leu Tyr His Leu Phe Thr Lys 65 70 75 80 Lys Tyr His Thr Lys Asn Ala Asp Asn Leu Leu Tyr Tyr Tyr Ile Lys 85 90 95 Glu Lys Asn Leu Asp Gly Tyr Lys Gly Asn Thr Leu Asn Ile Ser Asn 100 105 110 Thr Ser Phe Arg Gln Phe Gly Tyr Phe Lys Leu Val Val Ser Asn Tyr 115 120 125 Arg Thr Lys Ile Arg Thr Leu Asn Cys Lys Ile Lys Arg Lys Lys Ile 130 135 140 Asp Ala Asp Ser Thr Ser Glu Asp Ile Glu Met Gln Val Met Tyr Glu 145 150 155 160 Ile Ile Lys Tyr Ser Leu Asn Lys Lys Ser Asp Trp Asp Asn Phe Ile 165 170 175 Ser Tyr Ile Glu Asn Val Glu Asn Pro Asn Ile Asp Asn Ile Asn Arg 180 185 190 Tyr Lys Leu Leu Arg Glu Cys Phe Cys Glu Asn Glu Asn Met Ile Lys 195 200 205 Asn Lys Leu Glu Leu Leu Ser Val Glu Gln Leu Lys Lys Phe Gly Gly 210 215 220 Cys Ile Met Lys Pro His Ile Asn Ser Met Thr Ile Asn Ile Gln Asp 225 230 235 240 Phe Lys Ile Glu Glu Lys Glu Asn Ser Leu Gly Phe Ile Leu His Leu 245 250 255 Pro Leu Asn Lys Lys Gln Tyr Gln Ile Glu Leu Leu Gly Asn Arg Gln 260 265 270 Ile Lys Lys Gly Thr Lys Glu Ile His Glu Thr Leu Val Asp Ile Thr 275 280 285 Asn Thr His Gly Glu Asn Ile Val Phe Thr Ile Lys Asn Asp Asn Leu 290 295 300 Tyr Ile Val Phe Ser Tyr Glu Ser Glu Phe Glu Lys Glu Glu Val Asn 305 310 315 320 Phe Ala Lys Thr Val Gly Leu Asp Val Asn Phe Lys His Ala Phe Phe 325 330 335 Val Thr Ser Glu Lys Asp Asn Cys His Leu Asp Gly Tyr Ile Asn Leu 340 345 350 Tyr Lys Tyr Leu Leu Glu His Asp Glu Phe Thr Asn Leu Leu Thr Glu 355 360 365 Asp Glu Arg Lys Asp Tyr Glu Glu Leu Ser Lys Val Val Thr Phe Cys 370 375 380 Pro Phe Glu Asn Gln Leu Leu Phe Ala Arg Tyr Asn Lys Met Ser Lys 385 390 395 400 Phe Cys Lys Lys Glu Gln Val Leu Ser Lys Leu Leu Tyr Ala Leu Gln 405 410 415 Lys Lys Leu Lys Asp Glu Asn Arg Thr Lys Glu Tyr Ile Tyr Val Ser 420 425 430 Cys Val Asn Lys Leu Arg Ala Lys Tyr Val Ser Tyr Phe Ile Leu Lys 435 440 445 Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Glu Met Gly Phe 450 455 460 Val Asp Asp Ser Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg Thr 465 470 475 480 Glu Tyr Pro Phe Arg Asn Thr Pro Val Ala Asn Glu Leu Leu Ser Lys 485 490 495 Leu Asn Asn Val Gln Gln Asp Ile Asn Gly Cys Leu Lys Asn Ile Ile 500 505 510 Asn Tyr Ile Tyr Lys Ile Phe Glu Gln Asn Gly Tyr Lys Val Val Ala 515 520 525 Leu Glu Asn Leu Glu Asn Ser Asn Phe Glu Lys Lys Gln Val Leu Pro 530 535 540 Thr Ile Lys Ser Leu Leu Lys Tyr His Lys Leu Glu Asn Gln Asn Val 545 550 555 560 Asn Asp Ile Lys Ala Ser Asp Lys Val Lys Glu Tyr Ile Glu Asn Gly 565 570 575 Tyr Tyr Glu Leu Met Thr Asn Glu Asn Asn Glu Ile Val Asp Ala Lys 580 585 590 Tyr Thr Glu Lys Gly Ala Met Lys Val Lys Asn Ala Asn Phe Phe Asn 595 600 605 Leu Met Met Lys Ser Leu His Phe Ala Ser Val Lys Asp Glu Phe Val 610 615 620 Leu Leu Ser Asn Asn Gly Lys Thr Gln Ile Ala Leu Val Pro Ser Glu 625 630 635 640 Phe Thr Ser Gln Met Asp Ser Thr Asp His Cys Leu Tyr Met Lys Lys 645 650 655 Asn Asp Lys Gly Lys Leu Val Lys Ala Asp Lys Lys Glu Val Arg Thr 660 665 670 Lys Gln Glu Arg His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala 675 680 685 Asn Asn Ile Lys Tyr Ile Val Glu Asn Glu Val Trp Arg Gly Ile Phe 690 695 700 Cys Thr Arg Pro Lys Lys Thr Glu Tyr Asn Val Pro Ser Leu Asp Thr 705 710 715 720 Thr Lys Lys Gly Pro Ser Ala Ile Leu Asn Met Leu Lys Lys Ile Glu 725 730 735 Ala Ile Lys Val Leu Glu Thr Glu Lys 740 745 <210> 11 <211> 744 <212> PRT <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 11 Met Ile Lys Ser Ile Val Phe Lys Val Lys Gly Asp Cys Pro Ile Thr 1 5 10 15 Lys Asp Val Ile Lys Glu Tyr Lys Glu Tyr Tyr Asn Arg Cys Ser Glu 20 25 30 Trp Ile Lys Asn Asn Leu Thr Ser Ile Thr Ile Gly Glu Ile Gly Lys 35 40 45 Phe Leu Gln Asp Thr Met Gly Lys Thr His Gly Tyr Ile Lys Val Ala 50 55 60 Leu Ser Asp Glu Trp Lys Asp Lys Pro Met Tyr Tyr Leu Phe Thr Glu 65 70 75 80 Lys Tyr Asp Thr Lys His Ala Asn Asn Leu Leu Tyr Tyr Phe Ile Gln 85 90 95 Glu Asn Asn Leu Asp Arg Tyr Glu Gly Asn Ser Leu Asn Ile Pro Ser 100 105 110 Tyr Tyr Tyr Lys Arg Glu Gly Tyr Phe Lys Leu Val Thr Ser Asn Tyr 115 120 125 Arg Thr Lys Ile Arg Thr Leu Asn Cys Lys Ile Lys Arg Lys Lys Ile 130 135 140 Asp Val Asp Ser Thr Cys Val Asp Ile Glu Asn Gln Val Ile Tyr Glu 145 150 155 160 Ile Ile Lys Lys Gly Leu Asn Lys Lys Ser Asp Trp Asp Asn Tyr Ile 165 170 175 Ser Tyr Ile Glu Asn Ile Glu Met Pro Asn Ile Asp Ser Ile Asn Arg 180 185 190 Tyr Lys Leu Leu Arg Asp Tyr Phe Cys Glu Asn Glu Asn Val Ile Lys 195 200 205 Asn Lys Ile Glu Leu Leu Ser Ile Glu Gln Leu Lys Asn Phe Gly Gly 210 215 220 Cys Ile Met Lys Gln His Ile Asn Thr Met Ile Leu Asn Ile Lys Arg 225 230 235 240 Leu Lys Ile Glu Glu Lys Glu Asn Ser Leu Gly Phe Ile Leu His Leu 245 250 255 Pro Leu Asn Lys Lys Gln Tyr Gln Ile Glu Leu Trp Gly Asn Arg Gln 260 265 270 Ile Lys Lys Gly Thr Lys Glu Ser Asn Glu Thr Leu Val Asp Phe Ile 275 280 285 Asn Thr Tyr Gly Glu Asp Val Val Phe Thr Ile Lys Lys Asn Glu Leu 290 295 300 Tyr Ala Lys Phe Ser Tyr Glu Cys Glu Phe Glu Lys Glu Glu Thr Asn 305 310 315 320 Phe Glu Lys Ser Val Gly Leu Asp Ile Asn Phe Lys His Ala Leu Phe 325 330 335 Val Thr Ser Glu Leu Asp Asp Asp Gln Phe Tyr Gly Tyr Ile Asn Leu 340 345 350 Tyr Lys Tyr Ile Leu Ser His Ser Glu Phe Thr Asn Leu Leu Thr Glu 355 360 365 Asp Glu Lys Lys Asp Tyr Glu Asp Leu Ser Asn Ala Ile Thr Phe Cys 370 375 380 Pro Phe Glu Asn Gln Leu Leu Phe Thr Arg Tyr Asp Lys Lys Ser Lys 385 390 395 400 Leu Tyr Lys Lys Glu Gln Val Leu Ser Lys Ile Leu Tyr Ser Leu Gln 405 410 415 Lys Lys Leu Lys Asp Glu Asn Arg Lys Gln Glu Tyr Ile Tyr Val Ser 420 425 430 Cys Val Asn Lys Leu Arg Ala Lys Tyr Val Ser Tyr Phe Ile Leu Lys 435 440 445 Glu Lys Tyr Asn Glu Lys Gln Lys Glu Tyr Asp Ile Glu Met Gly Phe 450 455 460 Val Asp Asp Ser Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg Tyr 465 470 475 480 Glu Tyr Pro Phe Arg Asn Thr Pro Val Ala Asn Glu Leu Leu Glu Lys 485 490 495 Met Asn Asn Val Gln Gln Asp Ile Ser Gly Cys Leu Lys Asn Ile Ile 500 505 510 Asn Tyr Ala Tyr Lys Val Phe Glu Gln Asn Gly Tyr Asn Ile Val Ala 515 520 525 Leu Glu Asn Leu Glu Asn Ser Asn Phe Glu Lys Arg Asn Val Leu Pro 530 535 540 Thr Ile Lys Ser Leu Leu Lys Tyr His Lys Leu Glu Asn Gln Asn Ile 545 550 555 560 Thr Asp Ile Lys Ala Ser Asp Lys Ile Lys Glu Tyr Ile Glu Asn Gly 565 570 575 Tyr Tyr Glu Leu Ile Thr Asn Glu Asn Asn Glu Ile Ile Asp Ala Lys 580 585 590 Tyr Thr Glu Asn Gly Asp Ile Lys Val Lys Asn Ala Arg Phe Phe Asn 595 600 605 Leu Met Met Lys Ser Leu His Phe Ala Ser Ile Lys Asp Glu Phe Val 610 615 620 Leu Leu Ser Asn Asn Gly Lys Ser Gln Ile Ala Leu Val Pro Ser Glu 625 630 635 640 Tyr Thr Ser Gln Met Asp Ser Thr Asp His Cys Ile Tyr Met Thr Glu 645 650 655 Asn Asp Lys Gly Lys Leu Val Lys Val Asp Lys Arg Lys Val Arg Thr 660 665 670 Lys Gln Glu Arg His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala 675 680 685 Asn Asn Ile Lys Tyr Ile Val Glu Asn Glu Lys Trp Arg Lys Val Phe 690 695 700 Cys Ala Pro Gln Lys Ala Lys Tyr Asn Thr Pro Thr Leu Asp Ala Thr 705 710 715 720 Lys Lys Gly Gln Phe Arg Ile Leu Glu Asp Leu Lys Lys Leu Lys Ala 725 730 735 Thr Lys Leu Leu Glu Ile Gly Lys 740 <210> 12 <211> 745 <212> PRT <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 12 Met Ile Lys Ser Ile Gln Leu Lys Val Lys Gly Glu Cys Pro Ile Thr 1 5 10 15 Lys Asp Val Ile Asn Glu Tyr Lys Glu Tyr Tyr Asn Asn Cys Ser Asp 20 25 30 Trp Ile Lys Asn Asn Leu Thr Ser Ile Thr Ile Gly Glu Met Ala Lys 35 40 45 Phe Leu Gln Ser Leu Ser Asp Lys Glu Val Ala Tyr Ile Ser Met Gly 50 55 60 Leu Ser Asp Glu Trp Lys Asp Lys Pro Leu Tyr His Leu Phe Thr Lys 65 70 75 80 Lys Tyr His Thr Lys Asn Ala Asp Asn Leu Leu Tyr Tyr Tyr Ile Lys 85 90 95 Glu Lys Asn Leu Asp Gly Tyr Lys Gly Asn Thr Leu Asn Ile Ser Asn 100 105 110 Thr Ser Phe Arg Gln Phe Gly Tyr Phe Lys Leu Val Val Ser Asn Tyr 115 120 125 Arg Thr Lys Ile Arg Thr Leu Asn Cys Lys Ile Lys Arg Lys Lys Ile 130 135 140 Asp Ala Asp Ser Thr Ser Glu Asp Ile Glu Met Gln Val Met Tyr Glu 145 150 155 160 Ile Ile Lys Tyr Ser Leu Asn Lys Lys Ser Asp Trp Asp Asn Phe Ile 165 170 175 Ser Tyr Ile Glu Asn Val Glu Asn Pro Asn Ile Asp Asn Ile Asn Arg 180 185 190 Tyr Lys Leu Leu Arg Glu Cys Phe Cys Glu Asn Glu Asn Met Ile Lys 195 200 205 Asn Lys Leu Glu Leu Leu Ser Val Glu Gln Leu Lys Lys Phe Gly Gly 210 215 220 Cys Ile Met Lys Pro His Ile Asn Ser Met Thr Ile Asn Ile Gln Asp 225 230 235 240 Phe Lys Ile Glu Glu Lys Glu Asn Ser Leu Gly Phe Ile Leu His Leu 245 250 255 Pro Leu Asn Lys Lys Gln Tyr Gln Ile Glu Leu Leu Gly Asn Arg Gln 260 265 270 Ile Lys Lys Gly Thr Lys Glu Ser His Glu Thr Leu Val Asp Ile Thr 275 280 285 Asn Thr His Gly Glu Asn Ile Val Phe Thr Ile Lys Asn Asp Asn Leu 290 295 300 Tyr Ile Val Phe Ser Tyr Glu Ser Glu Phe Glu Lys Glu Glu Val Asn 305 310 315 320 Phe Ala Lys Thr Val Gly Leu Asp Val Asn Phe Lys His Ala Phe Phe 325 330 335 Val Thr Ser Glu Lys Asp Asn Cys His Leu Asp Gly Tyr Ile Asn Leu 340 345 350 Tyr Lys Tyr Leu Leu Glu His Asp Glu Phe Thr Asn Leu Leu Thr Glu 355 360 365 Asp Glu Arg Lys Asp Tyr Glu Glu Leu Ser Lys Val Val Thr Phe Cys 370 375 380 Pro Phe Glu Asn Gln Leu Leu Phe Ala Arg Tyr Asn Lys Met Ser Lys 385 390 395 400 Phe Cys Lys Lys Glu Gln Val Leu Ser Lys Leu Leu Tyr Ala Leu Gln 405 410 415 Lys Lys Leu Lys Asp Glu Asn Arg Thr Lys Glu Tyr Ile Tyr Val Ser 420 425 430 Cys Val Asn Lys Leu Arg Ala Lys Tyr Val Ser Tyr Phe Ile Leu Lys 435 440 445 Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Glu Met Gly Phe 450 455 460 Val Asp Asp Ser Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg Thr 465 470 475 480 Glu Tyr Pro Phe Arg Asn Thr Pro Val Ala Asn Glu Leu Leu Ser Lys 485 490 495 Leu Asn Asn Val Gln Gln Asp Ile Asn Gly Cys Leu Lys Asn Ile Ile 500 505 510 Asn Tyr Ile Tyr Lys Ile Phe Glu Gln Asn Gly Tyr Lys Val Val Ala 515 520 525 Leu Glu Asn Leu Glu Asn Ser Asn Phe Glu Lys Lys Gln Val Leu Pro 530 535 540 Thr Ile Lys Ser Leu Leu Lys Tyr His Lys Leu Glu Asn Gln Asn Val 545 550 555 560 Asn Asp Ile Lys Ala Ser Asp Lys Val Lys Glu Tyr Ile Glu Asn Gly 565 570 575 Tyr Tyr Glu Leu Met Thr Asn Glu Asn Asn Glu Ile Val Asp Ala Lys 580 585 590 Tyr Thr Glu Lys Gly Ala Met Lys Val Lys Asn Ala Asn Phe Phe Asn 595 600 605 Leu Met Met Lys Ser Leu His Phe Ala Ser Val Lys Asp Glu Phe Val 610 615 620 Leu Leu Ser Asn Asn Gly Lys Thr Gln Ile Ala Leu Val Pro Ser Glu 625 630 635 640 Phe Thr Ser Gln Met Asp Ser Thr Asp His Cys Leu Tyr Met Lys Lys 645 650 655 Asn Asp Lys Gly Lys Leu Val Lys Ala Asp Lys Lys Glu Val Arg Thr 660 665 670 Lys Gln Glu Arg His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala 675 680 685 Asn Asn Ile Lys Tyr Ile Val Glu Asn Glu Val Trp Arg Gly Ile Phe 690 695 700 Cys Thr Arg Pro Lys Lys Thr Glu Tyr Asn Val Pro Ser Leu Asp Thr 705 710 715 720 Thr Lys Lys Gly Pro Ser Ala Ile Leu Asn Met Leu Lys Lys Ile Glu 725 730 735 Ala Val Lys Ile Leu Glu Thr Glu Lys 740 745 <210> 13 <211> 712 <212> PRT <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 13 Met Lys Asn Asn Leu Thr Thr Val Thr Ile Gly Glu Met Ala Lys Phe 1 5 10 15 Leu Gln Glu Thr Thr Gly Lys Asn Val Thr Tyr Ile Thr Met Gly Leu 20 25 30 Ser Glu Glu Trp Lys Asp Lys Pro Leu Tyr His Leu Phe Tyr Gly Lys 35 40 45 Tyr His Thr Lys Asn Ala Asp Asn Leu Leu Tyr Tyr Phe Ile Lys Ala 50 55 60 Lys Lys Leu Asp Glu Tyr Asp Gly Asn Met Leu Asn Leu Gly Asp Thr 65 70 75 80 Tyr Tyr Arg Gln Phe Gly Tyr Phe Lys Leu Val Val Ser Asn Tyr Arg 85 90 95 Thr Lys Ile Arg Thr Leu Asn Leu Asn Val Lys Arg Lys Arg Val Asp 100 105 110 Val Asp Ser Thr Ser Glu Asp Ile Glu Ser Gln Val Met Tyr Glu Ile 115 120 125 Val Lys Arg Asn Leu Asn Thr Ile Ser Asp Trp Glu Asn Tyr Ile Ser 130 135 140 Tyr Ile Glu Asp Val Glu Thr Pro Asn Ile Asp Asn Ile Asn Arg Tyr 145 150 155 160 Lys Phe Leu Gln Asn Tyr Phe Cys Glu Asn Glu Glu Asp Ile Lys Asn 165 170 175 Lys Ile Glu Phe Leu Ser Ile Glu Gln Leu Lys Asp Phe Gly Gly Cys 180 185 190 Ile Met Lys Pro His Ile Asn Ser Met Thr Ile Asn Ile Gln Asp Phe 195 200 205 Lys Ile Glu Glu Ile Glu Asn Ser Leu Gly Phe Val Leu Gln Leu Pro 210 215 220 Leu Asn Lys Lys Tyr His Gln Ile Glu Leu Tyr Gly Asn Arg Gln Val 225 230 235 240 Lys Lys Gly Thr Lys Glu Asn Tyr Lys Thr Leu Val Asp Ile Ile Asn 245 250 255 Thr His Gly Glu Asn Ile Val Phe Thr Ile Glu Asn Asn Glu Leu Tyr 260 265 270 Val Val Phe Ser Tyr Glu Tyr Glu Leu Lys Lys Lys Asp Ile Asn Phe 275 280 285 Glu Lys Met Ala Gly Ile Asp Val Asn Phe Lys His Ala Leu Phe Val 290 295 300 Thr Ser Glu Thr Asp Asn Asn Gln Leu Asn His Tyr Ile Asn Leu Tyr 305 310 315 320 Lys His Ile Leu Glu His Asn Glu Phe Thr Thr Leu Leu Thr Asp Ser 325 330 335 Glu Arg Lys Asp Tyr Glu Glu Ile Ala Lys Thr Val Thr Phe Cys Pro 340 345 350 Phe Glu Tyr Gln Leu Leu Phe Thr Arg Phe Asp Lys Asn Ser Asn Ala 355 360 365 Asn Val Lys Glu Gln Ala Leu Ser Lys Ile Leu Tyr Asp Leu Gln Lys 370 375 380 Lys Leu Lys Ser Gln Asn Lys Ile Lys Glu Tyr Ile Tyr Val Ser Cys 385 390 395 400 Val Asn Lys Leu Arg Ala Lys Tyr Val Ser Tyr Phe Ile Leu Lys Glu 405 410 415 Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Gln Met Gly Phe Val 420 425 430 Asp Asp Ser Thr Glu Ser Lys Ser Ser Met Val Lys Arg Arg Val Glu 435 440 445 Tyr Pro Phe Arg Asn Thr Pro Val Ala Asn Ala Leu Leu Ala Ile Val 450 455 460 Asn Asn Val Gln Gln Asp Ile Asn Gly Cys Leu Lys Asn Ile Ile Asn 465 470 475 480 Tyr Ala Tyr Lys Val Phe Glu Leu Asn Asp Tyr Asn Val Val Ala Leu 485 490 495 Glu Asn Leu Glu Asn Ala Asn Phe Glu Lys Lys Gln Val Ile Pro Thr 500 505 510 Ile Lys Ser Leu Leu Lys Tyr His Lys Leu Glu Met Gln Asn Ile Asn 515 520 525 Asp Ile Lys Ala Asn Asp Thr Ile Lys Lys Tyr Ile Glu Asn Glu Tyr 530 535 540 Tyr Gln Leu Ile Thr Asn Glu Asn Asn Glu Ile Val Asn Ala Ile Tyr 545 550 555 560 Thr Pro Lys Gly Ile Thr Lys Leu Lys Tyr Ala Asn Phe Phe Asn Leu 565 570 575 Leu Met Lys Ser Leu His Phe Ala Ser Ile Lys Asp Glu Phe Ile Leu 580 585 590 Leu Ser Asn Asn Gly Asn Thr Asn Ile Ala Leu Val Pro His Glu Tyr 595 600 605 Thr Ser Gln Met Asp Ser Ile Asp His Cys Ile Tyr Met Val Gln Asn 610 615 620 Asp Lys Gly Asn Leu Val Lys Ala His Lys Thr Lys Val Arg Thr Lys 625 630 635 640 Gln Glu Lys His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala Asn 645 650 655 Asn Ile Lys Tyr Ile Val Glu Asn Glu Lys Trp Arg Asn Ile Phe Cys 660 665 670 Lys Ile Pro Lys Lys Ile Glu Tyr Asn Thr Pro Val Leu Asp Val Thr 675 680 685 Lys Lys Gly Gln Ser Asn Ile Ile Lys Thr Leu Lys Asn Leu Asn Ala 690 695 700 Thr Lys Ile Leu Glu Ile Lys Lys 705 710 <210> 14 <211> 741 <212> PRT <213> Unknown <220> <223> Description of Unknown: terrestrial metagenome sequence <400> 14 Met Lys Lys Ser Ile Lys Phe Lys Val Lys Gly Asn Cys Pro Ile Thr 1 5 10 15 Lys Asp Val Ile Asn Glu Tyr Lys Glu Tyr Tyr Asn Lys Cys Ser Asp 20 25 30 Trp Ile Lys Asn Asn Leu Thr Ser Ile Thr Ile Gly Glu Met Ala Lys 35 40 45 Phe Leu Gln Glu Thr Leu Gly Lys Asp Val Ala Tyr Ile Ser Met Gly 50 55 60 Leu Ser Asp Glu Trp Lys Asp Lys Pro Leu Tyr His Leu Phe Thr Lys 65 70 75 80 Lys Tyr His Thr Asn Asn Ala Asp Asn Leu Leu Tyr Tyr Tyr Ile Lys 85 90 95 Glu Lys Asn Leu Asp Gly Tyr Lys Gly Asn Thr Leu Asn Ile Gly Asn 100 105 110 Thr Phe Phe Arg Gln Phe Gly Tyr Phe Lys Leu Val Val Ser Asn Tyr 115 120 125 Arg Thr Lys Ile Arg Thr Leu Asn Cys Glu Ile Lys Arg Lys Lys Ile 130 135 140 Asp Ala Asp Ser Thr Ser Glu Asp Ile Glu Met Gln Thr Met Tyr Glu 145 150 155 160 Ile Ile Lys His Asn Leu Asn Lys Lys Thr Asp Trp Asp Glu Phe Ile 165 170 175 Ser Tyr Ile Glu Asn Val Glu Asn Pro Asn Ile Asp Asn Ile Asn Arg 180 185 190 Tyr Lys Leu Leu Arg Lys Cys Phe Cys Glu Asn Glu Asn Met Ile Lys 195 200 205 Asn Lys Leu Glu Leu Leu Ser Ile Glu Gln Leu Lys Asn Phe Gly Gly 210 215 220 Cys Ile Met Lys Gln His Ile Asn Ser Met Thr Leu Ile Ile Gln His 225 230 235 240 Phe Lys Ile Glu Glu Lys Glu Asn Ser Leu Gly Phe Ile Leu Asn Leu 245 250 255 Pro Leu Asn Lys Lys Gln Tyr Gln Ile Glu Leu Trp Gly Asn Arg Gln 260 265 270 Val Asn Lys Gly Thr Lys Glu Arg Asp Ala Phe Leu Asn Thr Tyr Gly 275 280 285 Glu Asn Ile Val Phe Ile Ile Asn Asn Asp Glu Leu Tyr Val Val Phe 290 295 300 Ser Tyr Glu Tyr Glu Leu Glu Lys Glu Glu Ala Asn Phe Val Lys Thr 305 310 315 320 Val Gly Leu Asp Val Asn Phe Lys His Ala Phe Phe Val Thr Ser Glu 325 330 335 Lys Asp Asn Cys His Leu Asp Gly Tyr Ile Asn Leu Tyr Lys Tyr Leu 340 345 350 Leu Glu His Asp Glu Phe Thr Asn Leu Leu Thr Asn Asp Glu Lys Lys 355 360 365 Asp Tyr Glu Glu Leu Ser Lys Val Val Thr Phe Cys Pro Phe Glu Asn 370 375 380 Gln Leu Leu Phe Ala Arg Tyr Asn Lys Met Ser Lys Phe Cys Lys Lys 385 390 395 400 Glu Gln Val Leu Ser Lys Leu Leu Tyr Ala Leu Gln Lys Gln Leu Lys 405 410 415 Asp Glu Asn Arg Thr Lys Glu Tyr Ile Tyr Val Ser Cys Val Asn Lys 420 425 430 Leu Arg Ala Lys Tyr Val Ser Tyr Phe Ile Leu Lys Glu Lys Tyr Tyr 435 440 445 Glu Lys Gln Lys Glu Tyr Asp Ile Glu Met Gly Phe Val Asp Asp Ser 450 455 460 Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg Thr Glu Phe Pro Phe 465 470 475 480 Arg Asn Thr Pro Val Ala Asn Glu Leu Leu Ser Lys Leu Asn Asn Val 485 490 495 Gln Gln Asp Ile Asn Gly Cys Leu Lys Asn Ile Ile Asn Tyr Ile Tyr 500 505 510 Lys Ile Phe Glu Gln Asn Gly Tyr Lys Ile Val Ala Leu Glu Asn Leu 515 520 525 Glu Asn Ser Asn Phe Glu Lys Lys Gln Val Leu Pro Thr Ile Lys Ser 530 535 540 Leu Leu Lys Tyr His Lys Leu Glu Asn Gln Asn Val Asn Asp Ile Lys 545 550 555 560 Ala Ser Asp Lys Val Lys Glu Tyr Ile Glu Asn Gly Tyr Tyr Glu Leu 565 570 575 Ile Thr Asn Glu Asn Asn Glu Ile Val Asp Ala Lys Tyr Thr Glu Lys 580 585 590 Gly Ala Met Lys Val Lys Asn Ala Asn Phe Phe Asn Leu Met Met Lys 595 600 605 Ser Leu His Phe Ala Ser Val Lys Asp Glu Phe Val Leu Leu Ser Asn 610 615 620 Asn Gly Lys Thr Gln Ile Ala Leu Val Pro Ser Glu Phe Thr Ser Gln 625 630 635 640 Met Asp Ser Thr Asp His Cys Leu Tyr Met Lys Lys Asn Asp Lys Gly 645 650 655 Lys Leu Val Lys Ala Asp Lys Lys Glu Val Arg Thr Lys Gln Glu Lys 660 665 670 His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala Asn Asn Ile Lys 675 680 685 Tyr Ile Val Glu Asn Glu Val Trp Arg Glu Ile Phe Cys Thr Arg Pro 690 695 700 Lys Lys Ala Glu Tyr Asn Val Pro Ser Leu Asp Thr Thr Lys Lys Gly 705 710 715 720 Pro Ser Ala Ile Leu His Met Leu Lys Lys Ile Glu Ala Ile Lys Ile 725 730 735 Leu Glu Thr Glu Lys 740 <210> 15 <211> 752 <212> PRT <213> Unknown <220> <223> Description of Unknown: feces metagenome sequence <400> 15 Met Ala Lys Ser Ile Met Lys Lys Ser Ile Lys Phe Lys Val Lys Gly 1 5 10 15 Asn Ser Pro Ile Asn Glu Asp Ile Ile Asn Glu Tyr Lys Gly Tyr Tyr 20 25 30 Asn Thr Cys Ser Asn Trp Ile Asn Asn Asn Leu Thr Ser Ile Thr Ile 35 40 45 Gly Glu Met Gly Lys Phe Leu Lys Asp Val Met Arg Lys Thr Thr Gly 50 55 60 Tyr Ile Asp Val Ala Leu Ser Asp Glu Trp Lys Asp Lys Pro Met Tyr 65 70 75 80 Tyr Leu Phe Thr Lys Lys Tyr Asn Pro Lys His Ala Asn Asn Leu Leu 85 90 95 Tyr Tyr Phe Ile Lys Glu Lys Lys Leu Asp Lys Phe Asn Gly Asn Ile 100 105 110 Leu Asn Val Pro Glu Tyr Tyr Tyr Arg Lys Glu Gly Tyr Phe Lys Leu 115 120 125 Val Ala Gly Asn Tyr Arg Thr Lys Ile Asn Thr Leu Asn Phe Lys Ile 130 135 140 Lys Ser Lys Lys Val Asp Ala Asn Ser Leu Ser Glu Asp Ile Glu Met 145 150 155 160 Gln Thr Ile Tyr Glu Ile Val Lys Arg Gly Leu Asn Lys Lys Ser Asp 165 170 175 Trp Asp Ser Tyr Ile Ser Tyr Ile Glu Cys Val Gln Asn Pro Asn Ile 180 185 190 Asp Asn Ile Asn Arg Tyr Lys Leu Leu Arg Asp Tyr Phe Cys Glu Asn 195 200 205 Glu Asp Val Ile Lys Asn Lys Ile Glu Ile Leu Ser Ile Glu Gln Ile 210 215 220 Lys Glu Phe Gly Gly Cys Ile Met Lys Pro His Ile Asn Ser Met Thr 225 230 235 240 Phe Gly Ile Gln Lys Phe Lys Ile Glu Glu Ile Glu Asn Ser Leu Gly 245 250 255 Phe Thr Phe Asn Leu Pro Leu Asn Lys Asn Asn Tyr Lys Ile Glu Leu 260 265 270 Trp Gly His Arg Gln Leu Lys Lys Gly Asn Lys Glu Ser Asn Val Asn 275 280 285 Val Ser Leu Asp Asp Phe Ile Asn Thr Tyr Gly Gln Asn Val Val Phe 290 295 300 Thr Ile Lys Arg Lys Lys Leu Tyr Ile Val Phe Ser Tyr Asp Tyr Glu 305 310 315 320 Phe Glu Arg Gly Glu Cys Asn Phe Glu Lys Ser Val Gly Leu Asp Val 325 330 335 Asn Phe Lys His Ser Leu Phe Val Thr Ser Glu Ile Asp Asn Asn Gln 340 345 350 Phe Asp Gly Tyr Ile Asn Leu Tyr Lys Tyr Ile Leu Ser Asn Asn Glu 355 360 365 Phe Thr Ser Leu Leu Thr Asp Ser Glu Arg Lys Asp Tyr Glu Asp Leu 370 375 380 Ala Asn Ile Val Thr Phe Cys Pro Phe Glu Tyr Gln Leu Leu Phe Ser 385 390 395 400 Arg Tyr Asp Lys Leu Ser Lys Ile Ser Glu Lys Glu Lys Val Leu Ser 405 410 415 Lys Ile Leu Tyr Ser Leu Gln Lys Lys Leu Lys Asn Glu Lys Arg Thr 420 425 430 Lys Glu Tyr Ile Tyr Val Ser Cys Val Asn Lys Leu Arg Ala Lys Tyr 435 440 445 Val Ser Tyr Phe Lys Leu Lys Gln Lys Tyr Asn Glu Lys Gln Lys Glu 450 455 460 Tyr Asp Ile Glu Met Gly Phe Val Asp Asp Ser Thr Glu Ser Lys Glu 465 470 475 480 Ser Met Asp Lys Arg Arg Phe Glu Asn Pro Phe Ile Asn Thr Pro Val 485 490 495 Ala Lys Glu Leu Leu Glu Lys Met Asn Asn Val Lys Gln Asp Ile Asn 500 505 510 Gly Cys Lys Lys Asn Ile Val Val Tyr Ala Tyr Lys Val Leu Glu Gln 515 520 525 Asn Gly Tyr Asn Ile Ile Ala Leu Glu Asn Leu Glu Asn Ser Asn Phe 530 535 540 Glu Lys Ile Arg Val Leu Pro Lys Ile Lys Ser Leu Leu Glu Tyr His 545 550 555 560 Lys Phe Glu Asn Lys Asn Ile Asn Asp Ile Lys Asn Ser Asp Lys Tyr 565 570 575 Lys Glu Phe Ile Glu Pro Gly Tyr Phe Glu Leu Ile Thr Asn Glu Asn 580 585 590 Asn Glu Ile Ile Asp Ala Lys Tyr Thr Gln Lys Gly Asp Ile Lys Ile 595 600 605 Lys Asn Ala Asp Phe Ile Asn Ile Met Ile Lys Ala Leu Asn Phe Ala 610 615 620 Ser Ile Lys Asp Glu Phe Ile Leu Leu Ser His Asn Gly Lys Ser Gln 625 630 635 640 Ile Ala Leu Val Pro Ala Glu Tyr Thr Ser Gln Met Asp Ser Ile Asp 645 650 655 His Cys Ile Tyr Met Thr Lys Asn Asp Lys Gly Lys Leu Val Lys Val 660 665 670 Asp Lys Arg Lys Val Arg Thr Lys Gln Glu Arg His Ile Asn Gly Leu 675 680 685 Asn Ala Asp Phe Asn Ala Ala Cys Asn Ile Lys Tyr Ile Val Thr Asn 690 695 700 Glu Asp Trp Arg Lys Val Phe Cys Ile Lys Pro Lys Lys Glu Asp Tyr 705 710 715 720 Asn Thr Pro Leu Leu Asp Ala Thr Lys Asn Gly Gln Phe Arg Ile Leu 725 730 735 Asp Lys Leu Lys Lys Leu Asn Ala Thr Lys Leu Leu Glu Met Glu Lys 740 745 750 <210> 16 <211> 766 <212> PRT <213> Unknown <220> <223> Description of Unknown: feces metagenome sequence <400> 16 Met Ala Asn Lys Lys Phe Lys Leu Thr Lys Asn Glu Val Val Lys Ser 1 5 10 15 Phe Val Leu Lys Val Ala Asn Gln Lys Lys Cys Ala Ile Thr Asn Glu 20 25 30 Thr Leu Gln Glu Tyr Lys Asn Tyr Tyr Asn Lys Val Ser Gln Trp Ile 35 40 45 Asn Asn Asn Leu Thr Lys Met Thr Ile Gly Asp Leu Ile Gln Tyr Ala 50 55 60 Pro Thr Val Ser Lys Lys Gly Lys Lys Gln Pro Asp Gly Thr Met Val 65 70 75 80 Tyr Asp Thr Pro Leu Tyr Val Thr Tyr Ala Met Ser Asp Glu Trp Lys 85 90 95 Asn Lys Pro Leu Tyr Tyr Ile Phe Lys Lys Glu Tyr Asn Thr Asn Asn 100 105 110 Ala Asn Asn Leu Leu Tyr Glu Ala Ile Arg Asn Leu Asn Val Asp Glu 115 120 125 Tyr Asp Gly Asn Gln Leu Asn Phe Asn Ser Thr Tyr Tyr Arg Thr Gln 130 135 140 Gly Tyr Val Asn Arg Val Phe Ser Asn Tyr Arg Thr Lys Ile Asn Thr 145 150 155 160 Leu Asp Ile Lys Ile Lys Lys Ser Lys Val Asp Glu Asn Ser Asp Val 165 170 175 Glu Thr Leu Glu Leu Gln Thr Met Tyr Glu Ile Asn Lys Leu Asn Leu 180 185 190 Lys Thr Asn Lys Asp Trp Glu Glu Arg Leu Gln Tyr Leu Thr Met Gln 195 200 205 Glu Asn Pro Asn Gln Asn Thr Ile Asp Arg Thr Lys Ile Leu Phe Asn 210 215 220 Tyr Phe Ile Asn Asn Asn Asp Thr Ile Phe Gln Lys Met Glu Glu Leu 225 230 235 240 Ser Ile Lys Gln Leu Thr Glu Phe Gly Gly Cys Lys Met Lys Asp Asn 245 250 255 Thr Thr Ser Met Thr Ile Asn Ile Gln Asp Phe Lys Ile Lys Arg Lys 260 265 270 Glu Asn Ser Ile Gly Tyr Ile Met Thr Ile Pro Phe Asn Lys Lys Asn 275 280 285 Val Asp Val Glu Leu Tyr Gly His Lys Gln Thr Ile Lys Gly His Lys 290 295 300 Asn Ser Tyr Thr Glu Ile Val Asp Ile Val Asn Lys His Gly Asn Thr 305 310 315 320 Ile Thr Phe Lys Ile Lys Asn Asn Gln Leu Phe Ala Ile Ile Thr Ser 325 330 335 Asp Thr Glu Val Thr Lys Pro Glu Pro Gln Tyr Glu Lys Ile Val Gly 340 345 350 Val Asp Val Asn Ile Lys His Thr Leu Met Val Thr Ser Glu Lys Asp 355 360 365 Asn Gly Lys Leu Lys Gly Tyr Ile Asn Leu Tyr Lys Glu Val Leu Lys 370 375 380 Asn Asp Glu Phe Lys Lys Leu Leu Asn Lys Thr Glu Leu Asp Asn Phe 385 390 395 400 Lys Ser Leu Ser Gln Ile Val Thr Phe Cys Pro Ile Glu Tyr Asp Phe 405 410 415 Leu Phe Ser Arg Ile Phe Asp Asp Glu Asn Thr Lys Lys Glu Leu Ala 420 425 430 Phe Ser Asn Val Leu Tyr Asp Ile Gln Lys Gln Leu Lys Asn Thr Asn 435 440 445 Asn Ile Leu Gln Tyr Asn Tyr Ile Ala Cys Val Asn Lys Leu Arg Ala 450 455 460 Lys Tyr Lys Ala Tyr Phe Val Leu Lys Met Ser Tyr Met Lys Gln Gln 465 470 475 480 Lys Ile Tyr Asp Thr Asn Met Gly Phe Phe Asp Ile Ser Thr Glu Ser 485 490 495 Lys Glu Thr Met Asp Gln Arg Arg Ser Leu Tyr Pro Phe Ile Asn Thr 500 505 510 Glu Ile Ala Gln Asn Ile Ile Thr Lys Met Asn Asn Val Gln Gln Asp 515 520 525 Ile Asn Gly Cys Leu Lys Asn Ile Phe Lys Tyr Thr Tyr Thr Val Phe 530 535 540 Glu Asn Asn Asn Tyr Asp Thr Ile Val Leu Glu Asn Leu Glu Asn Ala 545 550 555 560 Asn Phe Glu Lys His Asn Pro Leu Pro Asn Ile Thr Ser Leu Leu Lys 565 570 575 Tyr His Lys Val Gln Gly Leu Thr Ile Gln Glu Ala Glu Gln His Glu 580 585 590 Lys Val Gly Asn Leu Ile Gln Asn Asp Asn Tyr Ile Phe Gln Leu Asn 595 600 605 Glu Asp Asn Lys Ile Ile Asn Ala Asp Tyr Ser Gln Lys Ala Tyr Tyr 610 615 620 Lys Val Cys Lys Ala Leu Phe Phe Asn Gln Ala Ile Lys Thr Leu His 625 630 635 640 Phe Ala Ser Val Lys Asp Glu Met Ile Lys Leu Ser Asn Asn Asn Lys 645 650 655 Val Cys Val Ala Ile Ile Pro Pro Glu Tyr Thr Ser Gln Ile Asp Ser 660 665 670 Asn Thr His Lys Leu Tyr Phe Ile Asn Lys Asp Gly Lys Leu Leu Lys 675 680 685 Ala Asp Lys Lys Thr Val Arg Lys Thr Gln Glu Lys His Ile Asn Gly 690 695 700 Leu Asn Ala Asp Phe Asn Ala Ala Ser Asn Ile Lys Tyr Ile Val Gln 705 710 715 720 Asn Glu Thr Trp Arg Asn Leu Phe Thr Asn Lys Thr Asn Asn Thr Tyr 725 730 735 Gly Leu Pro Ile Leu Thr Pro Ser Lys Lys Gly Gln Ser Asn Ile Ile 740 745 750 Thr Gln Leu Met Lys Ile Asn Ala Thr Gln Glu Leu Val Val 755 760 765 <210> 17 <211> 784 <212> PRT <213> Unknown <220> <223> Description of Unknown: sheep gut metagenome sequence <400> 17 Met Tyr Asn Ser Lys Lys Lys Gly Glu Gly Asp Ile Gln Lys Ser Phe 1 5 10 15 Lys Phe Lys Val Lys Thr Asp Lys Glu Thr Val Glu Leu Phe Arg Lys 20 25 30 Ala Ala Val Glu Tyr Ser Glu Tyr Tyr Lys Arg Leu Thr Thr Phe Leu 35 40 45 Cys Glu Arg Leu Thr Asp Met Thr Trp Gly Glu Val Ala Ser Phe Ile 50 55 60 Pro Glu Lys Tyr Arg Lys Asn Glu Tyr Tyr Lys Tyr Leu Ile Lys Glu 65 70 75 80 Glu Asn Lys Asp Leu Pro Leu Tyr Lys Met Phe Thr Lys Ala Ala Ser 85 90 95 Ser Met Phe Ile Asp His Ser Ile Glu Arg Tyr Val Glu Ala Leu Asn 100 105 110 Pro Glu Gly Asn Thr Gly Asn Ile Leu Gly Phe Cys Lys Ser Ser Tyr 115 120 125 Val Arg Gly Gly Tyr Leu Lys Asn Val Val Ser Asn Ile Arg Thr Lys 130 135 140 Phe Ala Thr Leu Lys Thr Gly Ile Lys Tyr Lys Lys Phe Asn Pro Ala 145 150 155 160 Glu Asp Asp Glu Glu Thr Ile Leu Gly Gln Thr Val Phe Glu Met Glu 165 170 175 Lys Arg Gly Leu Glu Phe Lys Cys Asp Phe Glu Lys Thr Ile Lys Tyr 180 185 190 Leu Asn Glu Lys Gly Lys Thr Gln Glu Ala Glu Arg Leu Gln Cys Leu 195 200 205 Met Glu Tyr Phe Ser Thr Asn Thr Asp Lys Ile Asn Glu Tyr Arg Glu 210 215 220 Ser Leu Val Leu Asp Asp Ile Arg Lys Phe Gly Gly Cys Asn Arg Ser 225 230 235 240 Lys Ser Asn Ser Phe Ser Val Thr Leu Glu Lys Ala Asp Ile Lys Glu 245 250 255 Asp Gly Leu Thr Gly Tyr Thr Met Lys Val Ser Lys Lys Leu Lys Glu 260 265 270 Ile His Leu Leu Gly His Arg Arg Val Val Glu Val Val Asn Gly Arg 275 280 285 Arg Val Asn Leu Val Asp Ile Cys Gly Asp Lys Ser Gly Asp Ser Lys 290 295 300 Val Phe Val Val Asp Gly Asp Asn Leu Tyr Val Cys Ile Ser Ala Pro 305 310 315 320 Val Lys Phe Ser Lys Asn Gly Met Glu Ala Lys Lys Tyr Ile Gly Val 325 330 335 Asp Met Asn Met Lys His Ser Ile Ile Ser Val Ser Asp Asn Ala Ser 340 345 350 Asp Met Lys Gly Phe Leu Asn Ile Tyr Lys Glu Leu Leu Lys Asp Glu 355 360 365 Gly Phe Arg Lys Thr Leu Asn Ala Thr Glu Leu Glu Lys Tyr Glu Lys 370 375 380 Leu Ala Glu Gly Val Asn Ile Gly Ile Ile Glu Tyr Asp Gly Leu Tyr 385 390 395 400 Glu Arg Ile Val Lys Gln Lys Lys Glu Asn Ser Val Asp Gly Leu Lys 405 410 415 Val Gln Ala Glu Lys Lys Leu Ile Glu Arg Glu Ala Ala Ile Glu Arg 420 425 430 Val Leu Asp Lys Leu Arg Lys Gly Thr Ser Asp Thr Asp Thr Glu Asn 435 440 445 Tyr Ile Asn Tyr Asn Lys Ile Leu Arg Ala Lys Ile Lys Ser Ala Tyr 450 455 460 Ile Leu Lys Asp Lys Tyr Tyr Glu Met Leu Gly Lys Tyr Asp Ser Glu 465 470 475 480 Arg Ala Gly Ser Gly Asp Leu Ser Glu Glu Asn Lys Ile Lys Tyr Lys 485 490 495 Asp Glu Phe Asn Glu Thr Glu Lys Gly Lys Glu Ile Leu Gly Lys Leu 500 505 510 Asn Asn Val Tyr Lys Asp Ile Ile Gly Cys Arg Asp Asn Ile Val Thr 515 520 525 Tyr Ala Val Asn Leu Phe Ile Arg Asn Gly Tyr Asp Thr Val Ala Leu 530 535 540 Glu Tyr Leu Glu Ser Ser Gln Met Lys Ala Arg Arg Ile Pro Ser Thr 545 550 555 560 Gly Gly Leu Leu Lys Gly His Lys Leu Glu Gly Lys Pro Glu Gly Glu 565 570 575 Val Thr Ala Tyr Leu Lys Ala Asn Lys Ile Pro Lys Ser Tyr Tyr Ser 580 585 590 Phe Glu Tyr Asp Gly Asn Gly Met Leu Thr Asp Val Lys Tyr Ser Asp 595 600 605 Met Gly Glu Lys Ala Arg Gly Arg Asn Arg Phe Lys Asn Leu Val Pro 610 615 620 Lys Phe Leu Arg Trp Ala Ser Ile Lys Asp Lys Phe Val Gln Leu Ser 625 630 635 640 Asn Tyr Lys Asp Ile Gln Met Val Tyr Val Pro Ser Pro Tyr Thr Ser 645 650 655 Gln Thr Asp Ser Arg Thr His Ser Leu Tyr Tyr Ile Glu Thr Val Lys 660 665 670 Val Asp Glu Lys Thr Gly Lys Glu Lys Lys Glu His Ile Val Ala Pro 675 680 685 Lys Glu Ser Val Arg Thr Glu Gln Glu Ser Phe Val Asn Gly Met Asn 690 695 700 Ala Asp Thr Asn Ser Ala Asn Asn Ile Lys Tyr Ile Phe Glu Asn Glu 705 710 715 720 Thr Leu Arg Asp Lys Phe Leu Lys Arg Thr Lys Asp Gly Thr Glu Met 725 730 735 Tyr Asn Arg Pro Ala Phe Asp Leu Lys Glu Cys Tyr Lys Lys Asn Ser 740 745 750 Asn Val Ser Val Phe Asn Thr Leu Lys Lys Thr Leu Gly Ala Ile Tyr 755 760 765 Gly Lys Leu Asp Glu Asn Gly Asn Phe Ile Glu Asn Glu Cys Asn Lys 770 775 780 <210> 18 <211> 782 <212> PRT <213> Unknown <220> <223> Description of Unknown: gut metagenome sequence <400> 18 Met Ala Gly His Ser Lys Ile Lys Glu Asn His Ile Met Lys Ala Phe 1 5 10 15 Leu Met Lys Val Lys Glu Thr Arg Lys Lys Gln Trp Gln Ser Asn Phe 20 25 30 Ile Arg Ser Glu Ile Ala Lys Phe Thr Asn Tyr Tyr Asn Gly Leu Ser 35 40 45 Lys Phe Ile Ala Asp Arg Leu Leu Asp Asp Met Val Thr Thr Leu Ala 50 55 60 Pro Leu Ile Glu Glu Lys Lys Arg Asn Ser Glu Tyr Tyr Lys Tyr Leu 65 70 75 80 Thr Asn Gly Asp Trp Asp Gly Lys Pro Leu Tyr Phe Ile Phe Lys Glu 85 90 95 Gly Phe Asn Ser Thr Asn Ala Asp Asn Ile Leu Ala Asn Ser Leu Val 100 105 110 Arg Val Tyr Cys Glu Gln Asn Tyr Thr Gly Asn Gly Phe Gly Leu Ser 115 120 125 Tyr Ser Tyr Tyr Val Val Ile Gly Phe Ala Lys Glu Val Ile Ala Asn 130 135 140 Tyr Arg Ser Ser Phe Gln Lys Pro Lys Val Lys Ile Lys Lys Lys Lys 145 150 155 160 Leu Ser Glu Asn Pro Thr Glu Asp Glu Leu Ile Glu Gln Cys Ile Tyr 165 170 175 Thr Ile Tyr Tyr Glu Phe Asn Glu Lys Lys Asp Ile Gln Lys Trp Lys 180 185 190 Asp Glu Ile Lys Phe Leu Lys Glu Arg Gly Glu Ser Lys Glu Thr Arg 195 200 205 Leu Lys Arg Ile Gln Thr Leu Phe Glu Phe Tyr Lys Asp Lys Ser His 210 215 220 Lys Glu Leu Val Asp Glu Arg Val Ala Asn Leu Val Val Asp Asn Ile 225 230 235 240 Lys Glu Phe Gly Gly Cys Lys Arg Asp Ile Asp Cys Pro Ser Met Gly 245 250 255 Ile Gln Ile Gln His Asn Phe Asp Ile Ser Ile Asn Glu Lys Arg Asn 260 265 270 Gly Tyr Thr Ile Cys Phe Gly Pro Asn Lys Lys Asn Leu Thr Lys Leu 275 280 285 Glu Val Phe Gly Asn Arg Met Val Leu Leu Asn Gly Glu Glu Ile Val 290 295 300 Asp Leu Pro Asn Thr His Gly Glu Lys Leu Thr Leu Ile Asp Arg Gly 305 310 315 320 Asn Ala Ile Tyr Ala Ala Ile Thr Ala Gln Val Pro Phe Glu Lys His 325 330 335 Met Pro Asp Gly Asn Lys Thr Val Gly Ile Asp Leu Asn Leu Lys His 340 345 350 Ser Val Phe Ala Thr Ser Ile Val Asp Asn Gly Lys Leu Ala Gly Tyr 355 360 365 Ile Ser Ile Tyr Lys Glu Leu Leu Lys Asp Asp Glu Phe Val Lys Tyr 370 375 380 Cys Pro Lys Asp Leu Leu Arg Phe Met Lys Asp Ala Ser Lys Tyr Val 385 390 395 400 Phe Phe Ala Pro Ile Glu Ile Glu Leu Leu Arg Ser Arg Val Ile Tyr 405 410 415 Asn Lys Gly Tyr Ala Cys Val Glu Asn Tyr Glu Asn Val Tyr Lys Ala 420 425 430 Glu Val Ala Phe Val Asn Val Ile Lys Arg Leu Gln Ser Gln Cys Glu 435 440 445 Ala Asn Gly Asp Ala Gln Gly Ala Leu Tyr Met Ser Tyr Leu Ser Lys 450 455 460 Met Arg Ala Gln Leu Lys Asn Tyr Ile Asn Leu Lys Leu Ala Tyr Tyr 465 470 475 480 Asp His Gln Ser Ala Tyr Asp Leu Lys Met Gly Phe Thr Asp Ile Ser 485 490 495 Thr Glu Ser Lys Glu Thr Met Asp Glu Arg Arg Lys Leu Phe Pro Phe 500 505 510 Asn Lys Glu Lys Glu Ala Gln Glu Ile Leu Ala Lys Met Lys Asn Ile 515 520 525 Ser Asn Val Ile Ile Ala Cys Arg Asn Asn Ile Ala Val Tyr Met Tyr 530 535 540 Lys Met Phe Glu Arg Asn Gly Tyr Asp Phe Ile Gly Leu Glu Lys Leu 545 550 555 560 Glu Ser Ser Gln Met Lys Lys Arg Gln Ser Arg Ser Phe Pro Thr Val 565 570 575 Lys Ser Leu Leu Asn Tyr His Lys Leu Ala Gly Met Thr Met Asp Glu 580 585 590 Ile Lys Lys Gln Glu Val Ser Ser Asn Ile Lys Lys Gly Phe Tyr Asp 595 600 605 Leu Glu Phe Asp Ala Asp Gly Lys Leu Tyr Gly Ala Lys Tyr Ser Asn 610 615 620 Lys Gly Asn Val His Phe Ile Glu Asp Glu Phe Tyr Ile Ser Gly Leu 625 630 635 640 Lys Ala Ile His Phe Ala Asp Met Lys Asp Tyr Phe Val Arg Leu Ser 645 650 655 Asn Asn Gly Lys Val Ser Val Ala Leu Val Pro Pro Ser Phe Thr Ser 660 665 670 Gln Met Asp Ser Val Glu His Lys Phe Phe Met Lys Lys Asn Ala Asn 675 680 685 Gly Lys Leu Ile Val Ala Asp Lys Lys Asp Val Arg Ser Cys Gln Glu 690 695 700 Lys His Lys Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Cys Asn 705 710 715 720 Ile Gly Phe Ile Val Glu Asp Asp Tyr Met Arg Glu Ser Leu Leu Gly 725 730 735 Ser Pro Thr Gly Gly Thr Tyr Asp Thr Ala Tyr Phe Asp Thr Lys Ile 740 745 750 Gln Gly Ser Lys Gly Val Tyr Asp Lys Ile Lys Glu Asn Gly Glu Thr 755 760 765 Tyr Ile Ala Val Leu Ser Asp Asp Val Ile Thr Ala Glu Val 770 775 780 <210> 19 <211> 735 <212> PRT <213> Unknown <220> <223> Description of Unknown: human gut metagenome sequence <400> 19 Met Ala His Lys Lys Asn Val Gly Ala Glu Ile Val Lys Thr Tyr Ser 1 5 10 15 Phe Lys Val Lys Asn Thr Asn Gly Ile Thr Met Glu Lys Leu Met Asn 20 25 30 Ala Ile Asp Glu Phe Gln Ser Tyr Tyr Asn Leu Cys Ser Asp Trp Ile 35 40 45 Cys Lys Asn Leu Thr Thr Met Thr Ile Gly Asp Leu Asp Gln Tyr Ile 50 55 60 Pro Glu Lys Ala Lys Gly Asn Thr Tyr Ala Thr Val Leu Leu Asp Glu 65 70 75 80 Ala Trp Lys Asn Gln Pro Leu Tyr Lys Ile Phe Gly Lys Lys Tyr Ser 85 90 95 Ser Asn Asn Arg Asn Asn Ala Leu Tyr Cys Ala Leu Ser Ser Val Ile 100 105 110 Asp Met Thr Lys Glu Asn Val Leu Gly Phe Ser Lys Thr His Tyr Ile 115 120 125 Arg Asn Asp Tyr Ile Leu Asn Val Ile Ser Asn Tyr Ala Ser Lys Leu 130 135 140 Ser Lys Leu Asn Thr Gly Val Lys Ser Arg Ala Ile Lys Glu Thr Ser 145 150 155 160 Asp Glu Ala Thr Ile Ile Glu Gln Val Ile Tyr Glu Met Glu His Asn 165 170 175 Lys Trp Glu Ser Ile Glu Asp Trp Lys Asn Gln Ile Glu Tyr Leu Asn 180 185 190 Ser Lys Thr Asp Tyr Asn Pro Thr Tyr Met Glu Arg Met Lys Thr Leu 195 200 205 Ser Ala Tyr Tyr Ser Thr His Lys Ser Glu Val Asp Ala Lys Met Gln 210 215 220 Glu Met Ala Val Glu Asn Leu Val Lys Phe Gly Gly Cys Arg Arg Asn 225 230 235 240 Asn Ser Lys Lys Ser Met Phe Ile Met Gly Ser Asn Thr Thr Asn Tyr 245 250 255 Thr Ile Ser Tyr Ile Gly Gly Asn Ser Phe Asn Ile Asn Phe Ala Asn 260 265 270 Ile Leu Asn Phe Asp Val Tyr Gly Arg Arg Asp Val Val Lys Asn Gly 275 280 285 Glu Val Leu Val Asp Ile Met Ala Asn His Gly Asp Ser Ile Val Leu 290 295 300 Lys Ile Val Asn Gly Glu Leu Tyr Ala Asp Val Pro Cys Ser Val Thr 305 310 315 320 Leu Asn Lys Val Glu Ser Asn Phe Asp Lys Val Val Gly Ile Asp Val 325 330 335 Asn Met Lys His Met Leu Leu Ser Thr Ser Ile Thr Asp Asn Gly Ser 340 345 350 Ser Asp Phe Leu Asn Ile Tyr Lys Glu Met Ser Asn Asn Ala Glu Phe 355 360 365 Met Ala Leu Cys Pro Glu Glu Asp Arg Lys Tyr Tyr Lys Asp Ile Ser 370 375 380 Lys Tyr Val Thr Phe Ala Pro Leu Glu Leu Asp Leu Leu Phe Ser Arg 385 390 395 400 Ile Ser Lys Gln Gly Lys Val Lys Met Glu Lys Val Tyr Ser Glu Ile 405 410 415 Leu Glu Ala Leu Lys Trp Lys Phe Phe Ala Asn Gly Asp Asn Lys Asn 420 425 430 Arg Ile Tyr Val Glu Ser Ile Gln Lys Ile Arg Gln Gln Ile Lys Ala 435 440 445 Leu Cys Val Ile Lys Asn Ala Tyr Tyr Glu Gln Gln Ser Ala Tyr Asp 450 455 460 Ile Asp Lys Thr Gln Glu Tyr Ile Glu Thr His Pro Phe Ser Leu Thr 465 470 475 480 Glu Lys Gly Met Ser Ile Lys Ser Lys Met Asp Lys Ile Cys Gln Thr 485 490 495 Ile Ile Gly Cys Arg Asn Asn Ile Ile Asp Tyr Ala Tyr Ser Phe Phe 500 505 510 Glu Arg Asn Gly Tyr Ser Ile Ile Gly Leu Glu Lys Leu Thr Ser Ser 515 520 525 Gln Phe Glu Lys Thr Lys Ser Met Pro Thr Cys Lys Ser Leu Leu Asn 530 535 540 Phe His Lys Val Leu Gly His Thr Leu Ser Glu Leu Glu Thr Leu Pro 545 550 555 560 Ile Asn Asp Val Val Lys Lys Gly Tyr Tyr Thr Phe Thr Thr Asp Asn 565 570 575 Glu Gly Lys Ile Thr Asp Ala Ser Leu Ser Glu Lys Gly Lys Val Arg 580 585 590 Lys Met Lys Asp Asp Phe Phe Asn Gln Ala Ile Lys Ala Ile His Phe 595 600 605 Ala Asp Val Lys Asp Tyr Phe Ala Thr Leu Ser Asn Asn Gly Gln Thr 610 615 620 Gly Ile Phe Phe Val Pro Ser Gln Phe Thr Ser Gln Met Asp Ser Asn 625 630 635 640 Thr His Asn Leu Tyr Phe Glu Asn Ala Lys Asn Gly Gly Leu Lys Leu 645 650 655 Ala Pro Lys Tyr Lys Val Arg Gln Thr Gln Glu Tyr His Leu Asn Gly 660 665 670 Leu Pro Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Tyr Ile Gly Leu 675 680 685 Asp Glu Thr Met Arg Asn Thr Phe Leu Lys Lys Ala Asn Ser Asn Lys 690 695 700 Ser Leu Tyr Asn Gln Pro Ile Tyr Asp Thr Gly Ile Lys Lys Thr Ala 705 710 715 720 Gly Val Phe Ser Arg Met Lys Lys Leu Lys Arg Tyr Glu Ile Ile 725 730 735 <210> 20 <211> 774 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-asian elephant fecal-elephas maximus sequence <400> 20 Met Leu Asn Ile Lys Asn Asn Gly Glu Ser Val Asp Met Asn Thr Ile 1 5 10 15 Glu Leu Ala Met Lys Glu Tyr Asn Arg Tyr Tyr Asn Ile Cys Ser Asp 20 25 30 Trp Ile Cys Asn Asn Leu Met Thr Pro Ile Gly Ser Leu Tyr Gln Tyr 35 40 45 Ile Asp Asp Lys Cys Lys Asn Asn Ala Tyr Ala Gln Asn Leu Ile Ala 50 55 60 Glu Glu Trp Lys Asp Lys Pro Leu Tyr Tyr Met Phe Tyr Lys Gly Tyr 65 70 75 80 Asn Ala Asn Asn Cys Ala Asn Ala Ile Cys Cys Ala Ile Arg Ser Gln 85 90 95 Val Pro Glu Val Asn Lys Ala Glu Asn Ile Leu Asn Leu Ser Tyr Thr 100 105 110 Tyr Tyr Phe Arg Asn Gly Val Ile Lys Ser Val Ile Ser Asn Tyr Ala 115 120 125 Ser Lys Met Arg Ile Leu Ser Asp Lys Gln Ile Lys Tyr Cys Ile Val 130 135 140 Ser Glu Asn Thr Pro Asp Lys Ile Leu Ile Glu Gln Cys Ile Leu Glu 145 150 155 160 Leu Lys Arg Arg His Glu Asp Leu Lys Asp Trp Glu Glu Asn Leu Lys 165 170 175 Tyr Leu Ile Leu Lys Gly Asn Glu Ser Ala Ile Thr Arg Phe Thr Ile 180 185 190 Leu Lys Asp Phe Tyr Ser Lys Asn Ile Glu Arg Val Lys Glu Glu Arg 195 200 205 Glu Ile Met Ala Ile Ala Glu Leu Lys Asp Phe Gly Gly Cys Arg Arg 210 215 220 Lys Asp Asp Lys Leu Ser Met Cys Ile Gln Ser Ala Gly Asn Ser Lys 225 230 235 240 Asp Ile Lys Val Ser Arg Val Lys Thr Thr His Asn Tyr Thr Glu Leu 245 250 255 Val Asp Asp Tyr Thr Glu Asn Phe Asn Ile Lys Phe Ser Ala Leu Asp 260 265 270 Phe Asn Val Met Gly Arg Arg Asp Val Val Lys Thr Lys Leu Asn Lys 275 280 285 Thr Glu Asp Asp Ser Asn Thr Trp Gly Gly Thr Glu Leu Leu Val Asp 290 295 300 Ile Ile Asn Asn His Gly Cys Ser Leu Thr Phe Lys Leu Val Asp Asp 305 310 315 320 Lys Leu Tyr Val Asp Ile Pro Ile Asp Thr Glu His Ile Asn Lys Thr 325 330 335 Thr Asp Phe Lys Lys Ser Val Gly Ile Asp Val Asn Leu Lys His Ser 340 345 350 Leu Leu Asn Thr Asp Ile Leu Asp Asn Gly Gly Ile Asn Gly Tyr Ile 355 360 365 Asn Ile Tyr Lys Lys Leu Leu Ala Asp Asp Ala Phe Met Ser Ala Cys 370 375 380 Thr Lys Ala Asp Leu Val Asn Tyr Ile Asp Ile Ala Lys Thr Val Thr 385 390 395 400 Phe Cys Pro Ile Glu Ala Asp Phe Ile Ile Ser Asn Val Val Glu Lys 405 410 415 Tyr Leu His Met Lys Asp Asn Thr Asn Lys Met Glu Ile Ala Phe Ser 420 425 430 Ser Val Leu Met Asn Ile Arg Lys Glu Leu Glu Ile Lys Leu Leu His 435 440 445 Ser Ser Lys Glu Glu Ser Pro Leu Ile Arg Lys Gln Ile Ile Tyr Ile 450 455 460 Asn Cys Ile Ile Cys Leu Arg Asn Glu Leu Lys Gln Tyr Ala Ile Ala 465 470 475 480 Lys His Arg Tyr Tyr Lys Lys Gln Gln Glu Tyr Asp Thr Leu Cys Asp 485 490 495 Thr Leu His Gly Val Asp Tyr Lys Gln Ile His Pro Tyr Ala Gln Ser 500 505 510 Lys Glu Gly Ala Glu Gln Met Lys Lys Met Lys Thr Ile Glu Asn Asn 515 520 525 Leu Ile Ala Asn Arg Asn Asn Ile Ile Glu Tyr Ala Tyr Thr Val Phe 530 535 540 Glu Leu Asn Asn Phe Asp Leu Ile Ala Leu Glu Asn Ile Thr Lys Asp 545 550 555 560 Ile Met Glu Asp Lys Lys Lys Arg Lys Ser Phe Pro Ser Ile Asn Ser 565 570 575 Leu Leu Lys Tyr His Lys Val Ile Asn Cys Thr Glu Asp Asn Ile Asn 580 585 590 Asp Asn Glu Thr Tyr Gln Lys Phe Ala Lys Tyr Tyr Asn Val Ser Tyr 595 600 605 Glu Asn Gly Lys Val Thr Gly Ala Thr Leu Ser Gln Glu Gly Asn Lys 610 615 620 Val Lys Leu Lys Asp Asp Phe Tyr Asp Lys Leu Leu Lys Val Leu His 625 630 635 640 Phe Thr Ser Ile Lys Asp Tyr Phe Thr Thr Leu Ser Asn Lys Arg Lys 645 650 655 Ile Ala Val Ala His Val Pro Ala Tyr Tyr Thr Ser Gln Ile Asp Ser 660 665 670 Ile Asp Asn Lys Ile Cys Met Ile Lys Ser Thr Asp Lys Asn Gly Lys 675 680 685 Ser Thr Tyr Lys Ile Ala Asp Lys Thr Ile Val Arg Pro Thr Gln Glu 690 695 700 Lys His Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile 705 710 715 720 Asn Phe Ile Val Ala Asp Glu Lys Trp Arg Lys Lys Phe Val Arg Pro 725 730 735 Thr Asn Thr Asn Lys Pro Leu Tyr Asn Ser Pro Val Phe Ser Pro Ala 740 745 750 Val Lys Ser Glu Gly Gly Thr Ile Lys Asn Leu Gln Ile Leu Ser Ala 755 760 765 Thr Lys Thr Ile Ile Leu 770 <210> 21 <211> 755 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-cattle and sheep rumen sequence <400> 21 Met Ala His Val Arg Thr Lys Asn Glu Gly Asn Met Ala Lys Thr Tyr 1 5 10 15 Ser Phe Lys Val Arg Glu Thr Asn Leu Lys Lys Asp Val Met Ile Glu 20 25 30 Tyr Asn Glu Tyr Tyr Asn Arg Leu Ser Asp Trp Ile Cys Gly Asn Leu 35 40 45 Thr Lys Met Thr Ile Gly Glu Leu Ala Glu Leu Val Pro Glu Lys Lys 50 55 60 Arg Asn Thr Ser Tyr Tyr Leu Ala Ala Thr Asp Glu Lys Trp Ile Asn 65 70 75 80 Glu Pro Met Tyr Lys Leu Phe Thr Asp Glu Tyr Thr Lys Lys Ser Ser 85 90 95 Phe Thr Asp Pro Leu Val Ala Asn Ser Asn Asn Cys Asp Asn Leu Ile 100 105 110 Leu Thr Ala Thr Asp Val Leu Asn Pro Glu Gly Tyr Glu Gly Asn Leu 115 120 125 Leu Ser Leu Cys Lys Ser Thr Tyr Arg Thr Phe Gly Tyr Ala Lys Gln 130 135 140 Ile Ile Ser Asn Met Lys Thr Lys Ile Gly Ala Leu Lys Pro Asn Val 145 150 155 160 Lys Arg Arg Val Leu Gly Glu Asn Pro Thr Tyr Asp Glu Lys Met Ile 165 170 175 Gln Val Leu Tyr Glu Met Tyr Asn Asn Gly Ile Ala Asp Val Thr Gly 180 185 190 Phe Asn Asp Arg Ile Lys Tyr Leu Lys Lys Gln Glu Thr Pro Asn Glu 195 200 205 Lys Leu Ile Ser Arg Met Lys Met Leu Arg Asp Phe Phe Lys Glu Asn 210 215 220 Arg Asn Asp Ile Met Asp Lys Cys Arg Ile Met Ala Val Glu Gln Leu 225 230 235 240 Val Ser Phe Gly Gly Cys Lys Arg Asn Ile Asn Gly Ala Ser Met Thr 245 250 255 Leu Arg Asn Gln Cys Ile Ser Val Lys Arg Lys Asp Gly Cys Gln Gly 260 265 270 Tyr Val Val Ala Ile Pro Val Gly Thr Lys Asn Ser Ile Val Phe Asp 275 280 285 Leu Tyr Gly Arg Arg Asp Val Ile Lys Asp Gly Val Glu Leu Val Asp 290 295 300 Val Cys Gly Lys His Thr Asp Thr Ile Thr Ile Lys Ser Val Asn Gly 305 310 315 320 Glu Leu Phe Leu Asp Met Pro Val Ala Ile Asn Phe Glu Lys Lys Ser 325 330 335 Gly Lys Cys Thr Lys Thr Val Gly Ile Asp Val Asn Thr Lys His Met 340 345 350 Leu Ile Gln Thr Ser Val Lys Asp Asn Gly Lys Phe Asp Tyr Tyr Val 355 360 365 Asn Leu Tyr Lys Ile Phe Ala Glu Asp Glu Glu Leu Asn Lys Ile Leu 370 375 380 Gly Asp Asp Glu Val Met Val Asn Ile Lys Lys Asn Ala Glu Asn Leu 385 390 395 400 Ser Phe Leu Pro Leu Glu Met Asp Leu Leu Tyr Ser Arg Ile Leu Asp 405 410 415 Gly Pro Gln Lys Tyr Lys Leu Ala Glu Asp Arg Ile Thr Glu Leu Leu 420 425 430 Lys Gln Trp Gly Ile Asn Phe Asp Ala Gly Cys Met Ser Gln Glu Arg 435 440 445 Ile Tyr Val Gln Cys Val Arg Lys Leu Arg Gly Asn Leu Lys Arg Leu 450 455 460 Leu Tyr Leu Gln Asn Lys Tyr Tyr Glu Ala Gln Gln Glu Tyr Asp Lys 465 470 475 480 Lys Met Gly Phe Asp Asp Lys Ser Thr Asp Ser Lys Glu Thr Met Asp 485 490 495 Lys Arg Arg Trp Glu Ser Pro Phe Arg Asn Thr Glu Glu Gly Thr Lys 500 505 510 Leu Tyr Asp Glu Ile Asn Thr Tyr Gln Asn Arg Ile Ile Gly Ile Arg 515 520 525 Asn Ser Ile Ile Asp Tyr Ala Tyr Leu Val Leu Glu Tyr Asn Gly Tyr 530 535 540 Asp Asn Leu Ser Leu Glu Tyr Leu Thr Ser Ser Gln Phe Lys Val Asn 545 550 555 560 Lys Thr Phe Pro Thr Thr Asn Ser Leu Leu Lys Tyr His Lys Leu Gln 565 570 575 Gly Lys Thr Lys Thr Glu Ala Glu Lys Cys Asp Ala Tyr Ile Ser His 580 585 590 Lys Ser Lys Tyr Lys Leu Ser Leu Lys Asp Gly Val Ile Asp Ser Ile 595 600 605 Asp Tyr Ser Ala Glu Gly Leu Lys Gln Ile Lys Lys Asp Arg Ser Arg 610 615 620 Asn Ile Ile Ile Lys Ala Ile His Phe Ala Asp Val Lys Asp Arg Phe 625 630 635 640 Val Leu Ser Ser Asn Asn Gly Asn Ala Ser Val Thr Phe Val Pro Ser 645 650 655 Tyr His Thr Ser Gln Ile Asp Ser Thr Asp His Lys Met Phe Val Thr 660 665 670 Asn Lys Gly Lys Ile Val Asp Lys Arg Lys Val Arg Gln Ile Gln Glu 675 680 685 Thr His Val Asn Gly Leu Asn Ser Asp Phe Asn Ala Ala Arg Asn Ile 690 695 700 Gln Tyr Ile Ser Glu Asn Glu Glu Trp Arg Asn Ala Leu Cys Lys Pro 705 710 715 720 Thr Glu Asn Met Tyr Asn Glu Pro Ile Tyr Val Pro Leu Val Lys Ser 725 730 735 Gln Asn Gly Met Phe Lys Ala Ile Lys Lys Leu Gly Ala Thr Lys Ile 740 745 750 Trp Gln Glu 755 <210> 22 <211> 789 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-cattle and sheep rumen sequence <400> 22 Met Ala His Arg Asn Lys Asn Leu Ala Glu Asn Cys Ile Asn Lys Thr 1 5 10 15 Phe Ser Phe Lys Val Lys Ala Glu Lys Glu Glu Ile Asn Ser Lys Trp 20 25 30 Ile Pro Ala Ile Lys Glu Tyr Thr Ala Tyr Tyr Asn Arg Ile Ser Asp 35 40 45 Trp Ile Cys Asp Arg Leu Thr Asn Thr Thr Val Gly Glu Leu Ile Gly 50 55 60 Ile Ile Gly Tyr Lys Thr Asp Lys Lys Gly Asn Ala Leu Ala Tyr Ile 65 70 75 80 Lys Asp Gly Ser Ser Glu Lys Tyr Arg Asn Leu Pro Leu Tyr Cys Met 85 90 95 Phe Lys Lys Asn Phe Pro Ala Thr Thr Ala Asp Asn Ile Met Tyr Gln 100 105 110 Val Ile Glu Lys Leu Gly Val Asp Lys Tyr Asn Gly Asn Ser Leu Gly 115 120 125 Leu Ser Gly Thr Tyr Tyr Arg Arg Ile Gly Tyr Ile Ala Asn Val Ile 130 135 140 Gly Asn Tyr Arg Thr Lys Val Arg Gly Met Lys Ala Ser Val Lys Tyr 145 150 155 160 Arg Asn Phe Asp Pro Asn Asp Val Thr Glu Asp Val Leu Glu Asn Gln 165 170 175 Thr Ile Phe Glu Ile Asn Lys Asn Gly Phe Glu Cys Lys Gly Asp Phe 180 185 190 Glu Lys His Ile Glu Tyr Leu Lys Asn Arg Glu Leu Thr Asp Arg Leu 195 200 205 Asn Lys Leu Ile Leu Arg Met Glu Cys Leu Tyr Asn Tyr Tyr Val Glu 210 215 220 His Glu Asp Ala Val Lys Ala Lys Met Glu Asn Tyr Ala Ile Glu Ser 225 230 235 240 Phe Lys Thr Phe Gly Gly Cys His Arg Asn Ser Asn Arg Ser Met Ser 245 250 255 Ile Gln Phe Thr Asn Asn Ser Pro Leu Glu Ile Lys Lys Val Gly Lys 260 265 270 Thr Ser Phe Asp Leu Tyr Met Pro Ile Asn Gly Glu Val Ala Cys Leu 275 280 285 Gln Leu Met Gly Asn Lys Gln Ala Val Cys Val Gly Glu Asn Gly Glu 290 295 300 Arg Cys Asp Leu Val Asp Ile Val Asn Ser His Ser Lys Thr Ile Thr 305 310 315 320 Ile Lys Ile Ile Asn Gly Glu Met Tyr Val Asp Ile Pro Cys Val Val 325 330 335 Asn Phe Glu Lys Lys Asp Glu Asp Thr Ile Lys Ser Val Gly Val Asp 340 345 350 Val Asn Ile Lys His Glu Ile Leu Ala Thr Ser Val Ile Asp Asn Gly 355 360 365 Gln Leu Asn Gly Tyr Phe Asn Ile Tyr Lys Glu Leu Ile Asn Asn Lys 370 375 380 Glu Phe Val Asp Thr Phe Asn Gly Asp Ile Lys Ala Phe Glu Ala Phe 385 390 395 400 Lys Asp Asn Ala Ala Tyr Val Thr Phe Gly Leu Leu Glu Pro Asp Leu 405 410 415 Leu Phe Thr Arg Phe Tyr Glu Arg Ser Gly Phe Glu Lys Asp Asp Arg 420 425 430 His Ile Lys Leu Arg Glu Arg Glu Arg Ile Leu Thr Gly Ile Leu Lys 435 440 445 Arg Ile Gly Gln Glu His Ser Asp Val Asp Val Arg Asn Tyr Val Arg 450 455 460 Phe Val Asn Met Leu Arg Ser Lys Tyr Glu Ser Tyr Phe Val Leu Lys 465 470 475 480 Asn Lys Tyr Tyr Glu Lys Met Gln Glu Phe Asp Ser Thr Gln Asn Tyr 485 490 495 Val Asp Val Ser Thr Ala Ser Lys Glu Thr Met Asp Lys Arg Arg Phe 500 505 510 Asp Asn Pro Phe Arg Asn Thr Glu Val Ala Asn Glu Leu Leu Gly Lys 515 520 525 Ile Asp Asn Val Leu Gly Asp Ile Lys Gly Cys Met Ala Asn Ile Ile 530 535 540 Thr Tyr Ala Phe Lys Val Leu Gln Lys Asn Gly Tyr Asn Thr Ile Gly 545 550 555 560 Leu Glu Tyr Leu Asp Ser Ser Gln Phe Glu Asn Met Arg Thr Leu Thr 565 570 575 Pro Thr Ser Ile Leu Lys Tyr His Lys Met Glu Gly Lys Ser Val Asp 580 585 590 Ala Val Glu Ser Trp Ile Lys Glu Asn Lys Ile Pro Ser Asn Arg Tyr 595 600 605 Asp Phe Ile Tyr Glu Asp Asn His Leu Thr Asp Val Leu Leu Asn Ser 610 615 620 Asn Gly Ile Ala Tyr Gln Lys Lys Asn Leu Phe Met Asn Leu Val Ile 625 630 635 640 Lys Ala Ile Ser Phe Ala Asp Ile Lys Asn Lys Phe Val Gln Leu Ser 645 650 655 Asn Asn Thr Asn Val Ser Ile Leu Phe Ala Pro Ala Ala Phe Thr Ser 660 665 670 Gln Met Asp Ser Asn Arg His Val Ile Tyr Thr Val Lys Asn Asn Lys 675 680 685 Gly Lys Leu Ala Leu Val Asp Lys Lys Arg Val Arg Pro Asn Gln Glu 690 695 700 Lys His Ile Asn Gly Leu His Ser Gly Tyr Asn Ala Ala Cys Asn Val 705 710 715 720 Lys Phe Ile Cys Asp Asn Glu Phe Phe Arg Asn Thr Met Thr Ile Ser 725 730 735 Asn Lys Gly Lys Asn Leu Tyr Ser Gln Pro Thr Tyr Asp Ile Lys Glu 740 745 750 Ala Tyr Lys Lys Asn Ala Gly Cys Lys Val Ile Asn Asp Phe Ile Lys 755 760 765 Asn Gly Asn Ala Val Ile Cys Cys Ile Glu Asn Asn Lys Leu Ile Glu 770 775 780 Thr Asn Gly Arg Gln 785 <210> 23 <211> 766 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-fecal sequence <400> 23 Met Ala Asn Lys Lys Phe Lys Leu Thr Lys Asn Glu Val Val Lys Ser 1 5 10 15 Phe Val Leu Lys Val Ala Asn Gln Lys Lys Cys Ala Ile Thr Asn Glu 20 25 30 Thr Leu Gln Glu Tyr Lys Asn Tyr Tyr Asn Lys Val Ser Gln Trp Ile 35 40 45 Asn Asn Asn Leu Thr Lys Met Thr Ile Gly Asp Leu Ile Gln Tyr Ala 50 55 60 Pro Thr Val Ser Lys Lys Gly Lys Lys Gln Pro Asp Gly Thr Met Val 65 70 75 80 Tyr Asp Thr Pro Leu Tyr Val Thr Tyr Ala Met Ser Asp Glu Trp Lys 85 90 95 Asn Lys Pro Leu Tyr Tyr Ile Phe Lys Lys Glu Tyr Asn Thr Asn Asn 100 105 110 Ala Asn Asn Leu Leu Tyr Glu Ala Ile Arg Asn Leu Asn Val Asp Glu 115 120 125 Tyr Asp Gly Asn Gln Leu Asn Phe Asn Ser Thr Tyr Tyr Arg Thr Gln 130 135 140 Gly Tyr Val Asn Arg Val Phe Ser Asn Tyr Arg Thr Lys Ile Asn Thr 145 150 155 160 Leu Asp Ile Lys Ile Lys Lys Ser Lys Val Asp Glu Asn Ser Asp Val 165 170 175 Glu Thr Leu Glu Pro Gln Thr Met Tyr Glu Ile Asn Lys Leu Asn Leu 180 185 190 Lys Thr Asn Lys Asp Trp Glu Glu Arg Leu Gln Tyr Leu Thr Met Gln 195 200 205 Glu Asn Pro Asn Gln Asn Thr Ile Asp Arg Thr Lys Ile Leu Phe Asn 210 215 220 Tyr Phe Ile Asn Asn Asn Asp Thr Ile Phe Gln Lys Met Glu Glu Leu 225 230 235 240 Ser Ile Lys Gln Leu Thr Glu Phe Gly Gly Cys Lys Met Lys Asp Asn 245 250 255 Thr Thr Ser Met Thr Ile Asn Ile Gln Asp Phe Lys Ile Lys Arg Lys 260 265 270 Glu Asn Ser Ile Gly Tyr Ile Met Thr Ile Pro Phe Asn Lys Lys Asn 275 280 285 Val Asp Val Glu Leu Tyr Gly His Lys Gln Thr Ile Lys Gly His Lys 290 295 300 Asn Ser Tyr Thr Glu Ile Val Asp Ile Val Asn Lys His Gly Asn Thr 305 310 315 320 Ile Thr Phe Lys Ile Lys Asn Asn Gln Leu Phe Ala Ile Ile Thr Ser 325 330 335 Asp Thr Glu Val Thr Lys Pro Glu Pro Gln Tyr Glu Lys Ile Val Gly 340 345 350 Val Asp Val Asn Ile Lys His Thr Leu Met Val Thr Ser Glu Lys Asp 355 360 365 Asn Gly Lys Leu Lys Gly Tyr Ile Asn Leu Tyr Lys Glu Val Leu Lys 370 375 380 Asn Asp Glu Phe Lys Lys Leu Leu Asn Lys Thr Glu Leu Asp Asn Phe 385 390 395 400 Lys Ser Leu Ser Gln Ile Val Thr Phe Cys Pro Ile Glu Tyr Asp Phe 405 410 415 Leu Phe Ser Arg Ile Phe Asp Asp Glu Asn Thr Lys Lys Glu Leu Ala 420 425 430 Phe Ser Asn Val Leu Tyr Asp Ile Gln Lys Gln Leu Lys Asn Thr Asn 435 440 445 Asn Ile Leu Gln Tyr Asn Tyr Ile Ala Cys Val Asn Lys Leu Arg Ala 450 455 460 Lys Tyr Lys Ala Tyr Phe Val Leu Lys Met Ser Tyr Met Lys Gln Gln 465 470 475 480 Lys Ile Tyr Asp Thr Asn Met Gly Phe Phe Asp Ile Ser Thr Glu Ser 485 490 495 Lys Glu Thr Met Asp Gln Arg Arg Ser Leu Tyr Pro Phe Ile Asn Thr 500 505 510 Glu Ile Ala Gln Asn Ile Ile Thr Lys Met Asn Asn Val Gln Gln Asp 515 520 525 Ile Asn Gly Cys Leu Lys Asn Ile Phe Lys Tyr Thr Tyr Thr Val Phe 530 535 540 Glu Asn Asn Asn Tyr Asp Thr Ile Val Leu Glu Asn Leu Glu Asn Ala 545 550 555 560 Asn Phe Glu Lys His Asn Pro Leu Pro Asn Ile Thr Ser Leu Leu Lys 565 570 575 Tyr His Lys Val Gln Gly Leu Thr Ile Gln Glu Ala Glu Gln His Glu 580 585 590 Lys Val Gly Asn Leu Ile Gln Asn Asp Asn Tyr Ile Phe Gln Leu Asn 595 600 605 Glu Asp Asn Lys Ile Ile Asn Ala Asp Tyr Ser Gln Lys Ala Tyr Tyr 610 615 620 Lys Val Cys Lys Ala Leu Phe Phe Asn Gln Ala Ile Lys Thr Leu His 625 630 635 640 Phe Ala Ser Val Lys Asp Glu Met Ile Lys Leu Ser Asn Asn Asn Lys 645 650 655 Val Cys Val Ala Ile Ile Pro Pro Glu Tyr Thr Ser Gln Ile Asp Ser 660 665 670 Asn Thr His Lys Leu Tyr Phe Ile Asn Lys Asp Gly Lys Leu Leu Lys 675 680 685 Ala Asp Lys Lys Thr Val Arg Lys Thr Gln Glu Lys His Ile Asn Gly 690 695 700 Leu Asn Ala Asp Phe Asn Ala Ala Ser Asn Ile Lys Tyr Ile Val Gln 705 710 715 720 Asn Glu Thr Trp Arg Asn Leu Phe Thr Asn Lys Thr Asn Asn Thr Tyr 725 730 735 Gly Leu Pro Ile Leu Thr Pro Ser Lys Lys Gly Gln Ser Asn Ile Ile 740 745 750 Thr Gln Leu Met Lys Ile Asn Ala Thr Gln Glu Leu Val Val 755 760 765 <210> 24 <211> 752 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-fecal sequence <400> 24 Met Ala Lys Ser Ile Met Lys Lys Ser Ile Lys Phe Lys Val Lys Gly 1 5 10 15 Asn Ser Pro Ile Asn Glu Asp Ile Ile Asn Glu Tyr Lys Gly Tyr Tyr 20 25 30 Asn Thr Cys Ser Asn Trp Ile Asn Asn Asn Leu Thr Ser Ile Thr Ile 35 40 45 Gly Glu Met Gly Lys Phe Leu Lys Asp Val Met Arg Lys Thr Thr Gly 50 55 60 Tyr Ile Asp Val Ala Leu Ser Asp Glu Trp Lys Asp Lys Pro Met Tyr 65 70 75 80 Tyr Leu Phe Thr Lys Lys Tyr Asn Pro Lys His Ala Asn Asn Leu Leu 85 90 95 Tyr Tyr Phe Ile Lys Glu Lys Lys Leu Asp Lys Phe Asn Gly Asn Ile 100 105 110 Leu Asn Val Pro Glu Tyr Tyr Tyr Arg Lys Glu Gly Tyr Phe Lys Leu 115 120 125 Val Ala Gly Asn Tyr Arg Thr Lys Ile Asn Thr Leu Asn Phe Lys Ile 130 135 140 Lys Ser Lys Lys Val Asp Ala Asn Ser Leu Ser Glu Asp Ile Glu Met 145 150 155 160 Gln Thr Ile Tyr Glu Ile Val Lys Arg Gly Leu Asn Lys Lys Ser Asp 165 170 175 Trp Asp Ser Tyr Ile Ser Tyr Ile Glu Cys Val Gln Asn Pro Asn Ile 180 185 190 Asp Asn Ile Asn Arg Tyr Lys Leu Leu Arg Asp Tyr Phe Cys Glu Asn 195 200 205 Glu Asp Val Ile Lys Asn Lys Ile Glu Ile Leu Ser Ile Glu Gln Ile 210 215 220 Lys Glu Phe Gly Gly Cys Ile Met Lys Pro His Ile Asn Ser Met Thr 225 230 235 240 Phe Gly Ile Gln Lys Phe Lys Ile Glu Glu Ile Glu Asn Ser Leu Gly 245 250 255 Phe Thr Phe Asn Leu Pro Leu Asn Lys Asn Asn Tyr Lys Ile Glu Leu 260 265 270 Trp Gly His Arg Gln Leu Lys Lys Gly Asn Lys Glu Ser Asn Val Asn 275 280 285 Val Ser Leu Asp Asp Phe Ile Asn Thr Tyr Gly Gln Asn Val Val Phe 290 295 300 Thr Ile Lys Arg Lys Lys Leu Tyr Ile Val Phe Ser Tyr Asp Tyr Glu 305 310 315 320 Phe Glu Arg Gly Glu Cys Asn Phe Glu Lys Ser Val Gly Leu Asp Val 325 330 335 Asn Phe Lys His Ser Leu Phe Val Thr Ser Glu Ile Asp Asn Asn Gln 340 345 350 Phe Asp Gly Tyr Ile Asn Leu Tyr Lys Tyr Ile Leu Ser Asn Asn Glu 355 360 365 Phe Thr Ser Leu Leu Thr Asp Ser Glu Arg Lys Asp Tyr Glu Asp Leu 370 375 380 Ala Asn Ile Val Thr Phe Cys Pro Phe Glu Tyr Gln Leu Leu Phe Ser 385 390 395 400 Arg Tyr Asp Lys Leu Ser Lys Ile Ser Glu Lys Glu Lys Val Leu Ser 405 410 415 Lys Ile Leu Tyr Ser Leu Gln Lys Lys Leu Lys Asn Glu Lys Arg Thr 420 425 430 Lys Glu Tyr Ile Tyr Val Ser Cys Val Asn Lys Leu Arg Ala Lys Tyr 435 440 445 Val Ser Tyr Phe Lys Leu Lys Gln Lys Tyr Asn Glu Lys Gln Lys Glu 450 455 460 Tyr Asp Ile Glu Met Gly Phe Val Asp Asp Ser Thr Glu Ser Lys Glu 465 470 475 480 Ser Met Asp Lys Arg Arg Phe Glu Asn Pro Phe Ile Asn Thr Pro Val 485 490 495 Ala Lys Glu Leu Leu Glu Lys Met Asn Asn Val Lys Gln Asp Ile Asn 500 505 510 Gly Cys Lys Lys Asn Ile Val Val Tyr Ala Tyr Lys Val Leu Glu Gln 515 520 525 Asn Gly Tyr Asn Ile Ile Ala Leu Glu Asn Leu Glu Asn Ser Asn Phe 530 535 540 Glu Lys Ile Arg Val Leu Pro Lys Ile Lys Ser Leu Leu Glu Tyr His 545 550 555 560 Lys Phe Glu Asn Lys Asn Ile Asn Asp Ile Lys Asn Ser Asp Lys Tyr 565 570 575 Lys Glu Phe Ile Glu Pro Gly Tyr Phe Glu Leu Ile Thr Asn Glu Asn 580 585 590 Asn Glu Ile Ile Asp Ala Lys Tyr Thr Gln Lys Gly Asp Ile Lys Ile 595 600 605 Lys Asn Ala Asp Phe Ile Asn Ile Met Ile Lys Ala Leu Asn Phe Ala 610 615 620 Ser Ile Lys Asp Glu Phe Ile Leu Leu Ser His Asn Gly Lys Ser Gln 625 630 635 640 Ile Ala Leu Val Pro Ala Glu Tyr Thr Ser Gln Met Asp Ser Ile Asp 645 650 655 His Cys Ile Tyr Met Thr Lys Asn Asp Lys Gly Lys Leu Val Lys Val 660 665 670 Asp Lys Arg Lys Val Arg Thr Lys Gln Glu Arg His Ile Asn Gly Leu 675 680 685 Asn Ala Asp Phe Asn Ala Ala Cys Asn Ile Lys Tyr Ile Val Thr Asn 690 695 700 Glu Asp Trp Arg Lys Val Phe Cys Ile Lys Pro Lys Lys Glu Asp Tyr 705 710 715 720 Asn Thr Pro Leu Leu Asp Ala Thr Lys Asn Gly Gln Phe Arg Ile Leu 725 730 735 Asp Lys Leu Lys Lys Leu Asn Ala Thr Lys Leu Leu Glu Met Glu Lys 740 745 750 <210> 25 <211> 814 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 25 Met Val Lys Val Phe Ile Asn Val Phe Leu Ser Glu Lys Asn Gln Ile 1 5 10 15 Thr Thr Asn Ile Phe Asp Thr Glu Lys Ile Ser Asn Ser Tyr Ile Asn 20 25 30 His Ile Asn His Gln Phe Met Ala Thr His Lys Lys Thr Asp Asn Gln 35 40 45 Thr Ile Val Lys Ala Tyr Val Met Lys Ala Lys Met Ser Lys His Asp 50 55 60 Ile Glu Arg Val Trp Lys Pro Thr Ile Asp Glu Tyr Ile Asn Tyr Tyr 65 70 75 80 Asn Lys Leu Ser Asp Trp Ile Cys Lys Asn Leu Thr Ser Val Thr Ile 85 90 95 Gly Asp Leu Leu Lys Tyr Val Gly Glu Lys Gln Ile Asn Lys Gly Val 100 105 110 Gly Tyr Tyr Thr Tyr Phe Ile Asp Glu Gln Lys Thr Asp Leu Pro Leu 115 120 125 Tyr Thr Leu Phe Thr Asp Cys Pro Lys Thr His Ala Asp Asn Leu Leu 130 135 140 Phe Glu Ala Val Arg Lys Ile Asn Pro Glu Asn Tyr Asn Gly Asn Leu 145 150 155 160 Leu Ser Leu Phe Glu Thr Gly Tyr Arg Arg Asn Gly Tyr Phe Asp Asn 165 170 175 Val Ile Ser Asn Tyr Arg Thr Lys Met Thr Thr Leu Lys Ile Asn Pro 180 185 190 Lys Tyr Lys Arg Phe Ser Ser Glu Asn Met Pro Thr Asp Glu Val Leu 195 200 205 Leu Glu Gln Thr Val Tyr Glu Val Thr Lys Asn Asp Phe Lys Asn Asp 210 215 220 Asp Asp Trp Lys Lys Ser Ile Asp Tyr Met Lys Gln Lys Ser Glu Pro 225 230 235 240 Asn Thr Ala Leu Ile Phe Arg Met Glu Thr Leu Phe Asp Tyr Trp Lys 245 250 255 Asp His Lys Gln Asp Val Glu Gln Tyr Ile Asn Gln Lys Arg Val Glu 260 265 270 Cys Leu Lys Asp Phe Gly Gly Cys Lys Arg Arg Ala Asp Gly Leu Ser 275 280 285 Met Val Ile Leu Leu Asn Lys Lys Leu Thr Lys Ile Glu Ala Asp Gly 290 295 300 Leu Thr Ser Tyr Lys Leu Thr Thr Asn Leu Phe Gly Gly Lys Tyr Met 305 310 315 320 Ile Asn Ile Phe Gly His Arg Ala Leu Val Ser Val Cys Asn Gly Glu 325 330 335 Arg Ala Glu Asn Glu Asn Ile Asp Ile Cys Asn Lys His Gly Glu Arg 340 345 350 Phe Thr Phe Lys Ile Glu Asn Gly Asn Leu Phe Val Ala Leu Thr Ala 355 360 365 Asp Tyr Asn Tyr Glu Lys Gln Pro Asn Leu Pro Lys Asn Ile Val Gly 370 375 380 Val Asp Ile Asn Ile Lys His Ser Met Leu Asn Ser Ser Ile Glu Asp 385 390 395 400 Lys Gly Lys Val Lys Gly Tyr Val Asn Leu Tyr Lys Glu Phe Leu Ser 405 410 415 Asp Lys Asn Phe Arg Lys Thr Ile Thr Ser Asp Glu Glu Leu Asn Gln 420 425 430 Tyr Ile Glu Leu Ser Lys Tyr Ala Thr Phe Gly Ile Thr Glu Leu Asp 435 440 445 Ser Leu Phe Ala Arg Ala Thr Asp Thr Glu Lys Ser Ile Leu Cys Lys 450 455 460 Arg Glu Leu Ala Met Gln Asp Val Phe Glu Lys Leu Glu Lys Arg Tyr 465 470 475 480 Lys Asp Asp His Lys Ile Lys Phe Tyr Leu Gly Ser Thr Gln Lys Leu 485 490 495 Arg Ala Gln Tyr Ile Ser Tyr Phe Lys Ile Lys Glu Ala Tyr Asn Arg 500 505 510 Lys Gln Gln Glu Tyr Asp Leu Ala His Gly Lys Thr Asp Asn Pro Asp 515 520 525 Glu Val Tyr Lys Ser Asp Phe Ile Asn Glu Pro Ser Ala Lys Glu Met 530 535 540 Leu Val Lys Leu Asn Arg Ile Glu Arg Lys Ile Ile Gly Cys Arg Asn 545 550 555 560 Asn Ile Val Thr Tyr Ala Phe Asn Val Ile Lys Asn Asn Gly Tyr Asp 565 570 575 Thr Ile Gly Val Glu Tyr Leu Thr Ser Ser Gln Phe Glu Lys Lys Arg 580 585 590 Arg Leu Pro Ser Ile Lys Ser Leu Leu Asn Tyr Arg Lys Leu Leu Gly 595 600 605 Lys Pro Lys Asp Glu Trp Asn Leu Lys Glu Trp Asn Asp Val Tyr Met 610 615 620 Cys Tyr Arg Pro Glu Leu Asp Asp Ala Gly Asn Ile Met Asn Phe Thr 625 630 635 640 Ile Thr Asn Glu Gly Ile Lys Arg Asn Lys Glu Ser Thr Phe Tyr Asn 645 650 655 Ser Phe Ile Lys Ala Ile His Phe Ala Asp Val Lys Asp Lys Phe Ala 660 665 670 Gln Leu Thr Asn Asn Asn Thr Met Asn Thr Val Phe Ile Pro Ser Ser 675 680 685 Phe Thr Ser Gln Ile Asp Ser Lys Thr Arg Lys Leu Tyr Leu Leu Glu 690 695 700 Tyr Thr Glu Lys Cys Asp Asn Gly Lys Thr Lys Lys Val Val Lys Phe 705 710 715 720 Ile Asn Lys Arg Val Leu Arg Lys Ile Gln Glu Gln His Leu Asn Gly 725 730 735 Met Asn Ala Asp Asn Asn Ala Ala Arg Asn Ile Arg Asp Ile Thr Lys 740 745 750 Asn Leu Arg Asp Val Phe Thr Lys Lys Gln Thr Asp Lys Asn Cys Tyr 755 760 765 Asn Ser Ala Glu Phe Met Ile Gln Thr Lys Phe Lys Lys Arg Leu Pro 770 775 780 Gln Ala Thr Val Phe Gly Glu Leu Asn Arg Asn Gly Tyr Val Lys Val 785 790 795 800 Leu Thr Gln Glu Glu Tyr Asp Glu Leu Thr Lys Ser Ala Lys 805 810 <210> 26 <211> 776 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 26 Met Ala Thr His Lys Lys Thr Asp Asn Gln Thr Ile Val Lys Ala Tyr 1 5 10 15 Val Met Lys Ala Lys Met Ser Lys His Asp Ile Glu Arg Val Trp Lys 20 25 30 Pro Thr Ile Asp Glu Tyr Ile Asn Tyr Tyr Asn Lys Leu Ser Asp Trp 35 40 45 Ile Cys Lys Asn Leu Thr Ser Val Thr Ile Gly Asp Leu Leu Lys Tyr 50 55 60 Val Gly Glu Lys Gln Ile Asn Lys Gly Val Gly Tyr Tyr Thr Tyr Phe 65 70 75 80 Ile Asp Glu Gln Lys Thr Asp Leu Pro Leu Tyr Thr Leu Phe Thr Asp 85 90 95 Cys Pro Lys Thr His Ala Asp Asn Leu Leu Phe Glu Ala Val Arg Lys 100 105 110 Ile Asn Pro Glu Asn Tyr Asn Gly Asn Leu Leu Ser Leu Phe Glu Thr 115 120 125 Gly Tyr Arg Arg Asn Gly Tyr Phe Asp Asn Val Ile Ser Asn Tyr Arg 130 135 140 Thr Lys Met Thr Thr Leu Lys Ile Asn Pro Lys Tyr Lys Arg Phe Ser 145 150 155 160 Ser Glu Asn Met Pro Thr Asp Glu Val Leu Leu Glu Gln Thr Val Tyr 165 170 175 Glu Val Thr Lys Asn Asp Phe Lys Asn Asp Asp Asp Trp Lys Lys Ser 180 185 190 Ile Asp Tyr Met Lys Gln Lys Ser Glu Pro Asn Thr Ala Leu Ile Phe 195 200 205 Arg Met Glu Thr Leu Phe Asp Tyr Trp Lys Asp His Lys Gln Asp Val 210 215 220 Glu Gln Tyr Ile Asn Gln Lys Arg Val Glu Cys Leu Lys Asp Phe Gly 225 230 235 240 Gly Cys Lys Arg Arg Ala Asp Gly Leu Ser Met Val Ile Leu Leu Asn 245 250 255 Lys Lys Leu Thr Lys Ile Glu Ala Asp Gly Leu Thr Ser Tyr Lys Leu 260 265 270 Thr Thr Asn Leu Phe Gly Gly Lys Tyr Met Ile Asn Ile Phe Gly His 275 280 285 Arg Ala Leu Val Ser Val Cys Asn Gly Glu Arg Ala Glu Asn Glu Asn 290 295 300 Ile Asp Ile Cys Asn Lys His Gly Glu Arg Phe Thr Phe Lys Ile Glu 305 310 315 320 Asn Gly Asn Leu Phe Val Ala Leu Thr Ala Asp Tyr Asn Tyr Glu Lys 325 330 335 Gln Pro Asn Leu Pro Lys Asn Ile Val Gly Val Asp Ile Asn Ile Lys 340 345 350 His Ser Met Leu Asn Ser Ser Ile Glu Asp Lys Gly Lys Val Lys Gly 355 360 365 Tyr Val Asn Leu Tyr Lys Glu Phe Leu Ser Asp Lys Asn Phe Arg Lys 370 375 380 Thr Ile Thr Ser Asp Glu Glu Leu Asn Gln Tyr Ile Glu Leu Ser Lys 385 390 395 400 Tyr Ala Thr Phe Gly Ile Thr Glu Leu Asp Ser Leu Phe Ala Arg Ala 405 410 415 Thr Asp Thr Glu Lys Ser Ile Leu Cys Lys Arg Glu Leu Ala Met Gln 420 425 430 Asp Val Phe Glu Lys Leu Glu Lys Arg Tyr Lys Asp Asp His Lys Ile 435 440 445 Lys Phe Tyr Leu Gly Ser Thr Gln Lys Leu Arg Ala Gln Tyr Ile Ser 450 455 460 Tyr Phe Lys Ile Lys Glu Ala Tyr Asn Arg Lys Gln Gln Glu Tyr Asp 465 470 475 480 Leu Ala His Gly Lys Thr Asp Asn Pro Asp Glu Val Tyr Lys Ser Asp 485 490 495 Phe Ile Asn Glu Pro Ser Ala Lys Glu Met Leu Val Lys Leu Asn Arg 500 505 510 Ile Glu Arg Lys Ile Ile Gly Cys Arg Asn Asn Ile Val Thr Tyr Ala 515 520 525 Phe Asn Val Ile Lys Asn Asn Gly Tyr Asp Thr Ile Gly Val Glu Tyr 530 535 540 Leu Thr Ser Ser Gln Phe Glu Lys Lys Arg Arg Leu Pro Ser Ile Lys 545 550 555 560 Ser Leu Leu Asn Tyr Arg Lys Leu Leu Gly Lys Pro Lys Asp Glu Trp 565 570 575 Asn Leu Lys Glu Trp Asn Asp Val Tyr Met Cys Tyr Arg Pro Glu Leu 580 585 590 Asp Asp Ala Gly Asn Ile Met Asn Phe Thr Ile Thr Asn Glu Gly Ile 595 600 605 Lys Arg Asn Lys Glu Ser Thr Phe Tyr Asn Ser Phe Ile Lys Ala Ile 610 615 620 His Phe Ala Asp Val Lys Asp Lys Phe Ala Gln Leu Thr Asn Asn Asn 625 630 635 640 Thr Met Asn Thr Val Phe Ile Pro Ser Ser Phe Thr Ser Gln Ile Asp 645 650 655 Ser Lys Thr Arg Lys Leu Tyr Leu Leu Glu Tyr Thr Glu Lys Cys Asp 660 665 670 Asn Gly Lys Thr Lys Lys Val Val Lys Phe Ile Asn Lys Arg Val Leu 675 680 685 Arg Lys Ile Gln Glu Gln His Leu Asn Gly Met Asn Ala Asp Asn Asn 690 695 700 Ala Ala Arg Asn Ile Arg Asp Ile Thr Lys Asn Leu Arg Asp Val Phe 705 710 715 720 Thr Lys Lys Gln Thr Asp Lys Asn Cys Tyr Asn Ser Ala Glu Phe Met 725 730 735 Ile Gln Thr Lys Phe Lys Lys Arg Leu Pro Gln Ala Thr Val Phe Gly 740 745 750 Glu Leu Asn Arg Asn Gly Tyr Val Lys Val Leu Thr Gln Glu Glu Tyr 755 760 765 Asp Glu Leu Thr Lys Ser Ala Lys 770 775 <210> 27 <211> 778 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 27 Met Ala His Lys Gly Glu Lys Glu Gly Tyr Gln Ile Lys Thr Leu Lys 1 5 10 15 Phe Lys Val Arg Ser His Asp Ile Gly Lys Ser Leu Tyr Asp Ile Val 20 25 30 Asn Glu Tyr Thr Asn Tyr Tyr Asn Lys Val Ser Lys Trp Ile Cys Asp 35 40 45 Asn Leu Asp Thr Pro Ile Gly Glu Leu Ser Lys Asn Ile Ser Glu Lys 50 55 60 Arg His Asn Ser Lys Tyr Tyr Arg Ala Thr Asn Asp Pro Asn Trp Lys 65 70 75 80 Asn Glu Pro Met Trp Lys Ile Phe Thr Lys Lys Phe Ser Asn Gly Glu 85 90 95 Thr Phe Ser Glu Gln Gly Lys Asn Asp Lys Leu Ala Asn Leu Ser Asn 100 105 110 Cys Asp Asn Ile Leu Ser Tyr Ser Ile Ile Asp Tyr Asn Ile Asp Gly 115 120 125 Tyr Thr Gly Asn Ile Leu Gly Leu Thr Asp Thr Ser Tyr Arg Leu Asn 130 135 140 Gly Tyr Ile Ser Asn Cys Ile Ser Asn Tyr Lys Thr Lys Ile Arg Thr 145 150 155 160 Ala Lys Pro Lys Val Arg Ser Thr Ala Ile Thr Glu His Ser Thr Val 165 170 175 Glu Glu Lys Thr Asn Asn Thr Ile Tyr Glu Met Val Arg Lys Gly Phe 180 185 190 Met Ser Pro Asn Asp Phe Lys Asn Gln Ile Lys Tyr Leu Thr Glu Lys 195 200 205 Glu Asn Pro Asn Asp Lys Leu Ile Asp Arg Leu Ser Ile Leu His Ser 210 215 220 Phe Tyr Thr Glu Asn Glu Glu Asp Val Asn Asn Ala Phe Ser Arg Met 225 230 235 240 Ser Val Glu Met Leu Lys Asn Asn Asn Gly Cys Thr Arg Asn Gly Asp 245 250 255 Lys Lys Thr Leu Asn Ile Ser Ser Ile Asp Tyr Lys Val Thr Arg Lys 260 265 270 Glu Gly Cys Asp Gly Tyr Ile Leu Ser Phe Gly Ser Arg Asn Gln Lys 275 280 285 Tyr Asn Ile Asp Leu Trp Gly Arg Arg Asp Thr Ile Ser Asn Gly Lys 290 295 300 Glu Leu Ile Asp Leu Ser Glu His Gly Glu Pro Leu Thr Ile Thr Ser 305 310 315 320 Glu Asn Gly Asp Tyr Tyr Val Cys Met Thr Val Asp Val Pro Phe Glu 325 330 335 Lys Lys Ser Thr Gly Ser Thr Glu Lys Val Ala Ser Val Asp Val Asn 340 345 350 Thr Lys His Thr Met Leu Ser Thr Asp Val Ile Asp Asp Gly Thr Leu 355 360 365 Lys Gly Tyr Leu Asn Ile Tyr Lys Lys Leu Leu Leu Asp Thr Glu Leu 370 375 380 Thr Ser Leu Leu His Lys Gln Asp Phe Asp Asp Met Lys Glu Leu Ser 385 390 395 400 His Asn Val Cys Phe Gly Pro Ile Glu Tyr Asn Phe Leu Leu Ser Arg 405 410 415 Ile Leu Asp Leu Asp Ala Tyr Glu Lys Lys Val Glu Asp Arg Ile Thr 420 425 430 His Ser Met Lys Glu Met Leu Lys Thr Glu Thr Asp Glu Arg Asn Lys 435 440 445 Met Tyr Leu Gly Ser Val Ile Lys Met Arg Ala Leu Leu Lys Val Tyr 450 455 460 Ile Ser Thr Lys Asn Arg Tyr His Lys Glu Gln Gln Ser Tyr Asp Glu 465 470 475 480 Ser Met Gly Phe Thr Asp Thr Ser Thr Ala Ser Lys Asp Thr Met Asp 485 490 495 Lys Arg Arg Phe Glu Asn Pro Phe Ser Glu Thr Glu Thr Gly Lys Lys 500 505 510 Leu Asn Asn Asp Leu Ser Ala Leu Ser Lys Lys Ile Ile Gly Cys Arg 515 520 525 Asp Asn Ile Val Arg Tyr Ala Tyr Thr Thr Leu Gln Asp Asn Gly Tyr 530 535 540 Thr Met Ile Gly Val Glu Asp Leu Asn Ser Ser Thr Phe Ala Asn Thr 545 550 555 560 Arg Asn Pro Phe Pro Thr Ile Lys Ser Leu Leu Asn Tyr His His Leu 565 570 575 Ser Gly Lys Thr Pro Glu Glu Ala Arg Asn Ile Asp Thr Tyr Ser Lys 580 585 590 Phe Ser Asp His Tyr Thr Leu Thr Thr Asp Glu Glu Gly Lys Ile Thr 595 600 605 Asp Ala Lys Tyr Thr Lys Lys Ala Glu Thr Lys Ile Lys Lys Lys Arg 610 615 620 Ala Arg Asp Thr Ile Ile Lys Ala Ile His Phe Ala Glu Val Lys Asp 625 630 635 640 Val Met Cys Val Met Ser Asn Asn Gly Thr Ala Ser Val Ala Phe Glu 645 650 655 Pro Ser Tyr Phe Ser Ser Gln Met Asp Ser Ala Thr His Lys Val Tyr 660 665 670 Thr Thr Arg Asn Lys Lys Gly Lys Asp Val Ile Ala Ser Lys Glu Thr 675 680 685 Val Arg Pro Arg Gln Glu Lys His Ile Asn Gly Met Asn Cys Asp Ile 690 695 700 Asn Ser Pro Lys Asn Leu Ser Tyr Leu Ile Thr Asn Glu Glu Phe Arg 705 710 715 720 Glu Met Phe Leu Thr Pro Thr Lys Asn Gly Tyr Asn Glu Pro Phe Tyr 725 730 735 Lys Ser Arg Val Lys Ser Ala Ala Ser Met Met Ser Gly Leu Lys Lys 740 745 750 Leu Gly Ala Thr Met Pro Leu Thr Asp Glu Asn Ala Ile Phe Ser Thr 755 760 765 Pro Lys Pro Lys Lys Asn Ile Gly Lys Gln 770 775 <210> 28 <211> 772 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 28 Met Gly Asn Lys Val Gln Ser Asn Glu Thr Ile Val Lys Thr Tyr Thr 1 5 10 15 Phe Lys Val Arg Glu Phe Ile Ser Gly Ala Thr His Glu Ile Met Lys 20 25 30 Ser Ala Ile Lys Gln Tyr Ile Glu Asp Ser Asn Asn Leu Ser Asp Trp 35 40 45 Ile Asn Asn Gln Leu Thr Asn Lys Thr Ile Cys Glu Val Gly Ala Leu 50 55 60 Ile Pro Ile Glu Lys Arg Glu Thr Ser Tyr Tyr Lys Ser Thr Val Asp 65 70 75 80 Glu Leu Trp Ala Asn Lys Pro Cys Phe Lys Met Phe Thr Asn Asp Phe 85 90 95 Thr Lys Glu Glu Asn Phe Ala Thr Arg Asn Ile Gly Asn Gly Lys Asn 100 105 110 Cys Lys Asn Ile Ile Thr Ser Ala Tyr Lys Ser Thr Val Asn Pro Ser 115 120 125 Phe Arg Asn Val Leu Asp Leu Thr Glu Lys Val Tyr Phe Ser Asp Gly 130 135 140 Tyr Gly Ala Asn Val Cys Ser Asn Tyr Lys Thr Lys Leu Arg Thr Leu 145 150 155 160 Lys Pro Ala Lys Ile Lys Leu Val Ser Ser Leu Ser Asp Cys Asp Asp 165 170 175 Asn Thr Leu Thr Glu Gln Val Ile Arg Glu Lys Gln Lys Tyr Gly Tyr 180 185 190 Ser Thr Pro Lys Asp Phe Glu Lys Arg Ile Glu Tyr Leu Asn Glu Lys 195 200 205 Glu Lys Ser Glu Gln Asn Ser Lys Ile Ile Glu Arg Leu Gln Lys Leu 210 215 220 Tyr Glu Phe Tyr Asp Asn Asn Thr Lys Leu Val Glu Glu Lys Glu Leu 225 230 235 240 Glu Leu Ser Val Lys Ser Leu Val Glu Phe Gly Gly Cys Arg Arg Gly 245 250 255 Glu Lys Thr Met Thr Leu Asn Leu Pro Asp Ile Gly Tyr Glu Ile Gln 260 265 270 Arg Lys Asp Asp Lys Tyr Gly Tyr Ile Phe Thr Leu Lys Cys Ser Lys 275 280 285 Lys Arg Lys Ile Ile Ile Asp Val Trp Gly Ser Lys Ala Thr Ile Asp 290 295 300 Ser Asn Gly Asn Asp Lys Val Asp Ile Ile Asn Thr His Gly Lys Ser 305 310 315 320 Ile Asn Phe Lys Ile Ile Asn Asn Glu Met Tyr Ile Asp Ile Thr Val 325 330 335 Asp Val Pro Phe Ala Lys Arg Lys Leu Gly Ile Lys Lys Val Val Gly 340 345 350 Ile Asp Val Asn Thr Lys His Met Leu Met Ala Thr Asn Ile Lys Val 355 360 365 Thr Asp Ser Ile Lys Gly Tyr Val Asn Leu Tyr Lys Glu Phe Leu Asn 370 375 380 Ser Lys Glu Ile Met Asp Val Ala Ser Pro Glu Thr Lys Lys Asn Phe 385 390 395 400 Glu Asp Met Ser Met Phe Val Asn Phe Cys Pro Ile Glu Tyr Asn Thr 405 410 415 Met Phe Ala Leu Ile Phe Lys Leu Asn Asn Gly Asp Ile Arg Thr Glu 420 425 430 Gln Ala Ile Arg Arg Thr Leu His Gln Leu Ser Lys Lys Phe Ser Asp 435 440 445 Gly Asn His Glu Thr Glu Arg Ile Tyr Val Gln Asn Val Phe Ser Ile 450 455 460 Arg Glu Gln Leu Lys His Phe Ile Leu Leu Ser Asn Arg Tyr Tyr Ser 465 470 475 480 Glu Gln Ser Asp Tyr Asp Thr Lys Met Gly Phe Ile Asp Glu Asn Thr 485 490 495 Thr Ser Asn Ala Thr Met Asp Lys Arg Arg Phe Asp Lys Ser Leu Met 500 505 510 Phe Arg Tyr Thr Gln Arg Gly Arg Gln Leu Tyr Glu Glu Arg Ile Glu 515 520 525 Cys Gly Arg Lys Ile Thr Glu Ile Arg Asp Asn Ile Ile Thr Tyr Ala 530 535 540 Arg Asn Val Phe Val Leu Asn Gly Tyr Asp Thr Ile Ala Leu Glu Tyr 545 550 555 560 Leu Thr Asn Ala Thr Ile Gln Lys Pro Thr Arg Pro Thr Ser Pro Lys 565 570 575 Ser Leu Leu Asp Tyr Phe Lys Leu Lys Gly Lys Pro Val Val Glu Ala 580 585 590 Glu Lys Asn Glu Arg Ile Thr Lys Asn Arg Lys Tyr Tyr Asn Leu Ile 595 600 605 Pro Asp Glu Asn Asp Asn Val Ile Asn Ile Glu Tyr Thr Glu Glu Gly 610 615 620 Lys Val Ala Ile Lys Lys Ser Ile Ala Arg Asp His Ile Met Lys Ala 625 630 635 640 Val His Phe Ala Glu Val Lys Asp Lys Phe Ile Gln Leu Ser Asn Asn 645 650 655 Gly Lys Thr Gln Val Ala Leu Val Pro Ser Asn Tyr Thr Ser Gln Met 660 665 670 Asn Ser Glu Thr His Thr Val Tyr Leu Met Lys Asn Pro Lys Thr Lys 675 680 685 Lys Leu Val Ile Met Asp Lys Asp Lys Val Arg Pro Ile Gln Glu Lys 690 695 700 Tyr Lys Leu Asn Gly Leu Asn Ala Asp Phe Asn Ser Ala Arg Asn Ile 705 710 715 720 Ala Tyr Ile Val Glu Asn Glu Ile Leu Arg Asn Ser Phe Leu Lys Glu 725 730 735 Glu Thr Lys Lys Tyr Thr Tyr Asn Thr Pro Leu Phe Thr Pro Arg Leu 740 745 750 Lys Ser Ser Glu Lys Ile Ile Thr Glu Leu Lys Lys Leu Gly Met Thr 755 760 765 Thr Val Ile Glu 770 <210> 29 <211> 781 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 29 Met Ala Asn Lys Ser Thr Lys Gly Asn Leu Pro Lys Thr Ile Ile Met 1 5 10 15 Lys Ala Asn Leu Ser Pro Asp Gly Phe Thr Gln Trp Glu Arg Val Val 20 25 30 Lys Glu Tyr Gln Ala Tyr Lys Asp Thr Leu Ser Lys Trp Val Ala Gln 35 40 45 Asn Leu Thr Ala Met Lys Ile Gly Asp Leu Leu Pro Tyr Leu Asp Lys 50 55 60 Tyr Ser Lys Lys Thr Asn Lys Glu Thr Gly Glu Arg Pro Val Asn Val 65 70 75 80 Tyr Tyr Gln Leu Cys Glu Gln His Lys Asp Glu Pro Leu Tyr Lys Leu 85 90 95 Phe Thr Tyr Asp Ser Asn Ser Arg Asn Asn Ala Met Tyr Glu Ile Ile 100 105 110 Arg Lys Thr Asn Cys Asp Gly Tyr Lys Gly Asn Ile Leu Gly Ile Ser 115 120 125 Glu Thr His Tyr Arg Arg Asn Gly Phe Val Lys Asn Ile Leu Ala Asn 130 135 140 Tyr Thr Thr Lys Ile Ser Thr Leu Glu Leu Ser Glu Arg Lys Arg Lys 145 150 155 160 Ile Asp Ser Asp Ser Pro Glu Asp Leu Ile Arg Ser Gln Val Val Tyr 165 170 175 Glu Met Gln Lys Asn Asn Ile Lys Asp Ala Lys Gly Phe Lys Ser Ile 180 185 190 Ile Glu Tyr Leu Lys Ser Lys Lys Glu Val Asn Ile Gln Tyr Leu Glu 195 200 205 Arg Leu Gln Ile Leu Tyr Glu Tyr Phe Lys Asn His Glu Asn Glu Ile 210 215 220 Lys Glu Tyr Ile Thr Leu Ala Ala Val Glu Gln Leu Lys Ser Phe Gly 225 230 235 240 Gly Val Arg Val Asn Asn Glu Lys Ser Ser Met Asn Leu Glu Ile Gln 245 250 255 Gly Phe Ser Ile Thr Arg Val Asp Gly Ala Cys Thr Tyr Ile Leu His 260 265 270 Leu Pro Ile Asn Gly Lys Ile His Gly Ile Lys Leu Trp Gly Asn Arg 275 280 285 Gln Val Val Val Asn Lys Asp Gly Thr Pro Val Asp Ile Leu Asp Leu 290 295 300 Thr Asn Gln His Gly Ser Thr Ile Asn Ile Thr Ile Lys Asn Gly Glu 305 310 315 320 Ile Tyr Phe Ala Phe Thr Val Thr Ser Asp Phe Val Lys Pro Glu His 325 330 335 Gln Ile Lys Asn Val Val Gly Val Asp Val Asn Thr Lys His Met Leu 340 345 350 Met Gln Ser Asn Ile Thr Asp Asn Gly Asn Val Lys Gly Tyr Phe Asn 355 360 365 Ile Tyr Lys Val Leu Val Glu Asp Arg Arg Phe Thr Ser Leu Leu Ser 370 375 380 Glu Glu Gln Leu Lys Tyr Phe Cys Glu Leu Ala Asn Ile Val Ser Phe 385 390 395 400 Cys Pro Ile Glu Thr Glu Phe Leu Phe Ala Arg Tyr Ala Glu Tyr Lys 405 410 415 Lys Met Ser Asn Asn Ala Glu Met Arg Gln Ile Glu Lys Val Phe Ser 420 425 430 Asp Ile Leu Asp Glu Gln Tyr Lys Lys Tyr Lys Asp Ile Asp Thr Ser 435 440 445 Ile Ala Asn Tyr Ile Ser Tyr Val Arg Lys Leu Arg Ser Gln Cys Cys 450 455 460 Ala Tyr Phe Lys Leu Lys Met Lys Tyr Lys Glu Leu Gln Arg Gln Phe 465 470 475 480 Asp Lys Glu Gln Asp Tyr Lys Asp Leu Ser Thr Glu Ser Lys Glu Thr 485 490 495 Met Asp Lys Arg Arg Trp Glu Asn Pro Phe Arg Asn Thr Pro Glu Ala 500 505 510 Ser Lys Leu Ile Lys Lys Met Asp Asn Val Ser Arg Gln Leu Ile Gly 515 520 525 Cys Arg Asp Asn Ile Ile Thr Tyr Ala Tyr Arg Val Phe Glu Lys Asn 530 535 540 Gly Tyr Asp Thr Ile Ser Leu Glu Asn Leu Glu Ser Ser Gln Phe Glu 545 550 555 560 Asn Asn Asp His Val Ile Ala Pro Lys Ser Leu Leu Glu Tyr His His 565 570 575 Leu Lys Gly Lys Thr Met Asn Tyr Leu Leu Ser Asp Glu Cys Lys Val 580 585 590 Arg Ile Thr Thr Lys Asp Gly Lys Val Lys Glu Trp Tyr His Val Glu 595 600 605 Leu Asn Asp Lys Asp Glu Ile Asp Asn Ile Phe Leu Thr Pro Glu Gly 610 615 620 Glu Thr Glu Lys Glu Lys Asn Leu Phe Asn Asn Met Val Ile Lys Ile 625 630 635 640 Val His Phe Ala Asp Ile Lys Asp Lys Phe Ile Gln Leu Gly Asn Tyr 645 650 655 Asn Lys Leu Gln Thr Val Leu Val Pro Ser Tyr Phe Thr Ser Gln Met 660 665 670 Asp Ser Lys Thr His Ser Val Tyr Val Val Glu Thr Ala Asn Thr Lys 675 680 685 Thr Ser Lys Lys Glu Leu Lys Leu Val Ser Lys Lys Arg Val Arg Arg 690 695 700 Gln Gln Glu Trp His Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala 705 710 715 720 Cys Asn Ile Ala His Ile Ala Lys Asn Ile Glu Leu Arg Gln Ile Met 725 730 735 Cys Lys Thr Pro Gln Thr Lys Asn Gly Tyr Ser Ser Pro Val Leu Thr 740 745 750 Ser Lys Val Lys Ser Gln Val Glu Met Val Arg Glu Leu Lys Lys Met 755 760 765 Gly Lys Thr Ile Leu Tyr Ser Asn Asp Ser Leu Pro Phe 770 775 780 <210> 30 <211> 798 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 30 Met Ala His Arg Lys Lys Lys Asp Asp Glu Ala Thr Leu Ser Tyr Lys 1 5 10 15 Phe Lys Val Lys Val Ile Glu Gly Asp Leu Thr Ala Asp Asp Ile Thr 20 25 30 Lys Cys Ile Ala Glu Asn Ala Glu Gln Gly Asn His Phe Ser Glu Phe 35 40 45 Ile His Lys Asn Leu Thr Ser Lys Thr Ile Gly Glu Phe Ala Ser Gln 50 55 60 Leu Pro Val Glu Lys Arg Gln Phe Gly Tyr Tyr Gln Tyr Ala Ile Gly 65 70 75 80 Gly Thr Met Pro Ala Lys Lys Asn Ala Ser Asp Glu Asp Lys Pro Lys 85 90 95 Gly Glu Leu Ile Asp Trp Ser Lys Lys Pro Phe Tyr Val Leu Phe Ser 100 105 110 Lys Gly Tyr Ser Ala Thr His Ala Val Asn Leu Ile Phe Asn Val Tyr 115 120 125 Leu Asn Ser Glu Glu Gly Lys Ala Phe Ser Ala Lys Asn Ser Met Asn 130 135 140 Leu Ser Lys Ser Gln Phe Ala Tyr Ser Gly Phe Val Gln Ile Val Cys 145 150 155 160 Ala Asn Tyr Ala Ser Met Leu Ala Asn Ala Arg Pro Asp Lys Ile Lys 165 170 175 Phe Glu Glu Ile Thr Glu Ala Thr Asp Asp Gly Thr Lys Lys Met Gln 180 185 190 Val Val Arg Glu Met Ala Glu Arg Tyr Leu Met Lys Pro Lys Asn Phe 195 200 205 Ala Ser Arg Ile Glu Tyr Leu Glu Ala Asn Asn Thr Lys Gly Lys Phe 210 215 220 Asp Lys Thr Ile Gln Arg Leu Arg Leu Leu Gln Pro Phe Phe Glu Lys 225 230 235 240 Asn Glu Glu Gly Ile Thr Glu Leu Tyr Tyr Asp Leu Ser Val Lys Ala 245 250 255 Leu Glu His Ser Gly Gln Cys Thr Tyr Lys Gly Gly Arg Thr Ile Ser 260 265 270 Ile Leu Glu Ile Gly Asp Ile Arg Ile Ser Arg Lys Glu Asn Ala Lys 275 280 285 Gly Tyr Leu Leu Thr Ile Pro Ile Asn Arg Lys Ser Val Val Phe Asp 290 295 300 Leu Tyr Gly Arg Lys Asp Thr Ile Gly Gly Asp Gly Arg Asp Leu Ile 305 310 315 320 Asp Ile Met Asn Thr His Gly Ser Ser Leu Gln Phe Thr Ala Asp Gly 325 330 335 Asn Asp Ile Tyr Leu Thr Ile Thr Ala Thr Lys Asn Phe Ile Lys Glu 340 345 350 Lys Pro Thr Phe Asn Glu Asp Thr Val Leu Gly Gly Asp Val Asn Ile 355 360 365 Lys His Ser Tyr Thr Val Phe Ser Thr Ser Pro Lys Asp Ile Pro Asp 370 375 380 Phe Val Asn Phe Tyr Glu Tyr Phe Ala Lys Asp Gly Glu Ile Met Lys 385 390 395 400 Leu Ala Pro Lys Pro Met Trp Asp Tyr Ile Val Ala Ala Ala Thr Lys 405 410 415 Phe Leu Thr Ile Leu Pro Ile Glu Thr Pro Ala Ile Ser Ala Thr Val 420 425 430 Tyr Gly Lys Arg Thr Glu Glu Gly Ile Ser Arg Ala Thr Phe Arg Glu 435 440 445 Thr Gln Lys Leu Ile Ala Leu Glu Lys Ala Ile Glu Arg Val Met Lys 450 455 460 Gln Val Phe Asp Lys Tyr Asn Asp Gly Lys His Pro Leu Glu Ala Ile 465 470 475 480 Tyr Ile Gly Asn Ala Ile Lys Tyr Arg Arg Leu Ile Lys Gly Tyr Leu 485 490 495 Ala Gln Lys Lys Lys Tyr Tyr Ser Ala His Ser Glu Tyr Asp Lys Ala 500 505 510 Met Gly Tyr Thr Asp Asp Asp Thr Asp Arg Lys Glu Asn Met Asp Glu 515 520 525 Arg Arg Phe Asp Asp Ser Lys Lys Phe Arg Tyr Thr Pro Glu Ala Gln 530 535 540 Ala Leu Leu Asp Thr Met His Thr Ile Glu Lys Lys Ile Val Gly Cys 545 550 555 560 Val Ser Asn Ala Ile Ser Tyr Ala Tyr His Lys Phe Asp Glu Asn Gly 565 570 575 Phe Asn Val Ile Ala Leu Glu Asn Leu Thr Ser Ala Thr Phe Ala Lys 580 585 590 Lys Tyr Lys Ser Asp Lys Pro Glu Ser Ile Lys Lys Leu Leu Asn Phe 595 600 605 Asp Lys Leu Leu Gly Lys Thr Leu Asp Glu Ala Lys Ala Ser Lys Ser 610 615 620 Ile Ser Lys His Pro Asn Trp Tyr Glu Leu Val Ala Asp Glu Asn Gly 625 630 635 640 Cys Val Ser Asp Ile Arg Ile Thr Asp Glu Gly Gln Ser Ala Thr Tyr 645 650 655 Arg Ser Leu Val Thr Glu Thr Ile Met Lys Val Ser His Phe Ala Glu 660 665 670 Thr Lys Asp Arg Phe Ile Gly Leu Ala Asn Ser Gly Arg Leu Gln Val 675 680 685 Gly Leu Val Pro Ser Gln Tyr Thr Ser Tyr Ile Asp Ser Thr Thr His 690 695 700 Thr Leu Tyr Ala Val Ile Glu Asp Gly Lys Thr Val Leu Ala Pro Lys 705 710 715 720 Glu Val Val Arg Ala Ser Gln Glu Arg His Ile Asn Gly Leu Asn Ala 725 730 735 Asp Tyr Asn Ser Ala Leu Asn Leu Lys Tyr Met Ile Thr Asp Glu Asn 740 745 750 Phe Arg Lys Thr Phe Thr Ser Glu Thr Ser Ala Asp Lys Phe Gly Trp 755 760 765 Gly Lys Pro Met Phe Ser Pro Thr Thr Arg Ser Gln Asp Glu Val Phe 770 775 780 Ser Ala Ile Lys Lys Ile Gly Ala Ile Thr Val Leu Glu Asp 785 790 795 <210> 31 <211> 786 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 31 Met Ala Gln His Lys Ser Asn Asn Glu Glu Ser Ala Ile Asn Lys Thr 1 5 10 15 Phe Ile Phe Lys Ala Lys Cys Glu Lys Asn Asp Val Ile Ser Leu Trp 20 25 30 Glu Pro Ala Ala Lys Glu Tyr Gly Asp Tyr Tyr Asn Lys Val Ser Lys 35 40 45 Trp Ile Ala Asp Asn Leu Ile Thr Met Lys Ile Gly Asp Leu Ala Gln 50 55 60 Tyr Ile Thr Asn Gln Asn Ser Lys Tyr Tyr Thr Ala Val Thr Asn Lys 65 70 75 80 Lys Lys Lys Asp Leu Pro Leu Tyr Arg Ile Phe Gln Lys Gly Phe Ser 85 90 95 Ser Gln Cys Ala Asp Asn Ala Leu Tyr Cys Ala Ile Lys Ser Ile Asn 100 105 110 Pro Glu Asn Tyr Lys Gly Asn Ser Leu Gly Ile Gly Glu Ser Asp Tyr 115 120 125 Arg Arg Phe Gly Tyr Ile Gln Ser Val Val Ser Asn Phe Arg Thr Lys 130 135 140 Met Ser Ser Leu Lys Val Ser Val Lys Tyr Lys Lys Phe Asp Val Ser 145 150 155 160 Asn Val Asp Asp Glu Thr Leu Lys Ile Gln Thr Ile Tyr Asp Val Asp 165 170 175 Lys Tyr Gly Ile Glu Thr Ala Lys Glu Phe Lys Glu Leu Ile Glu Thr 180 185 190 Leu Lys Thr Arg Val Glu Thr Pro Gln Leu Asn Asp Thr Ile Ala Arg 195 200 205 Leu Lys Cys Leu Cys Asp Tyr Tyr Ser Lys Asn Glu Lys Ala Ile Asn 210 215 220 Asn Glu Ile Glu Thr Met Ala Ile Ala Asp Leu Gln Lys Phe Gly Gly 225 230 235 240 Cys Gln Arg Lys Ser Leu Asn Ala Phe Thr Ile His Lys Gln Asp Ser 245 250 255 Leu Met Glu Lys Val Gly Asn Thr Ser Phe Arg Leu Gln Leu Ser Phe 260 265 270 Arg Lys Lys Thr Tyr Val Ile Asn Leu Leu Gly Asn Arg Gln Val Val 275 280 285 Asn Phe Val Asn Gly Lys Arg Val Asp Leu Ile Asp Ile Ala Glu Asn 290 295 300 His Gly Asp Leu Ile Thr Phe Asn Ile Lys Asn Gly Glu Leu Phe Leu 305 310 315 320 His Ile Thr Ser Pro Ile Val Phe Asp Lys Asp Val Arg Asp Ile Arg 325 330 335 Asn Val Val Gly Ile Asp Val Asn Ile Lys His Ser Met Leu Ala Thr 340 345 350 Ser Ile Lys Asp Asp Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Lys 355 360 365 Glu Leu Leu Asn Asp Asp Val Phe Val Ser Thr Cys Asn Glu Ser Glu 370 375 380 Leu Ala Leu Tyr Arg Gln Met Ser Glu Asn Val Asn Phe Gly Ile Leu 385 390 395 400 Glu Thr Asp Ser Leu Phe Glu Arg Ile Val Asn Gln Ser Lys Gly Gly 405 410 415 Cys Leu Lys Asn Lys Leu Ile Arg Arg Glu Leu Ala Met Gln Lys Val 420 425 430 Phe Glu Arg Ile Thr Lys Thr Asn Lys Asp Gln Asn Ile Val Asp Tyr 435 440 445 Val Asn Tyr Val Lys Met Met Arg Ala Lys Cys Lys Ala Ser Tyr Ile 450 455 460 Leu Lys Glu Lys Tyr Asp Glu Lys Gln Lys Glu Tyr Tyr Val Lys Met 465 470 475 480 Gly Phe Thr Asp Glu Ser Thr Glu Ser Lys Glu Thr Met Asp Lys Arg 485 490 495 Arg Glu Glu Phe Pro Phe Val Asn Thr Asp Thr Ala Lys Glu Leu Leu 500 505 510 Val Lys Gln Asn Asn Ile Arg Gln Asp Ile Ile Gly Cys Arg Asp Asn 515 520 525 Ile Val Thr Tyr Ala Phe Asn Val Phe Lys Asn Asn Glu Tyr Asp Thr 530 535 540 Leu Ser Val Glu Tyr Leu Asp Ser Ser Gln Phe Asp Lys Arg Arg Ile 545 550 555 560 Pro Thr Pro Lys Ser Leu Leu Lys Tyr His Lys Phe Glu Gly Lys Thr 565 570 575 Lys Asp Glu Val Glu Asn Met Met Lys Ser Glu Lys Leu Ser Asn Ala 580 585 590 Tyr Tyr Thr Phe Lys Tyr Glu Asn Asp Val Val Ser Asp Ile Asp Tyr 595 600 605 Ser Asp Glu Gly Asn Leu Arg Arg Ser Lys Leu Asn Phe Gly Asn Trp 610 615 620 Ile Ile Lys Ala Ile His Phe Ala Asp Ile Lys Asp Lys Phe Val Gln 625 630 635 640 Leu Ser Asn Asn Asn Lys Met Asn Ile Val Phe Cys Pro Ser Ala Phe 645 650 655 Ser Ser Gln Met Asp Ser Ile Thr His Thr Leu Tyr Tyr Val Glu Lys 660 665 670 Ile Thr Lys Asn Lys Lys Gly Lys Glu Lys Lys Lys Tyr Val Leu Ala 675 680 685 Asn Lys Lys Met Val Arg Thr Gln Gln Glu Thr His Ile Asn Gly Leu 690 695 700 Asn Ala Asp Tyr Asn Ser Ala Cys Asn Leu Lys Tyr Ile Ala Leu Asn 705 710 715 720 Tyr Glu Leu Arg Asp Lys Met Thr Asp Arg Phe Lys Ala Ser Lys Lys 725 730 735 Ile Lys Thr Met Tyr Asn Ile Pro Ala Tyr Asn Ile Lys Ser Asn Phe 740 745 750 Lys Lys Asn Leu Ser Ala Lys Thr Ile Gln Thr Phe Arg Glu Leu Gly 755 760 765 His Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Met Phe Val Glu Ile 770 775 780 Leu Glu 785 <210> 32 <211> 781 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 32 Met Ala His Lys Asn Ser Asp Gly Glu Asn Thr Ile Asn Lys Thr Phe 1 5 10 15 Ile Phe Lys Val Lys Cys Glu Lys Asn Asp Ile Ile Ser Phe Trp Lys 20 25 30 Pro Ala Ala Glu Glu Tyr Cys Asn Tyr Tyr Asn Lys Leu Ser Glu Trp 35 40 45 Ile Gly Lys Asn Leu Ile Ser Met Lys Ile Gly Asp Leu Ala Lys Tyr 50 55 60 Ile Asp Asn Pro Lys Ser Lys Tyr Tyr Leu Ser Val Thr Asp Glu Asn 65 70 75 80 Lys Lys Asp Leu Pro Leu Tyr Lys Ile Phe Gln Lys Gly Phe Ser Ser 85 90 95 Ile Asp Ala Asp Asn Ala Leu Tyr Cys Ala Ile Asp Lys Leu Asn Pro 100 105 110 Glu Gly Tyr Asn Gly Asn Ile Leu Gly Val Gly Lys Ser Asp Tyr Arg 115 120 125 Arg Asn Gly Tyr Val Ser Ser Val Ile Gly Asn Phe Arg Thr Lys Met 130 135 140 Val Ser Leu Lys Ala Asn Val Arg Trp Lys Lys Ile Asp Ile Gly Asn 145 150 155 160 Val Asp Glu Glu Thr Leu Arg Arg Gln Thr Ile Cys Asp Val Glu Lys 165 170 175 Tyr Arg Ile Glu Ser Glu Lys Asp Phe Arg Asp Leu Ile Asp Ile Leu 180 185 190 Lys Ala Arg Glu Glu Thr Pro Arg Leu Lys Glu Lys Ile Ser Arg Leu 195 200 205 Glu Leu Leu Tyr Asp Tyr Tyr Ser Lys Asn Thr Lys Thr Ile Lys Ser 210 215 220 Glu Met Glu Asn Met Ala Ile Ser Asp Leu Gln Lys Phe Gly Gly Cys 225 230 235 240 Val Arg Lys Ser Leu Asn Thr Ile Thr Ile His Lys Gln Asp Ser Lys 245 250 255 Ile Glu Lys Glu Gly Asn Thr Ser Phe Arg Leu His Met Val Phe Asn 260 265 270 Lys Lys Pro Tyr Thr Ile Thr Leu Leu Gly Asn Arg Gln Val Val Lys 275 280 285 Tyr Ile Asp Gly Lys Arg Val Asp Ile Val Asn Ile Val Glu Lys His 290 295 300 Gly Asp Trp Ile Thr Phe Asn Ile Lys Asn Gly Glu Leu Phe Val His 305 310 315 320 Leu Thr Lys Cys Val Glu Phe Ser Lys Gly Gln Lys Glu Ile Lys Lys 325 330 335 Ala Ala Gly Val Asp Val Asn Ile Lys His Ala Met Leu Ala Ala Ser 340 345 350 Ile Val Asp Asp Gly Gln Leu Lys Gly Tyr Val Asn Leu Tyr Arg Glu 355 360 365 Leu Ile Glu Asp Asp Asp Phe Val Ser Thr Phe Gly Asp Ser Asp Ser 370 375 380 Gly Lys Thr Glu Leu Gly Met Tyr Gln Lys Met Ala Lys Thr Val Phe 385 390 395 400 Phe Gly Val Leu Glu Val Glu Ser Leu Phe Glu Arg Val Val Asn Gln 405 410 415 Gln Ser Gly Trp Lys Leu Asp Asn Gln Leu Ile Arg Arg Glu Arg Ala 420 425 430 Met Glu Lys Val Phe Asp Arg Ile Val Lys Thr Thr Ser Asn Lys His 435 440 445 Ile Ile Asp Tyr Val Asn Tyr Val Lys Met Leu Arg Ala Lys Tyr Lys 450 455 460 Ala Tyr Phe Ile Leu Asp Glu Lys Tyr His Glu Lys Gln Arg Glu Tyr 465 470 475 480 Asp Leu Ser Met Gly Phe Thr Asp Glu Ser Asp Glu Arg Arg Glu Leu 485 490 495 Tyr Pro Phe Ile Asn Thr Glu Thr Ala Lys Glu Ile Leu Gly Lys Lys 500 505 510 Arg Asn Val Glu Gln Asp Leu Ile Gly Cys Arg Asp Asn Ile Val Thr 515 520 525 Tyr Ala Phe Asn Val Leu Arg Asn Asn Gly Tyr Asp Thr Ile Ser Val 530 535 540 Glu Tyr Leu Asp Ser Ser Gln Phe Asp Lys Arg Arg Met Pro Thr Pro 545 550 555 560 Lys Ser Leu Leu Glu Tyr His Lys Phe Lys Gly Lys Thr Gln Asp Glu 565 570 575 Val Glu Arg Leu Met Ser Glu Lys Lys Phe Ala Lys Thr Asn Tyr Asp 580 585 590 Ile His Tyr Asp Gly Glu Asn Lys Val Asp Gly Ile Val Tyr Ser Lys 595 600 605 Glu Gly Glu Leu Arg Gln Lys Lys Leu Asn Phe Met Asn Leu Val Ile 610 615 620 Lys Ala Ile His Phe Ala Asp Ile Lys Asp Lys Phe Ala Gln Leu Cys 625 630 635 640 Asn Asn Asn Asp Val Asn Val Val Phe Gly Pro Ser Ala Phe Thr Ser 645 650 655 Gln Met Asp Ser Glu Thr His Ser Leu Tyr Tyr Val Glu Lys Glu Thr 660 665 670 Asn Gly Lys Asn Gly Lys Thr Gly Lys Lys Phe Val Leu Ala Asp Lys 675 680 685 Lys Ser Val Arg Arg Arg Gln Glu Thr His Ile Asn Gly Leu Asn Ala 690 695 700 Asp Phe Asn Ala Ala Arg Asn Leu Glu Tyr Ile Ala Ser Asn Pro Glu 705 710 715 720 Leu Leu Glu Arg Met Thr Lys Arg Thr Lys Ser Gly Lys Asp Met Tyr 725 730 735 Asn Thr Pro Ser Trp Asn Ile Arg Gln Glu Phe Lys Lys Asn Leu Ser 740 745 750 Val Arg Thr Ile Asn Thr Phe Arg Glu Leu Gly Asn Val Lys Tyr Gly 755 760 765 Lys Ile Asn Asn Glu Gly Leu Phe Val Glu Asp Asp Val 770 775 780 <210> 33 <211> 798 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 33 Met Ala His Arg Lys Lys Lys Asp Asp Glu Ala Thr Leu Ser Tyr Lys 1 5 10 15 Phe Lys Val Lys Val Ile Glu Gly Asp Leu Thr Ala Asp Asp Ile Thr 20 25 30 Lys Cys Ile Ala Glu Asn Ala Glu Gln Gly Asn His Phe Ser Glu Phe 35 40 45 Ile His Lys Asn Leu Thr Ser Lys Thr Ile Gly Glu Phe Ala Ser Gln 50 55 60 Leu Pro Ala Glu Lys Arg Gln Phe Gly Tyr Tyr Gln Tyr Ala Ile Gly 65 70 75 80 Gly Thr Met Pro Ala Lys Lys Asn Ala Ser Asp Glu Asp Lys Pro Lys 85 90 95 Gly Glu Leu Ile Asp Trp Ser Lys Lys Pro Phe Tyr Val Leu Phe Ser 100 105 110 Lys Gly Tyr Ser Ala Thr His Ala Val Asn Leu Ile Phe Asn Val Tyr 115 120 125 Leu Asn Ser Glu Glu Gly Lys Ala Phe Ser Ala Lys Asn Ser Met Asn 130 135 140 Leu Ser Lys Ser Gln Phe Ala Tyr Ser Gly Phe Val Gln Ile Val Cys 145 150 155 160 Ala Asn Tyr Ala Ser Met Leu Ala Asn Ala Arg Pro Asp Lys Ile Lys 165 170 175 Phe Glu Glu Ile Thr Glu Ala Thr Asp Asp Gly Thr Lys Lys Met Gln 180 185 190 Val Val Arg Glu Met Ala Glu Arg Tyr Leu Met Lys Pro Lys Asn Phe 195 200 205 Ala Ser Arg Ile Glu Tyr Leu Glu Ala Asn Asn Thr Lys Gly Lys Phe 210 215 220 Asp Lys Thr Ile Gln Arg Leu Arg Leu Leu Gln Pro Phe Phe Glu Lys 225 230 235 240 Asn Glu Glu Ser Ile Thr Glu Leu Tyr Tyr Asp Leu Ser Val Lys Ala 245 250 255 Leu Glu His Ser Gly Gln Cys Thr Tyr Lys Gly Gly Arg Thr Ile Ser 260 265 270 Ile Leu Glu Ile Gly Asp Ile Arg Ile Ser Arg Lys Glu Asn Ala Lys 275 280 285 Gly Tyr Leu Leu Thr Ile Pro Ile Asn Arg Lys Ser Val Val Phe Asp 290 295 300 Leu Tyr Gly Arg Lys Asp Thr Ile Gly Gly Asp Gly Arg Asp Leu Ile 305 310 315 320 Asp Ile Met Asn Thr His Gly Ser Ser Leu Gln Phe Thr Ala Asp Glu 325 330 335 Asn Asp Ile Tyr Leu Thr Ile Thr Ala Thr Lys Asn Phe Ile Lys Glu 340 345 350 Lys Pro Thr Phe Asn Glu Asp Thr Val Leu Gly Gly Asp Val Asn Ile 355 360 365 Lys His Ser Tyr Thr Val Phe Ser Ala Ser Pro Lys Asp Ile Pro Asp 370 375 380 Phe Val Asn Phe Tyr Glu Tyr Phe Ala Lys Asp Gly Glu Ile Met Lys 385 390 395 400 Leu Ala Pro Lys Pro Met Trp Asp Tyr Ile Val Ala Ala Ala Thr Lys 405 410 415 Phe Leu Thr Ile Leu Pro Ile Glu Thr Pro Ala Ile Ser Ala Thr Val 420 425 430 Tyr Gly Lys Arg Thr Glu Glu Gly Ile Ser Arg Ala Thr Phe Arg Glu 435 440 445 Thr Gln Lys Leu Ile Ala Leu Glu Lys Ala Ile Glu Arg Val Met Lys 450 455 460 Gln Val Phe Asp Lys Tyr Asn Asp Gly Lys His Pro Leu Glu Ala Ile 465 470 475 480 Tyr Ile Gly Asn Ala Ile Lys Tyr Arg Arg Leu Ile Lys Gly Tyr Leu 485 490 495 Ala Gln Lys Lys Lys Tyr Tyr Ser Ala His Ser Glu Tyr Asp Lys Ala 500 505 510 Met Gly Tyr Thr Asp Asp Asp Thr Asp Arg Lys Glu Asn Met Asp Glu 515 520 525 Arg Arg Phe Asp Asp Ser Lys Lys Phe Arg Tyr Thr Pro Glu Ala Gln 530 535 540 Ala Leu Leu Asp Thr Met His Thr Ile Glu Lys Lys Ile Val Gly Cys 545 550 555 560 Val Ser Asn Ala Ile Ser Tyr Ala Tyr His Lys Phe Asp Glu Asn Gly 565 570 575 Phe Asn Val Ile Ala Leu Glu Asn Leu Thr Ser Ala Thr Phe Ala Lys 580 585 590 Lys Tyr Lys Ser Asp Lys Pro Glu Ser Ile Lys Lys Leu Leu Asn Phe 595 600 605 Asp Lys Leu Leu Gly Lys Thr Leu Asp Glu Ala Lys Ala Ser Lys Ser 610 615 620 Ile Ser Lys His Pro Asn Trp Tyr Glu Leu Val Ala Asp Glu Asn Gly 625 630 635 640 Cys Val Ser Asp Ile Arg Ile Thr Asp Glu Gly Gln Ser Ala Thr Tyr 645 650 655 Arg Ser Leu Val Thr Glu Thr Ile Met Lys Val Ser His Phe Ala Glu 660 665 670 Thr Lys Asp Arg Phe Ile Gly Leu Ala Asn Ser Gly Arg Leu Gln Val 675 680 685 Gly Leu Val Pro Ser Gln Tyr Thr Ser Tyr Ile Asp Ser Thr Thr His 690 695 700 Thr Leu Tyr Ala Val Ile Glu Asp Gly Lys Thr Val Leu Ala Pro Lys 705 710 715 720 Glu Val Val Arg Ala Ser Gln Glu Arg His Ile Asn Gly Leu Asn Ala 725 730 735 Asp Tyr Asn Ser Ala Leu Asn Leu Lys Tyr Met Ile Thr Asp Glu Asn 740 745 750 Phe Arg Lys Thr Phe Thr Ser Glu Thr Ser Ala Asp Lys Phe Gly Trp 755 760 765 Gly Lys Pro Met Phe Ser Pro Thr Thr Arg Ser Gln Asp Glu Val Phe 770 775 780 Ser Ala Ile Lys Lys Ile Gly Ala Ile Thr Val Leu Glu Asp 785 790 795 <210> 34 <211> 724 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 34 Met Val Thr Thr Leu Ala Pro Leu Ile Glu Glu Lys Lys Arg Asp Ser 1 5 10 15 Glu Tyr Tyr Lys Tyr Leu Thr Asn Gly Asp Trp Asp Gly Lys Pro Leu 20 25 30 Tyr Phe Ile Phe Lys Glu Gly Phe Asn Ser Thr Asn Ala Asp Asn Ile 35 40 45 Leu Ala Asn Ser Leu Val Arg Val Tyr Cys Glu Gln Asn Tyr Thr Gly 50 55 60 Asn Gly Phe Gly Leu Ser Tyr Ser Tyr Tyr Val Val Ile Gly Phe Ala 65 70 75 80 Lys Glu Val Ile Ala Asn Tyr Arg Ser Ser Phe Gln Lys Pro Lys Val 85 90 95 Lys Ile Lys Lys Lys Lys Leu Ser Glu Asn Pro Thr Glu Asp Glu Leu 100 105 110 Ile Glu Gln Cys Ile Tyr Thr Ile Tyr Tyr Glu Phe Asn Glu Lys Lys 115 120 125 Asp Ile Lys Lys Trp Lys Asp Glu Ile Lys Phe Leu Lys Glu Arg Gly 130 135 140 Glu Ser Lys Glu Thr Arg Leu Lys Arg Ile Gln Thr Leu Phe Glu Phe 145 150 155 160 Tyr Lys Asp Lys Asn His Lys Glu Leu Val Asp Glu Arg Val Ala Asn 165 170 175 Leu Val Val Asp Asn Ile Lys Glu Phe Gly Gly Cys Lys Arg Asp Ile 180 185 190 Gly Cys Pro Ser Met Gly Ile Gln Ile Gln His Asn Phe Asp Ile Ser 195 200 205 Ile Asn Glu Lys Arg Asn Gly Tyr Thr Ile Cys Phe Gly Pro Asn Lys 210 215 220 Lys Asn Leu Thr Lys Leu Glu Val Phe Gly Asn Arg Met Val Leu Leu 225 230 235 240 Asn Gly Glu Glu Ile Val Asp Leu Pro Asn Thr His Gly Glu Lys Leu 245 250 255 Thr Leu Ile Asp Arg Gly Asn Ala Ile Tyr Ala Ala Leu Thr Ala Gln 260 265 270 Val Pro Phe Glu Lys His Met Pro Asp Gly Asn Lys Thr Val Gly Ile 275 280 285 Asp Leu Asn Leu Lys His Ser Val Phe Ala Thr Ser Ile Val Asp Asn 290 295 300 Gly Lys Leu Ala Gly Tyr Ile Ser Ile Tyr Lys Glu Leu Leu Lys Asp 305 310 315 320 Asp Glu Phe Val Lys Tyr Cys Pro Lys Asp Leu Leu Arg Phe Met Lys 325 330 335 Asp Ala Ser Lys Tyr Val Phe Phe Ala Pro Ile Glu Ile Glu Leu Leu 340 345 350 Arg Ser Arg Val Ile Tyr Asn Lys Gly Tyr Ala Cys Val Glu Asn Tyr 355 360 365 Glu Asn Val Tyr Lys Ala Glu Val Ala Phe Val Asn Val Ile Lys Arg 370 375 380 Leu Gln Ser Gln Cys Glu Ala Asn Gly Asp Ala Gln Gly Ala Leu Tyr 385 390 395 400 Met Ser Tyr Leu Ser Lys Met Arg Ala Gln Leu Lys Asn Tyr Ile Asn 405 410 415 Leu Lys Leu Ala Tyr Tyr Asp His Gln Ser Ala Tyr Asp Leu Lys Met 420 425 430 Gly Phe Asn Asp Ile Ser Ala Glu Ser Lys Glu Thr Ile Asp Glu Arg 435 440 445 Arg Lys Leu Phe Pro Phe Ser Lys Glu Lys Glu Ala Gln Glu Ile Leu 450 455 460 Ala Lys Met Lys Asn Ile Ser Asn Val Ile Ile Ala Cys Arg Asn Asn 465 470 475 480 Ile Ala Val Tyr Met Tyr Lys Met Phe Glu Arg Asn Gly Tyr Asp Phe 485 490 495 Ile Gly Leu Glu Lys Leu Glu Ser Ser Gln Met Lys Lys Arg Gln Ser 500 505 510 Arg Ser Phe Pro Thr Val Lys Ser Leu Leu Asn Tyr His Lys Leu Ala 515 520 525 Gly Met Thr Met Asp Glu Ile Lys Lys Gln Glu Val Ser Ser Asn Ile 530 535 540 Lys Lys Gly Phe Tyr Asp Leu Glu Phe Asp Ala Asp Gly Lys Leu Tyr 545 550 555 560 Gly Ala Lys Tyr Ser Asn Lys Gly Asn Val His Phe Ile Glu Asp Glu 565 570 575 Phe Tyr Ile Ser Gly Leu Lys Ala Ile His Phe Ala Asp Met Lys Asp 580 585 590 Tyr Phe Val Arg Leu Ser Asn Asn Gly Lys Val Ser Val Ala Leu Val 595 600 605 Pro Pro Ser Phe Thr Ser Gln Met Asp Ser Val Glu His Lys Phe Phe 610 615 620 Met Lys Lys Asn Ala Asn Gly Lys Leu Ile Val Ala Asp Lys Lys Asp 625 630 635 640 Val Arg Ser Cys Gln Glu Lys His Lys Ile Asn Gly Leu Asn Ala Asp 645 650 655 Tyr Asn Ala Ala Cys Asn Ile Gly Phe Ile Val Glu Asp Asp Tyr Met 660 665 670 Arg Glu Ser Leu Leu Gly Ser Pro Thr Gly Gly Thr Tyr Asp Thr Ala 675 680 685 Tyr Phe Asp Thr Lys Ile Gln Gly Ser Lys Gly Val Tyr Asp Lys Ile 690 695 700 Lys Glu Asn Gly Glu Thr Tyr Ile Ala Val Leu Ser Asp Asp Val Ile 705 710 715 720 Thr Ala Glu Glu <210> 35 <211> 772 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 35 Met Gly Asn Lys Val Gln Ser Asn Glu Thr Ile Val Lys Thr Tyr Thr 1 5 10 15 Phe Lys Val Arg Glu Phe Ile Ser Gly Ala Thr His Glu Ile Met Lys 20 25 30 Ser Ala Ile Lys Gln Tyr Ile Glu Asp Ser Asn Asn Leu Ser Asp Trp 35 40 45 Ile Asn Asn Gln Leu Thr Asn Lys Thr Ile Cys Glu Val Gly Ala Leu 50 55 60 Ile Pro Ile Glu Lys Arg Glu Thr Ser Tyr Tyr Lys Ser Thr Val Asp 65 70 75 80 Glu Leu Trp Ala Asn Lys Pro Cys Phe Lys Met Phe Thr Asn Asp Phe 85 90 95 Thr Lys Glu Glu Asn Phe Ala Thr Arg Asn Ile Gly Asn Gly Lys Asn 100 105 110 Cys Lys Asn Ile Ile Thr Ser Ala Tyr Lys Ser Thr Val Asn Pro Ser 115 120 125 Phe Arg Asn Val Leu Asp Leu Thr Glu Lys Val Tyr Phe Ser Asp Gly 130 135 140 Tyr Gly Ala Asn Val Cys Ser Asn Tyr Lys Thr Lys Leu Arg Thr Leu 145 150 155 160 Lys Pro Ala Lys Ile Lys Leu Val Ser Ser Leu Ser Asp Cys Asp Asp 165 170 175 Asn Thr Leu Thr Glu Gln Val Ile Arg Glu Lys Gln Lys Tyr Gly Tyr 180 185 190 Ser Thr Pro Lys Asp Phe Glu Lys Arg Ile Glu Tyr Leu Asn Glu Lys 195 200 205 Glu Lys Ser Glu Gln Asn Ser Lys Ile Ile Glu Arg Leu Gln Lys Leu 210 215 220 Tyr Glu Phe Tyr Asp Asn Asn Thr Lys Leu Val Glu Glu Lys Glu Leu 225 230 235 240 Glu Leu Ser Val Lys Ser Leu Val Glu Phe Gly Gly Cys Arg Arg Gly 245 250 255 Glu Lys Thr Met Thr Leu Asn Leu Pro Asp Ile Gly Tyr Glu Ile Gln 260 265 270 Arg Lys Asp Asp Lys Tyr Gly Tyr Ile Phe Thr Leu Lys Cys Ser Lys 275 280 285 Lys Arg Lys Ile Ile Ile Asp Val Trp Gly Ser Lys Ala Thr Ile Asp 290 295 300 Ser Asn Gly Asn Asp Lys Val Asp Ile Ile Asn Thr His Gly Lys Ser 305 310 315 320 Ile Asn Phe Lys Ile Ile Asn Asn Glu Met Tyr Ile Asp Ile Thr Val 325 330 335 Asp Val Pro Phe Ala Lys Arg Lys Leu Gly Ile Lys Lys Val Val Gly 340 345 350 Ile Asp Val Asn Thr Lys His Met Leu Met Ala Thr Asn Ile Lys Val 355 360 365 Thr Asp Ser Ile Lys Gly Tyr Val Asn Leu Tyr Lys Glu Phe Leu Asn 370 375 380 Ser Lys Glu Ile Met Asp Val Ala Ser Pro Glu Thr Lys Lys Asn Phe 385 390 395 400 Glu Asp Met Ser Met Phe Val Asn Phe Cys Pro Ile Glu Tyr Asn Thr 405 410 415 Met Phe Ala Leu Ile Phe Lys Leu Asn Asn Gly Asp Ile Arg Thr Glu 420 425 430 Gln Ala Ile Arg Arg Thr Leu His Gln Leu Ser Lys Lys Phe Ser Asp 435 440 445 Gly Asn His Glu Thr Glu Arg Ile Tyr Val Gln Asn Val Phe Ser Ile 450 455 460 Arg Glu Gln Leu Lys His Phe Ile Leu Leu Ser Asn Arg Tyr Tyr Ser 465 470 475 480 Glu Gln Ser Asp Tyr Asp Thr Lys Met Gly Phe Ile Asp Glu Asn Thr 485 490 495 Thr Ser Asn Ala Thr Met Asp Lys Arg Arg Phe Asp Lys Ser Leu Met 500 505 510 Phe Arg Tyr Thr Gln Arg Gly Arg Gln Leu Tyr Glu Glu Arg Ile Glu 515 520 525 Cys Gly Arg Lys Ile Thr Glu Ile Arg Asp Asn Ile Ile Thr Tyr Ala 530 535 540 Arg Asn Val Phe Val Leu Asn Gly Tyr Asp Thr Ile Ala Leu Glu Tyr 545 550 555 560 Leu Thr Asn Ala Thr Ile Gln Lys Pro Thr Arg Pro Thr Ser Pro Lys 565 570 575 Ser Leu Leu Asp Tyr Phe Lys Leu Lys Gly Lys Pro Val Val Glu Ala 580 585 590 Glu Lys Asn Glu Arg Ile Thr Lys Asn Arg Lys Tyr Tyr Asn Leu Ile 595 600 605 Pro Asp Glu Asn Asp Asn Val Ile Asn Ile Glu Tyr Thr Glu Glu Gly 610 615 620 Lys Val Ala Ile Lys Lys Ser Ile Ala Arg Asp His Ile Met Lys Ala 625 630 635 640 Val His Phe Ala Glu Val Lys Asp Lys Phe Ile Gln Leu Ser Asn Asn 645 650 655 Gly Lys Thr Gln Val Ala Leu Val Pro Ser Asn Tyr Thr Ser Gln Met 660 665 670 Asn Ser Glu Thr His Thr Val Tyr Leu Met Lys Asn Pro Lys Thr Lys 675 680 685 Lys Leu Val Ile Met Asp Lys Asp Lys Val Arg Pro Ile Gln Glu Lys 690 695 700 Tyr Lys Leu Asn Gly Leu Asn Ala Asp Phe Asn Ser Ala Arg Asn Ile 705 710 715 720 Ala Tyr Ile Val Glu Asn Glu Ile Leu Arg Asn Ser Phe Leu Lys Glu 725 730 735 Glu Thr Lys Lys Tyr Thr Tyr Asn Thr Pro Leu Phe Thr Pro Arg Leu 740 745 750 Lys Ser Ser Glu Lys Ile Ile Thr Glu Leu Lys Lys Leu Gly Met Thr 755 760 765 Thr Val Ile Glu 770 <210> 36 <211> 781 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 36 Met Ala Asn Lys Ser Thr Lys Gly Asn Leu Pro Lys Thr Ile Ile Met 1 5 10 15 Lys Ala Asn Leu Ser Pro Asp Gly Phe Thr Gln Trp Glu Arg Val Val 20 25 30 Lys Glu Tyr Gln Ala Tyr Lys Asp Thr Leu Ser Lys Trp Val Ala Gln 35 40 45 Asn Leu Thr Ala Met Lys Ile Gly Asp Leu Leu Pro Tyr Leu Asp Lys 50 55 60 Tyr Ser Lys Lys Thr Asn Lys Glu Thr Gly Glu Arg Pro Val Asn Val 65 70 75 80 Tyr Tyr Gln Leu Cys Glu Gln His Lys Asp Glu Pro Leu Tyr Lys Leu 85 90 95 Phe Thr Tyr Asp Ser Asn Ser Arg Asn Asn Ala Met Tyr Glu Ile Ile 100 105 110 Arg Lys Thr Asn Cys Asp Gly Tyr Lys Gly Asn Ile Leu Gly Ile Ser 115 120 125 Glu Thr His Tyr Arg Arg Asn Gly Phe Val Lys Asn Ile Leu Ala Asn 130 135 140 Tyr Thr Thr Lys Ile Ser Thr Leu Glu Leu Ser Glu Arg Lys Arg Lys 145 150 155 160 Ile Asp Ser Asp Ser Pro Glu Asp Leu Ile Arg Ser Gln Val Val Tyr 165 170 175 Glu Met Gln Lys Asn Asn Ile Lys Asp Ala Lys Gly Phe Lys Ser Ile 180 185 190 Ile Glu Tyr Leu Lys Ser Lys Lys Glu Val Asn Ile Gln Tyr Leu Glu 195 200 205 Arg Leu Gln Ile Leu Tyr Glu Tyr Phe Lys Asn His Glu Asn Glu Ile 210 215 220 Lys Glu Tyr Ile Thr Leu Ala Ala Val Glu Gln Leu Lys Ser Phe Gly 225 230 235 240 Gly Val Arg Val Asn Asn Glu Lys Ser Ser Met Asn Leu Glu Ile Gln 245 250 255 Gly Phe Ser Ile Thr Arg Val Asp Gly Ala Cys Thr Tyr Ile Leu His 260 265 270 Leu Pro Ile Asn Gly Lys Ile His Gly Ile Lys Leu Trp Gly Asn Arg 275 280 285 Gln Val Val Val Asn Lys Asp Gly Thr Pro Val Asp Ile Leu Asp Leu 290 295 300 Thr Asn Gln His Gly Ser Thr Ile Asn Ile Thr Ile Lys Asn Gly Glu 305 310 315 320 Ile Tyr Phe Ala Phe Thr Val Thr Ser Asp Phe Val Lys Pro Glu His 325 330 335 Gln Ile Lys Asn Val Val Gly Val Asp Val Asn Thr Lys His Met Leu 340 345 350 Met Gln Ser Asn Ile Thr Asp Asn Gly Asn Val Lys Gly Tyr Phe Asn 355 360 365 Ile Tyr Lys Val Leu Val Glu Asp Arg Arg Phe Thr Ser Leu Leu Ser 370 375 380 Glu Glu Gln Leu Lys Tyr Phe Cys Glu Leu Ala Asn Ile Val Ser Phe 385 390 395 400 Cys Pro Ile Glu Thr Glu Phe Leu Phe Ala Arg Tyr Ala Glu Tyr Lys 405 410 415 Lys Met Ser Asn Asn Ala Glu Met Arg Gln Ile Glu Lys Val Phe Ser 420 425 430 Asp Ile Leu Asp Glu Gln Tyr Lys Lys Tyr Lys Asp Ile Asp Thr Ser 435 440 445 Ile Ala Asn Tyr Ile Ser Tyr Val Arg Lys Leu Arg Ser Gln Cys Cys 450 455 460 Ala Tyr Phe Lys Leu Lys Met Lys Tyr Lys Glu Leu Gln Arg Gln Phe 465 470 475 480 Asp Lys Glu Gln Asp Tyr Lys Asp Leu Ser Thr Glu Ser Lys Glu Thr 485 490 495 Met Asp Lys Arg Arg Trp Glu Asn Pro Phe Arg Asn Thr Pro Glu Ala 500 505 510 Ser Lys Leu Ile Lys Lys Met Asp Asn Val Ser Arg Gln Leu Ile Gly 515 520 525 Cys Arg Asp Asn Ile Ile Thr Tyr Ala Tyr Arg Val Phe Glu Lys Asn 530 535 540 Gly Tyr Asp Thr Ile Ser Leu Glu Asn Leu Glu Ser Ser Gln Phe Glu 545 550 555 560 Asn Asn Asp His Val Ile Ala Pro Lys Ser Leu Leu Glu Tyr His His 565 570 575 Leu Lys Gly Lys Thr Met Asn Tyr Leu Leu Ser Asp Glu Cys Lys Val 580 585 590 Arg Ile Thr Thr Lys Asp Gly Lys Val Lys Glu Trp Tyr His Val Glu 595 600 605 Leu Asn Asp Lys Asp Glu Ile Asp Asn Ile Phe Leu Thr Pro Glu Gly 610 615 620 Glu Thr Glu Lys Glu Lys Asn Leu Phe Asn Asn Met Val Ile Lys Ile 625 630 635 640 Val His Phe Ala Asp Ile Lys Asp Lys Phe Ile Gln Leu Gly Asn Tyr 645 650 655 Asn Lys Leu Gln Thr Val Leu Val Pro Ser Tyr Phe Thr Ser Gln Met 660 665 670 Asp Ser Lys Thr His Ser Val Tyr Val Val Glu Thr Ala Asn Thr Lys 675 680 685 Thr Ser Lys Lys Glu Leu Lys Leu Val Ser Lys Lys Arg Val Arg Arg 690 695 700 Gln Gln Glu Trp His Ile Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala 705 710 715 720 Cys Asn Ile Ala His Ile Ala Lys Asn Ile Glu Leu Arg Gln Ile Met 725 730 735 Cys Lys Thr Pro Gln Thr Lys Asn Gly Tyr Ser Ser Pro Val Leu Thr 740 745 750 Ser Lys Val Lys Ser Gln Val Glu Met Val Arg Glu Leu Lys Lys Met 755 760 765 Gly Lys Thr Ile Leu Tyr Ser Asn Asp Ser Leu Pro Phe 770 775 780 <210> 37 <211> 798 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 37 Met Ala His Arg Lys Lys Lys Asp Asp Glu Ala Thr Leu Ser Tyr Lys 1 5 10 15 Phe Lys Val Lys Val Ile Glu Gly Asp Leu Thr Ala Asp Asp Ile Thr 20 25 30 Lys Cys Ile Ala Glu Asn Ala Glu Gln Gly Asn His Phe Ser Glu Phe 35 40 45 Ile His Lys Asn Leu Thr Ser Lys Thr Ile Gly Glu Phe Ala Ser Gln 50 55 60 Leu Pro Val Glu Lys Arg Gln Phe Gly Tyr Tyr Gln Tyr Ala Ile Gly 65 70 75 80 Gly Thr Met Pro Ala Lys Lys Asn Ala Ser Asp Glu Asp Lys Pro Lys 85 90 95 Gly Glu Leu Ile Asp Trp Ser Lys Lys Pro Phe Tyr Val Leu Phe Ser 100 105 110 Lys Gly Tyr Ser Ala Thr His Ala Val Asn Leu Ile Phe Asn Val Tyr 115 120 125 Leu Asn Ser Glu Glu Gly Lys Ala Phe Ser Ala Lys Asn Ser Met Asn 130 135 140 Leu Ser Lys Ser Gln Phe Ala Tyr Ser Gly Phe Val Gln Ile Val Cys 145 150 155 160 Ala Asn Tyr Ala Ser Met Leu Ala Asn Ala Arg Pro Asp Lys Ile Lys 165 170 175 Phe Glu Glu Ile Thr Glu Ala Thr Asp Asp Gly Thr Lys Lys Met Gln 180 185 190 Val Val Arg Glu Met Ala Glu Arg Tyr Leu Met Lys Pro Lys Asn Phe 195 200 205 Ala Ser Arg Ile Glu Tyr Leu Glu Ala Asn Asn Thr Lys Gly Lys Phe 210 215 220 Asp Lys Thr Ile Gln Arg Leu Arg Leu Leu Gln Pro Phe Phe Glu Lys 225 230 235 240 Asn Glu Glu Gly Ile Thr Glu Leu Tyr Tyr Asp Leu Ser Val Lys Ala 245 250 255 Leu Glu His Ser Gly Gln Cys Thr Tyr Lys Gly Gly Arg Thr Ile Ser 260 265 270 Ile Leu Glu Ile Gly Asp Ile Arg Ile Ser Arg Lys Glu Asn Ala Lys 275 280 285 Gly Tyr Leu Leu Thr Ile Pro Ile Asn Arg Lys Ser Val Val Phe Asp 290 295 300 Leu Tyr Gly Arg Lys Asp Thr Ile Gly Gly Asp Gly Arg Asp Leu Ile 305 310 315 320 Asp Ile Met Asn Thr His Gly Ser Ser Leu Gln Phe Thr Ala Asp Gly 325 330 335 Asn Asp Ile Tyr Leu Thr Ile Thr Ala Thr Lys Asn Phe Ile Lys Glu 340 345 350 Lys Pro Thr Phe Asn Glu Asp Thr Val Leu Gly Gly Asp Val Asn Ile 355 360 365 Lys His Ser Tyr Thr Val Phe Ser Thr Ser Pro Lys Asp Ile Pro Asp 370 375 380 Phe Val Asn Phe Tyr Glu Tyr Phe Ala Lys Asp Gly Glu Ile Met Lys 385 390 395 400 Leu Ala Pro Lys Pro Met Trp Asp Tyr Ile Val Ala Ala Ala Thr Lys 405 410 415 Phe Leu Thr Ile Leu Pro Ile Glu Thr Pro Ala Ile Ser Ala Thr Val 420 425 430 Tyr Gly Lys Arg Thr Glu Glu Gly Ile Ser Arg Ala Thr Phe Arg Glu 435 440 445 Thr Gln Lys Leu Ile Ala Leu Glu Lys Ala Ile Glu Arg Val Met Lys 450 455 460 Gln Val Phe Asp Lys Tyr Asn Asp Gly Lys His Pro Leu Glu Ala Ile 465 470 475 480 Tyr Ile Gly Asn Ala Ile Lys Tyr Arg Arg Leu Ile Lys Gly Tyr Leu 485 490 495 Ala Gln Lys Lys Lys Tyr Tyr Ser Ala His Ser Glu Tyr Asp Lys Ala 500 505 510 Met Gly Tyr Thr Asp Asp Asp Thr Asp Arg Lys Glu Asn Met Asp Glu 515 520 525 Arg Arg Phe Asp Asp Ser Lys Lys Phe Arg Tyr Thr Pro Glu Ala Gln 530 535 540 Ala Leu Leu Asp Thr Met His Thr Ile Glu Lys Lys Ile Val Gly Cys 545 550 555 560 Val Ser Asn Ala Ile Ser Tyr Ala Tyr His Lys Phe Asp Glu Asn Gly 565 570 575 Phe Asn Val Ile Ala Leu Glu Asn Leu Thr Ser Ala Thr Phe Ala Lys 580 585 590 Lys Tyr Lys Ser Asp Lys Pro Glu Ser Ile Lys Lys Leu Leu Asn Phe 595 600 605 Asp Lys Leu Leu Gly Lys Thr Leu Asp Glu Ala Lys Ala Ser Lys Ser 610 615 620 Ile Ser Lys His Pro Asn Trp Tyr Glu Leu Val Ala Asp Glu Asn Gly 625 630 635 640 Cys Val Ser Asp Ile Arg Ile Thr Asp Glu Gly Gln Ser Ala Thr Tyr 645 650 655 Arg Ser Leu Val Thr Glu Thr Ile Met Lys Val Ser His Phe Ala Glu 660 665 670 Thr Lys Asp Arg Phe Ile Gly Leu Ala Asn Ser Gly Arg Leu Gln Val 675 680 685 Gly Leu Val Pro Ser Gln Tyr Thr Ser Tyr Ile Asp Ser Thr Thr His 690 695 700 Thr Leu Tyr Ala Val Ile Glu Asp Gly Lys Thr Val Leu Ala Pro Lys 705 710 715 720 Glu Val Val Arg Ala Ser Gln Glu Arg His Ile Asn Gly Leu Asn Ala 725 730 735 Asp Tyr Asn Ser Ala Leu Asn Leu Lys Tyr Met Ile Thr Asp Glu Asn 740 745 750 Phe Arg Lys Thr Phe Thr Ser Glu Thr Ser Ala Asp Lys Phe Gly Trp 755 760 765 Gly Lys Pro Met Phe Ser Pro Thr Thr Arg Ser Gln Asp Glu Val Phe 770 775 780 Ser Ala Ile Lys Lys Ile Gly Ala Ile Thr Val Leu Glu Asp 785 790 795 <210> 38 <211> 781 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 38 Met Ala His Lys Asn Ser Asp Gly Glu Asn Thr Ile Asn Lys Thr Phe 1 5 10 15 Ile Phe Lys Val Lys Cys Glu Lys Asn Asp Ile Ile Ser Phe Trp Lys 20 25 30 Pro Ala Ala Glu Glu Tyr Cys Asn Tyr Tyr Asn Lys Leu Ser Glu Trp 35 40 45 Ile Gly Lys Asn Leu Ile Ser Met Lys Ile Gly Asp Leu Ala Lys Tyr 50 55 60 Ile Asp Asn Pro Lys Ser Lys Tyr Tyr Leu Ser Val Thr Asp Glu Asn 65 70 75 80 Lys Lys Asp Leu Pro Leu Tyr Lys Ile Phe Gln Lys Gly Phe Ser Ser 85 90 95 Ile Asp Ala Asp Asn Ala Leu Tyr Cys Ala Ile Asp Lys Leu Asn Pro 100 105 110 Glu Gly Tyr Asn Gly Asn Ile Leu Gly Val Gly Lys Ser Asp Tyr Arg 115 120 125 Arg Asn Gly Tyr Val Ser Ser Val Ile Gly Asn Phe Arg Thr Lys Met 130 135 140 Val Ser Leu Lys Ala Asn Val Arg Trp Lys Lys Ile Asp Ile Gly Asn 145 150 155 160 Val Asp Glu Glu Thr Leu Arg Arg Gln Thr Ile Cys Asp Val Glu Lys 165 170 175 Tyr Arg Ile Glu Ser Glu Lys Asp Phe Arg Asp Leu Ile Asp Ile Leu 180 185 190 Lys Ala Arg Glu Glu Thr Pro Arg Leu Lys Glu Lys Ile Ser Arg Leu 195 200 205 Glu Leu Leu Tyr Asp Tyr Tyr Ser Lys Asn Thr Lys Thr Ile Lys Ser 210 215 220 Glu Met Glu Asn Met Ala Ile Ser Asp Leu Gln Lys Phe Gly Gly Cys 225 230 235 240 Val Arg Lys Ser Leu Asn Thr Ile Thr Ile His Lys Gln Asp Ser Lys 245 250 255 Ile Glu Lys Glu Gly Asn Thr Ser Phe Arg Leu His Met Val Phe Asn 260 265 270 Lys Lys Pro Tyr Thr Ile Thr Leu Leu Gly Asn Arg Gln Val Val Lys 275 280 285 Tyr Ile Asp Gly Lys Arg Val Asp Ile Val Asn Ile Val Glu Lys His 290 295 300 Gly Asp Trp Ile Thr Phe Asn Ile Lys Asn Gly Glu Leu Phe Val His 305 310 315 320 Leu Thr Lys Cys Val Glu Phe Ser Lys Gly Gln Lys Glu Ile Lys Lys 325 330 335 Ala Ala Gly Val Asp Val Asn Ile Lys His Ala Met Leu Ala Ala Ser 340 345 350 Ile Val Asp Asp Gly Gln Leu Lys Gly Tyr Val Asn Leu Tyr Arg Glu 355 360 365 Leu Ile Glu Asp Asp Asp Phe Val Ser Thr Phe Gly Asp Ser Asp Ser 370 375 380 Gly Lys Thr Glu Leu Gly Met Tyr Gln Lys Met Ala Lys Thr Val Phe 385 390 395 400 Phe Gly Val Leu Glu Val Glu Ser Leu Phe Glu Arg Val Val Asn Gln 405 410 415 Gln Ser Gly Trp Lys Leu Asp Asn Gln Leu Ile Arg Arg Glu Arg Ala 420 425 430 Met Glu Lys Val Phe Asp Arg Ile Val Lys Thr Thr Ser Asn Lys His 435 440 445 Ile Ile Asp Tyr Val Asn Tyr Val Lys Met Leu Arg Ala Lys Tyr Lys 450 455 460 Ala Tyr Phe Ile Leu Asp Glu Lys Tyr His Glu Lys Gln Arg Glu Tyr 465 470 475 480 Asp Leu Ser Met Gly Phe Thr Asp Glu Ser Asp Glu Arg Arg Glu Leu 485 490 495 Tyr Pro Phe Ile Asn Thr Glu Thr Ala Lys Glu Ile Leu Gly Lys Lys 500 505 510 Arg Asn Val Glu Gln Asp Leu Ile Gly Cys Arg Asp Asn Ile Val Thr 515 520 525 Tyr Ala Phe Asn Val Leu Arg Asn Asn Gly Tyr Asp Thr Ile Ser Val 530 535 540 Glu Tyr Leu Asp Ser Ser Gln Phe Asp Lys Arg Arg Met Pro Thr Pro 545 550 555 560 Lys Ser Leu Leu Glu Tyr His Lys Phe Lys Gly Lys Thr Gln Asp Glu 565 570 575 Val Glu Arg Leu Met Ser Glu Lys Lys Phe Ala Lys Thr Asn Tyr Asp 580 585 590 Ile His Tyr Asp Gly Glu Asn Lys Val Asp Gly Ile Val Tyr Ser Lys 595 600 605 Glu Gly Glu Leu Arg Gln Lys Lys Leu Asn Phe Met Asn Leu Val Ile 610 615 620 Lys Ala Ile His Phe Ala Asp Ile Lys Asp Lys Phe Ala Gln Leu Cys 625 630 635 640 Asn Asn Asn Asp Val Asn Val Val Phe Gly Pro Ser Ala Phe Thr Ser 645 650 655 Gln Met Asp Ser Glu Thr His Ser Leu Tyr Tyr Val Glu Lys Glu Thr 660 665 670 Asn Gly Lys Asn Gly Lys Thr Gly Lys Lys Phe Val Leu Ala Asp Lys 675 680 685 Lys Ser Val Arg Arg Arg Gln Glu Thr His Ile Asn Gly Leu Asn Ala 690 695 700 Asp Phe Asn Ala Ala Arg Asn Leu Glu Tyr Ile Ala Ser Asn Pro Glu 705 710 715 720 Leu Leu Glu Arg Met Thr Lys Arg Thr Lys Ser Gly Lys Asp Met Tyr 725 730 735 Asn Thr Pro Ser Trp Asn Ile Arg Gln Glu Phe Lys Lys Asn Leu Ser 740 745 750 Val Arg Thr Ile Asn Thr Phe Arg Glu Leu Gly Asn Val Lys Tyr Gly 755 760 765 Lys Ile Asn Asn Glu Gly Leu Phe Val Glu Asp Asp Val 770 775 780 <210> 39 <211> 786 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 39 Met Ala Gln His Lys Ser Asn Asn Glu Glu Ser Ala Ile Asn Lys Thr 1 5 10 15 Phe Ile Phe Lys Ala Lys Cys Glu Lys Asn Asp Val Ile Ser Leu Trp 20 25 30 Glu Pro Ala Ala Lys Glu Tyr Gly Asp Tyr Tyr Asn Lys Val Ser Lys 35 40 45 Trp Ile Ala Asp Asn Leu Ile Thr Met Lys Ile Gly Asp Leu Ala Gln 50 55 60 Tyr Ile Thr Asn Gln Asn Ser Lys Tyr Tyr Thr Ala Val Thr Asn Lys 65 70 75 80 Lys Lys Lys Asp Leu Pro Leu Tyr Arg Ile Phe Gln Lys Gly Phe Ser 85 90 95 Ser Gln Cys Ala Asp Asn Ala Leu Tyr Cys Ala Ile Lys Ser Ile Asn 100 105 110 Pro Glu Asn Tyr Lys Gly Asn Ser Leu Gly Ile Gly Glu Ser Asp Tyr 115 120 125 Arg Arg Phe Gly Tyr Ile Gln Ser Val Val Ser Asn Phe Arg Thr Lys 130 135 140 Met Ser Ser Leu Lys Val Ser Val Lys Tyr Lys Lys Phe Asp Val Ser 145 150 155 160 Asn Val Asp Asp Glu Thr Leu Lys Ile Gln Thr Ile Tyr Asp Val Asp 165 170 175 Lys Tyr Gly Ile Glu Thr Ala Lys Glu Phe Lys Glu Leu Ile Glu Thr 180 185 190 Leu Lys Thr Arg Val Glu Thr Pro Gln Leu Asn Asp Thr Ile Ala Arg 195 200 205 Leu Lys Cys Leu Cys Asp Tyr Tyr Ser Lys Asn Glu Lys Ala Ile Asn 210 215 220 Asn Glu Ile Glu Thr Met Ala Ile Ala Asp Leu Gln Lys Phe Gly Gly 225 230 235 240 Cys Gln Arg Lys Ser Leu Asn Ala Phe Thr Ile His Lys Gln Asp Ser 245 250 255 Leu Met Glu Lys Val Gly Asn Thr Ser Phe Arg Leu Gln Leu Ser Phe 260 265 270 Arg Lys Lys Thr Tyr Val Ile Asn Leu Leu Gly Asn Arg Gln Val Val 275 280 285 Asn Phe Val Asn Gly Lys Arg Val Asp Leu Ile Asp Ile Ala Glu Asn 290 295 300 His Gly Asp Leu Ile Thr Phe Asn Ile Lys Asn Gly Glu Leu Phe Leu 305 310 315 320 His Ile Thr Ser Pro Ile Val Phe Asp Lys Asp Val Arg Asp Ile Arg 325 330 335 Asn Val Val Gly Ile Asp Val Asn Ile Lys His Ser Met Leu Ala Thr 340 345 350 Ser Ile Lys Asp Asp Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Lys 355 360 365 Glu Leu Leu Asn Asp Asp Val Phe Val Ser Thr Cys Asn Glu Ser Glu 370 375 380 Leu Ala Leu Tyr Arg Gln Met Ser Glu Asn Val Asn Phe Gly Ile Leu 385 390 395 400 Glu Thr Asp Ser Leu Phe Glu Arg Ile Val Asn Gln Ser Lys Gly Gly 405 410 415 Cys Leu Lys Asn Lys Leu Ile Arg Arg Glu Leu Ala Met Gln Lys Val 420 425 430 Phe Glu Arg Ile Thr Lys Thr Asn Lys Asp Gln Asn Ile Val Asp Tyr 435 440 445 Val Asn Tyr Val Lys Met Met Arg Ala Lys Cys Lys Ala Ser Tyr Ile 450 455 460 Leu Lys Glu Lys Tyr Asp Glu Lys Gln Lys Glu Tyr Tyr Val Lys Met 465 470 475 480 Gly Phe Thr Asp Glu Ser Thr Glu Ser Lys Glu Thr Met Asp Lys Arg 485 490 495 Arg Glu Glu Phe Pro Phe Val Asn Thr Asp Thr Ala Lys Glu Leu Leu 500 505 510 Val Lys Gln Asn Asn Ile Arg Gln Asp Ile Ile Gly Cys Arg Asp Asn 515 520 525 Ile Val Thr Tyr Ala Phe Asn Val Phe Lys Asn Asn Glu Tyr Asp Thr 530 535 540 Leu Ser Val Glu Tyr Leu Asp Ser Ser Gln Phe Asp Lys Arg Arg Ile 545 550 555 560 Pro Thr Pro Lys Ser Leu Leu Lys Tyr His Lys Phe Glu Gly Lys Thr 565 570 575 Lys Asp Glu Val Glu Asn Met Met Lys Ser Glu Lys Leu Ser Asn Ala 580 585 590 Tyr Tyr Thr Phe Lys Tyr Glu Asn Asp Val Val Ser Asp Ile Asp Tyr 595 600 605 Ser Asp Glu Gly Asn Leu Arg Arg Ser Lys Leu Asn Phe Gly Asn Trp 610 615 620 Ile Ile Lys Ala Ile His Phe Ala Asp Ile Lys Asp Lys Phe Val Gln 625 630 635 640 Leu Ser Asn Asn Asn Lys Met Asn Ile Val Phe Cys Pro Ser Ala Phe 645 650 655 Ser Ser Gln Met Asp Ser Ile Thr His Thr Leu Tyr Tyr Val Glu Lys 660 665 670 Ile Thr Lys Asn Lys Lys Gly Lys Glu Lys Lys Lys Tyr Val Leu Ala 675 680 685 Asn Lys Lys Met Val Arg Thr Gln Gln Glu Thr His Ile Asn Gly Leu 690 695 700 Asn Ala Asp Tyr Asn Ser Ala Cys Asn Leu Lys Tyr Ile Ala Leu Asn 705 710 715 720 Tyr Glu Leu Arg Asp Lys Met Thr Asp Arg Phe Lys Ala Ser Lys Lys 725 730 735 Ile Lys Thr Met Tyr Asn Ile Pro Ala Tyr Asn Ile Lys Ser Asn Phe 740 745 750 Lys Lys Asn Leu Ser Ala Lys Thr Ile Gln Thr Phe Arg Glu Leu Gly 755 760 765 His Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Met Phe Val Glu Ile 770 775 780 Leu Glu 785 <210> 40 <211> 798 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 40 Met Ala His Arg Lys Lys Lys Asp Asp Glu Ala Thr Leu Ser Tyr Lys 1 5 10 15 Phe Lys Val Lys Val Ile Glu Gly Asp Leu Thr Ala Asp Asp Ile Thr 20 25 30 Lys Cys Ile Ala Glu Asn Ala Glu Gln Gly Asn His Phe Ser Glu Phe 35 40 45 Ile His Lys Asn Leu Thr Ser Lys Thr Ile Gly Glu Phe Ala Ser Gln 50 55 60 Leu Pro Ala Glu Lys Arg Gln Phe Gly Tyr Tyr Gln Tyr Ala Ile Gly 65 70 75 80 Gly Thr Met Pro Ala Lys Lys Asn Ala Ser Asp Glu Asp Lys Pro Lys 85 90 95 Gly Glu Leu Ile Asp Trp Ser Lys Lys Pro Phe Tyr Val Leu Phe Ser 100 105 110 Lys Gly Tyr Ser Ala Thr His Ala Val Asn Leu Ile Phe Asn Val Tyr 115 120 125 Leu Asn Ser Glu Glu Gly Lys Ala Phe Ser Ala Lys Asn Ser Met Asn 130 135 140 Leu Ser Lys Ser Gln Phe Ala Tyr Ser Gly Phe Val Gln Ile Val Cys 145 150 155 160 Ala Asn Tyr Ala Ser Met Leu Ala Asn Ala Arg Pro Asp Lys Ile Lys 165 170 175 Phe Glu Glu Ile Thr Glu Ala Thr Asp Asp Gly Thr Lys Lys Met Gln 180 185 190 Val Val Arg Glu Met Ala Glu Arg Tyr Leu Met Lys Pro Lys Asn Phe 195 200 205 Ala Ser Arg Ile Glu Tyr Leu Glu Ala Asn Asn Thr Lys Gly Lys Phe 210 215 220 Asp Lys Thr Ile Gln Arg Leu Arg Leu Leu Gln Pro Phe Phe Glu Lys 225 230 235 240 Asn Glu Glu Ser Ile Thr Glu Leu Tyr Tyr Asp Leu Ser Val Lys Ala 245 250 255 Leu Glu His Ser Gly Gln Cys Thr Tyr Lys Gly Gly Arg Thr Ile Ser 260 265 270 Ile Leu Glu Ile Gly Asp Ile Arg Ile Ser Arg Lys Glu Asn Ala Lys 275 280 285 Gly Tyr Leu Leu Thr Ile Pro Ile Asn Arg Lys Ser Val Val Phe Asp 290 295 300 Leu Tyr Gly Arg Lys Asp Thr Ile Gly Gly Asp Gly Arg Asp Leu Ile 305 310 315 320 Asp Ile Met Asn Thr His Gly Ser Ser Leu Gln Phe Thr Ala Asp Glu 325 330 335 Asn Asp Ile Tyr Leu Thr Ile Thr Ala Thr Lys Asn Phe Ile Lys Glu 340 345 350 Lys Pro Thr Phe Asn Glu Asp Thr Val Leu Gly Gly Asp Val Asn Ile 355 360 365 Lys His Ser Tyr Thr Val Phe Ser Ala Ser Pro Lys Asp Ile Pro Asp 370 375 380 Phe Val Asn Phe Tyr Glu Tyr Phe Ala Lys Asp Gly Glu Ile Met Lys 385 390 395 400 Leu Ala Pro Lys Pro Met Trp Asp Tyr Ile Val Ala Ala Ala Thr Lys 405 410 415 Phe Leu Thr Ile Leu Pro Ile Glu Thr Pro Ala Ile Ser Ala Thr Val 420 425 430 Tyr Gly Lys Arg Thr Glu Glu Gly Ile Ser Arg Ala Thr Phe Arg Glu 435 440 445 Thr Gln Lys Leu Ile Ala Leu Glu Lys Ala Ile Glu Arg Val Met Lys 450 455 460 Gln Val Phe Asp Lys Tyr Asn Asp Gly Lys His Pro Leu Glu Ala Ile 465 470 475 480 Tyr Ile Gly Asn Ala Ile Lys Tyr Arg Arg Leu Ile Lys Gly Tyr Leu 485 490 495 Ala Gln Lys Lys Lys Tyr Tyr Ser Ala His Ser Glu Tyr Asp Lys Ala 500 505 510 Met Gly Tyr Thr Asp Asp Asp Thr Asp Arg Lys Glu Asn Met Asp Glu 515 520 525 Arg Arg Phe Asp Asp Ser Lys Lys Phe Arg Tyr Thr Pro Glu Ala Gln 530 535 540 Ala Leu Leu Asp Thr Met His Thr Ile Glu Lys Lys Ile Val Gly Cys 545 550 555 560 Val Ser Asn Ala Ile Ser Tyr Ala Tyr His Lys Phe Asp Glu Asn Gly 565 570 575 Phe Asn Val Ile Ala Leu Glu Asn Leu Thr Ser Ala Thr Phe Ala Lys 580 585 590 Lys Tyr Lys Ser Asp Lys Pro Glu Ser Ile Lys Lys Leu Leu Asn Phe 595 600 605 Asp Lys Leu Leu Gly Lys Thr Leu Asp Glu Ala Lys Ala Ser Lys Ser 610 615 620 Ile Ser Lys His Pro Asn Trp Tyr Glu Leu Val Ala Asp Glu Asn Gly 625 630 635 640 Cys Val Ser Asp Ile Arg Ile Thr Asp Glu Gly Gln Ser Ala Thr Tyr 645 650 655 Arg Ser Leu Val Thr Glu Thr Ile Met Lys Val Ser His Phe Ala Glu 660 665 670 Thr Lys Asp Arg Phe Ile Gly Leu Ala Asn Ser Gly Arg Leu Gln Val 675 680 685 Gly Leu Val Pro Ser Gln Tyr Thr Ser Tyr Ile Asp Ser Thr Thr His 690 695 700 Thr Leu Tyr Ala Val Ile Glu Asp Gly Lys Thr Val Leu Ala Pro Lys 705 710 715 720 Glu Val Val Arg Ala Ser Gln Glu Arg His Ile Asn Gly Leu Asn Ala 725 730 735 Asp Tyr Asn Ser Ala Leu Asn Leu Lys Tyr Met Ile Thr Asp Glu Asn 740 745 750 Phe Arg Lys Thr Phe Thr Ser Glu Thr Ser Ala Asp Lys Phe Gly Trp 755 760 765 Gly Lys Pro Met Phe Ser Pro Thr Thr Arg Ser Gln Asp Glu Val Phe 770 775 780 Ser Ala Ile Lys Lys Ile Gly Ala Ile Thr Val Leu Glu Asp 785 790 795 <210> 41 <211> 771 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 41 Met Ala Asn Lys Arg Thr Asp Thr Thr Ile Asn Leu Asn Lys Thr Val 1 5 10 15 Ile Met Leu Thr Asn Met Leu Pro Glu Val Arg Ala Met Phe Gln Ala 20 25 30 Gly Ile Arg Gln Ala Gln Ala Tyr Ala Asp Leu Val Asn Lys Trp Ile 35 40 45 Cys Ser Asn Leu Thr Asn Lys Ile Gly Glu Val Leu Leu Pro Tyr Ile 50 55 60 Asp Asn Lys Asn Cys Val Tyr Tyr Glu Leu Cys Tyr Lys Tyr Lys Glu 65 70 75 80 Ala Pro Leu Tyr Thr Ile Phe Met Lys Gly Lys Phe Asp Leu Asn Ser 85 90 95 Arg Asn Asn Ala Leu Tyr Cys Ala Val Val Ala Gln Asn Ile Asp Asn 100 105 110 Tyr Ser Gly Asn Ile Phe Gly Phe Ser Gln Ser Asp Tyr Arg Arg Asn 115 120 125 Gly Tyr Cys Lys Val Val Phe Ser Asn Tyr Ala Thr Lys Met Ser Ser 130 135 140 Leu Lys Pro Ser Ile Lys Lys Val Thr Ile Asn Glu Glu Ser Thr Glu 145 150 155 160 Glu Thr Ile Gln Ser Gln Val Ile Tyr Glu Met Phe Thr Asn Gly Arg 165 170 175 Gln Trp Gly Lys Pro Glu Tyr Phe Ala Glu His Leu Lys Tyr Leu Glu 180 185 190 Met Lys Asp Asn Val Ser Asp Lys Leu Met Phe Arg Met Lys Thr Leu 195 200 205 Cys Glu Tyr Tyr Gln Thr His Thr Asp Leu Ile Asp Thr Met Ala Met 210 215 220 Asn Ala Gly Val Glu Ala Leu Lys Gln Phe Glu Gly Leu Lys Leu Asn 225 230 235 240 Arg Asp Lys Phe Ser Met Thr Ile Thr Thr Asn Ser Thr Ser Pro Tyr 245 250 255 Thr Leu Thr Arg Val Ala Gly Thr Cys Ala Tyr Asn Leu His Ile Pro 260 265 270 Cys Arg Lys Arg Ser Tyr Asp Ile Arg Leu Trp Gly Asn Arg Gln Thr 275 280 285 Val Arg Trp Val Asn Gly Glu Leu Val Asp Ile Ala Asp Ile Ile Asn 290 295 300 Gln His Gly Gln Thr Ile Ile Phe Thr Ile Lys Asn Gly Asn Val Tyr 305 310 315 320 Val His Ile Pro Tyr Gly Leu Asn Phe Glu Lys Thr Glu His Glu Ile 325 330 335 Lys Asn Val Val Gly Val Asp Val Asn Thr Lys His Met Leu Met Gln 340 345 350 Thr Ser Ile Lys Asp Asn Gly Trp Val Lys Gly Tyr Val Asn Ile Tyr 355 360 365 Lys Ala Leu Val Glu Asp Glu Glu Phe Val Lys Tyr Ile Ser Lys Ser 370 375 380 Asp Leu Lys Leu Tyr Lys Asp Leu Ser Lys Tyr Val Ser Phe Cys Pro 385 390 395 400 Leu Glu Leu Asn Leu Leu Tyr Thr Arg Tyr Leu Ser Lys Lys Gly Leu 405 410 415 Pro Phe Asn Glu Ala Asp Asn Asn Ala Glu Lys Cys Val Glu Lys Val 420 425 430 Leu Asn Asn Leu Val Lys Gln Tyr Glu Gly Asp Asp Val His Val Val 435 440 445 Asn Tyr Ile His Asn Val Lys Lys Leu Arg Ala Leu Cys Lys Ala Ser 450 455 460 Phe Val Leu Tyr Lys Lys Tyr Ala Glu Leu Gln Lys Ala Phe Asp Asp 465 470 475 480 Ala Gln Gly Tyr Asn Asp Gln Ser Thr Glu Thr Lys Glu Thr Met Asp 485 490 495 Lys Arg Arg Trp Glu Asn Pro Phe Ile Gln Thr Arg Glu Ala Gln Glu 500 505 510 Leu Ile Ala Lys Met Asp Asn Ala Val Ala Gly Ile Ile Gly Cys Arg 515 520 525 Asp Asn Ile Ile Thr Tyr Ala Tyr Lys Val Phe Gly Asp Asn Asn Tyr 530 535 540 Asp Thr Val Gly Leu Glu Asn Leu Thr Thr Ser Gln Phe Asp Asn Tyr 545 550 555 560 Ser Thr Val Lys Ser Pro Lys Ser Leu Leu Ser Tyr Tyr Gly Leu Leu 565 570 575 Gly Gln Gln Val Asp Ser Asp Lys Tyr Asn Ala Val Met Thr Glu Ser 580 585 590 Asn Lys Asp Trp Tyr Asp Phe Lys Thr Asp Gly Asp Gly Asn Ile Thr 595 600 605 Asp Ile Thr Leu Thr Ala Ala Gly Glu Ala Gln Lys Ala Lys Ser Leu 610 615 620 Phe Asn Asn Lys Val Leu Lys Asn Ile His Phe Ala Asp Val Lys Asp 625 630 635 640 Lys Phe Ile Gln Leu Gly Asn Asn Gly Ser Ile Gln Thr Val Leu Val 645 650 655 Pro Pro Ser Tyr Thr Ser Gln Met Asp Ser Lys Thr His Thr Ile Tyr 660 665 670 Val Lys Glu Thr Val Asp Pro Lys Asn Lys Asn Lys Lys Lys Leu Lys 675 680 685 Leu Val Asp Lys Lys Leu Val Arg His Gly Gln Glu Tyr His Lys Asn 690 695 700 Gly Leu Asn Ala Asp Ile Asn Ala Ala Leu Asn Ile Ala Tyr Ile Val 705 710 715 720 Glu Asn Gln Glu Met Arg Glu Val Met Cys Leu His Pro Ser Lys Lys 725 730 735 Asp Gly Val Tyr Asp Gln Pro Phe Leu Lys Ala Thr Thr Lys Tyr Pro 740 745 750 Ala Thr Val Ala Gly Ile Leu Leu Lys Met Gly Lys Thr Thr Asn Trp 755 760 765 Gly Glu Lys 770 <210> 42 <211> 764 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 42 Met Asn Lys Ser Tyr Val Phe Lys Ser Asn Val Ala Ile Asp Asp Ile 1 5 10 15 Met Ser Leu Phe Glu Pro Ala Ile Glu Glu Tyr Ile Asn Tyr Tyr Asn 20 25 30 Arg Thr Ser Asp Phe Ile Cys Asp Asn Leu Thr Ser Met Lys Ile Gly 35 40 45 Asp Leu Ala Asn Tyr Ile Lys Asn Lys Glu Asn Val Tyr Cys Lys Phe 50 55 60 Val Leu Asn Asp Asp Ile Lys Asp Leu Pro Leu Tyr Lys Ile Phe Ser 65 70 75 80 Leu Asn Leu Asn Ser Ser Gln Lys Lys Asn Ala Asp Asn Ala Leu Tyr 85 90 95 Glu Ala Ile Lys Val Leu Asn Ala Asp Gly Tyr Lys Gly Lys Asn Ile 100 105 110 Leu Gly Leu Gly Asp Thr Tyr Phe Arg Arg Asn Gly Tyr Val Lys Asn 115 120 125 Val Ile Ser Asn Tyr Arg Thr Lys Phe Val Thr Leu Lys Pro Asn Val 130 135 140 Lys Tyr Ser Lys Ile Asp Ile Asn Ser Val Thr Glu Gln Leu Ile Lys 145 150 155 160 Thr Gln Thr Ile Phe Glu Val Val Asn Lys Lys Ile Glu Ser Glu Thr 165 170 175 Asp Phe Glu Asn Leu Ile Thr Tyr Phe Lys Asn Arg Glu Thr Pro Asn 180 185 190 Asp Glu Lys Ile Lys Arg Leu Glu Leu Leu Phe Asp Tyr Tyr Thr Lys 195 200 205 His Lys Asn Glu Ile Asn Glu Glu Ile Glu Lys His Ala Val Glu Ser 210 215 220 Leu Lys Ser Phe Asn Gly Cys Arg Arg Asn Gly Asn Arg Lys Thr Met 225 230 235 240 Thr Val Gln Met Gln Lys Met Leu Leu Lys Lys His Gly Leu Thr Ser 245 250 255 Tyr Ile Leu His Leu Val Leu Asp Lys Lys Pro Tyr Asp Ile Asn Leu 260 265 270 Met Gly Asn Arg Gln Thr Val Lys Val Asp Asn Asn Gly Asn Arg Val 275 280 285 Asp Leu Val Asp Ile Ser Ser Lys His Gly Tyr Asp Leu Thr Phe Glu 290 295 300 Val Lys Gly Lys Thr Leu Phe Phe Thr Phe Ser Ser Glu Lys Asp Phe 305 310 315 320 Ser Lys Lys Glu Gln Glu Ile Lys Asn Ile Leu Gly Ile Asp Ile Asn 325 330 335 Thr Lys His Ser Met Leu Ala Thr Ser Ile Thr Asp Asn Gly Lys Val 340 345 350 Lys Gly Tyr Ile Asn Ile Tyr Val Glu Leu Leu Lys Asn Lys Asp Phe 355 360 365 Val Ser Thr Leu Asn Lys Glu Glu Leu Ala Tyr Tyr Thr Glu Met Ala 370 375 380 Lys Phe Val Ser Phe Gly Leu Leu Glu Ile Pro Ser Leu Phe Glu Arg 385 390 395 400 Val Ser Asn Gln Tyr Asp Lys Lys Asn Asn Val Ser Ile Thr Asp Glu 405 410 415 Thr Leu Leu Lys Arg Glu Ile Ala Ile Ser Gln Thr Leu Asp Asn Leu 420 425 430 Ala Lys Lys Tyr Arg Asp Lys Asn Cys Lys Ile Ala Ser Tyr Ile Asp 435 440 445 Tyr Thr Lys Met Leu Arg Ser Lys Tyr Lys Ser Tyr Phe Ile Leu Lys 450 455 460 Gln Lys Tyr Tyr Glu Lys Asn His Glu Tyr Asp Asp Lys Met Gly Phe 465 470 475 480 Ser Asp Ile Ser Thr Asn Ser Lys Glu Thr Met Asp Pro Arg Arg Phe 485 490 495 Glu Asn Pro Phe Ile Asn Thr Asp Ile Ala Lys Gly Leu Ile Val Lys 500 505 510 Leu Glu Asn Val Lys Cys Asp Ile Val Gly Cys Arg Asp Asn Ile Ile 515 520 525 Lys Tyr Ala Tyr Asp Val Ile Val Leu Asn Gly Phe Asp Thr Ile Gly 530 535 540 Leu Glu Tyr Leu Asp Ser Ser Asn Phe Glu Arg Asp Arg Leu Pro Phe 545 550 555 560 Pro Thr Ala Lys Ser Leu Met Thr Tyr Tyr Gly Phe Glu Gly Lys Lys 565 570 575 Tyr Ser Glu Ile Asp Lys Ser Val Phe Asn Thr Lys Tyr Tyr Asn Phe 580 585 590 Ile Phe Asn Glu Asn Glu Thr Ile Lys Asp Ile Ser Tyr Ser Val Tyr 595 600 605 Gly Leu Lys Glu Ile Gln Lys Lys Arg Phe Lys Asn Leu Val Ile Lys 610 615 620 Ala Ile Gly Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu Ser Asn 625 630 635 640 Asn Thr Asn Met Asn Val Ile Phe Val Pro Ala Ala Phe Thr Ser Gln 645 650 655 Met Asp Ser Asn Thr His Lys Ile Tyr Val Lys Glu Ile Met Asp Lys 660 665 670 Asn Asn Lys Lys Gln Leu Gln Leu Ile Asp Lys Arg Lys Val Arg Thr 675 680 685 Lys Gln Glu Phe His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala 690 695 700 Asn Asn Ile Lys Tyr Ile Ala Glu Asn Asn Asp Leu Leu Leu Thr Met 705 710 715 720 Cys Thr Lys Thr Lys Glu Asn Asn Arg Tyr Gly Asn Pro Leu Tyr Asn 725 730 735 Ile Lys Asp Thr Phe Lys Lys Lys Ile Pro Ser Ser Ile Leu Asn Ile 740 745 750 Phe Lys Lys Lys Asp Met Tyr Gln Ile Ile Cys Asp 755 760 <210> 43 <211> 768 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 43 Met Phe Arg Ile Phe Ala Ala Leu Lys Leu Thr Asn Met Gly His Val 1 5 10 15 Arg Leu Gln Lys Arg Glu Gly Glu Val Tyr Lys Thr Tyr Lys Leu Lys 20 25 30 Val Lys Ser Phe Ser Gly Asn Val Asp Ile Lys Ala Gly Ile Val Glu 35 40 45 Tyr Asp Gln Lys Phe Asn Asn Val Ser Gln Trp Ile Ala Asp His Leu 50 55 60 Thr Ser Met Thr Ile Gly Glu Ala Ala Ser Arg Ile Ser Pro His Lys 65 70 75 80 Met Asp Ser Gln Tyr Ala Met Thr Ser Leu Ser Asp Glu Trp Lys Asp 85 90 95 Gln Pro Leu Tyr Lys Ile Phe Thr Arg Gly Phe Gly Gly Met Asn Ala 100 105 110 Asp Asn Leu Ile Ile Glu Cys Thr Lys Thr Glu Glu Asn Cys Lys Tyr 115 120 125 Asp Lys Glu Lys Ser Leu Gly Phe Ser Glu Ser Val Phe Arg Thr Phe 130 135 140 Gly Phe Ala Ala Asn Ala Ser Ser Asp Met Lys Ser Arg Met Thr Gln 145 150 155 160 Ala Lys Val Lys Ile Gly Arg Lys Asn Ile Asp Glu Asp Ser Ala Asp 165 170 175 Asp Glu Lys Cys Leu Gln Ala Ile Tyr Glu Ile Gln Lys Asn Glu Leu 180 185 190 Leu Thr Asp Asp Asn Trp Lys Asp Arg Ile Gly Tyr Leu Glu Met Lys 195 200 205 Gly Asp Gln Glu Arg Glu Leu Glu Arg Thr Thr Ile Leu Tyr Asp Tyr 210 215 220 Tyr Arg Ala Asn Arg Thr Thr Val Leu Asp Lys Leu Asp Asn Leu Lys 225 230 235 240 Val Glu Thr Leu Ser Lys Phe Arg Gly Ser Lys Arg Lys Ser Asp Arg 245 250 255 Lys Ile Leu Thr Leu Asn Gly Ile Ser Tyr Asp Ile Lys Arg Lys Glu 260 265 270 Gly Cys Gln Gly Phe Glu Leu Lys Phe Ser Val Asp Lys Asn His Met 275 280 285 Glu Phe Asp Leu Leu Gly His Arg Ala Leu Ile Lys Asn Gly Glu Met 290 295 300 Leu Val Asp Ile Glu Asn Cys His Gly Ser Gln Leu Ser Leu Glu Ile 305 310 315 320 Asp Gly Asp Asp Met Tyr Ala Ile Ile Ser Met Arg Thr Phe Cys Glu 325 330 335 Lys Asn Glu Ser Lys Leu Glu Lys Ile Ile Gly Ala Asp Val Asn Ile 340 345 350 Lys His Met Phe Leu Met Thr Ser Glu Lys Asp Asp Gly Asn Thr Lys 355 360 365 Cys Tyr Val Asn Leu Tyr Arg Glu Leu Leu Ser Asp Ser Asp Phe Thr 370 375 380 Asp Val Leu Asn Lys Glu Glu Tyr Glu Ile Phe Ser Glu Leu Ser Lys 385 390 395 400 Tyr Val Met Phe Gly Leu Ile Glu Thr Pro Tyr Leu Gly Ser Arg Val 405 410 415 Ile Gly Thr Thr Gln His Glu Lys Ile Val Glu Asp Lys Ile Thr Ser 420 425 430 Gly Met Lys Lys Ile Ala Ile Arg Leu Phe Gln Glu Gly Lys Val Arg 435 440 445 Glu Arg Ile Tyr Val Gln Asn Val Leu Lys Ile Arg Ala Leu Leu Lys 450 455 460 Ala Leu Phe Ser Thr Lys Leu Ala Tyr Ser Asn Glu Gln Lys Ile Tyr 465 470 475 480 Asp Asn Leu Met Arg Phe Gly Glu Lys Asp Asp Arg Arg Lys Asp Glu 485 490 495 Gly Phe His Thr Thr Cys Arg Gly Thr Ser Leu Arg Ser Glu Met Asp 500 505 510 Met Leu Ser Lys Lys Ile Leu Ala Cys Arg Asp Asn Ile Val Glu Tyr 515 520 525 Gly Tyr Tyr Val Ile Gly Leu Asn Gly Phe Asp Gly Ile Ser Leu Glu 530 535 540 Asn Leu Glu Ser Ser Thr Phe Met Asp Val Lys Ile Ser Tyr Pro Ser 545 550 555 560 Cys Asn Ser Met Leu Asp His Phe Lys Leu Lys Gly Lys Thr Ile Glu 565 570 575 Glu Ala Glu Asn His Glu Thr Val Gly Lys Phe Ile Lys Lys Gly Tyr 580 585 590 Tyr Val Met Thr Leu Val Asn Gly Lys Ile Asn Asp Ile Asn Tyr Ser 595 600 605 Glu Lys Ala Val Met Leu His Lys Lys Asn Leu Leu Tyr Asp Thr Val 610 615 620 Ile Lys Ser Thr His Phe Ala Asp Val Lys Asp Lys Phe Val Glu Leu 625 630 635 640 Ser Asn Asn Gly Lys Val Ser Val Val Ile Val Pro Pro Tyr Phe Ser 645 650 655 Ser Gln Met Asp Ser Val Thr His Lys Val Phe Thr Glu Glu Ile Val 660 665 670 Val Gln Lys Lys Ser Ser Asn Gly Lys Val Arg Lys Thr Lys Lys Thr 675 680 685 Val Leu Val Asp Lys Arg Lys Val Arg Lys Thr Gln Glu Ser His Ile 690 695 700 Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Leu Lys Tyr Ile 705 710 715 720 Ala Glu Thr Ile Asp Trp Arg Ser Thr Leu Cys Phe Lys Thr Trp Asn 725 730 735 Thr Tyr Gly Ser Pro Gln Trp Asp Ser Lys Ile Lys Asn Gln Lys Thr 740 745 750 Met Ile Asp Arg Leu Asp Ser Leu Gly Ala Ile Glu Leu Lys Asn Trp 755 760 765 <210> 44 <211> 789 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 44 Met Ser His Glu Phe Asn Lys Asn Lys Gly Glu Asn Glu Ile Ser Lys 1 5 10 15 Thr Phe Ile Phe Lys Thr Lys Cys Gly Lys Asn Asp Ile Thr Ser Leu 20 25 30 Trp Val Pro Ala Met Glu Glu Tyr Cys Thr Tyr Tyr Asn Arg Val Ser 35 40 45 Lys Trp Ile Cys Asp Asn Leu Thr Glu Met Arg Ile Gly Asp Leu Ala 50 55 60 Gln Tyr Ile Asp Asn His Gly Ser Ala Tyr Tyr Ser Ala Val Thr Asp 65 70 75 80 Ile Thr Lys Lys Asp Leu Pro Leu Tyr Lys Ile Phe Lys Lys Gly Phe 85 90 95 Ser Gly Leu Cys Ala Asp Asn Ala Leu Tyr Cys Ala Ile Ala Lys Leu 100 105 110 Asn Pro Glu Gly Tyr Asp Gly Asn Met Phe Gly Leu Ser Glu Thr Tyr 115 120 125 Tyr Arg Arg Gln Gly Tyr Ile Ala Asn Val Phe Gly Asn Tyr Arg Thr 130 135 140 Lys Met Asn Ala Gly Leu Lys Val Gly Cys Ala Lys Trp Lys Lys Phe 145 150 155 160 Asp Thr Asn Asp Val Asp Asp Glu Ile Leu Met Glu Gln Val Ile Val 165 170 175 Asp Val Val Lys Tyr Asp Ile Asp Ser Lys Asn Glu Phe Lys Glu Tyr 180 185 190 Ile Glu Val Leu Lys Cys Arg Glu Glu Asn Pro Lys Leu Leu Glu Thr 195 200 205 Ile Glu Arg Leu Glu Cys Leu Tyr Gly Tyr Tyr Ser Gln His Glu Glu 210 215 220 Asp Ile Lys Lys Lys Ile Glu Glu Leu Val Val Glu Glu Leu Lys Thr 225 230 235 240 Phe Gly Gly Cys Val Arg Lys Ser Met Thr Ser Cys Thr Ile Thr Val 245 250 255 Gln Asp Phe Val Met Glu Arg Ile Gly Asn Thr Gly Tyr Arg Ile Asn 260 265 270 Leu Thr Phe Asn Lys Lys Pro Tyr Val Leu Gly Leu Leu Gly Asn Arg 275 280 285 Gln Val Val Arg Tyr Val Asp Gly Asp Arg Val Glu Leu Val Asp Ile 290 295 300 Val Asn Asn His Gly Asn Gln Ile Thr Phe Asn Leu Lys Asn Gly Glu 305 310 315 320 Leu Phe Val His Leu Thr Ser Gly Val Asp Phe Ser Lys Glu Glu Ser 325 330 335 Ser Met Glu Asn Ile Val Gly Val Asp Val Asn Ile Lys His Ser Met 340 345 350 Leu Ala Ser Ser Ile Val Asp Asp Gly Asn Val Asn Gly Tyr Ile Asn 355 360 365 Ile Tyr Lys Glu Leu Val Asn Asp Asp Glu Phe Val Ser Thr Phe Gly 370 375 380 Asp Ser Glu Ser Gly Leu Asn Glu Leu Glu Leu Tyr Arg Gln Met Ala 385 390 395 400 Glu Ser Val Asn Phe Gly Leu Met Glu Thr Asp Ser Leu Phe Glu Arg 405 410 415 Tyr Val Glu Gln Trp Lys Gly Ser Asp Ser Asp Ser Arg Leu Ala Arg 420 425 430 Arg Glu Arg Val Val Gly Lys Val Phe Asp Arg Ile Val Lys Thr Asn 435 440 445 Gly Asp Val His Val Val Asn Tyr Ile His Ala Val Lys Met Leu Arg 450 455 460 Ala Lys Cys Lys Ala Tyr Phe Val Leu Lys Gln Lys Tyr Tyr Glu Lys 465 470 475 480 Gln Lys Glu Tyr Asp Asp Ala His Gly Tyr Thr Asp Glu Ser Thr Ala 485 490 495 Ser Lys Glu Thr Met Asp Lys Arg Arg Phe Glu Asn Pro Phe Val Glu 500 505 510 Thr Asp Val Ala Lys Glu Leu Leu Gly Lys Leu Ala Cys Val Glu Gln 515 520 525 Asp Ile Ile Gly Cys Arg Asp Asn Ile Val Thr Tyr Ala Phe Asn Val 530 535 540 Phe Arg Arg Asn Gly Tyr Asp Thr Ile Ser Leu Glu Tyr Leu Asp Ser 545 550 555 560 Ser Gln Phe Lys Lys Ile Gly Met Gly Ala Pro Thr Pro Lys Ser Leu 565 570 575 Leu Lys Tyr His Lys Leu Glu Gly Lys Thr Val Glu Glu Val Glu Ser 580 585 590 Ile Ile Ser Glu Lys Gly Leu Lys Lys Asn Leu Tyr Val Phe Lys Phe 595 600 605 Gly Asp Asn Gly Leu Leu Ser Asp Ile Glu Tyr Ser Asp Glu Gly Leu 610 615 620 Ile Arg Lys Lys Lys Ala Asp Phe Gly Asn Ile Ile Thr Lys Ala Ile 625 630 635 640 His Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu Thr Asn Asn Ser 645 650 655 Asp Met Gly Val Val Phe Cys Pro Ser Ala Phe Thr Ser Gln Met Asp 660 665 670 Ser Lys Thr His Arg Leu Tyr Phe Val Glu Gly Leu Asp Gly Asn Gly 675 680 685 Lys Asn Lys Tyr Val Leu Ala Asn Lys Trp Ser Val Arg Arg Gln Gln 690 695 700 Glu Arg His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ser Ala Cys Asn 705 710 715 720 Cys Gln His Ile Ala Tyr Asp Pro Ile Leu Arg Asp Ala Met Thr Ile 725 730 735 Lys Val Glu Ala Gly Lys Gly Met Tyr Asn Lys Pro Ser Tyr Asp Ile 740 745 750 Arg Lys Lys Phe Lys Lys Asn Leu Ser Ala Ala Thr Leu Lys Thr Phe 755 760 765 Ile Lys Leu Gly Asn Thr Val Lys Gly Met Ile Val Asn Gly Gln Phe 770 775 780 Val Glu Met Glu Ser 785 <210> 45 <211> 784 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 45 Met Tyr Asn Ser Lys Lys Lys Gly Glu Gly Asp Ile Gln Lys Ser Phe 1 5 10 15 Lys Phe Lys Val Lys Thr Asp Lys Glu Thr Val Glu Leu Phe Arg Lys 20 25 30 Ala Ala Val Glu Tyr Ser Glu Tyr Tyr Lys Arg Leu Thr Thr Phe Leu 35 40 45 Cys Glu Arg Leu Thr Asp Met Thr Trp Gly Glu Val Ala Ser Phe Ile 50 55 60 Pro Glu Lys Tyr Arg Lys Asn Glu Tyr Tyr Lys Tyr Leu Ile Lys Glu 65 70 75 80 Glu Asn Lys Asp Leu Pro Leu Tyr Lys Met Phe Thr Lys Ala Ala Ser 85 90 95 Ser Met Phe Ile Asp His Ser Ile Glu Arg Tyr Val Glu Ala Leu Asn 100 105 110 Pro Glu Gly Asn Thr Gly Asn Ile Leu Gly Phe Cys Lys Ser Ser Tyr 115 120 125 Val Arg Gly Gly Tyr Leu Lys Asn Val Val Ser Asn Ile Arg Thr Lys 130 135 140 Phe Ala Thr Leu Lys Thr Gly Ile Lys Tyr Lys Lys Phe Asn Pro Ala 145 150 155 160 Glu Asp Asp Glu Glu Thr Ile Leu Gly Gln Thr Val Phe Glu Met Glu 165 170 175 Lys Arg Gly Leu Glu Phe Lys Cys Asp Phe Glu Lys Thr Ile Lys Tyr 180 185 190 Leu Asn Glu Lys Gly Lys Thr Gln Glu Ala Glu Arg Leu Gln Cys Leu 195 200 205 Met Glu Tyr Phe Ser Thr Asn Thr Asp Lys Ile Asn Glu Tyr Arg Glu 210 215 220 Ser Leu Val Leu Asp Asp Ile Arg Lys Phe Gly Gly Cys Asn Arg Ser 225 230 235 240 Lys Ser Asn Ser Phe Ser Val Thr Leu Glu Lys Ala Asp Ile Lys Glu 245 250 255 Asp Gly Leu Thr Gly Tyr Thr Met Lys Val Ser Lys Lys Leu Lys Glu 260 265 270 Ile His Leu Leu Gly His Arg Arg Val Val Glu Val Val Asn Gly Arg 275 280 285 Arg Val Asn Leu Val Asp Ile Cys Gly Asp Lys Ser Gly Asp Ser Lys 290 295 300 Val Phe Val Val Asp Gly Asp Asn Leu Tyr Val Cys Ile Ser Ala Pro 305 310 315 320 Val Lys Phe Ser Lys Asn Gly Met Glu Ala Lys Lys Tyr Ile Gly Val 325 330 335 Asp Met Asn Met Lys His Ser Ile Ile Ser Val Ser Asp Asn Ala Ser 340 345 350 Asp Met Lys Gly Phe Leu Asn Ile Tyr Lys Glu Leu Leu Lys Asp Glu 355 360 365 Gly Phe Arg Lys Thr Leu Asn Ala Thr Glu Leu Glu Lys Tyr Glu Lys 370 375 380 Leu Ala Glu Gly Val Asn Ile Gly Ile Ile Glu Tyr Asp Gly Leu Tyr 385 390 395 400 Glu Arg Ile Val Lys Gln Lys Lys Glu Asn Ser Val Asp Gly Leu Lys 405 410 415 Val Gln Ala Glu Lys Lys Leu Ile Glu Arg Glu Ala Ala Ile Glu Arg 420 425 430 Val Leu Asp Lys Leu Arg Lys Gly Thr Ser Asp Thr Asp Thr Glu Asn 435 440 445 Tyr Ile Asn Tyr Asn Lys Ile Leu Arg Ala Lys Ile Lys Ser Ala Tyr 450 455 460 Ile Leu Lys Asp Lys Tyr Tyr Glu Met Leu Gly Lys Tyr Asp Ser Glu 465 470 475 480 Arg Ala Gly Ser Gly Asp Leu Ser Glu Glu Asn Lys Ile Lys Tyr Lys 485 490 495 Asp Glu Phe Asn Glu Thr Glu Lys Gly Lys Glu Ile Leu Gly Lys Leu 500 505 510 Asn Asn Val Tyr Lys Asp Ile Ile Gly Cys Arg Asp Asn Ile Val Thr 515 520 525 Tyr Ala Val Asn Leu Phe Ile Arg Asn Gly Tyr Asp Thr Val Ala Leu 530 535 540 Glu Tyr Leu Glu Ser Ser Gln Met Lys Ala Arg Arg Ile Pro Ser Thr 545 550 555 560 Gly Gly Leu Leu Lys Gly His Lys Leu Glu Gly Lys Pro Glu Gly Glu 565 570 575 Val Thr Ala Tyr Leu Lys Ala Asn Lys Ile Pro Lys Ser Tyr Tyr Ser 580 585 590 Phe Glu Tyr Asp Gly Asn Gly Met Leu Thr Asp Val Lys Tyr Ser Asp 595 600 605 Met Gly Glu Lys Ala Arg Gly Arg Asn Arg Phe Lys Asn Leu Val Pro 610 615 620 Lys Phe Leu Arg Trp Ala Ser Ile Lys Asp Lys Phe Val Gln Leu Ser 625 630 635 640 Asn Tyr Lys Asp Ile Gln Met Val Tyr Val Pro Ser Pro Tyr Thr Ser 645 650 655 Gln Thr Asp Ser Arg Thr His Ser Leu Tyr Tyr Ile Glu Thr Val Lys 660 665 670 Val Asp Glu Lys Thr Gly Lys Glu Lys Lys Glu His Ile Val Ala Pro 675 680 685 Lys Glu Ser Val Arg Thr Glu Gln Glu Ser Phe Val Asn Gly Met Asn 690 695 700 Ala Asp Thr Asn Ser Ala Asn Asn Ile Lys Tyr Ile Phe Glu Asn Glu 705 710 715 720 Thr Leu Arg Asp Lys Phe Leu Lys Arg Thr Lys Asp Gly Thr Glu Met 725 730 735 Tyr Asn Arg Pro Ala Phe Asp Leu Lys Glu Cys Tyr Lys Lys Asn Ser 740 745 750 Asn Val Ser Val Phe Asn Thr Leu Lys Lys Thr Leu Gly Ala Ile Tyr 755 760 765 Gly Lys Leu Asp Glu Asn Gly Asn Phe Ile Glu Asn Glu Cys Asn Lys 770 775 780 <210> 46 <211> 764 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 46 Met Asn Lys Ser Tyr Val Phe Lys Ser Asn Val Ala Ile Asp Asp Ile 1 5 10 15 Met Ser Leu Phe Glu Pro Ala Ile Glu Glu Tyr Ile Asn Tyr Tyr Asn 20 25 30 Arg Thr Ser Asp Phe Ile Cys Asp Asn Leu Thr Ser Met Lys Ile Gly 35 40 45 Asp Leu Ala Asn Tyr Ile Lys Asn Lys Glu Asn Val Tyr Cys Lys Phe 50 55 60 Val Leu Asn Asp Asp Ile Lys Asp Leu Pro Leu Tyr Lys Ile Phe Ser 65 70 75 80 Leu Asn Leu Asn Ser Ser Gln Lys Lys Asn Ala Asp Asn Ala Leu Tyr 85 90 95 Glu Ala Ile Lys Val Leu Asn Ala Asp Gly Tyr Lys Gly Lys Asn Ile 100 105 110 Leu Gly Leu Gly Asp Thr Tyr Phe Arg Arg Asn Gly Tyr Val Lys Asn 115 120 125 Val Ile Ser Asn Tyr Arg Thr Lys Phe Val Thr Leu Lys Pro Asn Val 130 135 140 Lys Tyr Ser Lys Ile Asp Ile Asn Ser Val Thr Glu Gln Leu Ile Lys 145 150 155 160 Thr Gln Thr Ile Phe Glu Val Val Asn Lys Lys Ile Glu Ser Glu Thr 165 170 175 Asp Phe Glu Asn Leu Ile Thr Tyr Phe Lys Asn Arg Glu Thr Pro Asn 180 185 190 Asp Glu Lys Ile Lys Arg Leu Glu Leu Leu Phe Asp Tyr Tyr Thr Lys 195 200 205 His Lys Asn Glu Ile Asn Glu Glu Ile Glu Lys His Ala Val Glu Ser 210 215 220 Leu Lys Ser Phe Asn Gly Cys Arg Arg Asn Gly Asn Arg Lys Thr Met 225 230 235 240 Thr Val Gln Met Gln Lys Met Leu Leu Lys Lys His Gly Leu Thr Ser 245 250 255 Tyr Ile Leu His Leu Val Leu Asp Lys Lys Pro Tyr Asp Ile Asn Leu 260 265 270 Met Gly Asn Arg Gln Thr Val Lys Val Asp Asn Asn Gly Asn Arg Val 275 280 285 Asp Leu Val Asp Ile Ser Ser Lys His Gly Tyr Asp Leu Thr Phe Glu 290 295 300 Val Lys Gly Lys Thr Leu Phe Phe Thr Phe Ser Ser Glu Lys Asp Phe 305 310 315 320 Ser Lys Lys Glu Gln Glu Ile Lys Asn Ile Leu Gly Ile Asp Ile Asn 325 330 335 Thr Lys His Ser Met Leu Ala Thr Ser Ile Thr Asp Asn Gly Lys Val 340 345 350 Lys Gly Tyr Ile Asn Ile Tyr Val Glu Leu Leu Lys Asn Lys Asp Phe 355 360 365 Val Ser Thr Leu Asn Lys Glu Glu Leu Ala Tyr Tyr Thr Glu Met Ala 370 375 380 Lys Phe Val Ser Phe Gly Leu Leu Glu Ile Pro Ser Leu Phe Glu Arg 385 390 395 400 Val Ser Asn Gln Tyr Asp Lys Lys Asn Asn Val Ser Ile Thr Asp Glu 405 410 415 Thr Leu Leu Lys Arg Glu Ile Ala Ile Ser Gln Thr Leu Asp Asn Leu 420 425 430 Ala Lys Lys Tyr Arg Asp Lys Asn Cys Lys Ile Ala Ser Tyr Ile Asp 435 440 445 Tyr Thr Lys Met Leu Arg Ser Lys Tyr Lys Ser Tyr Phe Ile Leu Lys 450 455 460 Gln Lys Tyr Tyr Glu Lys Asn His Glu Tyr Asp Asp Lys Met Gly Phe 465 470 475 480 Ser Asp Ile Ser Thr Asn Ser Lys Glu Thr Met Asp Pro Arg Arg Phe 485 490 495 Glu Asn Pro Phe Ile Asn Thr Asp Ile Ala Lys Gly Leu Ile Val Lys 500 505 510 Leu Glu Asn Val Lys Cys Asp Ile Val Gly Cys Arg Asp Asn Ile Ile 515 520 525 Lys Tyr Ala Tyr Asp Val Ile Val Leu Asn Gly Phe Asp Thr Ile Gly 530 535 540 Leu Glu Tyr Leu Asp Ser Ser Asn Phe Glu Arg Asp Arg Leu Pro Phe 545 550 555 560 Pro Thr Ala Lys Ser Leu Met Thr Tyr Tyr Gly Phe Glu Gly Lys Lys 565 570 575 Tyr Ser Glu Ile Asp Lys Ser Val Phe Asn Thr Lys Tyr Tyr Asn Phe 580 585 590 Ile Phe Asn Glu Asn Glu Thr Ile Lys Asp Ile Ser Tyr Ser Val Tyr 595 600 605 Gly Leu Lys Glu Ile Gln Lys Lys Arg Phe Lys Asn Leu Val Ile Lys 610 615 620 Ala Ile Gly Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu Ser Asn 625 630 635 640 Asn Thr Asn Met Asn Val Ile Phe Val Pro Ala Ala Phe Thr Ser Gln 645 650 655 Met Asp Ser Asn Thr His Lys Ile Tyr Val Lys Glu Ile Met Asp Lys 660 665 670 Asn Asn Lys Lys Gln Leu Gln Leu Ile Asp Lys Arg Lys Val Arg Thr 675 680 685 Lys Gln Glu Phe His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala 690 695 700 Asn Asn Ile Lys Tyr Ile Ala Glu Asn Asn Asp Leu Leu Leu Thr Met 705 710 715 720 Cys Thr Lys Thr Lys Glu Asn Asn Arg Tyr Gly Asn Pro Leu Tyr Asn 725 730 735 Ile Lys Asp Thr Phe Lys Lys Lys Ile Pro Ser Ser Ile Leu Asn Ile 740 745 750 Phe Lys Lys Lys Asp Met Tyr Gln Ile Ile Cys Asp 755 760 <210> 47 <211> 758 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 47 Met Ala His Lys Thr Lys Glu Ser Glu Lys Leu Val Lys Ser Phe Lys 1 5 10 15 Leu Lys Val Asp Ile Ser Asn Cys Glu Ile Glu Lys Lys Trp Ile Pro 20 25 30 Ser Phe Glu Glu Tyr Thr Asn Tyr Tyr Asn Gly Val Ser Asn Trp Ile 35 40 45 Cys Glu Asn Leu Ile Ser Met Lys Ile Gly Asp Leu Gly Gln Tyr Ile 50 55 60 Lys Asn Thr Glu Ser Val Tyr Tyr Lys Phe Ile Thr Asp Glu Ser Ile 65 70 75 80 Ser Asn Leu Pro Leu Tyr Lys Ile Phe Thr Leu Lys Gln Thr Gln Asn 85 90 95 Val Asp Asn Ala Leu Phe Cys Ala Ile Lys Glu Ile Asn Pro Glu Lys 100 105 110 Tyr Asn Gly Asn Ser Ile Gly Leu Gly Glu Thr Asp Tyr Arg Arg Phe 115 120 125 Gly Tyr Val Gln Cys Val Ile Ser Asn Tyr Arg Thr Lys Ile Gly Thr 130 135 140 Met Lys Ala Ser Ile Lys Tyr Lys Thr Leu Pro Glu Asn Gln Ser Tyr 145 150 155 160 Asp Val Ile Phe Glu Gln Thr Met Tyr Glu Met Ile Asp Lys Ser Leu 165 170 175 Glu Lys Lys Glu Asp Trp Glu Asn Ile Ile Ser Asn Tyr Lys Ala Lys 180 185 190 Gln Thr Glu Asn Thr Ser Lys Ile Asn Arg Met Glu Thr Leu Tyr Ser 195 200 205 Phe Phe Ile Glu His Ser Glu Glu Ile Ile Glu Lys Ser Asn Leu Val 210 215 220 Ala Ile Glu Gln Leu Ala Leu Phe Asn Gly Cys Lys Arg Lys Ser Leu 225 230 235 240 Ser Thr Met Thr Ile His Ser Gln His Ser Lys Leu Gln Lys Asn Gly 245 250 255 Leu Thr Ser Phe Val Phe Cys Ile Asn Gln Lys Ile Gly Ser Ile Asn 260 265 270 Leu Phe Gly Asn Arg Gln Leu Val Ser Val Asp Glu Asn Gly Asn Arg 275 280 285 Asn Asp Ile Ile Asp Ile Cys Asn Asn Tyr Gly Asp Phe Ile Thr Phe 290 295 300 Gln Ile Lys Asn Gly Lys Met Phe Ile Ile Leu Thr Ala Lys Val Asp 305 310 315 320 Phe Asp Lys Glu Asn Ile Glu Ile Lys Asn Val Val Gly Ala Asp Val 325 330 335 Asn Ile Lys His Asn Met Ile Ala Ser Ser Ile Ile Asp Asn Gly Asn 340 345 350 Val Phe Gly Tyr Ile Asn Ile Tyr Lys Glu Leu Leu Asn Asp Glu Asp 355 360 365 Phe Cys Ser Ser Cys Thr Asn Glu Glu Leu Asp Ile Tyr Lys Glu Ile 370 375 380 Ser Lys Ser Val Asn Phe Gly Leu Leu Glu Cys Glu Ser Leu Phe Ser 385 390 395 400 Arg Val Ser Ala Gln Ile Tyr Lys Glu Asn Glu Ser Ile Ser Lys Leu 405 410 415 Asp Asp Arg Phe Leu Arg Arg Glu Lys Ser Ile Glu Asn Val Leu Asn 420 425 430 Arg Leu Ser Lys Gln Tyr Arg Tyr Lys Asp Cys Lys Ile Ala Thr Tyr 435 440 445 Ile Asp Tyr Thr Lys Ile Met Arg Asp Ser Tyr Lys Ser Tyr Phe Ile 450 455 460 Ile Lys Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Ser Met 465 470 475 480 Gly Tyr Val Asp Glu Ser Thr Asn Ser Lys Lys Thr Met Asp Lys Arg 485 490 495 Arg Phe Glu Asn Pro Phe Ile Glu Thr Glu Thr Ala Lys Asn Ile Leu 500 505 510 Ser Lys Leu Asn Arg Ile Glu Ser Arg Leu Ile Gly Cys Arg Asn Asn 515 520 525 Ile Thr Asn Tyr Ala Phe Asp Val Phe Lys Asn Asn Gly Phe Asp Thr 530 535 540 Ile Ala Leu Glu Tyr Leu Asp Ser Ser Gln Phe Asp Lys Thr Lys Val 545 550 555 560 Leu Thr Pro Ile Ser Met Leu Lys Tyr His Lys Phe Glu Gly Lys Ser 565 570 575 Ile Glu Glu Val Lys Thr Leu Asn Val Lys Phe Ser Met Asp Asn Tyr 580 585 590 Glu Phe Glu Phe Asp Asn Asn Gly Lys Ile Thr Asn Ile Ser Phe Ser 595 600 605 Gln Leu Gly Lys Arg Glu Val Met Lys Thr Asn Phe Phe Asn Leu Ile 610 615 620 Ile Lys Ala Ile His Phe Ala Glu Ile Lys Asp Lys Phe Ile Gln Leu 625 630 635 640 Ser Asn Asn Lys Pro Ile Asn Ile Val Leu Val Pro Ser Ala Phe Ser 645 650 655 Ser Gln Met Asp Ser Lys Asp His Lys Leu Tyr Val Asp Glu Asn Gly 660 665 670 Lys Leu Ile Asn Lys Arg Lys Val Arg Lys Gln Gln Glu Arg His Ile 675 680 685 Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala Cys Asn Leu Ser Tyr Leu 690 695 700 Ala Lys Asn Asn Glu Leu Leu Glu Lys Val Cys Leu Lys Arg Lys Lys 705 710 715 720 Phe Gly Lys Ala Ser Tyr Ser Val Pro Tyr Trp Asn Val Lys Asp Ala 725 730 735 Phe Lys Lys Asn Val Ser Ser Asn Met Ile Ala Thr Ile Lys Lys Met 740 745 750 Asn Met Val Lys Val Phe 755 <210> 48 <211> 785 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 48 Met Ala His Lys Thr Asn Asn Gly Glu Asn Thr Ile Asn Lys Thr Phe 1 5 10 15 Ile Phe Lys Ala Lys Cys Glu Lys Asn Asp Ile Ile Ser Leu Trp Lys 20 25 30 Pro Ala Ala Glu Glu Tyr Cys Asn Tyr Tyr Asn Lys Leu Ser Lys Trp 35 40 45 Ile Gly Asp Ser Leu Thr Thr Met Lys Ile Gly Asp Leu Ala Gln Tyr 50 55 60 Ile Thr Asn Gln Asn Ser Ala Tyr Tyr Leu Ala Val Thr Asn Asp Ser 65 70 75 80 Lys Lys Asp Leu Pro Leu Tyr Lys Ile Phe Gln Lys Gly Phe Ser Ser 85 90 95 Gln Cys Ala Asp Asn Ala Leu Tyr Ser Ala Ile Lys Ala Ile Asn Pro 100 105 110 Glu Asn Tyr Asn Gly Asn Ser Leu Glu Ile Gly Glu Thr Asp Tyr Arg 115 120 125 Arg Phe Gly Tyr Val Gln Ser Val Ile Gly Asn Phe Arg Thr Lys Met 130 135 140 Ser Ser Leu Lys Val Ser Val Lys Tyr Lys Lys Phe Asp Val Asn Asp 145 150 155 160 Val Asp Glu Glu Thr Leu Lys Thr Gln Thr Ile Tyr Asp Val Asp Lys 165 170 175 Tyr Gly Ile Glu Ser Ile Lys Asp Phe Asn Glu Phe Ile Glu Val Leu 180 185 190 Lys Leu Arg Glu Glu Thr Pro Gln Leu Asn Glu Lys Ile Thr Arg Leu 195 200 205 Glu Cys Leu Cys Gly Tyr Tyr Ser Lys Asn Glu Glu Asn Ile Lys Asn 210 215 220 Glu Ile Glu Thr Met Ala Ile Ser Asp Leu Gln Lys Phe Gly Gly Cys 225 230 235 240 Gln Arg Lys Ser Leu Asn Thr Leu Thr Ile His Lys Gln Asn Ser Leu 245 250 255 Met Glu Lys Val Gly Asn Thr Ser Phe Thr Leu Gln Leu Ser Phe Asn 260 265 270 Lys Lys Pro Tyr Thr Ile Asn Leu Leu Gly Asn Arg Gln Val Val Lys 275 280 285 Phe Val Asp Gly Lys Arg Val Asp Leu Ile Asp Ile Thr Glu Lys His 290 295 300 Gly Asp Trp Val Thr Phe Asn Ile Lys Asn Asp Glu Leu Phe Val His 305 310 315 320 Leu Thr Ser Pro Ile Asp Phe Glu Lys Glu Val Cys Glu Ile Lys Asn 325 330 335 Ala Val Gly Val Asp Val Asn Ile Lys His Asn Met Leu Ala Thr Ser 340 345 350 Ile Lys Asp Asp Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Lys Glu 355 360 365 Leu Val Asn Asp Cys Asp Phe Ile Ser Thr Cys Asn Glu Asp Glu Phe 370 375 380 Asp Leu Tyr Arg Gln Met Ser Glu Ser Val Asn Phe Gly Ile Leu Glu 385 390 395 400 Thr Asp Ser Leu Phe Glu Arg Val Val Asn Gln Ser Lys Gly Gly Cys 405 410 415 Leu Asn Asn Lys Phe Ile Arg Arg Glu Leu Ala Met Gln Lys Val Phe 420 425 430 Asp Asn Ile Thr Lys Thr Asn Lys Asp Gln Asn Ile Val Asp Tyr Val 435 440 445 Asn Tyr Val Lys Met Leu Arg Ala Lys Tyr Lys Ala Tyr Phe Ile Leu 450 455 460 Lys Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Lys Met Gly 465 470 475 480 Phe Thr Asp Val Ser Thr Glu Ser Lys Glu Thr Met Asp Lys Arg Arg 485 490 495 Met Glu Phe Pro Phe Val Asn Thr Asp Thr Ala Lys Glu Leu Leu Ala 500 505 510 Lys Leu Asn Asn Ile Glu Gln Asp Leu Ile Gly Cys Arg Asp Asn Ile 515 520 525 Val Thr Tyr Ala Phe Asn Ile Phe Lys Asn Asn Gly Tyr Asp Thr Leu 530 535 540 Ala Val Glu Tyr Leu Asp Ser Ala Gln Phe Asp Lys Arg Arg Met Pro 545 550 555 560 Thr Pro Thr Ser Leu Leu Lys Tyr His Lys Phe Glu Gly Lys Thr Lys 565 570 575 Asp Glu Val Glu Asp Met Met Lys Ser Lys Lys Phe Ser Asn Ala Tyr 580 585 590 Tyr Thr Phe Lys Phe Glu Asn Asp Val Val Ser Asn Ile Glu Tyr Ser 595 600 605 Asn Asp Gly Ile Trp Lys Gln Lys Gln Leu Asn Phe Gly Asn Leu Ile 610 615 620 Ile Lys Ala Ile His Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu 625 630 635 640 Cys Asn Asn Asn Lys Met Asn Ile Val Phe Cys Pro Ser Ala Phe Thr 645 650 655 Ser Gln Met Asp Ser Ile Thr His Thr Leu Tyr Tyr Val Glu Lys Ile 660 665 670 Thr Lys Lys Lys Asn Gly Lys Glu Glu Lys Lys Tyr Val Leu Ala Asn 675 680 685 Lys Lys Met Val Arg Thr Gln Gln Glu Thr His Ile Asn Gly Leu Asn 690 695 700 Ala Asp Tyr Asn Ser Ala Cys Asn Leu Lys Tyr Ile Ala Leu Asn Asp 705 710 715 720 Glu Leu Arg Asn Glu Met Thr Asp Thr Phe Lys Val Thr Asn Arg Gln 725 730 735 Lys Thr Met Tyr Gly Ile Pro Ala Tyr Asn Ile Lys Arg Gly Phe Lys 740 745 750 Lys Asn Leu Ser Ala Lys Thr Ile Asn Thr Phe Arg Lys Leu Gly His 755 760 765 Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Met Phe Val Glu Thr Leu 770 775 780 Ala 785 <210> 49 <211> 805 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 49 Met Ala His Lys Thr Asn Asn Gly Glu Asn Thr Ile Asn Lys Thr Phe 1 5 10 15 Ile Phe Lys Ala Lys Cys Asp Asn Asn Asp Ile Ile Ser Leu Trp Lys 20 25 30 Pro Ala Met Glu Glu Tyr Cys Thr Tyr Tyr Asn Lys Leu Ser Gln Trp 35 40 45 Ile Cys Asn Asn Leu Thr Ser Met Lys Val Lys Asp Leu Phe Ala Tyr 50 55 60 Leu Asp Asp Lys Gln Lys Thr Lys Pro Cys Val Asp Lys Lys Thr Gly 65 70 75 80 Glu Thr Lys Ile Gly Val Gly Tyr Tyr Arg Tyr Phe Ile Glu Asn Asn 85 90 95 Lys Glu Asp Met Pro Leu Tyr Trp Leu Phe Thr Lys Asn Cys Ser Ser 100 105 110 Ser His Ala Asp Asn Leu Leu Phe Glu Phe Val Arg Lys Val Asn His 115 120 125 Glu Glu Tyr Asn Gly Asn Ser Leu Gly Met Gly Glu Thr Asp Tyr Arg 130 135 140 Arg Phe Gly Tyr Phe Gln Asn Val Ile Ser Asn Phe Arg Thr Lys Met 145 150 155 160 Ser Ser Leu Lys Ala Thr Thr Lys Trp Lys Lys Phe Asp Val Asn Asp 165 170 175 Val Asp Glu Asp Thr Leu Lys Asn Gln Thr Ile Tyr Asp Val Asp Lys 180 185 190 Tyr Gly Ile Glu Ser Val Asn Asp Phe Asn Glu Arg Ile Asp Ile Leu 195 200 205 Lys Ile Arg Glu Glu Thr Glu Gln Thr Lys Asp Lys Ile Ala Arg Leu 210 215 220 Glu Cys Leu Cys Lys Tyr Tyr Lys Glu His Glu Glu Asp Ile Lys Asn 225 230 235 240 Glu Ile Ala Thr Met Ala Ile Ala Asp Leu Gln Lys Phe Gly Gly Cys 245 250 255 Gln Arg Lys Ser Met Asn Thr Leu Thr Ile His Lys Gln Asp Ser Pro 260 265 270 Met Glu Lys Val Gly Asn Thr Ser Phe Asn Leu Arg Leu Thr Phe Asn 275 280 285 Lys Lys Pro Tyr Thr Leu Asn Leu Leu Gly Asn Arg Gln Val Val Lys 290 295 300 Phe Val Gly Gly Lys Arg Ile Asp Leu Ile Asn Ile Thr Glu Asn His 305 310 315 320 Gly Asp Trp Ile Thr Phe Asn Ile Lys Asn Asn Glu Leu Phe Val His 325 330 335 Met Thr Ser Pro Val Asp Phe Glu Lys Glu Val Cys Glu Ile Lys Asn 340 345 350 Ala Val Gly Val Asp Val Asn Ile Lys His Met Met Leu Ala Thr Ser 355 360 365 Ile Val Asp Asp Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Arg Glu 370 375 380 Leu Val Asn Asn Asn Asp Phe Ile Ala Thr Phe Gly Asn Ser Lys Asn 385 390 395 400 Gly His Gln Gly Leu Glu Ile Tyr Glu Gln Met Ala Glu Asn Val Asn 405 410 415 Phe Gly Ile Leu Glu Thr Glu Ser Leu Phe Glu Arg Val Val Asn Gln 420 425 430 Ser Asn Gly Gly Glu Leu Asn Asn Gln Leu Ile Arg Arg Glu Ile Ala 435 440 445 Met Gln Lys Val Phe Asp Asn Ile Thr Lys Thr Asn Asn Asp Lys Asn 450 455 460 Ile Val Asn Tyr Val Asn Tyr Val Lys Met Leu Arg Ala Lys Tyr Lys 465 470 475 480 Ala Tyr Phe Ile Leu Lys Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr 485 490 495 Asp Asp Met Met Gly Phe Asn Asp Glu Ser Thr Glu Asn Lys Glu Met 500 505 510 Met Asp Lys Arg Arg Phe Glu Phe Ser Phe Ile Asn Thr Asp Thr Ala 515 520 525 Gln Glu Leu Leu Ile Lys Leu Asn Lys Val Glu Gln Asp Leu Ile Gly 530 535 540 Cys Arg Asp Asn Ile Val Thr Tyr Ala Phe Asn Val Phe Lys Thr Asn 545 550 555 560 Gly Tyr Asp Thr Leu Ala Val Glu Tyr Leu Asp Ser Ala Gln Phe Asp 565 570 575 Lys Ala Lys Met Pro Thr Pro Lys Ser Leu Leu Lys Tyr His Lys Phe 580 585 590 Glu Gly Lys Thr Ile Asp Glu Val Lys Glu Met Met Asn Asn Lys Asn 595 600 605 Phe Thr Asn Ala Tyr Tyr Asn Phe Lys Phe Glu Asn Glu Ile Val Lys 610 615 620 Asp Ile Glu Tyr Ser Thr Asp Gly Ile Trp Arg Gln Lys Lys Leu Asn 625 630 635 640 Phe Met Asn Leu Ile Ile Lys Ala Ile His Phe Ala Asp Ile Lys Asp 645 650 655 Lys Phe Val Gln Leu Cys Asn Asn Asn Ser Met Asn Val Val Phe Cys 660 665 670 Pro Ser Ala Phe Thr Ser Gln Met Asp Ser Ile Thr His Ser Leu Tyr 675 680 685 Tyr Ile Glu Lys Thr Ser Lys Thr Lys Asn Gly Lys Glu Lys Lys Gln 690 695 700 Tyr Val Leu Ala Asn Lys Lys Met Val Arg Thr Gln Gln Glu Lys His 705 710 715 720 Ile Asn Gly Leu Asn Ala Asp Phe Asn Ser Ala Cys Asn Leu Lys Tyr 725 730 735 Ile Ala Leu Asp Glu Glu Leu Arg Asn Ala Met Thr Asp Glu Phe Asn 740 745 750 Pro Lys Lys Gln Lys Thr Met Tyr Gly Val Pro Ala Tyr Asn Ile Lys 755 760 765 Asn Gly Phe Lys Lys Asn Leu Ser Thr Lys Thr Ile Asn Thr Phe Arg 770 775 780 Thr Leu Gly His Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Val Phe 785 790 795 800 Val Glu Asn Leu Ala 805 <210> 50 <211> 784 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 50 Met Tyr Asn Ser Lys Lys Lys Gly Glu Gly Asp Ile Gln Lys Ser Phe 1 5 10 15 Lys Phe Lys Val Lys Thr Asp Lys Glu Thr Val Glu Leu Phe Arg Lys 20 25 30 Ala Ala Val Glu Tyr Ser Glu Tyr Tyr Lys Arg Leu Thr Thr Phe Leu 35 40 45 Cys Glu Arg Leu Thr Asp Met Thr Trp Gly Glu Val Ala Ser Phe Ile 50 55 60 Pro Glu Lys Tyr Arg Lys Asn Glu Tyr Tyr Lys Tyr Leu Ile Lys Glu 65 70 75 80 Glu Asn Lys Asp Leu Pro Leu Tyr Lys Met Phe Thr Lys Ala Ala Ser 85 90 95 Ser Met Phe Ile Asp His Ser Ile Glu Arg Tyr Val Glu Ala Leu Asn 100 105 110 Pro Glu Gly Asn Thr Gly Asn Ile Leu Gly Phe Cys Lys Ser Ser Tyr 115 120 125 Val Arg Gly Gly Tyr Leu Lys Asn Val Val Ser Asn Ile Arg Thr Lys 130 135 140 Phe Ala Thr Leu Lys Thr Gly Ile Lys Tyr Lys Lys Phe Asn Pro Ala 145 150 155 160 Glu Asp Asp Glu Glu Thr Ile Leu Gly Gln Thr Val Phe Glu Met Glu 165 170 175 Lys Arg Gly Leu Glu Phe Lys Cys Asp Phe Glu Lys Thr Ile Lys Tyr 180 185 190 Leu Asn Glu Lys Gly Lys Thr Gln Glu Ala Glu Arg Leu Gln Cys Leu 195 200 205 Met Glu Tyr Phe Ser Thr Asn Thr Asp Lys Ile Asn Glu Tyr Arg Glu 210 215 220 Ser Leu Val Leu Asp Asp Ile Arg Lys Phe Gly Gly Cys Asn Arg Ser 225 230 235 240 Lys Ser Asn Ser Phe Ser Val Thr Leu Glu Lys Ala Asp Ile Lys Glu 245 250 255 Asp Gly Leu Thr Gly Tyr Thr Met Lys Val Ser Lys Lys Leu Lys Glu 260 265 270 Ile His Leu Leu Gly His Arg Arg Val Val Glu Val Val Asn Gly Arg 275 280 285 Arg Val Asn Leu Val Asp Ile Cys Gly Asp Lys Ser Gly Asp Ser Lys 290 295 300 Val Phe Val Val Asp Gly Asp Asn Leu Tyr Val Cys Ile Ser Ala Pro 305 310 315 320 Val Lys Phe Ser Lys Asn Gly Met Glu Ala Lys Lys Tyr Ile Gly Val 325 330 335 Asp Met Asn Met Lys His Ser Ile Ile Ser Val Ser Asp Asn Ala Ser 340 345 350 Asp Met Lys Gly Phe Leu Asn Ile Tyr Lys Glu Leu Leu Lys Asp Glu 355 360 365 Gly Phe Arg Lys Thr Leu Asn Ala Thr Glu Leu Glu Lys Tyr Glu Lys 370 375 380 Leu Ala Glu Gly Val Asn Ile Gly Ile Ile Glu Tyr Asp Gly Leu Tyr 385 390 395 400 Glu Arg Ile Val Lys Gln Lys Lys Glu Asn Ser Val Asp Gly Leu Lys 405 410 415 Val Gln Ala Glu Lys Lys Leu Ile Glu Arg Glu Ala Ala Ile Glu Arg 420 425 430 Val Leu Asp Lys Leu Arg Lys Gly Thr Ser Asp Thr Asp Thr Glu Asn 435 440 445 Tyr Ile Asn Tyr Asn Lys Ile Leu Arg Ala Lys Ile Lys Ser Ala Tyr 450 455 460 Ile Leu Lys Asp Lys Tyr Tyr Glu Met Leu Gly Lys Tyr Asp Ser Glu 465 470 475 480 Arg Ala Gly Ser Gly Asp Leu Ser Glu Glu Asn Lys Ile Lys Tyr Lys 485 490 495 Asp Glu Phe Asn Glu Thr Glu Lys Gly Lys Glu Ile Leu Gly Lys Leu 500 505 510 Asn Asn Val Tyr Lys Asp Ile Ile Gly Cys Arg Asp Asn Ile Val Thr 515 520 525 Tyr Ala Val Asn Leu Phe Ile Arg Asn Gly Tyr Asp Thr Val Ala Leu 530 535 540 Glu Tyr Leu Glu Ser Ser Gln Met Lys Ala Arg Arg Ile Pro Ser Thr 545 550 555 560 Gly Gly Leu Leu Lys Gly His Lys Leu Glu Gly Lys Pro Glu Gly Glu 565 570 575 Val Thr Ala Tyr Leu Lys Ala Asn Lys Ile Pro Lys Ser Tyr Tyr Ser 580 585 590 Phe Glu Tyr Asp Gly Asn Gly Met Leu Thr Asp Val Lys Tyr Ser Asp 595 600 605 Met Gly Glu Lys Ala Arg Gly Arg Asn Arg Phe Lys Asn Leu Val Pro 610 615 620 Lys Phe Leu Arg Trp Ala Ser Ile Lys Asp Lys Phe Val Gln Leu Ser 625 630 635 640 Asn Tyr Lys Asp Ile Gln Met Val Tyr Val Pro Ser Pro Tyr Thr Ser 645 650 655 Gln Thr Asp Ser Arg Thr His Ser Leu Tyr Tyr Ile Glu Thr Val Lys 660 665 670 Val Asp Glu Lys Thr Gly Lys Glu Lys Lys Glu His Ile Val Ala Pro 675 680 685 Lys Glu Ser Val Arg Thr Glu Gln Glu Ser Phe Val Asn Gly Met Asn 690 695 700 Ala Asp Thr Asn Ser Ala Asn Asn Ile Lys Tyr Ile Phe Glu Asn Glu 705 710 715 720 Thr Leu Arg Asp Lys Phe Leu Lys Arg Thr Lys Asp Gly Thr Glu Met 725 730 735 Tyr Asn Arg Pro Ala Phe Asp Leu Lys Glu Cys Tyr Lys Lys Asn Ser 740 745 750 Asn Val Ser Val Phe Asn Thr Leu Lys Lys Thr Leu Gly Ala Ile Tyr 755 760 765 Gly Lys Leu Asp Glu Asn Gly Asn Phe Ile Glu Asn Glu Cys Asn Lys 770 775 780 <210> 51 <211> 764 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 51 Met Asn Lys Ser Tyr Val Phe Lys Ser Asn Val Ala Ile Asp Asp Ile 1 5 10 15 Met Ser Leu Phe Glu Pro Ala Ile Glu Glu Tyr Ile Asn Tyr Tyr Asn 20 25 30 Arg Thr Ser Asp Phe Ile Cys Asp Asn Leu Thr Ser Met Lys Ile Gly 35 40 45 Asp Leu Ala Asn Tyr Ile Lys Asn Lys Glu Asn Val Tyr Cys Lys Phe 50 55 60 Val Leu Asn Asp Asp Ile Lys Asp Leu Pro Leu Tyr Lys Ile Phe Ser 65 70 75 80 Leu Asn Leu Asn Ser Ser Gln Lys Lys Asn Ala Asp Asn Ala Leu Tyr 85 90 95 Glu Ala Ile Lys Val Leu Asn Ala Asp Gly Tyr Lys Gly Lys Asn Ile 100 105 110 Leu Gly Leu Gly Asp Thr Tyr Phe Arg Arg Asn Gly Tyr Val Lys Asn 115 120 125 Val Ile Ser Asn Tyr Arg Thr Lys Phe Val Thr Leu Lys Pro Asn Val 130 135 140 Lys Tyr Ser Lys Ile Asp Ile Asn Ser Val Thr Glu Gln Leu Ile Lys 145 150 155 160 Thr Gln Thr Ile Phe Glu Val Val Asn Lys Lys Ile Glu Ser Glu Thr 165 170 175 Asp Phe Glu Asn Leu Ile Thr Tyr Phe Lys Asn Arg Glu Thr Pro Asn 180 185 190 Asp Glu Lys Ile Lys Arg Leu Glu Leu Leu Phe Asp Tyr Tyr Thr Lys 195 200 205 His Lys Asn Glu Ile Asn Glu Glu Ile Glu Lys His Ala Val Glu Ser 210 215 220 Leu Lys Ser Phe Asn Gly Cys Arg Arg Asn Gly Asn Arg Lys Thr Met 225 230 235 240 Thr Val Gln Met Gln Lys Met Leu Leu Lys Lys His Gly Leu Thr Ser 245 250 255 Tyr Ile Leu His Leu Val Leu Asp Lys Lys Pro Tyr Asp Ile Asn Leu 260 265 270 Met Gly Asn Arg Gln Thr Val Lys Val Asp Asn Asn Gly Asn Arg Val 275 280 285 Asp Leu Val Asp Ile Ser Ser Lys His Gly Tyr Asp Leu Thr Phe Glu 290 295 300 Val Lys Gly Lys Thr Leu Phe Phe Thr Phe Ser Ser Glu Lys Asp Phe 305 310 315 320 Ser Lys Lys Glu Gln Glu Ile Lys Asn Ile Leu Gly Ile Asp Ile Asn 325 330 335 Thr Lys His Ser Met Leu Ala Thr Ser Ile Thr Asp Asn Gly Lys Val 340 345 350 Lys Gly Tyr Ile Asn Ile Tyr Val Glu Leu Leu Lys Asn Lys Asp Phe 355 360 365 Val Ser Thr Leu Asn Lys Glu Glu Leu Ala Tyr Tyr Thr Glu Met Ala 370 375 380 Lys Phe Val Ser Phe Gly Leu Leu Glu Ile Pro Ser Leu Phe Glu Arg 385 390 395 400 Val Ser Asn Gln Tyr Asp Lys Lys Asn Asn Val Ser Ile Thr Asp Glu 405 410 415 Thr Leu Leu Lys Arg Glu Ile Ala Ile Ser Gln Thr Leu Asp Asn Leu 420 425 430 Ala Lys Lys Tyr Arg Asp Lys Asn Cys Lys Ile Ala Ser Tyr Ile Asp 435 440 445 Tyr Thr Lys Met Leu Arg Ser Lys Tyr Lys Ser Tyr Phe Ile Leu Lys 450 455 460 Gln Lys Tyr Tyr Glu Lys Asn His Glu Tyr Asp Asp Lys Met Gly Phe 465 470 475 480 Ser Asp Ile Ser Thr Asn Ser Lys Glu Thr Met Asp Pro Arg Arg Phe 485 490 495 Glu Asn Pro Phe Ile Asn Thr Asp Ile Ala Lys Gly Leu Ile Val Lys 500 505 510 Leu Glu Asn Val Lys Cys Asp Ile Val Gly Cys Arg Asp Asn Ile Ile 515 520 525 Lys Tyr Ala Tyr Asp Val Ile Val Leu Asn Gly Phe Asp Thr Ile Gly 530 535 540 Leu Glu Tyr Leu Asp Ser Ser Asn Phe Glu Arg Asp Arg Leu Pro Phe 545 550 555 560 Pro Thr Ala Lys Ser Leu Met Thr Tyr Tyr Gly Phe Glu Gly Lys Lys 565 570 575 Tyr Ser Glu Ile Asp Lys Ser Val Phe Asn Thr Lys Tyr Tyr Asn Phe 580 585 590 Ile Phe Asn Glu Asn Glu Thr Ile Lys Asp Ile Ser Tyr Ser Val Tyr 595 600 605 Gly Leu Lys Glu Ile Gln Lys Lys Arg Phe Lys Asn Leu Val Ile Lys 610 615 620 Ala Ile Gly Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu Ser Asn 625 630 635 640 Asn Thr Asn Met Asn Val Ile Phe Val Pro Ala Ala Phe Thr Ser Gln 645 650 655 Met Asp Ser Asn Thr His Lys Ile Tyr Val Lys Glu Ile Met Asp Lys 660 665 670 Asn Asn Lys Lys Gln Leu Gln Leu Ile Asp Lys Arg Lys Val Arg Thr 675 680 685 Lys Gln Glu Phe His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala 690 695 700 Asn Asn Ile Lys Tyr Ile Ala Glu Asn Asn Asp Leu Leu Leu Thr Met 705 710 715 720 Cys Thr Lys Thr Lys Glu Asn Asn Arg Tyr Gly Asn Pro Leu Tyr Asn 725 730 735 Ile Lys Asp Thr Phe Lys Lys Lys Ile Pro Ser Ser Ile Leu Asn Ile 740 745 750 Phe Lys Lys Lys Asp Met Tyr Gln Ile Ile Cys Asp 755 760 <210> 52 <211> 768 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 52 Met Phe Arg Ile Phe Ala Ala Leu Lys Leu Thr Asn Met Gly His Val 1 5 10 15 Arg Leu Gln Lys Arg Glu Gly Glu Val Tyr Lys Thr Tyr Lys Leu Lys 20 25 30 Val Lys Ser Phe Ser Gly Asn Val Asp Ile Lys Ala Gly Ile Val Glu 35 40 45 Tyr Asp Gln Lys Phe Asn Asn Val Ser Gln Trp Ile Ala Asp His Leu 50 55 60 Thr Ser Met Thr Ile Gly Glu Ala Ala Ser Arg Ile Ser Pro His Lys 65 70 75 80 Met Asp Ser Gln Tyr Ala Met Thr Ser Leu Ser Asp Glu Trp Lys Asp 85 90 95 Gln Pro Leu Tyr Lys Ile Phe Thr Arg Gly Phe Gly Gly Met Asn Ala 100 105 110 Asp Asn Leu Ile Ile Glu Cys Thr Lys Thr Glu Glu Asn Cys Lys Tyr 115 120 125 Asp Lys Glu Lys Ser Leu Gly Phe Ser Glu Ser Val Phe Arg Thr Phe 130 135 140 Gly Phe Ala Ala Asn Ala Ser Ser Asp Met Lys Ser Arg Met Thr Gln 145 150 155 160 Ala Lys Val Lys Ile Gly Arg Lys Asn Ile Asp Glu Asp Ser Ala Asp 165 170 175 Asp Glu Lys Cys Leu Gln Ala Ile Tyr Glu Ile Gln Lys Asn Glu Leu 180 185 190 Leu Thr Asp Asp Asn Trp Lys Asp Arg Ile Gly Tyr Leu Glu Met Lys 195 200 205 Gly Asp Gln Glu Arg Glu Leu Glu Arg Thr Thr Ile Leu Tyr Asp Tyr 210 215 220 Tyr Arg Ala Asn Arg Thr Thr Val Leu Asp Lys Leu Asp Asn Leu Lys 225 230 235 240 Val Glu Thr Leu Ser Lys Phe Arg Gly Ser Lys Arg Lys Ser Asp Arg 245 250 255 Lys Ile Leu Thr Leu Asn Gly Ile Ser Tyr Asp Ile Lys Arg Lys Glu 260 265 270 Gly Cys Gln Gly Phe Glu Leu Lys Phe Ser Val Asp Lys Asn His Met 275 280 285 Glu Phe Asp Leu Leu Gly His Arg Ala Leu Ile Lys Asn Gly Glu Met 290 295 300 Leu Val Asp Ile Glu Asn Cys His Gly Ser Gln Leu Ser Leu Glu Ile 305 310 315 320 Asp Gly Asp Asp Met Tyr Ala Ile Ile Ser Met Arg Thr Phe Cys Glu 325 330 335 Lys Asn Glu Ser Lys Leu Glu Lys Ile Ile Gly Ala Asp Val Asn Ile 340 345 350 Lys His Met Phe Leu Met Thr Ser Glu Lys Asp Asp Gly Asn Thr Lys 355 360 365 Cys Tyr Val Asn Leu Tyr Arg Glu Leu Leu Ser Asp Ser Asp Phe Thr 370 375 380 Asp Val Leu Asn Lys Glu Glu Tyr Glu Ile Phe Ser Glu Leu Ser Lys 385 390 395 400 Tyr Val Met Phe Gly Leu Ile Glu Thr Pro Tyr Leu Gly Ser Arg Val 405 410 415 Ile Gly Thr Thr Gln His Glu Lys Ile Val Glu Asp Lys Ile Thr Ser 420 425 430 Gly Met Lys Lys Ile Ala Ile Arg Leu Phe Gln Glu Gly Lys Val Arg 435 440 445 Glu Arg Ile Tyr Val Gln Asn Val Leu Lys Ile Arg Ala Leu Leu Lys 450 455 460 Ala Leu Phe Ser Thr Lys Leu Ala Tyr Ser Asn Glu Gln Lys Ile Tyr 465 470 475 480 Asp Asn Leu Met Arg Phe Gly Glu Lys Asp Asp Arg Arg Lys Asp Glu 485 490 495 Gly Phe His Thr Thr Cys Arg Gly Thr Ser Leu Arg Ser Glu Met Asp 500 505 510 Met Leu Ser Lys Lys Ile Leu Ala Cys Arg Asp Asn Ile Val Glu Tyr 515 520 525 Gly Tyr Tyr Val Ile Gly Leu Asn Gly Phe Asp Gly Ile Ser Leu Glu 530 535 540 Asn Leu Glu Ser Ser Thr Phe Met Asp Val Lys Ile Ser Tyr Pro Ser 545 550 555 560 Cys Asn Ser Met Leu Asp His Phe Lys Leu Lys Gly Lys Thr Ile Glu 565 570 575 Glu Ala Glu Asn His Glu Thr Val Gly Lys Phe Ile Lys Lys Gly Tyr 580 585 590 Tyr Val Met Thr Leu Val Asn Gly Lys Ile Asn Asp Ile Asn Tyr Ser 595 600 605 Glu Lys Ala Val Met Leu His Lys Lys Asn Leu Leu Tyr Asp Thr Val 610 615 620 Ile Lys Ser Thr His Phe Ala Asp Val Lys Asp Lys Phe Val Glu Leu 625 630 635 640 Ser Asn Asn Gly Lys Val Ser Val Val Ile Val Pro Pro Tyr Phe Ser 645 650 655 Ser Gln Met Asp Ser Val Thr His Lys Val Phe Thr Glu Glu Ile Val 660 665 670 Val Gln Lys Lys Ser Ser Asn Gly Lys Val Arg Lys Thr Lys Lys Thr 675 680 685 Val Leu Val Asp Lys Arg Lys Val Arg Lys Thr Gln Glu Ser His Ile 690 695 700 Asn Gly Leu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Leu Lys Tyr Ile 705 710 715 720 Ala Glu Thr Ile Asp Trp Arg Ser Thr Leu Cys Phe Lys Thr Trp Asn 725 730 735 Thr Tyr Gly Ser Pro Gln Trp Asp Ser Lys Ile Lys Asn Gln Lys Thr 740 745 750 Met Ile Asp Arg Leu Asp Ser Leu Gly Ala Ile Glu Leu Lys Asn Trp 755 760 765 <210> 53 <211> 764 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 53 Met Asn Lys Ser Tyr Val Phe Lys Ser Asn Val Ala Ile Asp Asp Ile 1 5 10 15 Met Ser Leu Phe Glu Pro Ala Ile Glu Glu Tyr Ile Asn Tyr Tyr Asn 20 25 30 Arg Thr Ser Asp Phe Ile Cys Asp Asn Leu Thr Ser Met Lys Ile Gly 35 40 45 Asp Leu Ala Asn Tyr Ile Lys Asn Lys Glu Asn Val Tyr Cys Lys Phe 50 55 60 Val Leu Asn Asp Asp Ile Lys Asp Leu Pro Leu Tyr Lys Ile Phe Ser 65 70 75 80 Leu Asn Leu Asn Ser Ser Gln Lys Lys Asn Ala Asp Asn Ala Leu Tyr 85 90 95 Glu Ala Ile Lys Val Leu Asn Ala Asp Gly Tyr Lys Gly Lys Asn Ile 100 105 110 Leu Gly Leu Gly Asp Thr Tyr Phe Arg Arg Asn Gly Tyr Val Lys Asn 115 120 125 Val Ile Ser Asn Tyr Arg Thr Lys Phe Val Thr Leu Lys Pro Asn Val 130 135 140 Lys Tyr Ser Lys Ile Asp Ile Asn Ser Val Thr Glu Gln Leu Ile Lys 145 150 155 160 Thr Gln Thr Ile Phe Glu Val Val Asn Lys Lys Ile Glu Ser Glu Thr 165 170 175 Asp Phe Glu Asn Leu Ile Thr Tyr Phe Lys Asn Arg Glu Thr Pro Asn 180 185 190 Asp Glu Lys Ile Lys Arg Leu Glu Leu Leu Phe Asp Tyr Tyr Thr Lys 195 200 205 His Lys Asn Glu Ile Asn Glu Glu Ile Glu Lys His Ala Val Glu Ser 210 215 220 Leu Lys Ser Phe Asn Gly Cys Arg Arg Asn Gly Asn Arg Lys Thr Met 225 230 235 240 Thr Val Gln Met Gln Lys Met Leu Leu Lys Lys His Gly Leu Thr Ser 245 250 255 Tyr Ile Leu His Leu Val Leu Asp Lys Lys Pro Tyr Asp Ile Asn Leu 260 265 270 Met Gly Asn Arg Gln Thr Val Lys Val Asp Asn Asn Gly Asn Arg Val 275 280 285 Asp Leu Val Asp Ile Ser Ser Lys His Gly Tyr Asp Leu Thr Phe Glu 290 295 300 Val Lys Gly Lys Thr Leu Phe Phe Thr Phe Ser Ser Glu Lys Asp Phe 305 310 315 320 Ser Lys Lys Glu Gln Glu Ile Lys Asn Ile Leu Gly Ile Asp Ile Asn 325 330 335 Thr Lys His Ser Met Leu Ala Thr Ser Ile Thr Asp Asn Gly Lys Val 340 345 350 Lys Gly Tyr Ile Asn Ile Tyr Val Glu Leu Leu Lys Asn Lys Asp Phe 355 360 365 Val Ser Thr Leu Asn Lys Glu Glu Leu Ala Tyr Tyr Thr Glu Met Ala 370 375 380 Lys Phe Val Ser Phe Gly Leu Leu Glu Ile Pro Ser Leu Phe Glu Arg 385 390 395 400 Val Ser Asn Gln Tyr Asp Lys Lys Asn Asn Val Ser Ile Thr Asp Glu 405 410 415 Thr Leu Leu Lys Arg Glu Ile Ala Ile Ser Gln Thr Leu Asp Asn Leu 420 425 430 Ala Lys Lys Tyr Arg Asp Lys Asn Cys Lys Ile Ala Ser Tyr Ile Asp 435 440 445 Tyr Thr Lys Met Leu Arg Ser Lys Tyr Lys Ser Tyr Phe Ile Leu Lys 450 455 460 Gln Lys Tyr Tyr Glu Lys Asn His Glu Tyr Asp Asp Lys Met Gly Phe 465 470 475 480 Ser Asp Ile Ser Thr Asn Ser Lys Glu Thr Met Asp Pro Arg Arg Phe 485 490 495 Glu Asn Pro Phe Ile Asn Thr Asp Ile Ala Lys Gly Leu Ile Val Lys 500 505 510 Leu Glu Asn Val Lys Cys Asp Ile Val Gly Cys Arg Asp Asn Ile Ile 515 520 525 Lys Tyr Ala Tyr Asp Val Ile Val Leu Asn Gly Phe Asp Thr Ile Gly 530 535 540 Leu Glu Tyr Leu Asp Ser Ser Asn Phe Glu Arg Asp Arg Leu Pro Phe 545 550 555 560 Pro Thr Ala Lys Ser Leu Met Thr Tyr Tyr Gly Phe Glu Gly Lys Lys 565 570 575 Tyr Ser Glu Ile Asp Lys Ser Val Phe Asn Thr Lys Tyr Tyr Asn Phe 580 585 590 Ile Phe Asn Glu Asn Glu Thr Ile Lys Asp Ile Ser Tyr Ser Val Tyr 595 600 605 Gly Leu Lys Glu Ile Gln Lys Lys Arg Phe Lys Asn Leu Val Ile Lys 610 615 620 Ala Ile Gly Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu Ser Asn 625 630 635 640 Asn Thr Asn Met Asn Val Ile Phe Val Pro Ala Ala Phe Thr Ser Gln 645 650 655 Met Asp Ser Asn Thr His Lys Ile Tyr Val Lys Glu Ile Met Asp Lys 660 665 670 Asn Asn Lys Lys Gln Leu Gln Leu Ile Asp Lys Arg Lys Val Arg Thr 675 680 685 Lys Gln Glu Phe His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala 690 695 700 Asn Asn Ile Lys Tyr Ile Ala Glu Asn Asn Asp Leu Leu Leu Thr Met 705 710 715 720 Cys Thr Lys Thr Lys Glu Asn Asn Arg Tyr Gly Asn Pro Leu Tyr Asn 725 730 735 Ile Lys Asp Thr Phe Lys Lys Lys Ile Pro Ser Ser Ile Leu Asn Ile 740 745 750 Phe Lys Lys Lys Asp Met Tyr Gln Ile Ile Cys Asp 755 760 <210> 54 <211> 805 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 54 Met Ala His Lys Thr Asn Asn Gly Glu Asn Thr Ile Asn Lys Thr Phe 1 5 10 15 Ile Phe Lys Ala Lys Cys Asp Asn Asn Asp Ile Ile Ser Leu Trp Lys 20 25 30 Pro Ala Met Glu Glu Tyr Cys Thr Tyr Tyr Asn Lys Leu Ser Gln Trp 35 40 45 Ile Cys Asn Asn Leu Thr Ser Met Lys Val Lys Asp Leu Phe Ala Tyr 50 55 60 Leu Asp Asp Lys Gln Lys Thr Lys Pro Cys Val Asp Lys Lys Thr Gly 65 70 75 80 Glu Thr Lys Ile Gly Val Gly Tyr Tyr Arg Tyr Phe Ile Glu Asn Asn 85 90 95 Lys Glu Asp Met Pro Leu Tyr Trp Leu Phe Thr Lys Asn Cys Ser Ser 100 105 110 Ser His Ala Asp Asn Leu Leu Phe Glu Phe Val Arg Lys Val Asn His 115 120 125 Glu Glu Tyr Asn Gly Asn Ser Leu Gly Met Gly Glu Thr Asp Tyr Arg 130 135 140 Arg Phe Gly Tyr Phe Gln Asn Val Ile Ser Asn Phe Arg Thr Lys Met 145 150 155 160 Ser Ser Leu Lys Ala Thr Thr Lys Trp Lys Lys Phe Asp Val Asn Asp 165 170 175 Val Asp Glu Asp Thr Leu Lys Asn Gln Thr Ile Tyr Asp Val Asp Lys 180 185 190 Tyr Gly Ile Glu Ser Val Asn Asp Phe Asn Glu Arg Ile Asp Ile Leu 195 200 205 Lys Ile Arg Glu Glu Thr Glu Gln Thr Lys Asp Lys Ile Ala Arg Leu 210 215 220 Glu Cys Leu Cys Lys Tyr Tyr Lys Glu His Glu Glu Asp Ile Lys Asn 225 230 235 240 Glu Ile Ala Thr Met Ala Ile Ala Asp Leu Gln Lys Phe Gly Gly Cys 245 250 255 Gln Arg Lys Ser Met Asn Thr Leu Thr Ile His Lys Gln Asp Ser Pro 260 265 270 Met Glu Lys Val Gly Asn Thr Ser Phe Asn Leu Arg Leu Thr Phe Asn 275 280 285 Lys Lys Pro Tyr Thr Leu Asn Leu Leu Gly Asn Arg Gln Val Val Lys 290 295 300 Phe Val Gly Gly Lys Arg Ile Asp Leu Ile Asn Ile Thr Glu Asn His 305 310 315 320 Gly Asp Trp Ile Thr Phe Asn Ile Lys Asn Asn Glu Leu Phe Val His 325 330 335 Met Thr Ser Pro Val Asp Phe Glu Lys Glu Val Cys Glu Ile Lys Asn 340 345 350 Ala Val Gly Val Asp Val Asn Ile Lys His Met Met Leu Ala Thr Ser 355 360 365 Ile Val Asp Asp Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Arg Glu 370 375 380 Leu Val Asn Asn Asn Asp Phe Ile Ala Thr Phe Gly Asn Ser Lys Asn 385 390 395 400 Gly His Gln Gly Leu Glu Ile Tyr Glu Gln Met Ala Glu Asn Val Asn 405 410 415 Phe Gly Ile Leu Glu Thr Glu Ser Leu Phe Glu Arg Val Val Asn Gln 420 425 430 Ser Asn Gly Gly Glu Leu Asn Asn Gln Leu Ile Arg Arg Glu Ile Ala 435 440 445 Met Gln Lys Val Phe Asp Asn Ile Thr Lys Thr Asn Asn Asp Lys Asn 450 455 460 Ile Val Asn Tyr Val Asn Tyr Val Lys Met Leu Arg Ala Lys Tyr Lys 465 470 475 480 Ala Tyr Phe Ile Leu Lys Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr 485 490 495 Asp Asp Met Met Gly Phe Asn Asp Glu Ser Thr Glu Asn Lys Glu Met 500 505 510 Met Asp Lys Arg Arg Phe Glu Phe Ser Phe Ile Asn Thr Asp Thr Ala 515 520 525 Gln Glu Leu Leu Ile Lys Leu Asn Lys Val Glu Gln Asp Leu Ile Gly 530 535 540 Cys Arg Asp Asn Ile Val Thr Tyr Ala Phe Asn Val Phe Lys Thr Asn 545 550 555 560 Gly Tyr Asp Thr Leu Ala Val Glu Tyr Leu Asp Ser Ala Gln Phe Asp 565 570 575 Lys Ala Lys Met Pro Thr Pro Lys Ser Leu Leu Lys Tyr His Lys Phe 580 585 590 Glu Gly Lys Thr Ile Asp Glu Val Lys Glu Met Met Asn Asn Lys Asn 595 600 605 Phe Thr Asn Ala Tyr Tyr Asn Phe Lys Phe Glu Asn Glu Ile Val Lys 610 615 620 Asp Ile Glu Tyr Ser Thr Asp Gly Ile Trp Arg Gln Lys Lys Leu Asn 625 630 635 640 Phe Met Asn Leu Ile Ile Lys Ala Ile His Phe Ala Asp Ile Lys Asp 645 650 655 Lys Phe Val Gln Leu Cys Asn Asn Asn Ser Met Asn Val Val Phe Cys 660 665 670 Pro Ser Ala Phe Thr Ser Gln Met Asp Ser Ile Thr His Ser Leu Tyr 675 680 685 Tyr Ile Glu Lys Thr Ser Lys Thr Lys Asn Gly Lys Glu Lys Lys Gln 690 695 700 Tyr Val Leu Ala Asn Lys Lys Met Val Arg Thr Gln Gln Glu Lys His 705 710 715 720 Ile Asn Gly Leu Asn Ala Asp Phe Asn Ser Ala Cys Asn Leu Lys Tyr 725 730 735 Ile Ala Leu Asp Glu Glu Leu Arg Asn Ala Met Thr Asp Glu Phe Asn 740 745 750 Pro Lys Lys Gln Lys Thr Met Tyr Gly Val Pro Ala Tyr Asn Ile Lys 755 760 765 Asn Gly Phe Lys Lys Asn Leu Ser Thr Lys Thr Ile Asn Thr Phe Arg 770 775 780 Thr Leu Gly His Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Val Phe 785 790 795 800 Val Glu Asn Leu Ala 805 <210> 55 <211> 785 <212> PRT <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 55 Met Ala His Lys Thr Asn Asn Gly Glu Asn Thr Ile Asn Lys Thr Phe 1 5 10 15 Ile Phe Lys Ala Lys Cys Glu Lys Asn Asp Ile Ile Ser Leu Trp Lys 20 25 30 Pro Ala Ala Glu Glu Tyr Cys Asn Tyr Tyr Asn Lys Leu Ser Lys Trp 35 40 45 Ile Gly Asp Ser Leu Thr Thr Met Lys Ile Gly Asp Leu Ala Gln Tyr 50 55 60 Ile Thr Asn Gln Asn Ser Ala Tyr Tyr Leu Ala Val Thr Asn Asp Ser 65 70 75 80 Lys Lys Asp Leu Pro Leu Tyr Lys Ile Phe Gln Lys Gly Phe Ser Ser 85 90 95 Gln Cys Ala Asp Asn Ala Leu Tyr Ser Ala Ile Lys Ala Ile Asn Pro 100 105 110 Glu Asn Tyr Asn Gly Asn Ser Leu Glu Ile Gly Glu Thr Asp Tyr Arg 115 120 125 Arg Phe Gly Tyr Val Gln Ser Val Ile Gly Asn Phe Arg Thr Lys Met 130 135 140 Ser Ser Leu Lys Val Ser Val Lys Tyr Lys Lys Phe Asp Val Asn Asp 145 150 155 160 Val Asp Glu Glu Thr Leu Lys Thr Gln Thr Ile Tyr Asp Val Asp Lys 165 170 175 Tyr Gly Ile Glu Ser Ile Lys Asp Phe Asn Glu Phe Ile Glu Val Leu 180 185 190 Lys Leu Arg Glu Glu Thr Pro Gln Leu Asn Glu Lys Ile Thr Arg Leu 195 200 205 Glu Cys Leu Cys Gly Tyr Tyr Ser Lys Asn Glu Glu Asn Ile Lys Asn 210 215 220 Glu Ile Glu Thr Met Ala Ile Ser Asp Leu Gln Lys Phe Gly Gly Cys 225 230 235 240 Gln Arg Lys Ser Leu Asn Thr Leu Thr Ile His Lys Gln Asn Ser Leu 245 250 255 Met Glu Lys Val Gly Asn Thr Ser Phe Thr Leu Gln Leu Ser Phe Asn 260 265 270 Lys Lys Pro Tyr Thr Ile Asn Leu Leu Gly Asn Arg Gln Val Val Lys 275 280 285 Phe Val Asp Gly Lys Arg Val Asp Leu Ile Asp Ile Thr Glu Lys His 290 295 300 Gly Asp Trp Val Thr Phe Asn Ile Lys Asn Asp Glu Leu Phe Val His 305 310 315 320 Leu Thr Ser Pro Ile Asp Phe Glu Lys Glu Val Cys Glu Ile Lys Asn 325 330 335 Ala Val Gly Val Asp Val Asn Ile Lys His Asn Met Leu Ala Thr Ser 340 345 350 Ile Lys Asp Asp Gly Asn Val Lys Gly Tyr Ile Asn Leu Tyr Lys Glu 355 360 365 Leu Val Asn Asp Cys Asp Phe Ile Ser Thr Cys Asn Glu Asp Glu Phe 370 375 380 Asp Leu Tyr Arg Gln Met Ser Glu Ser Val Asn Phe Gly Ile Leu Glu 385 390 395 400 Thr Asp Ser Leu Phe Glu Arg Val Val Asn Gln Ser Lys Gly Gly Cys 405 410 415 Leu Asn Asn Lys Phe Ile Arg Arg Glu Leu Ala Met Gln Lys Val Phe 420 425 430 Asp Asn Ile Thr Lys Thr Asn Lys Asp Gln Asn Ile Val Asp Tyr Val 435 440 445 Asn Tyr Val Lys Met Leu Arg Ala Lys Tyr Lys Ala Tyr Phe Ile Leu 450 455 460 Lys Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr Asp Ile Lys Met Gly 465 470 475 480 Phe Thr Asp Val Ser Thr Glu Ser Lys Glu Thr Met Asp Lys Arg Arg 485 490 495 Met Glu Phe Pro Phe Val Asn Thr Asp Thr Ala Lys Glu Leu Leu Ala 500 505 510 Lys Leu Asn Asn Ile Glu Gln Asp Leu Ile Gly Cys Arg Asp Asn Ile 515 520 525 Val Thr Tyr Ala Phe Asn Ile Phe Lys Asn Asn Gly Tyr Asp Thr Leu 530 535 540 Ala Val Glu Tyr Leu Asp Ser Ala Gln Phe Asp Lys Arg Arg Met Pro 545 550 555 560 Thr Pro Thr Ser Leu Leu Lys Tyr His Lys Phe Glu Gly Lys Thr Lys 565 570 575 Asp Glu Val Glu Asp Met Met Lys Ser Lys Lys Phe Ser Asn Ala Tyr 580 585 590 Tyr Thr Phe Lys Phe Glu Asn Asp Val Val Ser Asn Ile Glu Tyr Ser 595 600 605 Asn Asp Gly Ile Trp Lys Gln Lys Gln Leu Asn Phe Gly Asn Leu Ile 610 615 620 Ile Lys Ala Ile His Phe Ala Asp Ile Lys Asp Lys Phe Val Gln Leu 625 630 635 640 Cys Asn Asn Asn Lys Met Asn Ile Val Phe Cys Pro Ser Ala Phe Thr 645 650 655 Ser Gln Met Asp Ser Ile Thr His Thr Leu Tyr Tyr Val Glu Lys Ile 660 665 670 Thr Lys Lys Lys Asn Gly Lys Glu Glu Lys Lys Tyr Val Leu Ala Asn 675 680 685 Lys Lys Met Val Arg Thr Gln Gln Glu Thr His Ile Asn Gly Leu Asn 690 695 700 Ala Asp Tyr Asn Ser Ala Cys Asn Leu Lys Tyr Ile Ala Leu Asn Asp 705 710 715 720 Glu Leu Arg Asn Glu Met Thr Asp Thr Phe Lys Val Thr Asn Arg Gln 725 730 735 Lys Thr Met Tyr Gly Ile Pro Ala Tyr Asn Ile Lys Arg Gly Phe Lys 740 745 750 Lys Asn Leu Ser Ala Lys Thr Ile Asn Thr Phe Arg Lys Leu Gly His 755 760 765 Tyr Arg Asp Gly Lys Ile Asn Glu Asp Gly Met Phe Val Glu Thr Leu 770 775 780 Ala 785 <210> 56 <211> 735 <212> PRT <213> Unknown <220> <223> Description of Unknown: pig gut metagenome sequence <400> 56 Met Ala His Lys Lys Asn Ile Gly Ala Glu Ile Val Lys Thr Tyr Ser 1 5 10 15 Phe Lys Val Lys Asn Thr Asn Gly Ile Thr Met Glu Lys Leu Met Ala 20 25 30 Ala Ile Asp Glu Tyr Gln Ser Tyr Tyr Asn Leu Cys Ser Asp Trp Ile 35 40 45 Cys Lys Asn Leu Thr Thr Met Thr Ile Gly Asp Leu Asp Arg Tyr Ile 50 55 60 Pro Glu Lys Ser Lys Asp Asn Ile Tyr Ala Thr Val Leu Leu Asp Glu 65 70 75 80 Val Trp Lys Asn Gln Pro Leu Tyr Lys Ile Phe Gly Lys Lys Tyr Ser 85 90 95 Ala Asn Asn Arg Asn Asn Ala Leu Tyr Cys Ala Leu Ser Ser Val Ile 100 105 110 Asp Met Asn Lys Glu Asn Val Leu Gly Phe Ser Lys Thr His Tyr Val 115 120 125 Arg Asn Gly Tyr Ile Leu Asn Val Ile Ser Asn Tyr Ala Ser Lys Leu 130 135 140 Ser Lys Leu Asn Thr Gly Val Lys Ser Arg Ala Ile Lys Glu Thr Ser 145 150 155 160 Asp Glu Ala Thr Ile Ile Glu Gln Val Ile Tyr Glu Met Glu His Asn 165 170 175 Lys Trp Glu Ser Ile Glu Asp Trp Lys Asn Gln Ile Glu Tyr Leu Asn 180 185 190 Ser Lys Thr Asp Tyr Asn Pro Thr Tyr Met Glu Arg Met Lys Thr Leu 195 200 205 Ser Ala Tyr Tyr Ser Glu His Lys Ser Glu Ile Asp Ala Lys Met Gln 210 215 220 Glu Met Ala Val Glu Asn Leu Val Lys Phe Gly Gly Cys Arg Arg Asn 225 230 235 240 Asn Ser Lys Lys Ser Met Phe Ile Met Gly Ser Asn His Thr Asn Tyr 245 250 255 Thr Ile Ser Tyr Ile Gly Glu Asn Cys Phe Asn Ile Asn Phe Ala Asn 260 265 270 Ile Leu Asn Phe Asp Val Tyr Gly Arg Arg Asp Val Val Lys Asn Gly 275 280 285 Glu Val Leu Val Asp Ile Met Ala Asn His Gly Asp Ser Ile Val Leu 290 295 300 Lys Ile Val Asn Gly Glu Leu Tyr Ala Asp Val Pro Cys Ser Val Thr 305 310 315 320 Leu Asn Lys Val Glu Ser Asn Phe Asp Lys Val Val Gly Ile Asp Val 325 330 335 Asn Met Lys His Met Leu Leu Ser Thr Ser Val Thr Asp Asn Gly Ser 340 345 350 Leu Asp Phe Leu Asn Ile Tyr Lys Glu Met Ser Asn Asn Ala Glu Phe 355 360 365 Met Ala Leu Cys Pro Glu Lys Asp Arg Lys Tyr Tyr Lys Asp Ile Ser 370 375 380 Gln Tyr Val Thr Phe Ala Pro Leu Glu Leu Asp Leu Leu Phe Ser Arg 385 390 395 400 Ile Ser Lys Gln Asp Lys Val Lys Met Glu Lys Ala Tyr Ser Glu Ile 405 410 415 Leu Glu Ala Leu Lys Trp Lys Phe Phe Ala Asn Gly Asp Asn Lys Asn 420 425 430 Arg Ile Tyr Val Glu Ser Ile Gln Lys Ile Arg Gln Gln Ile Lys Ala 435 440 445 Leu Cys Val Ile Lys Asn Ala Tyr Tyr Glu Gln Gln Ser Ala Tyr Asp 450 455 460 Ile Asp Lys Thr Gln Glu Tyr Ile Glu Thr His Pro Phe Ser Leu Thr 465 470 475 480 Glu Lys Gly Met Ser Ile Lys Ser Lys Met Asp Lys Ile Cys Gln Thr 485 490 495 Ile Ile Gly Cys Arg Asn Asn Ile Ile Asp Tyr Ala Tyr Ser Phe Phe 500 505 510 Glu Arg Asn Gly Tyr Thr Ile Ile Gly Leu Glu Lys Leu Thr Ser Ser 515 520 525 Gln Phe Glu Lys Thr Lys Ser Met Pro Thr Cys Lys Ser Leu Leu Asn 530 535 540 Phe His Lys Val Leu Gly His Thr Leu Ser Glu Leu Glu Thr Leu Pro 545 550 555 560 Ile Asn Asp Val Val Lys Lys Gly Tyr Tyr Ala Phe Thr Thr Asp Asn 565 570 575 Glu Gly Arg Ile Thr Asp Ala Ser Leu Ser Glu Lys Gly Lys Val Arg 580 585 590 Lys Met Lys Asp Asp Phe Phe Asn Gln Ala Ile Lys Ala Ile His Phe 595 600 605 Ala Asp Val Lys Asp Tyr Phe Ala Thr Leu Ser Asn Asn Gly Gln Thr 610 615 620 Gly Ile Phe Phe Val Pro Ser Gln Phe Thr Ser Gln Met Asp Ser Asn 625 630 635 640 Thr His Asn Leu Tyr Phe Glu Asn Ala Lys Asn Gly Gly Leu Lys Leu 645 650 655 Ala Ser Lys Ser Lys Val Arg Lys Ser Gln Glu Tyr His Leu Asn Gly 660 665 670 Leu Pro Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Tyr Ile Gly Leu 675 680 685 Asp Glu Ile Met Arg Asn Thr Phe Leu Lys Lys Ala Asn Ser Asn Lys 690 695 700 Ser Leu Tyr Asn Gln Pro Ile Tyr Asp Thr Gly Ile Lys Lys Thr Ala 705 710 715 720 Gly Val Phe Ser Arg Met Lys Lys Leu Lys Lys Tyr Lys Val Ile 725 730 735 <210> 57 <211> 37 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 57 actatgttgg aatacatttt tataggtatt tacaact 37 <210> 58 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 58 attgttggaa tatcactttt gtagggtatt cacaac 36 <210> 59 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 59 aatgttgttc acccttttt 19 <210> 60 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 60 cctgttgtga atactctttt ataggtatca aacaac 36 <210> 61 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 61 attgttgtaa ctcttatttt gtatggagta aacaac 36 <210> 62 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 62 attgttgtag acaccttttt ataaggattg aacaac 36 <210> 63 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 63 cttgttgtat atactctttt ataggtatta aacaac 36 <210> 64 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 64 cttgttgtat atgtcctttt ataggtatt 29 <210> 65 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 65 cttgttgtat atgtcttttt ataggtattg aacaac 36 <210> 66 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 66 tactcttttt taggtaatga acaac 25 <210> 67 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 67 cttgttgtat atattctttt ataggtatta aacaac 36 <210> 68 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 68 catgttgtac atactatttt ttaagtatta aacaac 36 <210> 69 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 69 gatgttggac actatgtttt atacggtgga tacaac 36 <210> 70 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 70 gatgttgtta tgctgttttt gtaagtaata aacaac 36 <210> 71 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 71 attgttgtag acctcttttt ataaggattg aacaac 36 <210> 72 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 72 attgttgtac gaaccatttt atatggtaat aacaac 36 <210> 73 <211> 39 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 73 actgtaaaac ccctgcagat gaaaggaaag tacaacagt 39 <210> 74 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 74 atcatgttgt acatactatt ttttaagtat taaacaacta 40 <210> 75 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 75 attgttgaat ggctatgttt gtatgctatt tacaac 36 <210> 76 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 76 attgttgggg tacttctttt atagggtact cacaac 36 <210> 77 <211> 37 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 77 attgttgtag accttgtgtt ttaggggtct aacaacg 37 <210> 78 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 78 actgtgttgg aatacaatat gagatgtatt tacaac 36 <210> 79 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 79 attgttgtgg cataccgcaa ggcggatgct gacaac 36 <210> 80 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 80 aattgttgag ataccgtttt ttatggtatt ggcaac 36 <210> 81 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 81 attgttgtgg cataccgtat tacgggtgct gacaa 35 <210> 82 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 82 attgttgtgg cataccgtat tacgggtgct gacaac 36 <210> 83 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 83 attgtgttgg gatacacttt tataggtatt tacaac 36 <210> 84 <211> 37 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 84 tattgttgaa tacctttctt ataaaggtaa ttacaac 37 <210> 85 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 85 tgttgtaaat ggctttttat gggcaacgaa caactc 36 <210> 86 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 86 attgttgaat gtattctttt ttaggacaga tacaac 36 <210> 87 <211> 37 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 87 attgttgaat ggtatctttt atagactgat tacaact 37 <210> 88 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 88 attgttggat aataggtttt ttatcttaat tacaac 36 <210> 89 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 89 actgttgaat agttgatttt atatcctatt tacaac 36 <210> 90 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 90 attgttgtag ataccttttt gtaaggattg aacaac 36 <210> 91 <211> 644 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 91 tatatcgtgg ccgaatatgt taacgcggac gacgtccgtc ttgtgaagtt tcaggacgag 60 gatttcgaca ggcttcttga caaggttaga gaatggaaca agaaacatct tgttgttgga 120 aatcggaact tcgaagaaaa atttgcgtaa tccaaaaatt ttccgtatat ttgcggcgtg 180 aaattaaaaa tatgtttaac taaaaacaaa gattatggca cacaagaatc ctgatgggga 240 gaacaccatc aacaaaactt ttattttcaa agtgaaatgc gagaagaatg atattatatc 300 gttctggaaa cccgcagctg aagagtattg caactattac aacaaactta gcgaatggat 360 tggcaaagat atgtataaca cgccgtcatg gaacatccgg caagagttca agaagaattt 420 aagtgttaga accataaaca cgtttcgtga gcttggcaat gtgaaatacg gcaaaatcaa 480 caatgaaggg ctttttgtcg aagacgatgt gtaaacatta agatttccat acgacaggat 540 tcaaaaaaac gttctttgaa atattggatt ggtggcaaga ggctgttttt tttaggctaa 600 aaagttgtgt aaatagcaga aacacagaac ataacataaa atct 644 <210> 92 <211> 264 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 92 aactgctaca attctgccga gtttatgatt cagacaaaat tcaaaaaaag acttccgcaa 60 gcaaccgttt ttggtgaatt gaacagaaac gggtatgtta aagtattgac ccaagaagaa 120 tatgacgaac tcacaaaatc agcaaaataa tttattactg attgaaaaat aaagcgttct 180 ttgacatatt gtataacaaa caagcatttt tgtaagagat aacccatttc attttattga 240 tatacaatga aatgaaaaga atat 264 <210> 93 <211> 614 <212> DNA <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 93 gataaatttg cccgtaatgt tatcgggttc aagtcatatc acgaactgct tgataatgct 60 atcataaaag aaaaattaca acgggaattt ggttatgaag atgctccgaa aacgtggttg 120 ttcggacaac aaaaaaatga atgtttctaa tgtattaaaa caataattca attacaattt 180 taagattatg gcacaacaca aatcaaacaa cgaagaatca gcaatcaaca agactttcat 240 tttcaaggca aaatgcgata agaacgatgt catatcgtta tgggaaccag cggcaaagga 300 atactgcgac tattataaca aagtgagcaa gtggattaaa actatgtata acatacccgc 360 atataacatt aagtccaatt tcaagaaaaa tttgagcgcc aaaacaattc aaacttttag 420 agaacttgga cactaccgtg acggaaaaat aaatgaggat ggtatgtttg ttgaaaactt 480 ggaataattc tgtatatacc aattagaatt gaaaaaaaaa cgctctttga catattgttt 540 tctacataaa aacaagattt tacacaacgc aatacatcat aaagtgttgc gttataacaa 600 ataacaaaaa ttct 614 <210> 94 <211> 1041 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-cattle and sheep rumen sequence <400> 94 tttattcaat gcgaaccaga ggtcttgacg catgaatctg gctatacata tcgttatgcg 60 accgacgaag agaaaatatt gattaaaaga tgcaaatatt gaataggcaa ttttaaattg 120 tgaaaaaaaa aatgattgaa tataagttta cgtttgaact ggatggacat ctatcggcgt 180 acgattttgt tacgttgcaa gaacggtttg aaagggaatt gaatccttat tttgatgatg 240 ggagcatatc tggtactctt tcttatgcaa atgatgatta atatgcaaat aatatggcac 300 atgtaagaac aaaaaatgaa ggaaacatgg caaaaacata ttcttttaag gtcagagaaa 360 caaaccttaa aaaggatgtg atgattgaat ataacgaata ttataacagg ttatccgatt 420 ggatatgtgg caatttaacc aaaatctcgg aaaatgaaga atggaggaat gccttatgca 480 aaccaacaga aaacatgtac aacgaaccga tttacgttcc cttggttaaa tcacagaacg 540 gaatgttcaa ggcaattaaa aaattgggcg caacgaagat atggcaagaa tagaaagacc 600 gatttttaaa tctgaaatca cttctaacga attgtatact aaagaaatat aaagaatata 660 catcttttat gacattatga tattgttgta tgcatcattt cacatggtaa taacaacgaa 720 gagaaacacc gagcgaccca caaacctatt gtcgtacgca tcatttcaca tgataataac 780 aacgaatatt cctgcaagca tgatttaaca atttttaaga acctggtggt ttctccgttg 840 ggttcttttt agtatctttg ccttgttgaa acaaataaaa caaattgaat tatgatttat 900 aaaggcaaag aaatagacga aagttaccac atcaataaat gggaagatga agagatttac 960 tctggtccaa cccattatga atcattcgaa gccgatgaaa taaaagagtt ctacctcaag 1020 gcacttgcaa aggaaaagga a 1041 <210> 95 <211> 1545 <212> DNA <213> Unknown <220> <223> Description of Unknown: gut metagenome sequence <400> 95 gtgcgcatat acactcaatt cgccgatgac cgtgtgtacg cgaaggattg tatcgacgga 60 ttctttagta taagacaaga taccgaaatg cgcctcgtgt ataaaaatga gatagcacgc 120 gggcttgagt gtatcaatat tgtaagatag tagttttctg ttattttaca tattgatgtg 180 ttttggcatg gtttttgtta aaatataatc tagcagtatt gagactgcgg agtaacgtgt 240 ctaactgttt cattataagc agtaaagact aatattttta tatcttaaac ttatttttat 300 tatggctggt cacagcaaaa tcaaagaaaa tcacattatg aaggcgtttc ttatgaaagt 360 aaaagaaacg cgaaaaaaac agtggcaatc aaattttatt agaagtgaga ttgctaagtt 420 tacaaattat tacaatgggc tgtcaaagtt ccttcttgga agcccgactg gagggacata 480 tgacactgca tattttgata caaagattca aggctccaag ggggtatatg ataagattaa 540 agaaaacgga gaaacttata ttgcagtatt aagtgatgac gttattacgg cagaggtgta 600 aaatcctctg ccaacatcgc aagtaactca ttgaaaatta gttaaatgcg aatgccaaca 660 aaagtgaacg aactgacttg taaagcagga tgttgttata tctttttgta gataataagc 720 aacaagatac aatcaatcgc gagtttatac tgaaatgttg ttacactgtt tttgtaagtg 780 ttaaacaacc ttgcacaaat gtcatctacc agtacaatag atgttgttat actgttttgt 840 aggtattaaa caaccattgc gcagactgac agagtaacct ttcctgatat gttgttacac 900 atttttgtaa gtgttaaaca actgacgcat tgatattgcc ttgtctatta agaatgttgt 960 tatgctcttt ttattggtat aaacaaccga gcaactggta ctcaaatttt aaatactgtc 1020 gcgctatgtt atgtacatcg aacagctacc actcaatggc tttgtttgca accgtgatta 1080 attcaatcgc ggttgcattt gttttatgat gtgtttttgt atatattatg tatatatgga 1140 aaaggaaaac agggtatcgg agttatggag caagttctct gatattgact tgcgccgaag 1200 ccaaatgaca tatatgccaa taagaggtag taaaagatac ggcagaagaa taaaacgtag 1260 tgacatcgag tacgagtaca gatatctgta tagagcaaac aaacattggt aatatgaccg 1320 tagctaaatt atcaagtaat cataagccag cgtgccttgg acgaatctca gctttaaaca 1380 ccccgattag atttgagtgt cgggctggta atagtataag gcctggcaac atagagtata 1440 gctataaaag atggaaaacg tcgtaatttc aactatgcac aacccgcata cgctggctta 1500 ttaccaaggt aagctggctc ctatgcattt cagacaagat acagg 1545 <210> 96 <211> 1380 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-cattle and sheep rumen sequence <400> 96 agcctgtata cagggacaag gttaagtaca acaccaaggc tgaggcaaag aagagggctg 60 atgatatgaa caaacagaat agggtcatac accagctgtc tgtttatttg tgtcctaaat 120 gtcataagtg gcatataggt aggagcagtg tggagagtgt gcgcagggaa gggtacttta 180 gtcagatttg aaattaattg ttatatggcg catagaaata aaaacctagc agaaaactgc 240 attaacaaaa cattcagttt taaagtcaaa gccgaaaaag aggagataaa ttcaaaatgg 300 attccagcca ttaaagaata tactgcttat tataacagga taagtgactg gataaacctg 360 tattcacagc ctacttatga tattaaggaa gtttataaga aaaacgctgg ttgcaaagtg 420 ataaacgact tcattaaaaa cggtaacgcc gttatatgtt gtatcgaaaa taacaaacta 480 attgagacaa atggaagaca atagttcaaa ttttaaatgt aaaacagtca ttaatgtatt 540 aatatataat acatagcaaa aatccagatg ttgaatacat ttcttttaag tgtacttaca 600 acgcggtggc attgctaaaa tatagtcctg tggatgttga atacatttct tttaagtgta 660 cttacaacca acgctgtaca cattgctaat ggatgatgac gatatagagg tgttgaacta 720 ccttaatgaa aactacacca atgaaaacat tgagtatata cgcggttggt ggatggatga 780 cgacgataaa ctccagacac ttgacaggtt tttgaaaaat ttttcaatat agacctgtca 840 ctgttgcggc tataagaaga ccgatttgac actgaaagac cgatactggg tttgccccga 900 atgcggtgca aaactagacc gcgataccaa tgcaggaata aacattaaga atgagacaat 960 tagactgata aacaaagaat aatgagaact ataataggga ggtgtacccc cgaatttaag 1020 ccagtggaga accatacaaa cctatcatat aggggttcaa tgaatctgga atttctgaca 1080 aaaacagggt ttaacagcca gtgtaccaat gactaacaca ggacatataa agacaaatct 1140 aacaataaaa aaaaatattg accaattctg cagaaaaaac aggttggttt cggttatgtt 1200 ggtgaataaa gacagttaga ttaattttat atggaaatga aaatagagac aaaagacgag 1260 aacatctacg tattcatcta tgccaagtcc gcctacttcg gcaatacatt tgaatatggc 1320 ggcacatttt ccgtcggcaa ggacgacaac tggaacgatg tgagaggcca cgttaccgaa 1380 <210> 97 <211> 853 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 97 gacaacatcc tggtcaagac cgaggttaac agaaggtact gccgccttat gaccgacgag 60 aacggagtgt ggctcctgag gaaaaacgac aaacatccaa catattttat ctaccagaac 120 ggaacactct atcaatatga ggaagattga ttagttgatg ttttcataat aattttatct 180 ggaatttgaa aagattccag attttttttt tatttcgact gtacaaaaaa caggttccgt 240 tgcgttatat aggtgtaaat taaaaattca gtcaaacaaa aattggaata aaatatggct 300 aacaagagaa cagacacaac aatcaacctt aacaaaaccg ttataatgtt aacgaacatg 360 ctgccagaag tacgggcaat gtttcaggcg ggaatacgcc aggctcaagt ttatgcagac 420 ttggtgaaca agtggatatg ttcacaggaa atgagagagg ttatgtgtct ccatccgtca 480 aaaaaggacg gggtgtacga ccaaccgttc ctgaaagcta caaccaaata cccagccacg 540 gtagctggta tcctgcttaa gatgggaaaa acaaccaatt ggggtgagaa ataataccca 600 cccgccccat ttttttacac tgattagttc tttgacttat tgatttatat tggtttacac 660 aaattatcga cacaataaat aaaaaaaatt gtatattagt agtatgatga cagaagaaac 720 acggaagaca atagagagcg tcatagtggt tctcggcata gcaatcatgc tggcagccgc 780 cgtccgaata atgacgcaga acaaagcaat tgtgaaatat gatgaacagg ttgaaaccat 840 gcaaacttgc ata 853 <210> 98 <211> 795 <212> DNA <213> Unknown <220> <223> Description of Unknown: gut metagenome sequence <400> 98 atggaagttg tacgtggtgg aaatcaatgg gaggtttatg acaattacga tgagactatg 60 aaagcatcaa aaaatgtaag gtctgtattg ggacttccgg aagtaaaata tccacctgag 120 gattttagga catataattt ctaataaaaa tgaacggaaa aatttccgtt catttttttt 180 ttgtttattg gtgaaaaaat agtatctttg taaaaaataa atgttaaaat attttttatg 240 ggaaatacta caaaaaaagg aaatttgacg aagacttatt tattcaaagc caatctttca 300 gaacaagact ttaaattatg gaggtctatt gttgaagagt atcaaagata taaggaagtg 360 ttgagtaaat gggtatgtga ccatcttaga aatgcaatgt gtacgaaccc gaaaagtgag 420 actggatatt ctgtaccgtt cttgacttca agaatcaaga aacagaacat tatggttgta 480 gaattgaaaa aaatgggcat ggttgaagtc ttgaatgaaa aatcaacaga aatttaagaa 540 aaaaatattt atataatgta ctgaaaataa gtaaataata aatattgtgt aaaaaacttg 600 atattttttt tttgttatct ttataatata aaataaaatg taaatatgaa aaatctgtta 660 aaactcaaag aacaaatcaa ggattacaaa catcttcagt ttgtgttgga gaaagaagat 720 gaatctgaac tccattatag atgtatgact gaagattttt cgttcaaggt atctgaagaa 780 aaagacggaa cactt 795 <210> 99 <211> 420 <212> DNA <213> Unknown <220> <223> Description of Unknown: bovine gut metagenome sequence <400> 99 ttataaacat ctaaaaagaa agacttatga caacaaaaca agttaaatca atcgttttaa 60 aagtaaaaaa cactaatgaa tgccctatta caaaagatgt aataaatgaa tataaaaaat 120 attataatat atgtagtgaa tggattaaag ataatctaac aagtattact attggaaacg 180 aaaatttacg aaaattattt tgtggtaaac ttaaagtaag tggatataat acaccaatat 240 tagacgcaac aaaaaaaggt caatttaata tattggcaga attaaaaaaa cagaataaaa 300 ttaaaatatt tgaaatagaa aaataagtct tatgattaca aaaataatag atttcaaaca 360 ttttttttaa ttctatttta ttgactaatt cattgaaata taaataatta caaataaccc 420 <210> 100 <211> 1058 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 100 gatagatata gtattgcagc atttctggct tgcgaatcat cagcaatgca aaaatgtgac 60 tattggaaca atgatgatgc ccaagattac ataagaaact acaaagaggc ttatagtaat 120 gcagtaagac ttgcgttttt taatgattaa gcaacacgct taacattgtc aaatgtaacg 180 acattaagtg cgtgtttcat aagggcagcg aacctttcgc cgcccttctt tttttgttgc 240 tgtaacggaa ttatgtttac ttttgtgcca tcaagtatat agttccctta ataaattgta 300 tattaattaa aagtttggca caatatttga tgcgtacaaa ttaaaataaa aacattttga 360 attttaaaat ttaatttgta attttaaata agaaagtttt atttaactaa aataaaaaaa 420 atgaataaat cttatgtttt taagtcgaat gtggctattg atgacattat gtctttattt 480 gaaccggcaa ttgaagagta cataaactat tacaatagaa ccagcgattt catttgtgat 540 aatcttacat caatgaaaat cggagatttg ttgcttctaa caatgtgtac taagacaaaa 600 gaaaataata gatacggtaa ccccctctat aatatcaaag atacttttaa aaagaaaata 660 ccatcttcaa tacttaatat attcaaaaaa aaggatatgt atcaaataat atgtgattaa 720 ttatgccttt ttttaataaa aaattgttaa ataatacttt gtttattaat aaattataaa 780 tatcacagta aactattagg gatttgtaaa atttatggaa attatataca tgatggcact 840 aagatttggt tattaagaaa tttttctgta taagtataat aacctattta taattataat 900 tgaataaaat gtataatatg gaaaacacag gcttttatac agtttcaaat attgaaactt 960 ctcataagcc aaccgaaaat tctaatgacg aaattcttag gattttcaat aaaagaaggc 1020 cttattgccc ttcagacttt aagaagcaac attttatt 1058 <210> 101 <211> 554 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 101 aggctcaacc tcctcaaccc gatttatctt gagatcgcca agtacggaca cttcgggagg 60 aagagctatg tgaaggacgg catcaagtac ttcccgtggg aggatttgga tttggttgaa 120 gacatcagaa aaattttcga aatggaatag agggaaccgg aattttttcc ggtttttctt 180 tgtcctttcg aaaataaata gtatctttgt aaaaaaacaa cagattatgt acaatagtaa 240 gaagaagggg gagggtgaca ttcagaagtc gttcaagttc aaggtcaaaa cggacaagga 300 gacggtcgaa ttattcagaa aggccgcagt cgaatactcg gaatactaca agaggctgac 360 aacattcctc tgtgagatgt ataacagacc agcgtttgac ttgaaggagt gctacaagaa 420 aaattccaat gtaagtgtct tcaacacatt gaagaaaact ctcggtgcaa tatatggaaa 480 gctcgatgaa aacggaaatt ttattgagaa tgaatgtaat aagtaactgg aataaaagaa 540 attagacaga gtaa 554 <210> 102 <211> 1039 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 102 ttgtattggt tgctgtatgg cgacggaagt gacatatatg atgacgggtg gtttgactgt 60 gttcataatt ttgcccgtaa tgttatcggg tttcagtcat atcacgaact gcttgataat 120 gctattataa aagaaaaatt acaacggtaa tttggttatg aagatgctcc gaaaacgtgg 180 ttgttcggac aacaaaaaaa tgaatgtttc taatgtatta aaacaataat tcaattacaa 240 ttttaagatt atggcacaac acaaatcaaa caacgaagaa tcagcaatca acaagacttt 300 cattttcaag gcaaaatgcg agaagaacga tgtcatatcg ttatgggaac cagcagcaaa 360 ggaatacggc gactattata acaaagtgag caagtggatt aaaactatgt ataacatacc 420 cgcatataac attaagtcca atttcaagaa aaatttgagc gccaaaacaa ttcaaacttt 480 tagagaactt ggacactacc gtgacggaaa aataaatgag gatggtatgt ttgttgaaat 540 tttggaataa ttctgtatat accaattaga attgaaaaaa aaacgctctt tgacatattg 600 ttttctacat aaaaacaaga ttttacacaa cgcaatacat cataaagtgt tgcgttataa 660 caaataacaa aaattctgga cgggaaagga agatgtcaga cgtttttatt gttggaatac 720 tcgtttttta cggtatttac aactgccccg tagcggaatc aaaataccac cgcattgttg 780 gagtacaagt tttacacggt attcacagta cgaacaccga atgaactgaa aaaaataaac 840 ccgaccttgc aaccgtagat ataaataaag caatacaaaa tttgaaacta tggcacacat 900 taaaaaaatt gacgaaatgg caagtcaaac tgtttcactc cgttctgacg cattgttcaa 960 aaaagcgttt gaggaatttg aaaaggagtt gaaagaagtt ctcaaatcgc acaacaatat 1020 catttattgt ggaggtgat 1039 <210> 103 <211> 1252 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 103 ctcatcaaat tgtacaagtc gttgacggac actgaatttg acaagaagaa aatcatcaat 60 gatgtctacg acggcacttt tgagataatc ctcaaatacc caaagaagaa gaacgggaca 120 ttcgtgttct ggaaacatta caagaagtaa cacaatgata cacagtatgt tgtaagaaat 180 aagatttagg ctttaatttt aatatatgaa aatatggcac acaaaggaga aaaggaaggc 240 taccaaatca agacactgaa gttcaaggta cgctcgcatg acatcgggaa atcactttat 300 gatattgtca acgaatacac caactactat aacaaagtaa gcaaatggat atgtgacaac 360 cttggttaca acgagccatt ctacaagtca agggtgaaaa gcgccgcctc catgatgtca 420 ggattgaaaa aactgggcgc caccatgcca ttgacggatg aaaatgccat tttttcaaca 480 ccaaaaccga agaaaaacat tggaaaacaa taatttacac aaagtctacg gcgggaatcg 540 tgataaaaat gaacgagatt gttgggatat accttttata ggattttcac aacatctgag 600 ttgtttgatg ttaaaaactt taactaataa ggcaagaagt cccattcctt caggtggggg 660 tagttcattt gttgggatac tcgtttcaca cggtattcac aacttccaac caaccattaa 720 aaaaccttca aatattgttg gagtacccgt tttatacggt gcaaagcctc cccgacgatt 780 tcaagttcct gtacgaagat gtcaattttg gatagcaact gttaccaata aacatattca 840 aaagtaatca aatatattca aaaacaactc gtataaatat ataaagttcg tgatatttat 900 tataaagaag ccgaaggaga gagcggtttc cgaacaataa agatatacag aggttttatt 960 cttgacggca ctctctcctt tagccgcaag tttaattcct cttttttatt gcactatggt 1020 catcgacagc aaatatacca agacattcaa gtcaaacgga ctgacccatc agaaatatga 1080 cgagttgctc tcgtttgctt ctatgctgcg tgaccataag aacaccatct ccgaatatgt 1140 caatgccaac cttgaacact acctcgaata ctcaaaactc gacttcctta aggaaatgcg 1200 tgcgaggtac aaggatgtcg ttccgagttc gtttgacgct caactctaca cg 1252 <210> 104 <211> 1131 <212> DNA <213> Unknown <220> <223> Description of Unknown: pig gut metagenome sequence <400> 104 agaatctgtc ctatatgtgg gaaacattgc gaatatgagg aaatggaggg cgaccacatt 60 gttccatggt caaagggcgg taaaaccgat ataggcaacc tccaaatgct atgcaagaag 120 tgcaatcacg aaaagtccaa tagatattag tggcgtaatc aaaaatttgt ttgtgttgag 180 gaaaagcagt gaaaaaaaac attgtttttc ctcaattttt atttgcataa ttcaaataat 240 tttttatttt ataggataat agagctaaca agcattaaca attattaaaa cgatttatat 300 tgaaaataaa ttttgtggga atatttattt ttactacctt tgcatcgtaa tacaattaaa 360 caaatttttg attatggcac acaaaaagaa cataggagca gagatagtaa aaacttactc 420 ttttaaggtg aagaatacca atggtatcac aatggaaaaa ttaatggccg ccattgatga 480 gtatcagtcg tactataacc tttgcagtga ttggatatgc aagggtcttg acgaaataat 540 gaggaatact tttctgaaaa aagcaaatag caataaatca ttgtataatc agccaatcta 600 cgatacgggt atcaagaaaa ccgcaggtgt gtttcctaga atgaaaaaat taaagaaata 660 taaagttatc tgaaataaaa tatgtatttt tctttgtgga aatacctatt aatagactga 720 tttctaataa gttataagaa atactgtatg tagtaaataa gatatcatat ttttgcggag 780 aggcacatgg agtatgctat agggtttttg ctaccgagca gaaagcaaaa gaaaaaatgc 840 agggatgata tcatttcatt cttgcatttt gcttatacat attcaatcaa gtatcatttt 900 ctgtttttac tattatccta taaaataaaa ttttcctcaa catttccaaa tttaatttgc 960 aataattttt tttgataaaa agtgcaaata aattttatag attcaaaact tttgattaac 1020 tttgtaacaa gaaaaacatt aaggattatg ggttacacat attttagggt tactgatgaa 1080 agggcaaggg atgttatgcc aaaggcggct gaaatcataa aggatatttt c 1131 <210> 105 <211> 3677 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 105 cttcacctcg tacagccgac aataagtttc gcttggactg aacttatgtg cgcctgcgca 60 ttcatagcgg gtggcgtatc aggctatctc atcaagggca agatgccaaa cgacgggaac 120 aagtaccagt cggtagaggg aaaggaatag gacaaaaaaa aacacatcac ccccagcgca 180 tcgggcgcgg aggtcgggtg tgcatataac ggtgtctgtg gcgcaactgg tagcgcagtg 240 gattgtggtt ccaaaggttg cgagttcgag cctcgccaga cacccattat cacacggaag 300 cattggatgg aagtgcaagt acctactggg aacttcctga aagcgcaagc aaagtcgagg 360 tctaacggta cttatgaccg aggtaatggc ggggcgttgg ttcgagtcca acacaatgtt 420 tccatttaca cggagagttg caggagtggt aactggtcag attgctaatc tgaagcccac 480 ctcgttgtgg caggggtccg aatcccttac tctccgccaa gcaacatacc cgcagagtag 540 tcgcgtatat tctgtcggtg tggtcagaaa gaagtgaatg tgatgcgaac gcgcgaaacc 600 atcgcattta gagtccgaat ctcctctgcg gtagccagtc cgcatagttt aatcaggtta 660 aaacattctg acgctttttt aaatcgcggg agtagttcag tggtagaaca tcggcttccc 720 aagccgaggg tcgcgggttc gagtcccgtt tcccgctcaa cacataggct gtggacaagg 780 tgggcgaaag tattttttcc atagttttac accaacgccc gccttttcct aaacgcattg 840 gagagataga ggacttgcct tctaaacaag cagtacgggg gaacttgcat ccgacctccg 900 tttcaatgcg gtagaactcc gctcccgtga cagcgacgaa tgatgcaata gcggttcacg 960 agatacctca agaaacttca tttttcaaaa gccacaatag ttcaactggt agaacggcgg 1020 tatcgtaaac cgcaggttgc tggttcaatt cctgcttgtg gctcaacaat ttcgggggct 1080 tgcaacgctg ccactgcggg tggaagccag cgacaagaac ttgtgtgaag ccgaaacgca 1140 gtccttcggg agaggggcga aggggcaagc gagatgtgtc ccactttttt aaagtaacag 1200 gctttaataa atatttatca ttcccgaaag gctgtgcgga acagcctctc ggcttttacg 1260 gggatttagt tcagttggta gaacatctgg ttcgcaatca gaaggtcgcg ggttcgactc 1320 ccgcaatctc cacaaatata aatatagtat tgccctgtgg tgcaatcggt aacacaccag 1380 attctgaatc tggaatttcg agttcgagcc tcggtggggc aacacaatag gcagccgtac 1440 tgccgaatac aagcctgtgg agaacccaac cgtggatgac cgttgcctat gcaacctaaa 1500 aagcggtggt tctgtgaagc aggaagcgga aatacaatat tccgcatacg gtggtggtgt 1560 aatcggtaac ataacaatat ccgaaaagtt taaaccatac acccgacgat tatttttatt 1620 cattgttagc gaccgccgtg aggcggacgc aggctggcgg tcggataatg acgcataatg 1680 gcggttgtga aagccgacgg aaagcactac atcgttaagt gccagccacc ataataggca 1740 gccgtactgc cgaatttaag cctgtggaga acccaaccgt ggatgaccgt tgcgtaagca 1800 acctaaaaag cgatggttct gcgaagcagg aaggaaatgc ccaatttatt aggtttttcc 1860 atacggtatg acagcctcta actgtagcgc attacaaaac aaacgctacc attacataaa 1920 tggtcagagg cataacgccg agcgcaggta tggtatgcgt tcaagtcgca gtcacggaag 1980 ccccagataa aaatgggagg tgcttgcggt caagcgagtg gtcagcgggc ttgcactcgg 2040 tgtggcaaca atggtcgttt ccgaacttac gaccattcaa aaagataagg tagtggcttg 2100 tgagtgaaaa gaaactctcg atacgctcct ttcgtctaac ggtcaggacg cgagattctc 2160 aatctcgtaa tgcgggttcg attcccgcag ggagtacaat ggcgaacaca cgacaatcca 2220 aactgaaggg gaactggaaa accctcgctc cgagataaca tcagcgcaga gaggttggtg 2280 aggcaaccgt aaaagtaatc ctgtgtgcaa gcaagaagga agttcgggtt caagtcccga 2340 tgaggattat tgttgaagag ggatatgatt caaccatagc acttatggtg ctgtgcaagg 2400 gttataggca gccgtactgc cgaatacaag cctgtggaga acccaacagt ggatgaccgt 2460 tgcctatgca acctaaaaag cggtggttct gcgaagcagg aaggaaatgc ccaatttatt 2520 aggtttttcc atacggtatc actactcgcg gtggatgtgg aaataaccgc gatttggtca 2580 gttggtgaag ttggttatca tacctgcctg tcacgcaggt gttcacgagt tcgagcctcg 2640 tactgaccgc agacaaagac aaagaacgag aggacttgta tgacttgcaa atgtcacgga 2700 ctcaaacaag aaaagtttat aggctattag aggatgactg tttctttaat ttgttttctt 2760 gtactgaagg tcatcactgc cgtgccacca agccgtgcaa gtccaaatgg tgcgttagtt 2820 cagttggtta gaatgccagc ctgtcacgct ggaggtcgcg ggttcgattc ccgcacgcac 2880 cgcaataatc tggatatagg caaattacac atatcatatg tcgccccgcg taatcataga 2940 cgacactgcg gacgacagcg gcgagaatgt cgaaaggctc gacagcataa tgacattcga 3000 catcaccgac accccgatat acgaaggcgg ggaggaactt gagataaacg caaaattcaa 3060 cagatagaaa taattaaaac aaacggcaat ggcacacaga aaaaagaaag atgacgaagc 3120 aacgctatcg tacaagttca aggtaaaggt catagagggc gacctgacgg cagacgacat 3180 aacgaagtgt atcgcggaaa acgcggagca gggcaaccat ttctccgagt tcatacacga 3240 tgagaatttc aggaagacct tcacatccga gatcagcgcg gacaagttcg gatggggcaa 3300 gccgatgttc agcccgacca ccagaagtca ggacgaagtg ttctccgcga taaagaaaat 3360 cggggcgata accgtgctgg aagattagcg catattattc tcatatctaa aattggaagg 3420 acacctgcgg acgcgggtgt ccttttttct taaaatgcca atttataaat aatatataac 3480 ttatatttat tgtacttttt ttgtttaact aaaacacata gacaaatatg gaaattcaac 3540 agattaggtt tataaaccca gttgattttg aagaaacaat cgttaatgta cccacggaga 3600 agggcgaaag attcctgaga acaaaaatct atacggacga gtattcaccc gaaacattca 3660 taaaactctg cgagaag 3677 <210> 106 <211> 831 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 106 tggcgattat tcttacggca aaggccttat ccatgcatac ataaatcgag acatcaaaag 60 tttttgcttg ccaaacactt taatatgtga atgccatata ccaaaacata ccagatatat 120 tactgattac tcaggtacaa atatagccgc aaagaaaatc atcatcgaca aagttgtctg 180 ggagaaggta tgtataaaaa cataatggta ttaggggaga aattttcttg gacggaatga 240 atataatttc ataccaacac cgtgcattga ttaaactaaa ttaaattatc aagcataaaa 300 agtttggcac ggtttttgat atagtaaatt tgtatttaaa atttttaata tggcacacaa 360 aactaaagaa tcagaaaaat tagtaaagtc tttcaaatta aaagtagaca ttagcaattg 420 cgaaattgaa aagaaatgga ttccttcttt tgaagaatac acaaattatt ataatggagt 480 aagtaattgg atttgtgaac tattagaaaa agtttgcctg aaaagaaaaa aatttggaaa 540 ggcttcttat tcagtaccat attggaacgt taaagacgca tttaagaaaa acgttagctc 600 aaacatgatt gctacaatta aaaaaatgaa tatggtaaag gttttttaat gcgtgattat 660 ggcgtttttt aaacataaaa tcatttataa tatattgaaa aacattttat tatataaaat 720 atgcatctta gtgaaaccgt gttttcgtat agattgctgg attatacttt tttataggat 780 aattacagct cgaacttctt tgatggcatt aataagatat tgttggatta t 831 <210> 107 <211> 634 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 107 atcatggctg aaagcgtccg cctgattgca gagcaaaccg caagcccgaa ggttgtcatc 60 aagagccgtt acgctctggt cgacgcaggt ttctatcctg agttgaacta tgtgaccttc 120 ttcgtgaaca ctccagatca actggtttaa tcactgcggg tagcaagcga ttgactacgg 180 aaggccgatt cgatagagtc ggtcttcttt tttttttgta tattttcttt ttttggtttg 240 gaaatgttcc gtatatttgc agcactaaaa ctaaccaata tgggacatgt acgtttgcaa 300 aaaagagagg gagaggttta taagacctac aaacttaaag taaagagctt ttctggcaat 360 gtagacatta aagctggtat cgttgaatac gatatcgccg aaacaattga ttggagaagt 420 acgctttgtt tcaagacatg gaatacgtat ggttctcctc aatgggactc gaagatcaag 480 aaccagaaaa cgatgatcga tcgactggat tcgttgggtg caatagaatt gaaaaactgg 540 tgattttgat catggttttg aaacaaaata ttgatttttc gttctttgac atgcttgtta 600 aaaattgagt atcagtttaa tataaagaat atat 634 <210> 108 <211> 1154 <212> DNA <213> Unknown <220> <223> Description of Unknown: human gut metagenome sequence <400> 108 ggaaacaatt ataacgatgc ctacaaaacg ttaattcaaa tgagagacaa aggaatttta 60 acgcaggaag ttgtaaatgt atttacccta ttgaaagggc ggtatattaa agaaaaagaa 120 tacggaacac aatataatac tatcaattaa attttttggt agtttcattt ggaattgcca 180 attatttttt tattttatag aataatagag ccaacaagca ttagcaatta ttaaatcgat 240 ttatattgaa aataaatttt gtgggaatat ttatttttac tatctttgca tcgtaagata 300 attacaaaac attaacaaca tttattaaac aattaaacaa attttaatta tggcgcacaa 360 aaagaacgta ggagcagaga tagtaaaaac ttactctttt aaggtaaaga ataccaatgg 420 tatcacaatg gaaaaattga tgaacgccat tgacgagttt cagtcatact ataacctttg 480 tagcgattgg atatgcaagg gtcttgacga aacaatgagg aacacttttc tgaaaaaagc 540 aaatagcaat aaatcattgt ataatcagcc aatctacgat acgggtatca agaagaccgc 600 aggtgtgttt tccagaatga aaaaattaaa gagatatgaa attatctaaa ataaaatatg 660 aatttttctt tgcggaaata ccttttaata gattgatttc taataagtta taagaaatac 720 aatagatact gaaggaaaat caaagtgtaa tcaaaaattt gtttgtgttg aggaagcagt 780 gaagaaattt cattgtttcc tcaattttta tttgcataat ccaaaaagtt ttttatttta 840 taggataata agactaacaa atctcaacga ctattaaaac gatttatata aaaaaagttt 900 tgcagttcca atcttttttg ctatctttgc agtgttgaaa gacaacaaag atttaagttt 960 aacaaacaaa tactttttat tacatatttt aatttttttg tattatgaca atagaagaaa 1020 aagcaaggga agaataccct tatataaccc catctgatgg gtatgaatgc catgattata 1080 atgaagccgc taaagacggt tttattgagg gggcaaaatg gatgcttgaa aaagccgctg 1140 aatggtttaa gaat 1154 <210> 109 <211> 1048 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 109 atatgggcaa agcgtgataa aattgaaaac aaatatgtca aagaaccatt aaaacgagtc 60 aatgaagata tgtggtggat gtactatgtt tatgaatgga atgtgtttta tgtgcttgaa 120 gaaaatgtcc atccatatat gaaaaaataa attttaccac acatattatt attcgtgtca 180 tgccgatgag gtttggcacg atttttgttt atatggagag acataatgtc agtcaataca 240 tgacaacttg tcacaataac tgacattaaa agtttggcac aatatttgct tataagaaaa 300 acgaacaagt aaaattaaaa ttttatagat tatggcacac aaaacaaaca acggagaaaa 360 caccatcaac aaaactttca tcttcaaagc aaaatgcgag aagaacgata ttatatcgtt 420 atggaaaccc gcagcagaag agtattgcaa ctattataac aaattgagca aatggattgg 480 taaaacaatg tacggcattc ctgcatataa catcaaaaga ggttttaaga agaatttaag 540 tgccaaaact ataaacacat ttagaaaact tggacactat cgtgatggaa aaataaatga 600 ggatggcatg tttgttgaaa ctttggcata gaatttgcat ataccaatta gaattgaaaa 660 aatcgctctt tgacacactg aaacatacaa aaacaccaca attttttaat ccttttctat 720 ttgtatttta ttgaaataaa atgtattata gtaatatatc tgctaaggtc atatttttca 780 ttgttctcaa attgttggat aatgttttgt gtgtttcatt tttgtcattg tgtcacctta 840 actgacaagg tggcacattt tttatgtcaa tatgtcagtt gaggttttgg cataattttt 900 gtataatggt aaatggataa gaattgaaat tacaatgaca acaaaacaaa ggttaataaa 960 gagaataaac aaggcattcg gatttgaatt aacggatgca acaccttgtt tccaccatca 1020 aggtagaaga tggggaagcg gtggtttc 1048 <210> 110 <211> 968 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 110 gaaggcggcg cgtttgaaat cgctaacgta attgaaaatg ccaagaagca gaatctcggg 60 gagggtggat acaaggaatt gtgcaatgat ttcctgaaac atgcgaggga aacgtttttc 120 agtgggaaat acgaacacca ttcttggtag tggatttgtt attttggtaa atataattaa 180 cgcggcattg tcgtcagtga atataatatt gcatttcgac agtattttat aagtattttg 240 acttataaac agtatttata agttattcgg cttataggtt aattagccta tagatgttgt 300 ttataggttg gatgacctat agtgccaagt tttgaagaaa tcgttatagt catcgttctg 360 ccctattaga tattccgtat ttctttaaga ctgttataat acaaatatac tacaaatcat 420 gcaatttttg atttttaaca aaaattaaga aatagggtat tattgtgtat tgttttttgt 480 tatatatttg tcctgttagg ttaaatcacc gcgcctgatg acgaagtcgg tggtagaatt 540 agactaatat taaatatgtc tcatgaattt aacaagaata aaggtgagaa tgagattagc 600 aagaccttta ttttcaaaac aaaatgcggg aagaatgata ttacatcatt atgggttccc 660 gcgatggagg agtattgcac gtattacaac agggtaagca aatgggggaa aggtatgtac 720 aacaagccgt catatgacat acggaagaaa ttcaagaaga acttgagtgc ggctactttg 780 aaaactttca ttaagttggg aaacacggtg aaagggatga ttgtcaacgg acagtttgtt 840 gaaatggaat cataggttga cagaaacgga aaatcggttt gtttgttaga agaatatttg 900 ttgaaattca tttttctttt gctaacgtat atacaaataa ctgtaataga atatcttata 960 taagatat 968 <210> 111 <211> 1542 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-fecal sequence <400> 111 acaaatgaaa ttatgggaca agtaaaactt aataaacctc ttctgtatat caaaatattg 60 actatcttta gacataacct tgtcaaataa taaatctaaa ttactctttt ccttttcttt 120 tttaaataat ttcatattaa atattcccat aatttattaa tatatttttt tttcattact 180 tatttctctg ttatataaat agttacataa aaaaattaaa actatttttt aaaaagtctt 240 gtgtatataa aaaaaatata gtacctttgc acccgaaatc aagatttaat cctgttttca 300 tattatattt atcaatttta tactaattaa taaacttatg gcaaataaaa aatttaaact 360 tacaaaaaat gaagtcgtga aatcattcgt actcaaagtt gctaaccaaa aaaaatgtgc 420 tatcactaac gaaacacttc aagaatataa aaactattat aataaggtaa gtcagtggat 480 taataacatc gtacaaaatg aaacgtggag aaatctattt actaacaaaa ccaataatac 540 atatggatta cctatactaa caccttcaaa aaaaggacaa tctaatatca ttacacaatt 600 aatgaaaatt aatgcaacac aagaacttgt tgtataatat aatctatttt taaatttata 660 atactaatat aattcattga taattaaata attatataaa attcctatat acaatagaaa 720 gactttccac agacatgttg tacatacatt tttttaagta ttaaacaacg catacccacc 780 aatggtacac gaaaattttc atgttgtaca tactattttt aggtattaaa caactcactg 840 ttttgacgat taatataggc atgttgtaca tactcttttt agatattaac aacctgtaaa 900 caataacaat atttacaaca ataatccatt tttgaaataa tgaaaaattt tctggaaaaa 960 ttttttaaca agtctgtttt tgaaataatg aaaaaatttc tggaaaaatt tttttaacaa 1020 acccattttt gattggttca ttttttattg gaaaattagt gtgtggaact acccacccgt 1080 atatgagcaa gtgttatggg gtgtaacgtg gggagggtta catagggggg tctttggtag 1140 ggggtacata ggtagggtaa taatggggtc tttggtaggg ggtacatagg tagtccccat 1200 atattattat aaaaagtaaa ataaatgata tatgcaagag tttttgaaaa tttattttta 1260 ttttgctact tagactttac aaaaagtaga tatatagtat tttcttttca aaatattttg 1320 tagtttggaa aaaaagcagt acctttgcac acggaaacga aaaacaagtt taacctatta 1380 aatttttagt ttatggcaat aaacattttg acttattctg ctatggcaga aaaatcttgg 1440 gaaaatttta tgcgtgaaaa ttgcggttac gagcgcatta gtacatttta tagtgatttc 1500 actattgcag accattgtgg tggtgtaaac gcaataaaag ac 1542 <210> 112 <211> 920 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-fecal sequence <400> 112 gatgtgaatg aagaatttct tggtggcttg cgaagcacta tgacatatct tggagcaaag 60 agattgaaag atattccgaa atgttgcgtt ttctatcgtg taaatcatca gttgaataca 120 atttatgaga atacaacgat aggaaaataa tataaatttt atattatttt gagaaaaaga 180 gtctaaattt gggctctttt ttcgtttttt atgaaaaaat atgaaaaaag tttgtaaaaa 240 atttgtaata ttgaaaaaat agtattatat ttgtatcaaa tttaaaaata aaatataaat 300 atggcaaaat caataatgaa aaaatcaatt aaattcaaag taaaaggaaa tagtccaata 360 aacgaagata ttataaatga gtataaaggt tattataata cctgtagtaa ttggattaat 420 aataatttaa caagcataac tattggtgaa aatgaagact ggagaaaagt gttttgtatc 480 aaaccaaaaa aagaagatta caatacacct ttattggatg ctacgaaaaa tggtcaattt 540 agaatacttg acaagttgaa aaaattaaat gctactaaat tattagaaat ggaaaaataa 600 taaatatata caataaattt atataatttt gtctattttt aattttagtt cattagataa 660 tatgttcata aattcattga catataatta taaataaata tatatgcaat aaaattcgag 720 agacatttca tcagagatgt ctctttttta ttttttgtta tatttatatt atgaatatta 780 gattggaact cataaagaca aaggataaac agaacattgc aaagcgtata gtggaaagca 840 atcactcata tgttccaacc tggcgtagtg taggacgaag gatagattat cttatttatt 900 tggataatga tgttgtcgga 920 <210> 113 <211> 1217 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-ovis aries sequence <400> 113 gtgaactata tctacgaatc aatcgaagga atattgacaa aaacaatgaa tccaaccact 60 ttacaggata tcatccttaa cggaatcaca tatacaccag tggaagacaa cacaacaaca 120 tgcgacggat gtgaatttaa agacacataa ggccaatgta tgctaacaca cctattcgat 180 aacgacatgg tccaaaactg cctcaaggaa aaaaacggcg ttgcagatat catatatgtc 240 aaaaaagaaa attaatcgga atcttgattt ggattttaat attatttgtt gtataattac 300 aatagaaaga aaattttgta tattttaaaa tttgtaaatt aaaatttaga aaaatggcac 360 acaaaacaaa caacggagaa aatacaatca ataaaacttt tattttcaaa gcaaagtgcg 420 ataataacga tattatatcg ttatggaaac ccgcaatgga agagtattgt acttattaca 480 ataaattaag ccaatggatt tgcaagacaa tgtatggagt accagcttac aacattaaaa 540 acggtttcaa aaaaaatctg agcacaaaga caatcaatac gtttagaacg cttggccact 600 atcgtgacgg aaaaataaac gaagacggcg tattcgttga aaacctggca taataaggag 660 taaaaaaatg ttctttgata ttctgacaca aatgaaaaaa caatcaaaaa tttatttctg 720 ttttgcttgt aatttattga aataaaatgt attatataga aatatgtcgg tggataatag 780 tcaaatagtc tgttgactgt tgaatagtaa gttttttact ctattgacaa caggtgatgt 840 ggatggaaca tacaaagttt attgttgagt aataggtttt acacttttac cacaacttta 900 gtgattttat gtataaaata attaaaatca tatataaaaa tttttccaga aagtagtact 960 tattgaatta aaattatatt gtgaaaaatg gtttttgatt ttaattttat ttgttgtata 1020 attgaaatgt aatttaattt agaattgtat aaataaaaaa cgtaaaaatg agactgccaa 1080 cagaaattta tgagtcaggc acaatggtta gtaagatatc ggaaaaacca tttaaatcag 1140 gtttaagggt taatactgta aagtctgtag ttgaacatcc acataagatt gacccgaata 1200 ctaataaggg tgttcca 1217 <210> 114 <211> 930 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 114 gactacgact ggttctcaaa tgtgtacggc gccatcaggg aggaacgtga gaaaatgaga 60 agggaagagg aggaacgcag gaagaacgaa cccaagacgg tgaaaaccaa agaggttgac 120 ttgttcgggg atgatgacct gccgttctaa taaaaaaaaa aacaaacctc tccgaaattg 180 aacgtatcaa cttcggagag gttatatagg gtgatggaaa tgttaaataa aaagtttaaa 240 aataactatg ggaaacaaag tacaaagtaa tgaaacaata gttaagactt atacatttaa 300 agtgcgtgga ttcataagtg gtgctaccca cgaaataatg aaatcagcca taaaacaata 360 tatagaagat tctaacaatc tatcagattg gattaatgta gagaatgaaa tacttaggaa 420 ctctttcctt aaagaagaga ctaaaaaata cacttataat acaccattat tcactcccag 480 acttaagtca tcggaaaaaa taataacaga attgaaaaaa ttgggtatga ctacggttat 540 agaataacca ttacacattt ttttcataac aaacgttctt taacatattg gaaaataaga 600 aaatacgata ttcatataaa aatccgtccc acacaaaatt aatgtaatat cttagttttg 660 ttacatcaac actatataat taaaaaaata aaaaaatatt ttgtggattc aaaaaatcat 720 tatatatttg cgtccgaaaa ttaacactta tgtcaaacaa atttaaaatg taaaagaact 780 atgcaaacag aaacacagaa tttcacaggc gagttgagag caatcaacac aacaatgggt 840 tcaagcaaga gctacaagac aatctgccgt tgcgcacttg acatcctcaa gggatatatc 900 gttacgcacg acattaggga caacttctca 930 <210> 115 <211> 1087 <212> DNA <213> Unknown <220> <223> Description of Unknown: mammals-digestive system-rumen-bos taurus sequence <400> 115 acagagggtg tatggatagg catgaaccac caaggcaaaa tactgatggc ttgcagggag 60 gctttgtgta acaactgtga acccccgatt gattacaagg cactgaacga tgccgagata 120 tatttttatg gaaaagaagt taaattttaa aaattaaaag atatggcgaa caaaagcaca 180 aaaggaaacc tgcccaagac aatcataatg aaggcaaacc ttagccccga tggtttcact 240 caatgggaaa gggttgtaaa agaataccaa gcctacaaag acacgttgag taaatgggta 300 gcccaaaatc tcagacaaat aatgtgcaag acaccgcaga caaagaacgg ctactcatca 360 cctgtgctca cctcaaaggt taaaagccaa gtggaaatgg taagagaatt gaaaaaaatg 420 ggaaaaacca ttctttattc caatgattca cttccttttt gaaactaaaa tgtcttatgt 480 gtatttgaat tataggctaa tataaagatt gtactgtgtt gagatacact tttagaggta 540 tttacaacaa aatgcgtgat atggaaatga agaaataact gtgttgagat acacttttag 600 aggtatttac aacaccatat aaacctgacc atctcctgaa tctcgcccga cacggataat 660 gttagatatg ttcacaatac aactgcatgt gctattcaag aaaaaatagt atatttacaa 720 tatgttggtg cataatatta gatgtgctta cacaacgcag acctgaaaag ccaggataaa 780 agtatgcggg attgtgtttt tagaacactg ttcaatccgc tgtatgtcgc ttgaagcgtc 840 agtaacctat gtcgaaacaa tccttttaga ggtgtttacg accgaccaga aacagcaaga 900 cctgtattta tgttggtata cggttctttt taggggatta gtagttgaat cccttttcac 960 ccttggtgtt cacgggttgt gagacattct tcatacccat gcgtgtcttc tcagccatct 1020 taccgaaagt tataggcaca atatgttcaa tgcctgcctg ctgagcattg tagcatatat 1080 cagacag 1087 <210> 116 <211> 1064 <212> DNA <213> Unknown <220> <223> Description of Unknown: gut metagenome sequence <400> 116 agaatgcttt ccccaattga atgtgaaaga ctacagacac tgccagataa ctataccgaa 60 ggtgttagca aatgcgcaag atataaggca atcggaaacg gatggacagt tgatgtaatt 120 tcacatattt ttaagaattt gaaaaattaa tttggtattt tgaaatattt gacttatttt 180 tgcaacataa aatttaaaac aaatttatat ggcacacgcg aaaaaaaaat tttgacaaag 240 gaaagcaaat aacaaaaacg ttctctttca aggtgttaaa tattaagaac aatggcgaat 300 cagttgatat gaatactata gaattagcca tgaaagagta caataggtat tataacattt 360 gtagtgattg gatttgcaac aatctaatga cgccaattgg ttccctatat caatacatag 420 atgatgagaa atggagaaaa aaatttgttc gcccaacaaa cactaataaa ccgttgtata 480 actctccagt tttctcccct gctgtaaaat ctgaaggtgg tactattaaa aatctccaaa 540 ttttaagcgc aacaaagacc ataattcttt gatttaatta ttaatacata tatcgttcgt 600 aaatttaata caaccacaac caaatatgat aatttgcata attaaaaaaa ttcacatatc 660 tttgtagcat aaaaacaaat agagaaaaaa tgacacttta cagatttaca cttttaggca 720 atacacaaat ttatgtatat gctggcacgt ttgaagatgc tctcaggaca tttcgtaaat 780 catatggaga tacgggattc aagtcaattg aagagcttcc tgaatttaga gataacatac 840 ttatacaact agattgattg aaacaaacgt caattaccca ccactgaagt agtgggtttc 900 tttgcagtga ttttatgaaa acgatagaag acagagcaga catagcaagc gatattgcta 960 aaagagaatt tgaagaagat agttattgga gtcattacgc agacgatatg gtaacatctg 1020 cttttgttga aggatgctat aaaggctata tttcaggtgc gaca 1064 <210> 117 <211> 1617 <212> DNA <213> Unknown <220> <223> Description of Unknown: terrestrial metagenome sequence <400> 117 aaggagatag attatgacag ggaaggtaat atcacaaata tatatcttta ctatgagtca 60 gatagtttat ggaatgaaaa atttgaattt atattaacat tagatggtta tgaattaaag 120 atacctattt ttatagtaag tgtaagatag ttttggcacg gaaattgcag taatgttttc 180 ctgtcaagaa caaataaaat aaaaaatatg aaaaaatcaa ttaaattcaa agtaaaagga 240 aattgtccaa taaccaaaga tgttataaat gaatataaag aatattataa taaatgcagt 300 gattggatta agaataattt aacaagcata actattgggg aaatggcaaa atttctcaat 360 gaagtgtgga gagaaatatt ttgtacaagg cctaaaaagg cagaatataa cgttccatcg 420 ttggatacaa caaaaaaagg accatctgca atattgcata tgttgaaaaa aatcgaggca 480 attaaaatat tagaaacaga aaagtagtga ctatagatat aaacttctat gatagatatc 540 tgttttttaa ttctattatg caatataata tattgaaata taaacaatta taaataaaac 600 gggtgtatac aacaagtttt ttgtttttct tattcattat ctgtatattt gtattataaa 660 caaatacaaa tatgtataat gaatcaggaa tatattgcta taaaaacaaa ataaacggaa 720 aattatatat tggacaggcg ctaaatctta aaagaagata tttaaacttt ttaaatatca 780 accacagata tgcgggtcaa gtaatagaaa acgcacgtaa aaaatatggt gtagataact 840 ttgaatattc aatccttact cactgtccag tagacgaatt aaattattgg gaagcatttt 900 atgtagaaag attaaattgt gtcacacccc acggttataa tatgactaat gggggcgatt 960 cagtatatac ttctacacaa gcatttaaag atgcacaaac tgaaaagttg aagcaaacta 1020 ttctatctaa gaatcctaat cttaatgtca gcaaagtaaa atatgaaggt aatagaattt 1080 cagttataat tacttgccca atacatggca catttaaaaa aacgcctgat tactttagaa 1140 atccagaaat aaatgatttg tgttgtccta aatgtgtgag ggaagatata agacaaaaga 1200 ctgaagatag tttctttaaa caagcaacaa agaaatgggg agataagtat gattattcta 1260 aaactataat agtagataga attaccccag ttacaattac ttgccctata cacggagatt 1320 ttacagtatt accagggaac catgtgtgta aagataaaaa tactggagga tgccaacaat 1380 gtagtgaaga aagacaacat attgaatcat tagaaaaagg tagcgtgaag gtcattaaga 1440 tgataaagaa aaagtttgga aacaaatatt cattagataa attcgaatat aggggagata 1500 aagaaaaagt aattcttatt tgccctattc atggagaatt ttcaatgacg ccaggtaatt 1560 taagatatag caacggttgt ccacaatgca ctttagaaaa tgcttatcgt ataaaat 1617 <210> 118 <211> 37 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 118 agttgtaaat acctataaaa atgtattcca acatagt 37 <210> 119 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 119 gttgtgaata ccctacaaaa gtgatattcc aacaat 36 <210> 120 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 120 aaaaagggtg aacaacatt 19 <210> 121 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 121 gttgtttgat acctataaaa gagtattcac aacagg 36 <210> 122 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 122 gttgtttact ccatacaaaa taagagttac aacaat 36 <210> 123 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 123 gttgttcaat ccttataaaa aggtgtctac aacaat 36 <210> 124 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 124 gttgtttaat acctataaaa gagtatatac aacaag 36 <210> 125 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 125 aatacctata aaaggacata tacaacaag 29 <210> 126 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 126 gttgttcaat acctataaaa agacatatac aacaag 36 <210> 127 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 127 gttgttcatt acctaaaaaa gagta 25 <210> 128 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 128 gttgtttaat acctataaaa gaatatatac aacaag 36 <210> 129 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 129 gttgtttaat acttaaaaaa tagtatgtac aacatg 36 <210> 130 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 130 gttgtatcca ccgtataaaa catagtgtcc aacatc 36 <210> 131 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 131 gttgtttatt acttacaaaa acagcataac aacatc 36 <210> 132 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 132 gttgttcaat ccttataaaa agaggtctac aacaat 36 <210> 133 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 133 gttgttatta ccatataaaa tggttcgtac aacaat 36 <210> 134 <211> 39 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 134 actgttgtac tttcctttca tctgcagggg ttttacagt 39 <210> 135 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 135 tagttgttta atacttaaaa aatagtatgt acaacatgat 40 <210> 136 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 136 gttgtaaata gcatacaaac atagccattc aacaat 36 <210> 137 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 137 gttgtgagta ccctataaaa gaagtacccc aacaat 36 <210> 138 <211> 37 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 138 cgttgttaga cccctaaaac acaaggtcta caacaat 37 <210> 139 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 139 gttgtaaata catctcatat tgtattccaa cacagt 36 <210> 140 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 140 gttgtcagca tccgccttgc ggtatgccac aacaat 36 <210> 141 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 141 gttgccaata ccataaaaaa cggtatctca acaatt 36 <210> 142 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 142 ttgtcagcac ccgtaatacg gtatgccaca acaat 35 <210> 143 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 143 gttgtcagca cccgtaatac ggtatgccac aacaat 36 <210> 144 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 144 gttgtaaata cctataaaag tgtatcccaa cacaat 36 <210> 145 <211> 37 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 145 gttgtaatta cctttataag aaaggtattc aacaata 37 <210> 146 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 146 gagttgttcg ttgcccataa aaagccattt acaaca 36 <210> 147 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 147 gttgtatctg tcctaaaaaa gaatacattc aacaat 36 <210> 148 <211> 37 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 148 agttgtaatc agtctataaa agataccatt caacaat 37 <210> 149 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 149 gttgtaatta agataaaaaa cctattatcc aacaat 36 <210> 150 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 150 gttgtaaata ggatataaaa tcaactattc aacagt 36 <210> 151 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 151 gttgttcaat ccttacaaaa aggtatctac aacaat 36 <210> 152 <211> 103 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 152 attgggactt ccggaagtaa aatatccacc tgaggatttt aggacatata atttctaata 60 aaaatgaacg gaaaaatttc cgttcatttt ttttttgttt att 103 <210> 153 <211> 105 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 153 tattgggact tccggaagta aaatatccac ctgaggattt taggacatat aatttctaat 60 aaaaatgaac ggaaaaattt ccgttcattt tttttttgtt tattg 105 <210> 154 <211> 163 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 154 gacgagaacg gagtgtggct cctgaggaaa aacgacaaac atccaacata ttttatctac 60 cagaacggaa cactctatca atatgaggaa gattgattag ttgatgtttt cataataatt 120 ttatctggaa tttgaaaaga ttccagattt tttttttatt tcg 163 <210> 155 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 155 gcaatcaaca agactttcat tttcaaggca aaatgcgata agaacgatgt catatcgtta 60 tgggaa 66 <210> 156 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 156 gatgctccga aaacgtggtt gttcggacaa caaaaaaatg aatgtttcta atgtattaa 59 <210> 157 <211> 70 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 157 gacggaaaaa taaatgagga tggtatgttt gttgaaaact tggaataatt ctgtatatac 60 caattagaat 70 <210> 158 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 158 tgttgattgc tgattcttcg ttgtttgatt tgtgttgtgc cataatctta aaatt 55 <210> 159 <211> 83 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 159 cgcaagatat aaggcaatcg gaaacggatg gacagttgat gtaatttcac atatttttaa 60 gaatttgaaa aattaatttg gta 83 <210> 160 <211> 95 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 160 ggacatttcg taaatcatat ggagatacgg agttcaagtc aattgaagag cttcctgaat 60 ttagagataa catacttata caactagatt gattg 95 <210> 161 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 161 atcaatacat agatgatgag aaatggagaa aaaaatttgt tcgcccaaca aacactaat 59 <210> 162 <211> 80 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 162 ctggtaatac tgtaaaatct ccgtgtatag ggcaagtaat tgtaactggg gtaattctat 60 ctactattat agttttagaa 80 <210> 163 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 163 cagaagtcgt tcaagttcaa ggtcaaaacg gacaaggaga cggtcgaatt attcag 56 <210> 164 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 164 gggagggtga cattcagaag tcgttcaagt tcaaggtcaa aacggacaag gagacggtcg 60 aattat 66 <210> 165 <211> 102 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 165 aagtgtcttc aacacattga agaaaactct cggtgcaata tatggaaagc tcgatgaaaa 60 cggaaatttt attgagaatg aatgtaataa gtaactggaa ta 102 <210> 166 <211> 98 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 166 ccgtgggagg atttggattt ggttgaagac atcagaaaaa ttttcgaaat ggaatagagg 60 gaaccggaat tttttccggt ttttctttgt cctttcga 98 <210> 167 <211> 82 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 167 cagagtaacc tttcctgata tgttgttaca catttttgta agtgttaaac aactgacgca 60 ttgatattgc cttgtctatt aa 82 <210> 168 <211> 82 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 168 caatcgcgag tttatactga aatgttgtta cactgttttt gtaagtgtta aacaaccttg 60 cacaaatgtc atctaccagt ac 82 <210> 169 <211> 78 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 169 ccgagcgacc cacaaaccta ttgtcgtacg catcatttca catgataata acaacgaata 60 ttcctgcaag catgattt 78 <210> 170 <211> 77 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 170 tatgacatta tgatattgtt gtatgcatca tttcacatgg taataacaac gaagagaaac 60 accgagcgac ccacaaa 77 <210> 171 <211> 85 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 171 acatctttta tgacattatg atattgttgt atgcatcatt tcacatggta ataacaacga 60 agagaaacac cgagcgaccc acaaa 85 <210> 172 <211> 82 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 172 gctaaaatat agtcctgtgg atgttgaata catttctttt aagtgtactt acaaccaacg 60 ctgtacacat tgctaatgga tg 82 <210> 173 <211> 83 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 173 tgctaaaata tagtcctgtg gatgttgaat acatttcttt taagtgtact tacaaccaac 60 gctgtacaca ttgctaatgg atg 83 <210> 174 <211> 87 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 174 caacaccaag gctgaggcaa agaagagggc tgatgatatg aacaaacaga atagggtcat 60 acaccagctg tctgtttatt tgtgtcc 87 <210> 175 <211> 95 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 175 aattagactg ataaacaaag aataatgaga actataatag ggaggtgtac ccccgaattt 60 aagccagtgg agaaccatac aaacctatca tatag 95 <210> 176 <211> 72 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 176 tgggtatgcg ttgtttaata cttaaaaaaa tgtatgtaca acatgtctgt ggaaagtctt 60 tctattgtat at 72 <210> 177 <211> 68 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 177 cgttgtttaa tacttaaaaa aatgtatgta caacatgtct gtggaaagtc tttctattgt 60 atatagga 68 <210> 178 <211> 118 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 178 tgggtatgcg ttgtttaata cttaaaaaaa tgtatgtaca acatgtctgt ggaaagtctt 60 tctattgtat ataggaattt tatataatta tttaattatc aatgaattat attagtat 118 <210> 179 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 179 ggtgggtatg cgttgtttaa tacttaaaaa aatgtatgta caacatgtct gtggaaag 58 <210> 180 <211> 73 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 180 aatgaacgag attgttggga tatacctttt ataggatttt cacaacatct gagttgtttg 60 atgttaaaaa ctt 73 <210> 181 <211> 80 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 181 gataaaaatg aacgagattg ttgggatata ccttttatag gattttcaca acatctgagt 60 tgtttgatgt taaaaacttt 80 <210> 182 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 182 gctaatataa agattgtact gtgttgagat acacttttag aggtatttac aacaaaatgc 60 gtgatatgga aatga 75 <210> 183 <211> 90 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 183 ataccaacat aaatacaggt cttgctgttt ctggtcggtc gtaaacacct ctaaaaggat 60 tgtttcgaca taggttactg acgcttcaag 90 <210> 184 <211> 72 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 184 aatgaagaaa taactgtgtt gagatacact tttagaggta tttacaacac catataaacc 60 tgaccatctc ct 72 <210> 185 <211> 84 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 185 aggaagatgt cagacgtttt tattgttgga atactcgttt tttacggtat ttacaactgc 60 cccgtagcgg aatcaaaata ccac 84 <210> 186 <211> 76 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 186 atgtcagacg tttttattgt tggaatactc gttttttacg gtatttacaa ctgccccgta 60 gcggaatcaa aatacc 76 <210> 187 <211> 99 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 187 aaataacaaa aattctggac gggaaaggaa gatgtcagac gtttttattg ttggaatact 60 cgttttttac ggtatttaca actgccccgt agcggaatc 99 <210> 188 <211> 96 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 188 ataacaaaaa ttctggacgg gaaaggaaga tgtcagacgt ttttattgtt ggaatactcg 60 ttttttacgg tatttacaac tgccccgtag cggaat 96 <210> 189 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 189 tattgcaact attacaacaa acttagcgaa tggattggca aagatatgta taacacgccg 60 <210> 190 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 190 attgcaacta ttacaacaaa cttagcgaat ggattggcaa agatatgtat aacacgccg 59 <210> 191 <211> 71 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 191 gtatgatgac agaagaaaca cggaagacaa tagagagcgt catagtggtt ctcggcatag 60 caatcatgct g 71 <210> 192 <211> 118 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 192 atgatgacag aagaaacacg gaagacaata gagagcgtca tagtggttct cggcatagca 60 atcatgctgg cagccgccgt ccgaataatg acgcagaaca aagcaattgt gaaatatg 118 <210> 193 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 193 agaaggtact gccgccttat gaccgacgag aacggagtgt ggctcctgag gaaaaac 57 <210> 194 <211> 163 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 194 gacgagaacg gagtgtggct cctgaggaaa aacgacaaac atccaacata ttttatctac 60 cagaacggaa cactctatca atatgaggaa gattgattag ttgatgtttt cataataatt 120 ttatctggaa tttgaaaaga ttccagattt tttttttatt tcg 163 <210> 195 <211> 92 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 195 tttttgttat atatttgtcc tgttaggtta aatcaccgcg cctgatgacg aagtcggtgg 60 tagaattaga ctaatattaa atatgtctca tg 92 <210> 196 <211> 82 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 196 cctattagat attccgtatt tctttaagac tgttataata caaatatact acaaatcatg 60 caatttttga tttttaacaa aa 82 <210> 197 <211> 103 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 197 tcgttgaata cgatatcgcc gaaacaattg attggagaag tacgctttgt ttcaagacat 60 ggaatacgta tggttctcct caatgggact cgaagatcaa gaa 103 <210> 198 <211> 108 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 198 atcgttgaat acgatatcgc cgaaacaatt gattggagaa gtacgctttg tttcaagaca 60 tggaatacgt atggttctcc tcaatgggac tcgaagatca agaaccag 108 <210> 199 <211> 73 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 199 gagcttttct ggcaatgtag acattaaagc tggtatcgtt gaatacgata tcgccgaaac 60 aattgattgg aga 73 <210> 200 <211> 98 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 200 tttttcattg ttctcaaatt gttggataat gttttgtgtg tttcattttt gtcattgtgt 60 caccttaact gacaaggtgg cacatttttt atgtcaat 98 <210> 201 <211> 98 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 201 ttttcattgt tctcaaattg ttggataatg ttttgtgtgt ttcatttttg tcattgtgtc 60 accttaactg acaaggtggc acatttttta tgtcaata 98 <210> 202 <211> 122 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 202 aatatatctg ctaaggtcat atttttcatt gttctcaaat tgttggataa tgttttgtgt 60 gtttcatttt tgtcattgtg tcaccttaac tgacaaggtg gcacattttt tatgtcaata 120 tg 122 <210> 203 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 203 acaaattttt gattatggca cacaaaaaga acataggagc agagatagta aaaacttact 60 cttttaaggt gaaga 75 <210> 204 <211> 136 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 204 ttattttata ggataataga gctaacaagc attaacaatt attaaaacga tttatattga 60 aaataaattt tgtgggaata tttattttta ctacctttgc atcgtaatac aattaaacaa 120 atttttgatt atggca 136 <210> 205 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 205 cctgttgtga atactctttt ataggtatca aacaacggaa gtggttggtc agcatggatt 60 a 61 <210> 206 <211> 25 <212> DNA <213> Unknown <220> <223> Description of Unknown: target sequence <400> 206 ggaagtggtt ggtcagcatg gatta 25 <210> 207 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 207 cctgttgtga atactctttt ataggtatca aacaactgtg aagtgacctg ggagctaact 60 g 61 <210> 208 <211> 25 <212> DNA <213> Unknown <220> <223> Description of Unknown: target sequence <400> 208 tgtgaagtga cctgggagct aactg 25 <210> 209 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 209 attgttgtag acaccttttt ataaggattg aacaacaacc cccgtctacc tgcccacagg 60 g 61 <210> 210 <211> 25 <212> DNA <213> Unknown <220> <223> Description of Unknown: target sequence <400> 210 aacccccgtc tacctgccca caggg 25 <210> 211 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 211 cttgttgtat atgtcctttt ataggtatta aacaacgtag agggagaaat ggaatccata 60 t 61 <210> 212 <211> 25 <212> DNA <213> Unknown <220> <223> Description of Unknown: target sequence <400> 212 gtagagggag aaatggaatc catat 25 <210> 213 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 213 cttgttgtat atgtcctttt ataggtatta aacaac 36 <210> 214 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 214 attgttgtag acaccttttt ataaggattg aacaacgcac caacgggtag atttggtggt 60 g 61 <210> 215 <211> 25 <212> DNA <213> Unknown <220> <223> Description of Unknown: target sequence <400> 215 gcaccaacgg gtagatttgg tggtg 25 <210> 216 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (2)..(2) <223> L, M, I, C, or F <220> <221> MOD_RES <222> (3)..(3) <223> Y, W, or F <220> <221> MOD_RES <222> (4)..(4) <223> K, T, C, R, W, Y, H, or V <220> <221> MOD_RES <222> (5)..(5) <223> I, L, or M <400> 216 Pro Xaa Xaa Xaa Xaa Phe 1 5 <210> 217 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (2)..(2) <223> I, L, M, Y, T, or F <220> <221> MOD_RES <222> (3)..(3) <223> R, Q, K, E, S, or T <220> <221> MOD_RES <222> (4)..(4) <223> L, I, T, C, M, or K <400> 217 Arg Xaa Xaa Xaa Leu 1 5 <210> 218 <211> 4 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (2)..(2) <223> I, L, or F <220> <221> MOD_RES <222> (4)..(4) <223> K, R, V, or E <400> 218 Asn Xaa Tyr Xaa 1 <210> 219 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (2)..(2) <223> T, I, N, A, S, F, or V <220> <221> MOD_RES <222> (3)..(3) <223> I, V, L, or S <220> <221> MOD_RES <222> (4)..(4) <223> H, S, G, or R <220> <221> MOD_RES <222> (7)..(7) <223> D, S, or E <220> <221> MOD_RES <222> (8)..(8) <223> I, V, M, T, or N <400> 219 Lys Xaa Xaa Xaa Phe Ala Xaa Xaa Lys Asp 1 5 10 <210> 220 <211> 4 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (2)..(2) <223> G, S, C, or T <220> <221> MOD_RES <222> (4)..(4) <223> N, Y, K, or S <400> 220 Leu Xaa Asn Xaa 1 <210> 221 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (2)..(2) <223> S, P, or A <220> <221> MOD_RES <222> (3)..(3) <223> Y, S, A, P, E, Y, Q, or N <220> <221> MOD_RES <222> (4)..(4) <223> F, Y, or H <220> <221> MOD_RES <222> (5)..(5) <223> T or S <220> <221> MOD_RES <222> (8)..(8) <223> M, T, or I <400> 221 Pro Xaa Xaa Xaa Xaa Ser Gln Xaa Asp Ser 1 5 10 <210> 222 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (2)..(2) <223> N, K, W, R, E, T, or Y <220> <221> MOD_RES <222> (3)..(3) <223> M, R, L, S, K, V, E, T, I, or D <220> <221> MOD_RES <222> (6)..(6) <223> L, R, H, P, T, K, Q, P, S, or A <220> <221> MOD_RES <222> (7)..(7) <223> G, Q, N, R, K, E, I, T, S, or C <220> <221> MOD_RES <222> (10)..(10) <223> R, W, Y, K, T, F, S, or Q <400> 222 Lys Xaa Xaa Val Arg Xaa Xaa Gln Glu Xaa His 1 5 10 <210> 223 <211> 13 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <220> <221> MOD_RES <222> (1)..(1) <223> I, K, V, or L <220> <221> MOD_RES <222> (4)..(4) <223> L or M <220> <221> MOD_RES <222> (5)..(5) <223> N, H, or P <220> <221> MOD_RES <222> (6)..(6) <223> A, S, or C <220> <221> MOD_RES <222> (8)..(8) <223> V, Y, I, F, T, N, or Y <220> <221> MOD_RES <222> (10)..(10) <223> A or S <220> <221> MOD_RES <222> (11)..(11) <223> S, A, or P <220> <221> MOD_RES <222> (12)..(12) <223> M, C, L, R, N, S, K, or L <400> 223 Xaa Asn Gly Xaa Xaa Xaa Asp Xaa Asn Xaa Xaa Xaa Asn 1 5 10 <210> 224 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 224 vhtdkdddd 9 <210> 225 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 225 attgttgda 9 <210> 226 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (8)..(8) <223> a, c, t, g, unknown or other <400> 226 hdhwdwwnv 9 <210> 227 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 227 ttttwtarg 9 <210> 228 <211> 5 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 228 vmmac 5 <210> 229 <211> 5 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 229 acaac 5 <210> 230 <211> 41 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (18)..(18) <223> a, c, t, g, unknown or other <400> 230 atattgttgd akrwwyyntt ttwtargkww wwwacaacwr b 41 <210> 231 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 231 Asn Leu Thr Ser Ile Thr Ile Gly 1 5 <210> 232 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 232 Asn Tyr Arg Thr Lys Ile Arg Thr Leu Asn 1 5 10 <210> 233 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 233 Ile Ser Tyr Ile Glu Asn Val Glu Asn 1 5 <210> 234 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 234 Glu Leu Leu Ser Val Glu Gln Leu Lys 1 5 <210> 235 <211> 15 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 235 His Ile Asn Ser Met Thr Ile Asn Ile Gln Asp Phe Lys Ile Glu 1 5 10 15 <210> 236 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 236 Lys Glu Asn Ser Leu Gly Phe Ile Leu 1 5 <210> 237 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 237 Gly Asn Arg Gln Ile Lys Lys Gly 1 5 <210> 238 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 238 Asp Val Asn Phe Lys His Ala 1 5 <210> 239 <211> 12 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 239 Gly Tyr Ile Asn Leu Tyr Lys Tyr Leu Leu Glu His 1 5 10 <210> 240 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 240 Lys Glu Gln Val Leu Ser Lys Leu Leu Tyr 1 5 10 <210> 241 <211> 38 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <400> 241 Glu Tyr Ile Tyr Val Ser Cys Val Asn Lys Leu Arg Ala Lys Tyr Val 1 5 10 15 Ser Tyr Phe Ile Leu Lys Glu Lys Tyr Tyr Glu Lys Gln Lys Glu Tyr 20 25 30 Asp Ile Glu Met Gly Phe 35 <210> 242 <211> 14 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 242 Asp Asp Ser Thr Glu Ser Lys Glu Ser Met Asp Lys Arg Arg 1 5 10 <210> 243 <211> 16 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 243 Asn Val Gln Gln Asp Ile Asn Gly Cys Leu Lys Asn Ile Ile Asn Tyr 1 5 10 15 <210> 244 <211> 12 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 244 Ala Leu Glu Asn Leu Glu Asn Ser Asn Phe Glu Lys 1 5 10 <210> 245 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 245 Gln Val Leu Pro Thr Ile Lys Ser Leu Leu 1 5 10 <210> 246 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 246 Tyr His Lys Leu Glu Asn Gln Asn 1 5 <210> 247 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 247 Ala Ser Asp Lys Val Lys Glu Tyr Ile Glu 1 5 10 <210> 248 <211> 13 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 248 Thr Asn Glu Asn Asn Glu Ile Val Asp Ala Lys Tyr Thr 1 5 10 <210> 249 <211> 15 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 249 Ala Asn Phe Phe Asn Leu Met Met Lys Ser Leu His Phe Ala Ser 1 5 10 15 <210> 250 <211> 16 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 250 Leu Leu Ser Asn Asn Gly Lys Thr Gln Ile Ala Leu Val Pro Ser Glu 1 5 10 15 <210> 251 <211> 18 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 251 His Ile Asn Gly Leu Asn Ala Asp Phe Asn Ala Ala Asn Asn Ile Lys 1 5 10 15 Tyr Ile <210> 252 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 252 cctgttgtga atactctttt ataggtatca aacaacgaga ggtgagggac ttggggggta 60 a 61 <210> 253 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 253 gagaggtgag ggacttgggg ggtaa 25 <210> 254 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 254 cctgttgtga atactctttt ataggtatca aacaactgag aatggtgcgt cctaggtgtt 60 c 61 <210> 255 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 255 tgagaatggt gcgtcctagg tgttc 25 <210> 256 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 256 cctgttgtga atactctttt ataggtatca aacaacgcag cctgtgctga cccatgcagt 60 c 61 <210> 257 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 257 gcagcctgtg ctgacccatg cagtc 25 <210> 258 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 258 cctgttgtga atactctttt ataggtatca aacaacggaa gtggttggtc agcatggatt 60 a 61 <210> 259 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 259 ggaagtggtt ggtcagcatg gatta 25 <210> 260 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 260 cctgttgtga atactctttt ataggtatca aacaacagcc agtgttgcta gtcaagggca 60 g 61 <210> 261 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 261 agccagtgtt gctagtcaag ggcag 25 <210> 262 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 262 cctgttgtga atactctttt ataggtatca aacaacttga cattgtccac acctggaatc 60 g 61 <210> 263 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 263 ttgacattgt ccacacctgg aatcg 25 <210> 264 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 264 cctgttgtga atactctttt ataggtatca aacaacgaaa tctattgagg ctctggagag 60 a 61 <210> 265 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 265 gaaatctatt gaggctctgg agaga 25 <210> 266 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 266 cctgttgtga atactctttt ataggtatca aacaacggaa gctggatgag cctggtccat 60 g 61 <210> 267 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 267 ggaagctgga tgagcctggt ccatg 25 <210> 268 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 268 cctgttgtga atactctttt ataggtatca aacaacccca tactggggac caaggaagtg 60 t 61 <210> 269 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 269 cccatactgg ggaccaagga agtgt 25 <210> 270 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 270 cctgttgtga atactctttt ataggtatca aacaacatga tgctttgccg taacccttcg 60 t 61 <210> 271 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 271 atgatgcttt gccgtaaccc ttcgt 25 <210> 272 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 272 cctgttgtga atactctttt ataggtatca aacaacaaga gtcattgccc cactttaccc 60 t 61 <210> 273 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 273 aagagtcatt gccccacttt accct 25 <210> 274 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 274 cctgttgtga atactctttt ataggtatca aacaacgaga ggtgagggac ttggggggta 60 a 61 <210> 275 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 275 gagaggtgag ggacttgggg ggtaa 25 <210> 276 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 276 cctgttgtga atactctttt ataggtatca aacaacgtga agttctaaac ttcatattac 60 c 61 <210> 277 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 277 gtgaagttct aaacttcata ttacc 25 <210> 278 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 278 cttgttgtat atgtcctttt ataggtatta aacaacgtag agggagaaat ggaatccata 60 t 61 <210> 279 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 279 gtagagggag aaatggaatc catat 25 <210> 280 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 280 cttgttgtat atgtcctttt ataggtatta aacaacgagt cgctttaact ggccctggct 60 t 61 <210> 281 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 281 gagtcgcttt aactggccct ggctt 25 <210> 282 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 282 cttgttgtat atgtcctttt ataggtatta aacaactcca cacctggaat cggctttcag 60 c 61 <210> 283 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 283 tccacacctg gaatcggctt tcagc 25 <210> 284 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 284 cttgttgtat atgtcctttt ataggtatta aacaacaacc cccgtctacc tgcccacagg 60 g 61 <210> 285 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 285 aacccccgtc tacctgccca caggg 25 <210> 286 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 286 cttgttgtat atgtcctttt ataggtatta aacaacgtag agggagaaat ggaatccata 60 t 61 <210> 287 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 287 gtagagggag aaatggaatc catat 25 <210> 288 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 288 cttgttgtat atgtcctttt ataggtatta aacaacgacc catgggagca gctggtcaga 60 g 61 <210> 289 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 289 gacccatggg agcagctggt cagag 25 <210> 290 <211> 13 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 290 Glu Cys Pro Ile Thr Lys Asp Val Ile Asn Glu Tyr Lys 1 5 10

Claims

CLUST.091979의 조작된 비-자연 발생 클러스터링된 규칙적으로 산재된 짧은 회문 반복부(Clustered Regularly Interspaced Short Palindromic Repeat; CRISPR) - Cas 시스템으로서,
(a) CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산; 및
(b) 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하고,
CRISPR-연관 단백질은 SEQ ID NO: 241의 아미노산 서열을 포함하고,
CRISPR-연관 단백질은 RNA 가이드에 결합하고, 스페이서 서열에 상보적인 표적 핵산 서열을 변형시킬 수 있는, 시스템.
제1항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4, SEQ ID NO: 10, SEQ ID NO: 12, 또는 SEQ ID NO: 14에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하는, 시스템.
CLUST.091979의 조작된 비-자연 발생 클러스터링된 규칙적으로 산재된 짧은 회문 반복부(CRISPR) - Cas 시스템으로서,
(a) CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산; 및
(b) 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하고,
CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고,
CRISPR-연관 단백질은 RNA 가이드에 결합하고, 스페이서 서열에 상보적인 표적 핵산 서열을 변형시킬 수 있는, 시스템.
제1항 내지 제3항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 적어도 하나의 RuvC 도메인 또는 적어도 하나의 스플릿 RuvC 도메인을 포함하는, 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 하기 서열들 중 하나 이상을 포함하는, 시스템:
(a) PX₁X₂X₃X₄F(SEQ ID NO: 216)(여기서, X₁은 L 또는 M 또는 I 또는 C 또는 F이고, X₂는 Y 또는 W 또는 F이고, X₃는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X₄는 I 또는 L 또는 M임);
(b) RX₁X₂X₃L(SEQ ID NO: 217)(여기서, X₁은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X₂는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X₃는 L 또는 I 또는 T 또는 C 또는 M 또는 K임);
(c) NX₁YX₂(SEQ ID NO: 218)(여기서, X₁은 I 또는 L 또는 F이고, X₂는 K 또는 R 또는 V 또는 E임);
(d) KX₁X₂X₃FAX₄X₅KD(SEQ ID NO: 219)(여기서, X₁은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X₂는 I 또는 V 또는 L 또는 S이고, X₃는 H 또는 S 또는 G 또는 R이고, X₄는 D 또는 S 또는 E이고, X₅는 I 또는 V 또는 M 또는 T 또는 N임);
(e) LX₁NX₂(SEQ ID NO: 220)(여기서, X₁은 G 또는 S 또는 C 또는 T이고, X₂는 N 또는 Y 또는 K 또는 S임);
(f) PX₁X₂X₃X₄SQX₅DS(SEQ ID NO: 221)(여기서, X₁은 S 또는 P 또는 A이고, X₂는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X₃는 F 또는 Y 또는 H이고, X₄는 T 또는 S이고, X₅는 M 또는 T 또는 I임);
(g) KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO: 222)(여기서, X₁은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X₂는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X₃는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X₄는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X₅는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및
(h) X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO: 223)(여기서, X₁은 I 또는 K 또는 V 또는 L이고, X₂는 L 또는 M이고, X₃는 N 또는 H 또는 P이고, X₄는 A 또는 S 또는 C이고, X₅는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X₆는 A 또는 S이고, X₇은 S 또는 A 또는 P이고, X₈은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임).
제1항 내지 제5항 중 어느 한 항에 있어서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
제1항 내지 제6항 중 어느 한 항에 있어서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
제1항 내지 제7항 중 어느 한 항에 있어서, 직접 반복부 서열은 하기 서열들 중 하나 이상을 포함하는, 시스템:
(a) X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO: 224)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 T 또는 C 또는 A이고, X₃는 T 또는 G 또는 A이고, X₄는 T 또는 G이고, X₅는 T 또는 G 또는 A이고, X₆는 G 또는 T 또는 A이고, X₇은 T 또는 G 또는 A이고, X₈은 A 또는 G 또는 T임);
(b) X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO: 226)(여기서, X₁은 T 또는 C 또는 A이고, X₂는 T 또는 A 또는 G이고, X₃는 T 또는 C 또는 A이고, X₄는 T 또는 A이고, X₅는 T 또는 A 또는 G이고, X₆는 T 또는 A이고, X₇은 A 또는 T이고, X₈은 A 또는 G 또는 C 또는 T이고, X₉은 G 또는 A 또는 C임); 및
(c) X₁X₂X₃AC(SEQ ID NO: 228)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 C 또는 A이고, X₃는 A 또는 C임).
제1항 내지 제8항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
제1항 내지 제9항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
제1항 내지 제10항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 프로토스페이서 인접 모티프(PAM) 서열을 인식할 수 있고, PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 시스템.
제1항 내지 제11항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 시스템.
제1항 내지 제12항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
제1항 내지 제13항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
제1항 내지 제14항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 시스템.
제1항 내지 제15항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 시스템.
제1항 내지 제16항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
제1항 내지 제17항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 시스템.
제1항 내지 제18항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 시스템.
제1항 내지 제19항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 시스템.
제1항 내지 제20항 중 어느 한 항에 있어서, RNA 가이드의 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함하는, 시스템.
제1항 내지 제21항 중 어느 한 항에 있어서, RNA 가이드의 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함하는, 시스템.
제1항 내지 제22항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 촉매 잔기(예를 들어, 아스파트산 또는 글루탐산)를 포함하는, 시스템.
제1항 내지 제23항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 표적 핵산을 절단하는, 시스템.
제1항 내지 제24항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 펩티드 태그, 형광 단백질, 염기-편집 도메인, DNA 메틸화 도메인, 히스톤 잔기 변형 도메인, 국재화 인자, 전사 조절 인자, 광-개폐 제어 인자, 화학적 유도성 인자, 또는 염색질 시각화 인자를 추가로 포함하는, 시스템.
제1항 내지 제25항 중 어느 한 항에 있어서, CRISPR-연관 단백질을 인코딩하는 핵산은 세포에서 발현을 위해 코돈-최적화되는, 시스템.
제1항 내지 제26항 중 어느 한 항에 있어서, CRISPR-연관 단백질을 인코딩하는 핵산은 프로모터에 작동 가능하게 연결되는, 시스템.
제1항 내지 제27항 중 어느 한 항에 있어서, CRISPR-연관 단백질을 인코딩하는 핵산은 벡터에 있는, 시스템.
제28항에 있어서, 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 파지 벡터, 아데노바이러스 벡터, 아데노-연관 벡터, 또는 단순 포진 벡터를 포함하는, 시스템.
제1항 내지 제29항 중 어느 한 항에 있어서, 표적 핵산은 DNA 분자인, 시스템.
제1항 내지 제30항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 비-특이적 뉴클레아제 활성을 포함하는, 시스템.
제1항 내지 제31항 중 어느 한 항에 있어서, CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으키는, 시스템.
제32항에 있어서, 표적 핵산의 변형은 이중-가닥 절단 사건인, 시스템.
제32항에 있어서, 표적 핵산의 변형은 단일-가닥 절단 사건인, 시스템.
제1항 내지 제34항 중 어느 한 항에 있어서, 표적 핵산의 변형은 삽입 사건을 일으키는, 시스템.
제1항 내지 제35항 중 어느 한 항에 있어서, 표적 핵산의 변형은 결실 사건을 일으키는, 시스템.
제1항 내지 제36항 중 어느 한 항에 있어서, 표적 핵산의 변형은 세포 독성 또는 세포 사멸을 일으키는, 시스템.
제1항 내지 제37항 중 어느 한 항에 있어서, 도너 주형 핵산을 추가로 포함하는, 시스템.
제38항에 있어서, 도너 주형 핵산은 DNA 분자인, 시스템.
제38항에 있어서, 도너 주형 핵산은 RNA 분자인, 시스템.
제1항 내지 제40항 중 어느 한 항에 있어서, RNA 가이드는 선택적으로 tracrRNA를 포함하는, 시스템.
제1항 내지 제41항 중 어느 한 항에 있어서, 시스템은 tracrRNA를 포함하지 않는, 시스템.
제1항 내지 제42항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 자가-가공인, 시스템.
제1항 내지 제43항 중 어느 한 항에 있어서, 시스템은 나노입자, 리포좀, 엑소좀, 미세소포체, 또는 유전자-총을 포함하는 전달 조성물에 존재하는, 시스템.
제1항 내지 제 44항 중 어느 한 항에 있어서, 세포 내에 있는, 시스템.
제45항에 있어서, 세포는 진핵 세포인, 시스템.
제45항에 있어서, 세포는 원핵 세포인, 시스템.
세포로서, 세포는
(a) CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산; 및
(b) 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드를 포함하고,
CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하는, 세포.
제48항에 있어서, CRISPR-연관 단백질은 하기 서열들 중 하나 이상을 포함하는, 세포:
(a) PX₁X₂X₃X₄F(SEQ ID NO: 216)(여기서, X₁은 L 또는 M 또는 I 또는 C 또는 F이고, X₂는 Y 또는 W 또는 F이고, X₃는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X₄는 I 또는 L 또는 M임);
(b) RX₁X₂X₃L(SEQ ID NO: 217)(여기서, X₁은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X₂는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X₃는 L 또는 I 또는 T 또는 C 또는 M 또는 K임);
(c) NX₁YX₂(SEQ ID NO: 218)(여기서, X₁은 I 또는 L 또는 F이고, X₂는 K 또는 R 또는 V 또는 E임);
(d) KX₁X₂X₃FAX₄X₅KD(SEQ ID NO: 219)(여기서, X₁은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X₂는 I 또는 V 또는 L 또는 S이고, X₃는 H 또는 S 또는 G 또는 R이고, X₄는 D 또는 S 또는 E이고, X₅는 I 또는 V 또는 M 또는 T 또는 N임);
(e) LX₁NX₂(SEQ ID NO: 220)(여기서, X₁은 G 또는 S 또는 C 또는 T이고, X₂는 N 또는 Y 또는 K 또는 S임);
(f) PX₁X₂X₃X₄SQX₅DS(SEQ ID NO: 221)(여기서, X₁은 S 또는 P 또는 A이고, X₂는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X₃는 F 또는 Y 또는 H이고, X₄는 T 또는 S이고, X₅는 M 또는 T 또는 I임);
(g) KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO: 222)(여기서, X₁은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X₂는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X₃는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X₄는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X₅는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및
(h) X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO: 223)(여기서, X₁은 I 또는 K 또는 V 또는 L이고, X₂는 L 또는 M이고, X₃는 N 또는 H 또는 P이고, X₄는 A 또는 S 또는 C이고, X₅는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X₆는 A 또는 S이고, X₇은 S 또는 A 또는 P이고, X₈은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임).
제1항 내지 제49항 중 어느 한 항에 있어서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
제1항 내지 제50항 중 어느 한 항에 있어서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
제1항 내지 제51항 중 어느 한 항에 있어서, 직접 반복부 서열은 하기 서열들 중 하나 이상을 포함하는, 세포:
(a) X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO: 224)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 T 또는 C 또는 A이고, X₃는 T 또는 G 또는 A이고, X₄는T 또는 G이고, X₅는 T 또는 G 또는 A이고, X₆는 G 또는 T 또는 A이고, X₇은 T 또는 G 또는 A이고, X₈은 A 또는 G 또는 T임);
(b) X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO: 226)(여기서, X₁은 T 또는 C 또는 A이고, X₂는 T 또는 A 또는 G이고, X₃는 T 또는 C 또는 A이고, X₄는 T 또는 A이고, X₅는 T 또는 A 또는 G이고, X₆는 T 또는 A이고, X₇은 A 또는 T이고, X₈은 A 또는 G 또는 C 또는 T이고, X₉은 G 또는 A 또는 C임); 및
(c) X₁X₂X₃AC(SEQ ID NO: 228)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 C 또는 A이고, X₃는 A 또는 C임).
제1항 내지 제52항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
제1항 내지 제53항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
제1항 내지 제54항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 세포.
제1항 내지 제55항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 세포.
제1항 내지 제56항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
제1항 내지 제57항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
제1항 내지 제58항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 세포.
제1항 내지 제59항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 세포.
제1항 내지 제60항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
제1항 내지 제61항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 세포.
제1항 내지 제62항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 세포.
제1항 내지 제63항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 세포.
제1항 내지 제64항 중 어느 한 항에 있어서, 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함하는, 세포.
제1항 내지 제65항 중 어느 한 항에 있어서, 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함하는, 세포.
제1항 내지 제66항 중 어느 한 항에 있어서, 세포는 tracrRNA를 추가로 포함하는, 세포.
제1항 내지 제67항 중 어느 한 항에 있어서, 시스템은 tracrRNA를 포함하지 않는, 세포.
제1항 내지 제68항 중 어느 한 항에 있어서, 진핵 세포, 예를 들어, 포유류 세포, 예를 들어, 인간 세포인, 세포.
제1항 내지 제69항 중 어느 한 항에 있어서, 원핵 세포인, 세포.
세포에서 표적 핵산에 제1항 내지 제70항 중 어느 한 항의 시스템을 결합하는 방법으로서,
(a) 시스템을 제공하는 단계; 및
(b) 시스템을 세포에 전달하는 단계를 포함하고,
세포는 표적 핵산을 포함하고, CRISPR-연관-단백질은 RNA 가이드에 결합하고, 스페이서 서열은 표적 핵산에 결합하는, 방법.
제71항에 있어서, 세포는 진핵 세포, 예를 들어, 포유류 세포, 예를 들어, 인간 세포인, 방법.
표적 핵산을 변형시키는 방법으로서, 상기 방법은
(a) CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산; 및
(b) 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드
를 포함하는 조작된 비-자연 발생 CRISPR-Cas 시스템을 표적 핵산에 전달하는 단계를 포함하고,
CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고,
CRISPR-연관 단백질은 RNA 가이드에 결합할 수 있고,
CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으키는, 방법.
제73항에 있어서, CRISPR-연관 단백질은 하기 서열들 중 하나 이상을 포함하는, 방법:
(a) PX₁X₂X₃X₄F(SEQ ID NO: 216)(여기서, X₁은 L 또는 M 또는 I 또는 C 또는 F이고, X₂는 Y 또는 W 또는 F이고, X₃는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X₄는 I 또는 L 또는 M임);
(b) RX₁X₂X₃L(SEQ ID NO: 217)(여기서, X₁은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X₂는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X₃는 L 또는 I 또는 T 또는 C 또는 M 또는 K임);
(c) NX₁YX₂(SEQ ID NO: 218)(여기서, X₁은 I 또는 L 또는 F이고, X₂는 K 또는 R 또는 V 또는 E임);
(d) KX₁X₂X₃FAX₄X₅KD(SEQ ID NO: 219)(여기서, X₁은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X₂는 I 또는 V 또는 L 또는 S이고, X₃는 H 또는 S 또는 G 또는 R이고, X₄는 D 또는 S 또는 E이고, X₅는 I 또는 V 또는 M 또는 T 또는 N임);
(e) LX₁NX₂(SEQ ID NO: 220)(여기서, X₁은 G 또는 S 또는 C 또는 T이고, X₂는 N 또는 Y 또는 K 또는 S임);
(f) PX₁X₂X₃X₄SQX₅DS(SEQ ID NO: 221)(여기서, X₁은 S 또는 P 또는 A이고, X₂는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X₃는 F 또는 Y 또는 H이고, X₄는 T 또는 S이고, X₅는 M 또는 T 또는 I임);
(g) KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO: 222)(여기서, X₁은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X₂는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X₃는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X₄는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X₅는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임); 및
(h) X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO: 223)(여기서, X₁은 I 또는 K 또는 V 또는 L이고, X₂는 L 또는 M이고, X₃는 N 또는 H 또는 P이고, X₄는 A 또는 S 또는 C이고, X₅는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X₆는 A 또는 S이고, X₇은 S 또는 A 또는 P이고, X₈은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임).
제1항 내지 제74항 중 어느 한 항에 있어서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
제1항 내지 제75항 중 어느 한 항에 있어서, 직접 반복부 서열은 SEQ ID NO: 57 내지 90, SEQ ID NO: 118 내지 151, 또는 SEQ ID NO: 213 중 어느 하나에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
제1항 내지 제76항 중 어느 한 항에 있어서, 직접 반복부 서열은 하기 서열들 중 하나 이상을 포함하는, 방법:
(a) X₁X₂TX₃X₄X₅X₆X₇X₈(SEQ ID NO: 224)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 T 또는 C 또는 A이고, X₃는 T 또는 G 또는 A이고, X₄는T 또는 G이고, X₅는 T 또는 G 또는 A이고, X₆는 G 또는 T 또는 A이고, X₇은 T 또는 G 또는 A이고, X₈은 A 또는 G 또는 T임);
(b) X₁X₂X₃X₄X₅X₆X₇X₈X₉(SEQ ID NO: 226)(여기서, X₁은 T 또는 C 또는 A이고, X₂는 T 또는 A 또는 G이고, X₃는 T 또는 C 또는 A이고, X₄는 T 또는 A이고, X₅는 T 또는 A 또는 G이고, X₆는 T 또는 A이고, X₇은 A 또는 T이고, X₈은 A 또는 G 또는 C 또는 T이고, X₉은 G 또는 A 또는 C임); 및
(c) X₁X₂X₃AC(SEQ ID NO: 228)(여기서, X₁은 A 또는 C 또는 G이고, X₂는 C 또는 A이고, X₃는 A 또는 C임).
제1항 내지 제77항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
제1항 내지 제78항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 57에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
제1항 내지 제79항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
제1항 내지 제80항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 1에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-TNNT-3' 또는 5'-TNRT-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
제1항 내지 제81항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
제1항 내지 제82항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
제1항 내지 제83항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
제1항 내지 제84항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
제1항 내지 제85항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
제1항 내지 제86항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, 직접 반복부 서열은 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
제1항 내지 제87항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
제1항 내지 제88항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열에 대해 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일성을 갖는 단백질이고, CRISPR-연관 단백질은 PAM 서열을 인식할 수 있고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
제1항 내지 제89항 중 어느 한 항에 있어서, 스페이서 서열은 약 15 개 뉴클레오티드 내지 약 55 개 뉴클레오티드를 포함하는, 방법.
제1항 내지 제90항 중 어느 한 항에 있어서, 스페이서 서열은 20 개 뉴클레오티드 내지 45 개 뉴클레오티드를 포함하는, 방법.
제1항 내지 제91항 중 어느 한 항에 있어서, 시스템은 tracrRNA를 추가로 포함하는, 방법.
제1항 내지 제92항 중 어느 한 항에 있어서, 시스템은 tracrRNA를 포함하지 않는, 방법.
제1항 내지 제93항 중 어느 한 항에 있어서, 표적 핵산은 DNA 분자인, 방법.
제1항 내지 제94항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 비-특이적 뉴클레아제 활성을 포함하는, 방법.
제1항 내지 제95항 중 어느 한 항에 있어서, 표적 핵산의 변형은 이중-가닥 절단 사건인, 방법.
제1항 내지 제96항 중 어느 한 항에 있어서, 표적 핵산의 변형은 단일-가닥 절단 사건인, 방법.
제1항 내지 제97항 중 어느 한 항에 있어서, 표적 핵산의 변형은 삽입 사건을 일으키는, 방법.
제1항 내지 제98항 중 어느 한 항에 있어서, 표적 핵산의 변형은 결실 사건을 일으키는, 방법.
제1항 내지 제99항 중 어느 한 항에 있어서, 표적 핵산의 변형은 세포 독성 또는 세포 사멸을 일으키는, 방법.
표적 핵산을 편집하는 방법으로서, 제1항 내지 제100항 중 어느 한 항의 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법.
표적 핵산의 발현을 변형시키는 방법으로서, 제1항 내지 제101항 중 어느 한 항의 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법.
표적 핵산의 부위에서 페이로드 핵산의 삽입을 표적화하는 방법으로서, 제1항 내지 제102항 중 어느 한 항의 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법.
표적 핵산에서의 부위로부터 페이로드 핵산의 절제를 표적화하는 방법으로서, 제1항 내지 제103항 중 어느 한 항의 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법.
DNA 표적 핵산의 인식 시 단일-가닥 DNA를 비-특이적으로 분해하는 방법으로서, 제1항 내지 제104항 중 어느 한 항의 시스템과 표적 핵산을 접촉시키는 단계를 포함하는, 방법.
샘플에서 표적 핵산을 검출하는 방법으로서,
(a) 샘플을 제1항 내지 제105항 중 어느 한 항의 시스템 및 표지된 리포터 핵산과 접촉시키는 단계로서, 표적 핵산에 대한 스페이서 서열의 혼성화가 표지된 리포터 핵산의 절단을 일으키는 단계; 및
(b) 표지된 리포터 핵산의 절단에 의해 생성된 검출 가능한 신호를 측정함으로써 샘플에서 표적 핵산의 존재를 검출하는 단계를 포함하는, 방법.
(a) 표적 핵산의 표적화 및 편집;
(b) 핵산의 인식 시 단일-가닥 핵산의 비-특이적 분해;
(c) 이중-가닥 표적의 스페이서 상보적 가닥의 인식 시 이중-가닥 표적의 비-스페이서 상보적 가닥의 표적화 및 닉킹;
(d) 이중-가닥 표적 핵산의 표적화 및 절단;
(e) 샘플 내 표적 핵산의 검출;
(f) 이중-가닥 핵산의 특이적 편집;
(g) 이중-가닥 핵산의 염기 편집;
(h) 세포에서 유전자형-특이적 또는 전사-상태-특이적 세포 사멸 또는 휴면 유도;
(i) 이중-가닥 핵산 표적 내 인델 형성;
(j) 이중-가닥 핵산 표적 내 서열 삽입; 또는
(k) 이중-가닥 핵산 표적 내 서열 결실 또는 역위
의 시험관내 또는 생체외 방법에서 제1항 내지 제106항 중 어느 한 항의 시스템의 용도.
포유류 세포에서 표적 핵산으로 삽입 또는 결실을 도입하는 방법으로서,
(a) CRISPR-연관 단백질을 인코딩하는 핵산 서열; 및
(b) 표적 핵산에 혼성화할 수 있는 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드(또는 RNA 가이드를 인코딩하는 핵산)의 형질감염을 포함하고,
CRISPR-연관 단백질은 SEQ ID NO: 1 내지 56 중 어느 하나에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하고,
CRISPR-연관 단백질은 RNA 가이드에 결합할 수 있고;
CRISPR-연관 단백질 및 RNA 가이드에 의한 표적 핵산의 인식은 표적 핵산의 변형을 일으키는, 방법.
제108항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하는, 방법.
제1항 내지 제109항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 4에 기재된 아미노산 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하는, 방법.
제1항 내지 제110항 중 어느 한 항에 있어서, 직접 반복부는 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
제1항 내지 제111항 중 어느 한 항에 있어서, 직접 반복부는 SEQ ID NO: 60에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
제1항 내지 제112항 중 어느 한 항에 있어서, 표적 핵산은 PAM 서열에 인접하고, PAM 서열은 5'-NTTN-3', 5'-NTTR-3'(예를 들어, 5'-TTTG-3'), 또는 5'-NNR-3'로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
제108항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하는, 방법.
제1항 내지 제114항 중 어느 한 항에 있어서, CRISPR-연관 단백질은 SEQ ID NO: 10에 기재된 아미노산 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 아미노산 서열을 포함하는, 방법.
제1항 내지 제115항 중 어느 한 항에 있어서, 직접 반복부는 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
제1항 내지 제116항 중 어느 한 항에 있어서, 직접 반복부는 SEQ ID NO: 62 또는 SEQ ID NO: 213에 기재된 뉴클레오티드 서열과 적어도 95%(예를 들어, 95%, 96%, 97%, 98%, 99% 또는 100%) 동일한 뉴클레오티드 서열을 포함하는, 방법.
제1항 내지 제117항 중 어느 한 항에 있어서, 표적 핵산은 PAM 서열에 인접하고, PAM 서열은 5'-NTTN-3' 또는 5'-RTTR-3'(예를 들어, 5'-ATTG-3' 또는 5'-GTTA-3')로서 기재된 핵산 서열을 포함하고, "N"은 임의의 뉴클레오티드이고, "R"은 A 또는 G인, 방법.
제1항 내지 제118항 중 어느 한 항에 있어서, 형질감염은 일시적 형질감염인, 방법.
제1항 내지 제119항 중 어느 한 항에 있어서, 세포는 인간 세포인, 방법.
(a) CRISPR-연관 단백질 또는 CRISPR-연관 단백질을 인코딩하는 핵산, 및
(b) 직접 반복부 서열 및 스페이서 서열을 포함하는 RNA 가이드
를 포함하는, 조성물로서,
CRISPR-연관 단백질은 하기 아미노산 서열들
(i) PX₁X₂X₃X₄F(SEQ ID NO: 216)(여기서, X₁은 L 또는 M 또는 I 또는 C 또는 F이고, X₂는 Y 또는 W 또는 F이고, X₃는 K 또는 T 또는 C 또는 R 또는 W 또는 Y 또는 H 또는 V이고, X₄는 I 또는 L 또는 M임);
(ii) RX₁X₂X₃L(SEQ ID NO: 217)(여기서, X₁은 I 또는 L 또는 M 또는 Y 또는 T 또는 F이고, X₂는 R 또는 Q 또는 K 또는 E 또는 S 또는 T이고, X₃는 L 또는 I 또는 T 또는 C 또는 M 또는 K임);
(iii) NX₁YX₂(SEQ ID NO: 218)(여기서, X₁은 I 또는 L 또는 F이고, X₂는 K 또는 R 또는 V 또는 E임);
(iv) KX₁X₂X₃FAX₄X₅KD(SEQ ID NO: 219)(여기서, X₁은 T 또는 I 또는 N 또는 A 또는 S 또는 F 또는 V이고, X₂는 I 또는 V 또는 L 또는 S이고, X₃는 H 또는 S 또는 G 또는 R이고, X₄는 D 또는 S 또는 E이고, X₅는 I 또는 V 또는 M 또는 T 또는 N임);
(v) LX₁NX₂(SEQ ID NO: 220)(여기서, X₁은 G 또는 S 또는 C 또는 T이고, X₂는 N 또는 Y 또는 K 또는 S임);
(vi) PX₁X₂X₃X₄SQX₅DS(SEQ ID NO: 221)(여기서, X₁은 S 또는 P 또는 A이고, X₂는 Y 또는 S 또는 A 또는 P 또는 E 또는 Y 또는 Q 또는 N이고, X₃는 F 또는 Y 또는 H이고, X₄는 T 또는 S이고, X₅는 M 또는 T 또는 I임);
(vii) KX₁X₂VRX₃X₄QEX₅H(SEQ ID NO: 222)(여기서, X₁은 N 또는 K 또는 W 또는 R 또는 E 또는 T 또는 Y이고, X₂는 M 또는 R 또는 L 또는 S 또는 K 또는 V 또는 E 또는 T 또는 I 또는 D이고, X₃는 L 또는 R 또는 H 또는 P 또는 T 또는 K 또는 Q 또는 P 또는 S 또는 A이고, X₄는 G 또는 Q 또는 N 또는 R 또는 K 또는 E 또는 I 또는 T 또는 S 또는 C이고, X₅는 R 또는 W 또는 Y 또는 K 또는 T 또는 F 또는 S 또는 Q임);
(viii) X₁NGX₂X₃X₄DX₅NX₆X₇X₈N(SEQ ID NO: 223)(여기서, X₁은 I 또는 K 또는 V 또는 L이고, X₂는 L 또는 M이고, X₃는 N 또는 H 또는 P이고, X₄는 A 또는 S 또는 C이고, X₅는 V 또는 Y 또는 I 또는 F 또는 T 또는 N이고, X₆는 A 또는 S이고, X₇은 S 또는 A 또는 P이고, X₈은 M 또는 C 또는 L 또는 R 또는 N 또는 S 또는 K 또는 L임) 중 하나 이상을 포함하고,
CRISPR-연관 단백질은 RNA 가이드에 결합하고, 스페이서는 표적 핵산에 결합하는, 조성물.