KR20230020991A

KR20230020991A - 최적화된 뉴클레오티드 서열의 생성

Info

Publication number: KR20230020991A
Application number: KR1020227042948A
Authority: KR
Inventors: 캉 앤 트랜; 아누샤 디아스; 프랑크 데로사
Original assignee: 트랜슬레이트 바이오 인코포레이티드
Priority date: 2020-05-07
Filing date: 2021-05-07
Publication date: 2023-02-13
Also published as: IL297948A; BR112022022508A2; AU2021268028A1; EP4147243A1; US20230245721A1; WO2021226461A1; JP2023524769A; CA3177907A1; MX2022013985A; CN115867324A

Abstract

최적화된 뉴클레오티드 서열을 생성하는 방법이 제공된다. 상기 방법은, 적어도 코돈 사용 테이블을 정규화하는 단계 및 상기 정규화된 코돈 사용 테이블의 코돈의 사용 빈도에 기초하여 주어진 아미노산 서열에 대한 코돈을 선택하는 단계를 포함한다. 상기 방법은 아미노산 서열을 암호화하는 복수의 최적화된 뉴클레오티드 서열의 목록을 생성하는 단계, 최적화된 뉴클레오티드 서열의 목록을 필터링하는 단계, 하나 이상의 최적화된 뉴클레오티드 서열을 합성하는 단계, 및/또는 하나 이상의 합성된 최적화된 뉴클레오티드 서열을 투여하는 단계를 포함할 수 있다.

Description

최적화된 뉴클레오티드 서열의 생성

관련 출원의 상호 참조

본 출원은 2020년 5월 7일자로 출원된 미국 가출원 번호 제63/021,345호의 우선권을 주장하고, 그 개시 내용은 그 전문이 본원에 참조로서 포함된다. 2020년 2월 18일자로에 출원된 미국 특허 가출원 제62/978,180호는 그 전체가 참조로서 본원에 통합된다.

서열 목록

본 명세서는 (2021년 5월 7일에 MRT-2131WO_SL이라는 명칭의 .txt 파일로 전자 제출된) 서열 목록을 참조로 한다. 상기 .txt 파일은 2021년 4월 27일에 생성되었고, 63.5 KB 크기이다. 서열 목록의 전체 내용은 본원에 참조로서 포함된다.

기술분야

본 발명은 최적화된 뉴클레오티드 서열을 생성하는 방법에 관한 것이다. 특히, 본 발명은, 뉴클레오티드 서열이 시험관 내 합성 및 세포에서의 최적화된 뉴클레오티드 서열에 의해 암호화된 기능성 단백질, 폴리펩티드 또는 펩티드의 발현에 대해 최적화되는 방법에 관한 것이다.

mRNA 요법은 다양한 질환, 특히 단백질 또는 유전자의 기능 장애에 의해 야기되는 질환을 치료하는 데 있어서 그 중요성이 증가하고 있다. 유기체의 DNA 서열에서의 유전자 돌연변이는 비정상적인 유전자 발현을 야기하여, 단백질 생성 또는 기능의 결함을 초래할 수 있다. 예를 들어, 기저 DNA 서열에서의 돌연변이는 단백질의 불충분한 발현 또는 과발현, 또는 기능 장애 단백질의 생성을 야기할 수 있다. 단백질의 정상 수준 또는 건강한 수준의 복원은 유전자 또는 단백질 기능 장애에 의해 야기되는 질환의 범위에 광범위하게 적용 가능한 mRNA 요법을 통해 달성될 수 있다.

mRNA 요법에서, 결함이 있거나 누락된 단백질을 대체할 수 있는 기능성 단백질을 암호화하는 mRNA가 표적 세포 또는 조직에 전달된다. 질환 또는 장애를 치료하거나 예방하는 데 효과적인 치료 단백질을 암호화하는 mRNA의 투여는 또한 재조합적으로 생성된 펩티드, 폴리펩티드 또는 단백질을 사용하는 요법에 대한 비용 효과적인 대안을 제공할 수 있다. mRNA 요법은 게놈 서열을 영구적으로 변경하거나 세포의 핵에 진입하지 않고 내인성 단백질의 정상 수준을 회복시키거나 외인성 치료 단백질을 제공할 수 있다. mRNA 요법은, 질환 또는 장애를 치료하기 위해 세포 자체의 단백질 생성 및 프로세싱 기계를 이용하며, 맞춤형 투여량 및 제형에 대해 유연성을 가지며, 기저 유전자 또는 단백질 결함에 의해 야기되거나 외인성 단백질의 제공을 통해 치료 가능한 임의의 질환 또는 병태에 광범위하게 적용 가능하다.

mRNA-암호화된 단백질의 발현 수준은 mRNA 요법의 효능 및 치료 혜택에 상당한 영향을 미칠 수 있다. 세포 내 mRNA로부터의 단백질의 효과적인 발현 또는 생성은 다양한 인자에 따라 달라진다. 단백질 코딩 뉴클레오티드 서열 내에서의 코돈의 조성물 및 순서의 최적화("코돈 최적화")는 mRNA 암호화 단백질의 보다 높은 발현을 야기할 수 있다. 코돈 최적화를 수행하는 다양한 방법이 당업계에 공지되어 있지만, 그 각각은 연산적 관점 및/또는 치료적 관점에서 상당한 단점 및 한계를 갖는다. 특히, 코돈 최적화의 공지된 방법은 종종 각각의 아미노산에 대해, 모든 코돈을 해당 아미노산에 대한 가장 높은 사용량을 갖는 코돈으로 대체하여, "최적화된" 서열이 각각의 아미노산을 암호화하는 하나의 코돈만을 함유하게 하는 것(따라서, 이는 일대일 서열로도 지칭될 수 있음)과 관련된다.

따라서, mRNA 요업에서 단백질의 발현을 증가시키기 위한 최적화된 뉴클레오티드 서열을 생성하는 개선된 코돈 최적화 방법이 필요하다.

본 발명은 적어도 하나의 최적화된 뉴클레오티드 서열을 생성하기 위해 아미노산 서열을 분석하기 위한 방법을 제공함으로써, 효과적인 mRNA 요법을 위한 개선된 핵산 최적화 방법에 대한 필요성을 해결한다. 최적화된 뉴클레오티드 서열은 자연 발생 뉴클레오티드 서열과 연관된 단백질의 발현과 비교하여 단백질의 발현을 증가시키도록 설계된다. 본 발명의 핵산 최적화 방법은, 시험관 내에서 전장 mRNA 전사체를 합성하는 능력을 제공하고, 보다 높은 단백질 수율을 달성하는 것이 바람직한 환경에서 관심 단백질의 발현을 증가시킨다.

예를 들어, 코돈 최적화는 mRNA 요법, 면역학 및 백신접종, 암 면역요법, 생명공학 및 제조에서 관심 단백질의 발현을 증가시키는 데 사용될 수 있다. 코돈 최적화는 유전자 코드의 중복으로 인한, 암호화된 단백질의 번역된 아미노산의 서열을 변경하지 않고 다양한 기준에 기초하여 단백질 코딩 뉴클레오티드 서열을 생성한다.

mRNA 코돈의 사용과 동족 tRNA의 풍부함 사이의 불균형을 피하기 위해, 코돈 최적화는 숙주 세포에서 전달 RNA(tRNA)의 자연적으로 발생하는 풍부함과 보다 잘 일치하고 특이적 tRNA의 고갈을 피하는 뉴클레오티드 서열 내의 코돈의 조성물을 제공할 수 있다. tRNA 풍부함은 단백질 번역 속도에 영향을 미치므로, 뉴클레오티드 서열의 코돈 최적화는 단백질 번역의 효율 및 암호화된 단백질에 대한 수율을 증가시킬 수 있다. 희귀 tRNA의 부족은 단백질 번역을 중단시키거나 종료시킬 수 있기 때문에, 예를 들어, 낮은 코돈 사용을 특징으로 하는 희귀 코돈을 사용하지 않음으로써, 단백질 번역 및 단백질 수율의 효율이 증가될 수 있다. 그러나, 코돈 최적화는, 단백질의 번역을 제어하고 초기 폴리펩티드 사슬의 적절한 접힘을 보장하는 데 중요한 뉴클레오티드 서열 중의 암호화된 정보를 제거할 수 있기 때문에, 암호화된 단백질의 기능적 활성 감소 및 관련 효능 손실을 희생시킬 수 있다(Mauro 및 Chappell, Trends Mol Med. 2014; 20(11):604-13). 본 발명자는 일부 다양성을 유지하는 최적화된 서열, 즉 각각의 아미노산을 암호화하는 단 하나의 코돈을 반드시 포함할 필요가 없는 서열이, 자연 발생 서열 및 일대일 서열 둘 모두에 비해 증가된 단백질 수율을 달성할 수 있다는 것을 발견하였다.

제1 양태에서, 본 발명은 최적화된 뉴클레오티드 서열을 생성가기 위한 컴퓨터-구현 방법에 관한 것이며, 방법은, (i) 아미노산 서열을 수령하는 단계(여기에서, 아미노산 서열은 펩티드, 폴리펩티드, 또는 단백질을 암호화함); (ii) 제1 코돈 사용 테이블을 수령하는 단계(여기에서, 제1 코돈 사용 테이블은 아미노산의 목록을 포함하되, 테이블 내의 각각의 아미노산은 적어도 하나의 코돈과 연관되고, 각각의 코돈은 사용 빈도와 연관됨); (iii) 임계 빈도 미만인 사용 빈도와 연관된 임의의 코돈을 코돈 사용 테이블로부터 제거하는 단계; (iv) 단계 (iii)에서 제거되지 않은 코돈의 사용 빈도를 정규화함으로써 정규화된 코돈 사용 테이블을 생성하는 단계; 및 (v) 정규화된 코돈 사용 테이블 내의 아미노산과 연관된 하나 이상의 코돈의 사용 빈도에 기초하여 아미노산 서열 내의 각각의 아미노산에 대한 코돈을 선택함으로써 아미노산 서열을 암호화하는 최적화된 뉴클레오티드 서열을 생성하는 단계를 포함한다. 일부 구현예에서, 임계 빈도는 사용자가 선택할 수 있다. 일부 구현예에서, 임계 빈도는 5% 내지 30%의 범위, 특히 5%, 또는 15%, 또는 20%, 또는 25%, 또는 30%, 또는 특히 10%이다. 본 발명자는 본원에 기술된 바와 같은 값을 갖는 임계 빈도가 증가된 단백질 수율을 달성할 수 있는 최적화된 서열을 생성할 수 있음을 발견하였다.

일부 구현예에서, 정규화된 코돈 사용 테이블을 생성하는 단계는, (a) 제1 아미노산과 연관되고 단계 (iii)에서 제거된 각각의 코돈의 사용 빈도를 제1 아미노산과 연관된 나머지 코돈에 분배하는 단계; 및 (b) 각각의 아미노산에 대해 단계 (a)를 반복하여 정규화된 코돈 사용 테이블을 생성하는 단계를 포함한다. 일부 구현예에서, 제거된 코돈의 사용 빈도는 나머지 코돈 중에 균등하게 분포된다. 일부 구현예에서, 제거된 코돈의 사용 빈도는 각각의 나머지 코돈의 사용 빈도에 기초하여, 나머지 코돈 중에 균등하게 분배된다.

일부 구현예에서, 각각의 아미노산에 대한 코돈을 선택하는 단계는, (a) 정규화된 코돈 사용 테이블에서, 아미노산 서열의 제1 아미노산과 연관된 하나 이상의 코돈을 식별하는 단계; (b) 제1 아미노산과 연관된 코돈을 선택하는 단계(여기에서, 특정 코돈을 선택할 확률은 정규화된 코돈 사용 테이블에서 제1 아미노산과 연관된 코돈과 연관된 사용 빈도와 동일함); 및 (c) 코돈이 아미노산 서열 내의 각각의 아미노산에 대해 선택될 때까지 단계 (a) 및 (b)를 반복하는 단계를 포함한다.

일부 구현예에서, 아미노산 서열 내에서 각각의 아미노산에 대한 코돈을 선택하는 단계에 의해 최적화된 뉴클레오티드 서열을 생성하는 단계(전술한 방법 중 단계 (v))를 n회 수행하여 최적화된 뉴클레오티드 서열의 목록을 생성한다.

일부 구현예에서, 방법은 최적화된 뉴클레오티드 서열의 목록을 스크리닝하여 하나 이상의 기준을 충족시키지 못하는 최적화된 뉴클레오티드 서열을 식별하고 제거하는 단계를 추가로 포함한다. 이러한 방식으로, 방법은 하나 이상의 기준을 충족시키지 못함으로써 이들이 효과적일 수 있는 기회가 감소되는 경우, 상당한 수의 최적화된 뉴클레오티드 서열의 후보를 고려 대상으로부터 제외하게 한다. 즉, 기준은 최적화된 뉴클레오티드 서열의 실제적인 효과를 나타내므로, 하나 이상의 기준을 충족시키지 못하는 뉴클레오티드 서열은 추가 고려에서 배제될 수 있다. 하나 이상의 기준은, 하나 이상의 종결 신호를 함유하지 않는 서열; 사전에 결정된 범위 내에 속하는 구아닌-시토신 함량을 갖는 서열; 임계값보다 큰 코돈 적용 인덱스를 갖는 서열; 하나 이상의 CIS 요소를 함유하지 않는 서열; 하나 이상의 반복 요소를 함유하지 않는 서열; 및 다른 관심 기준을 포함할 수 있다.

이러한 방식으로, 방법은 최적화된 뉴클레오티드 서열의 보다 짧은 목록, 또는 필터링된 목록을 제공한다. 목록 내의 최적화된 뉴클레오티드 서열의 수를 감소시킴으로써, 목록 내의 서열에 대해 수행되는 추가 단계, 예를 들어 추가 알고리즘 단계 또는 물리적 합성 단계의 수 및 복잡도가 유리하게 감소된다.

일부 구현예에서, 소정의 기준에 대해, 최적화된 뉴클레오티드 서열의 목록을 스크리닝하는 단계는, 최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록의 각각의 최적화된 뉴클레오티드 서열이 기준을 충족하는지의 여부를 결정하는 단계; 및 해당 뉴클레오티드 서열이 기준을 충족하지 않는 경우, 목록 또는 가장 최근에 업데이트된 목록으로부터 해당 뉴클레오티드 서열을 제거함으로써 최적화된 뉴클레오티드 서열의 목록을 업데이트하는 단계를 포함한다.

일부 구현예에서, 최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록의 각각의 최적화된 뉴클레오티드 서열이 기준을 충족하는지의 여부를 결정하는 단계는, 각각의 뉴클레오티드 서열에 대해, 해당 뉴클레오티드 서열의 제1 부분이 기준을 충족하는지의 여부를 결정하는 단계를 포함하며, 여기에서 최적화된 뉴클레오티드 서열의 목록을 업데이트하는 단계는, 해당 제1 부분이 기준을 충족하지 않는 경우 해당 뉴클레오티드 서열을 제거하는 단계를 포함한다. 일부 구현예에서, 최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록의 각각의 최적화된 뉴클레오티드 서열이 기준을 충족하는지의 여부를 결정하는 단계는, 각각의 뉴클레오티드 서열에 대해, 해당 뉴클레오티드 서열의 하나 이상의 추가 부분이 기준을 충족하는지의 여부를 결정하는 단계를 포함하며, 여기에서 해당 추가 부분은 서로, 그리고 제1 부분과 중첩되지 않으며, 최적화된 뉴클레오티드 서열의 목록을 업데이트하는 단계는, 임의의 부분이 기준을 충족하지 않는 경우 해당 뉴클레오티드 서열을 제거하는 단계를 포함하되, 선택적으로 최적화된 뉴클레오티드 서열이 기준을 충족하는지의 여부를 결정하는 단계는 임의의 부분이 기준을 충족하지 않는 것으로 결정될 때 중단된다.

이러한 방식으로 최적화된 뉴클레오티드 서열을 필터링함으로써, 전체 서열을 분석하는 데 연산 및 시간 자원이 소모되기 전에 서열이 목록에서 폐기될 수 있기 때문에, 방법은 연산상으로 유리하다. 따라서, 방법은 보다 효율적으로 유리하다. 또한, 일부 기준에 대해, 부분별 분석은 보다 상세하고 선택적인 스크리닝 프로세스를 제공한다. 구아닌-시토신 함량을 예로서 사용하여, 방법은 평균 구아닌-시토신 함량이 사전에 결정된 범위를 벗어나는 서열을 제거할 뿐만 아니라, 효율적인 전사 또는 번역을 방해할 수 있는 특정 부분에서 구아닌-시토신 함량의 스파이크 또는 저점을 갖는 임의의 서열을 유리하게 제거한다. 분석된 부분을 벗어나는 서열의 부분이 평균 구아닌-시토신 함량을 허용 범위 내로 가져올 수 있기 때문에, 전체 서열이 모두 한번에 분석되는 경우 이러한 피크 또는 저점을 놓칠 수 있다. 부분별로 분석함으로써, 연산 효율을 개선할 수 있을 뿐만 아니라, 부분별로 분석하지 않을 경우 평균으로 감취질 수 있는 후보 서열에서의 문제를 식별할 수 있다.

본원에서는 구아닌-시토신 함량이 예로서 사용되었지만, 본원에 기술된 임의의 기준이 전술한 바와 같이 부분별로 분석될 수 있음을 이해할 것이다. 일부 기준에 대해, 예를 들어, 종결 신호를 함유하는 서열의 경우, 연산 효율이 증가될 것이지만, 부분별 스크리닝의 결과는 생성된 목록의 내용물에 영향을 미치지 않을 것이다. 즉, 부분에서 종결 신호를 평가하는 것은 전체 서열을 평가하는 것과 마찬가지로 동일한 뉴클레오티드 서열을 목록에서 제거할 것이다. 다른 경우, 예를 들어 구아닌-시토신 함량 또는 코돈 적용 인덱스의 경우, 스크리닝의 결과는 상이할 수 있다. 예를 들어, 전체 서열을 평가할 때 제거되지 않았을 수 있는 특정 서열을 부분 분석을 사용하여 제거할 수 있다.

뉴클레오티드 서열의 제1 부분 및/또는 하나 이상의 추가 부분은 사전에 결정된 수의 뉴클레오티드를 포함할 수 있으며, 선택적으로, 사전에 결정된 수의 뉴클레오티드는 5 내지 300개의 뉴클레오티드, 또는 10 내지 200개의 뉴클레오티드, 또는 15 내지 100개의 뉴클레오티드, 또는 20 내지 50개의 뉴클레오티드의 범위, 예를 들어 30개의 뉴클레오티드, 예를 들어 100개의 뉴클레오티드이다. 이러한 길이의 부분은 이들 사이의 최적 밸런스를 제공한다는 것이 밝혀졌다.

일부 구현예에서, 제1 기준은 종결 신호를 함유하지 않는 뉴클레오티드 서열을 포함하며, 방법은, 최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록의 각각의 최적화된 뉴클레오티드 서열이 종결 신호를 함유하는지의 여부를 결정하는 단계; 및 해당 뉴클레오티드 서열이 하나 이상의 종결 신호를 함유하는 경우, 목록 또는 가장 최근에 업데이트된 목록으로부터 해당 뉴클레오티드 서열을 제거함으로써 최적화된 뉴클레오티드 서열의 목록을 업데이트하는 단계를 포함한다.

일부 구현예에서, 종결 신호는 다음의 뉴클레오티드 서열을 갖는다: 5'-X₁ATCTX₂TX₃-3'(여기에서, X₁, X₂, 및 X₃은 A, C, T, 또는 G로부터 독립적으로 선택됨). 일부 구현예에서, 종결 신호는 다음의 뉴클레오티드 서열 중 하나를 갖는다: TATCTGTT; 및/또는 TTTTTT; 및/또는 AAGCTT; 및/또는 GAAGAGC; 및/또는 TCTAGA. 일부 구현예에서, 종결 신호는 다음의 뉴클레오티드 서열을 갖는다: 5'-X₁AUCUX₂UX₃-3'(여기에서, X₁, X₂ 및 X₃은 A, C, U 또는 G로부터 독립적으로 선택됨). 일부 구현예에서, 종결 신호는 다음의 뉴클레오티드 서열 중 하나를 갖는다: UAUCUGUU; 및/또는 UUUUUU; 및/또는 AAGCUU; 및/또는 GAAGAGC; 및/또는 UCUAGA.

일부 구현예에서, 제2 기준은 사전에 정의된 구아닌-시토신 함량 범위 내의 구아닌-시토신 함량을 갖는 뉴클레오티드 서열을 포함하며, 방법은, 최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록의 각각의 최적화된 뉴클레오티드 서열의 구아닌-시토신 함량을 결정하는 단계를 포함하되, 여기에서 서열의 구아닌-시토신 함량은 구아닌 또는 시토신인 뉴클레오티드 서열 내 염기의 백분율인 단계; 해당 구아닌-시토신 함량이 사전에 결정된 구아닌-시토닌 함량 범위에서 벗어나는 경우, 해당 목록, 또는 가장 최근에 업데이트된 목록에서 해당 뉴클레오티드 서열을 제거함으로써 최적화된 뉴클레오티드 서열의 목록을 업데이트하는 단계를 포함한다. 목록 내의 최적화된 뉴클레오티드 서열의 수를 감소시킴으로써, 목록 내의 서열에 대해 수행되는 추가 단계, 예를 들어 추가 알고리즘 단계 또는 물리적 합성 단계의 수 및 복잡도가 유리하게 감소된다. 일부 구현예에서, 사전에 결정된 구아닌-시토신 함량 범위는 15% 내지 75%, 또는 40% 내지 60%, 또는 특히 30% 내지 70%이다.

일부 구현예에서, 제3 기준은 사전에 결정된 코돈 적용 인덱스 임계값보다 큰 코돈 적용 인덱스를 갖는 뉴클레오티드 서열을 포함하며, 방법은, 최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록의 각각의 최적화된 뉴클레오티드 서열의 코돈 적용 인덱스를 결정하는 단계를 포함하되, 여기에서 서열의 코돈 적용 인덱스는 코돈 사용 편향의 측정치이며, 0 내지 1 사이의 값일 수 있는, 단계; 해당 코돈 적용 인덱스가 사전에 결정된 코돈 적용 인덱스 임계값 이하인 경우, 해당 뉴클레오티드 서열을 제거함으로써 최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록을 업데이트하는 단계를 포함한다. 이러한 방식으로, 방법은 최적화된 뉴클레오티드 서열의 보다 짧은 목록, 또는 필터링된 목록을 제공한다. 일부 구현예에서, 코돈 적용 인덱스 임계값은 사용자가 선택할 수 있다. 일부 구현예에서, 코돈 적용 인덱스 임계값은 0.7, 또는 0.75, 또는 0.85, 또는 0.9, 또는 특히 0.8이다. 목록 내의 최적화된 뉴클레오티드 서열의 수를 감소시킴으로써, 목록 내의 서열에 대해 수행되는 추가 단계, 예를 들어 추가 알고리즘 단계 또는 물리적 합성 단계의 수 및 복잡도가 유리하게 감소된다.

일부 구현예에서, 제4 기준은 적어도 2개, 예를 들어 3개의 인접하는 동일한 코돈을 함유하지 않는 뉴클레오티드 서열을 포함하며, 방법은, 최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록의 임의의 최적화된 뉴클레오티드 서열이 적어도 2개, 예를 들어 3개의 인접하는 동일한 코돈을 함유하는지의 여부를 결정하는 단계; 및 해당 서열이 적어도 2개, 예를 들어 3개의 인접하는 동일한 코돈을 함유하는 경우, 해당 뉴클레오티드 서열을 제거함으로써 최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록을 업데이트하는 단계를 추가로 포함한다. 반복된 동일한 코돈, 즉, 인접하는 동일한 코돈은 전사를 정지시킬 수 있다는 것이 밝혀졌다. 따라서, 2개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 또는 특히 3개 이상의 인접하는 동일한 코든을 함유하는 임의의 최적화된 뉴클레오티드 서열을 제거함으로써, 보다 덜 효과적인 전사를 제공하는 서열은 무시되고 제거될 수 있다.

본 발명의 임의의 양태에서, 최적화된 뉴클레오티드 업데이트된 서열의 목록의 생성은 다음의 단계 중 임의의 하나, 임의의 2개, 또는 임의의 3개에 기초하여 최적화된 서열을 목록에서 제거함으로써 수행될 수 있다:

(I) 하나 이상의 최적화된 뉴클레오티드 서열에서 종결 신호의 존재를 결정하는 단계, 및 해당 서열이 종결 신호를 함유하는 경우, 최적화된 뉴클레오티드 서열의 목록 또는 가장 최근에 업데이트된 목록에서 해당 뉴클레오티드 서열을 제거하는 단계;

(II) 하나 이상의 최적화된 뉴클레오티드 서열에서 구아닌-시토신 함량을 결정하는 단계, 및 해당 서열의 구아닌-시토신 함량이 사전에 결정된 범위를 벗어나는 경우, 최적화된 뉴클레오티드 서열의 목록 또는 가장 최근에 업데이트된 목록으로부터 해당 뉴클레오티드 서열을 제거하는 단계;

(III) 하나 이상의 최적화된 뉴클레오티드 서열의 코돈 적용 인덱스를 결정하는 단계, 및 해당 서열의 코돈 적용 인덱스가 사전에 결정된 범위를 벗어나는 경우, 최적화된 뉴클레오티드 서열의 목록 또는 가장 최근에 업데이트된 목록으로부터 해당 뉴클레오티드 서열을 제거하는 단계;

본 발명의 제2 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (I)을 수행하는 단계를 추가로 포함한다.

본 발명의 제3 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (II)를 수행하는 단계를 추가로 포함한다.

본 발명의 제4 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (III)을 수행하는 단계를 추가로 포함한다.

본 발명의 제5 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (I), 이에 이어서 단계 (II)를 수행하는 단계를 추가로 포함한다.

본 발명의 제6 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (I), 이에 이어서 단계 (III)을 수행하는 단계를 추가로 포함한다.

본 발명의 제7 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (II), 이에 이어서 단계 (I)을 수행하는 단계를 추가로 포함한다.

본 발명의 제8 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (II), 이에 이어서 단계 (III)을 수행하는 단계를 추가로 포함한다.

보다 일반적으로, 본 발명에 따른 방법은, 시험관 내 전사에 의해 합성될 때 전장 mRNA 전사체를 제공하고 생체 내에서 mRNA-암호화된 단백질의 높은 수준의 발현을 제공할 것으로 모두 예상되는 최적화된 뉴클레오티드 서열의 짧은 리스트를 생성하기 위해, 종결 신호 기반 단계 (I), 구아닌-시토신 함량 기반 단계 (II), 및 코돈 적용 인덱스 기반 단계 (III)를 포함한다. 종결 신호 기반 단계 (I), 구아닌-시토신 함량 기반 단계 (II), 및 코돈 적용 인덱스 기반 단계 (III)은 임의의 순서로 수행될 수 있다. 유리하게는, 단계는 최적화된 뉴클레오티드 서열의 짧은 리스트를 결정할 때 연산 시간을 최적화하기 위한 목적으로 특정 순서로 수행될 수 있다.

특히, 본 발명의 제9 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (I), 이에 이어서 단계 (II), 이에 이어서 단계 (III)을 수행하는 단계를 추가로 포함한다. 이러한 순서로 필터링함으로써, 필터링 단계의 연산 효율이 유리하게 최대화될 수 있다. 본 발명자는, 최적화된 뉴클레오티드 서열의 전형적인 목록 및 전형적인 입력 파라미터에 대해, 모티프 스크린 필터가 목록에서 대부분의 서열을 제거하고, 이에 이어서 GC 함량 분석 필터, 이에 이어서 CAI 분석 필터가 서열을 제거한다는 것을 발견하였다. 필터링 프로세스의 연산 효율은 분석된 서열의 총 수, 즉 각각의 필터링 단계에서 분석된 서열의 수의 합에 의해 부분적으로 결정되기 때문에, 보다 많은 서열이 필터링 프로세스 초기에 제거될 수 있고, 보다 적은 서열이 이후의 필터링 프로세스에서의 분석을 요구하게 되며, 방법의 전반적인 연산 효율이 증가하게 된다. 또한, CAI 분석 필터는 전체 서열의 분석을 필요로 하는 반면, 본 발명의 구현예에서, 모티프 스크린 및 GC 함량 분석 필터는 서열의 부분 또는 부분만을 분석할 수 있다. 따라서, CAI 분석 단계에 대한 목록 입력에서 서열의 수를 감소시키는 것에 중점을 두는 방법은 다른 방법보다 연상상 보다 효율적일 수 있다.

본 발명의 제10 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (I), 이에 이어서 단계 (III), 이에 이어서 단계 (II)를 수행하는 단계를 추가로 포함한다.

본 발명의 제11 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (II), 이에 이어서 단계 (I), 이에 이어서 단계 (III)을 수행하는 단계를 추가로 포함한다.

본 발명의 제12 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (II), 이에 이어서 단계 (III), 이에 이어서 단계 (I)을 수행하는 단계를 추가로 포함한다.

본 발명의 제13 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (III), 이에 이어서 단계 (I), 이에 이어서 단계 (II)를 수행하는 단계를 추가로 포함한다.

본 발명의 제14 양태에서, 하나 이상의 최적화된 뉴클레오티드 서열의 생성 후, 방법은 단계 (III), 이에 이어서 단계 (II), 이에 이어서 단계 (I)을 수행하는 단계를 추가로 포함한다.

일부 구현예에서, 아미노산 서열은 아미노산 서열의 데이터베이스로부터 수령된다. 일부 구현예에서, 방법은 아미노산 서열의 데이터베이스로부터의 아미노산 서열을 요청하는 단계를 추가로 포함하며, 여기에서 아미노산 서열은 해당 요청에 응답하여 수령된다.

일부 구현예에서, 제1 코돈 사용 테이블은 코돈 사용 테이블의 데이터베이스로부터 수령된다. 일부 구현예에서, 방법은 코돈 사용 테이블의 데이터베이스로부터의 제1 코돈 사용 테이블을 요청하는 단계를 추가로 포함하며, 여기에서 제1 코돈 사용 테이블은 해당 요청에 응답하여 수령된다.

제15 양태에서, 본 발명은, 프로그램이 컴퓨터에 의해 실행될 때, 컴퓨터가 제1 양태의 임의의 구현예에 따른 방법을 수행하게 하는 명령어를 포함하는 컴퓨터 프로그램에 관한 것이다.

제16 양태에서, 본 발명은 제1 양태의 임의의 구현예에 따른 방법을 수행하기 위한 수단을 포함하는 데이터 처리 시스템에 관한 것이다.

제17 양태에서, 본 발명은 제3 양태의 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 데이터 캐리어에 관한 것이다.

제18 양태에서, 본 발명은 제3 양태의 컴퓨터 프로그램을 운반하는 데이터 캐리어 신호에 관한 것이다.

제19 양태에서, 본 발명은 뉴클레오티드 서열을 합성하기 위한 방법에 관한 것으로서, 방법은 적어도 하나의 최적화된 뉴클레오티드 서열을 생성하기 위해 제1 양태의 임의의 구현예에 따른 방법을 수행하는 단계; 및 생성된 최적화된 뉴클레오티드 서열 중 적어도 하나를 합성하는 단계를 포함한다. 일부 구현예에서, 방법은 시험관 내 전사에 사용하기 위해 적어도 하나의 합성된 최적화된 서열을 핵산 벡터 내에 삽입하는 단계를 추가로 포함한다.

일부 구현예에서, 방법은 합성된 최적화된 뉴클레오티드 서열의 3' 말단에 하나 이상의 종결 신호를 삽입하는 단계를 추가로 포함한다. 일부 구현예에서, 하나 이상의 종결 신호가 삽입되고, 전술한 종결 신호는 10개 이하의 염기쌍만큼, 예를 들어 5 내지 10개의 염기쌍만큼 이격된다. 일부 구현예에서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열을 갖는다: 5'-X₁ATCTX₂TX₃-3'(여기에서, X₁, X₂, 및 X₃은 A, C, T, 또는 G로부터 독립적으로 선택됨). 일부 구현예에서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열 중 하나를 갖는다: TATCTGTT; TTTTTT; AAGCTT; GAAGAGC; 및/또는 TCTAGA. 일부 구현예에서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열에 의해 암호화된다:(a) 5'-X₁ATCTX₂TX₃-(Z_N)- X₄ATCTX₅TX₆-3' 또는 (b) 5'-X₁ATCTX₂TX₃-(Z_N)- X₄ATCTX₅TX₆-(Z_M)- X₇ATCTX₈TX₉-3', 여기에서, X₁, X₂, X₃, X₄, X₅, X₆, X₇, X₈, 및 X₉는 A, C, T, 또는 G로부터 선택되고, Z_N은 N 뉴클레오티드의 스페이서 서열을 나타내고, Z_M은 M 뉴클레오티드의 스페이서 서열을 나타내되, 이들 각각은 A, C, T, 또는 G로부터 독립적으로 선택되고, N 및/또는 M은 독립적으로 10 이하이다.

일부 구현예에서, 핵산 벡터는 최적화된 뉴클레오티드 서열에 작동 가능하게 연결된 RNA 중합효소 프로모터를 포함하되, 선택적으로 RNA 중합효소 프로모터는 SP6 RNA 중합효소 프로모터 또는 T7 RNA 중합효소 프로모터이다. 일부 구현예에서, 핵산 벡터는 최적화된 뉴클레오티드 서열에 작동 가능하게 연결된 5' UTR을 암호화하는 뉴클레오티드 서열을 포함한다. 일부 구현예에서, 5' UTR은 아미노산 서열을 암호화하는 자연 발생 mRNA의 5' UTR과 상이하다. 일부 구현예에서, 5' UTR은 서열번호 16의 뉴클레오티드 서열을 갖는다. 일부 구현예에서, 핵산 벡터는 최적화된 뉴클레오티드 서열에 작동 가능하게 연결된 3' UTR을 암호화하는 뉴클레오티드 서열을 포함한다. 일부 구현예에서, 3' UTR은 아미노산 서열을 암호화하는 자연 발생 mRNA의 3' UTR과 상이하다. 일부 구현예에서, 3' UTR은 서열번호 17 또는 서열번호 18의 뉴클레오티드 서열을 갖는다. 일부 구현예에서, 핵산 벡터는 플라스미드이다. 일부 구현예에서, 플라스미드는 시험관 내 전사 이전에 선형화된다. 일부 구현예에서, 플라스미드는 시험관 내 전사 이전에 선형화되지 않는다. 일부 구현예에서, 플라스미드는 수퍼코일링된다.

일부 구현예에서, 방법은 적어도 하나의 합성된 최적화된 뉴클레오티드 서열을 시험관 내 전사에 사용하여 mRNA를 합성하는 단계를 추가로 포함한다. 일부 구현예에서, mRNA는 SP6 RNA 중합효소에 의해 합성된다. 일부 구현예에서, SP6 RNA 중합효소는 자연 발생 SP6 RNA 중합효소이다. 일부 구현예에서, SP6 RNA 중합효소는 재조합 SP6 RNA 중합효소이다. 일부 구현예에서, SP6 RNA 중합효소는 태그를 포함한다. 일부 구현예에서, 태그는 his-태그이다. 일부 구현예에서, mRNA는 T7 RNA 중합효소에 의해 합성된다.

일부 구현예에서, 방법은 합성된 mRNA를 캡핑 및/또는 테일링하는 별도의 단계를 추가로 포함한다. 일부 구현예에서, 캡핑 및 테일링은 시험관 내 전사 동안 발생한다.

일부 구현예에서, mRNA는 각 NTP의 농도 범위가 1 내지 10 mM인 NTP; 0.01 내지 0.5 mg/ml의 농도 범위의 DNA 템플릿; 및 0.01 내지 0.1 mg/ml의 농도 범위의 SP6 RNA 중합효소를 포함하는 반응 혼합물에서 합성된다. 일부 구현예에서, 반응 혼합물은 각 NTP의 농도가 5 mM인 NTP, 0.1 mg/ml 농도의 DNA 템플릿, 및 0.05 mg/ml 농도의 SP6 RNA 중합효소를 포함한다.

일부 구현예에서, mRNA는 37 내지 56℃의 온도 범위에서 합성된다.

일부 구현예에서, NTP는 자연 발생 NTP이다. 일부 구현예에서, NTP는 변형된 NTP를 포함한다.

일부 구현예에서, 방법은 본 발명의 방법에 따라 아미노산 서열 및 적어도 하나의 합성된 최적화된 뉴클레오티드 서열을 암호화하는 참조 뉴클레오티드 서열을 합성하는 단계, 및 참조 뉴클레오티드 서열 및 적어도 하나의 최적화된 뉴클레오티드 서열을 별도의 세포 또는 유기체와 접촉시키는 단계를 추가로 포함한다. 일반적인 구현예에서, 적어도 하나의 합성된 최적화된 뉴클레오티드 서열과 접촉된 세포 또는 유기체는, 합성된 참조 뉴클레오티드 서열과 접촉된 세포 또는 유기체에 의해 생성된 참조 뉴클레오티드 서열에 의해 암호화된 단백질의 수율과 비교하여, 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 증가된 수율을 생성한다. 본 발명의 임의의 양태에서, 합성될 때, 적어도 하나의 최적화된 뉴클레오티드 서열은, 합성될 때, 참조 뉴클레오티드 서열에 의해 암호화된 단백질의 발현과 비교하여 단백질의 발현을 증가시키도록 구성될 수 있다. 참조 뉴클레오티드 서열은, (a) 아미노산 서열을 암호화하는 자연 발생 뉴클레오티드 서열; 또는 (b) 본 발명의 제1 양태에 따른 방법 이외의 방법에 의해 생성된 아미노산 서열을 암호화하는 뉴클레오티드 서열일 수 있다.

일부 구현예에서, 방법은 합성된 최적화된 뉴클레오티드 서열을 시험관 내 또는 생체 내 세포 내로 형질감염시키는 단계를 추가로 포함한다. 일부 구현예에서, 형질감염된 세포에서의 합성된 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 발현 수준이 결정된다. 일부 구현예에서, 형질감염된 세포에서의 합성된 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 기능적 활성이 결정된다.

제20 양태에서, 본 발명은 치료에 사용하기 위한, 본 발명의 방법에 따라 생성된, 합성된 최적화된 뉴클레오티드 서열을 제공한다. 본 발명의 이러한 양태에 포함되는 치료 방법은 본 발명의 방법에 따라 생성된 합성된 최적화된 뉴클레오티드 서열을 이러한 치료를 필요로 하는 인간 대상체에게 투여하는 단계를 포함한다. 일부 구현예에서, 본원에 기술된 방법은, 대상체에게 전달하거나 대상체를 치료하는 데 사용하기 위한 치료 펩티드, 폴리펩티드, 또는 단백질을 암호화하는 mRNA를 포함하는 치료 조성물을 제공한다. 일부 구현예에서, mRNA는 낭성 섬유증 막관통 전달 조절자(CFTR) 단백질을 암호화한다.

제21 양태에서, 본 발명은 10% 이상의 사용 빈도와 연관된 코돈으로 이루어진 최적화된 뉴클레오티드 서열을 포함하는 시험관 내에서 합성된 핵산을 제공하며, 여기에서 최적화된 뉴클레오티드 서열은,

(i) 다음의 뉴클레오티드 서열 중 하나를 갖는 종결 신호를 함유하지 않고,

5'-X₁AUCUX₂UX₃-3'(여기에서, X₁, X₂ 및 X₃은 A, C, U 또는 G로부터 독립적으로 선택됨); 및 5'-X₁AUCUX₂UX₃-3'(여기에서, X₁, X₂ 및 X₃은 A, C, U 또는 G로부터 독립적으로 선택됨);

(ii) 시스 조절 요소 및 음성 반복 요소를 함유하지 않으며;

(iii) 0.8을 초과하는 코돈 적용 인덱스를 가지되;

중첩되지 않는 30개의 뉴클레오티드-길이의 부분으로 나누어질 경우, 최적화된 뉴클레오티드 서열의 각 부분은 30% 내지 70%의 구아닌 시토신 함량 범위를 갖는다. 일부 구현예에서, 최적화된 뉴클레오티드 서열은 다음의 서열 중 하나를 갖는 종결 신호를 함유하지 않는다: TATCTGTT; TTTTTT; AAGCTT; GAAGAGC; TCTAGA; UAUCUGUU; UUUUUU; AAGCUU; GAAGAGC; UCUAGA. 일부 구현예에서, 핵산은 mRNA이다. 일부 구현예에서, 시험관 내에서 합성된 핵산은 치료에 사용하기 위한 것이다.

본 발명의 구현예는 다음의 도면을 참조하여 예로서 기술될 것이다.
도 1은 본 발명의 일 구현예에 따른 코돈 최적화 방법을 도시한다.
도 2a는 하나 이상의 실험적으로 유도된 코돈 사용 빈도로부터 생성된, 인간(호모 사피엔스)에 대한 예시적인 코돈 사용 테이블을 나타낸다. 테이블의 값은, NCBI GenBank 데이터베이스(Flat File Release 160.0)로부터 공개적으로 이용 가능한 코돈 사용 데이터에 기초하는, 코돈 사용 데이터베이스(Codon Usage Database)를 통해 액세스된 데이터로부터 도출되었다.
도 2b는 도 2a의 예시적인 코돈 사용 테이블의 코돈 사용 빈도를 정규화하여 생성된 정규화된 코돈 사용 테이블을 나타낸다.
도 3은 코돈 사용 테이블 정규화를 위한 예시적인 방법과 함께 사용하기 위한 코돈 사용 테이블의 구성된 섹션을 나타낸다.
도 4a는 동일한 사용 빈도 분포로 정규화된, 도 3의 예시적인 테이블을 나타낸다.
도 4b는 비례적인 사용 빈도 분포로 정규화된, 도 3의 예시적인 테이블을 나타낸다.
도 5는 코돈 최적화를 위한 예시적인 방법과 함께 사용하기 위한 아미노산 서열의 구성된 섹션을 나타낸다.
도 6은 하나 이상의 종결 신호를 함유하는 뉴클레오티드 서열을 제거하는 데 사용하기에 적합한, 종결 신호를 포함하는 뉴클레오티드 서열 모티프의 예시적인 저장소를 나타낸다.
도 7은 추가 알고리즘 단계, 또는 필터링 단계를 최적화된 뉴클레오티드 서열의 목록에 적용하는 방법을 도시한다. 특정 구현예에서, 필터링을 위한 최적화된 뉴클레오티드 서열의 목록은 도 1에 도시된 바와 같은 방법에 따라 생성되었다.
도 8은 구아닌-시토신(GC) 함량 분석 필터가 최적화된 뉴클레오티드 서열의 목록에 적용되는, 본 발명의 구현예를 도시한다. 특정 구현예에서, 필터링을 위한 최적화된 뉴클레오티드 서열의 목록은 도 1에 도시된 바와 같은 방법에 따라 생성되었다.
도 9는 모티프 스크린 필터 및 코돈 적용 인덱스(CAI) 분석 필터가 최적화된 뉴클레오티드 서열의 목록에 적용되는, 본 발명의 구현예를 도시한다. 특정 구현예에서, 필터링을 위한 최적화된 뉴클레오티드 서열의 목록은 도 1에 도시된 바와 같은 방법에 따라 생성되었다.
도 10은 모티프 스크린 필터, 구아닌-시토신(GC) 함량 분석 필터, 및 코돈 적용 인덱스(CAI) 분석 필터가 최적화된 뉴클레오티드 서열의 목록에 순서대로 적용되는, 본 발명의 특정 구현예를 도시한다. 특정 구현예에서, 필터링을 위한 최적화된 뉴클레오티드 서열의 목록은 도 1에 도시된 바와 같은 방법에 따라 생성되었다.
도 11은 최적화되지 않은 뉴클레오티드 서열 및 최적화된 뉴클레오티드 서열의 구아닌-시토신(GC) 함량에 대한 예시적인 분석을 도시하며, 여기에서 EPO를 암호화하는 뉴클레오티드 서열의 부분의 구아닌-시토신(GC) 함량은, 인접한 중첩되지 않은 30개 뉴클레오티드 길이의 부분에 대해 결정된다.
도 12는 EPO에 대한 ELISA 검정에 의해 결정된, 다양한 코돈 최적화된 뉴클레오티드 서열로부터 생성된 단백질의 수율을 도시하는 예시적인 막대 차트를 도시한다.
도 13a는 최적화된 뉴클레오티드 서열이 인간 세포 내로 형질감염된 후, 시간 경과 실험에서 본 발명의 방법에 따라 생성된 최적화된 뉴클레오티드 서열에 의해 암호화된 CFTR 단백질의 단백질 발현 수율을 결정하는 데 사용된 예시적인 웨스턴 블롯을 도시한다.
도 13b는 도 13a에 도시된 웨스턴 블롯 데이터의 정량화를 도시하는 예시적인 라인 플롯을 도시한다.
도 14a는 hCFTR을 암호화하는 최적화된 뉴클레오티드 서열을 포함하는 mRNA를 시험하기 위한 생물검정으로부터 수득된 데이터의 예시적인 플롯을 도시한다. 이는 시험된 각각의 mRNA에 대한 Ussing 상피 전압 클램프 장치 내의 단락 전류(I_SC) 출력을 도시한다.
도 14b는 hCFTR을 암호화하는 참조 mRNA의 활성의 백분율로서 표현된, 도 14a에 도시된 바와 같은 hCFTR 활성의 변화를 도시하는 예시적인 막대 플롯을 도시한다.
도 15a는 HEK293T 세포에서의 코돈 최적화된 DNAI1 mRNA의 번역 및 발현을 나타내는 예시적인 웨스턴 블롯을 도시한다. 웨스턴 블롯은 항-DNAI1 항체 및 항-빈쿨린(Vinculin) 항체(로딩 대조군)를 사용하여 수행하였다.
도 15b는 도 15a의 예시적인 웨스턴 블롯으로부터 정량화한, 빈쿨린 단백질(로딩 대조군)에 대해 정규화된 DNAI1 단백질 발현의 수준을 도시하는 예시적인 막대 그래프를 도시한다. DNAI1 단백질 발현 수율은 코돈 최적화되지 않은 DNAL1 서열을 암호화하는 mRNA로 달성된 기준 수준에 비해 배수 증가로서 그래프화된다.

정의

본 발명을 보다 용이하게 이해하기 위하여, 우선적으로 특정 용어를 아래와 같이 정의한다. 다음의 용어 및 다른 용어에 대한 추가적인 정의는 본 명세서 전체에 걸쳐 기재되어 있다.

본 명세서 및 첨부된 청구범위에서 사용된 바와 같이, 문맥에 의해 명백히 달리 표시되지 않는 한, 단수형은 복수의 지시 대상을 포함한다.

본원에서 사용되는 바와 같이, 구체적으로 언급되거나 문맥으로부터 명백하지 않는 한, 용어 "또는"은 포괄적인 것으로 이해되어야 하며, "또는" 그리고 "및" 둘 모두를 포함한다.

본원에서 사용되는 용어 "예를 들어" 및 "즉"은 단지 예시로서 의도된 제한 없이 사용되며, 본 명세서에 명시적으로 열거된 항목들만을 지칭하는 것으로 해석되어서는 안 된다.

"이상", "적어도", "초과" 등과 같은 용어, 예를 들어 "적어도 하나"는 명시된 값보다 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149 또는 150, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000 이상 더 많은 것을 포함하는 것으로 이해되지만 이에 한정되지는 않는다. 임의의 보다 큰 수 또는 그 사이의 분수 또한 포함된다.

역으로, 용어 "이하"는 명시된 값보다 작은 각각의 값을 포함한다. 예를 들어, "100 뉴클레오티드 이하"는 100, 99, 98, 97, 96, 95, 94, 93, 92, 91, 90, 89, 88, 87, 86, 85, 84, 83, 82, 81, 80, 79, 78, 77, 76, 75, 74, 73, 72, 71, 70, 69, 68, 67, 66, 65, 64, 63, 62, 61, 60, 59, 58, 57, 56, 55, 54, 53, 52, 51, 50, 49, 48, 47, 46, 45, 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33, 32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 및 0개의 뉴클레오티드를 포함한다. 임의의 보다 적은 수 또는 그 사이의 분수 또한 포함된다.

"복수의", "적어도 2개의", "둘 이상의", "적어도 두 번째" 등의 용어는 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149 or 150, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000 이상을 포함하는 것으로 이해되지만 이에 한정되지는 않는다. 임의의 보다 큰 수 또는 그 사이의 분수 또한 포함된다.

본원에서 사용되는 바와 같이, 문맥으로부터 구체적으로 언급되거나 명백하지 않는 한, 용어 "약"은 당업계에서 정상적인 허용 오차의 범위 이내, 예를 들어 평균의 2개의 표준 편차 이내인 것으로 이해된다. "약"은 언급된 값의 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1%, 0.5%, 0.1%, 0.05%, 0.01%, 또는 0.001% 이내인 것으로 이해될 수 있다. 문맥으로부터 달리 명백하지 않는 한, 본원에 제공된 모든 수치는 당업자가 이해할 수 있는 정상적인 변동을 반영한다.

본원에서 사용되는 용어 "불현 전사체(abovtive transcript)" 또는 "불현-전 전사체(pre-aborted transcript)" 등은 DNA 템플릿에 의해 암호화된 전장 mRNA 분자보다 짧은 임의의 전사체이며, RNA 중합효소가 템플릿 DNA로부터 서열 독립적인 방식으로 조기 방출됨으로써 생성된다. 일부 구현예에서, 불현 전사체는 표적 DNA 분자로부터 전사되는 전장 mRNA 분자의 길이의 90% 미만, 예를 들어 전장 mRNA 분자의 길이의 80%, 70%, 60%, 50%, 40%, 30%, 20%, 10%, 5%, 1% 미만일 수 있다.

본원에서 사용되는 용어 "코돈" 및 "코돈들"은 유전자 코드의 단위를 함께 형성하는 3개의 뉴클레오티드의 서열을 지칭한다. 각각의 코돈은 번역 또는 단백질 합성의 과정에서의 특이적 아미노산 또는 정지 신호에 상응한다. 유전자 코드는 퇴화되고, 둘 이상의 코돈은 특이적 아미노산 잔기를 암호화할 수 있다. 예를 들어, 코돈은 DNA 또는 RNA 뉴클레오티드를 포함할 수 있다.

본원에서 사용되는 용어 "코돈 최적화" 및 "코돈 최적화된"은 펩티드, 폴리펩티드, 또는 단백질을 암호화하는 자연 발생 또는 야생형 핵산의 코돈 조성물을 이의 아미노산 서열을 변경시키지 않고 변형시켜, 상기 핵산의 단백질 발현을 개선시키는 것을 지칭한다. 본 발명의 맥락에서, "코돈 최적화"는 또한 구아닌-시토신 함량, 코돈 적용 인덱스, 불안정화 핵산 서열 또는 모티프의 존재, 및/또는 일시 정지 부위 및/또는 종결자 신호의 존재와 같은 뉴클레오티드 서열의 목록으로부터 최적의 뉴클레오티드 서열보다 적은 필터로 제거함으로써 하나 이상의 최적화된 뉴클레오티드 서열이 도달하는 프로세스를 지칭할 수 있다.

본원에서 사용되는 "전장 mRNA"는 모세관 전기 영동에 의해 구분된 특정 검정, 예를 들어, 겔 전기영동 및 UV를 사용하는 검출 및 UV 흡수 분광법을 사용할 때 특성화된 것과 같다. 전장 폴리펩티드를 암호화하는 mRNA 분자의 길이는 표적 DNA로부터 전사되는 전장 mRNA 분자의 길이의 적어도 50%, 예를 들어 표적 DNA로부터 전사되는 전장 mRNA 분자의 길이의 적어도 60%, 70%, 80%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99.01%, 99.05%, 99.1%, 99.2%, 99.3%, 99.4%, 99.5%, 99.6%, 99.7%, 99.8%, 99.9%이다.

본원에서 사용되는 용어 "시험관 내"는 다세포 유기체 내가 아니라 예컨대, 시험관 또는 반응 용기, 세포 배양 등과 같은 인공적인 환경에서 발생하는 사건을 말한다.

본원에서 사용되는 용어 "생체 내"는 인간 및 비인간 동물과 같은 다세포 유기체 내에서 발생하는 사건을 말한다. 세포-기반 시스템의 맥락에서, 전술한 용어는 (예를 들어, 생체 외 시스템에 반대되는) 활세포 내에서 발생하는 사건을 지칭하도록 사용될 수 있다.

본원에서 사용되는 용어 "메신저 RNA(mRNA)"는 적어도 하나의 폴리펩티드를 암호화하는 폴리리보뉴클레오티드를 지칭한다. 본원에서 사용되는 mRNA는 변형 및 비변형 RNA 둘 모두를 망라한다. mRNA는 하나 이상의 코딩 및 비코딩 영역을 함유할 수 있다. mRNA는 천연 공급원으로부터 정제되고, 재조합 발현 시스템을 사용하여 생산되고 임의로 정제되고, 시험관 내 전사되거나, 화학적으로 합성될 수 있다. 적절한 경우, 예컨대, 화학적으로 합성된 분자의 경우, mRNA는 화학적으로 변형된 염기 또는 당, 골격 변형 등을 갖는 유사체와 같은 뉴클레오시드 유사체를 포함할 수 있다. mRNA 서열은 달리 표시하지 않는 한, 5' 에서 3' 방향으로 제시된다.

본원에서 사용되는 용어 "핵산"은 가장 넓은 의미로 폴리뉴클레오티드 사슬에 혼입되거나 혼입될 수 있는 임의의 화합물 및/또는 물질을 말한다. 일부 구현예에서, 핵산은 인산디에스테르 연결을 통해 폴리뉴클레오티드 사슬에 혼입되거나 혼입될 수 있는 화합물 및/또는 물질이다. 일부 구현예에서, "핵산"은 개별 핵산 잔기(예를 들어, 뉴클레오티드 및/또는 뉴클레오시드)를 지칭한다. 일부 구현예에서, "핵산"은 개별 핵산 잔기를 포함하는 폴리뉴클레오티드 사슬을 지칭한다. 일부 구현예에서, "핵산"은 RNA뿐만 아니라 단일 및/또는 이중 가닥 DNA 및/또는 cDNA를 망라한다. 또한, 용어 "핵산", "DNA", "RNA", 및/또는 유사한 용어는 핵산 유사체, 즉, 포스포디에스테르 백본 이외의 것을 갖는 유사체를 포함한다. 핵산 서열은 달리 표시하지 않는 한, 5'에서 3' 방향으로 제시된다.

본원에서 사용되는 용어 "뉴클레오티드 서열"은, 가장 넓은 의미에서, 핵산 내의 핵염기의 순서를 지칭한다. 일부 구현예에서, "뉴클레오티드 서열"은 유전자 내의 개별 핵염기의 순서를 지칭한다. 일부 구현예에서, "뉴클레오티드 서열"은 단백질-코딩 유전자 내의 개별 핵염기의 순서를 지칭한다. 일부 구현예에서, "뉴클레오티드 서열"은 단일 및/또는 이중 가닥 DNA 및/또는 cDNA 내의 개별 핵염기의 순서를 지칭한다. 일부 구현예에서, "뉴클레오티드 서열"은 RNA 내의 개별 핵염기의 순서를 지칭한다. 일부 구현예에서, "뉴클레오티드 서열"은 mRNA 내의 개별 핵염기의 순서를 지칭한다. 특정 구현예에서, "뉴클레오티드 서열"은 RNA 또는 DNA의 단백질-코딩 서열 내의 개별 핵염기의 순서를 지칭한다. 뉴클레오티드 서열은 달리 표시하지 않는 한, 일반적으로 5'에서 3' 방향으로 제시된다.

본원에서 사용되는 용어 "조기 종결"은 DNA 템플릿의 전체 길이가 전사되기 전에 전사가 종결되는 것을 지칭한다. 본원에서 사용되는 바와 같이, 조기 종결은 DNA 템플릿 내에 뉴클레오티드 서열 모티프(본원에서는 또한 단순히 "모티프"로도 지칭됨), 예를 들어 종결 신호의 존재에 의해 야기되고, 이는 전장 mRNA보다 짧은 mRNA 전사체("조기 종결된 전사체" 또는 "절단된 mRNA 전사체")를 생성한다. 종결 신호의 예는 본원에 기술된 것과 같은 대장균 rrnB 종결자 t1 신호(컨센서스 서열: ATCTGTT) 및 이의 변이체를 포함한다.

본원에서 사용되는 용어 "템플릿 DNA"(또는 "DNA 템플릿")는 시험관 내 전사에 의해 합성될 mRNA 전사체를 암호화하는 핵산 서열을 포함하는 DNA 분자에 관한 것이다. 템플릿 DNA는, 템플릿 DNA에 의해 암호화된 mRNA 전사체를 생산하기 위해, 시험관 내 전사를 위한 템플릿으로서 사용한다. 템플릿 DNA는 시험관 내 전사에 필요한 모든 요소, 특히 원하는 mRNA 전사체를 암호화하는 DNA 서열에 작동 가능하게 연결된 DNA-의존성 RNA 중합효소, 예를 들어 T3, T7, 및 SP6 RNA 중합효소의 결합을 위한 프로모터 요소를 포함한다. 또한, 템플릿 DNA는, mRNA 전사체를 암호화하는 DNA 서열의 동일성을 예를 들어 PCR 또는 DNA 시퀀싱에 의해 결정하기 위해, mRNA 전사체를 암호화하는 DNA 서열의 5' 및/또는 3'에 프라이머 결합 부위를 포함할 수 있다. 본 발명의 맥락에서 "템플릿 DNA"는 선형 또는 원형 DNA 분자일 수 있다. 본원에서 사용되는 용어 "템플릿 DNA"는 원하는 mRNA 전사체를 암호화하는 핵산 서열을 포함하는 DNA 벡터, 예컨대 플라스미드 DNA를 지칭할 수 있다.

본원에 사용되는 모든 기술적 및 과학적 용어는 본 출원이 속하는 기술 분야의 당업자가 공통적으로 이해하고, 본 출원이 속하는 기술 분야에서 공통적으로 사용되는 것과 같은 의미를 가진다. 본 발명의 배경기술을 기술하고 그의 실행에 관한 추가적인 자세한 사항을 제공하도록 본원에서 참조된 출판물 및 기타 다른 참고물은 참조로서 본원에 포함된다.

코돈 최적화의 기능

유전자 발현 프로세스에서, DNA 서열 중 암호화된 뉴클레오티드 서열은 RNA 분자로 전사되고, 후속적으로 폴리펩티드 사슬을 포함하는 단백질로 번역된다. 단백질 생성물 내에 혼입될 아미노산 잔기의 정확한 순서를 지정하는 서열 정보는 DNA 및/또는 mRNA 서열 내의 "코돈"으로 암호화된다. 코돈은 이와 함께 유전자 코드의 유닛을 형성하는 3개의 뉴클레오티드의 서열을 포함하고, 각각의 코돈은 특이적 아미노산 또는 정지 코돈 신호에 상응한다. 유전자 코드는 퇴화되고, 둘 이상의 코돈은 특이적 아미노산 잔기를 암호화할 수 있다.

mRNA는 일반적으로 DNA로부터 리보솜에 정보를 전달하는 유형의 RNA로서 간주된다. mRNA의 존재 기간은 일반적으로 매우 짧으며, 프로세싱 및 번역, 이에 이어지는 분해를 포함한다. 일반적으로, 진핵 생물에서, mRNA 가공은 N-말단(5') 단부 상에 "캡"을 추가하고 C-말단(3') 단부 상에 "꼬리"를 추가하는 것을 포함한다. 통상적인 캡은 5'-5'-트리포스페이트 결합을 통해 제1 전사된 뉴클레오티드에 연결된 구아노신인, 7-메틸구아노신 캡이다. 캡의 존재는 대부분의 진핵세포에서 발견되는 뉴클레아제에게 내성을 제공하는 데 있어서 중요하다. 꼬리는 일반적으로 폴리아데닐화 이벤트이며, 이에 의해 폴리A 모이어티가 mRNA 분자의 3' 말단에 첨가된다. 이러한 "꼬리"의 존재는 엑소뉴클레아제 분해로부터 mRNA를 보호하는 역할을 한다. 메신저 RNA는 일반적으로 리보솜에 의해, 단백질을 구성하는 일련의 아미노산으로 번역된다.

유전자 발현 전반에 걸치는 다양한 단계에서, 다수의 인자는 특이적 단백질이 발현되거나 생성되는 수준에 영향을 미칠 수 있다. 예를 들어, 특정 뉴클레오티드 서열 모티프의 존재는 DNA 서열이 RNA 중합효소에 의해 mRNA 내로 전사됨에 따르는 전사의 조기 종결을 야기할 수 있다. 특이적 조성물 및 유전자의 단백질 코딩 영역("코딩 서열") 내의 코돈의 순서는 또한 단백질 발현의 효율 및 수율에 긍정적으로 또는 부정적으로 영향을 미칠 수 있다. 예를 들어, 낮은 코돈 사용 빈도를 특징으로 하는 희귀 코돈의 존재는, 특이적 아미노산을 암호화하는 동족 전달 RNA의 낮은 풍부도로 인해, 단백질 발현의 수율에 부정적인 영향을 미칠 수 있다. 생명공학적 및 치료적 응용에서, 예를 들어 mRNA 요법을 포함하는 치료적 응용에서 이를 암호화하는 뉴클레오티드 서열로부터 전술한 단백질을 발현할 경우, 단백질 수율을 증가시키거나 최대화하는 것이 종종 바람직하다. 코돈 최적화는 유전자 코드의 중복으로 인한, 암호화된 아미노산 서열을 변경하지 않고 다양한 기준에 기초하여 단백질 코딩 뉴클레오티드 서열을 생성한다. 즉, 다수의 코돈이 단일 아미노산을 암호화하기 때문에, 다수의 뉴클레오티드 서열은 동일한 아미노산 서열을 암호화할 수 있다. 코돈 최적화는 증가된 단백질 수율을 달성할 하나 이상의 뉴클레오티드 서열을 생성하는 것을 목표로 한다.

최적화된 뉴클레오티드 서열의 생성을 위한 아미노산 서열

자연 발생 뉴클레오티드 서열은 관심 단백질, 폴리펩티드 또는 펩티드를 암호화하는 아미노산 서열을 제공하는 데 사용될 수 있다. 뉴클레오티드 서열은 관심 유기체로부터 핵산 분자를 단리하고 그 내부의 핵염기(예를 들어, 구아닌, 티민, 우라실, 아데닌, 및 시토신)의 정확한 순서를 식별함으로써 수득될 수 있다. 자연 발생 뉴클레오티드 서열을 수득하기에 적합한 다수의 방법이 당업계에 공지되어 있다. 단백질 코딩 유전자의 뉴클레오티드 서열은 다양한 DNA 또는 RNA의 공지된 시퀀싱 방법에 의해 수득될 수 있다.

예를 들어, 인간 세포로부터의 DNA는 추출되고, 단리되고, 후속하여 단편화될 수 있다. 단편화된 DNA는 DNA 벡터 내로 클로닝되고 박테리아 숙주에서 증폭되어, 짧은 DNA 단편의 "라이브러리"를 생성할 수 있다. 대안적으로, 단편화된 DNA는 중합효소 연쇄 반응(PCR)을 사용하여 증폭될 수 있고, 고 처리량 시퀀싱 방법에 적합한 라이브러리에 통합될 수 있다. 소스 유기체의 원래 DNA 물질로부터 유래된 짧은 DNA 단편은 개별적으로 시퀀싱될 수 있고, 후속하여 서열 어셈블리에 의해 긴 연속 서열 또는 서열로 어셈블리될 수 있다. 서열 어셈블리는 보다 긴 뉴클레오티드 서열로부터 유래된 뉴클레오티드 서열의 짧은 단편을 정렬하고 병합하여, 원래 또는 컨센서스 뉴클레오티드 서열을 재구성하는 생물정보학적 접근법이다.

이러한 방식으로 생성된 뉴클레오티드 서열, 즉, 실험적으로 유래되고 자연 발생 서열을 정확하게 기술하는 것으로 알려진 서열은 일반적으로 공개적으로 접근 가능한 저장소 또는 데이터베이스에 저장된다. 예를 들어, 본 발명의 방법에 따라 프로세싱될 수 있는 뉴클레오티드 서열은 국립 생명공학 정보센터(National Center for Biotechnology Information, NCBI)의 GenBank 데이터베이스로부터 수득될 수 있다. Genbank는 공개적으로 이용 가능한 뉴클레오티드 서열 및 이의 번역된 단백질 서열의 주석이 달린 오픈 액세스 컬렉션이다.

코돈 사용 테이블의 생성

유전자 코드는 64개의 가능한 코돈을 갖는다. 각각의 코돈은 3개의 뉴클레오티드의 서열을 포함한다. 게놈의 단백질 코딩 영역 내의 각 코돈에 대한 사용 빈도는, 특정 코돈이 게놈의 단백질 코딩 영역 내에 나타나는 경우의 수를 결정하고, 후속하여 수득된 값을 게놈의 단백질 코딩 영역 내에서 동일한 아미노산을 암호화하는 코돈의 총 수로 나눔으로써 계산될 수 있다. 이러한 계산은, 예를 들어, 공개적으로 접근 가능한 저장소 및/또는 데이터베이스에서 발견되는 뉴클레오티드 서열에 대해 수행될 수 있으며, 따라서 실험적으로 유도된 데이터를 또한 나타낸다.

코돈 사용 테이블은 주어진 유기체에서의 각 코돈의 사용 빈도를 특정한다. 테이블의 각각의 아미노산은 적어도 하나의 코돈과 연관되고, 각각의 코돈은 사용 빈도와 연관된다. 코돈 사용 테이블은, 코돈 사용 데이터베이스(Codon Usage Database)(Nakamura 외 (2000) Nucleic Acids Research 28(1), 292; https://www.kazusa.or.jp/codon/에서 온라인으로 이용 가능함) 및 고성능 통합 가상 환경-코돈 사용 테이블(High-performance Integrated Virtual Environment-Codon Usage Tables)(HIVE-CUT) 데이터베이스(Adie 등 (2017), BMC Bioinformatics 18(1), 391; http://hive.biochemistry.gwu.edu/review/codon에서 온라인으로 이용 가능함)와 같은 공개적으로 이용 가능한 데이터베이스에 저장되어 있다.

코돈 최적화

도 1은 본 발명에 따른 코돈 최적화 방법을 도시한다. 제1 단계(101)에서, 아미노산 서열이 수령된다. 아미노산 서열은 원격 시스템, 서버 및/또는 공개적으로 접근 가능한 데이터베이스로부터 수령될 수 있고, 예를 들어, 인터넷을 통해 무선으로도 수령될 수 있다. 대안적으로, 아미노산 서열은 예를 들어, 유선 연결을 통해 로컬 시스템으로부터 수령될 수 있다. 아미노산 서열은 복수의 아미노산을 포함한다.

제2 단계(102)에서, 제1 코돈 사용 테이블이 수령된다. 제1 코돈 사용 테이블은 원격 시스템, 서버 및/또는 공개적으로 접근 가능한 데이터베이스로부터 수령될 수 있고, 예를 들어, 인터넷을 통해 무선으로도 수령될 수 있다. 대안적으로, 제1 코돈 사용 테이블은 예를 들어, 유선 연결을 통해 로컬 시스템으로부터 수령될 수 있다. 제1 코돈 사용 테이블은 아미노산의 목록을 포함하고, 여기에서 테이블의 각각의 아미노산은 적어도 하나의 코돈과 연관되고, 각각의 코돈은 사용 빈도와 연관된다.

제3 단계(103)에서, 코돈이 임계 빈도 미만인 코돈 사용 빈도와 연관되는 경우, 제1 코돈 사용 테이블로부터 해당 코돈은 제거된다.

제4 단계(104)에서, 제3 단계(103)에서 제거되지 않은 코돈의 코돈 사용 빈도는 정규화되어 정규화된 코돈 사용 테이블을 생성한다.

제5 단계(105)에서. 최적화된 뉴클레오티드 서열은 정규화된 코돈 사용 테이블의 아미노산과 연관된 하나 이상의 코돈의 사용 빈도에 기초하여 아미노산 서열 내의 각 아미노산에 대한 코돈을 선택함으로써 생성된다.

코돈 사용 테이블의 정규화

도 2a를 참조하면, 코돈 사용 테이블의 데이터베이스에서 찾을 수 있는 코돈 사용 테이블이 도시되어 있다. 예시된 코돈 사용 테이블은 단지 예시이며, 임의의 코돈 사용 테이블, 예를 들어 데이터베이스 상에서 이용 가능한 임의의 코돈 사용 테이블이 최적화된 뉴클레오티드 서열을 생성하기 위해 본 발명에 의해 사용될 수 있다는 것을 이해할 것이다. 도 2a의 내용을 생성하는 데 사용된 데이터는, NCBI GenBank 데이터베이스(Flat File Release 160.0)를 통해 공개적으로 이용 가능한 코돈 사용 데이터에 기초하는, 코돈 사용 데이터베이스를 통해 액세스된 데이터로부터 도출되었다.

코돈 사용 테이블은, 테이블이 생성된 특정 생물학적 공급원에 대해, 얼마나 자주, 특정 아미노산을 암호화하기 위해 각 코돈이 사용되는지에 관한 실험적으로 도출된 데이터를 포함한다. 이러한 정보는, 코돈이 해당 아미노산을 암호화하는 총 횟수에 대해 특정 아미노산을 암호화하는 데 사용되는 빈도의 백분율(0 내지 100%), 또는 분율(0 내지 1)로서, 각 코돈에 대해 표현된다.

도 2b는 본 발명의 방법에 따라 도 2a의 테이블로부터 생성된 정규화된 코돈 사용 테이블을 나타낸다. 도 2b의 예에서, 10%의 임계 빈도는 정규화를 수행하기 위한 것이다. 이는 단지 예시일 뿐이며, 본 발명의 구현예는 본원에 기술된 바와 같은 임의의 다른 적절한 임계 빈도를 사용할 수 있다는 것을 이해할 것이다.

정규화된 코돈 사용 테이블을 제공할 수 있고, 도 2b의 경우에 제공된 방법이 예시적인 아미노산 "X" 및 "Y"를 사용하는 도 3에 도시되어 있다. 정규화된 코돈 사용 테이블을 생성할 때, 임의의 수의 아미노산이 코돈 사용 테이블 내의 하나의 아미노산으로부터 모든 아미노산까지 정규화될 수 있다는 것을 이해할 것이다. 도 3의 예에서, 아미노산 X는 해당 도면에 정의된 빈도로 코돈 A, B, C, D, E 및 F(각 코돈은 뉴클레오티드 삼중체로 표시되고, 따라서 해당 도면에서는 AAA, BBB 등으로 표시됨)에 의해 암호화된다. 아미노산 Y는 해당 도면에 정의된 빈도로 코돈 G 및 H에 의해 암호화된다. 제1 단계에서, 임계 빈도 미만의 사용 빈도를 갖는 임의의 코돈은 테이블로부터 제거된다. 도 3에 예시된 방법은 10%의 임계 빈도를 사용하지만, 이는 단지 예시일 뿐이며 본 발명의 범위를 제한하려는 의도가 아님을 이해할 것이다. 임계 빈도는 5% 내지 30%의 범위, 예를 들어 5%, 또는 15%, 또는 20%, 또는 25%, 또는 30%, 또는 특히 10%일 수 있다. 이러한 임계 빈도의 값은, 번역을 제어하고 초기 폴리펩티드 사슬의 적절한 접힘을 보장하는 데 중요한 정보를 보유하는 것과 증가된 단백질 수율 간의 효과적인 밸런스를 제공하는 것으로 밝혀졌다. 도 3의 코돈 사용 테이블은 단지 2개의 아미노산으로 구성되기 때문에, 실제, 자연 발생, 코돈 사용을 정확하게 설명하지 않는다는 것을 이해할 것이다. 도 3의 테이블은 단지 코돈 사용 테이블 정규화 방법을 예시하고자 하는 것이다.

도 3의 예에서, 코돈 C 및 E는 10%의 임계 빈도 미만의 사용 빈도를 가지며, 따라서 해당 테이블로부터 제거된다. 제거된 코돈, C 및 E의 조합된 사용 빈도는 16%이다. 그런 다음, 이러한 조합된 사용 빈도는 아미노산 X를 암호화하는 나머지 코돈들 중에 분배된다. 아미노산 X로부터 제거된 조합된 사용 빈도는 또한 아미노산 X를 암호화하는 나머지 코돈에만 분배된다는 것에 주목하는 것이 중요하다. 즉, 도 4a 및 도 4b의 예에서, 아미노산 Y를 암호화하는 코돈 G 및 H의 사용 빈도는 변하지 않고 유지된다.

일부 구현예에서, 제거된 조합된 사용 빈도는 아미노산 X를 암호화하는 나머지 코돈들 중에 균등하게 분배된다. 도 4a는 이러한 구현예를 예시한다. 제거된 조합된 사용 빈도 16%는 나머지 코돈 A, B, D 및 F 중에 균등하게 분배되며, 따라서 각각의 나머지 코돈은 추가적인 4%의 사용 빈도를 수령하게 된다. 아미노산 X의 코돈 사용 빈도는 이제 정규화되었다.

일부 구현예에서, 제거된 조합된 사용 빈도는 아미노산 X를 암호화하는 나머지 코돈들 중에 비례적으로 분배된다. 도 4b는 이러한 구현예를 예시한다. 제거된 조합된 사용 빈도 16%는 나머지 코돈 A, B, D 및 F의 사용 빈도에 비례하여, 해당 나머지 코돈 A, B, D 및 F 중에 분배된다. 이 예에서, 코돈 A, B, D 및 F의 사용 빈도 비율은 15:20:38:11 또는 0.18:0.24:0.45:0.13이다. 코돈 A는 16%의 0.18(3%)을, B는 16%의 0.24(4%)를, D는 16%의 0.45(7%)를, 그리고 F는 16%의 0.13(2%)을 수령한다. 아미노산 X의 코돈 사용 빈도는 이제 정규화되었다.

이러한 방식으로, 수령된 코돈 사용 테이블 또는 제1 코돈 사용 테이블의 구조 및 내용은 정규화된 코돈 사용 테이블의 생성을 지시한다. 각각의 아미노산과 연관된 코돈의 수는 제거된 코돈 사용 빈도의 재분배를 지시하고, 코돈 사용 빈도 자체는 어느 코돈이 제거되는지, 및 일부 구현예에서는, 분배의 비율을 지시한다.

최적화된 뉴클레오티드 서열 생성

최적화된 뉴클레오티드 서열은 정규화된 코돈 사용 테이블의 아미노산과 연관된 하나 이상의 코돈의 사용 빈도에 기초하여 아미노산 서열 내의 각 아미노산에 대한 코돈을 선택함으로써 생성된다. 최적화된 뉴클레오티드 서열은 선택된 코돈을, 그것과 연관된 아미노산이 아미노산 서열에서 나타나는 순서로 배열함으로써 생성된다.

도 5를 참조하면, 도 3, 도 4a 및 도 4b로부터의 코돈 A, B, C, D, E 및 F를 사용하는 최적화된 뉴클레오티드 서열의 생성을 도시한다. 각각의 코돈은 3개의 뉴클레오티드로 표시될 수 있고, 도 5의 예시에서 코돈 A는 뉴클레오티드 AAA, 코돈 B는 뉴클레오티드 BBB 등으로 표시된다.

예시적인 아미노산 서열, X Y Y X X X가 수령된다. 이러한 예에서, 아미노산 X 및 Y는, 도 3, 도 4a 및 도 4b와 관련하여 정의된 바와 같이, 코돈 A, B, C, D, E, F, G 및 H와 연관된다고 가정한다. 이 예에서, 도 3의 코돈 사용 테이블은 확률적으로 정규화되어, 도 4b의 정규화된 코돈 사용 테이블로 이어진다. 단계(501)에서, 각각의 아미노산에 대해, 코돈은 정규화된 코돈 사용 테이블에서 코돈과 연관된 사용 빈도와 동일한 확률로 선택된다. 예를 들어, 서열의 제1 아미노산 X의 경우, 코돈 A가 선택될 확률은 18%이고, 코돈 B가 선택될 확률은 24%이고, 코돈 D가 선택될 확률은 45%이고, 코돈 F가 선택될 확률은 13%이다. 이는 아미노산 X가 코돈 A, B, D, 및 F에 의해 암호화되기 때문에, 정규화된 코돈 사용 테이블에서 이들 코돈과 연관되므로, 아미노산 X에 대해 선택된 코돈은 코돈 A, B, D, 및 F 중 하나일 것이기 때문이다.

이러한 프로세스는 특정 코돈의 선택의 확률을 지시하도록, 정규화된 코돈 사용 테이블을 사용하여 각 아미노산에 대해 반복된다. 따라서, 서열 중 제2 아미노산 Y의 경우, 코돈 G가 선택될 확률은 60%이고, 코돈 H가 선택될 확률은 40%이다. 코돈이 각각의 아미노산에 대해 선택되면, 뉴클레오티드로 이루어진, 생성된 코돈의 서열은 최적화된 뉴클레오티드 서열로서 지칭될 수 있다.

도 5는 단지 뉴클레오티드의 최적화된 서열의 생성을 이해하는 데 도움을 주기 위한 예시이다. 도 5는 실제로 수령된 아미노산 서열 또는 최적화된 뉴클레오티드 서열의 길이, 함량 또는 구조를 나타내지 않을 수 있으며, 단지 이의 방법을 도식적으로 예시한다.

복수의 최적화된 뉴클레오티드 서열 생성

아미노산 서열 및 정규화된 코돈 사용 테이블을 사용하는 최적화된 뉴클레오티드 서열의 생성은 최적화된 뉴클레오티드 서열의 목록을 생성하기 위해 1회 이상 수행될 수 있다.

목록은, 최적화된 뉴클레오티드 서열의 생성이 코돈의 확률적 선택에 기초하기 때문에, 임의의 수의 최적화된 뉴클레오티드 서열을 포함할 수 있다. 목록은, 최적화된 뉴클레오티드 서열의 생성이 대체 코돈의 확률적 선택에 기초하기 때문에, 다시, 임의의 수의 중복적으로 최적화된 뉴클레오티드 서열, 즉 동일한 최적화된 뉴클레오티드 서열을 포함할 수 있다. 동일한 최적화된 서열은 일반적으로 최적화된 뉴클레오티드 서열의 목록을 생성할 때 제거된다.

일부 구현예에서, 최적화된 뉴클레오티드 서열의 목록 중 최적화된 뉴클레오티드 서열 중 하나 이상 또는 전부는 형질감염에 의한 시험, 치료에의 사용, 또는 본원에 기술된 합성된 최적화된 뉴클레오티드 서열의 다른 임의의 사용을 위해 합성된다.

최적화된 뉴클레오티드 서열 목록의 필터링

최적화된 뉴클레오티드 서열의 목록 중 최적화된 뉴클레오티드 서열의 수는, 적어도 아미노산 서열의 길이 및 함량, 임계 코돈 사용 빈도의 값, 제1 코돈 사용 테이블의 내용, 및 코돈 최적화 알고리즘이 실행되는 횟수, 즉 최적화된 뉴클레오티드 서열이 생성되는 횟수에 따라 달라진다. 예를 들어, 최적화된 뉴클레오티드 서열의 목록은 10,000개 이상의 최적화된 뉴클레오티드 서열을 포함할 수 있다. 세포, 조직 또는 유기체의 목록에서의 각각의 최적화된 뉴클레오티드 서열을 합성하고 시험하는 것은, 일부 시나리오에서, 예를 들어, 상대적으로 짧은 아미노산 서열과 같은 소정의 알고리즘 입력 파라미터의 경우 유리할 수 있다. 마찬가지로, 이는, 소정의 시나리오, 예를 들어, 컴퓨터 프로세스의 복잡성 또는 세포, 조직 또는 유기체에서의 합성되고 시험되는 서열의 수를 감소시키는 것이 바람직한 경우에서는 유리하지 않을 수 있다. 따라서, 예를 들어, 합성 전, 뉴클레오티드 서열의 목록에서 최적화된 뉴클레오티드 서열의 수를 감소시키는 것이 바람직할 수 있다. 이는 목록 내의 모든 서열을 합성하는 데 걸리는 시간 및 이를 수행하는 데 필요한 자원을 유리하게 감소시킬 수 있다.

따라서, 일반적인 구현예에서, 목록을 필터링하거나, 목록으로부터 최적화된 뉴클레오티드 서열을 제거하기 위해, 최적화된 뉴클레오티드 서열의 목록에 대한 하나 이상의 추가 알고리즘 단계(들)가 수행된다. 하나 이상의 추가 알고리즘 단계(들)는 모티프 스크린, GC 함량 분석, 및 코돈 적용 인덱스(CAI) 분석으로 지칭될 수 있다. 비록 특정 추가 알고리즘 단계가 본원에서 상세히 기술되지만, 이들은 수행되는 유일한 필터링 단계가 아닐 수 있으며, 본 청구범위의 범위 내에서 최적화된 뉴클레오티드 서열의 목록을 추가로 필터링하기 위한 추가 단계가 수행될 수 있다는 것을 이해할 것이다.

본 발명자는, 이러한 추가 알고리즘 단계, 및 연관된 모티프, 범위, 및 임계값이, 목록으로부터, 해당 목록에 남아 있는 서열보다 덜 효과적일 가능성이 높은 서열을 제거함으로써 최적화된 뉴클레오티드 서열의 목록을 유리하게 필터링한다는 것을 발견하였다. 이러한 방식으로, 목록의 필터링은 단순히 인위적인 것은 아니다. 즉, 본원에 기술된 방법을 사용하여 목록을 소정의 수의 서열로 필터링하는 것은, 동일한 소정의 수의 서열이 목록으로부터 무작위로 선택되는 경우보다 더 효과적인 서열을 함유하는 업데이트된 서열의 목록을 생성할 것이다. 따라서, 합성 프로세스에서 달성되는 효율 및 복잡도의 감소는, 다수의 효과적인 최적화된 뉴클레오티드 서열을 희생시키지 않는다. 예를 들어, 본 발명의 방법에 의해 생성된 최적화된 뉴클레오티드 서열은 종결 신호를 함유하지 않는다. 종결 신호의 부재는 시험관 내 전사를 사용하여 암호화된 최적화된 뉴클레오티드 서열로부터 전장 mRNA 분자의 합성을 용이하게 한다. 종결 신호의 존재는 시험관 내 전사의 조기 종결을 초래하며, 따라서 본원에 기술된 방법을 사용하여 목록을 필터링하는 것은 보다 효과적인 서열을 함유하는 업데이트된 서열의 목록을 생성한다.

최적화된 뉴클레오티드 서열의 목록을 필터링하는 것은, 하나 이상의 기준을 충족하지 못하는 최적화된 뉴클레오티드 서열을 식별하고 제거하기 위해, 최적화된 뉴클레오티드 서열의 목록을 스크리닝하는 것으로 지칭될 수 있다. 기준은 각각 본원에서 상세히 기술된 바와 같은 소정의 추가 알고리즘 단계에 관한 것일 수 있다. 즉, 기준은, 종결 신호를 함유하지 않는 최적화된 뉴클레오티드 서열(제1 기준); 사전에 결정된 구아닌-시토신 함량 범위 내의 구아닌-시토신 함량을 갖는 최적화된 뉴클레오티드 서열(제2 기준); 사전에 결정된 코돈 적용 인덱스 임계값을 초과하는 코돈 적용 인덱스를 갖는 최적화된 뉴클레오티드 서열(제3 기준)을 포함할 수 있다. 사용된 기준의 넘버링은 단지 명확성을 위한 것이며, 본원의 다른 곳에서 보다 상세히 설명되는 단계의 순서를 한정하려는 것이 아님을 이해할 것이다.

특정 기준이 본원에서 상세히 기술되지만, 이들은 최적화된 뉴클레오티드 서열이 스크리닝되는 유일한 기준이 아닐 수 있으며, 본 청구범위의 범위 내에서 최적화된 뉴클레오티드 서열의 목록을 추가로 필터링하기 위해 추가적인 기준으로 스크리닝될 수 있다는 것을 이해할 것이다.

각각의 최적화된 뉴클레오티드 서열을 스크리닝할 때, 최적화된 뉴클레오티드 서열의 전체는 그 서열이 기준을 충족하는지의 여부에 대한 결정이 이루어지기 전에 분석될 수 있다. 대안적으로, 각각의 최적화된 뉴클레오티드 서열은 부분별로 분석될 수 있다. 부분은 윈도우로서 지칭될 수 있다.

예로서, 최적화된 뉴클레오티드 서열에 대해, 최적화된 뉴클레오티드 서열의 목록에서, 600개 뉴클레오티드의 길이를 갖는 부분 길이가 30개의 뉴클레오티드에서 선택될 수 있다. 최적화된 뉴클레오티드 서열의 첫번째 30개의 뉴클레오티드, 즉 최적화된 뉴클레오티드 서열의 뉴클레오티드 1 내지 30의 소정의 기준에 대한 준수에 대해 우선적으로 분석될 수 있다. 첫번째 부분이 해당 기준을 충족하지 않는 경우, 해당 최적화된 뉴클레오티드 서열은 최적화된 뉴클레오티드 서열의 목록에서 제거될 수 있다.

첫번째 부분이 기준을 충족하는 경우, 이에 이어서 필터는 최적화된 뉴클레오티드 서열의 두번째 부분을 분석할 수 있다. 이러한 예에서, 이는 최적화된 뉴클레오티드 서열의 두번째 30개의 뉴클레오티드, 즉, 뉴클레오티드 31 내지 60일 수 있다. 부분의 분석은, 부분이 기준을 충족하지 않는 것으로 발견될 때까지 각 부분에 대해 반복될 수 있으며, 최적화된 뉴클레오티드 서열이 목록에서 제거될 수 있고, 또는 전체 최적화된 뉴클레오티드 서열이 분석되고 함량 범위를 벗어나는 부분이 발견되지 않은 경우, 필터는 해당 목록에서의 최적화된 뉴클레오티드 서열을 유지하고 해당 목록에서의 그 다음 최적화된 뉴클레오티드 서열로 이동할 수 있다. 이러한 예에서, 필터가 최적화된 뉴클레오티드 서열의 최종 부분, 즉 뉴클레오티드 571 내지 600에 도달하고, 이러한 최종 부분이 기준을 충족하는 경우, 필터는 최적화된 뉴클레오티드 서열을 목록에 유지하고, 목록의 다음 최적화된 뉴클레오티드 서열로 이동할 수 있다. 대안적으로, 특히, 각각의 부분은 100개 길이의 뉴클레오티드일 수 있다.

전술한 예는 제1 뉴클레오티드에서 시작하여 최종 뉴클레오티드로 진행하는 부분별 필터링을 기술하지만, 이는 단지 예시이며, 최적화된 뉴클레오티드 서열의 일부가 분석되는 순서는 임의의 순서일 수 있음을 당업자는 명백하게 이해할 것이다. 필터는, 예를 들어, 최종 뉴클레오티드(실행된 예에서의, 뉴클레오티드 600)를 포함하는 부분에서 시작할 수 있고, 제1 뉴클레오티드, 뉴클레오티드 1을 향해 반대 방향으로 실행할 수 있거나, 제1 뉴클레오티드와 최종 뉴클레오티드 사이의 임의의 위치에서의 부분에서 시작할 수 있다.

최적화된 뉴클레오티드 서열의 제1, 최종 또는 중간 부분은 서로 다른 부분과 상이한 길이를 가질 수 있다. 이는, 예를 들어, 최적화된 뉴클레오티드 서열의 뉴클레오티드 길이가 부분의 뉴클레오티드 길이로 정확하게 분할되지 않는 경우에 발생할 수 있다.

본원의 다른 곳에서 기술되는 바와 같이, 부분별 분석은 적어도 연산 효율에 유리할 수 있으며, 또한 평균에서는 기준을 충족할 수 있지만, 기준을 충족하지 않는 섹션, 예를 들어 GC 함량 또는 CAI 점수의 피크 또는 골을 포함하는 덜 바람직한 서열에 대한 보다 효과적인 식별에 유리할 수 있다.

목록 내의 최적화된 뉴클레오티드 서열은 다음의 2가지 방법 중 하나로 하나 이상의 기준의 준수에 대해 스크리닝될 수 있다: 각각의 서열은 모든 관련 기준에 대해 스크리닝될 수 있고, 이들 중 어느 하나가 기준을 충족하지 않는 경우 해당 목록에서 제거될 수 있음; 또는 특히, 목록 내의 모든 서열은 소정의 기준에 대해 스크리닝될 수 있고, 감소되고 필터링된 목록은 추가의 관심 기준에 대해 스크리닝될 수 있음.

모티프 스크린

일부 구현예에서, 모티프 스크린 필터가 최적화된 뉴클레오티드 서열의 목록에 적용될 수 있다. 이러한 구현예에서, 최적화된 뉴클레오티드 서열의 목록은, 목록의 각각의 최적화된 뉴클레오티드 서열이 종결 신호를 포함하는지의 여부를 결정하도록 분석된다. 최적화된 뉴클레오티드 서열의 목록은 코돈 최적화 알고리즘에 의해 원래 생성된 최적화된 뉴클레오티드 서열의 목록일 수 있거나, 하나 이상의 추가 알고리즘 단계(들)에 의해 이미 필터링된 최적화된 뉴클레오티드 서열의 목록일 수 있다. 하나 이상의 추가 알고리즘 단계(들)에 의해 이미 필터링되었거나 업데이트된 최적화된 뉴클레오티드 서열의 목록은 최적화된 뉴클레오티드 서열의 업데이트된 목록 또는 가장 최근에 업데이트된 목록으로 지칭될 수 있다. 하나 이상의 종결 신호를 함유하는 임의의 최적의 뉴클레오티드 서열은 업데이트된 목독을 생성하기 위해 해당 목록으로부터 제거될 수 있다.

도 6을 참조하면, 종결 신호는 다음의 뉴클레오티드 서열을 가질 수 있다: 5'-X₁ATCTX₂TX₃-3'(여기에서, X₁, X₂, 및 X₃은 A, C, T, 또는 G로부터 독립적으로 선택됨).; TATCTGTT; TTTTTT; AAGCTT; GAAGAGC; TCTAGA; UAUCUGUU; UUUUUU; AAGCUU; GAAGAGC; UCUAGA; 및/또는 5'-X₁AUCUX₂UX₃-3'(여기에서, X₁, X₂ 및 X₃은 A, C, U 또는 G로부터 독립적으로 선택됨). 모티프 스크린 필터는 각각의 최적화된 뉴클레오티드 서열이 이들 종결 신호 중 하나, 일부 또는 모두를 함유하는지의 여부를 결정할 수 있다.

각각의 최적화된 뉴클레오티드 서열은 그 전체가, 즉 서열 내의 제1 뉴클레오티드로부터 서열 내의 최종 뉴클레오티드까지 분석될 수 있다. 특정 구현예에서, 소정의 최적화된 뉴클레오티드 서열의 분석은 해당 서열에서 종결 신호의 존재가 결정될 때 중단될 수 있고; 이에 이어서, 그 뉴클레오티드의 전부를 분석하지 않고 해당 서열이 목록에서 제거될 수 있다. 특정 구현예에서, 이러한 형태의 분석은 목록의 각각의 최적화된 뉴클레오티드 서열에 적용될 수 있다. 이러한 방식의 분석은, 해당 서열에서의 종결 신호의 존재가 이미 결정되었다면 전체 서열을 분석하지 않는 것이 연산상으로 효율적이기 때문에 유리할 수 있다.

각각의 최적화된 뉴클레오티드 서열은 GC 함량 분석과 관련하여 보다 상세하게 기술되는 바와 같이, 부분별로 분석될 수 있다. 최적화된 뉴클레오티드 서열의 분석은, 일 부분이 종결 신호를 함유한다는 결정 시 중단될 수 있다. 이는, 해당 서열에서의 종결 신호의 존재가 이미 결정되었다면 전체 서열을 분석하지 않는 것이 연산상으로 효율적이기 때문에 유리할 수 있다. 이어지는 GC 함량 분석의 경우, 부분은 중첩되거나 중첩되지 않을 수 있고, 임의의 길이, 예를 들어, 5 내지 300개 뉴클레오티드, 또는 10 내지 200개 뉴클레오티드, 또는 15 내지 100개 뉴클레오티드, 또는 20 내지 50개 뉴클레오티드, 또는 특히 30개 뉴클레오티드 또는 100개 뉴클레오티드 길이일 수 있다. 최적화된 뉴클레오티드 서열의 각각의 부분은 동일한 길이일 수 있거나, 예를 들어, 최적화된 뉴클레오티드 서열의 뉴클레오티드 길이가 부분의 뉴클레오티드 길이에 의해 정확하게 분할되지 않는 경우, 예를 들어, 최적화된 뉴클레오티드 서열의 제1, 최종 또는 중간 부분은 서로 다른 부분과 상이한 길이일 수 있다.

GC 함량 분석

일부 구현예에서, 구아닌-시토신(GC) 함량 필터가 최적화된 뉴클레오티드 서열의 목록에 적용될 수 있다. 이러한 구현예에서, 최적화된 뉴클레오티드 서열의 목록은 최적화된 뉴클레오티드 서열의 목록의 최적화된 뉴클레오티드 서열 각각의 GC 함량을 결정하도록 분석되며, 여기에서 서열의 GC 함량은 구아닌(G) 또는 시토신(C)인 뉴클레오티드 서열 내 염기의 백분율이다. 최적화된 뉴클레오티드 서열의 목록은 코돈 최적화 알고리즘에 의해 원래 생성된 최적화된 뉴클레오티드 서열의 목록일 수 있거나, 하나 이상의 추가 알고리즘 단계(들)에 의해 이미 필터링된 최적화된 뉴클레오티드 서열의 목록일 수 있다. 하나 이상의 추가 알고리즘 단계(들)에 의해 이미 필터링되었거나 업데이트된 최적화된 뉴클레오티드 서열의 목록은 최적화된 뉴클레오티드 서열의 업데이트된 목록 또는 가장 최근에 업데이트된 목록으로 지칭될 수 있다. 사전에 결정된 GC 함량 범위를 벗어나는 GC 함량을 갖는 임의의 최적화된 뉴클레오티드 서열은 업데이트된 목록을 생성하기 위해 목록에서 제거될 수 있다.

각각의 최적화된 뉴클레오티드 서열은 그 전체가, 즉 서열 내의 제1 뉴클레오티드로부터 서열 내의 최종 뉴클레오티드까지 분석될 수 있다. 그런 다음, 최적화된 전체 뉴클레오티드 서열의 GC 함량을 결정하고 그에 따라 서열을 제거할 수 있다.

일부 구현예에서, 각각의 최적화된 뉴클레오티드 서열의 일 부분만이 분석되고, 해당 부분의 GC 함량이 결정된다. 이러한 구현예에서, 분석된 부분의 GC 함량이 사전에 결정된 GC 함량 범위를 벗어나는 경우, 해당 부분을 갖는 최적화된 뉴클레오티드 서열은 목록에서 제거된다.

특정 구현예에서, GC 함량 필터는 각각의 최적화된 뉴클레오티드 서열에 부분별로 적용되고, 부분이 사전에 결정된 범위를 벗어나는 GC 함량을 갖는 것으로 결정되면, 필터링은 중단되고 해당 서열은 제거된다. 이러한 방식의 분석은, 사전에 결정된 범위를 벗어나는 GC 함량을 갖는 부분의 존재가 이미 발견되었다면 전체 서열을 분석하지 않는 것이 연산상으로 효율적이기 때문에 유리할 수 있다.

특정 구현예에서, 부분은 중첩되지 않지만, 다른 구현예에서는, 부분이 중첩될 수 있다. 이러한 특정 구현예는 임의의 길이의 부분, 예를 들어, 5 내지 300개 뉴클레오티드, 또는 10 내지 200개 뉴클레오티드, 또는 15 내지 100개 뉴클레오티드, 또는 20 내지 50개 뉴클레오티드, 또는 특히 30개 뉴클레오티드 또는 100개 뉴클레오티드 길이로 수행될 수 있음을 이해할 것이다. 일부 구현예에서, 사전에 결정된 GC 함량 범위는 사용자가 선택할 수 있다. 또한, 이러한 특정 구현예는 임의의 길이의 최적화된 뉴클레오티드 서열로 수행될 수 있음을 이해할 것이다.

예를 들어, 최적화되지 않은 뉴클레오티드 서열 및 최적화된 뉴클레오티드 서열의 구아닌-시토신(GC) 함량의 분석은 EPO를 암호화하는 뉴클레오티드의 부분에 대해 수행될 수 있으며, 여기에서 EPO를 암호화하는 뉴클레오티드 서열의 부분의 구아닌-시토신(GC) 함량은, 인접한 중첩되지 않은 30개 뉴클레오티드 길이의 부분에 대해 결정된다. 도 11은 이러한 예시적인 분석을 도시한다.

예시적인 GC 함량 필터가 본원에 기술된다. 이는 단지 예시이며, 본원에 기술된 방법은 임의의 길이의 최적화된 뉴클레오티드 서열 및/또는 부분으로 수행될 수 있다는 것이 당업자에게 명백할 것이다. 예로서, 최적화된 뉴클레오티드 서열에 대해, 최적화된 뉴클레오티드 서열의 목록에서, 600개 뉴클레오티드의 길이를 갖는 부분 길이가 30개의 뉴클레오티드에서 선택될 수 있다. GC 함량 필터는 먼저 최적화된 뉴클레오티드 서열의 첫번째 30개의 뉴클레오티드, 즉 최적화된 뉴클레오티드 서열의 뉴클레오티드 1 내지 30을 분석할 수 있다. 분석은, G 또는 C 중 어느 하나를 갖는 부분에서의 뉴클레오티드의 수를 결정하는 단계를 포함할 수 있고, 해당 부분의 GC 함량을 결정하는 단계는 해당 부분에서의 G 또는 C 뉴클레오티드의 수를 해당 부분에서의 뉴클레오티드의 총 수로 나누는 단계를 포함할 수 있다. 이러한 분석의 결과는, G 또는 C인 부분에서의 뉴클레오티드의 비율, 예를 들어, 50%와 같은 백분율, 또는 예를 들어, 0.5와 같은 소수일 수 있는 값을 제공할 것이다. 제1 부분의 GC 함량이 사전에 결정된 GC 함량 범위를 벗어나는 경우, 해당 최적화된 뉴클레오티드 서열은 최적화된 뉴클레오티드 서열의 목록에서 제거될 수 있다.

제1 부분의 GC 함량이 사전에 결정된 GC 함량 범위 내에 속하는 경우, 이에 이어서 GC 함량 필터는 해당 최적화된 뉴클레오티드 서열의 제2 부분을 분석할 수 있다. 이러한 예에서, 이는 최적화된 뉴클레오티드 서열의 두번째 30개의 뉴클레오티드, 즉, 뉴클레오티드 31 내지 60일 수 있다. 부분의 분석은, GC 함량이 사전에 결정된 GC 함량 범위를 벗어나는 부분이 발견될 때까지 각 부분에 대해 반복될 수 있으며, 발견되는 경우 최적화된 뉴클레오티드 서열은 목록에서 제거될 수 있고, 또는 전체 최적화된 뉴클레오티드 서열이 분석되고 함량 범위를 벗어나는 부분이 발견되지 않은 경우, GC 함량 필터는 해당 목록에서의 최적화된 뉴클레오티드 서열을 유지하고 해당 목록에서의 그 다음 최적화된 뉴클레오티드 서열로 이동할 수 있다. 이러한 예에서, GC 함량 필터가 최적화된 뉴클레오티드 서열의 최종 부분, 즉 뉴클레오티드 571 내지 600에 도달하고, 이러한 최종 부분이 사전에 결정된 GC 함량 범위 내에 있는 GC 함량을 갖는 경우, GC 함량 필터는 최적화된 뉴클레오티드 서열을 목록에 유지하고, 목록의 다음 최적화된 뉴클레오티드 서열로 이동할 수 있다. 대안적으로, 특히, 각각의 부분은 100개 길이의 뉴클레오티드일 수 있다.

전술한 예는 제1 뉴클레오티드에서 시작하여 최종 뉴클레오티드로 진행하는 부분별 GC 함량 필터링을 기술하지만, 이는 단지 예시이며, 최적화된 뉴클레오티드 서열의 일부가 분석되는 순서는 임의의 순서일 수 있음을 당업자는 명백하게 이해할 것이다. GC 함량 필터는, 예를 들어, 최종 뉴클레오티드(실행된 예에서의, 뉴클레오티드 600)를 포함하는 부분에서 시작할 수 있고, 제1 뉴클레오티드, 뉴클레오티드 1을 향해 반대 방향으로 실행할 수 있거나, 제1 뉴클레오티드와 최종 뉴클레오티드 사이의 임의의 위치에서의 부분에서 시작할 수 있다.

코돈 적용 인덱스(CAI) 분석

일부 구현예에서, 코돈 적용 인덱스(CAI) 분석은 최적화된 뉴클레오티드 서열의 목록의 최적화된 뉴클레오티드 서열의 일부 또는 전부에 대해 수행될 수 있다. 이러한 구현예에서, 최적화된 뉴클레오티드 서열의 목록의 하나 이상의 최적화된 뉴클레오티드 서열은 각 서열의 CAI를 결정하도록 분석되며, 여기에서 CAI는 코돈 사용 편향의 척도이고 0 내지 1의 값을 가질 수 있다. 최적화된 뉴클레오티드 서열의 목록은 코돈 최적화 알고리즘에 의해 원래 생성된 최적화된 뉴클레오티드 서열의 목록일 수 있거나, 하나 이상의 추가 알고리즘 단계(들)에 의해 이미 필터링된 최적화된 뉴클레오티드 서열의 목록일 수 있다. 하나 이상의 추가 알고리즘 단계(들)에 의해 이미 필터링되었거나 업데이트된 최적화된 뉴클레오티드 서열의 목록은 최적화된 뉴클레오티드 서열의 업데이트된 목록 또는 가장 최근에 업데이트된 목록으로 지칭될 수 있다. 사전에 결정된 CAI 임계값 이하의 CAI를 갖는 임의의 최적화된 뉴클레오티드 서열은 업데이트된 목록을 생성하기 위해 해당 목록으로부터 제거될 수 있다.

일부 구현예에서, CAI 임계값은 사용자가 선택할 수 있다. 일부 구현예에서, CAI 임계값은 0.7, 0.75, 0.85 또는 0.9이다. 특정 구현예에서, CAI 임계값은 0.8이다.

CAI는, 예를 들어, "The codon adaptation index--a measure of directional synonymous codon usage bias, and its potential applications"((Sharp 및 Li, 1987 Nucleic Acids Research 15(3), p.1281-1295); https://www.ncbi.nlm.nih.gov/pmc/articles/PMC340524/에서 온라인 상으로 사용 가능함)에 기술된 바와 같이, 당업자에게 명백할 수 있는 임의의 방식으로, 각각의 최적화된 뉴클레오티드 서열에 대해 계산될 수 있다.

코돈 적용 인덱스 계산을 구현하는 단계는 다음에 따라, 또는 다음과 유사한 방법을 포함할 수 있다. 서열 내의 각 아미노산에 대해, 서열 내의 각각의 코돈의 중량은 상대 적용도(w_i)로 명명된 파라미터로 표현될 수 있다. 상대 적용도는, 코돈 f_i의 관찰된 빈도와 해당 아미노산에 대한 가장 빈번한 동종 코돈 f_j의 빈도 사이의 비율로서, 참조 서열 세트로부터 연산될 수 있다. 그런 다음, 서열의 코돈 적용 인덱스는 서열의 길이에 걸쳐 (코돈에서 측정된) 각 코돈에 연관된 중량의 기하 평균으로서 계산될 수 있다. 코돈 적용 인덱스를 계산하는 데 사용되는 참조 서열 세트는 본 발명의 방법과 함께 사용되는 코돈 사용 테이블이 유래되는 참조 서열 세트와 동일할 수 있다.

전술한 바와 같이, CAI 분석 필터는 본원에서 설명되는 바와 같이 부분별 분석으로 적용될 수 있다. 즉, 각각의 최적화된 뉴클레오티드 서열의 부분에 대한 CAI 측정치가 결정될 수 있고, 임의의 부분이 사전에 결정된 CAI 임계값 이하의 CAI를 갖는 경우, 해당 서열은 고려 대상에서 제거(즉, 목록에서 제거됨)될 수 있다. 이러한 방식으로 방법을 수행하는 것은 증가된 연산 효율 및 보다 선택적인 필터링 둘 모두를 달성한다.

추가 알고리즘 단계의 조합

도 7은 모티프 스크린 필터, GC 함량 분석 필터, 및 CAI 분석 필터 중 0개, 1개, 2개, 또는 3개가 최적화된 뉴클레오티드 서열의 목록에 임의의 순서로 적용될 수 있음을 도시한다. 각 필터는, 최적화된 뉴클레오티드 서열의 동일한 목록에 적용되고 동일한 입력 파라미터를 갖는 경우, 해당 목록에 동일한 효과를 갖기 때문에, 각각의 필터는 단 한 번만 사용될 수 있다. 예를 들어, 모티프 스크린 필터 및 GC 함량 분석 필터가 최적화된 뉴클레오티드 서열의 목록에 적용된 경우, 추가 모티프 스크린 필터 또는 추가 GC 함량 분석 필터를 최적화된 뉴클레오티드 서열의 업데이트된 목록에 적용하는 것은 효과를 갖지 않는다. 이는 두 필터 중 하나에서 걸러지는 해당 목록의 임의의 서열이 이미 제거되었기 때문이다. 또한, 최적화된 뉴클레오티드 서열의 목록에 필터가 적용되지 않는 본 발명의 구현예가 도 7에 도시되어 있다.

도 8은 단 하나의 필터가 최적화된 뉴클레오티드 서열의 목록에 적용되는, 본 발명의 구현예를 도시한다. 이러한 구현예에서, GC 함량 분석 필터가 선택되었지만, 이는 예시적인 것이며, 단 하나의 필터만이 바람직한 경우, 모티프 스크린 필터 또는 CAI 필터가 대안적으로 선택될 수 있다는 것이 명백할 것이다.

도 9는 2개의 필터만이 최적화된 뉴클레오티드 서열의 목록에 적용되는, 본 발명의 구현예를 도시한다. 이러한 구현예에서, 모티프 스크린 필터 및 CAI 분석 필터는 그 순서로 적용되었지만, 이는 예시적인 것이며, 단지 2개의 필터만이 바람직한 경우, 모티프 스크린 필터, GC 함량 분석 필터 및 CAI 분석 필터 중 임의의 2개가 임의의 순서로 적용될 수 있다는 것이 명백할 것이다. 도 9의 예에서, 모티프 스크린 필터는 최적화된 뉴클레오티드 서열의 업데이트된 목록을 생성하기 위해 최적화된 뉴클레오티드 서열에 적용된다. 최적화된 뉴클레오티드 서열의 업데이트된 목록이 CAI 분석 필터에 의해 추가로 필터링되기 전, 해당 목록은 최적화된 뉴클레오티드 서열의 가장 최근에 업데이트된 목록으로 지칭될 수 있다. 그런 다음, CAI 분석 필터는 최적화된 뉴클레오티드 서열의 업데이트된 목록 또는 추가로 업데이트된 목록을 생성하기 위해 최적화된 뉴클레오티드 서열의 가장 최근에 업데이트된 목록에 적용된다.

도 10은 3개의 필터가 최적화된 뉴클레오티드 서열의 목록에 적용되는, 본 발명의 특정 구현예를 도시한다. 이러한 특정 구현예에서, 모티프 스크린 필터, GC 함량 분석 필터, 및 CAI 분석 필터는 최적화된 뉴클레오티드 서열의 업데이트된 목록을 생성하기 위해 그 순서로 적용된다. 3개의 필터를 사용하는 대안적인 구현예에서,경우, 모티프 스크린 필터, GC 함량 분석 필터, 및 CAI 분석 필터는 임의의 순서로 적용될 수 있음이 명백할 것이다. 도 9와 유사하게, 각각의 필터 단계 사이, 즉, 모티프 스크린과 GC 함량 분석 필터 사이, 및 GC 함량 분석 및 CAI 분석 필터 사이에서, 최적화된 뉴클레오티드 서열의 목록은 최적화된 뉴클레오티드 서열의 가장 최근에 업데이트된 목록(도 10에는 도시되지 않음)으로 지칭될 수 있다. 도 8 및 도 9의 예시적인 구현예에서와 같이, 필터링 단계 중 어느 하나 또는 그 모두의 종료 시 생성된 최적화된 뉴클레오티드 서열의 업데이트된 목록의 서열은, 후속적으로 본원에 기술된 합성 방법 중 어느 하나에 따라 합성될 수 있다.

추가 알고리즘 단계 중 2개 이상의 필터링은 시너지 효과가 있을 수 있다. 이는, 각각의 추가 알고리즘 단계에 대한 입력이 최적화된 뉴클레오티드 서열의 가장 최근에 업데이트된 목록, 즉 이미 필터링된 서열의 목록일 수 있기 때문에 달성된다. 이는 추가 필터링 단계를 수행하기 위한 프로세싱 및 시간 요건을 감소시키는데, 이는 분석해야 할 서열이 해당 목록에 그만큼 많지 않아서 방법의 효율을 증가시키기 때문이다.

인접하는 동일한 코돈

일부 구현예에서, 최적화된 뉴클레오티드 서열의 목록의 최적화된 뉴클레오티드 서열의 일부 또는 전부는, 적어도 2개, 예를 들어 3개 또는 그 이상의 인접한 동일한 코돈을 갖는 최적화된 뉴클레오티드 서열을 결정하도록 분석될 수 있다. 이러한 추가 알고리즘 단계는 유일한 추가 알고리즘 단계일 수 있거나, 모티프 스크린, GC 함량 분석, 및 CAI 분석 중 하나 이상의 전 또는 후에 수행될 수 있다. 분석은 본원에 상세히 기술된 바와 같이, 각각의 최적화된 뉴클레오티드 서열에 대해 부분별로 수행될 수 있다.

예를 들어, 소정의 최적화된 뉴클레오티드 서열은 다음을 포함하는 섹션을 함유하는지에 대해 분석되고 결정될 수 있다: CAGCAGCAG. 소정의 반복된 코돈을 함유하는 이러한 섹션은 전사를 정지시킬 수 있으므로, 해당 서열은 목록에서 제거된다.

일부 구현예에서, 인접 희귀도 임계값은 희귀 코돈을 결정하는 데 사용되며, 여기에서 인접 희귀도 임계값 미만의 코돈은 희귀 코돈으로 간주된다. 희귀 코돈은 정규화된 코돈 사용 테이블의 사용 빈도를 인접 희귀도 임계값과 비교함으로써 식별될 수 있다. 이러한 방식으로, 인접 희귀도 임계값은, 정규화된 코돈 사용 테이블에 포함되도록 임계 빈도보다 더 큰 사용을 갖는 코돈을 식별하지만, 그럼에도 불구하고 정규화된 코돈 사용 테이블의 코돈 중에서 비교적 희귀하다. 일부 구현예에서, 희귀한 인접하는 동일한 코돈만이, 최적화된 뉴클레오티드 서열이 최적화된 뉴클레오티드 서열의 목록에서 제거되도록 한다.

인접 희귀도 임계값은 10 내지 50%, 예를 들어 15 내지 40%, 예를 들어 20 내지 30%일 수 있고, 코돈 사용 테이블을 정규화하는 데 사용되는 임계 빈도에 따라 달라질 것이다. 임계 빈도 미만의 사용 빈도를 갖는 임의의 코돈은 정규화된 코돈 사용 테이블에 나타나지 않기 때문에, 효과를 갖기 위해서는, 인접 희귀도 임계값은 임계 빈도보다 커야 한다.

전술한 바와 동일하지만, 희귀한 인접하는 동일한 코돈에 대해서만 필터링함으로써, CAG가 인접 희귀도 임계값 이상의 빈도로 정규화된 코돈 사용 테이블에 나타나는 경우, CAGCAGCAG를 함유하는 서열은 해당 목록에서 제거되지 않을 것이다. 대신, CAG가 인접 희귀도 임계값 미만의 빈도로 정규화된 코돈 사용 테이블에 나타나는 경우, CAGCAGCAG를 함유하는 서열은 해당 목록에서 제거될 것이다.

선택적으로 희귀한 인접한 동일한 코돈을 포함하는, 인접한 동일한 코돈에 대한 필터는 최적화된 뉴클레오티드 서열의 목록이 생성된 후의 임의의 단계에서 적용될 수 있다. 즉, 선택적으로 희귀한 인접하는 동일한 코돈을 포함하는, 인접하는 동일한 코돈에 대한 필터는 임의의 순서로 수행되는 단계를 사용하는 임의의 다른 추가 알고리즘 단계에서 적용될 수 있다.

최적화된 뉴클레오티드 서열의 합성 및 발현

추가의 양태에서, 본 발명은 뉴클레오티드 서열을 합성하기 위한 방법을 제공하며, 방법은, 적어도 하나의 최적화된 뉴클레오티드 서열을 생성하기 위해 본 발명의 컴퓨터-구현 방법을 수행하는 단계; 및 생성된 최적화된 뉴클레오티드 서열 중 적어도 하나를 합성하는 단계를 포함한다. 시험관 내 합성(통상적으로 "시험관 내 전사"로도 지칭됨)은, 프로모터, 리보뉴클레오티드 삼인산염의 풀, DTT 및 마그네슘 이온을 포함할 수 있는 완충제 시스템, 및 적절한 RNA 중합효소(예를 들어, T3, T7, 또는 SP6 RNA 중합효소)와 같은 핵산 벡터, DNase I, 파이로포스파타아제 및/또는 RNase 억제제로 수행될 수 있다. 정확한 조건은 특정 응용예에 따라 달라질 것이다.

일부 구현예에서, 본 발명의 방법에 의해 합성된 최적화된 DNA 서열은 시험관 내 전사를 위해 핵산 벡터에 삽입된다. 일부 구현예에서, 핵산 벡터는 플라스미드이다. 용어 '플라스미드' 또는 '플라스미드 핵산 벡터'는 원형 핵산 분자, 예를 들어 인공 핵산 분자를 지칭한다. 본 발명의 맥락에서의 플라스미드 DNA는 원하는 핵산 서열, 예컨대 mRNA 전사체를 암호화하는 서열 및/또는 적어도 하나의 단백질, 폴리펩티드, 또는 펩티드를 암호화하는 개방 해독 프레임을 포함하는 핵산 서열을 혼입하거나 보유하는 데 적합하다. 이러한 플라스미드 DNA 작제물/벡터는 발현 벡터, 클로닝 벡터, 전달 벡터 등일 수 있다.

핵산 벡터는 일반적으로, 원하는 mRNA 전사체에 상응하는 (이를 암호화하는) 서열 또는 이의 일부분, 예컨대 mRNA의 개방 해독 프레임 및 5'- 및/또는 3' UTR에 상응하는 서열을 포함한다. 일부 구현예에서, 원하는 mRNA 전사체에 상응하는 서열은 또한 3' UTR 뒤에 있는 폴리A-꼬리를 암호화하여 폴리A-꼬리를 mRNA 전사체과 함께 포함할 수 있다. 본 발명의 맥락에서 보다 일반적으로, 원하는 mRNA 전사체에 상응하는 서열은 5'/3' UTR 및 개방 해독 프레임으로 이루어진다. 본 발명의 일부 구현예에서, 시험관 내 전사 동안 핵산 벡터로부터 합성된 mRNA 전사체는 폴리A 꼬리를 함유하지 않는다. 폴리A 꼬리는 합성 후 프로세싱 단계에서 mRNA 전사체에 첨가될 수 있다.

일부 구현예에서, 핵산 벡터는 최적화된 뉴클레오티드 서열에 작동 가능하게 연결된 5' UTR을 암호화하는 뉴클레오티드 서열을 포함한다. 특정 구현예에서, 5' UTR은 아미노산 서열을 암호화하는 자연 발생 mRNA의 5' UTR과 상이하다. 특정 구현예에서, 5' UTR은 서열번호 19의 뉴클레오티드 서열을 갖는다.

일부 구현예에서, 핵산 벡터는 최적화된 뉴클레오티드 서열에 작동 가능하게 연결된 3' UTR을 암호화하는 뉴클레오티드 서열을 포함한다. 특정 구현예에서, 3' UTR은 아미노산 서열을 암호화하는 자연 발생 mRNA의 3' UTR과 상이하다. 특정 구현예에서, 3' UTR은 서열번호 20 또는 서열번호 21의 뉴클레오티드 서열을 갖는다.

예를 들어, 본 발명의 뉴클레오티드 서열은 5' UTR, 최적화된 뉴클레오티드 서열, 및 3' UTR(및 선택적으로 최적화된 뉴클레오티드 서열의 3' 말단에서의 하나 이상의 종결 신호)을 포함하는 핵산 벡터로부터 합성되어, 5' UTR, 최적화된 뉴클레오티드 서열, 및 3' UTR을 포함하는 mRNA를 생성할 수 있다.

일부 구현예에서, 핵산 벡터는 프로모터 서열, 예를 들어, T3, T7 또는 SP6 RNA 중합효소 프로모터 서열과 같은 RNA 중합효소 프로모터 서열을 포함한다.

일부 구현예에서, 핵산 벡터는 합성된 최적화된 뉴클레오티드 서열의 3' 말단의 하류에 하나 이상의 종결 신호(예를 들어, 2개 또는 3개의 종결 신호)를 포함한다. 일부 구현예에서, 방법은 합성된 최적화된 뉴클레오티드 서열의 3' 말단에 하나 이상의 종결 신호를 삽입하는 단계를 추가로 포함한다. 일부 구현예에서, 하나 이상의 종결 신호가 삽입되고, 전술한 종결 신호는 10개 이하의 염기쌍만큼, 예를 들어 5 내지 10개의 염기쌍만큼 이격된다. 최적화된 뉴클레오티드 서열의 하류에 하나 이상의 종결 신호를 첨가하는 것은, RNA가 최적화된 뉴클레오티드 서열을 포함하는 플라스미드 DNA로부터 전사됨에 따라 효율적인 전사 종결을 용이하게 하여, 하나 이상의 종결 신호에서의 시험관 내 전사의 표적화된 종결을 야기하고, 이에 따라 비정상적인 런-온(run-on) 전사를 제한한다. 일부 구현예에서, 핵산 벡터는 2개 이상의 종결 신호, 예를 들어, 2개 이상, 3개 이상, 또는 4개 이상의 종결 신호를 포함할 수 있다. 다수의 종결 신호의 존재는 표적화된 부위에서의 시험관 내 전사의 종결 효율을 향상시킨다.

일부 구현예에서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열을 갖는다: 5'-X₁ATCTX₂TX₃-3'(여기에서, X₁, X₂, 및 X₃은 A, C, T, 또는 G로부터 독립적으로 선택됨). 일부 구현예에서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열 중 하나를 갖는다: TATCTGTT; 및/또는 TTTTTT; 및/또는 AAGCTT; 및/또는 GAAGAGC; 및/또는 TCTAGA. 일부 구현예에서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열을 갖는다: 5'-X₁AUCUX₂UX₃-3'(여기에서, X₁, X₂ 및 X₃은 A, C, U 또는 G로부터 독립적으로 선택됨). 일부 구현예에서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열 중 하나를 갖는다: UAUCUGUU; 및/또는 UUUUUU; 및/또는 AAGCUU; 및/또는 GAAGAGC; 및/또는 UCUAGA. 일부 구현예에서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열에 의해 암호화된다:(a) 5'-X₁ATCTX₂TX₃-(Z_N)- X₄ATCTX₅TX₆-3' 또는 (b) 5'-X₁ATCTX₂TX₃-(Z_N)- X₄ATCTX₅TX₆-(Z_M)- X₇ATCTX₈TX₉-3', 여기에서, X₁, X₂, X₃, X₄, X₅, X₆, X₇, X₈, 및 X₉는 A, C, T, 또는 G로부터 선택되고, Z_N은 N 뉴클레오티드의 스페이서 서열을 나타내고, Z_M은 M 뉴클레오티드의 스페이서 서열을 나타내되, 이들 각각은 A, C, T, 또는 G로부터 독립적으로 선택되고, N 및/또는 M은 독립적으로 10 이하이다.

따라서, 본 발명의 특정 구현예에서, 합성된 최적화된 뉴클레오티드 서열의 3' 말단의 하류에서의 하나 이상의 종결 신호(예를 들어, 2개 또는 3개의 종결 신호)를 포함하는 플라스미드 DNA는 시험관 내 전사를 위한 선형화를 필요로 하지 않는다. 구체적으로, 본 발명은 시험관 내 전사를 위해 SP6/T7 RNA 중합효소를 사용하여 플라스미드 DNA(일반적으로 초나선형임)와 같은 원형 핵산 벡터로부터 mRNA 전사체을 생산하는 것을 가능하게 한다.

SP6 RNA 중합효소

일부 구현예에서, mRNA는 SP6 RNA 중합효소에 의해 합성된다. 일부 구현예에서, SP6 RNA 중합효소는 자연 발생 SP6 RNA 중합효소이다. 일부 구현예에서, SP6 RNA 중합효소는 재조합 SP6 RNA 중합효소이다. 일부 구현예에서, SP6 RNA 중합효소는 태그를 포함한다. 태그는 단백질 검출 또는 정제를 용이하게 하는 데 사용될 수 있다. 일부 구현예에서, 태그는, 예를 들어, Ni-NTA 친화도 크로마토그래피로 정제하는 데 사용될 수 있는 his-태그이다.

SP6 RNA 중합효소는 SP6 프로모터 서열에 대한 높은 서열 특이성을 갖는 DNA-의존성 RNA 중합효소이다. 일반적으로, 이러한 중합효소는 그의 프로모터로부터 하류에 있는 단일-가닥 DNA 또는 이중-가닥 DNA 상에서 5'에서 3'으로 RNA의 시험관 내 합성을 촉매하고; 고유 리보뉴클레오티드 및/또는 변형된 리보뉴클레오티드를 중합된 전사체 내에 혼입한다.

박테리오파지 SP6 RNA 중합효소에 대한 서열은 처음에는 다음의 아미노산 서열을 갖는 것으로 기술되었다(GenBank: Y00105.1):

MQDLHAIQLQLEEEMFNGGIRRFEADQQRQIAAGSESDTAWNRRLLSELIAPMAEGIQAYKEEYEGKKGRAPRALAFLQCVENEVAAYITMKVVMDMLNTDATLQAIAMSVAERIEDQVRFSKLEGHAAKYFEKVKKSLKASRTKSYRHAHNVAVVAEKSVAEKDADFDRWEAWPKETQLQIGTTLLEILEGSVFYNGEPVFMRAMRTYGGKTIYYLQTSESVGQWISAFKEHVAQLSPAYAPCVIPPRPWRTPFNGGFHTEKVASRIRLVKGNREHVRKLTQKQMPKVYKAINALQNTQWQINKDVLAVIEEVIRLDLGYGVPSFKPLIDKENKPANPVPVEFQHLRGRELKEMLSPEQWQQFINWKGECARLYTAETKRGSKSAAVVRMVGQARKYSAFESIYFVYAMDSRSRVYVQSSTLSPQSNDLGKALLRFTEGRPVNGVEALKWFCINGANLWGWDKKTFDVRVSNVLDEEFQDMCRDIAADPLTFTQWAKADAPYEFLAWCFEYAQYLDLVDEGRADEFRTHLPVHQDGSCSGIQHYSAMLRDEVGAKAVNLKPSDAPQDIYGAVAQVVIKKNALYMDADDATTFTSGSVTLSGTELRAMASAWDSIGITRSLTKKPVMTLPYGSTRLTCRESVIDYIVDLEEKEAQKAVAEGRTANKVHPFEDDRQDYLTPGAAYNYMTALIWPSISEVVKAPIVAMKMIRQLARFAAKRNEGLMYTLPTGFILEQKIMATEMLRVRTCLMGDIKMSLQVETDIVDEAAMMGAAAPNFVHGHDASHLILTVCELVDKGVTSIAVIHDSFGTHADNTLTLRVALKGQMVAMYIDGNALQKLLEEHEVRWMVDTGIEVPEQGEFDLNEIMDSEYVFA (서열번호 1)

본 발명에 적합한 SP6 RNA 중합효소는 박테리오파지 SP6 RNA 중합효소와 실질적으로 동일한 중합효소 활성을 갖는 임의의 효소일 수 있다. 따라서, 일부 구현예에서, 본 발명에 적합한 SP6 RNA 중합효소는 서열번호 1로부터 변형될 수 있다. 예를 들어, 적합한 SP6 RNA 중합효소는 하나 이상의 아미노산 치환, 결실, 또는 추가를 함유할 수 있다. 일부 구현예에서, 적합한 SP6 RNA 중합효소는 서열번호 1과 약 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 89%, 88%, 87%, 86%, 85%, 84%, 83%, 82%, 81%, 80%, 75%, 70%, 65%, 또는 60% 동일하거나 상동성인 아미노산 서열을 갖는다. 일부 구현예에서, 적합한 SP6 RNA 중합효소는 (N-말단, C-말단, 또는 내부적으로) 절단되었지만 중합효소 활성을 유지하는 단백질일 수 있다. 일부 구현예에서, 적합한 SP6 RNA 중합효소는 융합 단백질이다.

일부 구현예에서, SP6 RNA 중합효소는 다음의 뉴클레오티드 서열을 갖는 유전자에 의해 암호화된다:

ATGCAAGATTTACACGCTATCCAGCTTCAATTAGAAGAAGAGATGTTTAATGGTGGCATTCGTCGCTTCGAAGCAGATCAACAACGCCAGATTGCAGCAGGTAGCGAGAGCGACACAGCATGGAACCGCCGCCTGTTGTCAGAACTTATTGCACCTATGGCTGAAGGCATTCAGGCTTATAAAGAAGAGTACGAAGGTAAGAAAGGTCGTGCACCTCGCGCATTGGCTTTCTTACAATGTGTAGAAAATGAAGTTGCAGCATACATCACTATGAAAGTTGTTATGGATATGCTGAATACGGATGCTACCCTTCAGGCTATTGCAATGAGTGTAGCAGAACGCATTGAAGACCAAGTGCGCTTTTCTAAGCTAGAAGGTCACGCCGCTAAATACTTTGAGAAGGTTAAGAAGTCACTCAAGGCTAGCCGTACTAAGTCATATCGTCACGCTCATAACGTAGCTGTAGTTGCTGAAAAATCAGTTGCAGAAAAGGACGCGGACTTTGACCGTTGGGAGGCGTGGCCAAAAGAAACTCAATTGCAGATTGGTACTACCTTGCTTGAAATCTTAGAAGGTAGCGTTTTCTATAATGGTGAACCTGTATTTATGCGTGCTATGCGCACTTATGGCGGAAAGACTATTTACTACTTACAAACTTCTGAAAGTGTAGGCCAGTGGATTAGCGCATTCAAAGAGCACGTAGCGCAATTAAGCCCAGCTTATGCCCCTTGCGTAATCCCTCCTCGTCCTTGGAGAACTCCATTTAATGGAGGGTTCCATACTGAGAAGGTAGCTAGCCGTATCCGTCTTGTAAAAGGTAACCGTGAGCATGTACGCAAGTTGACTCAAAAGCAAATGCCAAAGGTTTATAAGGCTATCAACGCATTACAAAATACACAATGGCAAATCAACAAGGATGTATTAGCAGTTATTGAAGAAGTAATCCGCTTAGACCTTGGTTATGGTGTACCTTCCTTCAAGCCACTGATTGACAAGGAGAACAAGCCAGCTAACCCGGTACCTGTTGAATTCCAACACCTGCGCGGTCGTGAACTGAAAGAGATGCTATCACCTGAGCAGTGGCAACAATTCATTAACTGGAAAGGCGAATGCGCGCGCCTATATACCGCAGAAACTAAGCGCGGTTCAAAGTCCGCCGCCGTTGTTCGCATGGTAGGACAGGCCCGTAAATATAGCGCCTTTGAATCCATTTACTTCGTGTACGCAATGGATAGCCGCAGCCGTGTCTATGTGCAATCTAGCACGCTCTCTCCGCAGTCTAACGACTTAGGTAAGGCATTACTCCGCTTTACCGAGGGACGCCCTGTGAATGGCGTAGAAGCGCTTAAATGGTTCTGCATCAATGGTGCTAACCTTTGGGGATGGGACAAGAAAACTTTTGATGTGCGCGTGTCTAACGTATTAGATGAGGAATTCCAAGATATGTGTCGAGACATCGCCGCAGACCCTCTCACATTCACCCAATGGGCTAAAGCTGATGCACCTTATGAATTCCTCGCTTGGTGCTTTGAGTATGCTCAATACCTTGATTTGGTGGATGAAGGAAGGGCCGACGAATTCCGCACTCACCTACCAGTACATCAGGACGGGTCTTGTTCAGGCATTCAGCACTATAGTGCTATGCTTCGCGACGAAGTAGGGGCCAAAGCTGTTAACCTGAAACCCTCCGATGCACCGCAGGATATCTATGGGGCGGTGGCGCAAGTGGTTATCAAGAAGAATGCGCTATATATGGATGCGGACGATGCAACCACGTTTACTTCTGGTAGCGTCACGCTGTCCGGTACAGAACTGCGAGCAATGGCTAGCGCATGGGATAGTATTGGTATTACCCGTAGCTTAACCAAAAAGCCCGTGATGACCTTGCCATATGGTTCTACTCGCTTAACTTGCCGTGAATCTGTGATTGATTACATCGTAGACTTAGAGGAAAAAGAGGCGCAGAAGGCAGTAGCAGAAGGGCGGACGGCAAACAAGGTACATCCTTTTGAAGACGATCGTCAAGATTACTTGACTCCGGGCGCAGCTTACAACTACATGACGGCACTAATCTGGCCTTCTATTTCTGAAGTAGTTAAGGCACCGATAGTAGCTATGAAGATGATACGCCAGCTTGCACGCTTTGCAGCGAAACGTAATGAAGGCCTGATGTACACCCTGCCTACTGGCTTCATCTTAGAACAGAAGATCATGGCAACCGAGATGCTACGCGTGCGTACCTGTCTGATGGGTGATATCAAGATGTCCCTTCAGGTTGAAACGGATATCGTAGATGAAGCCGCTATGATGGGAGCAGCAGCACCTAATTTCGTACACGGTCATGACGCAAGTCACCTTATCCTTACCGTATGTGAATTGGTAGACAAGGGCGTAACTAGTATCGCTGTAATCCACGACTCTTTTGGTACTCATGCAGACAACACCCTCACTCTTAGAGTGGCACTTAAAGGGCAGATGGTTGCAATGTATATTGATGGTAATGCGCTTCAGAAACTACTGGAGGAGCATGAAGTGCGCTGGATGGTTGATACAGGTATCGAAGTACCTGAGCAAGGGGAGTTCGACCTTAACGAAATCATGGATTCTGAATACGTATTTGCCTAA (서열번호 2).

본 발명에 적합한 SP6 RNA 중합효소를 암호화하는 적절한 유전자는 서열번호 2와 약 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 89%, 88%, 87%, 86%, 85%, 84%, 83%, 82%, 81%, 또는 80% 동일하거나, 이와 상동성일 수 있다.

본 발명에 적합한 SP6 RNA 중합효소는, 예를 들어 Ambion, New England Biolabs(NEB), Promega, 및 Roche로부터 상업적으로 이용가능한 제품일 수 있다. SP6은 본원에 기술된 것과 같은 서열번호 1의 아미노산 서열 또는 서열번호 1의 변이체에 따라 상업적 공급원 또는 비상업적 공급원에 주문 및/또는 맞춤 설계를 의뢰할 수 있다. SP6 RNA 중합효소는 표준 충실도 중합효소이거나, RNA 중합효소 활성을 촉진하도록 변형된 (예를 들어 SP6 RNA 중합효소 유전자에서의 돌연변이 또는 SP6 RNA 중합효소 자체의 번역후 변형) 고-충실도/고효율/고용량 중합체일 수 있다. 변형된 이러한 SP6의 예는 Ambion의 SP6 RNA Polymerase-Plus??, NEB의 HiScribe SP6, 및 Promega의 RiboMAX?? 및 Riboprobe^® 시스템을 포함한다.

일부 구현예에서, SP6 RNA 중합효소는 열안정성이다. 특정 구현예에서, 본 발명과 함께 사용하기 위한 SP6 RNA 중합효소의 아미노산 서열은 37℃내지 56℃의 온도 범위에서 효소를 활성 상태로 만드는 야생형 SP6 중합효소에 대해 상대적으로 하나 이상의 돌연변이를 함유한다. 일부 구현예에서, 본 발명과 함께 사용하기 위한 SP6 RNA 중합효소는 50℃ 내지 52℃의 최적 온도에서 작용한다. 다른 구현예에서, 본 발명과 함께 사용하기 위한 SP6 RNA 중합효소는 50℃에서 적어도 60분의 반감기를 갖는다. 예를 들어, 본 발명과 함께 사용하기에 특히 적합한 SP6 RNA 중합효소는 50℃에서 60분 내지 120분(예를 들어 70분 내지 100분, 또는 80분 내지 90분)의 반감기를 갖는다.

일부 구현예에서, 적합한 SP6 RNA 중합효소는 융합 단백질이다. 예를 들어, SP6 RNA 중합효소는 단리, 정제, 또는 효소의 가용성을 촉진하는 하나 이상의 태그를 포함할 수 있다. 적합한 태그는 N-말단, C-말단, 및/또는 내부에 위치할 수 있다. 적합한 태그의 비제한적인 예는 칼모둘린-결합 단백질(CBP); 간질(Fasciola hepatica) 8-kDa 항원(Fh8); FLAG 태그 펩티드; 글루타티온-S-트랜스퍼라아제(GST); 히스티딘 태그(예를 들어, 헥사히스티딘 태그(His6)); 말토오스-결합 단백질(MBP); N-활용 물질(NusA); 작은 유비틴 관련 개질제(SUMO) 융합 태그; 스트렙트아비딘 결합 펩티드(STREP); 탠덤 친화도 정제(TAP); 및 티오레독신(TrxA)을 포함한다. 다른 태그가 본 발명에 사용될 수 있다. 이들 및 다른 융합 태그는, 예를 들어 그 전체가 참조로서 본원에 통합된 Costa 등의 문헌[Frontiers in Microbiology 5 (2014): 63] 및 PCT/US16/57044에 기술되어 있다. 일부 구현예에서, His 태그는 SP6의 N-말단에 위치한다.

SP6 프로모터

SP6 RNA 중합효소에 의해 인식될 수 있는 임의의 프로모터가 본 발명에 사용될 수 있다. 일반적으로, SP6 프로모터는 5' ATTTAGGTGACACTATAG-3'(서열번호 3)을 포함한다. SP6 프로모터의 변이체는 SP6의 프로모터에 대한 SP6의 인식 및/또는 결합을 최적화하기 위해 발견 및/또는 생성한 것이다. 비제한적인 변이체는 다음을 포함하지만 이에 한정되지는 않는다:

5'-ATTTAGGGGACACTATAGAAGAG-3';

5'-ATTTAGGGGACACTATAGAAGG-3';

5'-ATTTAGGGGACACTATAGAAGGG-3';

5'-ATTTAGGTGACACTATAGAA-3';

5'-ATTTAGGTGACACTATAGAAGA-3';

5'-ATTTAGGTGACACTATAGAAGAG-3';

5'-ATTTAGGTGACACTATAGAAGG-3';

5'-ATTTAGGTGACACTATAGAAGGG-3';

5'-ATTTAGGTGACACTATAGAAGNG-3'; 및

5'-CATACGATTTAGGTGACACTATAG-3'(서열번호 4 내지 서열번호 13). 여기에서, N은 뉴클레오티드 서열에 사용되고, N은 A, C, T 또는 G이다.

또한, 본 발명에 적합한 SP6 프로모터는 서열번호 4 내지 서열번호 13 중 어느 하나와 약 95%, 90%, 85%, 80%, 75%, 또는 70% 동일하거나 이와 상동성일 수 있다. 또한, 본 발명에 적합한 SP6 프로모터는 본원에 기술된 프로모터 서열 중 어느 하나에 대한 5' 및/또는 3'에서 하나 이상의 추가 뉴클레오티드를 포함할 수 있다.

T7 RNA 중합효소

일부 구현예에서, mRNA는 T7 RNA 중합효소에 의해 합성된다.

T7 RNA 중합효소는 T7 프로모터 서열에 대해 높은 서열 특이성을 갖는 DNA-의존성 RNA 중합효소이다. 일반적으로, 이러한 중합효소는 그의 프로모터로부터 하류에 있는 단일-가닥 DNA 또는 이중-가닥 DNA 상에서 5'에서 3'으로 RNA의 시험관 내 합성을 촉매하고; 고유 리보뉴클레오티드 및/또는 변형된 리보뉴클레오티드를 중합된 전사체 내에 혼입한다.

일부 구현예에서, T7 RNA 중합효소는 열안정성이다. 특정 구현예에서, 본 발명과 함께 사용하기 위한 T7 RNA 중합효소의 아미노산 서열은 37℃내지 56℃의 온도 범위에서 효소를 활성 상태로 만드는 야생형 T7 중합효소에 대해 상대적으로 하나 이상의 돌연변이를 함유한다. 적합한 RNA 중합효소에 대한 예는 NEB의 Hi-T7® RNA 중합효소이다. 일부 구현예에서, 본 발명과 함께 사용하기 위한 T7 RNA 중합효소는 50℃내지 52℃의 최적 온도에서 작용한다. 다른 구현예에서, 본 발명과 함께 사용하기 위한 T7 RNA 중합효소는 50℃에서 적어도 60분의 반감기를 갖는다. 예를 들어, 본 발명과 함께 사용하기에 특히 적합한 T7 RNA 중합효소는 50℃에서 60분 내지 120분(예를 들어 70분 내지 100분, 또는 80분 내지 90분)의 반감기를 갖는다.

T7 프로모터

T7 RNA 중합효소에 의해 인식될 수 있는 임의의 프로모터가 본원에 기술된 발명에 사용될 수 있다. 일반적으로, T7 프로모터는 5'-TAATACGACTCACTATAG-3'(서열번호 14)을 포함한다.

합성 후 프로세싱

일부 구현예에서, 본 발명의 방법은 합성된 mRNA를 캡핑 및/또는 테일링하는 별도의 단계를 추가로 포함한다.

일반적으로, 5' 캡 및/또는 3' 꼬리가 합성 후에 첨가될 수 있다. 캡의 존재는 대부분의 진핵세포에서 발견되는 뉴클레아제에게 내성을 제공하는 데 있어서 중요하다. "꼬리"의 존재는 엑소뉴클레아제 분해로부터 mRNA를 보호하는 역할을 한다.

5' 캡은 전형적으로 다음과 같이 추가된다: 우선, RNA 말단 인산가수분해효소가 5' 뉴클레오티드로부터 말단 인산기 중 하나를 제거하고, 2개의 말단 인산기를 남긴다; 그런 다음, 구아노신 삼인산(GTP)이 구아닐릴 전이효소를 통해 말단 인산에 첨가되고 5'5'5 삼인산 결합을 생성한다; 그런 다음 구아닌의 7-질소가 메틸기 전이효소에 의해 메틸화된다. 캡 구조의 예는 tom7G(5')ppp(5')(2'OMeG), m7G(5')ppp(5')(2'OMeA), m7(3'OMeG)(5')ppp(5')(2'OMeG), m7(3'OMeG)(5')ppp(5')(2'OMeA), m7G(5')ppp (5'(A,G(5')ppp(5')A 및 G(5')ppp(5')G를 포함하나 이에 한정되지 않는다. 특정 구현예에서, 캡 구조는 m7G(5')ppp(5')(2'OMeG)이다. 추가적인 캡 구조는 공개된 미국 특허 출원 US 제2016/0032356호 및 2017년 2월 27에 출원된 미국 특허 가출원 제62/464,327호에 기술되어 있으며, 이들은 참조로서 본원에 통합된다.

일반적으로, 꼬리 구조는 폴리(A) 및/또는 폴리(C) 꼬리를 포함한다. mRNA의 3' 말단에 있는 폴리-A 꼬리 또는 폴리-C 꼬리는 각각 적어도 50개의 아데노신 또는 시토신 뉴클레오티드, 적어도 150개의 아데노신 또는 시토신 뉴클레오티드, 적어도 200개의 아데노신 또는 시토신 뉴클레오티드, 적어도 250개의 아데노신 또는 시토신 뉴클레오티드, 적어도 300개의 아데노신 또는 시토신 뉴클레오티드, 적어도 350개의 아데노신 또는 시토신 뉴클레오티드, 적어도 400개의 아데노신 또는 시토신 뉴클레오티드, 적어도 450개의 아데노신 또는 시토신 뉴클레오티드, 적어도 500개의 아데노신 또는 시토신 뉴클레오티드, 적어도 550개의 아데노신 또는 시토신 뉴클레오티드, 적어도 600개의 아데노신 또는 시토신 뉴클레오티드, 적어도 650개의 아데노신 또는 시토신 뉴클레오티드, 적어도 700개의 아데노신 또는 시토신 뉴클레오티드, 적어도 750개의 아데노신 또는 시토신 뉴클레오티드, 적어도 800개의 아데노신 또는 시토신 뉴클레오티드, 적어도 850개의 아데노신 또는 시토신 뉴클레오티드, 적어도 900개의 아데노신 또는 시토신 뉴클레오티드, 적어도 950개의 아데노신 또는 시토신 뉴클레오티드, 또는 적어도 1kb의 아데노신 또는 시토신 뉴클레오티드를 일반적으로 포함한다. 일부 구현예에서, 폴리-A 꼬리 또는 폴리-C 꼬리는 각각 약 10 내지 800개의 아데노신 또는 시토신 뉴클레오티드(예컨대, 약 10 내지 200개의 아데노신 또는 시토신 뉴클레오티드, 약 10 내지 300개의 아데노신 또는 시토신 뉴클레오티드, 약 10 내지 400개의 아데노신 또는 시토신 뉴클레오티드, 약 10 내지 500개의 아데노신 또는 시토신 뉴클레오티드, 약 10 내지 550개의 아데노신 또는 시토신 뉴클레오티드, 약 10 내지 600개의 아데노신 또는 시토신 뉴클레오티드, 약 50 내지 600개의 아데노신 또는 시토신 뉴클레오티드, 약 100 내지 600개의 아데노신 또는 시토신 뉴클레오티드, 약 150 내지 600개의 아데노신 또는 시토신 뉴클레오티드, 약 200 내지 600개의 아데노신 또는 시토신 뉴클레오티드, 약 250 내지 600개의 아데노신 또는 시토신 뉴클레오티드, 약 300 내지 600개의 아데노신 또는 시토신 뉴클레오티드, 약 350 내지 600개의 아데노신 또는 시토신 뉴클레오티드, 약 400 내지 600개의 아데노신 또는 시토신 뉴클레오티드, 약 450 내지 600개의 아데노신 또는 시토신 뉴클레오티드, 약 500 내지 600개의 아데노신 또는 시토신 뉴클레오티드, 약 10 내지 150개의 아데노신 또는 시토신 뉴클레오티드, 약 10 내지 100개의 아데노신 또는 시토신 뉴클레오티드, 약 20 내지 70개의 아데노신 또는 시토신 뉴클레오티드, 또는 약 20 내지 60개의 아데노신 또는 시토신 뉴클레오티드)일 수 있다. 일부 구현예에서, 꼬리 구조는 본원에서 설명된 다양한 길이를 갖는 폴리(A) 및 폴리(C) 꼬리의 조합을 포함한다. 일부 구현예에서, 꼬리 구조는 적어도 50%, 55%, 65%, 70%, 75%, 80%, 85%, 90%, 92%, 94%, 95%, 96%, 97%, 98%, 또는 99% 아데노신 뉴클레오티드를 포함한다. 일부 구현예에서, 꼬리 구조는 적어도 50%, 55%, 65%, 70%, 75%, 80%, 85%, 90%, 92%, 94%, 95%, 96%, 97%, 98%, 또는 99%의 시토신 뉴클레오티드를 포함한다.

본원에 기술된 바와 같이, 5' 캡 및/또는 3' 꼬리의 첨가는 시험관 내 합성 동안 생성된 불현 전사체의 검출을 용이하게 하는데, 이는 캡핑 및/또는 테일링이 없을 때, 조기 불현성 mRNA 전사체들의 크기가 너무 작아 검출될 수 없기 때문이다. 따라서, 일부 구현예에서, 5' 캡 및/또는 3' 꼬리가 합성된 mRNA에 첨가된 후, mRNA의 순도(예를 들어, mRNA에 존재하는 불현 전사체의 수준)를 시험한다. 일부 구현예에서, 5' 캡 및/또는 3' 꼬리가 합성된 mRNA에 첨가된 후, mRNA가 본원에 기술된 바와 정제된다. 다른 구현예에서, 5' 캡 및/또는 3' 꼬리가 합성된 mRNA에 첨가되기 전, mRNA가 본원에 기술된 바와 정제된다.

일부 구현예에서, 캡핑 및 테일링은 시험관 내 전사 동안 발생한다.

mRNA 합성 반응 혼합 조건

일부 구현예에서, 반응 혼합물 중 RNA 중합효소의 농도는 약 1 내지 100 nM, 1 내지 90 nM, 1 내지 80 nM, 1 내지 70 nM, 1 내지 60 nM, 1 내지 50 nM, 1 내지 40 nM, 1 내지 30 nM, 1 내지 20 nM, 또는 약 1 내지 10 nM일 수 있다. 소정의 구현예에서, RNA 중합효소의 농도는 약 10 내지 50 nM, 20 내지 50 nM, 또는 30 내지 50 nM이다. 100 내지 10000 단위/ml 농도의 RNA 중합효소, 예를 들어, 100 내지 9000 단위/ml, 100 내지 8000 단위/ml, 100 내지 7000 단위/ml, 100 내지 6000 단위/ml, 100 내지 5000 단위/ml, 100 내지 1000 단위/ml, 200 내지 2000 단위/ml, 500 내지 1000 단위/ml, 500 내지 2000 단위/ml, 500 내지 3000 단위/ml, 500 내지 4000 단위/ml, 500 내지 5000 단위/ml, 500 내지 6000 단위/ml, 1000 내지 7500 단위/ml, 및 2500 내지 5000 단위/ml 농도의 RNA 중합효소가 사용될 수 있다.

반응 혼합물 중 각 리보뉴클레오티드(예를 들어, ATP, UTP, GTP, 및 CTP)의 농도는 약 0.1 mM 내지 약 10　mM, 예를 들어 약 1 mM 내지 약 10 mM, 약 2 mM 내지 약 10　mM, 약 3 mM 내지 약 10　mM, 약 1 mM 내지 약 8 mM, 약 1 mM 내지 약 6 mM, 약 3 mM 내지 약 10 mM, 약 3 mM 내지 약 8 mM, 약 3 mM 내지 약 6 mM, 약 4 mM 내지 약 5 mM이다. 일부 구현예에서, 각 리보뉴클레오티드는 반응 혼합물에서 약 5 mM의 농도이다. 일부 구현예에서, 반응에 사용된 rNTP(예를 들어 ATP, GTP, CTP, 및 합쳐진 UTP)의 총 농도는 1 mM 내지 40 mM 범위이다. 일부 구현예에서, 반응에 사용된 rNTP(예를 들어 ATP, GTP, CTP, 및 합쳐진 UTP)의 총 농도는 1 mM 내지 30 mM, 또는 1 mM 내지 28 mM, 또는 1 mM 내지 25 mM, 또는 1 mM 내지 20 mM 범위이다. 일부 구현예에서, 총 rNTP 농도는 30 mM 미만이다. 일부 구현예에서, 총 rNTP 농도는 25 mM 미만이다. 일부 구현예에서, 총 rNTP 농도는 20 mM 미만이다. 일부 구현예에서, 총 rNTP 농도는 15 mM 미만이다. 일부 구현예에서, 총 rNTP 농도는 10 mM 미만이다.

특정 구현예에서, 반응 혼합물 중 각 rNTP의 농도는 주어진 mRNA 전사체를 암호화하는 핵산 서열에서 각 핵산의 빈도에 기초하여 최적화된다. 구체적으로, 이러한 서열 최적화된 반응 혼합물은 4개의 rNTP(예를 들어, ATP, GTP, CTP, 및 UTP) 각각의 비율을 포함하며, 이 비율은 mRNA 전사체 중 이들 4개의 핵산(A, G, C, 및 U)의 비율에 상응한다.

일부 구현예에서, 출발 뉴클레오티드는 시험관 내 전사가 시작되기 전에 반응 혼합물에 첨가된다. 출발 뉴클레오티드는 mRNA 전사체의 제1 뉴클레오티드(+1 위치)에 상응하는 뉴클레오티드이다. 출발 뉴클레오티드는 RNA 중합효소의 개시 속도를 증가시키기 위해 특별히 첨가될 수 있다. 출발 뉴클레오티드는 뉴클레오시드 일인산염, 뉴클레오시드 이인산염, 뉴클레오시드 삼인산염일 수 있다. 출발 뉴클레오티드는 모노뉴클레오티드, 디뉴클레오티드, 또는 트리뉴클레오티드일 수 있다. mRNA 전사체의 제1 뉴클레오티드가 G인 구현예에서, 출발 뉴클레오티드는 일반적으로 GTP 또는 GMP이다. 특정 구현예에서, 출발 뉴클레오티드는 캡 유사체이다. 캡 유사체는 G[5']ppp[5']G, m⁷G[5']ppp[5']G, m₃ ^2,2,7G[5']ppp[5']G, m₂ ^7,3'-OG[5']ppp[5']G (3'-ARCA), m₂ ^7,2'-OGpppG (2'-ARCA), m₂ ^7,2'-O GppspG D1 (β-S-ARCA D1) 및 m₂ ^7,2'-OGppspG D2 (β-S-ARCA D2)로 이루어진 군으로부터 선택될 수 있다.

특정 구현예에서, RNA 전사체의 제1 뉴클레오티드는 G이고, 출발 뉴클레오티드는 G의 캡 유사체이고, 이에 상응하는 rNTP는 GTP이다. 이러한 구현예에서, 캡 유사체는 GTP와 비교해 과량으로 반응 혼합물에 존재한다. 일부 구현예에서, 캡 유사체는 약 1 mM 내지 약 20 mM, 약 1 mM 내지 약 17.5 mM, 약 1 mM 내지 약 15 mM, 약 1 mM 내지 약 12.5 mM, 약 1 mM 내지 약 10 mM, 약 1 mM 내지 약 7.5 mM, 약 1 mM 내지 약 5 mM, 또는 약 1 mM 내지 약 2.5 mM 범위의 초기 농도로 첨가된다.

보다 일반적으로, 본 발명의 맥락에서, 캡 유사체와 같은 캡 구조는 mRNA 전사체가 합성된 후, 예를 들어 합성 후 가공 단계에서, 시험관 내 전사 동안 수득된 mRNA 전사체에 첨가된다. 일반적으로, 이러한 구현예에서, mRNA 전사체는 캡 구조가 첨가되기 전에 (예를 들어 접선 유동 여과에 의해) 먼저 정제된다.

RNA 중합효소 반응 완충액은 염/완충제, 예를 들어 트리스, HEPES, 황산암모늄, 중탄산나트륨, 구연산나트륨, 아세트산나트륨, 인산칼륨, 인산나트륨, 염화나트륨, 및 염화마그네슘을 일반적으로 포함한다.

반응 혼합물의 pH는 약 6 내지 8.5, 6.5 내지 8.0, 7.0 내지 7.5일 수 있고, 일부 구현예에서, pH는 7.5이다.

DNA 템플릿(예를 들어 원하는 양의 RNA를 제공하기에 충분한 양/농도인, 전술한 바와 같은 DNA 템플릿), RNA 중합효소 반응 완충액, 및 RNA 중합효소를 합쳐 반응 혼합물을 형성한다. 반응 혼합물을 약 37℃내지 약 56℃에서 30분 내지 6시간, 예를 들어 약 60분 내지 약 90분 동안 인큐베이션한다. 일부 구현예에서, 인큐베이션은 약 37℃내지 약 42℃에서 이루어진다. 다른 구현예에서, 인큐베이션은 약 43℃내지 약 56℃에서, 예를 들어 약 50℃내지 약 52℃에서 이루어진다. 본원에서 입증된 바와 같이, 시험관 내 전사 반응에서 수득된 정확하게 종결된 mRNA 전사체의 수율은 관심 mRNA 전사체를 암호화하는 DNA 서열의 말단에 본원에 기술된 하나 이상의 종결 신호를 포함시키고, DNA 서열을 포함하는 템플릿과 약 50℃내지 약 52℃의 온도에서 반응시킴으로써 상당히 증가될 수 있다.

일부 구현예에서, 적합한 RNA 중합효소 반응 완충액 중의 약 5 mM NTP, 약 0.05 mg/mL RNA 중합효소, 및 약 0.1 mg/ml DNA 템플릿(약 7.5의 최종 반응 혼합물 pH)을 약 37℃내지 약 42℃에서 60 내지 90분 동안 인큐베이션한다. 다른 구현예에서, 적합한 RNA 중합효소 반응 완충액 중의 약 5 mM NTP, 약 0.05 mg/mL RNA 중합효소, 및 약 0.1 mg/ml DNA 템플릿(약 7.5의 최종 반응 혼합물 pH)을 약 50℃내지 약 52℃에서 60 내지 90분 동안 인큐베이션한다.

일부 구현예에서, 반응 혼합물은 RNA 중합효소-특이적 프로모터, RNA 중합효소, RNase 억제제, 피로포스파타아제, 29 mM NTP, 10 mM DTT, 및 반응 완충액(10x의 800 mM HEPES인 경우, 20 mM 스퍼미딘, 250 mM MgCl₂, pH 7.7)을 갖는 이중 가닥 DNA 템플릿, 및 원하는 반응 부피에 충분한 양(QS)의 RNA-무함유 물을 함유하며, 이러한 반응 혼합물을 37℃에서 60분 동안 인큐베이션한다. 그런 다음, DNase I 및 DNase I 완충액(10x의 100 mM 트리스-HCl인 경우, 5 mM MgCl₂ 및 25 mM CaCl₂, pH 7.6)을 첨가하여 중합효소 반응물을 급냉시켜, 정제를 위해 제제 중 이중 가닥 DNA 템플릿의 분해를 용이하게 한다. 이 구현예는 100 그램의 mRNA를 생산하기에 충분한 것으로 나타났다.

일부 구현예에서, 반응 혼합물은 1~10 mM 농도 범위의 NTP, 0.01~0.5 mg/ml 농도 범위의 DNA 템플릿, 및 0.01~0.1 mg/ml 농도 범위의 RNA 중합효소를 포함하며, 예를 들어 반응 혼합물은 5 mM 농도의 NTP, 0.1 mg/ml 농도의 DNA 템플릿, 및 0.05 mg/ml 농도의 RNA 중합효소를 포함한다.

뉴클레오티드

다양한 자연 발생 뉴클레오시드 또는 변형된 뉴클레오시드가 본 발명에 따른 mRNA를 생산하는 데 사용될 수 있다. 일부 구현예에서, 본 발명에 따른 mRNA 전사체는 천연 뉴클레오시드(즉, 아데노신, 구아노신, 시티딘, 우리딘)와 합성된다. 다른 구현예에서, 본 발명에 따른 mRNA 전사체는 천연 뉴클레오시드(예를 들어 아데노신, 구아노신, 시티딘, 우리딘) 및 다음 중 하나 이상과 합성된다: 뉴클레오시드 유사체(예를 들어 2-아미노아데노신, 2-티오티미딘, 이노신, 피롤로-피리미딘, 3-메틸 아데노신, 5-메틸시티딘, C-5 프로피닐-시티딘, C-5 프로피닐-우리딘, 2-아미노아데노신, C5-브로모우리딘, C5-플루오로우리딘, C5-아이오도우리딘, C5-프로피닐-우리딘, C5-프로피닐-시티딘, C5-메틸시티딘, 2-아미노아데노신, 7-데아자아데노신, 7-데아자구아노신, 8-옥소아데노신, 8-옥소구아노신, O(6)-메틸구아닌, 슈도우리딘(예를 들어 N-1-메틸-슈도우리딘), 2-티오우리딘, 및 2-티오시티딘); 화학적으로 변형된 염기; 생물학적으로 변형된 염기(예를 들어 메틸화된 염기); 삽입된 염기; 변형된 당(예를 들어 2'-플루오로리보스, 리보스, 2'-데옥시리보스, 아라비노스, 및 헥소스); 및/또는 변형된 포스페이트기(예를 들어 포스포로티오에이트 및 5'-N-포스포아미다이트 결합).

일부 구현예에서, mRNA는 하나 이상의 비표준 뉴클레오티드 잔기를 포함한다. 비표준 뉴클레오티드 잔기는, 예를 들어 5-메틸-시티딘("5mC"), 슈도우리딘("ΨU"), 및/또는 2-티오-우리딘("2sU")을 포함할 수 있다. 이러한 잔기 및 이들의 mRNA로의 혼입에 대한 논의는 예를 들어 미국 특허 제8,278,036호 또는 WO2011012316을 참조한다. mRNA는 25%의 U 잔기가 2-티오-우리딘이고 25%의 C 잔기는 5-메틸시티딘인 RNA로서 정의되는 RNA일 수 있다. RNA의 용도에 대한 교시는 미국 특허 공개 US20120195936 및 국제 특허 공개 WO2011012316에 개시되어 있으며, 이들 모두는 그 전체가 참조로서 본원에 통합된다. 비표준 뉴클레오티드 잔기의 존재는 동일한 서열을 가지되 표준 잔기만을 함유하는 대조군 mRNA보다 mRNA를 더 안정시킬 수 있고/있거나 면역원성을 덜 가지게 할 수 있다. 다른 구현예에서, mRNA는 이소시토신, 슈도이소시토신, 5-브로모우라실, 5-프로피닐우라실, 6-아미노퓨린, 2-아미노퓨린, 이노신, 디아미노퓨린 및 2-클로로-6-아미노퓨린 시토신뿐만 아니라 이들 변형체 및 다른 핵염기의 변형체의 조합으로부터 선택된 하나 이상의 비표준 뉴클레오티드 잔기를 포함할 수 있다. 일부 구현예는 푸라노오스 고리 또는 뉴클레오염기에 대한 추가의 변형을 추가로 포함할 수 있다. 추가 변형은 예를 들어 당 변형 또는 치환(예를 들어, 2'-O-알킬 변형, 잠금 핵산(LNA) 중 하나 이상)를 포함할 수 있다. 일부 구현예에서, RNA는 추가 폴리뉴클레오티드 및/또는 펩티드 폴리뉴클레오티드(PNA)와 복합체를 구성하거나 혼성화될 수 있다. 당 변형이 2'-O-알킬 변형인 일부 구현예에서, 이러한 변형은 2'-데옥시-2'-플루오로 변형, 2'-O-메틸 변형, 2'-O- 메톡시에틸 변형, 및 2'-데옥시 변형을 포함할 수 있지만, 이에 한정되지는 않는다. 일부 구현예에서, 이들 변형 중 어느 하나는 뉴클레오티드의 0 내지 100%로 - 예를 들어 구성 뉴클레오티드의 0%, 1%, 10%, 25%, 50%, 75%, 85%, 90%, 95% 초과, 또는 100%로 개별적으로 또는 조합하여 존재할 수 있다.

세포 내 최적화된 뉴클레오티드 서열의 형질감염 및 스크리닝

일부 구현예에서, 본 발명의 방법은 합성된 최적화된 뉴클레오티드 서열을 시험관 내 또는 생체 내 세포 내로 형질감염시키는 단계를 추가로 포함한다. 일부 구현예에서, 합성된 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 발현 수준이 결정된다. 일부 구현예에서, 방법은 참조 뉴클레오티드 서열 및 본 발명의 방법에 따라 생성된 적어도 하나의 합성된 최적화된 뉴클레오티드 서열을 합성하는 단계, 및 각각의 뉴클레오티드 서열을 별도의 세포 또는 유기체와 접촉시키는 단계를 추가로 포함한다. 일반적인 구현예에서, 적어도 하나의 합성된 최적화된 뉴클레오티드 서열과 접촉된 세포 또는 유기체는, 합성된 참조 뉴클레오티드 서열과 접촉된 세포 또는 유기체에 의해 생성된 참조 뉴클레오티드 서열에 의해 암호화된 단백질의 수율과 비교하여, 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 증가된 수율을 생성한다. 참조 뉴클레오티드 서열은, (a) 아미노산 서열을 암호화하는 자연 발생 뉴클레오티드 서열; 또는 (b) 본 발명의 방법 이외의 방법에 의해 생성된 아미노산 서열을 암호화하는 뉴클레오티드 서열일 수 있다.

본 발명의 방법에 따라 생성된 합성된 최적화된 뉴클레오티드 서열은 세포 내로 형질감염될 때, 암호화된 단백질의 발현을 증가시키는지를 확인하는 것이 바람직할 수 있다. 웨스턴 블롯팅과 같은 당업계에 공지된 방법은 전술한 뉴클레오티드 서열의 코돈 최적화가 암호화된 단백질의 발현 및 생성을 증가시킨다는 것을 실험적으로 검증하기에 적합하다. 또한, 본 발명의 방법에 의해 생성된 다수의 합성된 최적화된 뉴클레오티드 서열을 스크리닝하여 가장 높은 단백질 수율을 생성하는 최적화된 뉴클레오티드 서열(들)을 식별할 수 있다. 일부 구현예에서, 합성된 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 발현 수준은 적어도 2배, 예를 들어 적어도 3배 또는 4배 증가된다.

일부 구현예에서, 합성된 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 기능적 활성이 결정된다. 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 기능적 활성은 양호하게 확립된 방법의 범위를 사용하여 결정될 수 있다. 이들 방법은 암호화된 관심 단백질의 특성에 따라 달라질 수 있다. 코돈 최적화의 맥락에서, 전술한 암호화된 단백질(들)의 발현이 원하는 기능적 효과(들)를 생성하는 것을 보장하기 위해, 합성된 최적화된 뉴클레오티드 서열(들)에 의해 암호화된 단백질의 기능적 활성을 시험관 내 또는 생체 내에서 실험적으로 검증하는 것이 중요할 수 있다. 예를 들어, 효소 활성 검정은 세포에서의 최적화된 뉴클레오티드 서열에 의해 암호화된 효소의 기능적 효소 활성을 결정하는 데 사용될 수 있다. 예를 들어, Ussing 상피 전압 클램프 검정은 본 발명의 방법으로 생성된 코돈 최적화된 hCFTR 서열을 암호화하는 mRNA로부터 발현된 인간 낭성 섬유증 막관통 전도 조절자(hCFTR) 단백질의 활성을 평가하는 데 사용될 수 있다. 이 검정은 hCFTR mRNA로 형질감염된 상피 세포의 염화물 수송 기능을 모니터링한다.

치료적 응용

본 발명은 치료에 사용하기 위한, 본 발명의 방법에 따라 생성된, 합성된 최적화된 뉴클레오티드 서열을 제공한다.

mRNA 요법 분야에서, 코돈 최적화는 표적 세포에서 mRNA에 의해 암호화된 기능성 단백질의 발현을 증가시킴으로써, 낭성 섬유증(CF), 원발성 섬모 운동이상증(PCD), 폐동맥 고혈압(PAH), 및 특발성 폐 섬유증(IPF)을 포함하는 다양한 장애에서의 단백질 결핍을 보정하는 데 사용될 수 있다.

본 발명의 특정 양태에서, 최적화된 뉴클레오티드 서열은 인간 낭성 섬유증 막관통 전도 조절자(hCFTR) 단백질을 암호화한다:

MQRSPLEKASVVSKLFFSWTRPILRKGYRQRLELSDIYQIPSVDSADNLSEKLEREWDRELASKKNPKLINALRRCFFWRFMFYGIFLYLGEVTKAVQPLLLGRIIASYDPDNKEERSIAIYLGIGLCLLFIVRTLLLHPAIFGLHHIGMQMRIAMFSLIYKKTLKLSSRVLDKISIGQLVSLLSNNLNKFDEGLALAHFVWIAPLQVALLMGLIWELLQASAFCGLGFLIVLALFQAGLGRMMMKYRDQRAGKISERLVITSEMIENIQSVKAYCWEEAMEKMIENLRQTELKLTRKAAYVRYFNSSAFFFSGFFVVFLSVLPYALIKGIILRKIFTTISFCIVLRMAVTRQFPWAVQTWYDSLGAINKIQDFLQKQEYKTLEYNLTTTEVVMENVTAFWEEGFGELFEKAKQNNNNRKTSNGDDSLFFSNFSLLGTPVLKDINFKIERGQLLAVAGSTGAGKTSLLMVIMGELEPSEGKIKHSGRISFCSQFSWIMPGTIKENIIFGVSYDEYRYRSVIKACQLEEDISKFAEKDNIVLGEGGITLSGGQRARISLARAVYKDADLYLLDSPFGYLDVLTEKEIFESCVCKLMANKTRILVTSKMEHLKKADKILILHEGSSYFYGTFSELQNLQPDFSSKLMGCDSFDQFSAERRNSILTETLHRFSLEGDAPVSWTETKKQSFKQTGEFGEKRKNSILNPINSIRKFSIVQKTPLQMNGIEEDSDEPLERRLSLVPDSEQGEAILPRISVISTGPTLQARRRQSVLNLMTHSVNQGQNIHRKTTASTRKVSLAPQANLTELDIYSRRLSQETGLEISEEINEEDLKECFFDDMESIPAVTTWNTYLRYITVHKSLIFVLIWCLVIFLAEVAASLVVLWLLGNTPLQDKGNSTHSRNNSYAVIITSTSSYYVFYIYVGVADTLLAMGFFRGLPLVHTLITVSKILHHKMLHSVLQAPMSTLNTLKAGGILNRFSKDIAILDDLLPLTIFDFIQLLLIVIGAIAVVAVLQPYIFVATVPVIVAFIMLRAYFLQTSQQLKQLESEGRSPIFTHLVTSLKGLWTLRAFGRQPYFETLFHKALNLHTANWFLYLSTLRWFQMRIEMIFVIFFIAVTFISILTTGEGEGRVGIILTLAMNIMSTLQWAVNSSIDVDSLMRSVSRVFKFIDMPTEGKPTKSTKPYKNGQLSKVMIIENSHVKKDDIWPSGGQMTVKDLTAKYTEGGNAILENISFSISPGQRVGLLGRTGSGKSTLLSAFLRLLNTEGEIQIDGVSWDSITLQQWRKAFGVIPQKVFIFSGTFRKNLDPYEQWSDQEIWKVADEVGLRSVIEQFPGKLDFVLVDGGCVLSHGHKQLMCLARSVLSKAKILLLDEPSAHLDPVTYQIIRRTLKQAFADCTVILCEHRIEAMLECQQFLVIEENKVRQYDSIQKLLNERSLFRQAISPSDRVKLFPHRNSSKCKSKPQIAALKEETEEEVQDTRL (서열번호 15)

특정 일 구현예에서, 본 발명에 따른 hCFTR 단백질을 암호화하는 최적화된 뉴클레오티드 서열은 서열번호 26과 적어도 85%, 88%, 90%, 95%, 96%, 97%, 98%, 또는 99%의 동일성을 공유하고, 서열번호 15의 아미노산 서열을 갖는 CFTR 단백질을 암호화한다. 특정 구현예에서, 본 발명에 따른 hCFTR 단백질을 암호화하는 최적화된 뉴클레오티드 서열은 서열번호 26이다. 특정 일 구현예에서, 본 발명에 따른 hCFTR 단백질을 암호화하는 최적화된 뉴클레오티드 서열은 서열번호 27과 적어도 85%, 88%, 90%, 95%, 96%, 97%, 98%, 또는 99%의 동일성을 공유하고, 서열번호 15의 아미노산 서열을 갖는 hCFTR 단백질을 암호화한다. 특정 구현예에서, 본 발명에 따른 hCFTR 단백질을 암호화하는 최적화된 뉴클레오티드 서열은 서열번호 27이다. 특정 일 구현예에서, 본 발명에 따른 hCFTR 단백질을 암호화하는 최적화된 뉴클레오티드 서열은 서열번호 28과 적어도 85%, 88%, 90%, 95%, 96%, 97%, 98%, 또는 99%의 동일성을 공유하고, 서열번호 15의 아미노산 서열을 갖는 hCFTR 단백질을 암호화한다. 특정 구현예에서, 본 발명에 따른 hCFTR 단백질을 암호화하는 최적화된 뉴클레오티드 서열은 서열번호 28이다.

소정의 양태에서, 본 발명은 본 발명에 따른 hCFTR 단백질을 암호화하는 최적화된 뉴클레오티드 서열을 포함하는 핵산을 제공한다. 특정 구현예에서, 본 발명은 본 발명에 따른 hCFTR 단백질을 암호화하는 최적화된 뉴클레오티드 서열을 포함하는 mRNA를 제공한다. 일부 구현예에서, 본 발명에 따른 hCFTR 단백질을 암호화하는 최적화된 뉴클레오티드 서열을 포함하는 mRNA는 5' 및 3' UTR 서열을 또한 함유한다. 예시적인 5' 및 3' UTR 서열은 아래와 같다:

예시적인 5' UTR 서열

GGACAGAUCGCCUGGAGACGCCAUCCACGCUGUUUUGACCUCCAUAGAAGACACCGGGACCGAUCCAGCCUCCGCGGCCGGGAACGGUGCAUUGGAACGCGGAUUCCCCGUGCCAAGAGUGACUCACCGUCCUUGACACG (서열번호 16)

예시적인 3' UTR 서열

CGGGUGGCAUCCCUGUGACCCCUCCCCAGUGCCUCUCCUGGCCCUGGAAGUUGCCACUCCAGUGCCCACCAGCCUUGUCCUAAUAAAAUUAAGUUGCAUCAAGCU (서열번호 17)

또는

GGGUGGCAUCCCUGUGACCCCUCCCCAGUGCCUCUCCUGGCCCUGGAAGUUGCCACUCCAGUGCCCACCAGCCUUGUCCUAAUAAAAUUAAGUUGCAUCAAAGCU (서열번호 18)

본 발명의 방법에 따라 생성된 합성된 최적화된 뉴클레오티드 서열은 또한 mRNA 백신에 사용된다. 예방적 mRNA 백신의 맥락에서, 코돈 최적화는 최적의 항원 활성을 위해 대상체에게 전달되는 mRNA에 의해 암호화된 재조합 항원의 발현을 최대화함으로써, 병원균에 대한 보호 면역을 생성하는 데 사용될 수 있다.

유사하게, 암 면역요법 분야에서, 코돈 최적화는 대상체에게 전달된 mRNA에 의해 암호화된 재조합 종양 신생항원의 발현을 최대화함으로써, 신생항원을 발현하는 비정상적인 종양 세포에 대한 적응 면역 반응을 생성하는 데 사용될 수 있다.

생명공학 응용

생명공학 분야에서, 특히 재조합 단백질 제조의 맥락에서, 코돈 최적화는 박테리아, 효모, 곤충, 식물 또는 포유류 세포와 같은 숙주 세포 내에서 관심 단백질의 생성을 증가시키는 데 사용될 수 있다.

예를 들어, 본 발명의 방법은 대장균에서 생성된 재조합 인슐린 단백질의 단백질 발현 수율을 최적화하는 데 사용될 수 있다. 재조합 단백질의 발현은 또한, 예를 들어, 숙주 세포 내에서, 또는 단백질 발현에 적합한 무세포 단백질 추출물 내에서 발생할 수 있다. 코돈 최적화는 또한 생명공학, 제조, 진단 및/또는 연구에 사용하기에 적합한, 산업적으로 유용한 효소의 생산을 증가시키는 데 사용될 수 있다.

실시예

다음의 실시예는 단지 예시적인 목적으로 포함되며, 본 발명의 범위를 제한하도록 의도되지 않는다.

실시예 1. 최적화된 뉴클레오티드 서열 생성

본 실시예는, 시험관 내 합성 동안 전장 전사체를 수득하도록 최적화되고, 암호화된 단백질의 높은 발현 수준을 야기하는, 본 발명에 따른 최적화된 뉴클레오티드 서열을 생성하는 프로세스를 예시한다.

프로세스는 도 1의 코돈 최적화 방법을 도 10에 도시된 필터링 단계의 순서와 조합하여 최적화된 뉴클레오티드 서열의 목록을 생성한다. 구체적으로, 도 1에 도시된 바와 같이, 프로세스는 관심 아미노산 서열 및 주어진 유기체(즉, 본 실시예의 맥락에서의 인간 코돈 사용 선호도)에서의 각 코돈의 빈도를 반영하는 제1 코돈 사용 테이블을 수령한다. 그런 다음, 프로세스는 임의의 코돈이 임계 빈도(10%) 미만인 코돈 사용 빈도와 연관되는 경우, 제1 코돈 사용 테이블로부터 해당 코돈을 제거한다. 제1 단계에서 제거되지 않은 코돈의 코돈 사용 빈도는 정규화되어 정규화된 코돈 사용 테이블을 생성한다.

코돈 사용 테이블을 정규화하는 단계는 각각의 제거된 코돈에 대한 사용 빈도 값을 재분배하는 단계를 포함하고; 제거된 특정 코돈에 대한 사용 빈도는 제거된 코돈이 아미노산을 공유하는 다른 코돈의 사용 빈도에 추가된다. 본 실시예에서, 재분배는 테이블로부터 제거되지 않은 코돈의 사용 빈도의 크기에 비례하며, 도 3 및 도 4b와 관련하여 기술된 바와 같은 예시적인 방법에 따라 수행될 수 있다. 프로세스는 정규화된 코돈 사용 테이블을 사용하여 최적화된 뉴클레오티드 서열의 목록을 생성한다. 최적화된 뉴클레오티드 서열 각각은 관심 아미노산 서열을 암호화한다.

도 10에 도시된 바와 같이, 최적화된 뉴클레오티드 서열의 목록은 최적화된 뉴클레오티드 서열의 업데이트된 목록을 생성하기 위해, 모티프 스크린 필터, 구아닌-시토신(GC) 함량 분석 필터, 및 코돈 적용 인덱스(CAI) 분석 필터를 이 순서로 적용함으로써 추가로 처리된다. 도 6에 도시된 모티프 스크린 필터는 전사 또는 번역을 방해할 수 있는 서열을 제거하는 데 사용된다. GC 함량 분석 필터는 도 11에 도시된 바와 같이 프로세스를 수행한다.

다음의 실시예에 예시되는 바와 같이, 이러한 프로세스는 관심 아미노산 서열을 암호화하는 최적화된 뉴클레오티드 서열을 생성한다. 뉴클레오티드 서열은 시험관 내 합성 동안 전장 전사체를 수득하고, 암호화된 단백질의 높은 수준의 발현을 야기한다(실시예 2 및 3 참조). 실시예 4에 나타낸 바와 같이, 발현된 단백질은 완전히 기능한다.

실시예 2. 높은 CAI 점수를 갖는 뉴클레오티드 서열을 생성하기 위한 코돈 최적화는 단백질 수율을 개선시킴.

본 실시예는 약 0.8 이상의 코돈 적용 인덱스(CAI)를 갖는 코돈 최적화된 단백질 코딩 서열이 0.8 미만의 CAI를 갖는 코돈 최적화된 단백질 코딩 서열을 능가한다는 것을 입증한다.

코돈 최적화는 인간 에리트로포이에틴(hEPO)의 야생형 아미노산 서열에 대해 수행하였다. hEPO는 낮은 세포 산소 수준(저산소증)에 반응하여 신장에 의해 분비되는 단백질 호르몬이다. hEPO는 적혈구 생성, 즉 적혈구위 생산에 필수적이다. 재조합 hEPO는 만성 신장 질환을 앓고 있는 대상체 또는 암 화학요법을 받고 있는 대상체에서 발생할 수 있는 낮은 적혈구 또는 헤모글로빈 수를 특징으로 하는 병태인 빈혈의 치료에 흔히 사용된다.

상이한 코돈 최적화 알고리즘을 사용하여, hEPO(#1 내지 #5)를 암호화하는 총 5개의 새로운 코돈 최적화된 뉴클레오티드 서열을 생성하였다. 실시예 1에 예시된 바와 같이, 본 발명의 방법에 따라 뉴클레오티드 서열 #4 및 #5를 생성하였다. 참조로서, 시험관 내 및 생체 내 모두에서 실험적으로 이전에 검증된 코돈 최적화된 hEPO 코딩 서열을 갖는 뉴클레오티드 서열이 제공되었다. 참조 뉴클레오티드 서열(서열번호 19)은 야생형 뉴클레오티드 서열 및 hEPO 단백질을 암호화하는 다른 코돈 최적화된 뉴클레오티드 서열에 비해 우월한 단백질 수율을 제공하는 것으로 밝혀졌다. CAI, GC 함량, 코돈 빈도 분포(CFD)뿐만 아니라 음성 CIS 요소 및 음성 반복 요소의 존재와 관련하는 5개의 뉴클레오티드 서열 각각의 특성이 표 1에 요약되어 있다.

뉴클레오티드 서열	서열번호	CAI	GC 함량 %	CFD %	음성 CIS 요소	음성 반복 요소
기준	19	0.79	61.06%	3%	0	0
#1	20	0.69	54.12%	2%	0	0
#2	21	0.76	56.23%	1%	0	0
#3	22	0.90	57.28%	0%	0	0
#4	23	0.89	60.95%	0%	0	0
#5	24	0.86	59.56%	0%	0	0

각각의 코돈 최적화된 서열의 단백질 수율을 시험하기 위해, 동일한 3' 및 5' 비번역 서열(3' 및 5' UTR)이 측면에 위치한 hEPO 단백질을 암호화하는 6개의 뉴클레오티드 서열 중 하나를 함유하고 RNA 중합효소 프로모터가 선행하는 발현 카세트를 각각 포함하는 6개의 핵산 벡터를 제조하였다. 이들 핵산 벡터는 시험관 내 전사 반응을 위한 템플릿으로서 기능하여 6개의 코돈 최적화된 뉴클레오티드 서열(참조 및 뉴클레오티드 서열 #1 내지 #5)을 함유하는 mRNA의 6개의 배치를 제공하였다. 캡핑 및 테일링을 별도로 수행하였다. 각각의 캡핑된 mRNA 및 꼬리가 달린 mRNA를 세포주(HEK293) 내에 별도로 형질감염시켰다. 암호화된 hEPO 단백질의 발현 수준을 ELISA로 평가하였다. 본 실험의 결과를 도 12에 요약하였다.

도 12에서 알 수 있는 바와 같이, 가장 높은 수준의 발현은 뉴클레오티드 서열 #3(서열번호 22)에서 관찰되었으며, 이는 실험적으로 검증된 참조 뉴클레오티드 서열에 비해 거의 2배의 hEPO 단백질을 제공하였다. 보다 높은 단백질 수율에 대한 경향을 CAI에 따르는 서열에 대해 관찰할 수 있다(표 1 참조). 가장 높은 단백질 수율을 갖는 뉴클레오티드 서열 #3은 가장 높은 CAI를 가졌다. 제2 및 제3 최고 수율의 뉴클레오티드 서열 #4(서열번호 23) 및 #5(서열번호 24)는 제3 및 제4 최고 CAI를 가졌다. 최저 수행 뉴클레오티드 서열 #1(서열 번호 20) 및 #2(서열 번호 21) 또한 최저 CAI를 가졌다. 부수적으로, 이들은 또한 GC 함량이 가장 낮은 뉴클레오티드 서열이었다. 그러나, GC 함량만은 결정적이지 않았다. 참조 뉴클레오티드 서열은 시험된 모든 코돈 최적화된 서열 중 가장 높은 GC 함량(61%)을 가졌지만, 보다 낮은 GC 함량을 갖는 뉴클레오티드 서열 #3, #4 및 #5만큼 양호하게 기능하지 않았다. 특히, 최저 성능의 뉴클레오티드 서열 #1 및 #2 또한 보다 높은 CFD를 가졌다.

종합하면, 본 실시예의 데이터는 약 0.8 이상의 CAI를 달성하기 위한 치료적으로 관련된 뉴클레오티드 서열의 코돈 최적화가, 예를 들어, 가능한 최고 GC 함량을 갖는 뉴클레오티드 서열을 달성하기 위한 코돈 최적화보다 더 큰 단백질 수율을 야기한다는 것을 입증한다.

실시예 3. CAI를 증가시키기 위한 CFTR mRNA 서열의 코돈 최적화는 보다 높은 단백질 발현을 유도함.

본 실시예는 약 0.8 이상의 코돈 적용 인덱스(CAI)를 갖는 코돈 최적화된 단백질 코딩 서열이 0.8 미만의 CAI를 갖는 코돈 최적화된 단백질 코딩 서열을 능가한다는 것을 확증한다.

실시예 1에서 시험된 hEPO 단백질은 아미노산 서열이 495개 뉴클레오티드의 서열에 의해 암호화되는 비교적 짧은 폴리펩티드이다. 실시예 1에서의 발견이 큰 단백질을 암호화하는 훨씬 더 긴 뉴클레오티드 서열에도 적용되는지의 여부를 결정하기 위해, 인간 낭성 섬유증 막관통 전도 조절자(hCFTR)에 대해 코돈 최적화를 수행하였다. hCFTR은 4440개 뉴클레오티드의 서열에 의해 암호화된다. 즉, 이의 서열은 hEPO의 코딩 서열보다 약 10배 더 길다.

hCFTR 단백질을 암호화하는 유전자에서의 돌연변이는 백인 모집단에서 가장 흔한 유전 질환인 낭성 섬유증(CF)을 유발한다. 이는 상피를 가로지르는 염화물 및 나트륨 이온의 비정상적인 수송을 특징으로 하며, 이는 폐, 및 또한 췌장, 간, 및 장에 가장 중요한 영향을 미치는 끈적한 점성의 분비물을 유발한다. 코돈 최적화된 hCFTR 코딩 서열을 암호화하는 mRNA는 CF를 치료하기 위한 신규 치료제로서 개발되고 있다.

실시예 1에 도시된 바와 같이, 본 발명의 방법에 따라 천연 hCFTR 아미노산 서열에 대해 코돈 최적화를 수행하였다. 추가 분석에 대해, hCFTR #1(서열번호 26), hCFTR #2(서열번호 27) 및 hCFTR #3(서열번호 28)로 지정된 3개의 서열을 선택하였다. 참조로서, 상이한 알고리즘을 사용하여 코돈-최적화된 hCFTR 코딩 서열을 갖는 뉴클레오티드 서열이 제공되었다(서열번호 25). 이러한 참조 뉴클레오티드 서열(서열번호 25)은 시험관 내 및 생체 내 모두에서 이전에 실험적으로 검증되었다. 참조 뉴클레오티드 서열은 hCFTR 단백질을 암호화하는 다른 이전에 시험된 코돈-최적화된 뉴클레오티드 서열에 비해 우월한 단백질 수율을 제공하는 것으로 밝혀졌다. 참조 뉴클레오티드 서열과 비교했을 때, 코돈-최적화된 hCFTR #2 및 hCFTR #3 서열의 CAI 및 GC 함량%는 유의미하게 증가하였다. 또한, 이들의 코돈 빈도 분포(CFD)%는 참조 뉴클레오티드 서열에 대한 6%와 비교하여 0%였으며, 이는 번역 효율에 유해한 희귀 코돈 클러스터가 성공적으로 제거되었음을 나타낸다. 음성 조절 모티프를 제거하기 위한 추가 필터링은 hCFTR #2 및 hCFTR #3에서의 음성 시스-조절(CIS) 요소의 수를 유의미하게 감소시켰다(표 2 참조).

뉴클레오티드 서열	서열번호	CAI	GC 함량%	CFD%	음성 CIS 요소	음성 반복 요소
hCFTR 기준	25	0.70	49.52	6%	7	0
hCFTR #1	26	0.70	49.59	6%	7	0
hCFTR #2	27	0.89	53.78	0%	4	0
hCFTR #3	28	0.89	53.97	0%	3	0

각각의 코돈 최적화된 서열의 단백질 수율을 시험하기 위해, 동일한 3' 및 5' 비번역 서열(3' 및 5' UTR)이 측면에 위치한 hCFTR 단백질을 암호화하는 4개의 뉴클레오티드 서열 중 하나를 함유하고 RNA 중합효소 프로모터가 선행하는 발현 카세트를 각각 포함하는 4개의 핵산 벡터를 제조하였다. 이들 핵산 벡터는 시험관 내 전사 반응을 위한 템플릿으로서 기능하여 4개의 코돈 최적화된 뉴클레오티드 서열(참조 및 hCFTR #1 내지 #3)을 함유하는 mRNA의 4개의 배치를 제공하였다. 캡핑 및 테일링을 별도로 수행하였다.

각각의 캡핑된 mRNA 및 꼬리가 달린 mRNA를 세포주(HEK293) 내에 별도로 형질감염시켰다. 세포 용해물을 형질감염 후 24시간 및 48시간차에 수집하였다. 단백질 샘플을 추출하고 SDS-PAGE를 위해 처리하였다. 암호화된 hCFTR 단백질의 발현 수준을 웨스턴 블롯으로 평가하였다. 단백질 밴드를 성장시키고 LI-COR 시스템을 사용하여 정량화하였다. 단백질 수율을 상대 형광 단위(RFU)로서 표현하였다. 본 실험의 결과를 도 13에 요약하였다. 둘 모두 0.89의 CAI를 갖는 코돈 최적화된 뉴클레오티드 서열 hCFTR #2 및 hCFTR #3은, 둘 모두 0.7의 CAI를 갖는 참조 뉴클레오티드 서열 및 hCFTR #1에 비해 유의미하게 더 높은 암호화된 hCFTR 단백질의 수율을 생성하였다. 이러한 효과는 24시간 시점에서 보다 명확했으며(도 13b 참조), 이는 형질감염 후 HEK293 세포에서의 mRNA의 비교적 신속한 분해로 인한 것으로 추정된다.

본 실시예의 데이터는, 약 0.8 이상의 CAI를 달성하기 위한 치료적으로 관련된 뉴클레오티드 서열(hCFTR)의 코돈 최적화가, 특히 그의 CFD 및 그의 GC 함량의 최적화, 및 핵산 서열로부터 임의의 음성 CIS 요소의 제거와 또한 조합될 때, 보다 높은 단백질 수율을 초래한다는 것을 입증한다. 본 실시예의 데이터는 또한, 본 발명의 방법에 따른 hCFTR mRNA의 코돈 최적화는, 상이한 알고리즘으로 코돈-최적화된 뉴클레오티드 서열과 비교 시, 보다 높은 인간 세포에서의 hCFTR 단백질 수율을 초래한다는 것을 확증한다.

실시예 4. CFTR 뉴클레오티드 서열의 코돈 최적화는 세포에서 증가된 기능적 활성을 유도함.

본 실시예는 본 발명의 방법에 따른 hCFTR 뉴클레오티드 서열의 코돈 최적화가 인간 세포에서의 hCFTR 기능적 활성에 영향을 미치지 않음을 예시한다.

hCFTR mRNA의 투여는, CF 환자에서 기도 상피 세포에 의한 이의 흡수에 이어지는, 표적 세포의 세포질 내로의 내재화를 의도한다. 일단 세포 흡수가 이루어지면, hCFTR mRNA는 정상적인 hCFTR 단백질로 번역되고, 이어서 이는 세포의 내인성 분비 경로를 통해 처리되어, 정점 세포막에서의 hCFTR 단백질의 국소화를 초래한다. 이러한 접근법을 통해, hCFTR mRNA 투여는 기도 상피에서 기능적 hCFTR 단백질을 생성함으로써, CF 환자의 폐에서의 기능적 CFTR의 결핍을 보정한다. hCFTR mRNA 뉴클레오티드 서열의 코돈 최적화는 기능적 hCFTR 단백질의 발현을 증가시킬 수 있으며, 이는 CF 환자의 표적 기도 상피 세포에서의 보다 많은 양의 기능적 hCFTR 단백질을 유도하는 것으로 여겨진다.

코돈 최적화는, 단백질의 번역을 제어하고 초기 폴리펩티드 사슬의 적절한 접힘을 보장하는 데 중요한 뉴클레오티드 서열 중의 암호화된 정보를 제거할 수 있기 때문에, 암호화된 단백질의 기능적 활성 감소 및 관련 효능 손실을 희생시킬 수 있다고 보고된 바 있다(Mauro & Chappell, Trends Mol Med. 2014; 20(11):604-13). 실시예 1에 도시된 바와 같은 코돈 최적화 방법을 사용하여 생성된 코돈-최적화된 서열로부터 발현된 hCFTR 단백질의 기능적 활성을 시험하기 위해, 실시예 2에서 생성된 hCFTR mRNA를 Ussing 챔버 검정에서 시험하였다. 이 검정은 상피 전압 클램프를 사용하여 전술한 mRNA로 형질감염된 상피 세포의 염화물 수송 기능을 모니터링함으로써 hCFTR mRNA로부터 발현된 단백질의 기능적 활성을 평가한다. 구체적으로, 대조군 hCFTR 코딩 서열(서열번호 25) 또는 hCFTR #1(서열번호 26), hCFTR #2(서열번호 27), 또는 hCFTR #3(서열번호 28)의 코딩 서열을 갖는 mRNA로부터 발현된 hCFTR 단백질의 기능적 활성을 Fisher 래트 갑상선(FRT) 상피 세포에서 측정하였다. FRT 상피 세포는 인간 기도 상피 세포 기능을 연구하기 위한 모델로서 흔히 사용된다. FRT 상피 세포를 Snapwell^TM 필터 삽입물 상의 단일층에서 성장시키고 전술한 4개의 hCFTR mRNA로 형질감염시켰다. 4개의 hCFTR mRNA는 실시예 2에 기술된 바와 같이 생성되었다. 대조군 mRNA는 이전에 본 검정에서 검증되었으며, 참조 표준으로서 사용되었다.

hCFTR mRNA로부터 생성된 정확하게 번역되고 국소화된 hCFTR 단백질은 CFTR 작용제(포르스콜린 및 VX-770[Kalydeco®])가 적용될 때, Ussing 상피 전압 클램프 장치 내에서 단락 전류(I_SC) 출력을 증가시킨다. CFTR 길항제 CFTRinh-172의 적용은 hCFTR을 차단된 상태로 유도한다. 이러한 검정에서의 I_SC 전류 극성 규칙은 정점으로부터 기저측으로의 나트륨 전류 및 기저측으로부터 정점으로의 염화물 전류를 음의 값으로 기록하며, 따라서 시험 hCFTR mRNA를 사용한 형질감염이 높은 음의 값을 생성하는 경우, 암호화된 hCFTR 단백질이 기능적이라는 결론을 내릴 수 있다(도 14a). 또한, 단백질 수율 및 활성이 상관되기 때문에, 동일한 양의 mRNA를 형질감염시킴으로써, mRNA가 보다 높은 수율의 hCFTR 단백질을 생성하는지의 여부를 평가할 수 있다. hCFTR #1 코딩 서열을 갖는 mRNA를 사용한 FRT 상피 세포의 형질감염은 대조군 hCFTR 코딩 서열을 갖는 mRNA를 사용한 형질감염에 의해 달성된 활성과 유사한 활성을 초래하였다(도 14b). 본 발명의 방법에 의해 생성된 hCFTR을 암호화하는 뉴클레오티드 서열을 암호화하는 mRNA는 활성을 유의미하게 증가시켰다. 실시예 2에서 관찰된 보다 높은 단백질 수율과 일관되게, hCFTR #2를 암호화하는 mRNA로부터 생성된 hCFTR 단백질은 대조군 mRNA에 비해 2배를 초과하는 활성을 나타냈고, hCFTR #3을 암호화하는 mRNA로부터 생성된 hCFTR 단백질은 대조군 mRNA에 비해 3배 더 높은 활성을 나타냈다. 이는 실시예 2에서 관찰된 hCFTR #2 및 hCFTR #3으로 인한 보다 높은 단백질 수율이 보다 높은 기능적 활성과 직접적으로 상관된다는 것을 확증하며, 본 발명의 방법에 따른 코돈 최적화가 암호화된 단백질의 기능적 활성에 부정적인 영향을 미치지 않음을 입증한다.

요약하면, 본 발명의 방법에 따른 코돈 최적화는 인간 세포에서 암호화된 단백질의 보다 높은 발현을 초래하고, 발현된 단백질은 인간 요법에 대해 매우 관련 있는 모델 시스템 내에서 충분한 기능적 활성을 제공한다.

실시예 5. CAI를 증가시키기 위한 DNAI1 mRNA 서열의 코돈 최적화는 보다 높은 단백질 발현을 유도함.

본 실시예의 데이터는, 약 0.8 이상의 CAI를 달성하기 위한 추가 치료적으로 관련된 뉴클레오티드 서열(DNAI1)의 코돈 최적화가, 특히 그의 CFD 및 그의 GC 함량의 최적화, 및 핵산 서열로부터 임의의 음성 CIS 요소의 제거와 또한 조합될 때, 세포에서 보다 높은 단백질 수율을 초래한다는 것을 입증한다. 본 실시예의 데이터는 또한 CAI 값이 본 발명의 방법에 따라 생성된 코돈-최적화된 mRNA에 대한 단백질 발현 수율과 양의 상관 관계가 있음을 확증한다.

원발성 섬모 운동이상증(PCD)은 기도, 생식계 및 다른 기관 및 조직의 내막에서 발견되는 비정상적인 섬모 및 편모를 특징으로 하는 자가 열성 장애이다. 증상은 출생 시부터 호흡 곤란과 함께 나타나며, 이에 영향을 받는 개체는 아동기 초기에서의 빈번한 호흡기 감염이 발생한다. PCD 환자들은 또한 연중 내내 코 막힘 및 만성 기침을 겪는다. 만성 호흡기 감염은 기관지 확장증이라는 병태를 초래할 수 있으며, 이는 기관지라는 통로를 손상시키고 생명을 위협하는 호흡 문제를 야기할 수 있다. PCD를 앓고 있는 일부 개체는 또한 불임, 재발성 귀 감염, 흉부 및 복부 내의 비정상적으로 배치된 장기를 갖는다. PCD 발병기전에 직접적으로 관여하는 것으로 확인된 여러 유전자 중에서, 상당한 수의 돌연변이는 다음의 2개의 유전자에서 발견된다: DNAI1 및 DNAH5(이들은 각각 축세사 디네인의 중간체 및 중쇄를 암호화함).

코돈 최적화된 DNAI1 코딩 서열을 암호화하는 mRNA는 PCD를 치료하기 위한 신규 치료제로서 개발되고 있다.

코돈 최적화는, DNAI1 #1(서열번호 29), DNAI1 #2(서열번호 30), DNAI1 #3(서열번호 31)으로 지정된 3개의 서열을 생성하도록, 실시예 1에 예시된 바와 같은 본 발명의 방법에 따른 천연 DNAI1 아미노산 서열을 사용하여 수행되었다. 코돈 최적화된 DNAI1 서열인 DNAI1 #4(서열번호 32) 또한 참조로서 포함되었다. DNAI1 #4는 코돈 최적화되었지만, 모티프 스크린 필터, 구아닌-시토신(GC) 함량 분석 필터, 및 코돈 적용 인덱스(CAI) 분석 필터를 적용하여 추가로 프로세싱되지 않았다. 표 3에 기술된 바와 같이, 본 발명의 방법에 따라 생성된 코돈-최적화된 뉴클레오티드 서열은 0.8 이상의 CAI 값을 가졌다.

뉴클레오티드 서열	서열번호	CAI	GC 함량%
DNAI1 #1	29	0.90	53.33
DNAI1 #2	30	0.87	50.48
DNAI1 #3	31	0.87	51.61
DNAI1 #4	32	0.83	55.57

각각의 코돈 최적화된 서열의 단백질 수율을 시험하기 위해, 동일한 5' 및 3' UTR이 측면에 위치한 DNAI1 단백질을 암호화하는 4개의 뉴클레오티드 서열 중 하나를 함유하고 RNA 중합효소 프로모터가 선행하는 발현 카세트를 각각 포함하는 4개의 핵산 벡터를 제조하였다. 이들 핵산 벡터는 시험관 내 전사 반응을 위한 템플릿으로서 기능하여 4개의 코돈 최적화된 뉴클레오티드 서열(DNAI1 #1 내지 #4)을 함유하는 mRNA의 4개의 배치를 제공하였다. 캡핑 및 테일링을 별도로 수행하였다.

각각 2 μg의 캡핑된 mRNA 및 꼬리가 달린 mRNA를 사용하여 형질감염된 10⁵개의 HEK293T 세포를 형질감염시켰다. 또한, 음성 대조군으로서 형질감염되지 않은 HEK293T 세포를 제공하였다. 형질감염 후 24시간차에 세포 용해물을 수집하고, 단백질 샘플을 추출하고 SDS-PAGE를 위해 처리하였다. 각각의 세포 배치로부터 2개의 샘플을 처리하고 분석하였다. 암호화된 DNAI1 단백질의 발현 수준을 항-DNAI1 일차 항체(αDNAI1)를 사용하여 웨스턴 블롯으로 평가하였다. 또한, 로딩 대조군을 제공하기 위해, 항-빈쿨린 일차 항체(αVinculin)를 사용하여 빈쿨린의 발현 수준을 측정하였다. 신호를 LI-COR 영상화 시스템을 사용하여 발생시키고 정량화하였으며, 빈쿨린으로 정규화된 DNAI1 단백질 수율은 코돈 최적화되지 않은 DNAL1 서열을 암호화하는 mRNA로 달성된 참조 수준에 대한 배수 증가로서 도 15b에 도표화하였다. 본 실험의 결과를 도 15에 요약하였다. 최고의 CAI(0.90)를 갖는 코돈 최적화된 뉴클레오티드 서열 DNAI1 #1은 참조(DNAI1 #4)와 비교 시 가장 높은 수준의 DNAI1 단백질을 생성하였다. 코돈 최적화된 서열 DNAI1 #2 및 DNAI1 #3 둘 모두는 0.87의 CAI를 가졌고, 뉴클레오티드 서열의 차이에도 불구하고 유사한 수준의 DNAI1 단백질을 생성하였으며, 이는 CAI가 단백질 발현 수율과 밀접하게 연관되어 있음을 나타낸다. 0.83의 CAI를 갖는 코돈 최적화된 서열 DNAI1 #4는 보다 높은 CAI를 갖는 최적화된 뉴클레오티드 서열에 비해 가장 적은 양의 단백질을 생성하였지만, 참조 수준에 비해 여전히 상당히 증가된 양을 나타냈다.

종합하면, 이들 데이터는 본 발명의 코돈 최적화된 뉴클레오티드 서열을 포함하는 mRNA의 경우, 보다 높은 CAI는 단백질 발현 수율을 강력하게 나타내며, 또한 유사한 CAI 값을 갖는 상이한 코돈 최적화된 뉴클레오티드 서열은 세포에서, 유사한 수준의 암호화된 단백질을 생성한다는 것을 나타낸다.

넘버링된 본 발명의 구현예

1. 최적화된 뉴클레오티드 서열을 생성하기 위한 컴퓨터 구현 방법으로서,

(i) 아미노산 서열을 수령하는 단계로서, 상기 아미노산 서열은 펩티드, 폴리펩티드, 또는 단백질을 암호화하는, 단계;

(ii) 제1 코돈 사용 테이블을 수령하는 단계로서, 상기 제1 코돈 사용 테이블은 아미노산의 목록을 포함하되, 상기 테이블 내의 각각의 아미노산은 적어도 하나의 코돈과 연관되고, 각각의 코돈은 사용 빈도와 연관되는, 단계;

(iii) 임계 빈도 미만인 코돈 사용 빈도와 연관되는 임의의 코돈을 상기 제1 코돈 사용 테이블로부터 제거하는 단계;

(iv) 단계 (iii)에서 제거되지 않은 코돈의 사용 빈도를 정규화함으로써 정규화된 코돈 사용 테이블을 생성하는 단계; 및

(v) 상기 정규화된 코돈 사용 테이블에서의 상기 아미노산과 연관된 상기 하나 이상의 코돈의 사용 빈도에 기초하여 상기 아미노산 서열의 각각의 아미노산에 대한 코돈을 선택함으로써 상기 아미노산 서열을 암호화하는 최적화된 뉴클레오티드 서열을 생성하는 단계를 포함하는, 방법.

2. 구현예 1에 있어서, 정규화하는 단계는,

(a) 단계 (iii)에서 제거되고 제1 아미노산과 연관된 각각의 코돈의 사용 빈도를 상기 제1 아미노산과 연관된 나머지 코돈에 분배하는 단계; 및

(b) 각각의 아미노산에 대해 단계 (a)를 반복하여 상기 정규화된 코돈 사용 테이블을 생성하는 단계를 포함하는, 방법.

3. 구현예 2에 있어서, 제거된 코돈의 사용 빈도는 나머지 코돈 중에 균등하게 분포되는, 방법.

4. 구현예 2에 있어서, 제거된 코돈의 사용 빈도는 각각의 나머지 코돈의 사용 빈도에 기초하여, 나머지 코돈 중에 균등하게 분배되는, 방법.

5. 구현예 1 내지 4 중 어느 하나에 있어서, 각각의 아미노산에 대한 코돈을 선택하는 단계는,

(a) 정규화된 코돈 사용 테이블에서, 아미노산 서열의 제1 아미노산과 연관된 하나 이상의 코돈을 식별하는 단계;

(b) 상기 제1 아미노산과 연관된 코돈을 선택하는 단계로서, 상기 소정의 코돈을 선택할 확률은 정규화된 코돈 사용 테이블에서의 상기 제1 아미노산과 연관된 코돈과 연관된 사용 빈도와 동일한, 단계; 및

(c) 코돈이 상기 아미노산 서열 내의 각각의 아미노산에 대해 선택될 때까지 단계 (a) 및 (b)를 반복하는 단계를 포함하는, 방법.

6. 구현예 1 내지 5 중 어느 하나에 있어서, 단계 (v)는 최적화된 뉴클레오티드 서열의 목록을 생성하도록 복수의 횟수로 수행되는, 방법.

7. 구현예 1 내지 6 중 어느 하나에 있어서, 임계 빈도는 사용자가 선택할 수 있는, 방법.

8. 구현예 1 내지 7 중 어느 하나에 있어서, 임계 빈도는 5% 내지 30%의 범위, 특히 5%, 10%, 또는 15%, 또는 20%, 또는 25%, 또는 30%, 또는 특히 10%인, 방법.

9. 구현예 6 내지 8 중 어느 하나에 있어서,

최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록의 각각의 최적화된 뉴클레오티드 서열이 종결 신호를 함유하는지의 여부를 결정하는 단계; 및

상기 뉴클레오티드 서열이 하나 이상의 종결 신호를 함유하는 경우, 상기 목록 또는 가장 최근에 업데이트된 목록으로부터 이에 해당하는 뉴클레오티드 서열을 제거함으로써 상기 최적화된 뉴클레오티드 서열의 목록을 업데이트하는 단계를 포함하는, 방법.

10. 실시예 9에 있어서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열:

5'-X₁ATCTX₂TX₃-3'을 갖되,

X₁, X₂ 및 X₃은 A, C, T 또는 G로부터 독립적으로 선택되는, 방법.

11. 실시예 10에 있어서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열:

TATCTGTT; 및/또는

TTTTTT; 및/또는

AAGCTT; 및/또는

GAAGAGC; 및/또는

TCTAGA 중 하나 이상을 갖는, 방법.

12. 실시예 9에 있어서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열:

5'-X₁AUCUX₂UX₃-3'을 갖되,

X₁, X₂ 및 X₃은 독립적으로 A, C, U 또는 G로부터 선택되는, 방법.

13. 실시예 12에 있어서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열:

UAUCUGUU; 및/또는

UUUUUU; 및/또는

AAGCUU; 및/또는

GAAGAGC; 및/또는

UCUAGA 중 하나를 갖는, 방법.

14. 구현예 6 내지 13 중 어느 하나에 있어서,

최적화된 뉴클레오티드 서열의 목록 또는 가장 최근에 업데이트된 목록의 최적화된 뉴클레오티드 서열 각각의 구아닌-시토신 함량을 결정하는 단계로서, 상기 서열의 구아닌-시토신 함량은 구아닌 또는 시토신인 상기 뉴클레오티드 서열 내 염기의 백분율인, 단계;

상기 최적화된 뉴클레오티드 서열의 구아닌-시토신 함량이 사전에 결정된 GC 함량 범위를 벗어나는 경우, 상기 목록으로부터 해당 뉴클레오티드 서열을 제거하는 단계에 의해 상기 최적화된 뉴클레오티드 서열의 목록을 업데이트하는 단계를 추가로 포함하는, 방법.

15. 구현예 14에 있어서, 최적화된 뉴클레오티드 서열 각각의 구아닌-시토신 함량을 결정하는 단계는, 각각의 뉴클레오티드 서열에 대해,

상기 뉴클레오티드 서열의 제1 부분의 구아닌-시토신 함량을 결정하는 단계를 포함하되, 최적화된 뉴클레오티드 서열의 목록을 업데이트하는 단계는,

상기 제1 부분의 구아닌-시토신 함량이 사전에 결정된 구아닌-시토신 함량 범위를 벗어나는 경우, 상기 뉴클레오티드 서열을 제거하는 단계를 포함하는, 방법.

16. 구현예 15에 있어서, 최적화된 뉴클레오티드 서열 각각의 구아닌-시토신 함량을 결정하는 단계는, 각각의 뉴클레오티드 서열에 대해,

상기 뉴클레오티드 서열의 하나 이상의 추가 부분의 구아닌-시토신 함량을 결정하는 단계를 추가로 포함하되, 상기 추가 부분은 서로 중첩되지 않고 상기 제1 부분과 중첩되지 않으며, 여기에서 최적화된 서열의 목록을 업데이트하는 단계는,

임의의 부분의 구아닌-시토신 함량이 미리 결정된 구아닌-시토신 함량 범위를 벗어나는 경우, 상기 뉴클레오티드 서열을 제거하는 단계를 포함하되, 선택적으로 상기 뉴클레오티드 서열의 구아닌-시토신 함량을 결정하는 단계는 임의의 부분의 구아닌-시토신 함량이 사전에 결정된 구아닌-시토신 함량 범위를 벗어나는 것으로 결정될 때 중단되는, 방법.

17. 구현예 15 또는 16에 있어서, 뉴클레오티드 서열의 제1 부분 및/또는 하나 이상의 추가 부분은 사전에 결정된 수의 뉴클레오티드를 포함하되, 선택적으로, 상기 사전에 결정된 수의 뉴클레오티드는 5 내지 300개의 뉴클레오티드, 또는 10 내지 200개의 뉴클레오티드, 또는 15 내지 100개의 뉴클레오티드, 또는 20 내지 50개의 뉴클레오티드의 범위, 예를 들어 30개의 뉴클레오티드인, 방법.

18. 구현예 17에 있어서, 사전에 결정된 구아닌-시토신 함량 범위는 사용자가 선택할 수 있는, 방법.

19. 구현예 17 또는 18에 있어서, 사전에 결정된 구아닌-시토신 함량 범위는 15% 내지 75%, 또는 40% 내지 60%, 또는 특히 30% 내지 70%인, 방법.

20. 구현예 6 내지 19 중 어느 하나에 있어서,

최적화된 뉴클레오티드 서열의 목록 또는 가장 최근에 업데이트된 목록의 최적화된 뉴클레오티드 서열 각각의 코돈 적용 인덱스를 결정하는 단계로서, 상기 서열의 코돈 적용 인덱스는 코돈 사용 편향의 척도이고 0 내지 1의 값일 수 있는, 단계;

임의의 뉴클레오티드 서열의 코돈 적용 인덱스가 사전에 결정된 코돈 적용 인덱스 임계값 이하인 경우, 해당 뉴클레오티드 서열을 제거함으로써 최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록을 업데이트하는 단계를 추가로 포함하는, 방법.

21. 구현예 20에 있어서, 코돈 적용 인덱스 임계값은 사용자가 선택할 수 있는, 방법.

22. 구현예 20 또는 21에 있어서, 코돈 적용 인덱스 임계값은 0.7, 또는 0.75, 또는 0.85, 또는 0.9, 또는 특히 0.8인, 방법.

23. 구현예 1 내지 22 중 어느 하나에 있어서, 아미노산 서열은 아미노산 서열의 데이터베이스로부터 수령되는, 방법.

24. 구현예 23에 있어서, 아미노산 서열의 데이터베이스로부터의 아미노산 서열을 요청하는 단계를 추가로 포함하되, 아미노산 서열은 상기 요청에 응답하여 수령되는, 방법.

25. 구현예 1 내지 24 중 어느 하나에 있어서, 제1 코돈 사용 테이블은 코돈 사용 테이블의 데이터베이스로부터 수령되는, 방법.

26. 구현예 24에 있어서, 코돈 사용 테이블의 데이터베이스로부터의 제1 코돈 사용 테이블을 요청하는 단계를 추가로 포함하되, 제1 코돈 사용 테이블은 상기 요청에 응답하여 수령되는, 방법.

27. 구현예 1 내지 26 중 어느 하나에 있어서, 적어도 하나의 최적화된 뉴클레오티드 서열을 스크린 상에 디스플레이하는 단계를 추가로 포함하는, 방법.

28. 명령어를 포함하는 컴퓨터 프로그램으로서, 상기 프로그램은 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 구현예 1 내지 27 중 어느 하나의 방법을 실행하게 하는, 컴퓨터 프로그램.

29. 구현예 1 내지 28 중 어느 하나의 방법을 수행하기 위한 수단을 포함하는, 데이터 프로세싱 시스템.

30. 구현예 28의 컴퓨터 프로그램이 저장된 ,컴퓨터 판독가능 데이터 캐리어.

31. 구현예 28의 컴퓨터 프로그램을 운반하는, 데이터 캐리어 신호.

32. 뉴클레오티드 서열을 합성하는 방법으로서,

적어도 하나의 최적화된 뉴클레오티드 서열을 생성하도록 구현예 1 내지 27 중 어느 하나의 컴퓨터 구현 방법을 수행하는 단계; 및

상기 생성된 최적화된 뉴클레오티드 서열 중 적어도 하나를 합성하는 단계를 포함하는, 방법.

33. 구현예 32에 있어서, 방법은 합성된 최적화된 서열을 시험관 내 전사에 사용하기 위한 핵산 벡터에 삽입하는 단계를 추가로 포함하는, 방법.

34. 구현예 32 또는 33에 있어서, 방법은 합성된 최적화된 뉴클레오티드 서열의 3' 말단에 하나 이상의 종결 신호를 삽입하는 단계를 추가로 포함하는, 방법.

35. 구현예 34에 있어서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열:

5'-X₁ATCTX₂TX₃-3',

(여기에서, X₁, X₂, 및 X₃은 A, C, T, 또는 G로부터 독립적으로 선택됨)에 의해 암호화되는, 방법.

36. 구현예 34 또는 35에 있어서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열:

TATCTGTT;

TTTTTT;

AAGCTT;

GAAGAGC; 및/또는

TCTAGA 중 하나 이상에 의해 암호화되는, 방법.

37. 구현예 34 내지 36 중 어느 하나에 있어서, 하나 이상의 종결 신호가 삽입되고, 상기 종결 신호는 10개 이하의 염기쌍만큼, 예를 들어 5 내지 10개의 염기쌍만큼 이격되는, 방법.

38. 구현예 36에 있어서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열: (a) 5'-X₁ATCTX₂TX₃-(Z_N)- X₄ATCTX₅TX₆-3' 또는 (b) 5'-X₁ATCTX₂TX₃-(Z_N)- X₄ATCTX₅TX₆-(Z_M)- X₇ATCTX₈TX₉-3'에 의해 암호화되며, 여기에서 X₁, X₂, X₃, X₄, X₅, X₆, X₇, X₈, 및 X₉는 A, C, T, 또는 G로부터 선택되고, Z_N은 N 뉴클레오티드의 스페이서 서열을 나타내고, Z_M은 M 뉴클레오티드의 스페이서 서열을 나타내되, 이들 각각은 A, C, T, 또는 G로부터 독립적으로 선택되고, N 및/또는 M은 독립적으로 10 이하인, 방법.

39. 구현예 33 내지 38 중 어느 하나에 있어서, 핵산 벡터는 최적화된 뉴클레오티드 서열에 작동 가능하게 연결된 RNA 중합효소 프로모터를 포함하되, 선택적으로 상기 RNA 중합효소 프로모터는 SP6 RNA 중합효소 프로모터 또는 T7 RNA 중합효소 프로모터인, 방법.

40. 구현예 33 내지 39 중 어느 하나에 있어서, 핵산 벡터는 플라스미드인, 방법.

41. 구현예 40에 있어서, 플라스미드는 시험관 내 전사 전에 선형화되는, 방법.

42. 구현예 40에 있어서, 플라스미드는 시험관 내 전사 전에 선형화되지 않는, 방법.

43. 구현예 42에 있어서, 플라스미드는 수퍼코일형인, 방법.

44. 구현예 32 내지 43 중 어느 하나에 있어서, 방법은 적어도 하나의 합성된 최적화된 뉴클레오티드 서열을 시험관 내 전사에 사용하여 mRNA를 합성하는 단계를 추가로 포함하는, 방법.

45. 구현예 44에 있어서, mRNA는 SP6 RNA 중합효소에 의해 합성되는, 방법.

46. 구현예 45에 있어서, SP6 RNA 중합효소는 자연 발생 SP6 RNA 중합효소인, 방법.

47. 구현예 45에 있어서, SP6 RNA 중합효소는 재조합 SP6 RNA 중합효소인, 방법.

48. 구현예 47에 있어서, SP6 RNA 중합효소는 태그를 포함하는, 방법.

49. 구현예 48에 있어서, 태그는 his-태그인, 방법.

50. 구현예 44에 있어서, mRNA는 T7 RNA 중합효소에 의해 합성되는, 방법.

51. 구현예 44 내지 50 중 어느 하나에 있어서, 방법은 합성된 mRNA를 캡핑 및/또는 테일링하는 별도의 단계를 추가로 포함하는, 방법.

52. 구현예 44 내지 50 중 어느 하나에 있어서, 캡핑 및 테일링 단계는 시험관 내 전사 동안 발생하는, 방법.

53. 구현예 44 내지 52 중 어느 하나에 있어서, mRNA는 각 NTP의 농도 범위가 1 내지 10 mM인 NTP; 0.01 내지 0.5 mg/ml의 농도 범위의 DNA 템플릿; 및 0.01 내지 0.1 mg/ml의 농도 범위의 SP6 RNA 중합효소를 포함하는 반응 혼합물에서 합성되는, 방법.

54. 구현예 53에 있어서, 반응 혼합물은 각 NTP의 농도가 5 mM인 NTP, 0.1 mg/ml 농도의 DNA 템플릿, 및 0.05 mg/ml 농도의 SP6 RNA 중합효소를 포함하는, 방법.

55. 구현예 44 내지 54 중 어느 하나에 있어서, mRNA는 37 내지 56℃의 온도 범위에서 합성되는, 방법.

56. 구현예 53 내지 55 중 어느 하나에 있어서, NTP는 자연 발생 NTP인, 방법.

57. 구현예 53 내지 55 중 어느 하나에 있어서, NTP는 변형된 NTP를 포함하는, 방법.

58. 구현예 32 내지 57 중 어느 하나에 있어서, 방법은 합성된 최적화된 뉴클레오티드 서열을 시험관 내 또는 생체 내 세포 내로 형질감염시키는 단계를 추가로 포함하는, 방법.

59. 구현예 58에 있어서, 형질감염된 세포에서의 합성된 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 발현 수준이 결정되는, 방법.

60. 구현예 58 또는 59에 있어서, 합성된 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 기능적 활성이 결정되는, 방법.

61. 구현예 1 내지 27 중 어느 하나에 있어서, 구현예 32 내지 60 중 어느 하나의 방법에 따라 아미노산 서열 및 적어도 하나의 최적화된 뉴클레오티드 서열을 암호화하는 참조 뉴클레오티드 서열을 합성하는 단계, 및 상기 참조 뉴클레오티드 서열 및 상기 적어도 하나의 최적화된 뉴클레오티드 서열을 별도의 세포 또는 유기체와 접촉시키는 단계를 추가로 포함하되, 상기 적어도 하나의 합성된 최적화된 뉴클레오티드 서열과 접촉된 세포 또는 유기체는, 상기 합성된 참조 뉴클레오티드 서열과 접촉된 세포 또는 유기체에 의해 생성된 참조 뉴클레오티드 서열에 의해 암호화된 단백질의 수율과 비교하여, 상기 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 증가된 수율을 생성하는, 방법.

62. 구현예 32 내지 60 중 어느 하나에 있어서, 방법은 대상체에게 전달하거나 대상체를 치료하는 데 사용하기 위한 치료 펩티드, 폴리펩티드, 또는 단백질을 암호화하는 mRNA를 포함하는 치료 조성물을 생성하는 단계를 추가로 포함하는, 방법.

63. 구현예 62에 있어서, mRNA는 낭성 섬유증 막관통 전달 조절자(CFTR) 단백질을 암호화하는, 방법.

64. 구현예 1 내지 27 중 어느 하나에 있어서, 합성될 때, 적어도 하나의 최적화된 뉴클레오티드 서열은, 합성될 때, 참조 뉴클레오티드 서열에 의해 암호화된 단백질의 발현과 비교하여 적어도 하나의 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 발현을 증가시키도록 구성되는, 방법.

65. 구현예 61 내지 64 중 어느 하나에 있어서, 참조 뉴클레오티드 서열은, (a) 아미노산 서열을 암호화하는 자연 발생 뉴클레오티드 서열; 또는 (b) 구현예 1 내지 27 중 어느 하나에 따른 방법 이외의 방법에 의해 생성된 아미노산 서열을 암호화하는 뉴클레오티드 서열인, 방법.

66. 치료에 사용하기 위해 구현예 32 내지 57, 및 62 내지 65 중 어느 하나의 방법에 따라 생성된, 합성된 최적화된 뉴클레오티드 서열.

67. 치료 방법으로서, 구현예 32 내지 57, 및 62 내지 65 중 어느 하나의 방법에 따라 생성된, 합성된 최적화된 뉴클레오티드 서열을 이러한 치료를 필요로 하는 인간 대상체에게 투여하는 단계를 포함하는, 방법.

68. 10% 이상의 사용 빈도와 연관된 코돈으로 이루어진 최적화된 뉴클레오티드 서열을 포함하는 시험관 내에서 합성된 핵산으로서, 상기 최적화된 뉴클레오티드 서열은,

(i) 하기 뉴클레오티드 서열 중 하나를 갖는 종결 신호:

5'-X₁AUCUX₂UX₃-3'(여기에서, X₁, X₂ 및 X₃은 A, C, U 또는 G로부터 독립적으로 선택됨), 및 5'-X₁AUCUX₂UX₃-3'(여기에서, X₁, X₂ 및 X₃은 A, C, U 또는 G로부터 독립적으로 선택됨)를 포함하지 않고;

(ii) 시스 조절 요소 및 음성 반복 요소를 함유하지 않으며;

(iii) 0.8을 초과하는 코돈 적용 인덱스를 가지되;

중첩되지 않는 30개의 뉴클레오티드-길이의 부분으로 나누어질 경우, 상기 최적화된 뉴클레오티드 서열의 각 부분은 30% 내지 70%의 구아닌 시토신 함량 범위를 갖는, 핵산.

69. 구현예 67의 시험관 내에서 합성된 핵산으로서, 최적화된 뉴클레오티드 서열은, TATCTGTT; TTTTTT; AAGCTT; GAAGAGC; TCTAGA; UAUCUGUU; UUUUUU; AAGCUU; GAAGAGC; UCUAGA의 서열 중 하나를 갖는 종결 신호를 함유하지 않는, 핵산.

70. 구현예 68 또는 69의 시험관 내에서 합성된 핵산으로서, 핵산은 mRNA인, 핵산.

71. 구현예 68 내지 70의 시험관 내에서 합성된 핵산으로서, 치료 요법에 사용하기 위한, 핵산.

SEQUENCE LISTING <110> TRANSLATE BIO INC. <120> GENERATION OF OPTIMIZED NUCLEOTIDE SEQUENCES <130> MRT-2131WO <141> 2021-05-07 <150> US 62/978,180 <151> 2020-02-18 <150> US 63/021,345 <151> 2020-05-07 <160> 32 <170> SeqWin2010, version 1.0 <210> 1 <211> 874 <212> PRT <213> Bacteriophage SP6 <400> 1 Met Gln Asp Leu His Ala Ile Gln Leu Gln Leu Glu Glu Glu Met Phe 1 5 10 15 Asn Gly Gly Ile Arg Arg Phe Glu Ala Asp Gln Gln Arg Gln Ile Ala 20 25 30 Ala Gly Ser Glu Ser Asp Thr Ala Trp Asn Arg Arg Leu Leu Ser Glu 35 40 45 Leu Ile Ala Pro Met Ala Glu Gly Ile Gln Ala Tyr Lys Glu Glu Tyr 50 55 60 Glu Gly Lys Lys Gly Arg Ala Pro Arg Ala Leu Ala Phe Leu Gln Cys 65 70 75 80 Val Glu Asn Glu Val Ala Ala Tyr Ile Thr Met Lys Val Val Met Asp 85 90 95 Met Leu Asn Thr Asp Ala Thr Leu Gln Ala Ile Ala Met Ser Val Ala 100 105 110 Glu Arg Ile Glu Asp Gln Val Arg Phe Ser Lys Leu Glu Gly His Ala 115 120 125 Ala Lys Tyr Phe Glu Lys Val Lys Lys Ser Leu Lys Ala Ser Arg Thr 130 135 140 Lys Ser Tyr Arg His Ala His Asn Val Ala Val Val Ala Glu Lys Ser 145 150 155 160 Val Ala Glu Lys Asp Ala Asp Phe Asp Arg Trp Glu Ala Trp Pro Lys 165 170 175 Glu Thr Gln Leu Gln Ile Gly Thr Thr Leu Leu Glu Ile Leu Glu Gly 180 185 190 Ser Val Phe Tyr Asn Gly Glu Pro Val Phe Met Arg Ala Met Arg Thr 195 200 205 Tyr Gly Gly Lys Thr Ile Tyr Tyr Leu Gln Thr Ser Glu Ser Val Gly 210 215 220 Gln Trp Ile Ser Ala Phe Lys Glu His Val Ala Gln Leu Ser Pro Ala 225 230 235 240 Tyr Ala Pro Cys Val Ile Pro Pro Arg Pro Trp Arg Thr Pro Phe Asn 245 250 255 Gly Gly Phe His Thr Glu Lys Val Ala Ser Arg Ile Arg Leu Val Lys 260 265 270 Gly Asn Arg Glu His Val Arg Lys Leu Thr Gln Lys Gln Met Pro Lys 275 280 285 Val Tyr Lys Ala Ile Asn Ala Leu Gln Asn Thr Gln Trp Gln Ile Asn 290 295 300 Lys Asp Val Leu Ala Val Ile Glu Glu Val Ile Arg Leu Asp Leu Gly 305 310 315 320 Tyr Gly Val Pro Ser Phe Lys Pro Leu Ile Asp Lys Glu Asn Lys Pro 325 330 335 Ala Asn Pro Val Pro Val Glu Phe Gln His Leu Arg Gly Arg Glu Leu 340 345 350 Lys Glu Met Leu Ser Pro Glu Gln Trp Gln Gln Phe Ile Asn Trp Lys 355 360 365 Gly Glu Cys Ala Arg Leu Tyr Thr Ala Glu Thr Lys Arg Gly Ser Lys 370 375 380 Ser Ala Ala Val Val Arg Met Val Gly Gln Ala Arg Lys Tyr Ser Ala 385 390 395 400 Phe Glu Ser Ile Tyr Phe Val Tyr Ala Met Asp Ser Arg Ser Arg Val 405 410 415 Tyr Val Gln Ser Ser Thr Leu Ser Pro Gln Ser Asn Asp Leu Gly Lys 420 425 430 Ala Leu Leu Arg Phe Thr Glu Gly Arg Pro Val Asn Gly Val Glu Ala 435 440 445 Leu Lys Trp Phe Cys Ile Asn Gly Ala Asn Leu Trp Gly Trp Asp Lys 450 455 460 Lys Thr Phe Asp Val Arg Val Ser Asn Val Leu Asp Glu Glu Phe Gln 465 470 475 480 Asp Met Cys Arg Asp Ile Ala Ala Asp Pro Leu Thr Phe Thr Gln Trp 485 490 495 Ala Lys Ala Asp Ala Pro Tyr Glu Phe Leu Ala Trp Cys Phe Glu Tyr 500 505 510 Ala Gln Tyr Leu Asp Leu Val Asp Glu Gly Arg Ala Asp Glu Phe Arg 515 520 525 Thr His Leu Pro Val His Gln Asp Gly Ser Cys Ser Gly Ile Gln His 530 535 540 Tyr Ser Ala Met Leu Arg Asp Glu Val Gly Ala Lys Ala Val Asn Leu 545 550 555 560 Lys Pro Ser Asp Ala Pro Gln Asp Ile Tyr Gly Ala Val Ala Gln Val 565 570 575 Val Ile Lys Lys Asn Ala Leu Tyr Met Asp Ala Asp Asp Ala Thr Thr 580 585 590 Phe Thr Ser Gly Ser Val Thr Leu Ser Gly Thr Glu Leu Arg Ala Met 595 600 605 Ala Ser Ala Trp Asp Ser Ile Gly Ile Thr Arg Ser Leu Thr Lys Lys 610 615 620 Pro Val Met Thr Leu Pro Tyr Gly Ser Thr Arg Leu Thr Cys Arg Glu 625 630 635 640 Ser Val Ile Asp Tyr Ile Val Asp Leu Glu Glu Lys Glu Ala Gln Lys 645 650 655 Ala Val Ala Glu Gly Arg Thr Ala Asn Lys Val His Pro Phe Glu Asp 660 665 670 Asp Arg Gln Asp Tyr Leu Thr Pro Gly Ala Ala Tyr Asn Tyr Met Thr 675 680 685 Ala Leu Ile Trp Pro Ser Ile Ser Glu Val Val Lys Ala Pro Ile Val 690 695 700 Ala Met Lys Met Ile Arg Gln Leu Ala Arg Phe Ala Ala Lys Arg Asn 705 710 715 720 Glu Gly Leu Met Tyr Thr Leu Pro Thr Gly Phe Ile Leu Glu Gln Lys 725 730 735 Ile Met Ala Thr Glu Met Leu Arg Val Arg Thr Cys Leu Met Gly Asp 740 745 750 Ile Lys Met Ser Leu Gln Val Glu Thr Asp Ile Val Asp Glu Ala Ala 755 760 765 Met Met Gly Ala Ala Ala Pro Asn Phe Val His Gly His Asp Ala Ser 770 775 780 His Leu Ile Leu Thr Val Cys Glu Leu Val Asp Lys Gly Val Thr Ser 785 790 795 800 Ile Ala Val Ile His Asp Ser Phe Gly Thr His Ala Asp Asn Thr Leu 805 810 815 Thr Leu Arg Val Ala Leu Lys Gly Gln Met Val Ala Met Tyr Ile Asp 820 825 830 Gly Asn Ala Leu Gln Lys Leu Leu Glu Glu His Glu Val Arg Trp Met 835 840 845 Val Asp Thr Gly Ile Glu Val Pro Glu Gln Gly Glu Phe Asp Leu Asn 850 855 860 Glu Ile Met Asp Ser Glu Tyr Val Phe Ala 865 870 <210> 2 <211> 2625 <212> DNA <213> Bacteriophage SP6 <400> 2 atgcaagatt tacacgctat ccagcttcaa ttagaagaag agatgtttaa tggtggcatt 60 cgtcgcttcg aagcagatca acaacgccag attgcagcag gtagcgagag cgacacagca 120 tggaaccgcc gcctgttgtc agaacttatt gcacctatgg ctgaaggcat tcaggcttat 180 aaagaagagt acgaaggtaa gaaaggtcgt gcacctcgcg cattggcttt cttacaatgt 240 gtagaaaatg aagttgcagc atacatcact atgaaagttg ttatggatat gctgaatacg 300 gatgctaccc ttcaggctat tgcaatgagt gtagcagaac gcattgaaga ccaagtgcgc 360 ttttctaagc tagaaggtca cgccgctaaa tactttgaga aggttaagaa gtcactcaag 420 gctagccgta ctaagtcata tcgtcacgct cataacgtag ctgtagttgc tgaaaaatca 480 gttgcagaaa aggacgcgga ctttgaccgt tgggaggcgt ggccaaaaga aactcaattg 540 cagattggta ctaccttgct tgaaatctta gaaggtagcg ttttctataa tggtgaacct 600 gtatttatgc gtgctatgcg cacttatggc ggaaagacta tttactactt acaaacttct 660 gaaagtgtag gccagtggat tagcgcattc aaagagcacg tagcgcaatt aagcccagct 720 tatgcccctt gcgtaatccc tcctcgtcct tggagaactc catttaatgg agggttccat 780 actgagaagg tagctagccg tatccgtctt gtaaaaggta accgtgagca tgtacgcaag 840 ttgactcaaa agcaaatgcc aaaggtttat aaggctatca acgcattaca aaatacacaa 900 tggcaaatca acaaggatgt attagcagtt attgaagaag taatccgctt agaccttggt 960 tatggtgtac cttccttcaa gccactgatt gacaaggaga acaagccagc taacccggta 1020 cctgttgaat tccaacacct gcgcggtcgt gaactgaaag agatgctatc acctgagcag 1080 tggcaacaat tcattaactg gaaaggcgaa tgcgcgcgcc tatataccgc agaaactaag 1140 cgcggttcaa agtccgccgc cgttgttcgc atggtaggac aggcccgtaa atatagcgcc 1200 tttgaatcca tttacttcgt gtacgcaatg gatagccgca gccgtgtcta tgtgcaatct 1260 agcacgctct ctccgcagtc taacgactta ggtaaggcat tactccgctt taccgaggga 1320 cgccctgtga atggcgtaga agcgcttaaa tggttctgca tcaatggtgc taacctttgg 1380 ggatgggaca agaaaacttt tgatgtgcgc gtgtctaacg tattagatga ggaattccaa 1440 gatatgtgtc gagacatcgc cgcagaccct ctcacattca cccaatgggc taaagctgat 1500 gcaccttatg aattcctcgc ttggtgcttt gagtatgctc aataccttga tttggtggat 1560 gaaggaaggg ccgacgaatt ccgcactcac ctaccagtac atcaggacgg gtcttgttca 1620 ggcattcagc actatagtgc tatgcttcgc gacgaagtag gggccaaagc tgttaacctg 1680 aaaccctccg atgcaccgca ggatatctat ggggcggtgg cgcaagtggt tatcaagaag 1740 aatgcgctat atatggatgc ggacgatgca accacgttta cttctggtag cgtcacgctg 1800 tccggtacag aactgcgagc aatggctagc gcatgggata gtattggtat tacccgtagc 1860 ttaaccaaaa agcccgtgat gaccttgcca tatggttcta ctcgcttaac ttgccgtgaa 1920 tctgtgattg attacatcgt agacttagag gaaaaagagg cgcagaaggc agtagcagaa 1980 gggcggacgg caaacaaggt acatcctttt gaagacgatc gtcaagatta cttgactccg 2040 ggcgcagctt acaactacat gacggcacta atctggcctt ctatttctga agtagttaag 2100 gcaccgatag tagctatgaa gatgatacgc cagcttgcac gctttgcagc gaaacgtaat 2160 gaaggcctga tgtacaccct gcctactggc ttcatcttag aacagaagat catggcaacc 2220 gagatgctac gcgtgcgtac ctgtctgatg ggtgatatca agatgtccct tcaggttgaa 2280 acggatatcg tagatgaagc cgctatgatg ggagcagcag cacctaattt cgtacacggt 2340 catgacgcaa gtcaccttat ccttaccgta tgtgaattgg tagacaaggg cgtaactagt 2400 atcgctgtaa tccacgactc ttttggtact catgcagaca acaccctcac tcttagagtg 2460 gcacttaaag ggcagatggt tgcaatgtat attgatggta atgcgcttca gaaactactg 2520 gaggagcatg aagtgcgctg gatggttgat acaggtatcg aagtacctga gcaaggggag 2580 ttcgacctta acgaaatcat ggattctgaa tacgtatttg cctaa 2625 <210> 3 <211> 18 <212> DNA <213> Bacteriophage SP6 <400> 3 atttaggtga cactatag 18 <210> 4 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide <400> 4 atttagggga cactatagaa gag 23 <210> 5 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide <400> 5 atttagggga cactatagaa gg 22 <210> 6 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide <400> 6 atttagggga cactatagaa ggg 23 <210> 7 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide <400> 7 atttaggtga cactatagaa 20 <210> 8 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide <400> 8 atttaggtga cactatagaa ga 22 <210> 9 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide <400> 9 atttaggtga cactatagaa gag 23 <210> 10 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide <400> 10 atttaggtga cactatagaa gg 22 <210> 11 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide <400> 11 atttaggtga cactatagaa ggg 23 <210> 12 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide <220> <221> misc_feature <222> (22) <223> n is a, c, t or g <400> 12 atttaggtga cactatagaa gng 23 <210> 13 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide <400> 13 catacgattt aggtgacact atag 24 <210> 14 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> Bacteriophage T7 <400> 14 taatacgact cactatag 18 <210> 15 <211> 1480 <212> PRT <213> Artificial Sequence <220> <223> Homo sapiens <400> 15 Met Gln Arg Ser Pro Leu Glu Lys Ala Ser Val Val Ser Lys Leu Phe 1 5 10 15 Phe Ser Trp Thr Arg Pro Ile Leu Arg Lys Gly Tyr Arg Gln Arg Leu 20 25 30 Glu Leu Ser Asp Ile Tyr Gln Ile Pro Ser Val Asp Ser Ala Asp Asn 35 40 45 Leu Ser Glu Lys Leu Glu Arg Glu Trp Asp Arg Glu Leu Ala Ser Lys 50 55 60 Lys Asn Pro Lys Leu Ile Asn Ala Leu Arg Arg Cys Phe Phe Trp Arg 65 70 75 80 Phe Met Phe Tyr Gly Ile Phe Leu Tyr Leu Gly Glu Val Thr Lys Ala 85 90 95 Val Gln Pro Leu Leu Leu Gly Arg Ile Ile Ala Ser Tyr Asp Pro Asp 100 105 110 Asn Lys Glu Glu Arg Ser Ile Ala Ile Tyr Leu Gly Ile Gly Leu Cys 115 120 125 Leu Leu Phe Ile Val Arg Thr Leu Leu Leu His Pro Ala Ile Phe Gly 130 135 140 Leu His His Ile Gly Met Gln Met Arg Ile Ala Met Phe Ser Leu Ile 145 150 155 160 Tyr Lys Lys Thr Leu Lys Leu Ser Ser Arg Val Leu Asp Lys Ile Ser 165 170 175 Ile Gly Gln Leu Val Ser Leu Leu Ser Asn Asn Leu Asn Lys Phe Asp 180 185 190 Glu Gly Leu Ala Leu Ala His Phe Val Trp Ile Ala Pro Leu Gln Val 195 200 205 Ala Leu Leu Met Gly Leu Ile Trp Glu Leu Leu Gln Ala Ser Ala Phe 210 215 220 Cys Gly Leu Gly Phe Leu Ile Val Leu Ala Leu Phe Gln Ala Gly Leu 225 230 235 240 Gly Arg Met Met Met Lys Tyr Arg Asp Gln Arg Ala Gly Lys Ile Ser 245 250 255 Glu Arg Leu Val Ile Thr Ser Glu Met Ile Glu Asn Ile Gln Ser Val 260 265 270 Lys Ala Tyr Cys Trp Glu Glu Ala Met Glu Lys Met Ile Glu Asn Leu 275 280 285 Arg Gln Thr Glu Leu Lys Leu Thr Arg Lys Ala Ala Tyr Val Arg Tyr 290 295 300 Phe Asn Ser Ser Ala Phe Phe Phe Ser Gly Phe Phe Val Val Phe Leu 305 310 315 320 Ser Val Leu Pro Tyr Ala Leu Ile Lys Gly Ile Ile Leu Arg Lys Ile 325 330 335 Phe Thr Thr Ile Ser Phe Cys Ile Val Leu Arg Met Ala Val Thr Arg 340 345 350 Gln Phe Pro Trp Ala Val Gln Thr Trp Tyr Asp Ser Leu Gly Ala Ile 355 360 365 Asn Lys Ile Gln Asp Phe Leu Gln Lys Gln Glu Tyr Lys Thr Leu Glu 370 375 380 Tyr Asn Leu Thr Thr Thr Glu Val Val Met Glu Asn Val Thr Ala Phe 385 390 395 400 Trp Glu Glu Gly Phe Gly Glu Leu Phe Glu Lys Ala Lys Gln Asn Asn 405 410 415 Asn Asn Arg Lys Thr Ser Asn Gly Asp Asp Ser Leu Phe Phe Ser Asn 420 425 430 Phe Ser Leu Leu Gly Thr Pro Val Leu Lys Asp Ile Asn Phe Lys Ile 435 440 445 Glu Arg Gly Gln Leu Leu Ala Val Ala Gly Ser Thr Gly Ala Gly Lys 450 455 460 Thr Ser Leu Leu Met Val Ile Met Gly Glu Leu Glu Pro Ser Glu Gly 465 470 475 480 Lys Ile Lys His Ser Gly Arg Ile Ser Phe Cys Ser Gln Phe Ser Trp 485 490 495 Ile Met Pro Gly Thr Ile Lys Glu Asn Ile Ile Phe Gly Val Ser Tyr 500 505 510 Asp Glu Tyr Arg Tyr Arg Ser Val Ile Lys Ala Cys Gln Leu Glu Glu 515 520 525 Asp Ile Ser Lys Phe Ala Glu Lys Asp Asn Ile Val Leu Gly Glu Gly 530 535 540 Gly Ile Thr Leu Ser Gly Gly Gln Arg Ala Arg Ile Ser Leu Ala Arg 545 550 555 560 Ala Val Tyr Lys Asp Ala Asp Leu Tyr Leu Leu Asp Ser Pro Phe Gly 565 570 575 Tyr Leu Asp Val Leu Thr Glu Lys Glu Ile Phe Glu Ser Cys Val Cys 580 585 590 Lys Leu Met Ala Asn Lys Thr Arg Ile Leu Val Thr Ser Lys Met Glu 595 600 605 His Leu Lys Lys Ala Asp Lys Ile Leu Ile Leu His Glu Gly Ser Ser 610 615 620 Tyr Phe Tyr Gly Thr Phe Ser Glu Leu Gln Asn Leu Gln Pro Asp Phe 625 630 635 640 Ser Ser Lys Leu Met Gly Cys Asp Ser Phe Asp Gln Phe Ser Ala Glu 645 650 655 Arg Arg Asn Ser Ile Leu Thr Glu Thr Leu His Arg Phe Ser Leu Glu 660 665 670 Gly Asp Ala Pro Val Ser Trp Thr Glu Thr Lys Lys Gln Ser Phe Lys 675 680 685 Gln Thr Gly Glu Phe Gly Glu Lys Arg Lys Asn Ser Ile Leu Asn Pro 690 695 700 Ile Asn Ser Ile Arg Lys Phe Ser Ile Val Gln Lys Thr Pro Leu Gln 705 710 715 720 Met Asn Gly Ile Glu Glu Asp Ser Asp Glu Pro Leu Glu Arg Arg Leu 725 730 735 Ser Leu Val Pro Asp Ser Glu Gln Gly Glu Ala Ile Leu Pro Arg Ile 740 745 750 Ser Val Ile Ser Thr Gly Pro Thr Leu Gln Ala Arg Arg Arg Gln Ser 755 760 765 Val Leu Asn Leu Met Thr His Ser Val Asn Gln Gly Gln Asn Ile His 770 775 780 Arg Lys Thr Thr Ala Ser Thr Arg Lys Val Ser Leu Ala Pro Gln Ala 785 790 795 800 Asn Leu Thr Glu Leu Asp Ile Tyr Ser Arg Arg Leu Ser Gln Glu Thr 805 810 815 Gly Leu Glu Ile Ser Glu Glu Ile Asn Glu Glu Asp Leu Lys Glu Cys 820 825 830 Phe Phe Asp Asp Met Glu Ser Ile Pro Ala Val Thr Thr Trp Asn Thr 835 840 845 Tyr Leu Arg Tyr Ile Thr Val His Lys Ser Leu Ile Phe Val Leu Ile 850 855 860 Trp Cys Leu Val Ile Phe Leu Ala Glu Val Ala Ala Ser Leu Val Val 865 870 875 880 Leu Trp Leu Leu Gly Asn Thr Pro Leu Gln Asp Lys Gly Asn Ser Thr 885 890 895 His Ser Arg Asn Asn Ser Tyr Ala Val Ile Ile Thr Ser Thr Ser Ser 900 905 910 Tyr Tyr Val Phe Tyr Ile Tyr Val Gly Val Ala Asp Thr Leu Leu Ala 915 920 925 Met Gly Phe Phe Arg Gly Leu Pro Leu Val His Thr Leu Ile Thr Val 930 935 940 Ser Lys Ile Leu His His Lys Met Leu His Ser Val Leu Gln Ala Pro 945 950 955 960 Met Ser Thr Leu Asn Thr Leu Lys Ala Gly Gly Ile Leu Asn Arg Phe 965 970 975 Ser Lys Asp Ile Ala Ile Leu Asp Asp Leu Leu Pro Leu Thr Ile Phe 980 985 990 Asp Phe Ile Gln Leu Leu Leu Ile Val Ile Gly Ala Ile Ala Val Val 995 1000 1005 Ala Val Leu Gln Pro Tyr Ile Phe Val Ala Thr Val Pro Val Ile Val 1010 1015 1020 Ala Phe Ile Met Leu Arg Ala Tyr Phe Leu Gln Thr Ser Gln Gln Leu 1025 1030 1035 1040 Lys Gln Leu Glu Ser Glu Gly Arg Ser Pro Ile Phe Thr His Leu Val 1045 1050 1055 Thr Ser Leu Lys Gly Leu Trp Thr Leu Arg Ala Phe Gly Arg Gln Pro 1060 1065 1070 Tyr Phe Glu Thr Leu Phe His Lys Ala Leu Asn Leu His Thr Ala Asn 1075 1080 1085 Trp Phe Leu Tyr Leu Ser Thr Leu Arg Trp Phe Gln Met Arg Ile Glu 1090 1095 1100 Met Ile Phe Val Ile Phe Phe Ile Ala Val Thr Phe Ile Ser Ile Leu 1105 1110 1115 1120 Thr Thr Gly Glu Gly Glu Gly Arg Val Gly Ile Ile Leu Thr Leu Ala 1125 1130 1135 Met Asn Ile Met Ser Thr Leu Gln Trp Ala Val Asn Ser Ser Ile Asp 1140 1145 1150 Val Asp Ser Leu Met Arg Ser Val Ser Arg Val Phe Lys Phe Ile Asp 1155 1160 1165 Met Pro Thr Glu Gly Lys Pro Thr Lys Ser Thr Lys Pro Tyr Lys Asn 1170 1175 1180 Gly Gln Leu Ser Lys Val Met Ile Ile Glu Asn Ser His Val Lys Lys 1185 1190 1195 1200 Asp Asp Ile Trp Pro Ser Gly Gly Gln Met Thr Val Lys Asp Leu Thr 1205 1210 1215 Ala Lys Tyr Thr Glu Gly Gly Asn Ala Ile Leu Glu Asn Ile Ser Phe 1220 1225 1230 Ser Ile Ser Pro Gly Gln Arg Val Gly Leu Leu Gly Arg Thr Gly Ser 1235 1240 1245 Gly Lys Ser Thr Leu Leu Ser Ala Phe Leu Arg Leu Leu Asn Thr Glu 1250 1255 1260 Gly Glu Ile Gln Ile Asp Gly Val Ser Trp Asp Ser Ile Thr Leu Gln 1265 1270 1275 1280 Gln Trp Arg Lys Ala Phe Gly Val Ile Pro Gln Lys Val Phe Ile Phe 1285 1290 1295 Ser Gly Thr Phe Arg Lys Asn Leu Asp Pro Tyr Glu Gln Trp Ser Asp 1300 1305 1310 Gln Glu Ile Trp Lys Val Ala Asp Glu Val Gly Leu Arg Ser Val Ile 1315 1320 1325 Glu Gln Phe Pro Gly Lys Leu Asp Phe Val Leu Val Asp Gly Gly Cys 1330 1335 1340 Val Leu Ser His Gly His Lys Gln Leu Met Cys Leu Ala Arg Ser Val 1345 1350 1355 1360 Leu Ser Lys Ala Lys Ile Leu Leu Leu Asp Glu Pro Ser Ala His Leu 1365 1370 1375 Asp Pro Val Thr Tyr Gln Ile Ile Arg Arg Thr Leu Lys Gln Ala Phe 1380 1385 1390 Ala Asp Cys Thr Val Ile Leu Cys Glu His Arg Ile Glu Ala Met Leu 1395 1400 1405 Glu Cys Gln Gln Phe Leu Val Ile Glu Glu Asn Lys Val Arg Gln Tyr 1410 1415 1420 Asp Ser Ile Gln Lys Leu Leu Asn Glu Arg Ser Leu Phe Arg Gln Ala 1425 1430 1435 1440 Ile Ser Pro Ser Asp Arg Val Lys Leu Phe Pro His Arg Asn Ser Ser 1445 1450 1455 Lys Cys Lys Ser Lys Pro Gln Ile Ala Ala Leu Lys Glu Glu Thr Glu 1460 1465 1470 Glu Glu Val Gln Asp Thr Arg Leu 1475 1480 <210> 16 <211> 140 <212> RNA <213> Artificial Sequence <220> <223> 5' UTR sequence <400> 16 ggacagaucg ccuggagacg ccauccacgc uguuuugacc uccauagaag acaccgggac 60 cgauccagcc uccgcggccg ggaacggugc auuggaacgc ggauuccccg ugccaagagu 120 gacucaccgu ccuugacacg 140 <210> 17 <211> 105 <212> RNA <213> Artificial Sequence <220> <223> 3' UTR sequence <400> 17 cggguggcau cccugugacc ccuccccagu gccucuccug gcccuggaag uugccacucc 60 agugcccacc agccuugucc uaauaaaauu aaguugcauc aagcu 105 <210> 18 <211> 105 <212> RNA <213> Artificial Sequence <220> <223> 3' UTR sequence <400> 18 ggguggcauc ccugugaccc cuccccagug ccucuccugg cccuggaagu ugccacucca 60 gugcccacca gccuuguccu aauaaaauua aguugcauca aagcu 105 <210> 19 <211> 582 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens EPO sequence, codon optimized, reference <400> 19 atgggtgtgc acgaatgtcc tgcttggctg tggctccttc tctccctgct gtccctgcct 60 cttggactcc cggtgcttgg agcacccccg agactgatct gcgacagcag ggtgctcgag 120 cgctacctcc tggaagccaa ggaagccgaa aacatcacta ctggctgcgc cgaacactgc 180 tccctgaacg agaacatcac cgtgccggac accaaggtca acttctacgc gtggaagaga 240 atggaggtcg gacagcaagc cgtggaagtg tggcagggac ttgcgctcct gtcggaagcc 300 gtgctgaggg gacaagccct gctcgtgaac agctcacagc cttgggagcc cctgcagctg 360 catgtcgaca aggccgtgtc cggactgcgc tcactgacca ctctgctgag ggccttgggt 420 gcccagaaag aggctatttc cccaccggat gcagcctcgg cagctcctct gcggaccatt 480 acggcggaca cctttcggaa gctgttccgc gtctacagca atttcctccg ggggaagttg 540 aaactgtata ccggcgaagc ctgtcggact ggcgatcgct ga 582 <210> 20 <211> 582 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens EPO sequence, codon optimized, #1 <400> 20 atgggggttc atgagtgccc agcttggctt tggctcctgc tcagcttgct tagtctccct 60 ttgggcctgc ccgtgctggg cgcccctcca cgcttgatct gtgacagcag ggtcttggaa 120 cggtatttgc ttgaagctaa agaagctgag aacataacaa cgggatgtgc tgaacattgc 180 tccttgaacg aaaacatcac agttcccgac acaaaagtca atttttacgc atggaagcgg 240 atggaggttg gccagcaagc tgtggaggtc tggcaagggc tggctcttct cagtgaagcc 300 gtgctgcgcg gacaagcact cttggtgaac tccagccagc cctgggagcc ccttcagctc 360 catgtcgata aagcagttag cggcctccga tcattgacta ccctccttag ggctttgggt 420 gcacaaaaag aggccatttc accaccggac gcggcaagtg ctgctccgtt gcgaactata 480 actgctgaca ccttccggaa actttttcgg gtatattcca actttctcag ggggaaactc 540 aagctctaca ccggcgaggc gtgccgaact ggagaccgct ga 582 <210> 21 <211> 582 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens EPO sequence, codon optimized, #2 <400> 21 atgggcgtac atgaatgccc ggcatggctt tggctgctgc tgtccctgct gagtttgccg 60 ctgggcctcc ccgtcctcgg cgctcccccg agactcattt gcgactctag ggtcctcgaa 120 cgctatctgc tggaagcaaa agaagctgag aacataacta caggatgcgc tgagcactgt 180 tccttgaatg agaatatcac agtacctgac actaaggtga atttttacgc atggaaacgc 240 atggaagtgg gtcagcaggc cgtggaagtg tggcagggcc tggcgctgct gtccgaggct 300 gttcttagag gccaagcctt gttggtcaat tcctctcaac cctgggagcc cctccagctg 360 catgttgata aagccgtctc tggtctccgg tcccttacca ccctgctcag ggcacttggc 420 gcacagaagg aagctatctc ccccccagac gctgccagtg ccgcccccct ccggactatt 480 accgccgata ctttcaggaa actgtttcga gtctatagca attttctccg cgggaaactg 540 aagctgtata caggtgaggc ctgcaggaca ggagatcgct ga 582 <210> 22 <211> 582 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens EPO sequence, codon optimized, #3 <400> 22 atgggcgtgc acgaatgtcc tgcttggctg tggctgctgc tgagtctgct gtctctgcct 60 ctgggactgc ctgttcttgg agcccctcct agactgatct gcgacagcag agtgctggaa 120 agatacctgc tggaagccaa agaggccgag aacatcacaa caggctgtgc cgagcactgc 180 agcctgaacg agaatatcac cgtgcctgac accaaagtga acttctacgc ctggaagcgg 240 atggaagtgg gacagcaggc tgtggaagtt tggcaaggac tggccctgct gtctgaagct 300 gttctgagag gacaggctct gctggtcaat agctctcagc cttgggaacc tctccagctg 360 catgtggata aggccgtgtc tggcctgaga agcctgacaa cactgctgag agccctggga 420 gcccagaaag aggccatttc tccacctgat gctgccagcg ctgcccctct gagaacaatc 480 accgccgaca ccttcagaaa gctgttccgg gtgtacagca acttcctgcg gggcaagctg 540 aaactgtaca ccggcgaagc ctgcagaacc ggcgatagat aa 582 <210> 23 <211> 582 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens EPO sequence, codon optimized, #4 <400> 23 atgggggtgc acgagtgccc tgcctggctg tggttgctgc tgtccctgct gtctctgcca 60 ctgggactgc cagtgctggg agctccacct aggctgatct gcgacagccg ggtcctggag 120 aggtacctgc tcgaggccaa ggaggccgag aacattacca caggctgcgc cgagcactgc 180 agcctgaacg agaacattac agtgcccgat acaaaggtga acttctacgc ctggaagagg 240 atggaggtgg gccagcaggc cgtggaggtg tggcaggggc tggccctgct gagcgaggcc 300 gtgctgaggg gccaagccct gctggtcaac agcagccagc cttgggagcc cctgcagctc 360 cacgtggaca aggctgtgtc tggcttgagg tctctcacaa cattgctgag ggccctgggc 420 gcacagaaag aagctatcag cccacctgat gccgctagtg ccgctccact gcggacaatt 480 accgccgata cctttagaaa attgttcagg gtctactcca actttttgcg cgggaagctg 540 aagctctata ccggcgaggc ctgccggaca ggggacagat ga 582 <210> 24 <211> 582 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens EPO sequence, codon optimized, #5 <400> 24 atgggagtgc acgaatgtcc tgcatggctc tggctcctgc tgtctctcct gagcctgcca 60 ctgggactcc cagtgctggg agcaccccct aggctgatct gcgattctcg ggtgctggag 120 cgctacctgc tcgaggctaa ggaggccgag aatatcacta ctgggtgtgc cgaacactgt 180 agcctcaatg aaaacattac agtcccagat accaaggtga acttttatgc atggaagagg 240 atggaggtcg ggcagcaggc agtggaggtg tggcagggac tggctctgct gtccgaagcc 300 gtgctcagag gtcaggccct gctggttaat tccagccagc cttgggaacc tctgcagctg 360 catgtggaca aggcagtgtc tggcctgaga tcccttacta cactgctgag agcactgggg 420 gctcagaaag aagctatttc cccaccagac gccgcctcag cagcacctct ccggaccatc 480 actgctgaca ccttccgcaa gctctttagg gtgtactcca acttcctgcg cgggaagctc 540 aagctgtaca ccggcgaagc ctgcaggacc ggggatcgct ga 582 <210> 25 <211> 4443 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens CFTR sequence, codon optimized, reference <400> 25 atgcaacgct ctcctcttga aaaggcctcg gtggtgtcca agctcttctt ctcgtggact 60 agacccatcc tgagaaaggg gtacagacag cgcttggagc tgtccgatat ctatcaaatc 120 ccttccgtgg actccgcgga caacctgtcc gagaagctcg agagagaatg ggacagagaa 180 ctcgcctcaa agaagaaccc gaagctgatt aatgcgctta ggcggtgctt tttctggcgg 240 ttcatgttct acggcatctt cctctacctg ggagaggtca ccaaggccgt gcagcccctg 300 ttgctgggac ggattattgc ctcctacgac cccgacaaca aggaagaaag aagcatcgct 360 atctacttgg gcatcggtct gtgcctgctt ttcatcgtcc ggaccctctt gttgcatcct 420 gctattttcg gcctgcatca cattggcatg cagatgagaa ttgccatgtt ttccctgatc 480 tacaagaaaa ctctgaagct ctcgagccgc gtgcttgaca agatttccat cggccagctc 540 gtgtccctgc tctccaacaa tctgaacaag ttcgacgagg gcctcgccct ggcccacttc 600 gtgtggatcg cccctctgca agtggcgctt ctgatgggcc tgatctggga gctgctgcaa 660 gcctcggcat tctgtgggct tggattcctg atcgtgctgg cactgttcca ggccggactg 720 gggcggatga tgatgaagta cagggaccag agagccggaa agatttccga acggctggtg 780 atcacttcgg aaatgatcga aaacatccag tcagtgaagg cctactgctg ggaagaggcc 840 atggaaaaga tgattgaaaa cctccggcaa accgagctga agctgacccg caaggccgct 900 tacgtgcgct atttcaactc gtccgctttc ttcttctccg ggttcttcgt ggtgtttctc 960 tccgtgctcc cctacgccct gattaaggga atcatcctca ggaagatctt caccaccatt 1020 tccttctgta tcgtgctccg catggccgtg acccggcagt tcccatgggc cgtgcagact 1080 tggtacgact ccctgggagc cattaacaag atccaggact tccttcaaaa gcaggagtac 1140 aagaccctcg agtacaacct gactactacc gaggtcgtga tggaaaacgt caccgccttt 1200 tgggaggagg gatttggcga actgttcgag aaggccaagc agaacaacaa caaccgcaag 1260 acctcgaacg gtgacgactc cctcttcttt tcaaacttca gcctgctcgg gacgcccgtg 1320 ctgaaggaca ttaacttcaa gatcgaaaga ggacagctcc tggcggtggc cggatcgacc 1380 ggagccggaa agacttccct gctgatggtg atcatgggag agcttgaacc tagcgaggga 1440 aagatcaagc actccggccg catcagcttc tgtagccagt tttcctggat catgcccgga 1500 accattaagg aaaacatcat cttcggcgtg tcctacgatg aataccgcta ccggtccgtg 1560 atcaaagcct gccagctgga agaggatatt tcaaagttcg cggagaaaga taacatcgtg 1620 ctgggcgaag ggggtattac cttgtcgggg ggccagcggg ctagaatctc gctggccaga 1680 gccgtgtata aggacgccga cctgtatctc ctggactccc ccttcggata cctggacgtc 1740 ctgaccgaaa aggagatctt cgaatcgtgc gtgtgcaagc tgatggctaa caagactcgc 1800 atcctcgtga cctccaaaat ggagcacctg aagaaggcag acaagattct gattctgcat 1860 gaggggtcct cctactttta cggcaccttc tcggagttgc agaacttgca gcccgacttc 1920 tcatcgaagc tgatgggttg cgacagcttc gaccagttct ccgccgaaag aaggaactcg 1980 atcctgacgg aaaccttgca ccgcttctct ttggaaggcg acgcccctgt gtcatggacc 2040 gagactaaga agcagagctt caagcagacc ggggaattcg gcgaaaagag gaagaacagc 2100 atcttgaacc ccattaactc catccgcaag ttctcaatcg tgcaaaagac gccactgcag 2160 atgaacggca ttgaggagga ctccgacgaa ccccttgaga ggcgcctgtc cctggtgccg 2220 gacagcgagc agggagaagc catcctgcct cggatttccg tgatctccac tggtccgacg 2280 ctccaagccc ggcggcggca gtccgtgctg aacctgatga cccacagcgt gaaccagggc 2340 caaaacattc accgcaagac taccgcatcc acccggaaag tgtccctggc acctcaagcg 2400 aatcttaccg agctcgacat ctactcccgg agactgtcgc aggaaaccgg gctcgaaatt 2460 tccgaagaaa tcaacgagga ggatctgaaa gagtgcttct tcgacgatat ggagtcgata 2520 cccgccgtga cgacttggaa cacttatctg cggtacatca ctgtgcacaa gtcattgatc 2580 ttcgtgctga tttggtgcct ggtgattttc ctggccgagg tcgcggcctc actggtggtg 2640 ctctggctgt tgggaaacac gcctctgcaa gacaagggaa actccacgca ctcgagaaac 2700 aacagctatg ccgtgattat cacttccacc tcctcttatt acgtgttcta catctacgtc 2760 ggagtggcgg ataccctgct cgcgatgggt ttcttcagag gactgccgct ggtccacacc 2820 ttgatcaccg tcagcaagat tcttcaccac aagatgttgc atagcgtgct gcaggccccc 2880 atgtccaccc tcaacactct gaaggccgga ggcattctga acagattctc caaggacatc 2940 gctatcctgg acgatctcct gccgcttacc atctttgact tcatccagct gctgctgatc 3000 gtgattggag caatcgcagt ggtggcggtg ctgcagcctt acattttcgt ggccactgtg 3060 ccggtcattg tggcgttcat catgctgcgg gcctacttcc tccaaaccag ccagcagctg 3120 aagcaactgg aatccgaggg acgatccccc atcttcactc accttgtgac gtcgttgaag 3180 ggactgtgga ccctccgggc tttcggacgg cagccctact tcgaaaccct cttccacaag 3240 gccctgaacc tccacaccgc caattggttc ctgtacctgt ccaccctgcg gtggttccag 3300 atgcgcatcg agatgatttt cgtcatcttc ttcatcgcgg tcacattcat cagcatcctg 3360 actaccggag agggagaggg acgggtcgga ataatcctga ccctcgccat gaacattatg 3420 agcaccctgc agtgggcagt gaacagctcg atcgacgtgg acagcctgat gcgaagcgtc 3480 agccgcgtgt tcaagttcat cgacatgcct actgagggaa aacccactaa gtccactaag 3540 ccctacaaaa atggccagct gagcaaggtc atgatcatcg aaaactccca cgtgaagaag 3600 gacgatattt ggccctccgg aggtcaaatg accgtgaagg acctgaccgc aaagtacacc 3660 gagggaggaa acgccattct cgaaaacatc agcttctcca tttcgccggg acagcgggtc 3720 ggccttctcg ggcggaccgg ttccgggaag tcaactctgc tgtcggcttt cctccggctg 3780 ctgaataccg agggggaaat ccaaattgac ggcgtgtctt gggattccat tactctgcag 3840 cagtggcgga aggccttcgg cgtgatcccc cagaaggtgt tcatcttctc gggtaccttc 3900 cggaagaacc tggatcctta cgagcagtgg agcgaccaag aaatctggaa ggtcgccgac 3960 gaggtcggcc tgcgctccgt gattgaacaa tttcctggaa agctggactt cgtgctcgtc 4020 gacgggggat gtgtcctgtc gcacggacat aagcagctca tgtgcctcgc acggtccgtg 4080 ctctccaagg ccaagattct gctgctggac gaaccttcgg cccacctgga tccggtcacc 4140 taccagatca tcaggaggac cctgaagcag gcctttgccg attgcaccgt gattctctgc 4200 gagcaccgca tcgaggccat gctggagtgc cagcagttcc tggtcatcga ggagaacaag 4260 gtccgccaat acgactccat tcaaaagctc ctcaacgagc ggtcgctgtt cagacaagct 4320 atttcaccgt ccgatagagt gaagctcttc ccgcatcgga acagctcaaa gtgcaaatcg 4380 aagccgcaga tcgcagcctt gaaggaagag actgaggaag aggtgcagga cacccggctt 4440 taa 4443 <210> 26 <211> 4443 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens CFTR sequence, codon optimized, hCFTR #1 <400> 26 atgcagcggt ccccgctcga aaaggccagt gtcgtgtcca aactcttctt ctcatggact 60 cggcctatcc ttagaaaggg gtatcggcag aggcttgagt tgtctgacat ctaccagatc 120 ccctcggtag attcggcgga taacctctcg gagaagctcg aacgggaatg ggaccgcgaa 180 ctcgcgtcta agaaaaaccc gaagctcatc aacgcactga gaaggtgctt cttctggcgg 240 ttcatgttct acggtatctt cttgtatctc ggggaggtca caaaagcagt ccaacccctg 300 ttgttgggtc gcattatcgc ctcgtacgac cccgataaca aagaagaacg gagcatcgcg 360 atctacctcg ggatcggact gtgtttgctt ttcatcgtca gaacactttt gttgcatcca 420 gcaatcttcg gcctccatca catcggtatg cagatgcgaa tcgctatgtt tagcttgatc 480 tacaaaaaga cactgaaact ctcgtcgcgg gtgttggata agatttccat cggtcagttg 540 gtgtccctgc ttagtaataa cctcaacaaa ttcgatgagg gactggcgct ggcacatttc 600 gtgtggattg ccccgttgca agtcgccctt ttgatgggcc ttatttggga actcttgcag 660 gcatctgcct tttgtggcct gggatttctg attgtgttgg cattgtttca ggctgggctt 720 gggcggatga tgatgaagta tcgcgaccag agagcgggta aaatctcgga aagactcgtc 780 atcacttcgg aaatgatcga aaacatccag tcggtcaaag cctattgctg ggaagaagct 840 atggagaaga tgattgaaaa cctccgccaa actgagctga aactgacccg caaggcggcg 900 tatgtccggt atttcaattc gtcagcgttc ttcttttccg ggttcttcgt tgtctttctc 960 tcggttttgc cttatgcctt gattaagggg attatcctcc gcaagatttt caccacgatt 1020 tcgttctgca ttgtattgcg catggcagtg acacggcaat ttccgtgggc cgtgcagaca 1080 tggtatgact cgcttggagc gatcaacaaa atccaagact tcttgcaaaa gcaagagtac 1140 aagaccctgg agtacaatct tactactacg gaggtagtaa tggagaatgt gacggctttt 1200 tgggaagagg gttttggaga gctcttcgag aaagcaaagc agaataacaa caaccgcaag 1260 acctcaaatg gggacgattc cctgtttttc tcgaacttct ccctgctcgg aacacccgtg 1320 ttgaaggaca tcaatttcaa gattgagagg ggacagcttc tcgcggtagc gggaagcact 1380 ggtgcgggaa aaactagcct cttgatggtg attatggggg agcttgagcc cagcgagggg 1440 aagattaaac actccgggcg tatctcattc tgtagccagt tttcatggat catgcccgga 1500 accattaaag agaacatcat tttcggagta tcctatgatg agtaccgata cagatcggtc 1560 attaaggcgt gccagttgga agaggacatt tctaagttcg ccgagaagga taacatcgtc 1620 ttgggagaag ggggtattac attgtcggga gggcagcgag cgcggatcag cctcgcgaga 1680 gcggtataca aagatgcaga tttgtacctg ctcgattcac cgtttggata cctcgacgta 1740 ttgacagaaa aagaaatctt cgagtcgtgc gtgtgtaaac ttatggctaa taagacgaga 1800 atcctggtga catcaaaaat ggaacacctt aagaaggcgg acaagatcct gatcctccac 1860 gaaggatcgt cctactttta cggcactttc tcagagttgc aaaacttgca gccggacttc 1920 tcaagcaaac tcatggggtg tgactcattc gaccagttca gcgcggaacg gcggaactcg 1980 atcttgacgg aaacgctgca ccgattctcg cttgagggtg atgccccggt atcgtggacc 2040 gagacaaaga agcagtcgtt taagcagaca ggagaatttg gtgagaaaag aaagaacagt 2100 atcttgaatc ctattaactc aattcgcaag ttctcaatcg tccagaaaac tccactgcag 2160 atgaatggaa ttgaagagga ttcggacgaa cccctggagc gcaggcttag cctcgtgccg 2220 gattcagagc aaggggaggc cattcttccc cggatttcgg tgatttcaac cggacctaca 2280 cttcaggcga ggcgaaggca atccgtgctc aacctcatga cgcattcggt aaaccagggg 2340 caaaacattc accgcaaaac gacggcctca acgagaaaag tgtcacttgc accccaggcg 2400 aatttgactg aactcgacat ctacagccgt aggctttcgc aagaaaccgg acttgagatc 2460 agcgaagaaa tcaatgaaga agatttgaaa gagtgtttct ttgatgacat ggaatcaatc 2520 ccagcggtga caacgtggaa cacatacttg cgttacatca cggtgcacaa gtccttgatt 2580 ttcgtcctca tttggtgcct cgtgatcttt ctcgctgagg tcgcagcgtc acttgtggtc 2640 ctctggctgc ttggtaatac gcccttgcaa gacaaaggca attctacaca ctcaagaaac 2700 aattcctatg ccgtgattat cacttctaca agctcgtatt acgtgtttta catctacgta 2760 ggagtggccg acactctgct cgcgatgggt ttcttccgag gactcccact cgttcacacg 2820 cttatcactg tctccaagat tctccaccat aagatgcttc atagcgtact gcaggctccc 2880 atgtccacct tgaatacgct caaggcggga ggtattttga atcgcttctc aaaagatatt 2940 gcaattttgg atgaccttct gcccctgacg atcttcgact tcatccagtt gttgctgatc 3000 gtgattgggg ctattgcagt agtcgctgtc ctccagcctt acatttttgt cgcgaccgtt 3060 ccggtgatcg tggcgtttat catgctgcgg gcctatttct tgcagacgtc acagcagctt 3120 aagcaactgg agtctgaagg gaggtcgcct atctttacgc atcttgtgac cagtttgaag 3180 ggattgtgga cgttgcgcgc ctttggcagg cagccctact ttgaaacact gttccacaaa 3240 gcgctgaatc tccatacggc aaattggttt ttgtatttga gtaccctccg atggtttcag 3300 atgcgcattg agatgatttt tgtgatcttc tttatcgcgg tgacttttat ctccatcttg 3360 accacgggag agggcgaggg acgggtcggt attatcctga cactcgccat gaacattatg 3420 agcactttgc agtgggcagt gaacagctcg attgatgtgg atagcctgat gaggtccgtt 3480 tcgagggtct ttaagttcat cgacatgccg acggagggaa agcccacaaa aagtacgaaa 3540 ccctataaga atgggcaatt gagtaaggta atgatcatcg agaacagtca cgtgaagaag 3600 gatgacatct ggcctagcgg gggtcagatg accgtgaagg acctgacggc aaaatacacc 3660 gagggaggga acgcaatcct tgaaaacatc tcgttcagca ttagccccgg tcagcgtgtg 3720 gggttgctcg ggaggaccgg gtcaggaaaa tcgacgttgc tgtcggcctt cttgagactt 3780 ctgaatacag agggtgagat ccagatcgac ggcgtttcgt gggatagcat caccttgcag 3840 cagtggcgga aagcgtttgg agtaatcccc caaaaggtct ttatctttag cggaaccttc 3900 cgaaagaatc tcgatcctta tgaacagtgg tcagatcaag agatttggaa agtcgcggac 3960 gaggttggcc ttcggagtgt aatcgagcag tttccgggaa aactcgactt tgtccttgta 4020 gatgggggat gcgtcctgtc gcatgggcac aagcagctca tgtgcctggc gcgatccgtc 4080 ctctctaaag cgaaaattct tctcttggat gaaccttcgg cccatctgga cccggtaacg 4140 tatcagatca tcagaaggac acttaagcag gcgtttgccg actgcacggt gattctctgt 4200 gagcatcgta tcgaggccat gctcgaatgc cagcaatttc ttgtcatcga agagaataag 4260 gtccgccagt acgactccat ccagaagctg cttaatgaga gatcattgtt ccggcaggcg 4320 atttcaccat ccgatagggt gaaacttttt ccacacagaa attcgtcgaa gtgcaagtcc 4380 aaaccgcaga tcgcggcctt gaaagaagag actgaagaag aagttcaaga cacgcgtctt 4440 taa 4443 <210> 27 <211> 4443 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens CFTR sequence, codon optimized, hCFTR #2 <400> 27 atgcagcgtt ctcccctgga gaaggcttct gtggtgagta aacttttttt ctcctggacc 60 agacctatcc tgaggaaagg ctacaggcag agactggagc tctctgacat ataccagata 120 ccttcagtcg atagcgccga caacctgagc gagaagctgg aacgcgagtg ggacagagag 180 ctggcaagca agaagaaccc aaagctgatt aatgccctga gaaggtgttt cttctggaga 240 ttcatgttct acggaatctt tctgtatctg ggggaggtta caaaggctgt gcaacccctg 300 ctgctcggca gaatcatcgc ctcatacgat ccagacaaca aggaagaaag aagcatcgcc 360 atctacctgg gcattggcct ctgcctcctg tttattgtgc ggactctgct gctgcaccca 420 gcaattttcg ggttgcatca tattggcatg cagatgcgca ttgctatgtt ttccctcatc 480 tacaaaaaga cactgaaact cagctcccgg gtgctggaca agatctccat cggccaactg 540 gtgtctctcc tgagcaataa cttgaataag ttcgacgaag ggctggccct ggcacacttc 600 gtgtggattg cccccctgca ggtggccctg ctgatgggac tgatttggga actgctgcag 660 gctagcgctt tctgcggcct ggggttcctg atcgtgctgg cactgtttca ggcaggcctg 720 ggccgtatga tgatgaagta cagagaccag agggccggga agatctccga acggctcgtt 780 attacctctg agatgatcga gaacattcag tctgtgaaag cctactgctg ggaggaggct 840 atggagaaga tgatcgagaa tctgagacag accgagctga agctgaccag aaaggccgcc 900 tacgtgaggt acttcaacag cagtgccttc ttcttctctg ggttcttcgt tgtgtttctg 960 agcgtgctgc catacgctct catcaaaggc atcatcctgc ggaagatctt caccaccatc 1020 agcttttgca tcgtgcttag aatggccgtg acacggcagt tcccatgggc cgttcaaact 1080 tggtatgatt ccctgggcgc catcaacaaa atccaggatt tcctgcagaa gcaggaatac 1140 aagacactcg aatataacct cacaactact gaggtggtta tggagaacgt gactgccttc 1200 tgggaggagg ggttcggaga gctttttgag aaggccaaac agaataataa taaccgcaaa 1260 accagcaacg gcgacgacag cctgttcttc tccaattttt ctctcctggg aacacccgtc 1320 ctcaaagaca tcaactttaa gatcgagagg ggccagctgc tcgccgtcgc cggatccaca 1380 ggcgccggca agacctctct gctgatggtt atcatgggcg aactggagcc ctccgagggc 1440 aagattaagc actcaggaag aatctccttt tgtagccagt tcagttggat tatgcccggc 1500 actattaagg agaatatcat ttttggggtg agctatgatg agtatcggta tcggagcgtt 1560 atcaaagcct gtcagctgga ggaggatatc agcaagttcg cagagaagga taatattgtg 1620 ctgggagagg gaggaatcac cctgagcgga ggccagagag ccagaatctc actggcccgg 1680 gccgtctaca aggacgccga cctttacctt ctggacagtc cctttggata tctggatgtg 1740 ctgactgaaa aggagatctt cgagtcttgt gtgtgcaagc tgatggctaa caagacccgg 1800 atcctagtga ctagtaagat ggagcacctg aagaaggcag acaagatctt gattctgcac 1860 gagggatcct cttactttta cggcaccttt agcgagctgc agaacctcca gcccgatttc 1920 tcatctaagc tgatgggctg tgatagcttc gaccagttct ctgccgagcg cagaaacagc 1980 atcctgacag agacactgca ccggttttca ctggagggcg acgcccctgt cagctggacc 2040 gagaccaaaa agcagtcttt caagcagaca ggcgagttcg gcgagaagcg caaaaacagc 2100 atcctgaatc caatcaactc tataaggaag tttagcatcg tgcagaagac acccctccag 2160 atgaacggca tcgaagagga cagtgacgag cccctggagc ggcgcctgag cctcgtgcct 2220 gacagcgaac agggcgaggc catcctgcct aggatcagcg tgatttcaac cgggccaaca 2280 ctgcaggcta ggagaagaca gtcagtgctt aacctgatga cacatagcgt gaatcaggga 2340 cagaacatcc atcgaaaaac cacagcctct actcgcaaag tgtcactggc tcctcaggct 2400 aatctgacag agctggacat ctatagcagg aggctgagcc aggagacagg cctggagatc 2460 agtgaggaga tcaacgaaga ggacctgaag gagtgctttt tcgatgacat ggagagtatc 2520 cccgccgtca ccacctggaa tacctacctc cggtacatca cagtgcacaa gtccctcatc 2580 tttgtgctga tttggtgcct cgtgatcttt ctcgcagaag tggccgcctc cctggtggtg 2640 ctgtggctgt tggggaatac tccactgcag gacaaaggca attctacaca cagcaggaat 2700 aattcctatg ccgtgattat caccagcaca tcctcttact acgtgttcta catctacgtg 2760 ggagtggcag atactctgct tgcaatgggc ttcttcaggg ggctgcccct ggtgcacaca 2820 ctgatcacag tgtccaagat cctccaccat aaaatgctcc acagcgtgct gcaggcaccc 2880 atgagcaccc tgaacacact gaaggccggc ggcatcctga atcgcttttc caaagacatc 2940 gccatcctcg acgatctcct gccactgacc atcttcgatt ttatccagct gctgctgatc 3000 gtgatcgggg ccatcgccgt ggtggccgtg ctgcagccat acattttcgt ggctacagtg 3060 cccgtgatcg ttgcctttat catgctgaga gcctacttcc tgcagacttc tcagcagctg 3120 aagcagctgg agagcgaagg gagaagcccc atcttcactc acctggtgac aagcctgaag 3180 ggactctgga ccctgagagc cttcggccgg cagccctatt tcgagaccct gtttcacaag 3240 gccctcaacc tgcacacagc caactggttc ctctacctgt ccaccctgag gtggttccag 3300 atgaggattg aaatgatctt cgtgattttt ttcatcgccg tgacattcat tagcattctg 3360 accaccggcg agggggaggg gagagtgggc atcatcctga cccttgccat gaacattatg 3420 agcacactgc agtgggccgt gaatagtagt atcgacgtgg acagtctgat gaggtccgtg 3480 agccgggtgt tcaagttcat tgacatgccc acagaaggga aacccaccaa aagcaccaag 3540 ccctacaaga acgggcagct gtccaaggtt atgatcatcg agaactctca cgtgaagaag 3600 gacgacattt ggcccagcgg cggccagatg acagtgaaag atctgaccgc caaatacacc 3660 gagggaggca acgccatcct cgaaaacatt agcttctcta tcagccctgg acagagggtg 3720 ggcctgctgg gccggacagg ctcagggaag agtactctgc tgtcagcatt cctgaggctc 3780 ctgaacacag agggcgagat ccagattgac ggcgtgtcct gggactccat caccctgcag 3840 cagtggcgga aggctttcgg ggtgatcccc cagaaggtgt tcatctttag cggcactttc 3900 agaaagaatc tggaccctta tgagcagtgg agtgaccagg agatctggaa agtggccgat 3960 gaggtcggac tgaggagcgt gatcgagcag tttccaggga agctggactt tgtgctggtg 4020 gatggcggat gcgtgctgtc tcacggccat aaacagctga tgtgtctggc ccggtccgtg 4080 ctgtctaagg ccaagatcct gctgctggac gaaccctccg cccacctgga ccccgtgaca 4140 taccagatca tcaggagaac tctcaagcag gccttcgccg actgtaccgt gattctgtgc 4200 gagcaccgca ttgaagctat gctggagtgt cagcagttcc tggtgatcga ggaaaataag 4260 gtgaggcagt acgacagcat ccagaagctg ctgaacgagc gctccctgtt ccgccaggct 4320 atctccccat cagaccgggt gaagctcttc ccccacagaa actcctcaaa gtgcaagtcc 4380 aagccccaga tcgccgccct gaaggaggag accgaggagg aggtgcagga caccaggctg 4440 tga 4443 <210> 28 <211> 4443 <212> DNA <213> Homo sapiens CFTR sequence, codon optimized, hCFTR #3 <400> 28 atgcagcgct cgcctctgga aaaggcgagc gtcgtgtcaa agctattctt ttcttggacc 60 cggcccattc tcaggaaggg ctacaggcag aggctggagt tgagcgacat ctatcagatt 120 ccttccgtgg acagcgccga caacctgagc gagaagctgg aaagggagtg ggaccgcgaa 180 ctggcaagca aaaagaaccc caagctgatc aatgccctga gaaggtgttt cttttggaga 240 ttcatgttct acgggatctt tctgtatctg ggcgaggtta caaaggctgt gcagcccctg 300 ctgctcggca gaatcatcgc ctcatacgat ccagacaaca aggaagaaag aagcatcgcc 360 atctacctgg gcattggcct ctgcctcctg tttattgtgc ggactctgct gctgcaccca 420 gcaattttcg ggttgcatca tattggcatg cagatgcgca ttgctatgtt ttccctcatc 480 tacaaaaaga cactgaaact cagctcccgg gtgctggaca agatctccat cggccaactg 540 gtgtctctcc tgagcaataa cttgaataag ttcgacgaag ggctggccct ggcacacttc 600 gtgtggattg cccccctgca ggtggccctg ctgatgggac tgatttggga actgctgcag 660 gctagcgctt tctgcggcct ggggttcctg atcgtgctgg cactgtttca ggcaggcctg 720 ggccgtatga tgatgaagta cagagaccag agggccggga agatctccga acggctcgtt 780 attacctctg agatgatcga gaacattcag tctgtgaaag cctactgctg ggaggaggct 840 atggagaaga tgatcgagaa tctgagacag accgagctga agctgaccag aaaggccgcc 900 tacgtgaggt acttcaacag cagtgccttc ttcttctctg gcttcttcgt tgtgtttctg 960 agcgtgctgc catacgctct catcaaaggc atcatcctgc ggaagatctt caccaccatc 1020 agcttttgca tcgtgcttag aatggccgtg acccggcagt tcccatgggc cgtgcaaact 1080 tggtatgatt ccctgggcgc catcaacaaa atccaggatt tcctgcagaa gcaggaatac 1140 aagacactcg aatataatct cacaactact gaggtggtta tggagaacgt gactgccttc 1200 tgggaggagg ggttcggaga gctttttgag aaggcaaaac agaataacaa caaccgcaaa 1260 accagcaacg gcgacgacag cctgttcttc tccaattttt ctctcctggg aacacccgtc 1320 ctcaaagaca tcaactttaa gatcgagagg ggacagctgc tcgcagtcgc cggatccaca 1380 ggcgccggca agacctctct gctgatggtt atcatgggcg aactggagcc atccgagggc 1440 aagattaagc acagtggaag aatctccttt tgtagccagt tcagttggat tatgcccggc 1500 actattaagg agaatatcat ttttggggtg agctatgatg agtatcggta tcggagcgtt 1560 atcaaagcct gtcagctgga ggaggatatc agcaaattcg cagagaagga taatatcgtg 1620 ctgggggagg ggggaatcac cctgagcgga ggccagagag ccagaatctc actggcccgg 1680 gccgtctaca aggacgccga cctttacctt ctggacagtc cctttggata tctggatgtg 1740 ctgactgaaa aggagatctt cgagtcttgt gtgtgcaagc tgatggctaa taagacccgg 1800 atcctagtga ccagtaagat ggagcacctg aagaaggcag acaagatctt gattctgcac 1860 gagggatcct cttactttta cggcaccttt agcgagctgc agaatctcca gcccgatttc 1920 tcatctaagc tgatgggctg tgatagcttc gaccagttct ctgccgagcg cagaaacagc 1980 atcctgacag agacactgca ccggttttca ctggagggcg acgcccctgt cagctggacc 2040 gagaccaaaa agcagtcttt caagcagaca ggcgagttcg gcgagaagcg caaaaacagc 2100 atcctgaatc caatcaactc tataaggaag tttagcatcg tgcagaagac acccctccag 2160 atgaacggca tcgaagagga cagtgacgag cccctggagc ggcgcctgag cctcgtgcct 2220 gacagcgaac agggcgaggc catcctgcct aggatcagcg tgatttcaac cgggccaaca 2280 ctgcaggcta ggagaagaca gtcagtgctt aacctgatga cacatagcgt gaatcaggga 2340 cagaacatcc atcgaaaaac cacagcctct actcgcaaag tgtcactggc tcctcaggct 2400 aatctgacag agctggacat ctatagcagg aggctgagcc aggagacagg cctggagatc 2460 agtgaggaga tcaacgaaga ggacctgaag gagtgctttt tcgatgacat ggagagtatc 2520 cccgccgtca ccacctggaa tacctacctc cggtacatca cagtgcacaa gtccctcatc 2580 tttgtgctga tttggtgcct cgtgatcttt ctcgcagaag tggccgcctc cctggtggtg 2640 ctgtggctgt tggggaatac tccactgcag gacaaaggca attctacaca cagcaggaat 2700 aattcctatg ccgtgattat caccagcaca tcctcttact acgtgttcta catctacgtg 2760 ggagtggcag atactctgct tgcaatgggc ttcttcaggg ggctgcccct ggtgcacaca 2820 ctgatcacag tgtccaagat cctccaccat aaaatgctcc acagcgtgct gcaggcaccc 2880 atgagcaccc tgaacacact gaaggccggc ggcatcctga atcgcttttc caaagacatc 2940 gccatcctcg acgatctcct gccactgacc atcttcgatt ttatccagct gctgctgatc 3000 gtgatcgggg ccatcgccgt ggtggccgtg ctgcagccat acattttcgt ggctacagtg 3060 cccgtgatcg ttgcctttat catgctgaga gcctacttcc tgcagacttc tcagcagctg 3120 aagcagctgg agagcgaagg gagaagcccc atcttcactc acctggtgac aagcctgaag 3180 ggactctgga ccctgagagc cttcggccgg cagccctatt tcgagaccct gtttcacaag 3240 gccctcaacc tgcacacagc caactggttt ctctacctgt ccaccctgag gtggttccag 3300 atgaggattg aaatgatctt cgtgattttt ttcatcgccg tgacattcat tagcattctg 3360 accaccggcg agggggaggg gagagtgggc atcatcctga cccttgccat gaacattatg 3420 tccacactgc agtgggccgt gaatagttca atcgacgtgg acagtctgat gaggtccgtg 3480 agccgggtgt tcaagttcat tgacatgccc acagagggga aacccaccaa aagcaccaag 3540 ccctacaaga acgggcagct gtccaaggtt atgatcatcg agaactctca cgtgaagaag 3600 gacgacattt ggcccagcgg cggccagatg acagtgaaag atctgaccgc caaatacacc 3660 gagggaggca acgccatcct cgaaaacatt agcttctcta tcagccctgg acagagggtg 3720 ggcctgctgg gccggacagg ctcagggaag agtactctgc tgtcagcatt cctgaggctc 3780 ctgaacacag agggcgagat ccagattgac ggcgtgtcct gggactccat caccctgcag 3840 cagtggcgga aggctttcgg ggtgatcccc cagaaggtgt tcatctttag cggcactttc 3900 agaaagaatc tggaccctta tgagcagtgg agtgaccagg agatctggaa agtggccgat 3960 gaggtcggac tgaggagcgt gatcgagcag tttccaggga agctggactt tgtgctggtg 4020 gatggcggat gcgtgctgtc tcacggccat aaacagctga tgtgtctggc ccggtccgtg 4080 ctgtctaagg ccaagatcct gctgctggac gaaccctccg cccacctgga ccccgtgaca 4140 taccagatca tcaggagaac tctcaagcag gccttcgccg actgtaccgt gattctgtgc 4200 gagcaccgca ttgaagctat gctggagtgt cagcagttcc tggtgatcga ggaaaataag 4260 gtgaggcagt acgacagcat ccagaagctg ctgaacgagc gctccctgtt ccgccaggct 4320 atctccccat cagaccgggt gaagctcttc ccccacagaa actcctcaaa gtgcaagtcc 4380 aagccccaga tcgccgccct gaaggaggag accgaggagg aggtgcagga caccaggctg 4440 tga 4443 <210> 29 <211> 2100 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens DNAI1 sequence, codon optimized, DNAI1 #1 <400> 29 atgatcccag cttctgccaa ggccccacac aagcagccac acaaacagag catttccatt 60 gggcgcggca caaggaagag agacgaggac tcaggcacag aggtgggcga aggaaccgac 120 gagtgggctc agagcaaagc cacagtgagg cccccagatc agctggagct gacagacgcc 180 gagctgaagg aggagtttac ccgcatcctg actgccaata acccacacgc accccagaac 240 atcgtgcgct attcttttaa ggaaggaacc tataagccaa tcggctttgt caatcagctg 300 gctgtgcact acacccaggt tgggaacctg atccccaagg atagcgacga gggcaggaga 360 cagcattata gagacgagct cgtcgccgga agccaggagt ctgtcaaagt gatcagcgaa 420 acaggaaacc tggaggagga tgaggagccc aaggaactgg aaaccgagcc tggcagccag 480 acagatgtgc cagccgcagg agccgcagag aaggtgacag aagaggagct catgaccccc 540 aaacagccaa aggagcggaa actgacaaac cagttcaact tcagcgaaag agccagccag 600 acctacaata accccgtgcg ggacagagaa tgccagacag agcctccacc acgcaccaac 660 ttctccgcaa cagctaacca gtgggagatc tatgatgcct acgtggagga gctggaaaag 720 caggagaaga ccaaagaaaa ggagaaagcc aagacccctg tcgccaagaa gtccggcaaa 780 atggctatga gaaagctgac atctatggaa tcccagactg atgacctgat caagctgtct 840 caggcagcca agattatgga aagaatggtg aatcagaaca cctatgacga catcgcccag 900 gattttaagt actatgatga cgctgcagac gagtatagag atcaggtggg gaccctgctg 960 ccactgtgga agttccagaa tgacaaggct aagcgcctgt ccgtgacagc tctgtgctgg 1020 aatccaaaat atagggacct cttcgccgtg ggctacggct cttatgactt catgaagcag 1080 tcacgcggga tgctgctgct gtacagcctg aaaaatccct cctttcccga gtacatgttc 1140 agctctaact ccggggtcat gtgtctggat attcatgtgg accatccata cctggtggct 1200 gtcgggcact acgatggaaa cgtggctatc tacaatctga agaagccaca ctcccagccc 1260 tccttttgct cctccgccaa gtccggcaag cactccgacc ctgtgtggca ggtcaagtgg 1320 cagaaggacg acatggacca gaacctgaac ttcttttctg tgtctagcga tggcaggatc 1380 gtgtcctgga ccctggtgaa gagaaaactg gtgcacatcg atgttatcaa gctcaaagtc 1440 gagggaagca ccaccgaggt tcctgagggc ctgcagctgc acccagtggg ctgcggcaca 1500 gccttcgact ttcataaaga gattgactac atgttcctgg tgggcacaga ggaggggaag 1560 atctacaagt gctccaaatc ctactccagc cagtttctgg acacttacga cgctcataat 1620 atgagcgtgg acaccgtgtc ctggaaccct taccacacaa aggtgttcat gagctgcagc 1680 agcgactgga ctgtgaagat ttgggaccat actatcaaaa ccccaatgtt tatctatgat 1740 ctcaattctg ccgtgggcga cgtggcttgg gccccctatt cctccacagt gttcgcagcc 1800 gtgactaccg acggaaaagc ccacattttc gacctcgcta ttaacaagta tgaggccatt 1860 tgtaaccagc cagtggctgc caagaagaac cgcctgaccc acgtgcagtt caacctgatt 1920 cacccaatta tcattgtggg ggacgacaga ggacacatta tctcactgaa gctgtctcct 1980 aatctgagaa agatgcctaa ggagaagaaa ggacaggagg tgcagaaggg ccctgccgtg 2040 gaaattgcca aactcgacaa gctgctgaac ctggtgaggg aggtgaagat caagacatga 2100 <210> 30 <211> 2100 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens DNAI1 sequence, codon optimized, DNAI1 #2 <400> 30 atgatccccg catccgccaa agcccctcat aaacagcccc acaaacagtc catctccatt 60 ggacggggga cccggaaaag ggatgaggac tctgggacgg aagttggaga aggcactgac 120 gaatgggcac agagtaaggc taccgtgaga cctcccgacc agctggagct cactgacgca 180 gaactgaagg aggagtttac taggatcctg acagcaaata acccccacgc cccacagaat 240 atcgtcagat atagcttcaa agagggcaca tacaagccta ttgggttcgt gaaccagctg 300 gctgtgcatt acacacaggt ggggaacctt attcctaaag actctgatga aggccgcaga 360 cagcattata gagatgaact ggttgcagga tcccaagagt ctgtgaaagt gattagcgag 420 accggcaacc tggaagaaga tgaggaacca aaagaactgg agacagagcc tgggtctcag 480 acagacgtgc cagcagctgg cgctgccgag aaagtgacag aggaggagct gatgacacct 540 aaacagccaa aagagaggaa gctgacaaac caattcaatt tttccgaacg ggcatcacag 600 acctacaaca acccagtgcg cgaccgggag tgtcaaaccg aacctcctcc tagaacaaac 660 ttttctgcta ctgcaaatca gtgggagatc tacgatgcct acgtggagga gctggagaag 720 caggaaaaga ctaaggagaa ggagaaggca aagacccccg tggccaaaaa atccggcaaa 780 atggcaatgc ggaagctgac ttctatggaa agccagactg atgacctgat caaactgtcc 840 caggcagcta agattatgga aaggatggtc aatcagaata catatgacga cattgctcag 900 gactttaagt attatgatga tgccgctgac gagtatcggg accaagtggg gacactgctg 960 ccactgtgga agtttcaaaa cgacaaggct aaaaggctgt ccgtgacagc actctgctgg 1020 aatcccaagt accgggacct ctttgccgtg gggtacggat cttacgactt catgaaacag 1080 tccagaggca tgctgctgct gtacagcttg aagaacccct cctttcccga gtacatgttc 1140 agctctaatt ctggagtgat gtgcctggac atccacgtgg atcaccctta cctcgtggcc 1200 gttggacact atgacggcaa tgtggccatc tacaacctga aaaaaccaca ctctcagcct 1260 tccttttgta gctctgcaaa gtccggaaag cattccgacc ccgtgtggca agtgaaatgg 1320 cagaaagacg acatggacca gaatctgaac ttcttctccg tctcttcaga cggcagaatc 1380 gtctcatgga ctctggtcaa acggaagctg gttcacatcg acgtgatcaa actcaaggtc 1440 gaaggatcga ctactgaggt gccagaagga ctgcagctgc acccagtggg atgtggaact 1500 gcatttgatt tccataaaga aatcgactac atgtttctgg tgggaactga agaggggaag 1560 atctataagt gtagcaaatc ctattctagc cagtttctgg atacatacga cgctcacaac 1620 atgtccgtgg acactgtaag ctggaacccc tatcatacca aggtgttcat gtcctgcagc 1680 tccgattgga ctgttaagat ttgggatcac acaatcaaga cccctatgtt tatctacgat 1740 ctgaactctg ccgtggggga tgtggcctgg gcaccatata gctccacagt cttcgcagct 1800 gtcactaccg atggaaaggc ccacattttt gacctggcta tcaacaaata cgaggccatc 1860 tgcaatcagc ctgtggcagc aaagaagaac cgcctgactc acgtgcaatt caacctgatt 1920 caccctatca tcattgttgg ggatgatagg ggccacatta tttctctaaa gctgtcccca 1980 aatctgcgga aaatgcccaa ggagaagaaa ggccaggagg tgcagaaagg cccagccgtt 2040 gaaatcgcaa agctggacaa gctgctcaac ctcgtccggg aggttaaaat caaaacctga 2100 <210> 31 <211> 2100 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens DNAI1 sequence, codon optimized, DNAI1 #3 <400> 31 atgatcccag caagcgccaa ggccccacac aaacagcccc acaagcagtc gatcagcatt 60 ggcaggggga ctcgcaagag agacgaggac tccggaacag aagtggggga ggggacagat 120 gaatgggccc agtctaaggc cactgttcgc cctccggatc agctggaact gacagatgcc 180 gagctgaagg aagagttcac caggattctg actgcaaata atccacacgc tccacagaac 240 attgtgagat attcttttaa ggagggcact tacaaaccca tcgggtttgt gaatcagctg 300 gcagtgcatt acactcaagt gggcaacctg atccccaaag actctgatga agggaggcgg 360 cagcactata gggacgagct ggtcgctggg tcccaagaga gcgtgaaagt catttctgag 420 actggcaacc tggaagagga tgaggagcca aaggagctgg agactgaacc agggtctcag 480 acagatgtgc ccgccgctgg agctgctgag aaggtgacag aggaggaact gatgacccct 540 aaacagccta aggaacggaa gctcaccaac cagttcaact tcagcgaaag agctagccag 600 acttataata accctgtgcg cgaccgggag tgtcagactg agcccccacc aagaaccaat 660 ttctccgcca ctgccaacca gtgggaaatc tatgacgctt acgtcgagga gctggagaaa 720 caggagaaaa ctaaggagaa agaaaaggcc aaaacacccg tcgccaaaaa gtctggcaag 780 atggccatga gaaaactgac ctccatggag tctcagaccg acgacctgat caaactgtcc 840 caggcagcca agatcatgga gaggatggtg aaccagaaca cctatgatga cattgcccag 900 gactttaaat actacgatga tgccgctgac gagtatcggg accaggtggg gactctgctg 960 cctctgtgga aattccagaa tgataaggct aaacgcctgt ccgtgaccgc cctctgctgg 1020 aaccctaagt accgcgacct ctttgctgtg gggtacggat cttacgactt catgaaacag 1080 tccagaggca tgctgctgct gtacagcttg aagaacccct cctttcccga gtacatgttc 1140 agctctaatt ctggagtgat gtgcctggac atccacgtgg atcaccctta cctcgtggcc 1200 gttggacact atgacggcaa tgtggccatc tacaacctga aaaaaccaca ctctcagcct 1260 tccttttgta gctctgcaaa gtccggaaag cattccgacc ccgtgtggca agtgaaatgg 1320 cagaaagacg acatggacca gaatctgaac ttcttctccg tctcttcaga cggcagaatc 1380 gtctcatgga ctctggtcaa acggaagctg gttcacatcg acgtgatcaa actcaaggtc 1440 gaaggatcga ctactgaggt gccagaagga ctgcagctgc acccagtggg atgtggaact 1500 gcatttgatt tccataaaga aatcgactac atgtttctgg tgggaactga agaggggaag 1560 atctataagt gtagcaaatc ctattctagc cagtttctgg atacatacga cgctcacaac 1620 atgtccgtgg acactgtaag ctggaacccc tatcatacca aggtgttcat gtcctgcagc 1680 tccgattgga ctgttaagat ttgggatcac acaatcaaga cccctatgtt tatctacgat 1740 ctgaactctg ccgtggggga tgtggcctgg gcaccatata gctccacagt cttcgcagct 1800 gtcactaccg atggaaaggc ccacattttt gacctggcta tcaacaaata cgaggccatc 1860 tgcaatcagc ctgtggcagc aaagaagaac cgcctgactc acgtgcaatt caacctgatt 1920 caccctatca tcattgttgg ggatgatagg ggccacatta tttctctaaa gctgtcccca 1980 aatctgcgga aaatgcccaa ggagaagaaa ggccaggagg tgcagaaagg cccagccgtt 2040 gaaatcgcaa agctggacaa gctgctcaac ctcgtccggg aggttaaaat caaaacctga 2100 <210> 32 <211> 2100 <212> DNA <213> Artificial Sequence <220> <223> Homo sapiens DNAI1 sequence, codon optimized, DNAI1 #4 <400> 32 atgatccccg cctccgccaa agcccctcac aagcaaccgc acaagcaaag cattagcatt 60 gggcggggta ctcggaagcg cgacgaggac tcgggaactg aagtcggaga ggggaccgac 120 gaatgggcgc agtcaaaggc caccgtgcgc ccaccggacc agctcgagct gaccgatgct 180 gagctgaagg aggagtttac ccggatcctg acagccaaca acccacatgc accgcagaac 240 atcgtgcggt acagcttcaa agagggaact tataagccca ttggcttcgt gaaccaactc 300 gcggtgcatt acacccaagt cggaaacctt attccgaagg actcggacga aggcagacgc 360 cagcactacc gggacgagct cgtggcagga tcccaggaaa gcgtcaaggt catttccgag 420 actggcaacc tcgaggagga cgaagaacct aaggagctgg aaaccgaacc cggatcccag 480 accgacgtgc cggccgctgg ggctgccgag aaagtcactg aagaggaact catgaccccg 540 aagcagccga aagagagaaa gctcaccaac caattcaact tcagcgagcg cgccagccaa 600 acctacaaca acccagtcag ggatcgggaa tgtcagaccg aaccgcctcc gagaacgaac 660 ttctcggcga ccgcgaacca atgggagatc tacgacgcct acgtggaaga actggaaaag 720 caggaaaaga ctaaggaaaa ggaaaaggcc aagactcccg tcgccaagaa gtcgggcaaa 780 atggccatgc ggaagctcac ctccatggaa tcacagactg acgacttgat caagttgagc 840 caggccgcaa agatcatgga gcgcatggtc aaccaaaata cttacgacga tatcgcccaa 900 gacttcaagt actacgacga cgctgccgat gaataccgag atcaagtcgg caccctactg 960 ccgctttgga agttccagaa tgacaaggcc aagaggctga gcgtgaccgc gctgtgctgg 1020 aaccccaaat accgcgacct cttcgccgtg ggatacggct cctacgattt catgaagcag 1080 agccggggaa tgttgctcct ttactccctg aagaacccct ccttccctga gtacatgttc 1140 agctcaaaca gcggcgtgat gtgcctcgac attcacgtgg accaccctta cctcgtggcc 1200 gtgggtcact acgacggcaa cgtcgcgatc tacaacttga agaagccgca ttcacagccc 1260 tcgttttgct cctcggccaa gtccggcaaa cattcggacc cagtgtggca agtcaagtgg 1320 cagaaagatg acatggacca aaacttgaac ttcttcagcg tgtcctccga cggacggatc 1380 gtgtcctgga ccctcgtgaa gcggaagttg gtgcatatcg acgtgatcaa attgaaggtc 1440 gagggttcga ccaccgaagt gcctgaaggc ctgcagcttc accccgtggg atgcggcact 1500 gccttcgact tccacaagga gatcgactac atgttcctcg tgggaaccga ggaagggaag 1560 atctacaaat gcagcaagtc ctactcatca caattcctgg atacctacga tgcccacaac 1620 atgagcgtgg ataccgtgtc gtggaacccc tatcacacca aggtattcat gtcctgctcc 1680 tccgactgga ccgtcaagat ttgggaccac accatcaaga cccccatgtt catctacgac 1740 ctgaactccg ccgtggggga tgtggcctgg gccccctact cgtcgaccgt gtttgccgcg 1800 gtcaccacgg acggaaaggc acacattttc gaccttgcga ttaacaaata cgaggcgatt 1860 tgcaaccagc ccgtggccgc caaaaagaac cgcctgaccc acgttcaatt caacttaatc 1920 cacccaatca tcatcgtcgg cgatgacaga ggacacatta ttagcctgaa acttagcccc 1980 aacctccgca agatgcccaa ggagaagaag ggacaggaag tccagaaggg ccctgccgtg 2040 gagattgcaa agctcgataa gctcctgaac ttagtccggg aagtgaagat caagacttaa 2100

Claims

최적화된 뉴클레오티드 서열을 생성하기 위한 컴퓨터 구현 방법으로서,
(i) 아미노산 서열을 수령하는 단계로서, 상기 아미노산 서열은 펩티드, 폴리펩티드, 또는 단백질을 암호화하는, 단계;
(ii) 제1 코돈 사용 테이블을 수령하는 단계로서, 상기 제1 코돈 사용 테이블은 아미노산의 목록을 포함하고, 여기에서 상기 테이블의 각각의 아미노산은 적어도 하나의 코돈과 연관되고, 각각의 코돈은 사용 빈도와 연관되는, 단계;
(iii) 상기 코돈 사용 테이블로부터 임계 빈도 미만인 사용 빈도와 연관된 임의의 코돈을 제거하는 단계;
(iv) 단계 (iii)에서 제거되지 않은 코돈의 사용 빈도를 정규화함으로써 정규화된 코돈 사용 테이블을 생성하는 단계; 및
(v) 상기 정규화된 코돈 사용 테이블의 상기 아미노산과 연관된 상기 하나 이상의 코돈의 사용 빈도에 기초하여 상기 아미노산 서열의 각 아미노산에 대한 코돈을 선택함으로써 상기 아미노산 서열을 암호화하는 최적화된 뉴클레오티드 서열을 생성하는 단계를 포함하는, 방법.
제1항에 있어서, 정규화하는 단계는,
(a) 단계 (iii)에서 제거된 제1 아미노산과 연관된 각 코돈의 사용 빈도를 상기 제1 아미노산과 연관된 나머지 코돈에 분배하는 단계; 및
(b) 각 아미노산에 대해 단계 (a)를 반복하여 정규화된 코돈 사용 테이블을 생성하는 단계를 포함하는, 방법
제2항에 있어서, 제거된 코돈의 사용 빈도는 나머지 코돈 중에 균등하게 분배되는, 방법.
제2항에 있어서, 제거된 코돈의 사용 빈도는 각각의 나머지 코돈의 사용 빈도에 비례적으로 기초하여 상기 나머지 코돈 중에 균등하게 분배되는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 각각의 아미노산에 대한 코돈을 선택하는 단계는,
(a) 정규화된 코돈 사용 테이블에서, 아미노산 서열의 제1 아미노산과 연관된 하나 이상의 코돈을 식별하는 단계;
(b) 상기 제1 아미노산과 연관된 코돈을 선택하는 단계로서, 소정의 코돈을 선택할 확률은 정규화된 코돈 사용 테이블의 상기 제1 아미노산과 연관된 코돈과 연관된 사용 빈도와 동일한, 단계; 및
(c) 상기 아미노산 서열 내의 각각의 아미노산에 대해 코돈이 선택될 때까지 단계 (a) 및 (b)를 반복하는 단계를 포함하는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 단계 (v)는 최적화된 뉴클레오티드 서열의 목록을 생성하도록 복수의 횟수로 수행되는, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서, 임계 빈도는 사용자가 선택할 수 있는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 임계 빈도는 5% 내지 30%의 범위, 특히 5%, 10%, 또는 15%, 또는 20%, 또는 25%, 또는 30%, 또는 특히 10%인, 방법.
제6항 내지 제8항 중 어느 한 항에 있어서,
하나 이상의 기준을 충족하지 못하는 최적화된 뉴클레오티드 서열을 식별하고 제거하기 위해 최적화된 뉴클레오티드 서열의 목록을 스크리닝하는 단계를 추가로 포함하는, 방법.
제9항에 있어서, 최적화된 뉴클레오티드 서열의 목록을 스크리닝하는 단계는, 하나 이상의 기준 각각에 대해,
최적화된 뉴클레오티드 서열의 목록 또는 가장 최근에 업데이트된 목록의 최적화된 뉴클레오티드 서열이 상기 기준을 충족하는지의 여부를 결정하는 단계; 및
상기 뉴클레오티드 서열이 상기 기준을 충족하지 못하는 경우, 상기 목록 또는 가장 최근에 업데이트된 목록으로부터 해당 뉴클레오티드 서열을 제거함으로써, 상기 최적화된 뉴클레오티드 서열의 리스트를 업데이트하는 단계를 포함하는, 방법.
제10항에 있어서, 최적화된 뉴클레오티드 서열의 목록 또는 가장 최근에 업데이트된 목록의 각각의 최적화된 뉴클레오티드 서열이 기준을 충족하는지의 여부를 결정하는 단계는, 상기 각각의 뉴클레오티드 서열에 대해,
상기 뉴클레오티드 서열의 제1 부분이 기준을 충족하는지의 여부를 결정하는 단계를 포함하되, 최적화된 뉴클레오티드 서열의 목록을 업데이트하는 단계는,
상기 제1 부분이 기준을 충족시키지 않는 경우, 상기 뉴클레오티드 서열을 제거하는 단계를 포함하는, 방법.
제11항에 있어서, 최적화된 뉴클레오티드 서열의 목록 또는 가장 최근에 업데이트된 목록의 각각의 최적화된 뉴클레오티드 서열이 기준을 충족하는지의 여부를 결정하는 단계는, 상기 각각의 뉴클레오티드 서열에 대해,
상기 뉴클레오티드 서열의 하나 이상의 추가 부분이 기준을 충족하는지의 여부를 결정하는 단계를 추가로 포함하되, 상기 추가 부분은 서로 중첩되지 않고 상기 제1 부분과 중첩되지 않으며, 여기에서 최적화된 서열의 목록을 업데이트하는 단계는,
임의의 부분이 기준을 충족하지 않는 경우, 상기 뉴클레오티드 서열을 제거하는 단계를 포함하되, 선택적으로, 최적화된 뉴클레오티드 서열이 기준을 충족하는지의 여부를 결정하는 단계는 임의의 부분이 기준을 충족하지 않는 것으로 결정될 때 중단되는, 방법.
제11항 또는 제12항에 있어서, 뉴클레오티드 서열의 제1 부분 및/또는 하나 이상의 추가 부분은 사전에 결정된 수의 뉴클레오티드를 포함하되, 선택적으로, 상기 사전에 결정된 수의 뉴클레오티드는 5 내지 300개의 뉴클레오티드, 또는 10 내지 200개의 뉴클레오티드, 또는 15 내지 100개의 뉴클레오티드, 또는 20 내지 50개의 뉴클레오티드의 범위, 예를 들어 30개, 예를 들어 100개의 뉴클레오티드인, 방법.
제9항 내지 제13항 중 어느 한 항에 있어서, 제1 기준은 종결 신호를 함유하지 않는 뉴클레오티드 서열을 포함하여, 결정하는 단계 및 업데이트하는 단계는,
최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록의 각각의 최적화된 뉴클레오티드 서열이 종결 신호를 함유하는지의 여부를 결정하는 단계; 및
상기 뉴클레오티드 서열이 하나 이상의 종결 신호를 함유하는 경우, 상기 목록 또는 가장 최근에 업데이트된 목록으로부터 이에 해당하는 뉴클레오티드 서열을 제거함으로써 상기 최적화된 뉴클레오티드 서열의 목록을 업데이트하는 단계를 포함하는, 방법.
제14항에 있어서, 하나 이상의 종결 신호는 하기 뉴클레오티드 서열:
5'-X₁ATCTX₂TX₃-3'을 갖되,
X₁, X₂ 및 X₃은 A, C, T 또는 G로부터 독립적으로 선택되는, 방법.
제15항에 있어서, 하나 이상의 종결 신호는 하기 뉴클레오티드 서열:
TATCTGTT; 및/또는
TTTTTT; 및/또는
AAGCTT; 및/또는
GAAGAGC; 및/또는
TCTAGA 중 하나 이상을 갖는, 방법.
제16항에 있어서, 하나 이상의 종결 신호는 하기 뉴클레오티드 서열:
5'-X₁AUCUX₂UX₃-3'을 갖되,
X₁, X₂ 및 X₃은 독립적으로 A, C, U 또는 G로부터 선택되는, 방법.
제17항에 있어서, 하나 이상의 종결 신호는 하기 뉴클레오티드 서열:
UAUCUGUU; 및/또는
UUUUUU; 및/또는
AAGCUU; 및/또는
GAAGAGC; 및/또는
UCUAGA 중 하나를 갖는, 방법.
제9항 내지 제18항 중 어느 한 항에 있어서, 제2 기준은 사전에 결정된 구아닌-시토신 함량 범위 내의 구아닌-시토신 함량을 갖는 뉴클레오티드 서열을 포함하며, 결정하는 단계 및 업데이트하는 단계는,
최적화된 뉴클레오티드 서열의 목록 또는 가장 최근에 업데이트된 목록의 최적화된 뉴클레오티드 서열 각각의 구아닌-시토신 함량을 결정하는 단계로서, 서열의 구아닌-시토신 함량은 구아닌 또는 시토신인 뉴클레오티드 서열 내 염기의 백분율인, 단계;
상기 최적화된 뉴클레오티드 서열의 구아닌-시토신 함량이 사전에 결정된 GC 함량 범위를 벗어나는 경우, 상기 목록으로부터 해당 뉴클레오티드 서열을 제거하는 단계에 의해 상기 최적화된 뉴클레오티드 서열의 목록을 업데이트하는 단계를 추가로 포함하는, 방법.
제19항에 있어서, 사전에 결정된 구아닌-시토신 함량 범위는 사용자가 선택할 수 있는, 방법.
제19항 또는 제20항에 있어서, 사전에 결정된 구아닌-시토신 함량 범위는 15% 내지 75%, 또는 40% 내지 60%, 또는 특히 30% 내지 70%인, 방법.
제9항 내지 제21항 중 어느 한 항에 있어서, 제3 기준은 사전에 결정된 코돈 적용 인덱스 임계값보다 큰 코돈 적용 인덱스를 갖는 뉴클레오티드 서열을 포함하며, 결정하는 단계 및 업데이트하는 단계는,
최적화된 뉴클레오티드 서열의 목록 또는 가장 최근에 업데이트된 목록의 최적화된 뉴클레오티드 서열 각각의 코돈 적용 인덱스를 결정하는 단계로서, 상기 서열의 코돈 적용 인덱스는 코돈 사용 편향의 척도이고 0 내지 1의 값일 수 있는, 단계;
임의의 뉴클레오티드 서열의 코돈 적용 인덱스가 사전에 결정된 코돈 적용 인덱스 임계값 이하인 경우, 해당 뉴클레오티드 서열을 제거함으로써 최적화된 뉴클레오티드 서열의 목록, 또는 가장 최근에 업데이트된 목록을 업데이트하는 단계를 추가로 포함하는, 방법.
제22항에 있어서, 코돈 적용 인덱스 임계값은 사용자가 선택할 수 있는, 방법.
제22항 또는 제23항에 있어서, 코돈 적용 인덱스 임계값은 0.7, 또는 0.75, 또는 0.85, 또는 0.9, 또는 특히 0.8인, 방법.
제9항 내지 제24항 중 어느 한 항에 있어서, 제4 기준은 적어도 2개, 예를 들어, 3개의 인접하는 동일한 코돈을 함유하지 않는 뉴클레오티드 서열을 포함하여, 결정하는 단계 및 업데이트하는 단계는,
최적화된 뉴클레오티드 서열의 목록 또는 가장 최근에 업데이트된 목록의 임의의 최적화된 뉴클레오티드 서열이 적어도 2개, 예를 들어, 3개 또는 그 이상의 인접하는 동일한 코돈을 함유하는지를 결정하는 단계; 및
임의의 최적화된 뉴클레오티드 서열이 적어도 2개, 예를 들어, 3개 또는 그 이상의 인접하는 동일한 코돈을 함유하는 경우, 해당 뉴클레오티드 서열을 제거함으로써 최적화된 뉴클레오티드 서열의 목록 또는 가장 최근에 업데이트된 목록을 업데이트하는 단계를 포함하는, 방법.
제25항에 있어서, 제4 기준은 정규화된 코돈 사용 테이블에서의 빈도가 인접 희귀도 임계값보다 작은 코돈에 대해서만 적용되고, 여기에서 상기 인접 희귀도 임계값은 10 내지 50%, 예를 들어 15 내지 40%, 예를 들어 20 내지 30%인, 방법.
제1항 내지 제27항 중 어느 한 항에 있어서, 아미노산 서열은 아미노산 서열의 데이터베이스로부터 수령되는, 방법.
제26항에 있어서, 아미노산 서열의 데이터베이스로부터의 아미노산 서열을 요청하는 단계를 추가로 포함하되, 아미노산 서열은 상기 요청에 응답하여 수령되는, 방법.
제1항 내지 제29항 중 어느 한 항에 있어서, 제1 코돈 사용 테이블은 코돈 사용 테이블의 데이터베이스로부터 수령되는, 방법.
제29항에 있어서, 코돈 사용 테이블의 데이터베이스로부터의 제1 코돈 사용 테이블을 요청하는 단계를 추가로 포함하되, 제1 코돈 사용 테이블은 상기 요청에 응답하여 수령되는, 방법.
제1항 내지 제31항 중 어느 한 항에 있어서, 적어도 하나의 최적화된 뉴클레오티드 서열을 스크린 상에 디스플레이하는 단계를 추가로 포함하는, 방법.
명령어를 포함하는 컴퓨터 프로그램으로서, 상기 프로그램은 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 제1항 내지 제32항 중 어느 한 항의 방법을 실행하게 하는, 컴퓨터 프로그램.
제1항 내지 제 33항 중 어느 한 항의 방법을 수행하기 위한 수단을 포함하는, 데이터 프로세싱 시스템.
제32항의 컴퓨터 프로그램이 저장된 컴퓨터 판독가능 데이터 캐리어.
제32항의 컴퓨터 프로그램을 운반하는 데이터 캐리어 신호.
뉴클레오티드 서열을 합성하는 방법으로서,
적어도 하나의 최적화된 뉴클레오티드 서열을 생성하도록 제1항 내지 제31항 중 어느 한 항의 컴퓨터 구현 방법을 수행하는 단계; 및
상기 생성된 최적화된 뉴클레오티드 서열 중 적어도 하나를 합성하는 단계를 포함하는, 방법.
제36항에 있어서, 방법은 합성된 최적화된 서열을 시험관 내 전사에 사용하기 위한 핵산 벡터에 삽입하는 단계를 추가로 포함하는, 방법.
제36항 또는 제37항에 있어서, 방법은 합성된 최적화된 뉴클레오티드 서열의 3' 말단에 하나 이상의 종결 신호를 삽입하는 단계를 추가로 포함하는, 방법.
제38항에 있어서, 하나 이상의 종결 신호는 다음의 뉴클레오티드 서열:
5'-X₁ATCTX₂TX₃-3'(여기에서, X₁, X₂, 및 X₃은 A, C, T, 또는 G로부터 독립적으로 선택됨)에 의해 암호화되는, 방법.
제38항 또는 제39항에 있어서, 하나 이상의 종결 신호는 하기 뉴클레오티드 서열:
TATCTGTT;
TTTTTT;
AAGCTT;
GAAGAGC; 및/또는
TCTAGA 중 하나 이상에 의해 암호화되는, 방법.
제38항 내지 제40항 중 어느 한 항에 있어서, 하나 이상의 종결 신호가 삽입되고, 상기 종결 신호는 10개 이하의 염기쌍만큼, 예를 들어 5 내지 10개의 염기쌍만큼 이격되는, 방법.
제40항에 있어서, 하나 이상의 종결 신호는 하기 뉴클레오티드 서열: (a) 5'-X₁ATCTX₂TX₃-(Z_N)- X₄ATCTX₅TX₆-3' 또는 (b) 5'-X₁ATCTX₂TX₃-(Z_N)- X₄ATCTX₅TX₆-(Z_M)- X₇ATCTX₈TX₉-3'에 의해 암호화되며, 여기에서 X₁, X₂, X₃, X₄, X₅, X₆, X₇, X₈, 및 X₉는 A, C, T, 또는 G로부터 선택되고, Z_N은 N 뉴클레오티드의 스페이서 서열을 나타내고, Z_M은 M 뉴클레오티드의 스페이서 서열을 나타내되, 이들 각각은 A, C, T, 또는 G로부터 독립적으로 선택되고, N 및/또는 M은 독립적으로 10 이하인, 방법.
제37항 내지 제42항 중 어느 한 항에 있어서, 핵산 벡터는 최적화된 뉴클레오티드 서열에 작동 가능하게 연결된 RNA 중합효소 프로모터를 포함하되, 선택적으로 상기 RNA 중합효소 프로모터는 SP6 RNA 중합효소 프로모터 또는 T7 RNA 중합효소 프로모터인, 방법.
제37항 내지 제43항 중 어느 한 항에 있어서, 핵산 벡터는 최적화된 뉴클레오티드 서열에 작동 가능하게 연결된 5' UTR을 암호화하는 뉴클레오티드 서열을 포함하는, 방법.
제44항에 있어서, 5' UTR은 아미노산 서열을 암호화하는 자연 발생 mRNA의 5' UTR과 상이한, 방법.
제42항에 있어서, 5' UTR은 서열번호 16의 뉴클레오티드 서열을 갖는, 방법.
제37항 내지 제46항 중 어느 한 항에 있어서, 핵산 벡터는 최적화된 뉴클레오티드 서열에 작동 가능하게 연결된 3' UTR을 암호화하는 뉴클레오티드 서열을 포함하는, 방법.
제46항에 있어서, 3' UTR은 아미노산 서열을 암호화하는 자연 발생 mRNA의 3' UTR과 상이한, 방법.
제48항에 있어서, 3' UTR은 서열번호 17 또는 서열번호 18의 뉴클레오티드 서열을 갖는, 방법.
제37항 내지 제49항 중 어느 한 항에 있어서, 핵산 벡터는 플라스미드인, 방법.
제50항에 있어서, 플라스미드는 시험관내 전사 전에 선형화되는, 방법.
제50항에 있어서, 플라스미드는 시험관내 전사 전에 선형화되지 않는, 방법.
제52항에 있어서, 플라스미드는 수퍼코일형인, 방법.
제36항 내지 제53항 중 어느 한 항에 있어서, 방법은 적어도 하나의 합성된 최적화된 뉴클레오티드 서열을 시험관 내 전사에 사용하여 mRNA를 합성하는 단계를 추가로 포함하는, 방법.
제54항에 있어서, mRNA는 SP6 RNA 중합효소에 의해 합성되는, 방법.
제55항에 있어서, SP6 RNA 중합효소는 자연 발생 SP6 RNA 중합효소인, 방법.
제55항에 있어서, SP6 RNA 중합효소는 재조합 SP6 RNA 중합효소인, 방법.
제57항에 있어서, SP6 RNA 중합효소는 태그를 포함하는, 방법.
제58항에 있어서, 태그는 his-태그인, 방법.
제54항에 있어서, mRNA는 T7 RNA 중합효소에 의해 합성되는, 방법.
제54항 내지 제60항 중 어느 한 항에 있어서, 상기 방법은 합성된 mRNA를 캡핑 및/또는 테일링하는 별도의 단계를 추가로 포함하는, 방법.
제54항 내지 제60항 중 어느 한 항에 있어서, 캡핑 및 테일링 단계는 시험관 내 전사 동안 발생하는, 방법.
제54항 내지 제62항 중 어느 한 항에 있어서, mRNA는 각 NTP의 농도 범위가 1 내지 10 mM인 NTP; 0.01 내지 0.5 mg/ml의 농도 범위의 DNA 템플릿; 및 0.01 내지 0.1 mg/ml의 농도 범위의 SP6 RNA 중합효소를 포함하는 반응 혼합물에서 합성되는, 방법.
제63항에 있어서, 반응 혼합물은 각 NTP의 농도가 5 mM인 NTP들, 0.1 mg/ml 농도의 DNA 템플릿, 및 0.05 mg/ml 농도의 SP6 RNA 중합효소를 포함하는, 방법.
제54항 내지 제64항 중 어느 한 항에 있어서, mRNA는 37 내지 56℃의 온도 범위에서 합성되는, 방법.
제63항 내지 제65항 중 어느 한 항에 있어서, NTP는 자연 발생 NTP인, 방법.
제63항 내지 제65항 중 어느 한 항에 있어서, NTP는 변형된 NTP를 포함하는, 방법.
제36항 내지 제67항 중 어느 한 항에 있어서, 방법은 합성된 최적화된 뉴클레오티드 서열을 시험관 내 또는 생체 내 세포 내로 형질감염시키는 단계를 추가로 포함하는, 방법.
제68항에 있어서, 형질감염된 세포에서의 합성된 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 발현 수준이 결정되는, 방법.
제68항 또는 제69항에 있어서, 합성된 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 기능적 활성이 결정되는, 방법.
제1항 내지 제31항 중 어느 한 항에 있어서, 제36항 내지 제70항 중 어느 한 항의 방법에 따라 아미노산 서열 및 적어도 하나의 최적화된 뉴클레오티드 서열을 암호화하는 참조 뉴클레오티드 서열을 합성하는 단계, 및 상기 참조 뉴클레오티드 서열 및 상기 적어도 하나의 최적화된 뉴클레오티드 서열을 별도의 세포 또는 유기체와 접촉시키는 단계를 추가로 포함하되, 상기 적어도 하나의 합성된 최적화된 뉴클레오티드 서열과 접촉된 세포 또는 유기체는, 상기 합성된 참조 뉴클레오티드 서열과 접촉된 세포 또는 유기체에 의해 생성된 참조 뉴클레오티드 서열에 의해 암호화된 단백질의 수율과 비교하여, 상기 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 증가된 수율을 생성하는, 방법.
제36항 내지 제70항 중 어느 한 항에 있어서, 방법은 대상체에게 전달하거나 대상체를 치료하는 데 사용하기 위한 치료 펩티드, 폴리펩티드, 또는 단백질을 암호화하는 mRNA를 포함하는 치료 조성물을 생성하는 단계를 추가로 포함하는, 방법.
제72항에 있어서, mRNA는 낭성 섬유증 막관통 전달 조절자(CFTR) 단백질을 암호화하는, 방법.
제1항 내지 제31항 중 어느 한 항에 있어서, 합성될 때, 적어도 하나의 최적화된 뉴클레오티드 서열은, 합성될 때, 참조 뉴클레오티드 서열에 의해 암호화된 단백질의 발현과 비교하여 적어도 하나의 최적화된 뉴클레오티드 서열에 의해 암호화된 단백질의 발현을 증가시키도록 구성되는, 방법.
제71항 내지 제74항 중 어느 한 항에 있어서, 참조 뉴클레오티드 서열은, (a) 아미노산 서열을 암호화하는 자연 발생 뉴클레오티드 서열; 또는 (b) 제1항 내지 제31항 중 어느 한 항에 따른 방법 이외의 방법에 의해 생성된 아미노산 서열을 암호화하는 뉴클레오티드 서열인, 방법.
치료에 사용하기 위해 제36항 내지 제67항, 및 제72항 내지 제75항 중 어느 한 항의 방법에 따라 생성된, 합성된 최적화된 뉴클레오티드 서열.
치료 방법으로서, 제36항 내지 제67항, 및 제72항 내지 제75항 중 어느 한 항의 방법에 따라 생성된, 합성된 최적화된 뉴클레오티드 서열을 이러한 치료를 필요로 하는 인간 대상체에게 투여하는 단계를 포함하는, 방법.
10% 이상의 사용 빈도와 연관된 코돈으로 이루어진 최적화된 뉴클레오티드 서열을 포함하는 시험관 내에서 합성된 핵산으로서, 상기 최적화된 뉴클레오티드 서열은,
(i) 다음의 뉴클레오티드 서열 중 하나를 갖는 종결 신호를 함유하지 않고,
5'-X₁AUCUX₂UX₃-3'(여기에서, X₁, X₂ 및 X₃은 A, C, U 또는 G로부터 독립적으로 선택됨), 및 5'-X₁AUCUX₂UX₃-3'(여기에서, X₁, X₂ 및 X₃은 A, C, U 또는 G로부터 독립적으로 선택됨)를 포함하지 않고;
(ii) 시스 조절 요소 및 음성 반복 요소를 함유하지 않으며;
(iii) 0.8을 초과하는 코돈 적용 인덱스를 가지되;
(vi) 중첩되지 않는 30개의 뉴클레오티드-길이의 부분으로 나누어질 경우, 상기 최적화된 뉴클레오티드 서열의 각 부분은 30% 내지 70%의 구아닌 시토신 함량 범위를 갖는, 핵산.
제77항의 시험관 내에서 합성된 핵산으로서, 최적화된 뉴클레오티드 서열은: TATCTGTT; TTTTTT; AAGCTT; GAAGAGC; TCTAGA; UAUCUGUU; UUUUUU; AAGCUU; GAAGAGC; UCUAGA의 서열 중 하나를 갖는 종결 신호를 함유하지 않는, 핵산.
제78항 또는 제79항의 시험관 내에서 합성된 핵산으로서, 핵산은 mRNA인, 핵산.
제78항 내지 제80항 중 어느 한 항의 시험관 내에서 합성된 핵산으로서, 치료 요법에 사용하기 위한, 핵산.