JP2023524769A

JP2023524769A - 最適化ヌクレオチド配列の生成

Info

Publication number: JP2023524769A
Application number: JP2022567244A
Authority: JP
Inventors: クーアン・アイン・トラン; アニュシャ・ディアス; フランク・デロサ
Original assignee: トランスレイトバイオ，インコーポレイテッド
Priority date: 2020-05-07
Filing date: 2021-05-07
Publication date: 2023-06-13
Also published as: MX2022013985A; BR112022022508A2; AU2021268028A1; CN115867324A; KR20230020991A; WO2021226461A1; EP4147243A1; CA3177907A1; US20230245721A1; IL297948A

Abstract

最適化ヌクレオチド配列を生成するための方法が提供される。方法は、コドン使用表の少なくとも正規化、および正規化コドン使用表内のコドンの使用頻度に基づく所与のアミノ酸配列のためのコドンの選択を含む。方法は、アミノ酸配列をコードする複数の最適化ヌクレオチド配列のリストを生成する工程、最適化ヌクレオチド配列のリストをフィルタリングする工程、１つもしくはそれ以上の最適化ヌクレオチド配列を合成する工程、および／または１つもしくはそれ以上の合成最適化ヌクレオチド配列を投与する工程を含み得る。【選択図】図１

Description

関連出願
本出願は、２０２０年５月７日に出願された米国仮特許出願第６３／０２１，３４５号の優先権を主張し、その開示全体が参照によって本明細書に組み入れられる。２０２０年２月１８日に出願された米国仮特許出願第６２／９７８，１８０号は、その全体が参照によって本明細書に組み入れられる。

配列表
本明細書は、配列表（２０２１年５月７日にＭＲＴ－２１３１ＷＯ＿ＳＬという名称の．ｔｘｔファイルとして電子的に提出された）を参照する。本．ｔｘｔファイルは、２０２１年４月２７日に作成されたものであり、サイズが６３．５ＫＢである。配列表の全内容は、参照によって本明細書に組み入れられる。

発明の分野
本発明は、最適化ヌクレオチド配列を生成するための方法に関する。特に、本発明は、最適化ヌクレオチド配列によってコードされる機能性タンパク質、ポリペプチドまたはペプチドのｉｎｖｉｔｒｏ合成および細胞における発現のために、ヌクレオチド配列が最適化される方法に関する。

ｍＲＮＡ療法は、様々な疾患、特に、タンパク質または遺伝子の機能障害によって起こる疾患を治療するためにますます重要である。生物のＤＮＡ配列の遺伝子変異は、異常な遺伝子発現をもたらし、結果としてタンパク質の産生または機能に欠陥を生じる可能性がある。例えば、根底にあるＤＮＡ配列の変異は、タンパク質の不十分な発現もしくは過剰発現、または機能障害性タンパク質の産生をもたらす可能性がある。タンパク質の正常または健康レベルの回復は、ｍＲＮＡ療法により達成することができ、ｍＲＮＡ療法は、遺伝子またはタンパク質の機能障害によって起こる一連の疾患に広く適用可能である。

ｍＲＮＡ療法では、欠陥タンパク質または欠如タンパク質に置き換わることができる機能性タンパク質をコードするｍＲＮＡが、標的細胞または組織に送達される。疾患または障害を治療または予防することに有効な治療用タンパク質をコードするｍＲＮＡの投与はまた、組換え産生されたペプチド、ポリペプチドまたはタンパク質を用いた治療法の、費用効果の高い代替となることもできる。ｍＲＮＡ療法は、ゲノム配列を永続的に変化させることも、細胞核に進入することもなしに、内在性タンパク質の正常レベルを回復または外来性治療用タンパク質を提供することができる。ｍＲＮＡ療法は、細胞自体のタンパク質産生およびプロセシング機構を利用して、疾患または障害を治療し、オーダーメイドの投薬および製剤に対して順応性があり、根底にある遺伝子もしくはタンパク質の欠陥によって起こるまたは外来性タンパク質の提供により治療可能な任意の疾患または状態に広く適用可能である。

ｍＲＮＡによってコードされるタンパク質の発現レベルは、ｍＲＮＡ療法の効能および治療的利益にかなり影響する可能性がある。細胞内のｍＲＮＡからのタンパク質の効果的な発現または産生は、多様な要因に依存する。タンパク質をコードするヌクレオチド配列内のコドンの組成および順序の最適化（「コドン最適化」）は、ｍＲＮＡによってコードされるタンパク質のより高い発現をもたらすことができる。コドン最適化を行う様々な方法が、当技術分野において公知であるが、各々が、計算上および／または治療上の観点からかなりの欠点および限界を有する。特に、公知のコドン最適化法は、しばしば、「最適化された」配列が各アミノ酸をコードするコドンを１種だけ含む（それで、１対１配列と称される場合がある）ように、アミノ酸ごとにあらゆるコドンを、そのアミノ酸について使用が最高のコドンに置換することを伴う。

したがって、ｍＲＮＡ療法におけるタンパク質の発現増加のために最適化ヌクレオチド配列を生成する、改良されたコドン最適化法の必要性が存在する。

本発明は、アミノ酸配列を分析して、少なくとも１つの最適化ヌクレオチド配列を作製するための方法をもたらすことにより、有効なｍＲＮＡ療法のための、核酸最適化法の改善に対する必要性に取り組む。最適化ヌクレオチド配列は、タンパク質の発現を、自然発生のヌクレオチド配列と関連するタンパク質の発現と比較して増大させるようにデザインされる。本発明の核酸最適化法は、ｉｎｖｉｔｒｏにおいて、全長ｍＲＮＡ転写物を合成し、より高いタンパク質収量を達成させることが望ましい設定において、目的のタンパク質の発現を増大させる能力をもたらす。

例えば、コドン最適化は、ｍＲＮＡ療法、免疫学およびワクチン接種、がん免疫療法、バイオテクノロジー、ならびに製造において、目的のタンパク質の発現を増大させるのに使用される。コドン最適化は、遺伝子コードの冗長性のために、コードされるタンパク質の翻訳アミノ酸配列を変更せずに、多様な基準に基づき、タンパク質をコードするヌクレオチド配列をもたらす。

ｍＲＮＡコドン使用と、同族ｔＲＮＡの存在度との不均衡を回避するために、コドン最適化は、ヌクレオチド配列内において、宿主細胞内における、転移ＲＮＡ（ｔＲＮＡ）の、自然発生の存在度によくマッチするコドン組成をもたらし、特異的ｔＲＮＡの枯渇を回避し得る。ｔＲＮＡの存在度は、タンパク質の翻訳速度に影響を及ぼすので、ヌクレオチド配列のコドン最適化は、タンパク質の翻訳効率を増大させ、コードされるタンパク質をもたらし得る。例えば、稀少なｔＲＮＡの不足は、タンパク質の翻訳を停滞または停止させ得るので、低度のコドン使用により特徴付けられる、稀少なコドンを使用しないことにより、タンパク質の翻訳効率およびタンパク質の収量を増大させ得る。しかし、コドン最適化の工程は、ヌクレオチド配列内においてコードされ、タンパク質の翻訳を制御し、新生ポリペプチド鎖の、適正なフォールディングを確保するために重要な情報を除去する場合があるので、コードされるタンパク質の機能的活性の低減を代償としてなされ、効能の喪失と関連する場合がある（ＭａｕｒｏおよびＣｈａｐｐｅｌｌ、ＴｒｅｎｄｓＭｏｌＭｅｄ．、２０１４；２０（１１）：６０４～１３）。本発明者らは、ある程度の多様性を保持する、すなわち、必ずしも、各アミノ酸をコードする、１つのコドンだけを含むわけではない最適化配列は、自然発生の配列および１対１配列のいずれも上回る、タンパク質収量の増大を達成し得ることを見出した。

第１の態様では、本発明は、最適化ヌクレオチド配列を生成するためのコンピュータ実装方法であって、（ｉ）ペプチド、ポリペプチド、またはタンパク質をコードするアミノ酸配列を受け取る工程；（ｉｉ）第１のコドン使用表を受け取る工程であって、第１のコドン使用表は、アミノ酸のリストを含み、表中の各アミノ酸は、少なくとも１つのコドンと関連し、各コドンは、使用頻度と関連する工程；（ｉｉｉ）コドン使用表から、閾値頻度未満である使用頻度と関連する任意のコドンを除去する工程；（ｉｖ）工程（ｉｉｉ）において除去されなかったコドンの使用頻度を正規化することにより、正規化コドン使用表を生成する工程；および（ｖ）正規化コドン使用表中のアミノ酸と関連する１つまたはそれ以上のコドンの使用頻度に基づき、アミノ酸配列内の各アミノ酸のためのコドンを選択することにより、アミノ酸配列をコードする最適化ヌクレオチド配列を生成する工程を含む方法に関する。一部の実施形態では、閾値頻度は、使用者により選択可能である。一部の実施形態では、閾値頻度は、５％～３０％の範囲、特に、５％、もしくは１５％、もしくは２０％、もしくは２５％、もしくは３０％、または、特に、１０％である。本発明者らは、本明細書において記載された値を有する閾値頻度は、タンパク質収量の増大を達成し得る最適化配列を発生させ得ることを見出した。

一部の実施形態では、正規化コドン使用表を生成する工程は、（ａ）第１のアミノ酸と関連し、工程（ｉｉｉ）において除去された各コドンの使用頻度を、第１のアミノ酸と関連する残りのコドンに分配する工程；および（ｂ）各アミノ酸について、工程（ａ）を反復して、正規化コドン使用表を作成する工程を含む。一部の実施形態では、除去されたコドンの使用頻度は、残りのコドン間で同等に分配される。一部の実施形態では、除去されたコドンの使用頻度は、各残りのコドンの使用頻度に基づき、残りのコドン間で比例的に分配される。

一部の実施形態では、各アミノ酸のためのコドンを選択する工程は、（ａ）正規化コドン使用表において、アミノ酸配列の第１のアミノ酸と関連する１つまたはそれ以上のコドンを同定する工程；（ｂ）第１のアミノ酸と関連するコドンを選択する工程であって、ある特定のコドンを選択する確率は、正規化コドン使用表中の第１のアミノ酸と関連するコドンと関連する使用頻度と等しい工程；および（ｃ）アミノ酸配列内の各アミノ酸のためのコドンが選択されるまで、工程（ａ）および（ｂ）を反復する工程を含む。

一部の実施形態では、アミノ酸配列内の各アミノ酸のためのコドンを選択することにより、最適化ヌクレオチド配列を生成する工程（上記方法における工程（ｖ））は、最適化ヌクレオチド配列のリストを生成するように、ｎ回にわたり実行される。

一部の実施形態では、方法は、最適化ヌクレオチド配列のリストをスクリーニングして、１つまたはそれ以上の基準を満たさない最適化ヌクレオチド配列を同定し、除去する工程をさらに含む。このように、１つまたはそれ以上の基準を満たさないことにより、それらが有効である可能性が低減される場合、方法は、著明数の候補最適化ヌクレオチド配列を、検討から外すことを可能とする。言い換えれば、基準は、最適化ヌクレオチド配列の実際の有効性を指し示すので、１つまたはそれ以上の基準を満たさないヌクレオチド配列は、さらなる検討から除外される。１つまたはそれ以上の基準は、１つまたはそれ以上の終結シグナルを含有しない配列；所定の範囲内に収まるグアニン－シトシン含量を有する配列；閾値を超えるコドン適応指標を有する配列；１つまたはそれ以上のシスエレメントを含有しない配列；１つまたはそれ以上の反復エレメントを含有しない配列；および他の目的の基準を含み得る。

このように、方法は、短いか、またはフィルタリングされた、最適化ヌクレオチド配列のリストをもたらす。リスト内の最適化ヌクレオチド配列の数を低減することにより、リスト内の配列に対して実行される、さらなる工程、例えば、さらなるアルゴリズム工程または物理的合成工程も、数および複雑性が低減されるので有利である。

一部の実施形態では、最適化ヌクレオチド配列のリストをスクリーニングする工程は、ある特定の基準について、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列は、基準を満たすのかどうかを決定する工程；ヌクレオチド配列が基準を満たさない場合、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程を含む。

一部の実施形態では、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列が、基準を満たすのかどうかを決定する工程は、各ヌクレオチド配列について、ヌクレオチド配列の第１の部分は、基準を満たすのかどうかを決定する工程を含み、最適化ヌクレオチド配列のリストを更新する工程は、第１の部分が基準を満たさない場合、ヌクレオチド配列を除去する工程を含む。一部の実施形態では、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列が、基準を満たすのかどうかを決定する工程は、各ヌクレオチド配列について、ヌクレオチド配列のうちの、互いと重複せず、第１の部分と重複しない１つまたはそれ以上のさらなる部分は、基準を満たすのかどうかを決定する工程をさらに含み、最適化配列のリストを更新する工程は、任意の部分が基準を満たさない場合、ヌクレオチド配列を除去する工程を含み、場合により、任意の部分が基準を満たさないと決定される場合に、最適化ヌクレオチド配列が、基準を満たすのかどうかを決定する工程は、停止される。

このようにして、最適化ヌクレオチド配列をフィルタリングすることにより、配列は、計算する前に、リストから棄却され、時間資源は、配列全体の分析に費やされるため、方法は、計算上有利となる。したがって、方法は、より効率的となるので、有利である。さらに、一部の基準について、部分ごとの分析は、より詳細かつ選択的なスクリーニング工程をもたらす。グアニン－シトシン含量を、例として使用すると、方法は、平均グアニン－シトシン含量が、所定の範囲から外れる配列を除去するだけでなく、また、特定の部分において、グアニン－シトシン含量のスパイクまたはトラフを有し、効率的な転写または翻訳を妨げ得る、任意の配列も除去するので有利である。このようなピークまたはトラフは、配列の全体が、同時に分析されるだけであった場合、分析部分以外の配列部分は、許容可能な範囲内の平均グアニン－シトシン含量をもたらし得るため、見逃される。部分ごとに分析することにより、計算効率が改善されるだけでなく、他の方式では、平均において遮蔽される、候補配列内の問題も、同定される。

本明細書では、グアニン－シトシン含量が、例として使用されたが、本明細書において記載される、任意の基準は、上記の通り、部分ごとに分析されることが察知される。一部の基準、例えば、終結シグナルを含有する配列について、計算効率は、増大するが、部分ごとのスクリーニングのアウトカムは、結果として得られるリストの内容に影響を及ぼさない、すなわち、部分における終結シグナルの評価は、同じヌクレオチド配列を、配列の全体についての評価としてのリストから除去する。他の基準、例えば、グアニン－シトシン含量またはコドン適応指標について、スクリーニングのアウトカムは、異なり得る、例えば、部分分析を使用すると、配列を、それらの全体において評価する場合には除去されなかった、ある特定の配列が除去される。

ヌクレオチド配列のうちの第１の部分および／または１つもしくはそれ以上のさらなる部分は、所定の数のヌクレオチドを含む場合があり、場合により、所定の数のヌクレオチドは、５～３００ヌクレオチド、または１０～２００ヌクレオチド、または１５～１００ヌクレオチド、または２０～５０ヌクレオチドの範囲にあり、例えば、３０ヌクレオチド、例えば、１００ヌクレオチドである。この長さの部分は、ｍＲＮＡのコドン使用と、同族ｔＲＮＡの存在度とに、最適の均衡をもたらすことが見出されている。

一部の実施形態では、第１の基準は、終結シグナルを含有しないヌクレオチド配列を含み、その結果、方法は、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列は、終結シグナルを含有するのかどうかを決定する工程；およびヌクレオチド配列が、１つまたはそれ以上の終結シグナルを含有する場合に、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程を含む。

このように、方法は、短いか、またはフィルタリングされた、最適化ヌクレオチド配列のリストをもたらす。リスト内の最適化ヌクレオチド配列の数を低減することにより、リスト内の配列に対して実行される、さらなる工程、例えば、さらなるアルゴリズム工程または物理的合成工程も、数および複雑性が低減されるので有利である。一部の実施形態では、終結シグナルは、以下のヌクレオチド配列：５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－３’［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｔ、またはＧから選択される］を有する。一部の実施形態では、終結シグナルは、以下のヌクレオチド配列：ＴＡＴＣＴＧＴＴ；および／またはＴＴＴＴＴＴ；および／またはＡＡＧＣＴＴ；および／またはＧＡＡＧＡＧＣ；および／またはＴＣＴＡＧＡのうちの１つを有する。一部の実施形態では、終結シグナルは、以下のヌクレオチド配列：５’－Ｘ_１ＡＵＣＵＸ_２ＵＸ_３－３’［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｕ、またはＧから選択される］を有する。一部の実施形態では、終結シグナルは、以下のヌクレオチド配列：ＵＡＵＣＵＧＵＵ；および／またはＵＵＵＵＵＵ；および／またはＡＡＧＣＵＵ；および／またはＧＡＡＧＡＧＣ；および／またはＵＣＵＡＧＡのうちの１つを有する。

一部の実施形態では、第２の基準は、所定のグアニン－シトシン含量範囲内のグアニン－シトシン含量を有するヌクレオチド配列を含み、その結果、方法は、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の最適化ヌクレオチド配列の各々のグアニン－シトシン含量を決定する工程であって、グアニン－シトシン含量は、グアニンまたはシトシンである、ヌクレオチド配列内の塩基の百分率である工程；そのグアニン－シトシン含量が、所定のグアニン－シトシン含量範囲から外れる場合に、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程を含む。リスト内の最適化ヌクレオチド配列の数を低減することにより、リスト内の配列に対して実行される、さらなる工程、例えば、さらなるアルゴリズム工程または物理的合成工程も、数および複雑性が低減されるので有利である。一部の実施形態では、所定のグアニン－シトシン含量範囲は、１５％～７５％、もしくは４０％～６０％、または、特に、３０％～７０％である。

一部の実施形態では、第３の基準は、コドン適応指標が所定のコドン適応指標閾値を超えるヌクレオチド配列を含み、その結果、方法は、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の最適化ヌクレオチド配列の各々のコドン適応指標を決定する工程であって、配列のコドン適応指標は、コドン使用バイアスの尺度であり、０～１の間の値であり得る工程；そのコドン適応指標が、所定のコドン適応指標閾値以下である場合に、任意のヌクレオチド配列を除去することにより、最適化ヌクレオチド配列のリスト、または最近更新されたリストを更新する工程を含む。このように、方法は、短いか、またはフィルタリングされた、最適化ヌクレオチド配列のリストをもたらす。一部の実施形態では、コドン適応指標閾値は、使用者により選択可能である。一部の実施形態では、コドン適応指標閾値は、０．７、もしくは０．７５、もしくは０．８５、もしくは０．９、または、特に、０．８である。リスト内の最適化ヌクレオチド配列の数を低減することにより、リスト内の配列に対して実行される、さらなる工程、例えば、さらなるアルゴリズム工程または物理的合成工程も、数および複雑性が低減されるので有利である。

一部の実施形態では、第４の基準は、少なくとも２つ、例えば３つの隣接する同一のコドンを含有しないヌクレオチド配列を含み、その結果、方法は、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の任意の最適化ヌクレオチド配列は、少なくとも２つ、例えば３つの隣接する同一のコドンを含有するのかどうかを決定する工程；およびそれが、少なくとも２つ、例えば３つの隣接する同一のコドンを含有する場合に、任意のヌクレオチド配列を除去することにより、最適化ヌクレオチド配列のリスト、または最近更新されたリストを更新する工程をさらに含む。反復する同一コドン、言い換えれば、隣接する同一コドンは、転写を停滞させ得ることが見出されている。したがって、２つ以上、４つ以上、５つ以上、６つ以上、７つ以上、８つ以上、９つ以上、または、特に、３つ以上の同一の隣接コドンを含有する、任意の最適化ヌクレオチド配列をリストから除去することにより、転写の有効性の低下をもたらす配列が無視され、除去される。

本発明についての任意の態様では、最適化ヌクレオチド配列の更新リストの生成は、以下の工程：
（Ｉ）１つまたはそれ以上の最適化ヌクレオチド配列内の、終結シグナルの存在を決定し、それらが、終結シグナルを含有する場合、ヌクレオチド配列を、最適化ヌクレオチド配列のリスト、または最近更新されたリストから除去する工程；
（ＩＩ）１つまたはそれ以上の最適化ヌクレオチド配列の、グアニン－シトシン含量を決定し、それらのグアニン－シトシン含量が、所定の範囲から外れる場合、ヌクレオチド配列を、最適化ヌクレオチド配列のリスト、または最近更新されたリストから除去する工程；
（ＩＩＩ）１つまたはそれ以上の最適化ヌクレオチド配列の、コドン適応指標を決定し、それらのグアニン－シトシン含量が、所定の範囲から外れる場合、ヌクレオチド配列を、最適化ヌクレオチド配列のリスト、または最近更新されたリストから除去する工程
のうちのいずれか１つ、これらのうちのいずれか２つ、またはこれらのうちのいずれか３つに基づき、最適化配列をリストから除去することにより実行される。

本発明についての、第２の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（Ｉ）の実施をさらに含む。

本発明についての、第３の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（ＩＩ）の実施をさらに含む。

本発明についての、第４の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（ＩＩＩ）の実施をさらに含む。

本発明についての、第５の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（Ｉ）、次いで、工程（ＩＩ）の実施をさらに含む。

本発明についての、第６の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（Ｉ）、次いで、工程（ＩＩＩ）の実施をさらに含む。

本発明についての、第７の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（ＩＩ）、次いで、工程（Ｉ）の実施をさらに含む。

本発明についての、第８の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（ＩＩ）、次いで、工程（ＩＩＩ）の実施をさらに含む。

より典型的に、本発明に従う方法は、すべてが、ｉｎｖｉｔｒｏ転写により合成される場合に、全長ｍＲＮＡ転写物をもたらし、ｉｎｖｉｖｏにおいて、ｍＲＮＡによりコードされるタンパク質の高レベルの発現をもたらすことが予測される、最適化ヌクレオチド配列の短いリストを作成するために、終結シグナルベースの工程（Ｉ）、グアニン－シトシン含量ベースの工程（ＩＩ）、およびコドン適応指標ベースの工程（ＩＩＩ）を含む。終結シグナルベースの工程（Ｉ）、グアニン－シトシン含量ベースの工程（ＩＩ）、およびコドン適応指標ベースの工程（ＩＩＩ）は、任意の順序で実行される。工程は、最適化ヌクレオチド配列の短いリストを決定する場合に、計算時間を最適化する目的で、特異的な順序で実行されると有利である。

本発明についての、第９の特定の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（Ｉ）、次いで、工程（ＩＩ）、次いで、工程（ＩＩＩ）の実施をさらに含む。この順序でフィルタリングすることにより、フィルタリング工程の計算効率が最大化されるので有利であり得る。本発明者らは、典型的最適化ヌクレオチド配列のリスト、および典型的インプットパラメータについて、モチーフスクリーンフィルタに続く、ＧＣ含量分析フィルタに続く、ＣＡＩ分析フィルタが、大半の配列をリストから除去することを見出した。フィルタリング工程の計算効率は、分析される配列の総数、すなわち、各フィルタリング工程内で分析される配列の合計により部分的に決定されるので、フィルタリング工程の早期において、より多くの配列が除去され、少数の配列は、フィルタリング工程の後期において、分析を要求し、これにより、方法の全体的計算効率を増大させる。さらに、ＣＡＩ分析フィルタが、全配列の分析を要求するのに対し、本発明の実施形態では、モチーフスクリーンフィルタおよびＧＣ含量分析フィルタは、配列の一部または部分だけを分析し得る。したがって、ＣＡＩ分析工程へとインプットされる、リスト内の配列数の低減を強調する方法は、他の方法より、計算が効率的である可能性が高い。

本発明についての、第１０の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（Ｉ）、次いで、工程（ＩＩＩ）、次いで、工程（ＩＩ）の実施をさらに含む。

本発明についての、第１１の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（ＩＩ）、次いで、工程（Ｉ）、次いで、工程（ＩＩＩ）の実施をさらに含む。

本発明についての、第１２の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（ＩＩ）、次いで、工程（ＩＩＩ）、次いで、工程（Ｉ）の実施をさらに含む。

本発明についての、第１３の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（ＩＩＩ）、次いで、工程（Ｉ）、次いで、工程（ＩＩ）の実施をさらに含む。

本発明についての、第１４の態様では、１つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程（ＩＩＩ）、次いで、工程（ＩＩ）、次いで、工程（Ｉ）の実施をさらに含む。

一部の実施形態では、アミノ酸配列は、アミノ酸配列のデータベースから受け取られる。一部の実施形態では、方法は、アミノ酸配列をアミノ酸配列のデータベースから要求する工程をさらに含み、アミノ酸配列は要求に応答して受け取られる。

一部の実施形態では、第１のコドン使用表は、コドン使用表のデータベースから受け取られる。一部の実施形態では、方法は、第１のコドン使用表をコドン使用表のデータベースから要求する工程をさらに含み、第１のコドン使用表は要求に応答して受け取られる。

第１５の態様では、本発明は、コンピュータによりプログラムが実行される場合に、コンピュータに、第１の態様のうちの、任意の実施形態に従う方法を実行させる命令を含むコンピュータプログラムに関する。

第１６の態様では、本発明は、第１の態様のうちの、任意の実施形態に従う方法を実行するための手段を含むデータ処理システムに関する。

第１７の態様では、本発明は、その上に、第３の態様のコンピュータプログラムを格納する、コンピュータ読取り型データ記憶媒体に関する。

第１８の態様では、本発明は、第３の態様のコンピュータプログラムを搬送する、データ搬送信号に関する。

第１９の態様では、本発明は、ヌクレオチド配列を合成するための方法であって、第１の態様のうちの、任意の実施形態に従う方法を実行して、少なくとも１つの最適化ヌクレオチド配列を生成する工程；および生成された最適化ヌクレオチド配列のうちの少なくとも１つを合成する工程を含む方法に関する。一部の実施形態では、方法は、合成された最適化配列のうちの少なくとも１つを、ｉｎｖｉｔｒｏ転写における使用のための核酸ベクター内に挿入する工程をさらに含む。

一部の実施形態では、方法は、合成最適化ヌクレオチド配列の３’末端に、１つまたはそれ以上の終結シグナルを挿入する工程をさらに含む。一部の実施形態では、１つを超える終結シグナルは挿入され、前記終結シグナルは、１０塩基対またはそれ未満隔てられ、例えば、５～１０塩基対隔てられる。一部の実施形態では、１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－３’［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｔ、またはＧから選択される］を有する。一部の実施形態では、１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：ＴＡＴＣＴＧＴＴ；ＴＴＴＴＴＴ；ＡＡＧＣＴＴ；ＧＡＡＧＡＧＣ；および／またはＴＣＴＡＧＡのうちの１つを有する。一部の実施形態では、１つを超える終結シグナルは、以下のヌクレオチド配列：（ａ）５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－（Ｚ_Ｎ）－Ｘ_４ＡＴＣＴＸ_５ＴＸ_６－３’、または（ｂ）５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－（Ｚ_Ｎ）－Ｘ_４ＡＴＣＴＸ_５ＴＸ_６－（Ｚ_Ｍ）－Ｘ_７ＡＴＣＴＸ_８ＴＸ_９－３’［配列中、Ｘ_１、Ｘ_２、Ｘ_３、Ｘ_４、Ｘ_５、Ｘ_６、Ｘ_７、Ｘ_８、およびＸ_９は、独立に、Ａ、Ｃ、Ｔ、またはＧから選択され、Ｚ_Ｎは、Ｎヌクレオチドのスペーサー配列を表し、Ｚ_Ｍは、それらの各々が、独立に、Ａ、Ｃ、Ｔ、またはＧから選択される、Ｍヌクレオチドのスペーサー配列を表し、Ｎおよび／またはＭは、独立に、１０またはそれ未満である］によりコードされる。

一部の実施形態では、核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結されたＲＮＡポリメラーゼプロモーターを含み、場合により、ＲＮＡポリメラーゼプロモーターは、ＳＰ６ＲＮＡポリメラーゼプロモーター、またはＴ７ＲＮＡポリメラーゼプロモーターである。一部の実施形態では、核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結された５’ＵＴＲをコードするヌクレオチド配列を含む。一部の実施形態では、５’ＵＴＲは、アミノ酸配列をコードする自然発生のｍＲＮＡの５’ＵＴＲと異なる。一部の実施形態では、５’ＵＴＲは、配列番号１６のヌクレオチド配列を有する。一部の実施形態では、核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結された３’ＵＴＲをコードするヌクレオチド配列を含む。一部の実施形態では、３’ＵＴＲは、アミノ酸配列をコードする自然発生のｍＲＮＡの３’ＵＴＲと異なる。一部の実施形態では、３’ＵＴＲは、配列番号１７または配列番号１８のヌクレオチド配列を有する。一部の実施形態では、核酸ベクターは、プラスミドである。一部の実施形態では、プラスミドは、ｉｎｖｉｔｒｏ転写の前に直鎖化される。一部の実施形態では、プラスミドは、ｉｎｖｉｔｒｏ転写の前に直鎖化されない。一部の実施形態では、プラスミドは、超らせん状である。

一部の実施形態では、方法は、合成最適化ヌクレオチド配列のうちの少なくとも１つをｉｎｖｉｔｒｏ転写において使用して、ｍＲＮＡを合成する工程をさらに含む。一部の実施形態では、ｍＲＮＡは、ＳＰ６ＲＮＡポリメラーゼにより合成される。一部の実施形態では、ＳＰ６ＲＮＡポリメラーゼは、自然発生のＳＰ６ＲＮＡポリメラーゼである。一部の実施形態では、ＳＰ６ＲＮＡポリメラーゼは、組換えＳＰ６ＲＮＡポリメラーゼである。一部の実施形態では、ＳＰ６ＲＮＡポリメラーゼは、タグを含む。一部の実施形態では、タグは、Ｈｉｓタグである。一部の実施形態では、ｍＲＮＡは、Ｔ７ＲＮＡポリメラーゼにより合成される。

一部の実施形態では、方法は、合成されたｍＲＮＡを、キャッピングおよび／またはテーリングする別個の工程をさらに含む。一部の実施形態では、キャッピングおよびテーリングは、ｉｎｖｉｔｒｏ転写の間に起こる。

一部の実施形態では、ｍＲＮＡは、１～１０ｍＭの各ＮＴＰの範囲の濃度のＮＴＰ、０．０１～０．５ｍｇ／ｍｌの範囲の濃度のＤＮＡ鋳型、および０．０１～０．１ｍｇ／ｍｌの範囲の濃度のＳＰ６ＲＮＡポリメラーゼを含む反応混合物中で合成される。一部の実施形態では、反応混合物は、５ｍＭの各ＮＴＰの濃度のＮＴＰ、０．１ｍｇ／ｍｌの濃度のＤＮＡ鋳型、および０．０５ｍｇ／ｍｌの濃度のＳＰ６ＲＮＡポリメラーゼを含む。

一部の実施形態では、ｍＲＮＡは、３７～５６℃の範囲の温度で合成される。

一部の実施形態では、ＮＴＰは、自然発生のＮＴＰである。一部の実施形態では、ＮＴＰは、修飾ＮＴＰを含む。

一部の実施形態では、方法は、アミノ酸配列をコードする参照ヌクレオチド配列、および本発明の方法に従う少なくとも１つの合成最適化ヌクレオチド配列を合成する工程と、参照ヌクレオチド配列、および少なくとも１つの最適化ヌクレオチド配列を、別個の細胞または生物と接触させる工程とをさらに含む。典型的な実施形態では、少なくとも１つの合成最適化ヌクレオチド配列と接触させた細胞または生物は、合成参照ヌクレオチド配列と接触させた細胞または生物により産生される、参照ヌクレオチド配列によりコードされるタンパク質の収量と比較して増大した収量の、最適化ヌクレオチド配列によりコードされるタンパク質を産生する。本発明についての任意の態様では、合成された場合の少なくとも１つの最適化ヌクレオチド配列は、タンパク質の発現を、合成された場合の参照ヌクレオチド配列によりコードされるタンパク質の発現と比較して増大させるように構成される。参照ヌクレオチド配列は、（ａ）アミノ酸配列をコードする自然発生のヌクレオチド配列；または（ｂ）本発明の第１の態様に従う方法以外の方法により生成されるアミノ酸配列をコードするヌクレオチド配列であり得る。

一部の実施形態では、方法は、ｉｎｖｉｔｒｏまたはｉｎｖｉｖｏにおいて、細胞に、合成最適化ヌクレオチド配列をトランスフェクトする工程をさらに含む。一部の実施形態では、トランスフェクトされた細胞内の、合成最適化ヌクレオチド配列によりコードされるタンパク質の発現レベルが決定される。一部の実施形態では、トランスフェクトされた細胞内の、合成最適化ヌクレオチド配列によりコードされるタンパク質の機能的活性が決定される。

第２０の態様では、本発明は、治療における使用のための、本発明の方法に従い生成される合成最適化ヌクレオチド配列をもたらす。本発明のこの態様には、本発明の方法に従い生成される合成最適化ヌクレオチド配列を、このような処置を必要とするヒト対象へと投与する工程を含む処置方法が含まれる。一部の実施形態では、本明細書において記載された方法は、対象への送達または対象の処置における使用のための、治療用ペプチド、ポリペプチド、またはタンパク質をコードするｍＲＮＡを含む治療用組成物をもたらす。一部の実施形態では、ｍＲＮＡは、嚢胞性線維症膜貫通コンダクタンス制御因子（ＣＦＴＲ）タンパク質をコードする。

第２１の態様では、本発明は、１０％以上の使用頻度と関連するコドンからなる、最適化ヌクレオチド配列を含み、最適化ヌクレオチド配列は、
（ｉ）以下のヌクレオチド配列：
５’－Ｘ_１ＡＵＣＵＸ_２ＵＸ_３－３’［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｕ、またはＧから選択される］；および５’－Ｘ_１ＡＵＣＵＸ_２ＵＸ_３－３’［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｕ、またはＧから選択される］
のうちの１つを有する終結シグナルを含有せず；
（ｉｉ）負のシス調節エレメント、および負の反復エレメントを含有せず；
（ｉｉｉ）０．８を超えるコドン適応指標を有し；
重複しない３０ヌクレオチド長の部分へと分割された場合に、最適化ヌクレオチド配列の各部分は、３０％～７０％の範囲のグアニン－シトシン含量を有する、
ｉｎｖｉｔｒｏ合成核酸をもたらす。一部の実施形態では、最適化ヌクレオチド配列は、以下の配列：ＴＡＴＣＴＧＴＴ；ＴＴＴＴＴＴ；ＡＡＧＣＴＴ；ＧＡＡＧＡＧＣ；ＴＣＴＡＧＡ；ＵＡＵＣＵＧＵＵ；ＵＵＵＵＵＵ；ＡＡＧＣＵＵ；ＧＡＡＧＡＧＣ；ＵＣＵＡＧＡのうちの１つを有する終結シグナルを含有しない。一部の実施形態では、核酸は、ｍＲＮＡである。一部の実施形態では、ｉｎｖｉｔｒｏ合成核酸は、治療における使用のための、ｉｎｖｉｔｒｏ合成核酸である。

本発明の実施形態は、例として、以下の図面を参照しながら説明される。

本発明の一実施形態によるコドン最適化方法を示す図である。図２Ａは、１つまたはそれ以上の実験的に得られたコドン使用頻度から生成された、ヒト（Ｈｏｍｏｓａｐｉｅｎｓ）についての例示的なコドン使用表を示す。表中の値は、ＮＣＢＩＧｅｎＢａｎｋデータベース（ＦｌａｔＦｉｌｅＲｅｌｅａｓｅ１６０．０）から公的に入手可能なコドン使用データに基づくＣｏｄｏｎＵｓａｇｅＤａｔａｂａｓｅを通じてアクセスしたデータから得られた。図２Ｂは、図２Ａの例示的なコドン使用表のコドン使用頻度を正規化することによって生成された正規化コドン使用表を示す。コドン使用頻度表正規化のための例示的な方法で使用するためのコドン使用表の構築されたセクションを示す図である。図４Ａは、等しい使用頻度分布で正規化された、図３の例示的な表を示す。図４Ｂは、比例使用頻度分布で正規化された、図３の例示的な表を示す。コドン最適化のための例示的な方法で使用するためのアミノ酸配列の構築されたセクションを示す図である。１つまたはそれ以上の終止シグナルを含むヌクレオチド配列を除去する際に使用するのに適した、終止シグナルを含むヌクレオチド配列モチーフの例示的なリポジトリを示す図である。最適化ヌクレオチド配列のリストにさらなるアルゴリズムステップ、またはフィルタリングステップを適用するための方法を示す図である。特定の実施形態では、フィルタリングのための最適化ヌクレオチド配列のリストは、図１に示すような方法にしたがって生成されている。グアニン－シトシン（ＧＣ）含量分析フィルタが最適化ヌクレオチド配列のリストに適用される本発明の実施形態を示す図である。特定の実施形態では、フィルタリングのための最適化ヌクレオチド配列のリストは、図１に示すような方法にしたがって生成されている。モチーフスクリーンフィルタおよびコドン適応指標（ＣＡＩ）分析フィルタが最適化ヌクレオチド配列のリストに適用される、本発明の実施形態を示す図である。特定の実施形態では、フィルタリングのための最適化ヌクレオチド配列のリストは、図１に示すような方法にしたがって生成されている。モチーフスクリーンフィルタ、グアニン－シトシン（ＧＣ）含量分析フィルタ、およびコドン適応指標（ＣＡＩ）分析フィルタが、この順序で、最適化ヌクレオチド配列のリストに適用されている、本発明の特定の実施形態を示す図である。特定の実施形態では、フィルタリングのための最適化ヌクレオチド配列のリストは、図１に示すような方法にしたがって生成されている。非最適化および最適化ヌクレオチド配列のグアニン－シトシン（ＧＣ）含量の分析例を示し、ＥＰＯをコードするヌクレオチド配列の部分のグアニン－シトシン（ＧＣ）含量は、３０ヌクレオチド長の隣接非重複部について決定される図である。ＥＰＯのＥＬＩＳＡアッセイによって決定される、様々なコドン最適化ヌクレオチド配列から産生されるタンパク質の収量を示す例示的な棒グラフを示す図である。図１３Ａは、最適化ヌクレオチド配列がヒト細胞にトランスフェクトされた後、タイムコース実験において本発明の方法にしたがって生成された最適化ヌクレオチド配列によってコードされるＣＦＴＲタンパク質のタンパク質発現収率を決定するために使用されるウェスタンブロットの一例を示す。図１３Ｂは、図１３Ａに示されたウェスタンブロットデータの定量化を示す例示的な線プロットを示す。図１４Ａは、ｈＣＦＴＲをコードする最適化ヌクレオチド配列を含むｍＲＮＡを試験するためのバイオアッセイから得られたデータの例示的なプロットを示す。各試験ｍＲＮＡについてのＵｓｓｉｎｇ上皮電圧クランプ装置内の短絡電流（ＩＳＣ）出力を示している。図１４Ｂは、ｈＣＦＴＲをコードする参照ｍＲＮＡの活性に対するパーセント比率として表される、図１４Ａに示されたようなｈＣＦＴＲ活性の変化を示す例示的な棒プロットである。図１５Ａは、ＨＥＫ２９３Ｔ細胞におけるコドン最適化ＤＮＡＩ１ｍＲＮＡの翻訳および発現を示す例示的なウェスタンブロットを示す。ウェスタンブロットは、抗ＤＮＡＩ１抗体および抗ビンキュリン抗体（ローディングコントロール）を用いて行った。図１５Ｂは、図１５Ａの例示的なウェスタンブロットから定量化した、ビンキュリンタンパク質（ローディングコントロール）に対して正規化したＤＮＡＩ１タンパク質発現のレベルを示す例示的な棒グラフを示す。ＤＮＡＩ１タンパク質発現収量は、コドン最適化されていないＤＮＡＩ１配列をコードするｍＲＮＡで達成された参照レベルに対する増加倍数としてグラフ化される。

定義
本発明をより容易に理解するために、最初にある特定の用語を下に定義する。以下の用語および他の用語についてのさらなる定義は、本明細書にわたり述べられる。

本明細書および添付の特許請求の範囲に使用される場合、単数形「１つの（ａ）」、「１つの（ａｎ）」および「その（ｔｈｅ）」は、文脈が明らかに他のことを指し示さない限り、複数の指示対象を含む。

具体的に述べない限り、または文脈から明らかでない限り、本明細書に使用される場合の「または」という用語は、包括的であると理解され、「または」と「および」との両方を包含する。

「例えば」および「すなわち」という用語は、本明細書に使用される場合、限定を意図せず単に一例として使用されるのであって、本明細書において明示的に列挙される項目だけを指すものと解釈されるべきではない。

「以上」、「少なくとも」、「より多い」などの用語、例えば「少なくとも１つ」は、少なくとも１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９、１００、１０１、１０２、１０３、１０４、１０５、１０６、１０７、１０８、１０９、１１０、１１１、１１２、１１３、１１４、１１５、１１６、１１７、１１８、１１９、１２０、１２１、１２２、１２３、１２４、１２５、１２６、１２７、１２８、１２９、１３０、１３１、１３２、１３３、１３４、１３５、１３６、１３７、１３８、１３９、１４０、１４１、１４２、１４３、１４４、１４５、１４６、１４７、１４８、１４９または１５０、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、または記載された値よりも大きな値を含むが、それに限定されるわけではないことが理解される。任意のより大きな数またはその間の分数も含まれる。

逆に、「以下」という用語は、記載された値よりも小さな各値を含む。例えば、「１００ヌクレオチド以下」は、１００、９９、９８、９７、９６、９５、９４、９３、９２、９１、９０、８９、８８、８７、８６、８５、８４、８３、８２、８１、８０、７９、７８、７７、７６、７５、７４、７３、７２、７１、７０、６９、６８、６７、６６、６５、６４、６３、６２、６１、６０、５９、５８、５７、５６、５５、５４、５３、５２、５１、５０、４９、４８、４７、４６、４５、４４、４３、４２、４１、４０、３９、３８、３７、３６、３５、３４、３３、３２、３１、３０、２９、２８、２７、２６、２５、２４、２３、２２、２１、２０、１９、１８、１７、１６、１５、１４、１３、１２、１１、１０、９、８、７、６、５、４、３、２、１、および０個のヌクレオチドを含む。任意のより小さな数またはその間の分数も含まれる。

「複数」、「少なくとも２つ」、「２つ以上」、「少なくとも第２」などの用語は、少なくとも２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、７６、７７、７８、７９、８０、８１、８２、８３、８４、８５、８６、８７、８８、８９、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９、１００、１０１、１０２、１０３、１０４、１０５、１０６、１０７、１０８、１０９、１１０、１１１、１１２、１１３、１１４、１１５、１１６、１１７、１１８、１１９、１２０、１２１、１２２、１２３、１２４、１２５、１２６、１２７、１２８、１２９、１３０、１３１、１３２、１３３、１３４、１３５、１３６、１３７、１３８、１３９、１４０、１４１、１４２、１４３、１４４、１４５、１４６、１４７、１４８、１４９または１５０、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００以上を含むが、それに限定されるわけではないと理解される。任意のより大きな数またはその間の分数も含まれる。

具体的に述べない限り、または文脈から明らかでない限り、本明細書に使用される場合の「約」という用語は、当技術分野における通常の許容範囲内、例えば、平均から２標準偏差内として理解される。「約」は、記載された値の１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％、０．１％、０．０５％、０．０１％、または０．００１％以内であると理解することができる。文脈から明らかでない限り、本明細書に提供されるすべての数値は、当業者が認識できる通常の変動を反映する。

本明細書に使用される場合、「中断転写産物」または「事前中断転写産物」などの用語は、鋳型ＤＮＡからのＲＮＡポリメラーゼの配列非依存的な中途放出に起因する、ＤＮＡ鋳型によってコードされる完全長ｍＲＮＡ分子よりも短い任意の転写産物である。一部の実施形態では、中断転写産物は、標的ＤＮＡ分子から転写された完全長ｍＲＮＡ分子の長さの９０％未満、例えば、完全長ｍＲＮＡ分子の長さの８０％、７０％、６０％、５０％、４０％、３０％、２０％、１０％、５％、１％未満であり得る。

本明細書に使用される場合、「コドン（複数可）」という用語は、一緒になって遺伝コードの単位を形成するヌクレオチド３つの配列を指す。各コドンは、翻訳またはタンパク質合成のプロセスにおいて特定のアミノ酸または停止シグナルに対応する。遺伝コードは、縮重し、１つより多いコドンが特定のアミノ酸残基をコードする可能性がある。例えば、コドンは、ＤＮＡまたはＲＮＡヌクレオチドを含む可能性がある。

本明細書に使用される場合、「コドン最適化」および「コドン最適化された」という用語は、そのアミノ酸配列を変化させない、ペプチド、ポリペプチドまたはタンパク質をコードする自然発生のまたは野生型核酸のコドン組成の修飾により、前記核酸のタンパク質発現を改善することを指す。本発明に関連して、「コドン最適化」はまた、グアニン－シトシン含量、コドン適応指標、不安定化核酸配列もしくはモチーフの存在、ならびに／または休止部位および／もしくはターミネーターシグナルの存在によるフィルタリングのようなフィルタを用いてヌクレオチド配列のリストから最適未満のヌクレオチド配列を除去することによって、１つまたはそれ以上の最適化ヌクレオチド配列に到達するプロセスを指す場合がある。

本明細書に使用される場合、「完全長ｍＲＮＡ」は、特定のアッセイ、例えば、ゲル電気泳動およびＵＶを使用する検出、ならびにキャピラリ電気泳動による分離を伴うＵＶ吸収分光法を使用した場合に特徴付けられるものである。完全長ポリペプチドをコードするｍＲＮＡ分子の長さは、標的ＤＮＡから転写される完全長ｍＲＮＡ分子の長さの少なくとも５０％、例えば、標的ＤＮＡから転写された完全長ｍＲＮＡ分子の長さの少なくとも６０％、７０％、８０％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、９９．０１％、９９．０５％、９９．１％、９９．２％、９９．３％、９９．４％、９９．５％、９９．６％、９９．７％、９９．８％、９９．９％である。

本明細書に使用される場合、「ｉｎｖｉｔｒｏ」という用語は、人工の環境中で、例えば、多細胞生物内ではなく試験管または反応器内、細胞培養物中などで起こる事象を指す。

本明細書に使用される場合、「ｉｎｖｉｖｏ」という用語は、ヒトおよび非ヒト動物のような多細胞生物内で起こる事象を指す。細胞ベースシステムに関連して、この用語は、（例えば、ｉｎｖｉｔｒｏシステムとは対照的に）生きた細胞内で起こる事象を指すために使用される場合がある。

本明細書に使用される場合、「メッセンジャーＲＮＡ（ｍＲＮＡ）」という用語は、少なくとも１つのポリペプチドをコードするポリリボヌクレオチドを指す。ｍＲＮＡは、本明細書に使用される場合、修飾型ＲＮＡおよび非修飾型ＲＮＡの両方を包含する。ｍＲＮＡは、１つまたはそれ以上のコード領域および非コード領域を含み得る。ｍＲＮＡは、天然源から精製すること、組換え発現システムを使用して産生し、場合により精製すること、ｉｎｖｉｔｒｏ転写すること、または化学合成することができる。適切ならば、例えば化学合成された分子の場合、ｍＲＮＡは、化学修飾された塩基または糖、骨格修飾などを有する類似体のようなヌクレオシド類似体を含む可能性がある。特に示さない限り、ｍＲＮＡ配列は、５’から３’方向に提示される。

本明細書に使用される場合、「核酸」という用語は、その最も広い意味で、ポリヌクレオチド鎖に組み入れられる、または組み入れることができる任意の化合物および／または物質を指す。一部の実施形態では、核酸は、ホスホジエステル結合を介してポリヌクレオチド鎖に組み入れられる、または組み入れることができる化合物および／または物質である。一部の実施形態では、「核酸」は、個々の核酸残基（例えば、ヌクレオチドおよび／またはヌクレオシド）を指す。一部の実施形態では、「核酸」は、個々の核酸残基を含むポリヌクレオチド鎖を指す。一部の実施形態では、「核酸」は、ＲＮＡのみならず、一本鎖および／または二本鎖のＤＮＡおよび／またはｃＤＮＡを包含する。さらに、「核酸」、「ＤＮＡ」、「ＲＮＡ」という用語、および／または類似の用語は、核酸類似体、すなわち、ホスホジエステル骨格以外を有する類似体を含む。特に示さない限り、核酸配列は、５’から３’方向に提示される。

本明細書に使用される場合、「ヌクレオチド配列」という用語は、その最も広い意味で、核酸内の核酸塩基の順序を指す。一部の実施形態では、「ヌクレオチド配列」は、遺伝子内の個々の核酸塩基の順序を指す。一部の実施形態では、「ヌクレオチド配列」は、タンパク質コード遺伝子内の個々の核酸塩基の順序を指す。一部の実施形態では、「ヌクレオチド配列」は、一本鎖および／または二本鎖のＤＮＡおよび／またはｃＤＮＡ内の個々の核酸塩基の順序を指す。一部の実施形態では、「ヌクレオチド配列」は、ＲＮＡ内の個々の核酸塩基の順序を指す。一部の実施形態では、「ヌクレオチド配列」は、ｍＲＮＡ内の個々の核酸塩基の順序を指す。特定の実施形態では、「ヌクレオチド配列」は、ＲＮＡまたはＤＮＡのタンパク質コード配列内の個々の核酸塩基の順序を指す。特に示さない限り、ヌクレオチド配列は、通常、５’から３’方向に提示される。

本明細書に使用される場合、「中途終止」という用語は、完全長のＤＮＡ鋳型が転写される前の転写終止を指す。本明細書に使用される場合、中途終止は、ＤＮＡ鋳型内にヌクレオチド配列モチーフ（本明細書において単に「モチーフ」とも称される）、例えば終止シグナルが存在することによって起こる可能性があり、結果として完全長ｍＲＮＡよりも短いｍＲＮＡ転写産物（「中途終止転写産物」または「切断型ｍＲＮＡ転写産物」）が生じる。終止シグナルの例には、本明細書に記載されるような大腸菌（Ｅ．ｃｏｌｉ）ｒｒｎＢターミネーターｔ１シグナル（コンセンサス配列：ＡＴＣＴＧＴＴ）およびそのバリアントが挙げられる。

本明細書に使用される場合、「鋳型ＤＮＡ」（または「ＤＮＡ鋳型」）という用語は、ｉｎｖｉｔｒｏ転写によって合成されることになるｍＲＮＡ転写産物をコードする核酸配列を含むＤＮＡ分子に関する。鋳型ＤＮＡは、鋳型ＤＮＡによってコードされるｍＲＮＡ転写産物を産生するために、ｉｎｖｉｔｒｏ転写用の鋳型として使用される。鋳型ＤＮＡは、ｉｎｖｉｔｒｏ転写に必要なすべてのエレメント、特に、所望のｍＲＮＡ転写産物をコードするＤＮＡ配列に作動可能に連結された、例えば、Ｔ３、Ｔ７およびＳＰ６ＲＮＡポリメラーゼのようなＤＮＡ依存性ＲＮＡポリメラーゼの結合のためのプロモーターエレメントを含む。さらに、鋳型ＤＮＡは、ｍＲＮＡ転写産物をコードするＤＮＡ配列の同一性を、例えばＰＣＲまたはＤＮＡ配列決定により決定するために、ｍＲＮＡ転写産物をコードするＤＮＡ配列の５’および／または３’にプライマー結合部位を含み得る。「鋳型ＤＮＡ」は、本発明に関連して、直鎖状または環状ＤＮＡ分子であり得る。本明細書に使用される場合、「鋳型ＤＮＡ」という用語は、所望のｍＲＮＡ転写産物をコードする核酸配列を含む、プラスミドＤＮＡのようなＤＮＡベクターを指し得る。

本明細書において使用されるすべての技術用語および科学用語は、本出願が属する技術分野の当業者によって一般に理解されるもの、および本出願が属する技術分野で一般に使用されるものと同じ意味を有する。本発明の背景を説明するため、およびその実施に関してさらなる詳細を提供するために本明細書において参照される刊行物および他の参考資料は、参照によって本明細書に組み入れられる。

発明の詳細な説明
コドン最適化の機能
遺伝子発現のプロセスでは、ＤＮＡ配列にコードされるヌクレオチド配列がＲＮＡ分子に転写され、続いて、ポリペプチド鎖を含むタンパク質に翻訳される。タンパク質産物に組み込まれることになるアミノ酸残基の正確な順序を特定している配列情報は、ＤＮＡおよび／またはｍＲＮＡ配列に「コドン」としてコードされる。コドンは、一緒になって遺伝コードの単位を形成するヌクレオチド３つの配列を含み、各コドンは、特定のアミノ酸または停止コドンシグナルに対応する。遺伝コードは縮重し、１つより多いコドンが特定のアミノ酸残基をコードする可能性がある。

ｍＲＮＡは、典型的に、情報をＤＮＡからリボソームに運ぶ種類のＲＮＡとして考えられている。ｍＲＮＡの存在は、通常、非常に短時間であり、プロセシングおよび翻訳に続いて分解を含む。典型的に、真核生物では、ｍＲＮＡのプロセシングは、Ｎ－（５’）末端への「キャップ」およびＣ－（３’）末端への「テール」の付加を含む。典型的なキャップは、最初に転写されたヌクレオチドに５’－５’－三リン酸結合を経由して連結されたグアノシンである７－メチルグアノシンキャップである。キャップの存在は、大部分の真核細胞に見出されるヌクレアーゼに対する抵抗性を提供する上で重要である。テールは、典型的には、ポリＡ部分がｍＲＮＡ分子の３’末端に付加されるポリアデニル化事象である。この「テール」の存在は、ｍＲＮＡをエキソヌクレアーゼ分解から保護するように機能する。メッセンジャーＲＮＡは、典型的にはリボソームによって、タンパク質を構成する一連のアミノ酸に翻訳される。

遺伝子発現の様々な工程で、特定のタンパク質が発現または産生されるレベルに数多くの要因が影響する可能性がある。例えば、ＤＮＡ配列はＲＮＡポリメラーゼ酵素によってｍＲＮＡに転写されるので、ある特定のヌクレオチド配列モチーフの存在が転写の中途終止を起こす可能性がある。遺伝子のタンパク質コード領域（「コード配列」）内のコドンの特定の組成および順序もまた、タンパク質発現の効率および収率に正に、または負に影響する可能性がある。例えば、低コドン使用頻度によって特徴付けられる稀少コドンの存在は、特定のアミノ酸をコードする同族転移ＲＮＡの量が少ないせいで、タンパク質発現の収率に負に影響する可能性がある。バイオテクノロジーへの応用および治療応用、例えば、ｍＲＮＡ療法を含む治療応用では、タンパク質をコードするヌクレオチド配列から前記タンパク質を発現させる場合、そのタンパク質の収率を増加させるまたは最大限にすることがしばしば望ましい。コドン最適化は、遺伝コードの冗長性のためコードされるアミノ酸配列を変化させずに、タンパク質をコードするヌクレオチド配列を様々な基準に基づき産生する。言い換えると、複数のコドンが単一のアミノ酸をコードするので、多数のヌクレオチド配列が同じアミノ酸配列をコードする可能性がある。コドン最適化は、タンパク質の収率増加を達成するであろう１つまたはそれ以上のヌクレオチド配列を産生することを目的とする。

最適化ヌクレオチド配列の生成のためのアミノ酸配列
自然発生のヌクレオチド配列は、関心が持たれるタンパク質、ポリペプチドまたはペプチドをコードするアミノ酸配列を提供するために使用される場合がある。ヌクレオチド配列は、関心が持たれる生物から核酸分子を単離し、その中の核酸塩基（例えば、グアニン、チミン、ウラシル、アデニン、およびシトシン）の正確な順序を特定することによって得ることができる。自然発生のヌクレオチド配列を得るために適した、当技術分野において公知の複数の方法がある。タンパク質をコードする遺伝子のヌクレオチド配列は、様々なＤＮＡまたはＲＮＡの周知の配列決定法によって得ることができる。

例えば、ヒト細胞からのＤＮＡを、抽出し、単離し、続いて断片化することができる。断片化したＤＮＡをＤＮＡベクターに入れてクローニングし、細菌宿主中で増幅させ、短いＤＮＡ断片の「ライブラリー」を生成することができる。あるいは、ポリメラーゼ連鎖反応（ＰＣＲ）を使用して、断片化ＤＮＡを増幅し、それを、高スループット配列決定法に適したライブラリーに組み入れることができる。起源生物の本来のＤＮＡ物質から導出された短いＤＮＡ断片を個別に配列決定し、続いて、配列組立てによって、１つまたはそれ以上の長い連続配列に組み立てることができる。配列組立ては、より長いヌクレオチド配列から導出されたヌクレオチド配列の短い断片を整列させ、併合して、本来のヌクレオチド配列またはコンセンサスヌクレオチド配列を再構築するバイオインフォマティクスアプローチである。

このように生成したヌクレオチド配列、すなわち、実験的に導出され、自然発生の配列を正確に説明することが知られている配列は、典型的には、公的にアクセス可能なリポジトリまたはデータベースに記憶されている。例えば本発明の方法により処理することができるヌクレオチド配列は、米国国立バイオテクノロジー情報センター（ＮＣＢＩ）のＧｅｎＢａｎｋデータベースから得ることができる。Ｇｅｎｂａｎｋは、公的に入手可能なヌクレオチド配列およびそれらが翻訳されたタンパク質配列の、オープンアクセスの注釈付きコレクションである。

コドン使用表の生成
遺伝コードは、可能な６４種のコドンを有する。各コドンは、ヌクレオチド３つの配列を含む。特定のコドンがゲノムのタンパク質コード領域内に出現する実現値の数を決定し、続いて、得られた値を、ゲノムのタンパク質コード領域内の、同じアミノ酸をコードするコドンの合計数で割ることによって、ゲノムのタンパク質コード領域の各コドンについて使用頻度を計算することができる。例えば、公的にアクセス可能なレポジトリおよび／またはデータベースに見出されるヌクレオチド配列にこれらの計算を行うことができ、したがって、実験的に導出されたデータも表すことができる。

コドン使用表は、所与の生物における各コドンの使用頻度を特定する。表の各アミノ酸は、少なくとも１つのコドンと関連し、各コドンは、使用頻度と関連する。コドン使用表は、ＣｏｄｏｎＵｓａｇｅＤａｔａｂａｓｅ（Ｎａｋａｍｕｒａら（２０００）ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ２８（１）、２９２；ｈｔｔｐｓ：／／ｗｗｗ．ｋａｚｕｓａ．ｏｒ．ｊｐ／ｃｏｄｏｎ／からオンラインで入手可能）、およびＨｉｇｈ－ｐｅｒｆｏｒｍａｎｃｅＩｎｔｅｇｒａｔｅｄＶｉｒｔｕａｌＥｎｖｉｒｏｎｍｅｎｔ－ＣｏｄｏｎＵｓａｇｅＴａｂｌｅｓ（ＨＩＶＥ－ＣＵＴｓ）データベース（Ａｔｈｅｙら、（２０１７）、ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１８（１）、３９１；ｈｔｔｐ：／／ｈｉｖｅ．ｂｉｏｃｈｅｍｉｓｔｒｙ．ｇｗｕ．ｅｄｕ／ｒｅｖｉｅｗ／ｃｏｄｏｎからオンラインで入手可能）のような、公的に入手可能なデータベースに記憶されている。

コドン最適化
図１は、本発明によるコドン最適化法を示す。第１の工程１０１で、アミノ酸配列が受け取られる。アミノ酸配列は、遠隔システム、サーバ、および／または公的にアクセス可能なデータベースから受け取られる場合、および無線で、例えばインターネットを介して受け取られる場合がある。あるいは、アミノ酸配列は、ローカルシステムから、例えば、有線接続を介して受け取られる場合がある。アミノ酸配列は、複数のアミノ酸を含む。

第２の工程１０２では、第１のコドン使用表が受け取られる。第１のコドン使用表は、遠隔システム、サーバおよび／または公的にアクセス可能なデータベースから受け取られる場合、ならびに無線で、例えばインターネットを介して受け取られる場合がある。あるいは、第１のコドン使用表は、ローカルシステムから、例えば有線接続を介して受け取られる場合がある。第１のコドン使用表は、アミノ酸のリストを含み、その際、表の各アミノ酸は、少なくとも１つのコドンと関連し、各コドンは、使用頻度と関連する。

第３の工程１０３では、コドンが、閾値頻度未満であるコドン使用頻度と関連する場合、それらのコドンが第１のコドン使用表から除去される。

第４の工程１０４では、第３の工程１０３で除去されなかったコドンのコドン使用頻度が正規化されて、正規化コドン使用表が生成される。

第５の工程１０５では、正規化コドン使用表のアミノ酸と関連する１つまたはそれ以上のコドンの使用頻度に基づき、アミノ酸配列のアミノ酸ごとにコドンを選択することによって、最適化ヌクレオチド配列が生成される。

コドン使用表の正規化
図２Ａを参照して、コドン使用表のデータベースに見出される場合があるコドン使用表を示す。示したコドン使用表は単なる例であって、任意のコドン使用表、例えばデータベースから入手可能な任意のコドン使用表が本発明によって使用され、最適化ヌクレオチド配列を産生し得ることが認識されよう。図２Ａを産生するために使用したデータは、ＣｏｄｏｎＵｓａｇｅＤａｔａｂａｓｅを経由してアクセスされたデータから、ＮＣＢＩＧｅｎＢａｎｋデータベース（ＦｌａｔＦｉｌｅＲｅｌｅａｓｅ１６０．０）を経由して公的に入手可能なコドン使用データに基づき導出されたものである。

コドン使用表は、表が生成された特定の生物学的起源について、各コドンがある特定のアミノ酸をコードするために使用される頻度に関する、実験的に導出されたデータを含む。この情報は、コドンごとに、そのコドンがある特定のアミノ酸をコードするために使用される頻度の、コドンがアミノ酸をコードする合計回数に対するパーセンテージ（０～１００％）、または割合（０～１）として表現される。

図２Ｂは、本発明の方法により図２Ａの表から生成された正規化コドン使用表を示す。図２Ｂの例では、正規化を行うための閾値頻度は１０％であった。これは単なる例であること、および本発明の実施形態は、本明細書に記載される任意の他の適切な閾値頻度を使用し得ることが認識されよう。

正規化コドン使用表を提供し得る方法であって、図２Ｂの場合に提供された方法を図３に示す。図３は、例示的なアミノ酸「Ｘ」および「Ｙ」を使用している。正規化コドン使用表を生成する場合、コドン使用表の１つのアミノ酸からあらゆるアミノ酸まで、任意の数のアミノ酸が正規化される場合があることが認識されよう。図３の例では、アミノ酸Ｘは、図に定義される頻度で、コドンＡ、Ｂ、Ｃ、Ｄ、Ｅ、およびＦによってコードされる（各コドンはヌクレオチドトリプレットによって表され、したがって、図ではＡＡＡ、ＢＢＢなどで表示される）。アミノ酸Ｙは、コドンＧおよびＨによって、図に定義される頻度でコードされる。第１の工程では、閾値頻度を下回る使用頻度を有するコドンがあれば、それらが表から除去される。図３に示した方法は１０％の閾値頻度を使用しているものの、これは単なる例であって、本発明の範囲を限定することを意図するものではないことが認識されよう。閾値頻度は、５％～３０％の範囲、例えば、５％、または１５％、または２０％、または２５％、または３０％、または特に１０％であり得る。これらの閾値頻度の値は、タンパク質収率の増加と、新生ポリペプチド鎖の翻訳の制御および固有のフォールディングの保証に重要な情報の保持との間の効果的なバランスを提供することが見出されている。特に図３のコドン使用表はアミノ酸２つだけからなるので、それが実際の自然発生のコドン使用を正確に説明しているわけではないことが認識されよう。図３の表は、コドン使用表の正規化方法の単なる例証であることが意図される。

図３の例では、コドンＣおよびＥは、１０％の閾値頻度を下回る使用頻度を有し、したがって、表から除去される。除去されたコドン、ＣおよびＥの合算使用頻度は１６％である。次いで、この合算使用頻度が、アミノ酸Ｘをコードする残りのコドンの間で分配される。アミノ酸Ｘから除去された合算使用頻度は、同様にアミノ酸Ｘをコードする残りのコドンだけに分配され、すなわち、図４Ａおよび４Ｂの例では、アミノ酸ＹをコードするコドンＧおよびＨの使用頻度は不変であることに留意することが重要である。

一部の実施形態では、除去された合算使用頻度が、アミノ酸Ｘをコードする残りのコドンの間で等分配される。このような実施形態は、図４Ａに示される。除去された合算使用頻度１６％は、残りのコドンＡ、Ｂ、Ｄ、およびＦの間で等分配されており、その結果、残りのコドンの各々は、追加的な使用頻度４％を受け取っている。アミノ酸Ｘのコドン使用頻度がこれで正規化された。

一部の実施形態では、除去された合算使用頻度が、アミノ酸Ｘをコードする残りのコドンの間で比例分配される。このような実施形態は、図４Ｂに示される。除去された合算使用頻度１６％は、残りのコドンＡ、Ｂ、Ｄ、およびＦの使用頻度に比例して、残りのコドンＡ、Ｂ、Ｄ、およびＦの間で分配されている。この例では、コドンＡ、Ｂ、Ｄ、およびＦの使用頻度の比は、１５：２０：３８：１１、または０．１８：０．２４：０．４５：０．１３である。コドンＡは、１６％の０．１８倍（３％）を受け取り、Ｂは、１６％の０．２４倍（４％）を受け取り、Ｄは、１６％の０．４５倍（７％）を受け取り、Ｆは、１６％の０．１３倍（２％）を受け取る。アミノ酸Ｘのコドン使用頻度がこれで正規化された。

このように、受け取ったコドン使用表、または第１のコドン使用表の構造および内容が、正規化コドン使用表の生成を教示する。各アミノ酸に関連するコドンの数は、除去されたコドン使用頻度の再分配を教示し、コドン使用頻度自体は、どのコドンが除去されるかを、および一部の実施形態では分配の比例性を教示する。

最適化ヌクレオチド配列の生成
最適化ヌクレオチド配列は、正規化コドン使用表のアミノ酸に関連する１つまたはそれ以上のコドンの使用頻度に基づき、アミノ酸配列のアミノ酸ごとにコドンを選択することによって生成される。最適化ヌクレオチド配列は、選択されたコドンを、それらに関連するアミノ酸がアミノ酸配列に出現する順に配置することによって生成される。

図５を参照して、図３、４Ａ、および４ＢからのコドンＡ、Ｂ、Ｃ、Ｄ、Ｅ、およびＦを使用する最適化ヌクレオチド配列の生成の図解がある。図５の図解では、各コドンが３つのヌクレオチドによって表される場合があり、コドンＡはヌクレオチドＡＡＡによって表され、コドンＢは、ヌクレオチドＢＢＢによって表されるなどである。

例示的なアミノ酸配列、ＸＹＹＸＸＸが受け取られる。この例について、本発明者らは、アミノ酸ＸおよびＹが、図３、４Ａ、および４Ｂに関して定義されるようにコドンＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇ、およびＨに関連すると仮定する。この例では、図３のコドン使用表は、確率ベースで正規化されており、図４Ｂの正規化コドン使用表をもたらしている。工程５０１では、アミノ酸ごとに、正規化コドン使用表のコドンに関連する使用頻度に等しい確率でコドンが選択される。例えば、配列の第１のアミノ酸Ｘについて、コドンＡが選択される偶然は１８％、コドンＢが選択される偶然は２４％、コドンＤが選択される偶然は４５％、コドンＦが選択される偶然は１３％ある。これは、アミノ酸ＸがコドンＡ、Ｂ、Ｄ、およびＦによってコードされ、したがって、正規化コドン使用表のこれらのコドンと関連するからであり、それで、アミノ酸Ｘについて選択されるコドンは、コドンＡ、Ｂ、Ｄ、およびＦのうちの１つであろう。

このプロセスは、ある特定のコドンを選択する確率を教示するために正規化コドン使用表を使用して、アミノ酸ごとに繰り返される。したがって、配列の第２のアミノ酸Ｙについて、コドンＧが確率６０％で選択され、コドンＨが確率４０％で選択される。アミノ酸ごとにコドンが選択された後、ヌクレオチドから構成される、結果として生じたコドンの配列が、最適化ヌクレオチド配列と称される場合がある。

図５は、例証であり、ヌクレオチドの最適化配列の生成の理解を助けることだけを意図する。図５は、実際に受け取ったアミノ酸配列または最適化ヌクレオチド配列の長さ、含量、または構造を示さない場合があり、単に方法を略図で示すものである。

複数の最適化ヌクレオチド配列の生成
アミノ酸配列および正規化コドン使用表を使用する最適化ヌクレオチド配列の生成は、最適化ヌクレオチド配列のリストを生成するために１回よりも多く行われる場合がある。

最適化ヌクレオチド配列の生成はコドンの確率的選択に基づくので、リストは、任意の数の異なる最適化ヌクレオチド配列を含み得る。さらにまた、最適化ヌクレオチド配列の生成が置換コドンの確率的選択に基づくので、リストは、任意の数の二つ組の最適化ヌクレオチド配列、すなわち同一の最適化ヌクレオチド配列を含み得る。最適化ヌクレオチド配列のリストを生成する場合、典型的には同一の最適化配列が除去される。

一部の実施形態では、最適化ヌクレオチド配列のリストの最適化ヌクレオチド配列の１つもしくはそれ以上、またはすべては、トランスフェクションによる試験、治療への使用のため、または本明細書に記載される合成最適化ヌクレオチド配列の任意の他の使用のために合成される。

最適化ヌクレオチド配列のリストのフィルタリング
最適化ヌクレオチド配列のリストの最適化ヌクレオチド配列の数は、少なくとも、アミノ酸配列の長さおよび含量、閾値コドン使用頻度の値、第１のコドン使用表の内容、およびコドン最適化アルゴリズムが実行される回数、すなわち、最適化ヌクレオチド配列が生成される回数に依存する。例えば、最適化ヌクレオチド配列のリストは、１０，０００以上の最適化ヌクレオチド配列を含み得る。細胞、組織または生物においてリストの各最適化ヌクレオチド配列を合成し、試験することは、いくつかのシナリオで、例えば、比較的短いアミノ酸配列のようなある特定のアルゴリズム入力パラメータについて、有利であり得る。同様に、ある特定のシナリオでは、例えば、コンピュータプロセスの複雑さを減らすこと、または細胞、組織、もしくは生物において合成され、試験される配列の数を減らすことが望ましい場合に、有利でない場合がある。したがって、例えば合成の前に、ヌクレオチド配列のリストの最適化ヌクレオチド配列の数を減らすことが望ましい場合がある。これは、リストのあらゆる配列を合成するためにかかる時間およびそれを行うために必要な資源を有利に減らし得る。

したがって、典型的な実施形態では、リストをフィルタリングするため、またはリストから最適化ヌクレオチド配列を除去するために、１つまたはそれ以上のさらなるアルゴリズム工程が最適化ヌクレオチド配列のリストに行われる。１つまたはそれ以上のさらなるアルゴリズム工程は、モチーフスクリーン、ＧＣ含量分析、およびコドン適応指標（ＣＡＩ）分析と称される場合がある。特定のさらなるアルゴリズム工程が本明細書において詳細に記載されるものの、これらは、それだけが行われるフィルタリング工程でない場合があり、本特許請求の範囲内で最適化ヌクレオチド配列のリストをさらにフィルタリングするために、追加的な工程が行われる場合があることが認識されよう。

本発明者らは、これらのさらなるアルゴリズム工程、ならびに関連するモチーフ、範囲、および閾値は、リストに残る配列よりも効果的でない可能性がある配列をリストから除去することによって、最適化ヌクレオチド配列のリストを有利にフィルタリングすることを見出した。このように、リストのフィルタリングは単に自由裁量ではない。言い換えると、本明細書に記載される方法を使用して、リストをある特定の数の配列までフィルタリングすることは、リストから同じある特定の数の配列をランダムに選択した場合よりも効果的な配列を含む、配列の更新されたリストを産生するであろう。したがって、効率と、合成プロセスで達成される複雑さの低減とが、多数の効果的な最適化ヌクレオチド配列を犠牲にせずに得られる。例えば、本発明の方法によって生成される最適化ヌクレオチド配列は、終止シグナルを含まない。終止シグナルが存在しないことは、ｉｎｖｉｔｒｏ転写を使用して、コードされる最適化ヌクレオチド配列から完全長ｍＲＮＡ分子を合成することを促進する。終止シグナルが存在することは、ｉｎｖｉｔｒｏ転写の中途終止をもたらす。したがって、本明細書に記載される方法を使用してリストをフィルタリングすることは、より効果的な配列を含む、配列の更新されたリストを産生する。

最適化ヌクレオチド配列のリストのフィルタリングは、１つまたはそれ以上の基準に適合しない最適化ヌクレオチド配列を特定し、除去するための、最適化ヌクレオチド配列のリストのスクリーニングと称される場合がある。基準はそれぞれ、本明細書に詳細に記載されるようなある特定のさらなるアルゴリズム工程に関し得る。言い換えると、基準は：終止シグナルを含まない最適化ヌクレオチド配列（第１の基準）、予め決定されたグアニン－シトシン含量範囲内のグアニン－シトシン含量を有する最適化ヌクレオチド配列（第２の基準）、予め決定されたコドン適応指標の閾値よりも大きなコドン適応指標を有する最適化ヌクレオチド配列（第３の基準）、および有しない最適化ヌクレオチド配列を含み得る。使用される基準の番号付けは単に明確さのためであり、工程の順序を限定する意図はないことが認識されよう。工程の順序は、本明細書の他の箇所に詳細に説明されている。

本明細書において特定の基準が詳細に説明されているものの、これらは、最適化ヌクレオチド配列がスクリーニングされる唯一の基準でない場合があり、本特許請求の範囲内に最適化ヌクレオチド配列のリストをさらにフィルタリングするために追加的な基準がスクリーニングされる場合があることが認識されよう。

各最適化ヌクレオチド配列をスクリーニングする場合、それが基準を満たすかどうかを決定する前に、最適化ヌクレオチド配列全体を分析してもよい。あるいは、各最適化ヌクレオチド配列を部分ごとに分析してもよい。部分は、ウインドウと称される場合がある。

例として、６００ヌクレオチド長を有する、最適化ヌクレオチド配列のリストの最適化ヌクレオチド配列について、部分の長さは、３０ヌクレオチドで選択される場合がある。最適化ヌクレオチド配列の第１の３０ヌクレオチド、すなわち最適化ヌクレオチド配列のヌクレオチド１～３０が、ある特定の基準の遵守について最初に分析される場合がある。第１の部分が基準に適合しない場合、最適化ヌクレオチド配列が、最適化ヌクレオチド配列のリストから除去される場合がある。

第１の部分が基準に適合する場合、次いで、フィルタが最適化ヌクレオチド配列の第２の部分を分析する場合がある。この例では、これは、最適化ヌクレオチド配列の第２の３０ヌクレオチド、すなわち、ヌクレオチド３１～６０であり得る。以下のいずれかまで、部分ごとに部分分析が繰り返される場合がある：部分が基準に適合しないことが見出される（この場合、最適化ヌクレオチド配列がリストから除去される場合がある）、または最適化ヌクレオチド配列全体が分析され、そのような部分が見出されなかった（この場合、フィルタは最適化ヌクレオチド配列をリストに保持し、リストの次の最適化ヌクレオチド配列に移動してよい）。この例では、フィルタが最適化ヌクレオチド配列の最終部分、すなわちヌクレオチド５７１～６００に到達し、この最終部分が基準を満たす場合、フィルタは、最適化ヌクレオチド配列をリストに保持し、リストの次の最適化ヌクレオチド配列に移動してよい。あるいは特に、各部分は１００ヌクレオチド長であり得る。

上記例は、第１のヌクレオチドから開始し、最終ヌクレオチドに進む、部分ごとのフィルタを説明しているものの、これは単なる例であり、最適化ヌクレオチド配列の部分が分析される順序は、当業者に明らかな任意の順序であり得ることが認識されよう。フィルタは、例えば、最終ヌクレオチド（作業例ではヌクレオチド６００）を含む部分で開始し、第１のヌクレオチドであるヌクレオチド１に向かって戻る場合、または第１のヌクレオチドと最終ヌクレオチドとの間の任意の位置の部分で開始する場合がある。

その他の部分と異なる長さを有する最適化ヌクレオチド配列の第１、最終、または中間部分があり得る。これは、例えば、最適化ヌクレオチド配列のヌクレオチド長が、部分のヌクレオチド長で割り切れない場合に起こり得る。

本明細書の他の箇所に詳述するように、部分ごとの分析は、少なくとも計算効率に有利であり得るが、あまり望ましくない配列をより効果的に特定するためにも有利であり得る。あまり望ましくない配列は、平均して基準を満たし得るが、基準を満たさないセクション、例えばＧＣ含量またはＣＡＩスコアのピークまたはトラフを含み得る。

リストの最適化ヌクレオチド配列は、以下の２つのやり方の一方で１つまたはそれ以上の基準の遵守についてスクリーニングされる場合がある：各配列が、すべての関連する基準についてスクリーニングされ、そのどれにも適合しない場合、リストから除去される場合がある；または特に、リストのすべての配列が、ある特定の基準についてスクリーニングされ、縮小した、フィルタリングされたリストが、関心が持たれるさらなる基準についてスクリーニングされる場合がある。

モチーフのスクリーニング
一部の実施形態では、モチーフのスクリーンフィルタが、最適化ヌクレオチド配列のリストに適用される場合がある。このような実施形態では、最適化ヌクレオチド配列のリストが分析されて、リストの各最適化ヌクレオチド配列が終止シグナルを含むかが決定される。最適化ヌクレオチド配列のリストは、コドン最適化アルゴリズムによって本来生成された最適化ヌクレオチド配列のリストの場合、または１つもしくはそれ以上のさらなるアルゴリズム工程によってすでにフィルタリングされた最適化ヌクレオチド配列のリストの場合がある。１つまたはそれ以上の追加的なアルゴリズム工程によってすでにフィルタリングまたは更新された最適化ヌクレオチド配列のリストは、最適化ヌクレオチド配列の更新されたリストまたは最近更新されたリストと称される場合がある。１つまたはそれ以上の終止シグナルを含む任意の最適化ヌクレオチド配列がリストから除去されて、更新されたリストが産生される場合がある。

図６を参照して、終止シグナルは、以下のヌクレオチド配列を有し得る：５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－３’［配列中、Ｘ_１、Ｘ_２およびＸ_３は、Ａ、Ｃ、ＴもしくはＧから独立して選択される］；ＴＡＴＣＴＧＴＴ；ＴＴＴＴＴＴ；ＡＡＧＣＴＴ；ＧＡＡＧＡＧＣ；ＴＣＴＡＧＡ；ＵＡＵＣＵＧＵＵ；ＵＵＵＵＵＵ；ＡＡＧＣＵＵ；ＧＡＡＧＡＧＣ；ＵＣＵＡＧＡ；および／または５’－Ｘ_１ＡＵＣＵＸ_２ＵＸ_３－３’［配列中、Ｘ_１、Ｘ_２およびＸ_３は、Ａ、Ｃ、ＵまたはＧから独立して選択される］。モチーフスクリーンフィルタは、各最適化ヌクレオチド配列が、これらの終止シグナルの１つ、一部、またはすべてを含むかを決定し得る。

各最適化ヌクレオチド配列は、その全体が、すなわち配列の第１のヌクレオチドから配列の最終ヌクレオチドまでが分析される場合がある。特定の実施形態では、ある特定の最適化ヌクレオチド配列に終止シグナルが存在すると決定された場合、その配列の分析が中止される場合があり；次いで、その配列は、そのヌクレオチドの１つ１つを分析せずにリストから除去される場合がある。特定の実施形態では、この形態の分析が、リストの各最適化ヌクレオチド配列に適用される場合がある。配列に終止シグナルが存在するとすでに決定されている場合、その配列全体を分析しないことが計算上効率的であるので、このようにした分析が有利な可能性がある。

ＧＣ含量分析に関してより詳細に説明されるように、各最適化ヌクレオチド配列は、部分ごとに分析される場合がある。最適化ヌクレオチド配列の分析は、部分が終止シグナルを含むと決定されると、停止し得る。配列に終止シグナルが存在するとすでに決定されている場合、その配列全体を分析しないことが計算上効率的であるので、これは有利であり得る。続くＧＣ含量分析に関して、部分は重複する場合も重複しない場合もあり、任意の長さ、例えば５～３００ヌクレオチド、または１０～２００ヌクレオチド、または１５～１００ヌクレオチド、または２０～５０ヌクレオチド、または特に３０ヌクレオチドもしくは１００ヌクレオチドであり得る。最適化ヌクレオチド配列の各部分は、同じ長さの場合があり、または例えば最適化ヌクレオチド配列のヌクレオチド長が部分のヌクレオチド長で割り切れない場合、例えば、最適化ヌクレオチド配列の第１、最終、もしくは中間部分は、その他の部分と異なる長さであり得る。

ＧＣ含量の分析
一部の実施形態では、グアニン－シトシン（ＧＣ）含量フィルタが、最適化ヌクレオチド配列のリストに適用される場合がある。このような実施形態では、最適化ヌクレオチド配列のリストの各最適化ヌクレオチド配列のＧＣ含量を決定するために、最適化ヌクレオチド配列のリストが分析され、その際、配列のＧＣ含量は、ヌクレオチド配列中の、グアニン（Ｇ）またはシトシン（Ｃ）である塩基のパーセンテージである。最適化ヌクレオチド配列のリストは、コドン最適化アルゴリズムによって本来生成された最適化ヌクレオチド配列のリストの場合、または１つもしくはそれ以上のさらなるアルゴリズム工程によってすでにフィルタリングされた最適化ヌクレオチド配列のリストの場合がある。１つまたはそれ以上の追加的なアルゴリズム工程によってすでにフィルタリングまたは更新された最適化ヌクレオチド配列のリストは、最適化ヌクレオチド配列の更新されたリスト、または最近更新されたリストと称される場合がある。予め決定されたＧＣ含量範囲から外れるＧＣ含量を有する任意の最適化ヌクレオチド配列がリストから除去され、更新されたリストが産生する場合がある。

各最適化ヌクレオチド配列は、その全体が、すなわち、配列の第１のヌクレオチドから配列の最終ヌクレオチドまでが分析される場合がある。次いで、最適化ヌクレオチド配列全体のＧＣ含量が決定され、それに応じて配列が除去される場合がある。

一部の実施形態では、各最適化ヌクレオチド配列の部分だけが分析され、その部分のＧＣ含量が決定される。このような実施形態では、分析された部分のＧＣ含量が、予め決定されたＧＣ含量の範囲から外れる場合、その部分を有する最適化ヌクレオチド配列がリストから除去される。

特定の実施形態では、ＧＣ含量フィルタが各最適化ヌクレオチド配列に部分ごとに適用され、部分が、予め決定された範囲から外れるＧＣ含量を有すると決定された場合、フィルタが停止し、配列が除去される。このような分析は、予め決定されたＧＣ含量の範囲から外れるＧＣ含量を有する部分が配列に存在することがすでに見出されている場合、その配列全体を分析しないことが計算上効率的であるので、このようにした分析が有利な可能性がある。

特定の実施形態では、部分は重複しないが、他の実施形態では、部分は重複し得る。任意の長さの部分、例えば、５～３００ヌクレオチド、もしくは１０～２００ヌクレオチド、もしくは１５～１００ヌクレオチド、もしくは２０～５０ヌクレオチド、または特に３０ヌクレオチドもしくは１００ヌクレオチドでこの特定の実施形態を行えることが認識されよう。一部の実施形態では、予め決定されたＧＣ含量の範囲は、ユーザによって選択可能であり得る。任意の長さの最適化ヌクレオチド配列を用いてこの特定の実施形態を行えることも認識されよう。

例えば、非最適化および最適化ヌクレオチド配列のグアニン－シトシン（ＧＣ）含量の分析を、ＥＰＯをコードするヌクレオチド配列の部分に行うことができ、その際、ＥＰＯをコードするヌクレオチド配列の部分のグアニン－シトシン（ＧＣ）含量が、３０ヌクレオチド長の隣接する非重複部分について決定される。この例示的な分析を図１１に示す。

例示的なＧＣ含量フィルタを本明細書に記載する。これは単なる例であり、本明細書に記載される方法が、任意の長さの最適化ヌクレオチド配列および／または部分を用いて行われる場合があることは、任意の当業者に明らかであろう。例として、６００ヌクレオチド長を有する最適化ヌクレオチド配列のリストの最適化ヌクレオチド配列について、３０ヌクレオチドの部分の長さが選択される場合がある。ＧＣ含量フィルタは、最初に、最適化ヌクレオチド配列の第１の３０ヌクレオチド、すなわち、最適化ヌクレオチド配列のヌクレオチド１～３０を分析し得る。分析は、部分における、ＧまたはＣのいずれかのヌクレオチドの数を決定することを含む場合があり、部分のＧＣ含量を決定することは、その部分のＧまたはＣヌクレオチドの数をその部分のヌクレオチドの総数で割ることを含み得る。この分析の結果は、その部分における、ＧまたはＣのヌクレオチドの割合を説明する値を提供し、パーセンテージ、例えば５０％、または小数、例えば０．５であり得る。第１の部分のＧＣ含量が予め決定されたＧＣ含量の範囲から外れる場合、最適化ヌクレオチド配列が最適化ヌクレオチド配列のリストから除去される場合がある。

第１の部分のＧＣ含量が、予め決定されたＧＣ含量の範囲に収まる場合、次いで、ＧＣ含量フィルタによって、最適化ヌクレオチド配列の第２の部分が分析される場合がある。この例では、これは、最適化ヌクレオチド配列の第２の３０ヌクレオチド、すなわちヌクレオチド３１～６０であり得る。部分の分析は、以下のいずれかまで部分ごとに繰り返される場合がある：部分が、予め決定されたＧＣ含量の範囲から外れるＧＣ含量を有すると見い出される（この場合、最適化ヌクレオチド配列がリストから除去される場合がある）、または最適化ヌクレオチド配列全体が分析され、そのような部分が見出されなかった（この場合、ＧＣ含量フィルタは最適化ヌクレオチド配列をリストに保持し、リストの次の最適化ヌクレオチド配列に移動してよい）。この例では、ＧＣ含量フィルタが最適化ヌクレオチド配列の最終部分、すなわちヌクレオチド５７１～６００に達し、この最終部分が予め決定されたＧＣ含量の範囲に収まるＧＣ含量を有する場合、ＧＣ含量フィルタは、最適化ヌクレオチド配列をリストに保持し、リストの次の最適化ヌクレオチド配列に移動してよい。あるいは特に、各部分は、１００ヌクレオチド長であり得る。

上記実施例は、第１のヌクレオチドから開始し、最終ヌクレオチドに進む、部分ごとのＧＣ含量フィルタを説明しているものの、これは単なる例であり、最適化ヌクレオチド配列の部分が分析される順序は当業者に明らかな任意の順序であってよいことが、認識されよう。ＧＣ含量フィルタは、例えば、最終ヌクレオチド（作業例では、ヌクレオチド６００）を含む部分で開始し、第１のヌクレオチド、ヌクレオチド１に向かって戻る場合、または第１のヌクレオチドと最終ヌクレオチドとの間の任意の位置の部分で開始する場合がある。

最適化ヌクレオチド配列の第１、最終、または中間部分が、その他の部分と異なる長さを有する場合がある。これは、例えば、最適化ヌクレオチド配列のヌクレオチド長が部分のヌクレオチド長で割り切れない場合に起こり得る。

コドン適応指標（ＣＡＩ）分析
一部の実施形態では、最適化ヌクレオチド配列のリストの最適化ヌクレオチド配列の一部またはすべてにコドン適応指標（ＣＡＩ）分析が行われる場合がある。このような実施形態では、最適化ヌクレオチド配列のリスト内の１つまたはそれ以上の最適化ヌクレオチド配列が分析されて、各配列のＣＡＩが決定され、その際、ＣＡＩは、コドン使用バイアスの尺度であり、０と１との間の値を取ることができる。最適化ヌクレオチド配列のリストは、コドン最適化アルゴリズムによって本来生成された最適化ヌクレオチド配列のリストの場合、または１つもしくはそれ以上のさらなるアルゴリズム工程によってすでにフィルタリングされた最適化ヌクレオチド配列のリストの場合がある。１つまたはそれ以上の追加的なアルゴリズム工程によってすでにフィルタリングまたは更新された最適化ヌクレオチド配列のリストは、最適化ヌクレオチド配列の更新されたリスト、または最近更新されたリストと称される場合がある。予め決定されたＣＡＩ閾値以下のＣＡＩを有する任意の最適化ヌクレオチド配列がリストから除去されて、更新されたリストを産生し得る。

一部の実施形態では、ＣＡＩ閾値は、ユーザによって選択可能である。一部の実施形態では、ＣＡＩ閾値は、０．７、０．７５、０．８５、または０．９である。特定の実施形態では、ＣＡＩ閾値は０．８である。

ＣＡＩは、最適化ヌクレオチド配列ごとに、当業者に明らかであろう任意のやり方で、例えば、「Ｔｈｅｃｏｄｏｎａｄａｐｔａｔｉｏｎｉｎｄｅｘ－－ａｍｅａｓｕｒｅｏｆｄｉｒｅｃｔｉｏｎａｌｓｙｎｏｎｙｍｏｕｓｃｏｄｏｎｕｓａｇｅｂｉａｓ，ａｎｄｉｔｓｐｏｔｅｎｔｉａｌａｐｐｌｉｃａｔｉｏｎｓ」（ＳｈａｒｐおよびＬｉ、１９８７．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ１５（３）、１２８１～１２９５頁）；（ｈｔｔｐｓ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｍｃ／ａｒｔｉｃｌｅｓ／ＰＭＣ３４０５２４／からオンラインで入手可能）に記載されているように計算してもよい。

コドン適応指標の計算を実行することは、以下による、または以下に類似の方法を含み得る。配列のアミノ酸ごとに、配列中の各コドンの重みが、相対適応度（ｗ_ｉ）と名付けられるパラメータによって表される場合がある。相対適応度は、参照配列セットから、そのアミノ酸についてのコドンｆ_ｉの観察された頻度と、最も頻繁な同義コドンｆ_ｊの頻度との間の比として計算される場合がある。次いで、配列のコドン適応指標が、各コドンと関連する重量の幾何平均として配列の長さ（コドンとして測定）にわたり計算される場合がある。コドン適応指標を計算するために使用される参照配列セットは、本発明の方法で使用されるコドン使用表が導出される、同じ参照配列セットであり得る。

前述のように、ＣＡＩ分析フィルタは、本明細書に詳述されるような部分ごとの分析として適用される場合がある。言い換えると、各最適化ヌクレオチド配列の部分のＣＡＩ尺度が決定され、予め決定されたＣＡＩ閾値以下のＣＡＩを有する部分があれば、その配列が考慮から除去（すなわち、リストから除去）される場合がある。このように、この方法を行うことによって、増加した計算効率とより選択的なフィルタとの両方が達成される。

さらなるアルゴリズム工程の組合せ
図７は、モチーフスクリーンフィルタ、ＧＣ含量分析フィルタ、およびＣＡＩ分析フィルタのうち０、１、２、または３つを最適化ヌクレオチド配列のリストに任意の順序で適用できることを示す。各フィルタは、最適化ヌクレオチド配列の同じリストに、同じ入力パラメータを用いて適用された場合、リストに対して同じ効果を有するので、各フィルタは、１回だけ使用される場合がある。例えば、モチーフスクリーンフィルタおよびＧＣ含量分析フィルタが最適化ヌクレオチド配列のリストに適用されていた場合、追加的なモチーフスクリーンフィルタまたは追加的なＧＣ含量分析フィルタを最適化ヌクレオチド配列の更新されたリストに適用することは、効果を有さないであろう。これは、いずれかのフィルタにかかった、リストのどのような配列も、すでに除去されているからである。最適化ヌクレオチド配列のリストにフィルタが適用されない、本発明の実施形態があることも図７によって示されている。

図８は、最適化ヌクレオチド配列のリストにフィルタが１つだけ適用される、本発明の実施形態を示す。この実施形態では、ＧＣ含量分析フィルタが選択されているが、これは例示であること、および１つだけのフィルタが所望であれば、モチーフスクリーンフィルタまたはＣＡＩフィルタを代替的に選択できることが明らかであろう。

図９は、最適化ヌクレオチド配列のリストにフィルタが２つだけ適用される、本発明の実施形態を示す。この実施形態では、モチーフスクリーンフィルタおよびＣＡＩ分析フィルタがその順序で適用されているが、これは例示であること、および２つだけのフィルタが所望であれば、モチーフスクリーンフィルタ、ＧＣ含量分析フィルタ、およびＣＡＩ分析フィルタのうち任意の２つを任意の順序で適用できることが明らかであろう。図９の例では、モチーフスクリーンフィルタが最適化ヌクレオチド配列のリストに適用されて、最適化ヌクレオチド配列の更新されたリストを産生する。最適化ヌクレオチド配列の更新されたリストがＣＡＩ分析フィルタによってさらにフィルタリングされる前に、リストは、最適化ヌクレオチド配列の最近更新されたリストと称される場合がある。次いで、ＣＡＩ分析フィルタが、最適化ヌクレオチド配列の最近更新されたリストに適用されて、最適化ヌクレオチド配列の更新されたリストまたはさらに更新されたリストを産生する。

図１０は、最適化ヌクレオチド配列のリストに３つのフィルタが適用される、本発明の特定の実施形態を示す。この特定の実施形態では、モチーフスクリーンフィルタ、ＧＣ含量分析フィルタ、およびＣＡＩ分析フィルタがその順序で適用されて、最適化ヌクレオチド配列の更新されたリストを産生する。３つのフィルタを使用する代替的な実施形態では、モチーフスクリーンフィルタ、ＧＣ含量分析フィルタ、およびＣＡＩ分析フィルタが任意の順序で適用される場合があることが明らかであろう。図９に類似して、各フィルタ工程の間、すなわち、モチーフスクリーンフィルタとＧＣ含量分析フィルタとの間、およびＧＣ含量分析フィルタとＣＡＩ分析フィルタとの間で、最適化ヌクレオチド配列のリストは、最適化ヌクレオチド配列の最近更新されたリストと称される場合がある（図１０に示さず）。図８および９の例示的な実施形態と同様に、任意およびすべてのフィルタリング工程の終わりに産生される最適化ヌクレオチド配列の更新されたリストの配列は、次いで、本明細書に記載される合成方法のいずれかにより合成される場合がある。

さらなるアルゴリズム工程の１つより多くを用いたフィルタリングに対して相乗的な有益効果があり得る。これは、さらなるアルゴリズム工程の各々への入力が、最適化ヌクレオチド配列の最近更新されたリストであるので、すなわち、すでにフィルタリングされた配列のリストであり得るので、これが達成される。分析すべき配列がリストの配列ほど多くなく、それにより、この方法の効率が上がるので、これは、さらなるフィルタリング工程を行うためのプロセシングおよび時間の必要量を減らす。

隣接同一コドン
一部の実施形態では、最適化ヌクレオチド配列のリストの最適化ヌクレオチド配列の一部またはすべてを分析して、少なくとも２つ、例えば３つ以上の隣接同一コドンを有する最適化ヌクレオチド配列が決定される場合がある。このさらなるアルゴリズム工程は、唯一のさらなるアルゴリズム工程の場合、または以下のうち１つもしくはそれ以上の前もしくは後に行われる場合がある：モチーフスクリーン、ＧＣ含量分析、およびＣＡＩ分析。分析は、本明細書に詳述されるように、各最適化ヌクレオチド配列に部分ごとに行われる場合がある。

例えば、ある特定の最適化ヌクレオチド配列が分析され、以下を含むセクションを含むと決定される場合がある：ＣＡＧＣＡＧＣＡＧ。ある特定の反復コドンを含むこのようなセクションは転写を止める可能性があるので、配列がリストから除去される。

一部の実施形態では、隣接稀少性閾値が、稀少コドンを決定するために使用され、その際、隣接稀少性閾値を下回るコドンは、稀少コドンと見なされる。稀少コドンは、正規化コドン使用表内の使用頻度を隣接稀少性閾値と比較することによって特定される場合がある。このように、隣接稀少性閾値は、正規化コドン使用表に含まれるほど閾値頻度よりも大きな使用を有したコドンであって、それでも、正規化コドン使用表のコドンのうち相対的に稀少であるコドンを特定する。一部の実施形態では、稀少隣接同一コドンだけが、最適化ヌクレオチド配列を最適化ヌクレオチド配列のリストから除去させる。

隣接稀少性閾値は、１０と５０％との間、例えば１５と４０％との間、例えば２０と３０％との間の場合があり、コドン使用表を正規化するために使用される閾値頻度に依存する。閾値頻度を下回る使用頻度を有するあらゆるコドンは正規化コドン使用表に出現しないので、効果を有するために、隣接稀少性閾値は閾値頻度よりも大きくなければならない。

上記と同じ例を使用するが、稀少隣接同一コドンだけをフィルタリングして、ＣＡＧが隣接稀少性閾値以上の頻度で正規化コドン使用表に出現する場合、ＣＡＧＣＡＧＣＡＧを含む配列は、リストから除去されない。代わりに、ＣＡＧが隣接稀少性閾値未満の頻度で正規化コドン使用表に出現する場合、ＣＡＧＣＡＧＣＡＧを含む配列がリストから除去される。

場合により稀少隣接同一コドンのためのフィルタを含む、隣接同一コドンのためのフィルタは、最適化ヌクレオチド配列のリストが作成された後の任意の段階で適用することができる。言い換えると、場合により稀少隣接同一コドンのためのフィルタを含む、隣接同一コドンのためのフィルタは、任意の他のさらなるアルゴリズム工程と共に、工程を任意の順序で行って適用することができる。

最適化ヌクレオチド配列の合成および発現
さらなる態様では、本発明は、ヌクレオチド配列を合成する方法であって、少なくとも１つの最適化ヌクレオチド配列を生成するために本発明のコンピュータ実装方法を行うこと；および生成された最適化ヌクレオチド配列の少なくとも１つを合成することを含む、方法を提供する。ｉｎｖｉｔｒｏ合成（一般的に「ｉｎｖｉｔｒｏ転写」とも呼ばれる）は、典型的には、プロモーター、リボヌクレオチド三リン酸のプール、ＤＴＴおよびマグネシウムイオンを含み得る緩衝系、ならびに適切なＲＮＡポリメラーゼ（例えば、Ｔ３、Ｔ７またはＳＰ６ＲＮＡポリメラーゼ）、ＤＮａｓｅＩ、ピロホスファターゼ、および／またはＲＮａｓｅ阻害剤を含む線状または環状のＤＮＡ鋳型などの核酸ベクターを用いて行われる。厳密な条件は、特定の用途に応じて変化する。

一部の実施形態では、本発明の方法によって生成される合成された最適化ヌクレオチド配列は、ｉｎｖｉｔｒｏ転写で使用するために核酸ベクターに挿入される。いくつかの実施形態では、核酸ベクターはプラスミドである。用語「プラスミド」または「プラスミド核酸ベクター」は、環状の核酸分子、例えば、人工核酸分子を指す。本発明の文脈におけるプラスミドＤＮＡは、所望の核酸配列、例えば、ｍＲＮＡ転写物をコードする配列および／または少なくとも１つのタンパク質、ポリペプチドもしくはペプチドをコードするオープンリーディングフレームを含む核酸配列を組み込む、または保有するのに適している。このようなプラスミドＤＮＡ構築物／ベクターは、発現ベクター、クローニングベクター、トランスファーベクター等であり得る。

核酸ベクターは、典型的には、所望のｍＲＮＡ転写物に対応する（コードする）配列、またはその一部、例えば、ｍＲＮＡのオープンリーディングフレームならびに５’－および／または３’ＵＴＲに対応する配列を含む。一部の実施形態では、所望のｍＲＮＡ転写物に対応する配列は、ポリＡ－テールがｍＲＮＡ転写物に含まれるように、３’ＵＴＲの後にポリＡ－テールをコードすることもできる。より典型的には、本発明の文脈において、所望のｍＲＮＡ転写物に対応する配列は、５’／３’ＵＴＲおよびオープンリーディングフレームからなる。本発明の一部の実施形態では、ｉｎｖｉｔｒｏ転写中に核酸ベクターから合成されたｍＲＮＡ転写物は、ポリＡテールを含まない。ポリＡテールは、合成後の処理工程においてｍＲＮＡ転写物に付加されてもよい。

一部の実施形態では、核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結された５’ＵＴＲをコードするヌクレオチド配列を含む。特定の実施形態では、５’ＵＴＲは、アミノ酸配列をコードする自然発生のｍＲＮＡの５’ＵＴＲと異なる。特定の実施形態では、５’ＵＴＲは、配列番号１９のヌクレオチド配列を有する。

一部の実施形態では、核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結された３’ＵＴＲをコードするヌクレオチド配列を含む。特定の実施形態では、３’ＵＴＲは、アミノ酸配列をコードする自然発生のｍＲＮＡの３’ＵＴＲと異なる。特定の実施形態では、３’ＵＴＲは、配列番号２０または配列番号２１のヌクレオチド配列を有する。

例えば、本発明のヌクレオチド配列は、５’ＵＴＲ、最適化ヌクレオチド配列、および３’ＵＴＲ（および場合により最適化ヌクレオチド配列の３’末端の１つまたはそれ以上の終止シグナルを含む核酸ベクターから合成され、５’ＵＴＲ、最適化ヌクレオチド配列および３’ＵＴＲを含むｍＲＮＡを生成することができる。

一部の実施形態では、核酸ベクターは、プロモーター配列、例えば、Ｔ３、Ｔ７またはＳＰ６ＲＮＡポリメラーゼプロモーター配列のようなＲＮＡポリメラーゼプロモーター配列を含む。

一部の実施形態では、核酸ベクターは、合成された最適化ヌクレオチド配列の３’末端の下流に１つまたはそれ以上の終止シグナル（例えば、２つまたは３つの終止シグナル）を含む。一部の実施形態では、本方法は、合成された最適化ヌクレオチド配列の３’末端に１つまたはそれ以上の終止シグナルを挿入することをさらに含む。一部の実施形態では、２つ以上の終止シグナルが挿入され、前記終止シグナルは、１０塩基対以下、例えば５～１０塩基対で分離されている。最適化ヌクレオチド配列の下流に１つまたはそれ以上の終止シグナルを付加することにより、最適化ヌクレオチド配列を含むプラスミドＤＮＡからＲＮＡが転写される際に転写の効率的な終止を促進し、結果として１つまたはそれ以上の終止シグナルでｉｎｖｉｔｒｏ転写の標的終止がもたらされ、それによって異常なランオン転写の制限がもたらされる。一部の実施形態では、核酸ベクターは、２つ以上の終止シグナル、例えば、２つまたはそれ以上、３つまたはそれ以上、または４つまたはそれ以上の終止シグナルを含む。複数の終止シグナルの存在は、標的化部位におけるｉｎｖｉｔｒｏ転写の終止の効率を向上させる。

一部の実施形態では、１つまたはそれ以上の終止シグナルは、以下のヌクレオチド配列：５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－３’を有し、ここで、Ｘ_１、Ｘ_２およびＸ_３は、Ａ、Ｃ、ＴまたはＧから独立して選択される。一部の実施形態では、１つまたはそれ以上の終止シグナルは、以下のヌクレオチド配列：ＴＡＴＣＴＧＴＴ；および／またはＴＴＴＴＴＴ；および／またはＡＡＧＣＴＴ；および／またはＧＡＡＧＡＧＣ；および／またはＴＣＴＡＧＡの１つを有する。一部の実施形態では、１つまたはそれ以上の終止シグナルは、以下のヌクレオチド配列：５’－Ｘ_１ＡＵＣＵＸ_２ＵＸ_３－３’を有し、ここで、Ｘ_１、Ｘ_２およびＸ_３は、Ａ、Ｃ、ＵまたはＧから独立して選択される。一部の実施形態では、１つまたはそれ以上の終止シグナルは、以下のヌクレオチド配列：ＵＡＵＣＵＧＵＵ；および／またはＵＵＵＵＵ；および／またはＡＡＧＣＵＵ；および／またはＧＡＡＧＡＧＣ；および／またはＵＣＵＡＧＡの１つを有する。一部の実施形態では、２つ以上の終止シグナルは、以下のヌクレオチド配列：（ａ）５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－（Ｚ_Ｎ）－Ｘ_４ＡＴＣＴＸ_５ＴＸ_６－３’または（ｂ）５’－Ｘ_１１ＡＴＣＴＸ_２ＴＸ_３－（Ｚ_Ｎ）－Ｘ_４ＡＴＣＴＸ_５ＴＸ_６－（Ｚ_Ｍ）－Ｘ_７ＡＴＣＴＸ_８ＴＸ_９－３’によってコードされ、ここでＸ_１、Ｘ_２、Ｘ_３、Ｘ_４、Ｘ_５、Ｘ_６、Ｘ_７、Ｘ_８およびＸ_９は、独立してＡ、Ｃ、ＴまたはＧから選択され、Ｚ_ＮはＮ個のヌクレオチドのスペーサー配列を表し、Ｚ_ＭはＭ個のヌクレオチドのスペーサー配列を表し、それぞれは独立してＡ、Ｃ、ＴまたはＧから選択され、ここで、Ｎおよび／またはＭは独立して１０以下である。

したがって、本発明の特定の実施形態では、合成された最適化ヌクレオチド配列の３’末端の下流に１つまたはそれ以上の終止シグナル（例えば、２つまたは３つの終止シグナル）を含むプラスミドＤＮＡは、ｉｎｖｉｔｒｏ転写のための直鎖化を必要としない。具体的には、本発明によって、プラスミドＤＮＡなどの環状核酸ベクター（典型的には超らせん状である）から、ｉｎｖｉｔｒｏ転写のためにＳＰ６／Ｔ７ＲＮＡポリメラーゼを用いてｍＲＮＡ転写物を作製することが可能となる。

ＳＰ６ＲＮＡポリメラーゼ
一部の実施形態では、ｍＲＮＡは、ＳＰ６ＲＮＡポリメラーゼによって合成される。一部の実施形態では、ＳＰ６ＲＮＡポリメラーゼは、自然発生のＳＰ６ＲＮＡポリメラーゼである。一部の実施形態では、ＳＰ６ＲＮＡポリメラーゼは、組換えＳＰ６ＲＮＡポリメラーゼである。一部の実施形態では、ＳＰ６ＲＮＡポリメラーゼは、タグを含む。タグは、タンパク質の検出または精製を容易にするために使用され得る。一部の実施形態では、タグは、例えば、Ｎｉ－ＮＴＡアフィニティクロマトグラフィによる精製に使用することができる、ヒスタグ（ｈｉｓ－ｔａｇ）である。

ＳＰ６ＲＮＡポリメラーゼは、ＳＰ６プロモーター配列に対して高い配列特異性を有するＤＮＡ依存性ＲＮＡポリメラーゼである。典型的には、このポリメラーゼは、そのプロモーターの下流の一本鎖ＤＮＡまたは二本鎖ＤＮＡ上のいずれかのＲＮＡの５’→３’ｉｎｖｉｔｒｏ合成を触媒し；それは、重合転写物にネイティブなリボヌクレオチドおよび／または修飾リボヌクレオチドを取り込む。

バクテリオファージＳＰ６ＲＮＡポリメラーゼの配列は、当初、以下のアミノ酸配列を有するものとして記載されていた（ＧｅｎＢａｎｋ：Ｙ００１０５．１）：

ＭＱＤＬＨＡＩＱＬＱＬＥＥＥＭＦＮＧＧＩＲＲＦＥＡＤＱＱＲＱＩＡＡＧＳＥＳＤＴＡＷＮＲＲＬＬＳＥＬＩＡＰＭＡＥＧＩＱＡＹＫＥＥＹＥＧＫＫＧＲＡＰＲＡＬＡＦＬＱＣＶＥＮＥＶＡＡＹＩＴＭＫＶＶＭＤＭＬＮＴＤＡＴＬＱＡＩＡＭＳＶＡＥＲＩＥＤＱＶＲＦＳＫＬＥＧＨＡＡＫＹＦＥＫＶＫＫＳＬＫＡＳＲＴＫＳＹＲＨＡＨＮＶＡＶＶＡＥＫＳＶＡＥＫＤＡＤＦＤＲＷＥＡＷＰＫＥＴＱＬＱＩＧＴＴＬＬＥＩＬＥＧＳＶＦＹＮＧＥＰＶＦＭＲＡＭＲＴＹＧＧＫＴＩＹＹＬＱＴＳＥＳＶＧＱＷＩＳＡＦＫＥＨＶＡＱＬＳＰＡＹＡＰＣＶＩＰＰＲＰＷＲＴＰＦＮＧＧＦＨＴＥＫＶＡＳＲＩＲＬＶＫＧＮＲＥＨＶＲＫＬＴＱＫＱＭＰＫＶＹＫＡＩＮＡＬＱＮＴＱＷＱＩＮＫＤＶＬＡＶＩＥＥＶＩＲＬＤＬＧＹＧＶＰＳＦＫＰＬＩＤＫＥＮＫＰＡＮＰＶＰＶＥＦＱＨＬＲＧＲＥＬＫＥＭＬＳＰＥＱＷＱＱＦＩＮＷＫＧＥＣＡＲＬＹＴＡＥＴＫＲＧＳＫＳＡＡＶＶＲＭＶＧＱＡＲＫＹＳＡＦＥＳＩＹＦＶＹＡＭＤＳＲＳＲＶＹＶＱＳＳＴＬＳＰＱＳＮＤＬＧＫＡＬＬＲＦＴＥＧＲＰＶＮＧＶＥＡＬＫＷＦＣＩＮＧＡＮＬＷＧＷＤＫＫＴＦＤＶＲＶＳＮＶＬＤＥＥＦＱＤＭＣＲＤＩＡＡＤＰＬＴＦＴＱＷＡＫＡＤＡＰＹＥＦＬＡＷＣＦＥＹＡＱＹＬＤＬＶＤＥＧＲＡＤＥＦＲＴＨＬＰＶＨＱＤＧＳＣＳＧＩＱＨＹＳＡＭＬＲＤＥＶＧＡＫＡＶＮＬＫＰＳＤＡＰＱＤＩＹＧＡＶＡＱＶＶＩＫＫＮＡＬＹＭＤＡＤＤＡＴＴＦＴＳＧＳＶＴＬＳＧＴＥＬＲＡＭＡＳＡＷＤＳＩＧＩＴＲＳＬＴＫＫＰＶＭＴＬＰＹＧＳＴＲＬＴＣＲＥＳＶＩＤＹＩＶＤＬＥＥＫＥＡＱＫＡＶＡＥＧＲＴＡＮＫＶＨＰＦＥＤＤＲＱＤＹＬＴＰＧＡＡＹＮＹＭＴＡＬＩＷＰＳＩＳＥＶＶＫＡＰＩＶＡＭＫＭＩＲＱＬＡＲＦＡＡＫＲＮＥＧＬＭＹＴＬＰＴＧＦＩＬＥＱＫＩＭＡＴＥＭＬＲＶＲＴＣＬＭＧＤＩＫＭＳＬＱＶＥＴＤＩＶＤＥＡＡＭＭＧＡＡＡＰＮＦＶＨＧＨＤＡＳＨＬＩＬＴＶＣＥＬＶＤＫＧＶＴＳＩＡＶＩＨＤＳＦＧＴＨＡＤＮＴＬＴＬＲＶＡＬＫＧＱＭＶＡＭＹＩＤＧＮＡＬＱＫＬＬＥＥＨＥＶＲＷＭＶＤＴＧＩＥＶＰＥＱＧＥＦＤＬＮＥＩＭＤＳＥＹＶＦＡ（配列番号１）

本発明に適したＳＰ６ＲＮＡポリメラーゼは、バクテリオファージＳＰ６ＲＮＡポリメラーゼと実質的に同じポリメラーゼ活性を有する任意の酵素であり得る。したがって、一部の実施形態では、本発明に適したＳＰ６ＲＮＡポリメラーゼは、配列番号１から改変されていてもよい。例えば、適したＳＰ６ＲＮＡポリメラーゼは、１つまたはそれ以上のアミノ酸置換、欠失、または付加を含んでいてもよい。一部の実施形態では、適したＳＰ６ＲＮＡポリメラーゼは、配列番号１と約９９％、９８％、９７％、９６％、９５％、９４％、９３％、９２％、９１％、９０％、８９％、８８％、８７％、８６％、８５％、８４％、８３％、８２％、８１％、８０％、７５％、７０％、６５％または６０％同一または相同のアミノ酸配列を有する。一部の実施形態では、適したＳＰ６ＲＮＡポリメラーゼは、（Ｎ末端、Ｃ末端、または内部から）切断されたタンパク質であってもよいが、ポリメラーゼ活性は保持される。一部の実施形態では、適したＳＰ６ＲＮＡポリメラーゼは、融合タンパク質である。

一部の実施形態では、ＳＰ６ＲＮＡポリメラーゼは、以下のヌクレオチド配列を有する遺伝子によってコードされる：
ＡＴＧＣＡＡＧＡＴＴＴＡＣＡＣＧＣＴＡＴＣＣＡＧＣＴＴＣＡＡＴＴＡＧＡＡＧＡＡＧＡＧＡＴＧＴＴＴＡＡＴＧＧＴＧＧＣＡＴＴＣＧＴＣＧＣＴＴＣＧＡＡＧＣＡＧＡＴＣＡＡＣＡＡＣＧＣＣＡＧＡＴＴＧＣＡＧＣＡＧＧＴＡＧＣＧＡＧＡＧＣＧＡＣＡＣＡＧＣＡＴＧＧＡＡＣＣＧＣＣＧＣＣＴＧＴＴＧＴＣＡＧＡＡＣＴＴＡＴＴＧＣＡＣＣＴＡＴＧＧＣＴＧＡＡＧＧＣＡＴＴＣＡＧＧＣＴＴＡＴＡＡＡＧＡＡＧＡＧＴＡＣＧＡＡＧＧＴＡＡＧＡＡＡＧＧＴＣＧＴＧＣＡＣＣＴＣＧＣＧＣＡＴＴＧＧＣＴＴＴＣＴＴＡＣＡＡＴＧＴＧＴＡＧＡＡＡＡＴＧＡＡＧＴＴＧＣＡＧＣＡＴＡＣＡＴＣＡＣＴＡＴＧＡＡＡＧＴＴＧＴＴＡＴＧＧＡＴＡＴＧＣＴＧＡＡＴＡＣＧＧＡＴＧＣＴＡＣＣＣＴＴＣＡＧＧＣＴＡＴＴＧＣＡＡＴＧＡＧＴＧＴＡＧＣＡＧＡＡＣＧＣＡＴＴＧＡＡＧＡＣＣＡＡＧＴＧＣＧＣＴＴＴＴＣＴＡＡＧＣＴＡＧＡＡＧＧＴＣＡＣＧＣＣＧＣＴＡＡＡＴＡＣＴＴＴＧＡＧＡＡＧＧＴＴＡＡＧＡＡＧＴＣＡＣＴＣＡＡＧＧＣＴＡＧＣＣＧＴＡＣＴＡＡＧＴＣＡＴＡＴＣＧＴＣＡＣＧＣＴＣＡＴＡＡＣＧＴＡＧＣＴＧＴＡＧＴＴＧＣＴＧＡＡＡＡＡＴＣＡＧＴＴＧＣＡＧＡＡＡＡＧＧＡＣＧＣＧＧＡＣＴＴＴＧＡＣＣＧＴＴＧＧＧＡＧＧＣＧＴＧＧＣＣＡＡＡＡＧＡＡＡＣＴＣＡＡＴＴＧＣＡＧＡＴＴＧＧＴＡＣＴＡＣＣＴＴＧＣＴＴＧＡＡＡＴＣＴＴＡＧＡＡＧＧＴＡＧＣＧＴＴＴＴＣＴＡＴＡＡＴＧＧＴＧＡＡＣＣＴＧＴＡＴＴＴＡＴＧＣＧＴＧＣＴＡＴＧＣＧＣＡＣＴＴＡＴＧＧＣＧＧＡＡＡＧＡＣＴＡＴＴＴＡＣＴＡＣＴＴＡＣＡＡＡＣＴＴＣＴＧＡＡＡＧＴＧＴＡＧＧＣＣＡＧＴＧＧＡＴＴＡＧＣＧＣＡＴＴＣＡＡＡＧＡＧＣＡＣＧＴＡＧＣＧＣＡＡＴＴＡＡＧＣＣＣＡＧＣＴＴＡＴＧＣＣＣＣＴＴＧＣＧＴＡＡＴＣＣＣＴＣＣＴＣＧＴＣＣＴＴＧＧＡＧＡＡＣＴＣＣＡＴＴＴＡＡＴＧＧＡＧＧＧＴＴＣＣＡＴＡＣＴＧＡＧＡＡＧＧＴＡＧＣＴＡＧＣＣＧＴＡＴＣＣＧＴＣＴＴＧＴＡＡＡＡＧＧＴＡＡＣＣＧＴＧＡＧＣＡＴＧＴＡＣＧＣＡＡＧＴＴＧＡＣＴＣＡＡＡＡＧＣＡＡＡＴＧＣＣＡＡＡＧＧＴＴＴＡＴＡＡＧＧＣＴＡＴＣＡＡＣＧＣＡＴＴＡＣＡＡＡＡＴＡＣＡＣＡＡＴＧＧＣＡＡＡＴＣＡＡＣＡＡＧＧＡＴＧＴＡＴＴＡＧＣＡＧＴＴＡＴＴＧＡＡＧＡＡＧＴＡＡＴＣＣＧＣＴＴＡＧＡＣＣＴＴＧＧＴＴＡＴＧＧＴＧＴＡＣＣＴＴＣＣＴＴＣＡＡＧＣＣＡＣＴＧＡＴＴＧＡＣＡＡＧＧＡＧＡＡＣＡＡＧＣＣＡＧＣＴＡＡＣＣＣＧＧＴＡＣＣＴＧＴＴＧＡＡＴＴＣＣＡＡＣＡＣＣＴＧＣＧＣＧＧＴＣＧＴＧＡＡＣＴＧＡＡＡＧＡＧＡＴＧＣＴＡＴＣＡＣＣＴＧＡＧＣＡＧＴＧＧＣＡＡＣＡＡＴＴＣＡＴＴＡＡＣＴＧＧＡＡＡＧＧＣＧＡＡＴＧＣＧＣＧＣＧＣＣＴＡＴＡＴＡＣＣＧＣＡＧＡＡＡＣＴＡＡＧＣＧＣＧＧＴＴＣＡＡＡＧＴＣＣＧＣＣＧＣＣＧＴＴＧＴＴＣＧＣＡＴＧＧＴＡＧＧＡＣＡＧＧＣＣＣＧＴＡＡＡＴＡＴＡＧＣＧＣＣＴＴＴＧＡＡＴＣＣＡＴＴＴＡＣＴＴＣＧＴＧＴＡＣＧＣＡＡＴＧＧＡＴＡＧＣＣＧＣＡＧＣＣＧＴＧＴＣＴＡＴＧＴＧＣＡＡＴＣＴＡＧＣＡＣＧＣＴＣＴＣＴＣＣＧＣＡＧＴＣＴＡＡＣＧＡＣＴＴＡＧＧＴＡＡＧＧＣＡＴＴＡＣＴＣＣＧＣＴＴＴＡＣＣＧＡＧＧＧＡＣＧＣＣＣＴＧＴＧＡＡＴＧＧＣＧＴＡＧＡＡＧＣＧＣＴＴＡＡＡＴＧＧＴＴＣＴＧＣＡＴＣＡＡＴＧＧＴＧＣＴＡＡＣＣＴＴＴＧＧＧＧＡＴＧＧＧＡＣＡＡＧＡＡＡＡＣＴＴＴＴＧＡＴＧＴＧＣＧＣＧＴＧＴＣＴＡＡＣＧＴＡＴＴＡＧＡＴＧＡＧＧＡＡＴＴＣＣＡＡＧＡＴＡＴＧＴＧＴＣＧＡＧＡＣＡＴＣＧＣＣＧＣＡＧＡＣＣＣＴＣＴＣＡＣＡＴＴＣＡＣＣＣＡＡＴＧＧＧＣＴＡＡＡＧＣＴＧＡＴＧＣＡＣＣＴＴＡＴＧＡＡＴＴＣＣＴＣＧＣＴＴＧＧＴＧＣＴＴＴＧＡＧＴＡＴＧＣＴＣＡＡＴＡＣＣＴＴＧＡＴＴＴＧＧＴＧＧＡＴＧＡＡＧＧＡＡＧＧＧＣＣＧＡＣＧＡＡＴＴＣＣＧＣＡＣＴＣＡＣＣＴＡＣＣＡＧＴＡＣＡＴＣＡＧＧＡＣＧＧＧＴＣＴＴＧＴＴＣＡＧＧＣＡＴＴＣＡＧＣＡＣＴＡＴＡＧＴＧＣＴＡＴＧＣＴＴＣＧＣＧＡＣＧＡＡＧＴＡＧＧＧＧＣＣＡＡＡＧＣＴＧＴＴＡＡＣＣＴＧＡＡＡＣＣＣＴＣＣＧＡＴＧＣＡＣＣＧＣＡＧＧＡＴＡＴＣＴＡＴＧＧＧＧＣＧＧＴＧＧＣＧＣＡＡＧＴＧＧＴＴＡＴＣＡＡＧＡＡＧＡＡＴＧＣＧＣＴＡＴＡＴＡＴＧＧＡＴＧＣＧＧＡＣＧＡＴＧＣＡＡＣＣＡＣＧＴＴＴＡＣＴＴＣＴＧＧＴＡＧＣＧＴＣＡＣＧＣＴＧＴＣＣＧＧＴＡＣＡＧＡＡＣＴＧＣＧＡＧＣＡＡＴＧＧＣＴＡＧＣＧＣＡＴＧＧＧＡＴＡＧＴＡＴＴＧＧＴＡＴＴＡＣＣＣＧＴＡＧＣＴＴＡＡＣＣＡＡＡＡＡＧＣＣＣＧＴＧＡＴＧＡＣＣＴＴＧＣＣＡＴＡＴＧＧＴＴＣＴＡＣＴＣＧＣＴＴＡＡＣＴＴＧＣＣＧＴＧＡＡＴＣＴＧＴＧＡＴＴＧＡＴＴＡＣＡＴＣＧＴＡＧＡＣＴＴＡＧＡＧＧＡＡＡＡＡＧＡＧＧＣＧＣＡＧＡＡＧＧＣＡＧＴＡＧＣＡＧＡＡＧＧＧＣＧＧＡＣＧＧＣＡＡＡＣＡＡＧＧＴＡＣＡＴＣＣＴＴＴＴＧＡＡＧＡＣＧＡＴＣＧＴＣＡＡＧＡＴＴＡＣＴＴＧＡＣＴＣＣＧＧＧＣＧＣＡＧＣＴＴＡＣＡＡＣＴＡＣＡＴＧＡＣＧＧＣＡＣＴＡＡＴＣＴＧＧＣＣＴＴＣＴＡＴＴＴＣＴＧＡＡＧＴＡＧＴＴＡＡＧＧＣＡＣＣＧＡＴＡＧＴＡＧＣＴＡＴＧＡＡＧＡＴＧＡＴＡＣＧＣＣＡＧＣＴＴＧＣＡＣＧＣＴＴＴＧＣＡＧＣＧＡＡＡＣＧＴＡＡＴＧＡＡＧＧＣＣＴＧＡＴＧＴＡＣＡＣＣＣＴＧＣＣＴＡＣＴＧＧＣＴＴＣＡＴＣＴＴＡＧＡＡＣＡＧＡＡＧＡＴＣＡＴＧＧＣＡＡＣＣＧＡＧＡＴＧＣＴＡＣＧＣＧＴＧＣＧＴＡＣＣＴＧＴＣＴＧＡＴＧＧＧＴＧＡＴＡＴＣＡＡＧＡＴＧＴＣＣＣＴＴＣＡＧＧＴＴＧＡＡＡＣＧＧＡＴＡＴＣＧＴＡＧＡＴＧＡＡＧＣＣＧＣＴＡＴＧＡＴＧＧＧＡＧＣＡＧＣＡＧＣＡＣＣＴＡＡＴＴＴＣＧＴＡＣＡＣＧＧＴＣＡＴＧＡＣＧＣＡＡＧＴＣＡＣＣＴＴＡＴＣＣＴＴＡＣＣＧＴＡＴＧＴＧＡＡＴＴＧＧＴＡＧＡＣＡＡＧＧＧＣＧＴＡＡＣＴＡＧＴＡＴＣＧＣＴＧＴＡＡＴＣＣＡＣＧＡＣＴＣＴＴＴＴＧＧＴＡＣＴＣＡＴＧＣＡＧＡＣＡＡＣＡＣＣＣＴＣＡＣＴＣＴＴＡＧＡＧＴＧＧＣＡＣＴＴＡＡＡＧＧＧＣＡＧＡＴＧＧＴＴＧＣＡＡＴＧＴＡＴＡＴＴＧＡＴＧＧＴＡＡＴＧＣＧＣＴＴＣＡＧＡＡＡＣＴＡＣＴＧＧＡＧＧＡＧＣＡＴＧＡＡＧＴＧＣＧＣＴＧＧＡＴＧＧＴＴＧＡＴＡＣＡＧＧＴＡＴＣＧＡＡＧＴＡＣＣＴＧＡＧＣＡＡＧＧＧＧＡＧＴＴＣＧＡＣＣＴＴＡＡＣＧＡＡＡＴＣＡＴＧＧＡＴＴＣＴＧＡＡＴＡＣＧＴＡＴＴＴＧＣＣＴＡＡ（配列番号２）。

本発明に適したＳＰ６ＲＮＡポリメラーゼをコードする適した遺伝子は、配列番号２と約９９％、９８％、９７％、９６％、９５％、９４％、９３％、９２％、９１％、９０％、８９％、８８％、８７％、８６％、８５％、８４％、８３％、８２％、８１％または８０％同一または相同であってもよい。

本発明に適したＳＰ６ＲＮＡポリメラーゼは、例えば、Ａｍｂｉｏｎ、ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢ）、Ｐｒｏｍｅｇａ、およびＲｏｃｈｅから市販されている製品であってもよい。ＳＰ６は、本明細書に記載される配列番号１のアミノ酸配列または配列番号１のバリアントにしたがって、商業的供給源または非商業的供給源から注文および／またはカスタム設計されてもよい。ＳＰ６ＲＮＡポリメラーゼは、ＲＮＡポリメラーゼ活性を促進するために修飾された、高忠実度／高効率／高能力、例えばＳＰ６ＲＮＡポリメラーゼ遺伝子における変異またはＳＰ６ＲＮＡポリメラーゼ自体の翻訳後修飾であってもよい。このような修飾ＳＰ６の例としては、ＡｍｂｉｏｎのＳＰ６ＲＮＡＰｏｌｙｍｅｒａｓｅ－Ｐｌｕｓ（商標）、ＮＥＢのＨｉＳｃｒｉｂｅＳＰ６、およびＰｒｏｍｅｇａのＲｉｂｏＭＡＸ（商標）およびＲｉｂｏｐｒｏｂｅ（登録商標）Ｓｙｓｔｅｍｓが挙げられる。

一部の実施形態では、ＳＰ６ＲＮＡポリメラーゼは熱安定性である。特定の実施形態では、本発明と共に使用するためのＳＰ６ＲＮＡポリメラーゼのアミノ酸配列は、３７℃～５６℃の範囲の温度で酵素を活性化させる野生型ＳＰ６ポリメラーゼに対する１つまたはそれ以上の変異を含む。ある実施形態では、本発明と共に使用するためのＳＰ６ＲＮＡポリメラーゼは、５０℃～５２℃の最適温度で機能する。他の実施形態では、本発明と共に使用するためのＳＰ６ＲＮＡポリメラーゼは、５０℃において少なくとも６０分間の半減期を有する。例えば、本発明と共に使用するための特に適したＳＰ６ＲＮＡポリメラーゼは、５０℃において６０分間～１２０分間（例えば、７０分間～１００分間、または８０分間～９０分間）の半減期を有する。

一部の実施形態では、適したＳＰ６ＲＮＡポリメラーゼは、融合タンパク質である。例えば、ＳＰ６ＲＮＡポリメラーゼは、酵素の単離、精製、または溶解性を促進するために、１つまたはそれ以上のタグを含んでいてもよい。適したタグは、Ｎ末端、Ｃ末端、および／または内部に配置されていてもよい。適したタグの非限定的な例としては、カルモジュリン結合タンパク質（ＣＢＰ）；肝蛭（Ｆａｓｃｉｏｌａｈｅｐａｔｉｃａ）８ｋＤａ抗原（Ｆｈ８）；ＦＬＡＧタグペプチド；グルタチオン－Ｓ－トランスフェラーゼ（ＧＳＴ）；ヒスチジンタグ（例えば、ヘキサヒスチジンタグ（Ｈｉｓ６））；マルトース結合タンパク質（ＭＢＰ）；Ｎ－利用物質（ＮｕｓＡ）；低分子ユビキチン様修飾因子（ＳＵＭＯ）融合タグ；ストレプトアビジン結合ペプチド（ＳＴＲＥＰ）；タンデム親和性精製（ＴＡＰ）；およびチオレドキシン（ＴｒｘＡ）が挙げられる。本発明では、他のタグも使用することができる。これらおよび他の融合タグは、例えば、Ｃｏｓｔａら、ＦｒｏｎｔｉｅｒｓｉｎＭｉｃｒｏｂｉｏｌｏｇｙ５（２０１４年）：６３およびＰＣＴ／ＵＳ１６／５７０４４に記載されており、その内容は、参照によってその全体が本明細書に組み入れられる。一部の実施形態では、Ｈｉｓタグは、ＳＰ６のＮ末端に配置される。

ＳＰ６プロモーター
ＳＰ６ＲＮＡポリメラーゼによって認識され得る任意のプロモーターが、本発明において使用され得る。典型的には、ＳＰ６プロモーターは、５’ＡＴＴＴＡＧＴＧＡＣＡＣＴＡＴＡＧ－３’（配列番号３）を含む。ＳＰ６プロモーターのバリアントは、そのプロモーターのＳＰ６の認識および／または結合を最適化するために発見および／または作出されている。非限定的なバリアントとしては、以下が挙げられるが、これらに限定されるものではない：
５’－ＡＴＴＴＡＧＧＧＧＡＣＡＣＴＡＴＡＧＡＡＧＡＧ－３’；５’－ＡＴＴＴＡＧＧＧＧＡＣＡＣＴＡＴＡＧＡＡＧＧ－３’；５’－ＡＴＴＴＡＧＧＧＧＡＣＡＣＴＡＴＡＧＡＡＧＧＧ－３’；５’－ＡＴＴＴＡＧＧＴＧＡＣＡＣＴＡＴＡＧＡＡ－３’；
５’－ＡＴＴＴＡＧＧＴＧＡＣＡＣＴＡＴＡＧＡＡＧＡ－３’；５’－ＡＴＴＴＡＧＧＴＧＡＣＡＣＴＡＴＡＧＡＡＧＡＧ－３’；５’－ＡＴＴＴＡＧＧＴＧＡＣＡＣＴＡＴＡＧＡＡＧＧ－３’；５’－ＡＴＴＴＡＧＧＴＧＡＣＡＣＴＡＴＡＧＡＡＧＧＧ－３’；５’－ＡＴＴＴＡＧＧＴＧＡＣＡＣＴＡＴＡＧＡＡＧＮＧ－３’；および
５’－ＣＡＴＡＣＧＡＴＴＴＡＧＧＴＧＡＣＡＣＴＡＴＡＧ－３’（配列番号４から配列番号１３）
ヌクレオチド配列においてＮが使用される場合、ＮはＡ、Ｃ、ＴまたはＧである。

さらに、本発明に適したＳＰ６プロモーターは、配列番号４～配列番号１３のいずれか１つに約９５％、９０％、８５％、８０％、７５％、または７０％同一または相同であってもよい。さらに、本発明に適したＳＰ６プロモーターは、本明細書に記載のプロモーター配列のいずれかに対して５’および／または３’の１つまたはそれ以上の追加のヌクレオチドを含んでいてもよい。

Ｔ７ＲＮＡポリメラーゼ
一部の実施形態では、ｍＲＮＡは、Ｔ７ＲＮＡポリメラーゼによって合成される。

Ｔ７ＲＮＡポリメラーゼは、Ｔ７プロモーター配列に対して高い配列特異性を有するＤＮＡ依存性ＲＮＡポリメラーゼである。典型的には、このポリメラーゼは、そのプロモーターの下流の一本鎖ＤＮＡ上または二本鎖ＤＮＡ上のいずれかのＲＮＡの５’→３’ｉｎｖｉｔｒｏ合成を触媒し；重合した転写産物にネイティブなリボヌクレオチドおよび／または修飾リボヌクレオチドを取り込む。

一部の実施形態では、Ｔ７ＲＮＡポリメラーゼは熱安定性である。特定の実施形態では、本発明と共に使用するためのＴ７ＲＮＡポリメラーゼのアミノ酸配列は、３７℃～５６℃の範囲の温度で酵素を活性化させる野生型Ｔ７ポリメラーゼに対する１つまたはそれ以上の変異を含む。適したＲＮＡポリメラーゼの例は、ＮＥＢのＨｉ－Ｔ７（登録商標）ＲＮＡポリメラーゼである。ある実施形態では、本発明と共に使用するためのＴ７ＲＮＡポリメラーゼは、５０℃～５２℃の最適温度で機能する。他の実施形態では、本発明と共に使用するためのＴ７ＲＮＡポリメラーゼは、５０℃において少なくとも６０分間の半減期を有する。例えば、本発明と共に使用するための特に適したＴ７ＲＮＡポリメラーゼは、５０℃において６０分間～１２０分間（例えば、７０分間～１００分間、または８０分間～９０分間）の半減期を有する。

Ｔ７プロモーター
Ｔ７ＲＮＡポリメラーゼによって認識され得る任意のプロモーターを、本明細書に記載の方法において使用し得る。典型的には、Ｔ７プロモーターは、
５’－ＴＡＡＴＡＣＧＡＣＴＣＡＣＴＡＴＡＧ－３’（配列番号１４）を含む。

合成後プロセシング
一部の実施形態では、本発明の方法は、合成されたｍＲＮＡをキャッピングおよび／またはテーリングする他の工程をさらに含む。

典型的には、５’キャップおよび／または３’テールが、合成後に付加され得る。キャップの存在は、ほとんどの真核細胞において見出されるヌクレアーゼに対する耐性を提供する上で重要である。「テール」の存在は、エキソヌクレアーゼ分解からｍＲＮＡを保護するのに役立つ。

５‘キャップは典型的には以下のように付加される：最初に、ＲＮＡ末端ホスファターゼが５’ヌクレオチドから末端リン酸基の１つを除去し、２つの末端リン酸を残し；次にグアノシン三リン酸（ＧＴＰ）がグアニリルトランスフェラーゼを介して末端リン酸に付加され、それによって５’５’５’三リン酸結合が生成され；次にメチル転移酵素によってグアニンの７－窒素がメチル化される。キャップ構造の例としては、ｔｏｍ７Ｇ（５’）ｐｐｐ（５’）（２’ＯＭｅＧ）、ｍ７Ｇ（５’）ｐｐｐ（５’）（２’ＯＭｅＡ）、ｍ７（３’ＯＭｅＧ）（５’）ｐｐｐ（５’）（２’ＯＭｅＧ）、ｍ７（３’ＯＭｅＧ）（５’）ｐｐｐ（５’）（２’ＯＭｅＡ）、ｍ７Ｇ（５’）ｐｐｐ（５’（Ａ，Ｇ（５’）ｐｐｐ（５’）ＡおよびＧ（５’）ｐｐｐ（５’）Ｇが挙げられるが、これらに限定されない。特定の実施形態では、キャップ構造は、ｍ７Ｇ（５’）ｐｐｐ（５’）（２’ＯＭｅＧ）である。追加のキャップ構造は、米国出願公開第２０１６／００３２３５６号および２０１７年２月２７日に出願された米国仮特許出願第６２／４６４，３２７号に記載されており、これらは参照によって本明細書に組み入れられる。

典型的には、テール構造は、ポリ（Ａ）および／またはポリ（Ｃ）テールを含む。ｍＲＮＡの３’末端上のポリＡまたはポリＣテールは、典型的には、それぞれ、少なくとも５０のアデノシンまたはシトシンヌクレオチド、少なくとも１５０のアデノシンまたはシトシンヌクレオチド、少なくとも２００のアデノシンまたはシトシンヌクレオチド、少なくとも２５０のアデノシンまたはシトシンヌクレオチド、少なくとも３００のアデノシンまたはシトシンヌクレオチド、少なくとも３５０のアデノシンまたはシトシンヌクレオチド、少なくとも４００のアデノシンまたはシトシンヌクレオチド、少なくとも４５０のアデノシンまたはシトシンヌクレオチド、少なくとも５００のアデノシンまたはシトシンヌクレオチド、少なくとも５５０のアデノシンまたはシトシンヌクレオチド、少なくとも６００のアデノシンまたはシトシンヌクレオチド、少なくとも６５０のアデノシンまたはシトシンヌクレオチド、少なくとも７００のアデノシンまたはシトシンヌクレオチド、少なくとも７５０のアデノシンまたはシトシンヌクレオチド、少なくとも８００のアデノシンまたはシトシンヌクレオチド、少なくとも８５０のアデノシンもしくはシトシンヌクレオチド、少なくとも９００のアデノシンまたはシトシンヌクレオチド、少なくとも９５０のアデノシンまたはシトシンヌクレオチド、または少なくとも１ｋｂのアデノシンまたはシトシンヌクレオチドを含む。一部の実施形態では、ポリＡまたはポリＣテールは、約１０～８００のアデノシンまたはシトシンヌクレオチド（例えば、約１０～２００のアデノシンまたはシトシンヌクレオチド、約１０～３００のアデノシンまたはシトシンヌクレオチド、約１０～４００のアデノシンまたはシトシンヌクレオチド、約１０～５００のアデノシンまたはシトシンヌクレオチド、約１０～５５０のアデノシンまたはシトシンヌクレオチド、約１０～６００のアデノシンまたはシトシンヌクレオチド、約５０～６００のアデノシンまたはシトシンヌクレオチド、約１００～６００個のアデノシンまたはシトシンヌクレオチド、約１５０～６００のアデノシンまたはシトシンヌクレオチド、約２００～６００のアデノシンまたはシトシンヌクレオチド、約２５０～６００のアデノシンまたはシトシンヌクレオチド、約３００～６００のアデノシンまたはシトシンヌクレオチド、約３５０～６００のアデノシンまたはシトシンヌクレオチド、約４００～６００のアデノシンまたはシトシンヌクレオチド、約４５０～６００のアデノシンまたはシトシンヌクレオチド、約５００～６００のアデノシンまたはシトシンヌクレオチド、約１０～１５０のアデノシンまたはシトシンヌクレオチド、約１０～１００のアデノシンまたはシトシンヌクレオチド、約２０～７０のアデノシンまたはシトシンヌクレオチド、または約２０～６０のアデノシンもしくはシトシンヌクレオチド）をそれぞれ含む。一部の実施形態では、テール構造は、本明細書に記載の様々な長さを有するポリ（Ａ）テールおよびポリ（Ｃ）テールの組合せを含む。一部の実施形態では、テール構造は、少なくとも５０％、５５％、６５％、７０％、７５％、８０％、８５％、９０％、９２％、９４％、９５％、９６％、９７％、９８％、または９９％のアデノシンヌクレオチドを含む。一部の実施形態では、テール構造は、少なくとも５０％、５５％、６５％、７０％、７５％、８０％、８５％、９０％、９２％、９４％、９５％、９６％、９７％、９８％、または９９％のシトシンヌクレオチドを含む。

本明細書に記載されるように、５’キャップおよび／または３’テールの付加は、ｉｎｖｉｔｒｏ合成中に生成された中断転写産物の検出を促進させるが、これはキャッピングおよび／またはテーリングなしでは、それらの未成熟で中断したｍＲＮＡ転写産物のサイズが小さすぎて検出されないことがあるためである。したがって、一部の実施形態では、５’キャップおよび／または３’テールは、ｍＲＮＡが純度（例えば、ｍＲＮＡ中に存在する中断写産物のレベル）について試験される前に、合成されたｍＲＮＡに不可される。一部の実施形態では、５’キャップおよび／または３’テールは、ｍＲＮＡが本明細書に記載のように精製される前に、合成されたｍＲＮＡに付加される。他の実施形態では、５’キャップおよび／または３’テールは、ｍＲＮＡが本明細書に記載されるように精製された後に合成されたｍＲＮＡに付加される。

一部の実施形態では、キャッピングおよびテーリングは、ｉｎｖｉｔｒｏ転写の間に起こる。

ｍＲＮＡ合成反応混合物条件
一部の実施形態では、反応混合物中のＲＮＡポリメラーゼの濃度は、約１～１００ｎＭ、１～９０ｎＭ、１～８０ｎＭ、１～７０ｎＭ、１～６０ｎＭ、１～５０ｎＭ、１～４０ｎＭ、１～３０ｎＭ、１～２０ｎＭ、または約１～１０ｎＭであってもよい。特定の実施形態では、ＲＮＡポリメラーゼの濃度は、約１０～５０ｎＭ、２０～５０ｎＭ、または３０～５０ｎＭである。ＲＮＡポリメラーゼの１００～１００００Ｕｎｉｔ／ｍｌの濃度が使用されてもよく、例えば、１００～９０００Ｕｎｉｔ／ｍｌ、１００～８０００Ｕｎｉｔ／ｍｌ、１００～７０００Ｕｎｉｔ／ｍｌ、１００～６０００Ｕｎｉｔ／ｍｌ、１００～５０００Ｕｎｉｔ／ｍｌ、１００～１０００Ｕｎｉｔ／ｍｌ、２００～２０００Ｕｎｉｔ／ｍｌ、５００～１０００Ｕｎｉｔ／ｍｌ、５００～２０００Ｕｎｉｔ／ｍｌ、５００～３０００Ｕｎｉｔ／ｍｌ、５００～４０００Ｕｎｉｔ／ｍｌ、５００～５０００Ｕｎｉｔ／ｍｌ、５００～６０００Ｕｎｉｔ／ｍｌ、１０００～７５００Ｕｎｉｔ／ｍｌおよび２５００～５０００Ｕｎｉｔ／ｍｌの濃度を使用できる。

反応混合物中の各リボヌクレオチド（例えば、ＡＴＰ、ＵＴＰ、ＧＴＰ、およびＣＴＰ）の濃度は、約０．１ｍＭ～約１０ｍＭ、例えば、約１ｍＭ～約１０ｍＭ、約２ｍＭ～約１０ｍＭ、約３ｍＭ～約１０ｍＭ、約１ｍＭ～約８ｍＭ、約１ｍＭ～約６ｍＭ、約３ｍＭ～約１０ｍＭ、約３ｍＭ～約８ｍＭ、約３ｍＭ～約６ｍＭ、約４ｍＭ～約５ｍＭである。一部の実施形態では、各リボヌクレオチドは、反応混合物中において約５ｍＭである。一部の実施形態では、反応において使用されるｒＮＴＰ（例えば、ＡＴＰ、ＧＴＰ、ＣＴＰおよびＵＴＰの組合せ）の総濃度は、１ｍＭ～４０ｍＭの範囲にある。一部の実施形態では、反応において使用されるｒＮＴＰ（例えば、ＡＴＰ、ＧＴＰ、ＣＴＰおよびＵＴＰの組合せ）の総濃度は、１ｍＭ～３０ｍＭ、または１ｍＭ～２８ｍＭ、または１ｍＭ～２５ｍＭ、または１ｍＭ～２０ｍＭの範囲にある。一部の実施形態では、総ｒＮＴＰ濃度は、３０ｍＭ未満である。一部の実施形態では、総ｒＮＴＰ濃度は、２５ｍＭ未満である。一部の実施形態では、総ｒＮＴＰ濃度は、２０ｍＭ未満である。一部の実施形態では、総ｒＮＴＰ濃度は、１５ｍＭ未満である。いくつかの実施形態では、総ｒＮＴＰ濃度は、１０ｍＭ未満である。

特定の実施形態では、反応混合物中の各ｒＮＴＰの濃度は、所与のｍＲＮＡ転写産物をコードする核酸配列中の各核酸の頻度に基づいて最適化される。具体的には、このような配列最適化反応混合物は、ｍＲＮＡ転写産物中のこれら４つの核酸（Ａ、Ｇ、ＣおよびＵ）の比率に対応する４つのｒＮＴＰ（例えば、ＡＴＰ、ＧＴＰ、ＣＴＰおよびＵＴＰ）の各々の比率を含む。

一部の実施形態では、開始ヌクレオチドは、ｉｎｖｉｔｒｏ転写の開始前に反応混合物に添加される。開始ヌクレオチドは、ｍＲＮＡ転写産物の最初のヌクレオチド（＋１位置）に対応するヌクレオチドである。開始ヌクレオチドは、特にＲＮＡポリメラーゼの開始速度を向上させるために添加してもよい。開始ヌクレオチドは、ヌクレオシド一リン酸、ヌクレオシド二リン酸、ヌクレオシド三リン酸であり得る。開始ヌクレオチドは、モノヌクレオチド、ジヌクレオチドまたはトリヌクレオチドであり得る。ｍＲＮＡ転写産物の最初のヌクレオチドがＧである実施形態では、開始ヌクレオチドは、典型的にはＧＴＰまたはＧＭＰである。特定の実施形態では、開始ヌクレオチドは、キャップ類似体である。キャップ類似体は、Ｇ［５’］ｐｐｐ［５’］Ｇ、ｍ^７Ｇ［５’］ｐｐｐ［５’］Ｇ、ｍ_３ ^{２，２，７}Ｇ［５’］ｐｐｐ［５’］Ｇ、ｍ_２ ^{７，３’－Ｏ}Ｇ［５’］ｐｐｐ［５’］Ｇ（３’－ＡＲＣＡ）、ｍ_２ ^{７，２’－Ｏ}ＧｐｐｐＧ（２’－ＡＲＣＡ）、ｍ_２ ^{７，２’－Ｏ}ＧｐｐｓｐＧＤ１（β－Ｓ－ＡＲＣＡＤ１）およびｍ_２ ^{７，２’－Ｏ}ＧｐｐｓｐＧＤ２（β－Ｓ－ＡＲＣＡＤ２）から選択し得る。

特定の実施形態では、ＲＮＡ転写産物の最初のヌクレオチドはＧであり、開始ヌクレオチドはＧのキャップ類似体であり、対応するｒＮＴＰはＧＴＰである。このような実施形態では、キャップ類似体は、ＧＴＰと比較して過剰に反応混合物中に存在する。一部の実施形態では、キャップ類似体は、約１ｍＭ～約２０ｍＭ、約１ｍＭ～約１７．５ｍＭ、約１ｍＭ～約１５ｍＭ、約１ｍＭ～約１２．５ｍＭ、約１ｍＭ～約１０ｍＭ、約１ｍＭ～約７．５ｍＭ、約１ｍＭ～約５ｍＭまたは約１ｍＭ～約２．５ｍＭの範囲の開始濃度で添加される。

より典型的には、本発明の文脈において、キャップ類似体などのキャップ構造は、ｍＲＮＡ転写産物が合成された後にのみ、例えば合成後のプロセシング工程において、ｉｎｖｉｔｒｏ転写中に得られたｍＲＮＡ転写産物に付加される。典型的には、このような実施形態では、キャップ構造が付加される前に、ｍＲＮＡ転写産物が最初に（例えば、接線方向フロー濾過によって）精製される。

ＲＮＡポリメラーゼ反応緩衝液は、典型的には、塩／緩衝剤、例えば、トリス、ＨＥＰＥＳ、硫酸アンモニウム、重炭酸ナトリウム、クエン酸ナトリウム、酢酸ナトリウム、リン酸カリウム、リン酸ナトリウム、塩化ナトリウム、および塩化マグネシウムを含む。

反応混合物のｐＨは、約６～８．５、６．５～８．０、７．０～７．５であってもよく、一部の実施形態では、ｐＨは７．５である。

ＤＮＡ鋳型（例えば、上記の通りで、所望の量のＲＮＡを提供するのに十分な量／濃度）、ＲＮＡポリメラーゼ反応緩衝液、およびＲＮＡポリメラーゼを合わせて、反応混合物を形成する。反応混合物は、約３７℃～約５６℃で、３０分間～６時間、例えば、約６０分間～約９０分間インキュベートされる。一部の実施形態では、インキュベーションは、約３７℃～約４２℃で行われる。他の実施形態では、インキュベーションは、約４３℃～約５６℃、例えば、約５０℃～約５２℃で行われる。本明細書で実証されるように、ｉｎｖｉｔｒｏ転写反応において得られる正確に終結したｍＲＮＡ転写産物の収率は、目的のｍＲＮＡ転写産物をコードするＤＮＡ配列の末端に本明細書に記載の１つまたはそれ以上の終止シグナルを含み、ＤＮＡ配列を含む鋳型を用いて、約５０℃～約５２℃の温度で反応を行うことによって著しく増加することができる。

一部の実施形態では、適したＲＮＡポリメラーゼ反応緩衝液（最終反応混合物のｐＨは約７．５）中の約５ｍＭＮＴＰ、約０．０５ｍｇ／ｍＬＲＮＡポリメラーゼおよび約０．１ｍｇ／ｍｌＤＮＡ鋳型が、約３７℃～約４２℃で６０分間～９０分間インキュベートされる。他の実施形態では、適したＲＮＡポリメラーゼ反応緩衝液（最終反応混合物のｐＨは約７．５）中約５ｍＭＮＴＰ、約０．０５ｍｇ／ｍＬＲＮＡポリメラーゼ、および約０．１ｍｇ／ｍｌＤＮＡ鋳型が、約５０℃～約５２℃で、６０分間～９０分間インキュベートされる。

一部の実施形態では、反応混合物は、ＲＮＡポリメラーゼ特異的プロモーター、ＲＮＡポリメラーゼ、ＲＮａｓｅ阻害剤、ピロホスファターゼ、２９ｍＭＮＴＰ、１０ｍＭＤＴＴおよび反応緩衝液（１０倍の場合は８００ｍＭＨＥＰＥＳ、２０ｍＭスペルミジン、２５０ｍＭＭｇＣｌ_２、ｐＨ７．７）を有する二本鎖ＤＮＡ鋳型と、所望の反応量にするための十分な量（ＱＳ）のＲＮａｓｅ－非含有水を含み；次いで、この反応混合物を３７℃で６０分間インキュベートする。次に、ポリメラーゼ反応を、ＤＮａｓｅＩおよびＤＮａｓｅＩ緩衝液（１０倍の場合、１００ｍＭＴｒｉｓ－ＨＣｌ、５ｍＭＭｇＣｌ_２および２５ｍＭＣａＣｌ_２、ｐＨ７．６）の添加によってクエンチし、精製のための準備において二本鎖ＤＮＡ鋳型の消化を促進する。この実施形態は、１００グラムのｍＲＮＡを生成するのに十分であることが示されている。

一部の実施形態では、反応混合物は、１～１０ｍＭの範囲の濃度のＮＴＰ、０．０１～０．５ｍｇ／ｍｌの範囲の濃度のＤＮＡ鋳型、および０．０１～０．１ｍｇ／ｍｌの範囲の濃度のＲＮＡポリメラーゼを含み、例えば、反応混合物は、５ｍＭの濃度のＮＴＰ、０．１ｍｇ／ｍｌの濃度のＤＮＡ鋳型、および０．０５ｍｇ／ｍｌの濃度のＲＮＡポリメラーゼを含む。

ヌクレオチド
様々な自然発生のまたは修飾されたヌクレオシドは、本発明によるｍＲＮＡを産生するために使用し得る。一部の実施形態では、本発明によるｍＲＮＡ転写産物は、天然ヌクレオシド（すなわち、アデノシン、グアノシン、シチジン、ウリジン）を用いて合成される。他の実施形態では、本発明によるｍＲＮＡ転写産物は、天然ヌクレオシド（例えば、アデノシン、グアノシン、シチジン、ウリジン）および以下：ヌクレオシド類似体（例えば、２－アミノアデノシン、２－チオチミジン、イノシン、ピロロ－ピリミジン、３－メチルアデノシン、５－メチルシチジン、Ｃ－５プロピニル－シチジン、Ｃ－５プロピニルウリジン、２－アミノアデノシン、Ｃ５－ブロモウリジン、Ｃ５－フルオロウリジン、Ｃ５－ヨードウリジン、Ｃ５－プロピニル－ウリジン、Ｃ５－プロピニル－シチジン、Ｃ５－メチルシチジン、２－アミノアデノシン、７－デアザアデノシン、７－デアザグアノシン、８－オキシアデノシン、８－オクソグアノシン、Ｏ（６）－メチルグアニン、シュードウリジン（例えば、Ｎ－１－メチル－シュードウリジン）、２－チオウリジン、および２－チオシチジン）；化学修飾塩基；生物学的修飾塩基（例えば、メチル化塩基）；インターカレート塩基；修飾糖（例えば、２’－フルオロリボース、リボース、２’－デオキシリボース、アラビノースおよびヘキソース）；および／または修飾リン酸基（例えば、ホスホロチオエートおよび５’－Ｎ－ホスホラミダイト結合）の１つまたはそれ以上を用いて合成される。

一部の実施形態では、ｍＲＮＡは、１つまたはそれ以上の非標準ヌクレオチド残基を含む。非標準ヌクレオチド残基は、例えば、５－メチル－シチジン（「５ｍＣ」）、シュードウリジン（「ψＵ」）、および／または２－チオ－ウリジン（「２ｓＵ」）を含んでいてもよい。このような残基およびそれらのｍＲＮＡへの組み込みの議論については、例えば、米国特許第８，２７８，０３６号または国際公開第２０１１０１２３１６号を参照されたい。ｍＲＮＡは、Ｕ残基の２５％が２－チオ－ウリジンであり、Ｃ残基の２５％が５－メチルシチジンであるＲＮＡと定義されるＲＮＡであってよい。ＲＮＡの使用に関する教示は、米国特許出願公開第２０１２０１９５９３６号および国際公開第２０１１０１２３１６号に開示されており、これらの両方は、その全体が参照によって本明細書に組み入れられる。非標準ヌクレオチド残基の存在は、ｍＲＮＡを、同じ配列を有するが標準残基のみを含む対照ｍＲＮＡよりも安定に、および／または免疫原性を低くする可能性がある。さらなる実施形態では、ｍＲＮＡは、イソシトシン、シュードイソシトシン、５－ブロモウラシル、５－プロピニルウラシル、６－アミノプリン、２－アミノプリン、イノシン、ジアミノプリンおよび２－クロロ－６－アミノプリンシトシン、ならびにこれらの修飾の組合せ、および他の核酸塩基修飾から選択される１つまたはそれ以上の非標準ヌクレオチド残基を含み得る。いくつかの実施形態は、フラノース環または核酸塩基に対する追加の修飾をさらに含んでもよい。追加の修飾は、例えば、糖修飾または置換（例えば、２’－Ｏ－アルキル修飾、ロックド核酸（ＬＮＡ）のうちの１つまたはそれ以上）を含んでもよい。一部の実施形態では、ＲＮＡは、追加のポリヌクレオチドおよび／またはペプチドポリヌクレオチド（ＰＮＡ）と複合体化またはハイブリッド化してもよい。糖修飾が２’－Ｏ－アルキル修飾である一部の実施形態では、そのような修飾は、２’－デオキシ－２’－フルオロ修飾、２’－Ｏ－メチル修飾、２’－Ｏ－メトキシエチル修飾および２’－デオキシ修飾を含み得るが、これらに限定されない。一部の実施形態では、これらの修飾のいずれかが、ヌクレオチドの０～１００％、例えば、構成ヌクレオチドの０％、１％、１０％、２５％、５０％、７５％、８５％、９０％、９５％、または１００％を超えて、個々にまたは組合せで存在し得る。

細胞における最適化ヌクレオチド配列のトランスフェクションおよびスクリーニング
一部の実施形態では、本発明の方法は、合成された最適化ヌクレオチド配列を、ｉｎｖｉｖｏまたはｉｎｖｉｔｒｏのいずれかで細胞にトランスフェクトすることをさらに含む。一部の実施形態では、合成された最適化されたヌクレオチド配列によってコードされるタンパク質の発現レベルが決定される。一部の実施形態では、方法は、参照ヌクレオチド配列および本発明の方法にしたがって生成された少なくとも１つの合成された最適化ヌクレオチド配列を合成すること、および各ヌクレオチド配列を別々の細胞または生物に接触させることをさらに含む。典型的な実施形態では、少なくとも１つの合成された最適化ヌクレオチド配列と接触させた細胞または生物は、合成された参照ヌクレオチド配列と接触させた細胞または生物によって産生された参照ヌクレオチド配列によってコードされたタンパク質の収量と比較して、最適化ヌクレオチド配列によってコードされたタンパク質の収量を増加させる。参照ヌクレオチド配列は：（ａ）アミノ酸配列をコードする自然発生のヌクレオチド配列；または（ｂ）本発明の方法以外の方法によって生成されたアミノ酸配列をコードするヌクレオチド配列であり得る。

本発明の方法にしたがって生成された、合成された最適化ヌクレオチド配列が、細胞にトランスフェクトされた際にコードされたタンパク質の発現を増加させることを確認することが望ましい場合がある。前記ヌクレオチド配列のコドン最適化が、コードされたタンパク質の発現および産生を増加させることを実験的に検証するには、ウェスタンブロッティングなどの当技術分野で周知の方法が適している。さらに、本発明の方法によって生成される複数の合成された最適化ヌクレオチド配列は、最も高いタンパク質収量を生成する最適化ヌクレオチド配列を同定するためにスクリーニングし得る。一部の実施形態では、合成された最適化ヌクレオチド配列によってコードされるタンパク質の発現レベルは、少なくとも２倍、例えば、少なくとも３倍または４倍上昇する。

一部の実施形態では、合成された最適化ヌクレオチド配列によってコードされるタンパク質の機能的活性を決定する。最適化ヌクレオチド配列によってコードされるタンパク質の機能的活性は、一定範囲の確立された方法を使用して決定することができる。これらの方法は、目的のコードされたタンパク質の特性によって異なり得る。コドン最適化の文脈において、ｉｎｖｉｔｒｏまたはｉｎｖｉｖｏで合成された最適化ヌクレオチド配列によってコードされるタンパク質の機能的活性を実験的に検証し、前記コードされるタンパク質の発現が所望の機能的効果をもたらすことを確認することが重要であり得る。例えば、酵素活性アッセイは、細胞における最適化ヌクレオチド配列によってコードされる酵素の機能的酵素活性を決定するために使用し得る。例えば、Ｕｓｓｉｎｇ上皮電圧クランプアッセイは、本発明の方法で生成されるコドン最適化ｈＣＦＴＲ配列をコードするｍＲＮＡから発現されるヒト嚢胞性線維症膜貫通コンダクタンス制御因子（ｈＣＦＴＲ）タンパク質の活性を評価するために使用することができる。このアッセイは、ｈＣＦＴＲｍＲＮＡをトランスフェクトした上皮細胞の塩化物輸送機能をモニターする。

治療的応用
本発明は、治療における使用のために、本発明の方法にしたがって生成された、合成された最適化ヌクレオチド配列を提供する。

ｍＲＮＡ治療の分野において、コドン最適化は、標的細胞においてｍＲＮＡによってコードされる機能的タンパク質の発現を増加させ、それによって嚢胞性線維症（ＣＦ）、原発性繊毛運動障害（ＰＣＤ）、肺動脈性高血圧（ＰＡＨ）、および特発性肺線維症（ＩＰＦ）などの種々の障害におけるタンパク質欠損を改善するために使用し得る。

本発明の特定の態様では、最適化ヌクレオチド配列は、ヒト嚢胞性線維症膜貫通コンダクタンス制御因子（ｈＣＦＴＲ）タンパク質をコードする：
ＭＱＲＳＰＬＥＫＡＳＶＶＳＫＬＦＦＳＷＴＲＰＩＬＲＫＧＹＲＱＲＬＥＬＳＤＩＹＱＩＰＳＶＤＳＡＤＮＬＳＥＫＬＥＲＥＷＤＲＥＬＡＳＫＫＮＰＫＬＩＮＡＬＲＲＣＦＦＷＲＦＭＦＹＧＩＦＬＹＬＧＥＶＴＫＡＶＱＰＬＬＬＧＲＩＩＡＳＹＤＰＤＮＫＥＥＲＳＩＡＩＹＬＧＩＧＬＣＬＬＦＩＶＲＴＬＬＬＨＰＡＩＦＧＬＨＨＩＧＭＱＭＲＩＡＭＦＳＬＩＹＫＫＴＬＫＬＳＳＲＶＬＤＫＩＳＩＧＱＬＶＳＬＬＳＮＮＬＮＫＦＤＥＧＬＡＬＡＨＦＶＷＩＡＰＬＱＶＡＬＬＭＧＬＩＷＥＬＬＱＡＳＡＦＣＧＬＧＦＬＩＶＬＡＬＦＱＡＧＬＧＲＭＭＭＫＹＲＤＱＲＡＧＫＩＳＥＲＬＶＩＴＳＥＭＩＥＮＩＱＳＶＫＡＹＣＷＥＥＡＭＥＫＭＩＥＮＬＲＱＴＥＬＫＬＴＲＫＡＡＹＶＲＹＦＮＳＳＡＦＦＦＳＧＦＦＶＶＦＬＳＶＬＰＹＡＬＩＫＧＩＩＬＲＫＩＦＴＴＩＳＦＣＩＶＬＲＭＡＶＴＲＱＦＰＷＡＶＱＴＷＹＤＳＬＧＡＩＮＫＩＱＤＦＬＱＫＱＥＹＫＴＬＥＹＮＬＴＴＴＥＶＶＭＥＮＶＴＡＦＷＥＥＧＦＧＥＬＦＥＫＡＫＱＮＮＮＮＲＫＴＳＮＧＤＤＳＬＦＦＳＮＦＳＬＬＧＴＰＶＬＫＤＩＮＦＫＩＥＲＧＱＬＬＡＶＡＧＳＴＧＡＧＫＴＳＬＬＭＶＩＭＧＥＬＥＰＳＥＧＫＩＫＨＳＧＲＩＳＦＣＳＱＦＳＷＩＭＰＧＴＩＫＥＮＩＩＦＧＶＳＹＤＥＹＲＹＲＳＶＩＫＡＣＱＬＥＥＤＩＳＫＦＡＥＫＤＮＩＶＬＧＥＧＧＩＴＬＳＧＧＱＲＡＲＩＳＬＡＲＡＶＹＫＤＡＤＬＹＬＬＤＳＰＦＧＹＬＤＶＬＴＥＫＥＩＦＥＳＣＶＣＫＬＭＡＮＫＴＲＩＬＶＴＳＫＭＥＨＬＫＫＡＤＫＩＬＩＬＨＥＧＳＳＹＦＹＧＴＦＳＥＬＱＮＬＱＰＤＦＳＳＫＬＭＧＣＤＳＦＤＱＦＳＡＥＲＲＮＳＩＬＴＥＴＬＨＲＦＳＬＥＧＤＡＰＶＳＷＴＥＴＫＫＱＳＦＫＱＴＧＥＦＧＥＫＲＫＮＳＩＬＮＰＩＮＳＩＲＫＦＳＩＶＱＫＴＰＬＱＭＮＧＩＥＥＤＳＤＥＰＬＥＲＲＬＳＬＶＰＤＳＥＱＧＥＡＩＬＰＲＩＳＶＩＳＴＧＰＴＬＱＡＲＲＲＱＳＶＬＮＬＭＴＨＳＶＮＱＧＱＮＩＨＲＫＴＴＡＳＴＲＫＶＳＬＡＰＱＡＮＬＴＥＬＤＩＹＳＲＲＬＳＱＥＴＧＬＥＩＳＥＥＩＮＥＥＤＬＫＥＣＦＦＤＤＭＥＳＩＰＡＶＴＴＷＮＴＹＬＲＹＩＴＶＨＫＳＬＩＦＶＬＩＷＣＬＶＩＦＬＡＥＶＡＡＳＬＶＶＬＷＬＬＧＮＴＰＬＱＤＫＧＮＳＴＨＳＲＮＮＳＹＡＶＩＩＴＳＴＳＳＹＹＶＦＹＩＹＶＧＶＡＤＴＬＬＡＭＧＦＦＲＧＬＰＬＶＨＴＬＩＴＶＳＫＩＬＨＨＫＭＬＨＳＶＬＱＡＰＭＳＴＬＮＴＬＫＡＧＧＩＬＮＲＦＳＫＤＩＡＩＬＤＤＬＬＰＬＴＩＦＤＦＩＱＬＬＬＩＶＩＧＡＩＡＶＶＡＶＬＱＰＹＩＦＶＡＴＶＰＶＩＶＡＦＩＭＬＲＡＹＦＬＱＴＳＱＱＬＫＱＬＥＳＥＧＲＳＰＩＦＴＨＬＶＴＳＬＫＧＬＷＴＬＲＡＦＧＲＱＰＹＦＥＴＬＦＨＫＡＬＮＬＨＴＡＮＷＦＬＹＬＳＴＬＲＷＦＱＭＲＩＥＭＩＦＶＩＦＦＩＡＶＴＦＩＳＩＬＴＴＧＥＧＥＧＲＶＧＩＩＬＴＬＡＭＮＩＭＳＴＬＱＷＡＶＮＳＳＩＤＶＤＳＬＭＲＳＶＳＲＶＦＫＦＩＤＭＰＴＥＧＫＰＴＫＳＴＫＰＹＫＮＧＱＬＳＫＶＭＩＩＥＮＳＨＶＫＫＤＤＩＷＰＳＧＧＱＭＴＶＫＤＬＴＡＫＹＴＥＧＧＮＡＩＬＥＮＩＳＦＳＩＳＰＧＱＲＶＧＬＬＧＲＴＧＳＧＫＳＴＬＬＳＡＦＬＲＬＬＮＴＥＧＥＩＱＩＤＧＶＳＷＤＳＩＴＬＱＱＷＲＫＡＦＧＶＩＰＱＫＶＦＩＦＳＧＴＦＲＫＮＬＤＰＹＥＱＷＳＤＱＥＩＷＫＶＡＤＥＶＧＬＲＳＶＩＥＱＦＰＧＫＬＤＦＶＬＶＤＧＧＣＶＬＳＨＧＨＫＱＬＭＣＬＡＲＳＶＬＳＫＡＫＩＬＬＬＤＥＰＳＡＨＬＤＰＶＴＹＱＩＩＲＲＴＬＫＱＡＦＡＤＣＴＶＩＬＣＥＨＲＩＥＡＭＬＥＣＱＱＦＬＶＩＥＥＮＫＶＲＱＹＤＳＩＱＫＬＬＮＥＲＳＬＦＲＱＡＩＳＰＳＤＲＶＫＬＦＰＨＲＮＳＳＫＣＫＳＫＰＱＩＡＡＬＫＥＥＴＥＥＥＶＱＤＴＲＬ（配列番号１５）

特定の一実施形態では、本発明によるｈＣＦＴＲタンパク質をコードする最適化ヌクレオチド配列は、配列番号２６と少なくとも８５％、８８％、９０％、９５％、９６％、９７％、９８％、または９９％の同一性を共有し、配列番号１５のアミノ酸配列を有するＣＦＴＲタンパク質をコードする。特定の実施形態では、本発明によるｈＣＦＴＲタンパク質をコードする最適化ヌクレオチド配列は、配列番号２６である。特定の一実施形態では、本発明によるｈＣＦＴＲタンパク質をコードする最適化ヌクレオチド配列は、配列番号２７と少なくとも８５％、８８％、９０％、９５％、９６％、９７％、９８％または９９％同一性を共有し、配列番号１５のアミノ酸配列を有するｈＣＦＴＲタンパク質をコードする。特定の実施形態では、本発明によるｈＣＦＴＲタンパク質をコードする最適化ヌクレオチド配列は配列番号２７である。特定の一実施形態では、本発明によるｈＣＦＴＲタンパク質をコードする最適化ヌクレオチド配列は配列番号２８と少なくとも８５％、８８％、９０％、９５％、９６％、９７％、９８％、または９９％同一性を共有し、配列番号１５のアミノ酸配列を有するｈＣＦＴＲタンパク質をコードする。特定の実施形態では、本発明によるｈＣＦＴＲタンパク質をコードする最適化ヌクレオチド配列は、配列番号２８である。

特定の態様では、本発明は、本発明によるｈＣＦＴＲタンパク質をコードする最適化ヌクレオチド配列を含む核酸を提供する。特定の実施形態では、本発明は、本発明によるｈＣＦＴＲタンパク質をコードする最適化ヌクレオチド配列を含むｍＲＮＡを提供する。一部の実施形態では、本発明によるｈＣＦＴＲタンパク質をコードする最適化ヌクレオチド配列を含むｍＲＮＡはまた、５’および３’ＵＴＲ配列を含む。例示的な５’および３’ＵＴＲ配列は、以下に示される：
例示的５’ＵＴＲ配列
ＧＧＡＣＡＧＡＵＣＧＣＣＵＧＧＡＧＡＣＧＣＣＡＵＣＣＡＣＧＣＵＧＵＵＵＵＧＡＣＣＵＣＣＡＵＡＧＡＡＧＡＣＡＣＣＧＧＧＡＣＣＧＡＵＣＣＡＧＣＣＵＣＣＧＣＧＧＣＣＧＧＧＡＡＣＧＧＵＧＣＡＵＵＧＧＡＡＣＧＣＧＧＡＵＵＣＣＣＣＧＵＧＣＣＡＡＧＡＧＵＧＡＣＵＣＡＣＣＧＵＣＣＵＵＧＡＣＡＣＧ（配列番号１６）
例示的３’ＵＴＲ配列
ＣＧＧＧＵＧＧＣＡＵＣＣＣＵＧＵＧＡＣＣＣＣＵＣＣＣＣＡＧＵＧＣＣＵＣＵＣＣＵＧＧＣＣＣＵＧＧＡＡＧＵＵＧＣＣＡＣＵＣＣＡＧＵＧＣＣＣＡＣＣＡＧＣＣＵＵＧＵＣＣＵＡＡＵＡＡＡＡＵＵＡＡＧＵＵＧＣＡＵＣＡＡＧＣＵ（配列番号１７）
または
ＧＧＧＵＧＧＣＡＵＣＣＣＵＧＵＧＡＣＣＣＣＵＣＣＣＣＡＧＵＧＣＣＵＣＵＣＣＵＧＧＣＣＣＵＧＧＡＡＧＵＵＧＣＣＡＣＵＣＣＡＧＵＧＣＣＣＡＣＣＡＧＣＣＵＵＧＵＣＣＵＡＡＵＡＡＡＡＵＵＡＡＧＵＵＧＣＡＵＣＡＡＡＧＣＵ（配列番号１８）

本発明の方法にしたがって生成された、合成された最適化ヌクレオチド配列は、ｍＲＮＡワクチンにおける使用も見出されている。予防的ｍＲＮＡワクチンの文脈において、コドン最適化は、最適な抗原活性のために対象に送達されるｍＲＮＡによってコードされる組換え抗原の発現を最大化し、それによって病原体に対する防御免疫を生成するために使用し得る。

同様に、癌免疫療法の分野において、コドン最適化は、対象に送達されるｍＲＮＡによってコードされる組換え腫瘍ネオ抗原の発現を最大化し、それによってネオ抗原を発現する異常な腫瘍細胞に対する適応免疫応答を生成するために使用し得る。

バイオテクノロジー応用
バイオテクノロジーの分野において、特に組換えタンパク質の製造の文脈において、コドン最適化は、細菌、酵母、昆虫、植物、または哺乳類細胞などの宿主細胞内で目的のタンパク質の産生を増加させるために使用し得る。

例えば、本発明の方法は、大腸菌で産生される組換えインスリンタンパク質のタンパク質発現収量を最適化するために使用し得る。組換えタンパク質の発現はまた、例えば、宿主細胞内、またはタンパク質発現に適した無細胞タンパク質抽出物中で生じ得る。コドン最適化はまた、バイオテクノロジー、製造、診断、および／または研究における使用に適した、工業的に有用な酵素の産生を増加させるために使用し得る。

以下の実施例は、例示目的のためにのみ含まれ、本発明の範囲を限定することを意図するものではない。

実施例１．最適化ヌクレオチド配列の生成
本実施例は、ｉｎｖｉｔｒｏ合成中に完全長転写産物をもたらすように最適化され、コードされるタンパク質の高レベルの発現をもたらす、本発明による最適化ヌクレオチド配列をもたらすプロセスを例示している。

このプロセスは、図１のコドン最適化方法を、図１０に例示する一連のフィルタリング工程と組み合わせ、最適化ヌクレオチド配列のリストを生成する。具体的には、図１に示されるように、プロセスは、関心のあるアミノ酸配列と、所与の生物における各コドンの頻度を反映する第１のコドン使用表（すなわち、本実施例の文脈におけるヒトのコドン使用優先度）とを受け取る。次いでこのプロセスは、閾値頻度（１０％）未満であるコドンの使用頻度に関連している場合、コドンを第１のコドン使用表から除去する。第１の工程で除去されなかったコドンのコドン使用頻度を正規化し、正規化コドン使用表を生成する。

コドン使用表の正規化は除去された各コドンについての使用頻度値を再分配することを伴い；特定の除去したコドンの使用頻度を、除去されたコドンがアミノ酸を共有している他のコドンの使用頻度に加算する。本実施例では、再分配は、表から除去されなかったコドンの使用頻度の大きさに比例し、図３および図４Ｂに関連して説明したような例示的な方法にしたがって実行し得る。プロセスは、正規化コドン使用表を使用して、最適化ヌクレオチド配列のリストを生成する。最適化ヌクレオチド配列の各々は、目的のアミノ酸配列をコードする。

図１０に例示されるように、最適化ヌクレオチド配列のリストは、モチーフスクリーニングフィルタ、グアニン－シトシン（ＧＣ）含量分析フィルタ、およびコドン適応指標（ＣＡＩ）分析フィルタをこの順に適用してさらに処理され、最適化ヌクレオチド配列の更新リストを生成する。図６に例示されるモチーフスクリーニングフィルタは、転写または翻訳を阻害し得る配列を除去するために使用される。ＧＣ含量分析フィルタは、図１１に例示されるプロセスを行う。

以下の実施例に示すように、このプロセスにより、目的のアミノ酸配列をコードする最適化されたヌクレオチド配列が得られる。ヌクレオチド配列は、ｉｎｖｉｔｒｏ合成中に完全長転写産物をもたらし、コードされたタンパク質の高レベルの発現をもたらす（実施例２および実施例３を参照）。実施例４に示すように、発現されたタンパク質は完全に機能的である。

実施例２．高いＣＡＩスコアを有するヌクレオチド配列を生成するためのコドン最適化はタンパク質収量を改善する
本実施例は、約０．８以上のコドン適応指標（ＣＡＩ）を有するコドン最適化タンパク質コード配列が、０．８未満のＣＡＩを有するコドン最適化タンパク質コード配列より優れていることを実証するものである。

コドン最適化はヒトエリスロポエチン（ｈＥＰＯ）の野生型アミノ酸配列において行った。ｈＥＰＯは、細胞の低酸素レベル（低酸素）に反応して腎臓から分泌されるタンパク質ホルモンである。ｈＥＰＯは、赤血球の産生である赤血球形成に必須である。組換えｈＥＰＯは、慢性腎臓病を有する対象または癌化学療法を受けている対象に生じ得る、赤血球またはヘモグロビン数の低下を特徴とする状態である貧血の治療に一般的に使用される。

異なるコドン最適化アルゴリズムを使用して、ｈＥＰＯをコードする合計５つの新しいコドン最適化ヌクレオチド配列（＃１～＃５）を生成した。ヌクレオチド配列＃４および＃５は、実施例１に示されるように、本発明の方法にしたがって生成した。参照として、コドン最適化ｈＥＰＯコード配列を有するヌクレオチド配列が、ｉｎｖｉｔｒｏおよびｉｎｖｉｖｏの両方で以前に実験的に検証されたものとして提供された。参照ヌクレオチド配列（配列番号１９）は、野生型ヌクレオチド配列およびｈＥＰＯタンパク質をコードする他のコドン最適化ヌクレオチド配列と比較して、優れたタンパク質収量を提供することが見出されていた。ＣＡＩ、ＧＣ含量、コドン頻度分布（ＣＦＤ）、ならびに負のＣＩＳエレメントおよび負の反復エレメントの存在に関する５つのヌクレオチド配列のそれぞれの特徴を表１に要約する。

各コドン最適化配列からのタンパク質収量を試験するために、ｈＥＰＯタンパク質をコードする６つのヌクレオチド配列の１つを、同一の３’および５’非翻訳配列（３’ＵＴＲ）に隣接して含み、ＲＮＡポリメラーゼプロモーターが先行する発現カセットを含む６つの核酸ベクターを調製した。これらの核酸ベクターは、６つのコドン最適化ヌクレオチド配列（参照およびヌクレオチド配列＃１～＃５）を含むｍＲＮＡの６バッチを提供するためのｉｎｖｉｔｒｏ転写反応の鋳型として機能した。キャッピングおよびテーリングは別々に行った。キャッピングおよびテーリングされたｍＲＮＡの各々を、細胞株（ＨＥＫ２９３）に別々にトランスフェクトした。コードされるｈＥＰＯタンパク質の発現レベルは、ＥＬＩＳＡによって評価した。この実験の結果を、図１２に要約する。

図１２から分かるように、最高レベルの発現は、ヌクレオチド配列＃３（配列番号２２）で観察され、これは、実験的に検証された参照ヌクレオチド配列のほぼ２倍のｈＥＰＯタンパク質を生成した。より高いタンパク質収量への傾向は、それらのＣＡＩに依存する配列について観察できた（表１参照）。最も高いタンパク質収量を持つヌクレオチド配列＃３は、最も高いＣＡＩを有した。２番目および３番目に高い収量のヌクレオチド配列＃４（配列番号２３）および＃５（配列番号２４）は、２番目および３番目に高いＣＡＩを有していた。最も低い性能のヌクレオチド配列＃１（配列番号２０）および＃２（配列番号２１）はまた、最も低いＣＡＩを有していた。ちなみに、これらは、最も低いＧＣ含量を有するヌクレオチド配列でもあった。しかし、ＧＣ含量だけでは決定的ではなかった。参照ヌクレオチド配列は、試験したすべてのコドン最適化配列の中で最も高いＧＣ含量（６１％）を有していたが、すべてＧＣ含量の低いヌクレオチド配列＃３、＃４および＃５ほどには性能が高くなかった。注目すべきは、最も低い性能のヌクレオチド配列＃１および＃２が、より高いＣＦＤも有していたことである。

まとめると、本実施例のデータは、約０．８以上のＣＡＩを達成するための治療上関連するヌクレオチド配列のコドン最適化が、例えば、可能な限り高いＧＣ含量を有するヌクレオチド配列を達成するためのコドン最適化よりも大きなタンパク質収量をもたらすことを実証している。

実施例３．ＣＡＩを増加させるためのＣＦＴＲｍＲＮＡ配列のコドン最適化は、より高いタンパク質発現をもたらす
本実施例は、約０．８以上のコドン適応指標（ＣＡＩ）を有するコドン最適化タンパク質コード配列が、０．８未満のＣＡＩを有するコドン最適化タンパク質コード配列より優れていることを確認するものである。

実施例１で試験したｈＥＰＯタンパク質は、そのアミノ酸配列が４９５ヌクレオチドの配列によってコードされる比較的短いポリペプチドである。実施例１の知見が、より大きなタンパク質をコードするはるかに長いヌクレオチド配列にも適用されるかどうかを決定するために、コドン最適化をヒト嚢胞性線維症膜貫通コンダクタンス制御因子（ｈＣＦＴＲ）に対して行った。ｈＣＦＴＲは４４４０ヌクレオチドの配列によってコードされ、すなわちその配列はｈＥＰＯのコード配列より約１０倍長い。

ｈＣＦＴＲタンパク質をコードする遺伝子における変異は、コーカサス人口における最も一般的な遺伝的疾患である嚢胞性線維症（ＣＦ）を引き起こす。これは、上皮を通過する塩化物およびナトリウムの異常な輸送によって特徴付けられ、これは最も決定的には肺、および膵臓、肝臓および腸に影響与える濃い粘稠性の分泌をもたらす。コドン最適化ｈＣＦＴＲコード配列をコードするｍＲＮＡは、ＣＦを治療するための新しい治療法として開発されている。

実施例１に示されるように、本発明の方法にしたがって、ネイティブｈＣＦＴＲアミノ酸配列に対してコドン最適化を行った。ｈＣＦＴＲ＃１（配列番号２６）、ｈＣＦＴＲ＃２（配列番号２７）およびｈＣＦＴＲ＃３（配列番号２８）と指定した３つの配列を、さらなる分析のために選択した。参照として、異なるアルゴリズムでコドン最適化されたｈＣＦＴＲコード配列を有するヌクレオチド配列を提供した（配列番号２５）。この参照ヌクレオチド配列（配列番号２５）は、以前にｉｎｖｉｔｒｏおよびｉｎｖｉｖｏの両方で実験的に検証されたものであった。参照ヌクレオチド配列は、ｈＣＦＴＲタンパク質をコードする他の先に試験したコドン最適化ヌクレオチド配列と比較して、優れたタンパク質収量を提供することが見出されていた。基準塩基配列と比較すると、コドン最適化ｈＣＦＴＲ＃２およびｈＣＦＴＲ＃３配列のＣＡＩおよびＧＣ含量％は、顕著に増加した。さらに、コドン頻度分布（ＣＦＤ）％は、参照塩基配列の６％に対して０％であり、これは、翻訳効率に有害な希少コドンクラスターの除去に成功していることを示している。負の調節モチーフを除去するための追加フィルタリングにより、ｈＣＦＴＲ＃２およびｈＣＦＴＲ＃３における負のシス調節（ＣＩＳ）エレメントの数が大幅に減少した（表２参照）。

各コドン最適化配列からのタンパク質収量を試験するために、ｈＣＦＴＲタンパク質をコードする４つのヌクレオチド配列の１つを、同一の３’および５’非翻訳配列（３’ ａｎｄ５’ ＵＴＲ）に隣接して含み、ＲＮＡポリメラーゼプロモーターが先行する発現カセットをそれぞれ含む４つの核酸ベクターを調製した。これらの核酸ベクターは、４つのコドン最適化ヌクレオチド配列（参照およびｈＣＦＴＲ＃１～＃３）を含むｍＲＮＡの４つのバッチを提供するためのｉｎｖｉｔｒｏ転写反応の鋳型として機能した。キャッピングおよびテーリングは別々に実施した。

キャッピングおよびテーリングされたｍＲＮＡのそれぞれを、細胞株（ＨＥＫ２９３）に別々にトランスフェクトした。トランスフェクションの２４時間後および４８時間後に細胞溶解物を収集した。タンパク質試料を抽出し、ＳＤＳ－ＰＡＧＥ用に処理した。コードされたｈＣＦＴＲタンパク質の発現レベルは、ウェスタンブロットによって評価した。タンパク質バンドは、ＬＩ－ＣＯＲシステムを使用して現像および定量化した。タンパク質収量は、相対蛍光単位（ＲＦＵ）として表した。この実験の結果は、図１３に要約されている。ＣＡＩが共に０．８９であるコドン最適化ヌクレオチド配列ｈＣＦＴＲ＃２およびｈＣＦＴＲ＃３は、ＣＡＩが共に０．７である参照ヌクレオチド配列およびｈＣＦＴＲ＃１と比較して、コードされているｈＣＦＴＲタンパク質の著しく高い収量がもたらされた。この効果は２４時間の時点でより顕著であり（図１３Ｂ参照）、これはトランスフェクション後のＨＥＫ２９３細胞におけるｍＲＮＡの比較的急速な分解によるものと考えられる。

本実施例のデータは、約０．８以上のＣＡＩを達成するための治療上関連するヌクレオチド配列（ｈＣＦＴＲ）のコドン最適化が、特に、そのＣＦＤおよびそのＧＣ含量の最適化、ならびに核酸配列からの任意の負のＣＩＳエレメントの除去とも組み合わせた場合に、より大きなタンパク質収量をもたらすことを実証している。本実施例のデータは、本発明の方法によるｈＣＦＴＲｍＲＮＡのコドン最適化が、異なるアルゴリズムでコドン最適化されたヌクレオチド配列と比較して、ヒト細胞において非常に高いｈＣＦＴＲタンパク質収率をもたらすことも確認した。

実施例４．ＣＦＴＲヌクレオチド配列のコドン最適化は、細胞における機能的活性の増加をもたらす
本実施例は、本発明の方法によるｈＣＦＴＲヌクレオチド配列のコドン最適化が、ヒト細胞におけるｈＣＦＴＲ機能的活性に影響を与えないことを示すものである。

ｈＣＦＴＲｍＲＮＡの投与は、ＣＦ患者の気道上皮細胞によるその取り込みをもたらし、次いで標的細胞の細胞質への内在化をもたらすことを意図している。細胞への取り込みが達成されると、ｈＣＦＴＲｍＲＮＡは通常のｈＣＦＴＲタンパク質に翻訳され、これは次いで細胞の内在性分泌経路で処理されて、ｈＣＦＴＲタンパク質の頂膜の細胞内への局在がもたらされる。このアプローチによって、ｈＣＦＴＲｍＲＮＡの投与により、気道上皮において機能的なｈＣＦＴＲタンパク質が産生されることにより、ＣＦ患者の肺における機能的ＣＦＴＲの欠乏が改善される。ｈＣＦＴＲｍＲＮＡのヌクレオチド配列のコドン最適化により、機能的ｈＣＦＴＲタンパク質の発現量を増加させることができ、これにより、ＣＦ患者の標的気道上皮細胞において機能的ｈＣＦＴＲタンパク質をより多く発現させることができると考えられる。

コドン最適化は、そのプロセスが、タンパク質の翻訳を制御し、新生ポリペプチド鎖の適切なフォールディングを確保するために重要なヌクレオチド配列にコードされた情報を除去する可能性があるため、コードされたタンパク質の機能的活性の低下およびそれに伴う有効性の損失という犠牲を伴うことが報告されている（Ｍａｕｒｏ＆Ｃｈａｐｐｅｌｌ，ＴｒｅｎｄｓＭｏｌＭｅｄ．２０１４年；２０（１１）：６０４－１３）。実施例１に示したようにコドン最適化方法を用いて生成したコドン最適化配列から発現したｈＣＦＴＲタンパク質の機能的活性を試験するために、実施例２で産生したｈＣＦＴＲｍＲＮＡをＵｓｓｉｎｇチャンバーアッセイで試験した。このアッセイは、上皮電圧クランプを用い、前記ｍＲＮＡをトランスフェクトした上皮細胞の塩化物輸送機能をモニターすることにより、ｈＣＦＴＲｍＲＮＡから発現されるタンパク質の機能的活性を評価する。具体的には、対照ｈＣＦＴＲコード配列（配列番号２５）またはｈＣＦＴＲ＃１（配列番号２６）、ｈＣＦＴＲ＃２（配列番号２７）またはｈＣＦＴＲ＃３（配列番号２８）のコード配列を有するｍＲＮＡから発現するｈＣＦＴＲタンパク質の機能的活性を、Ｆｉｓｃｈｅｒラット甲状腺（ＦＲＴ）上皮細胞において測定した。ＦＲＴ上皮細胞は、ヒト気道上皮細胞機能を研究するためのモデルとして一般的に使用されている。ＦＲＴ上皮細胞は、Ｓｎａｐｗｅｌｌ（商標）フィルタインサート上で単層培養され、４つのｈＣＦＴＲｍＲＮＡをトランスフェクトした。４つのｈＣＦＴＲｍＲＮＡは、実施例２に記載されるように産生した。対照ｍＲＮＡは、以前にこのアッセイで検証されており、参照標準として使用された。

ｈＣＦＴＲｍＲＮＡから産生された正しく翻訳され局在化したｈＣＦＴＲタンパク質は、ＣＦＴＲアゴニスト（フォルスコリンおよびＶＸ－７７０［Ｋａｌｙｄｅｃｏ（登録商標）］）を適用した際のＵｓｓｉｎｇ上皮電圧クランプ装置内で短絡電流（ＩＳＣ）出力を増大させる。ＣＦＴＲアンタゴニストＣＦＴＲｉｎｈ－１７２の適用により、ｈＣＦＴＲはブロック状態になる。このアッセイにおけるＩＳＣ電流極性協定は、頂端から側底部へのナトリウム電流および側底部から頂端への塩化物電流を負の値として記録するため、試験ｈＣＦＴＲｍＲＮＡのトランスフェクションによって高い負の値が発生すれば、コードされたｈＣＦＴＲタンパク質が機能的であると結論付けることができる（図１４Ａ）。さらに、等量のｍＲＮＡをトランスフェクトすることによって、ｍＲＮＡがより高い収量のｈＣＦＴＲタンパク質を生成するかどうかを評価することができ、これはタンパク質の収量と活性には相関があるためである。ｈＣＦＴＲ＃１コード配列を有するｍＲＮＡをＦＲＴ上皮細胞にトランスフェクトすると、対照ｈＣＦＴＲコード配列を有するｍＲＮＡをトランスフェクトした場合と同等の活性がもたらされた（図１４Ｂ）。本発明の方法によって生成したｈＣＦＴＲをコードするヌクレオチド配列を有するｍＲＮＡは、著しい活性の上昇をもたらした。実施例２で観察された、より高いタンパク質収量と一致して、ｈＣＦＴＲ＃２をコードするｍＲＮＡから産生されたｈＣＦＴＲタンパク質は、対照ｍＲＮＡに対して２倍以上高い活性をもたらし、ｈＣＦＴＲ＃３をコードするｍＲＮＡから生成されたｈＣＦＴＲタンパク質は、対照ｍＲＮＡに対して３倍高い活性をもたらした。これは、実施例２で観察されたｈＣＦＴＲ＃２およびｈＣＦＴＲ＃３から得られる、より高いタンパク質収量が、より高い機能的活性と直接相関することを確認し、本発明の方法によるコドン最適化が、コードされたタンパク質の機能的活性に負の影響を与えないことを実証している。

要約すると、本発明の方法によるコドン最適化は、ヒト細胞におけるコードされたタンパク質のより高い発現をもたらし、発現されたタンパク質は、ヒト治療に高度に関連するモデルシステムにおいて完全な機能的活性を提供する。

実施例５．ＣＡＩを上昇させるためのＤＮＡＩ１ｍＲＮＡ配列のコドン最適化は、より高いタンパク質発現をもたらす
本実施例のデータは、約０．８以上のＣＡＩを達成するための、さらなる治療上関連するヌクレオチド配列（ＤＮＡＩ１）のコドン最適化が、特にそのＣＦＤおよびＧＣ含量の最適化ならびに核酸配列からの任意の負のＣＩＳエレメントの除去とも組み合わせた場合に、細胞におけるより大きなタンパク質収量をもたらすことを実証している。本実施例のデータはまた、ＣＡＩ値が、本発明の方法にしたがって生成されたコドン最適化ｍＲＮＡについてのタンパク質発現収量と正に相関することも確認している。

原発性毛様体運動障害（ＰＣＤ）は、気道、生殖器系、および他の器官および組織の裏打ちにみられる異常な繊毛および鞭毛によって特徴付けられる自己劣性障害である。症状は早ければ出生時に現れ、呼吸障害を伴い、罹患個人は幼児期から開始する頻繁な呼吸器感染症を発症する。また、ＰＣＤを有する人々は、年間を通して鼻づまりおよび慢性的な咳がみられる。慢性的な呼吸器感染症は気管支拡張症と呼ばれる状態を引き起こし、これは気管支と呼ばれる通路を損傷し、生命を脅かす呼吸障害を引き起こし得る。また、ＰＣＤを有する個人には、不妊症、再発性の耳の感染症、胸部および腹部の臓器の異常な位置を有する人もいる。ＰＣＤ病態形成に直接関与することが確認されているいくつかの遺伝子のうち、２つの遺伝子：それぞれ軸糸ダイニンの中鎖および重鎖をコードしているＤＮＡＩ１およびＤＮＡＨ５にかなりの数の変異がみられる。

コドン最適化ＤＮＡＩ１コード配列をコードするｍＲＮＡは、ＰＣＤを治療するための新規治療剤として開発されている。

コドン最適化を、実施例１に示されるように、本発明の方法にしたがってネイティブＤＮＡＩ１アミノ酸配列を使用して行い、ＤＮＡＩ１＃１（配列番号２９）、ＤＮＡＩ１＃２（配列番号３０）、ＤＮＡＩ１＃３（配列番号３１）と命名された３つの配列を生成した。コドン最適化ＤＮＡＩ１配列ＤＮＡＩ１＃４（配列番号３２）もまた、参照として含まれた。ＤＮＡＩ１＃４はコドン最適化されたが、モチーフスクリーンフィルタ、グアニン－シトシン（ＧＣ）含量分析フィルタ、およびコドン適応指標（ＣＡＩ）分析フィルタを適用してさらに処理しなかった。本発明の方法にしたがって生成して得られるコドン最適化塩基配列は、表３に記載するように、０．８以上のＣＡＩ値を有していた。

各コドン最適化配列からのタンパク質収量を試験するために、ＤＮＡＩ１タンパク質をコードする４つのヌクレオチド配列の１つを同一の５’および３’ＵＴＲに隣接して含み、ＲＮＡポリメラーゼプロモーターが先行する発現カセットをそれぞれ含む４つの核酸ベクターを調製した。これらの核酸ベクターは、４つのコドン最適化ヌクレオチド配列（ＤＮＡＩ１＃１～＃４）を含むｍＲＮＡの４つのバッチを提供するためのｉｎｖｉｔｒｏ転写反応の鋳型として機能した。キャッピングおよびテーリングは別々に行った。

キャッピングおよびテーリングしたｍＲＮＡ各２μｇを、トランスフェクトした１０^５個のＨＥＫ２９３Ｔ細胞をトランスフェクトするために使用した。トランスフェクトされていないＨＥＫ２９３Ｔ細胞も、陰性対照を提供するために含まれた。トランスフェクションの２４時間後に細胞溶解物を収集し、タンパク質試料を抽出し、ＳＤＳ－ＰＡＧＥ用に処理した。細胞の各バッチ由来の２つの試料を処理し、分析した。コードされたＤＮＡＩ１タンパク質の発現レベルは、抗ＤＮＡＩ１一次抗体（αＤＮＡＩ１）を用いて、ウェスタンブロットによって評価した。ビンキュリンの発現レベルも、抗ビンキュリン一次抗体（αビンキュリン）を用いて測定し、ローディング対照とした。シグナルは、ＬＩ－ＣＯＲイメージング系を使用して現像および定量化し、ビンキュリンに対して正規化したＤＮＡＩ１タンパク質収量は、コドン最適化されていないＤＮＡＬ１配列をコードするｍＲＮＡで達成した参照レベルに対する倍数増加として図１５Ｂにグラフ化した。この実験の結果を、図１５に要約する。ＣＡＩが最も高い（０．９０）コドン最適化ヌクレオチド配列ＤＮＡＩ１＃１は、参照（ＤＮＡＩ１＃４）と比較して最も高いレベルのＤＮＡＩ１タンパク質を産生した。コドン最適化配列ＤＮＡＩ１＃２およびＤＮＡＩ１＃３は、共にＣＡＩが０．８７であり、ヌクレオチド配列の違いにもかかわらず同等のレベルのＤＮＡＩ１タンパク質を産生し、これにより、ＣＡＩがタンパク質発現量に密接に関連していることが示された。ＣＡＩが０．８３であるコドン最適化配列ＤＮＡＩ１＃４は、より高いＣＡＩを有する最適化ヌクレオチド配列と比較して最も低い量のタンパク質を産生したが、それでも参照レベルと比較して顕著に増加した。

合わせると、これらのデータは、本発明のコドン最適化ヌクレオチド配列を含むｍＲＮＡについて、より高いＣＡＩがタンパク質発現収量を強く示しており、また、同様のＣＡＩ値を有する異なるコドン最適化ヌクレオチド配列が、細胞内で、コードされたタンパク質の同様のレベルを産生することを示している。

本発明についての番号付き実施形態
１．最適化ヌクレオチド配列を生成するためのコンピュータ実装方法であって、
（ｉ）ペプチド、ポリペプチド、またはタンパク質をコードするアミノ酸配列を受け取る工程；
（ｉｉ）第１のコドン使用表を受け取る工程であって、第１のコドン使用表は、アミノ酸のリストを含み、表中の各アミノ酸は、少なくとも１つのコドンと関連し、各コドンは、使用頻度と関連する工程；
（ｉｉｉ）コドン使用表から、閾値頻度未満である使用頻度と関連する任意のコドンを除去する工程；
（ｉｖ）工程（ｉｉｉ）において除去されなかったコドンの使用頻度を正規化することにより、正規化コドン使用表を生成する工程；および
（ｖ）正規化コドン使用表中のアミノ酸と関連する１つまたはそれ以上のコドンの使用頻度に基づき、アミノ酸配列内の各アミノ酸のためのコドンを選択することにより、アミノ酸配列をコードする最適化ヌクレオチド配列を生成する工程
を含む方法。
２．正規化する工程は、
（ａ）第１のアミノ酸と関連し、工程（ｉｉｉ）において除去された各コドンの使用頻度を、第１のアミノ酸と関連する残りのコドンに分配する工程；および
（ｂ）各アミノ酸について、工程（ａ）を反復して、正規化コドン使用表を作成する工程
を含む、実施形態１に記載の方法。
３．除去されたコドンの使用頻度は、残りのコドン間で同等に分配される、実施形態２に記載の方法。
４．除去されたコドンの使用頻度は、各残りのコドンの使用頻度に基づき、残りのコドン間で比例的に分配される、実施形態２に記載の方法。
５．各アミノ酸のためのコドンを選択する工程は、
（ａ）正規化コドン使用表において、アミノ酸配列の第１のアミノ酸と関連する１つまたはそれ以上のコドンを同定する工程；
（ｂ）第１のアミノ酸と関連するコドンを選択する工程であって、ある特定のコドンを選択する確率は、正規化コドン使用表中の第１のアミノ酸と関連するコドンと関連する使用頻度と等しい工程；および
（ｃ）アミノ酸配列内の各アミノ酸のためのコドンが選択されるまで、工程（ａ）および（ｂ）を反復する工程
を含む、実施形態１～４のいずれか１項に記載の方法。
６．工程（ｖ）は、最適化ヌクレオチド配列のリストを生成するように、複数回にわたり実行される、実施形態１～５のいずれか１項に記載の方法。
７．閾値頻度は、使用者により選択可能である、実施形態１～６のいずれか１項に記載の方法。
８．閾値頻度は、５％～３０％の範囲、特に、５％、１０％、もしくは１５％、もしくは２０％、もしくは２５％、もしくは３０％、または、特に、１０％である、実施形態１～７のいずれか１項に記載の方法。
９．最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列は、終結シグナルを含有するのかどうかを決定する工程；および
ヌクレオチド配列が、１つまたはそれ以上の終結シグナルを含有する場合に、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程
をさらに含む、実施形態６～８のいずれか１項に記載の方法。
１０．１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：
５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－３’
［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｔ、またはＧから選択される］
を有する、実施形態９に記載の方法。
１１．１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：
ＴＡＴＣＴＧＴＴ；および／または
ＴＴＴＴＴＴ；および／または
ＡＡＧＣＴＴ；および／または
ＧＡＡＧＡＧＣ；および／または
ＴＣＴＡＧＡ
のうちの１つまたはそれ以上を有する、実施形態１０に記載の方法。
１２．１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：
５’－Ｘ_１ＡＵＣＵＸ_２ＵＸ_３－３’
［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｕ、またはＧから選択される］
を有する、実施形態９に記載の方法。
１３．１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：
ＵＡＵＣＵＧＵＵ；および／または
ＵＵＵＵＵＵ；および／または
ＡＡＧＣＵＵ；および／または
ＧＡＡＧＡＧＣ；および／または
ＵＣＵＡＧＡ
のうちの１つを有する、実施形態１２に記載の方法。
１４．最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の最適化ヌクレオチド配列の各々の、ヌクレオチド配列内の塩基が、グアニンまたはシトシンである百分率である、グアニン－シトシン含量を決定する工程；
そのグアニン－シトシン含量が、所定のグアニン－シトシン含量範囲から外れる場合に、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程
をさらに含む、実施形態６～１３のいずれか１項に記載の方法。
１５．最適化ヌクレオチド配列の各々のグアニン－シトシン含量を決定する工程は、各ヌクレオチド配列について、
ヌクレオチド配列の第１の部分のグアニン－シトシン含量を決定する工程
を含み、最適化ヌクレオチド配列のリストを更新する工程は、
第１の部分のグアニン－シトシン含量が、所定のグアニン－シトシン含量範囲から外れる場合に、ヌクレオチド配列を除去する工程
を含む、実施形態１４に記載の方法。
１６．最適化ヌクレオチド配列の各々のグアニン－シトシン含量を決定する工程は、各ヌクレオチド配列について、
ヌクレオチド配列のうちの、１つまたはそれ以上のさらなる部分のグアニン－シトシン含量を決定する工程
をさらに含み、さらなる部分は、互いと重複せず、第１の部分と重複せず、最適化配列のリストを更新する工程は、
任意の部分のグアニン－シトシン含量が、所定のグアニン－シトシン含量範囲から外れる場合に、ヌクレオチド配列を除去する工程
を含み、場合により、任意の部分のグアニン－シトシン含量が、所定のグアニン－シトシン含量範囲外にあることが決定された場合に、ヌクレオチド配列のグアニン－シトシン含量を決定する工程は、停止される、実施形態１５に記載の方法。
１７．ヌクレオチド配列のうちの第１の部分および／または１つもしくはそれ以上のさらなる部分は、所定の数のヌクレオチドを含み、場合により、所定の数のヌクレオチドは、５～３００ヌクレオチド、または１０～２００ヌクレオチド、または１５～１００ヌクレオチド、または２０～５０ヌクレオチドの範囲にあり、例えば、３０ヌクレオチドである、実施形態１５または１６に記載の方法。
１８．所定のグアニン－シトシン含量範囲は、使用者により選択可能である、実施形態１７に記載の方法。
１９．所定のグアニン－シトシン含量範囲は、１５％～７５％、もしくは４０％～６０％、または、特に、３０％～７０％である、実施形態１７または１８に記載の方法。
２０．最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の、最適化ヌクレオチド配列の各々の、コドン使用バイアスの尺度であり、０～１の間の値であり得る、コドン適応指標を決定する工程；
そのコドン適応指標が、所定のコドン適応指標閾値以下である場合に、任意のヌクレオチド配列を除去することにより、最適化ヌクレオチド配列のリスト、または最近更新されたリストを更新する工程
をさらに含む、実施形態６～１９のいずれか１項に記載の方法。
２１．コドン適応指標閾値は、使用者により選択可能である、実施形態２０に記載の方法。
２２．コドン適応指標閾値は、０．７、もしくは０．７５、もしくは０．８５、もしくは０．９、または、特に、０．８である、実施形態２０または２１に記載の方法。
２３．アミノ酸配列は、アミノ酸配列のデータベースから受け取られる、実施形態１～２２のいずれか１項に記載の方法。
２４．アミノ酸配列をアミノ酸配列のデータベースから要求する工程をさらに含み、アミノ酸配列は要求に応答して受け取られる、実施形態２３に記載の方法。
２５．第１のコドン使用表は、コドン使用表のデータベースから受け取られる、実施形態１～２４のいずれか１項に記載の方法。
２６．第１のコドン使用表をコドン使用表のデータベースから要求する工程をさらに含み、第１のコドン使用表は要求に応答して受け取られる、実施形態２４に記載の方法。
２７．少なくとも１つの最適化ヌクレオチド配列を、スクリーンに表示する工程をさらに含む、実施形態１～２６のいずれか１項に記載の方法。
２８．コンピュータプログラムであって、コンピュータによりプログラムが実行される場合に、コンピュータに、実施形態１～２７のいずれか１項に記載の方法を実行させる命令を含むコンピュータプログラム。
２９．実施形態１～２７のいずれか１項に記載の方法を実行するための手段を含むデータ処理システム。
３０．実施形態２８に記載のコンピュータプログラムを格納したコンピュータ読取り型データ記憶媒体。
３１．実施形態２８に記載のコンピュータプログラムを搬送するデータ搬送信号。
３２．ヌクレオチド配列を合成するための方法であって、
実施形態１～２７のいずれか１項に記載のコンピュータ実装方法を実行して、少なくとも１つの最適化ヌクレオチド配列を生成する工程；および
生成された最適化ヌクレオチド配列のうちの少なくとも１つを合成する工程
を含む方法。
３３．合成された最適化配列を、ｉｎｖｉｔｒｏ転写における使用のための核酸ベクター内に挿入する工程をさらに含む、実施形態３２に記載の方法。
３４．合成最適化ヌクレオチド配列の３’末端に、１つまたはそれ以上の終結シグナルを挿入する工程をさらに含む、実施形態３２または３３に記載の方法。
３５．１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：
５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－３’
［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｔ、またはＧから選択される］
によりコードされる、実施形態３４に記載の方法。
３６．１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：
ＴＡＴＣＴＧＴＴ；
ＴＴＴＴＴＴ；
ＡＡＧＣＴＴ；
ＧＡＡＧＡＧＣ；および／または
ＴＣＴＡＧＡ
のうちの１つまたはそれ以上によりコードされる、実施形態３４または３５に記載の方法。
３７．１つを超える終結シグナルは挿入され、前記終結シグナルは、１０塩基対またはそれ未満隔てられ、例えば、５～１０塩基対隔てられる、実施形態３４～３６のいずれか１項に記載の方法。
３８．１つを超える終結シグナルは、以下のヌクレオチド配列：（ａ）５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－（Ｚ_Ｎ）－Ｘ_４ＡＴＣＴＸ_５ＴＸ_６－３’、または（ｂ）５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－（Ｚ_Ｎ）－Ｘ_４ＡＴＣＴＸ_５ＴＸ_６－（Ｚ_Ｍ）－Ｘ_７ＡＴＣＴＸ_８ＴＸ_９－３’［配列中、Ｘ_１、Ｘ_２、Ｘ_３、Ｘ_４、Ｘ_５、Ｘ_６、Ｘ_７、Ｘ_８、およびＸ_９は、独立に、Ａ、Ｃ、Ｔ、またはＧから選択され、Ｚ_Ｎは、Ｎヌクレオチドのスペーサー配列を表し、Ｚ_Ｍは、それらの各々が、独立に、Ａ、Ｃ、Ｔ、またはＧから選択される、Ｍヌクレオチドのスペーサー配列を表し、Ｎおよび／またはＭは、独立に、１０またはそれ未満である］によりコードされる、実施形態３６に記載の方法。
３９．核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結されたＲＮＡポリメラーゼプロモーターを含み、場合により、ＲＮＡポリメラーゼプロモーターは、ＳＰ６ＲＮＡポリメラーゼプロモーター、またはＴ７ＲＮＡポリメラーゼプロモーターである、実施形態３３～３８のいずれか１項に記載の方法。
４０．核酸ベクターは、プラスミドである、実施形態３３～３９のいずれか１項に記載の方法。
４１．プラスミドは、ｉｎｖｉｔｒｏ転写の前に直鎖化される、実施形態４０に記載の方法。
４２．プラスミドは、ｉｎｖｉｔｒｏ転写の前に直鎖化されない、実施形態４０に記載の方法。
４３．プラスミドは、超らせん状である、実施形態４２に記載の方法。
４４．合成最適化ヌクレオチド配列のうちの少なくとも１つをｉｎｖｉｔｒｏ転写において使用して、ｍＲＮＡを合成する工程をさらに含む、実施形態３２～４３のいずれか１項に記載の方法。
４５．ｍＲＮＡは、ＳＰ６ＲＮＡポリメラーゼにより合成される、実施形態４４に記載の方法。
４６．ＳＰ６ＲＮＡポリメラーゼは、自然発生のＳＰ６ＲＮＡポリメラーゼである、実施形態４５に記載の方法。
４７．ＳＰ６ＲＮＡポリメラーゼは、組換えＳＰ６ＲＮＡポリメラーゼである、実施形態４５に記載の方法。
４８．ＳＰ６ＲＮＡポリメラーゼは、タグを含む、実施形態４７に記載の方法。
４９．タグは、Ｈｉｓタグである、実施形態４８に記載の方法。
５０．ｍＲＮＡは、Ｔ７ＲＮＡポリメラーゼにより合成される、実施形態４４に記載の方法。
５１．合成されたｍＲＮＡを、キャッピングおよび／またはテーリングする別個の工程をさらに含む、実施形態４４～５０のいずれか１項に記載の方法。
５２．キャッピングおよびテーリングは、ｉｎｖｉｔｒｏ転写の間に起こる、実施形態４４～５０のいずれか１項に記載の方法。
５３．ｍＲＮＡは、１～１０ｍＭの各ＮＴＰの範囲の濃度のＮＴＰ、０．０１～０．５ｍｇ／ｍｌの範囲の濃度のＤＮＡ鋳型、および０．０１～０．１ｍｇ／ｍｌの範囲の濃度のＳＰ６ＲＮＡポリメラーゼを含む反応混合物中で合成される、実施形態４４～５２のいずれか１項に記載の方法。
５４．反応混合物は、５ｍＭの各ＮＴＰの濃度のＮＴＰ、０．１ｍｇ／ｍｌの濃度のＤＮＡ鋳型、および０．０５ｍｇ／ｍｌの濃度のＳＰ６ＲＮＡポリメラーゼを含む、実施形態５３に記載の方法。
５５．ｍＲＮＡは、３７～５６℃の範囲の温度で合成される、実施形態４４～５４のいずれか１項に記載の方法。
５６．ＮＴＰは、自然発生のＮＴＰである、実施形態５３～５５のいずれか１項に記載の方法。
５７．ＮＴＰは、修飾ＮＴＰを含む、実施形態５３～５５のいずれか１項に記載の方法。
５８．ｉｎｖｉｔｒｏまたはｉｎｖｉｖｏにおいて、細胞に、合成最適化ヌクレオチド配列をトランスフェクトする工程をさらに含む、実施形態３２～５７のいずれか１項に記載の方法。
５９．トランスフェクトされた細胞内の、合成最適化ヌクレオチド配列によりコードされるタンパク質の発現レベルが決定される、実施形態５８に記載の方法。
６０．合成最適化ヌクレオチド配列によりコードされるタンパク質の機能的活性が決定される、実施形態５８または５９に記載の方法。
６１．アミノ酸配列をコードする参照ヌクレオチド配列、および実施形態３２～６０のいずれか１項に記載の方法に従う少なくとも１つの最適化ヌクレオチド配列を合成する工程と、参照ヌクレオチド配列、および少なくとも１つの最適化ヌクレオチド配列を、別個の細胞または生物と接触させる工程とをさらに含み、少なくとも１つの合成最適化ヌクレオチド配列と接触させた細胞または生物は、合成参照ヌクレオチド配列と接触させた細胞または生物により産生される、参照ヌクレオチド配列によりコードされるタンパク質の収量と比較して増大した収量の、最適化ヌクレオチド配列によりコードされるタンパク質を産生する、実施形態１～２７のいずれか１項に記載の方法。
６２．対象への送達または対象の処置における使用のための、治療用ペプチド、ポリペプチド、またはタンパク質をコードするｍＲＮＡを含む治療用組成物を作製する工程をさらに含む、実施形態３２～６０のいずれか１項に記載の方法。
６３．ｍＲＮＡは、嚢胞性線維症膜貫通コンダクタンス制御因子（ＣＦＴＲ）タンパク質をコードする、実施形態６２に記載の方法。
６４．合成された場合の少なくとも１つの最適化ヌクレオチド配列は、少なくとも１つの最適化ヌクレオチド配列によりコードされるタンパク質の発現を、合成された場合の参照ヌクレオチド配列によりコードされるタンパク質の発現と比較して増大させるように構成される、実施形態１～２７のいずれか１項に記載の方法。
６５．参照ヌクレオチド配列は、（ａ）アミノ酸配列をコードする自然発生のヌクレオチド配列、または（ｂ）実施形態１～２７のいずれか１項に記載の方法以外の方法により生成されるアミノ酸配列をコードするヌクレオチド配列である、実施形態６１～６４のいずれか１項に記載の方法。
６６．治療における使用のための、実施形態３２～５７および６２～６５のいずれか１項に記載の方法に従い生成される合成最適化ヌクレオチド配列。
６７．実施形態３２～５７および６２～６５のいずれか１項に記載の方法に従い生成される合成最適化ヌクレオチド配列を、このような処置を必要とするヒト対象へと投与する工程を含む処置方法。
６８．１０％以上の使用頻度と関連するコドンからなる最適化ヌクレオチド配列を含むｉｎｖｉｔｒｏ合成核酸であって、最適化ヌクレオチド配列は、
（ｉ）以下のヌクレオチド配列：
５’－Ｘ_１ＡＵＣＵＸ_２ＵＸ_３－３’［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｕ、またはＧから選択される］；および５’－Ｘ_１ＡＵＣＵＸ_２ＵＸ_３－３’［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｕ、またはＧから選択される］
のうちの１つを有する終結シグナルを含有せず；
（ｉｉ）負のシス調節エレメント、および負の反復エレメントを含有せず；
（ｉｉｉ）０．８を超えるコドン適応指標を有し；
重複しない３０ヌクレオチド長の部分へと分割された場合に、最適化ヌクレオチド配列の各部分は、３０％～７０％の範囲のグアニン－シトシン含量を有する、
ｉｎｖｉｔｒｏ合成核酸。
６９．最適化ヌクレオチド配列は、以下の配列：ＴＡＴＣＴＧＴＴ；ＴＴＴＴＴＴ；ＡＡＧＣＴＴ；ＧＡＡＧＡＧＣ；ＴＣＴＡＧＡ；ＵＡＵＣＵＧＵＵ；ＵＵＵＵＵＵ；ＡＡＧＣＵＵ；ＧＡＡＧＡＧＣ；ＵＣＵＡＧＡのうちの１つを有する終結シグナルを含有しない、実施形態６８に記載のｉｎｖｉｔｒｏ合成核酸。
７０．核酸は、ｍＲＮＡである、実施形態６８または６９に記載のｉｎｖｉｔｒｏ合成核酸。
７１．治療における使用のための、実施形態６８～７０のいずれか１項に記載のｉｎｖｉｔｒｏ合成核酸。

Claims

最適化ヌクレオチド配列を生成するためのコンピュータ実装方法であって、
（ｉ）ペプチド、ポリペプチド、またはタンパク質をコードするアミノ酸配列を受け取る工程；
（ｉｉ）第１のコドン使用表を受け取る工程であって、第１のコドン使用表は、アミノ酸のリストを含み、表中の各アミノ酸は、少なくとも１つのコドンと関連し、各コドンは、使用頻度と関連する工程；
（ｉｉｉ）コドン使用表から、閾値頻度未満である使用頻度と関連する任意のコドンを除去する工程；
（ｉｖ）工程（ｉｉｉ）において除去されなかったコドンの使用頻度を正規化することにより、正規化コドン使用表を生成する工程；および
（ｖ）正規化コドン使用表中のアミノ酸と関連する１つまたはそれ以上のコドンの使用頻度に基づき、アミノ酸配列内の各アミノ酸のためのコドンを選択することにより、アミノ酸配列をコードする最適化ヌクレオチド配列を生成する工程
を含む方法。
正規化する工程は、
（ａ）第１のアミノ酸と関連し、工程（ｉｉｉ）において除去された各コドンの使用頻度を、第１のアミノ酸と関連する残りのコドンに分配する工程；および
（ｂ）各アミノ酸について、工程（ａ）を反復して、正規化コドン使用表を作成する工程
を含む、請求項１に記載の方法。
除去されたコドンの使用頻度は、残りのコドン間で同等に分配される、請求項２に記載の方法。
除去されたコドンの使用頻度は、各残りのコドンの使用頻度に基づき、残りのコドン間で比例的に分配される、請求項２に記載の方法。
各アミノ酸のためのコドンを選択する工程は、
（ａ）正規化コドン使用表において、アミノ酸配列の第１のアミノ酸と関連する１つまたはそれ以上のコドンを同定する工程；
（ｂ）第１のアミノ酸と関連するコドンを選択する工程であって、ある特定のコドンを選択する確率は、正規化コドン使用表中の第１のアミノ酸と関連するコドンと関連する使用頻度と等しい工程；および
（ｃ）アミノ酸配列内の各アミノ酸のためのコドンが選択されるまで、工程（ａ）および（ｂ）を反復する工程
を含む、請求項１～４のいずれか１項に記載の方法。
工程（ｖ）は、最適化ヌクレオチド配列のリストを生成するように、複数回にわたり実行される、請求項１～５のいずれか１項に記載の方法。
閾値頻度は、使用者により選択可能である、請求項１～６のいずれか１項に記載の方法。
閾値頻度は、５％～３０％の範囲、特に、５％、１０％、もしくは１５％、もしくは２０％、もしくは２５％、もしくは３０％、または、特に、１０％である、請求項１～７のいずれか１項に記載の方法。
最適化ヌクレオチド配列のリストをスクリーニングして、１つまたはそれ以上の基準を満たさない最適化ヌクレオチド配列を同定し、除去する工程
をさらに含む、請求項６～８のいずれか１項に記載の方法。
最適化ヌクレオチド配列のリストをスクリーニングする工程は、１つまたはそれ以上の基準の各々について、
最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列は、基準を満たすのかどうかを決定する工程；
ヌクレオチド配列が基準を満たさない場合、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程
を含む、請求項９に記載の方法。
最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列が、基準を満たすのかどうかを決定する工程は、各ヌクレオチド配列について、
ヌクレオチド配列の第１の部分は、基準を満たすのかどうかを決定する工程
を含み、最適化ヌクレオチド配列のリストを更新する工程は、
第１の部分が基準を満たさない場合、ヌクレオチド配列を除去する工程
を含む、請求項１０に記載の方法。
最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列が、基準を満たすのかどうかを決定する工程は、各ヌクレオチド配列について、
ヌクレオチド配列のうちの、互いと重複せず、第１の部分と重複しない１つまたはそれ以上のさらなる部分は、基準を満たすのかどうかを決定する工程
をさらに含み、最適化配列のリストを更新する工程は、
任意の部分が基準を満たさない場合、ヌクレオチド配列を除去する工程
を含み、場合により、任意の部分が基準を満たさないと決定される場合に、最適化ヌクレオチド配列が、基準を満たすのかどうかを決定する工程は、停止される、請求項１１に記載の方法。
ヌクレオチド配列のうちの第１の部分および／または１つもしくはそれ以上のさらなる部分は、所定の数のヌクレオチドを含み、場合により、所定の数のヌクレオチドは、５～３００ヌクレオチド、または１０～２００ヌクレオチド、または１５～１００ヌクレオチド、または２０～５０ヌクレオチドの範囲にあり、例えば、３０ヌクレオチド、例えば、１００ヌクレオチドである、請求項１１または１２に記載の方法。
第１の基準は、終結シグナルを含有しないヌクレオチド配列を含み、その結果、決定する工程および更新する工程は、
最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列は、終結シグナルを含有するのかどうかを決定する工程；および
ヌクレオチド配列が、１つまたはそれ以上の終結シグナルを含有する場合に、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程
を含む、請求項９～１３のいずれか１項に記載の方法。
１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：
５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－３’
［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｔ、またはＧから選択される］
を有する、請求項１４に記載の方法。
１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：
ＴＡＴＣＴＧＴＴ；および／または
ＴＴＴＴＴＴ；および／または
ＡＡＧＣＴＴ；および／または
ＧＡＡＧＡＧＣ；および／または
ＴＣＴＡＧＡ
のうちの１つまたはそれ以上を有する、請求項１５に記載の方法。
１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：
５’－Ｘ_１ＡＵＣＵＸ_２ＵＸ_３－３’
［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｕ、またはＧから選択される］
を有する、請求項１６に記載の方法。
１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：
ＵＡＵＣＵＧＵＵ；および／または
ＵＵＵＵＵＵ；および／または
ＡＡＧＣＵＵ；および／または
ＧＡＡＧＡＧＣ；および／または
ＵＣＵＡＧＡ
のうちの１つを有する、請求項１７に記載の方法。
第２の基準は、所定のグアニン－シトシン含量範囲内のグアニン－シトシン含量を有するヌクレオチド配列を含み、その結果、決定する工程および更新する工程は、
最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の最適化ヌクレオチド配列の各々のグアニン－シトシン含量を決定する工程であって、グアニン－シトシン含量は、グアニンまたはシトシンである、ヌクレオチド配列内の塩基の百分率である工程；
そのグアニン－シトシン含量が、所定のグアニン－シトシン含量範囲から外れる場合に、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程
を含む、請求項９～１８のいずれか１項に記載の方法。
所定のグアニン－シトシン含量範囲は、使用者により選択可能である、請求項１９に記載の方法。
所定のグアニン－シトシン含量範囲は、１５％～７５％、もしくは４０％～６０％、または、特に、３０％～７０％である、請求項１９または２０に記載の方法。
第３の基準は、コドン適応指標が所定のコドン適応指標閾値を超えるヌクレオチド配列を含み、その結果、決定する工程および更新する工程は、
最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の最適化ヌクレオチド配列の各々のコドン適応指標を決定する工程であって、配列のコドン適応指標は、コドン使用バイアスの尺度であり、０～１の間の値であり得る工程；
そのコドン適応指標が、所定のコドン適応指標閾値以下である場合に、任意のヌクレオチド配列を除去することにより、最適化ヌクレオチド配列のリスト、または最近更新されたリストを更新する工程
を含む、請求項９～２１のいずれか１項に記載の方法。
コドン適応指標閾値は、使用者により選択可能である、請求項２２に記載の方法。
コドン適応指標閾値は、０．７、もしくは０．７５、もしくは０．８５、もしくは０．９、または、特に、０．８である、請求項２２または２３に記載の方法。
第４の基準は、少なくとも２つ、例えば３つの隣接する同一のコドンを含有しないヌクレオチド配列を含み、その結果、決定する工程および更新する工程は、
最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の、任意の最適化ヌクレオチド配列は、少なくとも２つ、例えば３つ以上の隣接する同一のコドンを含有するのかどうかを決定する工程；および
それが、少なくとも２つ、例えば３つ以上の隣接する同一のコドンを含有する場合に、任意のヌクレオチド配列を除去することにより、最適化ヌクレオチド配列のリスト、または最近更新されたリストを更新する工程
を含む、請求項９～２４のいずれか１項に記載の方法。
第４の基準は、正規化コドン使用表内の頻度が、隣接稀少性閾値未満であるコドンに関してだけ適用され、隣接稀少性閾値は、１０～５０％の間、例えば、１５～４０％の間、例えば、２０～３０％の間である、請求項２５に記載の方法。
アミノ酸配列は、アミノ酸配列のデータベースから受け取られる、請求項１～２６のいずれか１項に記載の方法。
アミノ酸配列をアミノ酸配列のデータベースから要求する工程をさらに含み、アミノ酸配列は要求に応答して受け取られる、請求項２６に記載の方法。
第１のコドン使用表は、コドン使用表のデータベースから受け取られる、請求項１～２８のいずれか１項に記載の方法。
第１のコドン使用表をコドン使用表のデータベースから要求する工程をさらに含み、第１のコドン使用表は要求に応答して受け取られる、請求項２９に記載の方法。
少なくとも１つの最適化ヌクレオチド配列を、スクリーンに表示する工程をさらに含む、請求項１～３０のいずれか１項に記載の方法。
コンピュータプログラムであって、コンピュータによりプログラムが実行される場合に、コンピュータに、請求項１～３１のいずれか１項に記載の方法を実行させる命令を含むコンピュータプログラム。
請求項１～３１のいずれか１項に記載の方法を実行するための手段を含むデータ処理システム。
請求項３２に記載のコンピュータプログラムを格納したコンピュータ読取り型データ記憶媒体。
請求項３２に記載のコンピュータプログラムを搬送するデータ搬送信号。
ヌクレオチド配列を合成するための方法であって、
請求項１～３１のいずれか１項に記載のコンピュータ実装方法を実行して、少なくとも１つの最適化ヌクレオチド配列を生成する工程；および
生成された最適化ヌクレオチド配列のうちの少なくとも１つを合成する工程
を含む方法。
合成された最適化配列を、ｉｎｖｉｔｒｏ転写における使用のための核酸ベクター内に挿入する工程をさらに含む、請求項３６に記載の方法。
合成最適化ヌクレオチド配列の３’末端に、１つまたはそれ以上の終結シグナルを挿入する工程をさらに含む、請求項３６または３７に記載の方法。
１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：
５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－３’
［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｔ、またはＧから選択される］
によりコードされる、請求項３８に記載の方法。
１つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列：
ＴＡＴＣＴＧＴＴ；
ＴＴＴＴＴＴ；
ＡＡＧＣＴＴ；
ＧＡＡＧＡＧＣ；および／または
ＴＣＴＡＧＡ
のうちの１つまたはそれ以上によりコードされる、請求項３８または３９に記載の方法。
１つを超える終結シグナルは挿入され、前記終結シグナルは、１０塩基対またはそれ未満隔てられ、例えば、５～１０塩基対隔てられる、請求項３８～４０のいずれか１項に記載の方法。
１つを超える終結シグナルは、以下のヌクレオチド配列：（ａ）５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－（Ｚ_Ｎ）－Ｘ_４ＡＴＣＴＸ_５ＴＸ_６－３’、または（ｂ）５’－Ｘ_１ＡＴＣＴＸ_２ＴＸ_３－（Ｚ_Ｎ）－Ｘ_４ＡＴＣＴＸ_５ＴＸ_６－（Ｚ_Ｍ）－Ｘ_７ＡＴＣＴＸ_８ＴＸ_９－３’［配列中、Ｘ_１、Ｘ_２、Ｘ_３、Ｘ_４、Ｘ_５、Ｘ_６、Ｘ_７、Ｘ_８、およびＸ_９は、独立に、Ａ、Ｃ、Ｔ、またはＧから選択され、Ｚ_Ｎは、Ｎヌクレオチドのスペーサー配列を表し、Ｚ_Ｍは、それらの各々が、独立に、Ａ、Ｃ、Ｔ、またはＧから選択される、Ｍヌクレオチドのスペーサー配列を表し、Ｎおよび／またはＭは、独立に、１０またはそれ未満である］によりコードされる、請求項４０に記載の方法。
核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結されたＲＮＡポリメラーゼプロモーターを含み、場合により、ＲＮＡポリメラーゼプロモーターは、ＳＰ６ＲＮＡポリメラーゼプロモーター、またはＴ７ＲＮＡポリメラーゼプロモーターである、請求項３７～４２のいずれか１項に記載の方法。
核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結された５’ＵＴＲをコードするヌクレオチド配列を含む、請求項３７～４３のいずれか１項に記載の方法。
５’ＵＴＲは、アミノ酸配列をコードする自然発生のｍＲＮＡの５’ＵＴＲと異なる、請求項４４に記載の方法。
５’ＵＴＲは、配列番号１６のヌクレオチド配列を有する、請求項４２に記載の方法。
核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結された３’ＵＴＲをコードするヌクレオチド配列を含む、請求項３７～４６のいずれか１項に記載の方法。
３’ＵＴＲは、アミノ酸配列をコードする自然発生のｍＲＮＡの３’ＵＴＲと異なる、請求項４６に記載の方法。
３’ＵＴＲは、配列番号１７または配列番号１８のヌクレオチド配列を有する、請求項４８に記載の方法。
核酸ベクターは、プラスミドである、請求項３７～４９のいずれか１項に記載の方法。
プラスミドは、ｉｎｖｉｔｒｏ転写の前に直鎖化される、請求項５０に記載の方法。
プラスミドは、ｉｎｖｉｔｒｏ転写の前に直鎖化されない、請求項５０に記載の方法。
プラスミドは、超らせん状である、請求項５２に記載の方法。
合成最適化ヌクレオチド配列のうちの少なくとも１つをｉｎｖｉｔｒｏ転写において使用して、ｍＲＮＡを合成する工程をさらに含む、請求項３６～５３のいずれか１項に記載の方法。
ｍＲＮＡは、ＳＰ６ＲＮＡポリメラーゼにより合成される、請求項５４に記載の方法。
ＳＰ６ＲＮＡポリメラーゼは、自然発生のＳＰ６ＲＮＡポリメラーゼである、請求項５５に記載の方法。
ＳＰ６ＲＮＡポリメラーゼは、組換えＳＰ６ＲＮＡポリメラーゼである、請求項５５に記載の方法。
ＳＰ６ＲＮＡポリメラーゼは、タグを含む、請求項５７に記載の方法。
タグは、Ｈｉｓタグである、請求項５８に記載の方法。
ｍＲＮＡは、Ｔ７ＲＮＡポリメラーゼにより合成される、請求項５４に記載の方法。
合成されたｍＲＮＡを、キャッピングおよび／またはテーリングする別個の工程をさらに含む、請求項５４～６０のいずれか１項に記載の方法。
キャッピングおよびテーリングは、ｉｎｖｉｔｒｏ転写の間に起こる、請求項５４～６０のいずれか１項に記載の方法。
ｍＲＮＡは、１～１０ｍＭの各ＮＴＰの範囲の濃度のＮＴＰ、０．０１～０．５ｍｇ／ｍｌの範囲の濃度のＤＮＡ鋳型、および０．０１～０．１ｍｇ／ｍｌの範囲の濃度のＳＰ６ＲＮＡポリメラーゼを含む反応混合物中で合成される、請求項５４～６２のいずれか１項に記載の方法。
反応混合物は、５ｍＭの各ＮＴＰの濃度のＮＴＰ、０．１ｍｇ／ｍｌの濃度のＤＮＡ鋳型、および０．０５ｍｇ／ｍｌの濃度のＳＰ６ＲＮＡポリメラーゼを含む、請求項６３に記載の方法。
ｍＲＮＡは、３７～５６℃の範囲の温度で合成される、請求項５４～６４のいずれか１項に記載の方法。
ＮＴＰは、自然発生のＮＴＰである、請求項６３～６５のいずれか１項に記載の方法。
ＮＴＰは、修飾ＮＴＰを含む、請求項６３～６５のいずれか１項に記載の方法。
ｉｎｖｉｔｒｏまたはｉｎｖｉｖｏにおいて、細胞に、合成最適化ヌクレオチド配列をトランスフェクトする工程をさらに含む、請求項３６～６７のいずれか１項に記載の方法。
トランスフェクトされた細胞内の、合成最適化ヌクレオチド配列によりコードされるタンパク質の発現レベルが決定される、請求項６８に記載の方法。
合成最適化ヌクレオチド配列によりコードされるタンパク質の機能的活性が決定される、請求項６８または６９に記載の方法。
アミノ酸配列をコードする参照ヌクレオチド配列、および請求項３６～７０のいずれか１項に記載の方法に従う少なくとも１つの最適化ヌクレオチド配列を合成する工程と、参照ヌクレオチド配列、および少なくとも１つの最適化ヌクレオチド配列を、別個の細胞または生物と接触させる工程とをさらに含み、少なくとも１つの合成最適化ヌクレオチド配列と接触させた細胞または生物は、合成参照ヌクレオチド配列と接触させた細胞または生物により産生される、参照ヌクレオチド配列によりコードされるタンパク質の収量と比較して増大した収量の、最適化ヌクレオチド配列によりコードされるタンパク質を産生する、請求項１～３１のいずれか１項に記載の方法。
対象への送達または対象の処置における使用のための、治療用ペプチド、ポリペプチド、またはタンパク質をコードするｍＲＮＡを含む治療用組成物を作製する工程をさらに含む、請求項３６～７０のいずれか１項に記載の方法。
ｍＲＮＡは、嚢胞性線維症膜貫通コンダクタンス制御因子（ＣＦＴＲ）タンパク質をコードする、請求項７２に記載の方法。
合成された場合の少なくとも１つの最適化ヌクレオチド配列は、少なくとも１つの最適化ヌクレオチド配列によりコードされるタンパク質の発現を、合成された場合の参照ヌクレオチド配列によりコードされるタンパク質の発現と比較して増大させるように構成される、請求項１～３１のいずれか１項に記載の方法。
参照ヌクレオチド配列は、（ａ）アミノ酸配列をコードする自然発生のヌクレオチド配列、または（ｂ）請求項１～３１のいずれか１項に記載の方法以外の方法により生成されるアミノ酸配列をコードするヌクレオチド配列である、請求項７１～７４のいずれか１項に記載の方法。
治療における使用のための、請求項３６～６７および７２～７５のいずれか１項に記載の方法に従い生成される合成最適化ヌクレオチド配列。
請求項３６～６７および７２～７５のいずれか１項に記載の方法に従い生成される合成最適化ヌクレオチド配列を、このような処置を必要とするヒト対象へと投与する工程を含む処置方法。
１０％以上の使用頻度と関連するコドンからなる最適化ヌクレオチド配列を含むｉｎｖｉｔｒｏ合成核酸であって、最適化ヌクレオチド配列は、
（ｉｖ）以下のヌクレオチド配列：
５’－Ｘ_１ＡＵＣＵＸ_２ＵＸ_３－３’［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｕ、またはＧから選択される］；および５’－Ｘ_１ＡＵＣＵＸ_２ＵＸ_３－３’［配列中、Ｘ_１、Ｘ_２、およびＸ_３は、独立に、Ａ、Ｃ、Ｕ、またはＧから選択される］
のうちの１つを有する終結シグナルを含有せず；
（ｖ）負のシス調節エレメント、および負の反復エレメントを含有せず；
（ｖｉ）０．８を超えるコドン適応指標を有し；
重複しない３０ヌクレオチド長の部分へと分割された場合に、最適化ヌクレオチド配列の各部分は、３０％～７０％の範囲のグアニン－シトシン含量を有する、
ｉｎｖｉｔｒｏ合成核酸。
最適化ヌクレオチド配列は、以下の配列：ＴＡＴＣＴＧＴＴ；ＴＴＴＴＴＴ；ＡＡＧＣＴＴ；ＧＡＡＧＡＧＣ；ＴＣＴＡＧＡ；ＵＡＵＣＵＧＵＵ；ＵＵＵＵＵＵ；ＡＡＧＣＵＵ；ＧＡＡＧＡＧＣ；ＵＣＵＡＧＡのうちの１つを有する終結シグナルを含有しない、請求項７８に記載のｉｎｖｉｔｒｏ合成核酸。
核酸は、ｍＲＮＡである、請求項７８または７９に記載のｉｎｖｉｔｒｏ合成核酸。
治療における使用のための、請求項７８～８０のいずれか１項に記載のｉｎｖｉｔｒｏ合成核酸。