JP2023524769A - 最適化ヌクレオチド配列の生成 - Google Patents

最適化ヌクレオチド配列の生成 Download PDF

Info

Publication number
JP2023524769A
JP2023524769A JP2022567244A JP2022567244A JP2023524769A JP 2023524769 A JP2023524769 A JP 2023524769A JP 2022567244 A JP2022567244 A JP 2022567244A JP 2022567244 A JP2022567244 A JP 2022567244A JP 2023524769 A JP2023524769 A JP 2023524769A
Authority
JP
Japan
Prior art keywords
nucleotide sequence
optimized nucleotide
nucleotide sequences
codon
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022567244A
Other languages
English (en)
Other versions
JPWO2021226461A5 (ja
Inventor
クーアン・アイン・トラン
アニュシャ・ディアス
フランク・デロサ
Original Assignee
トランスレイト バイオ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トランスレイト バイオ, インコーポレイテッド filed Critical トランスレイト バイオ, インコーポレイテッド
Publication of JP2023524769A publication Critical patent/JP2023524769A/ja
Publication of JPWO2021226461A5 publication Critical patent/JPWO2021226461A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/47Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
    • A61K48/005Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'active' part of the composition delivered, i.e. the nucleic acid delivered
    • A61K48/0066Manipulation of the nucleic acid to modify its expression pattern, e.g. enhance its duration of expression, achieved by the presence of particular introns in the delivered nucleic acid
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Toxicology (AREA)
  • Data Mining & Analysis (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Epidemiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)

Abstract

最適化ヌクレオチド配列を生成するための方法が提供される。方法は、コドン使用表の少なくとも正規化、および正規化コドン使用表内のコドンの使用頻度に基づく所与のアミノ酸配列のためのコドンの選択を含む。方法は、アミノ酸配列をコードする複数の最適化ヌクレオチド配列のリストを生成する工程、最適化ヌクレオチド配列のリストをフィルタリングする工程、1つもしくはそれ以上の最適化ヌクレオチド配列を合成する工程、および/または1つもしくはそれ以上の合成最適化ヌクレオチド配列を投与する工程を含み得る。【選択図】図1

Description

関連出願
本出願は、2020年5月7日に出願された米国仮特許出願第63/021,345号の優先権を主張し、その開示全体が参照によって本明細書に組み入れられる。2020年2月18日に出願された米国仮特許出願第62/978,180号は、その全体が参照によって本明細書に組み入れられる。
配列表
本明細書は、配列表(2021年5月7日にMRT-2131WO_SLという名称の.txtファイルとして電子的に提出された)を参照する。本.txtファイルは、2021年4月27日に作成されたものであり、サイズが63.5KBである。配列表の全内容は、参照によって本明細書に組み入れられる。
発明の分野
本発明は、最適化ヌクレオチド配列を生成するための方法に関する。特に、本発明は、最適化ヌクレオチド配列によってコードされる機能性タンパク質、ポリペプチドまたはペプチドのin vitro合成および細胞における発現のために、ヌクレオチド配列が最適化される方法に関する。
mRNA療法は、様々な疾患、特に、タンパク質または遺伝子の機能障害によって起こる疾患を治療するためにますます重要である。生物のDNA配列の遺伝子変異は、異常な遺伝子発現をもたらし、結果としてタンパク質の産生または機能に欠陥を生じる可能性がある。例えば、根底にあるDNA配列の変異は、タンパク質の不十分な発現もしくは過剰発現、または機能障害性タンパク質の産生をもたらす可能性がある。タンパク質の正常または健康レベルの回復は、mRNA療法により達成することができ、mRNA療法は、遺伝子またはタンパク質の機能障害によって起こる一連の疾患に広く適用可能である。
mRNA療法では、欠陥タンパク質または欠如タンパク質に置き換わることができる機能性タンパク質をコードするmRNAが、標的細胞または組織に送達される。疾患または障害を治療または予防することに有効な治療用タンパク質をコードするmRNAの投与はまた、組換え産生されたペプチド、ポリペプチドまたはタンパク質を用いた治療法の、費用効果の高い代替となることもできる。mRNA療法は、ゲノム配列を永続的に変化させることも、細胞核に進入することもなしに、内在性タンパク質の正常レベルを回復または外来性治療用タンパク質を提供することができる。mRNA療法は、細胞自体のタンパク質産生およびプロセシング機構を利用して、疾患または障害を治療し、オーダーメイドの投薬および製剤に対して順応性があり、根底にある遺伝子もしくはタンパク質の欠陥によって起こるまたは外来性タンパク質の提供により治療可能な任意の疾患または状態に広く適用可能である。
mRNAによってコードされるタンパク質の発現レベルは、mRNA療法の効能および治療的利益にかなり影響する可能性がある。細胞内のmRNAからのタンパク質の効果的な発現または産生は、多様な要因に依存する。タンパク質をコードするヌクレオチド配列内のコドンの組成および順序の最適化(「コドン最適化」)は、mRNAによってコードされるタンパク質のより高い発現をもたらすことができる。コドン最適化を行う様々な方法が、当技術分野において公知であるが、各々が、計算上および/または治療上の観点からかなりの欠点および限界を有する。特に、公知のコドン最適化法は、しばしば、「最適化された」配列が各アミノ酸をコードするコドンを1種だけ含む(それで、1対1配列と称される場合がある)ように、アミノ酸ごとにあらゆるコドンを、そのアミノ酸について使用が最高のコドンに置換することを伴う。
したがって、mRNA療法におけるタンパク質の発現増加のために最適化ヌクレオチド配列を生成する、改良されたコドン最適化法の必要性が存在する。
本発明は、アミノ酸配列を分析して、少なくとも1つの最適化ヌクレオチド配列を作製するための方法をもたらすことにより、有効なmRNA療法のための、核酸最適化法の改善に対する必要性に取り組む。最適化ヌクレオチド配列は、タンパク質の発現を、自然発生のヌクレオチド配列と関連するタンパク質の発現と比較して増大させるようにデザインされる。本発明の核酸最適化法は、in vitroにおいて、全長mRNA転写物を合成し、より高いタンパク質収量を達成させることが望ましい設定において、目的のタンパク質の発現を増大させる能力をもたらす。
例えば、コドン最適化は、mRNA療法、免疫学およびワクチン接種、がん免疫療法、バイオテクノロジー、ならびに製造において、目的のタンパク質の発現を増大させるのに使用される。コドン最適化は、遺伝子コードの冗長性のために、コードされるタンパク質の翻訳アミノ酸配列を変更せずに、多様な基準に基づき、タンパク質をコードするヌクレオチド配列をもたらす。
mRNAコドン使用と、同族tRNAの存在度との不均衡を回避するために、コドン最適化は、ヌクレオチド配列内において、宿主細胞内における、転移RNA(tRNA)の、自然発生の存在度によくマッチするコドン組成をもたらし、特異的tRNAの枯渇を回避し得る。tRNAの存在度は、タンパク質の翻訳速度に影響を及ぼすので、ヌクレオチド配列のコドン最適化は、タンパク質の翻訳効率を増大させ、コードされるタンパク質をもたらし得る。例えば、稀少なtRNAの不足は、タンパク質の翻訳を停滞または停止させ得るので、低度のコドン使用により特徴付けられる、稀少なコドンを使用しないことにより、タンパク質の翻訳効率およびタンパク質の収量を増大させ得る。しかし、コドン最適化の工程は、ヌクレオチド配列内においてコードされ、タンパク質の翻訳を制御し、新生ポリペプチド鎖の、適正なフォールディングを確保するために重要な情報を除去する場合があるので、コードされるタンパク質の機能的活性の低減を代償としてなされ、効能の喪失と関連する場合がある(MauroおよびChappell、Trends Mol Med.、2014;20(11):604~13)。本発明者らは、ある程度の多様性を保持する、すなわち、必ずしも、各アミノ酸をコードする、1つのコドンだけを含むわけではない最適化配列は、自然発生の配列および1対1配列のいずれも上回る、タンパク質収量の増大を達成し得ることを見出した。
第1の態様では、本発明は、最適化ヌクレオチド配列を生成するためのコンピュータ実装方法であって、(i)ペプチド、ポリペプチド、またはタンパク質をコードするアミノ酸配列を受け取る工程;(ii)第1のコドン使用表を受け取る工程であって、第1のコドン使用表は、アミノ酸のリストを含み、表中の各アミノ酸は、少なくとも1つのコドンと関連し、各コドンは、使用頻度と関連する工程;(iii)コドン使用表から、閾値頻度未満である使用頻度と関連する任意のコドンを除去する工程;(iv)工程(iii)において除去されなかったコドンの使用頻度を正規化することにより、正規化コドン使用表を生成する工程;および(v)正規化コドン使用表中のアミノ酸と関連する1つまたはそれ以上のコドンの使用頻度に基づき、アミノ酸配列内の各アミノ酸のためのコドンを選択することにより、アミノ酸配列をコードする最適化ヌクレオチド配列を生成する工程を含む方法に関する。一部の実施形態では、閾値頻度は、使用者により選択可能である。一部の実施形態では、閾値頻度は、5%~30%の範囲、特に、5%、もしくは15%、もしくは20%、もしくは25%、もしくは30%、または、特に、10%である。本発明者らは、本明細書において記載された値を有する閾値頻度は、タンパク質収量の増大を達成し得る最適化配列を発生させ得ることを見出した。
一部の実施形態では、正規化コドン使用表を生成する工程は、(a)第1のアミノ酸と関連し、工程(iii)において除去された各コドンの使用頻度を、第1のアミノ酸と関連する残りのコドンに分配する工程;および(b)各アミノ酸について、工程(a)を反復して、正規化コドン使用表を作成する工程を含む。一部の実施形態では、除去されたコドンの使用頻度は、残りのコドン間で同等に分配される。一部の実施形態では、除去されたコドンの使用頻度は、各残りのコドンの使用頻度に基づき、残りのコドン間で比例的に分配される。
一部の実施形態では、各アミノ酸のためのコドンを選択する工程は、(a)正規化コドン使用表において、アミノ酸配列の第1のアミノ酸と関連する1つまたはそれ以上のコドンを同定する工程;(b)第1のアミノ酸と関連するコドンを選択する工程であって、ある特定のコドンを選択する確率は、正規化コドン使用表中の第1のアミノ酸と関連するコドンと関連する使用頻度と等しい工程;および(c)アミノ酸配列内の各アミノ酸のためのコドンが選択されるまで、工程(a)および(b)を反復する工程を含む。
一部の実施形態では、アミノ酸配列内の各アミノ酸のためのコドンを選択することにより、最適化ヌクレオチド配列を生成する工程(上記方法における工程(v))は、最適化ヌクレオチド配列のリストを生成するように、n回にわたり実行される。
一部の実施形態では、方法は、最適化ヌクレオチド配列のリストをスクリーニングして、1つまたはそれ以上の基準を満たさない最適化ヌクレオチド配列を同定し、除去する工程をさらに含む。このように、1つまたはそれ以上の基準を満たさないことにより、それらが有効である可能性が低減される場合、方法は、著明数の候補最適化ヌクレオチド配列を、検討から外すことを可能とする。言い換えれば、基準は、最適化ヌクレオチド配列の実際の有効性を指し示すので、1つまたはそれ以上の基準を満たさないヌクレオチド配列は、さらなる検討から除外される。1つまたはそれ以上の基準は、1つまたはそれ以上の終結シグナルを含有しない配列;所定の範囲内に収まるグアニン-シトシン含量を有する配列;閾値を超えるコドン適応指標を有する配列;1つまたはそれ以上のシスエレメントを含有しない配列;1つまたはそれ以上の反復エレメントを含有しない配列;および他の目的の基準を含み得る。
このように、方法は、短いか、またはフィルタリングされた、最適化ヌクレオチド配列のリストをもたらす。リスト内の最適化ヌクレオチド配列の数を低減することにより、リスト内の配列に対して実行される、さらなる工程、例えば、さらなるアルゴリズム工程または物理的合成工程も、数および複雑性が低減されるので有利である。
一部の実施形態では、最適化ヌクレオチド配列のリストをスクリーニングする工程は、ある特定の基準について、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列は、基準を満たすのかどうかを決定する工程;ヌクレオチド配列が基準を満たさない場合、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程を含む。
一部の実施形態では、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列が、基準を満たすのかどうかを決定する工程は、各ヌクレオチド配列について、ヌクレオチド配列の第1の部分は、基準を満たすのかどうかを決定する工程を含み、最適化ヌクレオチド配列のリストを更新する工程は、第1の部分が基準を満たさない場合、ヌクレオチド配列を除去する工程を含む。一部の実施形態では、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列が、基準を満たすのかどうかを決定する工程は、各ヌクレオチド配列について、ヌクレオチド配列のうちの、互いと重複せず、第1の部分と重複しない1つまたはそれ以上のさらなる部分は、基準を満たすのかどうかを決定する工程をさらに含み、最適化配列のリストを更新する工程は、任意の部分が基準を満たさない場合、ヌクレオチド配列を除去する工程を含み、場合により、任意の部分が基準を満たさないと決定される場合に、最適化ヌクレオチド配列が、基準を満たすのかどうかを決定する工程は、停止される。
このようにして、最適化ヌクレオチド配列をフィルタリングすることにより、配列は、計算する前に、リストから棄却され、時間資源は、配列全体の分析に費やされるため、方法は、計算上有利となる。したがって、方法は、より効率的となるので、有利である。さらに、一部の基準について、部分ごとの分析は、より詳細かつ選択的なスクリーニング工程をもたらす。グアニン-シトシン含量を、例として使用すると、方法は、平均グアニン-シトシン含量が、所定の範囲から外れる配列を除去するだけでなく、また、特定の部分において、グアニン-シトシン含量のスパイクまたはトラフを有し、効率的な転写または翻訳を妨げ得る、任意の配列も除去するので有利である。このようなピークまたはトラフは、配列の全体が、同時に分析されるだけであった場合、分析部分以外の配列部分は、許容可能な範囲内の平均グアニン-シトシン含量をもたらし得るため、見逃される。部分ごとに分析することにより、計算効率が改善されるだけでなく、他の方式では、平均において遮蔽される、候補配列内の問題も、同定される。
本明細書では、グアニン-シトシン含量が、例として使用されたが、本明細書において記載される、任意の基準は、上記の通り、部分ごとに分析されることが察知される。一部の基準、例えば、終結シグナルを含有する配列について、計算効率は、増大するが、部分ごとのスクリーニングのアウトカムは、結果として得られるリストの内容に影響を及ぼさない、すなわち、部分における終結シグナルの評価は、同じヌクレオチド配列を、配列の全体についての評価としてのリストから除去する。他の基準、例えば、グアニン-シトシン含量またはコドン適応指標について、スクリーニングのアウトカムは、異なり得る、例えば、部分分析を使用すると、配列を、それらの全体において評価する場合には除去されなかった、ある特定の配列が除去される。
ヌクレオチド配列のうちの第1の部分および/または1つもしくはそれ以上のさらなる部分は、所定の数のヌクレオチドを含む場合があり、場合により、所定の数のヌクレオチドは、5~300ヌクレオチド、または10~200ヌクレオチド、または15~100ヌクレオチド、または20~50ヌクレオチドの範囲にあり、例えば、30ヌクレオチド、例えば、100ヌクレオチドである。この長さの部分は、mRNAのコドン使用と、同族tRNAの存在度とに、最適の均衡をもたらすことが見出されている。
一部の実施形態では、第1の基準は、終結シグナルを含有しないヌクレオチド配列を含み、その結果、方法は、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列は、終結シグナルを含有するのかどうかを決定する工程;およびヌクレオチド配列が、1つまたはそれ以上の終結シグナルを含有する場合に、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程を含む。
このように、方法は、短いか、またはフィルタリングされた、最適化ヌクレオチド配列のリストをもたらす。リスト内の最適化ヌクレオチド配列の数を低減することにより、リスト内の配列に対して実行される、さらなる工程、例えば、さらなるアルゴリズム工程または物理的合成工程も、数および複雑性が低減されるので有利である。一部の実施形態では、終結シグナルは、以下のヌクレオチド配列:5’-XATCTXTX-3’[配列中、X、X、およびXは、独立に、A、C、T、またはGから選択される]を有する。一部の実施形態では、終結シグナルは、以下のヌクレオチド配列:TATCTGTT;および/またはTTTTTT;および/またはAAGCTT;および/またはGAAGAGC;および/またはTCTAGAのうちの1つを有する。一部の実施形態では、終結シグナルは、以下のヌクレオチド配列:5’-XAUCUXUX-3’[配列中、X、X、およびXは、独立に、A、C、U、またはGから選択される]を有する。一部の実施形態では、終結シグナルは、以下のヌクレオチド配列:UAUCUGUU;および/またはUUUUUU;および/またはAAGCUU;および/またはGAAGAGC;および/またはUCUAGAのうちの1つを有する。
一部の実施形態では、第2の基準は、所定のグアニン-シトシン含量範囲内のグアニン-シトシン含量を有するヌクレオチド配列を含み、その結果、方法は、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の最適化ヌクレオチド配列の各々のグアニン-シトシン含量を決定する工程であって、グアニン-シトシン含量は、グアニンまたはシトシンである、ヌクレオチド配列内の塩基の百分率である工程;そのグアニン-シトシン含量が、所定のグアニン-シトシン含量範囲から外れる場合に、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程を含む。リスト内の最適化ヌクレオチド配列の数を低減することにより、リスト内の配列に対して実行される、さらなる工程、例えば、さらなるアルゴリズム工程または物理的合成工程も、数および複雑性が低減されるので有利である。一部の実施形態では、所定のグアニン-シトシン含量範囲は、15%~75%、もしくは40%~60%、または、特に、30%~70%である。
一部の実施形態では、第3の基準は、コドン適応指標が所定のコドン適応指標閾値を超えるヌクレオチド配列を含み、その結果、方法は、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の最適化ヌクレオチド配列の各々のコドン適応指標を決定する工程であって、配列のコドン適応指標は、コドン使用バイアスの尺度であり、0~1の間の値であり得る工程;そのコドン適応指標が、所定のコドン適応指標閾値以下である場合に、任意のヌクレオチド配列を除去することにより、最適化ヌクレオチド配列のリスト、または最近更新されたリストを更新する工程を含む。このように、方法は、短いか、またはフィルタリングされた、最適化ヌクレオチド配列のリストをもたらす。一部の実施形態では、コドン適応指標閾値は、使用者により選択可能である。一部の実施形態では、コドン適応指標閾値は、0.7、もしくは0.75、もしくは0.85、もしくは0.9、または、特に、0.8である。リスト内の最適化ヌクレオチド配列の数を低減することにより、リスト内の配列に対して実行される、さらなる工程、例えば、さらなるアルゴリズム工程または物理的合成工程も、数および複雑性が低減されるので有利である。
一部の実施形態では、第4の基準は、少なくとも2つ、例えば3つの隣接する同一のコドンを含有しないヌクレオチド配列を含み、その結果、方法は、最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の任意の最適化ヌクレオチド配列は、少なくとも2つ、例えば3つの隣接する同一のコドンを含有するのかどうかを決定する工程;およびそれが、少なくとも2つ、例えば3つの隣接する同一のコドンを含有する場合に、任意のヌクレオチド配列を除去することにより、最適化ヌクレオチド配列のリスト、または最近更新されたリストを更新する工程をさらに含む。反復する同一コドン、言い換えれば、隣接する同一コドンは、転写を停滞させ得ることが見出されている。したがって、2つ以上、4つ以上、5つ以上、6つ以上、7つ以上、8つ以上、9つ以上、または、特に、3つ以上の同一の隣接コドンを含有する、任意の最適化ヌクレオチド配列をリストから除去することにより、転写の有効性の低下をもたらす配列が無視され、除去される。
本発明についての任意の態様では、最適化ヌクレオチド配列の更新リストの生成は、以下の工程:
(I)1つまたはそれ以上の最適化ヌクレオチド配列内の、終結シグナルの存在を決定し、それらが、終結シグナルを含有する場合、ヌクレオチド配列を、最適化ヌクレオチド配列のリスト、または最近更新されたリストから除去する工程;
(II)1つまたはそれ以上の最適化ヌクレオチド配列の、グアニン-シトシン含量を決定し、それらのグアニン-シトシン含量が、所定の範囲から外れる場合、ヌクレオチド配列を、最適化ヌクレオチド配列のリスト、または最近更新されたリストから除去する工程;
(III)1つまたはそれ以上の最適化ヌクレオチド配列の、コドン適応指標を決定し、それらのグアニン-シトシン含量が、所定の範囲から外れる場合、ヌクレオチド配列を、最適化ヌクレオチド配列のリスト、または最近更新されたリストから除去する工程
のうちのいずれか1つ、これらのうちのいずれか2つ、またはこれらのうちのいずれか3つに基づき、最適化配列をリストから除去することにより実行される。
本発明についての、第2の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(I)の実施をさらに含む。
本発明についての、第3の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(II)の実施をさらに含む。
本発明についての、第4の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(III)の実施をさらに含む。
本発明についての、第5の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(I)、次いで、工程(II)の実施をさらに含む。
本発明についての、第6の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(I)、次いで、工程(III)の実施をさらに含む。
本発明についての、第7の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(II)、次いで、工程(I)の実施をさらに含む。
本発明についての、第8の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(II)、次いで、工程(III)の実施をさらに含む。
より典型的に、本発明に従う方法は、すべてが、in vitro転写により合成される場合に、全長mRNA転写物をもたらし、in vivoにおいて、mRNAによりコードされるタンパク質の高レベルの発現をもたらすことが予測される、最適化ヌクレオチド配列の短いリストを作成するために、終結シグナルベースの工程(I)、グアニン-シトシン含量ベースの工程(II)、およびコドン適応指標ベースの工程(III)を含む。終結シグナルベースの工程(I)、グアニン-シトシン含量ベースの工程(II)、およびコドン適応指標ベースの工程(III)は、任意の順序で実行される。工程は、最適化ヌクレオチド配列の短いリストを決定する場合に、計算時間を最適化する目的で、特異的な順序で実行されると有利である。
本発明についての、第9の特定の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(I)、次いで、工程(II)、次いで、工程(III)の実施をさらに含む。この順序でフィルタリングすることにより、フィルタリング工程の計算効率が最大化されるので有利であり得る。本発明者らは、典型的最適化ヌクレオチド配列のリスト、および典型的インプットパラメータについて、モチーフスクリーンフィルタに続く、GC含量分析フィルタに続く、CAI分析フィルタが、大半の配列をリストから除去することを見出した。フィルタリング工程の計算効率は、分析される配列の総数、すなわち、各フィルタリング工程内で分析される配列の合計により部分的に決定されるので、フィルタリング工程の早期において、より多くの配列が除去され、少数の配列は、フィルタリング工程の後期において、分析を要求し、これにより、方法の全体的計算効率を増大させる。さらに、CAI分析フィルタが、全配列の分析を要求するのに対し、本発明の実施形態では、モチーフスクリーンフィルタおよびGC含量分析フィルタは、配列の一部または部分だけを分析し得る。したがって、CAI分析工程へとインプットされる、リスト内の配列数の低減を強調する方法は、他の方法より、計算が効率的である可能性が高い。
本発明についての、第10の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(I)、次いで、工程(III)、次いで、工程(II)の実施をさらに含む。
本発明についての、第11の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(II)、次いで、工程(I)、次いで、工程(III)の実施をさらに含む。
本発明についての、第12の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(II)、次いで、工程(III)、次いで、工程(I)の実施をさらに含む。
本発明についての、第13の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(III)、次いで、工程(I)、次いで、工程(II)の実施をさらに含む。
本発明についての、第14の態様では、1つまたはそれ以上の最適化ヌクレオチド配列の生成の後、方法は、工程(III)、次いで、工程(II)、次いで、工程(I)の実施をさらに含む。
一部の実施形態では、アミノ酸配列は、アミノ酸配列のデータベースから受け取られる。一部の実施形態では、方法は、アミノ酸配列をアミノ酸配列のデータベースから要求する工程をさらに含み、アミノ酸配列は要求に応答して受け取られる。
一部の実施形態では、第1のコドン使用表は、コドン使用表のデータベースから受け取られる。一部の実施形態では、方法は、第1のコドン使用表をコドン使用表のデータベースから要求する工程をさらに含み、第1のコドン使用表は要求に応答して受け取られる。
第15の態様では、本発明は、コンピュータによりプログラムが実行される場合に、コンピュータに、第1の態様のうちの、任意の実施形態に従う方法を実行させる命令を含むコンピュータプログラムに関する。
第16の態様では、本発明は、第1の態様のうちの、任意の実施形態に従う方法を実行するための手段を含むデータ処理システムに関する。
第17の態様では、本発明は、その上に、第3の態様のコンピュータプログラムを格納する、コンピュータ読取り型データ記憶媒体に関する。
第18の態様では、本発明は、第3の態様のコンピュータプログラムを搬送する、データ搬送信号に関する。
第19の態様では、本発明は、ヌクレオチド配列を合成するための方法であって、第1の態様のうちの、任意の実施形態に従う方法を実行して、少なくとも1つの最適化ヌクレオチド配列を生成する工程;および生成された最適化ヌクレオチド配列のうちの少なくとも1つを合成する工程を含む方法に関する。一部の実施形態では、方法は、合成された最適化配列のうちの少なくとも1つを、in vitro転写における使用のための核酸ベクター内に挿入する工程をさらに含む。
一部の実施形態では、方法は、合成最適化ヌクレオチド配列の3’末端に、1つまたはそれ以上の終結シグナルを挿入する工程をさらに含む。一部の実施形態では、1つを超える終結シグナルは挿入され、前記終結シグナルは、10塩基対またはそれ未満隔てられ、例えば、5~10塩基対隔てられる。一部の実施形態では、1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:5’-XATCTXTX-3’[配列中、X、X、およびXは、独立に、A、C、T、またはGから選択される]を有する。一部の実施形態では、1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:TATCTGTT;TTTTTT;AAGCTT;GAAGAGC;および/またはTCTAGAのうちの1つを有する。一部の実施形態では、1つを超える終結シグナルは、以下のヌクレオチド配列:(a)5’-XATCTXTX-(Z)-XATCTXTX-3’、または(b)5’-XATCTXTX-(Z)-XATCTXTX-(Z)-XATCTXTX-3’[配列中、X、X、X、X、X5、、X、X、およびXは、独立に、A、C、T、またはGから選択され、Zは、Nヌクレオチドのスペーサー配列を表し、Zは、それらの各々が、独立に、A、C、T、またはGから選択される、Mヌクレオチドのスペーサー配列を表し、Nおよび/またはMは、独立に、10またはそれ未満である]によりコードされる。
一部の実施形態では、核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結されたRNAポリメラーゼプロモーターを含み、場合により、RNAポリメラーゼプロモーターは、SP6 RNAポリメラーゼプロモーター、またはT7 RNAポリメラーゼプロモーターである。一部の実施形態では、核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結された5’UTRをコードするヌクレオチド配列を含む。一部の実施形態では、5’UTRは、アミノ酸配列をコードする自然発生のmRNAの5’UTRと異なる。一部の実施形態では、5’UTRは、配列番号16のヌクレオチド配列を有する。一部の実施形態では、核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結された3’UTRをコードするヌクレオチド配列を含む。一部の実施形態では、3’UTRは、アミノ酸配列をコードする自然発生のmRNAの3’UTRと異なる。一部の実施形態では、3’UTRは、配列番号17または配列番号18のヌクレオチド配列を有する。一部の実施形態では、核酸ベクターは、プラスミドである。一部の実施形態では、プラスミドは、in vitro転写の前に直鎖化される。一部の実施形態では、プラスミドは、in vitro転写の前に直鎖化されない。一部の実施形態では、プラスミドは、超らせん状である。
一部の実施形態では、方法は、合成最適化ヌクレオチド配列のうちの少なくとも1つをin vitro転写において使用して、mRNAを合成する工程をさらに含む。一部の実施形態では、mRNAは、SP6 RNAポリメラーゼにより合成される。一部の実施形態では、SP6 RNAポリメラーゼは、自然発生のSP6 RNAポリメラーゼである。一部の実施形態では、SP6 RNAポリメラーゼは、組換えSP6 RNAポリメラーゼである。一部の実施形態では、SP6 RNAポリメラーゼは、タグを含む。一部の実施形態では、タグは、Hisタグである。一部の実施形態では、mRNAは、T7 RNAポリメラーゼにより合成される。
一部の実施形態では、方法は、合成されたmRNAを、キャッピングおよび/またはテーリングする別個の工程をさらに含む。一部の実施形態では、キャッピングおよびテーリングは、in vitro転写の間に起こる。
一部の実施形態では、mRNAは、1~10mMの各NTPの範囲の濃度のNTP、0.01~0.5mg/mlの範囲の濃度のDNA鋳型、および0.01~0.1mg/mlの範囲の濃度のSP6 RNAポリメラーゼを含む反応混合物中で合成される。一部の実施形態では、反応混合物は、5mMの各NTPの濃度のNTP、0.1mg/mlの濃度のDNA鋳型、および0.05mg/mlの濃度のSP6 RNAポリメラーゼを含む。
一部の実施形態では、mRNAは、37~56℃の範囲の温度で合成される。
一部の実施形態では、NTPは、自然発生のNTPである。一部の実施形態では、NTPは、修飾NTPを含む。
一部の実施形態では、方法は、アミノ酸配列をコードする参照ヌクレオチド配列、および本発明の方法に従う少なくとも1つの合成最適化ヌクレオチド配列を合成する工程と、参照ヌクレオチド配列、および少なくとも1つの最適化ヌクレオチド配列を、別個の細胞または生物と接触させる工程とをさらに含む。典型的な実施形態では、少なくとも1つの合成最適化ヌクレオチド配列と接触させた細胞または生物は、合成参照ヌクレオチド配列と接触させた細胞または生物により産生される、参照ヌクレオチド配列によりコードされるタンパク質の収量と比較して増大した収量の、最適化ヌクレオチド配列によりコードされるタンパク質を産生する。本発明についての任意の態様では、合成された場合の少なくとも1つの最適化ヌクレオチド配列は、タンパク質の発現を、合成された場合の参照ヌクレオチド配列によりコードされるタンパク質の発現と比較して増大させるように構成される。参照ヌクレオチド配列は、(a)アミノ酸配列をコードする自然発生のヌクレオチド配列;または(b)本発明の第1の態様に従う方法以外の方法により生成されるアミノ酸配列をコードするヌクレオチド配列であり得る。
一部の実施形態では、方法は、in vitroまたはin vivoにおいて、細胞に、合成最適化ヌクレオチド配列をトランスフェクトする工程をさらに含む。一部の実施形態では、トランスフェクトされた細胞内の、合成最適化ヌクレオチド配列によりコードされるタンパク質の発現レベルが決定される。一部の実施形態では、トランスフェクトされた細胞内の、合成最適化ヌクレオチド配列によりコードされるタンパク質の機能的活性が決定される。
第20の態様では、本発明は、治療における使用のための、本発明の方法に従い生成される合成最適化ヌクレオチド配列をもたらす。本発明のこの態様には、本発明の方法に従い生成される合成最適化ヌクレオチド配列を、このような処置を必要とするヒト対象へと投与する工程を含む処置方法が含まれる。一部の実施形態では、本明細書において記載された方法は、対象への送達または対象の処置における使用のための、治療用ペプチド、ポリペプチド、またはタンパク質をコードするmRNAを含む治療用組成物をもたらす。一部の実施形態では、mRNAは、嚢胞性線維症膜貫通コンダクタンス制御因子(CFTR)タンパク質をコードする。
第21の態様では、本発明は、10%以上の使用頻度と関連するコドンからなる、最適化ヌクレオチド配列を含み、最適化ヌクレオチド配列は、
(i)以下のヌクレオチド配列:
5’-XAUCUXUX-3’[配列中、X、X、およびXは、独立に、A、C、U、またはGから選択される];および5’-XAUCUXUX-3’[配列中、X、X、およびXは、独立に、A、C、U、またはGから選択される]
のうちの1つを有する終結シグナルを含有せず;
(ii)負のシス調節エレメント、および負の反復エレメントを含有せず;
(iii)0.8を超えるコドン適応指標を有し;
重複しない30ヌクレオチド長の部分へと分割された場合に、最適化ヌクレオチド配列の各部分は、30%~70%の範囲のグアニン-シトシン含量を有する、
in vitro合成核酸をもたらす。一部の実施形態では、最適化ヌクレオチド配列は、以下の配列:TATCTGTT;TTTTTT;AAGCTT;GAAGAGC;TCTAGA;UAUCUGUU;UUUUUU;AAGCUU;GAAGAGC;UCUAGAのうちの1つを有する終結シグナルを含有しない。一部の実施形態では、核酸は、mRNAである。一部の実施形態では、in vitro合成核酸は、治療における使用のための、in vitro合成核酸である。
本発明の実施形態は、例として、以下の図面を参照しながら説明される。
本発明の一実施形態によるコドン最適化方法を示す図である。 図2Aは、1つまたはそれ以上の実験的に得られたコドン使用頻度から生成された、ヒト(Homo sapiens)についての例示的なコドン使用表を示す。表中の値は、NCBI GenBankデータベース(Flat File Release 160.0)から公的に入手可能なコドン使用データに基づくCodon Usage Databaseを通じてアクセスしたデータから得られた。 図2Bは、図2Aの例示的なコドン使用表のコドン使用頻度を正規化することによって生成された正規化コドン使用表を示す。 コドン使用頻度表正規化のための例示的な方法で使用するためのコドン使用表の構築されたセクションを示す図である。 図4Aは、等しい使用頻度分布で正規化された、図3の例示的な表を示す。 図4Bは、比例使用頻度分布で正規化された、図3の例示的な表を示す。 コドン最適化のための例示的な方法で使用するためのアミノ酸配列の構築されたセクションを示す図である。 1つまたはそれ以上の終止シグナルを含むヌクレオチド配列を除去する際に使用するのに適した、終止シグナルを含むヌクレオチド配列モチーフの例示的なリポジトリを示す図である。 最適化ヌクレオチド配列のリストにさらなるアルゴリズムステップ、またはフィルタリングステップを適用するための方法を示す図である。特定の実施形態では、フィルタリングのための最適化ヌクレオチド配列のリストは、図1に示すような方法にしたがって生成されている。 グアニン-シトシン(GC)含量分析フィルタが最適化ヌクレオチド配列のリストに適用される本発明の実施形態を示す図である。特定の実施形態では、フィルタリングのための最適化ヌクレオチド配列のリストは、図1に示すような方法にしたがって生成されている。 モチーフスクリーンフィルタおよびコドン適応指標(CAI)分析フィルタが最適化ヌクレオチド配列のリストに適用される、本発明の実施形態を示す図である。特定の実施形態では、フィルタリングのための最適化ヌクレオチド配列のリストは、図1に示すような方法にしたがって生成されている。 モチーフスクリーンフィルタ、グアニン-シトシン(GC)含量分析フィルタ、およびコドン適応指標(CAI)分析フィルタが、この順序で、最適化ヌクレオチド配列のリストに適用されている、本発明の特定の実施形態を示す図である。特定の実施形態では、フィルタリングのための最適化ヌクレオチド配列のリストは、図1に示すような方法にしたがって生成されている。 非最適化および最適化ヌクレオチド配列のグアニン-シトシン(GC)含量の分析例を示し、EPOをコードするヌクレオチド配列の部分のグアニン-シトシン(GC)含量は、30ヌクレオチド長の隣接非重複部について決定される図である。 EPOのELISAアッセイによって決定される、様々なコドン最適化ヌクレオチド配列から産生されるタンパク質の収量を示す例示的な棒グラフを示す図である。 図13Aは、最適化ヌクレオチド配列がヒト細胞にトランスフェクトされた後、タイムコース実験において本発明の方法にしたがって生成された最適化ヌクレオチド配列によってコードされるCFTRタンパク質のタンパク質発現収率を決定するために使用されるウェスタンブロットの一例を示す。 図13Bは、図13Aに示されたウェスタンブロットデータの定量化を示す例示的な線プロットを示す。 図14Aは、hCFTRをコードする最適化ヌクレオチド配列を含むmRNAを試験するためのバイオアッセイから得られたデータの例示的なプロットを示す。各試験mRNAについてのUssing上皮電圧クランプ装置内の短絡電流(ISC)出力を示している。 図14Bは、hCFTRをコードする参照mRNAの活性に対するパーセント比率として表される、図14Aに示されたようなhCFTR活性の変化を示す例示的な棒プロットである。 図15Aは、HEK293T細胞におけるコドン最適化DNAI1mRNAの翻訳および発現を示す例示的なウェスタンブロットを示す。ウェスタンブロットは、抗DNAI1抗体および抗ビンキュリン抗体(ローディングコントロール)を用いて行った。 図15Bは、図15Aの例示的なウェスタンブロットから定量化した、ビンキュリンタンパク質(ローディングコントロール)に対して正規化したDNAI1タンパク質発現のレベルを示す例示的な棒グラフを示す。DNAI1タンパク質発現収量は、コドン最適化されていないDNAI1配列をコードするmRNAで達成された参照レベルに対する増加倍数としてグラフ化される。
定義
本発明をより容易に理解するために、最初にある特定の用語を下に定義する。以下の用語および他の用語についてのさらなる定義は、本明細書にわたり述べられる。
本明細書および添付の特許請求の範囲に使用される場合、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、文脈が明らかに他のことを指し示さない限り、複数の指示対象を含む。
具体的に述べない限り、または文脈から明らかでない限り、本明細書に使用される場合の「または」という用語は、包括的であると理解され、「または」と「および」との両方を包含する。
「例えば」および「すなわち」という用語は、本明細書に使用される場合、限定を意図せず単に一例として使用されるのであって、本明細書において明示的に列挙される項目だけを指すものと解釈されるべきではない。
「以上」、「少なくとも」、「より多い」などの用語、例えば「少なくとも1つ」は、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149または150、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、または記載された値よりも大きな値を含むが、それに限定されるわけではないことが理解される。任意のより大きな数またはその間の分数も含まれる。
逆に、「以下」という用語は、記載された値よりも小さな各値を含む。例えば、「100ヌクレオチド以下」は、100、99、98、97、96、95、94、93、92、91、90、89、88、87、86、85、84、83、82、81、80、79、78、77、76、75、74、73、72、71、70、69、68、67、66、65、64、63、62、61、60、59、58、57、56、55、54、53、52、51、50、49、48、47、46、45、44、43、42、41、40、39、38、37、36、35、34、33、32、31、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2、1、および0個のヌクレオチドを含む。任意のより小さな数またはその間の分数も含まれる。
「複数」、「少なくとも2つ」、「2つ以上」、「少なくとも第2」などの用語は、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149または150、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000以上を含むが、それに限定されるわけではないと理解される。任意のより大きな数またはその間の分数も含まれる。
具体的に述べない限り、または文脈から明らかでない限り、本明細書に使用される場合の「約」という用語は、当技術分野における通常の許容範囲内、例えば、平均から2標準偏差内として理解される。「約」は、記載された値の10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%、0.1%、0.05%、0.01%、または0.001%以内であると理解することができる。文脈から明らかでない限り、本明細書に提供されるすべての数値は、当業者が認識できる通常の変動を反映する。
本明細書に使用される場合、「中断転写産物」または「事前中断転写産物」などの用語は、鋳型DNAからのRNAポリメラーゼの配列非依存的な中途放出に起因する、DNA鋳型によってコードされる完全長mRNA分子よりも短い任意の転写産物である。一部の実施形態では、中断転写産物は、標的DNA分子から転写された完全長mRNA分子の長さの90%未満、例えば、完全長mRNA分子の長さの80%、70%、60%、50%、40%、30%、20%、10%、5%、1%未満であり得る。
本明細書に使用される場合、「コドン(複数可)」という用語は、一緒になって遺伝コードの単位を形成するヌクレオチド3つの配列を指す。各コドンは、翻訳またはタンパク質合成のプロセスにおいて特定のアミノ酸または停止シグナルに対応する。遺伝コードは、縮重し、1つより多いコドンが特定のアミノ酸残基をコードする可能性がある。例えば、コドンは、DNAまたはRNAヌクレオチドを含む可能性がある。
本明細書に使用される場合、「コドン最適化」および「コドン最適化された」という用語は、そのアミノ酸配列を変化させない、ペプチド、ポリペプチドまたはタンパク質をコードする自然発生のまたは野生型核酸のコドン組成の修飾により、前記核酸のタンパク質発現を改善することを指す。本発明に関連して、「コドン最適化」はまた、グアニン-シトシン含量、コドン適応指標、不安定化核酸配列もしくはモチーフの存在、ならびに/または休止部位および/もしくはターミネーターシグナルの存在によるフィルタリングのようなフィルタを用いてヌクレオチド配列のリストから最適未満のヌクレオチド配列を除去することによって、1つまたはそれ以上の最適化ヌクレオチド配列に到達するプロセスを指す場合がある。
本明細書に使用される場合、「完全長mRNA」は、特定のアッセイ、例えば、ゲル電気泳動およびUVを使用する検出、ならびにキャピラリ電気泳動による分離を伴うUV吸収分光法を使用した場合に特徴付けられるものである。完全長ポリペプチドをコードするmRNA分子の長さは、標的DNAから転写される完全長mRNA分子の長さの少なくとも50%、例えば、標的DNAから転写された完全長mRNA分子の長さの少なくとも60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.01%、99.05%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、99.9%である。
本明細書に使用される場合、「in vitro」という用語は、人工の環境中で、例えば、多細胞生物内ではなく試験管または反応器内、細胞培養物中などで起こる事象を指す。
本明細書に使用される場合、「in vivo」という用語は、ヒトおよび非ヒト動物のような多細胞生物内で起こる事象を指す。細胞ベースシステムに関連して、この用語は、(例えば、in vitroシステムとは対照的に)生きた細胞内で起こる事象を指すために使用される場合がある。
本明細書に使用される場合、「メッセンジャーRNA(mRNA)」という用語は、少なくとも1つのポリペプチドをコードするポリリボヌクレオチドを指す。mRNAは、本明細書に使用される場合、修飾型RNAおよび非修飾型RNAの両方を包含する。mRNAは、1つまたはそれ以上のコード領域および非コード領域を含み得る。mRNAは、天然源から精製すること、組換え発現システムを使用して産生し、場合により精製すること、in vitro転写すること、または化学合成することができる。適切ならば、例えば化学合成された分子の場合、mRNAは、化学修飾された塩基または糖、骨格修飾などを有する類似体のようなヌクレオシド類似体を含む可能性がある。特に示さない限り、mRNA配列は、5’から3’方向に提示される。
本明細書に使用される場合、「核酸」という用語は、その最も広い意味で、ポリヌクレオチド鎖に組み入れられる、または組み入れることができる任意の化合物および/または物質を指す。一部の実施形態では、核酸は、ホスホジエステル結合を介してポリヌクレオチド鎖に組み入れられる、または組み入れることができる化合物および/または物質である。一部の実施形態では、「核酸」は、個々の核酸残基(例えば、ヌクレオチドおよび/またはヌクレオシド)を指す。一部の実施形態では、「核酸」は、個々の核酸残基を含むポリヌクレオチド鎖を指す。一部の実施形態では、「核酸」は、RNAのみならず、一本鎖および/または二本鎖のDNAおよび/またはcDNAを包含する。さらに、「核酸」、「DNA」、「RNA」という用語、および/または類似の用語は、核酸類似体、すなわち、ホスホジエステル骨格以外を有する類似体を含む。特に示さない限り、核酸配列は、5’から3’方向に提示される。
本明細書に使用される場合、「ヌクレオチド配列」という用語は、その最も広い意味で、核酸内の核酸塩基の順序を指す。一部の実施形態では、「ヌクレオチド配列」は、遺伝子内の個々の核酸塩基の順序を指す。一部の実施形態では、「ヌクレオチド配列」は、タンパク質コード遺伝子内の個々の核酸塩基の順序を指す。一部の実施形態では、「ヌクレオチド配列」は、一本鎖および/または二本鎖のDNAおよび/またはcDNA内の個々の核酸塩基の順序を指す。一部の実施形態では、「ヌクレオチド配列」は、RNA内の個々の核酸塩基の順序を指す。一部の実施形態では、「ヌクレオチド配列」は、mRNA内の個々の核酸塩基の順序を指す。特定の実施形態では、「ヌクレオチド配列」は、RNAまたはDNAのタンパク質コード配列内の個々の核酸塩基の順序を指す。特に示さない限り、ヌクレオチド配列は、通常、5’から3’方向に提示される。
本明細書に使用される場合、「中途終止」という用語は、完全長のDNA鋳型が転写される前の転写終止を指す。本明細書に使用される場合、中途終止は、DNA鋳型内にヌクレオチド配列モチーフ(本明細書において単に「モチーフ」とも称される)、例えば終止シグナルが存在することによって起こる可能性があり、結果として完全長mRNAよりも短いmRNA転写産物(「中途終止転写産物」または「切断型mRNA転写産物」)が生じる。終止シグナルの例には、本明細書に記載されるような大腸菌(E.coli)rrnBターミネーターt1シグナル(コンセンサス配列:ATCTGTT)およびそのバリアントが挙げられる。
本明細書に使用される場合、「鋳型DNA」(または「DNA鋳型」)という用語は、in vitro転写によって合成されることになるmRNA転写産物をコードする核酸配列を含むDNA分子に関する。鋳型DNAは、鋳型DNAによってコードされるmRNA転写産物を産生するために、in vitro転写用の鋳型として使用される。鋳型DNAは、in vitro転写に必要なすべてのエレメント、特に、所望のmRNA転写産物をコードするDNA配列に作動可能に連結された、例えば、T3、T7およびSP6 RNAポリメラーゼのようなDNA依存性RNAポリメラーゼの結合のためのプロモーターエレメントを含む。さらに、鋳型DNAは、mRNA転写産物をコードするDNA配列の同一性を、例えばPCRまたはDNA配列決定により決定するために、mRNA転写産物をコードするDNA配列の5’および/または3’にプライマー結合部位を含み得る。「鋳型DNA」は、本発明に関連して、直鎖状または環状DNA分子であり得る。本明細書に使用される場合、「鋳型DNA」という用語は、所望のmRNA転写産物をコードする核酸配列を含む、プラスミドDNAのようなDNAベクターを指し得る。
本明細書において使用されるすべての技術用語および科学用語は、本出願が属する技術分野の当業者によって一般に理解されるもの、および本出願が属する技術分野で一般に使用されるものと同じ意味を有する。本発明の背景を説明するため、およびその実施に関してさらなる詳細を提供するために本明細書において参照される刊行物および他の参考資料は、参照によって本明細書に組み入れられる。
発明の詳細な説明
コドン最適化の機能
遺伝子発現のプロセスでは、DNA配列にコードされるヌクレオチド配列がRNA分子に転写され、続いて、ポリペプチド鎖を含むタンパク質に翻訳される。タンパク質産物に組み込まれることになるアミノ酸残基の正確な順序を特定している配列情報は、DNAおよび/またはmRNA配列に「コドン」としてコードされる。コドンは、一緒になって遺伝コードの単位を形成するヌクレオチド3つの配列を含み、各コドンは、特定のアミノ酸または停止コドンシグナルに対応する。遺伝コードは縮重し、1つより多いコドンが特定のアミノ酸残基をコードする可能性がある。
mRNAは、典型的に、情報をDNAからリボソームに運ぶ種類のRNAとして考えられている。mRNAの存在は、通常、非常に短時間であり、プロセシングおよび翻訳に続いて分解を含む。典型的に、真核生物では、mRNAのプロセシングは、N-(5’)末端への「キャップ」およびC-(3’)末端への「テール」の付加を含む。典型的なキャップは、最初に転写されたヌクレオチドに5’-5’-三リン酸結合を経由して連結されたグアノシンである7-メチルグアノシンキャップである。キャップの存在は、大部分の真核細胞に見出されるヌクレアーゼに対する抵抗性を提供する上で重要である。テールは、典型的には、ポリA部分がmRNA分子の3’末端に付加されるポリアデニル化事象である。この「テール」の存在は、mRNAをエキソヌクレアーゼ分解から保護するように機能する。メッセンジャーRNAは、典型的にはリボソームによって、タンパク質を構成する一連のアミノ酸に翻訳される。
遺伝子発現の様々な工程で、特定のタンパク質が発現または産生されるレベルに数多くの要因が影響する可能性がある。例えば、DNA配列はRNAポリメラーゼ酵素によってmRNAに転写されるので、ある特定のヌクレオチド配列モチーフの存在が転写の中途終止を起こす可能性がある。遺伝子のタンパク質コード領域(「コード配列」)内のコドンの特定の組成および順序もまた、タンパク質発現の効率および収率に正に、または負に影響する可能性がある。例えば、低コドン使用頻度によって特徴付けられる稀少コドンの存在は、特定のアミノ酸をコードする同族転移RNAの量が少ないせいで、タンパク質発現の収率に負に影響する可能性がある。バイオテクノロジーへの応用および治療応用、例えば、mRNA療法を含む治療応用では、タンパク質をコードするヌクレオチド配列から前記タンパク質を発現させる場合、そのタンパク質の収率を増加させるまたは最大限にすることがしばしば望ましい。コドン最適化は、遺伝コードの冗長性のためコードされるアミノ酸配列を変化させずに、タンパク質をコードするヌクレオチド配列を様々な基準に基づき産生する。言い換えると、複数のコドンが単一のアミノ酸をコードするので、多数のヌクレオチド配列が同じアミノ酸配列をコードする可能性がある。コドン最適化は、タンパク質の収率増加を達成するであろう1つまたはそれ以上のヌクレオチド配列を産生することを目的とする。
最適化ヌクレオチド配列の生成のためのアミノ酸配列
自然発生のヌクレオチド配列は、関心が持たれるタンパク質、ポリペプチドまたはペプチドをコードするアミノ酸配列を提供するために使用される場合がある。ヌクレオチド配列は、関心が持たれる生物から核酸分子を単離し、その中の核酸塩基(例えば、グアニン、チミン、ウラシル、アデニン、およびシトシン)の正確な順序を特定することによって得ることができる。自然発生のヌクレオチド配列を得るために適した、当技術分野において公知の複数の方法がある。タンパク質をコードする遺伝子のヌクレオチド配列は、様々なDNAまたはRNAの周知の配列決定法によって得ることができる。
例えば、ヒト細胞からのDNAを、抽出し、単離し、続いて断片化することができる。断片化したDNAをDNAベクターに入れてクローニングし、細菌宿主中で増幅させ、短いDNA断片の「ライブラリー」を生成することができる。あるいは、ポリメラーゼ連鎖反応(PCR)を使用して、断片化DNAを増幅し、それを、高スループット配列決定法に適したライブラリーに組み入れることができる。起源生物の本来のDNA物質から導出された短いDNA断片を個別に配列決定し、続いて、配列組立てによって、1つまたはそれ以上の長い連続配列に組み立てることができる。配列組立ては、より長いヌクレオチド配列から導出されたヌクレオチド配列の短い断片を整列させ、併合して、本来のヌクレオチド配列またはコンセンサスヌクレオチド配列を再構築するバイオインフォマティクスアプローチである。
このように生成したヌクレオチド配列、すなわち、実験的に導出され、自然発生の配列を正確に説明することが知られている配列は、典型的には、公的にアクセス可能なリポジトリまたはデータベースに記憶されている。例えば本発明の方法により処理することができるヌクレオチド配列は、米国国立バイオテクノロジー情報センター(NCBI)のGenBankデータベースから得ることができる。Genbankは、公的に入手可能なヌクレオチド配列およびそれらが翻訳されたタンパク質配列の、オープンアクセスの注釈付きコレクションである。
コドン使用表の生成
遺伝コードは、可能な64種のコドンを有する。各コドンは、ヌクレオチド3つの配列を含む。特定のコドンがゲノムのタンパク質コード領域内に出現する実現値の数を決定し、続いて、得られた値を、ゲノムのタンパク質コード領域内の、同じアミノ酸をコードするコドンの合計数で割ることによって、ゲノムのタンパク質コード領域の各コドンについて使用頻度を計算することができる。例えば、公的にアクセス可能なレポジトリおよび/またはデータベースに見出されるヌクレオチド配列にこれらの計算を行うことができ、したがって、実験的に導出されたデータも表すことができる。
コドン使用表は、所与の生物における各コドンの使用頻度を特定する。表の各アミノ酸は、少なくとも1つのコドンと関連し、各コドンは、使用頻度と関連する。コドン使用表は、Codon Usage Database(Nakamuraら(2000)Nucleic Acids Research 28(1)、292;https://www.kazusa.or.jp/codon/からオンラインで入手可能)、およびHigh-performance Integrated Virtual Environment-Codon Usage Tables(HIVE-CUTs)データベース(Atheyら、(2017)、BMC Bioinformatics 18(1)、391;http://hive.biochemistry.gwu.edu/review/codonからオンラインで入手可能)のような、公的に入手可能なデータベースに記憶されている。
コドン最適化
図1は、本発明によるコドン最適化法を示す。第1の工程101で、アミノ酸配列が受け取られる。アミノ酸配列は、遠隔システム、サーバ、および/または公的にアクセス可能なデータベースから受け取られる場合、および無線で、例えばインターネットを介して受け取られる場合がある。あるいは、アミノ酸配列は、ローカルシステムから、例えば、有線接続を介して受け取られる場合がある。アミノ酸配列は、複数のアミノ酸を含む。
第2の工程102では、第1のコドン使用表が受け取られる。第1のコドン使用表は、遠隔システム、サーバおよび/または公的にアクセス可能なデータベースから受け取られる場合、ならびに無線で、例えばインターネットを介して受け取られる場合がある。あるいは、第1のコドン使用表は、ローカルシステムから、例えば有線接続を介して受け取られる場合がある。第1のコドン使用表は、アミノ酸のリストを含み、その際、表の各アミノ酸は、少なくとも1つのコドンと関連し、各コドンは、使用頻度と関連する。
第3の工程103では、コドンが、閾値頻度未満であるコドン使用頻度と関連する場合、それらのコドンが第1のコドン使用表から除去される。
第4の工程104では、第3の工程103で除去されなかったコドンのコドン使用頻度が正規化されて、正規化コドン使用表が生成される。
第5の工程105では、正規化コドン使用表のアミノ酸と関連する1つまたはそれ以上のコドンの使用頻度に基づき、アミノ酸配列のアミノ酸ごとにコドンを選択することによって、最適化ヌクレオチド配列が生成される。
コドン使用表の正規化
図2Aを参照して、コドン使用表のデータベースに見出される場合があるコドン使用表を示す。示したコドン使用表は単なる例であって、任意のコドン使用表、例えばデータベースから入手可能な任意のコドン使用表が本発明によって使用され、最適化ヌクレオチド配列を産生し得ることが認識されよう。図2Aを産生するために使用したデータは、Codon Usage Databaseを経由してアクセスされたデータから、NCBI GenBankデータベース(Flat File Release 160.0)を経由して公的に入手可能なコドン使用データに基づき導出されたものである。
コドン使用表は、表が生成された特定の生物学的起源について、各コドンがある特定のアミノ酸をコードするために使用される頻度に関する、実験的に導出されたデータを含む。この情報は、コドンごとに、そのコドンがある特定のアミノ酸をコードするために使用される頻度の、コドンがアミノ酸をコードする合計回数に対するパーセンテージ(0~100%)、または割合(0~1)として表現される。
図2Bは、本発明の方法により図2Aの表から生成された正規化コドン使用表を示す。図2Bの例では、正規化を行うための閾値頻度は10%であった。これは単なる例であること、および本発明の実施形態は、本明細書に記載される任意の他の適切な閾値頻度を使用し得ることが認識されよう。
正規化コドン使用表を提供し得る方法であって、図2Bの場合に提供された方法を図3に示す。図3は、例示的なアミノ酸「X」および「Y」を使用している。正規化コドン使用表を生成する場合、コドン使用表の1つのアミノ酸からあらゆるアミノ酸まで、任意の数のアミノ酸が正規化される場合があることが認識されよう。図3の例では、アミノ酸Xは、図に定義される頻度で、コドンA、B、C、D、E、およびFによってコードされる(各コドンはヌクレオチドトリプレットによって表され、したがって、図ではAAA、BBBなどで表示される)。アミノ酸Yは、コドンGおよびHによって、図に定義される頻度でコードされる。第1の工程では、閾値頻度を下回る使用頻度を有するコドンがあれば、それらが表から除去される。図3に示した方法は10%の閾値頻度を使用しているものの、これは単なる例であって、本発明の範囲を限定することを意図するものではないことが認識されよう。閾値頻度は、5%~30%の範囲、例えば、5%、または15%、または20%、または25%、または30%、または特に10%であり得る。これらの閾値頻度の値は、タンパク質収率の増加と、新生ポリペプチド鎖の翻訳の制御および固有のフォールディングの保証に重要な情報の保持との間の効果的なバランスを提供することが見出されている。特に図3のコドン使用表はアミノ酸2つだけからなるので、それが実際の自然発生のコドン使用を正確に説明しているわけではないことが認識されよう。図3の表は、コドン使用表の正規化方法の単なる例証であることが意図される。
図3の例では、コドンCおよびEは、10%の閾値頻度を下回る使用頻度を有し、したがって、表から除去される。除去されたコドン、CおよびEの合算使用頻度は16%である。次いで、この合算使用頻度が、アミノ酸Xをコードする残りのコドンの間で分配される。アミノ酸Xから除去された合算使用頻度は、同様にアミノ酸Xをコードする残りのコドンだけに分配され、すなわち、図4Aおよび4Bの例では、アミノ酸YをコードするコドンGおよびHの使用頻度は不変であることに留意することが重要である。
一部の実施形態では、除去された合算使用頻度が、アミノ酸Xをコードする残りのコドンの間で等分配される。このような実施形態は、図4Aに示される。除去された合算使用頻度16%は、残りのコドンA、B、D、およびFの間で等分配されており、その結果、残りのコドンの各々は、追加的な使用頻度4%を受け取っている。アミノ酸Xのコドン使用頻度がこれで正規化された。
一部の実施形態では、除去された合算使用頻度が、アミノ酸Xをコードする残りのコドンの間で比例分配される。このような実施形態は、図4Bに示される。除去された合算使用頻度16%は、残りのコドンA、B、D、およびFの使用頻度に比例して、残りのコドンA、B、D、およびFの間で分配されている。この例では、コドンA、B、D、およびFの使用頻度の比は、15:20:38:11、または0.18:0.24:0.45:0.13である。コドンAは、16%の0.18倍(3%)を受け取り、Bは、16%の0.24倍(4%)を受け取り、Dは、16%の0.45倍(7%)を受け取り、Fは、16%の0.13倍(2%)を受け取る。アミノ酸Xのコドン使用頻度がこれで正規化された。
このように、受け取ったコドン使用表、または第1のコドン使用表の構造および内容が、正規化コドン使用表の生成を教示する。各アミノ酸に関連するコドンの数は、除去されたコドン使用頻度の再分配を教示し、コドン使用頻度自体は、どのコドンが除去されるかを、および一部の実施形態では分配の比例性を教示する。
最適化ヌクレオチド配列の生成
最適化ヌクレオチド配列は、正規化コドン使用表のアミノ酸に関連する1つまたはそれ以上のコドンの使用頻度に基づき、アミノ酸配列のアミノ酸ごとにコドンを選択することによって生成される。最適化ヌクレオチド配列は、選択されたコドンを、それらに関連するアミノ酸がアミノ酸配列に出現する順に配置することによって生成される。
図5を参照して、図3、4A、および4BからのコドンA、B、C、D、E、およびFを使用する最適化ヌクレオチド配列の生成の図解がある。図5の図解では、各コドンが3つのヌクレオチドによって表される場合があり、コドンAはヌクレオチドAAAによって表され、コドンBは、ヌクレオチドBBBによって表されるなどである。
例示的なアミノ酸配列、XYYXXXが受け取られる。この例について、本発明者らは、アミノ酸XおよびYが、図3、4A、および4Bに関して定義されるようにコドンA、B、C、D、E、F、G、およびHに関連すると仮定する。この例では、図3のコドン使用表は、確率ベースで正規化されており、図4Bの正規化コドン使用表をもたらしている。工程501では、アミノ酸ごとに、正規化コドン使用表のコドンに関連する使用頻度に等しい確率でコドンが選択される。例えば、配列の第1のアミノ酸Xについて、コドンAが選択される偶然は18%、コドンBが選択される偶然は24%、コドンDが選択される偶然は45%、コドンFが選択される偶然は13%ある。これは、アミノ酸XがコドンA、B、D、およびFによってコードされ、したがって、正規化コドン使用表のこれらのコドンと関連するからであり、それで、アミノ酸Xについて選択されるコドンは、コドンA、B、D、およびFのうちの1つであろう。
このプロセスは、ある特定のコドンを選択する確率を教示するために正規化コドン使用表を使用して、アミノ酸ごとに繰り返される。したがって、配列の第2のアミノ酸Yについて、コドンGが確率60%で選択され、コドンHが確率40%で選択される。アミノ酸ごとにコドンが選択された後、ヌクレオチドから構成される、結果として生じたコドンの配列が、最適化ヌクレオチド配列と称される場合がある。
図5は、例証であり、ヌクレオチドの最適化配列の生成の理解を助けることだけを意図する。図5は、実際に受け取ったアミノ酸配列または最適化ヌクレオチド配列の長さ、含量、または構造を示さない場合があり、単に方法を略図で示すものである。
複数の最適化ヌクレオチド配列の生成
アミノ酸配列および正規化コドン使用表を使用する最適化ヌクレオチド配列の生成は、最適化ヌクレオチド配列のリストを生成するために1回よりも多く行われる場合がある。
最適化ヌクレオチド配列の生成はコドンの確率的選択に基づくので、リストは、任意の数の異なる最適化ヌクレオチド配列を含み得る。さらにまた、最適化ヌクレオチド配列の生成が置換コドンの確率的選択に基づくので、リストは、任意の数の二つ組の最適化ヌクレオチド配列、すなわち同一の最適化ヌクレオチド配列を含み得る。最適化ヌクレオチド配列のリストを生成する場合、典型的には同一の最適化配列が除去される。
一部の実施形態では、最適化ヌクレオチド配列のリストの最適化ヌクレオチド配列の1つもしくはそれ以上、またはすべては、トランスフェクションによる試験、治療への使用のため、または本明細書に記載される合成最適化ヌクレオチド配列の任意の他の使用のために合成される。
最適化ヌクレオチド配列のリストのフィルタリング
最適化ヌクレオチド配列のリストの最適化ヌクレオチド配列の数は、少なくとも、アミノ酸配列の長さおよび含量、閾値コドン使用頻度の値、第1のコドン使用表の内容、およびコドン最適化アルゴリズムが実行される回数、すなわち、最適化ヌクレオチド配列が生成される回数に依存する。例えば、最適化ヌクレオチド配列のリストは、10,000以上の最適化ヌクレオチド配列を含み得る。細胞、組織または生物においてリストの各最適化ヌクレオチド配列を合成し、試験することは、いくつかのシナリオで、例えば、比較的短いアミノ酸配列のようなある特定のアルゴリズム入力パラメータについて、有利であり得る。同様に、ある特定のシナリオでは、例えば、コンピュータプロセスの複雑さを減らすこと、または細胞、組織、もしくは生物において合成され、試験される配列の数を減らすことが望ましい場合に、有利でない場合がある。したがって、例えば合成の前に、ヌクレオチド配列のリストの最適化ヌクレオチド配列の数を減らすことが望ましい場合がある。これは、リストのあらゆる配列を合成するためにかかる時間およびそれを行うために必要な資源を有利に減らし得る。
したがって、典型的な実施形態では、リストをフィルタリングするため、またはリストから最適化ヌクレオチド配列を除去するために、1つまたはそれ以上のさらなるアルゴリズム工程が最適化ヌクレオチド配列のリストに行われる。1つまたはそれ以上のさらなるアルゴリズム工程は、モチーフスクリーン、GC含量分析、およびコドン適応指標(CAI)分析と称される場合がある。特定のさらなるアルゴリズム工程が本明細書において詳細に記載されるものの、これらは、それだけが行われるフィルタリング工程でない場合があり、本特許請求の範囲内で最適化ヌクレオチド配列のリストをさらにフィルタリングするために、追加的な工程が行われる場合があることが認識されよう。
本発明者らは、これらのさらなるアルゴリズム工程、ならびに関連するモチーフ、範囲、および閾値は、リストに残る配列よりも効果的でない可能性がある配列をリストから除去することによって、最適化ヌクレオチド配列のリストを有利にフィルタリングすることを見出した。このように、リストのフィルタリングは単に自由裁量ではない。言い換えると、本明細書に記載される方法を使用して、リストをある特定の数の配列までフィルタリングすることは、リストから同じある特定の数の配列をランダムに選択した場合よりも効果的な配列を含む、配列の更新されたリストを産生するであろう。したがって、効率と、合成プロセスで達成される複雑さの低減とが、多数の効果的な最適化ヌクレオチド配列を犠牲にせずに得られる。例えば、本発明の方法によって生成される最適化ヌクレオチド配列は、終止シグナルを含まない。終止シグナルが存在しないことは、in vitro転写を使用して、コードされる最適化ヌクレオチド配列から完全長mRNA分子を合成することを促進する。終止シグナルが存在することは、in vitro転写の中途終止をもたらす。したがって、本明細書に記載される方法を使用してリストをフィルタリングすることは、より効果的な配列を含む、配列の更新されたリストを産生する。
最適化ヌクレオチド配列のリストのフィルタリングは、1つまたはそれ以上の基準に適合しない最適化ヌクレオチド配列を特定し、除去するための、最適化ヌクレオチド配列のリストのスクリーニングと称される場合がある。基準はそれぞれ、本明細書に詳細に記載されるようなある特定のさらなるアルゴリズム工程に関し得る。言い換えると、基準は:終止シグナルを含まない最適化ヌクレオチド配列(第1の基準)、予め決定されたグアニン-シトシン含量範囲内のグアニン-シトシン含量を有する最適化ヌクレオチド配列(第2の基準)、予め決定されたコドン適応指標の閾値よりも大きなコドン適応指標を有する最適化ヌクレオチド配列(第3の基準)、および有しない最適化ヌクレオチド配列を含み得る。使用される基準の番号付けは単に明確さのためであり、工程の順序を限定する意図はないことが認識されよう。工程の順序は、本明細書の他の箇所に詳細に説明されている。
本明細書において特定の基準が詳細に説明されているものの、これらは、最適化ヌクレオチド配列がスクリーニングされる唯一の基準でない場合があり、本特許請求の範囲内に最適化ヌクレオチド配列のリストをさらにフィルタリングするために追加的な基準がスクリーニングされる場合があることが認識されよう。
各最適化ヌクレオチド配列をスクリーニングする場合、それが基準を満たすかどうかを決定する前に、最適化ヌクレオチド配列全体を分析してもよい。あるいは、各最適化ヌクレオチド配列を部分ごとに分析してもよい。部分は、ウインドウと称される場合がある。
例として、600ヌクレオチド長を有する、最適化ヌクレオチド配列のリストの最適化ヌクレオチド配列について、部分の長さは、30ヌクレオチドで選択される場合がある。最適化ヌクレオチド配列の第1の30ヌクレオチド、すなわち最適化ヌクレオチド配列のヌクレオチド1~30が、ある特定の基準の遵守について最初に分析される場合がある。第1の部分が基準に適合しない場合、最適化ヌクレオチド配列が、最適化ヌクレオチド配列のリストから除去される場合がある。
第1の部分が基準に適合する場合、次いで、フィルタが最適化ヌクレオチド配列の第2の部分を分析する場合がある。この例では、これは、最適化ヌクレオチド配列の第2の30ヌクレオチド、すなわち、ヌクレオチド31~60であり得る。以下のいずれかまで、部分ごとに部分分析が繰り返される場合がある:部分が基準に適合しないことが見出される(この場合、最適化ヌクレオチド配列がリストから除去される場合がある)、または最適化ヌクレオチド配列全体が分析され、そのような部分が見出されなかった(この場合、フィルタは最適化ヌクレオチド配列をリストに保持し、リストの次の最適化ヌクレオチド配列に移動してよい)。この例では、フィルタが最適化ヌクレオチド配列の最終部分、すなわちヌクレオチド571~600に到達し、この最終部分が基準を満たす場合、フィルタは、最適化ヌクレオチド配列をリストに保持し、リストの次の最適化ヌクレオチド配列に移動してよい。あるいは特に、各部分は100ヌクレオチド長であり得る。
上記例は、第1のヌクレオチドから開始し、最終ヌクレオチドに進む、部分ごとのフィルタを説明しているものの、これは単なる例であり、最適化ヌクレオチド配列の部分が分析される順序は、当業者に明らかな任意の順序であり得ることが認識されよう。フィルタは、例えば、最終ヌクレオチド(作業例ではヌクレオチド600)を含む部分で開始し、第1のヌクレオチドであるヌクレオチド1に向かって戻る場合、または第1のヌクレオチドと最終ヌクレオチドとの間の任意の位置の部分で開始する場合がある。
その他の部分と異なる長さを有する最適化ヌクレオチド配列の第1、最終、または中間部分があり得る。これは、例えば、最適化ヌクレオチド配列のヌクレオチド長が、部分のヌクレオチド長で割り切れない場合に起こり得る。
本明細書の他の箇所に詳述するように、部分ごとの分析は、少なくとも計算効率に有利であり得るが、あまり望ましくない配列をより効果的に特定するためにも有利であり得る。あまり望ましくない配列は、平均して基準を満たし得るが、基準を満たさないセクション、例えばGC含量またはCAIスコアのピークまたはトラフを含み得る。
リストの最適化ヌクレオチド配列は、以下の2つのやり方の一方で1つまたはそれ以上の基準の遵守についてスクリーニングされる場合がある:各配列が、すべての関連する基準についてスクリーニングされ、そのどれにも適合しない場合、リストから除去される場合がある;または特に、リストのすべての配列が、ある特定の基準についてスクリーニングされ、縮小した、フィルタリングされたリストが、関心が持たれるさらなる基準についてスクリーニングされる場合がある。
モチーフのスクリーニング
一部の実施形態では、モチーフのスクリーンフィルタが、最適化ヌクレオチド配列のリストに適用される場合がある。このような実施形態では、最適化ヌクレオチド配列のリストが分析されて、リストの各最適化ヌクレオチド配列が終止シグナルを含むかが決定される。最適化ヌクレオチド配列のリストは、コドン最適化アルゴリズムによって本来生成された最適化ヌクレオチド配列のリストの場合、または1つもしくはそれ以上のさらなるアルゴリズム工程によってすでにフィルタリングされた最適化ヌクレオチド配列のリストの場合がある。1つまたはそれ以上の追加的なアルゴリズム工程によってすでにフィルタリングまたは更新された最適化ヌクレオチド配列のリストは、最適化ヌクレオチド配列の更新されたリストまたは最近更新されたリストと称される場合がある。1つまたはそれ以上の終止シグナルを含む任意の最適化ヌクレオチド配列がリストから除去されて、更新されたリストが産生される場合がある。
図6を参照して、終止シグナルは、以下のヌクレオチド配列を有し得る:5’-XATCTXTX-3’[配列中、X、XおよびXは、A、C、TもしくはGから独立して選択される];TATCTGTT;TTTTTT;AAGCTT;GAAGAGC;TCTAGA;UAUCUGUU;UUUUUU;AAGCUU;GAAGAGC;UCUAGA;および/または5’-XAUCUXUX-3’[配列中、X、XおよびXは、A、C、UまたはGから独立して選択される]。モチーフスクリーンフィルタは、各最適化ヌクレオチド配列が、これらの終止シグナルの1つ、一部、またはすべてを含むかを決定し得る。
各最適化ヌクレオチド配列は、その全体が、すなわち配列の第1のヌクレオチドから配列の最終ヌクレオチドまでが分析される場合がある。特定の実施形態では、ある特定の最適化ヌクレオチド配列に終止シグナルが存在すると決定された場合、その配列の分析が中止される場合があり;次いで、その配列は、そのヌクレオチドの1つ1つを分析せずにリストから除去される場合がある。特定の実施形態では、この形態の分析が、リストの各最適化ヌクレオチド配列に適用される場合がある。配列に終止シグナルが存在するとすでに決定されている場合、その配列全体を分析しないことが計算上効率的であるので、このようにした分析が有利な可能性がある。
GC含量分析に関してより詳細に説明されるように、各最適化ヌクレオチド配列は、部分ごとに分析される場合がある。最適化ヌクレオチド配列の分析は、部分が終止シグナルを含むと決定されると、停止し得る。配列に終止シグナルが存在するとすでに決定されている場合、その配列全体を分析しないことが計算上効率的であるので、これは有利であり得る。続くGC含量分析に関して、部分は重複する場合も重複しない場合もあり、任意の長さ、例えば5~300ヌクレオチド、または10~200ヌクレオチド、または15~100ヌクレオチド、または20~50ヌクレオチド、または特に30ヌクレオチドもしくは100ヌクレオチドであり得る。最適化ヌクレオチド配列の各部分は、同じ長さの場合があり、または例えば最適化ヌクレオチド配列のヌクレオチド長が部分のヌクレオチド長で割り切れない場合、例えば、最適化ヌクレオチド配列の第1、最終、もしくは中間部分は、その他の部分と異なる長さであり得る。
GC含量の分析
一部の実施形態では、グアニン-シトシン(GC)含量フィルタが、最適化ヌクレオチド配列のリストに適用される場合がある。このような実施形態では、最適化ヌクレオチド配列のリストの各最適化ヌクレオチド配列のGC含量を決定するために、最適化ヌクレオチド配列のリストが分析され、その際、配列のGC含量は、ヌクレオチド配列中の、グアニン(G)またはシトシン(C)である塩基のパーセンテージである。最適化ヌクレオチド配列のリストは、コドン最適化アルゴリズムによって本来生成された最適化ヌクレオチド配列のリストの場合、または1つもしくはそれ以上のさらなるアルゴリズム工程によってすでにフィルタリングされた最適化ヌクレオチド配列のリストの場合がある。1つまたはそれ以上の追加的なアルゴリズム工程によってすでにフィルタリングまたは更新された最適化ヌクレオチド配列のリストは、最適化ヌクレオチド配列の更新されたリスト、または最近更新されたリストと称される場合がある。予め決定されたGC含量範囲から外れるGC含量を有する任意の最適化ヌクレオチド配列がリストから除去され、更新されたリストが産生する場合がある。
各最適化ヌクレオチド配列は、その全体が、すなわち、配列の第1のヌクレオチドから配列の最終ヌクレオチドまでが分析される場合がある。次いで、最適化ヌクレオチド配列全体のGC含量が決定され、それに応じて配列が除去される場合がある。
一部の実施形態では、各最適化ヌクレオチド配列の部分だけが分析され、その部分のGC含量が決定される。このような実施形態では、分析された部分のGC含量が、予め決定されたGC含量の範囲から外れる場合、その部分を有する最適化ヌクレオチド配列がリストから除去される。
特定の実施形態では、GC含量フィルタが各最適化ヌクレオチド配列に部分ごとに適用され、部分が、予め決定された範囲から外れるGC含量を有すると決定された場合、フィルタが停止し、配列が除去される。このような分析は、予め決定されたGC含量の範囲から外れるGC含量を有する部分が配列に存在することがすでに見出されている場合、その配列全体を分析しないことが計算上効率的であるので、このようにした分析が有利な可能性がある。
特定の実施形態では、部分は重複しないが、他の実施形態では、部分は重複し得る。任意の長さの部分、例えば、5~300ヌクレオチド、もしくは10~200ヌクレオチド、もしくは15~100ヌクレオチド、もしくは20~50ヌクレオチド、または特に30ヌクレオチドもしくは100ヌクレオチドでこの特定の実施形態を行えることが認識されよう。一部の実施形態では、予め決定されたGC含量の範囲は、ユーザによって選択可能であり得る。任意の長さの最適化ヌクレオチド配列を用いてこの特定の実施形態を行えることも認識されよう。
例えば、非最適化および最適化ヌクレオチド配列のグアニン-シトシン(GC)含量の分析を、EPOをコードするヌクレオチド配列の部分に行うことができ、その際、EPOをコードするヌクレオチド配列の部分のグアニン-シトシン(GC)含量が、30ヌクレオチド長の隣接する非重複部分について決定される。この例示的な分析を図11に示す。
例示的なGC含量フィルタを本明細書に記載する。これは単なる例であり、本明細書に記載される方法が、任意の長さの最適化ヌクレオチド配列および/または部分を用いて行われる場合があることは、任意の当業者に明らかであろう。例として、600ヌクレオチド長を有する最適化ヌクレオチド配列のリストの最適化ヌクレオチド配列について、30ヌクレオチドの部分の長さが選択される場合がある。GC含量フィルタは、最初に、最適化ヌクレオチド配列の第1の30ヌクレオチド、すなわち、最適化ヌクレオチド配列のヌクレオチド1~30を分析し得る。分析は、部分における、GまたはCのいずれかのヌクレオチドの数を決定することを含む場合があり、部分のGC含量を決定することは、その部分のGまたはCヌクレオチドの数をその部分のヌクレオチドの総数で割ることを含み得る。この分析の結果は、その部分における、GまたはCのヌクレオチドの割合を説明する値を提供し、パーセンテージ、例えば50%、または小数、例えば0.5であり得る。第1の部分のGC含量が予め決定されたGC含量の範囲から外れる場合、最適化ヌクレオチド配列が最適化ヌクレオチド配列のリストから除去される場合がある。
第1の部分のGC含量が、予め決定されたGC含量の範囲に収まる場合、次いで、GC含量フィルタによって、最適化ヌクレオチド配列の第2の部分が分析される場合がある。この例では、これは、最適化ヌクレオチド配列の第2の30ヌクレオチド、すなわちヌクレオチド31~60であり得る。部分の分析は、以下のいずれかまで部分ごとに繰り返される場合がある:部分が、予め決定されたGC含量の範囲から外れるGC含量を有すると見い出される(この場合、最適化ヌクレオチド配列がリストから除去される場合がある)、または最適化ヌクレオチド配列全体が分析され、そのような部分が見出されなかった(この場合、GC含量フィルタは最適化ヌクレオチド配列をリストに保持し、リストの次の最適化ヌクレオチド配列に移動してよい)。この例では、GC含量フィルタが最適化ヌクレオチド配列の最終部分、すなわちヌクレオチド571~600に達し、この最終部分が予め決定されたGC含量の範囲に収まるGC含量を有する場合、GC含量フィルタは、最適化ヌクレオチド配列をリストに保持し、リストの次の最適化ヌクレオチド配列に移動してよい。あるいは特に、各部分は、100ヌクレオチド長であり得る。
上記実施例は、第1のヌクレオチドから開始し、最終ヌクレオチドに進む、部分ごとのGC含量フィルタを説明しているものの、これは単なる例であり、最適化ヌクレオチド配列の部分が分析される順序は当業者に明らかな任意の順序であってよいことが、認識されよう。GC含量フィルタは、例えば、最終ヌクレオチド(作業例では、ヌクレオチド600)を含む部分で開始し、第1のヌクレオチド、ヌクレオチド1に向かって戻る場合、または第1のヌクレオチドと最終ヌクレオチドとの間の任意の位置の部分で開始する場合がある。
最適化ヌクレオチド配列の第1、最終、または中間部分が、その他の部分と異なる長さを有する場合がある。これは、例えば、最適化ヌクレオチド配列のヌクレオチド長が部分のヌクレオチド長で割り切れない場合に起こり得る。
コドン適応指標(CAI)分析
一部の実施形態では、最適化ヌクレオチド配列のリストの最適化ヌクレオチド配列の一部またはすべてにコドン適応指標(CAI)分析が行われる場合がある。このような実施形態では、最適化ヌクレオチド配列のリスト内の1つまたはそれ以上の最適化ヌクレオチド配列が分析されて、各配列のCAIが決定され、その際、CAIは、コドン使用バイアスの尺度であり、0と1との間の値を取ることができる。最適化ヌクレオチド配列のリストは、コドン最適化アルゴリズムによって本来生成された最適化ヌクレオチド配列のリストの場合、または1つもしくはそれ以上のさらなるアルゴリズム工程によってすでにフィルタリングされた最適化ヌクレオチド配列のリストの場合がある。1つまたはそれ以上の追加的なアルゴリズム工程によってすでにフィルタリングまたは更新された最適化ヌクレオチド配列のリストは、最適化ヌクレオチド配列の更新されたリスト、または最近更新されたリストと称される場合がある。予め決定されたCAI閾値以下のCAIを有する任意の最適化ヌクレオチド配列がリストから除去されて、更新されたリストを産生し得る。
一部の実施形態では、CAI閾値は、ユーザによって選択可能である。一部の実施形態では、CAI閾値は、0.7、0.75、0.85、または0.9である。特定の実施形態では、CAI閾値は0.8である。
CAIは、最適化ヌクレオチド配列ごとに、当業者に明らかであろう任意のやり方で、例えば、「The codon adaptation index--a measure of directional synonymous codon usage bias, and its potential applications」(SharpおよびLi、1987. Nucleic Acids Research 15(3)、1281~1295頁);(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC340524/からオンラインで入手可能)に記載されているように計算してもよい。
コドン適応指標の計算を実行することは、以下による、または以下に類似の方法を含み得る。配列のアミノ酸ごとに、配列中の各コドンの重みが、相対適応度(w)と名付けられるパラメータによって表される場合がある。相対適応度は、参照配列セットから、そのアミノ酸についてのコドンfの観察された頻度と、最も頻繁な同義コドンfの頻度との間の比として計算される場合がある。次いで、配列のコドン適応指標が、各コドンと関連する重量の幾何平均として配列の長さ(コドンとして測定)にわたり計算される場合がある。コドン適応指標を計算するために使用される参照配列セットは、本発明の方法で使用されるコドン使用表が導出される、同じ参照配列セットであり得る。
前述のように、CAI分析フィルタは、本明細書に詳述されるような部分ごとの分析として適用される場合がある。言い換えると、各最適化ヌクレオチド配列の部分のCAI尺度が決定され、予め決定されたCAI閾値以下のCAIを有する部分があれば、その配列が考慮から除去(すなわち、リストから除去)される場合がある。このように、この方法を行うことによって、増加した計算効率とより選択的なフィルタとの両方が達成される。
さらなるアルゴリズム工程の組合せ
図7は、モチーフスクリーンフィルタ、GC含量分析フィルタ、およびCAI分析フィルタのうち0、1、2、または3つを最適化ヌクレオチド配列のリストに任意の順序で適用できることを示す。各フィルタは、最適化ヌクレオチド配列の同じリストに、同じ入力パラメータを用いて適用された場合、リストに対して同じ効果を有するので、各フィルタは、1回だけ使用される場合がある。例えば、モチーフスクリーンフィルタおよびGC含量分析フィルタが最適化ヌクレオチド配列のリストに適用されていた場合、追加的なモチーフスクリーンフィルタまたは追加的なGC含量分析フィルタを最適化ヌクレオチド配列の更新されたリストに適用することは、効果を有さないであろう。これは、いずれかのフィルタにかかった、リストのどのような配列も、すでに除去されているからである。最適化ヌクレオチド配列のリストにフィルタが適用されない、本発明の実施形態があることも図7によって示されている。
図8は、最適化ヌクレオチド配列のリストにフィルタが1つだけ適用される、本発明の実施形態を示す。この実施形態では、GC含量分析フィルタが選択されているが、これは例示であること、および1つだけのフィルタが所望であれば、モチーフスクリーンフィルタまたはCAIフィルタを代替的に選択できることが明らかであろう。
図9は、最適化ヌクレオチド配列のリストにフィルタが2つだけ適用される、本発明の実施形態を示す。この実施形態では、モチーフスクリーンフィルタおよびCAI分析フィルタがその順序で適用されているが、これは例示であること、および2つだけのフィルタが所望であれば、モチーフスクリーンフィルタ、GC含量分析フィルタ、およびCAI分析フィルタのうち任意の2つを任意の順序で適用できることが明らかであろう。図9の例では、モチーフスクリーンフィルタが最適化ヌクレオチド配列のリストに適用されて、最適化ヌクレオチド配列の更新されたリストを産生する。最適化ヌクレオチド配列の更新されたリストがCAI分析フィルタによってさらにフィルタリングされる前に、リストは、最適化ヌクレオチド配列の最近更新されたリストと称される場合がある。次いで、CAI分析フィルタが、最適化ヌクレオチド配列の最近更新されたリストに適用されて、最適化ヌクレオチド配列の更新されたリストまたはさらに更新されたリストを産生する。
図10は、最適化ヌクレオチド配列のリストに3つのフィルタが適用される、本発明の特定の実施形態を示す。この特定の実施形態では、モチーフスクリーンフィルタ、GC含量分析フィルタ、およびCAI分析フィルタがその順序で適用されて、最適化ヌクレオチド配列の更新されたリストを産生する。3つのフィルタを使用する代替的な実施形態では、モチーフスクリーンフィルタ、GC含量分析フィルタ、およびCAI分析フィルタが任意の順序で適用される場合があることが明らかであろう。図9に類似して、各フィルタ工程の間、すなわち、モチーフスクリーンフィルタとGC含量分析フィルタとの間、およびGC含量分析フィルタとCAI分析フィルタとの間で、最適化ヌクレオチド配列のリストは、最適化ヌクレオチド配列の最近更新されたリストと称される場合がある(図10に示さず)。図8および9の例示的な実施形態と同様に、任意およびすべてのフィルタリング工程の終わりに産生される最適化ヌクレオチド配列の更新されたリストの配列は、次いで、本明細書に記載される合成方法のいずれかにより合成される場合がある。
さらなるアルゴリズム工程の1つより多くを用いたフィルタリングに対して相乗的な有益効果があり得る。これは、さらなるアルゴリズム工程の各々への入力が、最適化ヌクレオチド配列の最近更新されたリストであるので、すなわち、すでにフィルタリングされた配列のリストであり得るので、これが達成される。分析すべき配列がリストの配列ほど多くなく、それにより、この方法の効率が上がるので、これは、さらなるフィルタリング工程を行うためのプロセシングおよび時間の必要量を減らす。
隣接同一コドン
一部の実施形態では、最適化ヌクレオチド配列のリストの最適化ヌクレオチド配列の一部またはすべてを分析して、少なくとも2つ、例えば3つ以上の隣接同一コドンを有する最適化ヌクレオチド配列が決定される場合がある。このさらなるアルゴリズム工程は、唯一のさらなるアルゴリズム工程の場合、または以下のうち1つもしくはそれ以上の前もしくは後に行われる場合がある:モチーフスクリーン、GC含量分析、およびCAI分析。分析は、本明細書に詳述されるように、各最適化ヌクレオチド配列に部分ごとに行われる場合がある。
例えば、ある特定の最適化ヌクレオチド配列が分析され、以下を含むセクションを含むと決定される場合がある:CAGCAGCAG。ある特定の反復コドンを含むこのようなセクションは転写を止める可能性があるので、配列がリストから除去される。
一部の実施形態では、隣接稀少性閾値が、稀少コドンを決定するために使用され、その際、隣接稀少性閾値を下回るコドンは、稀少コドンと見なされる。稀少コドンは、正規化コドン使用表内の使用頻度を隣接稀少性閾値と比較することによって特定される場合がある。このように、隣接稀少性閾値は、正規化コドン使用表に含まれるほど閾値頻度よりも大きな使用を有したコドンであって、それでも、正規化コドン使用表のコドンのうち相対的に稀少であるコドンを特定する。一部の実施形態では、稀少隣接同一コドンだけが、最適化ヌクレオチド配列を最適化ヌクレオチド配列のリストから除去させる。
隣接稀少性閾値は、10と50%との間、例えば15と40%との間、例えば20と30%との間の場合があり、コドン使用表を正規化するために使用される閾値頻度に依存する。閾値頻度を下回る使用頻度を有するあらゆるコドンは正規化コドン使用表に出現しないので、効果を有するために、隣接稀少性閾値は閾値頻度よりも大きくなければならない。
上記と同じ例を使用するが、稀少隣接同一コドンだけをフィルタリングして、CAGが隣接稀少性閾値以上の頻度で正規化コドン使用表に出現する場合、CAGCAGCAGを含む配列は、リストから除去されない。代わりに、CAGが隣接稀少性閾値未満の頻度で正規化コドン使用表に出現する場合、CAGCAGCAGを含む配列がリストから除去される。
場合により稀少隣接同一コドンのためのフィルタを含む、隣接同一コドンのためのフィルタは、最適化ヌクレオチド配列のリストが作成された後の任意の段階で適用することができる。言い換えると、場合により稀少隣接同一コドンのためのフィルタを含む、隣接同一コドンのためのフィルタは、任意の他のさらなるアルゴリズム工程と共に、工程を任意の順序で行って適用することができる。
最適化ヌクレオチド配列の合成および発現
さらなる態様では、本発明は、ヌクレオチド配列を合成する方法であって、少なくとも1つの最適化ヌクレオチド配列を生成するために本発明のコンピュータ実装方法を行うこと;および生成された最適化ヌクレオチド配列の少なくとも1つを合成することを含む、方法を提供する。in vitro合成(一般的に「in vitro転写」とも呼ばれる)は、典型的には、プロモーター、リボヌクレオチド三リン酸のプール、DTTおよびマグネシウムイオンを含み得る緩衝系、ならびに適切なRNAポリメラーゼ(例えば、T3、T7またはSP6 RNAポリメラーゼ)、DNase I、ピロホスファターゼ、および/またはRNase阻害剤を含む線状または環状のDNA鋳型などの核酸ベクターを用いて行われる。厳密な条件は、特定の用途に応じて変化する。
一部の実施形態では、本発明の方法によって生成される合成された最適化ヌクレオチド配列は、in vitro転写で使用するために核酸ベクターに挿入される。いくつかの実施形態では、核酸ベクターはプラスミドである。用語「プラスミド」または「プラスミド核酸ベクター」は、環状の核酸分子、例えば、人工核酸分子を指す。本発明の文脈におけるプラスミドDNAは、所望の核酸配列、例えば、mRNA転写物をコードする配列および/または少なくとも1つのタンパク質、ポリペプチドもしくはペプチドをコードするオープンリーディングフレームを含む核酸配列を組み込む、または保有するのに適している。このようなプラスミドDNA構築物/ベクターは、発現ベクター、クローニングベクター、トランスファーベクター等であり得る。
核酸ベクターは、典型的には、所望のmRNA転写物に対応する(コードする)配列、またはその一部、例えば、mRNAのオープンリーディングフレームならびに5’-および/または3’UTRに対応する配列を含む。一部の実施形態では、所望のmRNA転写物に対応する配列は、ポリA-テールがmRNA転写物に含まれるように、3’UTRの後にポリA-テールをコードすることもできる。より典型的には、本発明の文脈において、所望のmRNA転写物に対応する配列は、5’/3’UTRおよびオープンリーディングフレームからなる。本発明の一部の実施形態では、in vitro転写中に核酸ベクターから合成されたmRNA転写物は、ポリAテールを含まない。ポリAテールは、合成後の処理工程においてmRNA転写物に付加されてもよい。
一部の実施形態では、核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結された5’UTRをコードするヌクレオチド配列を含む。特定の実施形態では、5’UTRは、アミノ酸配列をコードする自然発生のmRNAの5’UTRと異なる。特定の実施形態では、5’UTRは、配列番号19のヌクレオチド配列を有する。
一部の実施形態では、核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結された3’UTRをコードするヌクレオチド配列を含む。特定の実施形態では、3’UTRは、アミノ酸配列をコードする自然発生のmRNAの3’UTRと異なる。特定の実施形態では、3’UTRは、配列番号20または配列番号21のヌクレオチド配列を有する。
例えば、本発明のヌクレオチド配列は、5’UTR、最適化ヌクレオチド配列、および3’UTR(および場合により最適化ヌクレオチド配列の3’末端の1つまたはそれ以上の終止シグナルを含む核酸ベクターから合成され、5’UTR、最適化ヌクレオチド配列および3’UTRを含むmRNAを生成することができる。
一部の実施形態では、核酸ベクターは、プロモーター配列、例えば、T3、T7またはSP6 RNAポリメラーゼプロモーター配列のようなRNAポリメラーゼプロモーター配列を含む。
一部の実施形態では、核酸ベクターは、合成された最適化ヌクレオチド配列の3’末端の下流に1つまたはそれ以上の終止シグナル(例えば、2つまたは3つの終止シグナル)を含む。一部の実施形態では、本方法は、合成された最適化ヌクレオチド配列の3’末端に1つまたはそれ以上の終止シグナルを挿入することをさらに含む。一部の実施形態では、2つ以上の終止シグナルが挿入され、前記終止シグナルは、10塩基対以下、例えば5~10塩基対で分離されている。最適化ヌクレオチド配列の下流に1つまたはそれ以上の終止シグナルを付加することにより、最適化ヌクレオチド配列を含むプラスミドDNAからRNAが転写される際に転写の効率的な終止を促進し、結果として1つまたはそれ以上の終止シグナルでin vitro転写の標的終止がもたらされ、それによって異常なランオン転写の制限がもたらされる。一部の実施形態では、核酸ベクターは、2つ以上の終止シグナル、例えば、2つまたはそれ以上、3つまたはそれ以上、または4つまたはそれ以上の終止シグナルを含む。複数の終止シグナルの存在は、標的化部位におけるin vitro転写の終止の効率を向上させる。
一部の実施形態では、1つまたはそれ以上の終止シグナルは、以下のヌクレオチド配列:5’-XATCTXTX-3’を有し、ここで、X、XおよびXは、A、C、TまたはGから独立して選択される。一部の実施形態では、1つまたはそれ以上の終止シグナルは、以下のヌクレオチド配列:TATCTGTT;および/またはTTTTTT;および/またはAAGCTT;および/またはGAAGAGC;および/またはTCTAGAの1つを有する。一部の実施形態では、1つまたはそれ以上の終止シグナルは、以下のヌクレオチド配列:5’-XAUCUXUX-3’を有し、ここで、X、XおよびXは、A、C、UまたはGから独立して選択される。一部の実施形態では、1つまたはそれ以上の終止シグナルは、以下のヌクレオチド配列:UAUCUGUU;および/またはUUUUU;および/またはAAGCUU;および/またはGAAGAGC;および/またはUCUAGAの1つを有する。一部の実施形態では、2つ以上の終止シグナルは、以下のヌクレオチド配列:(a)5’-XATCTXTX-(Z)-XATCTXTX-3’または(b)5’-X11ATCTXTX-(Z)-XATCTXTX-(Z)-XATCTXTX-3’によってコードされ、ここでX、X、X、X、X、X、X、XおよびXは、独立してA、C、TまたはGから選択され、ZはN個のヌクレオチドのスペーサー配列を表し、ZはM個のヌクレオチドのスペーサー配列を表し、それぞれは独立してA、C、TまたはGから選択され、ここで、Nおよび/またはMは独立して10以下である。
したがって、本発明の特定の実施形態では、合成された最適化ヌクレオチド配列の3’末端の下流に1つまたはそれ以上の終止シグナル(例えば、2つまたは3つの終止シグナル)を含むプラスミドDNAは、in vitro転写のための直鎖化を必要としない。具体的には、本発明によって、プラスミドDNAなどの環状核酸ベクター(典型的には超らせん状である)から、in vitro転写のためにSP6/T7 RNAポリメラーゼを用いてmRNA転写物を作製することが可能となる。
SP6 RNAポリメラーゼ
一部の実施形態では、mRNAは、SP6 RNAポリメラーゼによって合成される。一部の実施形態では、SP6 RNAポリメラーゼは、自然発生のSP6 RNAポリメラーゼである。一部の実施形態では、SP6 RNAポリメラーゼは、組換えSP6 RNAポリメラーゼである。一部の実施形態では、SP6 RNAポリメラーゼは、タグを含む。タグは、タンパク質の検出または精製を容易にするために使用され得る。一部の実施形態では、タグは、例えば、Ni-NTAアフィニティクロマトグラフィによる精製に使用することができる、ヒスタグ(his-tag)である。
SP6 RNAポリメラーゼは、SP6プロモーター配列に対して高い配列特異性を有するDNA依存性RNAポリメラーゼである。典型的には、このポリメラーゼは、そのプロモーターの下流の一本鎖DNAまたは二本鎖DNA上のいずれかのRNAの5’→3’in vitro合成を触媒し;それは、重合転写物にネイティブなリボヌクレオチドおよび/または修飾リボヌクレオチドを取り込む。
バクテリオファージSP6 RNAポリメラーゼの配列は、当初、以下のアミノ酸配列を有するものとして記載されていた(GenBank: Y00105.1):
MQDLHAIQLQLEEEMFNGGIRRFEADQQRQIAAGSESDTAWNRRLLSELIAPMAEGIQAYKEEYEGKKGRAPRALAFLQCVENEVAAYITMKVVMDMLNTDATLQAIAMSVAERIEDQVRFSKLEGHAAKYFEKVKKSLKASRTKSYRHAHNVAVVAEKSVAEKDADFDRWEAWPKETQLQIGTTLLEILEGSVFYNGEPVFMRAMRTYGGKTIYYLQTSESVGQWISAFKEHVAQLSPAYAPCVIPPRPWRTPFNGGFHTEKVASRIRLVKGNREHVRKLTQKQMPKVYKAINALQNTQWQINKDVLAVIEEVIRLDLGYGVPSFKPLIDKENKPANPVPVEFQHLRGRELKEMLSPEQWQQFINWKGECARLYTAETKRGSKSAAVVRMVGQARKYSAFESIYFVYAMDSRSRVYVQSSTLSPQSNDLGKALLRFTEGRPVNGVEALKWFCINGANLWGWDKKTFDVRVSNVLDEEFQDMCRDIAADPLTFTQWAKADAPYEFLAWCFEYAQYLDLVDEGRADEFRTHLPVHQDGSCSGIQHYSAMLRDEVGAKAVNLKPSDAPQDIYGAVAQVVIKKNALYMDADDATTFTSGSVTLSGTELRAMASAWDSIGITRSLTKKPVMTLPYGSTRLTCRESVIDYIVDLEEKEAQKAVAEGRTANKVHPFEDDRQDYLTPGAAYNYMTALIWPSISEVVKAPIVAMKMIRQLARFAAKRNEGLMYTLPTGFILEQKIMATEMLRVRTCLMGDIKMSLQVETDIVDEAAMMGAAAPNFVHGHDASHLILTVCELVDKGVTSIAVIHDSFGTHADNTLTLRVALKGQMVAMYIDGNALQKLLEEHEVRWMVDTGIEVPEQGEFDLNEIMDSEYVFA(配列番号1)
本発明に適したSP6 RNAポリメラーゼは、バクテリオファージSP6 RNAポリメラーゼと実質的に同じポリメラーゼ活性を有する任意の酵素であり得る。したがって、一部の実施形態では、本発明に適したSP6 RNAポリメラーゼは、配列番号1から改変されていてもよい。例えば、適したSP6 RNAポリメラーゼは、1つまたはそれ以上のアミノ酸置換、欠失、または付加を含んでいてもよい。一部の実施形態では、適したSP6 RNAポリメラーゼは、配列番号1と約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、75%、70%、65%または60%同一または相同のアミノ酸配列を有する。一部の実施形態では、適したSP6 RNAポリメラーゼは、(N末端、C末端、または内部から)切断されたタンパク質であってもよいが、ポリメラーゼ活性は保持される。一部の実施形態では、適したSP6 RNAポリメラーゼは、融合タンパク質である。
一部の実施形態では、SP6 RNAポリメラーゼは、以下のヌクレオチド配列を有する遺伝子によってコードされる:
ATGCAAGATTTACACGCTATCCAGCTTCAATTAGAAGAAGAGATGTTTAATGGTGGCATTCGTCGCTTCGAAGCAGATCAACAACGCCAGATTGCAGCAGGTAGCGAGAGCGACACAGCATGGAACCGCCGCCTGTTGTCAGAACTTATTGCACCTATGGCTGAAGGCATTCAGGCTTATAAAGAAGAGTACGAAGGTAAGAAAGGTCGTGCACCTCGCGCATTGGCTTTCTTACAATGTGTAGAAAATGAAGTTGCAGCATACATCACTATGAAAGTTGTTATGGATATGCTGAATACGGATGCTACCCTTCAGGCTATTGCAATGAGTGTAGCAGAACGCATTGAAGACCAAGTGCGCTTTTCTAAGCTAGAAGGTCACGCCGCTAAATACTTTGAGAAGGTTAAGAAGTCACTCAAGGCTAGCCGTACTAAGTCATATCGTCACGCTCATAACGTAGCTGTAGTTGCTGAAAAATCAGTTGCAGAAAAGGACGCGGACTTTGACCGTTGGGAGGCGTGGCCAAAAGAAACTCAATTGCAGATTGGTACTACCTTGCTTGAAATCTTAGAAGGTAGCGTTTTCTATAATGGTGAACCTGTATTTATGCGTGCTATGCGCACTTATGGCGGAAAGACTATTTACTACTTACAAACTTCTGAAAGTGTAGGCCAGTGGATTAGCGCATTCAAAGAGCACGTAGCGCAATTAAGCCCAGCTTATGCCCCTTGCGTAATCCCTCCTCGTCCTTGGAGAACTCCATTTAATGGAGGGTTCCATACTGAGAAGGTAGCTAGCCGTATCCGTCTTGTAAAAGGTAACCGTGAGCATGTACGCAAGTTGACTCAAAAGCAAATGCCAAAGGTTTATAAGGCTATCAACGCATTACAAAATACACAATGGCAAATCAACAAGGATGTATTAGCAGTTATTGAAGAAGTAATCCGCTTAGACCTTGGTTATGGTGTACCTTCCTTCAAGCCACTGATTGACAAGGAGAACAAGCCAGCTAACCCGGTACCTGTTGAATTCCAACACCTGCGCGGTCGTGAACTGAAAGAGATGCTATCACCTGAGCAGTGGCAACAATTCATTAACTGGAAAGGCGAATGCGCGCGCCTATATACCGCAGAAACTAAGCGCGGTTCAAAGTCCGCCGCCGTTGTTCGCATGGTAGGACAGGCCCGTAAATATAGCGCCTTTGAATCCATTTACTTCGTGTACGCAATGGATAGCCGCAGCCGTGTCTATGTGCAATCTAGCACGCTCTCTCCGCAGTCTAACGACTTAGGTAAGGCATTACTCCGCTTTACCGAGGGACGCCCTGTGAATGGCGTAGAAGCGCTTAAATGGTTCTGCATCAATGGTGCTAACCTTTGGGGATGGGACAAGAAAACTTTTGATGTGCGCGTGTCTAACGTATTAGATGAGGAATTCCAAGATATGTGTCGAGACATCGCCGCAGACCCTCTCACATTCACCCAATGGGCTAAAGCTGATGCACCTTATGAATTCCTCGCTTGGTGCTTTGAGTATGCTCAATACCTTGATTTGGTGGATGAAGGAAGGGCCGACGAATTCCGCACTCACCTACCAGTACATCAGGACGGGTCTTGTTCAGGCATTCAGCACTATAGTGCTATGCTTCGCGACGAAGTAGGGGCCAAAGCTGTTAACCTGAAACCCTCCGATGCACCGCAGGATATCTATGGGGCGGTGGCGCAAGTGGTTATCAAGAAGAATGCGCTATATATGGATGCGGACGATGCAACCACGTTTACTTCTGGTAGCGTCACGCTGTCCGGTACAGAACTGCGAGCAATGGCTAGCGCATGGGATAGTATTGGTATTACCCGTAGCTTAACCAAAAAGCCCGTGATGACCTTGCCATATGGTTCTACTCGCTTAACTTGCCGTGAATCTGTGATTGATTACATCGTAGACTTAGAGGAAAAAGAGGCGCAGAAGGCAGTAGCAGAAGGGCGGACGGCAAACAAGGTACATCCTTTTGAAGACGATCGTCAAGATTACTTGACTCCGGGCGCAGCTTACAACTACATGACGGCACTAATCTGGCCTTCTATTTCTGAAGTAGTTAAGGCACCGATAGTAGCTATGAAGATGATACGCCAGCTTGCACGCTTTGCAGCGAAACGTAATGAAGGCCTGATGTACACCCTGCCTACTGGCTTCATCTTAGAACAGAAGATCATGGCAACCGAGATGCTACGCGTGCGTACCTGTCTGATGGGTGATATCAAGATGTCCCTTCAGGTTGAAACGGATATCGTAGATGAAGCCGCTATGATGGGAGCAGCAGCACCTAATTTCGTACACGGTCATGACGCAAGTCACCTTATCCTTACCGTATGTGAATTGGTAGACAAGGGCGTAACTAGTATCGCTGTAATCCACGACTCTTTTGGTACTCATGCAGACAACACCCTCACTCTTAGAGTGGCACTTAAAGGGCAGATGGTTGCAATGTATATTGATGGTAATGCGCTTCAGAAACTACTGGAGGAGCATGAAGTGCGCTGGATGGTTGATACAGGTATCGAAGTACCTGAGCAAGGGGAGTTCGACCTTAACGAAATCATGGATTCTGAATACGTATTTGCCTAA(配列番号2)。
本発明に適したSP6 RNAポリメラーゼをコードする適した遺伝子は、配列番号2と約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%または80%同一または相同であってもよい。
本発明に適したSP6 RNAポリメラーゼは、例えば、Ambion、New England Biolabs(NEB)、Promega、およびRocheから市販されている製品であってもよい。SP6は、本明細書に記載される配列番号1のアミノ酸配列または配列番号1のバリアントにしたがって、商業的供給源または非商業的供給源から注文および/またはカスタム設計されてもよい。SP6 RNAポリメラーゼは、RNAポリメラーゼ活性を促進するために修飾された、高忠実度/高効率/高能力、例えばSP6 RNAポリメラーゼ遺伝子における変異またはSP6 RNAポリメラーゼ自体の翻訳後修飾であってもよい。このような修飾SP6の例としては、AmbionのSP6 RNA Polymerase-Plus(商標)、NEBのHiScribe SP6、およびPromegaのRiboMAX(商標)およびRiboprobe(登録商標)Systemsが挙げられる。
一部の実施形態では、SP6 RNAポリメラーゼは熱安定性である。特定の実施形態では、本発明と共に使用するためのSP6 RNAポリメラーゼのアミノ酸配列は、37℃~56℃の範囲の温度で酵素を活性化させる野生型SP6ポリメラーゼに対する1つまたはそれ以上の変異を含む。ある実施形態では、本発明と共に使用するためのSP6 RNAポリメラーゼは、50℃~52℃の最適温度で機能する。他の実施形態では、本発明と共に使用するためのSP6 RNAポリメラーゼは、50℃において少なくとも60分間の半減期を有する。例えば、本発明と共に使用するための特に適したSP6 RNAポリメラーゼは、50℃において60分間~120分間(例えば、70分間~100分間、または80分間~90分間)の半減期を有する。
一部の実施形態では、適したSP6 RNAポリメラーゼは、融合タンパク質である。 例えば、SP6 RNAポリメラーゼは、酵素の単離、精製、または溶解性を促進するために、1つまたはそれ以上のタグを含んでいてもよい。適したタグは、N末端、C末端、および/または内部に配置されていてもよい。適したタグの非限定的な例としては、カルモジュリン結合タンパク質(CBP);肝蛭(Fasciola hepatica)8kDa抗原(Fh8);FLAGタグペプチド;グルタチオン-S-トランスフェラーゼ(GST);ヒスチジンタグ(例えば、ヘキサヒスチジンタグ(His6));マルトース結合タンパク質(MBP);N-利用物質(NusA);低分子ユビキチン様修飾因子(SUMO)融合タグ;ストレプトアビジン結合ペプチド(STREP);タンデム親和性精製(TAP);およびチオレドキシン(TrxA)が挙げられる。本発明では、他のタグも使用することができる。これらおよび他の融合タグは、例えば、Costaら、Frontiers in Microbiology 5(2014年): 63およびPCT/US16/57044に記載されており、その内容は、参照によってその全体が本明細書に組み入れられる。一部の実施形態では、Hisタグは、SP6のN末端に配置される。
SP6プロモーター
SP6 RNAポリメラーゼによって認識され得る任意のプロモーターが、本発明において使用され得る。典型的には、SP6プロモーターは、5’ATTTAGTGACACTATAG-3’(配列番号3)を含む。SP6プロモーターのバリアントは、そのプロモーターのSP6の認識および/または結合を最適化するために発見および/または作出されている。非限定的なバリアントとしては、以下が挙げられるが、これらに限定されるものではない:
5’-ATTTAGGGGACACTATAGAAGAG-3’;5’-ATTTAGGGGACACTATAGAAGG-3’;5’-ATTTAGGGGACACTATAGAAGGG-3’;5’-ATTTAGGTGACACTATAGAA-3’;
5’-ATTTAGGTGACACTATAGAAGA-3’;5’-ATTTAGGTGACACTATAGAAGAG-3’;5’-ATTTAGGTGACACTATAGAAGG-3’;5’-ATTTAGGTGACACTATAGAAGGG-3’;5’-ATTTAGGTGACACTATAGAAGNG-3’;および
5’-CATACGATTTAGGTGACACTATAG-3’(配列番号4から配列番号13)
ヌクレオチド配列においてNが使用される場合、NはA、C、TまたはGである。
さらに、本発明に適したSP6プロモーターは、配列番号4~配列番号13のいずれか1つに約95%、90%、85%、80%、75%、または70%同一または相同であってもよい。さらに、本発明に適したSP6プロモーターは、本明細書に記載のプロモーター配列のいずれかに対して5’および/または3’の1つまたはそれ以上の追加のヌクレオチドを含んでいてもよい。
T7 RNAポリメラーゼ
一部の実施形態では、mRNAは、T7 RNAポリメラーゼによって合成される。
T7 RNAポリメラーゼは、T7プロモーター配列に対して高い配列特異性を有するDNA依存性RNAポリメラーゼである。典型的には、このポリメラーゼは、そのプロモーターの下流の一本鎖DNA上または二本鎖DNA上のいずれかのRNAの5’→3’in vitro合成を触媒し;重合した転写産物にネイティブなリボヌクレオチドおよび/または修飾リボヌクレオチドを取り込む。
一部の実施形態では、T7 RNAポリメラーゼは熱安定性である。特定の実施形態では、本発明と共に使用するためのT7 RNAポリメラーゼのアミノ酸配列は、37℃~56℃の範囲の温度で酵素を活性化させる野生型T7ポリメラーゼに対する1つまたはそれ以上の変異を含む。適したRNAポリメラーゼの例は、NEBのHi-T7(登録商標)RNAポリメラーゼである。ある実施形態では、本発明と共に使用するためのT7 RNAポリメラーゼは、50℃~52℃の最適温度で機能する。他の実施形態では、本発明と共に使用するためのT7 RNAポリメラーゼは、50℃において少なくとも60分間の半減期を有する。例えば、本発明と共に使用するための特に適したT7 RNAポリメラーゼは、50℃において60分間~120分間(例えば、70分間~100分間、または80分間~90分間)の半減期を有する。
T7プロモーター
T7 RNAポリメラーゼによって認識され得る任意のプロモーターを、本明細書に記載の方法において使用し得る。典型的には、T7プロモーターは、
5’-TAATACGACTCACTATAG-3’(配列番号14)を含む。
合成後プロセシング
一部の実施形態では、本発明の方法は、合成されたmRNAをキャッピングおよび/またはテーリングする他の工程をさらに含む。
典型的には、5’キャップおよび/または3’テールが、合成後に付加され得る。キャップの存在は、ほとんどの真核細胞において見出されるヌクレアーゼに対する耐性を提供する上で重要である。「テール」の存在は、エキソヌクレアーゼ分解からmRNAを保護するのに役立つ。
5‘キャップは典型的には以下のように付加される:最初に、RNA末端ホスファターゼが5’ヌクレオチドから末端リン酸基の1つを除去し、2つの末端リン酸を残し;次にグアノシン三リン酸(GTP)がグアニリルトランスフェラーゼを介して末端リン酸に付加され、それによって5’5’5’三リン酸結合が生成され;次にメチル転移酵素によってグアニンの7-窒素がメチル化される。キャップ構造の例としては、tom7G(5’)ppp(5’)(2’OMeG)、m7G(5’)ppp(5’)(2’OMeA)、m7(3’OMeG)(5’)ppp(5’)(2’OMeG)、m7(3’OMeG)(5’)ppp(5’)(2’OMeA)、m7G(5’)ppp(5’(A,G(5’)ppp(5’)AおよびG(5’)ppp(5’)Gが挙げられるが、これらに限定されない。特定の実施形態では、キャップ構造は、m7G(5’)ppp(5’)(2’OMeG)である。追加のキャップ構造は、米国出願公開第2016/0032356号および2017年2月27日に出願された米国仮特許出願第62/464,327号に記載されており、これらは参照によって本明細書に組み入れられる。
典型的には、テール構造は、ポリ(A)および/またはポリ(C)テールを含む。mRNAの3’末端上のポリAまたはポリCテールは、典型的には、それぞれ、少なくとも50のアデノシンまたはシトシンヌクレオチド、少なくとも150のアデノシンまたはシトシンヌクレオチド、少なくとも200のアデノシンまたはシトシンヌクレオチド、少なくとも250のアデノシンまたはシトシンヌクレオチド、少なくとも300のアデノシンまたはシトシンヌクレオチド、少なくとも350のアデノシンまたはシトシンヌクレオチド、少なくとも400のアデノシンまたはシトシンヌクレオチド、少なくとも450のアデノシンまたはシトシンヌクレオチド、少なくとも500のアデノシンまたはシトシンヌクレオチド、少なくとも550のアデノシンまたはシトシンヌクレオチド、少なくとも600のアデノシンまたはシトシンヌクレオチド、少なくとも650のアデノシンまたはシトシンヌクレオチド、少なくとも700のアデノシンまたはシトシンヌクレオチド、少なくとも750のアデノシンまたはシトシンヌクレオチド、少なくとも800のアデノシンまたはシトシンヌクレオチド、少なくとも850のアデノシンもしくはシトシンヌクレオチド、少なくとも900のアデノシンまたはシトシンヌクレオチド、少なくとも950のアデノシンまたはシトシンヌクレオチド、または少なくとも1kbのアデノシンまたはシトシンヌクレオチドを含む。一部の実施形態では、ポリAまたはポリCテールは、約10~800のアデノシンまたはシトシンヌクレオチド(例えば、約10~200のアデノシンまたはシトシンヌクレオチド、約10~300のアデノシンまたはシトシンヌクレオチド、約10~400のアデノシンまたはシトシンヌクレオチド、約10~500のアデノシンまたはシトシンヌクレオチド、約10~550のアデノシンまたはシトシンヌクレオチド、約10~600のアデノシンまたはシトシンヌクレオチド、約50~600のアデノシンまたはシトシンヌクレオチド、約100~600個のアデノシンまたはシトシンヌクレオチド、約150~600のアデノシンまたはシトシンヌクレオチド、約200~600のアデノシンまたはシトシンヌクレオチド、約250~600のアデノシンまたはシトシンヌクレオチド、約300~600のアデノシンまたはシトシンヌクレオチド、約350~600のアデノシンまたはシトシンヌクレオチド、約400~600のアデノシンまたはシトシンヌクレオチド、約450~600のアデノシンまたはシトシンヌクレオチド、約500~600のアデノシンまたはシトシンヌクレオチド、約10~150のアデノシンまたはシトシンヌクレオチド、約10~100のアデノシンまたはシトシンヌクレオチド、約20~70のアデノシンまたはシトシンヌクレオチド、または約20~60のアデノシンもしくはシトシンヌクレオチド)をそれぞれ含む。一部の実施形態では、テール構造は、本明細書に記載の様々な長さを有するポリ(A)テールおよびポリ(C)テールの組合せを含む。一部の実施形態では、テール構造は、少なくとも50%、55%、65%、70%、75%、80%、85%、90%、92%、94%、95%、96%、97%、98%、または99%のアデノシンヌクレオチドを含む。一部の実施形態では、テール構造は、少なくとも50%、55%、65%、70%、75%、80%、85%、90%、92%、94%、95%、96%、97%、98%、または99%のシトシンヌクレオチドを含む。
本明細書に記載されるように、5’キャップおよび/または3’テールの付加は、in vitro合成中に生成された中断転写産物の検出を促進させるが、これはキャッピングおよび/またはテーリングなしでは、それらの未成熟で中断したmRNA転写産物のサイズが小さすぎて検出されないことがあるためである。したがって、一部の実施形態では、5’キャップおよび/または3’テールは、mRNAが純度(例えば、mRNA中に存在する中断写産物のレベル)について試験される前に、合成されたmRNAに不可される。一部の実施形態では、5’キャップおよび/または3’テールは、mRNAが本明細書に記載のように精製される前に、合成されたmRNAに付加される。他の実施形態では、5’キャップおよび/または3’テールは、mRNAが本明細書に記載されるように精製された後に合成されたmRNAに付加される。
一部の実施形態では、キャッピングおよびテーリングは、in vitro転写の間に起こる。
mRNA合成反応混合物条件
一部の実施形態では、反応混合物中のRNAポリメラーゼの濃度は、約1~100nM、1~90nM、1~80nM、1~70nM、1~60nM、1~50nM、1~40nM、1~30nM、1~20nM、または約1~10nMであってもよい。特定の実施形態では、RNAポリメラーゼの濃度は、約10~50nM、20~50nM、または30~50nMである。RNAポリメラーゼの100~10000Unit/mlの濃度が使用されてもよく、例えば、100~9000Unit/ml、100~8000Unit/ml、100~7000Unit/ml、100~6000Unit/ml、100~5000Unit/ml、100~1000Unit/ml、200~2000Unit/ml、500~1000Unit/ml、500~2000Unit/ml、500~3000Unit/ml、500~4000Unit/ml、500~5000Unit/ml、500~6000Unit/ml、1000~7500Unit/mlおよび2500~5000Unit/mlの濃度を使用できる。
反応混合物中の各リボヌクレオチド(例えば、ATP、UTP、GTP、およびCTP)の濃度は、約0.1mM~約10mM、例えば、約1mM~約10mM、約2mM~約10mM、約3mM~約10mM、約1mM~約8mM、約1mM~約6mM、約3mM~約10mM、約3mM~約8mM、約3mM~約6mM、約4mM~約5mMである。一部の実施形態では、各リボヌクレオチドは、反応混合物中において約5mMである。一部の実施形態では、反応において使用されるrNTP(例えば、ATP、GTP、CTPおよびUTPの組合せ)の総濃度は、1mM~40mMの範囲にある。一部の実施形態では、反応において使用されるrNTP(例えば、ATP、GTP、CTPおよびUTPの組合せ)の総濃度は、1mM~30mM、または1mM~28mM、または1mM~25mM、または1mM~20mMの範囲にある。一部の実施形態では、総rNTP濃度は、30mM未満である。一部の実施形態では、総rNTP濃度は、25mM未満である。一部の実施形態では、総rNTP濃度は、20mM未満である。一部の実施形態では、総rNTP濃度は、15mM未満である。いくつかの実施形態では、総rNTP濃度は、10mM未満である。
特定の実施形態では、反応混合物中の各rNTPの濃度は、所与のmRNA転写産物をコードする核酸配列中の各核酸の頻度に基づいて最適化される。具体的には、このような配列最適化反応混合物は、mRNA転写産物中のこれら4つの核酸(A、G、CおよびU)の比率に対応する4つのrNTP(例えば、ATP、GTP、CTPおよびUTP)の各々の比率を含む。
一部の実施形態では、開始ヌクレオチドは、in vitro転写の開始前に反応混合物に添加される。開始ヌクレオチドは、mRNA転写産物の最初のヌクレオチド(+1位置)に対応するヌクレオチドである。開始ヌクレオチドは、特にRNAポリメラーゼの開始速度を向上させるために添加してもよい。開始ヌクレオチドは、ヌクレオシド一リン酸、ヌクレオシド二リン酸、ヌクレオシド三リン酸であり得る。開始ヌクレオチドは、モノヌクレオチド、ジヌクレオチドまたはトリヌクレオチドであり得る。mRNA転写産物の最初のヌクレオチドがGである実施形態では、開始ヌクレオチドは、典型的にはGTPまたはGMPである。特定の実施形態では、開始ヌクレオチドは、キャップ類似体である。キャップ類似体は、G[5’]ppp[5’]G、mG[5’]ppp[5’]G、m 2,2,7G[5’]ppp[5’]G、m 7,3’-OG[5’]ppp[5’]G (3’-ARCA)、m 7,2’-OGpppG(2’-ARCA)、m 7,2’-OGppspG D1(β-S-ARCA D1)およびm 7,2’-OGppspG D2(β-S-ARCA D2)から選択し得る。
特定の実施形態では、RNA転写産物の最初のヌクレオチドはGであり、開始ヌクレオチドはGのキャップ類似体であり、対応するrNTPはGTPである。このような実施形態では、キャップ類似体は、GTPと比較して過剰に反応混合物中に存在する。一部の実施形態では、キャップ類似体は、約1mM~約20mM、約1mM~約17.5mM、約1mM~約15mM、約1mM~約12.5mM、約1mM~約10mM、約1mM~約7.5mM、約1mM~約5mMまたは約1mM~約2.5mMの範囲の開始濃度で添加される。
より典型的には、本発明の文脈において、キャップ類似体などのキャップ構造は、mRNA転写産物が合成された後にのみ、例えば合成後のプロセシング工程において、in vitro転写中に得られたmRNA転写産物に付加される。典型的には、このような実施形態では、キャップ構造が付加される前に、mRNA転写産物が最初に(例えば、接線方向フロー濾過によって)精製される。
RNAポリメラーゼ反応緩衝液は、典型的には、塩/緩衝剤、例えば、トリス、HEPES、硫酸アンモニウム、重炭酸ナトリウム、クエン酸ナトリウム、酢酸ナトリウム、リン酸カリウム、リン酸ナトリウム、塩化ナトリウム、および塩化マグネシウムを含む。
反応混合物のpHは、約6~8.5、6.5~8.0、7.0~7.5であってもよく、一部の実施形態では、pHは7.5である。
DNA鋳型(例えば、上記の通りで、所望の量のRNAを提供するのに十分な量/濃度)、RNAポリメラーゼ反応緩衝液、およびRNAポリメラーゼを合わせて、反応混合物を形成する。反応混合物は、約37℃~約56℃で、30分間~6時間、例えば、約60分間~約90分間インキュベートされる。一部の実施形態では、インキュベーションは、約37℃~約42℃で行われる。他の実施形態では、インキュベーションは、約43℃~約56℃、例えば、約50℃~約52℃で行われる。本明細書で実証されるように、in vitro転写反応において得られる正確に終結したmRNA転写産物の収率は、目的のmRNA転写産物をコードするDNA配列の末端に本明細書に記載の1つまたはそれ以上の終止シグナルを含み、DNA配列を含む鋳型を用いて、約50℃~約52℃の温度で反応を行うことによって著しく増加することができる。
一部の実施形態では、適したRNAポリメラーゼ反応緩衝液(最終反応混合物のpHは約7.5)中の約5mM NTP、約0.05mg/mL RNAポリメラーゼおよび約0.1mg/ml DNA鋳型が、約37℃~約42℃で60分間~90分間インキュベートされる。他の実施形態では、適したRNAポリメラーゼ反応緩衝液(最終反応混合物のpHは約7.5)中約5mM NTP、約0.05mg/mL RNAポリメラーゼ、および約0.1mg/ml DNA鋳型が、約50℃~約52℃で、60分間~90分間インキュベートされる。
一部の実施形態では、反応混合物は、RNAポリメラーゼ特異的プロモーター、RNAポリメラーゼ、RNase阻害剤、ピロホスファターゼ、29mM NTP、10mM DTTおよび反応緩衝液(10倍の場合は800mM HEPES、20mM スペルミジン、250mM MgCl、pH7.7)を有する二本鎖DNA鋳型と、所望の反応量にするための十分な量(QS)のRNase-非含有水を含み;次いで、この反応混合物を37℃で60分間インキュベートする。次に、ポリメラーゼ反応を、DNase IおよびDNase I緩衝液(10倍の場合、100mM Tris-HCl、5mM MgClおよび25mM CaCl、pH7.6)の添加によってクエンチし、精製のための準備において二本鎖DNA鋳型の消化を促進する。この実施形態は、100グラムのmRNAを生成するのに十分であることが示されている。
一部の実施形態では、反応混合物は、1~10mMの範囲の濃度のNTP、0.01~0.5mg/mlの範囲の濃度のDNA鋳型、および0.01~0.1mg/mlの範囲の濃度のRNAポリメラーゼを含み、例えば、反応混合物は、5mMの濃度のNTP、0.1mg/mlの濃度のDNA鋳型、および0.05mg/mlの濃度のRNAポリメラーゼを含む。
ヌクレオチド
様々な自然発生のまたは修飾されたヌクレオシドは、本発明によるmRNAを産生するために使用し得る。一部の実施形態では、本発明によるmRNA転写産物は、天然ヌクレオシド(すなわち、アデノシン、グアノシン、シチジン、ウリジン)を用いて合成される。他の実施形態では、本発明によるmRNA転写産物は、天然ヌクレオシド(例えば、アデノシン、グアノシン、シチジン、ウリジン)および以下:ヌクレオシド類似体(例えば、2-アミノアデノシン、2-チオチミジン、イノシン、ピロロ-ピリミジン、3-メチルアデノシン、5-メチルシチジン、C-5プロピニル-シチジン、C-5プロピニルウリジン、2-アミノアデノシン、C5-ブロモウリジン、C5-フルオロウリジン、C5-ヨードウリジン、C5-プロピニル-ウリジン、C5-プロピニル-シチジン、C5-メチルシチジン、2-アミノアデノシン、7-デアザアデノシン、7-デアザグアノシン、8-オキシアデノシン、8-オクソグアノシン、O(6)-メチルグアニン、シュードウリジン(例えば、N-1-メチル-シュードウリジン)、2-チオウリジン、および2-チオシチジン);化学修飾塩基;生物学的修飾塩基(例えば、メチル化塩基);インターカレート塩基;修飾糖(例えば、2’-フルオロリボース、リボース、2’-デオキシリボース、アラビノースおよびヘキソース);および/または修飾リン酸基(例えば、ホスホロチオエートおよび5’-N-ホスホラミダイト結合)の1つまたはそれ以上を用いて合成される。
一部の実施形態では、mRNAは、1つまたはそれ以上の非標準ヌクレオチド残基を含む。非標準ヌクレオチド残基は、例えば、5-メチル-シチジン(「5mC」)、シュードウリジン(「ψU」)、および/または2-チオ-ウリジン(「2sU」)を含んでいてもよい。このような残基およびそれらのmRNAへの組み込みの議論については、例えば、米国特許第8,278,036号または国際公開第2011012316号を参照されたい。mRNAは、U残基の25%が2-チオ-ウリジンであり、C残基の25%が5-メチルシチジンであるRNAと定義されるRNAであってよい。RNAの使用に関する教示は、米国特許出願公開第20120195936号および国際公開第2011012316号に開示されており、これらの両方は、その全体が参照によって本明細書に組み入れられる。非標準ヌクレオチド残基の存在は、mRNAを、同じ配列を有するが標準残基のみを含む対照mRNAよりも安定に、および/または免疫原性を低くする可能性がある。さらなる実施形態では、mRNAは、イソシトシン、シュードイソシトシン、5-ブロモウラシル、5-プロピニルウラシル、6-アミノプリン、2-アミノプリン、イノシン、ジアミノプリンおよび2-クロロ-6-アミノプリンシトシン、ならびにこれらの修飾の組合せ、および他の核酸塩基修飾から選択される1つまたはそれ以上の非標準ヌクレオチド残基を含み得る。いくつかの実施形態は、フラノース環または核酸塩基に対する追加の修飾をさらに含んでもよい。追加の修飾は、例えば、糖修飾または置換(例えば、2’-O-アルキル修飾、ロックド核酸(LNA)のうちの1つまたはそれ以上)を含んでもよい。一部の実施形態では、RNAは、追加のポリヌクレオチドおよび/またはペプチドポリヌクレオチド(PNA)と複合体化またはハイブリッド化してもよい。糖修飾が2’-O-アルキル修飾である一部の実施形態では、そのような修飾は、2’-デオキシ-2’-フルオロ修飾、2’-O-メチル修飾、2’-O-メトキシエチル修飾および2’-デオキシ修飾を含み得るが、これらに限定されない。一部の実施形態では、これらの修飾のいずれかが、ヌクレオチドの0~100%、例えば、構成ヌクレオチドの0%、1%、10%、25%、50%、75%、85%、90%、95%、または100%を超えて、個々にまたは組合せで存在し得る。
細胞における最適化ヌクレオチド配列のトランスフェクションおよびスクリーニング
一部の実施形態では、本発明の方法は、合成された最適化ヌクレオチド配列を、in vivoまたはin vitroのいずれかで細胞にトランスフェクトすることをさらに含む。一部の実施形態では、合成された最適化されたヌクレオチド配列によってコードされるタンパク質の発現レベルが決定される。一部の実施形態では、方法は、参照ヌクレオチド配列および本発明の方法にしたがって生成された少なくとも1つの合成された最適化ヌクレオチド配列を合成すること、および各ヌクレオチド配列を別々の細胞または生物に接触させることをさらに含む。典型的な実施形態では、少なくとも1つの合成された最適化ヌクレオチド配列と接触させた細胞または生物は、合成された参照ヌクレオチド配列と接触させた細胞または生物によって産生された参照ヌクレオチド配列によってコードされたタンパク質の収量と比較して、最適化ヌクレオチド配列によってコードされたタンパク質の収量を増加させる。参照ヌクレオチド配列は:(a)アミノ酸配列をコードする自然発生のヌクレオチド配列;または(b)本発明の方法以外の方法によって生成されたアミノ酸配列をコードするヌクレオチド配列であり得る。
本発明の方法にしたがって生成された、合成された最適化ヌクレオチド配列が、細胞にトランスフェクトされた際にコードされたタンパク質の発現を増加させることを確認することが望ましい場合がある。前記ヌクレオチド配列のコドン最適化が、コードされたタンパク質の発現および産生を増加させることを実験的に検証するには、ウェスタンブロッティングなどの当技術分野で周知の方法が適している。さらに、本発明の方法によって生成される複数の合成された最適化ヌクレオチド配列は、最も高いタンパク質収量を生成する最適化ヌクレオチド配列を同定するためにスクリーニングし得る。一部の実施形態では、合成された最適化ヌクレオチド配列によってコードされるタンパク質の発現レベルは、少なくとも2倍、例えば、少なくとも3倍または4倍上昇する。
一部の実施形態では、合成された最適化ヌクレオチド配列によってコードされるタンパク質の機能的活性を決定する。最適化ヌクレオチド配列によってコードされるタンパク質の機能的活性は、一定範囲の確立された方法を使用して決定することができる。これらの方法は、目的のコードされたタンパク質の特性によって異なり得る。コドン最適化の文脈において、in vitroまたはin vivoで合成された最適化ヌクレオチド配列によってコードされるタンパク質の機能的活性を実験的に検証し、前記コードされるタンパク質の発現が所望の機能的効果をもたらすことを確認することが重要であり得る。例えば、酵素活性アッセイは、細胞における最適化ヌクレオチド配列によってコードされる酵素の機能的酵素活性を決定するために使用し得る。例えば、Ussing上皮電圧クランプアッセイは、本発明の方法で生成されるコドン最適化hCFTR配列をコードするmRNAから発現されるヒト嚢胞性線維症膜貫通コンダクタンス制御因子(hCFTR)タンパク質の活性を評価するために使用することができる。このアッセイは、hCFTR mRNAをトランスフェクトした上皮細胞の塩化物輸送機能をモニターする。
治療的応用
本発明は、治療における使用のために、本発明の方法にしたがって生成された、合成された最適化ヌクレオチド配列を提供する。
mRNA治療の分野において、コドン最適化は、標的細胞においてmRNAによってコードされる機能的タンパク質の発現を増加させ、それによって嚢胞性線維症(CF)、原発性繊毛運動障害(PCD)、肺動脈性高血圧(PAH)、および特発性肺線維症(IPF)などの種々の障害におけるタンパク質欠損を改善するために使用し得る。
本発明の特定の態様では、最適化ヌクレオチド配列は、ヒト嚢胞性線維症膜貫通コンダクタンス制御因子(hCFTR)タンパク質をコードする:
MQRSPLEKASVVSKLFFSWTRPILRKGYRQRLELSDIYQIPSVDSADNLSEKLEREWDRELASKKNPKLINALRRCFFWRFMFYGIFLYLGEVTKAVQPLLLGRIIASYDPDNKEERSIAIYLGIGLCLLFIVRTLLLHPAIFGLHHIGMQMRIAMFSLIYKKTLKLSSRVLDKISIGQLVSLLSNNLNKFDEGLALAHFVWIAPLQVALLMGLIWELLQASAFCGLGFLIVLALFQAGLGRMMMKYRDQRAGKISERLVITSEMIENIQSVKAYCWEEAMEKMIENLRQTELKLTRKAAYVRYFNSSAFFFSGFFVVFLSVLPYALIKGIILRKIFTTISFCIVLRMAVTRQFPWAVQTWYDSLGAINKIQDFLQKQEYKTLEYNLTTTEVVMENVTAFWEEGFGELFEKAKQNNNNRKTSNGDDSLFFSNFSLLGTPVLKDINFKIERGQLLAVAGSTGAGKTSLLMVIMGELEPSEGKIKHSGRISFCSQFSWIMPGTIKENIIFGVSYDEYRYRSVIKACQLEEDISKFAEKDNIVLGEGGITLSGGQRARISLARAVYKDADLYLLDSPFGYLDVLTEKEIFESCVCKLMANKTRILVTSKMEHLKKADKILILHEGSSYFYGTFSELQNLQPDFSSKLMGCDSFDQFSAERRNSILTETLHRFSLEGDAPVSWTETKKQSFKQTGEFGEKRKNSILNPINSIRKFSIVQKTPLQMNGIEEDSDEPLERRLSLVPDSEQGEAILPRISVISTGPTLQARRRQSVLNLMTHSVNQGQNIHRKTTASTRKVSLAPQANLTELDIYSRRLSQETGLEISEEINEEDLKECFFDDMESIPAVTTWNTYLRYITVHKSLIFVLIWCLVIFLAEVAASLVVLWLLGNTPLQDKGNSTHSRNNSYAVIITSTSSYYVFYIYVGVADTLLAMGFFRGLPLVHTLITVSKILHHKMLHSVLQAPMSTLNTLKAGGILNRFSKDIAILDDLLPLTIFDFIQLLLIVIGAIAVVAVLQPYIFVATVPVIVAFIMLRAYFLQTSQQLKQLESEGRSPIFTHLVTSLKGLWTLRAFGRQPYFETLFHKALNLHTANWFLYLSTLRWFQMRIEMIFVIFFIAVTFISILTTGEGEGRVGIILTLAMNIMSTLQWAVNSSIDVDSLMRSVSRVFKFIDMPTEGKPTKSTKPYKNGQLSKVMIIENSHVKKDDIWPSGGQMTVKDLTAKYTEGGNAILENISFSISPGQRVGLLGRTGSGKSTLLSAFLRLLNTEGEIQIDGVSWDSITLQQWRKAFGVIPQKVFIFSGTFRKNLDPYEQWSDQEIWKVADEVGLRSVIEQFPGKLDFVLVDGGCVLSHGHKQLMCLARSVLSKAKILLLDEPSAHLDPVTYQIIRRTLKQAFADCTVILCEHRIEAMLECQQFLVIEENKVRQYDSIQKLLNERSLFRQAISPSDRVKLFPHRNSSKCKSKPQIAALKEETEEEVQDTRL(配列番号15)
特定の一実施形態では、本発明によるhCFTRタンパク質をコードする最適化ヌクレオチド配列は、配列番号26と少なくとも85%、88%、90%、95%、96%、97%、98%、または99%の同一性を共有し、配列番号15のアミノ酸配列を有するCFTRタンパク質をコードする。特定の実施形態では、本発明によるhCFTRタンパク質をコードする最適化ヌクレオチド配列は、配列番号26である。特定の一実施形態では、本発明によるhCFTRタンパク質をコードする最適化ヌクレオチド配列は、配列番号27と少なくとも85%、88%、90%、95%、96%、97%、98%または99%同一性を共有し、配列番号15のアミノ酸配列を有するhCFTRタンパク質をコードする。特定の実施形態では、本発明によるhCFTRタンパク質をコードする最適化ヌクレオチド配列は配列番号27である。特定の一実施形態では、本発明によるhCFTRタンパク質をコードする最適化ヌクレオチド配列は配列番号28と少なくとも85%、88%、90%、95%、96%、97%、98%、または99%同一性を共有し、配列番号15のアミノ酸配列を有するhCFTRタンパク質をコードする。特定の実施形態では、本発明によるhCFTRタンパク質をコードする最適化ヌクレオチド配列は、配列番号28である。
特定の態様では、本発明は、本発明によるhCFTRタンパク質をコードする最適化ヌクレオチド配列を含む核酸を提供する。特定の実施形態では、本発明は、本発明によるhCFTRタンパク質をコードする最適化ヌクレオチド配列を含むmRNAを提供する。一部の実施形態では、本発明によるhCFTRタンパク質をコードする最適化ヌクレオチド配列を含むmRNAはまた、5’および3’UTR配列を含む。例示的な5’および3’UTR配列は、以下に示される:
例示的5’UTR配列
GGACAGAUCGCCUGGAGACGCCAUCCACGCUGUUUUGACCUCCAUAGAAGACACCGGGACCGAUCCAGCCUCCGCGGCCGGGAACGGUGCAUUGGAACGCGGAUUCCCCGUGCCAAGAGUGACUCACCGUCCUUGACACG(配列番号16)
例示的3’UTR配列
CGGGUGGCAUCCCUGUGACCCCUCCCCAGUGCCUCUCCUGGCCCUGGAAGUUGCCACUCCAGUGCCCACCAGCCUUGUCCUAAUAAAAUUAAGUUGCAUCAAGCU(配列番号17)
または
GGGUGGCAUCCCUGUGACCCCUCCCCAGUGCCUCUCCUGGCCCUGGAAGUUGCCACUCCAGUGCCCACCAGCCUUGUCCUAAUAAAAUUAAGUUGCAUCAAAGCU(配列番号18)
本発明の方法にしたがって生成された、合成された最適化ヌクレオチド配列は、mRNAワクチンにおける使用も見出されている。予防的mRNAワクチンの文脈において、コドン最適化は、最適な抗原活性のために対象に送達されるmRNAによってコードされる組換え抗原の発現を最大化し、それによって病原体に対する防御免疫を生成するために使用し得る。
同様に、癌免疫療法の分野において、コドン最適化は、対象に送達されるmRNAによってコードされる組換え腫瘍ネオ抗原の発現を最大化し、それによってネオ抗原を発現する異常な腫瘍細胞に対する適応免疫応答を生成するために使用し得る。
バイオテクノロジー応用
バイオテクノロジーの分野において、特に組換えタンパク質の製造の文脈において、コドン最適化は、細菌、酵母、昆虫、植物、または哺乳類細胞などの宿主細胞内で目的のタンパク質の産生を増加させるために使用し得る。
例えば、本発明の方法は、大腸菌で産生される組換えインスリンタンパク質のタンパク質発現収量を最適化するために使用し得る。組換えタンパク質の発現はまた、例えば、宿主細胞内、またはタンパク質発現に適した無細胞タンパク質抽出物中で生じ得る。コドン最適化はまた、バイオテクノロジー、製造、診断、および/または研究における使用に適した、工業的に有用な酵素の産生を増加させるために使用し得る。
以下の実施例は、例示目的のためにのみ含まれ、本発明の範囲を限定することを意図するものではない。
実施例1.最適化ヌクレオチド配列の生成
本実施例は、in vitro合成中に完全長転写産物をもたらすように最適化され、コードされるタンパク質の高レベルの発現をもたらす、本発明による最適化ヌクレオチド配列をもたらすプロセスを例示している。
このプロセスは、図1のコドン最適化方法を、図10に例示する一連のフィルタリング工程と組み合わせ、最適化ヌクレオチド配列のリストを生成する。具体的には、図1に示されるように、プロセスは、関心のあるアミノ酸配列と、所与の生物における各コドンの頻度を反映する第1のコドン使用表(すなわち、本実施例の文脈におけるヒトのコドン使用優先度)とを受け取る。次いでこのプロセスは、閾値頻度(10%)未満であるコドンの使用頻度に関連している場合、コドンを第1のコドン使用表から除去する。第1の工程で除去されなかったコドンのコドン使用頻度を正規化し、正規化コドン使用表を生成する。
コドン使用表の正規化は除去された各コドンについての使用頻度値を再分配することを伴い;特定の除去したコドンの使用頻度を、除去されたコドンがアミノ酸を共有している他のコドンの使用頻度に加算する。本実施例では、再分配は、表から除去されなかったコドンの使用頻度の大きさに比例し、図3および図4Bに関連して説明したような例示的な方法にしたがって実行し得る。プロセスは、正規化コドン使用表を使用して、最適化ヌクレオチド配列のリストを生成する。最適化ヌクレオチド配列の各々は、目的のアミノ酸配列をコードする。
図10に例示されるように、最適化ヌクレオチド配列のリストは、モチーフスクリーニングフィルタ、グアニン-シトシン(GC)含量分析フィルタ、およびコドン適応指標(CAI)分析フィルタをこの順に適用してさらに処理され、最適化ヌクレオチド配列の更新リストを生成する。図6に例示されるモチーフスクリーニングフィルタは、転写または翻訳を阻害し得る配列を除去するために使用される。GC含量分析フィルタは、図11に例示されるプロセスを行う。
以下の実施例に示すように、このプロセスにより、目的のアミノ酸配列をコードする最適化されたヌクレオチド配列が得られる。ヌクレオチド配列は、in vitro合成中に完全長転写産物をもたらし、コードされたタンパク質の高レベルの発現をもたらす(実施例2および実施例3を参照)。実施例4に示すように、発現されたタンパク質は完全に機能的である。
実施例2.高いCAIスコアを有するヌクレオチド配列を生成するためのコドン最適化はタンパク質収量を改善する
本実施例は、約0.8以上のコドン適応指標(CAI)を有するコドン最適化タンパク質コード配列が、0.8未満のCAIを有するコドン最適化タンパク質コード配列より優れていることを実証するものである。
コドン最適化はヒトエリスロポエチン(hEPO)の野生型アミノ酸配列において行った。hEPOは、細胞の低酸素レベル(低酸素)に反応して腎臓から分泌されるタンパク質ホルモンである。hEPOは、赤血球の産生である赤血球形成に必須である。組換えhEPOは、慢性腎臓病を有する対象または癌化学療法を受けている対象に生じ得る、赤血球またはヘモグロビン数の低下を特徴とする状態である貧血の治療に一般的に使用される。
異なるコドン最適化アルゴリズムを使用して、hEPOをコードする合計5つの新しいコドン最適化ヌクレオチド配列(#1~#5)を生成した。ヌクレオチド配列#4および#5は、実施例1に示されるように、本発明の方法にしたがって生成した。参照として、コドン最適化hEPOコード配列を有するヌクレオチド配列が、in vitroおよびin vivoの両方で以前に実験的に検証されたものとして提供された。参照ヌクレオチド配列(配列番号19)は、野生型ヌクレオチド配列およびhEPOタンパク質をコードする他のコドン最適化ヌクレオチド配列と比較して、優れたタンパク質収量を提供することが見出されていた。CAI、GC含量、コドン頻度分布(CFD)、ならびに負のCISエレメントおよび負の反復エレメントの存在に関する5つのヌクレオチド配列のそれぞれの特徴を表1に要約する。
Figure 2023524769000002
各コドン最適化配列からのタンパク質収量を試験するために、hEPOタンパク質をコードする6つのヌクレオチド配列の1つを、同一の3’および5’非翻訳配列(3’UTR)に隣接して含み、RNAポリメラーゼプロモーターが先行する発現カセットを含む6つの核酸ベクターを調製した。これらの核酸ベクターは、6つのコドン最適化ヌクレオチド配列(参照およびヌクレオチド配列#1~#5)を含むmRNAの6バッチを提供するためのin vitro転写反応の鋳型として機能した。キャッピングおよびテーリングは別々に行った。キャッピングおよびテーリングされたmRNAの各々を、細胞株(HEK293)に別々にトランスフェクトした。コードされるhEPOタンパク質の発現レベルは、ELISAによって評価した。この実験の結果を、図12に要約する。
図12から分かるように、最高レベルの発現は、ヌクレオチド配列#3(配列番号22)で観察され、これは、実験的に検証された参照ヌクレオチド配列のほぼ2倍のhEPOタンパク質を生成した。より高いタンパク質収量への傾向は、それらのCAIに依存する配列について観察できた(表1参照)。最も高いタンパク質収量を持つヌクレオチド配列#3は、最も高いCAIを有した。2番目および3番目に高い収量のヌクレオチド配列#4(配列番号23)および#5(配列番号24)は、2番目および3番目に高いCAIを有していた。最も低い性能のヌクレオチド配列#1(配列番号20)および#2(配列番号21)はまた、最も低いCAIを有していた。ちなみに、これらは、最も低いGC含量を有するヌクレオチド配列でもあった。しかし、GC含量だけでは決定的ではなかった。参照ヌクレオチド配列は、試験したすべてのコドン最適化配列の中で最も高いGC含量(61%)を有していたが、すべてGC含量の低いヌクレオチド配列#3、#4および#5ほどには性能が高くなかった。注目すべきは、最も低い性能のヌクレオチド配列#1および#2が、より高いCFDも有していたことである。
まとめると、本実施例のデータは、約0.8以上のCAIを達成するための治療上関連するヌクレオチド配列のコドン最適化が、例えば、可能な限り高いGC含量を有するヌクレオチド配列を達成するためのコドン最適化よりも大きなタンパク質収量をもたらすことを実証している。
実施例3.CAIを増加させるためのCFTR mRNA配列のコドン最適化は、より高いタンパク質発現をもたらす
本実施例は、約0.8以上のコドン適応指標(CAI)を有するコドン最適化タンパク質コード配列が、0.8未満のCAIを有するコドン最適化タンパク質コード配列より優れていることを確認するものである。
実施例1で試験したhEPOタンパク質は、そのアミノ酸配列が495ヌクレオチドの配列によってコードされる比較的短いポリペプチドである。実施例1の知見が、より大きなタンパク質をコードするはるかに長いヌクレオチド配列にも適用されるかどうかを決定するために、コドン最適化をヒト嚢胞性線維症膜貫通コンダクタンス制御因子(hCFTR)に対して行った。hCFTRは4440ヌクレオチドの配列によってコードされ、すなわちその配列はhEPOのコード配列より約10倍長い。
hCFTRタンパク質をコードする遺伝子における変異は、コーカサス人口における最も一般的な遺伝的疾患である嚢胞性線維症(CF)を引き起こす。これは、上皮を通過する塩化物およびナトリウムの異常な輸送によって特徴付けられ、これは最も決定的には肺、および膵臓、肝臓および腸に影響与える濃い粘稠性の分泌をもたらす。コドン最適化hCFTRコード配列をコードするmRNAは、CFを治療するための新しい治療法として開発されている。
実施例1に示されるように、本発明の方法にしたがって、ネイティブhCFTRアミノ酸配列に対してコドン最適化を行った。hCFTR#1(配列番号26)、hCFTR #2(配列番号27)およびhCFTR #3(配列番号28)と指定した3つの配列を、さらなる分析のために選択した。参照として、異なるアルゴリズムでコドン最適化されたhCFTRコード配列を有するヌクレオチド配列を提供した(配列番号25)。この参照ヌクレオチド配列(配列番号25)は、以前にin vitroおよびin vivoの両方で実験的に検証されたものであった。参照ヌクレオチド配列は、hCFTRタンパク質をコードする他の先に試験したコドン最適化ヌクレオチド配列と比較して、優れたタンパク質収量を提供することが見出されていた。基準塩基配列と比較すると、コドン最適化hCFTR#2およびhCFTR#3配列のCAIおよびGC含量%は、顕著に増加した。さらに、コドン頻度分布(CFD)%は、参照塩基配列の6%に対して0%であり、これは、翻訳効率に有害な希少コドンクラスターの除去に成功していることを示している。負の調節モチーフを除去するための追加フィルタリングにより、hCFTR #2およびhCFTR #3における負のシス調節(CIS)エレメントの数が大幅に減少した(表2参照)。
Figure 2023524769000003
各コドン最適化配列からのタンパク質収量を試験するために、hCFTRタンパク質をコードする4つのヌクレオチド配列の1つを、同一の3’および5’非翻訳配列(3’ and 5’ UTR)に隣接して含み、RNAポリメラーゼプロモーターが先行する発現カセットをそれぞれ含む4つの核酸ベクターを調製した。これらの核酸ベクターは、4つのコドン最適化ヌクレオチド配列(参照およびhCFTR #1~#3)を含むmRNAの4つのバッチを提供するためのin vitro転写反応の鋳型として機能した。キャッピングおよびテーリングは別々に実施した。
キャッピングおよびテーリングされたmRNAのそれぞれを、細胞株(HEK293)に別々にトランスフェクトした。トランスフェクションの24時間後および48時間後に細胞溶解物を収集した。タンパク質試料を抽出し、SDS-PAGE用に処理した。コードされたhCFTRタンパク質の発現レベルは、ウェスタンブロットによって評価した。タンパク質バンドは、LI-CORシステムを使用して現像および定量化した。タンパク質収量は、相対蛍光単位(RFU)として表した。この実験の結果は、図13に要約されている。CAIが共に0.89であるコドン最適化ヌクレオチド配列hCFTR #2およびhCFTR #3は、CAIが共に0.7である参照ヌクレオチド配列およびhCFTR #1と比較して、コードされているhCFTRタンパク質の著しく高い収量がもたらされた。この効果は24時間の時点でより顕著であり(図13B参照)、これはトランスフェクション後のHEK293細胞におけるmRNAの比較的急速な分解によるものと考えられる。
本実施例のデータは、約0.8以上のCAIを達成するための治療上関連するヌクレオチド配列(hCFTR)のコドン最適化が、特に、そのCFDおよびそのGC含量の最適化、ならびに核酸配列からの任意の負のCISエレメントの除去とも組み合わせた場合に、より大きなタンパク質収量をもたらすことを実証している。本実施例のデータは、本発明の方法によるhCFTR mRNAのコドン最適化が、異なるアルゴリズムでコドン最適化されたヌクレオチド配列と比較して、ヒト細胞において非常に高いhCFTRタンパク質収率をもたらすことも確認した。
実施例4.CFTRヌクレオチド配列のコドン最適化は、細胞における機能的活性の増加をもたらす
本実施例は、本発明の方法によるhCFTRヌクレオチド配列のコドン最適化が、ヒト細胞におけるhCFTR機能的活性に影響を与えないことを示すものである。
hCFTR mRNAの投与は、CF患者の気道上皮細胞によるその取り込みをもたらし、次いで標的細胞の細胞質への内在化をもたらすことを意図している。細胞への取り込みが達成されると、hCFTR mRNAは通常のhCFTRタンパク質に翻訳され、これは次いで細胞の内在性分泌経路で処理されて、hCFTRタンパク質の頂膜の細胞内への局在がもたらされる。このアプローチによって、hCFTR mRNAの投与により、気道上皮において機能的なhCFTRタンパク質が産生されることにより、CF患者の肺における機能的CFTRの欠乏が改善される。hCFTR mRNAのヌクレオチド配列のコドン最適化により、機能的hCFTRタンパク質の発現量を増加させることができ、これにより、CF患者の標的気道上皮細胞において機能的hCFTRタンパク質をより多く発現させることができると考えられる。
コドン最適化は、そのプロセスが、タンパク質の翻訳を制御し、新生ポリペプチド鎖の適切なフォールディングを確保するために重要なヌクレオチド配列にコードされた情報を除去する可能性があるため、コードされたタンパク質の機能的活性の低下およびそれに伴う有効性の損失という犠牲を伴うことが報告されている(Mauro & Chappell, Trends Mol Med. 2014年; 20(11):604-13)。実施例1に示したようにコドン最適化方法を用いて生成したコドン最適化配列から発現したhCFTRタンパク質の機能的活性を試験するために、実施例2で産生したhCFTR mRNAをUssingチャンバーアッセイで試験した。このアッセイは、上皮電圧クランプを用い、前記mRNAをトランスフェクトした上皮細胞の塩化物輸送機能をモニターすることにより、hCFTR mRNAから発現されるタンパク質の機能的活性を評価する。具体的には、対照hCFTRコード配列(配列番号25)またはhCFTR #1(配列番号26)、hCFTR #2(配列番号27)またはhCFTR #3(配列番号28)のコード配列を有するmRNAから発現するhCFTRタンパク質の機能的活性を、Fischerラット甲状腺(FRT)上皮細胞において測定した。FRT上皮細胞は、ヒト気道上皮細胞機能を研究するためのモデルとして一般的に使用されている。FRT上皮細胞は、Snapwell(商標)フィルタインサート上で単層培養され、4つのhCFTR mRNAをトランスフェクトした。4つのhCFTR mRNAは、実施例2に記載されるように産生した。対照mRNAは、以前にこのアッセイで検証されており、参照標準として使用された。
hCFTR mRNAから産生された正しく翻訳され局在化したhCFTRタンパク質は、CFTRアゴニスト(フォルスコリンおよびVX-770[Kalydeco(登録商標)])を適用した際のUssing上皮電圧クランプ装置内で短絡電流(ISC)出力を増大させる。CFTRアンタゴニストCFTRinh-172の適用により、hCFTRはブロック状態になる。このアッセイにおけるISC電流極性協定は、頂端から側底部へのナトリウム電流および側底部から頂端への塩化物電流を負の値として記録するため、試験hCFTR mRNAのトランスフェクションによって高い負の値が発生すれば、コードされたhCFTRタンパク質が機能的であると結論付けることができる(図14A)。さらに、等量のmRNAをトランスフェクトすることによって、mRNAがより高い収量のhCFTRタンパク質を生成するかどうかを評価することができ、これはタンパク質の収量と活性には相関があるためである。hCFTR #1コード配列を有するmRNAをFRT上皮細胞にトランスフェクトすると、対照hCFTRコード配列を有するmRNAをトランスフェクトした場合と同等の活性がもたらされた(図14B)。本発明の方法によって生成したhCFTRをコードするヌクレオチド配列を有するmRNAは、著しい活性の上昇をもたらした。実施例2で観察された、より高いタンパク質収量と一致して、hCFTR#2をコードするmRNAから産生されたhCFTRタンパク質は、対照mRNAに対して2倍以上高い活性をもたらし、hCFTR#3をコードするmRNAから生成されたhCFTRタンパク質は、対照mRNAに対して3倍高い活性をもたらした。これは、実施例2で観察されたhCFTR#2およびhCFTR#3から得られる、より高いタンパク質収量が、より高い機能的活性と直接相関することを確認し、本発明の方法によるコドン最適化が、コードされたタンパク質の機能的活性に負の影響を与えないことを実証している。
要約すると、本発明の方法によるコドン最適化は、ヒト細胞におけるコードされたタンパク質のより高い発現をもたらし、発現されたタンパク質は、ヒト治療に高度に関連するモデルシステムにおいて完全な機能的活性を提供する。
実施例5.CAIを上昇させるためのDNAI1 mRNA配列のコドン最適化は、より高いタンパク質発現をもたらす
本実施例のデータは、約0.8以上のCAIを達成するための、さらなる治療上関連するヌクレオチド配列(DNAI1)のコドン最適化が、特にそのCFDおよびGC含量の最適化ならびに核酸配列からの任意の負のCISエレメントの除去とも組み合わせた場合に、細胞におけるより大きなタンパク質収量をもたらすことを実証している。本実施例のデータはまた、CAI値が、本発明の方法にしたがって生成されたコドン最適化mRNAについてのタンパク質発現収量と正に相関することも確認している。
原発性毛様体運動障害(PCD)は、気道、生殖器系、および他の器官および組織の裏打ちにみられる異常な繊毛および鞭毛によって特徴付けられる自己劣性障害である。症状は早ければ出生時に現れ、呼吸障害を伴い、罹患個人は幼児期から開始する頻繁な呼吸器感染症を発症する。また、PCDを有する人々は、年間を通して鼻づまりおよび慢性的な咳がみられる。慢性的な呼吸器感染症は気管支拡張症と呼ばれる状態を引き起こし、これは気管支と呼ばれる通路を損傷し、生命を脅かす呼吸障害を引き起こし得る。また、PCDを有する個人には、不妊症、再発性の耳の感染症、胸部および腹部の臓器の異常な位置を有する人もいる。PCD病態形成に直接関与することが確認されているいくつかの遺伝子のうち、2つの遺伝子:それぞれ軸糸ダイニンの中鎖および重鎖をコードしているDNAI1およびDNAH5にかなりの数の変異がみられる。
コドン最適化DNAI1コード配列をコードするmRNAは、PCDを治療するための新規治療剤として開発されている。
コドン最適化を、実施例1に示されるように、本発明の方法にしたがってネイティブDNAI1アミノ酸配列を使用して行い、DNAI1#1(配列番号29)、DNAI1#2(配列番号30)、DNAI1#3(配列番号31)と命名された3つの配列を生成した。コドン最適化DNAI1配列DNAI1#4(配列番号32)もまた、参照として含まれた。DNAI1#4はコドン最適化されたが、モチーフスクリーンフィルタ、グアニン-シトシン(GC)含量分析フィルタ、およびコドン適応指標(CAI)分析フィルタを適用してさらに処理しなかった。本発明の方法にしたがって生成して得られるコドン最適化塩基配列は、表3に記載するように、0.8以上のCAI値を有していた。
Figure 2023524769000004
各コドン最適化配列からのタンパク質収量を試験するために、DNAI1タンパク質をコードする4つのヌクレオチド配列の1つを同一の5’および3’UTRに隣接して含み、RNAポリメラーゼプロモーターが先行する発現カセットをそれぞれ含む4つの核酸ベクターを調製した。これらの核酸ベクターは、4つのコドン最適化ヌクレオチド配列(DNAI1#1~#4)を含むmRNAの4つのバッチを提供するためのin vitro転写反応の鋳型として機能した。キャッピングおよびテーリングは別々に行った。
キャッピングおよびテーリングしたmRNA 各2μgを、トランスフェクトした10個のHEK293T細胞をトランスフェクトするために使用した。トランスフェクトされていないHEK293T細胞も、陰性対照を提供するために含まれた。トランスフェクションの24時間後に細胞溶解物を収集し、タンパク質試料を抽出し、SDS-PAGE用に処理した。細胞の各バッチ由来の2つの試料を処理し、分析した。コードされたDNAI1タンパク質の発現レベルは、抗DNAI1一次抗体(αDNAI1)を用いて、ウェスタンブロットによって評価した。ビンキュリンの発現レベルも、抗ビンキュリン一次抗体(αビンキュリン)を用いて測定し、ローディング対照とした。シグナルは、LI-CORイメージング系を使用して現像および定量化し、ビンキュリンに対して正規化したDNAI1タンパク質収量は、コドン最適化されていないDNAL1配列をコードするmRNAで達成した参照レベルに対する倍数増加として図15Bにグラフ化した。この実験の結果を、図15に要約する。CAIが最も高い(0.90)コドン最適化ヌクレオチド配列DNAI1#1は、参照(DNAI1#4)と比較して最も高いレベルのDNAI1タンパク質を産生した。コドン最適化配列DNAI1#2およびDNAI1#3は、共にCAIが0.87であり、ヌクレオチド配列の違いにもかかわらず同等のレベルのDNAI1タンパク質を産生し、これにより、CAIがタンパク質発現量に密接に関連していることが示された。CAIが0.83であるコドン最適化配列DNAI1#4は、より高いCAIを有する最適化ヌクレオチド配列と比較して最も低い量のタンパク質を産生したが、それでも参照レベルと比較して顕著に増加した。
合わせると、これらのデータは、本発明のコドン最適化ヌクレオチド配列を含むmRNAについて、より高いCAIがタンパク質発現収量を強く示しており、また、同様のCAI値を有する異なるコドン最適化ヌクレオチド配列が、細胞内で、コードされたタンパク質の同様のレベルを産生することを示している。
本発明についての番号付き実施形態
1.最適化ヌクレオチド配列を生成するためのコンピュータ実装方法であって、
(i)ペプチド、ポリペプチド、またはタンパク質をコードするアミノ酸配列を受け取る工程;
(ii)第1のコドン使用表を受け取る工程であって、第1のコドン使用表は、アミノ酸のリストを含み、表中の各アミノ酸は、少なくとも1つのコドンと関連し、各コドンは、使用頻度と関連する工程;
(iii)コドン使用表から、閾値頻度未満である使用頻度と関連する任意のコドンを除去する工程;
(iv)工程(iii)において除去されなかったコドンの使用頻度を正規化することにより、正規化コドン使用表を生成する工程;および
(v)正規化コドン使用表中のアミノ酸と関連する1つまたはそれ以上のコドンの使用頻度に基づき、アミノ酸配列内の各アミノ酸のためのコドンを選択することにより、アミノ酸配列をコードする最適化ヌクレオチド配列を生成する工程
を含む方法。
2.正規化する工程は、
(a)第1のアミノ酸と関連し、工程(iii)において除去された各コドンの使用頻度を、第1のアミノ酸と関連する残りのコドンに分配する工程;および
(b)各アミノ酸について、工程(a)を反復して、正規化コドン使用表を作成する工程
を含む、実施形態1に記載の方法。
3.除去されたコドンの使用頻度は、残りのコドン間で同等に分配される、実施形態2に記載の方法。
4.除去されたコドンの使用頻度は、各残りのコドンの使用頻度に基づき、残りのコドン間で比例的に分配される、実施形態2に記載の方法。
5.各アミノ酸のためのコドンを選択する工程は、
(a)正規化コドン使用表において、アミノ酸配列の第1のアミノ酸と関連する1つまたはそれ以上のコドンを同定する工程;
(b)第1のアミノ酸と関連するコドンを選択する工程であって、ある特定のコドンを選択する確率は、正規化コドン使用表中の第1のアミノ酸と関連するコドンと関連する使用頻度と等しい工程;および
(c)アミノ酸配列内の各アミノ酸のためのコドンが選択されるまで、工程(a)および(b)を反復する工程
を含む、実施形態1~4のいずれか1項に記載の方法。
6.工程(v)は、最適化ヌクレオチド配列のリストを生成するように、複数回にわたり実行される、実施形態1~5のいずれか1項に記載の方法。
7.閾値頻度は、使用者により選択可能である、実施形態1~6のいずれか1項に記載の方法。
8.閾値頻度は、5%~30%の範囲、特に、5%、10%、もしくは15%、もしくは20%、もしくは25%、もしくは30%、または、特に、10%である、実施形態1~7のいずれか1項に記載の方法。
9.最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列は、終結シグナルを含有するのかどうかを決定する工程;および
ヌクレオチド配列が、1つまたはそれ以上の終結シグナルを含有する場合に、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程
をさらに含む、実施形態6~8のいずれか1項に記載の方法。
10.1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:
5’-XATCTXTX-3’
[配列中、X、X、およびXは、独立に、A、C、T、またはGから選択される]
を有する、実施形態9に記載の方法。
11.1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:
TATCTGTT;および/または
TTTTTT;および/または
AAGCTT;および/または
GAAGAGC;および/または
TCTAGA
のうちの1つまたはそれ以上を有する、実施形態10に記載の方法。
12.1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:
5’-XAUCUXUX-3’
[配列中、X、X、およびXは、独立に、A、C、U、またはGから選択される]
を有する、実施形態9に記載の方法。
13.1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:
UAUCUGUU;および/または
UUUUUU;および/または
AAGCUU;および/または
GAAGAGC;および/または
UCUAGA
のうちの1つを有する、実施形態12に記載の方法。
14.最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の最適化ヌクレオチド配列の各々の、ヌクレオチド配列内の塩基が、グアニンまたはシトシンである百分率である、グアニン-シトシン含量を決定する工程;
そのグアニン-シトシン含量が、所定のグアニン-シトシン含量範囲から外れる場合に、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程
をさらに含む、実施形態6~13のいずれか1項に記載の方法。
15.最適化ヌクレオチド配列の各々のグアニン-シトシン含量を決定する工程は、各ヌクレオチド配列について、
ヌクレオチド配列の第1の部分のグアニン-シトシン含量を決定する工程
を含み、最適化ヌクレオチド配列のリストを更新する工程は、
第1の部分のグアニン-シトシン含量が、所定のグアニン-シトシン含量範囲から外れる場合に、ヌクレオチド配列を除去する工程
を含む、実施形態14に記載の方法。
16.最適化ヌクレオチド配列の各々のグアニン-シトシン含量を決定する工程は、各ヌクレオチド配列について、
ヌクレオチド配列のうちの、1つまたはそれ以上のさらなる部分のグアニン-シトシン含量を決定する工程
をさらに含み、さらなる部分は、互いと重複せず、第1の部分と重複せず、最適化配列のリストを更新する工程は、
任意の部分のグアニン-シトシン含量が、所定のグアニン-シトシン含量範囲から外れる場合に、ヌクレオチド配列を除去する工程
を含み、場合により、任意の部分のグアニン-シトシン含量が、所定のグアニン-シトシン含量範囲外にあることが決定された場合に、ヌクレオチド配列のグアニン-シトシン含量を決定する工程は、停止される、実施形態15に記載の方法。
17.ヌクレオチド配列のうちの第1の部分および/または1つもしくはそれ以上のさらなる部分は、所定の数のヌクレオチドを含み、場合により、所定の数のヌクレオチドは、5~300ヌクレオチド、または10~200ヌクレオチド、または15~100ヌクレオチド、または20~50ヌクレオチドの範囲にあり、例えば、30ヌクレオチドである、実施形態15または16に記載の方法。
18.所定のグアニン-シトシン含量範囲は、使用者により選択可能である、実施形態17に記載の方法。
19.所定のグアニン-シトシン含量範囲は、15%~75%、もしくは40%~60%、または、特に、30%~70%である、実施形態17または18に記載の方法。
20.最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の、最適化ヌクレオチド配列の各々の、コドン使用バイアスの尺度であり、0~1の間の値であり得る、コドン適応指標を決定する工程;
そのコドン適応指標が、所定のコドン適応指標閾値以下である場合に、任意のヌクレオチド配列を除去することにより、最適化ヌクレオチド配列のリスト、または最近更新されたリストを更新する工程
をさらに含む、実施形態6~19のいずれか1項に記載の方法。
21.コドン適応指標閾値は、使用者により選択可能である、実施形態20に記載の方法。
22.コドン適応指標閾値は、0.7、もしくは0.75、もしくは0.85、もしくは0.9、または、特に、0.8である、実施形態20または21に記載の方法。
23.アミノ酸配列は、アミノ酸配列のデータベースから受け取られる、実施形態1~22のいずれか1項に記載の方法。
24.アミノ酸配列をアミノ酸配列のデータベースから要求する工程をさらに含み、アミノ酸配列は要求に応答して受け取られる、実施形態23に記載の方法。
25.第1のコドン使用表は、コドン使用表のデータベースから受け取られる、実施形態1~24のいずれか1項に記載の方法。
26.第1のコドン使用表をコドン使用表のデータベースから要求する工程をさらに含み、第1のコドン使用表は要求に応答して受け取られる、実施形態24に記載の方法。
27.少なくとも1つの最適化ヌクレオチド配列を、スクリーンに表示する工程をさらに含む、実施形態1~26のいずれか1項に記載の方法。
28.コンピュータプログラムであって、コンピュータによりプログラムが実行される場合に、コンピュータに、実施形態1~27のいずれか1項に記載の方法を実行させる命令を含むコンピュータプログラム。
29.実施形態1~27のいずれか1項に記載の方法を実行するための手段を含むデータ処理システム。
30.実施形態28に記載のコンピュータプログラムを格納したコンピュータ読取り型データ記憶媒体。
31.実施形態28に記載のコンピュータプログラムを搬送するデータ搬送信号。
32.ヌクレオチド配列を合成するための方法であって、
実施形態1~27のいずれか1項に記載のコンピュータ実装方法を実行して、少なくとも1つの最適化ヌクレオチド配列を生成する工程;および
生成された最適化ヌクレオチド配列のうちの少なくとも1つを合成する工程
を含む方法。
33.合成された最適化配列を、in vitro転写における使用のための核酸ベクター内に挿入する工程をさらに含む、実施形態32に記載の方法。
34.合成最適化ヌクレオチド配列の3’末端に、1つまたはそれ以上の終結シグナルを挿入する工程をさらに含む、実施形態32または33に記載の方法。
35.1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:
5’-XATCTXTX-3’
[配列中、X、X、およびXは、独立に、A、C、T、またはGから選択される]
によりコードされる、実施形態34に記載の方法。
36.1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:
TATCTGTT;
TTTTTT;
AAGCTT;
GAAGAGC;および/または
TCTAGA
のうちの1つまたはそれ以上によりコードされる、実施形態34または35に記載の方法。
37.1つを超える終結シグナルは挿入され、前記終結シグナルは、10塩基対またはそれ未満隔てられ、例えば、5~10塩基対隔てられる、実施形態34~36のいずれか1項に記載の方法。
38.1つを超える終結シグナルは、以下のヌクレオチド配列:(a)5’-XATCTXTX-(Z)-XATCTXTX-3’、または(b)5’-XATCTXTX-(Z)-XATCTXTX-(Z)-XATCTXTX-3’[配列中、X、X、X、X、X5、、X、X、およびXは、独立に、A、C、T、またはGから選択され、Zは、Nヌクレオチドのスペーサー配列を表し、Zは、それらの各々が、独立に、A、C、T、またはGから選択される、Mヌクレオチドのスペーサー配列を表し、Nおよび/またはMは、独立に、10またはそれ未満である]によりコードされる、実施形態36に記載の方法。
39.核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結されたRNAポリメラーゼプロモーターを含み、場合により、RNAポリメラーゼプロモーターは、SP6 RNAポリメラーゼプロモーター、またはT7 RNAポリメラーゼプロモーターである、実施形態33~38のいずれか1項に記載の方法。
40.核酸ベクターは、プラスミドである、実施形態33~39のいずれか1項に記載の方法。
41.プラスミドは、in vitro転写の前に直鎖化される、実施形態40に記載の方法。
42.プラスミドは、in vitro転写の前に直鎖化されない、実施形態40に記載の方法。
43.プラスミドは、超らせん状である、実施形態42に記載の方法。
44.合成最適化ヌクレオチド配列のうちの少なくとも1つをin vitro転写において使用して、mRNAを合成する工程をさらに含む、実施形態32~43のいずれか1項に記載の方法。
45.mRNAは、SP6 RNAポリメラーゼにより合成される、実施形態44に記載の方法。
46.SP6 RNAポリメラーゼは、自然発生のSP6 RNAポリメラーゼである、実施形態45に記載の方法。
47.SP6 RNAポリメラーゼは、組換えSP6 RNAポリメラーゼである、実施形態45に記載の方法。
48.SP6 RNAポリメラーゼは、タグを含む、実施形態47に記載の方法。
49.タグは、Hisタグである、実施形態48に記載の方法。
50.mRNAは、T7 RNAポリメラーゼにより合成される、実施形態44に記載の方法。
51.合成されたmRNAを、キャッピングおよび/またはテーリングする別個の工程をさらに含む、実施形態44~50のいずれか1項に記載の方法。
52.キャッピングおよびテーリングは、in vitro転写の間に起こる、実施形態44~50のいずれか1項に記載の方法。
53.mRNAは、1~10mMの各NTPの範囲の濃度のNTP、0.01~0.5mg/mlの範囲の濃度のDNA鋳型、および0.01~0.1mg/mlの範囲の濃度のSP6 RNAポリメラーゼを含む反応混合物中で合成される、実施形態44~52のいずれか1項に記載の方法。
54.反応混合物は、5mMの各NTPの濃度のNTP、0.1mg/mlの濃度のDNA鋳型、および0.05mg/mlの濃度のSP6 RNAポリメラーゼを含む、実施形態53に記載の方法。
55.mRNAは、37~56℃の範囲の温度で合成される、実施形態44~54のいずれか1項に記載の方法。
56.NTPは、自然発生のNTPである、実施形態53~55のいずれか1項に記載の方法。
57.NTPは、修飾NTPを含む、実施形態53~55のいずれか1項に記載の方法。
58.in vitroまたはin vivoにおいて、細胞に、合成最適化ヌクレオチド配列をトランスフェクトする工程をさらに含む、実施形態32~57のいずれか1項に記載の方法。
59.トランスフェクトされた細胞内の、合成最適化ヌクレオチド配列によりコードされるタンパク質の発現レベルが決定される、実施形態58に記載の方法。
60.合成最適化ヌクレオチド配列によりコードされるタンパク質の機能的活性が決定される、実施形態58または59に記載の方法。
61.アミノ酸配列をコードする参照ヌクレオチド配列、および実施形態32~60のいずれか1項に記載の方法に従う少なくとも1つの最適化ヌクレオチド配列を合成する工程と、参照ヌクレオチド配列、および少なくとも1つの最適化ヌクレオチド配列を、別個の細胞または生物と接触させる工程とをさらに含み、少なくとも1つの合成最適化ヌクレオチド配列と接触させた細胞または生物は、合成参照ヌクレオチド配列と接触させた細胞または生物により産生される、参照ヌクレオチド配列によりコードされるタンパク質の収量と比較して増大した収量の、最適化ヌクレオチド配列によりコードされるタンパク質を産生する、実施形態1~27のいずれか1項に記載の方法。
62.対象への送達または対象の処置における使用のための、治療用ペプチド、ポリペプチド、またはタンパク質をコードするmRNAを含む治療用組成物を作製する工程をさらに含む、実施形態32~60のいずれか1項に記載の方法。
63.mRNAは、嚢胞性線維症膜貫通コンダクタンス制御因子(CFTR)タンパク質をコードする、実施形態62に記載の方法。
64.合成された場合の少なくとも1つの最適化ヌクレオチド配列は、少なくとも1つの最適化ヌクレオチド配列によりコードされるタンパク質の発現を、合成された場合の参照ヌクレオチド配列によりコードされるタンパク質の発現と比較して増大させるように構成される、実施形態1~27のいずれか1項に記載の方法。
65.参照ヌクレオチド配列は、(a)アミノ酸配列をコードする自然発生のヌクレオチド配列、または(b)実施形態1~27のいずれか1項に記載の方法以外の方法により生成されるアミノ酸配列をコードするヌクレオチド配列である、実施形態61~64のいずれか1項に記載の方法。
66.治療における使用のための、実施形態32~57および62~65のいずれか1項に記載の方法に従い生成される合成最適化ヌクレオチド配列。
67.実施形態32~57および62~65のいずれか1項に記載の方法に従い生成される合成最適化ヌクレオチド配列を、このような処置を必要とするヒト対象へと投与する工程を含む処置方法。
68.10%以上の使用頻度と関連するコドンからなる最適化ヌクレオチド配列を含むin vitro合成核酸であって、最適化ヌクレオチド配列は、
(i)以下のヌクレオチド配列:
5’-XAUCUXUX-3’[配列中、X、X、およびXは、独立に、A、C、U、またはGから選択される];および5’-XAUCUXUX-3’[配列中、X、X、およびXは、独立に、A、C、U、またはGから選択される]
のうちの1つを有する終結シグナルを含有せず;
(ii)負のシス調節エレメント、および負の反復エレメントを含有せず;
(iii)0.8を超えるコドン適応指標を有し;
重複しない30ヌクレオチド長の部分へと分割された場合に、最適化ヌクレオチド配列の各部分は、30%~70%の範囲のグアニン-シトシン含量を有する、
in vitro合成核酸。
69.最適化ヌクレオチド配列は、以下の配列:TATCTGTT;TTTTTT;AAGCTT;GAAGAGC;TCTAGA;UAUCUGUU;UUUUUU;AAGCUU;GAAGAGC;UCUAGAのうちの1つを有する終結シグナルを含有しない、実施形態68に記載のin vitro合成核酸。
70.核酸は、mRNAである、実施形態68または69に記載のin vitro合成核酸。
71.治療における使用のための、実施形態68~70のいずれか1項に記載のin vitro合成核酸。

Claims (81)

  1. 最適化ヌクレオチド配列を生成するためのコンピュータ実装方法であって、
    (i)ペプチド、ポリペプチド、またはタンパク質をコードするアミノ酸配列を受け取る工程;
    (ii)第1のコドン使用表を受け取る工程であって、第1のコドン使用表は、アミノ酸のリストを含み、表中の各アミノ酸は、少なくとも1つのコドンと関連し、各コドンは、使用頻度と関連する工程;
    (iii)コドン使用表から、閾値頻度未満である使用頻度と関連する任意のコドンを除去する工程;
    (iv)工程(iii)において除去されなかったコドンの使用頻度を正規化することにより、正規化コドン使用表を生成する工程;および
    (v)正規化コドン使用表中のアミノ酸と関連する1つまたはそれ以上のコドンの使用頻度に基づき、アミノ酸配列内の各アミノ酸のためのコドンを選択することにより、アミノ酸配列をコードする最適化ヌクレオチド配列を生成する工程
    を含む方法。
  2. 正規化する工程は、
    (a)第1のアミノ酸と関連し、工程(iii)において除去された各コドンの使用頻度を、第1のアミノ酸と関連する残りのコドンに分配する工程;および
    (b)各アミノ酸について、工程(a)を反復して、正規化コドン使用表を作成する工程
    を含む、請求項1に記載の方法。
  3. 除去されたコドンの使用頻度は、残りのコドン間で同等に分配される、請求項2に記載の方法。
  4. 除去されたコドンの使用頻度は、各残りのコドンの使用頻度に基づき、残りのコドン間で比例的に分配される、請求項2に記載の方法。
  5. 各アミノ酸のためのコドンを選択する工程は、
    (a)正規化コドン使用表において、アミノ酸配列の第1のアミノ酸と関連する1つまたはそれ以上のコドンを同定する工程;
    (b)第1のアミノ酸と関連するコドンを選択する工程であって、ある特定のコドンを選択する確率は、正規化コドン使用表中の第1のアミノ酸と関連するコドンと関連する使用頻度と等しい工程;および
    (c)アミノ酸配列内の各アミノ酸のためのコドンが選択されるまで、工程(a)および(b)を反復する工程
    を含む、請求項1~4のいずれか1項に記載の方法。
  6. 工程(v)は、最適化ヌクレオチド配列のリストを生成するように、複数回にわたり実行される、請求項1~5のいずれか1項に記載の方法。
  7. 閾値頻度は、使用者により選択可能である、請求項1~6のいずれか1項に記載の方法。
  8. 閾値頻度は、5%~30%の範囲、特に、5%、10%、もしくは15%、もしくは20%、もしくは25%、もしくは30%、または、特に、10%である、請求項1~7のいずれか1項に記載の方法。
  9. 最適化ヌクレオチド配列のリストをスクリーニングして、1つまたはそれ以上の基準を満たさない最適化ヌクレオチド配列を同定し、除去する工程
    をさらに含む、請求項6~8のいずれか1項に記載の方法。
  10. 最適化ヌクレオチド配列のリストをスクリーニングする工程は、1つまたはそれ以上の基準の各々について、
    最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列は、基準を満たすのかどうかを決定する工程;
    ヌクレオチド配列が基準を満たさない場合、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程
    を含む、請求項9に記載の方法。
  11. 最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列が、基準を満たすのかどうかを決定する工程は、各ヌクレオチド配列について、
    ヌクレオチド配列の第1の部分は、基準を満たすのかどうかを決定する工程
    を含み、最適化ヌクレオチド配列のリストを更新する工程は、
    第1の部分が基準を満たさない場合、ヌクレオチド配列を除去する工程
    を含む、請求項10に記載の方法。
  12. 最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列が、基準を満たすのかどうかを決定する工程は、各ヌクレオチド配列について、
    ヌクレオチド配列のうちの、互いと重複せず、第1の部分と重複しない1つまたはそれ以上のさらなる部分は、基準を満たすのかどうかを決定する工程
    をさらに含み、最適化配列のリストを更新する工程は、
    任意の部分が基準を満たさない場合、ヌクレオチド配列を除去する工程
    を含み、場合により、任意の部分が基準を満たさないと決定される場合に、最適化ヌクレオチド配列が、基準を満たすのかどうかを決定する工程は、停止される、請求項11に記載の方法。
  13. ヌクレオチド配列のうちの第1の部分および/または1つもしくはそれ以上のさらなる部分は、所定の数のヌクレオチドを含み、場合により、所定の数のヌクレオチドは、5~300ヌクレオチド、または10~200ヌクレオチド、または15~100ヌクレオチド、または20~50ヌクレオチドの範囲にあり、例えば、30ヌクレオチド、例えば、100ヌクレオチドである、請求項11または12に記載の方法。
  14. 第1の基準は、終結シグナルを含有しないヌクレオチド配列を含み、その結果、決定する工程および更新する工程は、
    最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の各最適化ヌクレオチド配列は、終結シグナルを含有するのかどうかを決定する工程;および
    ヌクレオチド配列が、1つまたはそれ以上の終結シグナルを含有する場合に、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程
    を含む、請求項9~13のいずれか1項に記載の方法。
  15. 1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:
    5’-XATCTXTX-3’
    [配列中、X、X、およびXは、独立に、A、C、T、またはGから選択される]
    を有する、請求項14に記載の方法。
  16. 1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:
    TATCTGTT;および/または
    TTTTTT;および/または
    AAGCTT;および/または
    GAAGAGC;および/または
    TCTAGA
    のうちの1つまたはそれ以上を有する、請求項15に記載の方法。
  17. 1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:
    5’-XAUCUXUX-3’
    [配列中、X、X、およびXは、独立に、A、C、U、またはGから選択される]
    を有する、請求項16に記載の方法。
  18. 1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:
    UAUCUGUU;および/または
    UUUUUU;および/または
    AAGCUU;および/または
    GAAGAGC;および/または
    UCUAGA
    のうちの1つを有する、請求項17に記載の方法。
  19. 第2の基準は、所定のグアニン-シトシン含量範囲内のグアニン-シトシン含量を有するヌクレオチド配列を含み、その結果、決定する工程および更新する工程は、
    最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の最適化ヌクレオチド配列の各々のグアニン-シトシン含量を決定する工程であって、グアニン-シトシン含量は、グアニンまたはシトシンである、ヌクレオチド配列内の塩基の百分率である工程;
    そのグアニン-シトシン含量が、所定のグアニン-シトシン含量範囲から外れる場合に、任意のヌクレオチド配列をリスト、または最近更新されたリストから除去することにより、最適化ヌクレオチド配列のリストを更新する工程
    を含む、請求項9~18のいずれか1項に記載の方法。
  20. 所定のグアニン-シトシン含量範囲は、使用者により選択可能である、請求項19に記載の方法。
  21. 所定のグアニン-シトシン含量範囲は、15%~75%、もしくは40%~60%、または、特に、30%~70%である、請求項19または20に記載の方法。
  22. 第3の基準は、コドン適応指標が所定のコドン適応指標閾値を超えるヌクレオチド配列を含み、その結果、決定する工程および更新する工程は、
    最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の最適化ヌクレオチド配列の各々のコドン適応指標を決定する工程であって、配列のコドン適応指標は、コドン使用バイアスの尺度であり、0~1の間の値であり得る工程;
    そのコドン適応指標が、所定のコドン適応指標閾値以下である場合に、任意のヌクレオチド配列を除去することにより、最適化ヌクレオチド配列のリスト、または最近更新されたリストを更新する工程
    を含む、請求項9~21のいずれか1項に記載の方法。
  23. コドン適応指標閾値は、使用者により選択可能である、請求項22に記載の方法。
  24. コドン適応指標閾値は、0.7、もしくは0.75、もしくは0.85、もしくは0.9、または、特に、0.8である、請求項22または23に記載の方法。
  25. 第4の基準は、少なくとも2つ、例えば3つの隣接する同一のコドンを含有しないヌクレオチド配列を含み、その結果、決定する工程および更新する工程は、
    最適化ヌクレオチド配列のリスト内、または最近更新されたリスト内の、任意の最適化ヌクレオチド配列は、少なくとも2つ、例えば3つ以上の隣接する同一のコドンを含有するのかどうかを決定する工程;および
    それが、少なくとも2つ、例えば3つ以上の隣接する同一のコドンを含有する場合に、任意のヌクレオチド配列を除去することにより、最適化ヌクレオチド配列のリスト、または最近更新されたリストを更新する工程
    を含む、請求項9~24のいずれか1項に記載の方法。
  26. 第4の基準は、正規化コドン使用表内の頻度が、隣接稀少性閾値未満であるコドンに関してだけ適用され、隣接稀少性閾値は、10~50%の間、例えば、15~40%の間、例えば、20~30%の間である、請求項25に記載の方法。
  27. アミノ酸配列は、アミノ酸配列のデータベースから受け取られる、請求項1~26のいずれか1項に記載の方法。
  28. アミノ酸配列をアミノ酸配列のデータベースから要求する工程をさらに含み、アミノ酸配列は要求に応答して受け取られる、請求項26に記載の方法。
  29. 第1のコドン使用表は、コドン使用表のデータベースから受け取られる、請求項1~28のいずれか1項に記載の方法。
  30. 第1のコドン使用表をコドン使用表のデータベースから要求する工程をさらに含み、第1のコドン使用表は要求に応答して受け取られる、請求項29に記載の方法。
  31. 少なくとも1つの最適化ヌクレオチド配列を、スクリーンに表示する工程をさらに含む、請求項1~30のいずれか1項に記載の方法。
  32. コンピュータプログラムであって、コンピュータによりプログラムが実行される場合に、コンピュータに、請求項1~31のいずれか1項に記載の方法を実行させる命令を含むコンピュータプログラム。
  33. 請求項1~31のいずれか1項に記載の方法を実行するための手段を含むデータ処理システム。
  34. 請求項32に記載のコンピュータプログラムを格納したコンピュータ読取り型データ記憶媒体。
  35. 請求項32に記載のコンピュータプログラムを搬送するデータ搬送信号。
  36. ヌクレオチド配列を合成するための方法であって、
    請求項1~31のいずれか1項に記載のコンピュータ実装方法を実行して、少なくとも1つの最適化ヌクレオチド配列を生成する工程;および
    生成された最適化ヌクレオチド配列のうちの少なくとも1つを合成する工程
    を含む方法。
  37. 合成された最適化配列を、in vitro転写における使用のための核酸ベクター内に挿入する工程をさらに含む、請求項36に記載の方法。
  38. 合成最適化ヌクレオチド配列の3’末端に、1つまたはそれ以上の終結シグナルを挿入する工程をさらに含む、請求項36または37に記載の方法。
  39. 1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:
    5’-XATCTXTX-3’
    [配列中、X、X、およびXは、独立に、A、C、T、またはGから選択される]
    によりコードされる、請求項38に記載の方法。
  40. 1つまたはそれ以上の終結シグナルは、以下のヌクレオチド配列:
    TATCTGTT;
    TTTTTT;
    AAGCTT;
    GAAGAGC;および/または
    TCTAGA
    のうちの1つまたはそれ以上によりコードされる、請求項38または39に記載の方法。
  41. 1つを超える終結シグナルは挿入され、前記終結シグナルは、10塩基対またはそれ未満隔てられ、例えば、5~10塩基対隔てられる、請求項38~40のいずれか1項に記載の方法。
  42. 1つを超える終結シグナルは、以下のヌクレオチド配列:(a)5’-XATCTXTX-(Z)-XATCTXTX-3’、または(b)5’-XATCTXTX-(Z)-XATCTXTX-(Z)-XATCTXTX-3’[配列中、X、X、X、X、X5、、X、X、およびXは、独立に、A、C、T、またはGから選択され、Zは、Nヌクレオチドのスペーサー配列を表し、Zは、それらの各々が、独立に、A、C、T、またはGから選択される、Mヌクレオチドのスペーサー配列を表し、Nおよび/またはMは、独立に、10またはそれ未満である]によりコードされる、請求項40に記載の方法。
  43. 核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結されたRNAポリメラーゼプロモーターを含み、場合により、RNAポリメラーゼプロモーターは、SP6 RNAポリメラーゼプロモーター、またはT7 RNAポリメラーゼプロモーターである、請求項37~42のいずれか1項に記載の方法。
  44. 核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結された5’UTRをコードするヌクレオチド配列を含む、請求項37~43のいずれか1項に記載の方法。
  45. 5’UTRは、アミノ酸配列をコードする自然発生のmRNAの5’UTRと異なる、請求項44に記載の方法。
  46. 5’UTRは、配列番号16のヌクレオチド配列を有する、請求項42に記載の方法。
  47. 核酸ベクターは、最適化ヌクレオチド配列に作動可能に連結された3’UTRをコードするヌクレオチド配列を含む、請求項37~46のいずれか1項に記載の方法。
  48. 3’UTRは、アミノ酸配列をコードする自然発生のmRNAの3’UTRと異なる、請求項46に記載の方法。
  49. 3’UTRは、配列番号17または配列番号18のヌクレオチド配列を有する、請求項48に記載の方法。
  50. 核酸ベクターは、プラスミドである、請求項37~49のいずれか1項に記載の方法。
  51. プラスミドは、in vitro転写の前に直鎖化される、請求項50に記載の方法。
  52. プラスミドは、in vitro転写の前に直鎖化されない、請求項50に記載の方法。
  53. プラスミドは、超らせん状である、請求項52に記載の方法。
  54. 合成最適化ヌクレオチド配列のうちの少なくとも1つをin vitro転写において使用して、mRNAを合成する工程をさらに含む、請求項36~53のいずれか1項に記載の方法。
  55. mRNAは、SP6 RNAポリメラーゼにより合成される、請求項54に記載の方法。
  56. SP6 RNAポリメラーゼは、自然発生のSP6 RNAポリメラーゼである、請求項55に記載の方法。
  57. SP6 RNAポリメラーゼは、組換えSP6 RNAポリメラーゼである、請求項55に記載の方法。
  58. SP6 RNAポリメラーゼは、タグを含む、請求項57に記載の方法。
  59. タグは、Hisタグである、請求項58に記載の方法。
  60. mRNAは、T7 RNAポリメラーゼにより合成される、請求項54に記載の方法。
  61. 合成されたmRNAを、キャッピングおよび/またはテーリングする別個の工程をさらに含む、請求項54~60のいずれか1項に記載の方法。
  62. キャッピングおよびテーリングは、in vitro転写の間に起こる、請求項54~60のいずれか1項に記載の方法。
  63. mRNAは、1~10mMの各NTPの範囲の濃度のNTP、0.01~0.5mg/mlの範囲の濃度のDNA鋳型、および0.01~0.1mg/mlの範囲の濃度のSP6 RNAポリメラーゼを含む反応混合物中で合成される、請求項54~62のいずれか1項に記載の方法。
  64. 反応混合物は、5mMの各NTPの濃度のNTP、0.1mg/mlの濃度のDNA鋳型、および0.05mg/mlの濃度のSP6 RNAポリメラーゼを含む、請求項63に記載の方法。
  65. mRNAは、37~56℃の範囲の温度で合成される、請求項54~64のいずれか1項に記載の方法。
  66. NTPは、自然発生のNTPである、請求項63~65のいずれか1項に記載の方法。
  67. NTPは、修飾NTPを含む、請求項63~65のいずれか1項に記載の方法。
  68. in vitroまたはin vivoにおいて、細胞に、合成最適化ヌクレオチド配列をトランスフェクトする工程をさらに含む、請求項36~67のいずれか1項に記載の方法。
  69. トランスフェクトされた細胞内の、合成最適化ヌクレオチド配列によりコードされるタンパク質の発現レベルが決定される、請求項68に記載の方法。
  70. 合成最適化ヌクレオチド配列によりコードされるタンパク質の機能的活性が決定される、請求項68または69に記載の方法。
  71. アミノ酸配列をコードする参照ヌクレオチド配列、および請求項36~70のいずれか1項に記載の方法に従う少なくとも1つの最適化ヌクレオチド配列を合成する工程と、参照ヌクレオチド配列、および少なくとも1つの最適化ヌクレオチド配列を、別個の細胞または生物と接触させる工程とをさらに含み、少なくとも1つの合成最適化ヌクレオチド配列と接触させた細胞または生物は、合成参照ヌクレオチド配列と接触させた細胞または生物により産生される、参照ヌクレオチド配列によりコードされるタンパク質の収量と比較して増大した収量の、最適化ヌクレオチド配列によりコードされるタンパク質を産生する、請求項1~31のいずれか1項に記載の方法。
  72. 対象への送達または対象の処置における使用のための、治療用ペプチド、ポリペプチド、またはタンパク質をコードするmRNAを含む治療用組成物を作製する工程をさらに含む、請求項36~70のいずれか1項に記載の方法。
  73. mRNAは、嚢胞性線維症膜貫通コンダクタンス制御因子(CFTR)タンパク質をコードする、請求項72に記載の方法。
  74. 合成された場合の少なくとも1つの最適化ヌクレオチド配列は、少なくとも1つの最適化ヌクレオチド配列によりコードされるタンパク質の発現を、合成された場合の参照ヌクレオチド配列によりコードされるタンパク質の発現と比較して増大させるように構成される、請求項1~31のいずれか1項に記載の方法。
  75. 参照ヌクレオチド配列は、(a)アミノ酸配列をコードする自然発生のヌクレオチド配列、または(b)請求項1~31のいずれか1項に記載の方法以外の方法により生成されるアミノ酸配列をコードするヌクレオチド配列である、請求項71~74のいずれか1項に記載の方法。
  76. 治療における使用のための、請求項36~67および72~75のいずれか1項に記載の方法に従い生成される合成最適化ヌクレオチド配列。
  77. 請求項36~67および72~75のいずれか1項に記載の方法に従い生成される合成最適化ヌクレオチド配列を、このような処置を必要とするヒト対象へと投与する工程を含む処置方法。
  78. 10%以上の使用頻度と関連するコドンからなる最適化ヌクレオチド配列を含むin vitro合成核酸であって、最適化ヌクレオチド配列は、
    (iv)以下のヌクレオチド配列:
    5’-XAUCUXUX-3’[配列中、X、X、およびXは、独立に、A、C、U、またはGから選択される];および5’-XAUCUXUX-3’[配列中、X、X、およびXは、独立に、A、C、U、またはGから選択される]
    のうちの1つを有する終結シグナルを含有せず;
    (v)負のシス調節エレメント、および負の反復エレメントを含有せず;
    (vi)0.8を超えるコドン適応指標を有し;
    重複しない30ヌクレオチド長の部分へと分割された場合に、最適化ヌクレオチド配列の各部分は、30%~70%の範囲のグアニン-シトシン含量を有する、
    in vitro合成核酸。
  79. 最適化ヌクレオチド配列は、以下の配列:TATCTGTT;TTTTTT;AAGCTT;GAAGAGC;TCTAGA;UAUCUGUU;UUUUUU;AAGCUU;GAAGAGC;UCUAGAのうちの1つを有する終結シグナルを含有しない、請求項78に記載のin vitro合成核酸。
  80. 核酸は、mRNAである、請求項78または79に記載のin vitro合成核酸。
  81. 治療における使用のための、請求項78~80のいずれか1項に記載のin vitro合成核酸。
JP2022567244A 2020-05-07 2021-05-07 最適化ヌクレオチド配列の生成 Pending JP2023524769A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063021345P 2020-05-07 2020-05-07
US63/021,345 2020-05-07
PCT/US2021/031302 WO2021226461A1 (en) 2020-05-07 2021-05-07 Generation of optimized nucleotide sequences

Publications (2)

Publication Number Publication Date
JP2023524769A true JP2023524769A (ja) 2023-06-13
JPWO2021226461A5 JPWO2021226461A5 (ja) 2024-05-15

Family

ID=76483342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022567244A Pending JP2023524769A (ja) 2020-05-07 2021-05-07 最適化ヌクレオチド配列の生成

Country Status (11)

Country Link
US (1) US20230245721A1 (ja)
EP (1) EP4147243A1 (ja)
JP (1) JP2023524769A (ja)
KR (1) KR20230020991A (ja)
CN (1) CN115867324A (ja)
AU (1) AU2021268028A1 (ja)
BR (1) BR112022022508A2 (ja)
CA (1) CA3177907A1 (ja)
IL (1) IL297948A (ja)
MX (1) MX2022013985A (ja)
WO (1) WO2021226461A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT202200006119A1 (it) * 2022-03-29 2023-09-29 Univ Degli Studi Di Ferrara Method for implementing the design of synthetic nucleic acid molecules for gene therapies in rare diseases.
WO2023226310A1 (zh) * 2022-05-23 2023-11-30 华为云计算技术有限公司 一种分子优化方法以及装置
WO2024074726A1 (en) 2022-10-07 2024-04-11 Sanofi Spectral monitoring of in vitro transcription

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2735531T3 (es) 2005-08-23 2019-12-19 Univ Pennsylvania ARN que contiene nucleósidos modificados y métodos de uso del mismo
DK2459231T3 (en) 2009-07-31 2016-09-05 Ethris Gmbh RNA with a combination of unmodified and modified nucleotides for protein expression
US8326547B2 (en) * 2009-10-07 2012-12-04 Nanjingjinsirui Science & Technology Biology Corp. Method of sequence optimization for improved recombinant protein expression using a particle swarm optimization algorithm
ES2680595T3 (es) 2013-03-14 2018-09-10 Translate Bio, Inc. Evaluación cuantitativa para eficacia de ARN mensajero para tapar
EP3538136A1 (en) * 2016-11-10 2019-09-18 Translate Bio, Inc. Subcutaneous delivery of messenger rna
MX2019010155A (es) * 2017-02-27 2020-12-10 Translate Bio Inc Arnm de cftr optimizado por codón novedoso.
EP4008783A1 (en) * 2017-02-27 2022-06-08 Translate Bio MA, Inc. Methods for purification of messenger rna
CA3068010A1 (en) * 2017-06-20 2018-12-27 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Codon-optimized human npc1 genes for the treatment of niemann-pick type c1 deficiency and related conditions
WO2020024917A1 (en) * 2018-07-30 2020-02-06 Nanjingjinsirui Science & Technology Biology Corp. Codon optimization

Also Published As

Publication number Publication date
MX2022013985A (es) 2023-04-05
BR112022022508A2 (pt) 2023-01-10
AU2021268028A1 (en) 2023-01-19
CN115867324A (zh) 2023-03-28
KR20230020991A (ko) 2023-02-13
WO2021226461A1 (en) 2021-11-11
EP4147243A1 (en) 2023-03-15
CA3177907A1 (en) 2021-11-11
US20230245721A1 (en) 2023-08-03
IL297948A (en) 2023-01-01

Similar Documents

Publication Publication Date Title
JP2023524769A (ja) 最適化ヌクレオチド配列の生成
US20210230578A1 (en) Removal of dna fragments in mrna production process
JP6983455B2 (ja) 高純度rna組成物及びその調製のための方法
Rorbach et al. The post-transcriptional life of mammalian mitochondrial RNA
DK2971102T3 (en) QUANTITATIVE DETERMINATION FOR CAPPING EFFECTIVENESS OF MESSENGER RNA
JP6752234B6 (ja) Rna分子の翻訳効率を高めるutr
EP3585417B1 (en) Method of making a codon-optimized cftr mrna
EP3317424A1 (en) Method for analysis of an rna molecule
US11072808B2 (en) Methods and compositions for increasing capping efficiency of transcribed RNA
KR20180131577A (ko) 신규의 최소 utr 서열
Belostotsky et al. Human mitochondrial tRNA quality control in health and disease: a channelling mechanism?
CN113166737A (zh) 提高转录的rna的加帽效率的方法和组合物
JP2023513836A (ja) メッセンジャーrnaのインビトロ転写プロセスの改善
US20230183769A1 (en) In vitro transcription technologies
KR20230000471A (ko) 비천연 5'-비번역 영역 및 3'-비번역 영역 및 그의 용도
Ramos Disease-associated variants in human tRNA modification enzymes and their impact on cellular physiology
KR20170132874A (ko) 발현을 조절하는 신규한 rna-분자 및 이의 용도
WO2024026287A2 (en) Synthesis of substoichiometric chemically modified mrnas by in vitro transcription
JP2024521766A (ja) 二本鎖rna副生成物形成の低減方法
WO2023023487A1 (en) Screening codon-optimized nucleotide sequences
KR20230129432A (ko) Rna 제조
KR20240010693A (ko) mRNA 백신 및 치료제의 제조를 위한 변형된 RNA
Morales Molecular biology: from the bench to clinical application

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240502

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240502