JP2023513314A - メタゲノムライブラリーおよび天然物発見プラットフォーム - Google Patents

メタゲノムライブラリーおよび天然物発見プラットフォーム Download PDF

Info

Publication number
JP2023513314A
JP2023513314A JP2022548659A JP2022548659A JP2023513314A JP 2023513314 A JP2023513314 A JP 2023513314A JP 2022548659 A JP2022548659 A JP 2022548659A JP 2022548659 A JP2022548659 A JP 2022548659A JP 2023513314 A JP2023513314 A JP 2023513314A
Authority
JP
Japan
Prior art keywords
gene
natural product
library
biosynthetic
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022548659A
Other languages
English (en)
Inventor
オリバー リウ,
エヤル アキバ,
トム ハヨン アイルズ,
ウテ ガルム,
サンギータ ガネシュ,
ステファニー リアン ブラウン ヘンドリックス,
ウィリアム ダブリュー. ウォン,
ジェフリー フン キム,
アレクサンダー ネッケルマン,
サミュエル オテン-パビ,
クラウス ペリカン,
デヴィン スキャネル,
ザカリア サーバー,
ジェニファー ショック,
マイケル ダブリュー. スネドン,
シャオ ヤン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zymergen Inc
Original Assignee
Zymergen Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zymergen Inc filed Critical Zymergen Inc
Publication of JP2023513314A publication Critical patent/JP2023513314A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Public Health (AREA)
  • Algebra (AREA)

Abstract

本開示は、天然物コード多重遺伝子クラスター(MGC)を同定するための方法およびシステムを提供する。一部の実施形態では、本開示はまた、MGC検索生物情報学ツールおよび技法に適している、配列決定され、かつアセンブルされたメタゲノムライブラリーを産生するための方法を教示する。一部の実施形態では、本開示は、メタゲノムライブラリー調製、配列決定およびアセンブリーのための新規方法を教示する。特に、一部の実施形態では、本開示は、初めて、メタゲノム試料の有効なin silico多重遺伝子クラスター解析を可能にする、より高い品質のアセンブルされた配列を提供する長いアセンブリーメタゲノムライブラリーをもたらす方法を教示する。

Description

関連出願の相互参照
本出願は、2020年2月13日に出願された米国仮出願第62/976,194号、2020年2月13日に出願された米国仮出願第62/976,198号および2020年2月13日に出願された米国仮出願第62/976,201号に対する優先権の利益を主張するものであり、これらの内容は、参照によりその全体が本明細書に組み込まれる。
開示の分野
本開示は、全般的には、天然物発見の改善のためのシステムおよび方法に関する。開示されるシステムおよび方法は、in silico天然物発見パイプラインに適している、配列決定されたメタゲノムデータベースをもたらす。新たな天然物コード多重遺伝子クラスターを同定および検証するための方法も提供される。
背景
植物および微小生物由来の天然物は、臨床薬物開発および研究のための歴史的に重要な供給源であった。最初の抗生物質であるペニシリンは、Alexander Flemingによって1928年に真菌から発見された。現在、臨床使用されている抗生物質のほぼ3分の2は、Actinomycetalesに由来し、現在使用されている薬の総計で約半分は、天然物またはその派生物である。
伝統的に、微小生物における天然物の発見は、二次代謝物の産生を駆り立てるために種々の成長条件下で株を培養し、次いで、様々な医療活動のためにそれらの二次代謝物をアッセイすることを伴っていた。しかし、発見される新たな天然物が少なくなるにつれて、このような伝統的アプローチは、収穫逓減を生じた。
天然物発見における困難から、合成ライブラリーのハイスループットスクリーニングの方が好まれて、多くの製薬会社によって天然物研究の優先順位が落とされた。そうであるにもかかわらず、天然物は、タンパク質と相互作用し、生物学的効果を誘導するように進化したという点において、合成分子ライブラリーを上回る利点を有する。
新たな天然物を同定するための方法、システムおよびツールに対して、継続中かつ満たされていない必要がある。
開示の概要
一部の実施形態では、本開示は、メタゲノムライブラリー調製、配列決定およびアセンブリーのための新規方法を教示する。特に、一部の実施形態では、本開示は、初めて、メタゲノム試料の有効なin silico多重遺伝子クラスター解析を可能にする、より高い品質のアセンブルされた配列を提供する長いアセンブリーメタゲノムライブラリーをもたらす方法を教示する。
よって、一部の実施形態では、本開示は、徹底的に配列決定された長いDNAコンティグメタゲノムライブラリーをアセンブルするための方法であって、a)特有の全ゲノムを含む配列決定されておらず、かつアセンブルされていないメタゲノムDNA試料を提供するステップと、b)i)メタゲノムライブラリー由来のDNA断片を複数のベクターにクローニングして、配列決定されておらず、かつアセンブルされていないメタゲノムDNA試料由来のDNAを含むメタゲノムベクター断片ライブラリーを創出すること;ii)メタゲノムベクター断片ライブラリー由来のベクターを、それぞれ約1,000~約20,000個のプールされたベクターを含む複数の別々のミニメタゲノムサブユニットへとプールして、複数のミニメタゲノムサブユニット内に、配列決定されておらず、かつアセンブルされていないメタゲノムDNA試料由来のDNAを含むミニメタゲノムライブラリーを創出することにより、メタゲノムDNA試料のゲノム複雑性を低下させるステップと、c)ミニメタゲノムライブラリーの複数の別々のミニメタゲノムサブユニットに存在するプールされたベクターに含有されるメタゲノムDNAのプール内配列決定およびアセンブリーを行って、配列決定され、かつアセンブルされたDNAコンティグを創出するステップであって、平均の配列決定され、かつアセンブルされたDNAコンティグ長が、少なくとも約10kbであり、これにより、配列決定され、かつアセンブルされた中間のDNAコンティグ長ミニメタゲノムライブラリーを創出する、ステップと、d)中間のDNAコンティグ長ミニメタゲノムライブラリー由来の複数の配列決定され、かつアセンブルされたDNAコンティグをさらにアセンブルして、長いDNAコンティグ長メタゲノムライブラリーを創出することにより、プール間DNAコンティグアセンブリーを必要に応じて行うステップとを含む方法を教示する。
本開示はまた、天然物コード多重遺伝子クラスターのin silico同定のためのプラットフォームを提供する。よって、一部の実施形態では、本開示は、多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーを検索し、目的の天然物を同定するためのin silico方法であって、a)デジタルメタゲノミクスライブラリーを、天然物多重遺伝子クラスター特色セットを示すシグナルについて問い合わせるステップと、b)前記問い合わせの出力を、複数のシグナル関連の多重遺伝子クラスターデジタル特色セットとして供給するステップと、c)シグナル関連の多重遺伝子クラスターデジタル特色セットから複数の遺伝子のコンピューターにより予測される生合成機能性を決定し、1個もしくは複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルすること、および/またはシグナル関連の多重遺伝子クラスターデジタル特色セットから少なくとも1個の遺伝子のコンピューターにより予測される生物学的抵抗性遺伝子機能性を決定することにより、生物学的関連性を決定し、シグナル関連の多重遺伝子クラスターデジタル特色セットに割り当てて、これにより、コンピューターにより決定された生物学的抵抗性遺伝子を同定するステップと、d)デジタル処理でアセンブルされた生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットの閾値パラメーター内に位置している、コンピューターにより決定された生物学的抵抗性遺伝子に基づき、目的の天然物を同定するステップとを含む方法を教示する。
一部の実施形態では、本開示のin silico多重遺伝子発見方法は、長いアセンブリーデジタルメタゲノミクスライブラリーにおいて遂行される。よって、一部の実施形態では、本開示は、多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kbもしくは40kb、またはそれらの間のいずれかの範囲もしくは部分的範囲の平均長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含む、in silico方法を教示する。
一部の実施形態では、本開示のシステムおよび方法は、大型のアセンブルされたライブラリーにおける多重遺伝子クラスターを同定することに特に強く、伝統的な発見技法は、ライブラリーの多様性を完全に解析することができない。よって、一部の実施形態では、本開示は、デジタルメタゲノミクスライブラリーが、少なくとも約50MB、75MB、100MB、200MB、300MB、400MBまたは500メガベースのサイズである、in silico方法を教示する。
一部の実施形態では、本開示は、ステップa)における問い合わせるステップが、HMMモデルを利用して、公知の抵抗性遺伝子またはそのバリアントもしくはホモログについてデジタルメタゲノミクスライブラリーを検索するステップを含む、in silico方法を教示する。よって、一部の実施形態では、本開示は、ステップa)における問い合わせるステップが、HMMモデルを利用して、コンピューターにより予測または仮定される抵抗性遺伝子またはそのバリアントもしくはホモログについてデジタルメタゲノミクスライブラリーを検索するステップを含む、in silico方法を教示する。
一部の実施形態では、本開示は、ステップa)における問い合わせるステップが、1個または複数の生合成オペロンを含む多重遺伝子クラスターを含有することがコンピューターにより予測される全ての配列を同定するステップを含む、in silico方法を教示する。
一部の実施形態では、本開示はまた、天然物を生合成により改変するためのシステムおよび方法を教示する。例えば、一部の実施形態では、本開示は、酵素パネルを使用して、標的天然物をアナログ化(analog)することを教示する。よって、一部の実施形態では、本開示は、標的天然物の生合成によるアナログ化のための方法であって、a)標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される複数の酵素を提供し、これにより、アナログ化酵素パネルライブラリーを創出するステップと、b)アナログ化酵素パネル由来の個々の酵素を、標的天然物または標的天然物の前駆体と共にインキュベートし、これにより、反応混合物を産生するステップと、c)ステップ(b)の反応混合物のうち少なくとも1種を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、d)アナログ化酵素パネルから酵素を選択するステップであって、ステップ(c)の解析によって決定される通り、選択された酵素が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化する、ステップとを含む方法を教示する。
他の実施形態では、本開示は、天然物をアナログ化するために組換え細胞を使用することを教示する。例えば、一部の実施形態では、本開示は、標的天然物の生合成によるアナログ化のための方法であって、a)標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素をそれぞれ発現する、複数の微生物株を提供し、これにより、微生物株のアナログ化酵素パネルライブラリーを創出するステップと、b)微生物株のアナログ化酵素パネルライブラリー由来の個々の微生物株を、標的天然物または標的天然物の前駆体と接触させ、これにより、混合物を生成するステップと、c)ステップ(b)の混合物を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、d)微生物株のアナログ化酵素パネルライブラリーから微生物株を選択するステップであって、ステップ(c)の解析によって決定される通り、選択された微生物株が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化し、選択された微生物株によって発現される酵素が、選択された酵素である、ステップとを含む方法を教示する。
一部の実施形態では、組換え細胞を使用する方法は、標的天然物を既に産生し得る細胞に適用される。よって、一部の実施形態では、本開示は、標的天然物の生合成によるアナログ化のための方法であって、a)標的天然物の第1のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素をそれぞれコードする、複数の遺伝的配列を提供するステップと、b)ステップ(a)の複数の遺伝的配列のうち1種または複数によってコードされる酵素をそれぞれ発現するように、第1の基礎微生物株の1個または複数の細胞のゲノムを撹乱するステップであって、第1の基礎微生物株が、標的天然物を合成することができ、これにより、微生物株のアナログ化酵素パネルライブラリーを創出する、ステップと、c)微生物株のアナログ化酵素パネルライブラリー由来の個々の微生物株を培養するステップと、d)ステップ(c)の培養物由来の使用済み培地を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、e)微生物株のアナログ化酵素パネルから微生物株を選択するステップであって、ステップ(d)の解析によって決定される通り、選択された微生物株が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化する、ステップとを含む方法を教示する。
一部の実施形態では、本開示は、天然物をアナログ化するための酵素を同定するためのシステムおよび方法を提供する。すなわち、一部の実施形態では、本開示は、標的天然物の生合成によるアナログ化のための方法であって、a)遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップであって、i)遺伝的配列入力変数が、標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素の1種または複数のアミノ酸配列を含み、ii)表現型性能出力変数が、1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、ステップと、b)訓練データセットを投入された第1の予測的機械学習モデルを開発するステップと、c)コンピュータプロセッサーを使用して、第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有するメタゲノムライブラリーに適用して、メタゲノムライブラリー内の候補配列のプールを同定するステップであって、前記候補配列が、それぞれの第1の信頼度スコアにより、第1の予測的機械学習モデルによって、標的天然物のアナログ化のためのある型の反応を触媒すると予測される、ステップと、d)第1の信頼度スコアの第2の信頼度スコアに対する比が、予め選択された閾値から外れる場合、候補配列のプールから、第2の信頼度スコアによる第2の予測的機械学習モデルによって、異なる機能を果たすことが予測されるあらゆる配列を除去し、これにより、候補配列のフィルタリングされたプールを産生するステップと、e)ステップ(d)由来の候補配列のフィルタリングされたプールから配列をそれぞれ発現するように1個または複数の微生物細胞を製造するステップと、f)ステップ(e)の製造された宿主細胞を培養し、培養された細胞を溶解し、これにより、アナログ化酵素パネルライブラリーを創出するステップと、g)アナログ化酵素パネルライブラリー由来の個々の酵素を、標的天然物または標的天然物の前駆体と共にインキュベートし、これにより、反応混合物を産生するステップと、h)ステップ(g)の反応混合物のうち少なくとも1種を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、i)アナログ化酵素パネルから酵素を選択するステップであって、ステップ(h)の解析によって決定される通り、選択された酵素が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化する、ステップとを含む方法を教示する。
一部の実施形態では、本開示はまた、標的天然物のアナログを産生するための方法であって、a)標的天然物を産生することが公知である第1の多重遺伝子クラスターを提供するステップと、b)前記第1の多重遺伝子クラスターに基づき予測モデルを開発するステップと、c)in silicoで、デジタルメタゲノミクスライブラリーを新たな多重遺伝子クラスターについて問い合わせるステップであって、前記新たな多重遺伝子クラスターが、予測モデルによって、標的天然物または標的天然物のバリアントを産生することが予測され、これにより、候補多重遺伝子クラスターのプールを産生する、ステップと、d)in silicoで、アノテーションエンジンにより、ステップ(c)の候補多重遺伝子クラスターのプールの新たな多重遺伝子クラスターの1個または複数内の生合成酵素をコードする個々の遺伝子を同定し、これにより、新たな多重遺伝子クラスターから生合成遺伝子を含むアナログ化酵素パネルライブラリーを産生するステップと、e)アナログ化酵素パネルライブラリー由来の遺伝子を発現するように基礎微生物宿主細胞のゲノムを撹乱するステップであって、基礎微生物宿主細胞が、第1の多重遺伝子クラスターを含む、ステップと、f)ステップ(e)において製造された微生物宿主細胞のうち少なくとも1個を培養するステップと、g)ステップ(f)の培養物由来の使用済み培地を、標的天然物および/または前記標的天然物のアナログについて解析するステップと、h)ステップ(f)において培養された微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(g)の解析によって決定される通り、選択された微生物宿主細胞が、標的天然物のアナログを産生し、これにより、標的天然物のアナログを産生する、ステップとを含む方法を教示する。
図1は、本開示の天然物発見プラットフォームのワークフローを示す。一部の実施形態では、ワークフローは、(1)例えば本開示のサイロプールする方法を使用して、複雑性が低下した物理的メタゲノムライブラリーを生成するステップと、(2)長いアセンブリー配列によってデジタルメタゲノミクスライブラリーを創出するステップと、(3)in silico MGCプラットフォーム発見ツールを、本明細書に開示される長いアセンブリーメタゲノムライブラリーに適用するステップと、(4)例えば物理的ライブラリーまたは長いDNA合成からMGCを再構築することによって、同定されたMGCによって産生される天然物の表現型を決定するステップと、必要に応じて(5)前記天然物をアナログ化するステップとを含む。ステップ1~3は、本開示のin-silico MGC発見ワークフローを表す。
図2は、本開示の天然物発見プラットフォームのステップ1~3を示す。
図3は、本開示の天然物発見プラットフォームのステップ4~5を示す。
図4は、バーコードを使用するDNA配列決定多重化戦略の図を示す。識別可能な配列を、配列決定の前にDNAに付加することができる(例えば、アダプター配列の付加を通して)。次に、異なるバーコードを有するDNA断片を単一の配列ランにプールする(すなわち、多重化する)ことができる。バーコードは配列決定後の処理において同定され、これを使用して異なるDNA試料に属するリードを分離する(すなわち、デマルチプレクス)。
図5は、多重遺伝子クラスター関連抵抗性遺伝子の作用機序の非限定的なリストを示す。抵抗性遺伝子は、産生細胞に対して毒性である天然物を外部へと輸送することによって機能することができる。抵抗性遺伝子は、産生細胞内に蓄積する天然物を、細胞内の毒性を低減または除去するように改変することができる。抵抗性遺伝子は、内因性の遺伝子に作用し、それらが天然物によってもはや影響を受けないように改変することができる。抵抗性遺伝子は、産生細胞が機能し続けることをバリアントが可能にする、天然物の標的のバリアントであり得る。
図6は、本開示のin silico天然物多重遺伝子クラスター発見方法の一実施形態のステップを示す。候補抵抗性遺伝子は、選択される標的遺伝子(例えば、他の生物におけるまたは関連天然物の抵抗性遺伝子)に基づいて選択されるHMMを介して、デジタルメタゲノムライブラリー(DML)において同定され得る。メタゲノムライブラリーはまた、多重遺伝子クラスターの存在についてもスクリーニングすることができる。一部の実施形態では、本開示は、MGC内または前記MGCの1~2個のORF内に候補抵抗性遺伝子を含むMGCを選択することを教示する。
図7は、本開示の多重遺伝子発見プラットフォームにおいて使用することができる標的抵抗性遺伝子の同定のための方法を例証する。目的の各標的抵抗性遺伝子に関して、対応するオルソログ群クラスター(COG)タンパク質のタンパク質配列および(利用可能であれば)IDを、配列データベース(例えば、Uniprotデータベース)から取得する。一部の実施形態では、COGは、EggNOGクラスタリングアルゴリズム(例えば、データベースバージョン4.5.1)によって形成される。一部の実施形態では、COG内の配列を、diamond blastpを使用して同じオルソログ群の全ての微生物タンパク質と比較する。一部の実施形態では、関連するヒット、すなわち、10-3またはそれより低いe値が下流の解析のために選択される。
図8は、本開示のin silico天然物多重遺伝子クラスター発見方法の優先順位をつける実施形態のステップを示す。
図9は、本開示の天然物アナログ化プラットフォームの様々な戦略を示す。一部の実施形態では、本開示は、MGCを操作することによって(例えば、前記天然物の生合成に関係する1個または複数の遺伝子を改変またはノックアウトすることによって)天然物をアナログ化することを教示する。一部の実施形態では、本開示は、酵素パネル(例えば、所望の反応を触媒することが公知であるかまたは予測される雑多な酵素)を通して天然物をアナログ化する方法を教示する。一部の実施形態では、本開示は、天然物をアナログ化するために相同なクラスターを活用する方法を教示する。これらの技術の組合せもまた、本開示の想定される実施形態内である。
図10は、実施例5に記載されるブレフェルジンAおよびゲルダナマイシンの改変を生成するためにスクリーニングしたメタゲノムを起源とするアルド-ケトレダクターゼのパネルを示す。本開示の方法を使用して、ブレフェルジンを改変することができる3つの酵素およびゲルダナマイシンを改変することができる1つの酵素を同定した。
図11は、本開示の生合成アナログ化方法を化学に基づく相対方法と比較する表である。
図12は、本開示の生合成アナログ化方法の1つのワークフローを示す。
図13は、本開示のライブラリー調製方法の最初のステップを示す。環境試料から抽出したDNAを、コスミド骨格にクローニングし、ファージを介してパッケージングし、E.coli宿主に形質導入してメタゲノミクスDNAライブラリーを創出する。
図14は、本開示のライブラリー調製方法のステップを示す。メタゲノムDNAライブラリーからのコスミド(主に1個/細胞)を含有するE.coliを、配列決定の前にミニメタゲノムへとサイロプールする。プールサイズは、本開示で考察されたシミュレーションの結果に基づく。
図15は、本開示のデジタルメタゲノムライブラリーのアセンブリーステップを示す。一部の実施形態では、2相アセンブリー方法を使用してより長いアセンブリーを得る。
図16は、E.coliまたはDNAストックのいずれかとしてのミニメタゲノムプールを配置して、物理的メタゲノムライブラリーを創出することを示す。これらの配置したライブラリーは後に、さらなる解析のために目的の配列を回収するために使用される。
図17は、本開示の方法に従う抵抗性遺伝子に基づく多重遺伝子クラスター検索の結果を示す。
図18は、本開示の方法に従う抵抗性遺伝子に基づく多重遺伝子クラスター検索のさらなる結果を示す。本開示のワークフローを使用して、WRN-ヘリカーゼ、MFN2、HSP40、SEC61A1、およびFPGSを標的化する天然物の天然物コードクラスターを同定した。
図19は、コスミドに基づくデジタルメタゲノムライブラリー構築の概略図である。
図20は、システムが、単一の新規検索可能なメタゲノムライブラリーを生成するために長期間にわたって特定の試料の再配列決定から洗練された費用効果の高いやり方で新規情報を集計することができるかを例証する。
図21A~Cは、アセンブリー全体の品質に及ぼすサイロプールサイズを増加させる効果を試験するために創出された様々なアセンブリーの結果を示す。図21Aは、様々なプールサイズのアセンブリーのN50を示す。30,000個のコスミドのプールの10×配列決定カバレッジ(sequencing coverage)はなおも、MGC発見を可能にするために十分な長さのN50を有するメタゲノムアセンブリーを産生することができる。図21Bは、パートAの結果を対数尺度で示す。図21Cは、生の配列をプールする方法を変化させた場合の、生の配列の500MB当たりに生成される15kb+コンティグの数を示す。6,000~15,000個のプールサイズは、MGC発見に関して最高の効率を提供する。 同上。 同上。
図22は、N50の範囲を産生するために配列決定されている非常に類似の試料由来の配列決定アセンブリーを活用し、MGC発見率に及ぼすライブラリーアセンブリーの質(N50によって測定した場合)の効果を試験する解析の結果を示す。配列1Kb当たりのMGCの数は、約15KbのN50までは急速に増加し、その後横ばいとなり始める。
図23は、Joint Genome Institute(JGI)土壌メタゲノムライブラリー(プロジェクト1077706)と、本開示の方法に従って土壌試料から産生されたデジタルメタゲノミクスライブラリー(MCE)との間のサイズの差を示す(実施例4を参照されたい)。JGIは、本開示の方法に従って産生されたMCEより4倍より多くの総アセンブルされた配列を有する。しかし、MCEは、985bpのJGIのN50と比較して約15KbpのN50を有する。
図24は、本開示のデジタル検索方法論を使用してJGIおよびMCEライブラリーにおいて同定されたクラスターの数を示す。120個のMGCのみがJGIデータベースでは同定されたが、これに対しMCEでは1287個が同定された。このように、MCEデータベースでは10倍多くのMGCを同定することが可能であったが、MCEデータベースはJGI土壌メタゲノムデータベースの4分の1のサイズである(すなわち、MCEはMGCの同定に関して50倍より高く有効であることを示す)。
図25は、本開示のデジタル検索方法論を使用してJGIおよびMCEライブラリーにおいて同定されたクラスターの数を示す。結果を、配列のギガベース当たりに同定されたMGCの数として示す。約15kbpのN50を有するMCEは、MGCの同定において50倍より高く効率的である。
図26は、本開示のin silico天然物多重遺伝子クラスター発見方法の一実施形態のステップを示す。デジタルメタゲノムライブラリーを、多重遺伝子クラスターの存在について問い合わせる。候補抵抗性遺伝子は、公知のまたは予測される標的抵抗性遺伝子(例えば、他の生物におけるまたは関連天然物の抵抗性遺伝子)に基づいて選択されるHMMを介してデジタルメタゲノムライブラリーにおいて同定され得る。一部の実施形態では、本開示は、MGC内に、または前記MGCの1~2個のORF内に候補抵抗性遺伝子を含むMGCを選択することを教示する。
図27は、本開示の標的化されない(「de novo」)抵抗性シグナル多重遺伝子クラスター特色セット開発ワークフローを示す。
図28は、土壌試料から本開示の方法に従って産生されたデジタルメタゲノミクスライブラリー(MCE)の分類学上の特徴付けを例証するKronaプロットである(実施例4を参照されたい)。MCEは、元の環境土壌試料を表す代表する分類学上の多様性を示した。
図29は、実施例17の標的化されないMGC発見ワークフローの一部としての予測されるMGC内の遺伝子の組合せスコアを示す。
図30は、標的遺伝子としてHDAC1を使用して抵抗性遺伝子ワークフローを介して同定されたMGCによってコードされる新たに同定された天然物の活性曲線を示す。本開示の方法は、選択された治療標的を特異的に標的化する天然物を同定することができる。
図31は、標的遺伝子としてSOD2を使用して抵抗性遺伝子ワークフローを介して同定されたMGCによってコードされる新たに同定された天然物の正規化されたSOD活性を示す。本開示の方法は、選択された治療標的を特異的に標的化する天然物を同定することができる。
詳細な説明
本開示は、目的のタンパク質標的を結合することができる天然物をコードする、多様なメタゲノム試料からの多重遺伝子クラスターの同定のための新規方法を提供する。
定義
宿主細胞が、少なくとも1種の新たな遺伝子/タンパク質(例えば、天然物を合成することができる酵素)を産生するように、宿主細胞のゲノムが改変されている(例えば、多重遺伝子クラスターをコードするプラスミドの挿入を含む、遺伝子の挿入、欠失、置換えにより)場合、本開示は、タンパク質等の部分が、宿主細胞へと「操作されている」と言う。
本明細書で使用される場合、「信頼度スコア」は、分類または分類子に割り当てられる信頼度の尺度である。例えば、信頼度スコアは、抵抗性遺伝子をコードするとして、アミノ酸配列の同定に割り当てることができる。信頼度スコアは、とりわけ、ビットスコアおよびe値を含む。「ビットスコア」は、予測の精度における信頼度を提供する。「ビット」は、情報内容を指し、ビットスコアは一般に、ヒットにおける情報の量を示す。より高いビットスコアは、より優れた予測を示し、一方、低いスコアは、より低い情報内容、例えば、より低い複雑性マッチまたはより悪い予測を示す。「e値」は、本明細書で使用される場合、結果、例えば、検索タンパク質(例えば、天然物に対する抵抗性タンパク質)と同じ機能を有するタンパク質をコードすることが予測されるデータベースにおける配列の同定に割り当てられた有意性の尺度を指す。e値は一般に、同じデータベース内で同様の結果を観察する尤度を推定する。e値が低いほど、結果の有意性が高くなる。
「隠れマルコフモデル」または「HMM」は、本明細書で使用される場合、モデル化されているシステムが、観測できない(すなわち、隠れた)状態を有するマルコフ過程であると仮定される、統計モデルを指す。アミノ酸配列に適用される場合、HMMは、配列のファミリーを数学的に表す仕方を提供する。これは、配列が順序付けられており、かつ、アミノ酸が、ある位置で他の位置よりも保存されている、特性を捕捉する。HMMが、配列のファミリーのために構築されると、新たな配列をこれに対してスコア化して、これらが申し分なくマッチする程度およびこれらがファミリーのメンバーとなる可能性の程度を評価することができる。
本明細書で使用される場合、用語「配列同一性」は、2種の最適に整列されたポリヌクレオチドまたはポリペプチド配列が、残基、例えば、ヌクレオチドまたはアミノ酸の整列のウィンドウ全体にわたり不変である程度を指す。検査配列および参照配列の整列されたセグメントの「同一性分率」は、参照配列セグメント、すなわち、参照配列全体、または参照配列のより小さい定義された部分における残基の総数で割った、2種の整列された配列によって共有される同一残基の数である。「パーセント同一性」は、同一性分率掛ける100である。パーセント同一性を決定するための配列の比較は、例えば、例えば、配列解析プログラムのBLAST一式におけるアルゴリズム等の数学的アルゴリズムを使用することによるものを含む、いくつかの周知の方法によって達成することができる。特に断りのない限り、特許請求の範囲における用語「配列同一性」は、デフォルトパラメーターを使用したClustal Omega(登録商標)によって計算される配列同一性を指す。
本明細書で使用される場合、配列XおよびYが、例えば、Clustal OmegaまたはBLAST(登録商標)等、当技術分野で公知のアミノ酸配列整列ツールを使用して整列されたときに、配列「X」における残基が、配列「Y」における「a」のカウンターパート位置にある場合、配列「X」における残基(核酸残基またはアミノ酸残基等)は、異なる配列「Y」における位置または残基(核酸残基またはアミノ酸残基等)「a」に対応すると称される。
配列同一性のパーセンテージが、タンパク質を参照して使用される場合、同一ではない残基位置は、アミノ酸残基が同様の化学的特性(例えば、電荷または疎水性)を有する他のアミノ酸残基に代えて置換される、保存的アミノ酸置換によって異なることが多く、したがって、分子の機能的特性を変化させないことが認識される。斯かる保存的置換によって異なる配列は、「配列類似性」または「類似性」を有すると言われる。この調整を為すための手段は、当業者にとって周知である。典型的には、これは、完全ミスマッチではなく部分的ミスマッチとしての保存的置換のスコア化を伴い、これにより、パーセンテージ配列同一性を増加させる。よって、例えば、同一アミノ酸に1のスコアが与えられ、非保存的置換にゼロのスコアが与えられる場合、保存的置換には、ゼロ~1の間のスコアが与えられる。保存的置換のスコア化は、例えば、Meyers and Miller, Computer Applic. Biol. Sci., 4:11-17 (1988)のアルゴリズムに従って計算される。類似性は、同一性よりも高感度な、配列間の関連性の尺度である;これは、同一の(すなわち、100%保存された)残基のみならず、非同一だが(サイズ、電荷等が)同様の残基をも考慮に入れる。その正確な数値が、その推定に使用される置換マトリックス(例えば、許容的BLOSUM45対厳密なBLOSUM90)等のパラメーターに依存するため、%類似性は、少々トリッキーである。
本開示の方法およびシステムを使用して、1種もしくは複数の標的遺伝子/タンパク質に対して、または抵抗性タンパク質等の1種もしくは複数の選択されたタンパク質ドメイン、または抵抗性タンパク質のクラス内の共有されるドメインに対して相同/オルソロガスである配列を同定することができる。一部の実施形態では、相同配列は、標的遺伝子/タンパク質と配列同一性を共有する配列である(例えば、少なくとも5%、少なくとも10%、少なくとも15%、少なくとも20%、少なくとも25%、少なくとも30%、少なくとも35%、少なくとも40%、少なくとも45%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも71%、少なくとも72%、少なくとも73%、少なくとも74%、少なくとも75%、少なくとも76%、少なくとも77%、少なくとも78%、少なくとも79%、少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、少なくとも84%、少なくとも85%、少なくとも86%、少なくとも87%、少なくとも88%、少なくとも89%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%または100%パーセント同一性であり、その間のあらゆる値を含む)。一部の実施形態では、相同配列は、本開示のHMMモデルによって同定された配列である。一部の実施形態では、相同配列はまた、標的遺伝子/タンパク質と同じまたは同様の生物学的機能を実行する。
一部の実施形態では、本開示は、標的タンパク質または遺伝子のホモログまたはオルソログを同定するための方法およびシステムを教示する。本明細書で使用される場合、用語「標的タンパク質」または「標的遺伝子」は、ホモログまたはオルソログが探索されている出発遺伝子またはタンパク質(例えば、核酸またはアミノ酸配列)を指す。一部の実施形態では、検索は、1つより多くの標的遺伝子/タンパク質により遂行される。
本明細書で使用される場合、用語「オルソログ」は、標的配列に対して相同であり、かつ異なる種に由来する、核酸またはタンパク質を指す。一部の実施形態では、オルソログは、種分化事象によって分かれた、同じ祖先配列から枝分かれすると仮定される。
本開示は、標的遺伝子/タンパク質のホモログおよびオルソログを同定するための方法およびシステムであって、前記ホモログおよびオルソログが、標的遺伝子/タンパク質と同じ機能を果たす、方法およびシステムを教示する。本明細書で使用される場合、用語「同じ機能」は、新たに同定されたホモログまたはオルソログが、少なくともあるレベルの機能性を維持しつつ、本来の標的遺伝子/タンパク質に取って代わることができるような、互換的な遺伝子またはタンパク質を指す。一部の実施形態では、標的酵素と同じ反応を触媒することができる酵素は、同じ機能を果たすと考慮される。一部の実施形態では、標的転写因子と同じ遺伝子を調節することができる転写因子は、同じ機能を果たすと考慮される。一部の実施形態では、標的低分子RNAと同じ(または等価の)核酸と複合体形成することができる低分子RNAは、同じ機能を果たすと考慮される。
しかし、「同じ機能」を果たすということは、新たに同定されたホモログまたはオルソログが、標的遺伝子/タンパク質の機能の全てを果たすことを必ずしも要求することもなければ、新たに同定されたホモログが、標的遺伝子/タンパク質の機能を越えた追加的な機能を果たし得ることを除外することもない。よって、一部の実施形態では、新たに同定されたホモログまたはオルソログは、例えば、標的酵素と比較した場合、使用可能な反応物のより小さいプールを有することができる、または追加的な産物を産生することができる。
当業者であれば、用語「同じ機能」が、一部の実施形態では、合同な、ただし同一ではない機能を包含することもできることも理解するであろう。例えば、一部の実施形態では、本開示の方法およびシステムにより同定されたホモログまたはオルソログは、ある生物において同じ機能を果たすことができるが、別の生物において同じ機能を果たすことができない。このシナリオの説明に役立つ一例は、多サブユニット酵素のオルソログサブユニットであり、これは、ある生物の他の適合性サブユニットと共に発現されたときに同じ機能を果たすことができるが、異なる生物由来のサブユニットと直接的に組み合わせることができない。斯かるサブユニットは依然として、「同じ機能」を果たすと考慮されるであろう。同定された遺伝子/タンパク質が、標的遺伝子/産物と同じ機能を果たすか否か決定するための技法は、本開示において詳細に記述されている。
用語「ポリペプチド」または「タンパク質」または「ペプチド」は、天然に存在するタンパク質、ならびに組換えによりまたは合成により産生されたタンパク質を網羅することが特に意図される。用語「ポリペプチド」または「タンパク質」が、グリコシル化された形態等、天然に存在する修飾された形態のタンパク質を含むことができることに留意されたい。用語「ポリペプチド」または「タンパク質」または「ペプチド」は、本明細書で使用される場合、任意のアミノ酸配列を包含することが意図され、糖タンパク質等の修飾された配列を含む。
用語「予測」は、タンパク質が、所与の機能を果たすこと、または一連の遺伝子が、天然物コード多重遺伝子クラスターを形成することの尤度、確率またはスコアを指すように本明細書で使用される。
本明細書において、用語「オープンリーディングフレーム」またはORFは、タンパク質遺伝子をコードするDNA配列を指し、前記オープンリーディングフレームは、翻訳開始コドン(例えば、ATG、GTGおよびTTG)から停止コドン(例えば、TGA、TAA、TAG)に及ぶ。本出願の目的のため、タンパク質を産生しないことがコンピューターにより予測される(または経験的に決定される)DNA配列は、ORFと考慮されない。例えば、関連する転写開始部位がないORF(すなわち、mRNAへと転写されないであろうDNA配列)は、ORFと考慮されないであろう。その上、コンピューターにより決定された天然物多重遺伝子クラスター特色セットのエレメント間の近接計算の目的のため、10、20、30、40、50、60、70、80、90または100個未満のアミノ酸をコードするORFは、ORFと考慮されない。
用語「訓練データ」、「訓練セット」または「訓練データセット」は、分類が公知となり得るデータセットを指す。一部の実施形態では、訓練セットは、入力および出力変数を含み、モデルの訓練に使用することができる。セットのための特色の値は、訓練セットのための入力ベクトル、例えば、訓練ベクトルを形成することができる。訓練ベクトル(または他の入力ベクトル)の各エレメントは、1個または複数の変数を含む特色に対応することができる。例えば、訓練ベクトルのエレメントは、マトリックスに対応することができる。セットの標識の値は、任意のサイズ、次元または組合せで、上述のデータ型のストリング、数、バイトコードまたは任意かの集合を含有するベクトルを形成することができる。一部の実施形態では、「訓練データ」は、標的遺伝子/タンパク質と同じ機能を示す可能性がある他の配列を同定することができる機械学習予測モデルの開発に使用される。一部の実施形態では、訓練データセットは、標的タンパク質と同じ機能を果たすことができるタンパク質をコードする1種または複数の遺伝的配列(例えば、ヌクレオチドまたはアミノ酸)を有する遺伝的配列入力変数を含む。一部の実施形態では、訓練データセットは、同じ機能を果たさないと標識された配列を含有することもできる。
一部の実施形態では、訓練データセットは、「表現型性能出力変数」も含む。一部の実施形態では、「表現型出力変数」は、バイナリ(例えば、関連する配列が、同じ機能を示すか否かについて示す)であり得る。一部の実施形態では、表現型出力変数は、同じ機能が、肯定的もしくは否定的として実験により検証されたか否か、または1種もしくは複数の他の因子に基づき予測されるか否かについて示す等、記述される機能に関する確実性のレベルを示すことができる。一部の実施形態では、表現型出力変数は、データとして記憶されないが、単に、所与の機能を果たすという事実である。例えば、訓練データセットは、標的機能を果たすことが公知のまたは予測される配列を含むことができる。斯かる実施形態では、遺伝的入力変数は、配列であり、表現型性能出力変数は、機能を果たすまたは機能を果たすことが予測されるという事実である。よって、一部の実施形態では、リストにおける包接は、配列が同じ機能を果たすことを示す表現型性能変数を暗示する。
本明細書で使用される場合、用語「宿主細胞」、「細胞生物」、「微小生物」または「微生物」は、広範に解釈されるべきである。これらの用語は、互換的に使用されており、2つの原核生物ドメインである細菌および古細菌、ならびにある特定の真核生物の真菌および原生生物を含むがこれらに限定されない。一部の実施形態では、本開示は、本開示に存在するリスト/表および図の「微小生物」または「細胞生物」または「微生物」を指す。この特徴付けは、表および図の同定された分類学的な属のみならず、前記表または図におけるいずれかの生物の同定された分類学的な種ならびに様々な新規のおよび新たに同定または設計された株を指すこともできる。同じ特徴付けが、実施例等の本明細書の他の部分における、これらの用語の列挙に当てはまる。
一部の実施形態では、本開示は、少なくとも1個の無培養微生物または微小生物の遺伝的配列を含むメタゲノムデータベースを開示する。本明細書で使用される場合、用語「無培養微生物」、「無培養細胞」または「無培養生物」は、実験室培地において育成されていない細胞を指す。一部の実施形態では、無培養微生物/細胞/生物は、実験室における育成に適応されていない。一部の実施形態では、無培養微生物/細胞/生物は、環境試料から直接的に得られる。一部の実施形態では、無培養微生物/細胞/生物は、以前に配列決定されたことがない、またはゲノム配列が公開されていない。
用語「原核生物」は、当技術分野で認識されており、核も他の細胞オルガネラも含有しない細胞を指す。原核生物は一般に、2つのドメインである細菌および古細菌の一方に分類される。古細菌および細菌ドメインの生物の間の決定的な差は、16SリボソームRNAにおけるヌクレオチド塩基配列の根本的な差に基づく。
用語「古細菌」は、普通でない環境において典型的に見出され、リボソームタンパク質の数および細胞壁におけるムラミン酸の欠如を含むいくつかの判定基準によって原核生物の残りから区別される、Mendosicutes門の生物のカテゴリー化を指す。ssrRNA解析に基づいて、古細菌は、2つの系統発生的に明確に異なる群:CrenarchaeotaおよびEuryarchaeotaからなる。その生理学に基づいて、古細菌は、3つの型:メタン生成菌(メタンを産生する原核生物);高度好塩菌(非常に高濃度の塩(NaCl)で生きる原核生物;および高度(超)好熱菌(thermophilus)(非常に高温で生きる原核生物)へと組織化することができる。それらを細菌から区別する統合的古細菌特色(すなわち、細胞壁にムレインなし、エステル結合された膜脂質等)の他に、これらの原核生物は、その特定の生息地に自身を適応させる特有の構造的または生化学的特質を示す。Crenarchaeotaは、主に超好熱性硫黄依存性原核生物からなり、Euryarchaeotaは、メタン生成菌および高度好塩菌を含有する。
「細菌」または「真正細菌」は、原核生物のドメインを指す。細菌は、次の通りの少なくとも11種の明確に異なる群を含む:(1)グラム陽性(グラム+)細菌、これには、2つの主要な細区分:(1)高G+C群(Actinomycetes、Mycobacteria、Micrococcus、その他)(2)低G+C群(Bacillus、Clostridia、Lactobacillus、Staphylococci、Streptococci、Mycoplasmas)がある;(2)プロテオバクテリア、例えば、紅色光合成および非光合成グラム陰性細菌(最も「一般的な」グラム陰性細菌を含む);(3)ラン藻、例えば、酸素発生型光栄養生物;(4)スピロヘータおよび近縁の種;(5)プランクトミセス;(6)Bacteroides、Flavobacteria;(7)Chlamydia;(8)緑色硫黄細菌;(9)緑色非硫黄細菌(嫌気性光栄養生物でもある);(10)放射線抵抗性小球菌および近縁種;(11)ThermotogaおよびThermosipho thermophiles。
「真核生物」は、その細胞が、膜内に封入された核および他のオルガネラを含有する、任意の生物である。真核生物は、分類群EukaryaまたはEukaryotaに属する。真核細胞を原核細胞(上述の細菌および古細菌)から隔てる明確な特色は、膜に結合されたオルガネラ、特に、遺伝材料を含有し、核膜によって封入された核を有することである。
用語「遺伝子改変された宿主細胞」、「組換え宿主細胞」および「組換え株」は、本明細書で互換的に使用されており、本開示のクローニングおよび形質転換方法によって遺伝子改変された宿主細胞を指す。よって、これらの用語は、それが由来する天然に存在する生物と比較して変更された、改変されたまたは異なる遺伝子型および/または表現型(例えば、遺伝子改変が、微小生物のコード核酸配列に影響を与える場合)を示すように、遺伝的に変更された、改変されたまたは操作された宿主細胞(例えば、細菌、酵母細胞、真菌細胞、CHO、ヒト細胞等)を含む。一部の実施形態では、これらの用語は、問題になっている特定の組換え宿主細胞のみならず、斯かる宿主細胞の後代または潜在的な後代も指すことが理解される。
用語「野生型微小生物」または「野生型宿主細胞」は、自然界に発生する細胞、すなわち、遺伝子改変されていない細胞を表す。
用語「遺伝子操作された」は、宿主細胞のゲノムの任意のマニピュレーション(例えば、核酸の挿入、欠失、変異または置換えによる)を指すことができる。遺伝子操作されたとは、プラスミド等、人為的に加えられた染色体外DNAを有する生物を含む。
用語「対照」または「対照宿主細胞」は、遺伝子改変または実験処置の効果を決定するための適切なコンパレーター宿主細胞を指す。一部の実施形態では、対照宿主細胞は、野生型細胞である。他の実施形態では、対照宿主細胞は、処置宿主細胞を識別する遺伝子改変は別として、遺伝子改変された宿主細胞と遺伝的に同一である。
用語「多重遺伝子クラスター」または「MGC」は、微生物にコードされる天然物等、特殊化された代謝物の産生に関与する遺伝子の組織化された群を指す。MGC内の遺伝子は典型的に、一緒になって密接に群れをなして、共遺伝を容易にする。MGCは多くの場合、一緒に調節され、時に、生合成オペロンを形成する。MGCを同定するための方法は、本出願の後述するセクションに記述される。
「バーコード」または「分子バーコード」は、標識するための材料である。バーコードは、核酸またはポリペプチド等の分子を標識することができる。一部の実施形態では、核酸内のバーコードを使用して、加工/配列決定ステップにより核酸を追跡することができる。一部の実施形態では、バーコードを使用して、配列決定後に配列を選別することができる。一部の実施形態では、バーコードを使用して、配列混合物を逆多重化する。標識するための材料は、情報に関連する。一部の実施形態では、バーコードは、配列識別子(すなわち、配列に基づくバーコードまたは配列インデックス)である。一部の実施形態では、バーコードは、特定のヌクレオチド配列である。一部の実施形態では、バーコードは、同じ分子の異なるサイズ分子または異なる終止点である。バーコードは、分子内の特異的配列、および異なる終止配列を含むことができる。例えば、同じプライマーから増幅され、25個のヌクレオチド位置を有する分子は、増幅され、27個のヌクレオチド位置を有する分子とは異なる。27mer配列における付加位置は、バーコードと考慮される。一部の実施形態では、バーコードは、ポリヌクレオチドに取り込まれる。バーコードを取り込むための一部の非限定的な方法は、分子生物学方法を含むことができる。バーコードを取り込むための分子生物学方法の一部の非限定的な例は、プライマー(例えば、テイルドプライマー伸長)、プローブ(すなわち、プローブへのライゲーションによる伸長)またはライゲーション(すなわち、分子への公知の配列のライゲーション)による。
本明細書で使用される場合、アセンブルされたライブラリーのN50の参照は、その長さまたはそれよりも長い全てのコンティグの収集物が、アセンブリーの少なくとも半分を被覆する長さを指す。一部の実施形態では、N50は、アセンブリーにおける全コンティグを、最長から最短へと長さによって先ず順序付けすることにより計算される。最長コンティグから開始して、和が、アセンブリーにおける全てのコンティグの全長(総アセンブリー長)の半分に等しくなるまで、各コンティグの長さを合計する。このリストにおける最短コンティグの長さは、N50値である。
天然物発見における伝統的アプローチ
産物に基づくスクリーニング
DNA配列決定および解析の出現に先立ち、実験室において培養依存性技法を主として使用して、微小生物由来の天然物の同定が遂行された(Katz L., Baltz R.H. Natural product discovery: Past, present and future. J. Ind. Microbiol. Biotechnol. 2016;43:155-176)。天然物の発見は伝統的に、環境から試料採取するステップと、実験室においてこれらの試料を培養するステップと、最後に、抽出された産物を生物活性についてスクリーニングするステップとを伴った。よって、天然物発見のためのこの伝統的アプローチは、培養可能な生物に制限されており、MGC発見の速度および発見されたMGCの多様性の両方を著しく制限する。
天然物同定のための伝統的アプローチは、天然物が、その後の生物学的アッセイに十分な分量で発現され、蓄積することを要求したため、現存する多様性を活用するその能力においても限定された。しかし、大部分の天然物産生クラスターは、あるとしても、全ての条件下で発現するとは限らない(Ren H., Wang B., Zhao H. Breaking the silence: New strategies for discovering novel natural products. Curr. Opin. Biotechnol. 2017;48:21-27)。発現されるもののうち、一部のみが、生物学的検査を可能にするのに十分に高いレベルで分泌され、蓄積する(Luo Y., Cobb R.E., Zhao H. Recent advances in natural product discovery. Curr. Opin. Biotechnol. 2014;30:230-237)。
天然物クラスタリングの発現の欠如を克服する試みは、ある程度の成功を収めた。例えば、あるグループは、クラスター内に包埋された遺伝的エレメントをマニピュレートすることにより、天然物コード遺伝子クラスターの発現を増加させることを試みた(Palazzotto E., Weber T. Omics and multi-omics approaches to study the biosynthesis of secondary metabolites in microorganisms. Curr. Opin. Microbiol. 2018;45:109-116)。他のグループは、標的クラスターの上流に位置する強いプロモーターを人為的にノックインすることにより、ネイティブ宿主におけるクラスター発現を誘発することを試みた。Ren H., Wang B., Zhao H. Breaking the silence: New strategies for discovering novel natural products. Curr. Opin. Biotechnol. 2017;48:21-27。例えば、CRISPR-Cas9システムに基づくプロモーターノックイン戦略を使用して、5種の異なるStreptomyces種における複数のサイレントMGCを活性化し、これにより、Streptomyces viridochromogenesからの新規五角形ポリケタイドの発見がもたらされた。
他のアプローチは、異種宿主において(多くの場合サイレントな)遺伝子クラスターを発現させることにより、これらの推定上の天然物コード遺伝子クラスターを連続的におよび/またはランダムにスクリーニングする試みに着目した(Kouprina N., Larionov V. Selective isolation of genomic loci from complex genomes by transformation-associated recombination cloning in the yeast Saccharomyces cerevisiae. Nat. Protoc. 2008;3:371)。異種宿主は、ネイティブ宿主を上回る有意な成長利点を提供することができ、後者における調節システムをバイパスすることができる。これらのアプローチは、標的多重遺伝子クラスターを発現させることを支援するが、これらのアプローチは、ロースループットとなる傾向があり、あらゆる公知の(かつ無培養の)微小生物における新たな天然物のラージスケールスクリーニングおよび同定のための実際的な解法ではない。
メタゲノムライブラリー由来の天然物
新たな天然物に関する未開発の潜在性の最大の供給源の1つは、無培養微小生物である。実験室で育成することができる細菌種の数は、自然界に存在する全多様性のごく一部しか含まない(Stewart E.J. Growing Unculturable Bacteria. J. Bacteriol. 2012;194:4151-4160)。複数の証拠が、標準実験室技法を使用して、土壌中の微小生物の0.1%未満が容易に培養されることを示す(Handelsman et al. Moleculare biological access to the chemistry of unknown soil microbes: a new frontier for natural products. Chemistry & Biology. 1998,5:R245-249)。実際に、新たな推定は、地球上の微生物多様性の99.999%が、未だに探索されていないことを示唆する(Kenneth J. Loceya, and Jay T. Lennona. Scaling laws predict global microbial diversity. PNAS, 2016)。
上に記載されている通り、無培養生物は、伝統的な発酵に基づく天然物発見アプローチのための有用な供給源ではなかった。しかし、ごく最近になって、ハイスループット配列決定、DNAクローニングおよび編集を含むゲノミクス時代に開発されたツール、ならびにバイオインフォマティクスツールは現在、そのゲノムのDNA配列を直接的に調べることにより(生物を培養するのではなく)、これらの無培養生物のゲノムを探索することを理論的に可能にする。これは、環境試料から直接的に回収された遺伝材料の研究である、メタゲノミクスの分野の発展をもたらした。理論的には、無培養生物のゲノムを有するのであれば、そのゲノムにおいてコードされるMGCを生物情報学的に同定することができる。しかし、メタゲノミクスの分野が希求するスケールに近いスケールでのこのアプローチを実行することを困難にする、いくつかの技術的課題が存在する。例えば、地球上の表層土1グラムは、10個の細菌細胞を含有し、少なくとも300,000,000種の明確に異なるゲノムを含むことが推定される(Delmont et al. Reconstructing rare soil microbial genomes using in situ enrichments and metagenomics. Front Microbiol 2015;6; 358)。この驚異的な複雑性は、任意の有意な長さへとDNA配列を生物情報学的にアセンブルすることを極めて困難にする。メタゲノムライブラリーの研究は、土壌中の明確に異なる微生物の大部分が、生態系内の少数を表すことを示唆し、感度を低下させることにより、発見の問題をさらに悪化させる。メタゲノム多様性をマイニングするための以前のアプローチについては、さらに詳細に後述する。
縮重プライマーを使用したMGCのメタゲノムスクリーニング
メタゲノムライブラリーにおける多重遺伝子クラスターを調査するための有名なアプローチは、縮重プライマーの使用である。縮重プライマーは、1つより多くの可能なヌクレオチド塩基を含有するいくつかの位置を有するオリゴヌクレオチド配列である。縮重プライマーの柔軟なハイブリダイゼーション特性を使用して、非常に類似しているが僅かな変形形態を有するゲノム中の区域を標的化および増幅することができる(Linhart C., Shamir R. The degenerate primer design problem: Theory and applications. J. Comput. Biol. A J. Comput. Mol. Cell Biol. 2005;12:431-456)。縮重プライマーを使用して、配列決定された培養されたゲノムの間で十分に保存されていることが見出された、アデニル化およびチオール化ドメインに関連する非リボソーム性ペプチドシンターゼNRPS遺伝子を選択的に増幅した(Khosla C., Gokhale R.S., Jacobsen J.R., Cane D.E. Tolerance and Specificity of Polyketide Synthases. Annu. Rev. Biochem. 1999;68:219-253)。次いで、縮重プライマーにより同定されたゲノム配列を配列決定し、伝統的な「プライマーウォーキング」技法により周囲のDNA配列を同定するために使用することができる。
縮重プライマーは、多数の天然物同定の取り組みにわたり使用されてきた。カスタマイズされたプライマーセットが、アクチノバクテリアにおけるNRPSおよびI型PKS(PKS-I)システムのスクリーニングに使用された(Ayuso-Sacido A., Genilloud O. New PCR primers for the screening of NRPS and PKS-I systems in actinomycetes: Detection and distribution of these biosynthetic gene sequences in major taxonomic groups. Microb. Ecol. 2005;49:10-24)。本研究において、プライマーセットは、アクチノバクテリアにおける主要な科および33種の異なる属を網羅する210種の参照株において検査された。NRPSを標的とするプライマーのPCR増幅は、79.5%の株において観察され、一方、PKS-Iを標的とするプライマーのPCR増幅は、56.7%の株に見られた。
別の研究において、保存された生合成モチーフに由来する縮重プライマーを使用して、185種の土壌マイクロバイオーム試料由来のケトシンターゼドメインを調べた(Owen J.G., Charlop-Powers Z., Smith A.G., Ternei M.A., Calle P.Y., Reddy B.V.B., Montiel D., Brady S.F. Multiplexed metagenome mining using short DNA sequence tags facilitates targeted discovery of epoxyketone proteasome inhibitors. Proc. Natl. Acad. Sci. USA. 2015;112:4221-4226.)。エポキシケトンプロテアソーム阻害剤をコードする生合成多重遺伝子クラスターが検出され、さらなる解析は、特有の弾頭構造を有する化合物を含む、7種のエポキシケトン天然物の単離および特徴付けをもたらした。
しかし、第1のパスの(first-pass)発見ツールとしての縮重プライマーの使用は、いくつかの欠点がある。第一に、これは、培養および無培養生物にわたって保存されていると仮定される選択された数の遺伝子のみの同定に頼る。しかし、プライマー内の縮重のレベルは限定されており、標的配列における僅かな予想外の変形形態であっても、ハイブリダイゼーションの喪失をもたらし得る。これは、この技法によって標的化され得る遺伝子の型を限定し、斯かる特異的な共有されるモチーフを有する遺伝子に集中することが、ユーザーが、新たなかつ配列決定されていない微小生物の完全な多様性を探索することを防止しているか否かに関する疑問をさらに生じる。
指数関数的PCR増幅における縮重プライマーへの依存もまた、ゲノムコピー数における大きい変形形態を考慮して若干問題になる。斯かるライブラリーのPCR増幅は、1つの型のクラスターが高度に富化された増幅産物を産生するが、潜在的に、その他を検出し損なうことによる、ライブラリー表現の問題点を悪化し得る。
縮重プライマーの第2の限界は、完全な天然物クラスターが再調査に利用できるようになる前に要求される、下流加工の量である。縮重プライマーによるPCR増幅からの配列は多くの場合、ゲルで泳動されて、サイズによって産物を分離し、その後、各バンドを抽出し、配列決定する。完全に配列決定された多重遺伝子クラスターに達するための時間および支出のみならず、偽陽性を回避するためにかかる圧力も原因で、この限界は重要である。広すぎるハイブリダイゼーション範囲を有する縮重プライマーは、追加的な多重遺伝子クラスターを明らかにすることができる可能性があるものの、結局のところ、作業セットから除外され得る前にいくつかの追加のステップで加工される必要がある、非特異的遺伝子を増幅する場合もある。よって、縮重プライマーは依然として、メタゲノムライブラリーにおけるMGCを同定するタスクにとって相対的に使いにくいツールである。
メタゲノムライブラリーを生成するための他の以前の試み
高品質メタゲノムを生成するための多くの他のアプローチが試みられたが、殆ど成功しなかった。例えば、いくつかのグループは、細胞選別機を使用してメタゲノム試料を分解することにより、メタゲノムライブラリーアセンブリーの複雑性を低下させることを試みた。これらの試みは、極めてスモールスケール(例えば、プール当たり100個の細胞)においてある程度の成功を示し、ごく少数の低カバレッジゲノムの回収を報告した。これらの論文は一般に、「アセンブリーは多くの場合、高度に断片化されており不完全であり、全体的なプロセスは、偏向およびコンタミネーションの傾向がある」と結論した(例えば、Alteio LV, Schulz F, Seshadri R, et al. mSystems. 2020;5(2):e00768-19. Published 2020 Mar 10. doi:10.1128/mSystems.00768-19)。
探索されている別の手段は、「合成長リード配列データ」の創出である。このアプローチは一般に、標準短リードIllumina(登録商標)配列決定を利用するが、近接性データ情報を取り込むようにDNA試料を加工する。例えば、当技術分野は、ライブラリーアセンブリーの様々なステージで加えられるトランスポソーム複合体を使用して、近接性データを提供することを試みた(例えば、EP3636757、US2020/0202144、US10,577,603およびEP3377625B1)。同様の試みは、特有の分子識別子バーコードを利用して、配列近接性情報を同様に提供する(例えば、US2020/0123539、EP2977455、US10,557,166、US10,557,133およびUS10,726,942を参照)。これらのアプローチは、スモールスケールで働くが、合成長リード技法をメタゲノムデータベースに適用する試みは全て、失敗に終わった(WO2020/165433の「1024種のバーコードは、生体試料由来のゲノムまたはメタゲノムDNA由来の分子ミックスの特有のタギングに十分な多様性を表さなかった」を参照)。
研究者らは、メタゲノム試料の複雑性を低下させるためにin silicoアプローチを使用することも試みた。これらは、メチル化パターン(US2020/0160936)、予測される種(Christopher Quince, Alan W. Walker, Jared T. Simpson, Nicholas J. Loman, Nicola Segata ”Shotgun metagenomics, from sampling to analysis.”)に基づくビニング(すなわち、配列をアセンブリー群に割り当てること)を含む。これらのアプローチは、有望ではあるものの、高度に誤りがちであり、現時点では、その大部分が未だ探索されていない、メタゲノム試料に存在する完全な分類学的スペクトルにわたり、配列を完全にビニングすることができない(「分類性能における進化距離および不十分に記載された分類群の影響をさらに強調する」、分類学に基づき配列をビニングする試みがどのように失敗したかについて説明する、Simon H Ye, Katherine J Siddle, Daniel J Park, Pardis C Sabeti Cell. 2019 August 08; 178(4): 779-794. doi:10.1016/j.cell.2019.07.010.を参照)。
これらのアプローチは、目標を進めるそれらの試みにおいて称賛に値するものの、天然物発見のための実行可能なデジタルメタゲノムデータベースを提供することに全て失敗した。このスペースにおける大部分の著者は、当技術分野の限界について公にしている(Ana Elena Perez-Cobas, Laura Gomez-Valero, Carmen Buchrieser, Metagenomic approaches in microbial ecology: an update on whole-genome and marker gene sequencing analyses「これに基づき、WGSを行う際に、ゲノムアセンブリーは、慎重に為され、解析されるべきであり、これらの試料から得たリードの大部分は、アセンブルされないままとなるであろう」を参照;WO2019/147753「土壌マイクロバイオームの複雑性は、土壌メタゲノムにおける生合成遺伝子クラスターを同定するためのツールとしてのショットガン配列決定の有用性を限定した。」も参照)。本開示は、当技術分野におけるこれらの限界に取り組み、in silico MGC発見に適しているデジタルメタゲノミクスライブラリーを創出するための方法を提供する。
生物情報学パイプラインによる検出および解析
多重遺伝子クラスター解析における近年の取り組みは、配列決定されたゲノムおよび生物情報学ツールに頼る。多くのバイオインフォマティクスツールが、現在、整然としたゲノム配列およびゲノムに分解されたメタゲノムにおける公知のMGCを検出するために開発されている(Weber T., Kim H.U. The secondary metabolite bioinformatics portal: Computational tools to facilitate synthetic biology of secondary metabolite production. Synth. Syst. Biotechnol. 2016;1:69-79.)。配列決定された公開データベースにおける使用のために本来開発された、これらのツールは、環境ゲノムに分解されたメタゲノムにも適用されている(Cimermancic P., Medema M.H., Claesen J., Kurita K., Brown L.C., Mavrommatis K., Pati A., Godfrey P.A., Koehrsen M., Clardy J., et al. Insights into Secondary Metabolism from a Global Analysis of Prokaryotic Biosynthetic Gene Clusters. Cell. 2014;158:412-421)。
AntiSMASH、NAPDOSおよびClustScanは、その解析における低い新規性だが高い信頼度を提供し、よって、公知の生合成クラスの遺伝子クラスターを探すユーザーに、またはアノテーション目的のために単一もしくは複数のゲノムにおけるあらゆる検出可能なMGCを調べるのに適した、バイオインフォマティクスソフトウェアの例である(Blin K., Wolf T., Chevrette M.G., Lu X., Schwalen C.J., Kautsar S.A., Suarez Duran H.G., de los Santos E.L.C., Kim H.U., Nave M., et al. antiSMASH 4.0- Improvements in chemistry prediction and gene cluster boundary identification. Nucleic Acids Res. 2017;45:W36-W41;およびStarcevic A., Zucko J., Simunkovic J., Long P.F., Cullum J., Hranueli D. ClustScan: An integrated program package for the semi-automatic annotation of modular biosynthetic gene clusters and in silico prediction of novel chemical structures. Nucleic Acids Res. 2008;36:6882-6892)。より新しいバージョンのantiSMASHは現在、新規の型を含む追加的な型のMGCのためのアルゴリズムも取り込む(Kai Blin et al., antiSMASH 5.0: updates to the secondary metabolite genome mining pipeline, Nucleic Acids Research, Volume 47, Issue W1, 02 July 2019, Pages W81-W87。
他の利用できるツールは、より欲張りなアルゴリズムにより設計されている。ClusterFinderは、例えば、低い信頼度だが高い新規性の解析を提供する、近年開発されたソフトウェアである(Cimermancic P., Medema M.H., Claesen J., Kurita K., Brown L.C., Mavrommatis K., Pati A., Godfrey P.A., Koehrsen M., Clardy J., et al. Insights into Secondary Metabolism from a Global Analysis of Prokaryotic Biosynthetic Gene Clusters. Cell. 2014;158:412-421)。ClusterFinderアルゴリズムは近年、antiSMASHツールへと統合された。新たな化学的足場を有する分子をコードする可能性があるため、新規クラスから遺伝子クラスターを予測することは役に立つ。ClusterFinderは、MGCおよび非MGC解析の間でスイッチする隠れマルコフモデルを使用して、特異的な個々のシグネチャー遺伝子の存在を検索するのではなく、ゲノム領域においてコードされる広範な遺伝子機能のパターンを探す。この方法は、ClusterFinderが、様々な門由来の広い範囲の細菌におけるアリールポリエンの生合成をコードする遺伝子クラスターの大型な、以前に認識されなかったファミリーを同定することを可能にした(同上)。
MGC発見のために現在利用できるバイオインフォマティクスツールの非限定的なリストを下の表1に提示する。これらのツールについて説明する参考文献のそれぞれが、参照により本出願に組み込まれる。
表1- MGC発見および解析のための生物情報学ソフトウェア(MGC予測アルゴリズムを適用することができるツール)
Figure 2023513314000002
Figure 2023513314000003
Figure 2023513314000004
Figure 2023513314000005
Figure 2023513314000006
Figure 2023513314000007
しかし、上に記載されているツール等、生物情報学ツールは、有効かつ信頼度できる出力のために、高品質のゲノムに分解されたメタゲノムに大いに頼る(Blin K., Kim H.U., Medema M.H., Weber T. Recent development of antiSMASH and other computational approaches to mine secondary metabolite biosynthetic gene clusters. Brief. Bioinform. 2017)。実際に、メタゲノム由来の配列決定データまたは分解されたゲノムの品質は、結果の信頼度性に影響することができる。MGCについてのメタゲノム配列決定データの解析に関するさらに別の厄介な問題は、より詳細に以前に概説されている(Medema M.H., Fischbach M.A. Computational approaches to natural product discovery. Nat. Chem. Biol. 2015;11:639-648;およびWilson M.C., Piel J. Metagenomic Approaches for Exploiting Uncultivated Bacteria as a Resource for Novel Biosynthetic Enzymology. Chem. Biol. 2013;20:636-647)。これらの限界については、下でより詳細に記述する。
メタゲノム配列におけるMGC発見の課題
整然とした(例えば、公開された完全)ゲノム配列と比較して、MGCについてのメタゲノム配列データの解析は、いくつかの肝要な課題を提示する。メタゲノムにおける生合成遺伝子クラスターを同定するための2種の主なアプローチ:PCRに基づく配列タグアプローチおよびショットガンアセンブリーアプローチが存在する。PCRに基づくアプローチは、上に詳細に記述しており、したがって、本セクションでは再度取り組まない。
ショットガンアセンブリーアプローチにおいて、無培養生物由来のメタゲノムDNAは、まとめて配列決定され、次いで一斉にアセンブルされる。しかし、このアプローチは、その適用を、相対的に低い複雑性の生態系、またはより複雑な生態系から分類学的に富化された試料に限定する、いくつかの技術的課題に直面する。有意義な配列解析およびその後のMGC回収を可能にするために、ゲノムの十分に長い部分を生成する能力が問題となっている。
配列決定後のゲノムアセンブリーにおいて、試料が、単一の種を含有することが予想される(アセンブリーに先立ちスクリーニングされ得る何らかのコンタミネーションは別として)。この予想は、アセンブリーツールが、アセンブリーを容易にするある特定の仮定を為すことを可能にする。標的ゲノムの予想されるカバレッジは、ゲノムの推定サイズで割ったデータセットの総サイズから予測することができる。シーケンサーへのDNA入力は、ゲノムにわたる配列について相対的に安定していると仮定される。したがって、予想されるカバレッジと比較して非常に低いカバレッジで発生するグラフにおけるノードまたはエッジは、配列決定エラーまたは低レベルコンタミネーションの結果である可能性が高いことが仮定され得、グラフは、斯かるノードまたはパスを除去することにより相当に単純化される。同様に、平均カバレッジよりもはるかに高いカバレッジを有するノードは、ゲノム内の反復構造の一部であると仮定され得る。単一ゲノムアセンブラのための典型的な最適配列カバレッジは、20~200×範囲内であり、一般的な「スイート・スポット」は、約50×である(Desai A, Marwah VS, Yadav A, et al. Identification of optimum sequencing depth especially for de novo genome assembly of small genomes using next generation sequencing data. PLOS One 2013;8(4):e60204)。
しかし、メタゲノムデータセットにおいて、この仮定および単純化を為すことはできない。より低いカバレッジのノードは、エラーではなく、より低い存在量を有するゲノムに起源を持つ可能性があるため、軽率に廃棄するべきではない。この問題をこじらせることに、試料内の種の数、および種の存在量の分布は、未知である。不均一な試料における存在量は、多くの場合、べき法則に従い、このことは、多くの種が、同様に低い存在量で発生するであろうことを意味し、あるものを別のものから区別する問題が、問題になる(Li D, Liu CM, Luo R, et al. MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph. Bioinformatics 2015;31(10):1674-6)。大部分の種の低カバレッジは、問題になっているゲノムが相対的に小型でない限り、de novoアセンブリーの可能性が低いことを意味する。
実際に、大部分の複雑なメタゲノムライブラリーからのアセンブリーは、長さが高度に限定されており、よって、有意義なMGC解析を防止する。短いアセンブリーは、多くの場合、完全MGCを含まず、このことは、生物情報学アルゴリズムが、クラスターを同定および解析することを困難にする。遺伝子が同定される場合、多くの場合、結果として生じる天然物を発現および検査するために、本来のMGCを再構築することは、不可能ではないにしても困難である。これらの限界が原因で、高度に複雑なメタゲノムライブラリーのいかなるin silicoバイオインフォマティクスMGC解析も存在してこなかった。代わりに、現在までに報告された大部分のバイオインフォマティクス研究は、公開された予めアセンブルされたライブラリー、または10k未満のゲノムの限定された小型のメタゲノムアセンブリーのいずれかに頼った。
本明細書にて開示される発明は、これらの技術的問題点を解決し、本開示のMGCバイオインフォマティクスツールによって検索され得る、長リード断片アセンブルされたメタゲノムライブラリー生成するための方法、システムおよびツールを提供する。本開示はまた、メタゲノムライブラリーが創出されたら、新たな天然物コードMGCを同定するためのいくつかの新規in silicoワークフローを提供する。
本天然物発見プラットフォームの方法、システムおよびツール
本開示は、MGC含有微小生物を培養する必要のない、微小生物から多量のMGCをマイニングすることを可能にする、いくつかの先進的メタゲノムライブラリー調製およびバイオインフォマティクス解析パイプラインを提供する。よって、本開示において提供されるツールは、無培養の微生物多様性の大部分である微生物ダークマターの二次代謝特性を解明する驚くべき機会を提供する。
一部の実施形態では、本開示は、1)物理的メタゲノムライブラリー創出、2)配列決定、およびデジタルメタゲノミクスライブラリー(「DML」)の創出、3)新規バイオインフォマティクス発見アプローチに基づく、DMLの問い合わせおよび目的のクラスターの同定、4)天然物分子表現型決定、5)in silicoおよび/またはウェットラボ天然物構造解明、ならびに必要に応じて6)化学的または生合成的アプローチによるアナログ化を含む、天然物発見ワークフローを教示する(例えば、図1~3を参照)。天然物発見プラットフォームのエレメントのそれぞれについて、下でより詳細に記述する。
デジタルメタゲノミクスライブラリー-序文
一部の実施形態では、本開示は、メタゲノムライブラリーからMGCを同定するための方法およびシステムを教示する。本開示はまた、MGC生物情報学検索に適しているメタゲノムライブラリーを生成するための方法およびシステムを教示する。
一部の実施形態では、本開示のMGC発見システムおよび方法は、メタゲノムライブラリーに、またはより具体的には、デジタルメタゲノミクスライブラリー(DML)に適用される。本開示の目的のため、メタゲノムライブラリーは、次の仕方で定義される:
1)無培養種のゲノムを含む物理的またはデジタル配列ライブラリー(例えば、介在する培養ステップなしの環境試料に由来するライブラリー)。一部の実施形態では、無培養種は、酵母、真菌、細菌、古細菌(archae)、原生生物、ウイルス、寄生生物または藻類種に由来する。無培養種は、任意の供給源、例えば、土壌、腸、水界生息地から得ることができる。一部の実施形態では、アセンブルされたライブラリー内の配列の大部分が、無培養生物に由来する場合、およびライブラリーが、他のサイズ限界を満たす場合、ライブラリーは、メタゲノミクスライブラリーと考慮される。一部の実施形態では、本開示の物理的および/またはデジタル配列ライブラリーは、それが抽出された環境試料を代表し、現存する小型(例えば、100種未満の生物)のアセンブリーの凝集ではない。環境試料から供給される配列を越えた、いかなる外因的に添加/スパイクされた配列も、本開示のライブラリーの外部と考慮することができる。
2)上のポイント1の定義を満たし、さらに、ライブラリー内の配列の大部分が無培養生物に由来する、物理的またはデジタル配列ライブラリー。一部の実施形態では、ライブラリーにおける生物の大部分が無培養である物理的ライブラリーを配列決定することにより産生される場合、デジタルメタゲノミクスライブラリーは、無培養生物由来の配列の大部分を含有すると考慮される。一部の実施形態では、配列決定に先立ちいずれの生物も培養されていない物理的ライブラリーを配列決定することにより産生される場合、デジタルメタゲノミクスライブラリーは、無培養生物由来の配列の大部分を含有すると考慮される。一部の実施形態では、アセンブルされたライブラリー内の配列の実質的に全てが、無培養生物に由来する場合、およびライブラリーが、他のサイズ限界を満たす場合、ライブラリーは、メタゲノミクスライブラリーと考慮される。この文脈で使用される場合、用語「実質的に全て」は、アセンブルされた配列の少なくとも90%が無培養生物に由来するライブラリーを指す。一部の実施形態では、ライブラリーにおける生物の実質的に全てが無培養である物理的ライブラリーを配列決定することにより産生される場合、デジタルメタゲノミクスライブラリーは、無培養生物由来のその配列の実質的に全てを含有すると考慮される。一部の実施形態では、配列決定に先立ちいずれの生物も培養されていない物理的ライブラリーを配列決定することにより産生される場合、デジタルメタゲノミクスライブラリーは、無培養生物由来の配列の実質的に全てを含有すると考慮される。
3)上のポイント1および/または2の定義を満たし、1つより多くの無培養種のゲノムをさらに含む、物理的またはデジタル配列ライブラリー。一部の実施形態では、メタゲノムライブラリーは、少なくとも100、500、1000、10、10、10、10種またはそれよりも多い無培養種のゲノムを含む。一部の実施形態では、デジタルメタゲノミクスライブラリーにおけるアセンブルされたゲノムの数は、DMLにおける総アセンブルされた配列を、ゲノムに存在すると予想される生物の種類のゲノムの平均サイズで割ることにより計算される。一部の実施形態では、デジタルメタゲノミクスライブラリーにおけるアセンブルされたゲノムの数は、DMLにおける特有の16s rRNA配列の数を計数することにより評価される。一部の実施形態では、デジタルメタゲノミクスライブラリーにおけるアセンブルされたゲノムの数は、DMLにおける特有の内部転写スペーサー(ITS)の数を計数することにより評価される。
4)上のポイント1~3のうち1種または複数の定義を満たし、デジタルメタゲノミクスライブラリーが、少なくとも約50Mb、60Mb、70Mb、80Mb、90Mb、100Mb、110Mb、120Mb、130Mb、140Mb、150Mb、160Mb、170Mb、180Mb、190Mb、200Mb、210Mb、220Mb、230Mb、240Mb、250Mb、260Mb、270Mb、280Mb、290Mb、300Mb、310Mb、320Mb、330Mb、340Mb、350Mb、360Mb、370Mb、380Mb、390Mb、400Mb、410Mb、420Mb、430Mb、440Mb、450Mb、460Mb、470Mb、480Mb、490Mb、500Mb、550Mb、600Mb、650Mb、700Mb、750Mb、800Mb、850Mb、900Mb、950Mb、1000Mb、1050Mb、1100Mb、1150Mb、1200Mb、1250Mb、1300Mb、1350Mbまたは1400Mbのサイズである、デジタル配列ライブラリー。アセンブルされた配列は、DMLにおける全てのコンティグの相加的な長さである。
5)上のポイント1~4のうち1種または複数の定義を満たし、少なくとも約10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb、30kb、31kb、32kb、33kb、34kb、35kbのN50をさらに含む、デジタル配列ライブラリー(すなわち、長いアセンブリーデジタルメタゲノムライブラリー)。
一部の実施形態では、メタゲノミクスは、環境試料からのDNAの直接的抽出を伴う。メタゲノムデータベースの別の利点は、所望の天然物をコードする可能性がある遺伝子を含む可能性がより高い生物を富化することができることである。例えば、抗真菌特性を有する天然物のためのMGCは、真菌感染によって定期的に曝露された微生物試料から産生されたメタゲノムデータベースにおいて富化され得る。ヒトの消化器健康に関連する天然物のためのMGCは、ヒトまたは動物の腸管から集められた微生物試料から産生されたメタゲノムデータベースにおいて富化され得る。よって、本開示の方法およびシステムは、メタゲノムデータベースにより利用できる配列の広い多様性から、および所望の最終使用のために斯かるデータベースを富化するための潜在性から利益を得る。
微小生物は、生態系の機能において必須の役割を果たし、定量的に十分に表される。土壌試料、食物試料または生物学的組織試料等の環境試料は、極めて多数の生物を含有し、結果的に、ゲノムデータの大型セットを生成することができる。例えば、消化、内分泌および免疫機能のモジュレーションのために細菌に頼る人体は、最大100兆個の生物を含有することができると推定される。加えて、1グラムの土壌が、培養可能および培養不能な細菌を含む、10~10個の間の細胞で、1,000~10,000種の間の異なる種の細菌を含有することができると推定される。メタゲノムDNAライブラリーにおいてこの多様性全体を再現することは、多数のクローンを生成および管理する能力を要求する。一部の実施形態では、メタゲノムデータベースは、取り込んだDNAによって互いに異なる、少なくとも1、数十、数十万またはさらには数百万種の組換えクローンを含むことができる。一部の実施形態では、それぞれの全体が参照により本明細書に組み込まれる米国特許第8,478,544号、同第10,227,585号および同第9,372,959号に記載されている通り、メタゲノムライブラリーは、メタゲノム断片から構築する、および/またはコンティグへとアセンブルすることができる。一部の実施形態では、メタゲノム配列は、全ゲノムへとアセンブルすることができる。一部の実施形態では、メタゲノムライブラリーは、微生物生合成経路の検索を容易にするために、平均サイズ(またはN50)のクローニングされたメタゲノム挿入物を含むように最適化することができるが、それは、これらの経路は、多くの場合、微小生物のゲノムにおけるクラスターにおいて組織化されるからである。クローニングされるDNA断片が大型になるほど(30Kbよりも大型)、解析されるべきクローンの数は限定されるようになり、完全代謝経路を再現する可能性は大きくなる。研究されるべき多数の組換えクローンを考慮すると、細菌群集の特徴付けのため等、高密度ハイブリダイゼーションシステム(高密度膜またはDNAチップ)を用いることができる(概説については、参照により本明細書に組み込まれるZhou et al., Curr. Opin. Microbial. 2003;6:288-294を参照)。
当業者であれば、DNA、RNAおよびタンパク質配列の間の関係性に気づき、よって、DNA配列データを容易に変換して、RNAまたはタンパク質情報によるメタゲノムライブラリーを創出することができるであろう。一部の実施形態では、本開示のメタゲノムライブラリーは、細胞集団から得られるDNA配列を含む。よって、一部の実施形態では、メタゲノムライブラリーは、直接的なDNA配列決定から得られる情報を含む。一部の実施形態では、メタゲノムライブラリーは、直接的に測定されたか、またはDNA配列に基づき予測される、転写されたRNAを含む。よって、一部の実施形態では、メタゲノムライブラリーは、siRNA、miRNA、rRNAおよびアプタマーについて検索することができる。一部の実施形態では、メタゲノムライブラリーは、測定されたか、または測定されたDNA配列に基づき予測される、アミノ酸タンパク質配列データを含む。例えば、メタゲノムライブラリーは、本開示に記載されている機械学習モデルにアクセス可能な、予測されるまたは検証されたタンパク質配列のリストを含むことができる。
一部の実施形態では、本開示のMGC発見システムおよび方法は、環境試料由来のアセンブルされた配列ライブラリー(「環境ライブラリー」または「EL」)に適用される。一部の実施形態では、Elは、直接的に配列決定された(よって、メタゲノム試料となり得る)か、または少なくとも1回の培養ステップを経た(例えば、1種または複数種の生物を富化するために)環境DNA試料の徹底的に(すなわち、少なくとも10×カバレッジ)配列決定されたアセンブリーである。一部の実施形態では、本開示のELは、本開示のMGC発見方法およびシステムによりその機能を改善する次の特性を含むであろう:
1)ELは、少なくとも約50Mb、60Mb、70Mb、80Mb、90Mb、100Mb、110Mb、120Mb、130Mb、140Mb、150Mb、160Mb、170Mb、180Mb、190Mb、200Mb、210Mb、220Mb、230Mb、240Mb、250Mb、260Mb、270Mb、280Mb、290Mb、300Mb、310Mb、320Mb、330Mb、340Mb、350Mb、360Mb、370Mb、380Mb、390Mb、400Mb、410Mb、420Mb、430Mb、440Mb、450Mb、460Mb、470Mb、480Mb、490Mb、500Mbのサイズである、デジタル処理でアセンブルされた配列ライブラリーを含む。アセンブルされた配列は、Elにおける全てのコンティグの相加的な長さである。
2)ELは、上のポイントELのポイント1の定義を満たし、少なくとも約10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb、30kb、31kb、32kb、33kb、34kb、35kbのN50をさらに含む(すなわち、長いアセンブリーデジタル環境ライブラリー)。
本文書のその後のセクションは、本開示の方法において使用される環境ライブラリーおよびメタゲノムライブラリーを調製する方法を教示する。メタゲノムライブラリーを調製するための下に記述される方法も、環境ライブラリーに適用する。例えば、一部の実施形態では、本開示の環境ライブラリーは、やはり環境試料から抽出され、配列決定に先立ちプールへとサイロ貯蔵(silo)され、必要に応じて、下に記述される2つのステージにおいてアセンブルされ得る。さらに、本文書で記述されるデジタル検索ワークフローの全ては、Elに適用することもできる。すなわち、本明細書において下に記述される方法におけるDMLの使用についてのあらゆる参照を、ELという用語に置き換えることができる。本段落は、単に、培養された生物を含有し得るライブラリーへの、本明細書にて開示される方法の適用性を記しているにすぎないが、上に定義されている通り、真のメタゲノムライブラリーの利益と矛盾するものではない。
メタゲノムライブラリー創出-DNA抽出
メタゲノムライブラリーを産生することにおける最初のステップは、目的のメタゲノム試料(例えば、土壌、川の水、腸内糞便)からDNAを抽出することである。当業者であれば、DNA抽出方法を熟知しているであろう。メタゲノム試料からの配列決定適用に最適化された、多くの商業的DNA抽出キットが存在する。例えば、MP Biomedicals(登録商標)は、土壌試料からのDNA抽出のためのFastDNA(商標)スピンキットを販売する。他の公知の技法が、当技術分野で開示される(Shamim K, Sharma J, Dubey SK. Rapid and efficient method to extract metagenomics DNA from estuarine sediments. 3 Biotech. 2017;7(3):182;また、Bag, S., Saha, B., Mehta, O. et al. An Improved Method for High Quality Metagenomics DNA Extraction from Human and Environmental Samples. Sci Rep 6, 26775 (2016);およびAhmadi, E., Kowsari, M., Azadfar, D. et al. Annals of Forest Science (2018) 75: 43も参照)。
一部の実施形態では、本開示は、a)金網を用いて土壌試料から非土壌デブリを除去するステップと、b)300mLのCTABに基づく溶解緩衝剤(100mM Tris-HCl、100mM EDTA、1.5M NaCl、1%(w/v)CTAB、2%(w/v)SDS、pH8.0)を添加し、続いて、混合するために一貫して反転しつつ、70℃で2時間インキュベーションすることにより、結果として生じる土壌からDNAを抽出するステップと、c)4,000gで20分間4℃にて試料を遠心分離し、上清を清潔なボトルに移し、その後、4,000gで20分間4℃にて2回目の遠心分離をするステップと、d)ライセートを新たなボトルに移し、0.7体積のイソプロパノールを添加し、30分間穏やかに混合するステップと、e)4,000gで30分間、4℃での2ラウンドの遠心分離により、沈殿したDNAをペレットにし、1回目と2回目の遠心分離の間に70%エタノールで洗浄するステップと、f)上清を除去し、ペレットを乾かすステップと、g)ペレットを10mLのTE緩衝剤に再懸濁するステップとを含む、土壌メタゲノムDNA抽出のためのプロトコールを教示する。抽出されたDNAは、必要に応じて、分光光度計によって定量化し、さらなる加工のために保存することができる。当業者であれば、環境試料からDNAを抽出するための多くの他の方法を熟知しているであろう(例えば、Bag, S., Saha, B., Mehta, O. et al. An Improved Method for High Quality Metagenomics DNA Extraction from Human and Environmental Samples. Sci Rep 6, 26775 (2016);Porteous, L.A. et al. An effective method to extract DNA from environmental samples for polymerase chain reaction amplification and DNA fingerprint analysis. Current Microbiology 29, 301-307 (1994);C. Marotz et al., DNA extraction for streamlined metagenomics of diverse environmental samples. Biotechniques Vol. 62 NO. 6;R. Kuhn et al. Comparison of ten different DNA extraction procedures with respect to their suitability for environmental samples. Journal of Microbiological Methods, Volume 143, 2017, Pages 78-86;K. Fitzpatrick et al. Practical Method for Extraction of PCR-Quality DNA from Environmental Soil Samples. Applied and Environmental Microbiology Jun 2010, 76(13)4571-4573を参照)。
メタゲノムライブラリー創出-サイズ選択およびコスミドパッケージング
メタゲノムライブラリーを産生することにおける次のステップは、抽出されたDNAの大型断片を組換えDNAベクターにクローニングし、結果として生じる組換えプラスミドを貯蔵および繁殖のために微生物宿主に形質導入することである。加えて、クローニングされたDNAを使用して、抽出されたDNAを配列決定のために調製することができる。当業者であれば、様々な次世代配列決定プラットフォームのためにDNAを加工するための多くの方法を熟知しているであろう。しかし、一部の実施形態では、本開示は、DNA試料をプールして、下流ゲノムアセンブリーの複雑性を低下させる特異的な方法を教示する。
一部の実施形態では、DNA試料は、コスミドベクター骨格にクローニングされ、ファージによってパッケージングされ、E.coli細胞へと形質導入されて、抽出されたDNAの物理的コピーを増幅および創出する。一部の実施形態では、メタゲノム試料から抽出されたDNAは、初期サイズ分画ステップのために、アガロースゲルにロードされ、泳動される。一部の実施形態では、35~45kb前後であるDNAが切り出され、さらなる加工のためにアガロースゲルから溶出される。一部の実施形態では、特に、ファージパッケージング技法が、所望のサイズの挿入物を選択的にパッケージングする場合(例えば、Agilent(登録商標)によるGigapack III XL(商標)を使用することにより)、サイズ分画は必要ない。
一部の実施形態では、次いで、DNAは、増幅のためにファージにおけるコスミドへとパッケージングされる。一部の実施形態では、コスミドへのDNAのパッケージングは、次の一般ステップを含む:(1)2個のcos部位の間への外来性DNAのライゲーション;(2)コンカテマーDNAの作製;(3)ファージ頭部にDNAを導入して、成熟ファージ粒子を形成するための、in vitroパッケージング;および(4)形質導入によるクローニングされたDNAのE.coliへの導入。当業者であれば、様々なコスミド産生および増幅技法を熟知しているであろう。ファージパッケージングのための商業的キットの非限定的なリストは、MaxPlax(商標)Lambda Packaging Extracts Kit、Gigapack III Gold(商標)、Gigapack III Plus(商標)、Gigapack III XL(商標)、Packagene(登録商標)を含む。
一部の実施形態では、本開示は、ラムダファージパッケージングのためのプロトコールであって、a)抽出されたDNAをEnd-It DNA End-Repairキット(Lucigen、ER0720)により加工して、平滑断端DNAを産生するステップと、b)T4リガーゼを使用して、250ngの結果として生じる平滑断端DNAを500ngの平滑断端コスミドベクター中にライゲーションするステップと、c)製造業者の使用説明書に従ってMaxPlax(商標)パッケージングキットを使用して、結果として生じるコスミドをファージ中にパッケージングするステップとを含むプロトコールを教示する。
メタゲノムライブラリー創出-サイロプーリング
上に記述されている通り、配列決定されたメタゲノムライブラリーへ生物情報学MGC発見ツールを適用することにおける主要課題は、複雑な環境DNA試料由来の長い配列をアセンブルすることができないことである。本開示は、先行技術の問題点を解決し、in silico多重遺伝子クラスター発見に適しているデジタルメタゲノミクスライブラリーを産生する、ライブラリー調製およびアセンブリーステップにおける複雑性低下方法を教示する。
次世代配列決定プロトコールが、試料をプールするステップを含むことは珍しいことではない。配列決定前の試料のプーリングは、典型的に、コストを低下させ、シーケンサーを効率的に活用するために行われ、これは多くの場合、単一の試料よりもをはるかに多く配列決定することができる。細菌ゲノムの平均サイズは、例えば、約3.65Mbである(diCenzo GC, Finan TM. 2017. The divided bacterial genome: structure, function, and evolution. Microbiol Mol Biol Rev 81:e00019-17を参照)。他方では、IlluminaのNovaSeq 6000(商標)配列決定機械は、1ラン当たり320億~400億個の間の塩基を配列決定することができる(すなわち、平均細菌ゲノムの約10,000×とほぼ等価)。この型の意図的な試料のプーリングは、典型的に、ゲノムアセンブリーを始める前に、コンピューターが、結果として生じる配列を、各個々の(予め混合された)試料に対応するファイルへと選別することを可能にする、バーコード化技術の使用に頼る。
メタゲノムDNA試料は、本来の材料試料(例えば、土壌)中に存在する数百~数百万種の微生物のゲノムを含む、大規模な、非自発的な(involuntary)かつマークされていないDNAプールを表す。ゲノムは予め混合されていたため、メタゲノムNGS由来の結果として生じる配列は、リードを、それが属する生物に従って予め選別する能力を用いずにアセンブルしなければならない。
一部の実施形態では、本開示は、複雑性を減少させ、アセンブリーを改善するための、メタゲノム試料のサイロプーリングの方法を教示する。一部の実施形態では、メタゲノムDNA試料由来のDNAコスミドは、E.coliライブラリー内で加工および貯蔵される。E.coliライブラリー内の各コロニーは、約35~40kbの長さの1個のコスミドを含む。一部の実施形態では、メタゲノムライブラリーのゲノムを個々のコスミドへと分解することにより、斯かる断片のアセンブリー困難が低下される。これは、ライブラリーを個々のコスミドへと先ず分離することなく、直ちに全ゲノムを配列決定する一部の伝統的アプローチと対比される。
多くの伝統的な配列決定プロトコールは、ショットガン配列決定のための、単一の試料への全ゲノムで構成されるメタゲノム環境DNAの抽出を教示する(例えば、単一のプールへとメタゲノムライブラリー内の全てのクローンを組み合わせる)。本明細書にて開示されるアプローチは、MGC発見に十分な品質のアセンブリーを依然として産生しながら、シーケンサーの使用を最大化するサイズの複数の小型のプールを産生するという点において、これらの伝統的アプローチとは異なる。
具体的には、一部の実施形態では、本明細書にて開示される方法は、1)コスミドへのゲノムの断片のクローニングと、2)複数の配列決定サイロへの、コスミドを含有する限られた数のE.coliコロニーの選択的なプーリングを教示する(図2のステップ1および図14を参照)。結果として生じる配列決定サイロは、限られた数の全長コスミドを含み、よって、その後のアセンブリーの複雑性を低下させる。下でより詳細に記述する通り、サイロプーリング方法は、全ゲノムまたは数百/数千種のゲノムに対応する2000万種のコスミドを並行してアセンブルするものから、アセンブリーが数千種のコスミドのみに集中するものへと問題を低下させる。
いくつかの刊行物が、バーコード化または全ゲノム配列決定の代替として、少数のクローンのプーリングを以前に開示した(Dzunkova M, D’Auria G, Perez-Villarroya D, Moya A (2012) Hybrid Sequencing Approach Applied to Human Fecal Metagenomic Clone Libraries Revealed Clones with Potential Biotechnological Applications. PLoS One 7: e47654.;Wang L, Hatem A, Catalyurek UV, Morrison M, Yu Z (2013) Metagenomic Insights into the Carbohydrate-Active Enzymes Carried by the Microorganisms Adhering to Solid Digesta in the Rumen of Cows. PloS One 8: e78507).)。例えば、Lam et al. 2013は、環境試料に由来する92個の明確に異なるクローンのプーリングを開示した(Lam KN, Hall MW, Engel K, Vey G, Cheng J, et al. (2014) Evaluation of a Pooled Strategy for High-Throughput Sequencing of Cosmid Clones from Metagenomic Libraries. PloS ONE 9(6): e98968. Doi:10.1371/journal.pone.0098968)。しかし、Lamらにおける実験は、およそ900倍リード深度および>100倍被覆度まで配列決定された少数の予めスクリーニングされたクローンに限定された。この極端に高レベルの配列決定にもかかわらず、Lamは、92個の本来のクローンのうち77個についての参照コンティグの回収のみを報告した。よって、Lamらの結果は、本明細書にて開示される通り、3,000~14,000個のコスミドのサイロプーリングからデジタルメタゲノムライブラリーを産生することのいかなる成功予想も提供しなかった。
本発明は、一部には、5~20kコスミド、10~15kコスミドまたは12~12kコスミドの間のサイロのプールを創出することにより、環境ライブラリーまたはメタゲノムライブラリー由来のライブラリー等の大型の物理的ライブラリーを、MGC発見のために創出し、配列決定し、アセンブルに成功することができるという出願人の予想外の発見に基づく。本出願に記載されている研究は、本開示の方法に従って、MGC発見に適しているデジタル環境またはメタゲノムライブラリーを依然として産生しながら、プールすることができるコスミドの数を実証する。例えば、図21Aは、10×被覆度の配列決定において、少なくとも15kbのN50(MGCの最適な発見を可能にするように決定)を有するライブラリーを依然として生成しながら、約30,000個のコスミドをプールすることが可能であることを実証する。図21Cは、サイロの最適なプーリングへのさらなる洞察を提供する。多くすぎるコスミドのプーリングは、アセンブリーステージにおいて困難を生じ、ライブラリーにおける15kbのアセンブルされたコンティグの数およびアセンブリーの全体的な効率を低下させる。少なすぎるコスミドのプーリングは、シーケンサーの非効率的な使用をもたらし、より少ない総配列、よって、より少ないアセンブルされた15+kbのアセンブルされたコンティグをもたらす。
一部の実施形態では、結果として生じる配列決定サイロのそれぞれは、3,000~35,000個の間のコスミドを含む。一部の実施形態では、各配列決定サイロは、3,000、3,100、3,200、3,300、3,400、3,500、3,600、3,700、3,800、3,900、4,000、4,100、4,200、4,300、4,400、4,500、4,600、4,700、4,800、4,900、5,000、5,100、5,200、5,300、5,400、5,500、5,600、5,700、5,800、5,900、6,000、6,100、6,200、6,300、6,400、6,500、6,600、6,700、6,800、6,900、7,000、7,100、7,200、7,300、7,400、7,500、7,600、7,700、7,800、7,900、8,000、8,100、8,200、8,300、8,400、8,500、8,600、8,700、8,800、8,900、9,000、9,100、9,200、9,300、9,400、9,500、9,600、9,700、9,800、9,900、10,000、10,100、10,200、10,300、10,400、10,500、10,600、10,700、10,800、10,900、11,000、11,100、11,200、11,300、11,400、11,500、11,600、11,700、11,800、11,900、12,000、12,100、12,200、12,300、12,400、12,500、12,600、12,700、12,800、12,900、13,000、13,100、13,200、13,300、13,400、13,500、13,600、13,700、13,800、13,900、14,000、15,000、16,000、17,000、18,000、19,000、20,000、21,000、22,000、23,000、24,000、25,000、26,000、27,000、28,000、29,000、30,000、31,000、32,000、33,000、34,000または35,000個のコスミド(それらの間の全ての範囲および部分的範囲を含む)を含む。一部の実施形態では、結果として生じる配列決定サイロのそれぞれは、6,000~10,000個の間のコスミドを含む。一部の実施形態では、サイロプールは、配列決定被覆度に伴い変動する。一部の実施形態では、サイロプールのサイズは、図21A~Cにおいて定義される曲線に従って定義される。
一部の実施形態では、各配列決定サイロは、総計1億500万~14億塩基(Mb)の間の長さに及ぶDNAを含む。一部の実施形態では、各配列決定サイロは、総計100Mb、101Mb、102Mb、103Mb、104Mb、105Mb、106Mb、107Mb、108Mb、109Mb、110Mb、111Mb、112Mb、113Mb、114Mb、115Mb、116Mb、117Mb、118Mb、119Mb、120Mb、121Mb、122Mb、123Mb、124Mb、125Mb、126Mb、127Mb、128Mb、129Mb、130Mb、131Mb、132Mb、133Mb、134Mb、135Mb、136Mb、137Mb、138Mb、139Mb、140Mb、141Mb、142Mb、143Mb、144Mb、145Mb、146Mb、147Mb、148Mb、149Mb、150Mb、151Mb、152Mb、153Mb、154Mb、155Mb、156Mb、157Mb、158Mb、159Mb、160Mb、161Mb、162Mb、163Mb、164Mb、165Mb、166Mb、167Mb、168Mb、169Mb、170Mb、171Mb、172Mb、173Mb、174Mb、175Mb、176Mb、177Mb、178Mb、179Mb、180Mb、181Mb、182Mb、183Mb、184Mb、185Mb、186Mb、187Mb、188Mb、189Mb、190Mb、191Mb、192Mb、193Mb、194Mb、195Mb、196Mb、197Mb、198Mb、199Mb、200Mb、201Mb、202Mb、203Mb、204Mb、205Mb、206Mb、207Mb、208Mb、209Mb、210Mb、211Mb、212Mb、213Mb、214Mb、215Mb、216Mb、217Mb、218Mb、219Mb、220Mb、221Mb、222Mb、223Mb、224Mb、225Mb、226Mb、227Mb、228Mb、229Mb、230Mb、231Mb、232Mb、233Mb、234Mb、235Mb、236Mb、237Mb、238Mb、239Mb、240Mb、241Mb、242Mb、243Mb、244Mb、245Mb、246Mb、247Mb、248Mb、249Mb、250Mb、251Mb、252Mb、253Mb、254Mb、255Mb、256Mb、257Mb、258Mb、259Mb、260Mb、261Mb、262Mb、263Mb、264Mb、265Mb、266Mb、267Mb、268Mb、269Mb、270Mb、271Mb、272Mb、273Mb、274Mb、275Mb、276Mb、277Mb、278Mb、279Mb、280Mb、281Mb、282Mb、283Mb、284Mb、285Mb、286Mb、287Mb、288Mb、289Mb、290Mb、291Mb、292Mb、293Mb、294Mb、295Mb、296Mb、297Mb、298Mb、299Mb、300Mb、301Mb、302Mb、303Mb、304Mb、305Mb、306Mb、307Mb、308Mb、309Mb、310Mb、311Mb、312Mb、313Mb、314Mb、315Mb、316Mb、317Mb、318Mb、319Mb、320Mb、321Mb、322Mb、323Mb、324Mb、325Mb、326Mb、327Mb、328Mb、329Mb、330Mb、331Mb、332Mb、333Mb、334Mb、335Mb、336Mb、337Mb、338Mb、339Mb、340Mb、341Mb、342Mb、343Mb、344Mb、345Mb、346Mb、347Mb、348Mb、349Mb、350Mb、351Mb、352Mb、353Mb、354Mb、355Mb、356Mb、357Mb、358Mb、359Mb、360Mb、361Mb、362Mb、363Mb、364Mb、365Mb、366Mb、367Mb、368Mb、369Mb、370Mb、371Mb、372Mb、373Mb、374Mb、375Mb、376Mb、377Mb、378Mb、379Mb、380Mb、381Mb、382Mb、383Mb、384Mb、385Mb、386Mb、387Mb、388Mb、389Mb、390Mb、391Mb、392Mb、393Mb、394Mb、395Mb、396Mb、397Mb、398Mb、399Mb、400Mb、401Mb、402Mb、403Mb、404Mb、405Mb、406Mb、407Mb、408Mb、409Mb、410Mb、411Mb、412Mb、413Mb、414Mb、415Mb、416Mb、417Mb、418Mb、419Mb、420Mb、421Mb、422Mb、423Mb、424Mb、425Mb、426Mb、427Mb、428Mb、429Mb、430Mb、431Mb、432Mb、433Mb、434Mb、435Mb、436Mb、437Mb、438Mb、439Mb、440Mb、441Mb、442Mb、443Mb、444Mb、445Mb、446Mb、447Mb、448Mb、449Mb、450Mb、451Mb、452Mb、453Mb、454Mb、455Mb、456Mb、457Mb、458Mb、459Mb、460Mb、461Mb、462Mb、463Mb、464Mb、465Mb、466Mb、467Mb、468Mb、469Mb、470Mb、471Mb、472Mb、473Mb、474Mb、475Mb、476Mb、477Mb、478Mb、479Mb、480Mb、481Mb、482Mb、483Mb、484Mb、485Mb、486Mb、487Mb、488Mb、489Mb、490Mb、491Mb、492Mb、493Mb、494Mb、495Mb、496Mb、497Mb、498Mb、499Mb、500Mb、505Mb、510Mb、515Mb、520Mb、525Mb、530Mb、535Mb、540Mb、545Mb、550Mb、555Mb、560Mb、565Mb、570Mb、575Mb、580Mb、585Mb、590Mb、595Mb、600Mb、605Mb、610Mb、615Mb、620Mb、625Mb、630Mb、635Mb、640Mb、645Mb、650Mb、655Mb、660Mb、665Mb、670Mb、675Mb、680Mb、685Mb、690Mb、695Mb、700Mb、705Mb、710Mb、715Mb、720Mb、725Mb、730Mb、735Mb、740Mb、745Mb、750Mb、755Mb、760Mb、765Mb、770Mb、775Mb、780Mb、785Mb、790Mb、795Mb、800Mb、805Mb、810Mb、815Mb、820Mb、825Mb、830Mb、835Mb、840Mb、845Mb、850Mb、855Mb、860Mb、865Mb、870Mb、875Mb、880Mb、885Mb、890Mb、895Mb、900Mb、905Mb、910Mb、915Mb、920Mb、925Mb、930Mb、935Mb、940Mb、945Mb、950Mb、955Mb、960Mb、965Mb、970Mb、975Mb、980Mb、985Mb、990Mb、995Mb、1000Mb、1005Mb、1010Mb、1015Mb、1020Mb、1025Mb、1030Mb、1035Mb、1040Mb、1045Mb、1050Mb、1055Mb、1060Mb、1065Mb、1070Mb、1075Mb、1080Mb、1085Mb、1090Mb、1095Mb、1100Mb、1105Mb、1110Mb、1115Mb、1120Mb、1125Mb、1130Mb、1135Mb、1140Mb、1145Mb、1150Mb、1155Mb、1160Mb、1165Mb、1170Mb、1175Mb、1180Mb、1185Mb、1190Mb、1195Mb、1200Mb、1205Mb、1210Mb、1215Mb、1220Mb、1225Mb、1230Mb、1235Mb、1240Mb、1245Mb、1250Mb、1255Mb、1260Mb、1265Mb、1270Mb、1275Mb、1280Mb、1285Mb、1290Mb、1295Mb、1300Mb、1305Mb、1310Mb、1315Mb、1320Mb、1325Mb、1330Mb、1335Mb、1340Mb、1345Mb、1350Mb、1355Mb、1360Mb、1365Mb、1370Mb、1375Mb、1380Mb、1385Mb、1390Mb、1395Mbまたは1400Mbの長さに及ぶDNA(それらの間の全ての範囲および部分的範囲を含む)を含む。
メタゲノムライブラリー創出-バーコード化によるサイロプーリング
当業者であれば、上に記載されている物理的サイロプーリングを、バーコード化技術の使用により、様々な程度で再現、補充および/または拡張することができることを認識するであろう。一般的に、タグ、インデックス化配列または識別子コードとも称されるDNAバーコードは、同定目的で核酸分子に取り込まれる特異的配列を含む。バーコードを使用して、個々の核酸分子または核酸分子の群を同定することができる。
一部の実施形態では、本開示は、メタゲノムライブラリー由来のDNAをサイロプールするためにバーコードを使用することを教示する。例えば、本開示は、配列決定に先立ち、個々でのまたは群でのE.coliコロニー由来のコスミドのバーコード化を企図する。よって、一部の実施形態では、本開示の方法は、NGSのために個々のコスミドを加工およびバーコード化するステップを含む。
一部の実施形態では、本開示は、現存する配列決定サイロの複雑性をさらに低下させるためのバーコードの伝統的な使用を教示する。よって、一部の実施形態では、本開示は、個々のコスミドのバーコード化を教示する。
バーコードが、全コスミドに適用されないが、その代わりに、配列決定サイロ(上に記載されている通り)における加工された配列に、またはミニサイロプールにおける加工された配列に付加され、次いでこれを配列決定サイロへとさらにプールすることができるという点において、本開示のある特定のバーコード化実施形態は、伝統的なバーコード使用とは異なる。
一部の実施形態では、本開示は、NGSのために複数のコスミドがプールおよび加工された、ミニサイロプールを創出することを教示する。一部の実施形態では、各ミニサイロは、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、1,900、2,000、2,100、2,200、2,300、2,400、2,500、2,600、2,700、2,800、2,900、3,000、3,100、3,200、3,300、3,400、3,500、3,600、3,700、3,800、3,900、4,000、4,100、4,200、4,300、4,400、4,500、4,600、4,700、4,800、4,900、5,000、5,100、5,200、5,300、5,400、5,500、5,600、5,700、5,800、5,900、6,000、6,500、7,000、7,500、8,000、8,500、9,000、9,500、10,000、10,500、11,000、11,500、12,000、12,500、13,000、13,500、14,000、14,500、15,000、15,500、16,000、16,500、17,000、17,500、18,000、18,500、19,000、19,500、20,000、20,500、21,000、21,500、22,000、22,500、23,000、23,500、24,000、24,500、25,000、25,500、26,000、26,500、27,000、27,500、28,000、28,500、29,000、29,500、30,000、30,500、31,000、31,500、32,000、32,500、33,000、33,500、34,000、34,500、35,000個のコスミド(それらの間の任意の範囲および部分的範囲を含む)を含む。
一部の実施形態では、プーリングが起こった後に、かつ、各サイロ内の配列が次世代配列決定のために断片サイズへと断片化された後に、バーコードは、ミニサイロプールに付加される。次いで、バーコード化されたミニサイロプールは、シーケンサーにかける前に、より広範な配列決定プールへとさらに組み合わせることができる。
一部の実施形態では、個々にバーコード化された配列は、他のバーコード化された試料と一緒に配列決定される。次いで、バーコード化されたリードは、公知の技法により選別(例えば、逆多重化)し、その対応する群に割り当てることができる(例えば、図4を参照)。
バーコードは、特定の核酸配列を選択することに基づき生成することができる。例えば、Illumina(商標)配列決定は、48種の異なるバーコードを有効に生成するために6塩基を利用することができる。Ion Torrentシーケンサー(例えば、Ion Proton(商標)シーケンサーまたはIon PGM(商標)シーケンサー)は、16種のバーコードを生成するために6塩基を利用することができる。一部の実施形態では、配列決定の際に2個のエラーが発生したとしても別々のバーコードが正確に同定されることを可能にする、バーコードの生成に法則を適用することができる。バーコード化は、例えば、米国特許第7,902,122号および米国特許出願公開第2009/0098555号に記載されている。例えばPCRによる、プライマー伸長によるバーコード取込みは、米国特許第5,935,793号またはUS2010/0227329に記載されている方法を使用して行うことができる。一部の実施形態では、バーコードは、続いて増幅を行うことができるライゲーションを使用することにより、核酸に取り込むことができる;例えば、米国特許第5,858,656号、同第6,261,782号、米国特許出願公開第2011/0319290号または米国特許出願公開第2012/0028814号に記載されている方法は、本発明と共に使用することができる。一部の実施形態では、例えば、米国特許出願公開第2007/0020640号、米国特許出願公開第2009/0068645号、米国特許出願公開第2010/0273219号、米国特許出願公開第2011/0015096号または米国特許出願公開第2011/0257031号に記載されている通り、1種または複数のバーコードを使用することができる。
当業者であれば、上に記載されている通り、サイロプールの核酸配列決定を、合成長リード技術の使用により再現および/または潜在的に改善することができることを認識するであろう。一部の実施形態では、本開示の方法は、あらゆる目的のためにこれにより参照により本明細書に組み込まれる、US2018/0119203、US2019/0241933、US9,715,573、US10,457,934およびUS10,526,641に開示される技術等の「クロマチン捕捉」技術と組み合わせることができる。一部の実施形態では、試料のバーコード化および/またはクロマチン(chromatic)捕捉は、当業者にとって公知の商業的に利用できるロボット工学(例えば、Tecan等の液体ハンドラー)により、または本文書に記載されている他の仕方で自動化することができる。
バーコードの正確なインプリメンテーションにもかかわらず、結果として生じるデジタルアセンブルされたライブラリーは、依然として、上に記述されているデジタルライブラリーの限界を満たすべきである。一部の実施形態では、バーコードにより創出されたデジタル環境またはメタゲノムライブラリーは、少なくとも10kb、11kb、12kb、13kb、14kbまたは15kbのN50を示すべきである。
メタゲノムライブラリー創出-ライブラリーの配置
一部の実施形態では、本開示は、多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーの物理的(DNAストック)コピーを創出する方法を教示する。一部の実施形態では、物理的ライブラリーコピーは、デジタル処理で記憶されたアセンブルされた配列の生物学的バックアップコピーを提供する。一部の実施形態では、物理的ライブラリーを使用して、1個または複数のサイロプールまたはバーコード群のさらなる配列決定を遂行して、配列決定されたライブラリーを増強することができる(例えば、データベースの1個または複数の部分のための配列被覆度を増加させることにより)。
一部の実施形態では、物理的ライブラリーは、本開示のシステムおよび方法により同定されたMGCをクローニングおよび研究するための機構を提供する。すなわち、一部の実施形態では、多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリー内の各配列は、関連しているDNAにアクセスすることができる、物理的ライブラリー内の位置に関連する。
よって、一部の実施形態では、上述の方法によって生成されたコスミドサイロプールは、コスミドを含むE.coliのグリセロールストックにおいて貯蔵される。一部の実施形態では、上述の方法によって生成されたコスミドサイロプールは、単離されたDNAストックとして貯蔵される。一部の実施形態では、上述の方法によって生成されたコスミドサイロプールは、プールされたコスミドを含む微小生物のグリセロールストックとして貯蔵される。一部の実施形態では、物理的ライブラリーは、より容易な貯蔵およびアクセスのために96ウェルフォーマットにおいて貯蔵される(図2のステップ1および図16を参照)。これらの物理的ライブラリーは、その配列の供給源に応じて、「メタゲノム物理的ライブラリー」または「環境物理的ライブラリー」と本明細書において称される。
デジタルメタゲノミクスライブラリーを産生する方法-ライブラリープレップおよび配列決定
一部の実施形態では、上で生成された結果として生じるサイロプール(またはコスミドまたはミニサイロプール)は、配列決定のために個々に調製される。DNAから配列決定ライブラリーを作製するための多数のキットが、種々のベンダーから市販されている。キットは、マイクログラムからピコグラムに至る分量の出発材料からライブラリーを作製するために利用できる。しかし、より多い分量の出発材料は、より少ない増幅を要求し、よって、ライブラリー複雑性をより良くすることができる。
IlluminaのNexteraプレップを除いて、ライブラリー調製は一般に、(i)断片化、(ii)末端修復、(iii)5’プライム末端のリン酸化、(iv)配列決定アダプター(adapter)へのライゲーションを容易にするするための3’末端のAテイル付加(tailing)、(v)アダプターのライゲーション、および(vi)必要に応じて、両末端にライゲーションされたアダプターを有する産物を富化するための数回のPCRサイクルを必要とする。Ion Torrentワークフローにおける主要な差は、異なるアダプター配列への平滑断端ライゲーションの使用である。
マルチプレックス化を容易にするために、各試料により異なるバーコード化されたアダプターを使用することができる。あるいは、異なるバーコード化されたPCRプライマーを使用することにより、PCR増幅ステップにおいてバーコードを導入して、異なる試料を増幅することができる。バーコード化されたアダプターおよびPCRプライマーを有する高品質試薬は、多くのベンダーからのキットにおいて容易に利用できる。しかし、DNAライブラリー構築の構成成分の全ては現在、アダプターから酵素まで、十分に考証されており、「自家製」ライブラリー調製キットへと容易にアセンブルすることができる。
代替方法は、トランスポザーゼ酵素を使用して、「タグメンテーション」と命名とされる単一管内での反応においてDNAを同時に断片化およびタグ付けすることによりゲノムDNAライブラリーを調製する、Nextera DNA試料プレップキット(Illumina)である。操作された酵素は、デュアル活性を有する;酵素は、DNAを断片化し、同時に、断片の両末端に特異的アダプターを付加する。これらのアダプター配列は、PCRにより挿入物DNAを増幅するために使用される。PCR反応は、インデックス(バーコード)配列も付加する。調製手順は、単一のステップへとDNA断片化、末端修復およびアダプター(adaptor)ライゲーションを組み合わせることにより、伝統的なプロトコールを改善する。このプロトコールは、機械的断片化方法と比較して、DNA入力の量に対して非常に高感度である。適切な距離によって分離された転位事象を得るために、トランスポザーゼ複合体の試料DNAに対する比が重要となり得る。断片サイズもまた、反応効率に依存するため、温度および反応時間等の全ての反応パラメーターが、最適な結果のために厳密に制御されるべきである。
蛍光に基づく配列決定方法論を含む、いくつかのDNA配列決定技法が当技術分野で公知である(例えば、Birren et al., Genome Analysis Analyzing DNA, 1, Cold Spring Harbor, N.Y. を参照)。一部の実施形態では、当技術分野で理解される自動配列決定技法が利用される。一部の実施形態では、区分化されたアンプリコンの並列配列決定を利用することができる(PCT公開第WO2006084132)。一部の実施形態では、DNA配列決定は、並列オリゴヌクレオチド伸長によって達成される(例えば、米国特許第5,750,341号;同第6,306,597号を参照)。配列決定技法の追加的な例は、チャーチポロニー(Church polony)技術(Mitra et al., 2003, Analytical Biochemistry 320, 55-65;Shendure et al., 2005 Science 309, 1728-1732;米国特許第6,432,360号、同第6,485,944号、同第6,511,803号)、454ピコタイター(picotiter)パイロシークエンシング技術(Margulies et al., 2005 Nature 437, 376-380;US20050130173)、Solexa単一塩基付加技術(Bennett et al., 2005, Pharmacogenomics, 6, 373-382;米国特許第6,787,308号;同第6,833,246号)、Lynx超並列シグネチャー配列決定技術(Brenner et al. (2000). Nat. Biotechnol. 18:630-634;米国特許第5,695,934号;同第5,714,330号)およびAdessi PCRコロニー技術(Adessi et al. (2000). Nucleic Acid Res. 28, E87;WO00018957)を含む。
次世代配列決定(NGS)方法は、旧式の配列決定方法と比較してより低いコストの目標により、超並列ハイスループット戦略の一般的な特色を共有する(例えば、Voelkerding et al., Clinical Chem., 55: 641-658, 2009;MacLean et al, Nature Rev. Microbiol, 7-287-296を参照;これらの全体が、それぞれ参照により本明細書に組み込まれる)。NGS方法は、鋳型増幅を典型的に使用する方法と、そうでない方法へと広範に分けることができる。増幅を要求する方法は、Rocheによって454技術プラットフォームとして商業化されたパイロシークエンシング(例えば、GS 20およびGS FLX)、Illuminaによって商業化されたSolexaプラットフォーム、ならびにApplied Biosystemsによって商業化された支援されたオリゴヌクレオチドライゲーションおよび検出(Supported Oligonucleotide Ligation and Detection)(SOLiD)プラットフォームを含む。単一分子配列決定としても公知の非増幅アプローチは、Helicos Biosciencesによって商業化されたHeliScopeプラットフォーム、ならびにそれぞれVisiGen、Oxford Nanopore Technologies Ltd.、Life Technologies/Ion TorrentおよびPacific Biosciencesによって商業化された新興プラットフォームによって例証される。
パイロシークエンシング(米国特許第6,210,891号;同第6,258,568号)において、鋳型DNAは、断片化され、末端修復され、アダプターにライゲーションされ、アダプターに相補的なオリゴヌクレオチドを有するビーズにより単一の鋳型分子を捕捉することにより、in-situでクローン的に増幅される。単一の鋳型の型を有する各ビーズは、油中水型マイクロベシクルへと区分けされ、鋳型は、エマルションPCRと称される技法を使用してクローン的に増幅される。エマルションは、増幅後に破壊され、ビーズは、配列決定反応中にフローセルとして機能するピコタイタープレートの個々のウェル内に沈着される。4種のdNTP試薬のそれぞれの順序付けされた反復導入は、配列決定酵素、およびルシフェラーゼ等のルミネセントレポーターの存在下でフローセルにおいて発生する。適切なdNTPが、配列決定プライマーの3’末端に付加される場合、結果として生じるATP産生は、ウェル内でルミネセンスのバーストを引き起こし、バーストは、CCDカメラを使用して記録される。400塩基を超えるまたはそれに等しいリードの長さを達成することが可能であり、106個の配列リードを達成することができ、最大5億塩基対(Mb)の配列をもたらす。
Solexa/Illuminaプラットフォーム(Voelkerding et al, Clinical Chem., 55-641-658, 2009;MacLean et al, Nature Rev. Microbiol, 7・’ 287-296;米国特許第6,833,246号;同第7,115,400号;同第6,969,488号)において、配列決定データは、より短い長さのリードの形態で産生される。この方法において、一本鎖の断片化されたDNAが末端修復されて、5’リン酸化平滑断端を生成し、続いて、断片の3’末端への単一のA塩基のクレノウ媒介性付加を行う。A付加は、Tオーバーハングアダプターオリゴヌクレオチドの付加を容易にし、これはその後、オリゴヌクレオチドアンカーを付けたフローセルの表面における鋳型-アダプター分子を捕捉するために使用される。アンカーは、PCRプライマーとして使用されるが、鋳型の長さ、および他の近くのアンカーオリゴヌクレオチドに対するその近接が原因で、PCRによる伸長は、分子の「アーチ形成(arching over)」をもたらして、隣接アンカーオリゴヌクレオチドとハイブリダイズして、フローセルの表面にブリッジ構造を形成する。これらのDNAループは、変性および切断される。次いで、可逆的ダイターミネーターによりフォワード鎖を配列決定する。取り込まれたヌクレオチドの配列は、取込み後の蛍光の検出によって決定され、各フルオロフォアおよびブロックは、dNTP付加の次のサイクルに先立ち除去される。配列リードの長さは、36ヌクレオチド~50ヌクレオチド超に及び、全体的な出力は、分析的ラン当たり十億ヌクレオチド対を超える。
SOLiD技術(Voelkerding et al, Clinical Chem., 55-641-658, 2009;米国特許第5,912,148号;同第6,130,073号)を使用した核酸分子の配列決定もまた、鋳型の断片化、オリゴヌクレオチドアダプターへのライゲーション、ビーズへの付着、およびエマルションPCRによるクローナル増幅を伴う。これに続いて、鋳型を有するビーズが、ガラスフローセルの誘導体化表面に固定化され、アダプターオリゴヌクレオチドに相補的なプライマーがアニールされる。しかし、このプライマーを3’伸長のために利用するのではなく、その代わりに、これは、2個のプローブ特異的塩基とそれに続く6個の縮重塩基および4種の蛍光標識のうち1種を含有する照合プローブへのライゲーションのための5’リン酸基を提供するために使用される。SOLiDシステムにおいて、照合プローブは、各プローブの3’末端における2個の塩基の16通りの可能な組合せ、および5’末端における4種の蛍光のうち1種を有する。蛍光の色、よって、各プローブの同一性は、指定された色-空間コーディングスキームに対応する。複数ラウンド(通常7回)のプローブアニーリング、ライゲーションおよび蛍光検出に続いて、変性、次いで、初期プライマーに対して1塩基によって相殺されるプライマーを使用した第2のラウンドの配列決定が行われる。この様式で、鋳型配列をコンピューターにより再構築することができ、鋳型塩基は、2回照合され、精度増加をもたらす。配列リードの長さは、平均35ヌクレオチドであり、全体的な出力は、配列決定ラン当たり40億塩基を超える。
ある特定の実施形態では、ナノポア配列決定が用いられる(例えば、Astier et al., J. Am. Chem. Soc. 2006 Feb. 8; 128(5):1705-10を参照)。ナノポア配列決定の背後にある理論は、ナノポアが導電性流体に浸漬され、それを越えて電位(電圧)が印加されたときに発生するものに関係している。これらの条件下で、ナノポアを通したイオンの伝導による僅かな電流を観察することができ、電流の量は、ナノポアのサイズに対して極めて高感度である。核酸の各塩基が、ナノポアを通過する際に、これは、4種の塩基のそれぞれで明確に異なる、ナノポアを通る電流の振幅の変化を生じ、これにより、DNA分子の配列が決定されることを可能にする。
Ion Torrent技術は、DNAの重合の際に放出された水素イオンの検出に基づくDNA配列決定の方法である(例えば、Science 327(5970): 1190 (2010);米国特許出願公開第20090026082号、同第20090127589号、同第20100301398号、同第20100197507号、同第20100188073号および同第20100137143号を参照)。マイクロウェルは、配列決定されるべき鋳型DNA鎖を含有する。マイクロウェルの層の下には、超高感度ISFETイオンセンサーがある。全ての層が、エレクトロニクス産業において使用されるものと同様の、CMOS半導体チップ内に含有される。伸びつつある相補鎖にdNTPが取り込まれると、水素イオンが放出され、これが、超高感度イオンセンサーを誘発する。鋳型配列にホモポリマー反復が存在する場合、複数のdNTP分子が、単一のサイクルにおいて取り込まれるであろう。これは、対応する数の放出水素および比例してより高い電子シグナルをもたらす。この技術は、改変ヌクレオチドも光学も使用されないという点において、他の配列決定技術とは異なる。Ion Torrentシーケンサーの塩基当たりの精度は、50塩基のリードについてほぼ99.6%であり、1ラン当たりほぼ100Mbが生成される。リードの長さは、100塩基対である。5回反復の長さのホモポリマー反復の精度は、ほぼ98%である。イオン半導体配列決定の利益は、速い配列決定スピードならびに低い先行投資および運営費である。
一部の実施形態では、本開示は、長いアセンブリー配列決定技術の使用を教示する。例えば、一部の実施形態では、本開示は、PacBio配列決定および/またはナノポア配列決定を教示する。
PacBio SMRT技術は、透明底を備える個々のピコリットルサイズのウェルを有する特殊フローセルに基づく。ゼロモード導波路(ZMW)と称されるウェルのそれぞれは、底に単一の固定されたポリメラーゼを含有する(Ardui, S., Race, V., de Ravel, T., Van Esch, H., Devriendt, K., Matthijs, G., et al. (2018b). Detecting AGG interruptions in females with a FMR1 premutation by long-read single-molecule sequencing: a 1 year clinical experience. Front. Genet. 9:150)。これは、ポリメラーゼが、鋳型DNAに標識された塩基を取り込む際に、ライブラリー調製において環状化された単一のDNA分子(すなわち、SMRTbell)が、ウェル中を進行することを可能にする。塩基の取込みは、ZMWの透明底を通してリアルタイムで記録され得る蛍光を誘導する(Pollard, M. O., Gurdasani, D., Mentzer, A. J., Porter, T., and Sandhu, M. S. (2018). Long reads: their purpose and place. Hum. Mol. Genet. 27, R234-R241。SMRTの平均リード長さは、初期に、ほぼ1.5Kbしかなく、偽挿入によって特徴付けされるほぼ13%の高い誤り率が報告された(arneiro, M. O., Russ, C., Ross, M. G., Gabriel, S. B., Nusbaum, C., and DePristo, M. A. (2012). Pacific biosciences sequencing technology for genotyping and variation discovery in human data. BMC Genomics 13:375.; Quail, M. A., Smith, M., Coupland, P., Otto, T. D., Harris, S. R., Connor, T. R., et al. (2012). A tale of three next generation sequencing platforms: comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers. BMC Genomics 13:341.)。その導入以降、SMRT技術のリード長さおよびスループットは、実質的に増加した。スループットは、Sequel機械についてSMRTセル当たり>10Gbに達し得るが、一方、RSIIおよびSequelの両方について平均リード長さは、>10kbであり、一部のリードは、>100kbに及ぶ(van Dijk, E. L., Jaszczyszyn, Y., Naquin, D., and Thermes, C. (2018). The third revolution in sequencing technology. Trends Genet. 34, 666-681.)。
ONTによるナノポア配列決定は、ポータブルMinIONシーケンサーにより2015年に導入され、この後に、よりハイスループットなデスクトップシーケンサーGridIONおよびPromethIONが続いた。ナノポア配列決定の基本原則は、DNA分子の一本鎖を、バイオセンサーとして働く付着した酵素を有する、膜に挿入されたナノポアに通すことである(Deamer, D., Akeson, M., and Branton, D. (2016). Three decades of nanopore sequencing. Nat. Biotechnol. 34, 518-524)。ポアを通過する塩基をリアルタイムで決定するために、膜を越えた電気的シグナルの変化が測定および増幅される。ポリメラーゼまたはヘリカーゼのいずれかとなり得るナノポア連結された酵素は、ポアを通るその挙動を制御するポリヌクレオチドに密接に結合される(Pollard, M. O., Gurdasani, D., Mentzer, A. J., Porter, T., and Sandhu, M. S. (2018). Long reads: their purpose and place. Hum. Mol. Genet. 27, R234-R241)。ナノポア配列決定について、解析されるDNA断片のサイズを除いて、リードの長さに明快な限界は存在しない。平均して、ONT単一分子リードは、>10kbの長さであるが、SMRTを上回る>1Mbの、一部の個々のリードの長さについて、非常に長い長さに達することがある(Jain, M., Koren, S., Miga, K. H., Quick, J., Rand, A. C., Sasani, T. A., et al. (2018). Nanopore sequencing and assembly of a human genome with ultra-long reads. Nat. Biotechnol. 36, 338-345)。また、ONT GridIONおよびPromethIONシーケンサーの1ラン当たりのスループットは、PacBioよりも高い(それぞれ1ラン当たり最大100Gbおよび6Tb)(van Dijk, E. L., Jaszczyszyn, Y., Naquin, D., and Thermes, C. (2018). The third revolution in sequencing technology. Trends Genet. 34, 666-681)。
本開示はまた、Hi-C、3C、4C、5C、TLA、TCCおよびin situ Hi-Cからなる群より選択される技法の使用を教示する。例えば、DNA配列リードは、DNAを、固化剤と共に、in situでゲノムDNAが架橋されるような期間インキュベートして、これにより、架橋されたゲノムDNAを形成し;架橋されたゲノムDNAを断片化し;架橋され断片化されたゲノムDNAをライゲーションして、近位にライゲーションされた複合体を形成し;近位にライゲーションされた複合体を剪断して、近位にライゲーションされたDNA断片を形成し;複数の近位にライゲーションされたDNA断片を得て、ライブラリーを形成し、これにより、複数のゲノムDNA断片を得ることである。合成長リードに関するさらなる情報については、Amarasinghe, S.L., Su, S., Dong, X. et al. Opportunities and challenges in long-read sequencing data analysis. Genome Biol 21, 30 (2020)を参照されたい。
一部の実施形態では、本開示は、メタゲノムライブラリーの配列決定へのハイブリッドアプローチを教示する。すなわち、一部の実施形態では、本開示は、2種またはそれよりも多い配列決定技術(例えば、1種は短リード、1種は長リード)による配列決定を教示する。一部の実施形態では、長リード配列決定へのアクセスは、他の仕方ではアセンブリーが短リードだけでは進まないDNA領域のための参照配列を提供することにより、ライブラリーのその後のアセンブリーを改善することができる。
デジタルメタゲノミクスライブラリーを産生する方法-配列決定後の加工および逐次的アセンブリー
一部の実施形態では、本開示は、長いアセンブリーの配列決定されたメタゲノムライブラリーを産生するための、逐次配列アセンブリー方法を教示する。配列アセンブリーは、配列決定機械から得られる様々な配列リードを、本来のDNA分子を表す、より長いリードへと一緒につなぎ合わせるプロセスを説明する。アセンブリーは、特に、配列が50~500塩基範囲内に及ぶ、短リードNGSプラットフォームに関連している。
一部の実施形態では、配列決定ステップから得られる配列を直接的にアセンブルすることができる。一部の実施形態では、配列決定ステップ由来の配列は、配列決定製造業者の使用説明書に従って、または当技術分野で公知の方法に従って、いくつかの加工を経る。例えば、一部の実施形態では、プールされた試料由来のリードをトリミングして、任意のアダプター/バーコード配列を除去し、品質フィルタリングする。一部の実施形態では、一部のシーケンサー(例えば、illumina(登録商標))由来の配列を加工して、ペアードエンドリードをマージする。一部の実施形態では、コンタミネーション配列(例えば、クローニングベクター、宿主ゲノム)も除去する。一部の実施形態では、本開示の方法は、任意の適用可能なNGS後の配列加工ツールと適合性である。一部の実施形態では、本開示の配列は、BBTools(BBMap-Bushnell B. - sourceforge.net/projects/bbmap/)により加工される。
配列アセンブリー技法は、2種のカテゴリー:比較アセンブリーおよびde novoアセンブリーへと広く分けることができる。当業者であれば、オーバーラップ-レイアウト-コンセンサス、整列-レイアウト-コンセンサス、欲張りアプローチ、グラフに基づくスキームおよびオイラーパスを含む、ゲノムアセンブラの基本を熟知しているであろう(Bilal Wajid, Erchin Serpedin, Review of General Algorithmic Features for Genome Assemblers for Next Generation Sequencers, Genomics, Proteomics & Bioinformatics, Volume 10, Issue 2, 2012, Pages 58-73)。
一部の実施形態によれば、メタゲノムライブラリー配列のアセンブリーは、ABySS、ALLPATHS-LG、AMOS、Arapan-M、Arapan-S、Celera WGAアセンブラ/CABOG、CLC Genomics Workbench&CLC Assembly Cell、Cortex、DNA Baser、DNA Dragon、DNAnexus、Edena、Euler、Euler-sr、Forge、Geneious、Graph Constructor、IDBA、IDBA-UD、LIGRアセンブラ、MaSuRCA、MIRA、NextGENe、Newbler、PADENA、PASHA、Phrap、TIGRアセンブラ、Ray、Sequecher、SeqMan NGen、SGA、SGARCGS、SOPRA、SparseAssembler、SSAKE、SOAPdenovo、SPAdes、Staden gap4パッケージ、Taipan、VCAKE、Phusionアセンブラ、QSRAおよびVelvetを含むがこれらに限定されない、当技術分野で公知の任意の適した配列アセンブラを使用してアセンブルされるde novoアセンブリーであり得る。
現在までに利用できる配列アセンブラの非限定的なリストを表2に提示する。
表2-de novo配列アセンブラの非限定的なリスト
Figure 2023513314000008
Figure 2023513314000009
Figure 2023513314000010
Figure 2023513314000011
Figure 2023513314000012
Figure 2023513314000013
一部の実施形態では、本開示は、少なくとも第1のアセンブリーおよび第2のアセンブリーを含む逐次的アセンブリー技法を教示する。一部の実施形態では、第1のアセンブリーは、各サイロプール由来(またはバーコード化されている場合、配列の任意の明確に異なってバーコード化された群由来)の配列のアセンブリーである。よって、この第1のアセンブリーは、同じサイロプール(またはバーコード化された群)内から得られるリードを組み合わせることによる配列のみを建設する。この第1のアセンブリーは、リードの相対的により低い複雑性のプールから利益を得て、したがって、より高い信頼度で配列を整列する(よって、より複雑なプールと比較してより長いアセンブリーを生成する)ことができる。第1のアセンブリー由来の結果として生じる配列は、初期E.coliコスミドライブラリーにおける1個または複数のコスミドの部分にそれぞれ対応する、複数のミニメタゲノムからなる(図15を参照)。
一部の実施形態では、第1のアセンブリー由来のミニメタゲノムは、約5kb、6kb、7kb、8kb、9kb、10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb、30kb、31kb、32kb、33kb、34kb、35kb、36kb、37kb、38kb、39kbまたは40kb(それらの間の全ての範囲および部分的範囲を含む)のN50長を有するデジタルライブラリーを産生する。よって、一部の実施形態では、第1のアセンブリー由来のミニメタゲノムは、少なくとも5kb、6kb、7kb、8kb、9kb、10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb、30kb、31kb、32kb、33kb、34kb、35kb、36kb、37kb、38kb、39kbまたは40kbのN50長を有するデジタルライブラリーを産生する。
一部の実施形態では、次いで、第1のアセンブリー由来の結果として生じるアセンブリーを使用して、第2のアセンブリーにおける異なるサイロプール(またはバーコードが使用された場合は、バーコード化された群)にわたりより長いアセンブリーを調製する。上に記載されている通り、第1のアセンブリーに使用されるサイロプール(またはバーコード化された群)のそれぞれは、出発メタゲノムDNA試料のより小型の部分である。よって、ある1つのサイロプール/バーコード群に含有される配列が、1個または複数の他のサイロプール/バーコード群由来の配列に対応する(すなわち、アセンブルする、整列する)ことができることが可能であり、さらには、その可能性が高い。よって、一部の実施形態では、第1のアセンブリー由来のアセンブルされたミニメタゲノムのそれぞれは、第2のアセンブリーのための入力として提供される。一部の実施形態では、第1のアセンブリー由来のミニメタゲノムを組み合わせ、より長い配列アセンブリーをもたらすことができる(図15を参照)。一部の実施形態では、第2のアセンブリーは、サイロプール/バーコード群のそれぞれから残された任意のアセンブルされていないリードをアセンブルすることも含む。
一部の実施形態では、結果として生じるサイロ/バーコード群間のアセンブリーは、さらに大型の配列ストリングを産生する。第1および第2のアセンブリーステップ由来の結果として生じるアセンブルされた配列は、データベースへと投入され、配列の供給源に応じて「デジタルメタゲノミクスライブラリー」または「デジタル環境ライブラリー」と称された。
一部の実施形態では、結果として生じるデジタルメタゲノミクスまたは環境ライブラリーは、約15Kb、16Kb、17Kb、18Kb、19Kb、20Kb、21Kb、22Kb、23Kb、24Kb、25Kb、26Kb、27Kb、28Kb、29Kb、30Kb、31Kb、32Kb、33Kb、34Kb、35Kb、36Kb、37Kb、38Kb、39Kb、40Kb、41Kb、42Kb、43Kb、44Kb、45Kb、46Kb、47Kb、48Kb、49Kb、50Kb、51Kb、52Kb、53Kb、54Kb、55Kb、56Kb、57Kb、58Kb、59Kb、60Kb、61Kb、62Kb、63Kb、64Kb、65Kb、66Kb、67Kb、68Kb、69Kb、70Kb、71Kb、72Kb、73Kb、74Kb、75Kb、76Kb、77Kb、78Kb、79Kb、80Kb、81Kb、82Kb、83Kb、84Kb、85Kb、86Kb、87Kb、88Kb、89Kb、90Kb、91Kb、92Kb、93Kb、94Kb、95Kb、96Kb、97Kb、98Kb、99Kb、100Kb、101Kb、102Kb、103Kb、104Kb、105Kb、106Kb、107Kb、108Kb、109Kb、110Kb、111Kb、112Kb、113Kb、114Kb、115Kb、116Kb、117Kb、118Kb、119Kb、120Kb、121Kb、122Kb、123Kb、124Kb、125Kb、126Kb、127Kb、128Kb、129Kbまたは130Kb(それらの間の全ての範囲および部分的範囲を含む)の平均配列長を含む。一部の実施形態では、デジタルメタゲノミクスライブラリーの平均配列長は、32kbである。
一部の実施形態では、結果として生じるデジタルメタゲノミクスまたは環境ライブラリーは、約10Kb、11Kb、12Kb、13Kb、14、Kb、15Kb、16Kb、17Kb、18Kb、19Kb、20Kb、21Kb、22Kb、23Kb、24Kb、25Kb、26Kb、27Kb、28Kb、29Kb、30Kb、31Kb、32Kb、33Kb、34Kb、35Kb、36Kb、37Kb、38Kb、39Kb、40Kb、41Kb、42Kb、43Kb、44Kb、45Kb、46Kb、47Kb、48Kb、49Kb、50Kb、51Kb、52Kb、53Kb、54Kb、55Kb、56Kb、57Kb、58Kb、59Kb、60Kb、61Kb、62Kb、63Kb、64Kb、65Kb、66Kb、67Kb、68Kb、69Kb、70Kb、71Kb、72Kb、73Kb、74Kb、75Kb、76Kb、77Kb、78Kb、79Kb、80Kb、81Kb、82Kb、83Kb、84Kb、85Kb、86Kb、87Kb、88Kb、89Kb、90Kb、91Kb、92Kb、93Kb、94Kb、95Kb、96Kb、97Kb、98Kb、99Kb、100Kb、101Kb、102Kb、103Kb、104Kb、105Kb、106Kb、107Kb、108Kb、109Kb、110Kb、111Kb、112Kb、113Kb、114Kb、115Kb、116Kb、117Kb、118Kb、119Kb、120Kb、121Kb、122Kb、123Kb、124Kb、125Kb、126Kb、127Kb、128Kb、129Kbまたは130Kb(それらの間の全ての範囲および部分的範囲を含む)のN50を含む。一部の実施形態では、結果として生じるデジタルメタゲノミクスまたは環境ライブラリーは、少なくとも15kb、16kb、17kb、18kb、19kbまたは20kbのN50を含む。
一部の実施形態では、本開示は、本明細書に記載されている物理的および/またはデジタル配列ライブラリーが、それが抽出された環境試料を代表することを教示する。一部の実施形態では、デジタル配列ライブラリーは、ライブラリー内のアセンブルされた配列の予測される分類学的分類を概説することにより評価することができる。当業者であれば、配列およびアセンブルされたライブラリー内の分類学的多様性を評価する仕方を熟知しているであろう。一部の実施形態では、デジタルメタゲノミクスライブラリーの分類学的特徴付けは、クローナプロットにより行うことができる。分類が行われ得る仕方についての説明に役立つ記載が提供される。アセンブルされたコンティグのヌクレオチド配列は、ソフトウェアツールKaiju(github.com/bioinformatics-centre/kaiju; Menzel, P. et al. (2016) ”Fast and sensitive taxonomic classification for metagenomics with Kaiju.” Nat. Commun. 7:11257)への入力として使用される。Kaijuツールは、コンティグにおける全6個の読み枠におけるORFを予測し、予測されたORFを使用して、参照データベースに対する相同性検索を行う。分類学は、Least Common Ancestor(LCA)に基づき、それに含有されるORFのそれぞれについての分類学の割当てに基づく供給源コンティグ配列に割り当てられる。使用される参照データベースは、NCBI NRデータベースにおける全てのタンパク質配列である。これは、あらゆる培養されたおよび環境中の細菌、古細菌、ならびに真核生物由来の配列データを含む。この方法を使用して決定される多様性は、配置されたメタゲノムライブラリーにおいて捕捉される環境DNAの組成の概観を提供する。
天然物のin silico同定-コードクラスター
微生物における多くの天然物は、生合成遺伝子のコードに加えて、典型的に、発現制御、自己抵抗性および搬出もコードする、多重遺伝子クラスター(MGC)によってコードされる仕組みによって産生される(Walsh CT, and Fischbach MA 2010. Natural Products Version 2.0: Connecting Genes to Molecules. J Am Chem Soc 132:2469-2493.; Kottmann et al., 2015. Minimum Information about a Biosynthetic Gene cluster. Nat Chem Biol 11:625-631; Tenconi E. and Rigali S . 2018. Self-resistance mechanisms to DNA-damaging antitumor antibiotics in Actinobacteria. Curr Opin Microbiol 45:100-108)。産物/種にわたる多重遺伝子クラスターの比較もまた、他のDNA調節および生合成遺伝子のバックグラウンドの中のMGCの様々なカテゴリーを同定することができる、一連の保存された構造的特色を明らかにした。本開示の発明は、天然物コードMGCの保存された構造的、配列および組織的な特性を活用して、新たなin silico天然物発見ワークフローを産生する(図1を参照)。本開示のin silico方法は、1)抵抗性遺伝子に基づくMGC検索、2)標的化されない抵抗性シグナルMGC検索および3)推移的なMGC検索へと広範にカテゴリー化することができる。これらはそれぞれ、下でより詳細に記述する。
一部の実施形態では、本開示のin silico方法(すなわち、上に記述されている方法1~3)は、デジタルメタゲノムライブラリーまたはデジタル環境ライブラリーを活用する(およびその多様性を探索する)ことができる。本文書は、天然物発見のためにメタゲノムライブラリーを使用することの多くの利点の概要を述べた。しかし、一部の実施形態では、本開示のin silico方法は、本開示の前のセクションに記載されている通り、株の収集物もしくは他の非公式のおよび公開されたデータベースを表すライブラリー、またはデジタル環境ライブラリー等、他の配列ライブラリーに適用することもできる。よって、当業者であれば、メタゲノミクスライブラリーの文脈における下の方法の記載を、他の配列ライブラリーに適用することもできることを認識するであろう。したがって、これらのライブラリーへの方法の適用もまた、本質的に開示される。
天然物コードMGCのin silico発見-抵抗性遺伝子検索
理論的基盤
一部の実施形態では、本開示は、MGCのための抵抗性に基づく検索戦略を教示する。これらの戦略は、大部分は、天然物進化の抵抗性仮説に基づく。
抵抗性仮説は、MGC内に、生物が産生する潜在的に有害な天然物(「NP」)に対する抵抗性を付与する少なくとも1個の遺伝子が存在することが多いことを言う。いずれか1つの理論に制約されることは望まないが、本発明者らは、MGC内における抵抗性遺伝子の存在が、天然物を産生する微生物が、新たなNPをその環境に送達する、またはその蓄積から生じる任意のマイナスの効果を他の仕方で緩和する方策を有することを確実にするための進化上の自己防衛機構であることを仮定する。この仮説は、大部分の(ただし全てではない)抵抗性遺伝子が、MGC内にまたはMGCに高度に近接して位置することも仮定する。この遺伝的近接は、抵抗性遺伝子が、天然物コードMGCと共遺伝(および潜在的に同時調節)される機会を増加させる。
抵抗性仮説は、4種の注目すべき機構へとカテゴリー化され得る種々の抵抗性戦略を包含する(図5を参照)。例えば、一部の実施形態では、抵抗性は、Streptomycesからのテトラサイクリンの搬出によって例証される通り、NP搬出(排出)に基づく抵抗性である。一部の実施形態では、抵抗性は、Streptomycesにおけるクロラムフェニコールのアセチルトランスフェラーゼ改変によって例証される通り、NP改変に基づく抵抗性である。一部の実施形態では、抵抗性は、Streptomycesにおけるアミノグリコシドのリボソームメチル化によって例証される通り、標的改変に基づく抵抗性である。一部の実施形態では、抵抗性は、Amycolatopsis rifamycinicaにおけるリファマイシンに対する抵抗性を分け与えるRNAポリメラーゼバリアントのコードによって例証される通り、標的バリアントに基づく抵抗性である。当業者であれば、これらの機構が、説明に役立つものであり、本発明の範囲を限定することを意味しないことを認識するであろう。よって、一部の実施形態では、本出願における抵抗性遺伝子の参照は、上に記述されている機構、または抵抗性遺伝子のそのNPコードMGCへの近位の位置付けをもたらす他の機構のいずれかの支配下にある遺伝子を網羅することが広範に理解されるであろう。
抵抗性仮説における標的バリアントに基づく戦略の拡大として、重複仮説は、MGC内の抵抗性遺伝子が、生物において主要機能を果たす必須遺伝子と配列類似性を共有することを言う。
重複仮説は、DNAジャイレース等、多くの抗生物質の一般的な標的部位が、産生微生物においても見出されることの観察から生じる。よって、自身を保護するために、産生微生物は、変更されたタンパク質を毒性天然物の効果に対して抵抗性にする、僅かな改変を有する標的配列のコピーを有する。一部の実施形態では、改変は、タンパク質に結合する天然物の能力に影響を与えるが、細胞においてその正常な役割を実行するタンパク質の能力には影響を与えない(例えば、図17および下に記述される実施例において説明されるエポキソミシン(Expoxomicin)抵抗性を参照)。
例えば、Salinispora tropicaは、プロテアソームを阻害するためにサリノスポラミドAを産生する。しかし、プロテアソームは、S.tropicaの中にも存在する。サリノスポラミドAをコードする遺伝子クラスターは、Strop_2244におけるプロテアソームβ-サブユニット遺伝子に対して58%の配列同一性を共有するSalI遺伝子を封入する。しかし、タンパク質レベルでは、SalIサブユニットおよび典型的なβ-サブユニットは、45および49位の2個のアミノ酸のみが異なる。そうであるにもかかわらず、α-サブユニットと組み合わされた場合、SalIタンパク質は、サリノスポラミドAによって結合され得ないプロテアソーム複合体を形成し、これにより、サリノスポラミドAに対する有効な標的バリアントに基づく抵抗性として作用する(Kale AJ, McGlinchey RP, Lechner A, Moore BS. Bacterial self-resistance to the natural proteasome inhibitor salinosporamide A. ACS Chem Biol. 2011;6(11):1257-1264)。
その核心において、標的バリアントに基づく戦略および重複仮説は、非常に類似したアイデアを言い表す。しかし、「標的バリアントに基づく戦略」は、自己防御機構を指し、一方で、重複仮説は、MGC予測を増強するために使用され得るMGCの可能な特性の1つを言い表す。実際に、本開示のある特定の実施形態は、MGC内にコードされる標的バリアントが、産生微生物だけではなく他の生物にも存在する必須遺伝子に対して相同性を示すであろうという仮説に基づく。
よって、一部の実施形態では、本開示は、異なる生物にわたる「抵抗性遺伝子」の保存が、保存された遺伝子が、MGCによってコードされる天然物の標的となり得ることを示すことを教示する。一部の実施形態では、本開示のシステムおよび方法は、微生物MGC抵抗性遺伝子と、他の生物における必須遺伝子との間の関係性を活用して、特異的適用標的に焦点を合わせた天然物発見プログラムを設計する。
例えば、本出願内の実施例は、同じ必須遺伝子を標的化する尤度に基づき、ヒトのがんにおいて同定された抵抗性遺伝子の類似性を使用して、潜在的な抗がん特性を有する新規天然物を同定する(実施例2および図17を参照)。
抵抗性遺伝子仮説に基づく具体的な発見ワークフローについて、下でより詳細に記述する。
抵抗性遺伝子検索ワークフロー
一部の実施形態では、本開示は、デジタルメタゲノミクスライブラリーを検索し、目的の天然物を同定するためのin silico方法を教示する。一部の実施形態では、本開示の方法は、a)デジタルメタゲノミクスライブラリーを、天然物多重遺伝子クラスター特色セットを示すシグナルについて問い合わせるステップと、b)前記問い合わせの出力を、複数のシグナル関連の(多重遺伝子クラスター)デジタル特色セットとして供給するステップと、c)i)シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定し、生合成オペロンを含むコンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルすること、および/またはii)シグナル関連の多重遺伝子クラスターデジタル特色セットから、少なくとも1個の遺伝子のコンピューターにより予測される生物学的抵抗性遺伝子機能性を決定して、これにより、コンピューターにより決定された生物学的抵抗性遺伝子を同定することにより、生物学的関連性を決定し、シグナル関連の多重遺伝子クラスターデジタル特色セットに割り当てるステップと、d)デジタル処理でアセンブルされた生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットの閾値パラメーター内に位置するコンピューターにより決定された生物学的抵抗性遺伝子に基づき、目的の天然物を同定するステップとを含む。
一部の実施形態では、抵抗性遺伝子検索は、3つのステップを伴う:候補抵抗性遺伝子を同定するステップ;候補遺伝子クラスターを同定するステップ;最後に、候補抵抗性遺伝子および候補遺伝子クラスターが、DNA断片内で近接していることの決定。当業者であれば、候補抵抗性遺伝子および候補遺伝子クラスターの同定を任意の順序で遂行することができることを認識するであろう。両方の可能な順序が本特許請求の範囲によって包含され、下でより詳細に記述される。
本開示の抵抗性遺伝子MGC検索のワークフローの実施形態の視覚的表現を図6に提示する。手短に説明すると、デジタルメタゲノムライブラリーは、公知のまたは予測される抵抗性遺伝子に対するホモログの存在について問い合わされる(すなわち、ステップa)に対応する抵抗性遺伝子相同性)。すなわち、一部の実施形態では、初期「a)デジタルメタゲノミクスライブラリーを、天然物多重遺伝子クラスター特色セットを示すシグナルについて問い合わせるステップ」は、デジタルメタゲノミクスライブラリーを、候補抵抗性遺伝子の存在について問い合わせるステップを含む。
同定された候補抵抗性遺伝子を含むデジタルDNA配列ヒットは、必要に応じてフィルタリングされ、次いで、天然物コード多重遺伝子クラスターの存在について解析される(すなわち、ステップc)i)に対応するクラスター予測)。すなわち、一部の実施形態では、「生物学的関連性を決定し、シグナル関連の多重遺伝子クラスターデジタル特色セットに割り当てるステップ」は、候補遺伝子クラスターを同定するステップを含む。
最後に、同定された候補抵抗性遺伝子の位置は、同定された候補クラスターの位置と比較して解析され、これにより、候補抵抗性遺伝子が、クラスターの予測される境界内にまたは前記境界からの所定の距離内に位置する、候補クラスターを同定する(すなわち、ステップd)に対応する近接解析)。
上に記す通り、当業者であれば、候補クラスターおよび候補抵抗性遺伝子の同定を任意の順序で遂行することができることを認識するであろう。例えば、一部の実施形態では、デジタルメタゲノムライブラリーは、全ての予測される天然物コード多重遺伝子クラスター(ステップa)に対応する候補クラスター)の存在について問い合わされる。すなわち、一部の実施形態では、初期a)「デジタルメタゲノミクスライブラリーを、天然物多重遺伝子クラスター特色セットを示すシグナルについて問い合わせるステップ」は、デジタルメタゲノミクスライブラリーを、候補抵抗性遺伝子の存在について問い合わせるステップを含む。
予測される天然物コード多重遺伝子クラスターを含むデジタルDNA配列ヒットは、公知のまたは予測される抵抗性遺伝子に対するホモログ(ステップc)ii)に対応する候補抵抗性遺伝子)の存在についてさらに問い合わされる。すなわち、一部の実施形態では、「生物学的関連性を決定し、シグナル関連の多重遺伝子クラスターデジタル特色セットに割り当てるステップ」は、候補抵抗性遺伝子を同定するステップを含む。
最後に、同定された候補抵抗性遺伝子の位置は、同定された候補クラスターの位置と比較して解析され、これにより、候補抵抗性遺伝子が、クラスターの予測される境界内にまたは前記境界からの所定の距離内に位置する、候補クラスターを同定する(すなわち、ステップd)に対応する近接解析)。これらのステップのそれぞれについて、下でより詳細に記述する。
抵抗性遺伝子検索のために標的遺伝子を選択する
一部の実施形態では、発見プラットフォームの初期ステップは、目標を設定し、所望の天然物を同定するように設計された抵抗性遺伝子を同定することである(図7)。一部の実施形態では、本開示の方法は、特定のクラスの天然物をコードするMGCについて検索するようにカスタマイズすることができる。例えば、一部の実施形態では、目標は、ヒトタンパク質(すなわち、標的遺伝子/タンパク質)と相互作用することができる天然物を同定することとなり得る。この説明に役立つ例では、デジタルメタゲノムライブラリーは、原核生物において十分に保存されているヒトタンパク質のホモログの存在について問い合わされる(すなわち、抵抗性遺伝子についてデータベースを問い合わせるステップ)。例によって、一部の実施形態では、ヒトプロテアソームは、一部の原核生物において十分に保存されているため、本明細書にて開示される方法を使用して、抵抗性遺伝子検索を使用して、ヒトプロテアソーム阻害剤をコードする細菌天然物について検索することができる。
よって、本明細書にて開示される方法は、初めて、特異的な治療標的のための新たな天然物の探索および同定を可能にする。例えば、目標が、がんに関連するヒト細胞周期遺伝子の活性をモジュレートすることができる天然物を同定することである場合には、標的遺伝子/タンパク質は、ヒト細胞周期遺伝子および関連遺伝子となるであろう。すなわち、一部の実施形態では、細胞周期遺伝子の活性をモジュレートすることができる天然物の検索は、予測モデル(例えば、ヒト細胞周期遺伝子および(おそらく)他の関連遺伝子(例えば、同じpFAMにおける、または科学的報告によって同じクラス内にあると認識される遺伝子)において訓練されたHMM)を利用するであろう。一部の実施形態では、本明細書にて開示される長いアセンブリーライブラリーへのMGC発見ワークフローの適用は、初めて、メタゲノム試料の広範な遺伝的多様性の探索を可能にする予想外の相乗作用を示す。実際に、実験は、発見ワークフローの適用が、他の大型配列データベースよりも、MGCを同定することにおいて10×、20×、30×、40×または50×を超えて有効であることを実証する。
別の説明に役立つ例では、目標は、公知の抗生物質のバリアントを同定することであり得る。これらの実施形態では、デジタルメタゲノミクスライブラリーは、公知の抗生物質(例えば、アンピシリン抵抗性のためのTEM-1 B-ラクタマーゼ)の抵抗性の原因となる遺伝子に対するホモログの存在について問い合わせることができる。結果として生じるヒットは、公知の抗生物質の抵抗性の原因となる遺伝子と相同性を共有する候補抵抗性遺伝子の存在に基づき、抗生物質バリアントをコードするMGCにおいて富化されると予想されるであろう。よって、一部の実施形態では、本開示の抵抗性遺伝子検索は、抵抗性遺伝子を標的化する天然物(またはそのホモログ)、またはその効果が抵抗性遺伝子の存在によって低下/修正される天然物をコードするMGCを同定する。
しかし、当業者であれば、本開示の方法を、植物、真菌および細菌に由来する種を含む、任意の種の遺伝子/タンパク質に適用することができることを認識するであろう。
一部の実施形態では、抵抗性遺伝子検索に使用される標的遺伝子配列は、完全遺伝子配列(例えば、転写開始部位から終結部位まで)である。一部の実施形態では、抵抗性遺伝子検索に使用される標的遺伝子配列は、遺伝子のコード配列(例えば、発現遺伝子マイナスUTR)である。一部の実施形態では、抵抗性遺伝子検索に使用される標的遺伝子配列は、1個または複数の関連しているドメインを含むもの等の部分的遺伝子である。一部の実施形態では、抵抗性遺伝子検索に使用される標的遺伝子配列は、完全発現タンパク質の配列等のタンパク質配列である。一部の実施形態では、抵抗性遺伝子検索に使用される標的遺伝子配列は、完全発現タンパク質の配列等のタンパク質配列である。一部の実施形態では、抵抗性遺伝子検索に使用される標的遺伝子配列は、目的の特定のタンパク質ドメインに属するもの等の部分的タンパク質配列である。よって、標的抵抗性遺伝子が、十分に保存されたDNA結合ドメインを有するタンパク質である場合、本開示の抵抗性遺伝子検索は、タンパク質配列全体とは対照的に、保存されたDNA結合ドメインに集中することができる。
一部の実施形態では、本開示は、次のin silicoワークフローを使用した抵抗性遺伝子検索標的を選択するステップを教示する:1)所望の天然物標的遺伝子(例えば、公知のまたは予測される天然物により影響を受けることが仮定される遺伝子)を同定する;2)所望の天然物標的遺伝子(例えば、Uniprotにおいて見出される)の共通オルソログ群(COG)を同定する;3)同定されたCOGが、微生物配列を含有するか否か決定する;および4)含有する場合、標的遺伝子を、同じCOG由来の微生物配列と比較するBLASTを遂行する。一部の実施形態では、結果として生じるblastヒットは、5)保存についてさらに評価される(例えば、<0.001のE値は、標的遺伝子/タンパク質および微生物遺伝子/タンパク質の間に有意な保存が存在することを示す)。一部の実施形態では、本開示は、上に記載されている通り、blastにより遺伝子を選択するステップを教示する。一部の実施形態では、本開示は、<0.001のE値を有するblastヒットのみを選択するステップを教示する。一部の実施形態では、選択された標的遺伝子は、本文書に記載されているMGC検索ワークフローにおいて使用される。
抵抗性遺伝子相同性検索
一部の実施形態では、本開示は、デジタルメタゲノミクスライブラリーを、天然物多重遺伝子クラスター特色セットを示すシグナルについて問い合わせるステップを教示する。一部の実施形態では、問い合わせるステップは、デジタルメタゲノミクスライブラリーを、公知のまたは予測される抵抗性遺伝子(両者共に、標的抵抗性遺伝子と称される)に対するホモログについて検索し、これにより、候補抵抗性遺伝子を同定するステップを含む。上に記す通り、一部の実施形態では、抵抗性遺伝子検索は、生物学的関連性をシグナル関連の多重遺伝子クラスターデジタル特色セットに割り当てるためのステップにおいて、方法において後に遂行することができる。
一部の実施形態では、抵抗性遺伝子の検索は、伝統的検索方法論を使用して行われる。例えば、一部の実施形態では、候補抵抗性遺伝子は、配列同一性に基づき同定される。一部の実施形態では、関連ポリペプチドまたは核酸配列の同一性は、当業者にとって公知の方法のいずれかによって容易に計算することができる。2種の配列(例えば、核酸またはアミノ酸配列)の「パーセント同一性」は、例えば、Karlin and Altschul Proc. Natl. Acad. Sci. USA 90:5873-77, 1993のように改変された、Karlin and Altschul Proc. Natl. Acad. Sci. USA 87:2264-68, 1990のアルゴリズムを使用して決定することができる。斯かるアルゴリズムは、Altschul et al., J. Mol. Biol. 215:403-10, 1990のNBLAST(登録商標)およびXBLAST(登録商標)プログラム(バージョン2.0以降)へと取り込まれる。BLAST(登録商標)タンパク質検索は、例えば、XBLASTプログラム、スコア=50、ワード長さ=3を用いて行って、本明細書に記載されているタンパク質に相同なアミノ酸配列を得ることができる。ギャップが、2種の配列の間に存在する場合、例えば、Altschul et al., Nucleic Acids Res. 25(17):3389-3402, 1997に記載されている通りに、Gapped BLAST(登録商標)を利用することができる。BLAST(登録商標)およびGapped BLAST(登録商標)プログラムを利用する場合、それぞれのプログラム(例えば、XBLAST(登録商標)およびNBLAST(登録商標))のデフォルトパラメーターを使用することができる、またはパラメーターを、当業者によって理解される通りに適切に調整することができる。
一部の実施形態では、候補抵抗性遺伝子は、標的抵抗性遺伝子と少なくとも20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または100%の配列同一性を示す(それらの間の全ての範囲および部分的範囲を含む)。
一部の実施形態では、候補抵抗性遺伝子は、配列類似性に基づき同定される。核酸配列およびタンパク質配列の類似性は、本開示に従って、当技術分野で公知の方法を含むいくつかの方法によって評価することができる。
当業者にとって公知の広く使用されている類似性検索プログラムは、BLAST(Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 1997;25:3389-3402; units 3.3 and 3.4)、PSI-BLAST(同上)、SSEARCH(Smith TF, Waterman MS. Identification of common molecular subsequences. J. Mol. Biol. 1981;147:195-197; Pearson WR. Searching protein sequence libraries: Comparison of the sensitivity and selectivity of the smith-waterman and fasta algorithms. Genomics. 1991;11:635-650, unit 3.10)、FASTA(Pearson WR, Lipman DJ. Improved tools for biological sequence comparison. Proc. Natl. Acad. Sci. USA. 1988;85:2444-2448 unit 3.9)およびMUSCLE(Edgar RC. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 2004;32(5):1792-1797)を含む。
一部の実施形態では、候補抵抗性遺伝子は、標的抵抗性遺伝子と少なくとも20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または100%の配列類似性を示す(それらの間の全ての範囲および部分的範囲を含む)。
一部の実施形態では、候補抵抗性遺伝子は、予測エンジンにより同定される。一部の実施形態では、予測エンジンは、機械学習モデルである。一部の実施形態では、予測エンジンは、HMMモデルである。
当業者であれば、本開示のワークフローに対する複数の機械学習予測モデルの適合性を認識するであろう。よって、説明に役立つモデルとしてHMMが使用されることが多いが、一部の実施形態では、HMMへの言及が、「予測モデル」または「予測的機械学習モデル」として一般に理解され得ることが理解されるであろう。一部の実施形態では、予測エンジン/モデルは、長・短期記憶モデル(LSTM)に基づくもの等の回帰型ニューラルネットワークを含む、HMM、PSSM(位置特異的スコア行列)、SVM(サポートベクターマシン)、双方向性LSTM(長・短期記憶)、CNN(畳み込みニューラルネットワーク)、RNN(回帰型ニューラルネットワーク)、動的ベイジアンネットワーク、人工ニューラルネットワーク、およびそれらの組合せからなる群より選択される。
当業者であれば、HMM配列モデルのための様々な公開供給源を、および/または抵抗性遺伝子検索を遂行するための新たな機械学習モデルを生成する方法を熟知しているであろう。例えば、一部の実施形態では、本開示は、候補抵抗性遺伝子を同定するための、TIGRFamまたはPFam HMMモデルの使用を教示する。これらのHMMは、広い範囲の型のタンパク質およびタンパク質ドメインに利用でき、本開示のデジタルメタゲノムライブラリーに直接的に適用することができる。
TIGRFAMは、キュレートされた多重配列整列、タンパク質配列分類のための隠れマルコフモデル(HMM)、および相同タンパク質について検索することができる関連情報からなるリソースである。リリース10.0から開始して、TIGRFAMモデルは、優れた検索スピードおよび検索感度を提供するHMMER3を使用する(Haft DH, et al.,TIGRFAMs: a protein family resource for the functional identification of proteins. Nucleic acids research. 2001-01-01; 29.1: 41-3.)。
Pfamは同様に、完全タンパク質ドメインの多重整列および隠れマルコフモデルに基づくプロファイル(HMM-プロファイル)を含有する。ドメイン境界、ファミリーメンバーおよび整列の定義は、専門知識、配列類似性、他のタンパク質ファミリーデータベース、ならびにメンバーを正確に同定および整列するHMM-プロファイルの能力に基づき半自動的に為される(Sonnhammer EL, Eddy SR, Birney E, Bateman A, Durbin R. Pfam: multiple sequence alignments and HMM-profiles of protein domains. Nucleic Acids Res. 1998;26(1):320-322)。候補抵抗性タンパク質のためのHMM検索の説明に役立つ例は、本文書の後のセクションに提示する。
抵抗性遺伝子検索出力および必要に応じたフィルタリング
一部の実施形態では、抵抗性遺伝子相同性検索からの出力は、デジタルメタゲノミクスライブラリー由来のアセンブルされた配列内に含有される複数の候補抵抗性遺伝子配列である(すなわち、シグナル関連の多重遺伝子クラスターデジタル特色セット)。一部の実施形態では、各候補抵抗性遺伝子配列は、検索モデルの予測が的確である尤度に関係する信頼度スコアに関連する。よって、候補抵抗性遺伝子配列は、モデル(例えば、機械学習モデル、例えば、HMM)によって候補配列に割り当てられた信頼度スコアに基づき同定することができる。
一部の実施形態では、本開示は、次のワークフローステップのために、全ての予測される遺伝子候補配列を保つステップを教示する。一部の実施形態では、本開示は、最良の信頼度を有するヒットのみが解析のその後のステップに進めるような、予め選択された信頼度カットオフの使用を教示する。信頼度スコアカットオフは、データベースのサイズおよび方法の特定のインプリメンテーションの他の特色に基づき変動し得る。あるいは、方法またはシステムは、候補配列および非候補配列の間を判別するための他の手段を用いることができる。一部の実施形態では、候補抵抗性遺伝子配列は、その信頼度スコアによって最高信頼度から最低信頼度の順序でランク付けされ、次いで、カットオフが用いられて、特定の信頼度閾値を下回る任意の配列を除去する。例えば、信頼度スコアがe値である場合、候補配列は、昇順e値の順序でランク付けすることができる:最低e値(最高信頼度)から最高e値(最低信頼度)。次いで、選択された閾値を上回るe値を割り当てられた任意の配列を、候補配列のプールから除去することができる。類似的に、信頼度スコアがビットスコアである場合、候補配列は、降順ビットスコアの順序でランク付けすることができる:最高ビットスコア(最高信頼度)から最低ビットスコア(最低信頼度)。次いで、選択された閾値を下回るビットスコアを割り当てられた任意の配列を、候補配列のプールから除去することができる。
一部の実施形態では、配列データベースからの候補抵抗性配列の同定に続いて、候補配列がフィルタリングされて、標的抵抗性遺伝子の機能を果たす可能性が低い候補配列を除去する。一部の実施形態では、候補配列は、1個または複数の第2の「対照」予測モデルを使用したその評価に基づきフィルタリングされる。用いられる対照予測モデルの数は、状況、標的抵抗性遺伝子の型、関連しているデータの利用能、および他の斯かる特色に依存し得る。一部の実施形態では、対照予測モデルの数は、1~100,000個の間である。一部の実施形態では、対照予測モデルの数は、少なくとも1、少なくとも10、少なくとも100、少なくとも1,000、少なくとも10,000または少なくとも100,000個である。
一部の実施形態では、候補抵抗性配列は、例えば、信頼度スコアを割り当てることにより、配列が標的抵抗性遺伝子の機能を果たす尤度を決定する第1の予測モデルによって評価され;次いで、候補配列は、例えば、信頼度スコアを割り当てることにより、配列が異なる機能を果たす尤度を決定する第2の予測モデル(単数または複数)によって評価される。次いで、標的タンパク質もしくは標的遺伝子機能または別の機能を果たす候補配列の相対的な尤度が比較される。一部の実施形態では、各候補配列は、第1の予測モデルによって生成される「標的抵抗性遺伝子信頼度スコア」と、候補配列が標的タンパク質または標的遺伝子機能とは異なる機能を果たす尤度を評価する第2の予測モデルによって生成される最良の信頼度スコアである、「最良のマッチの信頼度スコア」とを割り当てられる。例えば、500個の対照予測モデルが用いられて、配列が、標的タンパク質または標的遺伝子機能以外の機能を果たすタンパク質または遺伝子をコードする可能性があるか否か決定する場合、「最良のマッチの信頼度スコア」は、500個の対照予測モデルのうちいずれか1個によって生成される最良の信頼度スコア(例えば、最高ビットスコア、最低e値)となるであろう。
よって、一部の実施形態では、標的タンパク質または標的遺伝子信頼度スコアおよび最良のマッチの信頼度スコアが比較される。一部の実施形態では、標的タンパク質または標的遺伝子e値の対数および最良のマッチの(例えば、第2の予測的機械学習モデルから)e値の対数が比較される。一部の実施形態では、標的タンパク質または標的遺伝子ビットスコアおよび最良のマッチのビットスコアが比較される。一部の実施形態では、標的タンパク質または標的遺伝子機能を果たす相対的な尤度の閾値が確立される。
用いられる対照予測的機械学習モデルの数は、数的に限定されないが、標的タンパク質または標的遺伝子が属する群以外のオルソロジー群の同定に基づき生成され得るモデル等の対照モデルを生成する能力および/またはその利用能に基づく。一部の実施形態では、少なくとも1個の二次モデルが用いられる。一部の実施形態では、少なくとも5、10、50、100、200、300、400、500、600、700、800、900、1,000または10,000個の対照モデルが用いられる。
一部の実施形態では、標的タンパク質または標的遺伝子機能を果たす尤度が、異なるタンパク質機能を果たす尤度を超える場合(すなわち、標的マッチ信頼度スコアが、最良のマッチの信頼度スコアである場合)にのみ、候補抵抗性配列は保持される。一部の実施形態では、標的抵抗性遺伝子機能を果たす尤度が、異なるタンパク質機能を果たす尤度を超えるまたはそれにほぼ等しい場合にのみ、候補抵抗性配列は保持される。一部の実施形態では、標的抵抗性遺伝子機能を果たす相対的な尤度が、ある特定の信頼度区間内に収まる場合、候補抵抗性配列は保持される。一部の実施形態では、標的抵抗性遺伝子機能を果たす相対的な尤度が、ある特定の閾値を超える場合、候補抵抗性配列は保持される。一部の実施形態では、次の判定基準(または標的抵抗性遺伝子の等価物)を満たす場合、候補抵抗性配列は保持される:
Figure 2023513314000014
一部の実施形態では、最良のマッチのE値または最良のマッチのビットスコアは、対照予測モデルのうちの最良の信頼度スコアである。他の実施形態では、最良のマッチは、候補抵抗性遺伝子信頼度スコアを含む、全ての検査された予測モデルのうちの最良の信頼度スコアである。この第2の実施形態では、候補抵抗性遺伝子信頼度スコア(例えば、ビットスコアまたはE値)が、最良のマッチである場合には、比は1である。最良のマッチの信頼度スコアが対照予測モデルの中から選択される、他の実施形態では、比は、1を超えることができる。
候補抵抗性遺伝子配列を保持するための閾値は、所望の信頼度範囲に基づき改変することができる。一部の実施形態では、閾値は、0.1~0.99の間である。一部の実施形態では、閾値は、0.5~0.99の間である。一部の実施形態では、閾値は、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8または0.9である。一部の実施形態では、閾値は、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9または0.95である。
上述の閾値計算は、説明に役立つが、決して徹底的なものではない。当業者であれば、その信頼度スコアが計算される仕方に応じて様々な閾値カットオフを適用する仕方を認識するであろう。例えば、信頼度スコアが、より低いスコアがより大きい信頼度を示すようなものである場合には、標的タンパク質または標的遺伝子信頼度スコアの最良のマッチの信頼度スコアに対する比が、ある特定の閾値よりも低いのであれば、配列を保持することができる。
一部の実施形態では、出力候補抵抗性遺伝子のそれぞれは、より長いDNA配列に関連する(すなわち、各候補抵抗性遺伝子は、デジタルメタゲノムライブラリー内のより長いアセンブルされたDNA配列内に含有される)。一部の実施形態では、本開示は、10kb、15kb、20kb、25kbまたは30kb未満の長さのアセンブルされたDNA配列内に含有される候補抵抗性遺伝子をフィルタリングして取り除くステップを教示する。一部の実施形態では、配列長カットオフは、多重遺伝子クラスターの予想されるサイズに基づき作製される。予想される天然物が、少なくとも30kbの多重遺伝子クラスターによって産生されると予想される場合、10kb未満の長さの候補抵抗性遺伝子をさらに加工することに関連していない場合がある。
一部の実施形態では、抵抗性遺伝子検索の出力は、アセンブルされたDNA配列の予測される分類学に基づきフィルタリングすることもできる。よって、目標が、Actinobacteria由来の天然物を同定することである場合、他の属/種に属すると同定された配列を、その後のワークフローステップに先立ちフィルタリングして取り除くことができる。
一部の実施形態では、抵抗性遺伝子検索の出力は、重複または高度に関連する配列を除去するようにフィルタリングすることもできる。一部の実施形態では、抵抗性遺伝子結果は、部分的配列を除去するようにフィルタリングすることもできる。
一部の実施形態では、抵抗性遺伝子検索の出力は、別の生物由来の対応する標的遺伝子に対する各候補抵抗性配列の相同性に基づき優先順位をつけることができる。よって、一部の実施形態では、候補抵抗性遺伝子は、BLASTを使用して公知のデータベースと比較されて、最強マッチが、所望の標的配列に対するホモログとしてblastによって同定されるか否か決定する。例えば、一部の実施形態では、ヒトプロテアソームのベータ-サブユニットを標的化する天然物の検索は、blastを使用してヒトプロテオームに対して比較されて、候補配列が、プロテオームデータベースからベータ-サブユニットを同定することができたことを確実にするであろう。これらのヒットは、一部の実施形態では、さらなる再調査のために優先順位をつけられるであろう。
一部の実施形態では、候補抵抗性遺伝子を含むと同定され、(必要に応じて)上に記載されているフィルタリングステップをさらに生き延びた、デジタルメタゲノミクスライブラリー由来のDNAデジタル配列は、「シグナル関連の多重遺伝子クラスターデジタル特色セット」と本明細書において称される。
一部の実施形態では、フィルタリングされていない配列は、本明細書にて開示されるワークフローに沿って進むことが可能になる。
多重遺伝子クラスター予測
一部の実施形態では、本開示は、生物学的関連性をシグナル関連の多重遺伝子クラスターデジタル特色セットに割り当てるステップを教示する。一部の実施形態では、関連性を割り当てるステップは、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定し、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップを含む(例えば、生合成遺伝子クラスターの同定)。一部の実施形態では、このステップは、シグナル関連の多重遺伝子クラスターデジタル特色セットが、任意の天然物コード多重遺伝子クラスター(MGC)を含むか否かコンピューターにより決定するステップを含む。
上に記す通り、一部の実施形態では、多重遺伝子クラスター予測は、デジタルメタゲノミクスライブラリーを、天然物多重遺伝子クラスター特色セットを示すシグナルについて問い合わせるためのステップにおいて、方法において先に遂行することができる。よって、一部の実施形態では、多重遺伝子クラスター予測は、複数のシグナル関連の多重遺伝子クラスターデジタル特色セットを産生する。
MGCのためのゲノムマイニングの概念は、様々なアプローチを利用して潜在的天然物(NP)コードクラスターのプールを活用する、多くのバイオインフォマティクスツールの開発によって容易になる。これらのツールは、現在までに発見されたMGCに関連する様々な遺伝子および構造の存在を検索するように設計されたアルゴリズムに頼ることが多い。
天然物の様々な生合成クラスをコードするMGCは、ポリケタイド(PKS)(Hertweck C (2009) The biosynthetic logic of polyketide diversity. Angew Chem Int Ed Engl 48:4688-4716)、非リボソーム性ペプチド(NRP)(Condurso HL, Bruner SD (2012) Structure and noncanonical chemistry of nonribosomal peptide biosynthetic machinery. Nat rod Rep 29:1099-1110)、リボソームにより合成され、翻訳後修飾されたペプチド(RiPP)(Dunbar KL, Mitchell DA (2013) Revealing nature’s synthetic potential through the study of ribosomal natural product biosynthesis. ACS Chem Biol 8:473-487)、サッカライド(Mccranie EK, Bachmann BO (2014) Bioactive oligosaccharide natural products. Nat Prod Rep 31:1026-1042)、テルペノイド(Cane DE, Ikeda H (2012) Exploration and mining of the bacterial terpenome. Acc Chem Res 45:463-472)およびハイブリッド構造を含む。
上述の天然物クラスのそれぞれを、サブクラスへとさらに分けることができる。例えば、ポリケタイドは、その生合成酵素、ポリケタイドシンターゼ(PKS)のアーキテクチャに基づき3つの群へと分けられる。最小では、PKSは、3種の活性を含む:(1)アシルトランスフェラーゼ(AT)-基本単位を選択する決定ゲート;(2)基本単位が共有結合により繋留される、チオール化(T)またはアシルキャリアータンパク質(ACP);および(3)活性化カルボン酸単量体の縮合を触媒するケトシンターゼ(KS)(「ヘッドトゥーテール(head-to-tail)」、脱炭酸的、クライゼン型反応)。触媒ドメインは、I型PKSにおいて融合され、一方、II型PKSは、別々の酵素の解離可能な複合体である。植物において主に見出されるIII型PKSは、マロニル-CoAをTドメインに先ず転移するのではなく、直接的にそれを使用する、多機能酵素である。さらに、I型PKSは、真菌ポリケタイド生合成の典型である通り、反復(すなわち、各ドメインが、1ラウンドより多くの伸長を触媒する)、または細菌I型PKSの原型であるマルチモジュラーのいずれかへとさらにカテゴリー化することができる。加えて、trans-AT PKS(Piel J (2010) Biosynthesis of polyketides by trans-AT polyketide synthases. Nat Prod Rep 27:996-1047)は、ATドメインが自立型であるマルチモジュラーPKSの進化的に明確に異なるサブタイプである。非リボソーム性ペプチドシンテターゼ(NRPS)は、マルチモジュラーPKSと同様の様式で組織化される。アデニル化(A)ドメインは、これをTドメインに転移させるアミノ酸基本単位を選択し(NRPSにおけるペプチジル担体タンパク質、PCPとも呼ばれる)、縮合(C)ドメインは、ペプチド結合形成を触媒する。
公知のMGCのこれらの上述の特色は、それらの関連するシグネチャードメイン/遺伝子と一緒に、本開示のデジタルメタゲノムライブラリー内の新たなMGCの検索モデルを開発するために使用することができる(例えば、シグネチャードメインのさらに多くのための隠れマルコフモデル(HMM)のプロファイルにより)。
一部の実施形態では、生合成遺伝子クラスターの予測は、いくつかの開発されたアルゴリズムを使用して自動化することができる。本開示の方法と適合性であるクラスター予測アルゴリズムの非限定的なリストは、SBSPKS(Anand S, Prasad MV, Yadav G et al (2010) SBSPKS: structure based sequence analysis of polyketide synthases. Nucleic Acids Res 38: W487-W496)、NP.searcher(Li MH, Ung PM, Zajkowski J et al (2009) Automated genome mining for natural products. BMC Bioinformatics 10:185)およびBAGEL3(Van Heel AJ, De Jong A, Montalban-Lopez M et al (2013) BAGEL3: automated identification of genes encoding bacteriocins and (non-)bactericidal posttranslationally modified peptides. Nucleic Acids Res 41:W448-W453)を含み、それぞれポリケタイド、ポリケタイドおよびNRPおよびRiPPに集中する。利用できるin silicoツールの近年の概説については、(Weber T (2014) In silico tools for the analysis of antibiotic biosynthetic pathways. Int J Med Microbiol 304:230-235)を参照されたい。本開示の表1は、さらなるMGC同定アルゴリズムを提示する。
多重遺伝子クラスターの自動的な同定および解析のための最も包括的なコンピューターによるツールは、antiSMASH(抗生物質および二次代謝物解析シェル-現行バージョン5.0)Kai Blin, Simon Shaw, Katharina Steinke, Rasmus Villebro, Nadine Ziemert, Sang Yup Lee, Marnix H Medema, & Tilmann Weber Nucleic Acids Research (2019))である。加えて、Cimermancicら(Cimermancic P, Medema MH, Claesen J et al (2014) Insights into secondary metabolism from a global analysis of prokaryotic biosynthetic gene clusters. Cell 158:412-421)は近年、Pfamドメイン頻度を中心とした天然物の公知および未知のクラスの両方を同定することができるHMMに基づく確率的アルゴリズムであるClusterFinderを開発した。一部の実施形態では、本開示は、MGCの予測のためにDeepBGCを利用する(Geoffrey D Hannigan et al., A deep learning genome-mining strategy for biosynthetic gene cluster prediction, Nucleic Acids Research, Volume 47, Issue 18, 10 October 2019, Page e110を参照)。一部の実施形態では、本開示は、MGC予測ステップのために、表1に記載されているツールのいずれかを使用する。
一部の実施形態では、多重遺伝子クラスター予測ステップからの出力は、デジタルメタゲノミクスライブラリー内の複数のコンピューターにより決定された天然物多重遺伝子クラスターである。一部の実施形態では、結果は、候補抵抗性遺伝子を含むと同様に同定されたDNA配列である。
近接解析
一部の実施形態では、目的の天然物を同定するための本明細書にて開示される方法は、デジタル処理でアセンブルされた生合成オペロン(単数または複数)を含むコンピューターにより決定された(候補)天然物多重遺伝子クラスター特色セットの閾値パラメーター内に位置している、コンピューターにより決定された(候補)生物学的抵抗性遺伝子に基づき目的の天然物を同定するステップを含む。よって、一部の実施形態では、本開示は、そのクラスター境界内のまたは前記境界の予め選択された閾値内の同定された候補抵抗性遺伝子(すなわち、コンピューターにより決定された生物学的抵抗性遺伝子)のうち少なくとも1個を含有する、上に記載されている通りコンピューターにより決定された天然物多重遺伝子クラスター(例えば、antiSMASHまたは等価の解析により同定される通り)を選択する(図6および図8を参照)。
一部の実施形態では、そのクラスター境界内に候補抵抗性遺伝子を含む場合、コンピューターにより決定された多重遺伝子クラスターが選択される。一部の実施形態では、クラスター境界のいずれか一方の1個のオープンリーディングフレーム(ORF)の内に候補抵抗性遺伝子を含む場合(すなわち、予測されるクラスターの外部)、コンピューターにより決定された多重遺伝子クラスターが選択される。すなわち、クラスターの境界と、候補抵抗性遺伝子の転写開始部位との間に1個またはそれ未満のコンピューターにより予測されるオープンリーディングフレームが存在する場合、クラスターが選択される。一部の実施形態では、クラスター境界のいずれか一方の2個のORFの内に候補抵抗性遺伝子を含む場合、コンピューターにより決定された天然物多重遺伝子クラスターが選択される。一部の実施形態では、クラスター境界のいずれか一方の3、4、5、6個またはそれよりも多いORFの内に候補抵抗性遺伝子を含む場合、コンピューターにより決定された天然物多重遺伝子クラスターが選択される。
一部の実施形態では、クラスター境界のいずれか一方の1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kbまたは10kb以内の候補抵抗性遺伝子を含む場合(それらの間の全ての範囲および部分的範囲を含む)、コンピューターにより決定された天然物多重遺伝子クラスターが選択される。すなわち、候補抵抗性遺伝子の開始コドン(MGCの下流の場合)または停止コドン(MGCの上流の場合)のいずれかが、クラスター境界のいずれか一方の1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kbまたは10kb以内にある場合(それらの間の全ての範囲および部分的範囲を含む)、コンピューターにより決定された天然物多重遺伝子クラスターが選択される。
一部の実施形態では、結果として生じる選択された天然物多重遺伝子クラスターは、予測信頼度スコアおよび/または配列類似性に従ってさらにフィルタリングまたは優先順位をつけることができる(図6を参照)。例えば、一部の実施形態では、本開示は、配列類似性に基づき配列を複製排除(dereplicate)するステップを教示する。一部の実施形態では、本開示は、密接に関係している配列をフィルタリングして取り除くことにより複製排除するステップを教示する(例えば、配列相同性によって)。一部の実施形態では、複製排除または優先順位付けは、生合成遺伝子類似性クラスタリングおよび探査エンジンBiG-SCAPE(Navarro-Munoz, J.C., Selem-Mojica, N., Mullowney, M.W. et al. A computational framework to explore large-scale biosynthetic diversity. Nat Chem Biol 16, 60-68 (2020))を使用して遂行される。
製造および検証
一部の実施形態では、本開示は、本開示の方法により同定された新たな多重遺伝子クラスターを実験的に検証するステップを想定する。すなわち、一部の実施形態では、本開示は、天然物をコードする(候補/選択された)MGCまたはそのリファクタリングされたバージョンを含む細胞の製造を教示する。一部の実施形態では、本開示は、コンピューターにより決定された天然物多重遺伝子クラスター特色セットまたはそのリファクタリングされたバージョンを含む細胞の製造を教示する。一部の実施形態では、製造ステップは、本開示の他のMGC発見および抵抗性遺伝子発見ワークフローにも適用される。
一部の実施形態では、配列ライブラリーから回収されたMGC含有配列は、発現のために宿主細胞へと直接的にクローニングすることができる。一部の実施形態では、MGCは、異なる細胞での発現のためにリファクタリング(refactoring)(例えば、最適化)される必要がある。当業者であれば、MGCをリファクタリングする方法を熟知しているであろう。例えば、一部の実施形態では、MGCをリファクタリングするステップは、コードされた遺伝子をコドン最適化するステップを含む。一部の実施形態では、MGCをリファクタリングするステップは、宿主細胞におけるより優れた発現のために、1個または複数の調節配列を他の配列に置き換えるステップを含む。一般的なリファクタリング戦略に関するガイダンスは、Gao-Yi Tan, Tiangang Liu, Rational synthetic pathway refactoring of natural products biosynthesis in actinobacteria, Metabolic Engineering, Volume 39, 2017, Pages 228-236において見出すことができる。
抵抗性遺伝子ワークフロー代替実施形態
上に開示される抵抗性遺伝子ワークフローは、最初に抵抗性遺伝子相同性検索を遂行し、後に多重遺伝子クラスター予測を遂行するという、一般順序に従った。本開示はまた、多重遺伝子クラスター予測が最初に遂行され、抵抗性遺伝子相同性検索が次に遂行されるような、検索順序が反転された実施形態を想定する。実際に、順序を反転することが解析効率を生じ得る、いくつかの実例が存在し得る。例えば、多重遺伝子クラスター予測ツールが、抵抗性遺伝子相同性検索よりもコンピューター的に負荷が少ない場合、最初に多重遺伝子クラスター予測を導くことにより、最初に検索空間を絞り込むことがコンピューター的に効率的であり得る。同様に、ユーザーが、同じデジタルメタゲノミクスライブラリー内の複数の標的抵抗性遺伝子の検索を遂行することを予想する場合、最初にライブラリー全体にわたり網羅的多重遺伝子クラスター解析を遂行し、次いで、それらの同定されたクラスターを使用して、その後の抵抗性遺伝子相同性検索をスピードアップすることがコンピューター的に効率的であり得る。これらのステップの順序を反転することが望ましい、他の状況が生じ得る。あらゆる可能なシナリオを同定するのではなく、本開示は、一部の実施形態では、順序が反転され得ることを単に記述する。
標的化されない抵抗性シグナル多重遺伝子クラスター特色セット発見ワークフロー
天然物コード配列ライブラリーからのAg、薬物および消費製品発見の潜在性は、大部分は未開発のままである。メタゲノムライブラリーは特に、探索されていない遺伝的多様性の豊富な供給源を表す。しかし、これらのメタゲノムライブラリー内に含有される発見されていない天然物の多くは、現存する天然物およびその関連する合成オペロンと有意関係性を欠く、完全に新たな分子であると予想される。本開示のツールは、本セクションにおいて説明される通り、生合成オペロンの保存された構造的特性を活用して、新たな天然物、および可能であれば、その対応する新規抵抗性遺伝子(標的化されない抵抗性シグナル多重遺伝子クラスター特色セット発見プラットフォーム)を同定する。
一部の実施形態では、本開示の標的化されない抵抗性シグナル多重遺伝子クラスター特色セット発見プラットフォームは、次の一般ワークフローに従う:a)長いアセンブリーデジタルメタゲノムライブラリー内の天然物多重遺伝子クラスター特色セットをコンピューターにより予測するステップと、b)予測される天然物多重遺伝子クラスター特色セット内(または前記クラスターの境界の1~2個のORF内)の遺伝子をアノテートするステップと、c)i)予測される生合成機能を有さず、ii)(必要に応じて)公知の抵抗性遺伝子に対するホモログとして認識されない遺伝子に集中するように、予測される天然物多重遺伝子クラスター特色セットから、アノテートされた遺伝子をフィルタリングし、これにより、複数のフィルタリングされた目的の遺伝子を産生するステップと、d)複数のフィルタリングされた目的の遺伝子のうち少なくとも1個を含む、1個または複数の天然物多重遺伝子クラスター特色セットを選択し、これにより、候補MGC配列のライブラリーを創出するステップ。一部の実施形態では、ワークフローは、e)1個または複数の宿主細胞を製造するステップであって、各製造された宿主細胞が、候補MGC配列の中からの天然物多重遺伝子クラスター特色セットを含む、ステップと、f)ステップ(e)の製造された宿主細胞を培養するステップと、g)ステップ(f)の培養物由来の使用済み培養物を、天然物の存在について解析するステップであって、前記天然物が、製造された宿主細胞中に存在する天然物多重遺伝子クラスター特色セットを欠く対照宿主細胞の培養物中には存在しない、ステップとをさらに含む。本ワークフローの各ステップについて、下でより詳細に記述する。
一部の実施形態では、遺伝子は、antiSMASHによって評価される場合、MiBigにおいて10、9、8、7、6、5、4、3または2を超えるBLASTヒットを有する場合、生合成機能を有することが予測される。
一部の実施形態では、方法は、生合成オペロン内になく、それに直接隣接してもいない遺伝子をフィルタリングして取り除くステップを含む。一部の実施形態では、方法は、コア生合成遺伝子の1kb、2kb、3kb、4kb、5kbまたは10kb以内にない遺伝子をフィルタリングして取り除くステップを含む。一部の実施形態では、方法は、必須遺伝子(例えば、www.essentialgene.orgに収載される通り)ではない、または必須遺伝子と250、200、150、100もしくは50よりも低いBLAST結果ビットスコアを有する遺伝子をフィルタリングして取り除くステップを含む。一部の実施形態では、方法は、輸送関連または調節遺伝子としてアノテートされる遺伝子をフィルタリングして取り除くステップを含む。一部の実施形態では、アノテーションは、例えば、antiSMASHを含む、任意のアノテーションエンジンによって取り扱われる。
抵抗性機構によるフィルタリング
抵抗性遺伝子は、種々の抵抗性機構により、天然物に対する抵抗性を分け与えることができる。例えば、図5を参照されたい。あらゆる抵抗性機構の抵抗性遺伝子を有するMGCを同定することが役立ち得るが、一部の適用では、1種または複数の抵抗性機構により機能することが予測されるMGC/抵抗性遺伝子を検索することが有益であり得る。
したがって、一部の実施形態では、方法は、所望の抵抗性機構とは異なる抵抗性機構を有することが予測される遺伝子をフィルタリングして取り除くステップを含む。よって、一部の実施形態では、方法は、所望の抵抗性機構とは異なる抵抗性機構を有する抵抗性遺伝子に対する類似性を示す遺伝子をフィルタリングして取り除くステップを含む。一部の実施形態では、方法は、所望の抵抗性機構を有する抵抗性遺伝子に対する類似性を示す遺伝子を除いて全ての遺伝子をフィルタリングするステップを含む。
一部の実施形態では、抵抗性遺伝子機構の決定は、機構毎にresfamモデルによる遺伝子の解析により評価される。
一部の実施形態では、所望の抵抗性機構は、標的バリアントに基づく抵抗性である。その理由として、バリアントに基づく抵抗性機構が、コードされる天然物の生物学的標的に関する情報を提供することが挙げられる。すなわち、バリアントに基づく抵抗性遺伝子の存在は、抵抗性遺伝子の非バリアント等価物(すなわち、バリアントが取って代わる遺伝子)が、MGCによってコードされる天然物の標的である可能性があることを示す。よって、機構によるフィルタリングは、一部の実施形態では、新たに発見された天然物の機能性に関する情報を提供することもできる。
追加的な標的化されないワークフロー
一部の実施形態では、本開示は、予測される抵抗性遺伝子を有する候補多重遺伝子クラスター特色セットを同定するためのin silico方法であって、a)デジタルメタゲノムライブラリー内の天然物多重遺伝子クラスター特色セットをコンピューターにより予測するステップと、b)生合成潜在性スコアを多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記生合成潜在性スコアが、遺伝子が生合成酵素であることの計算された尤度に基づく、ステップと、c)必要に応じて、公知の抵抗性遺伝子スコアを多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記公知の抵抗性スコアが、公知の抵抗性遺伝子との遺伝子の共有される配列同一性に基づく、ステップと、d)予測される抵抗性遺伝子を含む候補多重遺伝子クラスター特色セットを選択するステップであって、前記予測される抵抗性遺伝子が、予め設定された組合せスコア閾値を示し、前記組合せスコアが、生合成潜在性スコアおよび公知の抵抗性遺伝子スコア(割り当てられた場合)の組合せに基づく、ステップとを含む方法を教示する。
一部の実施形態では、方法は、生合成オペロンスコアを多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記生合成オペロンスコアが、その多重遺伝子クラスター特色セット内の生合成オペロンに対する遺伝子の近接に基づき、組合せスコアがまた、生合成オペロンスコアに基づく、ステップを含む。
一部の実施形態では、方法は、コア生合成遺伝子距離スコアを多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記コア生合成遺伝子距離スコアが、その多重遺伝子クラスター特色セット内のコア生合成遺伝子に対する遺伝子の近接に基づき、組合せスコアがまた、コア生合成遺伝子距離スコアに基づく、ステップを含む。
一部の実施形態では、方法は、必須遺伝子スコアを多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記必須遺伝子スコアが、公知の必須遺伝子配列のリストに対する遺伝子の最高の配列同一性に基づき、組合せスコアがまた、必須遺伝子スコアに基づく、ステップを含む。一部の実施形態では、選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子は、必須遺伝子と少なくとも99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%または70%の配列同一性を共有する。
一部の実施形態では、選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子は、公知の抵抗性遺伝子と99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%または70%未満の配列同一性を共有する。
一部の実施形態では、選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子は、公知の抵抗性遺伝子と99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%または70%超の配列同一性を共有する。一部の実施形態では、この戦略は、抵抗性遺伝子ワークフローのさらなる絞り込み/改善を表す。
一部の実施形態では、選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子は、生合成酵素と90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%または70%未満の配列同一性を共有する。一部の実施形態では、生合成酵素は、予測される抵抗性遺伝子を含有する多重遺伝子クラスター特色セットによってコードされる天然物のための生合成酵素である。一部の実施形態では、生合成酵素は、多重遺伝子クラスター特色セット(例えば、MiBig)によってコードされる天然物に関連する生合成酵素である。一部の実施形態では、選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子は、antismashによって評価される場合、miBIGにおける8、6、4または2未満のBLASTヒットを返す。
一部の実施形態では、選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子は、組合せスコアを有し、それぞれ公知の生合成酵素または公知の抵抗性遺伝子と比較した場合、遺伝子が生合成酵素であることの計算された尤度は低く、公知の抵抗性遺伝子との共有される配列同一性は低い。一部の実施形態では、選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子は、組合せスコアを有し、それぞれ公知の生合成酵素または公知の抵抗性遺伝子と比較した場合、遺伝子が生合成酵素であることの計算された尤度は低く、公知の抵抗性遺伝子との共有される配列同一性は高い。
一部の実施形態では、選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子は、選択された候補多重遺伝子クラスター特色セット内の生合成オペロン内にまたはそれに直接隣接して位置する(すなわち、その間に他のORFがない)。一部の実施形態では、選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子は、選択された候補多重遺伝子クラスター特色セットに含有される生合成オペロンの内部にまたは生合成オペロンの500bp以内に位置する。
一部の実施形態では、選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子は、コア生合成酵素の1kB、2kb、3kb、4kbまたは5kb以内に位置する。
一部の実施形態では、方法は、輸送遺伝子潜在性スコアを多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記輸送遺伝子潜在性スコアが、輸送関連遺伝子である遺伝子の尤度(例えば、配列同一性により)に基づき、組合せスコアがまた、コア生合成遺伝子距離スコアに基づく、ステップを含む。一部の実施形態では、輸送遺伝子潜在性は、antiSMASH等のアノテーションエンジンにより評価される。
一部の実施形態では、方法は、調節遺伝子潜在性スコアを多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記調節遺伝子潜在性スコアが、調節遺伝子である遺伝子の尤度(例えば、配列同一性により)に基づき、組合せスコアがまた、コア生合成遺伝子距離スコアに基づく、ステップを含む。一部の実施形態では、調節遺伝子潜在性は、antiSMASH等のアノテーションエンジンにより評価される。
一部の実施形態では、方法は、抵抗性機構スコアを多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記抵抗性機構スコアが、所望の抵抗性機構とは異なる抵抗性機構を有する抵抗性遺伝子に対する遺伝子の類似性に基づき割り当てられ、組合せスコアがまた、抵抗性機構スコアに基づく、ステップを含む。
一部の実施形態では、方法は、抵抗性機構スコアを多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記抵抗性機構スコアが、所望の抵抗性機構を有する抵抗性遺伝子に対する遺伝子の類似性に基づき割り当てられ、組合せスコアがまた、抵抗性機構スコアに基づく、ステップを含む。
一部の実施形態では、所望の抵抗性機構は、標的バリアントに基づく抵抗性である。
MGCをコンピューターにより予測する
一部の実施形態では、標的化されない抵抗性シグナル多重遺伝子クラスター特色セット発見プラットフォームは、a)長いアセンブリーデジタルメタゲノムライブラリー内の天然物多重遺伝子クラスター特色セットをコンピューターにより予測するステップを含む。一部の実施形態では、本ステップは、ヘッダー「多重遺伝子クラスター予測」の下に、上に記載されている通りに遂行される。手短に説明すると、デジタルメタゲノミクスライブラリー内の配列は、MGC予測アルゴリズムにより解析されて、天然物多重遺伝子クラスター特色セットを同定する。一部の実施形態では、天然物多重遺伝子クラスター特色セットの同定は、antiSMASHにより為される。
MGC特色セット内の遺伝子をアノテートする
一部の実施形態では、標的化されない抵抗性シグナル多重遺伝子クラスター特色セット発見プラットフォームは、b)予測される天然物多重遺伝子クラスター特色セット内(または前記クラスターの境界の1~2個のORF内)の遺伝子をアノテートするステップを含む。様々なアノテーション(例えば、調節または輸送遺伝子)に基づく、他のフィルタリングステップも列挙される。一部の実施形態では、予測される天然物多重遺伝子クラスター特色セットのアノテーションは、1種または複数のアノテーションエンジンを使用して、公知の遺伝子に対するMGCにおける配列の相同性に基づき為される。
一部の実施形態では、アノテーションは、antiSMASHにより遂行され、そのMGC同定もまた、各MGC内の遺伝子のアノテーションを含む。一部の実施形態では、アノテーションステップは、公開データベースに含有される公知の生合成酵素と、MGC内の配列との比較により為される。
例えば、一部の実施形態では、アノテーションは、MIBiG(//mibig.secondarymetabolites.org/download)等、天然物遺伝子クラスターの公開データベースに含有される生合成酵素に対する相同性に基づく。よって、一部の実施形態では、MIBiGデータベース由来の生合成酵素のアミノ酸配列は、アノテーション「生合成」および「生合成-追加的」により問い合わされ、配列genbankファイルから抽出される。アミノ酸配列の結果として生じるセットは、CD-HITを使用してクラスター化されて、冗長性を低下させる。一部の実施形態では、アミノ酸配列の結果として生じる非冗長性セットは、生合成酵素ホモログを同定するために、MGC内の配列のより大型のセットに対する問い合わせに使用することができる生合成酵素データベースを表す。
当業者であれば、本開示のワークフローと適合性の様々な他の遺伝子アノテーションツールを熟知しているであろう。アノテーションツールの非限定的なリストを、下に表3として提示する。
表3-配列アノテーションツールの非限定的なリスト
Figure 2023513314000015
Figure 2023513314000016
Figure 2023513314000017
Figure 2023513314000018
生合成遺伝子をフィルタリングして取り除く
一部の実施形態では、標的化されない抵抗性シグナル多重遺伝子クラスター特色セット発見プラットフォームは、c)i)予測される生合成機能を有さず、ii)(必要に応じて)公知の標的抵抗性遺伝子に対するホモログでもない、遺伝子に集中するように、予測される天然物多重遺伝子クラスター特色セットから、アノテートされた遺伝子をフィルタリングし、これにより、複数のフィルタリングされた目的の遺伝子を産生するステップを含む。
生合成的役割を有さない遺伝子
よって、一部の実施形態では、本開示は、予測される天然物多重遺伝子クラスター特色セットから遺伝子をフィルタリングして取り除くステップであって、前記フィルタリングして取り除かれた(すなわち、考慮から除去された)遺伝子が、アノテーションステップによって、生合成的役割を有するとアノテートされた、ステップを教示する。
一部の実施形態では、方法は、生合成オペロン内になく、それに直接隣接してもいない遺伝子をフィルタリングして取り除くステップを含む。一部の実施形態では、方法は、コア生合成遺伝子の1kb、2kb、3kb、4kb、5kbまたは10kb以内にない遺伝子をフィルタリングして取り除くステップを含む。一部の実施形態では、方法は、必須遺伝子(例えば、www.essentialgene.orgに収載される通り)ではない、または必須遺伝子と250、200、150、100もしく50よりも低いBLAST結果ビットスコアを有する、遺伝子をフィルタリングして取り除くステップを含む。一部の実施形態では、方法は、輸送関連または調節遺伝子としてアノテートされる遺伝子をフィルタリングして取り除くステップを含む。
他のMGCにおける公知の標的抵抗性遺伝子のホモログではない遺伝子。
一部の実施形態では、本開示は、予測される天然物多重遺伝子クラスター特色セットから遺伝子をフィルタリングして取り除くステップであって、前記フィルタリングして取り除かれた(すなわち、考慮から除去された)遺伝子が、他のMGCにおける公知の標的抵抗性遺伝子のホモログである、ステップを教示する。よって、一部の実施形態では、本開示は、MGC内の遺伝子を、公知の標的抵抗性遺伝子のリストと比較するステップと、そのホモログを同定するステップとを教示する。
一部の実施形態では、公知の標的抵抗性遺伝子のリストは、標的タンパク質のバリアントをコードすることによって抵抗性をもたらさない抵抗性遺伝子を含むResFamデータベース由来のResFamに由来する。一部の実施形態では、抵抗性遺伝子のデータベースは、Dantas Lab Resfam(Gibson MK, Forsberg KJ, Dantas G. Improved annotation of antibiotic resistance functions reveals microbial resistomes cluster by ecology. The ISME Journal. 2014, doi:ISMEJ.2014.106)を含む。一部の実施形態では、相同性の評価は、標的抵抗性に基づき候補抵抗性遺伝子の同定と同じ様式で遂行される(すなわち、ヘッダー「抵抗性遺伝子相同性検索」の下に、本文書に記載されている通り)。手短に説明すると、相同性は、配列同一性、配列類似性に基づき、および/またはHMM予測モデルにより、決定することができる。
一部の実施形態では、配列は、公知の抵抗性遺伝子と60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%超の配列同一性を共有する場合(それらの間の全ての範囲および部分的範囲を含む)、公知の抵抗性遺伝子のホモログと考慮される。一部の実施形態では、その候補抵抗性ビットスコアの最良のマッチのビットスコアに対する比が、0.6、0.7、0.8または0.9(それらの間の全ての範囲および部分的範囲を含む)を超える場合、配列は、公知の抵抗性遺伝子のホモログと考慮される。
クラスターにおける少なくとも1種の生合成遺伝子/酵素と同時調節される遺伝子
一部の実施形態では、本開示は、追加的なステップである、c)iii)予測される天然物多重遺伝子クラスター特色セットから、アノテートされた遺伝子をフィルタリングして、予測される生合成機能がない遺伝子であって、また、予測される生合成機能を有する多重遺伝子クラスター特色セット内の別の遺伝子と同時調節される遺伝子を含む遺伝子のみを残すステップをさらに教示する。一部の実施形態では、本開示は、天然物多重遺伝子クラスター特色セットの生合成遺伝子のうち少なくとも1種と同時調節される遺伝子に集中するように、遺伝子をフィルタリング除去するステップをさらに教示する。すなわち、一部の実施形態では、本開示は、複数のフィルタリングされた目的の遺伝子が、天然物多重遺伝子クラスター特色セットにおける少なくとも1種の生合成遺伝子/酵素と同時調節されることを教示する。
一部の実施形態では、本開示は、天然物多重遺伝子クラスター特色セットの生合成遺伝子のうち少なくとも1種と同時調節される遺伝子に集中するように、生合成オペロン内になく、それに直接隣接してもいない遺伝子をフィルタリング除去するステップをさらに教示する。すなわち、一部の実施形態では、本開示は、複数のフィルタリングされた目的の遺伝子が、天然物多重遺伝子クラスター特色セットにおける少なくとも1種の生合成遺伝子/酵素と同時調節される(例えば、生合成オペロンにより)ことを教示する。
当業者であれば、2種の遺伝子が同時調節されるか否か経験的に決定するまたはコンピューターにより予測する様々な仕方に気づくであろう。例えば、一部の実施形態では、多重遺伝子クラスターの構造が、2種の遺伝子が同時調節されることを示す(例えば、遺伝子が、オペロン内に含まれる、または予測されるポリシストロニックmRNAの一部である場合、2種の遺伝子は、同時調節されると考慮されるであろう。一部の実施形態では、第1の遺伝子の発現が、第2の遺伝子の産生と相関すると経験的に決定される場合(例えば、両方の遺伝子が、同様の条件下で活性化/抑圧される場合)、2種の遺伝子は、同時調節されると考慮されるであろう。一部の実施形態では、それらのプロモーターが、同じ転写因子に結合することが予測されるまたは示される結合部位を含有する場合、2種の遺伝子は、同時調節されると考慮されるであろう。
一部の実施形態では、結果として生じる複数のフィルタリングされた目的の遺伝子は、複数のフィルタリングされた目的の遺伝子のうち少なくとも1個を含む、1個または複数の天然物多重遺伝子クラスター特色セットを選択するために使用され、これにより、候補MGC配列のライブラリーを創出する。
推移的な多重遺伝子クラスター特色セット発見ワークフロー
一部の実施形態では、本開示は、新規天然物コード多重遺伝子クラスターを同定する推移的な方法を教示する。一部の実施形態では、本開示の推移的な方法は、公知の/予測される目的のMGCの特色に基づく、MGCの水平探索を表す。推移的な検索は、一部には、公知のMGCのホモログ/オルソログが、宿主細胞のゲノムの他の部分に、または異なる微生物種に存在し得るという発明者の発見に基づいており、前記ホモログ/オルソログは、本来の公知のMGCの象徴的な抵抗性遺伝子を欠く、または本来の遺伝子と殆ど類似点がない抵抗性遺伝子を含有する。
よって、一部の実施形態では、本開示は、候補多重遺伝子クラスター(MGC)を同定するためのin silico方法であって、a)公知のまたは予測されるMGCの配列を提供するステップと、b)長いアセンブリーデジタルメタゲノムライブラリー内の天然物多重遺伝子クラスター特色セットをコンピューターにより予測し、前記予測の出力を、複数のシグナル関連の多重遺伝子クラスターデジタル特色セットとして供給するステップと、c)ステップ(b)の複数のシグナル関連の多重遺伝子クラスターデジタル特色セットの中から候補MGCを選択するステップであって、前記候補MGCが、i)公知のまたは予測されるMGCおよび候補MGC内の生合成酵素の間の配列相同性;ii)公知のまたは予測されるMGCおよび候補MGC内の同数の各型の生合成モジュール;ならびにiii)公知の/予測されるMGCおよび候補MGCによって産生される天然物の予測される化学構造の類似性によって決定される、公知のまたは予測されるMGCとの類似性からなる群より選択される少なくとも1種の類似性因子を含み、これにより、抵抗性遺伝子をコードしない、または本来の遺伝子に似ていない抵抗性遺伝子を含有する候補MGCを同定する、ステップとを含む方法を教示する。一部の実施形態では、類似性因子(i)のみが使用される。一部の実施形態では、MGCは、少なくとも2種の類似性因子(例えば、(i)と(ii)、または(i)と(iii)、または(ii)と(iii)を含む)を含むものに基づき選択される。
一部の実施形態では、新規候補MGCの推移的な(水平)検索は、公知のまたは予測されるMGCに対するMGC候補の類似性に基づく。すなわち、一部の実施形態では、本開示の方法は、「公知のまたは予測されるMGCの配列を提供する」ステップを含む。一部の実施形態では、公知のMGCは、天然物を産生することが実験的に検証および実証されたMGCである(例えば、方法を実行する人物によって保持されるもしくは公知である経験的データにより、または学術誌に報告される通り)。一部の実施形態では、予測されるMGCは、本開示のMGC発見方法のうちいずれか1種によって天然物をコードすることが予測されるMGCである。一部の実施形態では、予測されるMGCは、i)抵抗性遺伝子を含み、ii)本文書の「多重遺伝子クラスター予測」セクションにおいて記述される通り、少なくとも一部には、PKS、NRP、RiPP等、MGC特色の存在に基づき多重遺伝子クラスターをコードすると同定される、MGCである。
一部の実施形態では、本推移的な検索ワークフローは、公知のまたは予測されるMGCとの類似性因子を含む候補MGCを同定するステップを含む。一部の実施形態では、公知のまたは予測されるMGCとの類似性は、クラスターにおける生合成酵素の間の配列相同性によって決定される(例えば、例えば、BLAST、HMMによって、またはantiSMASHアノテーションエンジン等の他のツールによって決定される通り)。一部の実施形態では、公知のまたは予測されるMGCとの類似性は、クラスターにおけるコア生合成酵素の間の配列相同性によって決定される(例えば、候補MGCにおけるACADは、例えば、BLASTまたはHMMによって決定され、下でより詳細に記述される通り、公知のまたは予測されるMGCにおけるACADに対して有意な類似性を有する)。一部の実施形態では、本開示は、候補MGCが、公知のまたは予測されるMGCの生合成酵素の全てに対するホモログを含有するであろうことを教示する。一部の実施形態では、候補MGCは、公知のまたは予測されるMGCの少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19種の生合成酵素に対するホモログを含有する。一部の実施形態では、候補MGCは、公知のまたは予測されるMGCの生合成酵素の少なくとも10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または100%(それらの間の全ての範囲および部分的範囲を含む)に対するホモログを含有する。
一部の実施形態では、生合成遺伝子/酵素は、生化学的合成反応を触媒することができる、または反応を触媒する複合体の一部である、発現されたタンパク質(または文脈に応じて、これをコードする核酸配列)を含む。すなわち、単独では触媒活性を有さないが、生化学的反応を触媒することができる1種または複数の他の酵素と複合体形成する配列は、生合成酵素と考慮される。例えば、タンパク質TfuAは、それ自体では触媒活性を有さないが、天然物の産生においてYcaOと複合体形成する。一部の実施形態では、生合成酵素は、1種または複数のアノテーションエンジンによって同定される。一部の実施形態では、遺伝子は、antiSMASHによってそのようなものとしてアノテートされる場合、生合成遺伝子/酵素と考慮される。一部の実施形態では、遺伝子は、MiBIGデータベースにおいてそのようなものとして収載される場合、生合成遺伝子/酵素と考慮される。
一部の実施形態では、本開示は、候補MGCが、公知のまたは予測されるMGCのコア生合成酵素の全てに対するホモログを含有するであろうことを教示する。当業者であれば、関連MGCを定義する遺伝子を容易に同定することができるであろう(すなわち、「コア生合成酵素」を同定すること)。一部の実施形態では、「コア生合成酵素」は、MGCによって変動する。例えば、一事例では、これは、分子足場を生成する2種の生合成酵素であり得る。別の事例では、これは、コア生合成酵素と特有の前駆体を利用することに関与する酵素の存在であり得る。別の事例では、特徴的改変を触媒するテーラリング酵素は、クラスターに特徴的なものであり得る。一部の実施形態では、遺伝子は、アノテーションエンジンによってそのようなものとしてアノテートされる場合、「コア生合成酵素」と考慮される。一部の実施形態では、遺伝子は、antiSMASHによってそのようなものとしてアノテートされる場合、「コア生合成酵素」と考慮される。本開示は、「コア生合成」酵素または遺伝子を同定する方法を教示する。一部の実施形態では、コア生合成遺伝子は、天然物の産生において生合成的役割を有し、分子のクラスの全てのメンバーによっては共有されない分子の構造または機能に決定的な部分を形成する、MGC内の酵素をコードする遺伝子である。一部の実施形態では、これらの酵素は、足場または弾頭のいずれかを産生する。例えば、エポキソミシンクラスターにおいて、ACAD遺伝子は、これらのうちの1つとなるであろう(分子機能に不可欠なエポキシケトンを形成する)が、NRPS遺伝子は、そうならないであろう(NRPS遺伝子は、全NRPSクラスターの間で共有される)。一部の実施形態では、これらの酵素は、標的結合および薬物動態特性に影響し得るが、明らかな構造的足場または弾頭を形成しない、官能基および部分を導入するテーラリング酵素である。例としては、チオアミド形成を触媒するTfuA遺伝子、およびチオビリダミド生合成におけるセリン/スレオニン脱水を触媒するHopA1様遺伝子がある。これらは両者共に、いくつかの非チオビリダミドクラスターが有するテーラリング反応である(準特有)が、2種の交差は、チオビリダミド様クラスターを大いに富化するであろう。
一部の実施形態では、「コア生合成」酵素のさらなる選択は、NPの産生に重要であり、目的のNP内で富化されるまたは特有であると考えられる酵素の存在についてフィルタリングすることにより、ユーザーが、候補MGCのプールを、目的のNPをコードする可能性が最も高いものへとさらに富化することを可能にする。一部の実施形態では、「コア生合成」酵素として認定しないであろう酵素は、一般的な生合成またはテーラリングの酵素である。一般的な生合成酵素は、代謝物のクラスのためのクラス定義足場を建設する酵素である。例としては、III型PKSにおけるカルコン/スチルベンシンターゼ遺伝子がある。一般的なテーラリング酵素は、クラス定義官能基を建設する酵素である。例としては、O-メチルトランスフェラーゼまたはヒドロキシラーゼがある。これらは、多くの異なるクラスターにわたり共通するのみならず、クラスターアナログにおけるそれらの存在は、多くの場合、信頼度できない。よって、一部の実施形態では、一般的な生合成およびテーラリングの酵素は、個別に、候補MGCのプールを、目的のNPをコードするものについて富化するとは予想されないであろう(例えば、初期の公知のまたは予測されるMGCによってコードされるものと同様のNPをコードする推移的な検索の場合)。用語「コア生合成酵素」は、用語「コア生合成遺伝子」と互換的に使用される。
一部の実施形態では、候補MGCは、公知のまたは予測されるMGCの少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19種のコア生合成酵素に対するホモログを含有する。一部の実施形態では、候補MGCは、公知のまたは予測されるMGCのコア生合成酵素の少なくとも10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または100%(それらの間の全ての範囲および部分的範囲を含む)に対するホモログを含有する。
一部の実施形態では、相同性の評価は、標的抵抗性に基づき、候補抵抗性遺伝子の同定と同じ様式で遂行される(すなわち、ヘッダー「抵抗性遺伝子相同性検索」の下に、本文書に記載されている通り)。手短に説明すると、相同性は、配列同一性、配列類似性に基づき、および/またはHMM予測モデルにより、決定することができる。
一部の実施形態では、配列は、初期の公知のまたは予測されるMGCの生合成遺伝子/酵素と60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%超の配列同一性を共有する場合(それらの間の全ての範囲および部分的範囲を含む)、生合成またはコア生合成遺伝子/酵素のホモログと考慮される。一部の実施形態では、その候補抵抗性ビットスコアの最良のマッチのビットスコアに対する比が、0.6、0.7、0.8または0.9(それらの間の全ての範囲および部分的範囲を含む)を超える場合、配列は、公知の抵抗性遺伝子のホモログと考慮される。
一部の実施形態では、本開示は、新たなMGCを同定するために使用することができる、公知のまたは予測されるMGCとの追加的な類似性因子を教示する。一部の実施形態では、類似性は、両方のクラスターにおける遺伝子の同様の相補体を同定することにより決定される(例えば、両方のクラスターにおけるコードされるテーラリング酵素の同じセット)。
一部の実施形態では、遺伝子の同様の相補体は、候補MGCが、公知のまたは予測されるMGCにおいて同数(またはプラスマイナス1~2個)の各型の生合成モジュールを含有することを意味する。例えば、候補MGCは、3個のPKS様モジュールおよび4個のNRS様モジュールを有した場合、遺伝子の同様の相補体を有し、予測されるMGCは、3個のPKS様モジュールおよび3個のNRS様モジュールを有した。
一部の実施形態では、公知のまたは予測されるMGCとの類似性は、公知の/予測されるMGCおよび候補MGCによって産生される天然物の予測される化学構造の類似性によって決定される。当業者であれば、MGCから化学構造を予測する仕方に気づくであろう。MGCからNP化学構造を予測することができるツールの非限定的なリストは、下の表4に提示する。遺伝子配列からの化学構造解明についての追加的な記述は、本文書の「構造解明- 遺伝子から化学へ」セクションに提示する。
表4-化学構造予測ツールの非限定的なリスト
Figure 2023513314000019
一部の実施形態では、予測される化学構造の類似性は、ヒトの点検によって為される。よって、一部の実施形態では、2種の予測される化学構造は、同じコア構造エレメントを共有する場合、同様であると考慮されるであろう。他の実施形態では、化学構造類似性は、Nikolova, N. and Jaworska, J. (2003), Approaches to Measure Chemical Similarity- a Review. QSAR Comb. Sci., 22: 1006-1026に開示される方法を含む、当業者にとって公知の任意のアルゴリズム/コンピューターによる方法によって決定される。
一部の実施形態では、NPの構造的類似性は、Tanimoto係数に基づき、pythonライブラリーRDKit(www.rdkit.org)を使用して、NP対応フィンガープリントからペアワイズNP構造類似性を計算することにより評価される。手短に説明すると、morganフィンガープリントは、複数のシグナル関連の多重遺伝子クラスターデジタル特色セット(例えば、antiSMASHによって同定されたMGC)によって、合成された(または合成されることが予測される)NPのため、および合成された(または合成されることが予測される)NP(複数)のために調製される。次いで、これらのフィンガープリントが比較されて、最も類似したNP構造およびその対応する候補MGCを同定する。
一部の実施形態では、Tanimoto係数は、二分変数のための式により計算される。
Figure 2023513314000020
一部の実施形態では、Tanimoto係数は、連続型変数のための次式を使用して計算される。
Figure 2023513314000021
式中、分子AおよびBの間のSAB類似性スコアは、2種の分子の間で共通した「C」特色を、「A」第1の分子の特色、プラス「B」第2の分子の特色、マイナスCで割ることにより計算される。すなわち、Aは、分子Aにおけるオン(on)ビットの数であり、Bは、分子Bにおけるオンビットの数であり、一方、Cは、両方の分子におけるオンであるビットの数である。xjAは、分子Aのj番目の特色を意味する。xjBは、分子Bのj番目の特色を意味する。Tanimoto係数を計算する仕方に関するさらなる情報については、Bajusz, D., Racz, A. & Heberger, K. Why is Tanimoto index an appropriate choice for fingerprint-based similarity calculations?. J Cheminform 7, 20 (2015)を参照されたい。
一部の実施形態では、Tanimoto係数は、0~1の範囲に及び、0は類似性なしであり、1は同一分子である。一部の実施形態では。一部の実施形態では、2種の天然物構造は、少なくとも0.6、0.7、0.8、0.9または0.95(それらの間の全ての範囲および部分的範囲を含む)のTanimoto類似性係数を有する場合、同様であると考慮される。
一部の実施形態では、類似性は、上に記載されている2種またはそれよりも多い方法の組合せによって評価される(例えば、全てのもしくはコア生合成酵素の間の配列相同性によって、両方のMGCにおいて遺伝子の同様の相補体を含有することによって、または予測される化学構造の類似性によって)。一部の実施形態では、本開示の推移的な検索は、候補MGCがその境界内に抵抗性遺伝子を欠くにもかかわらず、推定上の機能をこのMGCに割り当てることができる。
一部の実施形態では、本開示は、改変された推移的なMGC発見ワークフローを教示する。例えば、一部の実施形態では、本開示は、候補多重遺伝子クラスター(MGC)を同定するためのin silico方法であって、a)公知のまたは予測されるMGCの生合成遺伝子/酵素を同定するステップと、b)デジタルメタゲノミクスライブラリーを、(a)において同定された生合成遺伝子/酵素のそれぞれのホモログについて問い合わせるステップであって、前記デジタルメタゲノミクスライブラリーが、デジタル処理でアセンブルされたコンティグを含む、ステップと、c)デジタルメタゲノミクスライブラリーの単一のコンティグ内の生合成酵素のホモログの存在に基づき、新たな候補MGCを同定するステップとを含む方法を教示する。一部の実施形態では、本ワークフローの生合成遺伝子/酵素は、本文書の上に記載されている通り、コア生合成遺伝子/酵素である。
一部の実施形態では、本開示は、候補多重遺伝子クラスター(MGC)を同定するためのin silico方法であって、a)コア生合成遺伝子/酵素のセットを有する公知のまたは予測されるMGCを提供するステップと、b)デジタルメタゲノミクスライブラリーを、(a)のコア生合成遺伝子/酵素のそれぞれのホモログについて問い合わせるステップであって、前記デジタルメタゲノミクスライブラリーが、デジタル処理でアセンブルされたコンティグを含む、ステップと、c)デジタルメタゲノミクスライブラリーの単一のデジタル処理でアセンブルされたコンティグ内のコア生合成遺伝子/酵素のそれぞれのホモログの存在に基づき、新たな候補MGCを同定するステップとを含む方法を教示する。一部の実施形態では、本ワークフローの生合成遺伝子は、本文書の上に記載されている通り、コア生合成遺伝子/酵素である。
本開示の本セクションは、デジタルメタゲノミクスライブラリーの単一のコンティグ内の生合成酵素のホモログの存在に基づく新たな候補MGCの同定について記載する。一部の実施形態では、本開示は、公知のまたは予測されるMGCの生合成酵素の全てに対するホモログを含有する候補MGCの同定を教示する。一部の実施形態では、候補MGCは、公知のまたは予測されるMGCの少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19種の生合成酵素(それらの間の全ての範囲および部分的範囲を含む)に対するホモログを含有する。一部の実施形態では、候補MGCは、公知のまたは予測されるMGCの生合成酵素の少なくとも10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または100%(それらの間の全ての範囲および部分的範囲を含む)に対するホモログを含有する。
一部の実施形態では、候補MGCは、公知のまたは予測されるMGCの少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19種のコア生合成酵素(それらの間の全ての範囲および部分的範囲を含む)に対するホモログを含有する。一部の実施形態では、候補MGCは、公知のまたは予測されるMGCのコア生合成酵素の少なくとも10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または100%(それらの間の全ての範囲および部分的範囲を含む)に対するホモログを含有する。
よって、一部の実施形態では、本開示は、デジタル処理でアセンブルされたコンティグを、公知のまたは予測されるMGCの生合成またはコア生合成遺伝子/酵素に対するホモログの存在についてスクリーニングするステップを教示する。一部の実施形態では、生合成遺伝子またはコア生合成遺伝子/酵素のホモログは、1つずつ同定され、次いで、第2のステップは、同定されたホモログが、単一のコンティグにあること(すなわち、ホモログの少なくとも1個の完全「セット」が、デジタル処理でアセンブルされたコンティグ内にあること)を確認する。他の実施形態では、生合成遺伝子またはコア生合成遺伝子/酵素のホモログが検索され、単一のステップで、単一のデジタル処理でアセンブルされたコンティグにあることが確認される。
一部の実施形態では、生合成遺伝子またはコア生合成遺伝子/酵素の相同性は、本開示および特に本セクションの他の相同性ステップと同じ仕方で遂行される(すなわち、配列同一性によってまたはHMMによって、上に記載されているカットオフによって)。一部の実施形態では、Multi-GeneBlast等のツールが使用される(www.ncbi.nlm.nih.gov/pmc/articles/PMC3670737/)。
一部の実施形態では、本開示の推移的な検索方法は、本文書に開示される他のMGC発見プラットフォームのいずれかに従って遂行される。よって、一部の実施形態では、推移的な検索を使用して、上に記述されている抵抗性遺伝子に基づく検索方法により同定されたMGCに基づき追加的な候補MGCを同定することができる。一部の実施形態では、推移的な検索方法を使用して、文献において報告された公知のクラスターに基づき追加的な関連MGCを同定することができる、または本明細書で開示されていない他の方法により他の仕方で同定される。
HMMの構築
本文書に記載されている相同性検索のうちいくつかは、HMM検索により遂行することができる。一部の実施形態では、HMM検索は、PfamおよびTIGRfamにおいて利用できるHMMモデル等、現存するHMMモデルに基づく。他の実施形態では、本開示は、候補ホモログ遺伝子を検索するように設計された新たなHMMを構築する方法を教示する。候補ホモログ遺伝子を検索するためのカスタムHMMを構築する方法について、下でより詳細に記述する。
本開示は、一部の実施形態では、候補ホモログ遺伝子の予測のために隠れマルコフモデル(HMM)を活用する方法およびシステムを提供する(例えば、候補抵抗性遺伝子、または公知の機能を有する遺伝子に対する相同性によるアノテーションの目的で)。しかし、簡素にするために、以下のセクションは、標的遺伝子/タンパク質に対するホモログを同定するためのHMMの使用について総括的に言及する。
次に、本方法およびシステムにおける使用のためのHMMを生成するための例示的なワークフローを提供する。一部の実施形態では、HMM生成ワークフローは、次のステップを含む:
1)標的抵抗性遺伝子に対応する訓練データセットにおいて使用されるべき配列を同定する;
2)配列を整列する;
3)整列を評価する;
4)多重配列整列からHMM予測的機械学習モデルを生成する;
5)HMMを評価する。
これらの例示的なステップのそれぞれについて、本明細書で詳しく述べる。
1.訓練データセットにおいて使用されるべき配列を同定する
所与の配列が、標的遺伝子/タンパク質に対するホモログであるか否かに関して予測するためのHMMを構築するために、所望の特性を示す(すなわち、標的抵抗性遺伝子の属に属する等、目的のアノテーションカテゴリーに属することが決定された)標的配列(少なくとも1個)のセットを得る必要がある。これは、本方法およびシステムにおいて機械学習モデル(例えば、HMM)を訓練するために使用される初期訓練データセットである:データセットは、入力遺伝的データ(核酸および/またはアミノ酸配列)および出力表現型データ(配列が所望の機能を果たす)を含む。リストは、所望の機能を有すると同定された現存するオルソロジー群(例えば、KEGGオルソロジー群)から、またはUniprotにおける所望の機能を果たす配列を同定し、当該配列のホモログを見出すことにより(例えば、前記ホモログの発表された検証の再調査により、または伝統的BLAST方法により)生成することができる。一部の実施形態では、リストは、公開配列データベースからコンパイルすることができる。一部の実施形態では、リストは、独自データベースからコンパイルすることができる。一部の実施形態では、リストは、商業的データベースからコンパイルすることができる。一部の実施形態では、リストは、検証実験等、経験的データからコンパイルすることができる。
一部の実施形態では、本開示は、モデルに、所望の機能、すなわち、標的タンパク質機能を果たすタンパク質をコードする多様な配列、または所望の機能、すなわち、標的遺伝子機能を果たす遺伝子をコードする多様な配列を提供することにより、HMMの予測能力を改善することができることを教示する。非常に同様の配列セットは、BLASTと同様に、同様の配列を同定するようにHMMを訓練することができる。多様な配列は、HMMが、いずれの位置(例えば、アミノ酸)を変動し得るか、およびいずれが保存に重要であるかについて捕捉することを可能にする。一部の実施形態では、所望の標的機能を果たすことが合理的に予想される、可能な限り多くの配列を含むことが望ましい。
一部の実施形態では、本開示は、訓練データセットにおける配列が、1種または複数の配列特色を共有するべきであることを教示する。訓練データセットにおける配列は、いかなる共通配列特色も共有しない場合、オルソログでない可能性が高く、訓練データセットから除外されるべきである。一部の実施形態では、本開示は、高い信頼度の訓練データセットにおいてもっぱら訓練される一次HMM、および所望の機能を有するが、訓練データセットの残りの内に存在する配列特色の多くを共有しないと考えられる外れ値配列等、より寛大なガイドラインにより選択される配列において訓練される別々のHMMの創出を教示する。これは、ユーザーが、高いvs.低い信頼度の訓練データにより結果を解析することを可能にし、任意の下流解析に柔軟性を提供する。
説明目的のため、配列の初期訓練データセットの同定のためのガイダンスは、標的タンパク質O-アセチルホモセリンスルフヒドリラーゼに適用される。これらのステップは、個人によって追跡され得る、または方法またはシステムの一部としてソフトウェアへとプログラムされ得る。標的タンパク質O-アセチルホモセリンスルフヒドリラーゼのために初期配列訓練データセットを見出すために、例えば、次の通り、所望の機能をアノテートされた現存するオルソロジー群を探すことにより開始することができる:
a.KEGGオルソロジーデータベースを所望の用語について検索する(www.genome.jp/dbget-bin/www_bfind_sub?mode=bfind&max_hit=1000&dbkey=kegg&keywords=O-acetylhomoserine+sulfhydrylase)。
b.KEGGオルソロジーリンクを選択する。
c.Genesまでスクロールダウンし、Uniprotリンクを選択して、この機能のためのUniprot IDのリストを得る。
d.ExcelにUniprot IDのリストをカットアンドペーストして、記載とは別にIDの欄を得る。
e.UniprotにおけるRetrieve/IDに進む。
f.ステップ(e)において読み出されたUniprot IDのセットをペーストする。これは、Uniprotエントリーのリストを返す。ダウンロードリンクを選択して、FASTAフォーマットでこれらのエントリーのリスト配列を読み出す。
例えば、次の通り、Uniprotを所望の配列について検索することにより初期訓練データセットをコンパイルすることも可能である:
a.任意の生物、例えば、目的の生物における標的タンパク質の機能を果たすタンパク質についてUniprotKBを検索する。この例のため、検索は、www.uniprot.org/uniprot/A4WQL8に見出される例示的なO-アセチルホモセリンスルフヒドリラーゼにより始める。
b.左上隅に、完全UniprotKBに対してこの配列のBLAST検索を行うためのボタンがある。これをクリックし、さらなるオプションを選択する。
c.Thresholdを0.1に、Hitsを1000に設定する;これは、非常に異なる配列を除去しつつ、多数のヒットをもたらす。次いで、検索をランする。検索の完了には数分間を要する。
d.ダウンロードリンクをクリックして、全ての配列をFASTAファイルとしてダウンロードする。
2.配列を整列する
ステップ1において蓄積された配列は、任意の利用できる多重配列整列ツールを使用して整列させることができる。多重配列整列ツールは、とりわけClustal Omega、EMBOSS Cons、Kalign、MAFFT、MUSCLE、MView、T-CoffeeおよびWebPRANKを含む。この説明に役立つ例の目的のため、Clustal Omegaを用いる。Clustal Omegaは、コンピューターにインストールし、例えば、次のプロンプトにより、コマンドラインからランすることができる:
Figure 2023513314000022
3.整列を評価する(必要に応じ)
ステップ2において行われた多重配列整列を評価し、不十分なマッチについてフィルタリングすることができる。前述の通り、配列特色を共有しない配列は、同じオルソロジー群には存在しない可能性が高く、HMMの品質にとって有害となり得る。
整列の評価を支援するための、例示的なブラウザ内整列ツールは、http://msa.biojs.net/および//github.com/veidenberg/wasabiである。両者共に、ダウンロードし、ローカルにランすることができる。
訓練データセットの残りにマッチしない配列は、次のステップに進む前に、訓練データセットから除去することができる。斯かる配列は、オルソロジー群の大部分の他のメンバーに共通する1種または複数の配列特色を保有しないこと等、整列の品質の客観的判定基準に基づき自動様式で除去することができる。一部の実施形態では、オルソロジー群にマッチしない配列は、他の手段、例えば、目視検査によって除去することができる。
4.訓練データセットに基づきHMM予測的機械学習モデルを生成する
HMMは、任意のHMM建設ソフトウェアによって生成することができる。例示的なソフトウェアは、mallet.cs.umass.edu; www.cs.ubc.ca/~murphyk/Software/HMM/hmm.html; cran.r-project.org/web/packages/HMM/index.html; www.qub.buffalo.edu; //ccb.jhu.edu/software/glimmerhmm/に見出すことができる、またはこれから適応させることができる。一部の実施形態では、HMMERツールが用いられる。
この説明に役立つ例の目的のため、HMMbuildが使用され、ダウンロードし、次のコマンドによりローカルにランすることができる:
Figure 2023513314000023
5.HMMを評価する(必要に応じ)
ステップ4において生成されたHMMを評価するために、アノテートされたデータベースをランして、配列を正確に認識するその能力を評価することができる。この説明に役立つ例において、HMMは、全てのアノテーションが真であると推定されるSwissProtデータベースを問い合わせるために使用される。この検査ランの結果をチェックして、検索結果のアノテーションが、HMMが表すべき機能にマッチするかどうか知ることができる。
タンパク質配列の検索データベースのfastaファイル(単数または複数)により(例えば、protein_db.fasta)、次のコマンドをランして、対応するE値によるHMMマッチの出力ファイルを得ることができる。
Figure 2023513314000024
このコマンドは、ゲノムの翻訳されたプロテオームにおいて使用して、機能モチーフにマッチする全てのヒットを見出すこともできる。
このコマンドにおける様々なオプションは、次のものに対応する:
Figure 2023513314000025
一部の実施形態では、本方法および他の公知の方法に従って築かれた特注のHMMを使用して、本開示のワークフローステップのいずれかのために相同性を確立することができる(例えば、候補抵抗性遺伝子を同定するステップ、または遺伝子をアノテートするステップ)。一部の実施形態では、HMMは、「完全」標的配列(例えば、本開示に記載されている、抵抗性検索のための標的遺伝子、生合成遺伝子または「コア生合成遺伝子/酵素」またはその他)を中心にして築かれる。一部の実施形態では、HMMSは、前記標的配列の特異的ドメイン(例えば、特定の目的の標的遺伝子/タンパク質を代表することが見出されるドメイン)を中心にして築かれる。
構造解明- 遺伝子から化学へ
一部の実施形態では、本明細書にて開示される天然物発見ワークフロー(例えば、図1)は、in silico構造解明のステップを含む。すなわち、一部の実施形態では、本開示は、本明細書に開示される方法により同定された天然物多重遺伝子クラスターの配列(例えば、コンピューターにより決定された天然物多重遺伝子クラスター特色セット)に基づき、天然物化学構造を予測する方法を教示する(図3を参照)。
一部の実施形態では、コンピューターにより予測される天然物(NP)構造は、NP発見の取り組みに優先順位をつけることの助けになることができる。例えば、公知の構造を有するNPを産生することが予測されるMGCは、プログラムの目標に対するより高い関心のNPを産生することが予測されるMGCと比較して、発見パイプラインにおける優先順位を落とすことができる。一部の実施形態では、NP構造に関するin silico予測は、その後のNP検出を容易にすることができる(例えば、質量分析による)。
ゲノム配列データから直接、広い範囲の生合成経路の小分子産物を予測することは、コンピューターによるかつデータ集約型のプロセスである。天然物足場の合成およびテーラリングに関与する膨大な種類の酵素、ならびに公知の化学的テーマにおける無数の変形形態が存在する。コンピューターによる展望から、問題は、大部分は、この多様性および複雑性を網羅するための十分に包括的な訓練データセットをどのように取得するかについての疑問へと低下させることができる。
ある範囲のアルゴリズムが、NRPSアデニル化ドメインおよびPKSアシルトランスフェラーゼドメインの基質特異性を予測するように開発された(例えば、Khayatt BI, Overmars L, Siezen RJ, Francke C. Classification of the adenylation and acyl-transferase activity of NRPS and PKS systems using ensembles of substrate specific hidden Markov models. PLoS One. 2013;8:e62136およびBaranasic D, et al. Predicting substrate specificity of adenylation domains of nonribosomal peptide synthetases and other protein properties by latent semantic indexing. J Ind Microbiol Biotechnol. 2014;41:461-7を参照)。Minimum Information about a Biosynthetic Gene cluster(MIBiG)もまた、公知のMGCについて全ての酵素機能および特異性、ならびに各観察に利用できる証拠のレベルに関するアノテートされた情報を含む(Medema MH. The Minimum Information about a Biosynthetic Gene cluster (MIBiG) specification. Nat Chem Biol. 2015)。
これらおよび他の個々の単量体予測を、NP.searcherおよびantiSMASH等のツールによって組み合わせて、ポリケタイドまたは非リボソーム性ペプチドのコア足場の大まかなアイデアを得る(Li MH, Ung PM, Zajkowski J, Garneau-Tsodikova S, Sherman DH. Automated genome mining for natural products. BMC Bioinforma [computer file] 2009;10:185、Medema MH, et al. antiSMASH: rapid identification, annotation and analysis of secondary metabolite biosynthesis gene clusters in bacterial and fungal genome sequences. Nucleic Acids Res.およびBlin K, et al. antiSMASH 2.0-a versatile platform for genome mining of secondary metabolite producers. Nucleic Acids Res. 2013)。RiPPのいくつかのクラスのため、分子内架橋を予測することもできる(Blin K, Kazempour D, Wohlleben W, Weber T. Improved lanthipeptide detection and prediction for antiSMASH. PLoS One. 2014;9:e89420)。
本開示によって企図される別の構造予測ツールは、PRediction Informatics for Secondary Metabolomes(PRISM)ソフトウェアである。PRISMは、化学的なグラフを使用して、様々なクラスター型の天然物足場をモデル化する(Michael A. Skinnider et al., PRISM 3: expanded prediction of natural product chemical structures from microbial genomes, Nucleic Acids Research, Volume 45, Issue W1, 3 July 2017, Pages W49-W54および米国特許出願公開第2018/0373833号、これらはそれぞれ、これにより参照により本明細書に組み込まれる)。構造予測ソフトウェアツールの追加的な例を上の表4に提示する。
分析化学技法を使用して遺伝子を分子にマッチさせること
一部の実施形態では、天然物発見プラットフォームの構造解明ステップは、同定されたMGCから天然物を合成および解析するステップを含む。一部の実施形態では、本開示は、天然物の構造に関するin silico予測を活用することにより、新たな天然物の経験的解析からデータを解析する方法を教示する(図3を参照)。
例えば、ペプチドゲノミクスおよびグリコゲノミクス方法論は、分子の断片組成をプロファイルするタンデム質量分析の能力を、これらの断片に対応し得る化学的部分構造のMGC予測と組み合わせる(Kersten RD, et al. A mass spectrometry-guided genome mining approach for natural product peptidogenomics. Nat Chem Biol. 2011;7:794-802およびKersten RD, et al. Glycogenomics as a mass spectrometry-guided genome-mining method for microbial glycosylated molecules. Proc Natl Acad Sci U S A. 2013;110:E4407-16を参照)。一部の実施形態では、ペプチドゲノミクスのための質量分析およびゲノムデータのコンピューターによるカップリングは、いくつかのアルゴリズムによって完全に自動化された。これは、遺伝子クラスターを分子に接続するための前例になく速い方法をもたらす。
RiPPQuestおよびNRPQuestアルゴリズムは両者共に、それぞれランチペプチド(RiPPのクラス)および非リボソーム性ペプチド(NRP)の観察されるタンデム質量スペクトルのための潜在的な遺伝子クラスターを同定するために分子ネットワーク形成アプローチを使用する(Mohimani H, et al. Automated genome mining of ribosomal peptide natural products. ACS Chem Biol. 2014; Mohimani H, et al. NRPquest: Coupling Mass Spectrometry and Genome Mining for Nonribosomal Peptide Discovery. J Nat Prod. 2014;およびGuthals A, Watrous JD, Dorrestein PC, Bandeira N. The spectral networks paradigm in high throughput mass spectrometry. Mol Biosyst. 2012;8:2535-2544)。
RiPPquestのための検索データベースは、ゲノムにおける各検出されたランチオニンシンテターゼコード遺伝子に近い全ての短いオープンリーディングフレーム(ORF)を見出すことによりコンパイルされ、一方、NRPquestは、各検出されたNRP MGC内のあらゆる可能な順序のNRPSアセンブリーラインを生成し、次いで、NRPSPredictor2を使用して各NRPSモジュールによってコードされるアミノ酸を予測することにより、可能なNRPのデータベースを創出する(Rottig M, et al. NRPSpredictor2-a web server for predicting NRPS adenylation domain specificity. Nucleic Acids Res. 2011;39:W362-7)。スペクトルネットワーク形成アプローチは、分子の複数バリアントが評価されることを可能にし、これは、予期せぬテーラリング改変からの偽陰性結果の尤度を低下させる。また、これは、公知のペプチドの以前に未知のバリアントの即時同定を可能にする。
代替方法、Pep2Pathは、確率的フレームワークを使用して、各NRPSモジュールが、基質として全ての可能なアミノ酸を選択することの尤度を予測し、次いで、あらゆる可能なNRPSアセンブリーラインのために組み合わせた確率を計算して、質量分析由来の質量シフト配列タグをマッチさせる:研究中のペプチドのアミノ酸配列を代表する断片分子量差の配列(Medema MH, et al. Pep2Path: Automated Mass Spectrometry-Guided Genome Mining of Peptidic Natural Products. PLoS Comput Biol. 2014;10:e1003822)。Pep2Pathは、NRPquestと同じ、基質特異性予測のためのアルゴリズムに基づくものの(すなわち、NRPSPredictor2)、このアプローチの利点は、いくつかのモジュールが僅かに予測を誤る場合、アルゴリズムが、ペプチド-MGCリンクの予測に失敗しないことであり、例えば、モジュールが、チロシンに特異的であり、フェニルアラニンが観察される場合、観察されるアミノ酸の原因となるモジュールの確率は、依然として高い。Pep2Pathはまた、ゲノムにおけるあらゆる可能なORFを、観察される質量シフト配列タグに対するヒットについて検索する、RiPP MGC同定のためのツールを有する。
抵抗性遺伝子およびクラスターに優先順位をつけるためのワークフロー
本開示は、抵抗性遺伝子およびクラスターの優先順位つけの実施形態を表すワークフローを提供する(図8を参照)。
一部の実施形態では、本明細書にて開示されるワークフローは、推定上の抵抗性遺伝子がクラスターにおいて異なる役割を果たす有意な機会を有するクラスターをフィルタリングして取り除くように設計される(例えば、生合成vs.抵抗性)と共に、不完全であることまたはある特定の生合成遺伝子の欠如に基づき真のクラスターとして低い信頼度を有すること等の追加的な技術的問題点を有するクラスターをフィルタリングして取り除くように設計される。
一部の実施形態では、本ワークフローは、抵抗性遺伝子に信憑性があるか否かについて決定するためのチェックポイントを含む。生合成遺伝子を有するオペロンに存在する(例えば、メチルトランスフェラーゼ、グリコシルトランスフェラーゼおよびオキシダーゼ/レダクターゼ等の公知のテーラリング)、または生合成遺伝子の2種の遺伝子内でオーファン化される場合、抵抗性遺伝子は、信憑性がある。抵抗性遺伝子が、生合成的役割を有し得る場合、これは、関連する遺伝子と協調して評価される(例えば、脂肪酸含有遺伝子クラスターに関連する場合、脂肪酸代謝に関与する標的抵抗性遺伝子は、信憑性が低い)。信憑性がない抵抗性遺伝子は、他の一次代謝/ハウスキーピング遺伝子を有するまたはこれに近いオペロンに存在する(例えば:アミノ酸代謝に関与する複数酵素)。マルチパート複合体の他の部分の近くにある場合、これもまた、信憑性が低い(例えば、標的抵抗性遺伝子が、リボソームサブユニットであり、他のリボソームサブユニットに関連した場合)。
一部の実施形態では、本ワークフローは、遺伝子クラスターが、信憑性をもって実在するかについて決定するためのチェックポイントを含む。信憑性がある遺伝子クラスターは、足場を産生することができる複数の生合成遺伝子を含有する。例えば、これは、モジュラーアセンブリーライン(PKS/NRPS)、構造ペプチド(RiPP)またはテルペンシンターゼをコードする遺伝子を含むことができる。周囲の生合成テーラリング遺伝子がない単離された遺伝子は多くの場合、信憑性がなく、例えば、他の関連する遺伝子がない、プロテアーゼの存在のため呼ばれるバクテリオシンクラスターは廃棄される。一部の実施形態では、この品質管理ステップは、コンピューターにより決定された生物学的抵抗性遺伝子が、コンピューターにより決定された天然物多重遺伝子クラスター特色セットの閾値パラメーター内に位置することを確実にすることにより取り組まれる。
一部の実施形態では、本ワークフローは、クラスターが、興味深い何かを産生することができるかについて決定するためのチェックポイントを含む。遺伝子クラスターの「興味深さ」は、いくつかのメトリクス(metrics)により評価される。遺伝子クラスターが、以前に同定された遺伝子クラスターと同一に見える場合、クラスターは廃棄される。これが、以前に同定された遺伝子クラスターと同様に見える場合には、以前に同定された遺伝子クラスターのアナログの値が評価される(例えば、生理活性がない分子のアナログは、興味深くない)。産生することができる予測される分子の特徴が評価され、例えば、バクテリオシンは、不十分な薬物動態を有する可能性があり、したがって、興味深さが低い。一部の実施形態では、おそらく興味深い分子特色も評価され、例えば、ハロゲナーゼが存在する場合、これは、同定がより容易であり、より役立つ薬物動態を有し得る分子を産生することができる。
一部の実施形態では、本ワークフローは、遺伝子クラスターが、単一のコスミドに含有されるかについて決定するためのチェックポイントを含む。コスミドのオンまたはオフを作動する生合成遺伝子のオペロンが存在しない場合、クラスターは、単一のコスミドに存在することが推察される。
一部の実施形態では、本ワークフローは、クラスターが完了され得るかについて決定するためのチェックポイントを含む。単一のコスミドに含有されないクラスターは、本発明者らのライブラリーにおける他のコンティグに対して比較される。遺伝子クラスターを完了するオーバーラップコンティグ(または複数のコンティグ)を見出すことができる場合には(コスミドのオンまたはオフを作動する生合成遺伝子のオペロンが存在しないような)、クラスターは、完了可能と思われる。コスミドのアセンブルされた配列が、不完全であることを示す、短い(<30kb)場合には、物理的コスミドライブラリーからコスミドが回収され、再度配列決定されるのであれば、完了可能であり得る。したがって、特に興味深く、完了されないリスクの価値がある場合、これをさらに継続することができる。
本発明の天然物アナログ化プラットフォームの方法、システム、およびツール
本開示の一部は、メタゲノムライブラリーからの新規天然物の発見のための様々な方法を提供する。これらの新規天然物は、低分子薬物処置、農業製品、例えば殺虫剤または昆虫フェロモン、ならびに中でも他の消費者食品、化粧品、および洗浄剤に及ぶ多様な応用のために利用可能なNP多様性を劇的に増加させる潜在性を有する。
しかし、一部の例では、所望の応用に関して高い潜在性を有する天然物は、なおも他の理由から利用できないと考えられている。例えば天然物は、必要な貯蔵寿命を欠如することがあり、患者の一部の集団において有害な反応を引き起こすことがあり、または単に広範囲に採用することができない望ましくない風味もしくは臭いを有することがある。天然物はまた、不良な生物学的利用率、または不良な吸収、分布、代謝および***(ADME)プロファイルも有し得る。その他の有益な天然物が商業的成功を得られない場合がある他の理由は、生産コストであり得るか、または天然に存在する化合物の特許保護の欠如であり得る。これらの例では、認識された欠点を軽減するおよび/または所望の特性を植え付ける分子を産生するように天然物を改変することが有益であり得る。
改変によって利益が得られる天然物の例は、サリチル酸(SA)である。この天然物は、元はヤナギにおける一般的な植物ストレスホルモンとして発見された。この天然物は、古代から価値があり、シュメールの粘土板およびエジプトのパピルスに疼痛の処置として参照されている(Diarmuid Jeffreys. Aspirin: The Remarkable Story of a Wonder Drug. Chemical Heritage Foundation, 2008)。しかし、サリチル酸は合成が難しく、一部の患者では嫌われ、天然物が胃に及ぼす刺激作用に関して苦情を訴えた。1897年に、Bayer(登録商標)の科学者がSAのアセチルサリチル酸バリアントを開発し、これは元の薬物の刺激作用を和らげ、合成がより容易であった(同書)。この薬物は、現在、アスピリンとして一般的に公知である。
一部の実施形態では、本開示は、新たに発見された天然物を改善するための方法を教示する。このように、一部の実施形態では、本開示は、天然物のアナログ化方法を教示する。本明細書で記載される場合、アナログ化は、改善されたまたはそれ以外の方法で望ましい特性を有するバリアント分子を創出するための天然物の改変を記載する。一部の実施形態では、アナログ化は、天然物の中心コア構造に対して様々な化学基を付加または除去することを含む。
一部の実施形態では、本開示は、天然物をアナログ化する生合成方法を教示する。このように、一部の実施形態では、本開示は既存の生合成経路を改変することによって、または1つもしくは複数の酵素触媒による天然物の合成後処理のいずれかによって天然物のバリアントを生成する。一部の実施形態では、本開示は、「生体変換」としての生合成に基づくアナログ化を指す。本開示の生体変換戦略と、アナログ化の伝統的な化学アプローチとの比較を図11に提供する。
一部の実施形態では、本開示のアナログ化方法は、天然物の合成の間または合成後に起こる改変を含む。すなわち、一部の実施形態では、本開示のアナログ化方法は、天然物が合成された後にそれを改変し始める(例えば、抽出後、異なる反応で、または追加の生合成ステップの組み込みを通して)。一部の実施形態では、本開示のアナログ化方法は、天然物そのものの生合成ステップを改変してバリアントを産生する(例えば、天然物の生合成経路内の遺伝子を置き換えまたは改変してバリアントを創出する)。一部の実施形態では、本開示はまた、生合成経路に中間ステップを追加することによる天然物のアナログ化方法も教示する。
一部の実施形態では、本開示のアナログ化方法は、以下を表す少なくとも3つの広い範疇に分類される:1)クラスターの操作(例えば、既存の生合成遺伝子/生合成経路を破壊するまたはそれ以外の方法で改変すること)、2)酵素パネル(例えば、雑多な酵素の使用)、および3)相同なクラスターの利用(例えば、一部または全体のMGCのスワッピングを通しての生合成操作)(図9を参照されたい)。一部の実施形態では、本開示はまた、上記の3つの広い戦略の1個または複数の組合せを通してアナログ化することも教示する。これらの戦略の各々を以下により詳細に考察する。
天然物のアナログ化-クラスター操作
一部の実施形態では、本開示は、天然物をアナログ化するクラスター操作方法を教示する。このように、一部の実施形態では、本開示は、標的天然物のアナログを産生するための方法であって、a)標的天然物を産生することが公知の多重遺伝子クラスターを含む基礎微生物宿主細胞を提供するステップと、b)多重遺伝子クラスター内で1個または複数の遺伝子の発現を変異させるまたはノックアウトするように、基礎微生物宿主細胞のゲノムを撹乱し、これにより、変異した微生物宿主細胞のライブラリーを創出するステップと、c)変異した微生物宿主細胞のライブラリーから微生物宿主細胞を培養するステップと、d)ステップ(c)の培養物由来の使用済み培地を、標的天然物および/または前記標的天然物のアナログの存在について解析する(または同定する)ステップと、e)ステップ(c)で培養した微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(d)の解析によって決定される通り、選択された微生物宿主細胞が、標的天然物のアナログを産生し、これにより、標的天然物のアナログを産生する、ステップとを含む方法を教示する。
一部の実施形態では、ゲノムを撹乱するステップは、DNA配列を改変する任意の公知の方法を介して行うことができる。一部の実施形態では、本開示は、多重遺伝子クラスターの全て(または一部)を、所望の変異を含む対応するDNAと置き換えることによってゲノムを撹乱することを教示する。一部の実施形態では、本開示は、例えばループイン/アウト技術の使用を教示する。一部の実施形態では、本開示は、所望の改変を為すための遺伝子編集ツールの使用を教示する。
一部の実施形態では、ゲノム編集システムの分子は、例えばa)酵素およびRNA、b)RNAおよび酵素をコードする核酸、c)酵素およびRNAをコードする核酸、またはd)酵素およびRNAの両方をコードする核酸を含み得る。一部の実施形態では、ゲノム編集システムは、デザイナーヌクレアーゼ(またはデザイナーヌクレアーゼをコードする核酸、例えばmRNAまたはDNAプラスミド)、例えばジンクフィンガーヌクレアーゼ(ZFN)、転写活性化因子様エフェクターヌクレアーゼ(TALEN)、ホーミングエンドヌクレアーゼ(例えば、ARC Nuclease(商標))、または核酸ガイドエンドヌクレアーゼ(NGEN)、例えばRNAガイドエンドヌクレアーゼ(RGEN、例えば、Cas9)、またはDNAガイドエンドヌクレアーゼ(DGEN)を含む。一部の実施形態では、ゲノム編集システムは、ガイド核酸(gNA)(またはガイド核酸をコードする核酸、例えばmRNAまたはDNAプラスミド)、例えばガイドRNA(gRNA)またはガイドDNA(gDNA)をさらに含む。一部の実施形態では、ゲノム編集システムは、クラスター化された規則的に間隔を空けた短いパリンドロームリピート(clustered regularly interspaced short palindromic repeat;CRISPR)システム(例えば、CRISPR関連タンパク質および/もしくは核酸、または1つもしくは複数のCRISPR関連タンパク質および/もしくは核酸をコードする核酸を含む)である。一部の実施形態では、ゲノム編集システムはZFNを含む。一部の実施形態では、ゲノム編集システムは、TALENを含む。一部の実施形態では、ゲノム編集システムは、ホーミングエンドヌクレアーゼを含む。一部の実施形態では、ゲノム編集システムは、インテグラーゼ(またはインテグラーゼをコードする核酸、例えばmRNAまたはDNAプラスミド)を含む。一部の実施形態では、ゲノム編集システムは、インテグラーゼによって認識される組換え部位を含むドナー核酸をさらに含む。
本開示の操作する(すなわち、ゲノムの撹乱)方法は、単独で行うことができ、または大きい株操作プログラムの一部であり得る。例えば、一部の実施形態では、本開示のMGC操作は、これによりその全体が参照により本明細書に組み込まれる、米国特許出願第9,988,624号の方法に従って行うことができる。
天然物のアナログ化-酵素パネルおよび雑多な酵素
一部の実施形態では、本開示は、天然物をアナログ化する酵素パネルの方法を教示する。このように、一部の実施形態では、本開示は、天然物または天然物の前駆体を改変するための1種または複数の酵素の使用を教示する。
一部の実施形態では、本開示は、標的天然物の生合成によるアナログ化のための方法であって、a)標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される複数の酵素を提供し、これにより、アナログ化酵素パネルライブラリーを創出するステップと、b)アナログ化酵素パネル由来の個々の酵素を、標的天然物または標的天然物の前駆体と共にインキュベートし、これにより、反応混合物を産生するステップと、c)ステップ(b)の反応混合物のうち少なくとも1種を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、d)アナログ化酵素パネルから酵素を選択するステップであって、ステップ(c)の解析によって決定される通り、選択された酵素が、標的天然物のアナログを産生し、これにより、標的天然物をアナログ化する、ステップとを含む方法を教示する。
一部の実施形態では、アナログ化酵素パネル由来の酵素は精製された酵素である。一部の実施形態では、ステップ(a)の酵素は、前記酵素を異種的に発現する微生物株由来のライセートの形態で提供される。
一部の実施形態では、酵素パネル由来の酵素は株内に含まれる。このように、一部の実施形態では、本開示は、標的天然物の生合成によるアナログ化のための方法であって、a)標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素をそれぞれ発現する、複数の微生物を提供し、これにより、微生物株のアナログ化酵素パネルライブラリーを創出するステップと、b)微生物株のアナログ化酵素パネルライブラリー由来の個々の微生物株を、標的天然物または標的天然物の前駆体と接触させ、これにより、混合物を創出するステップ(例えば、微生物株のアナログ化酵素パネルライブラリー由来の個々の微生物株を、標的天然物または標的天然物の前駆体を含む増殖培地中で培養するステップ)と、c)ステップ(b)の株および標的天然物または前駆体の混合物(例えば、ステップ(b)の培養由来の使用済み培地)を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、d)微生物株のアナログ化酵素パネルライブラリーから微生物株を選択するステップであって、ステップ(c)の解析によって決定される通り、選択された微生物株が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化し、選択された微生物株によって発現される酵素が、選択された酵素である、ステップとを含む方法を教示する。
一部の実施形態では、酵素パネル内の株を、標的天然物またはその前駆体に接触させる前に溶解する。このように、一部の実施形態では、本開示は、標的天然物の生合成によるアナログ化のための方法であって、a)微生物株由来の各ライセートが標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素を発現する、複数の微生物株ライセートを提供し、これにより、アナログ化酵素パネルライブラリーを創出するステップと、b)アナログ化酵素パネルライブラリー由来の個々のライセートを標的天然物または標的天然物の前駆体に接触させ、これにより、酵素混合物を創出するステップと、c)ステップ(b)の酵素混合物を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、d)ステップ(c)の解析によって決定される通り、標的天然物の所望のアナログを産生する、アナログ化酵素パネルライブラリー由来のライセートを同定し、これにより、標的天然物をアナログ化するステップであって、同定されたライセートに対応する微生物株によって発現される酵素が、選択された酵素である、ステップとを含む方法を教示する。
一部の実施形態では、方法は、選択された酵素を発現するように第1の基礎微生物株のゲノムを撹乱するステップであって、第1の基礎微生物株が、標的天然物を合成することができる、ステップをさらに含む。
他の実施形態では、酵素パネルは、天然物をすでに産生することができる微生物に加えられる一連の配列である。このように、一部の実施形態では、本開示は、以下を教示する。
標的天然物の生合成によるアナログ化のための方法であって、a)標的天然物の第1のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素をそれぞれコードする、複数の遺伝子配列を提供するステップと、b)ステップ(a)の複数の遺伝子配列のうち1種または複数によってコードされる酵素をそれぞれ発現するように、第1の基礎微生物株の1個または複数の細胞のゲノムを撹乱するステップであって、第1の基礎微生物株が、標的天然物を合成することができ、これにより、微生物株のアナログ化酵素パネルライブラリーを創出する、ステップと、c)微生物株のアナログ化酵素パネルライブラリー由来の個々の微生物株を培養するステップと、d)ステップ(c)の培養物由来の使用済み培地またはライセートを、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、e)微生物株のアナログ化酵素パネルから微生物株を選択するステップであって、ステップ(d)の解析によって決定される通り、選択された微生物株が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化する、ステップとを含む、方法。一部の実施形態では、本開示の株は、第2の複数の遺伝子配列によって上記の方法のステップを反復することによって、追加の酵素を含むようにさらに改変することができる。
一部の実施形態では、複数の遺伝子配列によってコードされる酵素を株に加えて、追加の反応(すなわち、元のMGCによってすでにコードされている反応に加えて)を触媒する。このように、一部の実施形態では、本開示は、複数の遺伝子配列によってコードされる酵素をコードする核酸を既存のMGCに加えることを教示する。
一部の実施形態では、複数の遺伝子配列によってコードされる酵素を株に加えて、目的の天然物の生合成経路における反応を置き換える。このように、一部の実施形態では、宿主細胞のゲノムを撹乱するステップは、元のMGCの生合成遺伝子のうち1種または複数を、第1または第2の複数の遺伝子配列のうち1種または複数によってコードされる酵素をコードする配列と置き換えることを含む。
一部の実施形態では、複数の遺伝子配列によってコードされる酵素は、メタゲノムライブラリーから同定される。このように、一部の実施形態では、酵素のうち少なくとも1種はメタゲノムライブラリーに由来し、遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットを投入された機械学習モデルによって、ある型の反応を触媒することが予測されており、i)遺伝的配列入力変数は、標的天然物のアナログ化のためのある型の反応を触媒する酵素の1種または複数のアミノ酸配列を含み、ii)表現型性能出力変数は、1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む。
一部の実施形態では、本開示は、標的天然物の生合成によるアナログ化のための方法であって、a)遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップであって、i)遺伝的配列入力変数が、標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素の1種または複数のアミノ酸配列を含み、ii)表現型性能出力変数が、1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、ステップと、b)訓練データセットを投入された第1の予測的機械学習モデルを開発するステップと、c)コンピュータプロセッサーを使用して、第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列(例えば、本開示のDML内のアセンブルされたコンティグによってコードされるアミノ酸のリスト)を含有するデジタルメタゲノムライブラリーに適用して、デジタルメタゲノムライブラリー内の候補配列のプールを同定するステップであって、第1の予測的機械学習モデルによって、前記候補配列が、それぞれの第1の信頼度スコアにより、標的天然物のアナログ化のためのある型の反応を触媒すると予測される、ステップと、d)第1の信頼度スコアの第2の信頼度スコアに対する比が、予め選択された閾値から外れる場合、候補配列のプールから、第2の信頼度スコアによる第2の予測的機械学習モデルによって、異なる機能を果たすことが予測されるいずれかの配列を除去し、これにより、候補配列のフィルタリングされたプールを産生するステップと、e)ステップ(d)の候補配列のフィルタリングされたプール由来の配列をそれぞれ発現するように1個または複数の微生物細胞を製造するステップと、f)ステップ(e)の製造された宿主細胞を培養し、培養された細胞を溶解し、これにより、アナログ化酵素パネルライブラリーを創出するステップと、g)アナログ化酵素パネルライブラリー由来の個々の酵素を、標的天然物または標的天然物の前駆体と共にインキュベートし、これにより、反応混合物を産生するステップと、h)ステップ(g)の反応混合物のうち少なくとも1種を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、i)アナログ化酵素パネルから酵素を選択するステップであって、ステップ(h)の解析によって決定される通り、選択された酵素が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化する、ステップとを含む方法を教示する。
本開示のアナログ化方法の多くの実施形態は、使用済み培地、ライセート、インキュベーション、反応、混合物、またはより初期のステップの等価物を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップを列挙する。一部の実施形態では、この解析ステップは、前記標的天然物またはアナログの存在に関する直接測定を含む。当業者は、HPLC、GC、NMR、IRなどを含む、化学実体を検出する多くの方法を承知している。
一部の実施形態では、この解析ステップは、標的天然物のアナログの存在を示す代理測定を含む。例えば、一部の実施形態では、本開示は、所望の分子の存在または分子の消費のいずれかを同定するための様々な比色アッセイの使用を教示する。一部の場合では、比色アッセイは、アナログの存在を直接測定する。他の実施形態では、比色アッセイは異なる化合物を測定し、これを使用して第1の化合物の存在を推定する。例えば、一部の実施形態では、酵素の補因子の存在または消費を測定して標的天然物の酵素変換を推定する。一部の実施形態では、反応物の存在または消費を測定して、標的天然物の酵素変換を推定する。1つの例示的な例は、還元ニコチンアミドであるアデニンジヌクレオチド(リン酸)の消費を経時的にモニターする比色アッセイの使用である。この比色アッセイは、基質の酵素による還元(アナログ化)がNAD(P)Hの酸化を必要とする場合に使用することができ、したがってこの酵素パネルの活性はNAD(P)Hの消費と連動し、これを340nmでの吸光度の減少によってモニターすることができる。
天然物のアナログ化-相同なクラスターの利用
一部の実施形態では、本開示は、天然物のアナログ化のための相同なMGCの利用を教示する。
一部の実施形態では、本開示は、同じまたは非常に類似の天然物を産生することが予測される相同なMGCを同定することによるアナログ化方法を教示する。このアプローチは、1個または複数のメタゲノムライブラリー内の既存の多様性を活用して、元の同定された天然物の品質より優れた品質を有する天然物バリアントを同定する。一部の実施形態では、新たに同定されたMGCは、天然物の対応する改変をもたらし、これにより、アナログを産生する1種または複数のわずかに異なる生合成酵素を含むと予測される。
一部の実施形態では、本開示は、標的天然物のアナログを産生する方法であって、a)標的天然物を産生することが公知である第1の多重遺伝子クラスターを提供するステップと、b)前記第1の多重遺伝子クラスターに基づき予測モデルを開発するステップと、c)in silicoでデジタルメタゲノミクスライブラリーを新たな多重遺伝子クラスターについて問い合わせるステップであって、前記新たな多重遺伝子クラスターが、予測モデルによって、標的天然物または標的天然物のバリアントを産生することが予測され、これにより、候補多重遺伝子クラスターのプールを産生する、ステップと、d)各々が候補多重遺伝子クラスターのプール由来の少なくとも1つの多重遺伝子クラスターをそれぞれ発現するように、1個または複数の微生物宿主細胞を製造するステップと、e)ステップ(d)において製造された微生物宿主細胞のうち少なくとも1個を培養するステップと、f)ステップ(e)の培養物由来の使用済み培地を、標的天然物および/または前記標的天然物のアナログについて解析するステップと、g)ステップ(e)において培養された微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(f)の解析によって決定される通り、選択された微生物宿主細胞が、標的天然物のアナログを産生し、これにより、標的天然物のアナログを産生する、ステップとを含む方法を教示する。
一部の実施形態では、本開示の予測モデルは、本文書の「推移的な多重遺伝子クラスター特色セット発見ワークフロー」の節に記載されるように、新たな多重遺伝子クラスターが、標的天然物または標的天然物のバリアントを産生するか否かを決定する(例えば、表4に記載されるツールまたはその等価物を使用して)。
一部の実施形態では、公知MGCは、天然物(例えば、経験的データを通してまたは雑誌に報告されているように)を産生することが実験によって確証され、実証されているMGCである。
一部の実施形態では、本開示は、相同なMGCを同定するおよび酵素のアナログ化のためにそれらのMGCを得る方法を教示する。一部の実施形態では、本開示は、相同なMGCからの1個または複数の部分を加えるための元の天然物コードMGCの操作を教示する。一部の実施形態では、本開示は、その元のMGC内の1個または複数の遺伝子を、相同なMGCからの1個または複数の部分と置き換えるための元の天然物コードMGCの操作を開示する(図12を参照されたい)。
このように、一部の実施形態では、本開示は、標的天然物のアナログを産生するための方法であって、a)標的天然物を産生することが公知である第1の多重遺伝子クラスターを提供するステップと、b)前記第1の多重遺伝子クラスターに基づき予測モデルを開発するステップと、c)in silicoで、デジタルメタゲノミクスライブラリーを新たな多重遺伝子クラスターについて問い合わせるステップであって、前記新たな多重遺伝子クラスターが、予測モデルによって、標的天然物または標的天然物のバリアントを産生することが予測され、これにより、候補多重遺伝子クラスターのプールを産生する、ステップと、d)in silicoで、アノテーションエンジンにより、ステップ(c)の候補多重遺伝子クラスターのプールの新たな多重遺伝子クラスターの1個または複数内の生合成酵素をコードする個々の遺伝子を同定し、これにより、新たな多重遺伝子クラスターから、生合成遺伝子を含むアナログ化酵素パネルライブラリーを産生するステップと、e)アナログ化酵素パネルライブラリー由来の遺伝子を発現するように基礎微生物宿主細胞のゲノムを撹乱するステップであって、基礎微生物宿主細胞が、第1の多重遺伝子クラスターを含み、これにより、細胞を製造するステップと、f)ステップ(e)において製造された微生物宿主細胞のうち少なくとも1個を培養するステップと、g)ステップ(f)の培養物由来の使用済み培地またはライセートを、標的天然物および/または前記標的天然物のアナログについて解析するステップと、h)ステップ(f)において培養された微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(g)の解析によって決定される通り、選択された微生物宿主細胞が、標的天然物のアナログを産生し、これにより、標的天然物のアナログを産生する、ステップとを含む方法を教示する。
一部の実施形態では、前記第1の多重遺伝子クラスターに基づき予測モデルを開発するステップは、類似の生合成クラスターを検索するために使用することができる生合成遺伝子のセットを同定するステップである。一部の実施形態では、類似の生合成クラスターを検索するために使用される生合成遺伝子は、コア生合成酵素である。
一部の実施形態では、in silicoでデジタルメタゲノミクスライブラリーを新たな多重遺伝子クラスターについて問い合わせるステップは、本開示の推移的な多重遺伝子クラスター特色セット発見ワークフローの節に記載されるように遂行される。すなわち、一部の実施形態では、「問い合わせるステップ」は、前回のステップのMGC予測モデルの全ての生合成遺伝子に関するホモログを含有するMGCを同定するステップを含む。一部の実施形態では、候補MGCは、MGC予測モデルの少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19個の生合成遺伝子(それらの間の全ての範囲および部分的範囲を含む)のホモログを含有する。一部の実施形態では、候補MGCは、MGC予測モデルの生合成遺伝子の少なくとも10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または100%のホモログを含有する。上記のように、一部の実施形態では、MGC予測モデルは、第1のMGCの全ての生合成遺伝子を含む。一部の実施形態では、MGC予測モデルは、それらの間の全ての範囲および部分的範囲を含む、第1のMGCのコア生合成遺伝子/酵素のみを含む。
一部の実施形態では、本開示は、標的天然物のアナログを産生する方法であって、a)標的天然物または関連天然物を産生することが公知のまたは予測される複数の多重遺伝子クラスターを提供するステップと、b)in silicoでアノテーションエンジンにより、ステップ(a)の複数の多重遺伝子クラスター内の生合成酵素をコードする個々の遺伝子を同定し、これにより、複数の多重遺伝子クラスターから生合成遺伝子を含むアナログ化酵素パネルライブラリーを産生するステップと、c)アナログ化酵素パネルライブラリー由来の遺伝子を発現するように基礎微生物宿主細胞のゲノムを撹乱するステップであって、基礎微生物宿主細胞が、標的天然物を産生することができる第1の多重遺伝子クラスターを含み、これにより、微生物細胞を製造する、ステップと、d)ステップ(c)において製造された微生物宿主細胞のうち少なくとも1個を培養するステップと、e)ステップ(d)の培養物由来の使用済み培地またはライセートを、標的天然物および/または前記標的天然物のアナログについて解析するステップと、f)ステップ(d)において培養された微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(e)の解析によって決定される通り、選択された微生物宿主細胞が、標的天然物のアナログを産生し、これにより、標的天然物のアナログを産生する、ステップとを含む方法を教示する。
天然物アナログ化-組合せ戦略
一部の実施形態では、本開示は、本開示の戦略の組合せを通してのアナログ化を教示する。このように、一部の実施形態では、本開示は、クラスター操作および酵素パネルの戦略を組み合わせることを教示する。一部の実施形態では、本開示は、クラスターの操作および相同なクラスターの利用の戦略を組み合わせることを教示する。一部の実施形態では、本開示は、酵素パネルおよび相同なクラスターの利用の戦略を組み合わせることを教示する。一部の実施形態では、本開示は、クラスター操作、酵素パネル、および相同なクラスターの利用の戦略を組み合わせることを教示する。
本開示の方法を実行するためのシステム
当業者は、本開示の実施形態の一部または全てのエレメントおよびそれに伴う操作が、1個または複数のプロセッサーおよび1個または複数のメモリーシステムを含む1個または複数のコンピュータシステムによって全体としてまたは部分的にインプリメントされ得ることを理解する。一部のエレメントおよび機能性は、局所でインプリメントされてもよく、他方が例えばクライアントサーバー様式の異なるサーバーを通してネットワーク上で分布された様式でインプリメントされてもよい。特に、サーバー側の操作は、サービスとしてのソフトウェア(SaaS)様式で複数のクライアントに利用可能であってもよい。
当業者は、一部の実施形態では、本明細書に記載の操作の一部がヒトのインプリメンテーションによって、または自動および手動の手段の組合せを通して実施され得ることを認識する。操作が完全には自動化されていない場合、本開示の実施形態の適切な構成要素は、例えばそれ自体の操作能を通して結果を生成するのではなく、ヒトが操作を行った結果を受ける。
******
本記載は、様々な例としての実施形態を示す添付の図面および実施例を参照してなされる。しかし、多くの異なる例としての実施形態を使用してもよく、このように記載は、本明細書に記載される例としての実施形態に限定されないと解釈すべきである。むしろ、これらの例としての実施形態は、本開示が十分かつ完全であるように提供される。例としての実施形態に対する様々な変更は容易に当業者に明白であり、本明細書で定義する一般的原理は、本開示の精神および範囲から逸脱することなく他の実施形態および応用に適用され得る。このように、本開示は、示される実施形態に限定されないと意図され、本明細書に開示される原理および特色と一貫する最も広い範囲と一致する。
以下の実施例は、本開示の様々な実施形態を例証する目的のために示され、本開示をいかなるようにも限定しないことを意味する。特許請求の範囲によって定義される本開示の精神内に包含されるそれらの変更および他の使用は、当業者によって認識される。
内容に関する簡単な表を単に読者を助ける目的で以下に提供する。この表の内容に関するいかなるものも、本出願の例または開示の範囲を限定しないことを意味する。
表4.1-実施例のセクションについての内容の表
Figure 2023513314000026
Figure 2023513314000027
Figure 2023513314000028
Figure 2023513314000029
Figure 2023513314000030
(実施例1)
最適なメタゲノムライブラリーパラメーターを確立するためのモデリング
本発明は、in silicoでの天然物発見を可能にするメタゲノムライブラリーパラメーターを本発明者らが発見したことに一部基づいている。著者らは、MGC発見にとって有用であるメタゲノムライブラリーを生成する以前の試みが、i)過度に複雑なDNA混合物により十分に長いアセンブリーを産生することができなかった、またはii)配列決定のために選択した細胞/コスミドがごくわずかであったために、環境試料内の意味のある多様性を捉えることができなかったライブラリーを創出したために失敗したという仮説を立てた。すなわち、以前の試みは、複雑性を低下させるために十分なステップを行わなかったか、または試料の多様性を捉えることができないほど複雑性を低下させたかのいずれかであった。
最初のステップとして、本発明者らは、異なるN50長のライブラリーによるMGC発見率を解析した。類似の複雑性の試料からの多様なデジタルメタゲノムライブラリー(DML)を、約1000bpから約25,000bpまでの範囲に及ぶ異なるN50を有するDMLを産生するために、様々なレベルのカバレッジで配列決定した。次に、N50のDMLアセンブリーメトリクス、総アセンブリー長、およびコンティグの数を、metaQUASTを使用して各DMLについて計算した。次に、これらの試験DMLを、antiSMASHによって解析して、アセンブリー内に存在する多重遺伝子クラスターを同定した。この解析の目的に関して、目的の天然物をコードする最低の平均クラスターサイズであることが決定されている10kbより大きいクラスターのみを検索した(R. Baltz. Natural product drug discovery in the genomic era; realities, conjectures, misconceptions, and opportunities. J. of Industrial Microbiology and Biotechnology 2019 Mar;46(3-4):281-299を参照されたく、これは、少なくとも約10kbのクラスターが有用な生物活性に最も関連していることを実証した)。最後に、各DMLに関して、アセンブルされた配列のMbp当たりの>10kbのMGC数を計算した。
これらの実験の結果を表5に示し、図22にも例証する。図22におけるアセンブルされた配列のメガ塩基対当たりのMGC発見率を、試験DMLのN50の関数として示す。MGCの総発見率は、N50が増加するにつれて急激に増加するが、約15,000bpのN50で平坦化し始める。15,000bpのN50を有するライブラリー。
表5-試験DMLにおけるMGC発見率
Figure 2023513314000031
Figure 2023513314000032
各試料の複雑性が類似であるために、より低いN50もまたDMLに関してより低い総アセンブル長をもたらす(総アセンブル長は、DMLのコンティグ内に含有される非重複配列情報の全量である)ことに注意されたい。
この実験からの結果は、5,000bp未満のN50を有するライブラリーが、実際のMGC発見にとって不十分であることを示唆した。一部の実施形態では、結果は、少なくとも15KbのN50を有するDMLがMGC発見にとって最適であることを示唆している。
(実施例2)
最適なプール用パラメーターを確立するためのモデリング
本開示は、環境試料からのクローンを、その後のアセンブリーのためにメタゲノムライブラリーの複雑性を低下させるように個別のサイロにプールする方法を教示する。プールすることはまた、環境試料のより大きい標本抽出を可能にし、シーケンサーの帯域幅のより効率的な使用を可能にし、ラン当たりより大きい全ライブラリーをもたらし得る。天然物発見のためのDMLを産生するためのプールする最適なレベルを決定するために、一連のシミュレーションを遂行した。
異なるサイズのコスミド(1、5、10、100、200、6,000、12,000、および60,000個のコスミド)のプールのシミュレートした配列決定および配列決定アセンブリーを生成するために、異なるサイズの複数の経験的に配列決定されたメタゲノムライブラリーから生成された生ペアエンドfasq(Illumina)データを生成した。これらのシミュレートされたプールについての生fastqファイルを、BBtoolsパッケージ(//sourceforge.net/projects/bbmap/)のbbdukを使用して最初にトリミングした。トリミングしたfastqファイルにおける総リードを次に、サブサンプリングしてBBtoolsパッケージにおけるbbnormを使用して5×および10×の標的リード深度に正規化した。正規化およびサブサンプリング後、E.coli gDNAおよびpWEBクローニングベクター骨格にマッチするリードを、bbdukを使用してファイルされたfastqから除去した後、bbmergeを使用してペアエンドリードの融合を行った。融合および非融合ペアエンドfastqリード(各々の正規化された深度に関して)を、SPAdesアセンブラー(v.3.10.1)に入力として提供し、リードのエラー補正を行うことなく、アセンブリーをデフォルトパラメータによって実行した。このプロセスは、5×および10×カバレッジで配列決定されたコスミドのプールからのシミュレートされたアセンブリーをもたらした。N50および長さが15kbより大きいコンティグ数を含む、各アセンブリーからのコンティグのアセンブリー品質メトリクスを、metaQUAST(v.5.0.0)を使用して生成した。15kb N50カットオフは、天然物コードMGCにとって最適であるとして15kbより大きいコンティグの長さを同定した、実施例1の結果に基づいた。最後に、これらのコンティグにおいてコードされるMGCの数を、コンティグをantiSMASH 5.0に入力することによって同定した。
これらのシミュレーションの結果を、表6に示し、図21Aおよび図21Bに例証する。シミュレーションは、10×カバレッジで、配列決定サイロ当たり最大約34,000個のクローンをプールすることによってMGC発見(すなわち、15,000bpより大きいN50を有する)にとって適したデジタルメタゲノムライブラリーを産生することが可能であることを示している。この結果は予想外であったが、その理由は、一般的な考えでは、同時に配列決定されている<100個のコスミドのプールは、MGCアノテーションを可能にするために十分な長さの配列アセンブリーを生じることができるが、より高レベルの複雑性のコスミドプール(例えば、>1000個のコスミド)は、プールから試料をデマルチプレクスする方法(例えば、個々のバーコードの使用を通して)がなければ、アセンブリーをもたらすことができないか、またはMGCアノテーションのために使用することができない低い品質のアセンブリーをもたらすということであったためである。
表6-コスミドをプールすることから生成されたライブラリーのN50長
Figure 2023513314000033
シミュレーションは、最大約34,000個のコスミドプールがMGCを含有するために十分な長さの配列アセンブリーを生じることができることを指し示しているが、その複雑性は、MGC発見にとって最も有効なプールサイズではないことがある。この応用のためのプールの複雑性をさらに最適化するために、シミュレートされたデータを解析して、生配列データの500MBの増分当たりの長いコンティグ(>15kb)アセンブリー(5×または10×生配列カバレッジから計算)の効率を決定した。500MBは、それがIllumina MiSeqランから生成されたデータの量の次数であるために選択した。これらのシミュレーションからの結果を、以下の表7に示し、図21Cにも例証する。
表7-アセンブルされた長いコンティグの効率とサイロプール当たりのコスミドとの比較
Figure 2023513314000034
Figure 2023513314000035
結果は、プールの中で1個のコスミドから約10,000個のコスミドまで移動すると、生配列データの500MB当たりに生成される>15kbのコンティグ数が、有意に増加することを示しており、このことはその複雑度でのコスミドをプールすることが、MGCアノテーションの配列決定能のより効率的な使用であることを示している。しかし、プールの複雑性が60,000まで増加すると、生配列データ500MB毎に生成される>15kbのコンティグ数は急激に低下する。これらの非常に複雑なプールでは、アセンブリーはなおも多くの絶対数の>15kbのコンティグを生じ得るが、各々のコンティグは生成されるためにより多くの配列決定を必要とし、その結果、配列決定ラン当たりのその長さのコンティグはより少なく生成される。このため、この応用では、シミュレーションは、約6,000~15,000個のコスミドプールがMGC発見のための最適なライブラリーを生じることを指し示している。これらのシミュレーションを20×カバレッジの配列決定ランに関して繰り返し、上記で報告された結果と類似の結果を生じた。
上記の実施例1および2からの結果に基づき、次に本出願人らは、以下の実施例3により詳細に考察するように、サイロ配列決定ラン当たり6,000~10,000個のコスミドをプールすることによって土壌環境DNAから最適化メタゲノムライブラリーを産生することに着手した。
(実施例3)
メタゲノムライブラリーの調製
収集
私有地からの土壌試料およそ1kgを収集し、土壌を2mmの網ふるいにかけて石、小枝、および他の非土壌物質を除去した。300mLのCTABに基づく溶解緩衝液(100mM Tris-HCl、100mM EDTA、1.5M NaCl、1%(w/v)CTAB、2%(w/v)SDS、pH8.0)を最初に加え、その後絶えず反転させて混合しながら70℃で2時間インキュベートすることによって約250gの土壌からDNAを抽出した。試料を、4℃、4,000gで20分間遠心分離した。上清をきれいなボトルに移し、4℃、4,000gで20分間の2回目の遠心分離を行った。得られたライセートを新しいボトルに移し、0.7体積のイソプロパノールを加え、30分間穏やかに混合した。沈殿したDNAを、4℃、4,000gで30分間の遠心分離を2回行うことによって沈降させ、第1の遠心分離と第2の遠心分離の間に70%エタノールによって洗浄した。上清を捨て、DNA沈降物を乾燥させ、乾燥したDNAを10mLのTEに再懸濁した。抽出したDNAを、Epoch分光光度計を使用して定量し、さらなる処理のために保存した。
サイズ選択
土壌試料中の微小生物のゲノムを含む抽出したDNAを、非染色0.75%アガロースゲルにロードし、3V/cmの一定電圧で12~16時間分離した。DNAサイジングマーカーを含有するゲルの先端を切り出し、染色した。その後、およそ35~50kbのDNAを含有するゲルバンドを切り出した。DNAを含有するゲルスライスを、1×TAE緩衝液を含む12kD MWC透析チューブの中に入れ、DNAを3V/cmの一定電圧で3時間電気溶出した。電気溶出後、DNAを濃縮し、CentriCon限外ろ過デバイスを使用して30kD MWCメンブレンによって緩衝液を0.5×TE緩衝液に交換した(図13を参照されたい)。
コスミドのパッケージング
DNAを、End-It DNA End-Repairキット(Lucigen、ER0720)を使用して平滑末端にし、イソプロパノールによって沈殿させた。250ngの平滑末端DNAを含有するおよそ10個のライゲーション反応物を、500ngの平滑末端コスミドベクター(T4リガーゼ、NEB、M0202)と組み合わせ、コスミド骨格にクローニングした。クローニングしたDNAを、ファージにパッケージングし、MaxPlax(商標)パッケージングキット(Lucigen、MP5120)を使用して製造元の使用説明書に従ってE.coliに形質導入した(図13を参照されたい)。簡単に説明すると、ファージを含むパッケージング抽出溶液を、気泡を導入しないように数回ピペッティングすることによって断片化したDNAと混合する。反応物を30℃で90分間インキュベートした。さらに25μlの融解したパッケージング抽出溶液を加え、反応物を30℃でさらに90分間インキュベートした。インキュベートした試料をファージ希釈緩衝液によって希釈し、穏やかにボルテックス撹拌した。取り込まれていないファージタンパク質は、クロロホルムを加え、試料を穏やかに混合することによって沈殿させた。希釈液を宿主E.coli細胞と混合し、室温で20分間インキュベートして、ファージを接着させた。トランスフェクトした細胞を、37℃で75分間回収し、適切な抗生物質選択を含有するLB寒天に播種した。パッケージング効率を、製造元の使用説明書に従ってパッケージング反応の一部に関して測定した。
プーリングおよび配列決定
実施例2は、10×カバレッジで天然物発見(例えば、少なくとも15,000bpのN50を有する)に供されるDMLをなおも産生する最大約34,000個のクローンをプールすることが可能であるが、最大効率は、プール当たり約6,000~約15,000個のクローンの範囲で達成されることを実証した。予算の制限内で可能性がある最良のライブラリーを産生する努力において、形質導入されたコスミドを含有するE.coliを、測定されたファージパッケージング効率に基づいて各々がおよそ6,000~10,000個のコスミドのプール(「E.coliコスミドプール」)に組み合わせた。各々のE.coliコスミドプールを、Nextera XT(登録商標)DNA ライブラリー Prepキットを使用して配列決定のために調製し、HiSeq 4000またはNovaSeq 6000 Illumina(登録商標)シーケンサーにおいて配列決定した(図14を参照されたい)。
逐次的アセンブリー
プールした試料からのリードをトリミングし、品質をフィルタリングし、ペアエンドリードを、BBToolsを使用して融合した。混入している配列(例えば、クローニングベクター、宿主ゲノム)もまた、BBToolsを使用して除去した。きれいな融合および非融合ペアエンドリードを、SPAdesバージョン3.10.1を使用してアセンブルした。N50長が約18kbの得られたコンティグアセンブリーを使用して、異なるコンティグおよびプールにわたってより長いアセンブリーを調製した(図15を参照されたい)。得られたクロスプールアセンブリーは、N50が約32kbの大きい配列コンティグを産生した。アセンブルされた配列を、データベースに追加し、これを「デジタルメタゲノミクスライブラリー」と呼んだ。
物理的プールの配置
E.coliコスミドプールを、長期保存のために個々の凍結バイアルにおいてグリセロール中で保存した。二連のE.coliコスミドプールを、E.coli細胞のグリセロールストックとして、または前記ストックからの単離されたDNAとして96ウェルフォーマットで保存した(図16を参照されたい)。これらを「メタゲノム物理的ライブラリー」と呼んだ。デジタルメタゲノミクスライブラリー中の各配列を、データベースを介して、保存されたメタゲノム物理的ライブラリー内の対応する物理的DNA断片の位置と関連させた。
(実施例4)
本開示のデジタルメタゲノムライブラリーおよび公開されているアセンブルされたメタゲノムライブラリーを使用するMGC発見の比較
デジタルメタゲノムライブラリーを、実施例3に記載のプロトコールと同じプロトコールに従って調製した。ライブラリーを、実施例1および2で遂行されたシミュレーションから収集した推奨に従って産生した。得られたライブラリーは、それが由来する土壌環境試料を広く代表し(例えば、図28を参照されたい)、改善されたMGC発見のために>15,000bpのN50を示した。
これらの上記で参照したライブラリー設計選択を検証するために、本発明者らは、本実施例からのDMLと、公開されている最大の土壌メタゲノム(プロジェクトID Gp0051441のJoint Genome Institute土壌メタゲノムライブラリー、本明細書において「JGI土壌メタゲノム」と呼ぶ)の1つのライブラリーとの実世界での比較を遂行した。JGI土壌メタゲノムは、カンザス州、ウィスコンシン州、およびアイオワ州の自然の草原の土壌試料から収集した土壌に基づき、Joint Genome Institute Genomeポータル//img.jgi.doe.gov/cgi-bin/m/main.cgi?section=TaxonDetail&page=taxonDetail&taxon_oid=3300000956で公開されている(同様に、Adina Chuang Howe, Janet K. Jansson, Stephanie A. Malfatti, Susannah G. Tringe, James M. Tiedje, C. Titus Brown. ”Tackling soil diversity with the assembly” Proceedings of the National Academy of Sciences Mar 2014, 201402564; DOI: 10.1073/pnas.1402564111も参照されたい)。
JGIメタゲノムライブラリーは、本開示のDMLのわずか1.84と比較して8.88ギガ塩基対の総アセンブル長を有した。実施例3で産生されたDMLは、15,000bpより大きい平均N50を有したが、JGIメタゲノムは985の平均N50を有した。
JGIメタゲノムライブラリーおよびDMLをいずれも、antiSMASH 5.0を使用して解析して、長さが10kbより長いいくつかの推定上の多重遺伝子クラスターを同定した。この解析のこの結果を、図24に要約する。antiSMASHは、DMLにおいて1287個の推定上のクラスターを同定したが、JGIメタゲノムライブラリーではわずか120個の推定上のクラスターを同定したに過ぎなかった。これらの結果は、配列のギガ塩基当たりに同定されたクラスター数を提供する図25においてよりよく表される。JGIメタゲノムライブラリーは、ギガ塩基当たり13.5個の推定上のクラスターを生じたが、本開示のDMLは、配列のギガ塩基当たり700個の推定上のクラスターを生じた。
このように、公開されているメタゲノムライブラリーと比較すると、本開示のDMLは、推定上のクラスターヒットの生成において50倍より多く良好であった。
(実施例5)
メタゲノムライブラリーにおける天然物の同定(抵抗性シグナル検索)
実施例3のデジタルメタゲノムライブラリー(DML)を設計および検証後、次に本発明者らは、製品発見ワークフローをこのDMLに適用することを求めた。本実施例は、本文書の「抵抗性遺伝子検索ワークフロー」のセクションに考察されているように、新規天然物の同定に関する多重遺伝子クラスター特色セットの抵抗性シグナルに基づく検索を例証する。本実施例は、天然物多重遺伝子クラスター特色セットを示すシグナルとして、推定上の標的バリアントに基づく抵抗性配列を使用した。本実施例は、抵抗性遺伝子検索ワークフローを適用して、候補抵抗性遺伝子を同定するための標的遺伝子として公知の抵抗性遺伝子を使用することによって、既存の天然物に関連する新たな天然物を同定する。
適用の標的
プロテアソームの阻害剤はいずれも、承認された抗がん剤(例えば、カルフィルゾミブ)ならびに臨床開発中の抗がん剤(例えば、マリゾミブ)である。カルフィルゾミブ(Carfilxomib)およびマリゾミブはいずれもそれぞれ、細菌天然物であるエポキソミシンおよびサリノスポラミドAに基づいている。Salinospora細菌のある特定の種におけるサリノスポラミドAをコードする生合成遺伝子クラスターは、サリノスポラミドAを産生するために必要な全ての生合成酵素を含有する。これらの酵素に加えて、生合成遺伝子クラスターは、サリノスポラミドAの効果に対して抵抗性であるプロテアソームのベータサブユニットのバリアントをコードする遺伝子(抵抗性遺伝子)を含有する。このタンパク質バリアントの発現は、サリノスポラミドAの存在下で産生細菌が生き延びることを可能にする。新規天然物である低分子プロテアソーム阻害剤は、プロテアソームのベータサブユニットのバリアントをコードする抵抗性遺伝子を含有する生合成遺伝子クラスターによってコードされ得る。これらの新規天然物プロテアソーム阻害剤は、新規抗がん剤の足場構造として役立ち得る。
HMMの選択
HMMライブラリー(PFAMおよびTIGRFAM)を、プロテアソームのベータサブユニットに関する適切なHMMを同定するために検索した。TIGR03690を選択し、検索問い合わせとして使用した。
メタゲノムライブラリーにおける抵抗性遺伝子の検索-天然物多重遺伝子クラスター特色セットを示すシグナルに関してデジタルメタゲノミクスライブラリーを問い合わせる
上記で同定されたHMMモデルを使用して、実施例3によって産生されたデジタルメタゲノミクスライブラリーにおけるプロテアソームのベータサブユニットをコードする微生物遺伝子(標的遺伝子、抵抗性遺伝子)に関して検索した。検索によって、「候補配列」と名付けられる一連の配列が同定された。各候補配列を、モデルによって割り当てられる信頼度スコアに関連させた。1e-10の最大E値を確立して、さらなる解析のための上位ヒットを選択した。一部の例では、配列を97%同一性で複製排除した。
複数のシグナル関連の(多重遺伝子クラスター)デジタル特色セットとしてのHMM問い合わせの出力を供給する
上記で同定された1個または複数の候補配列をコードするアセンブルされた配列(すなわち、プロテアソームのベータサブユニットをコードする遺伝子)を、シグナル関連の(多重遺伝子クラスター)デジタル特色セットを表す新規ファイルにダウンロードした。
多重遺伝子クラスターの同定-シグナル関連の多重遺伝子クラスターデジタル特色セットに対する生物学的関連性を決定することおよび割り当てること
これらのデジタル特色セットを、antiSMASHクラスター解析ツールを使用して多重遺伝子クラスター特色セットの存在について解析した(Kai Blin et al. ”antiSMASH 5.0: updates to the secondary metabolite genome mining pipeline” Nucleic Acids Research (2019)、//antismash.secondarymetabolites.org/#!/startで入手可能なツールを参照されたい)。遺伝子クラスターに関連する生合成および他の配列に基づくシグナルの存在に基づくMGCの同定(例えば、antiSMASHを使用する)はまた、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定すること、および生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色をデジタル処理でアセンブルすることと呼ばれる。
コンピューターによって決定された天然物多重遺伝子クラスター特色セットの閾値パラメーター内に位置するコンピューターによって決定された生物学的抵抗性遺伝子に基づいて目的の天然物をコードするMGCを同定する
初期のステップで同定された抵抗性遺伝子(候補配列)の位置を、上記のantiSMASHを介して同定されたMGCの位置に対して比較した。その予測される境界内またはこれらの境界から5~10kb以内に候補配列を含有する20個の予測される天然物多重遺伝子クラスターを、さらなる解析のために選択した。
多重遺伝子クラスターの必要に応じた優先順位付け
本実施例の目標は、エポキソミシンに対して構造の類似性を有する、潜在的抗がん特性を有する天然物の新規バリアントをコードするMGCを同定することであった。ボナフィド抵抗性遺伝子を含有する天然物多重遺伝子クラスターに関して富化するために、追加の基準を使用して、最も重要な目的のクラスターを選択した。推定上の抵抗性遺伝子(候補遺伝子)を、BLASTを利用してヒトプロテオームと比較して、推定上の抵抗性遺伝子に対する最も強いタンパク質のマッチが、プロテアソームのベータサブユニットの構成成分であることを確認した。これはまた、「天然物多重遺伝子クラスター特色セットを示すシグナルに関してデジタルメタゲノミクスライブラリーを問い合わせる」ステップにおける抵抗性遺伝子相同性検索のストリンジェンシーを単に増加させることによっても達成されていることに注意されたい。
antiSMASH解析からのヒットもまた、BIGScapeを介して解析して、したがって同定された多重遺伝子クラスターと群としての多重遺伝子クラスターの間の関係を同定した(Navarro-Munoz et al. ”A computational framework for systematic exploration of biosynthetic diversity from large-scale genomic data” BioRxiV 2018、omictools.com/big-scape-toolで入手可能なツールを参照されたい)。一部のワークフローでは、多重遺伝子クラスターのリストを、1)多重遺伝子クラスターの予測される長さ、および2)Kaijuによって割り当てられる多重遺伝子クラスターの予測される分類学によってさらにフィルタリングした。
プロテアソームのアルファサブユニットをコードする遺伝子に隣接するプロテアソームのベータサブユニットをコードする遺伝子を含有する多重遺伝子クラスターは、抵抗性遺伝子として役立つ可能性が低いと思われ、セットから除去した。
これらのステップは、検証のために選択した3つの優先順位の高い多重遺伝子クラスターに対して候補クラスターのプールの優先順位を付けた。
この方法のin silicoステップを概要するフローチャートを図6に提供する。
NP検証
本実施例のワークフローステップは、エポネマイシン(1,2-エポキシ-2-ヒドロキシメチル-4-(N-イソオクタノイルセリルアミノ)-6-メチルヘプタ-6-エン-3-オン)を産生することが文献ですでに報告されているMGCを同定した。エポネマイシンクラスターの同定は、このように抵抗性遺伝子検索ワークフローのin silico部分を検証した。
本実施例における追加の候補MGCを、ウェットラボ技術を介して検証する。候補配列の近位に多重遺伝子クラスターを含むと上記で同定された配列を含むDNAを、メタゲノム物理的ライブラリーから回収する。簡単に説明すると、多重遺伝子クラスターを含む所望のDNA配列の位置を、各々の配列が物理的に位置するプレートおよびウェル(すなわち、メタゲノム物理的ライブラリー内の位置)を指し示すメタゲノムデータベースから得る。次に、同定されたDNA配列を物理的ライブラリー(例えば、プールから目的の配列を単離するために一連の希釈を介して)から回収し、多重遺伝子クラスターを含むDNA配列をクローニングし、S.cerevisiaeにおけるTransformation Assisted Recombination(TAR)を使用してプラスミドベクターにおいて再アセンブルする。ベクターを使用して、多重遺伝子クラスターをStreptomyces sp.の微生物宿主に導入した。次に、改変された微生物宿主細胞を培養し、i)in vivoもしくはin vitroでプロテアソームに結合するかもしくはそれ以外の方法で相互作用する、および/またはii)プロテアソームの阻害を介して細胞に対して毒性である天然物の産生について試験し、同定された多重遺伝子クラスターにおいて(またはその近位で)同定された候補抵抗性遺伝子の発現を保持する。
(実施例6)
抵抗性遺伝子の存在/知識がない場合のクラスターによって産生された天然物の同定(推移的な検索ワークフロー)
本実施例は、本文書の「推移的な多重遺伝子クラスター特色セット発見ワークフロー」のセクションで考察されたように、容易に同定可能な抵抗性遺伝子を欠如する多重遺伝子クラスター特色セットの発見のための方法を例証する。このアプローチを使用して、公知のまたは予測される抵抗性遺伝子を有する公知のクラスターを含む、他の公知のクラスターに対するその類似性に基づいて新規多重遺伝子クラスターを同定することができる。
実施例5で同定された多重遺伝子クラスターをさらに解析して、前記クラスターに対して共通の特有の酵素構成成分を同定した。エポネマイシンを産生することが公知のクラスターを追加の解析のために選択した。エポネマイシンコードクラスターの配列解析は、アシルCoAデヒドロゲナーゼ(ACAD)遺伝子(AHB38508.1)を同定し、これはエポネマイシンにおいて見出される特有のエポキシケトンの形成にとって必須である(すなわち、「コア生合成遺伝子/酵素」)非リボソームペプチドシンテターゼおよびポリケチドシンターゼ遺伝子に関連した。エポネマイシンに構造的に関連する分子をコードするクラスターを同定するために、AHB38508.1配列を使用して実施例3のデジタルメタゲノムライブラリーのBLAST検索を行って、高い同一性スコアを有する他のACAD遺伝子を同定した。次に、上位250のヒットを、推定上のACAD遺伝子のすぐ周囲のDNAのデータベースを創出することによってさらに解析した。これは、さらなる解析のためにACAD遺伝子を含有するコンティグ全体を得ることによって達成された。DMLは、メタゲノムデータベースにおいて同定された250個の推定上のACAD遺伝子の各々の20kb上流および20kb下流を含有した。次に、ACAD遺伝子を含有するこれらの選択された配列を、antiSMASHを使用して解析して、推定上の多重遺伝子クラスター内に含有されるACAD遺伝子を同定した。具体的には、NRPSおよびPKS含有遺伝子クラスターに関連するヒットが同定された。全体で22個のヒットが、エポネマイシン様天然物をコードすることができる推定上の新規多重遺伝子クラスターとして同定された。
これらの22個の推定上のヒットを、i)元のエポネマイシンクラスターと類似のサイズ(すなわち、約20kb~40kbの範囲)、およびii)コア生合成遺伝子/酵素の類似の相補体(例えば、1~2個のPKS様分子、2~5個のNRPS様分子、および上述のACAD遺伝子の存在)を示すヒットに関してさらにフィルタリングした。これらのフィルターは、配列を検討から除外するものではなかったが、その代わりに実験の検証のためにヒットの優先順位を付けるために使用した。
本発明者らが22個のヒットを調べると、本発明者らは、エポキソミシンと呼ばれるエポキシケトン含有分子または近縁のアナログをコードする2つのクラスターをデータベースにおいて同定した。エポキソミシンクラスター内に抵抗性遺伝子がないにもかかわらず、エポキソミシンは、プロテアソームのベータサブユニットの阻害剤として特徴付けられている。
(実施例7)
メタゲノムライブラリー(標的化されない抵抗性シグナル検索)における天然物の同定
本実施例は、de novo多重遺伝子クラスター特色セット発見のための方法であって、検索を始めるために推定上の抵抗性遺伝子を予め選択する必要がない方法を例証する。本実施例は、一般的に本文書の「標的化されない抵抗性シグナル多重遺伝子クラスターセット発見ワークフロー」のセクションに概要されるワークフローに従う。一部の場合では、本実施例の方法は、公知の抵抗性遺伝子に対する前記新規抵抗性遺伝子の配列同一性に依存することなく、新規抵抗性遺伝子を同定することができる。
天然物の生合成に関係する酵素の生合成データベースの創出
天然物遺伝子クラスターの公開データベース(MIBiG//mibig.secondarymetabolites.org/download)に含有される生合成酵素を同定する。これらの生合成酵素のアミノ酸配列を、アノテーション「生合成」および「生合成-追加」を介して問い合わせ、配列genbankファイルから抽出する。得られたアミノ酸配列セットを、CD-HITを使用してクラスターにして、冗長性を低減する。得られたアミノ酸配列の非冗長セットは、生合成酵素データベースを表し、これを使用して生合成酵素ホモログを同定するためにより大きいセットの配列に対して問い合わせることができる。
メタゲノムライブラリーにおける多重遺伝子クラスター同定(仮想例)-長いアセンブリーデジタルメタゲノムライブラリー内の天然物多重遺伝子クラスター特色セットをコンピューターによって予測する
実施例3によって産生されるデジタルメタゲノミクスライブラリーを、antiSMASHクラスター解析ツールを使用して多重遺伝子クラスター特色セットの存在について解析する(Kai Blin et al. ”antiSMASH 5.0: updates to the secondary metaboline genome mining pipeline” Nucleic Acids Research (2019)、//antismash.secondarymetabolites.org/#!/startで入手可能なツールを参照されたい)。得られたantiSMASH出力は、同定された遺伝子クラスターのリストならびにそれらのクラスター内の重要な生合成酵素の機能的アノテーションを含む。
同定されたMGC内の推定上の抵抗性遺伝子の同定(仮想例)-予測される天然物多重遺伝子クラスター特色セット内の遺伝子のアノテートおよび予測される天然物多重遺伝子クラスター特色セットからのアノテートされた遺伝子のフィルタリング
同定された多重遺伝子クラスター内の推定上の抵抗性遺伝子は、除去のプロセスを介して行われる。多重遺伝子クラスター内の遺伝子のアノテーションを、antiSMASHによって予測されるまたは本発明者らの生合成データベースに含有される天然物の生合成に関係することが高度の信頼度で予測されるあらゆる配列を除去するようにフィルタリングする。予測される生合成機能を有しない多重遺伝子クラスター内の残りの遺伝子は、「候補抵抗性遺伝子」として見なされ、さらに解析される。
標的タンパク質のバリアントをコードすることによって抵抗性を提供しない抵抗性遺伝子を同定するResFamデータベースからのHMMを使用して、非タンパク質バリアント抵抗性遺伝子を同定し、解析から除去した。残っている候補抵抗性遺伝子を、公開データベースにおける前記遺伝子の推定上のオルソログを同定することによってin silicoで調べる。同定されたオルソログは、コードされる天然物の推定上の標的を提供する。
NPおよび抵抗性の検証(仮想例)
候補遺伝子の近位で多重遺伝子クラスターを含むとして上記で同定された配列を含むDNAを、メタゲノム物理的ライブラリーから回収する。簡単に説明すると、多重遺伝子クラスターを含む所望のDNA配列の位置を、各々の配列が物理的に位置するプレートおよびウェル(すなわち、メタゲノム物理的ライブラリー内の位置)を指し示すメタゲノムデータベースから得る。次に、同定されたDNA配列を、物理的ライブラリーから回収し(例えば、プールから目的の配列を単離するために一連の希釈を介して)、多重遺伝子クラスターを含むDNA配列をクローニングし、S.cerevisiaeにおけるTransformation Assisted Recombination(TAR)を使用してプラスミドベクターにおいて再アセンブルする。ベクターを使用して、多重遺伝子クラスターをStreptomyces sp.微生物宿主に導入する。次に、改変された微生物宿主細胞を培養し、空のベクター対照では見出されない天然物の産生に関して試験する。
天然物を半精製し、非改変微生物宿主に対するその毒性をディスク拡散アッセイによって確認する。推定上の抵抗性遺伝子を非改変微生物宿主細胞において発現させると、天然物はもはや毒性ではない。結合アッセイは、天然物が仮説の標的タンパク質と相互作用することを実証する。
(実施例8)
天然物のアナログ化
本実施例は、天然物分子のアナログ化のための本明細書に開示の方法のいくつかを例証する。具体的には、例は、メタゲノムライブラリーから酵素のパネルを同定および編集するための予測的機械学習モデルの使用を記載する。次に、これらのパネルを、天然物分子に適用して(または天然物を産生する株のゲノムに組み込み)、新規アナログを産生する。
メタゲノムライブラリーからの酵素の選択
HMMは、1)メタゲノムの多様性を広く標本抽出するため、および/または2)目的の酵素-基質活性に関して富化すると考えられる配列特徴を含有するように選択された384個のアルド-ケトレダクターゼ遺伝子を同定するために開発された。
酵素パネルの構築
酵素パネルを含む所望のDNA配列の位置を、各々の配列が物理的に位置するプレートおよびウェル(すなわち、メタゲノム物理的ライブラリー内の位置)を指し示すメタゲノムデータベースから得た。次に、同定された配列を物理的ライブラリー(例えば、PCRを介して)から回収し、発現プラスミドにクローニングし、微生物宿主細胞に形質転換する。次に、これらの宿主細胞を96ウェルまたは384ウェルフォーマットに配置する。
活性酵素のアッセイおよび同定
目的の酵素を発現させるために、発現プラスミドを含有する微生物株を、抗生物質選択下、自己誘導培地中で培養する。誘導後、微生物培養物を採取し、溶解し、清澄化して特徴付けのために目的の過剰発現された酵素を放出させる。
酵素パネルの活性を特徴付けるために、清澄化ライセートを、基質、緩衝液、および他の関連する添加剤を明瞭なマーカー(例えば、公知の吸光度を有する補因子)と共に含有する反応混合物中でインキュベートする。活性を、反応の経過にわたる吸光度の強度の変化によって測定する。活性酵素バリアントは、反応期間を通して対照より小さい吸光度差を示した。
一例として、アルド-ケトレダクターゼ酵素パネルは、経時的な還元ニコチンアミドであるアデニンジヌクレオチド(リン酸)の消費をモニターするエンドポイント比色アッセイによって特徴付けられる。基質の酵素による還元(アナログ化)は、NAD(P)Hの酸化を必要とし、したがって、酵素パネルの活性はNAD(P)Hの消費と連動し、これを340nmでの吸光度の減少によってモニターすることができる。
過剰発現された酵素バリアントを含有する清澄化ライセートを、設定濃度の基質(ゲルダナマイシン)、リン酸緩衝液およびNAD(P)Hと共に混合した。反応混合物の吸光度を、反応の開始および終了時に得て、吸光度差を決定する。対照をまた使用してバックグラウンド吸光度を決定する。バックグラウンドを超える正の吸光度差を有するバリアントを含有する反応混合物を解析して、所望のアナログ、還元されたゲルダナマイシンの産生を確認する。
in vivo活性
in vitro酵素パネルスクリーニングを介して同定されたゲルダナマイシンに作用することができる酵素バリアントを、発現プラスミドにクローニングし、ゲルダナマイシンの天然の産生体であるStreptomyces hygroscopicusに形質転換する。発酵および質量解析後、in vitroアッセイで同定されたゲルダナマイシンの還元型を、形質転換された微生物細胞において同定する(図10を参照されたい)。
(実施例9)
訓練データセットを使用してアナログ化のための候補配列のプールを生成するためにメタゲノムデータベースに適用される予測的機械学習モデルを生成する-カスタムAKR HMMアプローチ
これらの実施例は、メタゲノムライブラリーから候補酵素のパネルを同定および編集するための予測的機械学習モデルの使用を記載する。この選択の目的は、A)大きい配列ライブラリー(例えば、本開示のメタゲノムライブラリー)全体にわたる試料の多様性を標本抽出すること、および/またはB)本明細書に記載の予測モデルが目的の酵素-基質活性に関して富化する能力を実証することであった。
このように、実施例9および10は、アナログ化プラットフォームのin silico部分を表す。後の実施例11は、候補となるアナログ化酵素の同定されたプールをクローニングして発現させ、それらを、天然物分子に対して試験して新規アナログを産生する。行われた戦略のさらなる詳細を以下に考察する。
典型的なアルド-ケトレダクターゼ(AKR)配列の最初の訓練データセットを、文献およびアノテートされたデータベースの再検討から産生した。これは、本明細書において「遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップ」と呼ばれる。
これらの訓練データセット配列を使用して、多重配列アライメント(MSA)を生成し、これをさらに使用して、本文書で記載されるカスタム予測的機械学習HMMモデルを開発した。これは、本明細書において「訓練データセットを投入された第1の予測的機械学習モデルを開発するステップ」と呼ばれる。
次に、カスタムAKR HMMを、実施例3のデジタルメタゲノムライブラリーに対して実行して(または適用して)候補AKR配列のプールを同定し、これを本明細書においてHMM出力配列と呼ぶ。これは、本明細書において「コンピュータプロセッサーを使用して、第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有するメタゲノムライブラリーに適用して、メタゲノムライブラリー内の候補配列のプールを同定するステップ」と呼ばれる。全体で110,232個の最初の配列が、HMMによって同定された。
目的の配列に関してさらに富化するために、これらのHMM出力配列を、サイズによってフィルタリングする(それぞれ、150~1,500個のアミノ酸の許容される最小/最大の長さを確立する)。この制限は、同定されたいかなる配列も完全なAKR酵素を表すことを確実にするためであった。このフィルタリングステップの結果によって107,838個のヒット数が得られた。
結果を、その後の検証段階においてヒットの多様性をよりよく標本抽出するためにその配列類似性に基づいて候補配列を群分けするためにCD-HITを使用して40%IDによってさらにクラスター化した。CD-HITによって生成された2,404個のクラスターをそのサイズ(クラスターサイズは、クラスター当たりの配列数である)によって選別した。その後、2,404個中177個のクラスターを、クラスターサイズによって107,828個の配列を表すように、すなわち最大の177個のCDHITクラスターを表すように選択した。177個のクラスターの各々の代表的な配列を同定するために、クラスターの重心を以下のように選択した:最初に、クラスターの全ての配列を、MAFFTアルゴリズムを使用して整列させた。次に、得られた多重配列アライメントを、HMMBUILDソフトウェアを使用してHMMに変換した。このステップの後、このHMMをクラスターの全ての配列に対して実行した。最高スコアの配列を、最終的にCDHITクラスターの代表として選択した。このステップは、モデルによって同定されるが新たな酵素の発見にとって必ずしも必要ではない配列の可能な限り広い像を提供するために遂行された。
177個の候補AKR配列を、この検索のヒットの中からさらなる検証のために選択した。177個の試験したヒットのうち2つが、初回スクリーニングにおいてブレフェルジンAをアナログ化することが可能であると検証された。これらの酵素はまた、エリスロマイシンおよびサリノマイシンに対しても活性を示した。結果のより詳細な考察を、本開示の実施例16に提供する。
(実施例10)
訓練データセットを使用して、アナログ化のための候補配列のプールを生成するためにメタゲノムデータベースに適用される予測的機械学習モデルを生成する-カスタムHMMライブラリー
本実施例は、結果の多様性を標本抽出するために、HMM結果セットの中から遺伝子を選択するための代替アプローチを記載する。実施例9では、結果を、配列同一性に基づいて結果をクラスター化することによって標本抽出した。本実施例では、本発明者らは、実施例9からの107,838個のHMM出力配列を表す配列セットを生成した。これは、全ての2,404個のCDHITクラスターの「クラスター重心」を計算することによって達成された。加えて、本発明者らは、公開されているUniProtKB SwissProtデータベースに対して上記で言及したカスタムHMMを実行し、これによって追加の378個の配列が、2,404個のCDHIT40クラスター重心に加えられた。本発明者らはこれらのセットを2,722個の配列を含む単一の配列セットに組み合わせた。このセットを使用して、配列類似性ネットワークを生成した。これは、全てのこれらの2,722個の配列に関してall-by-all BLASTを実行することによって達成され、全てのこれらの配列に関してペアワイズ類似性行列を生じた。この行列を次に、Cytoscapeソフトウェアを使用して、各々のノードが配列を表し、エッジがペアワイズBLAST類似性を表すネットワークとして表した。クラスターを可視化するために環流力学的モデル(Perfused forced-directed layout)に基づくレイアウトを使用した。
このステップの後、いくつかのエッジ組み入れカットオフ(ペアワイズBLASTビットスコアによって表される)を、このネットワークに関して手動で標本抽出した。このステップは、UniProtKB SwissProtデータベースを起源とする配列から利用可能な情報によって誘導された。すなわち、80というエッジ組み入れカットオフ(ペアワイズBLASTビットスコア)を選択して、AKRスーパーファミリー(SwissProtによって定義される)の異なるサブファミリーに属するAKRホモログを含む配列クラスターを生成した。この手順は39個の配列類似性クラスターをもたらした。
本発明者らは次に、これらの39個の広い配列類似性クラスターを使用して、以下のように39個のカスタムHMMのセットを創出した。各クラスターにつき1つの39個の配列セットを、MAFFTアルゴリズムを使用して整列させ、次にこれを使用してHMMBUILDソフトウェアを使用してHMMを生成した。これは、刊行物またはアノテートされたデータベースにおいて同定されたものを超えて拡大された一連の配列に基づくHMMモデルを提供した。
次に、全てのこれらの39個のカスタムHMMライブラリーモデルを、実施例3のメタゲノミクスライブラリーを検索するために使用した。特異的HMMビットコアカットオフを、所定のHMMのヒットが、他のHMMのいずれのヒットも含まないように(ビットスコアの値は150、160、170、180、190、190、260、260、270、280、290、290、300、300、300、300、300、310、310、340、340、340、350、370、370、370、370、380、390、400、410、410、430、430、430、440、490、520、および610であった)手動で決定した。多くのヒットがなおも各HMMに関して見出されたことから、CDHITアルゴリズムを使用して、40%IDを使用してありとあらゆるこれらの39セットのヒットをクラスター化した。次に、最大クラスターの上記の7つを参照する重心配列を、39個の配列セットの各々を代表するように選択した。
168個の候補AKR配列を、この検索のヒットの中からさらなる検証のために選択した。試験した168個のヒットのうち1つが、以下の実施例16に記載されるようにゲルダナマイシンのアナログ化ができると検証された。
(実施例11)
天然物に対する候補AKR配列の実験による検証
本実施例は、上記の予測エンジンを介して同定された候補配列が実験的に検証される、本開示のアナログ化方法の「ウェットラボ」部分を開示する。
実施例9~10で同定された345個の候補AKR配列のプールを、先の実施例で利用されたメタゲノムライブラリーの既存の物理的ライブラリーからPCRによって増幅した。プライマー3を使用して、増幅のための固定化末端プライマーを設計した。ハイスループットでクローニングするために、相同な配列を、pET24a発現プラスミド(Sigma Aldrich)の複数のクローニング部位内で有効なギブソンアセンブリーのために各遺伝子アンプリコンに挿入した。20μLのPCRを、Q5 Hot Start High-Fidelity 2×マスターミックス(New England Biolabs)によって、タッチダウンPCRサーモサイクラー条件(72℃のアニーリング温度、-1℃/サイクルで8サイクルによるタッチダウン後に、64℃のアニーリングを28サイクル)によって行った。PCR産物を、磁気ビーズクリーンアッププロトコール(DNAクリーンアップおよび濃縮Magbeadキット、Zymo Research)を使用して精製した。
発現プラスミドを、EcoRI-HF/NotI-HF(New England Biolabs)によって消化し、精製した(QiAquick PCR精製キット、Qiagen)後にアセンブルした。ギブソンアセンブリー(NEBuilder HiFi DNAアセンブリー)および化学的形質転換(10-ベータコンピテントE.coli High Fidelity、NEB)プロトコールを、96ウェルおよび384ウェルプレートフォーマットでのハイスループット自動化のために適合させた。345個中228個の遺伝子が首尾よくクローニングされた。成功したクローンをミニプレップし(Qiagen、Plasmid Plus 96キット)、発現宿主(BL21-DE3、NEB)に形質転換した。
最適な発現のために、1mLのBL21-DE3 pET24a-AKR株を、96ディープウェルプレート中、自己誘導培地+カナマイシンを使用して、25℃での誘導によって培養した。一晩誘導後、培養物を、5000rpm、10℃で10分間の遠心分離によって採取した。沈降物を再懸濁し、250μLのBugBusterマスターミックス(Sigma Aldrich)を使用して溶解した。次に、溶解した細胞を沈降させ、脱塩プレート(Zeba Spin Desalting Plates-7K MWCO、Thermo Fisher)の中を通過させて緩衝液を交換し、特徴付けのために過剰発現された酵素ライセートを清澄化した。
クローニングしたAKRライブラリー活性を、ゲルダナマイシン、エリスロマイシン、ブレフェルジンA、およびサリノマイシン天然物に対して特徴付けるために、還元されたニコチンアミドであるアデニンジヌクレオチド(リン酸)の消費をモニターするエンドポイント比色アッセイを開発した。基質の酵素による還元は、NAD[P]Hが酸化される必要があり、したがってこの酵素パネルの活性はNAD[P]Hの消費と連動し、これを340nmでの吸光度の低減によってモニターすることができる。反応混合物の吸光度を、反応の最初と最後に得て、吸光度差を決定する。対照もまた使用して、バックグラウンド吸光度を決定することができる。バックグラウンドを超える正の吸光度差を有するバリアントを含有する反応混合物を解析して、所望のアナログ、例えば還元されたブレフェルジンAの産生を確認する。180μLマスターミックス、100μM NAD[P]H、175mMリン酸緩衝液pH7中の200μM天然物(例えば、ブレフェルジンA)、および20μLの清澄化ライセートを含有する200μL反応物の96ウェルプレートを、22℃で1.5時間にわたって振とうした。
実施例9~10からの228個の酵素バリアントのスクリーニング後、対照より低い有意な吸光度差を示す3つの活性バリアントを、アナログの確認のために提出した。同定された酵素は、ゲルダナマイシン(Geldamycin)、エリスロマイシン、ブレフェルジンA、およびサリノマイシンに対して活性を示した。
追加の特徴付けを、有意な正の吸光度差を生成した反応について行った。100μLアリコートを、アセトニトリルと1:1の比で混合してタンパク質および緩衝塩を破砕し、撹拌後、有機層の液体抽出を行った。抽出した溶媒5μLを、解析のためにLC-MS(Thermo Q-Exactive)に注入した。ブレフェルジンAの場合、推定上の反応産物が281.1747m/zで観察され、保持時間は1.69分であった。この質量の電荷に対する比および保持時間は、比色測定結果が所望の酵素活性を示唆する反応混合物において一貫して観察された。対照として、空の株(pET24a)もまた解析し、推定産物は検出されなかった。これは、適切な活性が観察されなかった他のAKRバリアントに関して一貫した。このように、ゲルダナマイシン、エリスロマイシン、ブレフェルジンA、およびサリノマイシンアナログが、本開示の方法を使用して同定された。
(実施例12)
アナログ化酵素発見-MGC内での検索による富化
本実施例は、アナログ化酵素発見を、コードする遺伝子の位置を定義することによって増強することができることを実証する。
MIBIGデータベース(//mibig.secondarymetabolites.org/)において「デヒドロゲナーゼ」とアノテートされるアミノ酸配列を、問い合わせ配列として使用するために取得した。全体で約200個のアミノ酸配列を取得した。これらの配列を問い合わせとして使用して、実施例3のメタゲノムデータベースにおける予測CDS配列に対して検索した。
次に、本発明者らは、候補デヒドロゲナーゼ配列の位置を使用して、目的のアナログ化酵素に関してさらに富化することができるか否かを試験した。上記で同定された候補デヒドロゲナーゼ配列を含有するコンティグを取得した。生合成遺伝子クラスターを、antiSMASH4を使用してコンティグ上で予測した。生合成遺伝子クラスターが候補デヒドロゲナーゼ配列を含有するコンティグ上で予測できるか否かに応じて、デヒドロゲナーゼデータセットを、さらに「クラスター関連」および「クラスター非関連」に分配した。任意のクラスの生合成遺伝子クラスターがコンティグ上で予測された場合、これは「MGC内」であると分類し、クラスターが予測されなかった場合、「MGC外」であると分類した。
これらのin silico方法は、451個のデヒドロゲナーゼ配列がMGC内であると同定し、523個のデヒドロゲナーゼ配列がMGC外であると同定した。
同定されたデヒドロゲナーゼ配列の中で、「MGC内の」143個の配列および「MGC外」の270個の配列を、実験による検証のために選択した。ウェットラボ実験による検証を、デジタルメタゲノミクスライブラリーの物理的コピーから完全な候補配列を得ることによって遂行し、それらを、実施例11に記載されるように発現ベクターにクローニングした。デヒドロゲナーゼ活性を、ゲルダナマイシン、サリノマイシン、およびブレフェルジンA天然物基質について試験した。
これらのアッセイの結果を以下の表8に示す。
表8-デヒドロゲナーゼアナログ化の検証
Figure 2023513314000036
検証実験は、基質として3つの試験天然物のうちの1つを使用することができる全体で3つの酵素を同定した。結果は、本開示のアナログ化酵素発見方法が、予測されるMGC配列内に位置する候補デヒドロゲナーゼ配列に関して検索を集中させることによって、検証された酵素に関して改善/富化することができることを示した。結果から、2つの酵素がMGC内に位置すると同定され、1つの酵素のみがMGC外に位置した。MGC内で検証されたデヒドロゲナーゼの富化は、さらに発見率において認められ、ここでは試験された143個中2つの酵素が「MGC群内」であると検証され、「MGC外」分類であると検証された酵素は270個中わずか1個であった(MGC内で約4倍良好な富化)。
(実施例13)
アナログ化酵素発見-配列全体または個々のドメインに基づく検索
本開示は、本開示のHMM検索戦略が、目的の全標的配列に基づくことができることを教示する。一部の実施形態では、本開示は、本開示のHMM検索戦略が、標的配列の目的の1個または複数のドメインに基づくことができることを教示している。これらの様々な戦略を比較した。
フラボチトクロムP450 BM3は、チトクロムP450およびNADPH-チトクロムP450レダクターゼドメインで構築される天然の融合タンパク質である。P450 BM3は、いくつかの中鎖から長鎖脂肪酸に結合し、これを酸化させ、典型的にこれらの脂質をω-1、ω-2、およびω-3位置でヒドロキシル化する。
BM3は、2つの主要なドメイン:チトクロムP450(ヘム結合)触媒ドメイン、ならびにCPRの別個のドメインにFADおよびFMN補因子を含有するNADPH-チトクロムP450レダクターゼ(CPR)ドメインを含む天然の融合酵素である。BM3配列全体に基づくHMMモデル(「完全なHMM」)、およびPFAMデータベースに基づくHMMモデル、特に以下の識別子:タンパク質の領域に対応するPF00067、PF00258、PF00667、およびPF00175(「部分的HMMS」)を有する4つのHMMを得た。
次に、上記のHMMを、以下のように実施例3のデジタルメタゲノムライブラリーに対して実行した(または適用した)。完全なHMMを使用して、デジタルメタゲノムライブラリーを検索し、ヒットを「より高いビットスコア」または「より低いビットスコア」の候補BM3配列のいずれかとして分類した。次に、タンパク質の部分的HMMを個々に使用してライブラリーを検索した。次に、部分的HMMSの4つの各々によって同定された候補BM3配列を、検証のために選択した(「複数のHMMモデルのより高いビットスコアHMMヒット」)。
同定された候補BM3配列のうち、「複数のHMMモデルのより高いビットスコアHMMヒット」の130個の配列、「1つのHMMモデルのより高いビットスコアHMMヒット」の4つの配列、および「1つのHMMモデルのより低いビットスコアHMMヒット」の64個の配列を、実験による検証のために選択した。ウェットラボ実験による検証を、デジタルメタゲノミクスライブラリーの物理的コピーからの完全な候補配列を得ること、および実施例11に記載されるように発現ベクターにそれらをクローニングすることによって遂行した。
デヒドロゲナーゼ活性を、ゲラニオール天然物基質に関して試験した。これらのアッセイの結果を以下の表9に示す。
表9-BM3アナログ化の検証
Figure 2023513314000037
検証実験は、ゲラニオール天然物基質に関して全体で5つの活性酵素を同定した。このように、これは本開示のアナログ化方法の別の検証であった。加えて、結果は、本開示のアナログ化酵素発見方法を、特定の酵素の目的のドメインに対する配列などの部分配列に関して訓練したHMMモデルを使用して遂行することができることも示した。同様に、本開示のアナログ化発見プラットフォームは、HMMの組合せを利用することができることも示している。
(実施例14)
アナログ化酵素発見-メチルトランスフェラーゼへの応用
本実施例は、アナログ化酵素発見プラットフォームを、メチルトランスフェラーゼを含む目的の任意のアナログ化酵素に応用することができることを実証する。
検証されたまたは予測されたメチルトランスフェラーゼ機能を有する53個のメチルトランスフェラーゼ酵素配列の最初の訓練データセットを産生した。これは、「遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップ」という特許請求されるステップに対応する。
これらの訓練データセット配列を使用して、多重配列アライメント(MSA)を生成し、これをさらに使用して本明細書において以下に記載されるカスタム予測的機械学習HMMモデルを開発した。これは、本明細書において「訓練データセットを投入された第1の予測的機械学習モデルを開発するステップ」と呼ばれる。
次に、カスタムHMMを、実施例3のデジタルメタゲノムライブラリーに対して実行して(または適用して)候補メチルトランスフェラーゼ配列のプールを同定し、これは、本明細書においてHMM出力配列と呼ばれる。これは、「コンピュータプロセッサーを使用して、第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有するメタゲノムライブラリーに適用して、メタゲノムライブラリー内の候補配列のプールを同定するステップ」という特許請求される要素に対応する。742個の配列が、さらなる解析のために選択された(「HMM出力配列」または具体的には「候補[メチルトランスフェラーゼ]配列」)。
同定された候補メチルトランスフェラーゼ配列の中で、233個を実験による検証のために選択した。ウェットラボ実験による検証を、デジタルメタゲノミクスライブラリーの物理的コピーからの完全な候補配列を得ること、および実施例11に記載される発現ベクターにそれらをクローニングすることによって遂行した。
メチルトランスフェラーゼ活性をリファマイシンおよびデメクロサイクリン天然物基質について試験した。これらのアッセイの結果を以下の表10に示す。
表10-メチルトランスフェラーゼアナログ化の検証
Figure 2023513314000038
検証実験は、基質として2つの試験された天然物のうちの少なくとも1つを使用することができる全体で11個の酵素を同定した。このように、これは、本開示のアナログ化方法の別の検証であった。
(実施例15)
アナログ化酵素発見-伝統的なBLAST検索に対するHMMアルゴリズムの比較
本実施例は、本開示の機械学習に基づくアナログ化酵素発見プラットフォームが、伝統的なBLAST検索よりアナログ化のための酵素を同定するために優れていることを実証する。
2つの型のHMMモデルを、メタゲノムデータベースを検索するために創出した。第1の型のモデルは、LIMS HMMSCAN完全自動化LIMS検索であった。本発明者らは、KeGGオーソロジー群によって定義されるKeGGデータベースにおいて4つのハロペルオキシダーゼ酵素ファミリーK00433、K17990、K20206、およびK00431を同定した。各々のこれらの群に関連する配列を整列させて、MAFFTソフトウェアを使用して4つの多重配列アライメントを創出した後、各々のアライメントを使用して、HMMBUILDソフトウェアを使用してHMMを生成した。
全てのこれらのHMMを、ハロペルオキシダーゼアナログ化酵素を発見するために実施例3のメタゲノムデータベースに対して実行した。次に、結果を、「第1の信頼度スコアの第2の信頼度スコアに対する比が、予め選択された閾値から外れる場合、候補配列のプールから、第2の信頼度スコアによる第2の予測的機械学習モデルによって、異なる機能を果たすことが予測されるいずれかの配列を除去すること」によってフィルタリングした。
このように、無関係なヒットの除去を、以下のように遂行した。第1に、HMMライブラリーを、全ての利用可能なKeGGオーソロジー群(異なる酵素機能に関するHMMの閾値)に関して構築した。これらのHMMの生成は、上記の4つのHMMの生成と同じであった。このHMMライブラリーを、LIMS HMMSCANの全てのヒットに対して実行し、LIMS HMMSCAN HMMの各々のビットスコアの120%よりも高い数千個のHMMのいずれかに関するビットスコアを有する全てのヒットを除去した。
第2のHMMモデルは、本開示の方法に従って創出されたカスタムHMMライブラリーであった。簡単に説明すると、ハロペルオキシダーゼ活性を示すことが公知のまたは予測されるハロペルオキシダーゼ酵素配列の最初の訓練データセットを産生した。これは、「遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップ」という特許請求されるステップに対応する。
これらの訓練データセット配列を使用して、多重配列アライメント(MSA)を生成し、これをさらに使用して、以下に記載されるようにカスタム予測的機械学習HMMモデルを開発した。これは、本明細書において「訓練データセットを投入された第1の予測的機械学習モデルを開発するステップ」と呼ばれる。
次に、カスタムHMM機械学習モデルを、実施例3のデジタルメタゲノムライブラリーに対して実行して(または適用して)、候補ハロペルオキシダーゼ配列のプールを同定し、これは本明細書においてHMM出力配列と呼ばれる。これは、「コンピュータプロセッサーを使用して、第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有するメタゲノムライブラリーに適用して、メタゲノムライブラリー内の候補配列のプールを同定するステップ」という特許請求される要素に対応する。このカスタムHMMライブラリーから同定された全体で1141個の配列をさらなる解析のために選択した一方、277個を、LIMS HMMSCAN HMMからのさらなる解析のために選択した。
比較として、伝統的なBLASTタンパク質アルゴリズムを使用する対照検索を、実施例3のデジタルメタゲノミクスライブラリーについて遂行した。BLAST検索は、上記のカスタムHMMライブラリーを創出するために使用した酵素と同じ酵素を使用して実行した。同じ選択手順を、24個のBLAST問い合わせ標準配列の各々に適用した。第1に最良のBLASTヒット(単一の配列)を、スクリーニングのために選択した。第2に、BLASTヒットの24個のセットの各々に関して、特定のビットスコアカットオフを手動で決定した。選別されたBLASTビットスコアは、非常に高い値の後にこれらのビットスコア値の急激な低下によって特徴付けられ、決定されたビットスコアは、その急激な低下の最低ビットスコアに対応するビットスコアであった。これらの問い合わせの各々に関して典型的に多くのBLASTヒットが存在することから、BLASTヒットを、CDHITによって40%IDでクラスター化し、クラスター重心を、上記の実施例に記載されるように選択した。全体で101個の上位BLASTヒットを保存した。
同定された候補ハロペルオキシダーゼ配列の中で、LIMS HMM SCANヒットのうちの182個、カスタムHMMライブラリーヒットの368個、およびBLASTヒットの57個を、実験による検証のために選択し、首尾よくクローニングした。ウェットラボ実験による検証を、デジタルメタゲノミクスライブラリーの物理的コピーから完全な候補配列を得ること、および実施例11に記載されるように発現ベクターにそれらをクローニングすることによって遂行した。
ハロペルオキシダーゼ活性を、リファマイシンおよびデメクロサイクリン天然物基質について試験した。これらのアッセイの結果を以下の表11に示す。
表11-ハロペルオキシダーゼアナログ化の検証
Figure 2023513314000039
検証実験から、基質として2つの試験した天然物の少なくとも1つを使用することができる全体で7つの酵素が同定された。このように、これは、ハロペルオキシダーゼに関する本開示のアナログ化方法の別の検証であった。本実施例はまた、結果をフィルタリングするために他のHMMのスコアを利用する本開示のHMMフィルタリング方法の例証でもあった。
結果はまた、本開示の機械学習プラットフォーム(例えば、LIMS HMMSCANおよびカスタムHMMライブラリー)が、単一のアナログ化酵素さえ同定することができなかった伝統的なBLASTアルゴリズムより実質的に優れていることも示した。
(実施例16)
アナログ化酵素発見
本実施例は、他のアプローチと比較して本開示の機械学習に基づくアナログ化酵素発見プラットフォームの利点を実証する。
5つの検索戦略を本実施例において比較した。
第1のモデルは、以下のように生成された位置プロファイリングモデルであった。第1に、文献によって報告されたAKRの構造を試験して、基質認識に関与する位置を同定した。第2に、結晶分解構造の配列を含むAKRの構造に基づく多重配列アライメントを、MAFFTアルゴリズムおよび手動でのキュレーションを使用して生成した。第3に、第1の段階で同定された位置の残基に対応する11個の位置をアライメントにおいて同定した。第4に、107,828個のAKR配列の各々を、MAFFT-addアルゴリズムを使用して多重配列アライメントに個々に加えた。第5に、11個の位置に対応する107,828個の配列の各々における11個のアミノ酸の予測される位置を保存した。第6に、11個の位置の各々を、各々がその位置に存在する異なるアミノ酸を表す20個の配列(107,828個のセットから選択される)にマッピングした。一部の場合では、必ずしも20個全てのアミノ酸バリアントが利用可能ではなかった。
第2のモデルは、実施例10に記載される方法に従って創出されたカスタムHMMライブラリーであった。
第3のモデルは、実施例9に記載される方法に従って創出されたカスタムAKR HMMであった。
第4のモデルは、インデルバリアントモデルであった。AKR酵素の複数の結晶分解構造の構造、特に活性部位付近の構造を調べた。これらの構造(PSBコード:1PZ1、4PMJ、1PYF、1GVE、1LQA、1YNP、および1OG6)の構造アライメントは、全てのこれらのタンパク質が類似の全体構造を共有する(全てがα/βtIMバレルフォールドを共有する)が、基質に結合する領域の付近が異なることを示唆している。共通のフォールドにおける2つの特定の位置は、異なるAKR構造が共通のフォールドを「修飾する」異なるループを有する基質結合部位の付近で同定された。このことは、特定のAKRの基質特異性が少なくとも部分的に、活性部位付近で見出される2つのループの配列および長さによって決定されることを指し示した。ループの開始および停止位置の2つの対は、それらの構造に基づく配列アライメントによって指し示されるように、全ての調べた構造において一貫した。
このように、ループ長を、AKRの基質認識部分における標本抽出変型形態の動機として使用することができる。次に、位置プロファイリングアプローチを使用して、メタゲノムレポジトリにおいて見出される107,828個の配列の各々のループ長を認識した。これは、多重配列アライメントにおける開始-停止位置を同定すること、ならびに問い合わせ配列における2つのループの開始および停止位置を同定することによって達成された。このステップによって、メタゲノムレポジトリにおいて見出される107,828個の配列の各々の2つのループの長さのマッピングが得られた。最後に、91個の配列を、それらがループの長さの異なる組合せ、例えば「短いループ1」(1~10個のアミノ酸)および「中間のループ2」(11~20個のアミノ酸)を標本抽出するように、このセットから選択した。
第5のモデルは、位置組合せプロファイリングモデルであった。このモデルは、位置プロファイリングモデルに基づく。この動機は、位置プロファイリングモデルにおいて見出される11個の位置の異なる組合せが、基質認識において潜在的に有意な役割を果たすことであった。11個の位置の異なる組合せを標本抽出するために、以下のステップを行った:メタゲノムライブラリーにおいて見出される107,828個のAKRホモログの各々と、位置プロファイリングモデルに関して同定された11個の位置の各々に存在すると予測される11個のアミノ酸の組合せとの間でマッピングを創出した。これらの組合せの各々の頻度を計算し、その後11アミノ酸の組合せのリストをその頻度によって選別した。最後に、最も頻繁な64個の組合せをそれぞれ含む64個の配列を、スクリーニングのために選択した。
次に上記の5つのモデルを、実施例3のデジタルメタゲノムライブラリーに対して実行して(または適用して)、候補AKR配列のプールを同定し、これは、本明細書においてHMM出力配列と呼ばれる。これは、「コンピュータプロセッサーを使用して、第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有するメタゲノムライブラリーに適用して、メタゲノムライブラリー内の候補配列のプールを同定するステップ」という特許請求される要素に対応する。全体で180個の最初の配列が、位置プロファイリングモデルによって同定され、全体で168個の最初の配列が、本開示のカスタムHMMによって同定され、全体で177個の最初の配列が、カスタムAKR HMMモデルから同定され、91個の最初の配列が、インデルバリアントモデルから同定され、64個の配列が、位置組合せプロファイリングモデルから同定された(「HMM出力配列」または具体的に「候補[AKR]配列」)。
同定された候補AKR配列の中で、位置プロファイリングモデルにおける94個の最初の配列、カスタムHMMモデルにおける全体で92個の最初の配列、カスタムAKR HMMモデルにおける全体で136個の最初の配列、インデルバリアントモデルにおける全体で49個の最初の配列、および位置組合せプロファイリングモデルにおける全体で35個の配列を、実験による検証のために選択した。ウェットラボ実験による検証を、デジタルメタゲノミクスライブラリーの物理的コピーからの完全な候補配列を得ること、および実施例11に記載される発現ベクターにそれらをクローニングすることによって遂行した。
AKR活性を、ゲルダナマイシン、エリスロマイシン、ブレフェルジンA、およびサリノマイシン天然物基質について試験した。これらのアッセイの結果を以下の表12に示す。
表12-AKRアナログ化の検証
Figure 2023513314000040
結果は、本開示の予測的機械学習モデルが、AKRを含む新規アナログ化酵素を同定することが可能であることを確認した。
(実施例17)
標的化されないMGC発見ワークフロー
本実施例は、本開示の標的化されないMGC発見ワークフローの作業例である。一部の実施形態では、標的化されないワークフローは、予測MGC内の遺伝子に生合成能スコア、抵抗性遺伝子スコア、および(一部の実施形態では)生合成オペロンスコア、コア生合成遺伝子距離スコア、および必須遺伝子スコアのうち1個または複数を割り当てることを記載する。これらのスコアリング要素の適用を以下に例証する。
本実施例の目標は、本開示のワークフローを使用して、抵抗性遺伝子である可能性がより低い遺伝子をフィルタリングして除外する排除プロセスを通して抵抗性遺伝子を富化することができるか否かを試験することであった。本実施例は、結果を検証することができるように公知の抵抗性遺伝子を使用するが、同じステップを任意の数の予測MGCに適用して、未知の抵抗性遺伝子を同定することができる。
ボレリジン(AJ580915)、チオマリノール(FN689524)、カリマンタシン(GU479979)、エポノマイシン(KF647220)、ベンガミド(KP143770)、グリセリマイシン(KP211414)、サリノスポラミド(NC_009380)、ペンタレノラクトン(NZ_BJTV01000007)、およびアルボマイシン(NZ_CP029361)遺伝子クラスターを含有するDNA配列を、antiSMASHに提出した。これらの全ては、標的コピー抵抗性遺伝子を含有することが公知である。これによって、全体で388個の遺伝子による9個の遺伝子クラスターが同定された。それらの388個の遺伝子の中で、そのうち9個が抵抗性遺伝子であり、このことは抵抗性遺伝子が遺伝子全体の2.3%を構成することを意味する。
最初に、全ての遺伝子を解析し、生合成能スコア、輸送関連能および調節能スコアを割り当てた。antiSMASHによって、生合成機能(部分的生合成能スコア)、輸送関連機能、または調節遺伝子機能を有するとアノテートされた全ての遺伝子に、低い優先順位スコアを与え、完全に検討から除外した。上記で注目したように、生合成能輸送関連能および調節能は、MiBigデータベースを使用してantiSMASHによって与えられたアノテーションによって計算した。これによって、元の388個中149個の遺伝子が残った。これらの149個の遺伝子のうち、8個が抵抗性遺伝子であり、このことは、抵抗性遺伝子が残りの遺伝子の5.4%を構成することを意味している。このステップは、抵抗性遺伝子の2倍より多くの富化をもたらした。
次に、残りの149個の遺伝子を解析し、生合成能スコア、生合成オペロンスコア、コア生合成遺伝子距離スコア、および必須遺伝子スコアを与え、次にこれらを、図29に示すように組合せスコアに組み合わせた。本実施例の目的に関して、データセットは、フィルタリングによって除外されている公知の抵抗性遺伝子を含んだことから、抵抗性遺伝子スコアを与えなかった。全ての遺伝子は、低い優先順位スコアを与えられる生合成機能を有するとアノテートされ、および/または検討から完全に除外された。生合成能を、MiBigデータベースを使用してantiSMASHによって与えられたアノテーションによって計算した。MiBig遺伝子(より高い生合成能)を有するより多くのBLASTヒットを有する遺伝子は、より少ないヒットを有する遺伝子(生合成能を有する可能性がより低い)より低いスコアを与えられた。0.85未満の組合せスコアを排除し、0.85より高い組合せスコアを保持した。本発明者らのスコアリングから残った10個の遺伝子のうち、6個は、本実施例で使用した9個のMGCの公知の抵抗性遺伝子である(遺伝子の約60%が、抵抗性遺伝子である)。このように、本開示の標的化されないワークフローは、本開示のスコアリング因子を使用して抵抗性遺伝子の発生率を30倍より多く富化することができた。
(実施例18)
抵抗性遺伝子ワークフロー(HDAC1)標的遺伝子の追加の例
本実施例は、特異的治療標的を標的とする天然物コード多重遺伝子クラスターを同定するために本開示の抵抗性遺伝子ワークフローを使用することができることを例証する。本実施例は、ヒトHDAC1遺伝子を標的化する天然物を産生することが予測される候補MGCの同定を示す。
HDAC1は、コアヒストン(H2A、H2B、H3、およびH4)のN末端部分におけるリシン残基の脱アセチル化に関与する。ヒストン脱アセチル化は、エピジェネティック抑制のためのタグを与え、転写調節、細胞周期進行、および発達事象において重要な役割を果たす。HDAC酵素は、広範囲のヒト障害の潜在的に有用な治療標的であると認識されている。新規研究は、異なる型のHDAC阻害剤が神経障害の様々な実験モデルにおいて有益な効果を示すことを実証している。
HDAC1を標的とする天然物をコードするMGCを同定するために、本発明者らは、標的抵抗性遺伝子としてHDAC1(PFAM PF00850)を使用して抵抗性遺伝子ワークフローを適用した。このPFAMに対応するHMMを、本明細書に開示されるように構築した。得られたHMMモデルを使用して実施例3のメタゲノムデータベースを検索して、ビットスコアカットオフ50を使用して相同なアミノ酸配列を返した。このカットオフにマッチする配列を「候補抵抗性遺伝子」と称し、これは、「天然物多重遺伝子クラスター特色セットを示すシグナルに関してデジタルメタゲノミクスライブラリーを問い合わせる」ステップを介して同定された。
候補抵抗性遺伝子を含有するコンティグは、「複数のシグナル関連の多重遺伝子クラスターデジタル特色セット」と呼ばれる。これらの多重遺伝子クラスターデジタル特色セットは、上記のHMM検索からの予測されるHDAC1ホモログをコードし、次にこれをantiSMASH v5を通して実行すると、予測されたBGCを含有する、コンピューターによって決定された天然物多重遺伝子クラスター特色内である特色セットが同定された(「シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定し、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター(MGC)特色セットをデジタル処理でアセンブルすること」)が同定された。
このワークフローは、antiSMASHによって予測されるMGCの境界内であるかまたは境界に直接隣接する候補HDAC1遺伝子を含有する87個の潜在的MGCを同定した。本発明者らは、下流の解析のために内部でZGCHDAC11789と名付けられるクラスターを選択した。
ZGCHDAC11789をコードする所望のMGCを含有する個々のE.coli単離体を、メタゲノムライブラリーの物理的コピーから首尾よく取得した後、目的の生合成経路をコードするDNAを、S.cerevisiaeにおけるTAR(transformation-associated recombination)クローニングを介してS.cerevisiae/E.coli/Streptomycesシャトルベクターにクローニングした。S.cerevisiaeにおけるDNA形質転換および組換え後、アセンブルしたプラスミドDNAを、S.cerevisiaeから抽出し、増殖のためにE.coliに形質転換した。得られたプラスミドの配列を、次世代配列決定によって確認した。
次に、このプラスミドを、異種発現宿主Streptomyces albus J1074(野生型または操作された株)に接合伝達によって導入した。具体的には、目的のプラスミドを含有するE.coli S17株を、S.albusの胞子と同時培養して、接合プロセスを刺激した。所望の抗生物質マーカーを含有する固相媒体での成長選択後、S.albusエキソ接合体コロニーを増殖させて、グリセロール胞子ストックを生成し、遺伝子クラスターの存在をコロニーPCRによって確認した。
新規化合物産生を検出するための最初の小規模プレートスクリーニングでは、24ディープウェルプレートの各々の単一のウェルに、適切な選択抗生物質を含有する3mLのTSBシード培養物を加え、クラスターを有するおよび有しないS.albus胞子を、最終OD450が約0.05となるように接種した。プレートを2層の空気透過性シールによって密封し、30℃、250rpm(2.5cmスロー)および80~85%湿度で密度の高い培養物が形成されるまで2~3日間培養した。次に培養物を、新しいセットの24ディープウェルプレートにおいて適切な選択抗生物質を含有する各3mLの発酵培地(mO42、O42、R5A、およびISP4)中に10%(体積/体積)接種物で接種した。この主なプレート培養物を、採取の前に7日間インキュベーションした。
発酵の完了後、プレート中の培養物を等量の酢酸エチルによって2回抽出し、合わせた有機層を乾固するまで濃縮した後、LC/MS解析に供して、新規分子の産生を確認した。
新規分子産生が確認された後、本発明者らは、DASGIPバイオリアクター(Eppendorf)での大規模発酵を利用して、半精製材料を生成した。胞子(0.05OD)を最初に、各々が75ml Terrific Soy Broth(TSB)、APRA(50μg/mL)、および消泡剤(PD-602)を含有する250mLバッフル付きフラスコ(×8)に接種し、30℃で24時間成長させた。次に、各シード培養物を、2つのDASGIP(全体で16個)へと等量に分割し、200~800RPMの範囲で撹拌しながら、30℃で96時間成長させた。個々のリアクターからの発酵ブロスをプールし、4000RPM(4℃)で20分間遠心分離した。清澄化したブロスを、細胞沈降物から注意深くデカントし、その後活性化DianionHP20樹脂(Alfa Aesar)(5%w/v)によっておよそ16時間抽出した。水性培地を、チーズクロスを通して濾過することによって樹脂から除去し、捨てた。樹脂を超純水(約12L)によって十分に洗浄して、高度に水溶性のいかなる培地構成成分も確実に除去した。次に洗浄した樹脂を、溶媒を樹脂に直接加え、15~30分間穏やかに撹拌することによって、2LのHPLCアセトンによって2回抽出後、2×L HPLCメタノールによって抽出した。減圧濾過を介して、有機溶媒を樹脂から濾過し、プールし、水のみが残るまで真空で濃縮した。この水性層を等量の酢酸エチルによって3回抽出した。有機層をプールし、無水MgSOによって乾燥させ、濾過し、真空下で完全に乾燥させて茶色の油(855.1mg)を得た。
この粗抽出物を、最少のメタノール(約2mL)に溶解し、シリカにロードし、その後、Biotage Sfar Silica HC-D高容量デュオカラム(10g)および240mL収集ボトルと適合性のBiotage Isoleraトレイラックを固定したBiotage Selekt自動クロマトグラフィー機器を使用して分画した。分画は、ヘプタン(溶媒A)、酢酸エチル(溶媒B)、およびメタノール(溶媒C)からなる3溶媒の段階的勾配を使用して達成した。材料を流速20mL・分-1で溶出し、各ステップに関して4CV画分(60mL)を収集した。勾配の最初のステップは、7:3(A:B)からなり、この後に1:1(A:B)、1:4(A:B)、100%B、1:9(B:C)、3:7(B:C)、および最後に1:4(B:C)からなる6つの追加のステップが続き、極性が増加する7つの画分(F1~F7)を得た。画分を真空下で濃縮し、ThermoFisher Q-Exactive orbitrap MSおよび分析用のAgilent Eclipse 2.1×50mm C18カラムによるvanquish LCを使用するLCMSを介して流速0.5mL・分-1で目的のイオン(m/z 811.5828)に関して解析した。化合物は、F6(245.8mg)において同定された。
F6を、Agilent 1260 Infinity IIシリーズ分取HPLCにおいて逆相Phenomenex 10μm C18(2)100Åカラム(250×10.00mm)での流速8mL/分での実行によってさらに分画し、12mLの画分を収集した。試料を、HPLC等級のメタノールに、最終濃度100mg・mL-1となるように溶解した。この溶液の500μLアリコート(500μLループを使用して)を注入することによって精製を達成した。材料を、HO(溶媒A)およびアセトニトリル(溶媒B)を使用して溶出した。勾配は、10%アセトニトリルの2分間の初回均一濃度ステップを使用した。この後に、10%~95%アセトニトリルの28分間(全体で30分間)の線形増加勾配が続いた。カラムを、95%アセトニトリルの均一濃度ステップによってさらに10分間(全体で40分間)洗浄し、最後に10%アセトニトリルの均一濃度平衡ステップによって10分間(全体で50分間)洗浄した。画分を、LCMS(すでに記載したとおり)によって目的のイオンに関して解析した。適切なm/zを含有する画分をプールし、乾燥させて3.7mgのオフホワイト色固体を得た。精製化合物を、純度の評価のために、LCMSおよびELSD(Agilent 1290 Infinity II LC-ELSD)検出を介して解析した。
HDAC1活性を、市販の蛍光発生活性アッセイキット(HDAC1蛍光発生キット、BPS Bioscience)を使用して測定した。対照および試験反応を以下のように設定した。全ての関連する試薬を実験前に室温まで融解した。HDAC1をHDACアッセイ緩衝液によって1.4ng/μlとなるように希釈し、25×HDAC基質3を200μM溶液となるように希釈した。酵素は、HDAC1およびHDAC展開剤が使用されていない時間を制限するために、アッセイを開始する直前に調製した。市販の阻害剤であるトリコスタチンAもまたHDACアッセイ緩衝液で10倍希釈した。3つの対照を調製した:35μLのHDACアッセイ緩衝液+5μLのBSA(1mg/ml)+5μLのHDAC基質3+5μLの100%DMSO(ブランク)、30μLのHDACアッセイ緩衝液+5μLのBSA(1mg/ml)+5μLのHDAC基質3+5μLのHDAC1+5μLの100%DMSO(陽性対照)、および30μLのHDACアッセイ緩衝液+5μLのBSA(1mg/ml)+5μLのHDAC基質3+5μLのHDAC1+5μLのトリコスタチンA(阻害剤対照)。追加の対照を設定して阻害剤の蛍光をモニターした:45μLのHDACアッセイ緩衝液+5μLの試験化合物。最後に、30μLのHDACアッセイ緩衝液+5μLのBSA(1mg/ml)+5μLのHDAC基質3+5μLのHDAC1+5μLの試験化合物(阻害試料)を含有する阻害試料を3連で調製した。
全ての対照および試料を混合し、37℃で30分間インキュベートした。インキュベーション後、50μLの2×HDAC展開剤を各反応に加え、22℃で15分間インキュベートした;次に蛍光測定を行った。このアッセイの結果を図30に示す。
HDAC1活性は、ZGCHDAC11789に由来する半精製分子の増加濃度によって阻害された。このように、本開示の抵抗性遺伝子ワークフローは、所望の治療標的に影響を及ぼす/標的化することが可能な天然物をコードするMGCを同定することができた。
(実施例19)
SOD2(スーパーオキシドジスムターゼ)の抵抗性遺伝子ワークフローの追加の実施例
本実施例は、本開示の抵抗性遺伝子ワークフローを使用して特異的治療標的を標的化する天然物コード多重遺伝子クラスターを同定する方法の別の例証を提供する。本実施例は、ヒトSOD2遺伝子を標的とする天然物を産生すると予測される候補MGCの同定を示す。
スーパーオキシドジスムターゼ2(SOD2)は、鉄/マンガンスーパーオキシドジスムターゼファミリーのメンバーである。これは、ホモ4量体を形成し、サブユニット当たり1つのマンガンイオンに結合するミトコンドリアタンパク質をコードする。このタンパク質は、酸化的リン酸化のスーパーオキシド副産物に結合し、それらを過酸化水素および酸素2原子に変換する。この遺伝子の変異は、特発性心筋症(IDC)、早老症、孤発性運動ニューロン疾患、およびがんに関連している。
SOD2を標的とする天然物をコードするMGCを同定するために、本発明者らは、標的抵抗性遺伝子としてSOD2(PFAM PF00081)を使用して抵抗性遺伝子ワークフローを適用した。このPFAMに対応するHMMを、本明細書に開示されるように構築した。得られたHMMモデルを使用して、実施例3のメタゲノムデータベースを検索して、ビットスコアカットオフ50を使用して相同なアミノ酸配列を返した。このカットオフにマッチする配列は、「候補抵抗性遺伝子」と称され、これらは、「デジタルメタゲノミクスライブラリーを、天然物多重遺伝子クラスター特色セットを示すシグナルについて問い合わせる」ステップを介して同定された。
候補抵抗性遺伝子を含有したコンティグを、「複数のシグナル関連の多重遺伝子クラスターデジタル特色セット」と呼ぶ。これらの多重遺伝子クラスターデジタル特色セットは、上記のHMM検索から予測されるSOD2ホモログをコードし、次にantiSMASH v5を通して実行して、コンピューターによって決定した天然物多重遺伝子クラスター特色セット内である特色セットを同定した(「シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定し、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター(MGC)特色セットをデジタル処理でアセンブルすること」)。
このワークフローは、antiSMASHによって予測されたMGCの境界内であるまたは境界に直接隣接するSOD2のホモログを含有する96個の潜在的MGCを同定した。本発明者らは、下流の解析のためにZGCSOD21789と名付けられるクラスターを選択した。
ZGCSOD21789をコードする所望のコスミドを含有する個々のE.coli単離物を、メタゲノムライブラリーから首尾よく取得した後、目的の生合成経路をコードするDNAを、S.cerevisiaeにおけるTAR(Transformation Associated Recombination)クローニングを介してS.cerevisiae/E.coli/Streptomycesシャトルベクターにクローニングした。S.cerevisiaeにおけるDNA形質転換および組換え後、アセンブルしたプラスミドDNAをS.cerevisiaeから抽出し、増殖のためにE.coliに形質転換した。得られたプラスミドの配列を、次世代配列決定によって確認した。
次に、このプラスミドを、接合伝達を介して、異種発現宿主Streptomyces albus J1074(野生型または操作された株)に導入した。具体的には、目的のプラスミドを含有するE.coli S17株を、S.albusの胞子と同時培養して、接合プロセスを刺激した。所望の抗生物質マーカーを含有する固相培地での成長の選択後、S.albusエキソ接合体コロニーを増殖させてグリセロール胞子ストックを生成し、遺伝子クラスターの存在をコロニーPCRによって確認した。
新規化合物産生を検出するために最初の小規模プレートスクリーニングに関して、24ディープウェルプレートの各々の単一のウェルに、適切な選択抗生物質を含有する3mLのTSBシード培養物を加え、クラスターの存在下および非存在下でS.albus胞子を、最終OD450が約0.05となるように接種した。プレートを2層の空気透過性シールによって密封し、30℃、250rpm(2.5cmスロー)および80~85%湿度で密度の高い培養物が形成されるまで2~3日間培養した。次に培養物を、新しいセットの24ディープウェルプレートにおいて適切な選択抗生物質を含有する各3mLの発酵培地(mO42、O42、R5A、およびISP4)中に10%(体積/体積)接種物で接種した。この主なプレート培養物を、採取の前に7日間インキュベーションした。
発酵の完了後、プレート中の培養物を等量の酢酸エチルによって2回抽出し、合わせた有機層を乾固するまで濃縮した後、LC/MS解析に供して、新規分子の産生を確認した。
新規分子産生が確認された後、本発明者らは、2.8L UltraYield(Thomson)振とうフラスコ中での大規模発酵を利用して、アッセイのための粗ライセートを生成した。これを行うために、シードトレインを、250mLバッフル付き振とうフラスコ中の25mLのTSB培地において開始した。培養物に胞子ストックをOD450が約0.04となるように接種した後、シードフラスコを30℃、175rpm(5cmスロー)および80~85%湿度で、密度の高い培養物が形成されるまで少なくとも24時間インキュベートした。次に、このシード培養物全体を、2.8LのUltraYield振とうフラスコ中の0.5Lの発酵培地に5%接種で接種した。UltraYield振とうフラスコを、ベントキャップまたは二重気密性シールで密封し、同じ条件下で採取の前に7日間インキュベートした。
発酵ブロスを、採取の16時間前に培養物に5%w/vを加えることによってDianion HP20樹脂(Alfa Aesar)を使用して抽出した。樹脂およびバイオマスを、培養内容物を500mL遠心ボトル(Corning)に移すことによって収集した後、Avanti J-E遠心分離器を使用して3000rpmで10分間遠心分離した。培養上清をデカントし、捨てた。細胞および樹脂沈降物を、250mLの超純水を直接ボトルに加えて振とうすることによって2回洗浄し、遠心分離し、次に上清廃棄物をデカントして捨てた。次に、洗浄した細胞および樹脂沈降物を、溶媒を直接ボトルに加え、15分間超音波処理し、遠心分離し、デカントし、全ての溶媒抽出物をプールすることによって、250mLのHPLCアセトンによって2回および250mLメタノールによって2回、逐次的に抽出した。有機抽出物を真空下で水性抽出物が残るまで濃縮した。この水性抽出物を等量の酢酸エチルによって2回抽出し、pHを5に調整し、酢酸エチルによってさらに2回抽出した。プールした酢酸エチル抽出物を真空下で濃縮した。
スーパーオキシドジスムターゼ2(SOD2)活性を、市販の比色測定活性キット(スーパーオキシドジスムターゼ比色活性キット、ThermoFisher)を使用して決定した。対照および試験反応を以下のように設定した。全ての関連する試薬を室温まで融解した後に混合した。10×基質濃縮液および25×キサンチンオキシダーゼ濃縮物を、キットに供給されたそのそれぞれの緩衝液中で希釈した;SOD2(Sigma Aldrich)を、供給されたアッセイ緩衝液によって1U/mLに希釈した。酵素を、SOD2およびキサンチンオキシダーゼを使用していない時間を限定するためにアッセイを開始する直前に希釈した。2種の市販の阻害剤、2-メトキシエストラジオールおよびLCS-1(Sigma Aldrich)もまた、アッセイ緩衝液中で30μMに希釈した。3つの対照を調製した:8μLのSOD2+50μLの1X基質+2μLのアッセイ緩衝液(陽性対照)、100%DMSO(媒体対照)、または市販の阻害剤(阻害剤対照)。加えて、10μLのアッセイ緩衝液+50μLの1X基質(基質対照)、または58μlのアッセイ緩衝液+2μLの試験化合物(試験化合物対照)を含有する2つの対照を調製した。最後に8μLのSOD2+50μLの1X基質+2μLの試験化合物(ZGCSOD21789粗ライセートまたはWT粗ライセート)を調製した;全ての対照および試料を3連で行った。全ての対照および試料の準備ができると、25μLの1×キサンチンオキシダーゼを加えてスーパーオキシド生成を開始し、反応物を22℃で20分間インキュベートした。
吸光度の測定を0分(キサンチンオキシダーゼを加える前)および20分に得た。このアッセイの結果を図31に示す。
ZGCSOD21789発酵ブロスからの粗ライセートは、SOD2活性を阻害したが、WT対照からの粗ライセートは、阻害しなかった。このように、本開示の抵抗性遺伝子ワークフローは、所望の治療標的に影響を及ぼす/標的化することが可能である天然物をコードするMGCを同定することができた。
(実施例20)
メタゲノムライブラリーアセンブリーおよびバージョニング
次世代配列決定(NGS)の進歩により、科学者は、微生物DNAの直接配列決定によって微生物群集を試験し、プロファイルを調べることが可能となった。配列リードとして公知である生のNGSデータを、参照配列と直接比較して、目的の特色および遺伝子をコンピューターによって同定することができる。配列リードはまた、それらの配列における重複を同定することによって、コンティグとして知られるより長い配列にアセンブルすることもできる。その後コンティグをアノテートして、目的の遺伝子および特色を同定することができる。微生物群集に由来する配列のコレクションはしばしば、メタゲノムライブラリーと呼ばれる。
直接配列決定の代わりに、メタゲノムライブラリーはまた、微生物DNAをコスミドにパッケージングすることによっても構築することができ、次にこれをクローニングし、宿主生物、しばしばEscherichia coliによって複製させ、複数の物理的試料にわたって分割し、これにより、任意の単一の物理的試料の複雑性を低下させる。物理的コスミドメタゲノムライブラリーの調製後、コスミドおよび微生物群集DNAを配列決定し、試料毎に解析し、結果をコンピューターにより組み合わせて物理的メタゲノムライブラリーのデジタル表示を産生することができる(図19)。
メタゲノミクスライブラリーを解析および構築する場合の重要な難題は、経時的に生成される大量の配列データに比例する規模でコンピューター解析を通してデータの起源を追跡することである。
本明細書に記載される方法は、各々の個々の配列が、データ、配列決定された特定の物理的試料、および試験中の微生物群集を生成するために使用される特定のバイオインフォマティクスツールにリンクすることができる一貫した配列のコレクションを産生するように大規模にメタゲノムアセンブリーおよびアノテーションパイプラインを実行するプログラムに対処する。
本実施例は、メタゲノムコスミドライブラリーを大規模にアセンブルおよびアノテートするように設計されたコンピューターによる基礎構造およびシステムを記載するが、いかなるメタゲノムまたは単離された配列データも同じ機序で処理することができる。
NGSデータ処理パイプライン
プロセスは5つのステップを通して生配列データを処理することからなる。
1)データ調製および試料IDの割り当て
生NGSデータは、配列決定の前にIllumina NovaSeqなどのNGSシーケンサーを使用して生成される。配列決定の前に、個々の試料および配列決定ランに特有のIDのラベルを付ける。新しいNGSデータが生成されると、それらを、自社運用のクラスターとして保存するか、またはクラウドプロバイダー、例えばAmazon Web Servicesのいずれかで保存する。重要なことに、本発明は、このデータを、その後のステップがそのデータを大規模に消費することができるように、ラベル付けする方法および保存する方法を指定する。すなわち、データを、NGS配列決定ランによって構築し、次に、個々のデータファイル(FASTQ)に、自動で生成されたまたは手動で割り当てられた特有の試料IDによってラベルを付ける。
加えて、試料のメタデータは、個々の試料IDを元の微生物群集起源の特有の識別子にマッピングする個別のファイルで提供され、これを後に使用して各試料の環境または実験条件に関連させることができる。
このステップでは、処理の間に共に全ての中間データおよび最終データファイルを関連させる特有の「データビルド」IDもまた、生成される。本発明の構成成分を追跡するファイルおよびデータに関する詳細に関しては以下の「データアーティファクト追跡システム」を参照されたい。
2)再処理およびNGSリードフィルタリング
各配列決定試料の生NGSデータを、再処理して、データ品質または混入に基づいてリードをフィルタリングによって除外する。広範囲のバイオインフォマティクスツール、例えばFastQCまたはbbtoolsを、特定のメタゲノムを、特定のメタゲノム調製物に応じてこのステップのために使用することができる。本発明は全体として、それが試料のために新しいFASTQファイルを生成する限り、ツールの選択に関して同じである。
このステップを大規模に(何百またはそれより多くの試料)実行するために、バイオインフォマティクスツールをコンテナ(具体的にはDockerによってだが、バージョン化された画像を有する任意のコンテナ化システムが作用する)において実行する。作業量は、最初に配列決定ランおよびデータビルドIDを同定し、処理されるそれらの試料のメタデータにアクセスし、次にバッチ実行システムを使用して試料当たりに同時に実行するように作業を分配することによってバッチ化される。どのバッチ実行システムを使用するかの特定の選択は、個々のコンピュータノードが配列データおよび共有ファイルシステムまたはストアにアクセスする限り、本発明にとって重要ではない。
本発明の重要な部分は、各試料に関する起源の情報が、前処理ステップで提供されることであり、これは、どの入力データファイルが処理されるか、および使用されるツールのバージョン、および各試料を記載するメタデータも示している。次に、その情報を、前処理ステップの出力ファイルと共に保存した後、索引をつけ、後に記載される「データアーティファクト追跡システム」を使用してバージョン化する。次に、このステップの組合せ出力は、下流の処理および手動での検査の両方に利用可能である。
3)配列アセンブリー
次に、フィルタリングした生配列データを、試料毎に個別にアセンブルして、コンティグとして知られるより長いコンセンサス配列を産生することができる。SpadesおよびMegaHitを含む、配列リードをコンティグにアセンブルすることができる多くのバイオインフォマティクスツールが存在する。
このステップは、最初にデータビルドIDを同定し、データアーティファクト追跡システムを使用して入力を同定し、バッチ実行システムを使用して全ての試料にわたって大量に同時に実行するコンテナを起動することによって誘発される。次に、アセンブルされたコンティグを、ファイルセットにおいてメトリクスと共に保存した後、データアーティファクト追跡システムによって索引を形成する。
本発明の別の重要な態様は、個々のコンティグが中央のIDプロバイダを伴うことなく同時に生成することができ、なおも特有であると保証される汎用の特有のID(UUID)によってラベルされることであり、これは、大規模アセンブリーにおいて重要な検討である。
4)配列アノテーション
次に、コンティグを解析して、予測される遺伝子の位置またはプロモーター部位などの他のゲノム特色を同定することができる。コンティグをまた解析して、生物の予測される分類学を割り当てることもできる。以前のステップと同様に、Prodigalおよびkaijuを含む、DNA配列をアノテートするために利用可能な多くのバイオインフォマティクスツールが存在する。
配列アセンブリーと同様に、このステップは、データビルドIDを使用して進行中のデータビルドを最初に同定し、データアーティファクト追跡システムを使用して入力を同定し、バッチ実行システムを使用して全ての試料にわたって大量に同時に実行されるコンテナを起動することによって誘発される。
同様に以前のステップのように、出力データを、データアーティファクト追跡システムによって索引をつけ、バージョン化する。
5)バージョン化データビルドへの配列の融合
最終ステップは、データビルドのための単一のコレクションへの試料全体のデータの集合である。このステップも同様に、特有のデータビルドIDを使用して複数のステップからの出力ファイルを、システムの最終出力を形成する単一のファイルセットに組み合わせるコンテナを起動することによって開始される。これらのファイルは、各コンティグ配列、GenBank、およびゲノム特色アノテーションに関するFASTAファイルの組み合わせたFASTAファイル、各コンティグ配列を分類学的に予測するためのCSVファイル、ならびに各コンティグならびに特有のデータビルドID、試料ID、およびメタゲノムライブラリーに対するアノテーションを、利用可能であり得る任意の追加のメタデータに関連させるCSVファイルセットを含む。
この時点で、データビルドは、データのこのコレクションおよびデータビルドIDに関して完全かつ不変であると考えられる。
データアーティファクト追跡システム
システムを動作させるコア構成成分の1つは、ファイルの群を、出力データが迅速にカテゴリー化され、入力データを容易に同定することができるように検索可能にメタデータに関連させるデータアーティファクト追跡システムである。
データアーティファクト追跡システムは、起源メタデータ(他の情報の中でも、創出タイムスタンプ、データビルドID、含まれるファイルのチェックサム、およびファイルを生成するために使用されるバイオインフォマティクスツールのコンテナのバージョンを含む)を含有するJSONファイルおよびファイルのセットを特有に同定するUUIDと共にファイルのセットをグループにする。次に、このグループのファイルをデータアーティファクトと呼ぶ。
データアーティファクトは、一度索引を付けられると、不変であると考えられ、したがってどのデータがそのデータと共にどのように生成されるかに関しての検索可能な記録を提供する。
データアーティファクトは、2ステッププロセスで創出される。計算ジョブによって書き込むことが可能な一般的なファイルシステムは、出力をフォルダに書き込んでグループ分けすることを可能にする。この仮想空間が、データアーティファクトステージング領域であると考えられる。これは、ファイルが同時にこのファイルシステムに書き込まれて創出されることを可能にする。これらのデータアーティファクトはまだ検索可能ではないが、必要なメタデータ情報を含有する「artifact.json」ファイルが創出されるや否や、索引可能であると考えられる。
第2のステップでは、インデクサは、関連する「artifact.json」ファイルを有する任意の新しいデータアーティファクトに関してデータアーティファクトステージング領域をクロールする。このインデクサは、手動でまたは一部の定期的な時間間隔で起動される個別のジョブとして実行される。索引形成の間、メタデータおよびファイルが検証される。有効であれば、次に、データアーティファクトファイルを、ファイルシステムの個別の永続的な位置へと移動させ、適宜他のクラウドストレージの位置にバックアップし、メタデータを文書に基づくデータベース、例えばMongoDBにおいて索引をつける。重要なことに、これは今や他のコンピュータジョブが各々のデータアーティファクトを特有に同定することを可能にし、その文書データベースを問い合わせることによって、データに関して検索することを可能にする。
例によって例証するために、アセンブリータスクは、具体的な試料に関してフィルタリングしたFASTQ配列データを含有する全てのデータアーティファクトを調べ、アセンブリーツールを実行し、次にデータアーティファクトステージング領域に出力フォルダを創出して、得られたFASTAファイルを保存する。最後に、タスクは、「artifact.json」ファイルを書き込み、このことはデータアーティファクトが処理の準備ができたことを示している。次に、インデクサタスクはデータアーティファクトを永続的な位置に移動させて、それらのファイルを下流のステップで利用できるようにする。次に、アノテーションタスクは、データアーティファクトデータベースからの1個または複数の試料に関するアセンブルされたコンティグを調べ、同様にそれらのコンティグを処理して遺伝子または他のゲノム特色を同定する。
アセンブリーおよびアノテーションパイプラインの経時的な操作
数百個の試料に及ぶ複雑なメタゲノムライブラリーを構築する場合しばしば、個々の試料は、通常の実験の変動、実験の誤り、または類似の問題により配列決定されていなくてもよく、ならびに望ましくなくてもよい。この規模での配列決定はなおも比較的費用が高く、そのため、ライブラリー全体を再度配列決定または再調製することは莫大な費用がかかり得る。その代わりに、コスミドDNAの個々の試料を、再調製するか、または単に再度配列決定して追加のデータを追加し、最終アセンブリーの品質を改善してもよい。これは、再配列決定が必ずしも一次解析の間に直ちに行われず、特定の試料に新しい関心がある場合、またはある特定の試料が十分に高い品質ではないことが後に決定された場合に、数ヶ月または数年後に行われ得るという事実によって複雑となる。
これは、本発明が取り組むデータ追跡および処理におけるコンピューター上の難題を呈する。試料、コンティグ、または遺伝子レベルで有効なバージョニングのための起源または手段が備えられていない伝統的なシステムは、既存のデータの完全性を維持するが最近の新しいデータによって結果をなおも強化するように、多くのメタゲノムライブラリーにわたって結果を経時的に組み合わせることに苦労している。
しかし、本明細書に記載される本発明は、データアーティファクト追跡システムを使用することによって経時的に有効にメタゲノムライブラリーの構築の漸増を可能にする。新しい試料が再配列決定される場合、新しいデータビルドIDを創出し、パイプラインステップを再度実行して、新しいデータまたは適宜新しいデータと古いデータの組合せを共に使用して試料を選択する。最終的なデータ集合ステップでは、情報の選択を前回のデータビルドからプルダウンし、非接触試料を保存するが新しい結果と置き換えるように、または直ちに使用することができる新しいデータビルドに新しい結果を集合させるように組み合わせる。
このプロセスを図20に例証する。プレートセットの数百の試料に対してコスミドライブラリーとして調製されたMG3と名付けられたメタゲノムライブラリーを得る。次に、それらのプレート上の各試料を配列決定する。試料が多数であるために、これらの試料を遠隔の配列決定センターで2回の配列決定実行に分割する。システムは、特有のID SEQR_000531およびSEQR_000532を割り当てて、どの試料がどの配列決定実行で配列決定されるかを特有に同定する。再処理、アセンブリー、およびアノテーションステップを、そのデータを単一のデータビルドに組み合わせて実行し、Data Build ID MG3_BUILD_1を与える。その結果は今や、配列検索または他の適用のために下流で使用可能である。将来に、後に検出されたデータ品質問題のために数ダースの試料が再配列決定されるように要請されていると仮定しよう。それらの試料は、異なる配列決定センターで再調製され、再配列決定される。その新しい配列決定の実行は、同様に特有のIDを割り当てられ、パイプラインは、それらの試料を、それらの試料からの過去の情報と共に処理して、改善されたアセンブリーおよび新しいアノテーションを創出する。今やデータはまとめて、MG3_BUILD_1および新しい試料に関する結果と集合されてMG3_BUILD_2を生成し、次にこれは、下流の解析のために利用可能である。このプロセスを、本発明によって無限に繰り返して、なおも各々の特異的コンティグの起源、ならびに特定のパイプラインバージョン、配列決定ラン、およびメタゲノムライブラリーに対するアノテーションを追跡しながら、単一または組み合わせたメタゲノムまたは他のライブラリーを経時的にますます生成することができる。
発明のさらなる実施形態
本開示によって企図される他の主題を、以下の番号が付けられた実施形態に提示する:
1. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーを検索し、目的の天然物を同定するためのin silico方法であって、
a)デジタルメタゲノミクスライブラリーを、天然物多重遺伝子クラスター特色セットを示すシグナルについて問い合わせるステップと、
b)前記問い合わせの出力を、複数のシグナル関連の多重遺伝子クラスターデジタル特色セットとして供給するステップと、
c)以下によって、生物学的関連性を決定し、シグナル関連の多重遺伝子クラスターデジタル特色セットに割り当てるステップ:
シグナル関連の多重遺伝子クラスターデジタル特色セットから複数の遺伝子のコンピューターにより予測される生合成機能性を決定し、1個もしくは複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター(MGC)特色セットをデジタル処理でアセンブルすること、および/または
シグナル関連の多重遺伝子クラスターデジタル特色セットから少なくとも1個の遺伝子のコンピューターにより予測される生物学的抵抗性遺伝子機能性を決定して、これにより、コンピューターにより決定された生物学的抵抗性遺伝子を同定すること、と、
d)デジタル処理でアセンブルされた生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットの閾値パラメーター内に位置している、コンピューターにより決定された生物学的抵抗性遺伝子に基づき、目的の天然物をコードするMGCを同定するステップと
を含む、方法。
2. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kbまたは40kbのN50長を含む長いアセンブリーデジタルメタゲノミクスライブラリーである、実施形態1に記載の方法。
3. デジタルメタゲノミクスライブラリーが、少なくとも約50Mb、75Mb、100Mb、200Mb、300Mb、400Mb、500Mb、600Mb、700Mb、800Mb、900Mb、1000Mb、1100Mb、1200Mb、1300Mbまたは1400Mbのサイズである、実施形態1~2のいずれか一つに記載の方法。
4. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を含み、デジタルメタゲノミクスライブラリーが、少なくとも約500MBのサイズである、実施形態1に記載の方法。
5. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、デジタルメタゲノミクスライブラリーが、少なくとも約1TBのサイズである、実施形態1に記載の方法。
6. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされた配列を含み、デジタルメタゲノミクスライブラリーが、約500MB~約1TBのサイズである、実施形態1に記載の方法。
7. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおけるアセンブルされた配列の大部分が、無培養微小生物に由来する、実施形態1に記載の方法。
8. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおける配列の実質的に全てが、無培養微小生物に由来する、実施形態1に記載の方法。
9. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおける配列の大部分が、無培養微小生物に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミド、フォスミド、BAC、YACまたはそれらの組合せの、ライブラリーに配置されている、実施形態1に記載の方法。
10. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおける配列の大部分が、無培養微小生物に由来し、無培養微小生物の少なくとも一部が、土壌試料に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミドライブラリーに配置されている、実施形態1に記載の方法。
11. ステップa)における問い合わせるステップが、HMMモデルを利用して、目的の遺伝子についてデジタルメタゲノミクスライブラリーを検索するステップを含み、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、実施形態1に記載の方法。
11.1. ステップa)における問い合わせるステップが、目的の遺伝子のホモログを含有するデジタルメタゲノミクスライブラリー内のコンティグを同定するステップを含み、相同性が、目的の遺伝子と少なくとも95%、90%、85%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%または70%の配列同一性を示す候補配列に基づき決定され、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、実施形態1に記載の方法。
12. ステップa)における問い合わせるステップが、予測モデルを利用して、目的の遺伝子のホモログについてデジタルメタゲノミクスライブラリーを検索するステップを含み、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、実施形態1に記載の方法。
13. ステップa)における問い合わせるステップが、予測モデルを利用して、目的の遺伝子(単数または複数)のホモログについてデジタルメタゲノミクスライブラリーを検索するステップを含み、ここで前記遺伝子のコードされるタンパク質が、目的の天然物を産生することにおける生合成機能を有さず、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、実施形態1に記載の方法。
13.1. 予測モデルが、長・短期記憶モデル(LSTM)に基づくもの等の回帰型ニューラルネットワークを含む、HMM、PSSM(位置特異的スコア行列)、SVM(サポートベクターマシン)、双方向性LSTM(長・短期記憶)、CNN(畳み込みニューラルネットワーク)、RNN(回帰型ニューラルネットワーク)、動的ベイジアンネットワーク、人工ニューラルネットワーク、およびそれらの組合せからなる群より選択される、実施形態12または13のいずれかに記載の方法。
13.1.1. 予測モデルが、HMMである、実施形態12または13に記載の方法。
13.2. ホモログが、HMMモデルにおいて30、40、50、60、70、80、90、100、110、120または130を超えるビットスコアを示す、実施形態13.1.1に記載の方法。
13.3. ステップa)における問い合わせるステップが、目的の遺伝子のホモログを含有するデジタルメタゲノミクスライブラリー内のコンティグを同定するステップを含み、相同性が、目的の遺伝子と少なくとも95%、90%、85%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%または70%の配列同一性を示す候補配列に基づき決定され、前記目的の遺伝子のコードされるタンパク質が、目的の天然物を産生することにおける生合成機能を有さず、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、実施形態1に記載の方法。
14. ステップa)における問い合わせるステップが、予測モデルを利用して、公知の抵抗性遺伝子またはそのバリアントもしくはホモログについてデジタルメタゲノミクスライブラリーを検索するステップを含み、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、実施形態1に記載の方法。
14.1. 予測モデルが、長・短期記憶モデル(LSTM)に基づくもの等の回帰型ニューラルネットワークを含む、HMM、PSSM(位置特異的スコア行列)、SVM(サポートベクターマシン)、双方向性LSTM(長・短期記憶)、CNN(畳み込みニューラルネットワーク)、RNN(回帰型ニューラルネットワーク)、動的ベイジアンネットワーク、人工ニューラルネットワーク、およびそれらの組合せからなる群より選択される、実施形態14に記載の方法。
14.1.1. 予測モデルが、HMMである、実施形態14に記載の方法。
14.2. ホモログが、HMMモデルにおいて30、40、50、60、70、80、90、100、110、120または130を超えるビットスコアを示す、実施形態14.1.1に記載の方法。
14.3. ステップa)における問い合わせるステップが、公知の抵抗性遺伝子またはそのバリアントもしくはホモログのホモログを含有するデジタルメタゲノミクスライブラリー内のコンティグを同定するステップを含み、相同性が、公知の抵抗性遺伝子またはそのバリアントもしくはホモログと少なくとも95%、90%、85%または80%の配列同一性を示す候補配列に基づき決定され、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、実施形態1に記載の方法。
15. ステップa)における問い合わせるステップが、予測モデルを利用して、コンピューターにより予測または仮定される抵抗性遺伝子またはそのバリアントもしくはホモログについてデジタルメタゲノミクスライブラリーを検索するステップを含み、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、実施形態1に記載の方法。
15.1. 予測モデルが、長・短期記憶モデル(LSTM)に基づくもの等の回帰型ニューラルネットワークを含む、HMM、PSSM(位置特異的スコア行列)、SVM(サポートベクターマシン)、双方向性LSTM(長・短期記憶)、CNN(畳み込みニューラルネットワーク)、RNN(回帰型ニューラルネットワーク)、動的ベイジアンネットワーク、人工ニューラルネットワーク、およびそれらの組合せからなる群より選択される、実施形態15に記載の方法。
15.1.1. 予測モデルが、HMMである、実施形態15に記載の方法。
15.2. ホモログが、HMMモデルにおいて30、40、50、60、70、80、90、100、110、120または130を超えるビットスコアを示す、実施形態15.1.1に記載の方法。
15.3. ステップa)における問い合わせるステップが、コンピューターにより予測または仮定される抵抗性遺伝子のホモログを含有するデジタルメタゲノミクスライブラリー内のコンティグを同定するステップを含み、相同性が、コンピューターにより予測または仮定される抵抗性遺伝子と少なくとも95%、90%、85%または80%の配列同一性を示す候補配列に基づき決定され、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、実施形態1に記載の方法。
16. ステップa)における問い合わせるステップが、予測モデルを利用して、単一のコンティグに含有される目的の遺伝子についてデジタルメタゲノミクスライブラリーを検索するステップを含み、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、実施形態1に記載の方法。
16.1. 予測モデルが、長・短期記憶モデル(LSTM)に基づくもの等の回帰型ニューラルネットワークを含む、HMM、PSSM(位置特異的スコア行列)、SVM(サポートベクターマシン)、双方向性LSTM(長・短期記憶)、CNN(畳み込みニューラルネットワーク)、RNN(回帰型ニューラルネットワーク)、動的ベイジアンネットワーク、人工ニューラルネットワーク、およびそれらの組合せからなる群より選択される、実施形態16に記載の方法。
16.1.1. 予測モデルが、HMMである、実施形態16に記載の方法。
16.2. ホモログが、HMMモデルにおいて30、40、50、60、70、80、90、100、110、120または130を超えるビットスコアを示す、実施形態16.1.1に記載の方法。
17. シグナル関連の多重遺伝子クラスターデジタル特色セットが、1個または複数の生合成オペロンを含む多重遺伝子クラスターを含有することがコンピューターにより予測される複数のコンティグのデータベースを含む、実施形態1に記載の方法。
18. ステップa)における問い合わせるステップが、1個または複数の生合成オペロンを含む多重遺伝子クラスターを含有する(例えば、MGCを含む)ことがコンピューターにより予測される全ての配列を同定するステップを含み、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから少なくとも1個の遺伝子のコンピューターにより予測される生物学的抵抗性遺伝子機能性を決定して、これにより、コンピューターにより決定された生物学的抵抗性遺伝子を同定するステップを含む、実施形態1に記載の方法。
19. シグナル関連の多重遺伝子クラスターデジタル特色セットが、推定上の抵抗性遺伝子を含有する複数の単一のコンティグのデータベースを含む、実施形態1に記載の方法。
20. シグナル関連の多重遺伝子クラスターデジタル特色セットがフィルタリングされて、サイズが約15kb未満のコンティグを排除する、実施形態1~19のいずれか一つに記載の方法。
21. シグナル関連の多重遺伝子クラスターデジタル特色セットがフィルタリングされて、サイズが約15kb未満のコンティグを排除し、また、シグナル関連の多重遺伝子クラスターデジタル特色セット内の第1のコンティグと約99%、98%、97%、96%、95%、94%、93%、92%、91%または90%超の配列同一性を共有する重複コンティグ結果を排除する、実施形態1~19のいずれか一つに記載の方法。
21.1. 目的の天然物をコードするMGCがフィルタリングされて、ステップ(d)において同定された第1の同定されたMGCと約99%、98%、97%、96%、95%、94%、93%、92%、91%または90%超の配列同一性を共有する重複MGCを排除する、実施形態1~19のいずれか一つに記載の方法。
22. ステップc)における、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをアセンブルするステップが、遺伝的アルゴリズムにより行われる、実施形態1~21.1のいずれか一つに記載の方法。
23. ステップc)における、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをアセンブルするステップが、遺伝的クラスター予測アルゴリズムにより行われる、実施形態1~21.1のいずれか一つに記載の方法。
24. ステップc)における、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをアセンブルするステップが、多重遺伝子クラスター(MGC)予測アルゴリズム(例えば、表1に収載されているもの等)により行われる、実施形態1~21.1のいずれか一つに記載の方法。
25. 1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをアセンブルするステップが、抗生物質および二次代謝物解析シェル(AntiSMASH)アルゴリズムおよびパイプライン、またはDeepBGCアルゴリズムおよびパイプラインにより行われる、実施形態1~21.1のいずれか一つに記載の方法。
26. シグナル関連の多重遺伝子クラスターデジタル特色セットから、少なくとも1個の遺伝子のコンピューターにより予測される生物学的抵抗性遺伝子機能性を決定して、これにより、コンピューターにより決定された生物学的抵抗性遺伝子を同定するステップが、生合成遺伝子クラスター(BGC)予測アルゴリズムを利用して、生合成オペロンを含むコンピューターにより決定された天然物多重遺伝子クラスター特色セットをアセンブルした後に行われる、実施形態1~25のいずれか一つに記載の方法。
26.1. 生合成遺伝子クラスター(BGC)予測アルゴリズムを利用して、生合成オペロンを含むコンピューターにより決定された天然物多重遺伝子クラスター特色セットをアセンブルするステップが、シグナル関連の多重遺伝子クラスターデジタル特色セットから、少なくとも1個の遺伝子のコンピューターにより予測される生物学的抵抗性遺伝子機能性を決定して、これにより、コンピューターにより決定された生物学的抵抗性遺伝子を同定した後に行われ、生合成オペロンを含むコンピューターにより決定された天然物多重遺伝子クラスター特色セットは、生合成遺伝子クラスター(BGC)予測アルゴリズムを利用してアセンブルされた、実施形態1~25のいずれか一つに記載の方法。
27. 以下をさらに含む、実施形態1~26.1のいずれか一つに記載の方法:
e)コンピューターにより決定された生物学的抵抗性遺伝子を含まないデジタルメタゲノミクスライブラリー内の複数のコンピューターにより決定された天然物多重遺伝子クラスター特色セットを同定するステップ。
28. 以下をさらに含む、実施形態1~26.1のいずれか一つに記載の方法:
e)コンピューターにより決定された生物学的抵抗性遺伝子を含まないが、コンピューターにより決定された生物学的抵抗性遺伝子を含むコンピューターにより決定された天然物多重遺伝子クラスター特色セットに対して所定の程度の遺伝的関連性を有する、複数のコンピューターにより決定された天然物多重遺伝子クラスター特色セットを同定して、これにより、推移的な抵抗性遺伝子天然物多重遺伝子クラスター特色セットを創出するステップ。
29. 以下をさらに含む、実施形態1~26.1のいずれか一つに記載の方法:
e)コンピューターにより決定された生物学的抵抗性遺伝子を含まないが、コンピューターにより決定された生物学的抵抗性遺伝子を含む同定されたコンピューターにより決定された天然物多重遺伝子クラスター特色セットに対して予測される程度の遺伝的関連性を有する、複数のコンピューターにより決定された天然物多重遺伝子クラスター特色セットを同定して、これにより、推移的な抵抗性遺伝子天然物多重遺伝子クラスター特色セットを創出するステップと、
f)推移的な抵抗性遺伝子天然物多重遺伝子クラスター特色セットから目的の天然物を同定するステップ。
29.1. コンピューターにより決定された生物学的抵抗性遺伝子が、多重遺伝子クラスター特色セット内の生合成オペロンの調節制御下にある、実施形態1~29のいずれか一つに記載の方法。
29.2. 以下のステップを含む、実施形態1~29.1のいずれか一つに記載の方法:
e)宿主細胞を製造するステップであって、宿主細胞が、ステップ(d)において同定された目的の天然物をコードするMGC、またはそのリファクタリングされたバージョンを含む、ステップ。
29.3. 以下のステップを含む、実施形態29.2に記載の方法:
f)ステップ(e)の製造された宿主細胞を培養するステップ。
29.4. 以下のステップを含む、実施形態29.3に記載の方法:
g)ステップ(f)の培養物由来の使用済み培養物を、天然物の存在について解析するステップであって、前記天然物が、製造された宿主細胞中に存在するMGC配列を欠く対照宿主細胞の培養物中には存在しない、ステップ。
29.5. デジタルメタゲノミクスライブラリーが、実施形態32~61のいずれか一つに記載の方法に従って産生された、実施形態1~29.4のいずれか一つに記載の方法。
29.6. 以下のステップを含む、実施形態27~28のいずれか一つに記載の方法:
f)宿主細胞を製造するステップであって、宿主細胞が、ステップ(e)において同定されたコンピューターにより決定された天然物多重遺伝子クラスター特色セット、またはそのリファクタリングされたバージョンのうち少なくとも1種を含む、ステップ。
29.7. 以下のステップを含む、実施形態29.6に記載の方法:
g)ステップ(f)の製造された宿主細胞を培養するステップ。
29.8. 以下のステップを含む、実施形態29.7に記載の方法:
h)ステップ(g)の培養物由来の使用済み培養物を、天然物の存在について解析するステップであって、前記天然物が、製造された宿主細胞中に存在するMGC配列を欠く対照宿主細胞の培養物中には存在しない、ステップ。
30. 未知の推定上の抵抗性遺伝子を有するまたは抵抗性遺伝子を有さない候補多重遺伝子クラスター(MGC)特色セットを同定するためのin silico方法であって、
a)デジタルメタゲノムライブラリー内の天然物多重遺伝子クラスター特色セットをコンピューターにより予測するステップと、
b)予測される天然物多重遺伝子クラスター特色セット内の遺伝子をアノテートするステップであって、各多重遺伝子クラスター特色セットが、左および右境界を含み、アノテーションステップが、前記多重遺伝子クラスター特色セットの境界の1~2個のオープンリーディングフレーム(ORF)内に位置する遺伝子をアノテートするステップを必要に応じて含む、ステップと、
c)予測される天然物多重遺伝子クラスター特色セットから、アノテートされた遺伝子をフィルタリングして、
i)予測される生合成機能を有さず、
ii)必要に応じて、公知の標的抵抗性遺伝子に対するホモログではない、
遺伝子のみを残し、これにより、複数のフィルタリングされた目的の遺伝子を産生するステップと、
d)複数のフィルタリングされた目的の遺伝子のうち少なくとも1個を含む天然物多重遺伝子クラスター特色セットを選択し、これにより、推定上の抵抗性遺伝子を有するまたは抵抗性遺伝子を有さない候補MGC配列を同定するステップと
を含む、方法。
30.1. 予測される抵抗性遺伝子を有する候補多重遺伝子クラスター特色セットを同定するためのin silico方法であって、
a)デジタルメタゲノムライブラリー内の天然物多重遺伝子クラスター特色セットをコンピューターにより予測するステップと、
b)生合成潜在性スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記生合成潜在性スコアが、遺伝子が生合成酵素であることの計算された尤度に基づく、ステップと、
c)公知の抵抗性遺伝子スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記公知の抵抗性スコアが、公知の抵抗性遺伝子との遺伝子の共有される配列同一性に基づく、ステップと、
d)予測される抵抗性遺伝子を含む候補多重遺伝子クラスター特色セットを選択するステップであって、前記予測される抵抗性遺伝子が、予め設定された組合せスコア閾値を示し、前記組合せスコアが、生合成潜在性スコアおよび公知の抵抗性遺伝子スコアの組合せに基づく、ステップと
を含む、方法。
30.2. 生合成オペロンスコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記生合成オペロンスコアが、その多重遺伝子クラスター特色セット内の生合成オペロンに対する遺伝子の近接に基づき、組合せスコアがまた、生合成オペロンスコアに基づく、ステップを含む、実施形態30.1に記載の方法。
30.3. コア生合成遺伝子距離スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記コア生合成遺伝子距離スコアが、その多重遺伝子クラスター特色セット内のコア生合成遺伝子に対する遺伝子の近接に基づき、組合せスコアがまた、コア生合成遺伝子距離スコアに基づく、ステップを含む、実施形態30.1および30.2のいずれか一つに記載の方法。
30.4. 必須遺伝子スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記必須遺伝子スコアが、公知の必須遺伝子配列のリストに対する遺伝子の最高の配列同一性に基づき、組合せスコアがまた、必須遺伝子スコアに基づく、ステップを含む、実施形態30.1~30.3のいずれか一つに記載の方法。
30.5 選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子が、公知の抵抗性遺伝子と99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%または80%未満の配列同一性を共有する、実施形態30.1~30.4のいずれか一つに記載の方法。
30.6. 選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子が、生合成酵素と90%、89%、88%、87%、86%、85%、84%、83%、82%、81%または80%未満の配列同一性を共有する、実施形態30.1~30.5のいずれか一つに記載の方法。
30.6.1. 生合成酵素が、予測される抵抗性遺伝子を含有する多重遺伝子クラスター特色セットによってコードされる天然物のための生合成酵素である、実施形態30.1~30.6のいずれか一つに記載の方法。
30.6.2. 生合成酵素が、多重遺伝子クラスター特色セット(例えば、MiBig)によってコードされる天然物に関連する生合成酵素のホモログである、実施形態30.1~30.6.1のいずれか一つに記載の方法。
30.7. 選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子が、antismashによって評価される場合、miBIGにおける8、6、4または2未満のBLASTヒットを返す、実施形態30.1~30.6.2のいずれか一つに記載の方法。
30.8. 選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子が、組合せスコアを有し、それぞれ公知の生合成酵素または公知の抵抗性遺伝子と比較した場合、遺伝子が生合成酵素であることの計算された尤度が低く、公知の抵抗性遺伝子との共有される配列同一性が低い、実施形態30.1~30.7のいずれか一つに記載の方法。
30.9. 選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子が、選択された候補多重遺伝子クラスター特色セット内の生合成オペロン内にまたはそれに直接隣接して位置する(すなわち、その間に他のORFがない)、実施形態30.1~30.8のいずれか一つに記載の方法。
30.10. 選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子が、選択された候補多重遺伝子クラスター特色セットに含有される生合成オペロンの内部にまたは生合成オペロンの500bp以内に位置する、実施形態30.1~30.9のいずれか一つに記載の方法。
30.11. 選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子が、コア生合成酵素の1kB、2kb、3kb、4kbまたは5kb以内に位置する、実施形態30.1~30.10のいずれか一つに記載の方法。
30.12. 選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子が、必須遺伝子と少なくとも99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%または70%の配列同一性を共有する、実施形態30.1~30.11のいずれか一つに記載の方法。
30.12.1. 輸送遺伝子潜在性スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記輸送遺伝子潜在性スコアが、輸送関連遺伝子である遺伝子の尤度(例えば、配列同一性により)に基づき、組合せスコアがまた、コア生合成遺伝子距離スコアに基づく、ステップを含む、実施形態30.1~30.12のいずれか一つに記載の方法。
30.12.2. 調節遺伝子潜在性スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記調節遺伝子潜在性スコアが、調節遺伝子である遺伝子の尤度(例えば、配列同一性により)に基づき、組合せスコアがまた、コア生合成遺伝子距離スコアに基づく、ステップを含む、実施形態30.1~30.12.1のいずれか一つに記載の方法。
30.12.3. 抵抗性機構スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記抵抗性機構スコアが、所望の抵抗性機構とは異なる抵抗性機構を有する抵抗性遺伝子に対する遺伝子の類似性に基づき割り当てられ、組合せスコアがまた、抵抗性機構スコアに基づく、ステップを含む、実施形態30.1~30.12.2のいずれか一つに記載の方法。
30.12.4. 抵抗性機構スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記抵抗性機構スコアが、所望の抵抗性機構を有する抵抗性遺伝子に対する遺伝子の類似性に基づき割り当てられ、組合せスコアがまた、抵抗性機構スコアに基づく、ステップを含む、実施形態30.1~30.12.3のいずれか一つに記載の方法。
30.12.5. 所望の抵抗性機構が、標的バリアントに基づく抵抗性である、実施形態30.1~30.12.4に記載の方法。
30.13. 多重遺伝子クラスターによってコードされる天然物のための抵抗性遺伝子を同定するためのin silico方法であって、
a)デジタルメタゲノムライブラリー内の天然物多重遺伝子クラスターをコンピューターにより予測するステップと、
b)生合成潜在性スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記生合成潜在性スコアが、遺伝子が生合成酵素であることの計算された尤度に基づく、ステップと、
c)公知の抵抗性遺伝子スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記公知の抵抗性スコアが、公知の抵抗性遺伝子との遺伝子の共有される配列同一性に基づく、ステップと、
d)予め設定された組合せスコア閾値を示す予測される抵抗性遺伝子を選択するステップであって、前記組合せスコアが、生合成潜在性スコアおよび公知の抵抗性遺伝子スコアの組合せに基づく、ステップと
を含む、方法。
30.14. 生合成オペロンスコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記生合成オペロンスコアが、その多重遺伝子クラスター特色セット内の生合成オペロンに対する遺伝子の近接に基づき、組合せスコアがまた、生合成オペロンスコアに基づく、ステップを含む、実施形態30.13に記載の方法。
30.15. コア生合成遺伝子距離スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記コア生合成遺伝子距離スコアが、その多重遺伝子クラスター特色セット内のコア生合成遺伝子に対する遺伝子の近接に基づき、組合せスコアがまた、コア生合成遺伝子距離スコアに基づく、ステップを含む、実施形態30.13および30.14のいずれか一つに記載の方法。
30.16. 必須遺伝子スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記必須遺伝子スコアが、公知の必須遺伝子配列のリストに対する遺伝子の最高の配列同一性に基づき、組合せスコアがまた、必須遺伝子スコアに基づく、ステップを含む、実施形態30.13~30.15のいずれか一つに記載の方法。
30.17. 予測される抵抗性遺伝子が、公知の抵抗性遺伝子と99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%または80%未満の配列同一性を共有する、実施形態30.13~30.16のいずれか一つに記載の方法。
30.18. 予測される抵抗性遺伝子が、生合成酵素と90%、89%、88%、87%、86%、85%、84%、83%、82%、81%または80%未満の配列同一性を共有する、実施形態30.13~30.17のいずれか一つに記載の方法。
30.19. 生合成酵素が、予測される抵抗性遺伝子を含有する多重遺伝子クラスター特色セットによってコードされる天然物のための生合成酵素である、実施形態30.13~30.18のいずれか一つに記載の方法。
30.19.1. 生合成酵素が、多重遺伝子クラスター特色セット(例えば、MiBig)によってコードされる天然物に関連する生合成酵素である、実施形態30.13~30.19のいずれか一つに記載の方法。
30.20. 予測される抵抗性遺伝子が、antismashによって評価される場合、miBIGにおける8、6、4または2未満のBLASTヒットを返す、実施形態30.13~30.19.1のいずれか一つに記載の方法。
30.21. 予測される抵抗性遺伝子が、組合せスコアを有し、遺伝子が生合成酵素であることの計算された尤度が低く、公知の抵抗性遺伝子との共有される配列同一性が低い、実施形態30.13~30.20のいずれか一つに記載の方法。
30.22. 予測される抵抗性遺伝子が、選択された候補多重遺伝子クラスター特色セット内の生合成オペロン内にまたはそれに直接隣接して位置する(すなわち、その間に他のORFがない)、実施形態30.13~30.21のいずれか一つに記載の方法。
30.23. 予測される抵抗性遺伝子が、生合成オペロンの内部にまたは生合成オペロンの500bp以内に位置する、実施形態30.13~30.22のいずれか一つに記載の方法。
30.24. 予測される抵抗性遺伝子が、コア生合成酵素の1kB、2kb、3kb、4kbまたは5kb以内に位置する、実施形態30.13~30.23のいずれか一つに記載の方法。
30.25. 選択された候補多重遺伝子クラスター特色セット内の予測される抵抗性遺伝子が、必須遺伝子と少なくとも99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%または70%の配列同一性を共有する、実施形態30.13~30.24のいずれか一つに記載の方法。
30.26. 輸送遺伝子潜在性スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記輸送遺伝子潜在性スコアが、輸送関連遺伝子である遺伝子の尤度(例えば、配列同一性により)に基づき、組合せスコアがまた、コア生合成遺伝子距離スコアに基づく、ステップを含む、実施形態30.13~30.25のいずれか一つに記載の方法。
30.27. 調節遺伝子潜在性スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記調節遺伝子潜在性スコアが、調節遺伝子である遺伝子の尤度(例えば、配列同一性により)に基づき、組合せスコアがまた、コア生合成遺伝子距離スコアに基づく、ステップを含む、実施形態30.13~30.26のいずれか一つに記載の方法。
30.28. 抵抗性機構スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記抵抗性機構スコアが、所望の抵抗性機構とは異なる抵抗性機構を有する抵抗性遺伝子に対する遺伝子の類似性に基づき割り当てられ、組合せスコアがまた、抵抗性機構スコアに基づく、ステップを含む、実施形態30.13~30.27のいずれか一つに記載の方法。
30.29. 抵抗性機構スコアを、多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記抵抗性機構スコアが、所望の抵抗性機構を有する抵抗性遺伝子に対する遺伝子の類似性に基づき割り当てられ、組合せスコアがまた、抵抗性機構スコアに基づく、ステップを含む、実施形態30.13~30.27のいずれか一つに記載の方法。
30.30. 所望の抵抗性機構が、標的バリアントに基づく抵抗性である、実施形態30.28または30.29に記載の方法。
31. デジタルメタゲノムライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kbまたは40kbのN50長を含む長いアセンブリーデジタルメタゲノミクスライブラリーである、実施形態30~30.30のいずれか一つに記載の方法。
31.1. デジタルメタゲノムライブラリーが、少なくとも約50Mb、75Mb、100Mb、200Mb、300Mb、400Mb、500Mb、600Mb、700Mb、800Mb、900Mb、1000Mb、1100Mb、1200Mb、1300Mbまたは1400Mbのサイズである、実施形態30~31のいずれか一つに記載の方法。
31.2. デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、デジタルメタゲノミクスライブラリーが、少なくとも約500MBのサイズである、実施形態30~30.30のいずれか一つに記載の方法。
31.3. デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、デジタルメタゲノミクスライブラリーが、少なくとも約1TBのサイズである、実施形態30~30.30のいずれか一つに記載の方法。
31.4. デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされた配列を含み、デジタルメタゲノミクスライブラリーが、約500MB~約1TBのサイズである、実施形態30~30.30のいずれか一つに記載の方法。
31.5. デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記アセンブルされたコンティグ配列、ライブラリーにおける配列の大部分が、無培養微小生物に由来する、実施形態30~30.30のいずれか一つに記載の方法。
31.6. デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおける配列の実質的に全てが、無培養微小生物に由来する、実施形態30~30.30のいずれか一つに記載の方法。
31.7. デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおける配列の大部分が、無培養微小生物に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミド、フォスミド、BAC、YACまたはそれらの組合せの、ライブラリーに配置されている、実施形態30~30.30のいずれか一つに記載の方法。
31.8. デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおける配列の大部分が、無培養微小生物に由来し、無培養微小生物の少なくとも一部が、土壌試料に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミドライブラリーに配置されている、実施形態30~30.30のいずれか一つに記載の方法。
31.9. ステップ(c)が、iii)予測される生合成機能を有する多重遺伝子クラスター特色セット内の別の遺伝子と同時調節される遺伝子のみを残すように、アノテートされた遺伝子をさらにフィルタリングする、実施形態30~31.8のいずれか一つに記載の方法。
31.10. 以下のステップを含む、実施形態30~31.9のいずれか一つに記載の方法:
e)宿主細胞を製造するステップであって、宿主細胞が、ステップ(d)の候補MGC配列、またはそのリファクタリングされたバージョンを含む、ステップ。
31.10.1. 以下のステップを含む、実施形態30~31.9のいずれか一つに記載の方法:
e)宿主細胞を製造するステップであって、宿主細胞が、ステップ(d)の選択された候補多重遺伝子クラスター特色セット、またはそのリファクタリングされたバージョンを含む、ステップ。
31.10.2. 以下のステップを含む、実施形態30~31.9のいずれか一つに記載の方法:
e)宿主細胞を製造するステップであって、宿主細胞が、ステップ(d)の選択された予測される抵抗性遺伝子を含む多重遺伝子クラスター特色セット、またはそのリファクタリングされたバージョンを含む、ステップ。
31.11. 以下のステップを含む、実施形態31.10~31.10.2に記載の方法:
f)ステップ(e)の製造された宿主細胞を培養するステップ。
31.12. 以下のステップを含む、実施形態31.11に記載の方法:
g)ステップ(f)の培養物由来の使用済み培養物を、天然物の存在について解析するステップであって、前記天然物が、製造された宿主細胞中に存在する候補MGC配列を欠く対照宿主細胞の培養物中には存在しない、ステップ。
31.13. デジタルメタゲノミクスライブラリーが、実施形態32~61のいずれか一つに記載の方法に従って産生された、実施形態30~31.12のいずれか一つに記載の方法。
32. 長いアセンブリーDNAコンティグメタゲノムライブラリーをアセンブルするための方法であって、
a)特有の全ゲノムを含む配列決定されておらず、かつアセンブルされていないメタゲノムDNA試料を提供するステップと、
b)メタゲノムDNA試料のゲノム複雑性を低下させるステップであって、以下:
i)メタゲノムDNA試料から複数のベクターへとDNA断片をクローニングして、メタゲノムベクター断片ライブラリーを創出すること、
ii)メタゲノムベクター断片ライブラリーから、それぞれ約1,000~約30,000個のプールされたベクターを含む複数の別々のミニメタゲノムサブユニットへとベクターをプールして、複数のミニメタゲノムサブユニット内に、配列決定されておらず、かつアセンブルされていないメタゲノムDNA試料由来のDNAを含むミニメタゲノムライブラリーを創出すること、によって低下させるステップと、
c)ミニメタゲノムライブラリーの複数の別々のミニメタゲノムサブユニットに存在するプールされたベクターに含有されるメタゲノムDNAのプール内配列決定およびアセンブリーを行って、配列決定され、かつアセンブルされたDNAコンティグを含む第1のパスの長いアセンブリーDNAコンティグメタゲノムライブラリーを創出するステップであって、第1のパスの長いアセンブリーDNAコンティグメタゲノムライブラリーが、少なくとも約10kbのN50長を有する、ステップと
を含む、方法。
32.1. 以下のステップを含む、実施形態32に記載の方法:
d)第1のパスの長いアセンブリーDNAコンティグメタゲノムライブラリー由来の複数の配列決定され、かつアセンブルされたDNAコンティグをさらにアセンブルすることによって、プール間DNAコンティグアセンブリーを行って、第2のパスの(second-pass)長いアセンブリーDNAコンティグメタゲノムライブラリーを創出するステップ。
33. 配列決定されておらず、かつアセンブルされていないメタゲノムDNA試料が、少なくとも約50、100、500、1000または10000種の特有の全ゲノムを含む、実施形態32または32.1に記載の方法。
34. 配列決定されておらず、かつアセンブルされていないメタゲノムDNA試料における特有の全ゲノムの平均サイズが、少なくとも約1MB、2MB、3MB、4MBもしくは5MB、または1~5MBの間である、実施形態32~33のいずれか一つに記載の方法。
35. 長いアセンブリーDNAコンティグメタゲノムライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kbまたは100kbの長さを有する複数の配列決定され、かつアセンブルされたDNAコンティグを含む、実施形態32~34のいずれか一つに記載の方法。
36. 長いアセンブリーDNAコンティグメタゲノムライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kbまたは100kbのN50長を有する、実施形態32~35のいずれか一つに記載の方法。
36.1. ミニメタゲノムサブユニット由来のDNAを配置するステップを含む、実施形態32~36のいずれか一つに記載の方法。
37. 長いアセンブリーDNAコンティグ長メタゲノムライブラリーの物理的コピーを配置するステップを含む、実施形態32~36のいずれか一つに記載の方法。
38. 細菌細胞中にまたはDNA形態で、中間のDNAコンティグ長ミニメタゲノムライブラリーまたは長いDNAコンティグ長メタゲノムライブラリーの物理的コピーを配置するステップを含む、実施形態32~36のいずれか一つに記載の方法。
39. 複数の別々のミニメタゲノムサブユニットを現実の座標空間に配置するステップと、識別子を各サブユニットに割り当てるステップとを含む、実施形態32~36のいずれか一つに記載の方法。
40. 複数の別々のミニメタゲノムサブユニットをマルチウェルマイクロタイタープレートに配置するステップを含む、実施形態32~36のいずれか一つに記載の方法。
41. 複数の別々のミニメタゲノムサブユニットを96ウェルマイクロタイタープレートに配置するステップを含む、実施形態32~36のいずれか一つに記載の方法。
42. ベクターが、プラスミドを含む、実施形態32~41のいずれか一つに記載の方法。
43. ベクターが、コスミド、フォスミド、BAC、YACまたはそれらの組合せを含む、実施形態32~41のいずれか一つに記載の方法。
44. ベクターが、コスミドを含む、実施形態32~41のいずれか一つに記載の方法。
45. ステップ(b)におけるメタゲノムベクター断片ライブラリーが、少なくとも約1Mまたは10Mのベクターを含む、実施形態32~44のいずれか一つに記載の方法。
46. ベクターが、コスミドを含み、ステップ(b)におけるメタゲノムベクター断片ライブラリーが、少なくとも約10Mのコスミドを含む、実施形態32~44のいずれか一つに記載の方法。
47. ベクターが、コスミドを含み、ステップ(b)におけるメタゲノムベクター断片ライブラリーが、少なくとも約20Mのコスミドを含む、実施形態32~44のいずれか一つに記載の方法。
48. ステップ(b)において、メタゲノムライブラリーから複数のベクターへと、約200kb未満のDNA断片をクローニングするステップを含む、実施形態32~47のいずれか一つに記載の方法。
49. ステップ(b)において、メタゲノムDNA試料から複数のベクターへと、約100kb未満のDNA断片をクローニングするステップを含む、実施形態32~47のいずれか一つに記載の方法。
50. ステップ(b)において、メタゲノムDNA試料から複数のベクターへと、約50kb未満のDNA断片をクローニングするステップを含む、実施形態32~47のいずれか一つに記載の方法。
51. ステップ(b)において、メタゲノムDNA試料から複数のベクターへと、約20kb~約50kbのDNA断片をクローニングするステップを含む、実施形態32~47のいずれか一つに記載の方法。
52. ステップ(b)において、メタゲノムDNA試料から複数のコスミドへと、約30kb~約45kbのDNA断片をクローニングするステップを含む、実施形態32~47のいずれか一つに記載の方法。
53. ステップ(b)における別々のミニメタゲノムサブユニットが、それぞれ約3,000~約15,000個のプールされたベクターを含む、実施形態32~52のいずれか一つに記載の方法。
54. ステップ(b)における別々のミニメタゲノムサブユニットが、それぞれ約5,000~約12,000個のプールされたコスミドベクターを含む、実施形態32~52のいずれか一つに記載の方法。
55. 第2のパスの長いアセンブリーDNAコンティグメタゲノムライブラリーが、少なくとも約10kb、15kb、20kb、25kbまたは30kbのN50長を有する、実施形態32~54のいずれか一つに記載の方法。
56. ステップ(c)が、複数の別々のミニメタゲノムサブユニット由来の個々の別々のミニメタゲノムサブユニットに存在するプールされたベクターに含有されるDNAコンティグの全てを同時にアセンブルするステップを含む、実施形態32~55のいずれか一つに記載の方法。
57. ステップ(c)において、プール内配列決定が、単一分子配列決定を利用して行われる、実施形態32~56のいずれか一つに記載の方法。
58. ステップ(c)において、プール内配列決定が、合成による配列決定(SBS)を利用して行われる、実施形態32~56のいずれか一つに記載の方法。
59. ステップ(c)において、プール内配列決定が、単一分子リアルタイム(SMRT)配列決定を利用して行われる、実施形態32~56のいずれか一つに記載の方法。
60. ステップ(c)において、プール内配列決定が、ナノポア配列決定を利用して行われる、実施形態32~56のいずれか一つに記載の方法。
60.1. ステップ(c)において、プール内配列決定が、合成長リード配列決定を利用して行われる、実施形態32~56のいずれか一つに記載の方法。
60.2. 合成長リードが、近接ライゲーション戦略および/または光学マッピングに基づく、実施形態60.1に記載の方法。
60.3. ステップ(c)において、プール内配列決定が、Hi-C配列決定である、実施形態32~56のいずれか一つに記載の方法。
61. ステップb)における別々のミニメタゲノムサブユニットが、それぞれ約5,000~約12,000個のプールされたコスミドベクターを含み、ステップ(c)が、複数の別々のミニメタゲノムサブユニット由来の個々の別々のミニメタゲノムサブユニット中に存在する配列決定されたDNAの全てを同時にアセンブルするステップを含む、実施形態32~60.3のいずれか一つに記載の方法。
62. 標的天然物の生合成によるアナログ化のための方法であって、
a)標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される複数の酵素を提供し、これにより、アナログ化酵素パネルライブラリーを創出するステップと、
b)アナログ化酵素パネル由来の個々の酵素を、標的天然物または標的天然物の前駆体と共にインキュベートし、これにより、反応混合物を産生するステップと、
c)ステップ(b)の反応混合物のうち少なくとも1種を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
d)アナログ化酵素パネルから酵素を選択するステップであって、ステップ(c)の解析によって決定される通り、選択された酵素が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化する、ステップと
を含む、方法。
63. ステップ(a)の酵素が、前記酵素を異種的に発現する微生物株由来のライセートの形態で提供される、実施形態62に記載の方法。
64. 標的天然物の生合成によるアナログ化のための方法であって、
a)標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素をそれぞれ発現する、複数の微生物株を提供し、これにより、微生物株のアナログ化酵素パネルライブラリーを創出するステップと、
b)微生物株のアナログ化酵素パネルライブラリー由来の個々の微生物株を、標的天然物または標的天然物の前駆体と接触させ、これにより、混合物を創出するステップと、
c)ステップ(b)の混合物を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
d)微生物株のアナログ化酵素パネルライブラリーから微生物株を選択するステップであって、ステップ(c)の解析によって決定される通り、選択された微生物株が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化し、選択された微生物株によって発現される酵素が、選択された酵素である、ステップと
を含む、方法。
65. 選択された酵素を発現するように第1の基礎微生物株のゲノムを撹乱するステップであって、第1の基礎微生物株が、標的天然物を合成することができる、ステップをさらに含む、実施形態62~64のいずれか一つに記載の方法。
66. 標的天然物の生合成によるアナログ化のための方法であって、
a)標的天然物の第1のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素をそれぞれコードする、複数の遺伝的配列を提供するステップと、
b)ステップ(a)の複数の遺伝的配列のうち1種または複数によってコードされる酵素をそれぞれ発現するように、第1の基礎微生物株の1個または複数の細胞のゲノムを撹乱するステップであって、第1の基礎微生物株が、標的天然物を合成することができ、これにより、微生物株のアナログ化酵素パネルライブラリーを創出する、ステップと、
c)微生物株のアナログ化酵素パネルライブラリー由来の個々の微生物株を培養するステップと、
d)ステップ(c)の培養物由来の使用済み培地を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
e)微生物株のアナログ化酵素パネルから微生物株を選択するステップであって、ステップ(d)の解析によって決定される通り、選択された微生物株が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化する、ステップと
を含む、方法。
67. 以下のステップをさらに含む、実施形態66に記載の方法:
f)標的天然物またはステップ(e)の所望のアナログの第2のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素をそれぞれコードする第2の複数の遺伝的配列を提供するステップと、
g)ステップ(f)の第2の複数の遺伝的配列のうち1種または複数によってコードされる酵素をそれぞれ発現するように、第2の基礎微生物株の1個または複数の細胞のゲノムを撹乱するステップであって、第2の基礎微生物株が、ステップ(e)の所望のアナログを合成することができ、これにより、微生物株の第2のアナログ化酵素パネルライブラリーを創出する、ステップと、
h)微生物株の第2のアナログ化酵素パネルライブラリー由来の個々の微生物株を培養するステップと、
i)ステップ(h)の培養物由来の使用済み培地を、標的天然物および/または前記標的天然物のアナログについて解析するステップと、
j)微生物株の第2のアナログ化酵素パネルから微生物株を選択するステップであって、ステップ(i)の解析によって決定される通り、本ステップの選択された微生物株が、標的天然物の第2の所望のアナログを産生し、これにより、標的天然物をアナログ化する、ステップ。
68. 標的天然物が、第1または第2の基礎微生物株における生合成経路によって産生され、前記生合成経路が、複数の生合成遺伝子を含み、ステップ(b)および/または(g)が、生合成遺伝子のうち1種または複数を、それぞれステップ(a)または(f)の第1または第2の複数の遺伝的配列のうち1種または複数に置き換えるステップを含む、実施形態66または67に記載の方法。
69.実施形態62~68のいずれか一つに記載の方法であって、
酵素のうち少なくとも1種が、配列ライブラリー(例えば、メタゲノムライブラリー)に由来し、遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットを投入された機械学習モデルによって、ある型の反応を触媒することが予測されており、
i)遺伝的配列入力変数が、標的天然物のアナログ化のためのある型の反応を触媒する酵素の1種または複数のアミノ酸配列を含み、
ii)表現型性能出力変数が、1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、方法。
70. 実施形態69に記載の方法であって、訓練データセットが、
i)標的天然物のアナログ化のためのある型の反応を触媒することが経験的に示された、または
ii)高度の信頼度で、他の機構により、標的天然物のアナログ化のためのある型の反応を触媒することが予測された、
のいずれかであるタンパク質のアミノ酸配列を含む、方法。
71. 酵素が、雑多な酵素である、実施形態62~70のいずれか一つに記載の方法。
71.1. 選択された酵素が、1種より多い基質を改変することができる、実施形態62~70のいずれか一つに記載の方法。
72. 標的天然物の生合成によるアナログ化のための方法であって、
a)遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップであって、
i)遺伝的配列入力変数が、標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素の1種または複数のアミノ酸配列を含み、
ii)表現型性能出力変数が、1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、ステップと、
b)訓練データセットを投入された第1の予測的機械学習モデルを開発するステップと、
c)コンピュータプロセッサーを使用して、第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有する配列ライブラリー(例えば、メタゲノムライブラリー)に適用して、メタゲノムライブラリー内の候補配列のプールを同定するステップであって、第1の予測的機械学習モデルによって、前記候補配列が、それぞれの第1の信頼度スコアにより、標的天然物のアナログ化のためのある型の反応を触媒すると予測される、ステップと、
d)第1の信頼度スコアの第2の信頼度スコアに対する比が、予め選択された閾値から外れる場合、候補配列のプールから、第2の信頼度スコアによる第2の予測的機械学習モデルによって、異なる機能を果たすことが予測されるあらゆる配列を除去し、これにより、候補配列のフィルタリングされたプールを産生するステップと、
e)ステップ(d)由来の候補配列のフィルタリングされたプール由来の配列をそれぞれ発現するように1個または複数の微生物細胞を製造するステップと、
f)ステップ(e)の製造された宿主細胞を培養し、培養された細胞を溶解し、これにより、アナログ化酵素パネルライブラリーを創出するステップと、
g)アナログ化酵素パネルライブラリー由来の個々の酵素を、標的天然物または標的天然物の前駆体と共にインキュベートし、これにより、反応混合物を産生するステップと、
h)ステップ(g)の反応混合物のうち少なくとも1種を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
i)アナログ化酵素パネルから酵素を選択するステップであって、ステップ(h)の解析によって決定される通り、選択された酵素が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化する、ステップと
を含む、方法。
72.1. 標的天然物の生合成によるアナログ化のための方法であって、
a)遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップであって、
i)遺伝的配列入力変数が、標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素の1種または複数のアミノ酸配列を含み、
ii)表現型性能出力変数が、1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、ステップと、
b)訓練データセットを投入された第1の予測的機械学習モデルを開発するステップと、
c)コンピュータプロセッサーを使用して、第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有する配列ライブラリー(例えば、メタゲノムライブラリー)に適用して、メタゲノムライブラリー内の候補配列のプールを同定するステップであって、第1の予測的機械学習モデルによって、前記候補配列が、それぞれの第1の信頼度スコアにより、標的天然物のアナログ化のためのある型の反応を触媒すると予測され、これにより、候補配列のプールを生成する、ステップと、
d)ステップ(c)由来の候補配列のプール由来の配列をそれぞれ発現するように1個または複数の微生物細胞を製造するステップと、
e)ステップ(d)の製造された宿主細胞を培養し、培養された細胞を溶解し、これにより、アナログ化酵素パネルライブラリーを創出するステップと、
f)アナログ化酵素パネルライブラリー由来の個々の酵素を、標的天然物または標的天然物の前駆体と共にインキュベートし、これにより、反応混合物を産生するステップと、
g)ステップ(f)の反応混合物のうち少なくとも1種を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
h)アナログ化酵素パネルから酵素を選択するステップであって、ステップ(g)の解析によって決定される通り、選択された酵素が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化する、ステップと
を含む、方法。
73. 標的天然物の生合成によるアナログ化のための方法であって、
a)遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップであって、
i)遺伝的配列入力変数が、標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素の1種または複数のアミノ酸配列を含み、
ii)表現型性能出力変数が、1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、ステップと、
b)訓練データセットを投入された第1の予測的機械学習モデルを開発するステップと、
c)コンピュータプロセッサーを使用して、第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有する配列ライブラリー(例えば、メタゲノムライブラリー)に適用して、メタゲノムライブラリー内の候補配列のプールを同定するステップであって、第1の予測的機械学習モデルによって、前記候補配列が、それぞれの第1の信頼度スコアにより、標的天然物のアナログ化のためのある型の反応を触媒すると予測される、ステップと、
d)第1の信頼度スコアの第2の信頼度スコアに対する比が、予め選択された閾値から外れる場合、候補配列のプールから、第2の信頼度スコアによる第2の予測的機械学習モデルによって、異なる機能を果たすことが予測されるあらゆる配列を除去し、これにより、候補配列のフィルタリングされたプールを産生するステップと、
e)ステップ(d)由来の候補配列のフィルタリングされたプール由来の配列をそれぞれ発現するように、基礎微生物株の1個または複数の微生物細胞のゲノムを撹乱するステップであって、基礎微生物株が、標的天然物を合成することができ、これにより、微生物株のアナログ化酵素パネルライブラリーを創出する、ステップと、
f)微生物株のアナログ化酵素パネルライブラリー由来の個々の微生物株を培養するステップと、
g)ステップ(f)の培養物由来の使用済み培地を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
h)微生物株のアナログ化酵素パネルから微生物株を選択するステップであって、ステップ(g)の解析によって決定される通り、選択された微生物株が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化する、ステップと
を含む、方法。
73.1. 標的天然物の生合成によるアナログ化のための方法であって、
a)遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップであって、
i)遺伝的配列入力変数が、標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素の1種または複数のアミノ酸配列を含み、
ii)表現型性能出力変数が、1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、ステップと、
b)訓練データセットを投入された第1の予測的機械学習モデルを開発するステップと、
c)コンピュータプロセッサーを使用して、第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有する配列ライブラリー(例えば、メタゲノムライブラリー)に適用して、メタゲノムライブラリー内の候補配列のプールを同定するステップであって、第1の予測的機械学習モデルによって、前記候補配列が、それぞれの第1の信頼度スコアにより、標的天然物のアナログ化のためのある型の反応を触媒すると予測され、これにより、候補配列のプールを産生する、ステップと、
d)ステップ(c)由来の候補配列のプール由来の配列をそれぞれ発現するように、基礎微生物株の1個または複数の微生物細胞のゲノムを撹乱するステップであって、基礎微生物株が、標的天然物を合成することができ、これにより、微生物株のアナログ化酵素パネルライブラリーを創出する、ステップと、
e)微生物株のアナログ化酵素パネルライブラリー由来の個々の微生物株を培養するステップと、
f)ステップ(e)の培養物由来の使用済み培地を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
g)微生物株のアナログ化酵素パネルから微生物株を選択するステップであって、ステップ(f)の解析によって決定される通り、選択された微生物株が、標的天然物の所望のアナログを産生し、これにより、標的天然物をアナログ化する、ステップと
を含む、方法。
73.2. 天然物をアナログ化することができる酵素を同定するための方法であって、
a)遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップであって、
i)遺伝的配列入力変数が、標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素の1種または複数のアミノ酸配列を含み、
ii)表現型性能出力変数が、1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、ステップと、
b)訓練データセットを投入された第1の予測的機械学習モデルを開発するステップと、
c)コンピュータプロセッサーを使用して、第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有する配列ライブラリー(例えば、メタゲノムライブラリー)に適用して、メタゲノムライブラリー内の候補配列のプールを同定するステップであって、第1の予測的機械学習モデルによって、前記候補配列が、それぞれの第1の信頼度スコアにより、標的天然物のアナログ化のためのある型の反応を触媒すると予測され、これにより、天然物をアナログ化することができると予測される候補配列のプールを産生する、ステップと
を含む、方法。
73.3. 多重遺伝子クラスターを含有することがコンピューターにより予測される配列ライブラリー内の全ての配列を同定するステップと、予測される多重遺伝子クラスター内に位置していない配列を、ステップ(c)の候補配列のプールから除去するステップとを含む、実施形態72~73.2のいずれか一つに記載の方法。
73.4. 以下のステップを含む、実施形態73.2または73.3に記載の方法:
d)候補配列のプール由来の配列をそれぞれ発現するように、1個または複数の微生物細胞を製造するステップ。
73.5. 以下のステップを含む、実施形態73.4に記載の方法:
e)ステップ(d)の製造された宿主細胞を培養し、培養された細胞を溶解し、これにより、アナログ化酵素パネルライブラリーを創出するステップ。
73.6. 以下のステップを含む、実施形態73.5に記載の方法:
f)アナログ化酵素パネルライブラリー由来の個々の酵素を、標的天然物または標的天然物の前駆体と共にインキュベートし、これにより、反応混合物を産生するステップ。
73.7. 以下のステップを含む、実施形態73.6に記載の方法:
g)ステップ(f)の反応混合物のうち少なくとも1種を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップ。
73.8. 以下のステップを含む、実施形態73.7に記載の方法:
h)アナログ化酵素パネルから酵素を選択するステップであって、ステップ(g)の解析によって決定される通り、選択された酵素が、標的天然物の所望のアナログを産生する、ステップ。
74. 実施形態72および73.8のいずれか一つに記載の方法であって、ステップ(a)の訓練データセットに、
i)ステップ(e)の微生物細胞において発現された配列のうち少なくとも1種、および
ii)ステップ(h)において測定される通り、(i)の少なくとも1種の配列に対応する表現型性能測定値
を加え、これにより、アップデートされた訓練データセットを創出するステップをさらに含む、方法。
75. 実施形態72.1~73のいずれか一つに記載の方法であって、ステップ(a)の訓練データセットに、
i)ステップ(d/e)の微生物株のアナログ化酵素パネルライブラリーにおいて発現された配列のうち少なくとも1種、および
ii)ステップ(g)において測定される通り、(i)の少なくとも1種の配列に対応する表現型性能測定値
を加え、これにより、アップデートされた訓練データセットを創出するステップをさらに含む、方法。
75.1. 実施形態73.1に記載の方法であって、ステップ(a)の訓練データセットに、
i)ステップ(d)の微生物株のアナログ化酵素パネルライブラリーにおいて発現された配列のうち少なくとも1種、および
ii)ステップ(f)において測定される通り、(i)の少なくとも1種の配列に対応する表現型性能測定値
を加え、これにより、アップデートされた訓練データセットを創出するステップをさらに含む、方法。
76. 表現型性能測定値が、存在した標的天然物のアナログの量を示す、実施形態74~75.1のいずれか一つに記載の方法。
77. 最後から2番目のステップが、以前のステップの全てを、アップデートされた訓練データセットにより少なくとも1回反復するステップである、実施形態74~75.1のいずれか一つに記載の方法。
78. 実施形態72~77のいずれか一つに記載の方法であって、訓練データセットが、
i)標的天然物のアナログ化のためのある型の反応を触媒することが経験的に示された、または
ii)高度の信頼度で、他の機構により、標的天然物のアナログ化のためのある型の反応を触媒することが予測された、
のいずれかであるタンパク質のアミノ酸配列を含む、方法。
78.1. 予測的機械学習モデルが、隠れマルコフモデル(HMM)である、実施形態72~78のいずれか一つに記載の方法。
79. 標的天然物のアナログを産生するための方法であって、
a)標的天然物を産生することが公知である第1の多重遺伝子クラスターを提供するステップと、
b)前記第1の多重遺伝子クラスターに基づき予測モデルを開発するステップと、
c)in silicoで、デジタルメタゲノミクスライブラリーを新たな多重遺伝子クラスターについて問い合わせるステップであって、前記新たな多重遺伝子クラスターが、予測モデルによって、標的天然物または標的天然物のバリアントを産生することが予測され、これにより、候補多重遺伝子クラスターのプールを産生する、ステップと、
d)in silicoで、アノテーションエンジンにより、ステップ(c)の候補多重遺伝子クラスターのプールの新たな多重遺伝子クラスターの1個または複数内の生合成酵素をコードする個々の遺伝子を同定し、これにより、新たな多重遺伝子クラスターから、生合成遺伝子を含むアナログ化酵素パネルライブラリーを産生するステップと、
e)アナログ化酵素パネルライブラリー由来の遺伝子を発現するように基礎微生物宿主細胞のゲノムを撹乱するステップであって、基礎微生物宿主細胞が、第1の多重遺伝子クラスターを含む、ステップと、
f)ステップ(e)において製造された微生物宿主細胞のうち少なくとも1個を培養するステップと、
g)ステップ(f)の培養物由来の使用済み培地を、標的天然物および/または前記標的天然物のアナログについて解析するステップと、
h)ステップ(f)において培養された微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(g)の解析によって決定される通り、選択された微生物宿主細胞が、標的天然物のアナログを産生し、これにより、標的天然物のアナログを産生する、ステップと
を含む、方法。
80. 標的天然物のアナログを産生するための方法であって、
a)標的天然物を産生することが公知である第1の多重遺伝子クラスターを提供するステップと、
b)前記第1の多重遺伝子クラスターに基づき予測モデルを開発するステップと、
c)in silicoで、デジタルメタゲノミクスライブラリーを新たな多重遺伝子クラスターについて問い合わせるステップであって、前記新たな多重遺伝子クラスターが、予測モデルによって、標的天然物または標的天然物のバリアントを産生することが予測され、これにより、候補多重遺伝子クラスターのプールを産生する、ステップと、
d)候補多重遺伝子クラスターのプール由来の少なくとも1種の多重遺伝子クラスターをそれぞれ発現するように、1個または複数の微生物宿主細胞を製造するステップと、
e)ステップ(d)において製造された微生物宿主細胞のうち少なくとも1個を培養するステップと、
f)ステップ(e)の培養物由来の使用済み培地を、標的天然物および/または標的天然物のアナログについて解析するステップと、
g)ステップ(e)において培養された微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(f)の解析によって決定される通り、選択された微生物宿主細胞が、標的天然物のアナログを産生し、これにより、標的天然物のアナログを産生する、ステップと
を含む、方法。
81. 以下のステップをさらに含む、実施形態80に記載の方法:
h)ステップ(g)の選択された微生物宿主細胞内に含まれる候補多重遺伝子クラスター由来の遺伝子を発現するように基礎微生物宿主細胞のゲノムを撹乱するステップであって、基礎微生物宿主細胞が、第1の多重遺伝子クラスターを含み、これにより、改変された基礎宿主細胞を産生する、ステップ。
82. ステップ(h)が、第1の多重遺伝子クラスター由来の本来の遺伝子を、候補多重遺伝子クラスター由来の対応する遺伝子に置き換えるステップを含む、実施形態81に記載の方法。
83. ステップ(h)が、第1の多重遺伝子クラスター由来の本来の遺伝子をノックアウトするステップを含む、実施形態81に記載の方法。
84. 標的天然物のアナログを産生するための方法であって、
a)標的天然物を産生することが公知の多重遺伝子クラスターを含む基礎微生物宿主細胞を提供するステップと、
b)多重遺伝子クラスター内の1個または複数の遺伝子の発現を変異させるまたはノックアウトするように、基礎微生物宿主細胞のゲノムを撹乱し、これにより、変異された微生物宿主細胞のライブラリーを創出するステップと、
c)変異された微生物宿主細胞のライブラリー由来の微生物宿主細胞を培養するステップと、
d)ステップ(c)の培養物由来の使用済み培地を、標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
e)ステップ(c)において培養された微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(d)の解析によって決定される通り、選択された微生物宿主細胞が、標的天然物のアナログを産生し、これにより、標的天然物のアナログを産生する、ステップと
を含む、方法。
84.1. 標的天然物のアナログを産生するための方法であって、
a)標的天然物または関連天然物を産生することが公知のまたは予測される複数の多重遺伝子クラスターを提供するステップと、
b)in silicoで、アノテーションエンジンにより、ステップ(a)の複数の多重遺伝子クラスター内の生合成酵素をコードする個々の遺伝子を同定し、これにより、複数の多重遺伝子クラスターから生合成遺伝子を含むアナログ化酵素パネルライブラリーを産生するステップと、
c)アナログ化酵素パネルライブラリー由来の遺伝子を発現するように基礎微生物宿主細胞のゲノムを撹乱するステップであって、基礎微生物宿主細胞が、標的天然物を産生することができる第1の多重遺伝子クラスターを含み、これにより、微生物細胞を製造する、ステップと、
d)ステップ(c)において製造された微生物宿主細胞のうち少なくとも1個を培養するステップと、
e)ステップ(d)の培養物由来の使用済み培地またはライセートを、標的天然物および/または前記標的天然物のアナログについて解析するステップと、
f)ステップ(d)において培養された微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(e)の解析によって決定される通り、選択された微生物宿主細胞が、標的天然物のアナログを産生し、これにより、標的天然物のアナログを産生する、ステップと
を含む、方法。
84.2. デジタルメタゲノミクスライブラリーが、実施形態32~61のいずれか一つに記載の方法に従って産生された、実施形態62~84.1のいずれか一つに記載の方法。
85. 公知の抵抗性遺伝子をコードしない候補多重遺伝子クラスター(MGC)を同定するためのin silico方法であって、
a)公知のまたは予測されるMGCの配列を提供するステップと、
b)長いアセンブリーデジタルメタゲノムライブラリー内の天然物多重遺伝子クラスター特色セットをコンピューターにより予測し、複数のシグナル関連の多重遺伝子クラスターデジタル特色セットとして前記予測の出力を供給するステップと、
c)ステップ(b)の複数のシグナル関連の多重遺伝子クラスターデジタル特色セットの中から候補MGCを選択するステップであって、前記候補MGCが、以下からなる群より選択される少なくとも1種の類似性因子:
i)公知のまたは予測されるMGCおよび候補MGC内の1、2、3、4、5、6、7または8種の生合成酵素の配列相同性、
ii)公知のまたは予測されるMGCおよび候補MGC内の同数の各型の生合成モジュール、ならびに
iii)公知の/予測されるMGCおよび候補MGCによって産生される天然物の予測される化学構造の類似性
を含み、これにより、公知の抵抗性遺伝子をコードしない候補MGCを同定する、ステップと
を含む、方法。
86. 公知のまたは予測されるMGCが、推定上の抵抗性遺伝子を含む、実施形態85に記載の方法。
87. ステップ(c)(i)の類似性因子が、公知のまたは予測されるMGCの生合成酵素のうち少なくとも1種との、候補MGCにおける生合成酵素の、少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%または100%の配列相同性を含む、実施形態85~86のいずれか一つに記載の方法。
88. 生合成酵素の相同性が、配列同一性により決定される、実施形態85~87のいずれか一つに記載の方法。
89. 公知のまたは予測されるMGC内の生合成酵素と少なくとも80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%の配列同一性を示す場合、候補MGCにおける生合成酵素が、ホモログである、実施形態88に記載の方法。
90. 生合成酵素の相同性が、HMMツールにより決定される、実施形態85~87のいずれか一つに記載の方法。
91. その候補ビットスコアの最良のマッチのビットスコアに対する比が、0.6、0.7、0.8または0.9を超える場合、候補MGCにおける生合成酵素が、ホモログである、実施形態90に記載の方法。
92. 生合成酵素が、コア生合成酵素である、実施形態85~91のいずれか一つに記載の方法。
93. 候補MGCおよび公知のまたは予測されるMGCにおける予測される化学構造の類似性が、Tanimoto係数によって決定される、実施形態85~92のいずれか一つに記載の方法。
94. 少なくとも0.7、0.8、0.9または0.95のTanimoto係数を示す場合、候補MGCの予測される化学構造が、公知のまたは予測されるMGCの公知のまたは予測される化学構造と同様である、実施形態93に記載の方法。
95. 推定上の抵抗性遺伝子が、予測されるMGC内に位置し、天然物の合成に関与しない、実施形態85~94のいずれか一つに記載の方法。
96. 長いアセンブリーデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kbまたは40kbのN50長を含む、実施形態85~95のいずれか一つに記載の方法。
97. デジタルメタゲノミクスライブラリーが、少なくとも約50Mb、75Mb、100Mb、200Mb、300Mb、400Mb、500Mb、600Mb、700Mb、800Mb、900Mb、1000Mb、1100Mb、1200Mb、1300Mbまたは1400Mbのサイズである、実施形態85~96のいずれか一つに記載の方法。
98. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を含み、デジタルメタゲノミクスライブラリーが、少なくとも約500MBのサイズである、実施形態85~95のいずれか一つに記載の方法。
99. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、デジタルメタゲノミクスライブラリーが、少なくとも約1TBのサイズである、実施形態85~95のいずれか一つに記載の方法。
100. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされた配列を含み、デジタルメタゲノミクスライブラリーが、約500MB~約1TBのサイズである、実施形態85~95のいずれか一つに記載の方法。
101. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおけるアセンブルされた配列の大部分が、無培養微小生物に由来する、実施形態85~95のいずれか一つに記載の方法。
102. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおける配列の実質的に全てが、無培養微小生物に由来する、実施形態85~95のいずれか一つに記載の方法。
103. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおける配列の大部分が、無培養微小生物に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミド、フォスミド、BAC、YACまたはそれらの組合せの、ライブラリーに配置されている、実施形態85~95のいずれか一つに記載の方法。
104. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおける配列の大部分が、無培養微小生物に由来し、無培養微小生物の少なくとも一部が、土壌試料に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミドライブラリーに配置されている、実施形態85~95のいずれか一つに記載の方法。
105. 以下のステップを含む、実施形態85~104のいずれか一つに記載の方法:
d)宿主細胞を製造するステップであって、製造された宿主細胞が、ステップ(c)において同定された候補MGC、またはそのリファクタリングされたバージョンを含む、ステップ。
106. 以下のステップを含む、実施形態105に記載の方法:
e)ステップ(d)の製造された宿主細胞を培養するステップ。
107. 以下のステップを含む、実施形態106に記載の方法:
f)ステップ(e)の培養物由来のライセートおよび/または使用済み培養物を、天然物の存在について解析するステップであって、前記天然物が、製造された宿主細胞中に存在する候補MGC配列を欠く対照宿主細胞の培養物中には存在しない、ステップ。
108. 候補多重遺伝子クラスター(MGC)を同定するためのin silico方法であって、
a)公知のまたは予測されるMGCのコア生合成酵素を同定するステップと、
b)長いアセンブリーデジタルメタゲノミクスライブラリーを、(a)において同定されたコア生合成酵素のそれぞれのホモログについて問い合わせるステップであって、前記デジタルメタゲノミクスライブラリーが、デジタル処理でアセンブルされたコンティグを含む、ステップと、
c)デジタルメタゲノミクスライブラリーの単一のコンティグ内のコア生合成酵素のホモログの存在に基づき新たなMGCを同定するステップと
を含む、方法。
109. 公知のまたは予測されるMGCのコア生合成酵素のうち少なくとも1種と少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%または100%の配列相同性を示す場合、デジタルメタゲノミクスライブラリーにおいてコードされる酵素が、ホモログとみなされる、実施形態108に記載の方法。
109.1. コア生合成酵素の相同性が、配列同一性により決定される、実施形態108~109のいずれか一つに記載の方法。
109.2. 公知のまたは予測されるMGC内の生合成酵素と少なくとも80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%の配列同一性を示す場合、新たなMGCにおける遺伝子が、ホモログである、実施形態109.1に記載の方法。
110. 生合成酵素の相同性が、HMMツールにより決定される、実施形態108に記載の方法。
111. そのコア生合成ビットスコアの最良のマッチのビットスコアに対する比が、0.6、0.7、0.8または0.9を超える場合、デジタルメタゲノミクスライブラリーにおける酵素が、ホモログである、実施形態110に記載の方法。
112. 長いアセンブリーデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kbまたは40kbのN50長を含む、実施形態108~111のいずれか一つに記載の方法。
112.1. デジタルメタゲノミクスライブラリーが、少なくとも約50Mb、75Mb、100Mb、200Mb、300Mb、400Mb、500Mb、600Mb、700Mb、800Mb、900Mb、1000Mb、1100Mb、1200Mb、1300Mbまたは1400Mbのサイズである、実施形態108~112のいずれか一つに記載の方法。
113. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を含み、デジタルメタゲノミクスライブラリーが、少なくとも約500MBのサイズである、実施形態108~111のいずれか一つに記載の方法。
114. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、デジタルメタゲノミクスライブラリーが、少なくとも約1TBのサイズである、実施形態108~111のいずれか一つに記載の方法。
115. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされた配列を含み、デジタルメタゲノミクスライブラリーが、約500MB~約1TBのサイズである、実施形態108~111のいずれか一つに記載の方法。
116. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおけるアセンブルされた配列の大部分が、無培養微小生物に由来する、実施形態108~111のいずれか一つに記載の方法。
117. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおける配列の実質的に全てが、無培養微小生物に由来する、実施形態108~111のいずれか一つに記載の方法。
118. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおける配列の大部分が、無培養微小生物に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミド、フォスミド、BAC、YACまたはそれらの組合せの、ライブラリーに配置されている、実施形態108~111のいずれか一つに記載の方法。
119. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、ライブラリーにおける配列の大部分が、無培養微小生物に由来し、無培養微小生物の少なくとも一部が、土壌試料に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミドライブラリーに配置されている、実施形態108~111のいずれか一つに記載の方法。
120. 以下のステップを含む、実施形態108~119のいずれか一つに記載の方法:
d)1個または複数の宿主細胞を製造するステップであって、各製造された宿主細胞が、ステップ(c)において同定された新たなMGCを含む、ステップ。
121. 以下のステップを含む、実施形態120に記載の方法:
e)ステップ(d)の製造された宿主細胞を培養するステップ。
122. 以下のステップを含む、実施形態121に記載の方法:
f)ステップ(e)の培養物由来のライセートおよび/または使用済み培養物を、天然物の存在について解析するステップであって、前記天然物が、製造された宿主細胞中に存在する新たなMGC配列を欠く対照宿主細胞の培養物中には存在しない、ステップ。
123. デジタルメタゲノミクスライブラリーが、実施形態32~61のいずれか一つに記載の方法に従って産生された、実施形態85~122のいずれか一つに記載の方法。
参照による援用
本明細書に引用されているあらゆる参考文献、論文、刊行物、特許、特許公開および特許出願は、あらゆる目的のためにそれらの全体が参照により組み込まれる。しかし、本明細書に引用されているいかなる参考文献、論文、刊行物、特許、特許公開および特許出願の言及も、これらが、有効な先行技術を構成する、または世界の任意の国における共通の一般知識の一部を形成することの承認または任意の形態の示唆ではなく、また、そうであるとして解釈されるべきではない。

Claims (222)

  1. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーを検索し、目的の天然物を同定するためのin silico方法であって、
    a)デジタルメタゲノミクスライブラリーを、天然物多重遺伝子クラスター特色セットを示すシグナルについて問い合わせるステップと、
    b)前記問い合わせの出力を、複数のシグナル関連の多重遺伝子クラスターデジタル特色セットとして供給するステップと、
    c)シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定し、1個もしくは複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター(MGC)特色セットをデジタル処理でアセンブルすること、および/または
    シグナル関連の多重遺伝子クラスターデジタル特色セットから、少なくとも1個の遺伝子のコンピューターにより予測される生物学的抵抗性遺伝子機能性を決定して、これにより、コンピューターにより決定された生物学的抵抗性遺伝子を同定すること
    により、生物学的関連性を決定し、前記シグナル関連の多重遺伝子クラスターデジタル特色セットに割り当てるステップと、
    d)デジタル処理でアセンブルされた生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットの閾値パラメーター内に位置している、コンピューターにより決定された生物学的抵抗性遺伝子に基づき、前記目的の天然物をコードするMGCを同定するステップと
    を含む、方法。
  2. 前記多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kbまたは40kbのN50長を含む長いアセンブリーデジタルメタゲノミクスライブラリーである、請求項1に記載の方法。
  3. 前記デジタルメタゲノミクスライブラリーが、少なくとも約50Mb、75Mb、100Mb、200Mb、300Mb、400Mb、500Mb、600Mb、700Mb、800Mb、900Mb、1000Mb、1100Mb、1200Mb、1300Mbまたは1400Mbのサイズである、請求項1~2のいずれか一項に記載の方法。
  4. 前記多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を含み、前記デジタルメタゲノミクスライブラリーが、少なくとも約500MBのサイズである、請求項1に記載の方法。
  5. 前記多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記デジタルメタゲノミクスライブラリーが、少なくとも約1TBのサイズである、請求項1に記載の方法。
  6. 前記多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされた配列を含み、前記デジタルメタゲノミクスライブラリーが、約500MB~約1TBのサイズである、請求項1に記載の方法。
  7. 前記多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記アセンブルされた配列の大部分が、無培養微小生物に由来する、請求項1に記載の方法。
  8. 前記多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記配列の実質的に全てが、無培養微小生物に由来する、請求項1に記載の方法。
  9. 前記多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記配列の大部分が、無培養微小生物に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミド、フォスミド、BAC、YACまたはそれらの組合せの、ライブラリーに配置されている、請求項1に記載の方法。
  10. 前記多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記配列の大部分が、無培養微小生物に由来し、前記無培養微小生物の少なくとも一部が、土壌試料に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミドライブラリーに配置されている、請求項1に記載の方法。
  11. ステップa)における前記問い合わせるステップが、HMMモデルを利用して、目的の遺伝子について前記デジタルメタゲノミクスライブラリーを検索するステップを含み、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、請求項1に記載の方法。
  12. ステップa)における前記問い合わせるステップが、目的の遺伝子のホモログを含有する前記デジタルメタゲノミクスライブラリー内のコンティグを同定するステップを含み、相同性が、前記目的の遺伝子と少なくとも95%、90%、85%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%または70%の配列同一性を示す候補配列に基づき決定され、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、請求項1に記載の方法。
  13. ステップa)における前記問い合わせるステップが、予測モデルを利用して、目的の遺伝子のホモログについて前記デジタルメタゲノミクスライブラリーを検索するステップを含み、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、請求項1に記載の方法。
  14. ステップa)における前記問い合わせるステップが、予測モデルを利用して、目的の遺伝子(単数または複数)のホモログについて前記デジタルメタゲノミクスライブラリーを検索するステップを含み、ここで前記遺伝子のコードされるタンパク質が、前記目的の天然物を産生することにおける生合成機能を有さず、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、請求項1に記載の方法。
  15. 前記予測モデルが、長・短期記憶モデル(LSTM)に基づくもの等の回帰型ニューラルネットワークを含む、HMM、PSSM(位置特異的スコア行列)、SVM(サポートベクターマシン)、双方向性LSTM(長・短期記憶)、CNN(畳み込みニューラルネットワーク)、RNN(回帰型ニューラルネットワーク)、動的ベイジアンネットワーク、人工ニューラルネットワーク、およびそれらの組合せからなる群より選択される、請求項13または14に記載の方法。
  16. 前記予測モデルが、HMMである、請求項13または14に記載の方法。
  17. 前記ホモログが、前記HMMモデルにおいて30、40、50、60、70、80、90、100、110、120または130を超えるビットスコアを示す、請求項16に記載の方法。
  18. ステップa)における前記問い合わせるステップが、目的の遺伝子のホモログを含有する前記デジタルメタゲノミクスライブラリー内のコンティグを同定するステップを含み、相同性が、前記目的の遺伝子と少なくとも95%、90%、85%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%または70%の配列同一性を示す候補配列に基づき決定され、前記目的の遺伝子のコードされるタンパク質が、前記目的の天然物を産生することにおける生合成機能を有さず、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、請求項1に記載の方法。
  19. ステップa)における前記問い合わせるステップが、予測モデルを利用して、公知の抵抗性遺伝子またはそのバリアントもしくはホモログについて前記デジタルメタゲノミクスライブラリーを検索するステップを含み、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、請求項1に記載の方法。
  20. 前記予測モデルが、長・短期記憶モデル(LSTM)に基づくもの等の回帰型ニューラルネットワークを含む、HMM、PSSM(位置特異的スコア行列)、SVM(サポートベクターマシン)、双方向性LSTM(長・短期記憶)、CNN(畳み込みニューラルネットワーク)、RNN(回帰型ニューラルネットワーク)、動的ベイジアンネットワーク、人工ニューラルネットワーク、およびそれらの組合せからなる群より選択される、請求項19に記載の方法。
  21. 前記予測モデルが、HMMである、請求項19に記載の方法。
  22. 前記ホモログが、前記HMMモデルにおいて30、40、50、60、70、80、90、100、110、120または130を超えるビットスコアを示す、請求項21に記載の方法。
  23. ステップa)における前記問い合わせるステップが、公知の抵抗性遺伝子またはそのバリアントもしくはホモログのホモログを含有する前記デジタルメタゲノミクスライブラリー内のコンティグを同定するステップを含み、相同性が、前記公知の抵抗性遺伝子またはそのバリアントもしくはホモログと少なくとも95%、90%、85%または80%の配列同一性を示す候補配列に基づき決定され、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、請求項1に記載の方法。
  24. ステップa)における前記問い合わせるステップが、予測モデルを利用して、コンピューターにより予測または仮定される抵抗性遺伝子またはそのバリアントもしくはホモログについて前記デジタルメタゲノミクスライブラリーを検索するステップを含み、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、請求項1に記載の方法。
  25. 前記予測モデルが、長・短期記憶モデル(LSTM)に基づくもの等の回帰型ニューラルネットワークを含む、HMM、PSSM(位置特異的スコア行列)、SVM(サポートベクターマシン)、双方向性LSTM(長・短期記憶)、CNN(畳み込みニューラルネットワーク)、RNN(回帰型ニューラルネットワーク)、動的ベイジアンネットワーク、人工ニューラルネットワーク、およびそれらの組合せからなる群より選択される、請求項24に記載の方法。
  26. 前記予測モデルが、HMMである、請求項24に記載の方法。
  27. 前記ホモログが、前記HMMモデルにおいて30、40、50、60、70、80、90、100、110、120または130を超えるビットスコアを示す、請求項26に記載の方法。
  28. ステップa)における前記問い合わせるステップが、コンピューターにより予測または仮定される抵抗性遺伝子のホモログを含有する前記デジタルメタゲノミクスライブラリー内のコンティグを同定するステップを含み、相同性が、前記コンピューターにより予測または仮定される抵抗性遺伝子と少なくとも95%、90%、85%または80%の配列同一性を示す候補配列に基づき決定され、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、請求項1に記載の方法。
  29. ステップa)における前記問い合わせるステップが、予測モデルを利用して、単一のコンティグに含有される目的の遺伝子について前記デジタルメタゲノミクスライブラリーを検索するステップを含み、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから、複数の遺伝子のコンピューターにより予測される生合成機能性を決定するステップと、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをデジタル処理でアセンブルするステップとを含む、請求項1に記載の方法。
  30. 前記予測モデルが、長・短期記憶モデル(LSTM)に基づくもの等の回帰型ニューラルネットワークを含む、HMM、PSSM(位置特異的スコア行列)、SVM(サポートベクターマシン)、双方向性LSTM(長・短期記憶)、CNN(畳み込みニューラルネットワーク)、RNN(回帰型ニューラルネットワーク)、動的ベイジアンネットワーク、人工ニューラルネットワーク、およびそれらの組合せからなる群より選択される、請求項29に記載の方法。
  31. 前記予測モデルが、HMMである、請求項29に記載の方法。
  32. 前記ホモログが、前記HMMモデルにおいて30、40、50、60、70、80、90、100、110、120または130を超えるビットスコアを示す、請求項31に記載の方法。
  33. 前記シグナル関連の多重遺伝子クラスターデジタル特色セットが、1個または複数の生合成オペロンを含む多重遺伝子クラスターを含有することがコンピューターにより予測される複数のコンティグのデータベースを含む、請求項1に記載の方法。
  34. ステップa)における前記問い合わせるステップが、1個または複数の生合成オペロンを含む多重遺伝子クラスターを含有する(例えば、MGCを含む)ことがコンピューターにより予測される全ての配列を同定するステップを含み、ステップc)が、シグナル関連の多重遺伝子クラスターデジタル特色セットから少なくとも1個の遺伝子のコンピューターにより予測される生物学的抵抗性遺伝子機能性を決定して、これにより、コンピューターにより決定された生物学的抵抗性遺伝子を同定するステップを含む、請求項1に記載の方法。
  35. 前記シグナル関連の多重遺伝子クラスターデジタル特色セットが、推定上の抵抗性遺伝子を含有する複数の単一のコンティグのデータベースを含む、請求項1に記載の方法。
  36. 前記シグナル関連の多重遺伝子クラスターデジタル特色セットがフィルタリングされて、サイズが約15kb未満のコンティグを排除する、請求項1~35のいずれか一項に記載の方法。
  37. 前記シグナル関連の多重遺伝子クラスターデジタル特色セットがフィルタリングされて、サイズが約15kb未満のコンティグを排除し、また、前記シグナル関連の多重遺伝子クラスターデジタル特色セット内の第1のコンティグと約99%、98%、97%、96%、95%、94%、93%、92%、91%または90%超の配列同一性を共有する重複コンティグ結果を排除する、請求項1~35のいずれか一項に記載の方法。
  38. 前記目的の天然物をコードする前記MGCがフィルタリングされて、ステップ(d)において同定された第1の同定されたMGCと約99%、98%、97%、96%、95%、94%、93%、92%、91%または90%超の配列同一性を共有する重複MGCを排除する、請求項1~35のいずれか一項に記載の方法。
  39. ステップc)における、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをアセンブルするステップが、遺伝的アルゴリズムにより行われる、請求項1~38のいずれか一項に記載の方法。
  40. ステップc)における、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをアセンブルするステップが、遺伝的クラスター予測アルゴリズムにより行われる、請求項1~38のいずれか一項に記載の方法。
  41. ステップc)における、1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをアセンブルするステップが、多重遺伝子クラスター(MGC)予測アルゴリズム(例えば、表1に収載されているもの等)により行われる、請求項1~38のいずれか一項に記載の方法。
  42. 1個または複数の生合成オペロンを含む、コンピューターにより決定された天然物多重遺伝子クラスター特色セットをアセンブルするステップが、抗生物質および二次代謝物解析シェル(AntiSMASH)アルゴリズムおよびパイプライン、またはDeepBGCアルゴリズムおよびパイプラインにより行われる、請求項1~38のいずれか一項に記載の方法。
  43. シグナル関連の多重遺伝子クラスターデジタル特色セットから、少なくとも1個の遺伝子のコンピューターにより予測される生物学的抵抗性遺伝子機能性を決定して、これにより、コンピューターにより決定された生物学的抵抗性遺伝子を同定するステップが、生合成遺伝子クラスター(BGC)予測アルゴリズムを利用して、生合成オペロンを含むコンピューターにより決定された天然物多重遺伝子クラスター特色セットをアセンブルした後に行われる、請求項1~42のいずれか一項に記載の方法。
  44. 生合成遺伝子クラスター(BGC)予測アルゴリズムを利用して、生合成オペロンを含むコンピューターにより決定された天然物多重遺伝子クラスター特色セットをアセンブルするステップが、シグナル関連の多重遺伝子クラスターデジタル特色セットから、少なくとも1個の遺伝子のコンピューターにより予測される生物学的抵抗性遺伝子機能性を決定して、これにより、コンピューターにより決定された生物学的抵抗性遺伝子を同定した後に行われ、生合成オペロンを含むコンピューターにより決定された天然物多重遺伝子クラスター特色セットは、生合成遺伝子クラスター(BGC)予測アルゴリズムを利用してアセンブルされた、請求項1~42のいずれか一項に記載の方法。
  45. e)前記コンピューターにより決定された生物学的抵抗性遺伝子を含まない前記デジタルメタゲノミクスライブラリー内の複数のコンピューターにより決定された天然物多重遺伝子クラスター特色セットを同定するステップ
    をさらに含む、請求項1~44のいずれか一項に記載の方法。
  46. e)前記コンピューターにより決定された生物学的抵抗性遺伝子を含まないが、前記コンピューターにより決定された生物学的抵抗性遺伝子を含むコンピューターにより決定された天然物多重遺伝子クラスター特色セットに対して所定の程度の遺伝的関連性を有する、複数のコンピューターにより決定された天然物多重遺伝子クラスター特色セットを同定して、これにより、推移的な抵抗性遺伝子天然物多重遺伝子クラスター特色セットを創出するステップ
    をさらに含む、請求項1~44のいずれか一項に記載の方法。
  47. e)前記コンピューターにより決定された生物学的抵抗性遺伝子を含まないが、前記コンピューターにより決定された生物学的抵抗性遺伝子を含む同定されたコンピューターにより決定された天然物多重遺伝子クラスター特色セットに対して予測される程度の遺伝的関連性を有する、複数のコンピューターにより決定された天然物多重遺伝子クラスター特色セットを同定して、これにより、推移的な抵抗性遺伝子天然物多重遺伝子クラスター特色セットを創出するステップと、
    f)前記推移的な抵抗性遺伝子天然物多重遺伝子クラスター特色セットから目的の天然物を同定するステップと
    をさらに含む、請求項1~44のいずれか一項に記載の方法。
  48. 前記コンピューターにより決定された生物学的抵抗性遺伝子が、前記多重遺伝子クラスター特色セット内の生合成オペロンの調節制御下にある、請求項1~47のいずれか一項に記載の方法。
  49. e)宿主細胞を製造するステップであって、前記宿主細胞が、ステップ(d)において同定された前記目的の天然物をコードする前記MGC、またはそのリファクタリングされたバージョンを含む、ステップ
    を含む、請求項1~48のいずれか一項に記載の方法。
  50. f)ステップ(e)の前記製造された宿主細胞を培養するステップ
    を含む、請求項49に記載の方法。
  51. g)ステップ(f)の培養物由来の使用済み培養物を、天然物の存在について解析するステップであって、前記天然物が、前記製造された宿主細胞中に存在する前記MGC配列を欠く対照宿主細胞の培養物中には存在しない、ステップ
    を含む、請求項50に記載の方法。
  52. 前記デジタルメタゲノミクスライブラリーが、請求項110~144のいずれか一項に記載の方法に従って産生された、請求項1~51のいずれか一項に記載の方法。
  53. f)宿主細胞を製造するステップであって、前記宿主細胞が、ステップ(e)において同定された前記コンピューターにより決定された天然物多重遺伝子クラスター特色セット、またはそのリファクタリングされたバージョンのうち少なくとも1種を含む、ステップ
    を含む、請求項45~46のいずれか一項に記載の方法。
  54. g)ステップ(f)の前記製造された宿主細胞を培養するステップ
    を含む、請求項53に記載の方法。
  55. h)ステップ(g)の培養物由来の使用済み培養物を、天然物の存在について解析するステップであって、前記天然物が、前記製造された宿主細胞中に存在する前記MGC配列を欠く対照宿主細胞の培養物中には存在しない、ステップ
    を含む、請求項54に記載の方法。
  56. 未知の推定上の抵抗性遺伝子を有するまたは抵抗性遺伝子を有さない候補多重遺伝子クラスター(MGC)特色セットを同定するためのin silico方法であって、
    a)デジタルメタゲノムライブラリー内の天然物多重遺伝子クラスター特色セットをコンピューターにより予測するステップと、
    b)前記予測される天然物多重遺伝子クラスター特色セット内の遺伝子をアノテートするステップであって、各多重遺伝子クラスター特色セットが、左および右境界を含み、前記アノテーションステップが、前記多重遺伝子クラスター特色セットの前記境界の1~2個のオープンリーディングフレーム(ORF)内に位置する遺伝子をアノテートするステップを必要に応じて含む、ステップと、
    c)前記予測される天然物多重遺伝子クラスター特色セットから、アノテートされた遺伝子をフィルタリングして、
    i)予測される生合成機能を有さず、
    ii)必要に応じて、公知の標的抵抗性遺伝子に対するホモログではない、
    遺伝子のみを残し、これにより、複数のフィルタリングされた目的の遺伝子を産生するステップと、
    d)前記複数のフィルタリングされた目的の遺伝子のうち少なくとも1個を含む天然物多重遺伝子クラスター特色セットを選択し、これにより、推定上の抵抗性遺伝子を有するまたは抵抗性遺伝子を有さない候補MGC配列を同定するステップと
    を含む、方法。
  57. 予測される抵抗性遺伝子を有する候補多重遺伝子クラスター特色セットを同定するためのin silico方法であって、
    a)デジタルメタゲノムライブラリー内の天然物多重遺伝子クラスター特色セットをコンピューターにより予測するステップと、
    b)生合成潜在性スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記生合成潜在性スコアが、遺伝子が生合成酵素であることの計算された尤度に基づく、ステップと、
    c)公知の抵抗性遺伝子スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記公知の抵抗性スコアが、公知の抵抗性遺伝子との遺伝子の共有される配列同一性に基づく、ステップと、
    d)予測される抵抗性遺伝子を含む候補多重遺伝子クラスター特色セットを選択するステップであって、前記予測される抵抗性遺伝子が、予め設定された組合せスコア閾値を示し、前記組合せスコアが、前記生合成潜在性スコアおよび前記公知の抵抗性遺伝子スコアの組合せに基づく、ステップと
    を含む、方法。
  58. 生合成オペロンスコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記生合成オペロンスコアが、その多重遺伝子クラスター特色セット内の生合成オペロンに対する遺伝子の近接に基づき、前記組合せスコアがまた、前記生合成オペロンスコアに基づく、ステップを含む、請求項57に記載の方法。
  59. コア生合成遺伝子距離スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記コア生合成遺伝子距離スコアが、その多重遺伝子クラスター特色セット内のコア生合成遺伝子に対する遺伝子の近接に基づき、前記組合せスコアがまた、前記コア生合成遺伝子距離スコアに基づく、ステップを含む、請求項57および58のいずれか一項に記載の方法。
  60. 必須遺伝子スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記必須遺伝子スコアが、公知の必須遺伝子配列のリストに対する遺伝子の最高の配列同一性に基づき、前記組合せスコアがまた、前記必須遺伝子スコアに基づく、ステップを含む、請求項57~58のいずれか一項に記載の方法。
  61. 前記選択された候補多重遺伝子クラスター特色セット内の前記予測される抵抗性遺伝子が、生合成酵素と90%、89%、88%、87%、86%、85%、84%、83%、82%、81%または80%未満の配列同一性を共有する、請求項57~60のいずれか一項に記載の方法。
  62. 生合成酵素が、前記予測される抵抗性遺伝子を含有する多重遺伝子クラスター特色セットによってコードされる前記天然物のための生合成酵素である、請求項57~61のいずれか一項に記載の方法。
  63. 生合成酵素が、多重遺伝子クラスター特色セット(例えば、MiBig)によってコードされる天然物に関連する生合成酵素のホモログである、請求項57~61のいずれか一項に記載の方法。
  64. 前記選択された候補多重遺伝子クラスター特色セット内の前記予測される抵抗性遺伝子が、antismashによって評価される場合、miBIGにおける8、6、4または2未満のBLASTヒットを返す、請求項57~63のいずれか一項に記載の方法。
  65. 前記選択された候補多重遺伝子クラスター特色セット内の前記予測される抵抗性遺伝子が、組合せスコアを有し、それぞれ公知の生合成酵素または公知の抵抗性遺伝子と比較した場合、遺伝子が生合成酵素であることの前記計算された尤度が低く、公知の抵抗性遺伝子との前記共有される配列同一性が低い、請求項57~64のいずれか一項に記載の方法。
  66. 前記選択された候補多重遺伝子クラスター特色セット内の前記予測される抵抗性遺伝子が、前記選択された候補多重遺伝子クラスター特色セット内の生合成オペロン内にまたはそれに直接隣接して位置する(すなわち、その間に他のORFがない)、請求項57~65のいずれか一項に記載の方法。
  67. 前記選択された候補多重遺伝子クラスター特色セット内の前記予測される抵抗性遺伝子が、前記選択された候補多重遺伝子クラスター特色セットに含有される生合成オペロンの内部にまたは生合成オペロンの500bp以内に位置する、請求項57~66のいずれか一項に記載の方法。
  68. 前記選択された候補多重遺伝子クラスター特色セット内の前記予測される抵抗性遺伝子が、コア生合成酵素の1kB、2kb、3kb、4kbまたは5kb以内に位置する、請求項57~67のいずれか一項に記載の方法。
  69. 前記選択された候補多重遺伝子クラスター特色セット内の前記予測される抵抗性遺伝子が、必須遺伝子と少なくとも99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%または70%の配列同一性を共有する、請求項57~68のいずれか一項に記載の方法。
  70. 輸送遺伝子潜在性スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記輸送遺伝子潜在性スコアが、輸送関連遺伝子である遺伝子の尤度(例えば、配列同一性により)に基づき、前記組合せスコアがまた、前記コア生合成遺伝子距離スコアに基づく、ステップを含む、請求項57~69のいずれか一項に記載の方法。
  71. 調節遺伝子潜在性スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記調節遺伝子潜在性スコアが、調節遺伝子である遺伝子の尤度(例えば、配列同一性により)に基づき、前記組合せスコアがまた、前記コア生合成遺伝子距離スコアに基づく、ステップを含む、請求項57~70のいずれか一項に記載の方法。
  72. 抵抗性機構スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記抵抗性機構スコアが、所望の抵抗性機構とは異なる抵抗性機構を有する抵抗性遺伝子に対する遺伝子の類似性に基づき割り当てられ、前記組合せスコアがまた、前記抵抗性機構スコアに基づく、ステップを含む、請求項57~71のいずれか一項に記載の方法。
  73. 抵抗性機構スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記抵抗性機構スコアが、前記所望の抵抗性機構を有する抵抗性遺伝子に対する遺伝子の類似性に基づき割り当てられ、前記組合せスコアがまた、前記抵抗性機構スコアに基づく、ステップを含む、請求項57~72のいずれか一項に記載の方法。
  74. 前記所望の抵抗性機構が、標的バリアントに基づく抵抗性である、請求項57~73に記載の方法。
  75. 多重遺伝子クラスターによってコードされる天然物のための抵抗性遺伝子を同定するためのin silico方法であって、
    a)デジタルメタゲノムライブラリー内の天然物多重遺伝子クラスターをコンピューターにより予測するステップと、
    b)生合成潜在性スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記生合成潜在性スコアが、遺伝子が生合成酵素であることの計算された尤度に基づく、ステップと、
    c)公知の抵抗性遺伝子スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記公知の抵抗性スコアが、公知の抵抗性遺伝子との遺伝子の共有される配列同一性に基づく、ステップと、
    d)予め設定された組合せスコア閾値を示す予測される抵抗性遺伝子を選択するステップであって、前記組合せスコアが、前記生合成潜在性スコアおよび前記公知の抵抗性遺伝子スコアの組合せに基づく、ステップと
    を含む、方法。
  76. 生合成オペロンスコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記生合成オペロンスコアが、その多重遺伝子クラスター特色セット内の生合成オペロンに対する遺伝子の近接に基づき、前記組合せスコアがまた、前記生合成オペロンスコアに基づく、ステップを含む、請求項75に記載の方法。
  77. コア生合成遺伝子距離スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記コア生合成遺伝子距離スコアが、その多重遺伝子クラスター特色セット内のコア生合成遺伝子に対する遺伝子の近接に基づき、前記組合せスコアがまた、前記コア生合成遺伝子距離スコアに基づく、ステップを含む、請求項75および76のいずれか一項に記載の方法。
  78. 必須遺伝子スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記必須遺伝子スコアが、公知の必須遺伝子配列のリストに対する遺伝子の最高の配列同一性に基づき、前記組合せスコアがまた、前記必須遺伝子スコアに基づく、ステップを含む、請求項75~77のいずれか一項に記載の方法。
  79. 前記予測される抵抗性遺伝子が、公知の抵抗性遺伝子と99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%または80%未満の配列同一性を共有する、請求項75~78のいずれか一項に記載の方法。
  80. 前記予測される抵抗性遺伝子が、生合成酵素と90%、89%、88%、87%、86%、85%、84%、83%、82%、81%または80%未満の配列同一性を共有する、請求項75~79のいずれか一項に記載の方法。
  81. 生合成酵素が、前記予測される抵抗性遺伝子を含有する多重遺伝子クラスター特色セットによってコードされる前記天然物のための生合成酵素である、請求項75~80のいずれか一項に記載の方法。
  82. 生合成酵素が、多重遺伝子クラスター特色セット(例えば、MiBig)によってコードされる天然物に関連する生合成酵素である、請求項75~81のいずれか一項に記載の方法。
  83. 前記予測される抵抗性遺伝子が、antismashによって評価される場合、miBIGにおける8、6、4または2未満のBLASTヒットを返す、請求項75~82のいずれか一項に記載の方法。
  84. 前記予測される抵抗性遺伝子が、組合せスコアを有し、遺伝子が生合成酵素であることの前記計算された尤度が低く、公知の抵抗性遺伝子との前記共有される配列同一性が低い、請求項75~83のいずれか一項に記載の方法。
  85. 前記予測される抵抗性遺伝子が、前記選択された候補多重遺伝子クラスター特色セット内の生合成オペロン内にまたはそれに直接隣接して位置する(すなわち、その間に他のORFがない)、請求項75~84のいずれか一項に記載の方法。
  86. 前記予測される抵抗性遺伝子が、生合成オペロンの内部にまたは生合成オペロンの500bp以内に位置する、請求項75~85のいずれか一項に記載の方法。
  87. 前記予測される抵抗性遺伝子が、コア生合成酵素の1kB、2kb、3kb、4kbまたは5kb以内に位置する、請求項75~86のいずれか一項に記載の方法。
  88. 前記選択された候補多重遺伝子クラスター特色セット内の前記予測される抵抗性遺伝子が、必須遺伝子と少なくとも99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%または70%の配列同一性を共有する、請求項75~87のいずれか一項に記載の方法。
  89. 輸送遺伝子潜在性スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記輸送遺伝子潜在性スコアが、輸送関連遺伝子である遺伝子の尤度(例えば、配列同一性により)に基づき、前記組合せスコアがまた、前記コア生合成遺伝子距離スコアに基づく、ステップを含む、請求項75~88のいずれか一項に記載の方法。
  90. 調節遺伝子潜在性スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記調節遺伝子潜在性スコアが、調節遺伝子である遺伝子の尤度(例えば、配列同一性により)に基づき、前記組合せスコアがまた、前記コア生合成遺伝子距離スコアに基づく、ステップを含む、請求項75~89のいずれか一項に記載の方法。
  91. 抵抗性機構スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記抵抗性機構スコアが、所望の抵抗性機構とは異なる抵抗性機構を有する抵抗性遺伝子に対する遺伝子の類似性に基づき割り当てられ、前記組合せスコアがまた、前記抵抗性機構スコアに基づく、ステップを含む、請求項75~90のいずれか一項に記載の方法。
  92. 抵抗性機構スコアを、前記多重遺伝子クラスター特色セット内の遺伝子に割り当てるステップであって、前記抵抗性機構スコアが、前記所望の抵抗性機構を有する抵抗性遺伝子に対する遺伝子の類似性に基づき割り当てられ、前記組合せスコアがまた、前記抵抗性機構スコアに基づく、ステップを含む、請求項75~90のいずれか一項に記載の方法。
  93. 前記所望の抵抗性機構が、標的バリアントに基づく抵抗性である、請求項91または92に記載の方法。
  94. 前記デジタルメタゲノムライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kbまたは40kbのN50長を含む長いアセンブリーデジタルメタゲノミクスライブラリーである、請求項56~93のいずれか一項に記載の方法。
  95. 前記デジタルメタゲノムライブラリーが、少なくとも約50Mb、75Mb、100Mb、200Mb、300Mb、400Mb、500Mb、600Mb、700Mb、800Mb、900Mb、1000Mb、1100Mb、1200Mb、1300Mbまたは1400Mbのサイズである、請求項56~94のいずれか一項に記載の方法。
  96. 前記デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記デジタルメタゲノミクスライブラリーが、少なくとも約500MBのサイズである、請求項56~93のいずれか一項に記載の方法。
  97. 前記デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記デジタルメタゲノミクスライブラリーが、少なくとも約1TBのサイズである、請求項56~93のいずれか一項に記載の方法。
  98. 前記デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされた配列を含み、前記デジタルメタゲノミクスライブラリーが、約500MB~約1TBのサイズである、請求項56~93のいずれか一項に記載の方法。
  99. 前記デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記アセンブルされたコンティグ配列、前記ライブラリーにおける前記配列の大部分が、無培養微小生物に由来する、請求項56~93のいずれか一項に記載の方法。
  100. 前記デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記配列の実質的に全てが、無培養微小生物に由来する、請求項56~93のいずれか一項に記載の方法。
  101. 前記デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記配列の大部分が、無培養微小生物に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミド、フォスミド、BAC、YACまたはそれらの組合せの、ライブラリーに配置されている、請求項56~93のいずれか一項に記載の方法。
  102. 前記デジタルメタゲノムライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記配列の大部分が、無培養微小生物に由来し、前記無培養微小生物の少なくとも一部が、土壌試料に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミドライブラリーに配置されている、請求項56~93のいずれか一項に記載の方法。
  103. ステップ(c)が、iii)予測される生合成機能を有する前記多重遺伝子クラスター特色セット内の別の遺伝子と同時調節される遺伝子のみを残すように、アノテートされた遺伝子をさらにフィルタリングする、請求項56~102のいずれか一項に記載の方法。
  104. e)宿主細胞を製造するステップであって、前記宿主細胞が、ステップ(d)の前記候補MGC配列、またはそのリファクタリングされたバージョンを含む、ステップ
    を含む、請求項56~103のいずれか一項に記載の方法。
  105. e)宿主細胞を製造するステップであって、前記宿主細胞が、ステップ(d)の前記選択された候補多重遺伝子クラスター特色セット、またはそのリファクタリングされたバージョンを含む、ステップ
    を含む、請求項56~103のいずれか一項に記載の方法。
  106. e)宿主細胞を製造するステップであって、前記宿主細胞が、ステップ(d)の前記選択された予測される抵抗性遺伝子を含む前記多重遺伝子クラスター特色セット、またはそのリファクタリングされたバージョンを含む、ステップ
    を含む、請求項56~103のいずれか一項に記載の方法。
  107. f)ステップ(e)の前記製造された宿主細胞を培養するステップ
    を含む、請求項104~106に記載の方法。
  108. g)ステップ(f)の培養物由来の使用済み培養物を、天然物の存在について解析するステップであって、前記天然物が、前記製造された宿主細胞中に存在する前記候補MGC配列を欠く対照宿主細胞の培養物中には存在しない、ステップ
    を含む、請求項107に記載の方法。
  109. 前記デジタルメタゲノミクスライブラリーが、請求項110~144のいずれか一項に記載の方法に従って産生された、請求項56~108のいずれか一項に記載の方法。
  110. 長いアセンブリーDNAコンティグメタゲノムライブラリーをアセンブルするための方法であって、
    a)特有の全ゲノムを含む配列決定されておらず、かつアセンブルされていないメタゲノムDNA試料を提供するステップと、
    b)i)前記メタゲノムDNA試料から複数のベクターへとDNA断片をクローニングして、メタゲノムベクター断片ライブラリーを創出すること、
    ii)前記メタゲノムベクター断片ライブラリーから、それぞれ約1,000~約30,000個のプールされたベクターを含む複数の別々のミニメタゲノムサブユニットへと前記ベクターをプールして、前記複数のミニメタゲノムサブユニット内に、前記配列決定されておらず、かつアセンブルされていないメタゲノムDNA試料由来のDNAを含むミニメタゲノムライブラリーを創出することによって、
    前記メタゲノムDNA試料のゲノム複雑性を低下させるステップと、
    c)前記ミニメタゲノムライブラリーの前記複数の別々のミニメタゲノムサブユニットに存在する前記プールされたベクターに含有される前記メタゲノムDNAのプール内配列決定およびアセンブリーを行って、配列決定され、かつアセンブルされたDNAコンティグを含む第1のパスの長いアセンブリーDNAコンティグメタゲノムライブラリーを創出するステップであって、前記第1のパスの長いアセンブリーDNAコンティグメタゲノムライブラリーが、少なくとも約10kbのN50長を有する、ステップと
    を含む、方法。
  111. d)前記第1のパスの長いアセンブリーDNAコンティグメタゲノムライブラリー由来の複数の配列決定され、かつアセンブルされたDNAコンティグをさらにアセンブルすることによって、プール間DNAコンティグアセンブリーを行って、第2のパスの長いアセンブリーDNAコンティグメタゲノムライブラリーを創出するステップ
    を含む、請求項110に記載の方法。
  112. 前記配列決定されておらず、かつアセンブルされていないメタゲノムDNA試料が、少なくとも約50、100、500、1000または10000種の特有の全ゲノムを含む、請求項110または111に記載の方法。
  113. 前記配列決定されておらず、かつアセンブルされていないメタゲノムDNA試料における前記特有の全ゲノムの平均サイズが、少なくとも約1MB、2MB、3MB、4MBもしくは5MB、または1~5MBの間である、請求項110~112のいずれか一項に記載の方法。
  114. 前記長いアセンブリーDNAコンティグメタゲノムライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kbまたは100kbの長さを有する複数の配列決定され、かつアセンブルされたDNAコンティグを含む、請求項110~113のいずれか一項に記載の方法。
  115. 前記長いアセンブリーDNAコンティグメタゲノムライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kbまたは100kbのN50長を有する、請求項110~114のいずれか一項に記載の方法。
  116. 前記ミニメタゲノムサブユニット由来の前記DNAを配置するステップを含む、請求項110~115のいずれか一項に記載の方法。
  117. 長いアセンブリーDNAコンティグ長メタゲノムライブラリーの物理的コピーを配置するステップを含む、請求項110~115のいずれか一項に記載の方法。
  118. 細菌細胞中にまたはDNA形態で、中間のDNAコンティグ長ミニメタゲノムライブラリーまたは長いDNAコンティグ長メタゲノムライブラリーの物理的コピーを配置するステップを含む、請求項110~115のいずれか一項に記載の方法。
  119. 前記複数の別々のミニメタゲノムサブユニットを現実の座標空間に配置するステップと、識別子を各サブユニットに割り当てるステップとを含む、請求項110~115のいずれか一項に記載の方法。
  120. 前記複数の別々のミニメタゲノムサブユニットをマルチウェルマイクロタイタープレートに配置するステップを含む、請求項110~115のいずれか一項に記載の方法。
  121. 前記複数の別々のミニメタゲノムサブユニットを96ウェルマイクロタイタープレートに配置するステップを含む、請求項110~115のいずれか一項に記載の方法。
  122. 前記ベクターが、プラスミドを含む、請求項110~121のいずれか一項に記載の方法。
  123. 前記ベクターが、コスミド、フォスミド、BAC、YACまたはそれらの組合せを含む、請求項110~121のいずれか一項に記載の方法。
  124. 前記ベクターが、コスミドを含む、請求項110~121のいずれか一項に記載の方法。
  125. ステップ(b)における前記メタゲノムベクター断片ライブラリーが、少なくとも約1Mまたは10Mのベクターを含む、請求項110~124のいずれか一項に記載の方法。
  126. 前記ベクターが、コスミドを含み、ステップ(b)における前記メタゲノムベクター断片ライブラリーが、少なくとも約10Mのコスミドを含む、請求項110~124のいずれか一項に記載の方法。
  127. 前記ベクターが、コスミドを含み、ステップ(b)における前記メタゲノムベクター断片ライブラリーが、少なくとも約20Mのコスミドを含む、請求項110~124のいずれか一項に記載の方法。
  128. ステップ(b)において、前記メタゲノムライブラリーから複数のベクターへと、約200kb未満のDNA断片をクローニングするステップを含む、請求項110~127のいずれか一項に記載の方法。
  129. ステップ(b)において、前記メタゲノムDNA試料から複数のベクターへと、約100kb未満のDNA断片をクローニングするステップを含む、請求項110~127のいずれか一項に記載の方法。
  130. ステップ(b)において、前記メタゲノムDNA試料から複数のベクターへと、約50kb未満のDNA断片をクローニングするステップを含む、請求項110~127のいずれか一項に記載の方法。
  131. ステップ(b)において、前記メタゲノムDNA試料から複数のベクターへと、約20kb~約50kbのDNA断片をクローニングするステップを含む、請求項110~127のいずれか一項に記載の方法。
  132. ステップ(b)において、前記メタゲノムDNA試料から複数のコスミドへと、約30kb~約45kbのDNA断片をクローニングするステップを含む、請求項110~127のいずれか一項に記載の方法。
  133. ステップ(b)における前記別々のミニメタゲノムサブユニットが、それぞれ約3,000~約15,000個のプールされたベクターを含む、請求項110~132のいずれか一項に記載の方法。
  134. ステップ(b)における前記別々のミニメタゲノムサブユニットが、それぞれ約5,000~約12,000個のプールされたコスミドベクターを含む、請求項110~132のいずれか一項に記載の方法。
  135. 前記第2のパスの長いアセンブリーDNAコンティグメタゲノムライブラリーが、少なくとも約10kb、15kb、20kb、25kbまたは30kbのN50長を有する、請求項110~134のいずれか一項に記載の方法。
  136. ステップ(c)が、前記複数の別々のミニメタゲノムサブユニット由来の個々の別々のミニメタゲノムサブユニットに存在する前記プールされたベクターに含有される前記DNAコンティグの全てを同時にアセンブルするステップを含む、請求項110~135のいずれか一項に記載の方法。
  137. ステップ(c)において、プール内配列決定が、単一分子配列決定を利用して行われる、請求項110~136のいずれか一項に記載の方法。
  138. ステップ(c)において、プール内配列決定が、合成による配列決定(SBS)を利用して行われる、請求項110~136のいずれか一項に記載の方法。
  139. ステップ(c)において、プール内配列決定が、単一分子リアルタイム(SMRT)配列決定を利用して行われる、請求項110~136のいずれか一項に記載の方法。
  140. ステップ(c)において、プール内配列決定が、ナノポア配列決定を利用して行われる、請求項110~136のいずれか一項に記載の方法。
  141. ステップ(c)において、プール内配列決定が、合成長リード配列決定を利用して行われる、請求項110~136のいずれか一項に記載の方法。
  142. 前記合成長リードが、近接ライゲーション戦略および/または光学マッピングに基づく、請求項141に記載の方法。
  143. ステップ(c)において、プール内配列決定が、Hi-C配列決定である、請求項110~136のいずれか一項に記載の方法。
  144. ステップb)における前記別々のミニメタゲノムサブユニットが、それぞれ約5,000~約12,000個のプールされたコスミドベクターを含み、ステップ(c)が、前記複数の別々のミニメタゲノムサブユニット由来の個々の別々のミニメタゲノムサブユニット中に存在する前記配列決定されたDNAの全てを同時にアセンブルするステップを含む、請求項110~143のいずれか一項に記載の方法。
  145. 標的天然物の生合成によるアナログ化のための方法であって、
    a)前記標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される複数の酵素を提供し、これにより、アナログ化酵素パネルライブラリーを創出するステップと、
    b)前記アナログ化酵素パネル由来の個々の酵素を、前記標的天然物または前記標的天然物の前駆体と共にインキュベートし、これにより、反応混合物を産生するステップと、
    c)ステップ(b)の前記反応混合物のうち少なくとも1種を、前記標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
    d)前記アナログ化酵素パネルから酵素を選択するステップであって、ステップ(c)の前記解析によって決定される通り、前記選択された酵素が、前記標的天然物の所望のアナログを産生し、これにより、前記標的天然物をアナログ化する、ステップと
    を含む、方法。
  146. ステップ(a)の前記酵素が、前記酵素を異種的に発現する微生物株由来のライセートの形態で提供される、請求項145に記載の方法。
  147. 標的天然物の生合成によるアナログ化のための方法であって、
    a)前記標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素をそれぞれ発現する、複数の微生物株を提供し、これにより、微生物株のアナログ化酵素パネルライブラリーを創出するステップと、
    b)微生物株の前記アナログ化酵素パネルライブラリー由来の個々の微生物株を、前記標的天然物または前記標的天然物の前駆体と接触させ、これにより、混合物を創出するステップと、
    c)ステップ(b)の前記混合物を、前記標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
    d)微生物株の前記アナログ化酵素パネルライブラリーから微生物株を選択するステップであって、ステップ(c)の前記解析によって決定される通り、前記選択された微生物株が、前記標的天然物の所望のアナログを産生し、これにより、前記標的天然物をアナログ化し、前記選択された微生物株によって発現される前記酵素が、選択された酵素である、ステップと
    を含む、方法。
  148. 前記選択された酵素を発現するように第1の基礎微生物株のゲノムを撹乱するステップであって、前記第1の基礎微生物株が、前記標的天然物を合成することができる、ステップをさらに含む、請求項145~147のいずれか一項に記載の方法。
  149. 標的天然物の生合成によるアナログ化のための方法であって、
    a)前記標的天然物の第1のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素をそれぞれコードする、複数の遺伝的配列を提供するステップと、
    b)ステップ(a)の前記複数の遺伝的配列のうち1種または複数によってコードされる酵素をそれぞれ発現するように、第1の基礎微生物株の1個または複数の細胞のゲノムを撹乱するステップであって、前記第1の基礎微生物株が、前記標的天然物を合成することができ、これにより、微生物株のアナログ化酵素パネルライブラリーを創出する、ステップと、
    c)微生物株の前記アナログ化酵素パネルライブラリー由来の個々の微生物株を培養するステップと、
    d)ステップ(c)の培養物由来の使用済み培地を、前記標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
    e)微生物株の前記アナログ化酵素パネルから微生物株を選択するステップであって、ステップ(d)の前記解析によって決定される通り、前記選択された微生物株が、前記標的天然物の所望のアナログを産生し、これにより、前記標的天然物をアナログ化する、ステップと
    を含む、方法。
  150. f)前記標的天然物またはステップ(e)の前記所望のアナログの第2のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素をそれぞれコードする第2の複数の遺伝的配列を提供するステップと、
    g)ステップ(f)の前記第2の複数の遺伝的配列のうち1種または複数によってコードされる酵素をそれぞれ発現するように、第2の基礎微生物株の1個または複数の細胞のゲノムを撹乱するステップであって、前記第2の基礎微生物株が、ステップ(e)の前記所望のアナログを合成することができ、これにより、微生物株の第2のアナログ化酵素パネルライブラリーを創出する、ステップと、
    h)微生物株の前記第2のアナログ化酵素パネルライブラリー由来の個々の微生物株を培養するステップと、
    i)ステップ(h)の培養物由来の使用済み培地を、前記標的天然物および/または前記標的天然物のアナログについて解析するステップと、
    j)微生物株の前記第2のアナログ化酵素パネルから微生物株を選択するステップであって、ステップ(i)の前記解析によって決定される通り、本ステップの前記選択された微生物株が、前記標的天然物の第2の所望のアナログを産生し、これにより、前記標的天然物をアナログ化する、ステップと
    をさらに含む、請求項149に記載の方法。
  151. 前記標的天然物が、前記第1または第2の基礎微生物株における生合成経路によって産生され、前記生合成経路が、複数の生合成遺伝子を含み、ステップ(b)および/または(g)が、前記生合成遺伝子のうち1種または複数を、それぞれステップ(a)または(f)の前記第1または第2の複数の遺伝的配列のうち1種または複数に置き換えるステップを含む、請求項149または150に記載の方法。
  152. 前記酵素のうち少なくとも1種が、配列ライブラリー(例えば、メタゲノムライブラリー)に由来し、遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットを投入された機械学習モデルによって、前記ある型の反応を触媒することが予測されており、
    i)前記遺伝的配列入力変数が、前記標的天然物のアナログ化のための前記ある型の反応を触媒する酵素の1種または複数のアミノ酸配列を含み、
    ii)前記表現型性能出力変数が、前記1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、
    請求項145~151のいずれか一項に記載の方法。
  153. 前記訓練データセットが、
    i)前記標的天然物のアナログ化のための前記ある型の反応を触媒することが経験的に示された、または
    ii)高度の信頼度で、他の機構により、前記標的天然物のアナログ化のための前記ある型の反応を触媒することが予測された、
    のいずれかであるタンパク質のアミノ酸配列を含む、請求項152に記載の方法。
  154. 前記酵素が、雑多な酵素である、請求項145~153のいずれか一項に記載の方法。
  155. 前記選択された酵素が、1種より多い基質を改変することができる、請求項145~153のいずれか一項に記載の方法。
  156. 標的天然物の生合成によるアナログ化のための方法であって、
    a)遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップであって、
    i)前記遺伝的配列入力変数が、前記標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素の1種または複数のアミノ酸配列を含み、
    ii)前記表現型性能出力変数が、前記1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、ステップと、
    b)前記訓練データセットを投入された第1の予測的機械学習モデルを開発するステップと、
    c)コンピュータプロセッサーを使用して、前記第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有する配列ライブラリー(例えば、メタゲノムライブラリー)に適用して、前記メタゲノムライブラリー内の候補配列のプールを同定するステップであって、前記第1の予測的機械学習モデルによって、前記候補配列が、それぞれの第1の信頼度スコアにより、前記標的天然物のアナログ化のための前記ある型の反応を触媒すると予測される、ステップと、
    d)前記第1の信頼度スコアの第2の信頼度スコアに対する比が、予め選択された閾値から外れる場合、前記候補配列のプールから、前記第2の信頼度スコアによる第2の予測的機械学習モデルによって、異なる機能を果たすことが予測されるあらゆる配列を除去し、これにより、候補配列のフィルタリングされたプールを産生するステップと、
    e)ステップ(d)由来の前記候補配列のフィルタリングされたプール由来の配列をそれぞれ発現するように1個または複数の微生物細胞を製造するステップと、
    f)ステップ(e)の前記製造された宿主細胞を培養し、培養された細胞を溶解し、これにより、アナログ化酵素パネルライブラリーを創出するステップと、
    g)前記アナログ化酵素パネルライブラリー由来の個々の酵素を、前記標的天然物または前記標的天然物の前駆体と共にインキュベートし、これにより、反応混合物を産生するステップと、
    h)ステップ(g)の前記反応混合物のうち少なくとも1種を、前記標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
    i)前記アナログ化酵素パネルから酵素を選択するステップであって、ステップ(h)の前記解析によって決定される通り、前記選択された酵素が、前記標的天然物の所望のアナログを産生し、これにより、前記標的天然物をアナログ化する、ステップと
    を含む、方法。
  157. 標的天然物の生合成によるアナログ化のための方法であって、
    a)遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップであって、
    i)前記遺伝的配列入力変数が、前記標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素の1種または複数のアミノ酸配列を含み、
    ii)前記表現型性能出力変数が、前記1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、ステップと、
    b)前記訓練データセットを投入された第1の予測的機械学習モデルを開発するステップと、
    c)コンピュータプロセッサーを使用して、前記第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有する配列ライブラリー(例えば、メタゲノムライブラリー)に適用して、前記メタゲノムライブラリー内の候補配列のプールを同定するステップであって、前記第1の予測的機械学習モデルによって、前記候補配列が、それぞれの第1の信頼度スコアにより、前記標的天然物のアナログ化のための前記ある型の反応を触媒すると予測され、これにより、候補配列のプールを生成する、ステップと、
    d)ステップ(c)由来の前記候補配列のプール由来の配列をそれぞれ発現するように1個または複数の微生物細胞を製造するステップと、
    e)ステップ(d)の前記製造された宿主細胞を培養し、培養された細胞を溶解し、これにより、アナログ化酵素パネルライブラリーを創出するステップと、
    f)前記アナログ化酵素パネルライブラリー由来の個々の酵素を、前記標的天然物または前記標的天然物の前駆体と共にインキュベートし、これにより、反応混合物を産生するステップと、
    g)ステップ(f)の前記反応混合物のうち少なくとも1種を、前記標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
    h)前記アナログ化酵素パネルから酵素を選択するステップであって、ステップ(g)の前記解析によって決定される通り、前記選択された酵素が、前記標的天然物の所望のアナログを産生し、これにより、前記標的天然物をアナログ化する、ステップと
    を含む、方法。
  158. 標的天然物の生合成によるアナログ化のための方法であって、
    a)遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップであって、
    i)前記遺伝的配列入力変数が、前記標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素の1種または複数のアミノ酸配列を含み、
    ii)前記表現型性能出力変数が、前記1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、ステップと、
    b)前記訓練データセットを投入された第1の予測的機械学習モデルを開発するステップと、
    c)コンピュータプロセッサーを使用して、前記第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有する配列ライブラリー(例えば、メタゲノムライブラリー)に適用して、前記メタゲノムライブラリー内の候補配列のプールを同定するステップであって、前記第1の予測的機械学習モデルによって、前記候補配列が、それぞれの第1の信頼度スコアにより、前記標的天然物のアナログ化のための前記ある型の反応を触媒すると予測される、ステップと、
    d)前記第1の信頼度スコアの第2の信頼度スコアに対する比が、予め選択された閾値から外れる場合、前記候補配列のプールから、前記第2の信頼度スコアによる第2の予測的機械学習モデルによって、異なる機能を果たすことが予測されるあらゆる配列を除去し、これにより、候補配列のフィルタリングされたプールを産生するステップと、
    e)ステップ(d)由来の前記候補配列のフィルタリングされたプール由来の配列をそれぞれ発現するように、基礎微生物株の1個または複数の微生物細胞のゲノムを撹乱するステップであって、前記基礎微生物株が、前記標的天然物を合成することができ、これにより、微生物株のアナログ化酵素パネルライブラリーを創出する、ステップと、
    f)微生物株の前記アナログ化酵素パネルライブラリー由来の個々の微生物株を培養するステップと、
    g)ステップ(f)の培養物由来の使用済み培地を、前記標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
    h)微生物株の前記アナログ化酵素パネルから微生物株を選択するステップであって、ステップ(g)の前記解析によって決定される通り、前記選択された微生物株が、前記標的天然物の所望のアナログを産生し、これにより、前記標的天然物をアナログ化する、ステップと
    を含む、方法。
  159. 標的天然物の生合成によるアナログ化のための方法であって、
    a)遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップであって、
    i)前記遺伝的配列入力変数が、前記標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素の1種または複数のアミノ酸配列を含み、
    ii)前記表現型性能出力変数が、前記1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、ステップと、
    b)前記訓練データセットを投入された第1の予測的機械学習モデルを開発するステップと、
    c)コンピュータプロセッサーを使用して、前記第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有する配列ライブラリー(例えば、メタゲノムライブラリー)に適用して、前記メタゲノムライブラリー内の候補配列のプールを同定するステップであって、前記第1の予測的機械学習モデルによって、前記候補配列が、それぞれの第1の信頼度スコアにより、前記標的天然物のアナログ化のための前記ある型の反応を触媒すると予測され、これにより、候補配列のプールを産生する、ステップと、
    d)ステップ(c)由来の前記候補配列のプール由来の配列をそれぞれ発現するように、基礎微生物株の1個または複数の微生物細胞のゲノムを撹乱するステップであって、前記基礎微生物株が、前記標的天然物を合成することができ、これにより、微生物株のアナログ化酵素パネルライブラリーを創出する、ステップと、
    e)微生物株の前記アナログ化酵素パネルライブラリー由来の個々の微生物株を培養するステップと、
    f)ステップ(e)の培養物由来の使用済み培地を、前記標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
    g)微生物株の前記アナログ化酵素パネルから微生物株を選択するステップであって、ステップ(f)の前記解析によって決定される通り、前記選択された微生物株が、前記標的天然物の所望のアナログを産生し、これにより、前記標的天然物をアナログ化する、ステップと
    を含む、方法。
  160. 天然物をアナログ化することができる酵素を同定するための方法であって、
    a)遺伝的配列入力変数および表現型性能出力変数を含む訓練データセットにアクセスするステップであって、
    i)前記遺伝的配列入力変数が、前記標的天然物のアナログ化のためのある型の反応を触媒することが公知であるかまたは予測される酵素の1種または複数のアミノ酸配列を含み、
    ii)前記表現型性能出力変数が、前記1種または複数のアミノ酸配列に関連する1種または複数の表現型性能特色を含む、ステップと、
    b)前記訓練データセットを投入された第1の予測的機械学習モデルを開発するステップと、
    c)コンピュータプロセッサーを使用して、前記第1の予測的機械学習モデルを、1種または複数の生物由来のアミノ酸配列を含有する配列ライブラリー(例えば、メタゲノムライブラリー)に適用して、前記メタゲノムライブラリー内の候補配列のプールを同定するステップであって、前記第1の予測的機械学習モデルによって、前記候補配列が、それぞれの第1の信頼度スコアにより、前記標的天然物のアナログ化のための前記ある型の反応を触媒すると予測され、これにより、天然物をアナログ化することができると予測される候補配列のプールを産生する、ステップと
    を含む、方法。
  161. 多重遺伝子クラスターを含有することがコンピューターにより予測される前記配列ライブラリー内の全ての配列を同定するステップと、予測される多重遺伝子クラスター内に位置していない配列を、ステップ(c)の前記候補配列のプールから除去するステップとを含む、請求項156~160のいずれか一項に記載の方法。
  162. d)前記候補配列のプール由来の配列をそれぞれ発現するように、1個または複数の微生物細胞を製造するステップ
    を含む、請求項160または161に記載の方法。
  163. e)ステップ(d)の前記製造された宿主細胞を培養し、培養された細胞を溶解し、これにより、アナログ化酵素パネルライブラリーを創出するステップ
    を含む、請求項162に記載の方法。
  164. f)前記アナログ化酵素パネルライブラリー由来の個々の酵素を、前記標的天然物または前記標的天然物の前駆体と共にインキュベートし、これにより、反応混合物を産生するステップ
    を含む、請求項163に記載の方法。
  165. g)ステップ(f)の前記反応混合物のうち少なくとも1種を、前記標的天然物および/または前記標的天然物のアナログの存在について解析するステップ
    を含む、請求項164に記載の方法。
  166. h)前記アナログ化酵素パネルから酵素を選択するステップであって、ステップ(g)の前記解析によって決定される通り、前記選択された酵素が、前記標的天然物の所望のアナログを産生する、ステップ
    を含む、請求項165に記載の方法。
  167. ステップ(a)の前記訓練データセットに、
    i)ステップ(e)の前記微生物細胞において発現された前記配列のうち少なくとも1種、および
    ii)ステップ(h)において測定される通り、(i)の前記少なくとも1種の配列に対応する表現型性能測定値
    を加え、これにより、アップデートされた訓練データセットを創出するステップをさらに含む、請求項156および166のいずれか一項に記載の方法。
  168. ステップ(a)の前記訓練データセットに、
    i)ステップ(d/)の微生物株の前記アナログ化酵素パネルライブラリーにおいて発現された前記配列のうち少なくとも1種、および
    ii)ステップ(g)において測定される通り、(i)の前記少なくとも1種の配列に対応する表現型性能測定値
    を加え、これにより、アップデートされた訓練データセットを創出するステップをさらに含む、請求項157~158のいずれか一項に記載の方法。
  169. 前記表現型性能測定値が、存在した前記標的天然物の前記アナログの量を示す、請求項167または168に記載の方法。
  170. 最後から2番目のステップが、以前のステップの全てを、前記アップデートされた訓練データセットにより少なくとも1回反復するステップである、請求項167または168に記載の方法。
  171. 前記訓練データセットが、
    i)前記標的天然物のアナログ化のための前記ある型の反応を触媒することが経験的に示された、または
    ii)高度の信頼度で、他の機構により、前記標的天然物のアナログ化のための前記ある型の反応を触媒することが予測された、
    のいずれかであるタンパク質のアミノ酸配列を含む、請求項156~170のいずれか一項に記載の方法。
  172. 前記予測的機械学習モデルが、隠れマルコフモデル(HMM)である、請求項156~171のいずれか一項に記載の方法。
  173. 標的天然物のアナログを産生するための方法であって、
    a)前記標的天然物を産生することが公知である第1の多重遺伝子クラスターを提供するステップと、
    b)前記第1の多重遺伝子クラスターに基づき予測モデルを開発するステップと、
    c)in silicoで、デジタルメタゲノミクスライブラリーを新たな多重遺伝子クラスターについて問い合わせるステップであって、前記新たな多重遺伝子クラスターが、前記予測モデルによって、前記標的天然物または前記標的天然物のバリアントを産生することが予測され、これにより、候補多重遺伝子クラスターのプールを産生する、ステップと、
    d)in silicoで、アノテーションエンジンにより、ステップ(c)の前記候補多重遺伝子クラスターのプールの前記新たな多重遺伝子クラスターの1個または複数内の生合成酵素をコードする個々の遺伝子を同定し、これにより、前記新たな多重遺伝子クラスターから、生合成遺伝子を含むアナログ化酵素パネルライブラリーを産生するステップと、
    e)前記アナログ化酵素パネルライブラリー由来の遺伝子を発現するように基礎微生物宿主細胞のゲノムを撹乱するステップであって、前記基礎微生物宿主細胞が、前記第1の多重遺伝子クラスターを含む、ステップと、
    f)ステップ(e)において製造された前記微生物宿主細胞のうち少なくとも1個を培養するステップと、
    g)ステップ(f)の培養物由来の使用済み培地を、前記標的天然物および/または前記標的天然物のアナログについて解析するステップと、
    h)ステップ(f)において培養された前記微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(g)の前記解析によって決定される通り、前記選択された微生物宿主細胞が、前記標的天然物のアナログを産生し、これにより、前記標的天然物のアナログを産生する、ステップと
    を含む、方法。
  174. 標的天然物のアナログを産生するための方法であって、
    a)前記標的天然物を産生することが公知である第1の多重遺伝子クラスターを提供するステップと、
    b)前記第1の多重遺伝子クラスターに基づき予測モデルを開発するステップと、
    c)in silicoで、デジタルメタゲノミクスライブラリーを新たな多重遺伝子クラスターについて問い合わせるステップであって、前記新たな多重遺伝子クラスターが、前記予測モデルによって、前記標的天然物または前記標的天然物のバリアントを産生することが予測され、これにより、候補多重遺伝子クラスターのプールを産生する、ステップと、
    d)前記候補多重遺伝子クラスターのプール由来の少なくとも1種の多重遺伝子クラスターをそれぞれ発現するように、1個または複数の微生物宿主細胞を製造するステップと、
    e)ステップ(d)において製造された前記微生物宿主細胞のうち少なくとも1個を培養するステップと、
    f)ステップ(e)の培養物由来の使用済み培地を、前記標的天然物および/または前記標的天然物のアナログについて解析するステップと、
    g)ステップ(e)において培養された前記微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(f)の前記解析によって決定される通り、前記選択された微生物宿主細胞が、前記標的天然物のアナログを産生し、これにより、前記標的天然物のアナログを産生する、ステップと
    を含む、方法。
  175. h)ステップ(g)の前記選択された微生物宿主細胞内に含まれる前記候補多重遺伝子クラスター由来の遺伝子を発現するように基礎微生物宿主細胞のゲノムを撹乱するステップであって、前記基礎微生物宿主細胞が、前記第1の多重遺伝子クラスターを含み、これにより、改変された基礎宿主細胞を産生する、ステップ
    をさらに含む、請求項174に記載の方法。
  176. ステップ(h)が、前記第1の多重遺伝子クラスター由来の本来の遺伝子を、前記候補多重遺伝子クラスター由来の対応する遺伝子に置き換えるステップを含む、請求項175に記載の方法。
  177. ステップ(h)が、前記第1の多重遺伝子クラスター由来の本来の遺伝子をノックアウトするステップを含む、請求項175に記載の方法。
  178. 標的天然物のアナログを産生するための方法であって、
    a)前記標的天然物を産生することが公知の多重遺伝子クラスターを含む基礎微生物宿主細胞を提供するステップと、
    b)前記多重遺伝子クラスター内の1個または複数の遺伝子の発現を変異させるまたはノックアウトするように、前記基礎微生物宿主細胞のゲノムを撹乱し、これにより、変異された微生物宿主細胞のライブラリーを創出するステップと、
    c)前記変異された微生物宿主細胞のライブラリー由来の微生物宿主細胞を培養するステップと、
    d)ステップ(c)の培養物由来の使用済み培地を、前記標的天然物および/または前記標的天然物のアナログの存在について解析するステップと、
    e)ステップ(c)において培養された前記微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(d)の前記解析によって決定される通り、前記選択された微生物宿主細胞が、前記標的天然物のアナログを産生し、これにより、前記標的天然物のアナログを産生する、ステップと
    を含む、方法。
  179. 標的天然物のアナログを産生するための方法であって、
    a)前記標的天然物または関連天然物を産生することが公知のまたは予測される複数の多重遺伝子クラスターを提供するステップと、
    b)in silicoで、アノテーションエンジンにより、ステップ(a)の前記複数の多重遺伝子クラスター内の生合成酵素をコードする個々の遺伝子を同定し、これにより、前記複数の多重遺伝子クラスターから生合成遺伝子を含むアナログ化酵素パネルライブラリーを産生するステップと、
    c)前記アナログ化酵素パネルライブラリー由来の遺伝子を発現するように基礎微生物宿主細胞のゲノムを撹乱するステップであって、前記基礎微生物宿主細胞が、前記標的天然物を産生することができる第1の多重遺伝子クラスターを含み、これにより、微生物細胞を製造する、ステップと、
    d)ステップ(c)において製造された前記微生物宿主細胞のうち少なくとも1個を培養するステップと、
    e)ステップ(d)の培養物由来の使用済み培地またはライセートを、前記標的天然物および/または前記標的天然物のアナログについて解析するステップと、
    f)ステップ(d)において培養された前記微生物宿主細胞から微生物宿主細胞を選択するステップであって、ステップ(e)の前記解析によって決定される通り、前記選択された微生物宿主細胞が、前記標的天然物のアナログを産生し、これにより、前記標的天然物のアナログを産生する、ステップと
    を含む、方法。
  180. 前記デジタルメタゲノミクスライブラリーが、請求項220~144のいずれか一項に記載の方法に従って産生された、請求項145~179のいずれか一項に記載の方法。
  181. 公知の抵抗性遺伝子をコードしない候補多重遺伝子クラスター(MGC)を同定するためのin silico方法であって、
    a)公知のまたは予測されるMGCの配列を提供するステップと、
    b)長いアセンブリーデジタルメタゲノムライブラリー内の天然物多重遺伝子クラスター特色セットをコンピューターにより予測し、複数のシグナル関連の多重遺伝子クラスターデジタル特色セットとして前記予測の出力を供給するステップと、
    c)ステップ(b)の前記複数のシグナル関連の多重遺伝子クラスターデジタル特色セットの中から候補MGCを選択するステップであって、前記候補MGCが、
    i)前記公知のまたは予測されるMGCおよび前記候補MGC内の1、2、3、4、5、6、7または8種の生合成酵素の配列相同性、
    ii)前記公知のまたは予測されるMGCおよび前記候補MGC内の同数の各型の生合成モジュール、ならびに
    iii)前記公知の/予測されるMGCおよび前記候補MGCによって産生される天然物の予測される化学構造の類似性
    からなる群より選択される少なくとも1種の類似性因子を含み、これにより、公知の抵抗性遺伝子をコードしない前記候補MGCを同定する、ステップと
    を含む、方法。
  182. 前記公知のまたは予測されるMGCが、推定上の抵抗性遺伝子を含む、請求項181に記載の方法。
  183. ステップ(c)(i)の前記類似性因子が、公知のまたは予測されるMGCの生合成酵素のうち少なくとも1種との、前記候補MGCにおける生合成酵素の、少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%または100%の配列相同性を含む、請求項181~182のいずれか一項に記載の方法。
  184. 前記生合成酵素の相同性が、配列同一性により決定される、請求項181~183のいずれか一項に記載の方法。
  185. 前記公知のまたは予測されるMGC内の生合成酵素と少なくとも80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%の配列同一性を示す場合、前記候補MGCにおける生合成酵素が、ホモログである、請求項184に記載の方法。
  186. 前記生合成酵素の相同性が、HMMツールにより決定される、請求項181~183のいずれか一項に記載の方法。
  187. その候補ビットスコアの最良のマッチのビットスコアに対する比が、0.6、0.7、0.8または0.9を超える場合、前記候補MGCにおける生合成酵素が、ホモログである、請求項186に記載の方法。
  188. 前記生合成酵素が、コア生合成酵素である、請求項181~187のいずれか一項に記載の方法。
  189. 前記候補MGCおよび前記公知のまたは予測されるMGCにおける前記予測される化学構造の類似性が、Tanimoto係数によって決定される、請求項181~188のいずれか一項に記載の方法。
  190. 少なくとも0.7、0.8、0.9または0.95のTanimoto係数を示す場合、候補MGCの予測される化学構造が、公知のまたは予測されるMGCの公知のまたは予測される化学構造と同様である、請求項189に記載の方法。
  191. 前記推定上の抵抗性遺伝子が、前記予測されるMGC内に位置し、前記天然物の合成に関与しない、請求項181~190のいずれか一項に記載の方法。
  192. 長いアセンブリーデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kbまたは40kbのN50長を含む、請求項181~191のいずれか一項に記載の方法。
  193. 前記デジタルメタゲノミクスライブラリーが、少なくとも約50Mb、75Mb、100Mb、200Mb、300Mb、400Mb、500Mb、600Mb、700Mb、800Mb、900Mb、1000Mb、1100Mb、1200Mb、1300Mbまたは1400Mbのサイズである、請求項181~192のいずれか一項に記載の方法。
  194. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を含み、前記デジタルメタゲノミクスライブラリーが、少なくとも約500MBのサイズである、請求項181~191のいずれか一項に記載の方法。
  195. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記デジタルメタゲノミクスライブラリーが、少なくとも約1TBのサイズである、請求項181~191のいずれか一項に記載の方法。
  196. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされた配列を含み、前記デジタルメタゲノミクスライブラリーが、約500MB~約1TBのサイズである、請求項181~191のいずれか一項に記載の方法。
  197. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記アセンブルされた配列の大部分が、無培養微小生物に由来する、請求項181~191のいずれか一項に記載の方法。
  198. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記配列の実質的に全てが、無培養微小生物に由来する、請求項181~191のいずれか一項に記載の方法。
  199. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記配列の大部分が、無培養微小生物に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミド、フォスミド、BAC、YACまたはそれらの組合せの、ライブラリーに配置されている、請求項181~191のいずれか一項に記載の方法。
  200. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記配列の大部分が、無培養微小生物に由来し、前記無培養微小生物の少なくとも一部が、土壌試料に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミドライブラリーに配置されている、請求項181~191のいずれか一項に記載の方法。
  201. d)宿主細胞を製造するステップであって、前記製造された宿主細胞が、ステップ(c)において同定された前記候補MGC、またはそのリファクタリングされたバージョンを含む、ステップ
    を含む、請求項181~200のいずれか一項に記載の方法。
  202. e)ステップ(d)の前記製造された宿主細胞を培養するステップ
    を含む、請求項201に記載の方法。
  203. f)ステップ(e)の培養物由来のライセートおよび/または使用済み培養物を、天然物の存在について解析するステップであって、前記天然物が、前記製造された宿主細胞中に存在する前記候補MGC配列を欠く対照宿主細胞の培養物中には存在しない、ステップ
    を含む、請求項202に記載の方法。
  204. 候補多重遺伝子クラスター(MGC)を同定するためのin silico方法であって、
    a)公知のまたは予測されるMGCのコア生合成酵素を同定するステップと、
    b)長いアセンブリーデジタルメタゲノミクスライブラリーを、(a)において同定された前記コア生合成酵素のそれぞれのホモログについて問い合わせるステップであって、前記デジタルメタゲノミクスライブラリーが、デジタル処理でアセンブルされたコンティグを含む、ステップと、
    c)前記デジタルメタゲノミクスライブラリーの単一のコンティグ内の前記コア生合成酵素のホモログの存在に基づき新たなMGCを同定するステップと
    を含む、方法。
  205. 前記公知のまたは予測されるMGCの前記コア生合成酵素のうち少なくとも1種と少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%または100%の配列相同性を示す場合、前記デジタルメタゲノミクスライブラリーにおいてコードされる酵素が、ホモログとみなされる、請求項204に記載の方法。
  206. 前記コア生合成酵素の相同性が、配列同一性により決定される、請求項204~205のいずれか一項に記載の方法。
  207. 前記公知のまたは予測されるMGC内の生合成酵素と少なくとも80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%の配列同一性を示す場合、前記新たなMGCにおける遺伝子が、ホモログである、請求項206に記載の方法。
  208. 前記生合成酵素の相同性が、HMMツールにより決定される、請求項204に記載の方法。
  209. そのコア生合成ビットスコアの最良のマッチのビットスコアに対する比が、0.6、0.7、0.8または0.9を超える場合、前記デジタルメタゲノミクスライブラリーにおける酵素が、ホモログである、請求項208に記載の方法。
  210. 前記長いアセンブリーデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kb、20kb、25kb、30kb、35kbまたは40kbのN50長を含む、請求項204~209のいずれか一項に記載の方法。
  211. 前記デジタルメタゲノミクスライブラリーが、少なくとも約50Mb、75Mb、100Mb、200Mb、300Mb、400Mb、500Mb、600Mb、700Mb、800Mb、900Mb、1000Mb、1100Mb、1200Mb、1300Mbまたは1400Mbのサイズである、請求項204~210のいずれか一項に記載の方法。
  212. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を含み、前記デジタルメタゲノミクスライブラリーが、少なくとも約500MBのサイズである、請求項204~209のいずれか一項に記載の方法。
  213. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記デジタルメタゲノミクスライブラリーが、少なくとも約1TBのサイズである、請求項204~209のいずれか一項に記載の方法。
  214. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされた配列を含み、前記デジタルメタゲノミクスライブラリーが、約500MB~約1TBのサイズである、請求項204~209のいずれか一項に記載の方法。
  215. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記アセンブルされた配列の大部分が、無培養微小生物に由来する、請求項204~209のいずれか一項に記載の方法。
  216. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記配列の実質的に全てが、無培養微小生物に由来する、請求項204~209のいずれか一項に記載の方法。
  217. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記配列の大部分が、無培養微小生物に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミド、フォスミド、BAC、YACまたはそれらの組合せの、ライブラリーに配置されている、請求項204~209のいずれか一項に記載の方法。
  218. 多重遺伝子クラスター特色セットデジタルメタゲノミクスライブラリーが、少なくとも約10kb、15kbまたは20kbのN50長を有する配列決定され、かつデジタル処理でアセンブルされたコンティグ配列を含み、前記ライブラリーにおける前記配列の大部分が、無培養微小生物に由来し、前記無培養微小生物の少なくとも一部が、土壌試料に由来し、前記デジタル処理でアセンブルされたコンティグ配列の物理的コピーが、対応する物理的コスミドライブラリーに配置されている、請求項204~209のいずれか一項に記載の方法。
  219. d)1個または複数の宿主細胞を製造するステップであって、各製造された宿主細胞が、ステップ(c)において同定された前記新たなMGCを含む、ステップ
    を含む、請求項204~218のいずれか一項に記載の方法。
  220. e)ステップ(d)の前記製造された宿主細胞を培養するステップ
    を含む、請求項219に記載の方法。
  221. f)ステップ(e)の培養物由来のライセートおよび/または使用済み培養物を、天然物の存在について解析するステップであって、前記天然物が、前記製造された宿主細胞中に存在する前記新たなMGC配列を欠く対照宿主細胞の培養物中には存在しない、ステップ
    を含む、請求項220に記載の方法。
  222. 前記デジタルメタゲノミクスライブラリーが、請求項110~144のいずれか一項に記載の方法に従って産生された、請求項181~221のいずれか一項に記載の方法。
JP2022548659A 2020-02-13 2021-02-12 メタゲノムライブラリーおよび天然物発見プラットフォーム Pending JP2023513314A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202062976194P 2020-02-13 2020-02-13
US202062976198P 2020-02-13 2020-02-13
US202062976201P 2020-02-13 2020-02-13
US62/976,198 2020-02-13
US62/976,194 2020-02-13
US62/976,201 2020-02-13
PCT/US2021/018050 WO2021163637A1 (en) 2020-02-13 2021-02-12 Metagenomic library and natural product discovery platform

Publications (1)

Publication Number Publication Date
JP2023513314A true JP2023513314A (ja) 2023-03-30

Family

ID=77273721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022548659A Pending JP2023513314A (ja) 2020-02-13 2021-02-12 メタゲノムライブラリーおよび天然物発見プラットフォーム

Country Status (6)

Country Link
US (3) US11189362B2 (ja)
EP (1) EP4103580A4 (ja)
JP (1) JP2023513314A (ja)
CN (1) CN115349128A (ja)
IL (1) IL294909A (ja)
WO (1) WO2021163637A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL294909A (en) 2020-02-13 2022-09-01 Zymergen Inc A metagenomic library and natural product discovery platform
WO2023234965A2 (en) * 2021-12-06 2023-12-07 Carnegie Mellon University Method and system to identify natural products from mass spectrometry and genomics data
CN116738081B (zh) * 2023-08-08 2023-10-27 贵州优特云科技有限公司 一种前端组件绑定方法、装置及存储介质

Family Cites Families (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2036946C (en) 1990-04-06 2001-10-16 Kenneth V. Deugau Indexing linkers
US5605793A (en) * 1994-02-17 1997-02-25 Affymax Technologies N.V. Methods for in vitro recombination
US5714330A (en) 1994-04-04 1998-02-03 Lynx Therapeutics, Inc. DNA sequencing by stepwise ligation and cleavage
US6090592A (en) 1994-08-03 2000-07-18 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid on supports
CA2195562A1 (en) 1994-08-19 1996-02-29 Pe Corporation (Ny) Coupled amplification and ligation method
US5695934A (en) 1994-10-13 1997-12-09 Lynx Therapeutics, Inc. Massively parallel sequencing of sorted polynucleotides
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
EP0851938A1 (en) 1995-09-22 1998-07-08 Terragen Diversity Inc. Method for isolating xylanase gene sequences from soil dna, compositions useful in such method and compositions obtained thereby
WO1998015644A2 (en) 1996-09-27 1998-04-16 The Chinese University Of Hong Kong Parallel polynucleotide sequencing method
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
EP2327797B1 (en) 1997-04-01 2015-11-25 Illumina Cambridge Limited Method of nucleic acid sequencing
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6511803B1 (en) 1997-10-10 2003-01-28 President And Fellows Of Harvard College Replica amplification of nucleic acid arrays
US6485944B1 (en) 1997-10-10 2002-11-26 President And Fellows Of Harvard College Replica amplification of nucleic acid arrays
CA2305449A1 (en) 1997-10-10 1999-04-22 President & Fellows Of Harvard College Replica amplification of nucleic acid arrays
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
EP1190092A2 (en) 1999-04-06 2002-03-27 Yale University Fixed address analysis of sequence tags
US6300070B1 (en) 1999-06-04 2001-10-09 Mosaic Technologies, Inc. Solid phase methods for amplifying multiple nucleic acids
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
GB0006153D0 (en) * 2000-03-14 2000-05-03 Inpharmatica Ltd Database
US7747391B2 (en) * 2002-03-01 2010-06-29 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
JP2005526518A (ja) * 2002-05-20 2005-09-08 アブマクシス,インコーポレイティド タンパク質ライブラリーのinsilico作成と選択
JP4480715B2 (ja) 2003-01-29 2010-06-16 454 コーポレーション 二重末端シーケンシング
WO2004109447A2 (en) * 2003-05-30 2004-12-16 Rosetta Inpharmatics Llc Computer systems and methods for identifying surrogate markers
GB0422551D0 (en) 2004-10-11 2004-11-10 Univ Liverpool Labelling and sequencing of nucleic acids
EP2239342A3 (en) 2005-02-01 2010-11-03 AB Advanced Genetic Analysis Corporation Reagents, methods and libraries for bead-based sequencing
US20070020640A1 (en) 2005-07-21 2007-01-25 Mccloskey Megan L Molecular encoding of nucleic acid templates for PCR and other forms of sequence analysis
KR100823684B1 (ko) 2006-12-06 2008-04-21 한국전자통신연구원 바코드 dna를 이용한 생물학적 표적 물질의 검출 방법
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP2092322B1 (en) 2006-12-14 2016-02-17 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale fet arrays
CA2697640C (en) 2007-09-21 2016-06-21 Katholieke Universiteit Leuven Tools and methods for genetic tests using next generation sequencing
US8268564B2 (en) 2007-09-26 2012-09-18 President And Fellows Of Harvard College Methods and applications for stitched DNA barcodes
US8478544B2 (en) 2007-11-21 2013-07-02 Cosmosid Inc. Direct identification and measurement of relative populations of microorganisms with direct DNA sequencing and probabilistic methods
EP2329018B1 (en) 2008-04-25 2014-09-10 GenQuad AG Method for the annotation of natural product gene-clusters and for the generation of novel biologically active chemical entities from dna sequences in silico
US8383345B2 (en) 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
US20100301398A1 (en) 2009-05-29 2010-12-02 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
DK2414547T3 (da) 2009-04-02 2014-06-16 Fluidigm Corp Multiprimer-amplifikationsmetode til stregkodning af målnukleinsyrer
US8574835B2 (en) 2009-05-29 2013-11-05 Life Technologies Corporation Scaffolded nucleic acid polymer particles and methods of making and using
DK2977455T3 (da) 2009-06-15 2020-07-13 Complete Genomics Inc Fremgangsmåde til langfragmentaflæsnings-sekventering
US8481699B2 (en) 2009-07-14 2013-07-09 Academia Sinica Multiplex barcoded Paired-End ditag (mbPED) library construction for ultra high throughput sequencing
US20110257031A1 (en) 2010-02-12 2011-10-20 Life Technologies Corporation Nucleic acid, biomolecule and polymer identifier codes
US9255291B2 (en) 2010-05-06 2016-02-09 Bioo Scientific Corporation Oligonucleotide ligation methods for improving data quality and throughput using massively parallel sequencing
EP2670894B1 (en) 2011-02-02 2017-11-29 University Of Washington Through Its Center For Commercialization Massively parallel continguity mapping
US9129039B2 (en) * 2011-10-18 2015-09-08 Ut-Battelle, Llc Scenario driven data modelling: a method for integrating diverse sources of data and data streams
US9238836B2 (en) 2012-03-30 2016-01-19 Pacific Biosciences Of California, Inc. Methods and compositions for sequencing modified nucleic acids
EP2626802B1 (en) 2012-02-10 2016-11-16 Tata Consultancy Services Limited Assembly of metagenomic sequences
ES2887177T3 (es) 2013-03-13 2021-12-22 Illumina Inc Método de preparación de una biblioteca de secuenciación de ácidos nucleicos
US9328382B2 (en) 2013-03-15 2016-05-03 Complete Genomics, Inc. Multiple tagging of individual long DNA fragments
US10726942B2 (en) 2013-08-23 2020-07-28 Complete Genomics, Inc. Long fragment de novo assembly using short reads
US20170009288A1 (en) 2014-02-03 2017-01-12 Thermo Fisher Scientific Baltics Uab Method for controlled dna fragmentation
DK3161152T3 (en) 2014-06-30 2019-03-25 Illumina Inc Methods and compositions using one-sided transposition
CA2956925C (en) 2014-08-01 2024-02-13 Dovetail Genomics, Llc Tagging nucleic acids for sequence assembly
US20180044668A1 (en) 2014-10-14 2018-02-15 Bgi Shenzhen Co., Limited Mate pair library construction
DK3207134T3 (da) 2014-10-17 2019-09-23 Illumina Cambridge Ltd Kontiguitetsbevarende transposition
ES2947757T3 (es) 2014-11-05 2023-08-18 Illumina Inc Composiciones de transposasas para reducir el sesgo de inserción
WO2016134034A1 (en) 2015-02-17 2016-08-25 Dovetail Genomics Llc Nucleic acid sequence assembly
US11807896B2 (en) 2015-03-26 2023-11-07 Dovetail Genomics, Llc Physical linkage preservation in DNA storage
US10674732B2 (en) * 2015-04-29 2020-06-09 The State Of Israel, Ministry Of Agriculture & Rural Development Agricultural Research Organization Anti-phytopathogenic compositions
AU2016341198B2 (en) 2015-10-19 2023-03-09 Dovetail Genomics, Llc Methods for genome assembly, haplotype phasing, and target independent nucleic acid detection
US9988624B2 (en) * 2015-12-07 2018-06-05 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
US11842798B2 (en) 2015-12-14 2023-12-12 Adapsyn Bioscience Inc. Natural product and genetic data analysis and discovery system, method and computational platform therefor
US10975417B2 (en) 2016-02-23 2021-04-13 Dovetail Genomics, Llc Generation of phased read-sets for genome assembly and haplotype phasing
CA3020594A1 (en) 2016-04-12 2017-10-19 Warp Drive Bio, Inc. Compositions and methods for the production of compounds
US20200306337A1 (en) 2016-05-09 2020-10-01 The Rockefeller University Bioactive Metabolities Encoded by the Human Microbiome Using Primary Sequence Alone
JP7497976B2 (ja) 2016-05-13 2024-06-11 ダブテイル ゲノミクス エルエルシー 保存されたサンプルからの長距離連鎖情報の回復
CN106995813B (zh) * 2017-03-23 2020-06-16 山东大学 基因组大片段直接克隆和dna多分子组装新技术
US20210371918A1 (en) 2017-04-18 2021-12-02 Dovetail Genomics, Llc Nucleic acid characteristics as guides for sequence assembly
EP3630794A4 (en) 2017-05-27 2021-03-03 The Rockefeller University MALACIDINS AND METHODS OF USE
SG11201912798VA (en) 2017-06-20 2020-01-30 Ubiome Inc Method and system for library preparation with unique molecular identifiers
WO2019005913A1 (en) 2017-06-28 2019-01-03 Icahn School Of Medicine At Mount Sinai METHODS OF HIGH RESOLUTION MICROBIOME ANALYSIS
WO2019055816A1 (en) 2017-09-14 2019-03-21 Lifemine Therapeutics, Inc. HUMAN THERAPEUTIC TARGETS AND MODULATORS THEREFOR
CN111566227A (zh) 2017-11-09 2020-08-21 多弗泰尔基因组学有限责任公司 结构变体分析
WO2019147753A1 (en) 2018-01-24 2019-08-01 The Rockefeller University Antibacterial compounds, compositions thereof, and methods using same
WO2019152543A1 (en) 2018-01-31 2019-08-08 Dovetail Genomics, Llc Sample prep for dna linkage recovery
US10817732B2 (en) 2018-12-20 2020-10-27 Trimble Inc. Automated assessment of collision risk based on computer vision
WO2020157684A1 (en) 2019-01-29 2020-08-06 Mgi Tech Co., Ltd. High coverage stlfr
AU2020220461A1 (en) 2019-02-14 2021-08-05 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Haplotagging - haplotype phasing and single-tube combinatorial barcoding of nucleic acid molecules using bead-immobilized Tn5 transposase
IL294909A (en) 2020-02-13 2022-09-01 Zymergen Inc A metagenomic library and natural product discovery platform
US20210256394A1 (en) 2020-02-14 2021-08-19 Zymergen Inc. Methods and systems for the optimization of a biosynthetic pathway

Also Published As

Publication number Publication date
WO2021163637A1 (en) 2021-08-19
US20230187027A1 (en) 2023-06-15
CN115349128A (zh) 2022-11-15
US20220005550A1 (en) 2022-01-06
EP4103580A4 (en) 2024-03-06
US11495326B2 (en) 2022-11-08
EP4103580A1 (en) 2022-12-21
US11189362B2 (en) 2021-11-30
US20210257056A1 (en) 2021-08-19
IL294909A (en) 2022-09-01

Similar Documents

Publication Publication Date Title
Robinson et al. A roadmap for metagenomic enzyme discovery
US11495326B2 (en) Metagenomic library and natural product discovery platform
US20210256394A1 (en) Methods and systems for the optimization of a biosynthetic pathway
Charlop-Powers et al. Metagenomic small molecule discovery methods
MacLean et al. Application of'next-generation'sequencing technologies to microbial genetics
Pfeifer-Sancar et al. Comprehensive analysis of the Corynebacterium glutamicum transcriptome using an improved RNAseq technique
Xu et al. The genome of Spironucleus salmonicida highlights a fish pathogen adapted to fluctuating environments
KR20200026874A (ko) 대장균 개량을 위한 htp 게놈 공학 플랫폼
Molina‐Santiago et al. Global transcriptional response of solvent‐sensitive and solvent‐tolerant Pseudomonas putida strains exposed to toluene
CN111052250A (zh) 高分辨率的微生物分析方法
Kuo et al. Fungal genomics: sequencing and annotation
Schmidt-Dannert NextGen microbial natural products discovery
Méndez-García et al. Metagenomic protocols and strategies
WO2021158989A1 (en) Methods and apparatus for efficient and accurate assembly of long-read genomic sequences
Grünberger et al. Next generation DNA-Seq and differential RNA-Seq allow re-annotation of the Pyrococcus furiosus DSM 3638 genome and provide insights into archaeal antisense transcription
Ding et al. Expanding our understanding of marine viral diversity through metagenomic analyses of biofilms
Negri et al. A rapid and efficient strategy to identify and recover biosynthetic gene clusters from soil metagenomes
Schwientek et al. Improving the genome annotation of the acarbose producer Actinoplanes sp. SE50/110 by sequencing enriched 5′-ends of primary transcripts
US20240013862A1 (en) Methods to identify novel insecticidal proteins from complex metagenomic microbial samples
Tettelin et al. Bacterial genome sequencing
Henikoff et al. In situ tools for chromatin structural epigenomics
El-Gawahergy et al. Mining for NRPS and PKS Genes in Actinobacteria Using Whole-Genome Sequencing and Bioinformatic Tools
Singh et al. Metagenomics and drug-discovery
Eustáquio et al. Identification of natural product biosynthetic gene clusters from bacterial genomic data
Rosenzweig et al. Present and future outlooks on environmental DNA-based methods for antibiotic discovery