JP7277378B2

JP7277378B2 - 化合物を同定するための方法

Info

Publication number: JP7277378B2
Application number: JP2019556665A
Authority: JP
Inventors: エリックアランシーゲル，; リングシュエ，; クリストファージェイムズミュレーン，; デニスジョセフモッチャ，
Original assignee: エックス－ケムインコーポレイテッド
Priority date: 2017-04-18
Filing date: 2018-04-18
Publication date: 2023-05-18
Anticipated expiration: 2038-04-18
Also published as: EP3612545A4; AU2023206117A1; AU2018256367A1; EA201992476A1; MA51864A; JP2020518898A; EP3612545A1; US20200143903A1; WO2018195134A1; CN110730822B; BR112019021786A2; JP2023113620A; CN110730822A

Description

背景技術
バーチャルスクリーニング法は、所与の標的に利用可能なスクリーニング選択肢を拡大することが可能であり、最適化の成功の可能性を増大させうる。バーチャルスクリーニングは、最適化のための出発点として使用される、複数の足場を同定するための、迅速かつ廉価な方法でありうる。バーチャルスクリーニングは一般に、バーチャルデータをもたらすのに、公知の実験データとの比較に依拠するので、使用される、実験により決定されたデータセットのサイズにより、能力が限定される。したがって、従来のハイスループットスクリーニング法を置きかえるために、コンピュータによる予測において十分な信頼度をもたらすように、ロバストなコンピュータ法を極めて大規模なデータセットと組み合わせた方法が必要とされている。

本開示は、治療剤として有用な化合物、および／または治療剤の開発における最適化のための出発点として有用な化合物を同定するための方法を提供する。これらの方法は、化合物とタンパク質との結合を、ヌクレオチドコード化ライブラリー（例えば、ＤＮＡコード化ライブラリー）を使用して導出された、実験データの大規模なデータセットにより予測するために有用なコンピュータ法を組み合わせる。ヌクレオチドコード化ライブラリーにより生成されたデータと、コンピュータ法との組合せは、候補化合物と、目的のタンパク質との結合相互作用についての、高信頼度の予測を可能とする。

したがって、一態様では、本開示は、（ａ）候補化合物（例えば、低分子化合物）のセットを表現するフィジカルコンピューティングデバイス内で、標的タンパク質についての、複数の結合相互作用知見（例えば、少なくとも２５０，０００の知見）を提供する工程であって、複数の結合相互作用知見のうちの少なくとも５０％（例えば、少なくとも６０％、少なくとも７０％、少なくとも８０％、少なくとも９０％、少なくとも９５％、少なくとも９９％）が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含む化合物との結合相互作用（例えば、ＤＮＡコード化ライブラリーのメンバー）を表現する工程と；（ｂ）複数の結合相互作用知見を使用して、候補化合物について推定される結合相互作用を生成するのにコンピューティングデバイスを使用する工程と；（ｃ）最大推定結合相互作用により表示しランク付けすることが可能な候補化合物リストについての出力を得る工程とを含む方法を提供する。

一部の実施形態では、複数の結合相互作用知見は、少なくとも２５０，０００（例えば、少なくとも５００，０００、少なくとも１００万、少なくとも２００万、少なくとも５００万、少なくとも１０００万、少なくとも２５００万）の結合相互作用知見を含む。

一部の実施形態では、複数（例えば、少なくとも２５０，０００、少なくとも５００，０００、少なくとも１００万、少なくとも２００万、少なくとも５００万、少なくとも１０００万）個の化合物の識別をコード化するヌクレオチドタグを含む化合物を、標的タンパク質と、同時に（例えば同じ反応器内で、同時に）接触させることにより、複数の結合相互作用知見のうちの少なくとも５０％が決定された。例えば、一部の実施形態では、推定される結合相互作用を生成するのに利用される、ＤＮＡコード化ライブラリーメンバーについての、結合相互作用知見のうちの、少なくとも５０％を、単一の実験において、単一の反応器内で決定した。

一部の実施形態では、方法は、１つまたは１つより多いさらなる標的タンパク質について、１つまたは１つより多いさらなる複数の結合相互作用知見を提供することをさらに含み、この場合、１つまたは１つより多いさらなる複数の結合相互作用知見のうちの少なくとも５０％は、さらなる標的タンパク質と、工程（ａ）の標的タンパク質との複数の結合相互作用知見からの化合物との結合相互作用を表現する。一部の実施形態では、方法は、１つまたは１つより多いネガティブコントロール実験について、１つまたは１つより多いさらなる複数の結合相互作用知見を提供することをさらに含み、この場合、複数の結合相互作用知見のうちの少なくとも５０％は、標的タンパク質との、工程（ａ）の複数の結合相互作用知見からの化合物のネガティブコントロールを表現する。一部の実施形態では、方法は、１つまたは１つより多いコントロール実験について、１つまたは１つより多いさらなる複数の結合相互作用知見を提供することをさらに含み、この場合、複数の結合相互作用知見は、化合物についての、工程（ａ）の標的タンパク質（例えば、公知の阻害剤または天然リガンド）との、既知の結合相互作用を伴う、結合相互作用知見を含む。一部の実施形態では、方法は、化合物または候補化合物の、標的タンパク質への結合、または推定される結合を、化合物または候補化合物の、１つまたは１つより多いさらなる標的タンパク質および／またはネガティブコントロールへの結合、または推定される結合と比較することにより、選択性スコアを生成することを含む。一部の実施形態では、候補化合物リストは、選択性スコアにより表示しランク付けすることが可能である。一部の実施形態では、１つまたは１つより多いさらなる標的タンパク質は、標的タンパク質の突然変異体を含む。

一部の実施形態では、化学構造比較を使用して、例えば、分子表現を利用して、推定される結合相互作用を生成する。分子表現は、原子、特徴、または官能基、およびそれらの接続性（例えば、フィンガープリント、接続表、分子接続性、および／または分子グラフ表現）に基づくトポロジカル表現、静電表現（例えば、表面電子情報）、幾何学表現（例えば、ファーマコフォア、ファーマコフォアフィンガープリント、形状ベースのフィンガープリント、および／または原子、特徴、もしくは官能基を使用する３Ｄ分子座標）、または量子化学表現を含むがこれらに限定されない。一部の実施形態では、原子、特徴、または官能基、およびそれらの接続性（例えば、フィンガープリント、接続表、分子接続性、および／または分子グラフ表現）に基づくトポロジカル表現を使用して、推定される結合相互作用を生成する。一部の実施形態では、静電表現（例えば、表面電子情報）を使用して、推定される結合相互作用を生成する。一部の実施形態では、幾何学表現（例えば、ファーマコフォア、ファーマコフォアフィンガープリント、形状ベースのフィンガープリント、および／または原子、特徴、もしくは官能基を使用する３Ｄ分子座標）を使用して、推定される結合相互作用を生成する。一部の実施形態では、量子化学表現を使用して、推定される結合相互作用を生成する。一部の実施形態では、化学フィンガープリントを使用して、推定される結合相互作用を生成する。

化学フィンガープリントを使用して、化合物についての構造情報と、結合相互作用データとを集約して、標的タンパク質への結合を示す構造パターンを同定することができる。したがって、一部の実施形態では、方法は、（ｉ）複数の化合物についての、複数の化学フィンガープリント（例えば、ビット数が変動する（例えば、１６６、５１２、１０２４）、ＥＣＦＰ６、ＦＣＦＰ６、ＥＣＦＰ４、ＭＡＣＣＳ、またはＭｏｒｇａｎ／ＣｉｒｃｕｌａｒＦｉｎｇｅｒｐｒｉｎｔｓなどの化学フィンガープリント）を提供すること；および（ｉｉ）推定される結合相互作用の生成において、複数の化学フィンガープリントを利用することをさらに含む。一部の実施形態では、例えば、トレーニングセット内で、複数の化学フィンガープリントは、化合物の識別をコード化するヌクレオチドタグを含む化合物のうちの１つまたは１つより多いものについての化学フィンガープリントを含む、例えば、化学フィンガープリントは、ヌクレオチドタグを伴わない、化合物の構造の表現である。一部の実施形態では、例えば、予測セット内で、複数の化学フィンガープリントは、候補化合物のうちの１つまたは１つより多くについての化学フィンガープリントを含む。一部の実施形態では、化学フィンガープリントは、ＥＣＦＰ６フィンガープリントである。

一部の実施形態では、方法は、候補化合物のセットについて、１つまたは１つより多い特性知見（例えば、分子量および／またはｃｌｏｇＰ）を提供することをさらに含む。一部の実施形態では、１つまたは１つより多い特性知見を利用して、推定される結合相互作用を生成する。一部の実施形態では、候補化合物リストは、１つまたは１つより多い特性知見により表示しランク付けすることが可能である。

一部の実施形態では、方法は、インターネットを介して、またはディスプレイデバイスへと、候補化合物リストを送信することをさらに含む。一部の実施形態では、フィジカルコンピューティングデバイスは、インターネットを介してアクセスおよび操作される。

一部の実施形態では、方法は、候補化合物について推定される結合相互作用の各々の信頼性スコアを生成することをさらに含み、この場合、信頼性スコアは、候補化合物と、工程（ａ）の標的タンパク質についての複数の結合相互作用からの１つまたは１つより多い化合物との化学構造比較（例えば、主成分分析）を使用して、生成される。例えば、一部の実施形態では、信頼性スコアは、候補化合物の、化学空間への距離、例えば主成分分析により規定される次元内のユークリッド距離を決定することにより、候補化合物を、工程（ａ）の複数の結合相互作用からの化合物により規定される化学空間と比較することによって生成される。一部の実施形態では、候補化合物リストは、候補化合物について推定される結合相互作用の信頼性スコアにより表示しランク付けすることが可能である。

一部の実施形態では、方法は、（ｄ）候補化合物のうちの１つまたは１つより多くを、候補化合物リストから合成することをさらに含む。

一部の実施形態では、方法は、（ｅ）１つまたは１つより多い、合成された候補化合物を、標的タンパク質と接触させて、１つまたは１つより多い実験結合相互作用を決定することをさらに含む。

ある態様では、本開示は、
（ａ）候補化合物のセットを表現するフィジカルコンピューティングデバイス内で、標的タンパク質についての、複数の結合相互作用知見を提供する工程であって、
複数の結合相互作用知見のうちの少なくとも９０％が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含む化合物との結合相互作用を表現する
工程と；
（ｂ）複数の結合相互作用知見を使用して、候補化合物について推定される結合相互作用を生成するのにコンピューティングデバイスを使用する工程と；
（ｃ）最大推定結合相互作用により表示しランク付けすることが可能な候補化合物リストについての出力を得る工程と
を含む方法を実装するように、フィジカルコンピューティングデバイスを方向付けるための、実行可能な命令をその上に記憶させた、コンピュータ可読媒体を提供する。

ある態様では、本開示は、候補化合物のセットの表現を有するフィジカルコンピューティングデバイスであって、
（ａ）候補化合物のセットを表現するフィジカルコンピューティングデバイス内で、標的タンパク質についての、複数の結合相互作用知見を提供する工程であって、
複数の結合相互作用知見のうちの少なくとも９０％が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含む化合物との結合相互作用を表現する
工程と；
（ｂ）複数の結合相互作用知見を使用して、候補化合物について推定される結合相互作用を生成するのにコンピューティングデバイスを使用する工程と；
（ｃ）最大推定結合相互作用により表示しランク付けすることが可能な候補化合物リストについての出力を得る工程と
を含む方法を実装するように、デバイスを方向付けるための、実行可能な命令によりプログラムされたフィジカルコンピューティングデバイスを提供する。

定義
本明細書で使用される「信頼性スコア」とは、候補化合物と、推定値を作成するのに利用されるデータセット内の１つまたは１つより多い化合物との構造的類似性に基づき、候補化合物について推定される結合相互作用の信頼度を指し示す計算を指す。

本明細書で使用される「結合相互作用」という用語は、２つまたは２つより多い実体の間の会合（例えば、非共有結合的会合または共有結合的会合）を指す。「直接的」結合は、実体または部分の間の物理的接触を伴い；間接的結合は、１つまたは１つより多い介在実体との物理的接触を介する、物理的相互作用を伴う。２つまたは２つより多い実体の間の結合は、典型的に、様々な文脈であって、相互作用する実体または部分を、単離して、またはより複雑な系の文脈において（例えば、共有結合的に、または他の形で、担体実体と会合する場合に、かつ／または生物学的系もしくは細胞において）研究する場合を含む文脈のうちのいずれかにおいて評価することができる。

分子Ｘの、そのパートナーＹに対するアフィニティーは、一般に、解離定数（Ｋ_Ｄ）により表すことができる。アフィニティーは、当該技術分野で公知の、一般的な方法であって、本明細書で記載される方法を含む方法により測定することができる。本明細書で使用される「Ｋ_Ｄ」という用語は、特定の化合物－タンパク質間相互作用または複合体－タンパク質間相互作用についての解離平衡定数を指すことを意図する。典型的に、本発明の化合物は、例えば、被分析物としてのプレゼンタータンパク質と、リガンドとしての化合物とを使用する、表面プラズモン共鳴（ＳＰＲ）技術により決定する場合、約１０^－７Ｍ、１０^－８Ｍ、１０^－９Ｍ、もしくは１０^－１０未満、なおまたはこれを下回るＫ_Ｄなど、約１０^－６Ｍ未満の解離平衡定数（Ｋ_Ｄ）で、プレゼンタータンパク質に結合する。一部の実施形態では、本発明の化合物は、例えば、被分析物としての標的タンパク質と、リガンドとしての化合物とを使用する、表面プラズモン共鳴（ＳＰＲ）技術により決定する場合、約１０^－７Ｍ、１０^－８Ｍ、１０^－９Ｍ、もしくは１０^－１０未満、なおまたはこれを下回るＫ_Ｄなど、約１０^－６Ｍ未満の解離平衡定数（Ｋ_Ｄ）で、標的タンパク質（例えば、哺乳動物標的タンパク質もしくは真菌標的タンパク質などの真核生物標的タンパク質、または細菌標的タンパク質などの原核生物標的タンパク質）に結合する。

本明細書で使用される「結合相互作用知見」とは、実験により、例えば、ＳＰＲにより決定された、化合物と、タンパク質（例えば、標的タンパク質）との結合相互作用、またはその欠如を指す。例えば、一部の実施形態では、結合相互作用知見は、化合物が、タンパク質（例えば、標的タンパク質）と相互作用しないことの決定を指す。

「分子表現」という用語は、例えば、化合物のトポロジカル表現、静電表現、幾何学表現、または量子化学表現を指す。分子表現は、例えば、化学フィンガープリントを含む。

「静電表現」という用語は、表面電子情報などの情報を含む、分子表現の種類を指す。

本明細書で使用される「推定される結合相互作用」とは、コンピュータによる分析を使用して予測された結合相互作用を指す。一部の実施形態では、候補化合物について推定される、標的タンパク質との結合相互作用は、候補化合物の化学構造を、標的タンパク質との結合相互作用が実験により決定されている、１つまたは１つより多い化合物の化学構造と比較することにより生成される。

本明細書で使用される「化学フィンガープリント」という用語は、化合物についての、機械で読取り可能な分子表現であって、分子の二次元構造または三次元構造の特徴を明らかにする、ビット列、すなわち、二値（０または１）の列挙などの分子表現を指す。化学フィンガープリントを生成する例示的方法は、当該技術分野で公知であり、ＭＡＣＣＳ、ＥｘｔｅｎｄｅｄＣｏｎｎｅｃｔｉｖｉｔｙＦｉｎｇｅｒｐｒｉｎｔｓ（ＥＣＦＰ）、Ｆｕｎｃｔｉｏｎａｌ－ＣｌａｓｓＦｉｎｇｅｒｐｒｉｎｔｓ（ＦＣＦＰ）、Ｍｏｒｇａｎ／ＣｉｒｃｕｌａｒＦｉｎｇｅｒｐｒｉｎｔｓ、およびＣｈｅｍｉｃａｌＨａｓｈｅｄＦｉｎｇｅｒｐｒｉｎｔｓを含むがこれらに限定されない。

本明細書で使用される「ｃｌｏｇＰ」という用語は、分子または分子の部分について計算された分配係数を指す。分配係数とは、平衡した、２つの混合不可能な相（例えば、オクタノールおよび水）の混合物中の化合物の濃度比であり、化合物の疎水性または親水性を測定する。当該技術分野では、ｃｌｏｇＰを決定するための様々な方法が利用可能である。例えば、一部の実施形態では、ｃｌｏｇＰは、当該技術分野で公知の、定量的構造－特性関係アルゴリズムを使用して（例えば、その重複しない分子断片の和を決定することにより、化合物のｌｏｇＰを予測する、断片ベースの予測法を使用して）決定することができる。当該技術分野では、ｃｌｏｇＰを計算するためのアルゴリズムであって、ＣＨＥＭＤＲＡＷ（登録商標）Ｐｒｏ、Ｖｅｒｓｉｏｎ１２．０．２．１０９２（Ｃａｍｂｒｉｄｇｅｓｏｆｔ、Ｃａｍｂｒｉｄｇｅ、ＭＡ）およびＭＡＲＶＩＮＳＫＥＴＣＨ（登録商標）（ＣｈｅｍＡｘｏｎ、Ｂｕｄａｐｅｓｔ、Ｈｕｎｇａｒｙ）などの分子編集ソフトウェアにより使用されるアルゴリズムを含むアルゴリズムが公知である。

本明細書で使用される「比較可能な」という用語は、観察される差違または類似性に基づき、結論が合理的に導かれうるように、互いに対して同一ではありえないが、それらの間の比較を可能とするのに十分に類似する、２つまたは２つより多い化合物、実体、状況（ｓｉｔｕａｔｉｏｎ）、条件のセットなどを指す。一部の実施形態では、条件、状況（ｃｉｒｃｕｍｓｔａｎｃｅ）、個体、または集団の比較可能なセットは、複数の実質的に同一な特徴または少数の変動する特徴により、特徴を明らかにされる。当業者は、文脈において、所与の任意の状況（ｃｉｒｃｕｍｓｔａｎｃｅ）において、２つまたは２つより多い、このような化合物、実体、状況（ｓｉｔｕａｔｉｏｎ）、条件のセットなどについて、どの程度の識別を比較可能であると考えることが要求されるのかを理解するであろう。例えば、当業者は、異なる状況（ｃｉｒｃｕｍｓｔａｎｃｅ）、個体、または集団のセットの下で、またはこれらにより得られる結果または観察される現象の差違が、変動する特徴の変動により引き起こされるか、またはこれらを示すという合理的な結論を保証するために、状況（ｃｉｒｃｕｍｓｔａｎｃｅ）、個体、または集団のセットは、十分な数および種類の、実質的に同一な特徴により特徴を明らかにされる場合に互いと同等であることを理解するであろう。

本明細書で記載される多くの方法は、「決定する」工程を含む。本明細書を読む当業者は、このような「決定すること」が、例えば、本明細書で明示的に言及される特異的な技法を含む、当業者に利用可能な様々な技法のうちのいずれかを利用しうるか、またはその使用を介して達せられうることを理解するであろう。一部の実施形態では、決定することは、物理的試料の操作を伴う。一部の実施形態では、決定することは、データまたは情報の検討および／または操作、例えば、コンピュータ、または適切な分析を実施するのに適合させた他の処理ユニットの利用を伴う。一部の実施形態では、決定することは、供給源から、関連する情報および／または材料を受容することを伴う。一部の実施形態では、決定することは、試料または実体の、１つまたは１つより多い特徴を、比較可能な基準と比較することを伴う。

「幾何学表現」という用語は、分子表現の種類を指す。幾何学表現は、例えば、ファーマコフォア、ファーマコフォアフィンガープリント、形状ベースのフィンガープリント、および／または原子、特徴、もしくは官能基を使用する３Ｄ分子座標に関する情報を含みうる。

本明細書で使用される「ライブラリー」という用語は、２つ、５つ、１０、１０^２、１０^３、１０^４、１０^５、１０^６、１０^７、１０^８、１０^９またはこれらより多い異なる分子の群を指す。一部の実施形態では、ライブラリー内の化合物のうちの、少なくとも１０％（例えば、少なくとも２０％、少なくとも３０％、少なくとも４０％、少なくとも５０％、少なくとも６０％、少なくとも７０％、少なくとも８０％、少なくとも９０％、少なくとも９５％、少なくとも９９％、または１００％）は、ＤＮＡコード化化合物など、それらの識別をコード化するヌクレオチドタグを含む化合物である。

本明細書で使用される「ネガティブコントロール」という用語は、結合相互作用を決定する実験であって、標的タンパク質が存在しない実験を指す。

「極性表面積」という用語は、それらの接合された水素を含め、分子または分子の部分の全ての極性原子にわたる表面の和を指す。極性表面積は、ＣＨＥＭＤＲＡＷ（登録商標）Ｐｒｏ、Ｖｅｒｓｉｏｎ１２．０．２．１０９２（Ｃａｍｂｒｉｄｇｅｓｏｆｔ、Ｃａｍｂｒｉｄｇｅ、ＭＡ）などのプログラムを使用して、コンピュータにより決定される。

本明細書で使用される「ポジティブコントロール」という用語は、結合相互作用を決定する実験であって、標的タンパク質と接触させる化合物の結合アフィニティーが公知である実験を指す。

本明細書で使用される「特性知見」とは、計算されるか、または実験により決定される、特定の化合物の特性（例えば、ｃｌｏｇＰ、極性表面積、分子量）を指す。

活性を有する化合物に言及して使用される場合の「選択的」という用語は、当業者により、化合物が、潜在的な標的実体または標的状態を区別することを意味すると理解される。例えば、一部の実施形態では、化合物は、１つまたは１つより多い、競合する、代替的な標的の存在下で、この標的に、優先的に結合する場合、その標的に、「選択的に」結合するという。多くの実施形態では、選択的相互作用は、標的実体の特定の構造的特徴（例えば、エピトープ、切断部、結合部位）の存在に依存する。選択性は、絶対的である必要はないことを理解されたい。一部の実施形態では、選択性を、１つまたは１つより多い他の潜在的な標的実体（例えば、競合体）に対する結合剤の選択性と比べて査定することができる。一部の実施形態では、選択性を、基準選択的結合剤と比べて査定する。一部の実施形態では、選択性を、基準選択的結合剤と比べて査定する。一部の実施形態では、薬剤または実体は、その標的実体への結合条件下で、競合する、代替的な標的に、検出可能な形で結合しない。一部の実施形態では、結合剤は、競合する、代替的な標的と比較して、その標的実体に、会合速度を増大させ、オフ速度を減少させ、アフィニティーを増大させ、解離を減少させ、かつ／または安定性を増大させて結合する。

本明細書で使用される「選択性スコア」とは、化合物の、標的タンパク質に対する特異性の計算を指す。一部の実施形態では、選択性スコアは、化合物の、標的タンパク質への結合と、化合物の、別のタンパク質（例えば、標的タンパク質の突然変異体または非類縁タンパク質）への結合との比較により計算することができる。他の実施形態では、選択性スコアは、化合物の、標的タンパク質への結合と、ネガティブコントロールとの比較により計算することができる。

「低分子」という用語は、低分子量の有機化合物および／または無機化合物を意味する。一般に、「低分子」とは、サイズが、約５キロダルトン（ｋＤ）未満である分子である。一部の実施形態では、低分子は、約４ｋＤ、３ｋＤ、約２ｋＤ、または約１ｋＤ未満である。一部の実施形態では、低分子は、約８００ダルトン（Ｄ）、約６００Ｄ、約５００Ｄ、約４００Ｄ、約３００Ｄ、約２００Ｄ、または約１００Ｄ未満である。一部の実施形態では、低分子は、１モル当たり約２０００ｇ未満、１モル当たり約１５００ｇ未満、１モル当たり約１０００ｇ未満、１モル当たり約８００ｇ未満、または１モル当たり約５００ｇ未満である。一部の実施形態では、低分子は、ポリマーではない。一部の実施形態では、低分子は、ポリマー性部分を含まない。一部の実施形態では、低分子は、タンパク質またはポリペプチドではない（例えば、オリゴペプチドまたはペプチドではない）。一部の実施形態では、低分子は、ポリヌクレオチドではない（例えば、オリゴヌクレオチドではない）。一部の実施形態では、低分子は、多糖ではない。一部の実施形態では、低分子は、多糖を含まない（例えば、糖タンパク質、プロテオグリカン、糖脂質などではない）。一部の実施形態では、低分子は、脂質ではない。一部の実施形態では、低分子は、モジュレート化合物である。一部の実施形態では、低分子は、生物学的に活性である。一部の実施形態では、低分子は、検出可能である（例えば、少なくとも１つの検出可能部分を含む）。一部の実施形態では、低分子は、治療剤である。

本開示を読む当業者は、本明細書で記載される、ある特定の低分子化合物を、例えば、塩形態、保護形態、プロドラッグ形態、エステル形態、異性体形態（例えば、光学異性体および／または構造異性体）、同位体形態など、様々な形態のうちのいずれかにおいて、提供および／または利用しうることを理解するであろう。一部の実施形態では、特定の化合物への言及は、この化合物の特異的な形態に関しうる。一部の実施形態では、特定の化合物への言及は、任意の形態にある、この化合物に関しうる。一部の実施形態では、化合物が、天然で存在するか、または見出される化合物である場合、この化合物を、それが天然で存在するか、または見出される形態とは異なる形態で、本発明に従い、提供および／または利用することができる。当業者は、化合物の基準調製物または供給源（例えば、天然の供給源）と異なるレベル、量、または比の、１つまたは１つより多い個別の形態を含む化合物調製物は、本明細書で記載される化合物の、異なる形態であると考えうることを理解するであろう。したがって、一部の実施形態では、例えば、化合物の、単一の立体異性体の調製物は、化合物のラセミ混合物と異なる形態の化合物であると考えることができ；化合物の特定の塩は、化合物の別の塩形態と異なる形態であると考えることができ；二重結合の、１つのコンフォメーション異性体（（Ｚ）または（Ｅ））を含有する調製物は、二重結合の、他のコンフォメーション異性体（（Ｅ）または（Ｚ））を含有する調製物と異なる形態であると考えることができ；１つまたは１つより多い原子が、基準調製物中に存在する同位体と異なる同位体である調製物は、異なる形態であると考えることができるなどである。

本明細書で使用される、「特異的結合」または「～に対して特異的」または「～に特異的」という用語は、結合剤と標的実体との相互作用を指す。当業者により理解される通り、相互作用、例えば、Ｋ_Ｄを１０μＭ未満（例えば、５μＭ未満、１μＭ未満、５００ｎＭ未満、２００ｎＭ未満、１００ｎＭ未満、７５ｎＭ未満、５０ｎＭ未満、２５ｎＭ未満、１０ｎＭ未満もしくは１０ｎＭ～１００ｎＭ、５０ｎＭ～２５０ｎＭ、１００ｎＭ～５００ｎＭ、２５０ｎＭ～１μＭ、５００ｎＭ～２μＭ、１μＭ～５μＭ）とする結合は、それが優先される場合に、代替的な相互作用の存在下で、「特異的な」であると考えられる。多くの実施形態では、特異的相互作用は、標的実体の特定の構造的特徴（例えば、エピトープ、切断部、結合部位）の存在に依存する。特異性は、絶対的である必要はないことを理解されたい。一部の実施形態では、特異性を、１つまたは１つより多い他の潜在的な標的実体（例えば、競合体）に対する結合剤の特異性と比べて査定することができる。一部の実施形態では、特異性を、基準特異的結合剤と比べて査定する。一部の実施形態では、特異性を、基準非特異的結合剤と比べて査定する。

「構造的類似性」という用語は、１つまたは１つより多い異なる化合物における、原子または部分の、二次元的または三次元的な配置および／または配向性の、互いと比べた類似性（例えば、目的の薬剤と、基準薬剤との間における、原子または部分の間の距離および／または角度の類似性）を指す。

「実質的に」という用語は、全てまたはほぼ全ての範囲または程度にわたる、または目的の特徴または特性を呈する質的状態を指す。生物学的技術分野の当業者は、生物学的現象および化学的現象が、完全性に至り、かつ／もしくは完全性まで進行するか、または絶対的結果を達成するかもしくは回避することは、仮にそうであっても稀であることを理解するであろう。したがって、本明細書では、「実質的に」という用語を、多くの生物学的現象および化学的現象に固有である、潜在的な完全性の欠如を捉えるのに使用する。

本明細書で使用される、特定のタンパク質「に実質的に結合しない」という用語は、例えば、標的に対する、１０^－４Ｍまたはこれより多い、代替的に、１０^－５Ｍまたはこれより多い、代替的に、１０^－６Ｍまたはこれより多い、代替的に、１０^－７Ｍまたはこれより多い、代替的に、１０^－８Ｍまたはこれより多い、代替的に、１０^－９Ｍまたはこれより多い、代替的に、１０^－１０Ｍまたはこれより多い、代替的に、１０^－１１Ｍまたはこれをより多い、代替的に、１０^－１２Ｍまたはこれより多いＫ_Ｄ、または１０^－４Ｍ～１０^－１２Ｍもしくは１０^－６Ｍ～１０^－１０Ｍもしくは１０^－７Ｍ～１０^－９Ｍの範囲のＫ_Ｄを有する分子、または分子の部分により呈示することができる。

「標的タンパク質」という用語は、低分子と結合するタンパク質を指す。一部の実施形態では、標的タンパク質は、疾患、障害、または状態と関連する生物学的経路に関与する。一部の実施形態では、標的タンパク質は、天然に存在するタンパク質であり；一部のこのような実施形態では、標的タンパク質は、ある特定の哺乳動物細胞（例えば、哺乳動物標的タンパク質）、真菌細胞（例えば、真菌標的タンパク質）、細菌細胞（例えば、細菌標的タンパク質）または植物細胞（例えば、植物標的タンパク質）において天然に見出される。一部の実施形態では、標的タンパク質は、１つまたは１つより多い天然のプレゼンタータンパク質／天然の低分子複合体との、天然の相互作用により特徴を明らかにされる。一部の実施形態では、標的タンパク質は、複数の異なる天然のプレゼンタータンパク質／天然の低分子複合体との、天然の相互作用により特徴を明らかにされ；一部のこのような実施形態では、複合体の一部または全部は、同じプレゼンタータンパク質（および異なる低分子）を利用する。標的タンパク質は、天然に存在するタンパク質、例えば、野生型タンパク質でありうる。代替的に、標的タンパク質は、例えば対立遺伝子変異体、スプライス突然変異体または生物学的に活性の断片であり、野生型タンパク質とは異なりうるが、なおも生物学的機能を保持する。例示的な哺乳動物の標的タンパク質は、ＧＴＰアーゼ、ＧＴＰアーゼ活性化タンパク質、グアニンヌクレオチド交換因子、熱ショックタンパク質、イオンチャネル、コイルドコイルタンパク質、キナーゼ、ホスファターゼ、ユビキチンリガーゼ、転写因子、クロマチン修飾剤／リモデラー、古典的なタンパク質間相互作用ドメインおよびタンパク質間相互作用モチーフを伴うタンパク質、または疾患、障害、もしくは状態と関連する生物学的経路に関与する、他の任意のタンパク質である。

「トポロジカル表現」という用語は、分子のトポロジーに依存し、個別の原子の位置と、それらの間の結合による接続とを指し示す、分子表現の種類を指す。トポロジカル表現は、原子、特徴、または官能基、およびそれらの接続性（例えば、フィンガープリント、接続表、分子接続性、および／または分子グラフ表現）に基づきうる。トポロジカル表現は、分子のグラフ表現に基づき計算することができる。

「量子化学表現」という用語は、分子表現の種類を指す。量子化学表現は、例えば、化合物のエネルギーまたは電子的特性に関する情報を含みうる。

ライブラリーの数を増大させる場合の、結合相互作用の予測を例示するグラフである。予測モデルを改善したときの、時間経過にわたる、複数回にわたる予測の試行を例示するグラフである。

本開示は、治療剤として有用な化合物、および／または治療剤の開発における最適化のための出発点として有用な化合物を同定するためのバーチャルスクリーニング法を提供する。これらの方法は、候補化合物と、目的のタンパク質との結合相互作用についての、高信頼度の予測をもたらすように、ＤＮＡコード化ライブラリーを使用して導出された実験データの、大規模なデータセットを利用する。

コード化化合物
本発明は、化学的実体、１つまたは１つより多いタグ、ならびに第１の化学的実体、および１つまたは１つより多いタグと作動的に関連するヘッドピースを含む、コード化される化学的実体を利用する方法を特徴とする。下記では、化学的実体、ヘッドピース、タグ、連結、および二官能性スペーサーについてさらに記載する。

化学的実体
本発明の方法において利用されるコード化化合物（例えば、低分子）は、１つまたは１つより多いビルディングブロックを含むことが可能であり、任意選択で、１つまたは１つより多い足場を含む。

足場Ｓは、単一原子足場または分子足場でありうる。例示的な単一原子足場は、炭素原子、ホウ素原子、窒素原子、またはリン原子などを含む。例示的な多原子足場は、シクロアルキル基、シクロアルケニル基、ヘテロシクロアルキル基、ヘテロシクロアルケニル基、アリール基、またはヘテロアリール基を含む。ヘテロアリール足場についての特定の実施形態は、１，３，５－トリアジン、１，２，３－トリアジン、または１，２，４－トリアジンなどのトリアジン；ピリミジン；ピラジン；ピリダジン；フラン；ピロール；ピロリン；ピロリジン；オキサゾール；ピラゾール；イソオキサゾール；ピラン；ピリジン；インドール；インダゾール；またはプリンを含む。

足場Ｓを、任意の有用な方法により、タグに、作動的に連結することができる。一例では、Ｓは、ヘッドピースへと直接的に連結されたトリアジンである。この例示的足場を得るために、トリクロロトリアジン（すなわち、３つの塩素を有するトリアジンの塩素化前駆体）を、ヘッドピースの求核基と反応させる。この方法を使用する場合、Ｓは、置換に利用可能な塩素を有する３つの位置を有し、ここで、２つの位置は、利用可能な多様性ノードであり、１つの位置を、ヘッドピースへと接合させる。次に、ビルディングブロックＡ_ｎを、足場の多様性ノードへと付加し、ビルディングブロックＡ_ｎをコード化するタグＡ_ｎ（「タグＡ_ｎ」）を、ヘッドピースへとライゲーションするが、この場合、これらの２つの工程は、任意の順序で実施することができる。次いで、ビルディングブロックＢ_ｎを、残りの多様性ノードへと付加し、ビルディングブロックＢ_ｎをコード化するタグＢ_ｎを、タグＡ_ｎの末端へとライゲーションする。別の例では、Ｓは、タグに作動的に連結されたトリアジンであり、この場合、トリクロロトリアジンを、タグの、ＰＥＧリンカー、脂肪族リンカー、または芳香族リンカーの求核基（例えば、アミノ基）と反応させる。ビルディングブロックおよび関連するタグは、上記で記載した通りに付加することができる。

さらに別の例では、Ｓは、ビルディングブロックＡ_ｎに作動的に連結されたトリアジンである。この足場を得るために、２つの多様性ノード（例えば、Ｆｍｏｃ－アミノ酸などの求電子基および求核基）を有するビルディングブロックＡ_ｎを、リンカーの求核基（例えば、ヘッドピースへと接合させる、ＰＥＧリンカー、脂肪族リンカー、または芳香族リンカーの末端基）と反応させる。次いで、トリクロロトリアジンを、ビルディングブロックＡ_ｎの求核基と反応させる。この方法を使用すると、Ｓの３つの塩素位置の全ては、ビルディングブロックのための多様性ノードとして使用される。本明細書で記載される通り、さらなるビルディングブロックおよびタグを付加することができ、さらなる足場Ｓ_ｎを付加することができる。

例示的なビルディングブロックであるＡ_ｎは、例えば、アミノ酸（例えば、アルファ－アミノ酸、ベータ－アミノ酸、ガンマ－アミノ酸、デルタ－アミノ酸、およびエプシロン－アミノ酸のほか、天然および非天然のアミノ酸の誘導体）、アミンと化学反応性の反応物（例えば、アジドまたはアルキン鎖）もしくはチオール反応物、またはこれらの組合せを含む。ビルディングブロックＡ_ｎの選択は、例えば、リンカー内で使用される反応基の性質、足場部分の性質、および化学合成に使用される溶媒に依存する。

例示的なビルディングブロックであるＢ_ｎおよびＣ_ｎは、置換されていてもよい芳香族基（例えば、置換されていてもよい、フェニルまたはベンジル）、置換されていてもよいヘテロシクリル基（例えば、置換されていてもよい、キノリニル、イソキノリニル、インドリル、イソインドリル、アザインドリル、ベンズイミダゾリル、アザベンズイミダゾリル、ベンズイソオキサゾリル、ピリジニル、ピペリジル、またはピロリジニル）、置換されていてもよいアルキル基（例えば、置換されていてもよい、直鎖状もしくは分枝状の、Ｃ_１～６のアルキル基、または置換されていてもよい、Ｃ_１～６のアミノアルキル基）、または置換されていてもよいカルボシクリル基（例えば、置換されていてもよいシクロプロピル、シクロヘキシル、またはシクロヘキセニル）など、化学的実体の、任意の有用な構造的単位を含む。特に有用なビルディングブロックであるＢ_ｎおよびＣ_ｎは、反応基であるか、または反応基を形成するように化学修飾されうる、１つまたは任意選択の置換基を有する、置換されていてもよい基（例えば、本明細書で記載される任意の基）など、１つまたは１つより多い反応基を伴うビルディングブロックを含む。例示的な反応基は、アミン（－ＮＲ_２［式中、各Ｒは、独立して、Ｈまたは置換されていてもよいＣ_１～６のアルキルである］）、ヒドロキシ、アルコキシ（－ＯＲ［式中、Ｒは、メトキシなど、置換されていてもよい、Ｃ_１～６のアルキルである］）、カルボキシ（－ＣＯＯＨ）、アミド、または化学的に反応性の置換基のうちの１つまたは１つより多いものを含む。制限部位を、例えば、タグである、Ｂ_ｎまたはＣ_ｎに導入することができ、この場合、ＰＣＲおよび対応する制限酵素のうちの１つによる制限消化を実施することにより、複合体を同定することができる。

ヘッドピース
コード化される化学的実体内では、ヘッドピースは、各化学的実体を、そのコード化オリゴヌクレオチドタグに、作動的に連結する。一般に、ヘッドピースは、さらに誘導体化されうる、少なくとも２つの官能基を有する、出発オリゴヌクレオチドであり、第１の官能基は、第１の化学的実体（またはその構成要素）を、ヘッドピースに作動的に連結し、第２の官能基は、１つまたは１つより多いタグを、ヘッドピースに作動的に連結する。二官能性のスペーサーを、任意選択で、ヘッドピースと、化学的実体との間のスペーシング部分として使用することができる。

ヘッドピースの官能基を使用して、化学的実体の構成要素との共有結合、およびタグとの別の共有結合を形成することができる。構成要素は、多様性ノードまたはビルディングブロックを有する足場など、低分子の任意の部分でありうる。代替的に、ヘッドピースを誘導体化して、官能基（例えば、ヒドロキシル基、アミン基、カルボキシル基、スルフヒドリル基、アルキニル基、アジド基、またはリン酸基）で終結するスペーサー（例えば、ヘッドピースを、ライブラリー内で形成される低分子から隔てるスペーシング部分）をもたらし、これを使用して、化学的実体の構成要素との、共有結合的連結を形成する。スペーサーを、ヘッドピースの、５’末端へと接合させることもでき、内部位置のうちの１つにおいて接合させることもでき、３’末端へと接合させることもできる。スペーサーを、内部位置のうちの１つへと接合させる場合、当該技術分野で公知の、標準的技法を使用して、スペーサーを、誘導体化された塩基（例えば、ウリジンのＣ５位）に、作動的に連結することもでき、オリゴヌクレオチド内の内部に配置することもできる。本明細書では、例示的スペーサーについて記載する。

ヘッドピースは、任意の有用な構造を有しうる。ヘッドピースは、例えば、１～１００ヌクレオチドの長さ、好ましくは、５～２０ヌクレオチドの長さであることが可能であり、最も好ましくは、５～１５ヌクレオチドの長さでありうる。ヘッドピースは、一本鎖の場合もあり、二本鎖の場合もあり、本明細書で記載される、天然ヌクレオチドまたは修飾ヌクレオチドからなりうる。例えば、化学的部分を、ヘッドピースの３’末端または５’末端に、作動的に連結することができる。特定の実施形態では、ヘッドピースは、配列内の相補性塩基により形成されるヘアピン構造を含む。例えば、化学的部分を、ヘッドピースの内部位置、３’末端、または５’末端に、作動的に連結することができる。

一般に、ヘッドピースは、重合化、酵素的ライゲーション、または化学的反応により、オリゴヌクレオチドタグを結合することを可能とする、５’末端または３’末端における、非自己相補性配列を含む。ヘッドピースは、オリゴヌクレオチドタグのライゲーション、ならびに任意選択の精製工程およびリン酸化工程を可能としうる。最後のタグの付加の後で、さらなるアダプター配列を、最後のタグの５’末端へと付加することができる。例示的アダプター配列は、プライマー結合配列または標識（例えば、ビオチン）を有する配列を含む。多くの（例えば、１００の）ビルディングブロックと、対応するタグとを使用する場合、混合分割戦略を用いて、オリゴヌクレオチド合成工程中に、必要な数のタグを創出する。当該技術分野では、ＤＮＡ合成のための、このような混合分割戦略が公知である。結果として得られるライブラリーメンバーを、目的の標的と対比した結合実体についての選択の後におけるＰＣＲにより増幅することができる。

ヘッドピースまたは複合体は、任意選択で、１つまたは１つより多いプライマー結合配列を含みうる。例えば、ヘッドピースは、増幅のためのプライマー結合領域として用いられる、ヘアピンのループ領域内の配列を有し、この場合、プライマー結合領域は、ヘッドピース内の配列に対する溶融温度より、その相補性プライマー（例えば、これは、フランキングの識別子領域を含みうる）に対する溶融温度が高い。他の実施形態では、複合体は、１つまたは１つより多いビルディングブロックをコード化する、１つまたは１つより多いタグの両側に、２つのプライマー結合配列（例えば、ＰＣＲ反応を可能とする）を含む。代替的に、ヘッドピースは、５’末端または３’末端において、１つのプライマー結合配列を含有しうる。他の実施形態では、ヘッドピースは、ヘアピンであり、ループ領域は、プライマー結合部位を形成するか、またはプライマー結合部位を、オリゴヌクレオチドの、ループの３’側におけるヘッドピースへのハイブリダイゼーションを介して導入する。ヘッドピースの３’末端と相同な領域を含有するプライマーオリゴヌクレオチド、およびその５’末端上のプライマー結合領域（例えば、ＰＣＲ反応を可能とする）を保有するプライマーオリゴヌクレオチドは、ヘッドピースとハイブリダイズすることが可能であり、ビルディングブロックをコード化するタグ、またはビルディングブロックの付加を含有しうる。プライマーオリゴヌクレオチドは、例えば、２～１６ヌクレオチドの長さの、ランダム化ヌクレオチドの領域などの、さらなる情報であって、バイオインフォマティクス分析のために含まれる情報を含有しうる。

ヘッドピースは、任意選択で、ヘアピン構造を含むことが可能であり、この場合、この構造は、任意の有用な方法により達成することができる。例えば、ヘッドピースは、ワトソン－クリックによるＤＮＡ塩基ペアリング（例えば、アデニン－チミンおよびグアニン－シトシン）、および／またはゆらぎ塩基ペアリング（例えば、グアニン－ウラシル、イノシン－ウラシル、イノシン－アデニン、およびイノシン－シトシン）などにより、分子間塩基ペアリングパートナーを形成する相補性塩基を含みうる。別の例では、ヘッドピースは、非修飾ヌクレオチドと比較して、高アフィニティーの二重鎖を形成しうる、修飾ヌクレオチドまたは置換ヌクレオチドを含むことが可能であり、当該技術分野では、このような修飾ヌクレオチドまたは置換ヌクレオチドが公知である。さらに別の例では、ヘッドピースは、ヘアピン構造を形成するように、１つまたは１つより多い架橋塩基を含む。例えば、例えば、ソラレンを使用することにより、一本鎖内の塩基、または異なる二本鎖内の塩基を架橋することができる。

ヘッドピースまたは複合体は、任意選択で、検出を可能とする、１つまたは１つより多い標識を含みうる。例えば、ヘッドピース、１つもしくは１つより多いオリゴヌクレオチドタグ、および／または１つもしくは１つより多いプライマー配列は、同位体、放射性イメージング剤、マーカー、トレーサー、蛍光標識（例えば、ローダミンまたはフルオレセイン）、化学発光標識、量子ドット、およびレポーター分子（例えば、ビオチンまたはｈｉｓタグ）を含みうる。

他の実施形態では、ヘッドピースまたはタグを修飾して、半還元条件下、還元条件下、または非水性（例えば、有機）条件下における溶解度を促進することができる。ヘッドピースまたはタグのヌクレオチド塩基は、例えば、Ｔ塩基またはＣ塩基のＣ５位を、脂肪族鎖で修飾することにより、それらの相補性塩基に水素結合するそれらの能力を、それほど破壊せずに、より疎水性とすることができる。例示的な修飾ヌクレオチドまたは置換ヌクレオチドは、５’－ジメトキシトリチル－Ｎ４－ジイソブチルアミノメチリデン－５－（１－プロピニル）－２’－デオキシシチジン、３’－［（２－シアノエチル）－（Ｎ，Ｎ－ジイソプロピル）］－ホスホラミダイト；５’－ジメトキシトリチル－５－（１－プロピニル）－２’－デオキシウリジン、３’－［（２－シアノエチル）－（Ｎ，Ｎ－ジイソプロピル）］－ホスホラミダイト；５’－ジメトキシトリチル－５－フルオロ－２’－デオキシウリジン、３’－［（２－シアノエチル）－（Ｎ，Ｎ－ジイソプロピル）］－ホスホラミダイト；および５’－ジメトキシトリチル－５－（ピレン－１－イル－エチニル）－２’－デオキシウリジン、または３’－［（２－シアノエチル）－（Ｎ，Ｎ－ジイソプロピル）］－ホスホラミダイトである。

加えて、ヘッドピースオリゴヌクレオチドに、有機溶媒中の溶解度を促進する修飾を散在させることができる。例えば、アゾベンゼンホスホラミダイトは、疎水性部分を、ヘッドピース設計へと導入しうる。疎水性アミダイトの、ヘッドピースへの、このような挿入は、分子内の任意の場所で生じうる。しかし、挿入は、ライブラリー合成時における、さらなるＤＮＡタグを使用する、後続のタグづけ、または、選択が完了したら、これに後続するＰＣＲ、またはタグのデコンボリューションのために使用される場合のマイクロアレイ解析に干渉しえない。本明細書で記載されるヘッドピース設計への、このような付加であれば、ヘッドピースを、例えば、１５％、２５％、３０％、５０％、７５％、９０％、９５％、９８％、９９％、または１００％の有機溶媒中で可溶型とするであろう。したがって、疎水性残基の、ヘッドピース設計への付加は、半水性または非水性の（例えば、有機）条件下における溶解度の改善を可能としながら、ヘッドピースを、オリゴヌクレオチドのタグづけにコンピテントとする。さらに、その後、ライブラリーへと導入されるＤＮＡタグはまた、それらがまた、後続のライブラリー合成工程のために、ライブラリーを、より疎水性とし、かつ、有機溶媒中で可溶型ともするように、Ｔ塩基またはＣ塩基のＣ５位においても修飾することができる。

特定の実施形態では、ヘッドピースと、第１のタグとは、同じ実体でありうる、すなわち、全てが、共通部分（例えば、プライマー結合領域）を共有し、全てが、別の部分（例えば、コード化領域）では異なる、複数のヘッドピース－タグ実体を構築することができる。これらは、「分割」工程において利用することができ、コード化イベントがなされた後で、プールすることができる。

特定の実施形態では、ヘッドピースは、例えば、特異的なライブラリーに関連する特定の配列を使用することなどを介して、第１の分割工程をコード化する配列、またはライブラリーの識別をコード化する配列を含むことにより、情報をコード化しうる。

オリゴヌクレオチドタグ
本明細書で記載されるオリゴヌクレオチドタグ（例えば、タグまたはヘッドピースの部分またはテールピースの部分）を使用して、分子、化学的実体の部分、構成要素（例えば、足場またはビルディングブロック）の付加、ライブラリー内のヘッドピース、ライブラリーの識別、１つまたは１つより多いライブラリーメンバーの使用（例えば、ライブラリーのアリコート内のメンバーの使用）、および／またはライブラリーメンバーの由来（例えば、由来配列の使用による）など、任意の有用な情報をコード化することができる。

オリゴヌクレオチド内の任意の配列を使用して、任意の情報をコード化することができる。したがって、１つのオリゴヌクレオチド配列は、２種類もしくは２種類より多い情報をコード化すること、または１種類もしくは１種類より多い情報もまたコード化する出発オリゴヌクレオチドをもたらすことなど、１つより多い目的に資することが可能である。例えば、第１のタグは、第１のビルディングブロックの付加のほか、ライブラリーの同定をコード化しうる。別の例では、ヘッドピースを使用して、化学的実体を、タグに、作動的に連結する、出発オリゴヌクレオチドをもたらすことができ、この場合、ヘッドピースは、加えて、ライブラリーの識別をコード化する配列（すなわち、ライブラリー同定配列）を含む。したがって、本明細書で記載される情報のうちのいずれかを、別個のオリゴヌクレオチドタグ内でコード化することもでき、同じオリゴヌクレオチド配列（例えば、タグまたはヘッドピースなどのオリゴヌクレオチドタグ）内に組み合わせ、コード化することもできる。

ビルディングブロック配列は、ビルディングブロックの識別および／またはビルディングブロックによりなされる結合反応の種類をコード化する。このビルディングブロック配列は、タグ内に含まれ、この場合、タグは、任意選択で、下記で記載される、１種類または１種類より多い配列（例えば、ライブラリー同定配列、使用配列、および／または由来配列）を含みうる。

ライブラリー同定配列は、特定のライブラリーの識別をコード化する。２つまたは２つより多いライブラリーの混合を可能とするために、ライブラリーメンバーは、ライブラリー同定タグ（すなわち、オリゴヌクレオチドを含むことライブラリー同定配列）、ライゲーションされたタグ、ヘッドピース配列の部分、またはテールピース配列などの中に、１つまたは１つより多いライブラリー同定配列を含有しうる。これらのライブラリー同定配列を使用して、コード化関係を推定することができ、この場合、タグの配列は、翻訳すると、化学的（合成）履歴情報と相関する。したがって、これらのライブラリー同定配列は、選択、増幅、精製、シーケンシングなどのために、２つまたは２つより多いライブラリーを、一体に混合することを可能とする。

使用配列は、ライブラリーの個別のアリコート内の、１つまたは１つより多いライブラリーメンバーの履歴（すなわち、使用）をコード化する。例えば、個別のアリコートを、異なる反応条件、ビルディングブロック、および／または選択工程により処理することができる。特に、この配列を使用して、このようなアリコートを同定し、それらの履歴（使用）を推定し、これにより、選択、増幅、精製、シーケンシングなどのために、試料を、一体に混合することを目的として、異なる複数の履歴（複数の使用）（例えば、異なる選択実験）を伴う、同じライブラリーのアリコートを、一体に混合することを可能とすることができる。これらの使用配列を、ヘッドピース、テールピース、タグ、使用タグ（すなわち、使用配列を含むオリゴヌクレオチド）、または本明細書で記載される、他の任意のタグ（例えば、ライブラリー同定タグまたは由来タグ）内に組み入れることができる。

由来配列とは、ライブラリーメンバーの由来をコード化する、任意の有用な長さ（例えば、約６ヌクレオチド）の、縮重（ランダムに、確率的に生成された）オリゴヌクレオチド配列である。この配列は、固有の前駆鋳型（例えば、選択されたライブラリーメンバー）に由来する、増幅産物の観察を、同じ前駆鋳型（例えば、選択されたライブラリーメンバー）に由来する、複数の増幅産物の観察から識別しうるように、他の全ての点で同一なライブラリーメンバーを、配列情報により識別可能な実体へと、確率的に細分化するのに用いられる。例えば、ライブラリー形成の後で、かつ、選択工程の前に、各ライブラリーメンバーは、由来タグ内などに、異なる由来配列を含みうる。選択の後、選択されたライブラリーメンバーを、増幅して、増幅産物を作製することができ、由来配列（例えば、由来タグ内に）を含むことが期待されるライブラリーメンバーの部分を観察し、他のライブラリーメンバーの各々の中の由来配列と比較することができる。由来配列は、縮重であるので、各ライブラリーメンバーの、各増幅産物は、異なる由来配列を有するはずである。しかし、増幅産物中に、同じ由来配列を観察できれば、同じ鋳型分子に由来する複数のアンプリコンを指し示しうるであろう。増幅前における、コード化タグの集団の統計学および人口学を、増幅後と対比して決定することが所望される場合、由来タグを使用することができる。これらの由来配列を、ヘッドピース内、テールピース内、タグ内、由来タグ（すなわち、由来配列を含むオリゴヌクレオチド）内、または本明細書で記載される、他の任意のタグ（例えば、ライブラリー同定タグまたは使用タグ）内に組み入れることができる。

本明細書で記載される、種類の配列のうちのいずれかを、ヘッドピース内に組み入れることができる。例えば、ヘッドピースは、ビルディングブロック配列、ライブラリー同定配列、使用配列、または由来配列のうちの１つまたは１つより多い配列を含みうる。

本明細書で記載される、これらの配列のうちのいずれかを、テールピース内に組み入れることができる。例えば、テールピースは、ライブラリー同定配列、使用配列、または由来配列のうちの１つまたは１つより多い配列を含みうる。

本明細書で記載されるタグのうちのいずれかは、固定配列を有する５’末端または３’末端において、またはこの近傍にコネクターを含みうる。コネクターは、反応基（例えば、化学反応基または光反応基）をもたらすことにより、または連結を可能とする薬剤（例えば、コネクター内または架橋オリゴヌクレオチド内の、挿入部分または可逆性反応基による薬剤）のための部位をもたらすことにより、連結（例えば、化学結合）の形成を容易とする。各５’コネクターは、同じ場合もあり、異なる場合もあり、各３’コネクターは、同じ場合もあり、異なる場合もある。１つより多いタグを有する、例示的で非限定的な複合体では、各タグは、５’コネクターおよび３’コネクターを含むことが可能であり、この場合、各５’コネクターは、同じ配列を有し、各３’コネクターは、同じ配列を有する（例えば、この場合、５’コネクターの配列は、３’コネクターの配列と、同じ場合もあり、異なる場合もある）。コネクターは、１つまたは１つより多い連結のために使用されうる配列をもたらす。リレープライマーの結合を可能とするか、または架橋オリゴヌクレオチドをハイブリダイズさせるために、コネクターは、連結（例えば、ポリメラーゼの、それを通して、読み取る能力または移動する能力が低減される連結であって、化学結合などの連結）を可能とする、１つまたは１つより多い官能基を含みうる。

これらの配列は、オリゴヌクレオチドのための、本明細書で記載される、任意の修飾であって、有機溶媒（例えば、ヘッドピースのための有機溶媒など、任意の、本明細書で記載される有機溶媒）中の溶解度を促進するか、天然のホスホジエステル連結のアナログ（例えば、ホスホロチオエートアナログ）をもたらすか、または１つもしくは１つより多い、非天然のオリゴヌクレオチド（例えば、２’－Ｏ－メチル化ヌクレオチドおよび２’－フルオロヌクレオチド、または任意の、本明細書で記載されるヌクレオチドなどの２’－置換ヌクレオチド）をもたらす、１つまたは１つより多い修飾などの修飾を含みうる。

これらの配列は、オリゴヌクレオチドについての、本明細書で記載される任意の特性を含みうる。例えば、これらの配列を、２０ヌクレオチド未満のタグ（例えば、本明細書で記載される）内に組み入れることができる。他の例では、これらの配列のうちの１つまたは１つより多い配列を含むタグは、ほぼ同じヌクレオチド量を有する（例えば、各タグは、特異的な変数をコード化するタグの特異的なセット内の平均ヌクレオチド量から、約±１０％のヌクレオチド量を有する）か；プライマー結合（例えば、定常）領域を欠くか；定常領域を欠くか；または定数領域の長さが低減されている（例えば、３０ヌクレオチド未満、２５ヌクレオチド未満、２０ヌクレオチド未満、１９ヌクレオチド未満、１８ヌクレオチド未満、１７ヌクレオチド未満、１６ヌクレオチド未満、１５ヌクレオチド未満、１４ヌクレオチド未満、１３ヌクレオチド未満、１２ヌクレオチド未満、１１ヌクレオチド未満、１０ヌクレオチド未満、９ヌクレオチド未満、８ヌクレオチド未満、または７ヌクレオチド未満の長さである）。

この長さのライブラリーおよびオリゴヌクレオチドのためのシーケンシング戦略は、任意選択で、それぞれ、リードの忠実度またはシーケンシングの深度を増大させるように、濃縮戦略またはカテネーション戦略を含みうる。特に、プライマー結合領域を欠く、コード化されたライブラリーの選択については、本明細書に参照により援用される、Ｊａｒｏｓｃｈら、ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．、３４：ｅ８６（２００６）において記載されているものなど、ＳＥＬＥＸについての文献において記載されている。例えば、ライブラリーメンバーは、複合体の５’末端上の、第１のアダプター配列と、複合体の３’末端上の、第２のアダプター配列とを含むように、修飾する（例えば、選択工程の後で）ことができ、この場合、第１の配列は、第２の配列と、実質的に相補性であり、二重鎖の形成を結果としてもたらす。収率をさらに改善するために、２つの固定された懸垂ヌクレオチド（例えば、ＣＣ）を、５’末端へと付加する。

連結
本発明の連結は、情報をコード化するオリゴヌクレオチドの間（例えば、ヘッドピースとタグとの間、２つのタグの間、またはタグとテールピースとの間など）に存在する。例示的連結は、ホスホジエステル、ホスホネート、およびホスホロチオエートを含む。一部の実施形態では、ポリメラーゼは、１つまたは１つより多い連結を通して、読み取る能力または移動する能力が低減される。ある特定の実施形態では、化学結合は、一リン酸基および／またはヒドロキシル基、光反応基、挿入部分、架橋オリゴヌクレオチド、または可逆性の共反応基などの化学反応基のうちの１つまたは１つより多いものを含む。

連結を調べて、ポリメラーゼは、この連結を通して、読み取る能力または移動する能力が低減されているのかどうかを決定することができる。この能力は、液体クロマトグラフィー－質量分析、ＲＴ－ＰＣＲ分析、配列人口学、および／またはＰＣＲ分析など、任意の有用な方法により調べることができる。

一部の実施形態では、化学的ライゲーションは、一リン酸連結およびヒドロキシル連結などの連結をもたらすように、１つまたは１つより多い化学反応対の使用を含む。本明細書で記載される通り、読取り可能な連結は、化学的ライゲーションにより、例えば、シアノイミダゾールおよび二価金属供給源（例えば、ＺｎＣｌ_２）の存在下における、５’末端または３’末端における、一リン酸基、モノホスホチオエート基、またはモノホスファネート基の、５’末端または３’末端におけるヒドロキシル基との反応により合成することができる。

他の例示的な化学反応対は、ヒュスゲン１，３－双極子付加環化反応を介して、トリアゾールを形成する、置換されていてもよいアルキニル基、および置換されていてもよいアジド基；ディールス－アルダー反応を介して、シクロアルケニルを形成する、４π電子系（例えば、置換されていてもよい１，３－ブタジエン、１－メトキシ－３－トリメチルシリルオキシ－１，３－ブタジエン、シクロペンタジエン、シクロヘキサジエン、またはフランなど、置換されていてもよい１，３－不飽和化合物）を有する、置換されていてもよいジエン、および２π電子系（例えば、置換されていてもよいアルケニル基または置換されていてもよいアルキニル基）を有する置換されていてもよい求ジエン種、もしくは置換されていてもよいヘテロ求ジエン種；歪みヘテロシクリルによる求電子種（例えば、置換されていてもよいエポキシド、アジリジン、アジリジニウムイオン、またはエピスルホニウムイオン）と共に、開環反応を介して、ヘテロアルキルを形成する求核種（例えば、置換されていてもよいアミンまたは置換されていてもよいチオール）；５’－ヨードｄＴを含有するオリゴヌクレオチドの、３’－ホスホロチオエートオリゴヌクレオチドとのスプリントライゲーションなど、ヨード基を伴うホスホロチオエート基；任意選択で、市販の３’－グリセリル修飾オリゴヌクレオチドを酸化することにより得られうる、３’－アルデヒド修飾オリゴヌクレオチドの、５’－アミノオリゴヌクレオチド（すなわち、還元的アミノ化反応における）もしくは５’－ヒドラジドオリゴヌクレオチドとの反応など、アルデヒド基もしくはケトン基を伴う、置換されていてもよいアミノ基；置換されていてもよいアミノ基と、カルボン酸基もしくはチオール基との対（例えば、スクシンイミジルｔｒａｎｓ－４－（マレイミジルメチル）シクロヘキサン－１－カルボキシレート（ＳＭＣＣ）または１－エチル－３－（３－ジメチルアミノプロピル）カルボジイミド（ＥＤＡＣ）の使用を伴うか、または伴わない；置換されていてもよいヒドラジン基と、アルデヒド基もしくはケトン基との対；置換されていてもよいヒドロキシルアミン基と、アルデヒド基もしくはケトン基との対；または求核種と、置換されていてもよいアルキルハロゲン化物との対を含む対である。

白金錯体、アルキル化剤、またはフラン修飾ヌクレオチドもまた、鎖間連結または鎖内連結を形成するための化学反応基として使用することができる。このような薬剤は、２つのオリゴヌクレオチドの間で使用することができ、任意選択で、架橋オリゴヌクレオチド内に存在しうる。

例示的で非限定的な白金錯体は、シスプラチン（例えば、ＧＧ鎖内連結を形成するための、ｃｉｓ－ジアンミンジクロロ白金（ＩＩ））、トランスプラチン（例えば、ＧＸＧ鎖間連結［配列中、Ｘは、任意のヌクレオチドでありうる］を形成するための、ｔｒａｎｓ－ジアンミンジクロロ白金（ＩＩ））、例えば、ＧＣ、ＣＧ、ＡＧ、またはＧＧ連結を形成するための、カルボプラチン、ピコラチン（ＺＤ０４７３）、オルマプラチン、またはオキサリプラチンを含む。これらの連結のうちのいずれも、鎖間連結または鎖内連結でありうる。

例示的で非限定的なアルキル化剤は、ナイトロジェンマスタード（例えば、ＧＧ連結を形成するための、メクロレタミン）、クロラムブシル、メルファラン、シクロホスファミド、シクロホスファミドのプロドラッグ形態（例えば、４－ヒドロペルオキシシクロホスファミドおよびイホスファミド））、１，３－ビス（２－クロロエチル）－１－ニトロソウレア（ＢＣＮＵ、カルムスチン）、アジリジン（例えば、ＧＧ連結またはＡＧ連結を形成するための、マイトマイシンＣ、トリエチレンメラミン、またはトリエチレンチオホスホルアミド（チオテパ））、ヘキサメチルメラミン、アルキルスルホネート（例えば、ＧＧ連結を形成するための、ブスルファン）、またはニトロソウレア（例えば、カルムスチン（ＢＣＮＵ）、クロロゾトシン、ロムスチン（ＣＣＮＵ）、およびセムスチン（メチル－ＣＣＮＵ）など、ＧＧ連結またはＣＧ連結を形成するための、２－クロロエチルニトロソウレア）を含む。これらの連結のうちのいずれも、鎖間連結または鎖内連結でありうる。

フラン修飾ヌクレオチドもまた、連結を形成するのに使用することができる。ｉｎｓｉｔｕにおいて酸化すると（例えば、Ｎ－ブロモコハク酸イミド（ＮＢＳ）により）、フラン部分は、相補性塩基と反応して、鎖間連結を形成する、反応性のオキソエナール誘導体を形成する。一部の実施形態では、フラン修飾ヌクレオチドは、相補性のＡヌクレオチドまたはＣヌクレオチドとの連結を形成する。例示的で非限定的なフラン修飾ヌクレオチドは、任意の２’－（フラン－２－イル）プロパノイルアミノ修飾ヌクレオチド；または２－（フラン－２－イル）エチルグリコール核酸の、非環式の修飾ヌクレオチドを含む。

光反応基もまた、反応基として使用することができる。例示的で非限定的な光反応基は、挿入部分、ソラレン誘導体（例えば、ソラレン、ＨＭＴ－ソラレン、または８－メトキシソラレン）、置換されていてもよいシアノビニルカルバゾール基、置換されていてもよいビニルカルバゾール基、置換されていてもよいシアノビニル基、置換されていてもよいアクリルアミド基、置換されていてもよいジアジリン基、置換されていてもよいベンゾフェノン（例えば、４－ベンゾイル安息香酸またはイソシアン酸ベンゾフェノンのスクシンイミジルエステル）、置換されていてもよい５－（カルボキシ）ビニルウリジン基（例えば、５－（カルボキシ）ビニル－２’－デオキシウリジン）、または置換されていてもよいアジド基（例えば、アリールアジド、または４－アジド－２，３，５，６－テトラフルオロ安息香酸（ＡＴＦＢ）のスクシンイミジルエステルなどのハロゲン化アリールアジド）を含む。

挿入部分もまた、反応基として使用することができる。例示的で非限定的な挿入部分は、ソラレン誘導体、アルカロイド誘導体（例えば、ベルベリン、パルマチン、コラリン、サンギナリン（例えば、そのイミニウム形態またはアルカノールアミン形態）、またはアリストロラクタム－β－Ｄ－グルコシド）、エチジウムカチオン（例えば、エチジウムブロマイド）、アクリジン誘導体（例えば、プロフラビン、アクリフラビン、またはアムサクリン）、アントラサイクリン誘導体（例えば、ドキソルビシン、エピルビシン、ダウノルビシン（ダウノマイシン）、イダルビシン、およびアクラルビシン）、またはサリドマイドを含む。

架橋オリゴヌクレオチドのために、任意の有用な反応基（例えば、本明細書で記載される）を使用して、鎖間連結または鎖内連結を形成することができる。例示的な反応基は、化学反応基、光反応基、挿入部分、および可逆性の共反応基を含む。架橋オリゴヌクレオチドを伴う使用のための架橋結合剤は、限定せずに述べると、アルキル化剤（例えば、本明細書で記載される）、シスプラチン（ｃｉｓ－ジアンミンジクロロ白金（ＩＩ））、ｔｒａｎｓ－ジアンミンジクロロ白金（ＩＩ）、ソラレン、ＨＭＴ－ソラレン、８－メトキシソラレン、フラン修飾ヌクレオチド、２－フルオロデオキシイノシン（２－Ｆ－ｄＩ）、５－ブロモデオキシシトシン（５－Ｂｒ－ｄＣ）、５－ブロモデオキシウリジン（５－Ｂｒ－ｄＵ）、５－ヨードデオキシシトシン（５－Ｉ－ｄＣ）、５－ヨードデオキシウリジン（５－Ｉ－ｄＵ）、スクシンイミジルｔｒａｎｓ－４－（マレイミジルメチル）シクロヘキサン－１－カルボキシレート、ＳＭＣＣ、ＥＤＡＣ、またはスクシンイミジルアセチルチオアセテート（ＳＡＴＡ）を含む。

オリゴヌクレオチドはまた、マレイミド、ハロゲン、およびヨードアセトアミドなど、様々なチオール反応基と反応させうる、チオール部分を含有するようにも修飾することができ、これにより、２つのオリゴヌクレオチドを架橋するために使用することができる。チオール基は、オリゴヌクレオチドの５’末端または３’末端へと連結することができる。

ピリミジン（例えば、チミジン）位における、二重鎖オリゴヌクレオチドの間の鎖間架橋のためには、挿入、光反応性部分であるソラレンを選択することができる。ソラレンは、二重鎖へと挿入され、紫外光（約２５４ｎｍ）で照射すると、優先的に、５’－ＴｐＡ部位において、ピリミジンとの共有結合的鎖間架橋を形成する。ソラレン部分は、修飾オリゴヌクレオチドへと、共有結合的に接合させることができる（例えば、Ｃ_１～１０のアルキルなどのアルカン鎖、または－（ＣＨ_２ＣＨ_２Ｏ）_ｎＣＨ_２ＣＨ_２－［式中、ｎは、１～５０の整数である］などのポリエチレングリコール基により）。例示的ソラレン誘導体もまた、使用することができ、この場合、非限定的な誘導体は、４’－（ヒドロキシエトキシメチル）－４，５’，８－トリメチルソラレン（ＨＭＴ－ソラレン）、および８－メトキシソラレンを含む。

架橋オリゴヌクレオチドの多様な部分を修飾して、連結を導入することができる。例えば、オリゴヌクレオチド内末端のホスホロチオエートもまた、２つの隣接するオリゴヌクレオチドを連結するために使用することができる。ハロゲン化ウラシル／シトシンもまた、オリゴヌクレオチド内の架橋剤修飾として使用することができる。例えば、２－フルオロ－デオキシイノシン（２－Ｆ－ｄＩ）修飾オリゴヌクレオチドを、ジスルフィド含有ジアミンまたはチオプロピルアミンと反応させて、ジスルフィド連結を形成することができる。

下記で記載される、可逆性の共反応基は、シアノビニルカルバゾール基、シアノビニル基、アクリルアミド基、チオール基、またはスルホニルエチルチオエーテルから選択される共反応基を含む。置換されていてもよいシアノビニルカルバゾール（ＣＮＶ）基もまた、相補性鎖内のピリミジン塩基（例えば、シトシン、チミン、およびウラシルのほか、その修飾塩基）を架橋するのに、オリゴヌクレオチド内で使用することができる。ＣＮＶ基は、鎖間架橋を結果としてもたらす、３６６ｎｍにおける照射時に、隣接するピリミジン塩基との［２＋２］環化付加を促進する。３１２ｎｍにおける照射は、架橋を戻すので、オリゴヌクレオチド鎖の可逆性架橋のための方法をもたらす。非限定的なＣＮＶ基は、カルボキシビニルカルバゾールヌクレオチドとして（例えば、３－カルボキシビニルカルバゾール－１’－β－デオキシリボシド－５’－三リン酸として）含まれうる、３－シアノビニルカルバゾールである。

ＣＮＶ基を修飾して、反応性のシアノ基を、別の反応基で置きかえて、置換されていてもよいビニルカルバゾール基をもたらすことができる。ビニルカルバゾール基のための、例示的で非限定的な反応基は、－ＣＯＮＲ_Ｎ１Ｒ_Ｎ２［式中、各Ｒ_Ｎ１およびＲ_Ｎ２は、同じ場合もあり、異なる場合もあり、独立して、ＨおよびＣ_１～６のアルキル、例えば、－ＣＯＮＨ_２である］のアミド基；－ＣＯ_２Ｈのカルボキシル基；またはＣ_２～７のアルコキシカルボニル基（例えば、メトキシカルボニル）を含む。さらに、反応基は、ビニル基のアルファ炭素またはベータ炭素上にも配置しうる。例示的なビニルカルバゾール基は、本明細書で記載されるシアノビニルカルバゾール基；アミドビニルカルバゾール基（例えば、３－アミドビニルカルバゾール－１’－β－デオキシリボシド－５’－三リン酸などのアミドビニルカルバゾールヌクレオチド）；カルボキシビニルカルバゾール基（例えば、３－カルボキシビニルカルバゾール－１’－β－デオキシリボシド－５’－三リン酸などのカルボキシビニルカルバゾールヌクレオチド）；およびＣ_２～７のアルコキシカルボニルビニルカルバゾール基（例えば、３－メトキシカルボニルビニルカルバゾール－１’－β－デオキシリボシド－５’－三リン酸などのアルコキシカルボニルビニルカルバゾールヌクレオチド）を含む。さらなる置換されていてもよいビニルカルバゾール基、およびこのような基を有するヌクレオチドについては、それらの両方の全内容が本明細書に参照により援用される、米国特許第７，９７２，７９２号；ならびにＹｏｓｈｉｍｕｒａおよびＦｕｊｉｍｏｔｏ、Ｏｒｇ．Ｌｅｔｔ．、１０：３２２７～３２３０（２００８）の化学式に提供されている。

他の可逆性反応基は、ジスルフィドを形成するために、チオール基と、別のチオール基とを含むほか、スルホニルエチルチオエーテルを形成するために、チオール基と、ビニルスルホン基とを含む。チオール－チオール基は、任意選択で、ビス－（（Ｎ－ヨードアセチル）ピペラジニル）スルホンローダミンとの反応により形成される連結を含みうる。他の可逆性反応基（例えば、一部の光反応基など）は、置換されていてもよいベンゾフェノン基を含む。非限定的な例は、ＢＰＵ含有オリゴヌクレオチド二重鎖の鎖間架橋の部位選択的形成および配列選択的形成のために使用されうる、ベンゾフェノンウラシル（ＢＰＵ）である。この架橋は、加熱すると戻しうることから、２つのオリゴヌクレオチド鎖の可逆性架橋のための方法がもたらされる。

他の実施形態では、化学的ライゲーションは、例えば、選択後ＰＣＲ分析およびシーケンシングのために、ホスホジエステル結合のアナログを導入することを含む。ホスホジエステルの例示的アナログは、ホスホロチオエート連結（例えば、ホスホロチオエート基と、ヨード基などの脱離基との使用により導入される）、ホスホミルアド連結、またはホスホロジチオエート連結（例えば、ホスホロジチオエート基と、ヨード基などの脱離基との使用により導入される）を含む。

本明細書で記載される基のうちのいずれか（例えば、化学反応基、光反応基、挿入部分、架橋オリゴヌクレオチド、または可逆性の共反応基）のために、基を、オリゴヌクレオチド末端の近傍に組み込むこともでき、５’末端と３’末端との間に組み込むこともできる。さらに、各オリゴヌクレオチド内には、１つまたは１つより多い基も存在しうる。反応基の対が要求される場合は、基の対の間の反応を容易とするように、オリゴヌクレオチドを設計することができる。ピリミジン塩基と共反応するシアノビニルカルバゾール基についての非限定的な例では、第１のオリゴヌクレオチドを、５’末端において、またはこの近傍に、シアノビニルカルバゾール基を含むように設計することができる。この例では、第２のオリゴヌクレオチドを、第１のオリゴヌクレオチドと、第２のオリゴヌクレオチドとがハイブリダイズする場合は、第１のオリゴヌクレオチドと相補性となり、シアノビニルカルバゾール基と符合する位置において、共反応性のピリミジン塩基を含むように設計することができる。本明細書における基のうちのいずれか、および１つまたは１つより多い基を有するオリゴヌクレオチドのうちのいずれかを、基の間の反応を容易として、１つまたは１つより多い連結を形成するように設計することができる。

二官能性スペーサー
ヘッドピースと、化学的実体との間の二官能性スペーサーを変動させて、適切なスペーシング部分をもたらし、かつ／またはヘッドピースの、有機溶媒中溶解度を増大させることができる。ヘッドピースを、低分子ライブラリーとカップリングさせうる、多種多様なスペーサーが市販されている。スペーサーは、典型的に、直鎖状鎖または分枝状鎖からなり、Ｃ_１～１０のアルキル、原子１～１０個のヘテロアルキル、Ｃ_２～１０のアルケニル、Ｃ_２～１０のアルキニル、Ｃ_５～１０のアリール、原子３～２０個の環式系もしくは多環式系、ホスホジエステル、ペプチド、オリゴ糖、オリゴヌクレオチド、オリゴマー、ポリマー、またはポリアルキルグリコール（例えば、－（ＣＨ_２ＣＨ_２Ｏ）_ｎＣＨ_２ＣＨ_２－［ここで、ｎは、１～５０の整数である］などのポリエチレングリコール基）またはこれらの組合せを含みうる。

二官能性スペーサーは、ライブラリーのヘッドピースと、化学的実体との間に、適切なスペーシング部分をもたらしうる。ある特定の実施形態では、二官能性スペーサーは、３つの部分を含む。部分１は、例えば、好ましくは、ＤＮＡ上のアミノ基（例えば、アミノ修飾されたｄＴ）と反応するように、Ｎ－ヒドロキシスクシンイミド（ＮＨＳ）エステルにより活性化させたカルボン酸、一本鎖ヘッドピースの５’末端または３’末端を修飾するアミダイト（標準的オリゴヌクレオチド化学反応により達成される）、化学反応対（例えば、Ｃｕ（Ｉ）触媒、または本明細書で記載される任意の触媒の存在下における、アジド－アルキン環化付加）、またはチオール反応基など、ＤＮＡとの共有結合を形成する反応基でありうる。部分２もまた、ビルディングブロックＡ_ｎまたは足場である、化学的実体との共有結合を形成する反応基でありうる。このような反応基は、例えば、アミン、チオール、アジド、またはアルキンでありうるであろう。部分３は、部分１と、部分２との間に導入される、可変的な長さの、化学的に不活性のスペーシング部分でありうる。このようなスペーシング部分は、エチレングリコール単位（例えば、異なる長さのＰＥＧ）による鎖、アルカン鎖、アルケン鎖、ポリエン鎖、またはペプチド鎖でありうる。スペーサーは、ヘッドピースの、有機溶媒中溶解度を改善するための疎水性部分（例えば、ベンゼン環など）のほか、ライブラリーの検出を目的として使用される蛍光性部分（例えば、フルオレセインまたはＣｙ－３）による分枝または挿入を含有しうる。ヘッドピース設計における疎水性残基は、有機溶媒中のライブラリー合成を容易とするように、スペーサー設計により変動させることができる。例えば、ヘッドピースとスペーサーとの組合せは、適切な残基を有するように設計するが、この場合、オクタノール：水係数（Ｐ_ｏｃｔ）は、例えば、１．０～２．５である。

スペーサーは、ライブラリーを、有機溶媒中、例えば、１５％、２５％、３０％、５０％、７５％、９０％、９５％、９８％、９９％、または１００％の有機溶媒中で合成しうるように、所与の低分子ライブラリー設計について経験的に選択することができる。スペーサーは、ヘッドピースを、有機溶媒中で可溶化させるのに適する鎖長を選択するように、ライブラリー合成の前に、モデル反応を使用して変動させることができる。例示的スペーサーは、アルキル鎖長を増大させるか、ポリエチレングリコール単位を増大させるか、正の電荷（ヘッドピース上の、負のリン酸電荷を中和する）を伴う分枝状種を有するか、または疎水性の量を増大させた（例えば、ベンゼン環構造を付加した）スペーサーを含む。

市販のスペーサーの例は、ペプチド（例えば、Ｚ－Ｇｌｙ－Ｇｌｙ－Ｇｌｙ－Ｏｓｕ（Ｎ－アルファ－ベンシルオキシカルボニル－（グリシン）_３－Ｎ－スクシンイミジルエステル）またはＺ－Ｇｌｙ－Ｇｌｙ－Ｇｌｙ－Ｇｌｙ－Ｇｌｙ－Ｇｌｙ－Ｏｓｕ（Ｎ－アルファ－ベンシルオキシカルボニル－（グリシン）_６－Ｎ－スクシンイミジルエステル、配列番号１））、ＰＥＧ（例えば、Ｆｍｏｃ－アミノＰＥＧ２０００－ＮＨＳまたはアミノＰＥＧ（１２～２４）－ＮＨＳ）、またはアルカン酸鎖（例えば、Ｂｏｃ－ε－アミノカプロン酸－Ｏｓｕ）であるスペーサーなど、アミノカルボキシル基を有するスペーサー；本明細書で記載された化学反応対であって、ペプチド部分（例えば、アジドホモアラニン－Ｇｌｙ－Ｇｌｙ－Ｇｌｙ－ＯＳｕ（配列番号２）、またはプロパルギルグリシン－Ｇｌｙ－Ｇｌｙ－Ｇｌｙ－ＯＳｕ（配列番号３））、ＰＥＧ（例えば、アジド－ＰＥＧ－ＮＨＳ）、またはアルカン酸鎖部分（例えば、５－アジドペンタン酸、（Ｓ）－２－（アジドメチル）－１－Ｂｏｃ－ピロリジン、４－アジドアニリン、または４－アジド－ブタン－１－酸Ｎ－ヒドロキシスクシンイミドエステル）と組み合わせた化学反応対などの化学反応対スペーサー；ＰＥＧ（例えば、ＳＭ（ＰＥＧ）ｎＮＨＳ－ＰＥＧ－マレイミド）、アルカン鎖（例えば、３－（ピリジン－２－イルジスルファニル）プロピオン酸－Ｏｓｕ、またはスルホスクシンイミジル６－（３’－［２－ピリジルジチオ］－プロピオンアミド）ヘキサノエート））であるスペーサーなど、チオール反応性のスペーサー；およびアミノ修飾剤（例えば、６－（トリフルオロアセチルアミノ）－ヘキシル－（２－シアノエチル）－（Ｎ，Ｎ－ジイソプロピル）－ホスホラミダイト）、チオール修飾剤（例えば、Ｓ－トリチル－６－メルカプトヘキシル－１－［（２－シアノエチル）－（Ｎ，Ｎ－ジイソプロピル）］－ホスホラミダイト、または化学反応性の対修飾剤（例えば、６－ヘキシン－１－イル－（２－シアノエチル）－（Ｎ，Ｎ－ジイソプロピル）－ホスホラミダイト、３－ジメトキシトリチルオキシ－２－（３－（３－プロパルギルオキシプロパンアミド）プロパンアミド）プロピル－１－Ｏ－スクシノイル、長鎖アルキルアミノＣＰＧ、または４－アジド－ブタン－１－酸Ｎ－ヒドロキシスクシンイミドエステル））など、オリゴヌクレオチド合成のためのアミダイトを含む。当該技術分野では、さらなるスペーサーが公知であり、ライブラリー合成時に使用されうるスペーサーは、５’－Ｏ－ジメトキシトリチル－１’，２’－ジデオキシリボース－３’－［（２－シアノエチル）－（Ｎ，Ｎ－ジイソプロピル）］－ホスホラミダイト；９－Ｏ－ジメトキシトリチル－トリエチレングリコール、１－［（２－シアノエチル）－（Ｎ，Ｎ－ジイソプロピル）］－ホスホラミダイト；３－（４，４’－ジメトキシトリチルオキシ）プロピル－１－［（２－シアノエチル）－（Ｎ，Ｎ－ジイソプロピル）］－ホスホラミダイト；および１８－Ｏ－ジメトキシトリチルヘキサエチレングリコール、１－［（２－シアノエチル）－（Ｎ，Ｎ－ジイソプロピル）］－ホスホラミダイトを含むがこれらに限定されない。本明細書におけるスペーサーのうちのいずれかを、タンデムで、互いへと、異なる組合せで付加して、異なる所望の長さのスペーサーを生成することができる。

スペーサーはまた、分枝状であることも可能であり、この場合、分枝状スペーサーは、当該技術分野で周知であり、例は、対称性もしくは非対称性のダブラー、または対称性のトレブラーからなりうる。例えば、Ｎｅｗｃｏｍｅら、「ＤｅｎｄｒｉｔｉｃＭｏｌｅｃｕｌｅｓ：Ｃｏｎｃｅｐｔｓ，Ｓｙｎｔｈｅｓｉｓ，Ｐｅｒｓｐｅｃｔｉｖｅｓ」、ＶＣＨＰｕｂｌｉｓｈｅｒｓ（１９９６）；Ｂｏｕｓｓｉｆら、Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ、９２：７２９７～７３０１（１９９５）；およびＪａｎｓｅｎら、Ｓｃｉｅｎｃｅ、２６６：１２２６（１９９４）を参照されたい。

複合体のヌクレオチド配列を決定するための方法
本発明は、アセンブルされたタグ配列の配列と、化学的実体の構造単位（またはビルディングブロック）の配列との間で、コード化関係を確立しうるように、複合体のヌクレオチド配列を決定することを含む方法を特徴とする。特に、化学的実体の識別および／または履歴を、オリゴヌクレオチド内の塩基の配列から推定することができる。この方法を使用すると、多様な化学的実体またはメンバー（例えば、低分子またはペプチド）を含むライブラリーを、特定のタグ配列でアドレス指定することができる。

本明細書で記載される連結のうちのいずれかは、可逆性の場合もあり、不可逆性の場合もある。可逆性連結は、光反応性連結（例えば、シアノビニルカルボゾール（ｃａｒｂｏｚｏｌｅ）基およびチミジン）およびレドックス連結を含む。本明細書では、さらなる連結についても記載する。

代替的な実施形態では、読取り可能な連結、または少なくとも、移動可能な連結を作出するために、「読取り不可能な」連結を、酵素的に修復することができる。当業者には、酵素的修復過程が周知であり、ピリミジン（例えば、チミジン）ダイマー修復機構（例えば、ホトリアーゼまたはグリコシラーゼ（例えば、Ｔ４ピリミジンダイマーグリコシラーゼ（ＰＤＧ））を使用する）、塩基切出し修復機構（例えば、修復のために、任意選択で、１つまたは１つより多いエンドヌクレアーゼ、ＤＮＡポリメラーゼもしくはＲＮＡポリメラーゼ、および／またはＤＮＡリガーゼもしくはＲＮＡリガーゼと組み合わされうる、グリコシラーゼ、アプリン／アピリミジン（ＡＰ）エンドヌクレアーゼ、Ｆｌａｐエンドヌクレアーゼ、またはポリＡＤＰリボースポリメラーゼ（例えば、ヒトアプリン／アピリミジン（ＡＰ）エンドヌクレアーゼ、ＡＰＥ１；エンドヌクレアーゼＩＩＩ（Ｎｔｈ）タンパク質；エンドヌクレアーゼＩＶ；エンドヌクレアーゼＶ；ホルムアミドピリミジン［ｆａｐｙ］－ＤＮＡグリコシラーゼ（Ｆｐｇ）；ヒト８－オキソグアニングリコシラーゼ１（αアイソフォーム）（ｈＯＧＧ１）；ヒトエンドヌクレアーゼＶＩＩＩ様１（ｈＮＥＩＬ１）；ウラシルＤＮＡグリコシラーゼ（ＵＤＧ）；ヒト一本鎖選択的一官能性ウラシルＤＮＡグリコシラーゼ（ＳＭＵＧ１）；およびヒトアルキルアデニンＤＮＡグリコシラーゼ（ｈＡＡＧ））を使用する）、メチル化修復機構（例えば、メチルグアニンメチルトランスフェラーゼを使用する）、ＡＰ修復機構（例えば、修復のために、任意選択で、１つまたは１つより多いエンドヌクレアーゼ、ＤＮＡポリメラーゼもしくはＲＮＡポリメラーゼ、および／またはＤＮＡリガーゼもしくはＲＮＡリガーゼと組み合わされうる、アプリン／アピリミジン（ＡＰ）エンドヌクレアーゼ（例えば、ＡＰＥ１；エンドヌクレアーゼＩＩＩ；エンドヌクレアーゼＩＶ；エンドヌクレアーゼＶ；Ｆｐｇ；ｈＯＧＧ１；およびｈＮＥＩＬ１）を使用する）、ヌクレオチド切出し修復機構（例えば、修復のために、任意選択で、１つまたは１つより多いエンドヌクレアーゼ、ＤＮＡポリメラーゼもしくはＲＮＡポリメラーゼ、および／またはＤＮＡリガーゼもしくはＲＮＡリガーゼと組み合わされうる、切出し修復のための交差相補性タンパク質または切出しヌクレアーゼを使用する）、およびミスマッチ修復機構（例えば、修復のために、任意選択で、１つまたは１つより多いエキソヌクレアーゼ、エンドヌクレアーゼ、ヘリカーゼ、ＤＮＡポリメラーゼもしくはＲＮＡポリメラーゼ、および／またはＤＮＡリガーゼもしくはＲＮＡリガーゼと組み合わされうる、エンドヌクレアーゼ（例えば、Ｔ７エンドヌクレアーゼＩ；ＭｕｔＳ、ＭｕｔＨ、および／またはＭｕｔＬ）を使用する）を含むがこれらに限定されない。これらの種類の修復機構をたやすくもたらすのに、市販の酵素混合物、例えば、ＴａｑＤＮＡリガーゼ、エンドヌクレアーゼＩＶ、ＢｓｔＤＮＡポリメラーゼ、Ｆｐｇ、ウラシルＤＮＡグリコシラーゼ（ＵＤＧ）、Ｔ４ＰＤＧ（Ｔ４エンドヌクレアーゼＶ）、およびエンドヌクレアーゼＶＩＩＩを含むＰｒｅＣＲ（登録商標）ＲｅｐａｉｒＭｉｘ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓＩｎｃ．、ＩｐｓｗｉｃｈＭＡ）が利用可能である。

ライブラリー内の化学的実体をコード化するための方法
本発明の方法は、オリゴヌクレオチドタグによりコード化される、多様な数の化学的実体を有するライブラリーを利用しうる。ビルディングブロックおよびコード化ＤＮＡタグの例は、そのビルディングブロックおよびタグが、本明細書に参照により援用される、米国特許出願公開第２００７／０２２４６０７号において見出される。

各化学的実体は、１つまたは１つより多いビルディングブロックと、任意選択で、足場とから形成される。足場は、特定の形状の、１つまたは１つより多い多様性ノード（例えば、ヘテロアリール環の近傍に空間的に配置された３つのノード、または直鎖形状をもたらすトリアジン）をもたらすのに用いられる。

ビルディングブロックおよびそれらのコード化タグを、直接的または間接的に（例えば、スペーサーを介して）、ヘッドピースへと添加して、複合体を形成することができる。ヘッドピースが、スペーサーを含む場合は、ビルディングブロックまたは足場を、スペーサーの末端へと添加する。スペーサーが存在しない場合は、ビルディングブロックを、ヘッドピースへと、直接的に添加することもでき、ビルディングブロック自体が、ヘッドピースの官能基と反応するスペーサーを含む場合もある。本明細書では、例示的スペーサーおよびヘッドピースについて記載する。

足場を、任意の有用な形で付加することができる。例えば、足場を、スペーサーまたはヘッドピースの末端へと付加することができ、後続のビルディングブロックＡ_ｎを、利用可能な足場の多様性ノードへと付加することができる。別の例では、ビルディングブロックを、まず、スペーサーまたはヘッドピースへと付加し、次いで、足場の多様性ノードＳを、ビルディングブロックＡ_ｎ内の官能基と反応させる。特定の足場をコード化するオリゴヌクレオチドタグを、任意選択で、ヘッドピースまたは複合体へと付加することができる。例えば、Ｓ_ｎを、ｎ個の反応器［ここで、ｎは、１より大きい整数である］内の複合体へと付加し、タグＳ_ｎ（すなわち、タグＳ_１、Ｓ_２、・・・、Ｓ_ｎ－１、Ｓ_ｎ）を、複合体の官能基に結合させる。

ビルディングブロックを、複数の合成工程において添加することができる。例えば、任意選択で、スペーサーを接合させた、ヘッドピースのアリコートを、ｎ個の反応器へと分割する［ここで、ｎは、２または２より大きい整数である］。第１の工程では、ビルディングブロックＡ_ｎを、各ｎ個の反応器へと添加する（すなわち、ビルディングブロックＡ_１、Ａ_２、・・・Ａ_ｎ－１、Ａ_ｎを、反応器１、２、・・・ｎ－１、ｎへと添加する）［ここで、ｎは、整数であり、各ビルディングブロックＡ_ｎは、固有である］。第２の工程では、足場Ｓを、各反応器へと添加して、Ａ_ｎ－Ｓ複合体を形成する。任意選択で、足場Ｓ_ｎを、各反応器へと添加して、Ａ_ｎ－Ｓ_ｎ複合体を形成することができる［ここで、ｎは、２より大きい整数であり、各足場Ｓ_ｎは、固有でありうる］。第３の工程では、ビルディングブロックＢ_ｎを、Ａ_ｎ－Ｓ複合体を含有する、各ｎ個の反応器へと添加する（すなわち、ビルディングブロックＢ_１、Ｂ_２、・・・Ｂ_ｎ－１、Ｂ_ｎを、Ａ_１－Ｓ、Ａ_２－Ｓ、・・・Ａ_{ｎ－１－Ｓ}、Ａ_ｎ－Ｓ複合体を含有する、反応器１、２、・・・ｎ－１、ｎへと添加する）［ここで、各ビルディングブロックＢ_ｎは、固有である］。さらなる工程では、ビルディングブロックＣ_ｎを、Ｂ_ｎ－Ａ_ｎ－Ｓ複合体を含有する、各ｎ個の反応器へと添加することができる（すなわち、ビルディングブロックＣ_１、Ｃ_２、・・・Ｃ_ｎ－１、Ｃ_ｎを、Ｂ_１－Ａ_１－Ｓ、・・・Ｂ_ｎ－Ａ_ｎ－Ｓ複合体を含有する、反応器１、２、・・・ｎ－１、ｎへと添加する）［ここで、各ビルディングブロックＣ_ｎは、固有である］。結果として得られるライブラリーは、ｎ^３のタグを有する、ｎ^３の数の複合体を有するであろう。このようにして、さらなる合成工程を使用して、さらなるビルディングブロックを結合させて、ライブラリーを、さらに多様化させることができる。

ライブラリーを形成した後で、結果として得られる複合体を、任意選択で、精製し、例えば、重合化反応またはテールピースとのライゲーション反応にかけることができる。この一般的戦略は、さらなる多様性ノードおよびビルディングブロック（例えば、Ｄ、Ｅ、Ｆなど）を含むように拡張することができる。例えば、第１の多様性ノードを、ビルディングブロックおよび／またはＳと反応させ、オリゴヌクレオチドタグによりコード化する。次いで、さらなるビルディングブロックを、結果として得られる複合体と反応させ、後続の多様性ノードを、さらなるビルディングブロックにより誘導体化し、これを、重合化反応またはライゲーション反応のために使用されるプライマーによりコード化する。

コード化されたライブラリーを形成するために、オリゴヌクレオチドタグを、各合成工程の後で、またはこの前に、複合体へと付加する。例えば、ビルディングブロックＡ_ｎの、各反応器への添加の前に、またはこの後で、タグＡ_ｎを、ヘッドピースの官能基に結合させる（すなわち、タグＡ_１、Ａ_２、・・・Ａ_ｎ－１、Ａ_ｎを、ヘッドピースを含有する反応器１、２、・・・ｎ－１、ｎへと添加する）。各タグＡ_ｎは、各固有のビルディングブロックＡ_ｎと相関する、異なる配列を有し、タグの配列を決定することにより、ビルディングブロックＡ_ｎの化学構造が提供される。このようにして、さらなるタグを使用して、さらなるビルディングブロックまたはさらなる足場をコード化する。

さらに、複合体へと付加される最後のタグは、プライマー結合配列を含むか、またはプライマー結合配列の結合（例えば、ライゲーションによる）を可能とする官能基をもたらす。複合体のオリゴヌクレオチドタグを増幅およびシーケンシングするために、プライマー結合配列を使用することができる。増幅およびシーケンシングのための例示的方法は、ポリメラーゼ連鎖反応（ＰＣＲ）、直鎖状鎖増幅（ＬＣＲ）、ローリングサークル増幅（ＲＣＡ）、または核酸配列を増幅もしくは決定するための、当該技術分野で公知である、他の任意の方法を含む。

これらの方法を使用して、多数の、コード化される化学的実体を有する、大規模なライブラリーを形成することができる。例えば、ヘッドピースを、スペーサーおよび１，０００の異なる変異体（すなわち、ｎ＝１，０００）を含む、ビルディングブロックＡ_ｎと反応させる。各ビルディングブロックＡ_ｎについて、ＤＮＡタグＡ_ｎを、ヘッドピースとライゲーションするか、またはプライマーを、ヘッドピースへと拡張する。これらの反応は、１，０００ウェルプレート内または１０×１００ウェルプレート内で実施することができる。全ての反応は、プールし、任意選択で、精製し、プレートの第２のセットへと分割することができる。次に、同じ手順を、これもまた、１，０００の異なる変異体を含む、ビルディングブロックＢ_ｎに関しても実施することができる。ＤＮＡタグＢ_ｎを、Ａ_ｎ－ヘッドピース複合体へとライゲーションし、全ての反応をプールすることができる。結果として得られるライブラリーは、１，０００，０００の異なるタグの組合せによりタグづけされた、Ａ_ｎ×Ｂ_ｎの、１，０００×１，０００の組合せ（すなわち、１，０００，０００個の化合物）を含む。同じ手法を拡張して、ビルディングブロックＣ_ｎ、Ｄ_ｎ、Ｅ_ｎなどを付加することができる。次いで、作出されたライブラリーを使用して、標的に結合する化合物を同定することができる。任意選択で、ライブラリーに結合する化学的実体の構造を、ＤＮＡタグのＰＣＲおよびシーケンシングにより評価して、エンリッチされた化合物を同定することができる。

この方法を改変して各ビルディングブロックの添加の後におけるタグづけを回避することもでき、プーリング（または混合）を回避することもできる。例えば、方法は、ビルディングブロックＡ_ｎを、ｎ個の反応器［ここで、ｎは、１より大きい整数である］へと添加し、同一なビルディングブロックＢ_１を、各反応ウェルへと添加することにより改変することができる。この場合、Ｂ_１は、各化学的実体について同一であり、したがって、このビルディングブロックをコード化するオリゴヌクレオチドタグは、必要とされない。ビルディングブロックを添加した後で、複合体をプールする場合もあり、プールしない場合もある。例えば、ビルディングブロック添加の最終工程の後では、ライブラリーをプールせず、プールは、標的に結合する化合物を同定するように、個別にスクリーニングする。合成後における、全ての反応物のプーリングを回避するために、例えば、結合アッセイ、例えば、ＥＬＩＳＡ、ＳＰＲ、ＩＴＣ、Ｔｍシフト、ＳＥＣ、または類似のアッセイを使用して、ハイスループットフォーマット（例えば、３８４ウェルプレートおよび１，５３６ウェルプレート）内のセンサー表面における結合をモニタリングすることができる。例えば、ビルディングブロックＡ_ｎは、ＤＮＡタグＡ_ｎによりコード化することができ、ビルディングブロックＢ_ｎは、ウェルプレート内のその位置によりコード化することができる。次いで、結合アッセイ（例えば、ＥＬＩＳＡ、ＳＰＲ、ＩＴＣ、Ｔｍシフト、ＳＥＣ、または類似のアッセイ）を使用し、シーケンシング、マイクロアレイ解析、および／または制限消化分析を介して、タグを分析することにより、候補化合物を同定することができる。この分析は、所望の分子をもたらす、ビルディングブロックＡ_ｎとビルディングブロックＢ_ｎとの組合せの同定を可能とする。

増幅法は、任意選択で、油中水エマルジョンを形成して、複数の水性マイクロリアクターを創出することを含みうる。反応条件（例えば、複合体の濃度、およびマイクロリアクターのサイズ）は、平均で、化合物ライブラリーの、少なくとも１つのメンバーを有するマイクロリアクターをもたらすように調整することができる。各マイクロリアクターはまた、標的、複合体または複合体の部分（例えば、１つまたは１つより多いタグ）および／または結合標的への結合が可能な、単一のビーズ、ならびに核酸増幅を実施するのに必要な、１つまたは１つより多い試薬を有する増幅反応溶液も含有しうる。マイクロリアクター内のタグを増幅した後で、増幅されたタグのコピーは、マイクロリアクター内のビーズに結合し、コーティングされたビーズは、任意の有用な方法により同定することができる。

目的の標的に結合する、第１のライブラリーに由来するビルディングブロックを同定したら、第２のライブラリーを、反復により調製することができる。例えば、１つまたは２つの、さらなる多様性ノードを付加することができ、本明細書で記載される通りに、第２のライブラリーを作製およびサンプリングする。この過程は、所望の分子特性および薬学的特性を伴う分子を創出するのに必要なだけの多数回にわたり反復することができる。

多様なライゲーション法を使用して、足場、ビルディングブロック、スペーサー、連結、およびタグを付加することができる。したがって、本明細書で記載される結合工程のうちのいずれかは、１つまたは複数の、任意の有用なライゲーション法を含みうる。例示的なライゲーション法は、本明細書で記載される、１つまたは１つより多いＲＮＡリガーゼおよび／またはＤＮＡリガーゼの使用などの酵素的ライゲーション；および本明細書で記載される、化学反応対の使用などの化学的ライゲーションを含む。

スクリーニング法
例えば、Ｋｄを決定することにより、化合物の、タンパク質への結合を決定するための、複数の確立された技術的方法が存在する。化合物の、標的タンパク質への結合を検出または定量化するための方法は、例えば、吸光度、蛍光、ラマン散乱、リン発光、発光、ルシフェラーゼアッセイ、および放射能を含む。例示的技法は、表面プラズモン共鳴（ＳＰＲ）および蛍光偏光（ＦＰ）を含む。ＳＰＲは、化合物が、この金属表面上に固定化されているタンパク質に結合するときの、金属表面の反射率の変化を測定するのに対し、ＦＰは、入射光の偏光喪失を使用して、化合物について、それがタンパク質に結合したときのタンブリング速度の変化を測定する。一部の実施形態では、本発明の方法を使用して、標的タンパク質に結合することが予測される候補化合物の結合を、実験により決定するのに、これらの方法を使用することができる。

代替的に、アフィニティーベースの方法を使用して、標的タンパク質に結合する化合物を同定することもできる。例えば、アフィニティータグ（例えば、ポリＨｉｓタグ）を伴う標的タンパク質を、飽和濃度の、１つまたは１つより多い候補化合物と共にプレインキュベートすることができる。後続のアフィニティー精製および化合物同定（例えば、識別タグの利用を介する）は、標的タンパク質に結合する化合物の同定を可能とするであろう。

標的タンパク質
標的タンパク質（例えば、哺乳動物標的タンパク質もしくは真菌標的タンパク質などの真核生物標的タンパク質、または細菌標的タンパク質などの原核生物標的タンパク質）とは、疾患状態または疾患状態の症候を媒介するタンパク質である。こうして、所望の治療効果は、その活性をモジュレートすること（阻害するか、または増大させること）により達成することができる。

標的タンパク質は、天然に存在するタンパク質、例えば、野生型タンパク質でありうる。代替的に、標的タンパク質は、例えば対立遺伝子変異体、スプライス突然変異体または生物学的に活性の断片であり、野生型タンパク質とは異なりうるが、なおも生物学的機能を保持する。

一部の実施形態では、標的タンパク質は、酵素（例えば、キナーゼ）である。一部の実施形態では、標的タンパク質は、膜貫通タンパク質である。一部の実施形態では、標的タンパク質は、コイルドコイル構造を有する。ある特定の実施形態では、標的タンパク質は、ダイマー複合体による、１つのタンパク質である。

一部の実施形態では、標的タンパク質は、ＤＩＲＡＳ１、ＤＩＲＡＳ２、ＤＩＲＡＳ３、ＥＲＡＳ、ＧＥＭ、ＨＲＡＳ、ＫＲＡＳ、ＭＲＡＳ、ＮＫＩＲＡＳ１、ＮＫＩＲＡＳ２、ＮＲＡＳ、ＲＡＬＡ、ＲＡＬＢ、ＲＡＰ１Ａ、ＲＡＰ１Ｂ、ＲＡＰ２Ａ、ＲＡＰ２Ｂ、ＲＡＰ２Ｃ、ＲＡＳＤ１、ＲＡＳＤ２、ＲＡＳＬ１０Ａ、ＲＡＳＬ１０Ｂ、ＲＡＳＬ１１Ａ、ＲＡＳＬ１１Ｂ、ＲＡＳＬ１２、ＲＥＭ１、ＲＥＭ２、ＲＥＲＧ、ＲＥＲＧＬ、ＲＲＡＤ、ＲＲＡＳ、ＲＲＡＳ２、ＲＨＯＡ、ＲＨＯＢ、ＲＨＯＢＴＢ１、ＲＨＯＢＴＢ２、ＲＨＯＢＴＢ３、ＲＨＯＣ、ＲＨＯＤ、ＲＨＯＦ、ＲＨＯＧ、ＲＨＯＨ、ＲＨＯＪ、ＲＨＯＱ、ＲＨＯＵ、ＲＨＯＶ、ＲＮＤ１、ＲＮＤ２、ＲＮＤ３、ＲＡＣ１、ＲＡＣ２、ＲＡＣ３、ＣＤＣ４２、ＲＡＢ１Ａ、ＲＡＢ１Ｂ、ＲＡＢ２、ＲＡＢ３Ａ、ＲＡＢ３Ｂ、ＲＡＢ３Ｃ、ＲＡＢ３Ｄ、ＲＡＢ４Ａ、ＲＡＢ４Ｂ、ＲＡＢ５Ａ、ＲＡＢ５Ｂ、ＲＡＢ５Ｃ、ＲＡＢ６Ａ、ＲＡＢ６Ｂ、ＲＡＢ６Ｃ、ＲＡＢ７Ａ、ＲＡＢ７Ｂ、ＲＡＢ７Ｌ１、ＲＡＢ８Ａ、ＲＡＢ８Ｂ、ＲＡＢ９、ＲＡＢ９Ｂ、ＲＡＢＬ２Ａ、ＲＡＢＬ２Ｂ、ＲＡＢＬ４、ＲＡＢ１０、ＲＡＢ１１Ａ、ＲＡＢ１１Ｂ、ＲＡＢ１２、ＲＡＢ１３、ＲＡＢ１４、ＲＡＢ１５、ＲＡＢ１７、ＲＡＢ１８、ＲＡＢ１９、ＲＡＢ２０、ＲＡＢ２１、ＲＡＢ２２Ａ、ＲＡＢ２３、ＲＡＢ２４、ＲＡＢ２５、ＲＡＢ２６、ＲＡＢ２７Ａ、ＲＡＢ２７Ｂ、ＲＡＢ２８、ＲＡＢ２Ｂ、ＲＡＢ３０、ＲＡＢ３１、ＲＡＢ３２、ＲＡＢ３３Ａ、ＲＡＢ３３Ｂ、ＲＡＢ３４、ＲＡＢ３５、ＲＡＢ３６、ＲＡＢ３７、ＲＡＢ３８、ＲＡＢ３９、ＲＡＢ３９Ｂ、ＲＡＢ４０Ａ、ＲＡＢ４０ＡＬ、ＲＡＢ４０Ｂ、ＲＡＢ４０Ｃ、ＲＡＢ４１、ＲＡＢ４２、ＲＡＢ４３、ＲＡＰ１Ａ、ＲＡＰ１Ｂ、ＲＡＰ２Ａ、ＲＡＰ２Ｂ、ＲＡＰ２Ｃ、ＡＲＦ１、ＡＲＦ３、ＡＲＦ４、ＡＲＦ５、ＡＲＦ６、ＡＲＬ１、ＡＲＬ２、ＡＲＬ３、ＡＲＬ４、ＡＲＬ５、ＡＲＬ５Ｃ、ＡＲＬ６、ＡＲＬ７、ＡＲＬ８、ＡＲＬ９、ＡＲＬ１０Ａ、ＡＲＬ１０Ｂ、ＡＲＬ１０Ｃ、ＡＲＬ１１、ＡＲＬ１３Ａ、ＡＲＬ１３Ｂ、ＡＲＬ１４、ＡＲＬ１５、ＡＲＬ１６、ＡＲＬ１７、ＴＲＩＭ２３、ＡＲＬ４Ｄ、ＡＲＦＲＰ１、ＡＲＬ１３Ｂ、ＲＡＮ、ＲＨＥＢ、ＲＨＥＢＬ１、ＲＲＡＤ、ＧＥＭ、ＲＥＭ、ＲＥＭ２、ＲＩＴ１、ＲＩＴ２、ＲＨＯＴ１、またはＲＨＯＴ２などのＧＴＰアーゼである。一部の実施形態では、標的タンパク質は、ＮＦ１、ＩＱＧＡＰ１、ＰＬＥＸＩＮ－Ｂ１、ＲＡＳＡＬ１、ＲＡＳＡＬ２、ＡＲＨＧＡＰ５、ＡＲＨＧＡＰ８、ＡＲＨＧＡＰ１２、ＡＲＨＧＡＰ２２、ＡＲＨＧＡＰ２５、ＢＣＲ、ＤＬＣ１、ＤＬＣ２、ＤＬＣ３、ＧＲＡＦ、ＲＡＬＢＰ１、ＲＡＰ１ＧＡＰ、ＳＩＰＡ１、ＴＳＣ２、ＡＧＡＰ２、ＡＳＡＰ１、またはＡＳＡＰ３などのＧＴＰアーゼ活性化タンパク質である。一部の実施形態では、標的タンパク質は、ＣＮＲＡＳＧＥＦ、ＲＡＳＧＥＦ１Ａ、ＲＡＳＧＲＦ２、ＲＡＳＧＲＰ１、ＲＡＳＧＲＰ４、ＳＯＳ１、ＲＡＬＧＤＳ、ＲＧＬ１、ＲＧＬ２、ＲＧＲ、ＡＲＨＧＥＦ１０、ＡＳＥＦ／ＡＲＨＧＥＦ４、ＡＳＥＦ２、ＤＢＳ、ＥＣＴ２、ＧＥＦ－Ｈ１、ＬＡＲＧ、ＮＥＴ１、ＯＢＳＣＵＲＩＮ、Ｐ－ＲＥＸ１、Ｐ－ＲＥＸ２、ＰＤＺ－ＲＨＯＧＥＦ、ＴＥＭ４、ＴＩＡＭ１、ＴＲＩＯ、ＶＡＶ１、ＶＡＶ２、ＶＡＶ３、ＤＯＣＫ１、ＤＯＣＫ２、ＤＯＣＫ３、ＤＯＣＫ４、ＤＯＣＫ８、ＤＯＣＫ１０、Ｃ３Ｇ、ＢＩＧ２／ＡＲＦＧＥＦ２、ＥＦＡ６、ＦＢＸ８、またはＧＥＰ１００などのグアニンヌクレオチド交換因子である。ある特定の実施形態では、標的タンパク質は、ＡＲＭ；ＢＡＲ；ＢＥＡＣＨ；ＢＨ；ＢＩＲ；ＢＲＣＴ；ＢＲＯＭＯ；ＢＴＢ；Ｃ１；Ｃ２；ＣＡＲＤ；ＣＣ；ＣＡＬＭ；ＣＨ；ＣＨＲＯＭＯ；ＣＵＥ；ＤＥＡＴＨ；ＤＥＤ；ＤＥＰ；ＤＨ；ＥＦハンド；ＥＨ；ＥＮＴＨ；ＥＶＨ１；Ｆボックス；ＦＥＲＭ；ＦＦ；ＦＨ２；ＦＨＡ；ＦＹＶＥ；ＧＡＴ；ＧＥＬ；ＧＬＵＥ；ＧＲＡＭ；ＧＲＩＰ；ＧＹＦ；ＨＥＡＴ；ＨＥＣＴ；ＩＱ；ＬＲＲ；ＭＢＴ；ＭＨ１；ＭＨ２；ＭＩＵ；ＮＺＦ；ＰＡＳ；ＰＢ１；ＰＤＺ；ＰＨ；ＰＯＬＯボックス；ＰＴＢ；ＰＵＦ；ＰＷＷＰ；ＰＸ；ＲＧＳ；ＲＩＮＧ；ＳＡＭ；ＳＣ；ＳＨ２；ＳＨ３；ＳＯＣＳ；ＳＰＲＹ；ＳＴＡＲＴ；ＳＷＩＲＭ；ＴＩＲ；ＴＰＲ；ＴＲＡＦ；ＳＮＡＲＥ；ＴＵＢＢＹ；ＴＵＤＯＲ；ＵＢＡ；ＵＥＶ；ＵＩＭ；ＶＨＬ；ＶＨＳ；ＷＤ４０；ＷＷ；ＳＨ２；ＳＨ３；ＴＲＡＦ；ブロモドメイン；またはＴＰＲなどのタンパク質間相互作用ドメインを伴うタンパク質である。一部の実施形態では、標的タンパク質は、Ｈｓｐ２０、Ｈｓｐ２７、Ｈｓｐ７０、Ｈｓｐ８４、アルファＢクリスタリン、ＴＲＡＰ－１、ｈｓｆ１、またはＨｓｐ９０などの熱ショックタンパク質である。ある特定の実施形態では、標的タンパク質は、Ｃａｖ２．２、Ｃａｖ３．２、ＩＫＡＣｈ、Ｋｖ１．５、ＴＲＰＡ１、ＮＡｖ１．７、Ｎａｖ１．８、Ｎａｖ１．９、Ｐ２Ｘ３、またはＰ２Ｘ４などのイオンチャネルである。一部の実施形態では、標的タンパク質は、ジェミニン、ＳＰＡＧ４、ＶＡＶ１、ＭＡＤ１、ＲＯＣＫ１、ＲＮＦ３１、ＮＥＤＰ１、ＨＣＣＭ、ＥＥＡ１、ビメンチン、ＡＴＦ４、Ｎｅｍｏ、ＳＮＡＰ２５、シンタキシン１ａ、ＦＹＣＯ１、またはＣＥＰ２５０などのコイルドコイルタンパク質である。ある特定の実施形態では、標的タンパク質は、ＡＢＬ、ＡＬＫ、ＡＸＬ、ＢＴＫ、ＥＧＦＲ、ＦＭＳ、ＦＡＫ、ＦＧＦＲ１、２、３、４、ＦＬＴ３、ＨＥＲ２／ＥｒｂＢ２、ＨＥＲ３／ＥｒｂＢ３、ＨＥＲ４／ＥｒｂＢ４、ＩＧＦ１Ｒ、ＩＮＳＲ、ＪＡＫ１、ＪＡＫ２、ＪＡＫ３、ＫＩＴ、ＭＥＴ、ＰＤＧＦＲＡ、ＰＤＧＦＲＢ、ＲＥＴＲＯＮ、ＲＯＲ１、ＲＯＲ２、ＲＯＳ、ＳＲＣ、ＳＹＫ、ＴＩＥ１、ＴＩＥ２、ＴＲＫＡ、ＴＲＫＢ、ＫＤＲ、ＡＫＴ１、ＡＫＴ２、ＡＫＴ３、ＰＤＫ１、ＰＫＣ、ＲＨＯ、ＲＯＣＫ１、ＲＳＫ１、ＲＫＳ２、ＲＫＳ３、ＡＴＭ、ＡＴＲ、ＣＤＫ１、ＣＤＫ２、ＣＤＫ３、ＣＤＫ４、ＣＤＫ５、ＣＤＫ６、ＣＤＫ７、ＣＤＫ８、ＣＤＫ９、ＣＤＫ１０、ＥＲＫ１、ＥＲＫ２、ＥＲＫ３、ＥＲＫ４、ＧＳＫ３Ａ、ＧＳＫ３Ｂ、ＪＮＫ１、ＪＮＫ２、ＪＮＫ３、ＡｕｒＡ、ＡＲｕＢ、ＰＬＫ１、ＰＬＫ２、ＰＬＫ３、ＰＬＫ４、ＩＫＫ、ＫＩＮ１、ｃＲａｆ、ＰＫＮ３、ｃ－Ｓｒｃ、Ｆａｋ、ＰｙＫ２、またはＡＭＰＫなどのキナーゼである。一部の実施形態では、標的タンパク質は、ＷＩＰ１、ＳＨＰ２、ＳＨＰ１、ＰＲＬ－３、ＰＴＰ１Ｂ、またはＳＴＥＰなどのホスファターゼである。ある特定の実施形態では、標的タンパク質は、ＢＭＩ－１、ＭＤＭ２、ＮＥＤＤ４－１、ベータ－ＴＲＣＰ、ＳＫＰ２、Ｅ６ＡＰ、またはＡＰＣ／Ｃなどのユビキチンリガーゼである。一部の実施形態では、標的タンパク質は、遺伝子である、ＢＲＧ１、ＢＲＭ、ＡＴＲＸ、ＰＲＤＭ３、ＡＳＨ１Ｌ、ＣＢＰ、ＫＡＴ６Ａ、ＫＡＴ６Ｂ、ＭＬＬ、ＮＳＤ１、ＳＥＴＤ２、ＥＰ３００、ＫＡＴ２Ａ、またはＣＲＥＢＢＰによりコード化されるクロマチン修飾剤／リモデラーなどのクロマチン修飾剤／リモデラーである。一部の実施形態では、標的タンパク質は、遺伝子である、ＥＨＦ、ＥＬＦ１、ＥＬＦ３、ＥＬＦ４、ＥＬＦ５、ＥＬＫ１、ＥＬＫ３、ＥＬＫ４、ＥＲＦ、ＥＲＧ、ＥＴＳ１、ＥＴＶ１、ＥＴＶ２、ＥＴＶ３、ＥＴＶ４、ＥＴＶ５、ＥＴＶ６、ＦＥＶ、ＦＬＩ１、ＧＡＶＰＡ、ＳＰＤＥＦ、ＳＰＩ１、ＳＰＩＣ、ＳＰＩＢ、Ｅ２Ｆ１、Ｅ２Ｆ２、Ｅ２Ｆ３、Ｅ２Ｆ４、Ｅ２Ｆ７、Ｅ２Ｆ８、ＡＲＮＴＬ、ＢＨＬＨＡ１５、ＢＨＬＨＢ２、ＢＨＬＢＨＢ３、ＢＨＬＨＥ２２、ＢＨＬＨＥ２３、ＢＨＬＨＥ４１、ＣＬＯＣＫ、ＦＩＧＬＡ、ＨＡＳ５、ＨＥＳ７、ＨＥＹ１、ＨＥＹ２、ＩＤ４、ＭＡＸ、ＭＥＳＰ１、ＭＬＸ、ＭＬＸＩＰＬ、ＭＮＴ、ＭＳＣ、ＭＹＦ６、ＮＥＵＲＯＤ２、ＮＥＵＲＯＧ２、ＮＨＬＨ１、ＯＬＩＧ１、ＯＬＩＧ２、ＯＬＩＧ３、ＳＲＥＢＦ２、ＴＣＦ３、ＴＣＦ４、ＴＦＡＰ４、ＴＦＥ３、ＴＦＥＢ、ＴＦＥＣ、ＵＳＦ１、ＡＲＦ４、ＡＴＦ７、ＢＡＴＦ３、ＣＥＢＰＢ、ＣＥＢＰＤ、ＣＥＢＰＧ、ＣＲＥＢ３、ＣＲＥＢ３Ｌ１、ＤＢＰ、ＨＬＦ、ＪＤＰ２、ＭＡＦＦ、ＭＡＦＧ、ＭＡＦＫ、ＮＲＬ、ＮＦＥ２、ＮＦＩＬ３、ＴＥＦ、ＸＢＰ１、ＰＲＯＸ１、ＴＥＡＤ１、ＴＥＡＤ３、ＴＥＡＤ４、ＯＮＥＣＵＴ３、ＡＬＸ３、ＡＬＸ４、ＡＲＸ、ＢＡＲＨＬ２、ＢＡＲＸ、ＢＳＸ、ＣＡＲＴ１、ＣＤＸ１、ＣＤＸ２、ＤＬＸ１、ＤＬＸ２、ＤＬＸ３、ＤＬＸ４、ＤＬＸ５、ＤＬＸ６、ＤＭＢＸ１、ＤＰＲＸ、ＤＲＧＸ、ＤＵＸＡ、ＥＭＸ１、ＥＭＸ２、ＥＮ１、ＥＮ２、ＥＳＸ１、ＥＶＸ１、ＥＶＸ２、ＧＢＸ１、ＧＢＸ２、ＧＳＣ、ＧＳＣ２、ＧＳＸ１、ＧＳＸ２、ＨＥＳＸ１、ＨＭＸ１、ＨＭＸ２、ＨＭＸ３、ＨＮＦ１Ａ、ＨＮＦ１Ｂ、ＨＯＭＥＺ、ＨＯＸＡ１、ＨＯＸＡ１０、ＨＯＸＡ１３、ＨＯＸＡ２、ＨＯＸＡＢ１３、ＨＯＸＢ２、ＨＯＸＢ３、ＨＯＸＢ５、ＨＯＸＣ１０、ＨＯＸＣ１１、ＨＯＸＣ１２、ＨＯＸＣ１３、ＨＯＸＤ１１、ＨＯＸＤ１２、ＨＯＸＤ１３、ＨＯＸＤ８、ＩＲＸ２、ＩＲＸ５、ＩＳＬ２、ＩＳＸ、ＬＢＸ２、ＬＨＸ２、ＬＨＸ６、ＬＨＸ９、ＬＭＸ１Ａ、ＬＭＸ１Ｂ、ＭＥＩＳ１、ＭＥＩＳ２、ＭＥＩＳ３、ＭＥＯＸ１、ＭＥＯＸ２、ＭＩＸＬ１、ＭＮＸ１、ＭＳＸ１、ＭＳＸ２、ＮＫＸ２－３、ＮＫＸ２－８、ＮＫＸ３－１、ＮＫＸ３－２、ＮＫＸ６－１、ＮＫＸ６－２、ＮＯＴＯ、ＯＮＥＣＵＴ１、ＯＮＥＣＵＴ２、ＯＴＸ１、ＯＴＸ２、ＰＤＸ１、ＰＨＯＸ２Ａ、ＰＨＯＸ２Ｂ、ＰＩＴＸ１、ＰＩＴＸ３、ＰＫＮＯＸ１、ＰＲＯＰ１、ＰＲＲＸ１、ＰＲＲＸ２、ＲＡＸ、ＲＡＸＬ１、ＲＨＯＸＦ１、ＳＨＯＸ、ＳＨＯＸ２、ＴＧＩＦ１、ＴＧＩＦ２、ＴＧＩＦ２ＬＸ、ＵＮＣＸ、ＶＡＸ１、ＶＡＸ２、ＶＥＮＴＸ、ＶＳＸ１、ＶＳＸ２、ＣＵＸ１、ＣＵＸ２、ＰＯＵ１Ｆ１、ＰＯＵ２Ｆ１、ＰＯＵ２Ｆ２、ＰＯＵ２Ｆ３、ＰＯＵ３Ｆ１、ＰＯＵ３Ｆ２、ＰＯＵ３Ｆ３、ＰＯＵ３Ｆ４、ＰＯＵ４Ｆ１、ＰＯＵ４Ｆ２、ＰＯＵ４Ｆ３、ＰＯＵ５Ｆ１Ｐ１、ＰＯＵ６Ｆ２、ＲＦＸ２、ＲＦＸ３、ＲＦＸ４、ＲＦＸ５、ＴＦＡＰ２Ａ、ＴＦＡＰ２Ｂ、ＴＦＡＰ２Ｃ、ＧＲＨＬ１、ＴＦＣＰ２、ＮＦＩＡ、ＮＦＩＢ、ＮＦＩＸ、ＧＣＭ１、ＧＣＭ２、ＨＳＦ１、ＨＳＦ２、ＨＳＦ４、ＨＳＦＹ２、ＥＢＦ１、ＩＲＦ３、ＩＲＦ４、ＩＲＦ５、ＩＲＦ７、ＩＲＦ８、ＩＲＦ９、ＭＥＦ２Ａ、ＭＥＦ２Ｂ、ＭＥＦ２Ｄ、ＳＲＦ、ＮＲＦ１、ＣＰＥＢ１、ＧＭＥＢ２、ＭＹＢＬ１、ＭＹＢＬ２、ＳＭＡＤ３、ＣＥＮＰＢ、ＰＡＸ１、ＰＡＸ２、ＰＡＸ９、ＰＡＸ３、ＰＡＸ４、ＰＡＸ５、ＰＡＸ６、ＰＡＸ７、ＢＣＬ６Ｂ、ＥＧＲ１、ＥＧＲ２、ＥＧＲ３、ＥＧＲ４、ＧＬＩＳ１、ＧＬＩＳ２、ＧＬＩ２、ＧＬＩＳ３、ＨＩＣ２、ＨＩＮＦＰ１、ＫＬＦ１３、ＫＬＦ１４、ＫＬＦ１６、ＭＴＦ１、ＰＲＤＭ１、ＰＲＤＭ４、ＳＣＲＴ１、ＳＣＲＴ２、ＳＮＡＩ２、ＳＰ１、ＳＰ３、ＳＰ４、ＳＰ８、ＹＹ１、ＹＹ２、ＺＢＥＤ１、ＺＢＴＢ７Ａ、ＺＢＴＢ７Ｂ、ＺＢＴＢ７Ｃ、ＺＩＣ１、ＺＩＣ３、ＺＩＣ４、ＺＮＦ１４３、ＺＮＦ２３２、ＺＮＦ２３８、ＺＮＦ２８２、ＺＮＦ３０６、ＺＮＦ４１０、ＺＮＦ４３５、ＺＢＴＢ４９、ＺＮＦ５２４、ＺＮＦ７１３、ＺＮＦ７４０、ＺＮＦ７５Ａ、ＺＮＦ７８４、ＺＳＣＡＮ４、ＣＴＣＦ、ＬＥＦ１、ＳＯＸ１０、ＳＯＸ１４、ＳＯＸ１５、ＳＯＸ１８、ＳＯＸ２、ＳＯＸ２１、ＳＯＸ４、ＳＯＸ７、ＳＯＸ８、ＳＯＸ９、ＳＲＹ、ＴＣＦ７Ｌ１、ＦＯＸＯ３、ＦＯＸＢ１、ＦＯＸＣ１、ＦＯＸＣ２、ＦＯＸＤ２、ＦＯＸＤ３、ＦＯＸＧ１、ＦＯＸＩ１、ＦＯＸＪ２、ＦＯＸＪ３、ＦＯＸＫ１、ＦＯＸＬ１、ＦＯＸＯ１、ＦＯＸＯ４、ＦＯＸＯ６、ＦＯＸＰ３、ＥＯＭＥＳ、ＭＧＡ、ＮＦＡＴ５、ＮＦＡＴＣ１、ＮＦＫＢ１、ＮＦＫＢ２、ＴＰ６３、ＲＵＮＸ２、ＲＵＮＸ３、Ｔ、ＴＢＲ１、ＴＢＸ１、ＴＢＸ１５、
ＴＢＸ１９、ＴＢＸ２、ＴＢＸ２０、ＴＢＸ２１、ＴＢＸ４、ＴＢＸ５、ＡＲ、ＥＳＲ１、ＥＳＲＲＡ、ＥＳＲＲＢ、ＥＳＲＲＧ、ＨＮＦ４Ａ、ＮＲ２Ｃ２、ＮＲ２Ｅ１、ＮＲ２Ｆ１、ＮＲ２Ｆ６、ＮＲ３Ｃ１、ＮＲ３Ｃ２、ＮＲ４Ａ２、ＲＡＲＡ、ＲＡＲＢ、ＲＡＲＧ、ＲＯＲＡ、ＲＸＲＡ、ＲＸＲＢ、ＲＸＲＧ、ＴＨＲＡ、ＴＨＲＢ、ＶＤＲ、ＧＡＴＡ３、ＧＡＴＡ４、またはＧＡＴＡ５、またはＣ－ｍｙｃ、Ｍａｘ、Ｓｔａｔ３、アンドロゲン受容体、Ｃ－Ｊｕｎ、Ｃ－Ｆｏｘ、Ｎ－Ｍｙｃ、Ｌ－Ｍｙｃ、ＭＩＴＦ、Ｈｉｆ－１アルファ、Ｈｉｆ－２アルファ、Ｂｃｌ６、Ｅ２Ｆ１、ＮＦ－カッパＢ、Ｓｔａｔ５、またはＥＲ（ｃｏａｃｔ）によりコード化される転写因子などの転写因子である。ある特定の実施形態では、標的タンパク質は、ＴｒｋＡ、Ｐ２Ｙ１４、ｍＰＥＧＳ、ＡＳＫ１、ＡＬＫ、Ｂｃｌ－２、ＢＣＬ－ＸＬ、ｍＳＩＮ１、ＲＯＲγｔ、ＩＬ１７ＲＡ、ｅＩＦ４Ｅ、ＴＬＲ７Ｒ、ＰＣＳＫ９、ＩｇＥＲ、ＣＤ４０、ＣＤ４０Ｌ、Ｓｈｎ－３、ＴＮＦＲ１、ＴＮＦＲ２、ＩＬ３１ＲＡ、ＯＳＭＲ、ＩＬ１２β１、２、タウ、ＦＡＳＮ、ＫＣＴＤ６、ＫＣＴＤ９、Ｒａｐｔｏｒ、Ｒｉｃｔｏｒ、ＲＡＬＧＡＰＡ、ＲＡＬＧＡＰＢ、アネキシンファミリーメンバー、ＢＣＯＲ、ＮＣＯＲ、ベータカテニン、ＡＡＣ１１、ＰＬＤ１、ＰＬＤ２、Ｆｒｉｚｚｌｅｄ７、ＲａＬＰ、，ＭＬＬ－１、Ｍｙｂ、Ｅｚｈ２、ＲｈｏＧＤ１２、ＥＧＦＲ、ＣＴＬＡ４Ｒ、ＧＣＧＣ（ｃｏａｃｔ）、ＡｄｉｐｏｎｅｃｔｉｎＲ２、ＧＰＲ８１、ＩＭＰＤＨ２、ＩＬ－４Ｒ、ＩＬ－１３Ｒ、ＩＬ－１Ｒ、ＩＬ２－Ｒ、ＩＬ－６Ｒ、ＩＬ－２２Ｒ、ＴＮＦ－Ｒ、ＴＬＲ４、Ｎｒｌｐ３、またはＯＴＲである。

バーチャルスクリーニング法
データの収集および統計の生成
一部の実施形態では、本発明バーチャルスクリーニング法における工程は、標的タンパク質に対する、ＤＮＡコード化ライブラリー選択実験（例えば、アフィニティーベースの実験）に由来するデータの収集を伴う。選択データを、ＤＮＡ配列として読み出し、次いで、統計学的に読出し、例えば、配列カウントへと集約する。統計への集約は、一般的なコード化化合物、例えば、ＤＮＡによりコード化される推定化学構造（インスタンスレベル）、またはこのコード化された化学反応の、部分的亜構造（モノシントン、ジシントン、またはトリシントンのレベル）を群分けすることに基づく。化合物または部分的化合物が、標的に結合するのかどうか（結合剤であるのかどうか）の決定は、１つまたは１つより多い選択条件から、シーケンシングにより導出される統計についてのカットオフ値を使用して下す。真の、基底をなす低分子／タンパク質結合を反映する、有意な統計を収集するために、選択条件１つ当たり数百万～数千万（なおまたは数億）の配列を使用する。

機械学習
当該技術分野では、機械学習法が公知であり、例えば、非限定的な機械学習法は、ナイーブベイズ、ランダムフォレスト、決定木、サポートベクターマシン、ニューラルネット、およびディープラーニングを含む。

一部の実施形態では、データ収集工程に由来する各データ点を、機械学習アルゴリズムのトレーニングに使用する。各データ点は、ＤＮＡコード化ライブラリーからの、分子化合物の構造（完全なまたは部分的な）、および１つまたは１つより多い選択実験からの、関連する統計に由来する情報を含む。構造を使用して、数値入力（計算された化学的特性、例えば、分子量、ｃＬｏｇＰ）、および二進列（例えば、原子、原子群、および構造内の接続性を反映する化学フィンガープリント）を生成する。これらの分子の計算された読出しを、機械学習アルゴリズムのトレーニングおよびこれによる予測のための入力列として使用する。一部の実施形態では、要求される唯一の入力が、分子の構造に直接的に由来する入力であるように、モデルを構築する。一部の実施形態では、これらのフィンガープリントおよび特性を計算しうる任意の構造は、予測を生成しうる。

一部の実施形態では、化合物をさらなる構造的誘導体（例えば、側鎖を除去するコア解析）を使用して、トレーニングおよび予測に使用される、さらなるフィンガープリントおよび特性計算、または代替的な構造的フィンガープリントをもたらすことができる。

一部の実施形態では、１つまたは１つより多いＤＮＡコード化ライブラリーの選択に由来するデータを使用して、分子が、結合剤（陽性）の例を表現するとみなされるのか、非結合剤（陰性）の例を表現するとみなされるのか、非特異的な結合剤（陰性）の例を表現するとみなされるのかを評価する。評価（陽性または陰性）が、少なくとも１つのＤＮＡコード化ライブラリーの選択における、コード化された分子の行動に基づくのに対し、他の供給源からのさらなる情報を使用して、トレーニングに使用される陽性および陰性の分類を評価しうるであろう。さらに注目すべきことに、ライブラリー内で合成されたことが既知であるが、シーケンシングによるカウントを呈さない分子の構造は、トレーニングにおいて、陰性例であると考えられる。一部の実施形態では、ポジティブコントロールを、データセット内に組み入れる。例えば、標的タンパク質に対する、公知の結合アフィニティー（例えば、公知の阻害剤または天然のリガンド）を伴う化合物からの結合相互作用データは、組み入れることができる。

一実施形態では、入力分子についての結合の評価は、標的タンパク質を含有する選択における、統計学的に有意なエンリッチメント（配列カウントの増大）の検出を介して決定する。標的タンパク質が含まれないコントロール条件下のエンリッチメントもまた、結合の特異性を評価するのに使用する。この条件は一般に、選択時にタンパク質を捕捉するために使用される樹脂を含むが、タンパク質の添加は伴わない。さらなる情報、例えば、さらなる条件下、または類縁タンパク質に対して選択された場合におけるエンリッチメントまたは非エンリッチメントを、特定の分子または部分的分子を、陽性として表現することの決定において使用することができる。多数の非標的タンパク質に対する選択に由来する情報、例えば、所与の分子または部分的な分子が、それらに対する選択におけるエンリッチメントを裏付けるタンパク質の総数のカウントもまた、使用することができる。例えば、データベース内の、いくつかのさらなる標的に対する、所与の分子のエンリッチメントの検出は、特異性の欠如に起因する、陰性の指定をもたらしうる。

分子表現
本発明の一部の実施形態では、分子表現を使用して、推定される結合計算を生成する。分子表現は、例えば、トポロジカル表現、静電表現、幾何学表現、または量子化学表現を含む。トポロジカル表現は、原子、特徴または官能基、およびそれらの接続性（例えば、フィンガープリント、接続表、分子接続性、および／または分子グラフ表現）に基づきうる。静電表現は、例えば、表面電子情報を含む。幾何学表現は、例えば、ファーマコフォア、ファーマコフォアフィンガープリント、形状ベースのフィンガープリント、および／または原子、特徴、もしくは官能基を使用する３Ｄ分子座標である。一部の実施形態では、量子化学表現を使用する。一部の実施形態では、電子的分子表現は、化学フィンガープリントである。

一部の実施形態では、本発明バーチャルスクリーニング法における工程は、結合相互作用データが生成された化合物、および候補化合物の両方についての化学フィンガープリントの生成を伴う。化学フィンガープリントは、当該技術分野で公知である、任意の方法、例えば、ＥＣＦＰ６、ＦＣＦＰ６、ＥＣＦＰ４、ＭＡＣＣＳ、またはＭｏｒｇａｎ／ＣｉｒｃｕｌａｒＦｉｎｇｅｒｐｒｉｎｔｓを使用して生成することができる。次いで、化学フィンガープリントを分析して、パターンを同定する、例えば、標的タンパク質への結合を増大または減少させる構造特徴を同定する。多数の化合物、例えば、少なくとも２５０，０００の分子についての、化学フィンガープリント比較から生成された情報を使用して、生成される推定結合相互作用の精度を、少数の化合物、例えば、１００，０００を下回る化合物についての化学フィンガープリント比較と比較して増大させることができる。一部の実施形態では、化学フィンガープリントを、本方法における、機械学習のための一次情報として使用する。

例えば、８ビットのフィンガープリントのトレーニングセット入力の例は、

を含みうる。

フィンガープリントとは、化学的実体の表現である。機械学習は、トレーニング行、すなわち、各化合物に、列、すなわち、フィンガープリントビットに、それが、陽性例または陰性例であることを指し示すトレーニング列を加えた列をフィードすることにより進行する。

アルゴリズム（ＲＦ、ナイーブベイズ、ディープラーニング、ニューラルネットなど）は、真または偽の指定と相関するパターンを探索することにより作動する。これらのパターンは、１つまたは１つより多いビットを伴いうる。これらのパターンは、統計（例えば、ナイーブベイズ、ランダムフォレスト）を、明示的に分析することにより、または変動するモデルパラメータ（例えば、ニューラルネットワーク）からの経験的フィードバックを介して発見することができる。

使用されうる別の手法は、フィンガープリントに加えて、計算された特性列（例えば、ＭＷ、ｃＬｏｇＰ、ｔＰＳＡ）を追加することである。この場合、機械学習アルゴリズムは、その統計学的分析またはそのモデルパラメータ検索において、これらのさらなる列を利用しうる。分析における特性の使用は、特性の使用を伴わずに実施された予測と比較した場合に、予測の精度を改善しうる。

この手法の後続において予測される分子は、トレーニングセット内で表された分子と全く同じ形で表されるが、重要な差違は、上記で見られたトレーニング列が、今回は未知であるということである。モデルは、結合特徴づけ列（例えば、結合予測列）へと記入されることが予測される値を生成する。一部の実施形態では、列は、ブール型列（Ｔ／Ｆ）、カテゴリカル列（例えば、非結合剤、競合的結合剤、非競合的結合剤、非競合的結合剤）、または数値列（例えば、結合剤の確率を反映するスコア）である。

予測のための分子であって、フィンガープリント列だけを含む分子を、上記の第１の例により生成されたモデルと共に使用することができる。

下記は、上記の第２の例により作成されたモデルと共に使用しうる特性を含むように拡張された入力情報による予測の例である。

出力
一部の実施形態では、生成されるモデルは、候補化合物が、陽性もしくは陰性であることを指し示す二値スコア、または候補化合物が、活性／結合について陽性もしくは陰性である可能性についての、モデルの評価を指し示す確率スコア（例えば、０～１）をもたらすであろう。次いで、この値を使用して、所与の分子についての選択／不選択の判定（二値の場合）を下すか、または候補化合物（確率スコア）の優先順位決定のために情報を提供することができる。

実施例１
ライブラリーのセットに由来する可溶型エポキシドヒドロラーゼ（ｓＥＨ）についての選択データを使用して、いくつかの機械学習モデル（ランダムフォレスト、ナイーブベイズ、またはニューラルネットワーク）のうちの１つをトレーニングし、次いで、これを使用して、同じ標的に対するトレーニングセット内に含まれなかったライブラリーに由来する分子の選択行動を予測した。トレーニングセット内で使用されるライブラリーは、２５，８４４，０６５個の化合物を伴う、直鎖状ペプチドライブラリー、３，９７６，３２０個の化合物を伴う、３サイクルのピラゾールライブラリー、５，０７９，４５９個の化合物を伴う、２サイクルのピリジンライブラリー、および１，５１１，３９９，３０４個の化合物を伴う、４サイクルのマクロサイクルライブラリーを含んだ。予測セット内で使用されるライブラリーは、２２１，５８０，０００個の化合物を伴う、３サイクルの直鎖状ペプチドライブラリー、２８５，９１７，２９２個の化合物を伴う、３サイクルのピリジンライブラリー、および１，６２２，８２０個の化合物を伴う、２サイクルのベンズイミダゾールライブラリーを含んだ。

図１に示す通り、予測セット内では、結合剤のエンリッチメントが見られた。グラフ内の４つの象限は、ライブラリー数の増大（左から右へ、上から下への）を使用する、陽性ジシントンの予測を表現する。Ｙ軸は、予測セット内の陽性の、元の集団からのランダム選択と比較したエンリッチメントを表す。Ｙ軸は、予測セット内で見出された、元のセット内の陽性の百分率を示す。結果は、トレーニングおよびテストセット（トレーニングセット内で除外されず、同じライブラリーに由来するジシントン）について、予測セットが、一貫して、元の集団の２～２．５倍にエンリッチされたことを裏付ける。予測セットは、トレーニングにおいて使用されなかったライブラリーに由来するジシントンである。この場合、トレーニングにおいて使用されるライブラリー数の増大は、予測集団内の、元の集団と比較した陽性率の増大を示す。

実施例２
ｓＥＨについて、実施例１と同じライブラリーからの選択データを、機械学習アルゴリズム（ＲＦ、ＭＬＰ、ディープラーニング）と共に使用して、モデルをトレーニングし、かつ、作製し、これを使用して、ＤＮＡコード化ライブラリー内で見出されない分子の活性を予測した。例えば、データをフィードし、従来のハイスループットスクリーニング（ＨＴＳ）実験（すなわち、１０Ｋ～１Ｍの分子におけるロボットテスト）において調べた分子の活性を予測しうるモデルを作製する。１０，０００～１００，０００またはこれより多い分子による初期リストから、リスト（例えば、数百個の化合物）を生成するためのフィルターとして、モデルによる予測を適用する。目標は、最終的なリストが、初期セット内で見出される、基調となる活性分子率を超えて、大幅（１０倍～１００倍）にエンリッチされるように、この短いリスト内で分子を同定することである。

図２に示す通り、予測分子の、ランダム選択に対する、＞４０倍のエンリッチメントが観察された。図２は、予測モデルを改善したときの、時間経過にわたる、複数回の試行を例示する。傾向は、一次ＨＴＳヒット、および予測セット内の厳密に確認された活性分子の両方の、ランダム選択と比較したエンリッチメントの増大を示す。確認された活性分子を、二次確認のための生化学アッセイにかけ、活性を裏付けた。最良の結果は、結果として得られる予測セットが、元の集団からの、分子のランダム選択に対して、＞４０倍改善されたことを示す。

実施例３
予測の最適化
所与の１つまたは複数の標的について、ＨＴＳデータの既知のセットが存在する。高予測率を達成するために、複数のパラメータ設定について調べる。実際、高予測率は、ＨＴＳ結果に対する予測への微調整の結果である。次いで、ＨＴＳを使用して、適用可能性を確認することにより、モデルを使用して、新規の化合物または既存の化合物（例えば、市販の化合物ライブラリーまたは既存の私製の化合物ライブラリー）を予測することができる。次いで、ランダム試料の基調の活性率に関わらない、予測セット内の高活性分子率、例えば、１％または１０％より多い活性分子を期待して、これらの分子を調べることができる。

実施例４
予測の最適化
所与の標的に対する選択であるが、異なる条件（例えば、異なるタンパク質断片、突然変異体、アイソフォームを使用する条件、近縁の標的を使用する条件、公知の低分子競合体を使用する条件など）下の選択に由来するデータを使用して、モデルをトレーニングするのに使用されるトレーニングセット内で、陽性データの規定を、さらに精緻化する。

実施例５
予測の最適化
数十～数百のタンパク質標的、突然変異体、アイソフォームなどに対する選択に由来するデータを、マシン学習モデルをトレーニングするための陽性例または陰性例を規定するために、一連のさらなるデータ列として使用する。

他の実施形態
当業者には、本発明の範囲および精神から逸脱しない限りにおいて、記載された本発明の方法およびシステムの、多様な改変および変更が明らかであろう。具体的な、所望の実施形態との関係で、本発明について記載してきたが、特許請求される本発明は、このような具体的実施形態に、不当に限定されるべきではないことを理解されたい。実際、本発明を実行するための、記載された方式の、多様な改変であって、医学、薬理学の分野、または関連分野における当業者に明らかな改変は、本発明の範囲内にあることを意図する。

Claims

（ａ）候補化合物のセットを表現するフィジカルコンピューティングデバイス内で、標的タンパク質についての、複数の結合相互作用知見を提供する工程であって、
それぞれの結合相互作用知見が、実験により決定された、標的タンパク質とトレーニングセット化合物との間の結合相互作用または結合相互作用の欠如であり、それぞれのトレーニングセット化合物は、トレーニングセット化合物の識別をコード化するヌクレオチドタグを含み、複数の結合相互作用知見のうちの少なくとも９０％が、標的タンパク質とトレーニングセット化合物との結合相互作用を表現し、さらに複数の結合相互作用知見が少なくとも２５０，０００の結合相互作用知見を含む
工程と；
（ｂ）機械学習アルゴリズムおよび工程（ａ）の複数の結合相互作用知見を用いてモデルをトレーニングする工程と；
（ｃ）標的タンパク質と候補化合物のセットとの間の推定結合相互作用を生成するのにコンピューティングデバイスおよび工程（ｂ）のモデルを使用する工程であって、候補化合物がトレーニングセット化合物と異なる工程と；
（ｄ）推定結合相互作用により表示しランク付けされる候補化合物のリストを出力する工程と
を含む、コンピューターに実装される、標的タンパク質と候補化合物のセットとの間の結合相互作用を同定およびランク付けするための方法。
複数の結合相互作用知見が、少なくとも１００万の結合相互作用知見を含む、請求項１に記載の方法。
複数の結合相互作用知見のうちの少なくとも９５％が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含むトレーニングセット化合物との結合相互作用を表現する、請求項１または２に記載の方法。
複数の結合相互作用知見のうちの少なくとも９９％が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含むトレーニングセット化合物との結合相互作用を表現する、請求項１から３のいずれか一項に記載の方法。
化合物の識別をコード化するヌクレオチドタグを含む複数のトレーニングセット化合物を、標的タンパク質と同時に接触させることにより、複数の結合相互作用知見のうちの少なくとも５０％が決定された、請求項１から４のいずれか一項に記載の方法。
１つまたは１つより多いさらなる標的タンパク質について、１つまたは１つより多いさらなる複数の結合相互作用知見を提供することをさらに含み、さらなる複数の結合相互作用知見のうちの少なくとも５０％が、さらなる標的タンパク質と、トレーニングセット化合物との結合相互作用を表現し、かつ、さらなる標的タンパク質が標的タンパク質の突然変異体またはアイソフォームである、請求項１から５のいずれか一項に記載の方法。
候補化合物リストが、１つまたは１つより多いさらなる標的タンパク質にわたる標的タンパク質に対する、候補化合物の選択性により表示しランク付けすることが可能である、請求項６に記載の方法。
１つまたは１つより多いさらなる標的タンパク質が、標的タンパク質の突然変異体である、請求項６または７に記載の方法。
１つまたは１つより多いネガティブコントロール実験について、１つまたは１つより多いさらなる複数の結合相互作用知見を提供することをさらに含み、さらなる複数の結合相互作用知見のうちの少なくとも５０％が、標的タンパク質とのトレーニングセット化合物のネガティブコントロール実験を表現する、請求項１から８のいずれか一項に記載の方法。
インターネットを介して、またはディスプレイデバイスへと、候補化合物リストを送信することをさらに含む、請求項１から９のいずれか一項に記載の方法。
フィジカルコンピューティングデバイスが、インターネットを介してアクセスおよび操作される、請求項１から１０のいずれか一項に記載の方法。
化学構造比較を使用して、推定される結合相互作用を生成する、請求項１から１１のいずれか一項に記載の方法。
化学構造比較が、分子表現を利用する、請求項１２に記載の方法。
分子表現が、化学フィンガープリントを含む、請求項１３に記載の方法。
化学フィンガープリント分析が、ＥＣＦＰ６、ＦＣＦＰ６、ＥＣＦＰ４、ＭＡＣＣＳ、またはＭｏｒｇａｎ／ＣｉｒｃｕｌａｒＦｉｎｇｅｒｐｒｉｎｔｓである、請求項１４に記載の方法。
候補化合物について推定される結合相互作用の各々の信頼性スコアを生成することをさらに含み、信頼性スコアが、候補化合物と、標的タンパク質についての複数の結合相互作用からの１つまたは１つより多い化合物との化学構造比較を使用して生成される、請求項１から１５のいずれか一項に記載の方法。
信頼性スコアが、主成分分析を用いて生成される、請求項１６に記載の方法。
候補化合物リストが、候補化合物について推定される結合相互作用の信頼性スコアにより表示しランク付けすることが可能である、請求項１６または１７に記載の方法。
候補化合物のセットについて、１つまたは１つより多い特性知見を提供することをさらに含む、請求項１から１８のいずれか一項に記載の方法。
１つまたは１つより多い特性知見が、分子量および／またはｃｌｏｇＰを含む、請求項１９に記載の方法。
１つまたは１つより多い特性知見を利用して、推定される結合相互作用を生成する、請求項１９または２０に記載の方法。
候補化合物リストが、１つまたは１つより多い特性知見により表示しランク付けすることが可能である、請求項１９から２１のいずれか一項に記載の方法。
（ｅ）候補化合物のうちの１つまたは１つより多くを、候補化合物リストから合成することをさらに含む、請求項１から２２のいずれか一項に記載の方法。
１つまたは１つより多い、合成された候補化合物を、標的タンパク質と接触させて、１つまたは１つより多い実験結合相互作用を決定することをさらに含む、請求項２３に記載の方法。
（ａ）候補化合物のセットを表現するフィジカルコンピューティングデバイス内で、標的タンパク質についての、複数の結合相互作用知見を提供する工程であって、
それぞれの結合相互作用知見が、実験により決定された、標的タンパク質とトレーニングセット化合物との間の結合相互作用または結合相互作用の欠如であり、それぞれのトレーニングセット化合物は、トレーニングセット化合物の識別をコード化するヌクレオチドタグを含み、複数の結合相互作用知見のうちの少なくとも９０％が、標的タンパク質とトレーニングセット化合物との結合相互作用を表現し、さらに複数の結合相互作用知見が少なくとも２５０，０００の結合相互作用知見を含む
工程と；
（ｂ）機械学習アルゴリズムおよび工程（ａ）の複数の結合相互作用知見を用いてモデルをトレーニングする工程と；
（ｃ）標的タンパク質と候補化合物のセットとの間の推定結合相互作用を生成するのにコンピューティングデバイスおよび工程（ｂ）のモデルを使用する工程であって、候補化合物がトレーニングセット化合物と異なる工程と；
（ｄ）推定結合相互作用により表示しランク付けされる候補化合物のリストを出力する工程と
を含む標的タンパク質と候補化合物のセットとの間の結合相互作用を同定およびランク付けするための方法を実装するように、フィジカルコンピューティングデバイスを方向付けるための、実行可能な命令をその上に記憶させた、コンピュータ可読媒体。
候補化合物のセットの表現を有するフィジカルコンピューティングデバイスであって、
（ａ）候補化合物のセットを表現するフィジカルコンピューティングデバイス内で、標的タンパク質についての、複数の結合相互作用知見を提供する工程であって、
それぞれの結合相互作用知見が、実験により決定された、標的タンパク質とトレーニングセット化合物との間の結合相互作用または結合相互作用の欠如であり、それぞれのトレーニングセット化合物は、トレーニングセット化合物の識別をコード化するヌクレオチドタグを含み、複数の結合相互作用知見のうちの少なくとも９０％が、標的タンパク質とトレーニングセット化合物との結合相互作用を表現し、さらに複数の結合相互作用知見が少なくとも２５０，０００の結合相互作用知見を含む
工程と；
（ｂ）機械学習アルゴリズムおよび工程（ａ）の複数の結合相互作用知見を用いてモデルをトレーニングする工程と；
（ｃ）標的タンパク質と候補化合物のセットとの間の推定結合相互作用を生成するのにコンピューティングデバイスおよび工程（ｂ）のモデルを使用する工程であって、候補化合物がトレーニングセット化合物と異なる工程と；
（ｄ）推定結合相互作用により表示しランク付けされる候補化合物のリストを出力する工程と
を含む標的タンパク質と候補化合物のセットとの間の結合相互作用を同定およびランク付けするための方法を実装するように、デバイスを方向付けるための、実行可能な命令によりプログラムされたフィジカルコンピューティングデバイス。
複数の結合相互作用知見が、少なくとも２００万の結合相互作用知見を含む、請求項１から２４のいずれか一項に記載の方法。
複数の結合相互作用知見が、少なくとも５００万の結合相互作用知見を含む、請求項１から２４および２７のいずれか一項に記載の方法。
複数の結合相互作用知見が、少なくとも１０００万の結合相互作用知見を含む、請求項１から２４、２７および２８のいずれか一項に記載の方法。
複数の結合相互作用知見が、少なくとも２５００万の結合相互作用知見を含む、請求項１から２４および２７から２９のいずれか一項に記載の方法。
工程（ｂ）が、ジシントン化合物解析を含む、請求項１から２４および２７から３０のいずれか一項に記載の方法。
工程（ｃ）が、ジシントン化合物解析を含む、請求項１から２４および２７から３１のいずれか一項に記載の方法。