JP7490576B2 - Method and apparatus for multimodal prediction using trained statistical models - Patents.com - Google Patents

Method and apparatus for multimodal prediction using trained statistical models - Patents.com Download PDF

Info

Publication number
JP7490576B2
JP7490576B2 JP2020566792A JP2020566792A JP7490576B2 JP 7490576 B2 JP7490576 B2 JP 7490576B2 JP 2020566792 A JP2020566792 A JP 2020566792A JP 2020566792 A JP2020566792 A JP 2020566792A JP 7490576 B2 JP7490576 B2 JP 7490576B2
Authority
JP
Japan
Prior art keywords
modality
data
encoder
drug
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020566792A
Other languages
Japanese (ja)
Other versions
JPWO2019231624A5 (en
JP2021526259A (en
Inventor
エム. ロスバーグ、ジョナサン
リッヒェンシュタイン、ヘンリ
エーザー、ウムット
マイヤー、マイケル
ヘルナンデス、メアリーレンズ
シュー、ティアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quantum Si Inc
Original Assignee
Quantum Si Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quantum Si Inc filed Critical Quantum Si Inc
Publication of JP2021526259A publication Critical patent/JP2021526259A/en
Publication of JPWO2019231624A5 publication Critical patent/JPWO2019231624A5/ja
Application granted granted Critical
Publication of JP7490576B2 publication Critical patent/JP7490576B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physiology (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

安全な薬剤を転用する能力は、時間および費用の節約ならびに薬剤承認成功率の増大を含めて大きな利益を製薬業界に提供する。近年、コンピュータ・インフラの改良と、高分解能で疾患と薬剤の特徴付けを可能にする高スループット技術の出現によって、既存の薬剤に対する新たな疾患適応(disease indication)または既存の疾患に対する新たな治療を予測することを目的とする計算アルゴリズムの実装が出現している。 The ability to repurpose safe drugs offers significant benefits to the pharmaceutical industry, including time and cost savings and increased drug approval success rates. In recent years, improvements in computer infrastructure and the advent of high-throughput technologies that allow for high-resolution disease and drug characterization have led to the implementation of computational algorithms aimed at predicting new disease indications for existing drugs or new treatments for existing diseases.

既存の薬剤の新たな疾患適応を発見するため、または所与の疾患もしくは患者に最適な薬剤を見つけるための従来のいくつかの技法は、新たな予測を行うために、疾患のゲノム特性解析および薬剤の作用機序の分子特性解析に依存している。これらの技法は、薬物ベースまたは疾患ベースに分類することができ、いずれも固有の利点および課題があるが、成功した計算アプローチでは、たいてい両方の技法の態様を組み合わせている。 Several conventional techniques for discovering new disease indications for existing drugs or finding optimal drugs for a given disease or patient rely on genomic characterization of the disease and molecular characterization of the drug's mechanism of action to make new predictions. These techniques can be categorized as drug-based or disease-based, each of which has its own advantages and challenges, but successful computational approaches often combine aspects of both techniques.

薬物ベースの技法は、典型的には、薬物構造の類似性、薬物分子活性の類似性、または標的経路の類似性、および分子ドッキングに焦点を当てる。それらは、薬物構造、薬物標的、薬物クラス、および薬物治療時の遺伝子発現摂動などの異なる情報またはデータ・モダリティを使用する。疾患ベースの技法は、典型的には、関連適応移転(associative indication transfer)、共通の分子病理学、または副作用の類似性に焦点を当てる。それらは、疾患に関連した変異および経路、ならびに遺伝子発現またはタンパク質または代謝物またはマイクロバイオームの疾患に関連した変化に関係付けられた情報またはデータ・モダリティを含む。薬物ベースと疾患ベースの両方の根拠を組み合わせたアプローチの例には、転写シグネチャ相補性、および薬物標的-疾患経路類似性が含まれる。 Drug-based techniques typically focus on drug structure similarity, drug molecule activity similarity, or target pathway similarity, and molecular docking. They use different information or data modalities such as drug structure, drug target, drug class, and gene expression perturbation upon drug treatment. Disease-based techniques typically focus on associative indication transfer, common molecular pathology, or side effect similarity. They include information or data modalities related to disease-associated mutations and pathways, and disease-associated changes in gene expression or proteins or metabolites or microbiome. Examples of approaches that combine both drug-based and disease-based evidence include transcriptional signature complementation, and drug target-disease pathway similarity.

本明細書に記載の技術の1態様によれば、いくつかの実施形態は、異種ネットワークにおけるデータの間のモダリティ間関連性(inter-modality associations)を表現するように構成された統計モデルを訓練するための方法を対象とする。この方法は、訓練データにアクセスする工程と、訓練データは、第1のモダリティについての訓練データ、および第1のモダリティとは異なる第2のモダリティについての訓練データを含んでおり、統計モデルを訓練する工程と、統計モデルは、第1および第2のエンコーダと、第1および第2のデコーダと、第1および第2のエンコーダを第1および第2のデコーダに結合する共同モダリティ表現(joint-modality representation)とを含み、訓練する工程は、自己教師あり学習技法と、訓練データのうちの少なくともいくつかと、訓練データにおけるデータ・ペアの間の少なくとも1つのリンクを記述する情報とを使用して、第1および第2のエンコーダならびに第1および第2のデコーダのパラメータの値を推定する工程と、統計モデルの第1および第2のエンコーダならびに第1および第2のデコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、統計モデルを指定する情報を記憶する工程とを含む。 According to one aspect of the technology described herein, some embodiments are directed to a method for training a statistical model configured to represent inter-modality associations between data in a heterogeneous network. The method includes accessing training data, the training data including training data for a first modality and training data for a second modality different from the first modality, training a statistical model, the statistical model including first and second encoders, first and second decoders, and a joint-modality representation that couples the first and second encoders to the first and second decoders, the training step including estimating values of parameters of the first and second encoders and the first and second decoders using a self-supervised learning technique, at least some of the training data, and information describing at least one link between data pairs in the training data, and storing information specifying the statistical model at least in part by storing the estimated values of parameters of the first and second encoders and the first and second decoders of the statistical model.

本明細書に記載の技術の別の態様によれば、いくつかの実施形態は、第1のモダリティおよび第2のモダリティを含む複数のモダリティを有するデータの間のリンクを表現するように訓練された統計モデルを使用して、第1のモダリティにおける入力データと第2のモダリティにおけるデータとの間の関連性を予測するための方法であって、統計モデルは、複数のモダリティのうちの1つについてのデータを処理するようにそれぞれが訓練された複数のエンコーダおよびデコーダ、ならびに複数のエンコーダおよびデコーダを結合する共同モダリティ表現を含む、方法を対象とする。この方法は、第1のモダリティおよび第2のモダリティに基づいて、複数のエンコーダおよびデコーダから、エンコーダ/デコーダのペアまたはエンコーダのペアを選択する工程と、共同モダリティ表現および選択されたエンコーダ/デコーダのペアまたはエンコーダのペアを用いて入力データを処理して、入力データと第2のモダリティにおけるデータとの間の関連性を予測する工程とを含む。 According to another aspect of the technology described herein, some embodiments are directed to a method for predicting associations between input data in a first modality and data in a second modality using a statistical model trained to represent links between data having multiple modalities, including a first modality and a second modality, the statistical model including multiple encoders and decoders, each trained to process data for one of the multiple modalities, and a joint modality representation combining the multiple encoders and decoders. The method includes selecting an encoder/decoder pair or encoder pair from the multiple encoders and decoders based on the first modality and the second modality, and processing the input data with the joint modality representation and the selected encoder/decoder pair or encoder pair to predict associations between the input data and the data in the second modality.

本明細書に記載の技術の別の態様によれば、いくつかの実施形態は、第1のモダリティおよび第2のモダリティを含む複数のモダリティを有するデータの間の相互作用を表現するように訓練された統計モデルを使用して、第1のモダリティにおけるデータと第2のモダリティにおけるデータとの間の関連性を予測するための方法であって、統計モデルは、複数のモダリティのうちの1つについてのデータを処理するようにそれぞれが訓練された複数のエンコーダおよびデコーダ、ならびに複数のエンコーダおよびデコーダを結合する共同モダリティ表現を含む、方法を対象とする。この方法は、第1のモダリティにおけるデータおよび第2のモダリティにおけるデータを、統計モデル内の共通表現空間内にマッピングする工程と、ラベル付けされたデータを使用して訓練された統計的分類器にアクセスする工程と、ラベル付けされたデータは、第1のモダリティと第2のモダリティとにおけるデータの間の関連性を記述しており、訓練された統計的分類器を使用して、共通表現空間内にマッピングされた第1のモダリティにおけるデータと第2のモダリティにおけるデータとの間の関連性を予測する工程とを含む。 According to another aspect of the technology described herein, some embodiments are directed to a method for predicting associations between data in a first modality and data in a second modality using a statistical model trained to represent interactions between data having multiple modalities, including a first modality and a second modality, the statistical model including multiple encoders and decoders, each trained to process data for one of the multiple modalities, and a joint modality representation combining the multiple encoders and decoders. The method includes mapping the data in the first modality and the data in the second modality into a common representation space in the statistical model, accessing a statistical classifier trained using the labeled data, the labeled data describing associations between the data in the first modality and the data in the second modality, and predicting associations between the data in the first modality and the data in the second modality mapped into the common representation space using the trained statistical classifier.

本明細書に記載の技術の別の態様によれば、いくつかの実施形態は、コンピュータ・システムであって、少なくとも1つのコンピュータ・プロセッサと、複数の命令がエンコードされた少なくとも1つの記憶装置とを備え、複数の命令は、少なくとも1つのコンピュータ・プロセッサによる実行時に、データについてのモダリティ間関連性を表現するように統計モデルを訓練する方法を実施し、データは、第1のモダリティについてのデータ、および第1のモダリティとは異なる第2のモダリティについてのデータを含む、コンピュータ・システムを対象とする。上記方法は、第1のモダリティについての訓練データおよび第2のモダリティについての訓練データを含む訓練データにアクセスする工程と、統計モデルを訓練する工程とを含み、統計モデルは、第1および第2のエンコーダと、第1および第2のデコーダと、第1および第2のエンコーダを第1および第2のデコーダに結合する共同モダリティ表現とを含む。訓練する工程は、自己教師あり学習技法と、訓練データのうちの少なくともいくつかと、訓練データにおけるデータ・ペアの間の少なくとも1つのリンクを記述する情報とを使用して、第1および第2のエンコーダならびに第1および第2のデコーダのパラメータの値を推定する工程と、統計モデルの第1および第2のエンコーダならびに第1および第2のデコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、統計モデルを指定する情報を記憶する工程とを含む。 In accordance with another aspect of the technology described herein, some embodiments are directed to a computer system comprising at least one computer processor and at least one storage device encoded with a plurality of instructions, the plurality of instructions, when executed by the at least one computer processor, performing a method of training a statistical model to represent inter-modality associations for data, the data including data for a first modality and data for a second modality different from the first modality. The method includes accessing training data including training data for the first modality and training data for the second modality, and training a statistical model, the statistical model including first and second encoders, first and second decoders, and a joint modality representation coupling the first and second encoders to the first and second decoders. The training step includes estimating values of parameters of the first and second encoders and the first and second decoders using self-supervised learning techniques, at least some of the training data, and information describing at least one link between data pairs in the training data, and storing information specifying the statistical model at least in part by storing the estimated values of the parameters of the first and second encoders and the first and second decoders of the statistical model.

本明細書に記載の技術の別の態様によれば、いくつかの実施形態は、コンピュータ・システムであって、少なくとも1つのコンピュータ・プロセッサと、複数の命令がエンコードされた少なくとも1つの記憶装置と、を備え、複数の命令は、少なくとも1つのコンピュータ・プロセッサによる実行時に、第1のモダリティおよび第2のモダリティを含む複数のモダリティを有するデータの間の相互作用を表現するように訓練された統計モデルを使用して、第1のモダリティにおける入力データと第2のモダリティにおけるデータとの間の関連性を予測する方法を実施し、統計モデルは、複数のモダリティのうちの1つについてのデータを処理するようにそれぞれが訓練された複数のエンコーダおよびデコーダ、ならびに複数のエンコーダおよびデコーダを結合する共同モダリティ表現を含む、コンピュータ・システムを対象とする。上記方法は、第1のモダリティおよび第2のモダリティに基づいて、複数のエンコーダおよびデコーダから、エンコーダ/デコーダのペアまたはエンコーダのペアを選択する工程と、共同モダリティ表現および選択されたエンコーダ/デコーダのペアまたはエンコーダのペアを用いて入力データを処理して、入力データと第2のモダリティにおけるデータとの間の関連性を予測する工程とを含む。 According to another aspect of the technology described herein, some embodiments are directed to a computer system comprising at least one computer processor and at least one storage device encoded with a plurality of instructions, which, when executed by the at least one computer processor, perform a method of predicting an association between input data in a first modality and data in a second modality using a statistical model trained to represent an interaction between data having a plurality of modalities, including a first modality and a second modality, the statistical model including a plurality of encoders and decoders, each trained to process data for one of the plurality of modalities, and a joint modality representation combining the plurality of encoders and decoders. The method includes selecting an encoder/decoder pair or a pair of encoders from the plurality of encoders and decoders based on the first modality and the second modality, and processing the input data using the joint modality representation and the selected encoder/decoder pair or the encoder pair to predict an association between the input data and the data in the second modality.

本明細書に記載の技術の別の態様によれば、いくつかの実施形態は、コンピュータ・システムであって、少なくとも1つのコンピュータ・プロセッサと、複数の命令がエンコードされた少なくとも1つの記憶装置と、を備え、複数の命令は、少なくとも1つのコンピュータ・プロセッサによる実行時に、第1のモダリティおよび第1のモダリティとは異なる第2のモダリティを含む複数のモダリティを有するデータの間のリンクを表現するように訓練された統計モデルを使用して、第1のモダリティにおけるデータと第2のモダリティにおけるデータとの間の関連性を予測する方法を実施し、統計モデルは、複数のモダリティのうちの1つについてのデータを処理するようにそれぞれが訓練された複数のエンコーダおよびデコーダ、ならびに複数のエンコーダおよびデコーダを結合する共同モダリティ表現を含む、コンピュータ・システムを対象とする。上記方法は、第1のモダリティにおけるデータおよび第2のモダリティにおけるデータを、統計モデル内の共通表現空間内にマッピングする工程と、ラベル付けされたデータを使用して訓練された統計的分類器にアクセスする工程と、ラベル付けされたデータは、第1のモダリティと第2のモダリティとにおけるデータの間の関連性を記述しており、訓練された統計的分類器を使用して、共通表現空間内にマッピングされた第1のモダリティにおけるデータと第2のモダリティにおけるデータとの間の関連性を予測する工程とを含む。 In accordance with another aspect of the technology described herein, some embodiments are directed to a computer system comprising at least one computer processor and at least one storage device encoded with a plurality of instructions, which, when executed by the at least one computer processor, perform a method of predicting associations between data in a first modality and data in a second modality using a statistical model trained to represent links between data having a plurality of modalities, including a first modality and a second modality different from the first modality, the statistical model including a plurality of encoders and decoders, each trained to process data for one of the plurality of modalities, and a joint modality representation combining the plurality of encoders and decoders. The method includes mapping the data in the first modality and the data in the second modality into a common representation space in a statistical model; accessing a statistical classifier trained using the labeled data; the labeled data describing associations between the data in the first modality and the data in the second modality, and using the trained statistical classifier to predict associations between the data in the first modality and the data in the second modality mapped into the common representation space.

本明細書に記載の技術の別の態様によれば、いくつかの実施形態は、薬物データ、遺伝子データ、および疾患データの間の関連性を表現するように統計モデルを訓練するための方法を対象とする。この方法は、遺伝子訓練データ、薬物訓練データおよび疾患訓練データを含む訓練データにアクセスする工程と、統計モデルを訓練する工程と、を含み、統計モデルは、遺伝子エンコーダ、薬物エンコーダおよび疾患エンコーダを含む複数のエンコーダと、遺伝子デコーダ、薬物デコーダおよび疾患デコーダを含む複数のデコーダと、複数のエンコーダを複数のデコーダに結合する共同モダリティ表現とを含み、共同表現は、訓練データ間の相互作用を記述し、訓練する工程は、自己教師あり学習技法と、遺伝子訓練データと、遺伝子訓練データにおけるデータ・ペアの間の相互作用を記述する情報とを使用して、遺伝子エンコーダおよび遺伝子デコーダのパラメータの値を推定する工程と、自己教師あり学習技法と、遺伝子訓練データおよび薬物訓練データと、遺伝子訓練データにおけるデータ要素と薬物訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、遺伝子エンコーダ、遺伝子デコーダ、薬物エンコーダ、および薬物デコーダのパラメータの値を推定する工程と、自己教師あり学習技法と、遺伝子訓練データおよび疾患訓練データと、遺伝子訓練データにおけるデータ要素と疾患訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、遺伝子エンコーダ、遺伝子デコーダ、疾患エンコーダ、および疾患デコーダのパラメータの値を推定する工程と、統計モデルの遺伝子エンコーダ、遺伝子デコーダ、薬物エンコーダ、薬物デコーダ、疾患エンコーダ、および疾患デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、統計モデルを指定する情報を記憶する工程とを含む。 In accordance with another aspect of the technology described herein, some embodiments are directed to a method for training a statistical model to represent associations between drug data, gene data, and disease data. The method includes accessing training data including gene training data, drug training data, and disease training data; and training a statistical model, the statistical model including a plurality of encoders including a gene encoder, a drug encoder, and a disease encoder; a plurality of decoders including a gene decoder, a drug decoder, and a disease decoder; and a joint modality representation coupling the plurality of encoders to the plurality of decoders, the joint representation describing interactions between the training data; and training includes estimating values of parameters of the gene encoder and the gene decoder using a self-supervised learning technique, the gene training data, and information describing interactions between data pairs in the gene training data; and and information describing interactions between data elements in the gene training data and data elements in the disease training data, estimating values of parameters of the gene encoder, gene decoder, drug encoder, and drug decoder using self-supervised learning techniques, the gene training data and the disease training data, and information describing interactions between data elements in the gene training data and data elements in the disease training data, estimating values of parameters of the gene encoder, gene decoder, disease encoder, and disease decoder using self-supervised learning techniques, the gene training data and the disease training data, and information describing interactions between data elements in the gene training data and data elements in the disease training data, and storing information specifying the statistical model at least in part by storing estimated values of parameters of the gene encoder, gene decoder, drug encoder, drug decoder, disease encoder, and disease decoder of the statistical model.

本明細書に記載の技術の別の態様によれば、いくつかの実施形態は、コンピュータ・システムであって、少なくとも1つのコンピュータ・プロセッサと、複数の命令がエンコードされた少なくとも1つの記憶装置と、を備え、複数の命令は、少なくとも1つのコンピュータ・プロセッサによる実行時に、薬物データ、遺伝子データ、および疾患データの間の関連性を表現するように統計モデルを訓練する方法を実施する、コンピュータ・システムを対象とする。上記方法は、遺伝子訓練データ、薬物訓練データ、および疾患訓練データを含む訓練データにアクセスする工程と、統計モデルを訓練する工程と、を含み、統計モデルは、遺伝子エンコーダ、薬物エンコーダ、および疾患エンコーダを含む複数のエンコーダと、遺伝子デコーダ、薬物デコーダ、および疾患デコーダを含む複数のデコーダと、複数のエンコーダを複数のデコーダに結合する共同表現とを含み、共同表現は、訓練データ間の相互作用を記述する。訓練する工程は、自己教師あり学習技法と、遺伝子訓練データと、遺伝子訓練データにおけるデータ・ペアの間の相互作用を記述する情報とを使用して、遺伝子エンコーダおよび遺伝子デコーダのパラメータの値を推定する工程と、自己教師あり学習技法と、遺伝子訓練データおよび薬物訓練データと、遺伝子訓練データにおけるデータ要素と薬物訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、遺伝子エンコーダ、遺伝子デコーダ、薬物エンコーダ、および薬物デコーダのパラメータの値を推定する工程と、自己教師あり学習技法と、遺伝子訓練データおよび疾患訓練データと、遺伝子訓練データにおけるデータ要素と疾患訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、遺伝子エンコーダ、遺伝子デコーダ、疾患エンコーダ、および疾患デコーダのパラメータの値を推定する工程と、統計モデルの遺伝子エンコーダ、遺伝子デコーダ、薬物エンコーダ、薬物デコーダ、疾患エンコーダ、および疾患デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、統計モデルを指定する情報を記憶する工程とを含む。 In accordance with another aspect of the technology described herein, some embodiments are directed to a computer system comprising at least one computer processor and at least one storage device encoded with a plurality of instructions, the plurality of instructions, when executed by the at least one computer processor, performing a method of training a statistical model to represent associations between drug data, gene data, and disease data. The method includes accessing training data including gene training data, drug training data, and disease training data, and training a statistical model, the statistical model including a plurality of encoders including a gene encoder, a drug encoder, and a disease encoder, a plurality of decoders including a gene decoder, a drug decoder, and a disease decoder, and a joint representation that combines the plurality of encoders to the plurality of decoders, the joint representation describing interactions between the training data. The training step includes estimating values of parameters of the gene encoder and the gene decoder using self-supervised learning techniques, the gene training data, and information describing interactions between data pairs in the gene training data; estimating values of parameters of the gene encoder, the gene decoder, the drug encoder, and the drug decoder using self-supervised learning techniques, the gene training data and the drug training data, and information describing interactions between data elements in the gene training data and data elements in the drug training data; estimating values of parameters of the gene encoder, the gene decoder, the disease encoder, and the disease decoder using self-supervised learning techniques, the gene training data and the disease training data, and information describing interactions between data elements in the gene training data and data elements in the disease training data; and storing information specifying the statistical model at least in part by storing the estimated values of parameters of the gene encoder, the gene decoder, the drug encoder, the drug decoder, the disease encoder, and the disease decoder of the statistical model.

本明細書に記載の技術の別の態様によれば、いくつかの実施形態は、所与の薬物の新たな疾患適応を予測するための方法を対象とする。この方法は、所与の薬物の表現、および複数の疾患の表現を、訓練された統計モデルの共通表現空間内に投影する工程と、共通表現空間における投影された所与の薬物の表現と複数の疾患の表現のうちの少なくとも1つとの比較に基づいて、所与の薬物の新たな疾患適応を予測する工程とを含む。 According to another aspect of the technology described herein, some embodiments are directed to a method for predicting a new disease indication for a given drug. The method includes projecting a representation of the given drug and a representation of a plurality of diseases into a common representation space of trained statistical models, and predicting a new disease indication for the given drug based on a comparison of the projected representation of the given drug and at least one of the representations of the plurality of diseases in the common representation space.

本明細書に記載の技術の別の態様によれば、いくつかの実施形態は、コンピュータ・システムであって、少なくとも1つのコンピュータ・プロセッサと、複数の命令がエンコードされた少なくとも1つの記憶装置と、を備え、複数の命令は、少なくとも1つのコンピュータ・プロセッサによる実行時に、所与の薬物の新たな疾患適応を予測する方法を実施する、コンピュータ・システムを対象とする。上記方法は、所与の薬物の表現、および複数の疾患の表現を、訓練された統計モデルの共通表現空間内に投影する工程と、共通表現空間における投影された所与の薬物の表現と複数の疾患の表現のうちの少なくとも1つとの比較に基づいて、所与の薬物の新たな疾患適応を予測する工程とを含む。 In accordance with another aspect of the technology described herein, some embodiments are directed to a computer system comprising at least one computer processor and at least one storage device encoded with a plurality of instructions, the plurality of instructions, when executed by the at least one computer processor, performing a method for predicting a new disease indication for a given drug. The method includes projecting a representation of the given drug and a representation of the plurality of diseases into a common representation space of trained statistical models, and predicting a new disease indication for the given drug based on a comparison of the projected representation of the given drug and at least one of the representations of the plurality of diseases in the common representation space.

本明細書に記載の技術の別の態様によれば、いくつかの実施形態は、所与の薬物の疾患適応を特定する方法を対象とする。この方法は、統計モデルへの入力として、複数の薬物の表現および複数の疾患の表現を提供する工程と、訓練された教師あり分類器を使用して複数の薬物の表現および複数の疾患の表現を処理して、複数の薬物のうちの薬物が複数の疾患のうちの疾患を治療するのに有効である可能性を特定する工程と、を含み、教師あり分類器は、連邦医薬品局(Federal Drug Administration:FDA)に承認された薬物-疾患ペアに関する情報で訓練される。 In accordance with another aspect of the technology described herein, some embodiments are directed to a method of identifying a disease indication for a given drug. The method includes providing a representation of a plurality of drugs and a representation of a plurality of diseases as inputs to a statistical model, and processing the representations of the plurality of drugs and the representations of the plurality of diseases using a trained supervised classifier to identify a likelihood that a drug of the plurality of drugs is effective in treating a disease of the plurality of diseases, the supervised classifier being trained with information regarding Federal Drug Administration (FDA) approved drug-disease pairs.

本明細書に記載の技術の別の態様によれば、いくつかの実施形態は、コンピュータ・システムであって、少なくとも1つのコンピュータ・プロセッサと、複数の命令がエンコードされた少なくとも1つの記憶装置と、を備え、複数の命令は、少なくとも1つのコンピュータ・プロセッサによる実行時に、所与の薬物の疾患適応を特定する方法を実施する、コンピュータ・システムを対象とする。上記方法は、統計モデルへの入力として、複数の薬物の表現および複数の疾患の表現を提供する工程と、訓練された教師あり分類器を使用して複数の薬物の表現および複数の疾患の表現を処理して、複数の薬物のうちの薬物が複数の疾患のうちの疾患を治療するのに有効である可能性を特定する工程と、を含み、教師あり分類器は、連邦医薬品局(FDA)に承認された薬物-疾患ペアに関する情報で訓練される。 In accordance with another aspect of the technology described herein, some embodiments are directed to a computer system comprising at least one computer processor and at least one storage device encoded with a plurality of instructions that, when executed by the at least one computer processor, implements a method for identifying a disease indication for a given drug. The method includes providing a plurality of drug representations and a plurality of disease representations as inputs to a statistical model, and processing the plurality of drug representations and the plurality of disease representations using a trained supervised classifier to identify a likelihood that a drug of the plurality of drugs is effective in treating a disease of the plurality of diseases, the supervised classifier being trained with information regarding drug-disease pairs approved by the Federal Drug Administration (FDA).

上記の概念のすべての組み合わせおよび以下でより詳細に説明される追加の概念は、(そのような概念が互いに矛盾しないならば)本明細書で開示される発明の主題の一部であると考えられることを理解されたい。 It is understood that all combinations of the above concepts, as well as additional concepts described in more detail below, are considered to be part of the inventive subject matter disclosed herein (provided such concepts are not mutually inconsistent).

以下の図面を参照して本技術の様々な非限定的実施形態を説明する。図は原寸に比例して描かれているとは限らないことを理解されたい。 Various non-limiting embodiments of the present technology are described with reference to the following drawings. It should be understood that the figures are not necessarily drawn to scale.

いくつかの実施形態による異種ネットワークの図。1 is a diagram of a heterogeneous network in accordance with some embodiments. いくつかの実施形態による、マルチモーダル統計モデルを使用して表現され得る生物学的データの異種ネットワークの図。FIG. 1 is a diagram of a heterogeneous network of biological data that can be represented using a multimodal statistical model, according to some embodiments. いくつかの実施形態による、生物学的データの異種ネットワークを表現するためのモデル・アーキテクチャの図。FIG. 1 is a diagram of a model architecture for representing heterogeneous networks of biological data, according to some embodiments. いくつかの実施形態による、生物学的データの異種ネットワークを表現するように統計モデルを訓練するための工程の流れ図。1 is a flow diagram of a process for training a statistical model to represent a heterogeneous network of biological data, according to some embodiments. いくつかの実施形態による、データ埋め込みを行うための方法の図。1 is a diagram of a method for performing data embedding, according to some embodiments. いくつかの実施形態による、単一モダリティ情報およびネットワーク・リンクを共通潜在空間内に投影するための方法の図。FIG. 1 illustrates a method for projecting single-modality information and network links into a common latent space, according to some embodiments. いくつかの実施形態に従って使用されるエンコーダおよびデコーダのための例示的ニューラル・ネットワーク・アーキテクチャを示す図。FIG. 1 illustrates an example neural network architecture for an encoder and decoder used in accordance with some embodiments. いくつかの実施形態による、異種ネットワークにおけるモダリティ内およびモダリティ間ネットワーク・リンクを表現するように統計モデルを訓練するための工程の流れ図。1 is a flow diagram of a process for training a statistical model to represent intra- and inter-modality network links in a heterogeneous network, according to some embodiments. いくつかの実施形態による、モダリティ内ネットワーク・リンクを表現するように統計モデルを訓練するための方法の図。FIG. 1 illustrates a method for training a statistical model to represent intra-modality network links, according to some embodiments. いくつかの実施形態による、モダリティ間ネットワーク・リンクを表現するように統計モデルを訓練するための方法の図。FIG. 1 illustrates a method for training a statistical model to represent cross-modality network links, according to some embodiments. いくつかの実施形態による、モダリティ間ネットワーク・リンクを表現するように統計モデルを訓練するための方法の図。FIG. 1 illustrates a method for training a statistical model to represent cross-modality network links, according to some embodiments. いくつかの実施形態による、モダリティ間ネットワーク・リンクを表現するように統計モデルを訓練するための方法の図。FIG. 1 illustrates a method for training a statistical model to represent cross-modality network links, according to some embodiments. いくつかの実施形態による、訓練されたマルチモーダル統計モデルを使用してマルチモーダル予測を行うことを概略的に示す図。FIG. 1 illustrates a schematic diagram of using a trained multi-modal statistical model to perform multi-modal prediction, according to some embodiments. いくつかの実施形態による、モダリティ固有表現空間における教師なし予測を行うための方法を示す図。FIG. 1 illustrates a method for performing unsupervised prediction in a modality-specific expression space, according to some embodiments. いくつかの実施形態による、モダリティ固有表現空間における埋め込みベクトルと投影されたベクトルとの位置を比較するための技法を概略的に示す図。FIG. 13 illustrates a schematic diagram of a technique for comparing the position of an embedding vector and a projected vector in a modality-specific representation space, according to some embodiments. いくつかの実施形態による、共同モダリティ表現空間における教師なし予測を行うための方法を示す図。FIG. 1 illustrates a method for performing unsupervised prediction in a joint modality representation space, according to some embodiments. いくつかの実施形態による、訓練されたマルチモーダル統計モデルを使用して教師あり予測を行うための方法を示す図。FIG. 1 illustrates a method for performing supervised prediction using a trained multi-modal statistical model, according to some embodiments. いくつかの実施形態が実装され得る例示的なコンピュータ・システムのコンポーネントを示す図。FIG. 1 illustrates components of an exemplary computer system in which some embodiments may be implemented.

統計または機械学習技法を用いて生物学的データ間の関連性(例えば、薬物-疾患マッチ)を予測するための従来の計算アプローチは、典型的には、教師あり学習技法を利用する。このような手法を訓練するために利用可能なデータセットは、比較的少量のラベル付けされたデータ(例えば、FDA承認薬)に限られることが多い。また、そのようなアプローチは、典型的には、1つまたは2つのモダリティ(例えば、薬物および疾患)に焦点を当て、訓練中または予測を行う際に他のモダリティからの情報を考慮しない。このため、いくつかの実施形態は、広範囲のソースからの生物学的(例えば、薬物および/または疾患)情報を組み込むために、複数のモダリティからの生物学的情報を統合するためのスケーラブルな技法を対象とする。特に、いくつかの実施形態は、自己教師あり学習技法を用いて、モデル内のデータ間の接続を学習するように構成された1つまたは複数の統計モデルを使用して、マルチモーダルな生物学的情報の異種ネットワークを表現することを対象とする。いくつかの実施形態による統計モデルを使用して表現され得る異種ネットワークの概略例が図1に示される。 Conventional computational approaches for predicting associations between biological data (e.g., drug-disease matches) using statistical or machine learning techniques typically utilize supervised learning techniques. The datasets available for training such techniques are often limited to a relatively small amount of labeled data (e.g., FDA-approved drugs). Also, such approaches typically focus on one or two modalities (e.g., drugs and diseases) and do not consider information from other modalities during training or when making predictions. For this reason, some embodiments are directed to scalable techniques for integrating biological information from multiple modalities to incorporate biological (e.g., drug and/or disease) information from a wide range of sources. In particular, some embodiments are directed to representing heterogeneous networks of multimodal biological information using one or more statistical models configured to learn connections between data in the models using self-supervised learning techniques. A schematic example of a heterogeneous network that may be represented using a statistical model according to some embodiments is shown in FIG. 1.

図示されるように、異種ネットワーク100は、複数のノード、およびノード間の接続を含む。ネットワーク100内のノードのそれぞれは、異なるモダリティを有するデータに関連付けられる。例えば、ノードAは疾患に関連付けられたデータを表現してよく、ノードBは遺伝子に関連付けられたデータを表現してよく、ノードCは薬物に関連付けられたデータを表現してよい。ネットワーク100内のノードに関連付けられたリンクは、単一モダリティ内のデータの間の相互作用を記述するモダリティ内リンク(例えば、リンク132、134)を含む。例えば、リンク132は、ノードBに関連付けられたデータの間の相互作用(例えば、遺伝子が他の遺伝子と相互作用する)を記述し、リンク134は、ノードCに関連付けられたデータの間の相互作用(例えば、薬物が他の薬物と構造的類似性を有する)を記述する。異種ネットワーク内の各ノードは、任意の適切な数のモダリティ内リンクを含んでよく(モダリティ内リンクを含まなくてもよく)、ネットワーク内の任意の1つのノードに関連付けられたリンクの数は、ノードに関連付けられたデータのモダリティに依存し得る。例えば、以下により詳細に説明されるように、「遺伝子」モダリティに関連付けられたノードは、「薬物クラス」モダリティに関連付けられたノードよりもモダリティ内リンクを多く有し得る。 As shown, the heterogeneous network 100 includes a plurality of nodes and connections between the nodes. Each of the nodes in the network 100 is associated with data having a different modality. For example, node A may represent data associated with a disease, node B may represent data associated with a gene, and node C may represent data associated with a drug. The links associated with the nodes in the network 100 include intra-modality links (e.g., links 132, 134) that describe interactions between data within a single modality. For example, link 132 describes interactions between data associated with node B (e.g., a gene interacts with another gene), and link 134 describes interactions between data associated with node C (e.g., a drug has structural similarity with another drug). Each node in the heterogeneous network may include any suitable number of intra-modality links (or may not include an intra-modality link), and the number of links associated with any one node in the network may depend on the modality of the data associated with the node. For example, as described in more detail below, a node associated with the "gene" modality may have more intra-modality links than a node associated with the "drug class" modality.

ネットワーク100内の各ノードはまた、少なくとも1つのモダリティ間リンク(例えば、リンク112、114、116、および122)を含み、モダリティ間リンクは、異なるモダリティからのデータの間の相互作用を記述する。モダリティ間リンクは、ノードをネットワーク内の他のノードに接続する。一部のノードは単一のモダリティ間リンクのみを含むが、他のノードは、1つまたは複数の別のノードへの複数のモダリティ間リンクを含み、それらは、ネットワーク100内のデータの間のより複雑な関連性を示す。ネットワーク100内のモダリティ間リンクにより、ネットワーク内の異なるデータ・ソースからのデータの間の関連性が学習されてよく、いくつかの実施形態では、直接的にまたはネットワーク内の他のノードを介して間接的に接続されたノードの間の予測を可能にする。例えば、ノードAとノードCにおけるデータの間の関連性は、これら2つのノードの間の直接リンク116を介して、また、ノードBを介するノードAとノードCとの間の間接パス(例えば、リンク112、114、および122を通る)を介して学習され得る。ネットワーク100内のノードによって表現されるデータの間の学習された接続のメッシュは、いくつかの実施形態に従って、訓練された統計モデルを使用してエンコードされたデータ表現の豊かさを高める。例えば、訓練された統計モデルは、異種薬物-疾患ネットワーク内の欠落したリンクを予測するために使用されてよい。 Each node in network 100 also includes at least one inter-modality link (e.g., links 112, 114, 116, and 122), which describes the interactions between data from different modalities. The inter-modality links connect the nodes to other nodes in the network. Some nodes include only a single inter-modality link, while other nodes include multiple inter-modality links to one or more other nodes, which indicate more complex associations between data in network 100. The inter-modality links in network 100 may allow associations between data from different data sources in the network to be learned, and in some embodiments, enable predictions between nodes that are connected directly or indirectly through other nodes in the network. For example, associations between data at node A and node C may be learned through the direct link 116 between these two nodes, and also through an indirect path between node A and node C via node B (e.g., through links 112, 114, and 122). The mesh of learned connections between the data represented by the nodes in the network 100 increases the richness of the data representation encoded using the trained statistical model, according to some embodiments. For example, the trained statistical model may be used to predict missing links in a heterogeneous drug-disease network.

図2は、いくつかの実施形態による統計モデルを使用して表現され得る薬物-疾患異種ネットワークの例を示す。図示されるように、ネットワークは、複数のノードを含み、各ノードは、異なるモダリティの生物学的データに関連付けられている。ネットワークは、ネットワーク内のノードに関連付けられ接続するモダリティ内リンクおよびモダリティ間リンクを含む。これらのリンクは、モダリティ内のデータのペアまたは異なるモダリティからのデータのペアがどのように互いに関係するかを記述する。異種ネットワークに複数のノードを含めることによって、薬物と疾患の関係、例えば、遺伝子が疾患に罹患しまたは関連付けられる、遺伝子が薬物により調節されまたは標的にされる、疾患に罹患した組織で遺伝子が発現されるなどの関係が、複数のモダリティを介して確立されることが可能である。また、薬物は、それらの分子構造、それぞれのタンパク質標的、薬物クラス、および副作用によって特徴付けることができ、疾患は疾患オントロジーによって特徴付けることもできる。 Figure 2 shows an example of a drug-disease heterogeneous network that may be represented using a statistical model according to some embodiments. As shown, the network includes multiple nodes, each associated with biological data of a different modality. The network includes intra-modality and inter-modality links that are associated with and connect the nodes in the network. These links describe how pairs of data within a modality or from different modalities relate to each other. By including multiple nodes in the heterogeneous network, drug-disease relationships, such as genes affected or associated with a disease, genes regulated or targeted by drugs, genes expressed in diseased tissues, etc., can be established through multiple modalities. Drugs can also be characterized by their molecular structure, respective protein targets, drug classes, and side effects, and diseases can also be characterized by disease ontologies.

図2に示す特定の薬物-疾患ネットワークでは、遺伝子に関連するノードは、ネットワーク内の他の4つのノードに直接接続されることによって薬物と疾患の間の中核的機能リンクを表現する。遺伝子は、機能的相互作用によって、例えば、タンパク質-タンパク質相互作用、転写制御ネットワークまたは共発現(co-expression)ネットワーク、およびそれらの生物学的経路または遺伝子オントロジー関連性などによって特徴付けられ得る。いくつかの実施形態では、ネットワークは、薬物および疾患メタボロミクス、プロテオミクス、ならびにマイクロバイオーム情報のうちの1つまたは複数を含む。 In the particular drug-disease network shown in Figure 2, the node associated with a gene represents the core functional link between the drug and the disease by being directly connected to four other nodes in the network. Genes can be characterized by functional interactions, such as protein-protein interactions, transcriptional regulatory networks or co-expression networks, and their biological pathways or gene ontology associations. In some embodiments, the network includes one or more of drug and disease metabolomics, proteomics, and microbiome information.

追加の生物学的データが利用可能になると、図2に示される薬物-疾患異種ネットワークは、追加のノードおよび/またはノード間の追加のリンクを含むように拡張され得る。1つまたは2つのみのモダリティからのデータに基づいて予測を行うように訓練されたいくつかの従来の計算モデルとは異なり、薬物-疾患異種ネットワークの表現は、そのようにして容易に拡張可能でスケーラブルである。異種ネットワークの既存のノード内で表現されるデータの新たなノードまたはタイプは、任意の適切な方法で追加され得る。例えば、いくつかの実施形態では、薬物-疾患異種ネットワーク内のノードは、様々な生物に関連付けられたデータ(例えば、ヒトおよびマウスのデータセットからのデータ)を含んでよい。モデル生物、Saccharomyces cerevisiae(酵母)、Caenorhabditis elegans(線虫)、Danio rerio(ゼブラフィッシュ)、Arabidopsis thaliana(シロイヌナズナ)およびDrosophila melanogaster(ショウジョウバエ)からの薬物-表現型関連性も含まれ得る。別の例では、生物間結合がオーソロガス遺伝子関連性を使用してモデルで表現され得る。 As additional biological data becomes available, the drug-disease heterogeneous network shown in FIG. 2 may be expanded to include additional nodes and/or additional links between nodes. Unlike some conventional computational models trained to make predictions based on data from only one or two modalities, the drug-disease heterogeneous network representation is thus easily expandable and scalable. New nodes or types of data represented within existing nodes of the heterogeneous network may be added in any suitable manner. For example, in some embodiments, nodes in the drug-disease heterogeneous network may include data associated with different organisms (e.g., data from human and mouse datasets). Drug-phenotype associations from the model organisms Saccharomyces cerevisiae (yeast), Caenorhabditis elegans (nematode worm), Danio rerio (zebrafish), Arabidopsis thaliana (Arabidopsis), and Drosophila melanogaster (fruit fly) may also be included. In another example, inter-organism associations may be represented in the model using orthologous gene relationships.

異種ネットワーク内のノードに関連付けられたデータは、特定のモダリティ内のデータの間の相互作用(例えば、遺伝子-遺伝子相互作用)または異なるモダリティからのデータの間の相互作用(例えば、疾患に対する薬物治療)に関する信頼できる情報を提供する任意のデータ・ソースから特定され得る。いくつかの実施形態では、異種ネットワークとのデータの相互作用に関する情報は、公的にアクセス可能なデータベースおよび/もしくは生物学的情報の独自データベースの情報に基づいて、または臨床試験もしくは他の医学研究の結果に基づいて決定される。例えば、薬物に関連付けられたデータは、小分子および/または生物製剤に関係付けられた情報を含んでよく、疾患に関連付けられたデータは、疾患カテゴリに関係付けられた情報を含んでよく、疾患カテゴリとして、新生物(例えば、白血病、リンパ腫、肺がん、黒色腫、甲状腺がん、肝がん、前立腺がん、腎がんまたは腎臓がん、膵臓がん、腸がん、膠芽腫、星状細胞腫、乳がんなど)および非がん疾患(例えば、神経、心血管、皮膚、筋骨格、泌尿器、呼吸器、栄養、および代謝の疾患など)があるが、これらに限定されない。 Data associated with nodes in a heterogeneous network may be identified from any data source that provides reliable information regarding interactions between data within a particular modality (e.g., gene-gene interactions) or between data from different modalities (e.g., drug treatments for a disease). In some embodiments, information regarding data interactions with the heterogeneous network is determined based on information in publicly accessible databases and/or proprietary databases of biological information, or based on the results of clinical trials or other medical research. For example, data associated with drugs may include information related to small molecules and/or biologics, and data associated with diseases may include information related to disease categories, including, but not limited to, neoplasms (e.g., leukemia, lymphoma, lung cancer, melanoma, thyroid cancer, liver cancer, prostate cancer, renal or kidney cancer, pancreatic cancer, intestinal cancer, glioblastoma, astrocytoma, breast cancer, etc.) and non-cancer diseases (e.g., neurological, cardiovascular, skin, musculoskeletal, urological, respiratory, nutritional, and metabolic diseases, etc.).

また、いくつかの実施形態に従って使用される薬物-疾患異種ネットワークは、合成致死スクリーニングに由来する遺伝子-遺伝子相互作用、およびCrisprまたはshRNAまたはsiRNAスクリーニングに由来する遺伝子-疾患相互作用に関係付けられた情報を含んでもよい。さらに、薬物と疾患の間の直接的相互作用に関する情報が、FDA承認薬物-疾患適応に関する情報、およびインビトロがん細胞株生存率実験に基づいて、少なくとも部分的に決定され得る。 The drug-disease heterogeneous network used according to some embodiments may also include information relating to gene-gene interactions derived from synthetic lethality screening and gene-disease interactions derived from Crispr or shRNA or siRNA screening. Furthermore, information regarding direct interactions between drugs and diseases may be determined, at least in part, based on information regarding FDA approved drug-disease indications and in vitro cancer cell line viability experiments.

表1は、いくつかの実施形態による異種ネットワークに関するデータおよび相互作用を特定するために使用され得る例示的なデータセットおよびデータベースのリストを提供する。以下により詳細に説明されるように、これらのデータ・ソース(および他のソース)から抽出されたデータの間の相互作用に関する情報は、訓練された統計モデルが異種ネットワーク内のモダリティ間関連性を表現するよう構成されるように、統計モデルを訓練するために使用され得る。訓練された統計モデルは、次いで、新たなモダリティ間予測を行うために使用され得る。 Table 1 provides a list of example datasets and databases that may be used to identify data and interactions related to heterogeneous networks according to some embodiments. As described in more detail below, information about interactions between data extracted from these data sources (and other sources) may be used to train statistical models such that the trained statistical models are configured to represent cross-modality associations within the heterogeneous network. The trained statistical models may then be used to make new cross-modality predictions.

図2に関連して上述したように、異種ネットワーク内の各ノードは、ネットワーク内の他の1つまたは複数のノードへの少なくとも1つのリンクを含む。いくつかの実施形態は、表1に挙げられたデータ・ソースを含むがそれらに限定されないデータ・ソースから抽出されたデータのペアに関する情報を使用して統計モデルを訓練することによって、ネットワークにおけるデータの間のこれらのリンクをエンコードすることを対象とする。 As discussed above in connection with Figure 2, each node in a heterogeneous network includes at least one link to one or more other nodes in the network. Some embodiments are directed to encoding these links between data in the network by training a statistical model using information about pairs of data extracted from data sources, including but not limited to the data sources listed in Table 1.

図2のネットワーク内の各ノードおよびそれに関連付けられたリンク(モダリティ内とモダリティ間の両方)は、いくつかの実施形態に従って統計モデルを訓練するために別々に考慮され得る。ネットワーク内のノードについてのデータの間のリンクのそれぞれは、カテゴリ的特徴を使用して表現されてよい。カテゴリ的特徴は、以下により詳細に説明するデータ埋め込み技法を使用して、連続値を有するベクトルに各モダリティのデータがマッピングされることを可能にする。次いで、ベクトルは、訓練段階中に統計モデルへの入力として提供され、訓練後に予測のために使用され得る。 Each node in the network of FIG. 2 and its associated links (both intra- and inter-modality) may be considered separately to train a statistical model according to some embodiments. Each of the links between the data for the nodes in the network may be represented using categorical features. The categorical features allow the data for each modality to be mapped to vectors with continuous values using data embedding techniques described in more detail below. The vectors may then be provided as inputs to the statistical model during the training phase and used for prediction after training.

いくつかの例では、異種ネットワークにおけるデータの間の相互作用は、カテゴリ的特徴のみを使用して表現されてよい。例えば、相互作用「薬物が疾患を治療(drug-treats-disease)」において、特定の薬物は、特定の疾患を治療するために承認されること、または承認されないことがある。言い換えれば、「治療」相互作用は2値的である。他の例では、異種ネットワークにおけるデータの間の相互作用が、リンクされたデータの間の相互作用の強さを示す数値的特徴を使用してさらに表現され得る。例えば、相互作用「薬物が遺伝子を制御(drug-regulates-gene)」において、カテゴリ的特徴は、例えば薬物発現プロファイルに基づいて、特定の薬物が特定の遺伝子を制御するかどうかを表すために使用されてよく、数値的特徴は、例えば差次的遺伝子発現比較に基づいて決定される、制御の程度または強さを表すために使用されてよい。 In some examples, interactions between data in a heterogeneous network may be represented using only categorical features. For example, in the interaction "drug-treats-disease," a particular drug may or may not be approved to treat a particular disease. In other words, the "treatment" interaction is binary. In other examples, interactions between data in a heterogeneous network may be further represented using numerical features that indicate the strength of the interaction between the linked data. For example, in the interaction "drug-regulates-gene," categorical features may be used to represent whether a particular drug regulates a particular gene, e.g., based on a drug expression profile, and numerical features may be used to represent the degree or strength of regulation, determined, e.g., based on differential gene expression comparisons.

図2に示される異種ネットワークに関連付けられた例示的な相互作用は、表1の例示的データベースからのどのデータが相互作用データを決定するために使用されたか、および相互作用が異種ネットワークにおいてカテゴリ的特徴のみを使用して表現されたかまたはカテゴリ的特徴に加えて数値的特徴を使用して表現されたかの表示を含み、以下でより詳細に説明される。図2のネットワークにおける相互作用は、例示的な方法で相互作用メトリックを計算することによって以下に説明される。しかしながら、相互作用メトリックのいずれかまたはすべてが、任意の適切な方法でデータ・ソースから抽出および/または計算されてよく、実施形態は、この点で限定されないことを理解されたい。 The exemplary interactions associated with the heterogeneous network shown in FIG. 2 are described in more detail below, including an indication of which data from the exemplary database of Table 1 was used to determine the interaction data and whether the interactions were represented in the heterogeneous network using only categorical features or using numerical features in addition to categorical features. The interactions in the network of FIG. 2 are described below by calculating interaction metrics in an exemplary manner. However, it should be understood that any or all of the interaction metrics may be extracted and/or calculated from data sources in any suitable manner, and embodiments are not limited in this respect.

薬物中心の相互作用
図2に示されるように、「薬物」ノードは、1つのモダリティ内相互作用(薬物が薬物に類似(drug-resembles-drug))と、薬物ノードをネットワーク内の他のノードに接続する5つのモダリティ間相互作用とを含む、6つの異なる薬物中心相互作用を含む。モダリティ内「薬物が薬物に類似」相互作用は、カテゴリ的特徴と数値的特徴の両方によって定義され、ネットワークにおける薬物のペアワイズ構造類似性を記述する。例えば、「類似」メトリックは、谷本係数に基づき、PythonライブラリRDKit(http://www.rdkit.org)を使用して、薬物-対応する指紋からペアワイズ薬物構造類似性を算出することによって計算され得る。一実装形態では、薬物構造は、3つの異なるデータベース(ChEMBL、ChemSpider、PubChem)から「smiles」の形式でダウンロードされて、PythonライブラリMolVS(https://molvs.readthedocs.io/)を使用してsmile標準化された。次に、各薬物の分子指紋を計算し、可能なすべてのペアワイズ薬物指紋比較から谷本係数を算出して、どの薬物が他の薬物と類似するかを決定した。
Drug-centric interactions As shown in Figure 2, the "drug" node contains six different drug-centric interactions, including one intra-modality interaction (drug-resembles-drug) and five inter-modality interactions that connect the drug node to other nodes in the network. The intra-modality "drug-resembles-drug" interactions are defined by both categorical and numerical features and describe the pairwise structural similarity of drugs in the network. For example, the "similarity" metric can be calculated by calculating pairwise drug structural similarity from drug-corresponding fingerprints based on the Tanimoto coefficient using the Python library RDKit (http://www.rdkit.org). In one implementation, drug structures were downloaded in the form of "smiles" from three different databases (ChEMBL, ChemSpider, PubChem) and smile-standardized using the Python library MolVS (https://molvs.readthedocs.io/). A molecular fingerprint for each drug was then calculated and the Tanimoto coefficient was calculated from all possible pairwise drug fingerprint comparisons to determine which drugs were similar to other drugs.

「薬物が遺伝子を制御(drug-regulates-gene)」相互作用は、カテゴリ的特徴と数値的特徴の両方によって定義される。この相互作用は、例えばCMAP-LINCS-L1000データベースから抽出された、薬物発現プロファイルに基づいて決定され得る。一実装形態では、データは、Gene Expression Omnibusデータベース(Accession ID=GSE92742)からダウンロードされ、3~77個のよくアノテーションされた細胞株の可変セットにおいて、2つの異なる時点(6時間および24時間)で3回スクリーニングされた合計19811個の薬物を含んでいた。この実装形態で使用された遺伝子発現データは、レベル5の処理されたデータを含み、これは、各細胞株、時点および薬物治療について、対照条件に関して正規化された差次的遺伝子発現値を含んでいた。データは、遺伝子の(例えば、次元1×12328の)ベクトル、ならびに細胞株、時点および薬物治療の各組み合わせについてのそれらの対応するZスコアによって表現され得る。 The "drug-regulates-gene" interaction is defined by both categorical and numerical features. This interaction can be determined based on drug expression profiles, e.g., extracted from the CMAP-LINCS-L1000 database. In one implementation, the data was downloaded from the Gene Expression Omnibus database (Accession ID=GSE92742) and included a total of 19811 drugs screened in triplicate at two different time points (6 hours and 24 hours) in a variable set of 3-77 well-annotated cell lines. The gene expression data used in this implementation included level 5 processed data, which included differential gene expression values normalized with respect to the control condition for each cell line, time point and drug treatment. The data can be represented by a vector (e.g., of dimension 1×12328) of genes and their corresponding Z-scores for each combination of cell line, time point and drug treatment.

さらに、薬物誘発性遺伝子発現データが複数の薬物について独自データベースから作成された。これらのプロファイルは、2つの異なる時点(6時間および24時間)で、各薬物について2つの異なる濃度で、7つの異なるがん細胞株において生成された。差次的遺伝子発現が、対照条件に関して正規化され、Zスコアの形式で処理された。独自データベースからの薬物について生成されたデータは、CMAP-LINCS-L1000のデータと同じ構造を有していた。 Furthermore, drug-induced gene expression data were generated from the proprietary database for multiple drugs. These profiles were generated in seven different cancer cell lines at two different time points (6 hours and 24 hours) and two different concentrations for each drug. Differential gene expression was normalized with respect to the control condition and processed in the form of Z-scores. The data generated for drugs from the proprietary database had the same structure as the CMAP-LINCS-L1000 data.

上記されたように、「薬物が疾患を治療」相互作用はカテゴリ的である。この相互作用は、承認された(例えば、FDAに承認された)薬物のリストと、それらに対応する疾患適応とに基づき得る。一実装形態では、この相互作用に関するデータは、PharmacotherapyDBデータベースからダウンロードされ、755個の疾患-薬物ペアを含んでいた。 As mentioned above, the "drug treats disease" interaction is categorical. This interaction may be based on a list of approved (e.g., FDA approved) drugs and their corresponding disease indications. In one implementation, data on this interaction was downloaded from the PharmacotherapyDB database and included 755 disease-drug pairs.

「薬物が薬物クラスを包含(drug-includes-drug class)」相互作用はカテゴリ的である。この相互作用は、各薬物とその薬理学的クラスとの間の対応を記述する。一実装形態では、この相互作用に関するデータは、DrugBank(https://www.drugbank.ca/)およびDrugCentral(http://drugcentral.org)データベースからダウンロードされた。 The "drug-includes-drug class" interaction is categorical. It describes the correspondence between each drug and its pharmacological class. In one implementation, data on this interaction was downloaded from the DrugBank (https://www.drugbank.ca/) and DrugCentral (http://drugcentral.org) databases.

「薬物が遺伝子に結合(drug-binds-gene)」相互作用はカテゴリ的である。この相互作用は、薬物と遺伝子によってコードされるそれらのタンパク質標的との関係を記述する。一実装形態では、この相互作用に関するデータは、DrugBank(https://www.drugbank.ca/)、DrugCentral(http://drugcentral.org)、およびBindingDB(https://www.bindingdb.org)データベースから得られた。 The "drug-binds-gene" interaction is categorical. It describes the relationship between drugs and their protein targets encoded by genes. In one implementation, data on this interaction was obtained from the DrugBank (https://www.drugbank.ca/), DrugCentral (http://drugcentral.org), and BindingDB (https://www.bindingdb.org) databases.

疾患中心の相互作用
図2に示されるように、「疾患」ノードは、疾患ノードをネットワーク内の他のノードに接続する5つの異なる疾患中心のモダリティ間相互作用(そのうちの1つは、上述の「薬物が疾患を治療」相互作用である)を含む。疾患ノードは、いずれのモダリティ内相互作用にも関連付けられていない。「疾患が遺伝子を制御(disease-regulates-gene)」相互作用は、カテゴリ的特徴と数値的特徴の両方を使用して表現される。一実装形態では、この相互作用についてのデータは、TCGAデータベース(https://tcga-data.nci.nih.gov/)および独自データベースから得られた。この相互作用は、対応する正常対照組織または健常人と比較した場合、患部組織において上方制御および下方制御される(up- and down-regulated)遺伝子に関する。TCGAデータベースは、各患者についてのがん遺伝子発現プロファイルおよびそれらの対応する正常対照組織プロファイルを含む。一実装形態では、各患者の両方のプロファイルがダウンロードされ、腫瘍と対照の間の対応する倍数変化が計算され、遺伝子発現値がZスコアに正規化された。575個の異なる疾患(がんおよび非がん疾患の適応)の約1500個の遺伝子発現プロファイルを含む独自データベースも、「疾患が遺伝子を制御」相互作用についてのデータを生成するために使用された。Gene Expression Omnibus Database(https://www.ncbi.nlm.nih.gov/geo/)からのデータがダウンロードされ、RライブラリGEOqueryおよびLimmaを使用して処理された。各疾患発現プロファイルはLimmaで正規化され、その後、疾患と正常症例との間の遺伝子倍数変化計算が行われた。独自の疾患遺伝子発現プロファイルもZスコアに正規化された。
Disease-centric interactions As shown in FIG. 2, the “Disease” node includes five different disease-centric inter-modality interactions (one of which is the “drug treats disease” interaction described above) that connect the disease node to other nodes in the network. The disease node is not associated with any intra-modality interactions. The “disease-regulates-gene” interaction is represented using both categorical and numerical features. In one implementation, data for this interaction was obtained from the TCGA database (https://tcga-data.nci.nih.gov/) and a proprietary database. This interaction concerns genes that are up- and down-regulated in diseased tissues when compared to corresponding normal control tissues or healthy individuals. The TCGA database includes cancer gene expression profiles for each patient and their corresponding normal control tissue profiles. In one implementation, both profiles of each patient were downloaded, the corresponding fold change between tumor and control was calculated, and gene expression values were normalized to Z-score. A proprietary database containing about 1500 gene expression profiles of 575 different diseases (cancer and non-cancer disease indications) was also used to generate data for "disease controls gene" interactions. Data from the Gene Expression Omnibus Database (https://www.ncbi.nlm.nih.gov/geo/) was downloaded and processed using the R libraries GEOquery and Limma. Each disease expression profile was normalized with Limma, followed by gene fold change calculation between disease and normal cases. The proprietary disease gene expression profiles were also normalized to Z-score.

「疾患が遺伝子に関連(disease-associates-gene)」相互作用はカテゴリ的である。この相互作用は、特定の疾患に関連付けられた遺伝子特異的変異に関する。一実装形態では、メンデル病に対応する遺伝子変異の関連性がOMIMデータベース(https://www.omim.org/)からダウンロードされた。特定のがんに対応する遺伝子変異の関連性は、COSMICdb(https://cancer.sanger.ac.uk/cosmic)およびIntogenデータベース(https://www.intogen.org/)からダウンロードされた。 The "disease-associates-gene" interaction is categorical. This interaction concerns gene-specific mutations associated with a particular disease. In one implementation, gene mutation associations corresponding to Mendelian diseases were downloaded from the OMIM database (https://www.omim.org/). Gene mutation associations corresponding to specific cancers were downloaded from the COSMICdb (https://cancer.sanger.ac.uk/cosmic) and the Intogen database (https://www.intogen.org/).

「疾患が解剖構造に局在(disease-localizes-anatomy)」相互作用はカテゴリ的である。この相互作用は、疾患と、疾患に罹患した対応するヒト組織との間の関連性に関する。一実装形態では、これらの関係は、Medline疾患-組織関連性(ヒンメルシュタイン(Himmelstein)DS.2016)データベースからダウンロードされた。解剖学用語は、解剖学的構造オントロジー用語にマッピングされた(http://uberon.github.io,ムンガルら(Mungall et al),2012)。 The "disease-localizes-anatomy" interaction is categorical. It concerns the association between a disease and the corresponding human tissue affected by the disease. In one implementation, these relationships were downloaded from the Medline Disease-Tissue Associations (Himmelstein DS. 2016) database. Anatomical terms were mapped to Anatomy Ontology terms (http://uberon.github.io, Mungall et al., 2012).

遺伝子中心の相互作用
図2に示されるように、「遺伝子」ノードは、3個のモダリティ内相互作用と、遺伝子ノードをネットワーク内の他のノードに接続する10個のモダリティ間相互作用(そのうちの6個は、薬物および疾患中心の相互作用に関連して上述された)とを含む、13個の異なる遺伝子中心の相互作用を含む。モダリティ内「遺伝子が遺伝子と相互作用(gene-interacts with-gene)」相互作用はカテゴリ的であり、例えば、StringDB(https://string-db.org/)、Human Interaction Database(http://interactome.dfci.harvard.edu/)、およびHuman Protein Reference Database(http://www.hprd.org)からダウンロードされた物理的なタンパク質-タンパク質相互作用に関する。
Gene-centric interactions As shown in Figure 2, the "gene" node contains 13 different gene-centric interactions, including 3 intra-modality interactions and 10 cross-modality interactions (6 of which were described above in relation to drug- and disease-centric interactions) that connect the gene node to other nodes in the network. The intra-modality "gene-interacts with-gene" interactions are categorical and relate to physical protein-protein interactions downloaded, for example, from StringDB (https://string-db.org/), the Human Interaction Database (http://interactome.dfci.harvard.edu/), and the Human Protein Reference Database (http://www.hprd.org).

モダリティ内の「遺伝子が遺伝子を制御(gene-regulates-gene)」相互作用は、カテゴリ的特徴と数値的特徴の両方を使用して表現される。この相互作用は、特定の遺伝子のノックダウンまたは過剰発現に関する異なるがん細胞株にわたる正規化された遺伝子発現レベルに関する。一実装形態では、このデータはCMAP-LINCS-L1000からダウンロードされ、遺伝子発現値はZスコアで正規化された。 The "gene-regulates-gene" interactions within a modality are represented using both categorical and numerical features. This interaction concerns normalized gene expression levels across different cancer cell lines with respect to knockdown or overexpression of a particular gene. In one implementation, this data was downloaded from CMAP-LINCS-L1000 and gene expression values were normalized with Z-score.

モダリティ内の「遺伝子が遺伝子と共動(gene-covaries with-gene)」相互作用は、カテゴリ的および数値的特徴の両方を用いて表現される。この相互作用は、遺伝子間の進化的共変動のレートに関する。一実装形態では、この相互作用についてのデータは、プリエディグケイトら(Priedigkeit et al),2015からダウンロードされた。この相互作用をネットワークに含めるための洞察は、一緒に共進化する傾向のある遺伝子が一般に類似の生物学的経路に関与し、したがって類似の疾患に関与し得るという観察から得られる。 The "gene-covaries with-gene" interactions within a modality are represented using both categorical and numerical features. This interaction concerns the rate of evolutionary covariation between genes. In one implementation, data on this interaction was downloaded from Priedigkeit et al., 2015. The insight for including this interaction in the network comes from the observation that genes that tend to co-evolve together are generally involved in similar biological pathways and therefore may be involved in similar diseases.

「遺伝子が解剖構造において発現(gene-expresses in-anatomy)」相互作用はカテゴリ的であり、特定のヒト組織型における遺伝子の発現レベルを含む。一実装形態では、この相互作用についてのデータは、TISSUESデータベース(https://tissues.jensenlab.org/)およびGTEx Portal(https://www.gtexportal.org/)からダウンロードされた。TISSUESデータベースは、遺伝子発現、免疫組織化学、プロテオミクス、テキストマイニング実験からのデータを組み合わせているのに対し、GTEx Portalは、複数のヒト組織から得られたRNA配列データを含んでいる。 The "gene-expresses in-anatomy" interaction is categorical and includes the expression levels of genes in specific human tissue types. In one implementation, data for this interaction was downloaded from the TISSUES database (https://tissues.jensenlab.org/) and the GTEx Portal (https://www.gtexportal.org/). The TISSUES database combines data from gene expression, immunohistochemistry, proteomics, and text mining experiments, while the GTEx Portal contains RNA-seq data from multiple human tissues.

「遺伝子が解剖構造によって制御(gene regulated by anatomy)」相互作用はカテゴリ的であり、特定の組織型における遺伝子制御情報(例えば、上方制御および下方制御)を含む。一実装形態では、この相互作用についてのデータは、成人に関してBgeeデータベース(https://bgee.org/)から、およびGTEx Portalから抽出された。 The "gene regulated by anatomy" interaction is categorical and includes gene regulation information (e.g., up- and down-regulation) in a specific tissue type. In one implementation, data for this interaction was extracted from the Bgee database (https://bgee.org/) for adults and from the GTEx Portal.

「遺伝子が経路に関与(gene-participates in-pathway)」相互作用はカテゴリ的であり、遺伝子とそれらの対応する細胞経路との間の関連性に関する。一実装形態では、分子機能、細胞局在、および生物学的過程が遺伝子オントロジーコンソーシアム(Gene Ontology Consortium)(http://www.geneontology.org)からダウンロードされた。代謝およびシグナリング経路に対応する関連性は、KEGG(www.genome.jp/kegg/)、Reactome(https://reactome.org)、およびWikiPathways(https://wikipathways.org/)から得られた。 "Gene-participates in-pathway" interactions are categorical and relate to associations between genes and their corresponding cellular pathways. In one implementation, molecular functions, cellular localizations, and biological processes were downloaded from the Gene Ontology Consortium (http://www.geneontology.org). Associations corresponding to metabolic and signaling pathways were obtained from KEGG (www.genome.jp/kegg/), Reactome (https://reactome.org), and WikiPathways (https://wikipathways.org/).

図2の例示的異種ネットワークには6つのノードが示されているが、代替的に、追加(またはより少数)のノードを含む異種ネットワークが、いくつかの実施形態に従って1つまたは複数の統計モデルを使用して表現されてもよいことを理解されたい。例えば、いくつかの実施形態は、統計モデルによって、3つのノード「薬物」、「遺伝子」、および「疾患」、ならびにそれらの対応するモダリティ内およびモダリティ間リンクのみを含む異種ネットワークを表現することを対象とする。他の実施形態では、(例えば、電子健康記録からの)患者データを表現する少なくとも1つのノードを有する異種ネットワークが、統計モデルを使用して表現される。 Although six nodes are shown in the example heterogeneous network of FIG. 2, it should be understood that heterogeneous networks including additional (or fewer) nodes may alternatively be represented using one or more statistical models in accordance with some embodiments. For example, some embodiments are directed to representing a heterogeneous network including only the three nodes "Drug", "Gene", and "Disease" and their corresponding intra- and inter-modality links by a statistical model. In other embodiments, a heterogeneous network having at least one node representing patient data (e.g., from an electronic health record) is represented using a statistical model.

いくつかの実施形態は、生物学的データの異種ネットワークからのすべてのドメインおよびモダリティを統合するマルチモーダル表現を対象とし、その例は図2に関連して上述されている。教師あり学習および限定された訓練データセットに依存するいくつかの従来のアプローチとは異なり、いくつかの実施形態は、訓練のために大きなペアのデータセットを必要としない自己教師あり学習技法を採用する。以下でより詳細に説明されるように、いくつかの実施形態では、統計モデルは、新たな薬物-疾患関連性を見出すために、遺伝子などのように、薬物と疾患との間の共有された接続を利用するように訓練される。 Some embodiments are directed to multimodal representations that integrate all domains and modalities from heterogeneous networks of biological data, examples of which are described above in connection with FIG. 2. Unlike some conventional approaches that rely on supervised learning and limited training datasets, some embodiments employ self-supervised learning techniques that do not require large paired datasets for training. As described in more detail below, in some embodiments, statistical models are trained to exploit shared connections between drugs and diseases, such as genes, to find new drug-disease associations.

図3は、いくつかの実施形態による、自己教師あり学習技法を使用して訓練され得る統計モデルの高レベルアーキテクチャを概略的に示す。異種ネットワーク内の異なるモダリティに対応するノードのそれぞれは、アーキテクチャを通じて入力から出力への別個のパスとして表現される。「遺伝子」、「薬物」、および「疾患」モダリティのみが、図3のアーキテクチャに表現されている。しかしながら、図2の異種ネットワーク内の他のノードを含むがこれに限定されない他のモダリティも、図3に示されるモデル・アーキテクチャに含まれ得ることを理解されたい。 Figure 3 illustrates a schematic of a high-level architecture of a statistical model that may be trained using self-supervised learning techniques, according to some embodiments. Each of the nodes corresponding to a different modality in the heterogeneous network is represented as a separate path from input to output through the architecture. Only the "gene", "drug", and "disease" modalities are represented in the architecture of Figure 3. However, it should be understood that other modalities, including but not limited to other nodes in the heterogeneous network of Figure 2, may also be included in the model architecture shown in Figure 3.

図示されるように、図3のアーキテクチャは、複数のエンコーダ/デコーダ・ペアを含み、そのそれぞれは、ユニモーダル・エンコーダ/デコーダ・ペアのパラメータの値を訓練するために自己教師あり学習技法を採用するように構成される。アーキテクチャに含まれるエンコーダ/デコーダ・ペアの数は、異種ネットワークに含まれるモダリティまたはノードの数に依存する。エンコーダ/デコーダのペアは、以下により詳細に説明されるように、共通潜在空間(本明細書では、共同モダリティ表現または共同マルチモーダル表現とも呼ばれる)を使用して結合されて、各ネットワーク・ノードおよびその対応するネットワーク・リンクの共同表現を学習することができるマルチモーダル統計モデルを形成する。 As shown, the architecture of FIG. 3 includes multiple encoder/decoder pairs, each of which is configured to employ self-supervised learning techniques to train the values of the parameters of the unimodal encoder/decoder pair. The number of encoder/decoder pairs included in the architecture depends on the number of modalities or nodes included in the heterogeneous network. The encoder/decoder pairs are combined using a common latent space (also referred to herein as a joint modality representation or joint multimodal representation) to form a multimodal statistical model capable of learning a joint representation of each network node and its corresponding network link, as described in more detail below.

図3に示すように、各エンコーダ/デコーダ・ペアについて、アーキテクチャは、カテゴリ入力データの変換である連続値のベクトルである複数の埋め込み表現を含む。各エンコーダ/デコーダ・ペアにおけるエンコーダおよびデコーダは、共同モダリティ表現を介して結合され、これは、異種ネットワーク内の接続されたネットワーク・ノードの共同表現ベクトルを含む。結合モダリティ表現におけるベクトルの数は、結合モダリティ表現がN×D行列として表現され得るように、ネットワークにおける相互作用の数と等しく、ここで、Nはネットワークにおける相互作用の数であり、Dは各共同表現ベクトルの長さである。いくつかの実施形態では、N>1×10である。ネットワークにおけるデータの間の相互作用に関する情報は、結合モダリティ表現でエンコードされる。相互作用は、任意の適切な方法でエンコードされ得る。いくつかの実施形態では、入力ペアにおけるデータの間の特定の相互作用を表現する埋め込み相互作用ベクトルが作成され、共通潜在空間における対応する共同表現ベクトルに連結され得る。他の実施形態では、埋め込み相互作用ベクトルを共同表現ベクトルに連結するのではなく、埋め込み相互作用ベクトルは、共同表現ベクトルが作成される2つのエンコーダからの出力に連結されてよい。さらに他の実施形態では、相互作用情報は、特定の相互作用を有する特定の入力データが提供された2つのエンコーダの出力から形成される共同表現ベクトルによって本質的にエンコードされ得る。 As shown in FIG. 3, for each encoder/decoder pair, the architecture includes multiple embedded representations that are vectors of continuous values that are transformations of the categorical input data. The encoders and decoders in each encoder/decoder pair are coupled via a joint modality representation, which includes the joint representation vectors of the connected network nodes in the heterogeneous network. The number of vectors in the joint modality representation is equal to the number of interactions in the network, such that the joint modality representation can be represented as an N×D matrix, where N is the number of interactions in the network and D is the length of each joint representation vector. In some embodiments, N>1×10 6. Information about the interactions between the data in the network is encoded in the joint modality representation. The interactions may be encoded in any suitable manner. In some embodiments, an embedded interaction vector that represents a particular interaction between the data in the input pair may be created and concatenated to the corresponding joint representation vector in the common latent space. In other embodiments, rather than concatenating the embedded interaction vector to the joint representation vector, the embedded interaction vector may be concatenated to the output from the two encoders from which the joint representation vector is created. In still other embodiments, the interaction information may be inherently encoded by the joint representation vector formed from the output of the two encoders provided with particular input data having a particular interaction.

以下により詳細に説明されるように、モダリティ内(例えば、遺伝子-遺伝子)相互作用に関して、エンコーダ/デコーダ・ペアのそれぞれは、自己教師あり学習技法と、異種ネットワーク内のノードに関連付けられたモダリティ内の入力データのペアと、データのペアの間の相互作用を記述する相互作用情報とを使用して訓練される。モダリティ間(例えば、遺伝子-薬物)相互作用に関しては、2つのエンコーダ/デコーダ・ペアは、自己教師あり学習技法と、2つのモダリティにわたる入力データのペアと、異なるモダリティからの入力データの間の相互作用を記述する相互作用情報とを使用して訓練される。相互作用がカテゴリ的特徴と数値的特徴の両方を含む場合、数値的特徴は、例えば、埋め込み相互作用ベクトルおよび/または共同表現ベクトルの全部もしくは一部に、数値的特徴で表現される相互作用の強さまたは程度に対応する値を乗算することによって考慮に入れられ得る。 As described in more detail below, for intra-modality (e.g., gene-gene) interactions, each of the encoder/decoder pairs is trained using self-supervised learning techniques, pairs of input data within modalities associated with nodes in the heterogeneous network, and interaction information describing the interactions between the pairs of data. For inter-modality (e.g., gene-drug) interactions, two encoder/decoder pairs are trained using self-supervised learning techniques, pairs of input data across two modalities, and interaction information describing the interactions between input data from different modalities. When an interaction includes both categorical and numerical features, the numerical features may be taken into account, for example, by multiplying all or part of the embedding interaction vector and/or the co-representation vector by a value corresponding to the strength or degree of the interaction represented by the numerical features.

図4は、いくつかの実施形態による、図3に示されるアーキテクチャを有するマルチモーダル統計モデルを訓練するためのプロセス400を示す。動作410では、(例えば、表1のような1つまたは複数の公開または独自データ・ソースから抽出される)訓練データが、エンコーダへの入力として提供される埋め込みベクトルに変換される。データ埋め込みの間、関連するカテゴリ変数が、それらの間の関係を捕捉する実数の密なベクトルによって表現される。埋め込みベクトルは、連続数値空間における各変数を表現する。埋め込みベクトルの作成については図5に関連して詳細に説明される。 Figure 4 illustrates a process 400 for training a multimodal statistical model having the architecture shown in Figure 3, according to some embodiments. In operation 410, training data (e.g., extracted from one or more public or proprietary data sources, such as Table 1) is converted into embedding vectors that are provided as input to the encoder. During data embedding, related categorical variables are represented by dense vectors of real numbers that capture the relationships between them. The embedding vectors represent each variable in a continuous numeric space. The creation of the embedding vectors is described in more detail in connection with Figure 5.

次いで、工程400は動作412に進み、ここで、埋め込みベクトルは、共同モダリティ表現空間内にエンコードされた出力ベクトルを提供するためにモダリティ固有エンコーダへの入力として提供される。次いで、工程400は動作414に進み、ここで、共同表現ベクトルは、2つのエンコーダから出力されたエンコードされた出力ベクトルに少なくとも部分的に基づいて計算される。共同表現ベクトルは、上述されたように、埋め込み相互作用ベクトルのような入力データ間の相互作用を記述する情報に少なくとも部分的に基づいて追加的に計算されてよい。次いで、工程440は動作416に進み、ここで、共同表現ベクトルは、デコードされた出力ベクトルを生成するためにモダリティ固有のデコーダへの入力として提供される。次いで、工程400は動作418に進み、ここで、エンコーダおよびデコーダ内の重みは、デコードされた出力ベクトルと、モダリティ固有エンコーダへの入力として提供される埋め込みベクトルとの比較に少なくとも部分的に基づいて更新される。例えば、自己教師あり学習技法は、訓練中にエンコーダおよびデコーダにおけるパラメータ(例えば、重み)の値を更新するために使用される。工程400で説明される動作のそれぞれが以下により詳細に説明される。 Process 400 then proceeds to operation 412, where the embedding vector is provided as an input to a modality-specific encoder to provide an output vector encoded in a joint modality representation space. Process 400 then proceeds to operation 414, where a joint representation vector is calculated based at least in part on the encoded output vectors output from the two encoders. The joint representation vector may additionally be calculated based at least in part on information describing the interaction between the input data, such as an embedding interaction vector, as described above. Process 440 then proceeds to operation 416, where the joint representation vector is provided as an input to a modality-specific decoder to generate a decoded output vector. Process 400 then proceeds to operation 418, where weights in the encoder and decoder are updated based at least in part on a comparison of the decoded output vector and the embedding vector provided as an input to the modality-specific encoder. For example, self-supervised learning techniques are used to update the values of parameters (e.g., weights) in the encoder and decoder during training. Each of the operations described in process 400 is described in more detail below.

図5は、いくつかの実施形態によるカテゴリ的特徴を使用して異種ネットワーク内のノードに関連付けられた入力データについての埋め込みベクトルを生成するための工程を示す。入力次元Vは、モダリティにおけるデータの語彙のサイズに対応して各モダリティについて定義される。図5に示される例では、モダリティは「遺伝子」であり、語彙Vのサイズは20,000であり、入力データセットに20,000個の遺伝子があることを示す。モダリティの各要素は、長さVのワンホット・ベクトル510によって「表現」され、i番目の要素は1の値を有し、ベクトルにおける他のすべての要素は0に設定される。例えば、入力データ要素「遺伝子A」をエンコードするために、ワンホット・ベクトル510における位置153の値は1に設定される一方、ベクトルにおける他のすべての値は0に設定される。モダリティについての入力データセット内の要素のそれぞれ(例えば、図5の例では20,000個の遺伝子のそれぞれ)について、別個のワンホット・ベクトルが作成される。次いで、ワンホット・ベクトル510は、バイナリ値ではなく入力変数の連続数値表現を含むサイズ1×Eのより低次元の埋め込み空間に投影される。図5に示される例では、E=10であるが、Eは、他の任意の適切な値に設定されてよく、実施形態はこれに関して限定されないことを理解されたい。 FIG. 5 illustrates a process for generating embedding vectors for input data associated with nodes in a heterogeneous network using categorical features according to some embodiments. An input dimension V is defined for each modality corresponding to the size of the vocabulary of data in the modality. In the example shown in FIG. 5, the modality is "genes" and the size of the vocabulary V is 20,000, indicating that there are 20,000 genes in the input dataset. Each element of the modality is "represented" by a one-hot vector 510 of length V, where the i-th element has a value of 1 and all other elements in the vector are set to 0. For example, to encode the input data element "gene A", the value at position 153 in the one-hot vector 510 is set to 1, while all other values in the vector are set to 0. A separate one-hot vector is created for each of the elements in the input dataset for a modality (e.g., each of the 20,000 genes in the example of FIG. 5). The one-hot vector 510 is then projected into a lower dimensional embedding space of size 1×E that contains continuous numeric representations of the input variables rather than binary values. In the example shown in FIG. 5, E=10, although it should be understood that E may be set to any other suitable value and the embodiments are not limited in this respect.

いくつかの実施形態では、データ埋め込みは、各モダリティ要素に対応するワンホット・ベクトルを次元V×Eの埋め込み行列520で変換して、複数の埋め込みベクトル530を生成することによって達成され、そのそれぞれは、入力データ要素のうちの異なる1つ(例えば、図5の例における遺伝子A)に対応する。いくつかの実施形態では、埋め込み行列520の値は、-1/Vおよび+1/Vの範囲の一様分布からランダムに初期化される。統計モデルの訓練中、埋め込み行列520のパラメータの値は固定されたままであってよく、あるいは訓練工程の一部として更新されてもよい。訓練中に行列520を埋め込むためのパラメータ値を更新することによって、異種ネットワーク内の接続されたノードについての埋め込みベクトル530は、接続されていないノードよりも埋め込み表現空間内でより近いことが期待される。 In some embodiments, data embedding is accomplished by transforming a one-hot vector corresponding to each modality element with an embedding matrix 520 of dimension V×E to generate multiple embedding vectors 530, each of which corresponds to a different one of the input data elements (e.g., gene A in the example of FIG. 5). In some embodiments, the values of the embedding matrix 520 are randomly initialized from a uniform distribution ranging from −1/V and +1/V. During training of the statistical model, the values of the parameters of the embedding matrix 520 may remain fixed or may be updated as part of the training process. By updating the parameter values for embedding matrix 520 during training, it is expected that the embedding vectors 530 for connected nodes in the heterogeneous network will be closer in the embedding representation space than for unconnected nodes.

いくつかの実施形態では、異種ネットワーク内のノードの間のネットワーク・リンクも、上述のように同様の埋め込み手順を使用して埋め込まれるが、埋め込みベクトル530の次元と比較して、より低い埋め込み次元(例えば、1×5)を有し得る。図6は、いくつかの実施形態において、ネットワーク・リンクがどのようにエンコードされ得るかの一例を概略的に示す。特に、図6は、図5に関連して説明されたデータ埋め込みアーキテクチャの出力として生成された埋め込みベクトル530が、エンコーダ602を使用して共通潜在空間650にどのように投影されるかを示す。共通潜在空間650は、本明細書では共同モダリティ表現とも呼ばれる。図示されるように、エンコーダ602は、各埋め込みベクトル530を共通潜在空間650内の高次元潜在表現ベクトル604にマッピングする。図6の例では、エンコーダ602は、埋め込みベクトルのそれぞれを1×10の次元から共通潜在空間650内の1×95の次元にマッピングする。しかしながら、エンコーダ602の出力次元は任意の適切な値を取り得ることを理解されたい。エンコーダ602のための例示的アーキテクチャが図7に関連して以下により詳細に説明される。 In some embodiments, network links between nodes in a heterogeneous network may also be embedded using a similar embedding procedure as described above, but may have a lower embedding dimension (e.g., 1×5) compared to the dimension of the embedding vector 530. FIG. 6 illustrates, in some embodiments, a schematic example of how a network link may be encoded. In particular, FIG. 6 illustrates how the embedding vectors 530 generated as the output of the data embedding architecture described in connection with FIG. 5 are projected into a common latent space 650 using an encoder 602. The common latent space 650 is also referred to herein as a joint modality representation. As illustrated, the encoder 602 maps each embedding vector 530 into a high-dimensional latent representation vector 604 in the common latent space 650. In the example of FIG. 6, the encoder 602 maps each of the embedding vectors from a dimension of 1×10 to a dimension of 1×95 in the common latent space 650. However, it should be understood that the output dimension of the encoder 602 may take any suitable value. An exemplary architecture for the encoder 602 is described in more detail below in connection with FIG. 7.

図6はまた、いくつかの実施形態に従ってネットワーク・リンクに関する情報が共通潜在空間650に投影されることを示す。図5に従って説明されたものと同様の埋め込み工程において、異種ネットワークにおけるネットワーク・リンクに関する情報は、ネットワーク内の特定のノードの各ネットワーク・リンク要素に対応するワンホット・ベクトル610を作成することによって埋め込まれてよい。図6は、図2に示される異種ネットワーク内の「遺伝子」ノードについてのネットワーク・リンクを埋め込む例を示している。ワンホット・ベクトル610は、9つの要素を含み、そのそれぞれは、図2の「遺伝子」ノードに関連付けられた9つのタイプのモダリティ内またはモダリティ間ネットワーク・リンクの1つを表現する。図示されるように、5番目の要素が1に設定され他の要素のすべてが0に設定されたワンホット・ベクトルが、例えば、「遺伝子が遺伝子と相互作用」ネットワーク・リンクに対応する「相互作用」リンクを埋め込むために使用され得る。ワンホット・ベクトル610の次元Iは、ネットワーク内の各ノードに関連付けられたネットワーク・リンクのタイプの数に基づく。 6 also illustrates that information about network links is projected into a common latent space 650 according to some embodiments. In an embedding process similar to that described according to FIG. 5, information about network links in a heterogeneous network may be embedded by creating a one-hot vector 610 corresponding to each network link element of a particular node in the network. FIG. 6 illustrates an example of embedding network links for the “gene” node in the heterogeneous network shown in FIG. 2. The one-hot vector 610 includes nine elements, each of which represents one of the nine types of intra- or inter-modality network links associated with the “gene” node in FIG. 2. As illustrated, a one-hot vector with the fifth element set to 1 and all other elements set to 0 may be used to embed an “interact” link, which corresponds, for example, to a “gene interacts with gene” network link. The dimension I of the one-hot vector 610 is based on the number of types of network links associated with each node in the network.

ワンホット・ベクトルのそれぞれは、次元I×Fの埋め込み行列620を使用してマッピングされて、複数の埋め込み相互作用ベクトル630を生成してよく、そのそれぞれは入力データ要素の1つに対応する。上述のように、いくつかの実施形態では、F<Eであり、したがって、埋め込み相互作用ベクトル630の次元が埋め込みベクトル530の次元よりも小さい。いくつかの実施形態では、埋め込み行列620の値は、-1/Iおよび+1/Iの範囲の一様分布からランダムに初期化される。統計モデルの訓練中、埋め込み行列620のパラメータの値は固定されたままであってよく、あるいは訓練工程の一部として更新されてもよい。図6の例示的アーキテクチャでは、ネットワーク・リンクに関する情報は、潜在表現ベクトル604と、ネットワーク・リンク埋め込み工程から出力される埋め込み相互作用ベクトル634とを連結することによって、共通潜在空間650において表現され、共通潜在空間650における連結されたベクトルは、モダリティ固有データとモダリティ固有データに関するネットワーク・リンク情報との両方を表現する。 Each one-hot vector may be mapped using an embedding matrix 620 of dimension I×F to generate multiple embedded interaction vectors 630, each of which corresponds to one of the input data elements. As mentioned above, in some embodiments, F<E, and thus the dimension of the embedded interaction vector 630 is smaller than the dimension of the embedding vector 530. In some embodiments, the values of the embedding matrix 620 are randomly initialized from a uniform distribution ranging from −1/I and +1/I. During training of the statistical model, the values of the parameters of the embedding matrix 620 may remain fixed or may be updated as part of the training process. In the exemplary architecture of FIG. 6, information about the network links is represented in a common latent space 650 by concatenating the latent representation vector 604 and the embedded interaction vector 634 output from the network link embedding process, and the concatenated vector in the common latent space 650 represents both the modality-specific data and the network link information about the modality-specific data.

上述のように、いくつかの実施形態は、ネットワークに含まれる各モダリティまたはノードについてのエンコーダ/デコーダのペアを使用して自己教師あり学習技法を採用する。自己教師あり学習技法では、Xと出力X’との間の再構成誤差に基づいて入力Xを学習または再現するようにディープ・ニューラル・ネットワークが訓練される。エンコーダのパラメータを訓練することにより、エンコーダは入力ベクトルのより高レベルの表現を再構成することが可能になり、一方、デコーダを訓練することにより、デコーダはより高レベルの表現から入力ベクトルを回復することが可能になる。 As mentioned above, some embodiments employ self-supervised learning techniques using an encoder/decoder pair for each modality or node included in the network. In self-supervised learning techniques, a deep neural network is trained to learn or reproduce an input X based on the reconstruction error between X and the output X'. Training the parameters of the encoder allows the encoder to reconstruct a higher-level representation of the input vector, while training the decoder allows the decoder to recover the input vector from the higher-level representation.

図6のアーキテクチャに関連して説明されるように、エンコーダの入力は、各モダリティの各変数または要素についてのネットワーク・ノードの埋め込みベクトル530である。エンコーダは、各埋め込みベクトルを、より高次元の潜在表現604にマッピングする。いくつかの実施形態では、エンコーダは、
Z=α(WX+b) (式1)
によって特徴付けられることが可能であり、
ここで、Xは埋め込み入力ベクトル530であり、Zは出力ベクトルまたは潜在表現604であり、Wおよびbはそれぞれ線形重みおよびバイアスを表現し、αは活性化関数である。いくつかの実施形態では、活性化関数は、非線形活性化関数、例えば、正規化線形ユニット(ReLU)、指数関数的線形ユニット(ELU)、または漏洩ReLu活性化関数である。
As described in relation to the architecture of Figure 6, the input of the encoder is an embedding vector 530 of the network nodes for each variable or element of each modality. The encoder maps each embedding vector to a higher dimensional latent representation 604. In some embodiments, the encoder
Z = α (W e X + b e ) (Equation 1)
It can be characterized by:
where X is the embedded input vector 530, Z is the output vector or latent representation 604, W e and b e represent linear weights and biases, respectively, and α is an activation function. In some embodiments, the activation function is a non-linear activation function, for example, a rectified linear unit (ReLU), an exponential linear unit (ELU), or a leaky ReLu activation function.

図7は、いくつかの実施形態に従って使用され得るエンコーダ620のための例示的アーキテクチャを示す。図7に示される例では、エンコーダ620は、1つの隠れ層を有する完全に接続されたニューラル・ネットワークとして実装され、次元は、10(入力層)->50(隠れ層)->95(出力層)である。エンコーダ620の出力層は、共通潜在空間650における共同表現ベクトルである。 Figure 7 illustrates an example architecture for an encoder 620 that may be used in accordance with some embodiments. In the example illustrated in Figure 7, the encoder 620 is implemented as a fully connected neural network with one hidden layer, with dimensions 10 (input layer) -> 50 (hidden layer) -> 95 (output layer). The output layer of the encoder 620 is a joint representation vector in a common latent space 650.

各エンコーダ/デコーダ・ペアのデコーダ部分は、異種ネットワーク内の2つの相互作用ノード(Z)の潜在表現または共同表現を、入力変数または個々のネットワーク・ノード(X’)の埋め込み表現ベクトルにマッピングするように構成される。いくつかの実施形態では、デコーダは、
X’=α(WZ+b) (式2)
によって特徴付けられることが可能であり、
ここで、Wおよびbはそれぞれ線形重みおよびバイアスを表現し、αは活性化関数である。いくつかの実施形態では、活性化関数は、非線形活性化関数、例えば、正規化線形ユニット(ReLU)、指数関数的線形ユニット(ELU)、または漏洩ReLu活性化関数である。
The decoder portion of each encoder/decoder pair is configured to map a latent or joint representation of two interacting nodes (Z) in a heterogeneous network to an embedding representation vector of an input variable or individual network node (X'). In some embodiments, the decoder:
X'=α( WdZ + bd ) (Equation 2)
It can be characterized by:
where Wd and bd represent linear weights and biases, respectively, and α is an activation function. In some embodiments, the activation function is a nonlinear activation function, such as a rectified linear unit (ReLU), an exponential linear unit (ELU), or a leaky ReLU activation function.

図7はまた、いくつかの実施形態に従って使用され得るデコーダ720のための例示的アーキテクチャを示す。図7に示される例では、デコーダ620は、1つの隠れ層を有する完全に接続されたニューラル・ネットワークとして実装され、次元は、100(入力層)->50(隠れ層)->10(出力層)である。デコーダ720の出力層は、エンコーダ620への入力として提供される埋め込みベクトルXと同じ次元を有するデコードされたベクトルX’である。 Figure 7 also illustrates an example architecture for a decoder 720 that may be used in accordance with some embodiments. In the example illustrated in Figure 7, the decoder 620 is implemented as a fully connected neural network with one hidden layer, with dimensions 100 (input layer) -> 50 (hidden layer) -> 10 (output layer). The output layer of the decoder 720 is a decoded vector X' that has the same dimensions as the embedding vector X provided as input to the encoder 620.

生物学的データの異種ネットワークを表現するために使用され得るマルチモーダル統計モデルのコンポーネントのための一般的アーキテクチャを説明したが、以下では、ネットワークのノードにおけるデータの間の関連性を学習するようにマルチモーダル統計モデルを訓練する例を提供する。 Having described a general architecture for the components of a multimodal statistical model that can be used to represent a heterogeneous network of biological data, we provide below an example of training a multimodal statistical model to learn associations between data at the nodes of the network.

図8は、いくつかの実施形態による、マルチモーダル統計モデルを訓練するための工程800のフローチャートを示す。使用される特定の訓練技法は、モデルで表現される異種ネットワークのノードにおけるデータの間の相互作用のタイプに依存し得る。動作810では、モダリティ固有の埋め込みベクトルが上述のデータ埋め込み工程を使用して作成される。また、共通潜在空間における連結のための埋め込み相互作用ベクトルを作成する実施形態では、そのような埋め込み相互作用ベクトルは、本明細書に記載される埋め込み技法を使用して動作810において作成されてもよい。 Figure 8 shows a flowchart of a process 800 for training a multimodal statistical model, according to some embodiments. The particular training technique used may depend on the type of interactions between data at nodes of the heterogeneous network represented in the model. In operation 810, modality-specific embedding vectors are created using the data embedding process described above. Also, in embodiments that create embedded interaction vectors for connections in a common latent space, such embedded interaction vectors may be created in operation 810 using the embedding techniques described herein.

次いで、工程800は動作812に進み、ここで、マルチモーダル統計モデルは、モダリティ内相互作用を少なくとも1つ含む異種ネットワーク内の各ノードについてのモダリティ内相互作用を学習するように訓練される。例えば、図2に示される異種ネットワークでは、「遺伝子」および「薬物」ノードのみがモダリティ内リンクと関連付けられている。したがって、これらのノードのそれぞれについて、マルチモーダル統計モデルは、ノードの対応するモダリティ内ネットワーク・リンクを学習するように別々に訓練されてもよい。モダリティ内ネットワーク・リンクを学習するためにマルチモーダル統計モデルを訓練する例は、図9に関連して以下により詳細に説明される。いくつかの異種ネットワークはモダリティ内リンクに関連付けられたノードを含まなくてもよく、そのようなネットワークでは動作812におけるモダリティ内リンクを訓練することが省略されてよいことを理解されたい。 Process 800 then proceeds to operation 812, where a multimodal statistical model is trained to learn intra-modality interactions for each node in the heterogeneous network that includes at least one intra-modality interaction. For example, in the heterogeneous network shown in FIG. 2, only the "gene" and "drug" nodes are associated with intra-modality links. Thus, for each of these nodes, the multimodal statistical model may be trained separately to learn the node's corresponding intra-modality network links. An example of training a multimodal statistical model to learn intra-modality network links is described in more detail below in connection with FIG. 9. It should be understood that some heterogeneous networks may not include nodes associated with intra-modality links, and in such networks, training the intra-modality links in operation 812 may be omitted.

次いで、工程800は動作814に進み、ここで、マルチモーダル統計モデルは、異種ネットワーク内の異なる接続されたノードにおけるデータの間の関係を記述するモダリティ間相互作用を学習するように訓練される。上述のように、異種ネットワーク内のノードのそれぞれは、1つまたは複数のモダリティ間ネットワーク・リンクを介してネットワーク内の少なくとも1つの他のノードに接続される。これらのネットワーク・リンクのそれぞれに関して、動作814における訓練は、マルチモーダル統計モデルが異種ネットワーク内のすべてのネットワーク・リンクに対して訓練されるまで繰り返される。モダリティ間リンクを学習するようにマルチモーダル統計モデルを訓練する例は、図10A~図10Cに関連して以下により詳細に説明される。動作814は動作812の後に示されているが、モダリティ内リンクおよびモダリティ間リンクの訓練は、任意の適切な順序で異種ネットワークのノードに対して行われ得ることが理解されるべきであり、任意の適切な順序は、以下に限定されないが、モダリティ間リンクに対して訓練する前にすべてのモダリティ内リンクに対して訓練すること、モダリティ内リンクに対して訓練する前にすべてのモダリティ間リンクに対して訓練すること、ならびにモダリティ内リンクおよびモダリティ間リンクの訓練を散在させることを含む。 Process 800 then proceeds to operation 814, where the multimodal statistical model is trained to learn cross-modality interactions that describe relationships between data at different connected nodes in the heterogeneous network. As described above, each of the nodes in the heterogeneous network is connected to at least one other node in the network via one or more cross-modality network links. For each of these network links, the training in operation 814 is repeated until the multimodal statistical model has been trained for all network links in the heterogeneous network. An example of training the multimodal statistical model to learn cross-modality links is described in more detail below in connection with Figures 10A-10C. Although operation 814 is shown after operation 812, it should be understood that training of intra-modality links and inter-modality links may be performed on nodes of a heterogeneous network in any suitable order, including, but not limited to, training on all intra-modality links before training on inter-modality links, training on all inter-modality links before training on intra-modality links, and interspersing the training of intra-modality links and inter-modality links.

次いで、工程800は動作816に進み、訓練中に推定された訓練された統計モデルのパラメータが、予測タスクを実行する際に使用するために記憶される。動作816は動作812および814の後に示されているが、ある訓練反復で決定された推定パラメータが、後続の訓練反復のためのモデルのパラメータの少なくともいくつかを初期化するために使用されるように、訓練された統計モデルの推定パラメータを動作812または814における1つまたは複数の訓練反復の後に記憶してもよいことを理解されたい。例として、最初の訓練反復は、「遺伝子が遺伝子と相互作用」ネットワーク・リンクを訓練することに焦点を当ててよく、訓練の結果は、このモダリティ内相互作用を反映する推定されたパラメータを有する遺伝子エンコーダおよび遺伝子デコーダである。遺伝子エンコーダおよび遺伝子デコーダの推定されたパラメータは、「薬物が遺伝子に結合」ネットワーク・リンクの訓練に焦点を当てた後続の訓練反復のためのモデル・パラメータを初期化するために記憶されかつ使用され得る。後続の訓練相互作用の間に、遺伝子エンコーダ/デコーダの推定されたパラメータは、以前に記憶された値からさらに精緻化されて、モダリティ間訓練に関連付けられた関連性を反映する。1回の訓練反復から次の訓練反復までの推定モデル・パラメータの伝播の例が以下により詳細に説明される。 Process 800 then proceeds to operation 816, where the parameters of the trained statistical model estimated during training are stored for use in performing the prediction task. Although operation 816 is shown after operations 812 and 814, it should be understood that the estimated parameters of the trained statistical model may be stored after one or more training iterations in operations 812 or 814, such that the estimated parameters determined in one training iteration are used to initialize at least some of the parameters of the model for a subsequent training iteration. As an example, an initial training iteration may focus on training the "gene interacts with gene" network link, and the results of the training are a gene encoder and a gene decoder with estimated parameters that reflect this intra-modality interaction. The estimated parameters of the gene encoder and the gene decoder may be stored and used to initialize the model parameters for a subsequent training iteration that focuses on training the "drug binds to gene" network link. During subsequent training iterations, the estimated parameters of the gene encoder/decoder are further refined from the previously stored values to reflect the associations associated with the cross-modality training. An example of the propagation of estimated model parameters from one training iteration to the next is described in more detail below.

図9は、いくつかの実施形態による、ネットワーク・リンク「遺伝子が遺伝子と相互作用」を学習するようにマルチモーダル統計モデルを訓練するための工程を概略的に示す。図9に示されるように、2つの遺伝子エンコーダ/デコーダ・ペアが同時に訓練されるのが示されている。例示のために2つの別個のネットワークとして示されているが、図9に示される遺伝子エンコーダ・ペアおよび遺伝子デコーダ・ペアの各々は、図7に例示されているような単一のネットワーク構造に対応することに留意されたい。遺伝子エンコーダおよび遺伝子デコーダ用の単一のネットワーク構造は、本明細書に記載の自己教師あり学習技法を使用して訓練中に推定および更新されるパラメータ(例えば、ネットワーク重み)を含む。 FIG. 9 illustrates a schematic of a process for training a multimodal statistical model to learn the network links "gene interacts with gene" according to some embodiments. As shown in FIG. 9, two gene encoder/decoder pairs are shown being trained simultaneously. Note that while shown as two separate networks for illustration purposes, each of the gene encoder and gene decoder pairs shown in FIG. 9 corresponds to a single network structure as illustrated in FIG. 7. The single network structure for the gene encoder and gene decoder includes parameters (e.g., network weights) that are estimated and updated during training using the self-supervised learning techniques described herein.

図示されるように、エンコーダの出力とデコーダの入力との結合は、マルチモーダル統計モデルが訓練されるモダリティ内ネットワーク・リンクを表現する共同表現である。図9は、例えば、表1に列挙されたデータ・ソースの少なくとも1つから供給されたデータに基づいて、第1の遺伝子RPTORと第2の遺伝子MTORとの間の相互作用をエンコードするネットワーク・リンクの訓練を示す。RPTORおよびMTOR遺伝子のそれぞれは、上述のデータ埋め込み技法を使用して、埋め込みベクトル(例えば、次元1×10を有する)としてモデルにおいて表現される。任意選択で、遺伝子-遺伝子ペアについて訓練されるネットワーク・リンク(図9の例では「相互作用」)も、上述されたように埋め込まれた相互作用ベクトル(例えば、次元1×5を有する)として表現される。 As shown, the combination of the encoder output and the decoder input is a joint representation that represents the intra-modality network links on which the multimodal statistical model is trained. FIG. 9 illustrates training of a network link that encodes an interaction between a first gene RPTOR and a second gene MTOR, for example, based on data sourced from at least one of the data sources listed in Table 1. Each of the RPTOR and MTOR genes is represented in the model as an embedding vector (e.g., having dimensions 1×10) using the data embedding techniques described above. Optionally, the network link trained for the gene-gene pair ("Interaction" in the example of FIG. 9) is also represented as an embedded interaction vector (e.g., having dimensions 1×5) as described above.

RPTORおよびMTORについての埋め込みベクトルは、遺伝子エンコーダのインスタンスへの入力として提供され、それが、各遺伝子についての埋め込みベクトル表現を、共通潜在空間における対応するモダリティ内表現ベクトル(例えば、次元1×95を有する)にエンコードする。ネットワーク・リンクが埋め込み相互作用ベクトルとしても表現される実施形態において、「接続された」入力データ(すなわち、図9の遺伝子RPTORおよびMTORに関するデータ)についてのモダリティ内表現ベクトルは、図示されるように、共通潜在空間における埋め込み相互作用ベクトルと連結されてよく、その結果、2つの連結されたベクトル(例えば、次元1×100を有する)が得られる。 The embedding vectors for RPTOR and MTOR are provided as inputs to an instance of a gene encoder, which encodes the embedding vector representation for each gene into a corresponding within-modality representation vector in a common latent space (e.g., having dimensions 1×95). In an embodiment in which network links are also represented as embedded interaction vectors, the within-modality representation vectors for the "connected" input data (i.e., data for genes RPTOR and MTOR in FIG. 9) may be concatenated with the embedded interaction vector in the common latent space as shown, resulting in two concatenated vectors (e.g., having dimensions 1×100).

接続された入力データおよび接続を特徴付けるネットワーク・リンクを表現する共同表現ベクトルは、共通潜在空間における(任意選択でネットワーク・リンク情報と連結される)2つのモダリティ内表現ベクトルに基づいて計算される。例えば、いくつかの実施形態では、共同表現ベクトルは、共通潜在空間における2つのモダリティ内表現ベクトルの平均または積を計算することによって算出される。この実装形態では、共同表現ベクトルは、連結されたベクトルと同じ次元(すなわち、図9の例では1×100)を有する。共同表現ベクトルを計算するための図9に示される手順の代わりとして、共同表現ベクトルは、いくつかの実施形態では、ネットワーク・リンクを記述する埋め込み相互作用ベクトルと連結する前に、2つのモダリティ内表現ベクトルの組み合わせ(例えば、平均化または積を使用する)に基づいて計算されてよく、埋め込み相互作用ベクトルは、その作成後に共同表現ベクトルと連結されてよい。そのようなシナリオでは、共同表現ベクトルは、最初に、個別のモダリティ内表現ベクトルと同じ次元(例えば、1×95)を有してよく、結合後に、共同表現ベクトルの最終次元はより大きくなる(例えば、1×100)。 A joint representation vector, which represents the connected input data and the network links that characterize the connections, is calculated based on the two intra-modality representation vectors (optionally concatenated with network link information) in a common latent space. For example, in some embodiments, the joint representation vector is calculated by calculating the average or product of the two intra-modality representation vectors in the common latent space. In this implementation, the joint representation vector has the same dimension as the concatenated vector (i.e., 1×100 in the example of FIG. 9). As an alternative to the procedure shown in FIG. 9 for calculating the joint representation vector, in some embodiments, the joint representation vector may be calculated based on a combination (e.g., using an average or product) of the two intra-modality representation vectors before concatenating with the embedded interaction vector describing the network link, and the embedded interaction vector may be concatenated with the joint representation vector after its creation. In such a scenario, the joint representation vector may initially have the same dimension as the individual intra-modality representation vectors (e.g., 1×95), and after the combination, the final dimension of the joint representation vector is larger (e.g., 1×100).

図9における訓練工程は、遺伝子デコーダ(例示のために2つの遺伝子デコーダとして図9に示される)への入力として、共同表現ベクトル(例えば、次元1×100を有する)を提供することによって進行し、遺伝子デコーダは、入力遺伝子RPTORおよびMTORのそれぞれについて、デコードされたベクトル(例えば、次元1×10を有する)を出力するように構成される。デコーダから出力されたデコードされたベクトルと、エンコーダへの入力として提供された埋め込み入力ベクトルとの間のずれが測定され、統計モデルにおける重みを更新するために使用され、したがって、モデルは、自己教師ありの方法でデータ間の関連性を学習することになる。いくつかの実施形態では、自己教師あり学習技法は、負のサンプリング損失関数を使用して実施され、負のサンプリング損失関数から決定された誤差が、エンコーダおよびデコーダ(ならびに任意選択で、データ埋め込みに使用される埋め込み行列)を介して逆伝搬されて、モデルのこれらの構成要素のそれぞれのパラメータ(例えば、重み)の推定値を更新する。 The training step in FIG. 9 proceeds by providing a joint representation vector (e.g., having dimensions 1×100) as input to a genetic decoder (shown in FIG. 9 as a two-gene decoder for illustrative purposes), which is configured to output a decoded vector (e.g., having dimensions 1×10) for each of the input genes RPTOR and MTOR. The deviation between the decoded vector output from the decoder and the embedding input vector provided as input to the encoder is measured and used to update weights in the statistical model, so that the model learns the associations between the data in a self-supervised manner. In some embodiments, the self-supervised learning technique is implemented using a negative sampling loss function, and the error determined from the negative sampling loss function is back-propagated through the encoder and decoder (and optionally the embedding matrix used for data embedding) to update the estimates of the parameters (e.g., weights) of each of these components of the model.

負のサンプリング損失関数は、エンコーダ/デコーダ・ペアが以下の関係に従ってランダム・ネットワーク接続から実数を分離するように強制する。 The negative sampling loss function forces the encoder-decoder pair to separate real from random network connections according to the following relationship:

ここで、wとcは接続されたネットワーク・ノードを表し、wは関係のないネットワーク・ノードを表す。 Here, w and c represent connected network nodes, and w i represents unrelated network nodes.

エンコードされているネットワーク・リンクがモダリティ内ネットワーク・リンクである場合、図9の例のように、単一のモダリティ・エンコーダ表現のパラメータの推定値をどのように更新するかを決定するとき、両方の入力/出力ペアに基づいて決定された誤差が考慮される。言い換えれば、図9に示された両方の遺伝子エンコーダ/デコーダ・インスタンスのパラメータが、各逆伝播サイクルについて同じ方法で更新されることになる。 If the network link being encoded is an intra-modality network link, as in the example of Figure 9, the error determined based on both input/output pairs is taken into account when determining how to update the estimates of the parameters of a single modality encoder representation. In other words, the parameters of both genetic encoder/decoder instances shown in Figure 9 will be updated in the same way for each backpropagation cycle.

簡単に上述したように、いくつかの実施形態では、まず、モダリティ内ネットワーク・リンクを学習するように統計モデルを訓練し、その後、モダリティ間ネットワーク・リンクで訓練をする。以前の訓練反復で既にエンコードされたネットワーク・ノードの場合、ネットワーク構成要素(例えば、エンコーダ、デコーダ、埋め込み行列)の予め訓練された表現に関して記憶されたパラメータが、異なる入力を使用する後続の訓練反復で使用され得る。 As briefly mentioned above, in some embodiments, a statistical model is first trained to learn intra-modality network links, and then trained on inter-modality network links. For network nodes that have already been encoded in a previous training iteration, the parameters stored for the pre-trained representations of the network components (e.g., encoders, decoders, embedding matrices) may be used in subsequent training iterations that use different inputs.

図10Aは、いくつかの実施形態による、異種ネットワークに関するモダリティ間相互作用を学習するようにマルチモーダル統計モデルを訓練するための例を示す。特に、図10Aは、図2に示されている異種ネットワークにおける「薬物が遺伝子に結合」ネットワーク・リンクを学習するために統計モデルがどのように訓練され得るかを示す。図10Aに概説された訓練工程は、モダリティ内ネットワーク相互作用を訓練するために図9に説明されたものと同様であり、主な違いは、入力および訓練のために使用されるエンコーダ/デコーダである。簡単に述べると、埋め込みベクトルは、異種ネットワーク内の異なるノードに対応する異なるモダリティ(図10Aの例では薬物および遺伝子)からの特定のデータ・ペアについて作成される。埋め込みベクトルは、ワンホット・ベクトルおよび対応する埋め込み行列を使用して上述されたデータ埋め込み工程を用いて作成される。図10Aに示される例では、薬物LAM-002について第1の埋め込みベクトルが作成され、遺伝子PIKFYVEについて第2の埋め込みベクトルが作成される。埋め込みベクトルは、それぞれ薬物および遺伝子エンコーダへの入力として提供され、それぞれの埋め込みベクトルは、共通潜在表現空間における高次元モダリティ固有潜在表現にマッピングされる。薬物および遺伝子エンコーダのアーキテクチャは、図7に関連して上述されたものと同様であってよい。いくつかの実施形態では、エンコーダ/デコーダ・アーキテクチャは、例えば、異なる数の隠れ層および/または異なる次元を有する層を備えることによって、異なるモダリティに対して異なるアーキテクチャを有してよく、出力表現は、各エンコーダ/デコーダについて同じ次元(例えば、1×95)を有する。他の実施形態では、エンコーダ/デコーダのアーキテクチャは、統計モデルで表現されるデータの各モダリティに対して同一であり、エンコーダ/デコーダの間の差異は、ネットワークで表現される重みに反映される。 FIG. 10A illustrates an example for training a multimodal statistical model to learn inter-modality interactions for a heterogeneous network, according to some embodiments. In particular, FIG. 10A illustrates how a statistical model can be trained to learn the “drug binds gene” network links in the heterogeneous network shown in FIG. 2. The training process outlined in FIG. 10A is similar to that described in FIG. 9 for training intra-modality network interactions, with the main difference being the encoder/decoder used for input and training. Briefly, embedding vectors are created for specific data pairs from different modalities (drugs and genes in the example of FIG. 10A) that correspond to different nodes in the heterogeneous network. The embedding vectors are created using the data embedding process described above using one-hot vectors and corresponding embedding matrices. In the example shown in FIG. 10A, a first embedding vector is created for the drug LAM-002 and a second embedding vector is created for the gene PIKFYVE. The embedding vectors are provided as inputs to the drug and gene encoders, respectively, and each embedding vector is mapped to a high-dimensional modality-specific latent representation in a common latent representation space. The architecture of the drug and gene encoders may be similar to that described above in connection with FIG. 7. In some embodiments, the encoder/decoder architecture may have different architectures for different modalities, e.g., by having different numbers of hidden layers and/or layers with different dimensions, and the output representation has the same dimensions (e.g., 1×95) for each encoder/decoder. In other embodiments, the encoder/decoder architecture is the same for each modality of the data represented in the statistical model, and the differences between the encoders/decoders are reflected in the weights represented in the network.

簡単に上述したように、エンコーダ/デコーダ・ペアの一方または両方は、少なくとも1つの先行の訓練反復に基づいて初期化されるパラメータ値に関連付けられ得る。例えば、図9に示されるような遺伝子エンコーダ/デコーダのモダリティ内訓練が、図10Aに示されるような薬物および遺伝子エンコーダ/デコーダのモダリティ間訓練の前に行われたシナリオにおいて、図9における訓練から得られる予め訓練された遺伝子エンコーダ/デコーダ・ペアは、図10Aのアーキテクチャにおける遺伝子エンコーダ/デコーダ・ペアのパラメータを初期化するために使用され得る。このように、各モダリティに対するエンコーダ/デコーダ・ペアは、新たなデータ・ペアおよびネットワーク相互作用がマルチモーダル統計モデルへの入力として提供されると、引き続き訓練される。 As briefly mentioned above, one or both of the encoder/decoder pairs may be associated with parameter values that are initialized based on at least one prior training iteration. For example, in a scenario in which intra-modality training of the gene encoder/decoder as shown in FIG. 9 has been performed before inter-modality training of the drug and gene encoder/decoder as shown in FIG. 10A, the pre-trained gene encoder/decoder pair resulting from the training in FIG. 9 may be used to initialize the parameters of the gene encoder/decoder pair in the architecture of FIG. 10A. In this manner, the encoder/decoder pairs for each modality are continually trained as new data pairs and network interactions are provided as inputs to the multimodal statistical model.

図10Aに示されるように、エンコーダから出力されたモダリティ固有潜在表現は、入力データ間の特定のモダリティ間ネットワーク・リンク(図10Aの例では「結合」)を表現する埋め込み相互作用ベクトルに連結され得る。共通潜在表現にネットワーク・リンク情報を組み込むために連結が使用される実施形態では、モダリティ固有潜在表現を生成するときに連結が発生してよく、またはモダリティ固有潜在表現が共同表現を作成するために組み合わされた後に連結が発生してもよい。モダリティ固有潜在表現は、例えば、薬物LAM-002と遺伝子PIKFYVEの入力データ・ペアについての「薬物が遺伝子に結合」ネットワーク相互作用を表現する共同表現ベクトルを計算するために、2つの潜在表現の平均または積をとることによって組み合わされてよい。訓練を続けると、共同表現は、薬物デコーダと遺伝子デコーダの両方への入力として提供され、デコードされた出力ベクトル(例えば、次元1×10を有する)が生成され、エンコーダおよびデコーダ(および任意選択で埋め込み行列)のパラメータが、デコードされた出力ベクトルとエンコーダへの入力として提供された埋め込みベクトルとの比較に基づいて更新される。いくつかの実施形態による逆伝搬を使用して重みが更新され得る方法の例は上述されている。 As shown in FIG. 10A, the modality-specific latent representations output from the encoders may be concatenated into an embedding interaction vector that represents a particular inter-modality network link ("bond" in the example of FIG. 10A) between the input data. In embodiments where concatenation is used to incorporate network link information into the common latent representation, concatenation may occur when generating the modality-specific latent representation, or may occur after the modality-specific latent representations are combined to create the joint representation. The modality-specific latent representations may be combined, for example, by taking the average or product of the two latent representations to calculate a joint representation vector that represents the "drug binds to gene" network interaction for the input data pair of drug LAM-002 and gene PIKFYVE. As training continues, the joint representation is provided as input to both the drug decoder and the gene decoder, a decoded output vector (e.g., having dimensions 1×10) is generated, and the parameters of the encoder and decoder (and optionally the embedding matrix) are updated based on a comparison of the decoded output vector to the embedding vector provided as input to the encoder. Examples of how weights may be updated using backpropagation in some embodiments are described above.

図10Bは、いくつかの実施形態による異種ネットワークに関するモダリティ間相互作用を学習するようにマルチモーダル統計モデルを訓練するための別の例を示す。特に、図10Bは、図2に示されている異種ネットワークにおける「疾患が遺伝子に関連」ネットワーク・リンクを学習するために統計モデルがどのように訓練され得るかを示す。図10Bに概説された訓練工程は、図10Aに説明されたものと同様であり、主な違いは、入力および訓練のために使用されるエンコーダ/デコーダである。簡単に述べると、埋め込みベクトルは、異種ネットワーク内の異なるノードに対応する異なるモダリティ(図10Bの例では遺伝子および疾患)からの特定のデータ・ペアについて作成される。埋め込みベクトルは、ワンホット・ベクトルおよび対応する埋め込み行列を使用して上述されたデータ埋め込み工程を用いて作成される。図10Bに示される例では、遺伝子BCL6について第1の埋め込みベクトルが作成され、疾患のリンパ腫について第2の埋め込みベクトルが作成される。埋め込みベクトルは、それぞれ遺伝子および疾患エンコーダへの入力として提供され、それぞれの埋め込みベクトルは、共通潜在表現空間における高次元モダリティ固有潜在表現にマッピングされる。 10B illustrates another example for training a multimodal statistical model to learn cross-modality interactions for a heterogeneous network according to some embodiments. In particular, FIG. 10B illustrates how a statistical model can be trained to learn the “disease-associated-gene” network links in the heterogeneous network illustrated in FIG. 2. The training process outlined in FIG. 10B is similar to that described in FIG. 10A, with the main difference being the input and the encoder/decoder used for training. Briefly, embedding vectors are created for specific data pairs from different modalities (genes and diseases in the example of FIG. 10B) corresponding to different nodes in the heterogeneous network. The embedding vectors are created using the data embedding process described above using one-hot vectors and corresponding embedding matrices. In the example illustrated in FIG. 10B, a first embedding vector is created for the gene BCL6 and a second embedding vector is created for the disease lymphoma. The embedding vectors are provided as inputs to the gene and disease encoders, respectively, and each embedding vector is mapped to a high-dimensional modality-specific latent representation in a common latent representation space.

エンコーダ/デコーダ・ペアの一方または両方は、少なくとも1つの先行の訓練反復に基づいて初期化されるパラメータ値に関連付けられ得る。例えば、図10Aに示されるような遺伝子エンコーダ/デコーダのモダリティ間訓練が、図10Bにおける遺伝子および疾患エンコーダ/デコーダのモダリティ間訓練の前に行われたシナリオにおいて、図10Aにおける訓練から得られる予め訓練された遺伝子エンコーダは、図10Bのアーキテクチャにおける遺伝子エンコーダおよびデコーダのパラメータを初期化するために使用され得る。このように、各モダリティに対するエンコーダ/デコーダ・ペアは、新たなデータ・ペアおよびネットワーク相互作用がマルチモーダル統計モデルへの入力として提供されると、引き続き訓練される。 One or both of the encoder/decoder pairs may be associated with parameter values that are initialized based on at least one prior training iteration. For example, in a scenario in which cross-modality training of the gene encoder/decoder as shown in FIG. 10A has been performed before cross-modality training of the gene and disease encoder/decoder in FIG. 10B, the pre-trained gene encoder resulting from the training in FIG. 10A may be used to initialize the parameters of the gene encoder and decoder in the architecture of FIG. 10B. In this manner, the encoder/decoder pairs for each modality are continuously trained as new data pairs and network interactions are provided as inputs to the multimodal statistical model.

図10Bに示されるように、エンコーダから出力されたモダリティ固有潜在表現は、入力データ間の特定のモダリティ間ネットワーク・リンク(図10Bの例では「関連」)を表現する埋め込み相互作用ベクトルに連結され得る。共通潜在表現にネットワーク・リンク情報を組み込むために連結が使用される実施形態では、モダリティ固有潜在表現を生成するときに連結が発生してよく、またはモダリティ固有潜在表現が共同表現を作成するために組み合わされた後に連結が生じてもよい。モダリティ固有潜在表現は、例えば、遺伝子BCL6と疾患のリンパ腫の入力データ・ペアについての「疾患が遺伝子に関連」ネットワーク相互作用を表現する共同表現ベクトルを計算するために、2つの表現の平均または積をとることによって組み合わされてよい。訓練を続けると、共同表現は、遺伝子デコーダと疾患デコーダの両方への入力として提供され、デコードされた出力ベクトル(例えば、次元1×10を有する)が生成され、エンコーダおよびデコーダ(および任意選択で埋め込み行列)のパラメータが、デコードされた出力ベクトルとエンコーダへの入力として提供された埋め込みベクトルとの比較に基づいて更新される。いくつかの実施形態による逆伝搬を使用して重みが更新され得る方法の例は上述されている。 As shown in FIG. 10B, the modality-specific latent representations output from the encoders may be concatenated into an embedding interaction vector that represents a particular inter-modality network link ("associated" in the example of FIG. 10B) between the input data. In embodiments where concatenation is used to incorporate network link information into the common latent representation, concatenation may occur when generating the modality-specific latent representations, or may occur after the modality-specific latent representations are combined to create the joint representation. The modality-specific latent representations may be combined, for example, by taking the average or product of the two representations to calculate a joint representation vector that represents a "disease associated with gene" network interaction for the input data pair of gene BCL6 and disease lymphoma. As training continues, the joint representations are provided as inputs to both the gene decoder and the disease decoder, a decoded output vector (e.g., having dimensions 1×10) is generated, and the parameters of the encoder and decoder (and optionally the embedding matrix) are updated based on a comparison of the decoded output vector and the embedding vector provided as input to the encoder. Examples of how weights may be updated using backpropagation according to some embodiments are described above.

図10Cは、いくつかの実施形態による異種ネットワークに関するモダリティ間相互作用を学習するようにマルチモーダル統計モデルを訓練するための別の例を示す。特に、図10Cは、図2に示されている異種ネットワークにおける「薬物が疾患を治療」ネットワーク・リンクを学習するために統計モデルがどのように訓練され得るかを示す。図10Cに概説された訓練工程は、図10Aおよび図10Bに説明されたものと同様であり、主な違いは、入力および訓練のために使用されるエンコーダ/デコーダである。簡単に述べると、埋め込みベクトルは、異種ネットワーク内の異なるノードに対応する異なるモダリティ(図10Cの例では薬物および疾患)からの特定のデータ・ペアについて作成される。埋め込みベクトルは、ワンホット・ベクトルおよび対応する埋め込み行列を使用して上述されたデータ埋め込み工程を用いて作成される。図10Cに示される例では、薬物LAM-002について第1の埋め込みベクトルが作成され、疾患のリンパ腫について第2の埋め込みベクトルが作成される。埋め込みベクトルは、それぞれ薬物および疾患エンコーダへの入力として提供され、それぞれの埋め込みベクトルは、共通潜在表現空間における高次元モダリティ固有潜在表現にマッピングされる。 FIG. 10C illustrates another example for training a multimodal statistical model to learn inter-modality interactions for a heterogeneous network according to some embodiments. In particular, FIG. 10C illustrates how a statistical model can be trained to learn the “drug treats disease” network links in the heterogeneous network shown in FIG. 2. The training process outlined in FIG. 10C is similar to that described in FIG. 10A and FIG. 10B, with the main difference being the encoder/decoder used for input and training. Briefly, embedding vectors are created for specific data pairs from different modalities (drug and disease in the example of FIG. 10C) that correspond to different nodes in the heterogeneous network. The embedding vectors are created using the data embedding process described above using one-hot vectors and corresponding embedding matrices. In the example shown in FIG. 10C, a first embedding vector is created for the drug LAM-002 and a second embedding vector is created for the disease lymphoma. The embedding vectors are provided as inputs to the drug and disease encoders, respectively, and each embedding vector is mapped to a high-dimensional modality-specific latent representation in a common latent representation space.

エンコーダ/デコーダ・ペアの一方または両方は、少なくとも1つの先行の訓練反復に基づいて初期化されるパラメータ値に関連付けられ得る。例えば、図10Aに示されるような薬物エンコーダ/デコーダのモダリティ間訓練、および図10Bに示されるような疾患エンコーダ/デコーダのモダリティ間訓練が、図10Cに示されるモダリティ間訓練の前に行われたシナリオにおいて、図10Aにおける訓練から得られる予め訓練された薬物エンコーダ/デコーダ・ペアは、図10Cのアーキテクチャにおける薬物エンコーダ/デコーダ・ペアのパラメータを初期化するために使用され得るとともに、図10Bにおける訓練から得られる予め訓練された疾患エンコーダ/デコーダ・ペアは、図10Cのアーキテクチャにおける疾患エンコーダ/デコーダ・ペアのパラメータを初期化するために使用され得る。このように、各モダリティに対するエンコーダ/デコーダ・ペアは、新たなデータ・ペアおよびネットワーク相互作用がマルチモーダル統計モデルへの入力として提供されると、引き続き訓練される。 One or both of the encoder/decoder pairs may be associated with parameter values that are initialized based on at least one prior training iteration. For example, in a scenario in which cross-modality training of a drug encoder/decoder as shown in FIG. 10A and cross-modality training of a disease encoder/decoder as shown in FIG. 10B have been performed before the cross-modality training shown in FIG. 10C, the pre-trained drug encoder/decoder pair resulting from the training in FIG. 10A may be used to initialize the parameters of the drug encoder/decoder pair in the architecture of FIG. 10C, and the pre-trained disease encoder/decoder pair resulting from the training in FIG. 10B may be used to initialize the parameters of the disease encoder/decoder pair in the architecture of FIG. 10C. In this manner, the encoder/decoder pairs for each modality are continually trained as new data pairs and network interactions are provided as inputs to the multimodal statistical model.

図10Cに示されるように、エンコーダから出力されたモダリティ固有潜在表現は、入力データ間の特定のモダリティ間ネットワーク・リンク(図10Cの例では「治療」)を表現する埋め込み相互作用ベクトルに連結され得る。共通潜在表現にネットワーク・リンク情報を組み込むために連結が使用される実施形態では、モダリティ固有潜在表現を生成するときに連結が発生してよく、またはモダリティ固有潜在表現が共同表現ベクトルを作成するために組み合わされた後に連結が生じてもよい。モダリティ固有潜在表現は、例えば、薬物LAM-002と疾患のリンパ腫の入力データ・ペアについての「薬物が疾患を治療」ネットワーク相互作用を表現する共同表現ベクトルを計算するために、2つの表現の平均または積をとることによって組み合わされてよい。訓練を続けると、共同表現ベクトルは、薬物デコーダと疾患デコーダの両方への入力として提供され、デコードされた出力ベクトル(例えば、次元1×10を有する)が生成され、エンコーダおよびデコーダ(および任意選択で埋め込み行列)のパラメータが、デコードされた出力ベクトルとエンコーダへの入力として提供された埋め込みベクトルとの比較に基づいて更新される。いくつかの実施形態による逆伝搬を使用して重みが更新され得る方法の例は上述されている。 As shown in FIG. 10C, the modality-specific latent representations output from the encoder may be concatenated into an embedding interaction vector that represents a particular inter-modality network link between the input data ("treatment" in the example of FIG. 10C). In embodiments where concatenation is used to incorporate network link information into the common latent representation, concatenation may occur when generating the modality-specific latent representations, or may occur after the modality-specific latent representations are combined to create the joint representation vector. The modality-specific latent representations may be combined, for example, by taking the average or product of the two representations to calculate a joint representation vector that represents the "drug treats disease" network interaction for the input data pair of drug LAM-002 and disease lymphoma. As training continues, the joint representation vector is provided as input to both the drug decoder and the disease decoder, a decoded output vector (e.g., having dimensions 1×10) is generated, and the parameters of the encoder and decoder (and optionally the embedding matrix) are updated based on a comparison of the decoded output vector to the embedding vector provided as input to the encoder. Examples of how weights may be updated using backpropagation in some embodiments are described above.

図9および図10A~図10Cで上述した例のすべては、図2の異種ネットワークにおけるカテゴリ的のみのネットワーク相互作用を学習するために統計モデルを訓練することに関する。上記に説明されたように、いくつかのネットワーク相互作用は、カテゴリ的特徴と数値的特徴の両方によって表現されることがあり、数値的特徴は、ネットワーク内のまたはネットワークにおけるノード内またはノード間のデータの間の相互作用の強さを表現する。カテゴリ的および数値的の両方のネットワーク・リンクを学習するようにマルチモーダル統計モードを訓練するために、数値的情報を使用して、共同モダリティ表現で表現される表現ベクトルをスケーリングし得る。例えば、共同表現ベクトルに連結された埋め込み相互作用ベクトルは数値的情報によってスケーリングされ得る。 All of the examples described above in Figures 9 and 10A-C relate to training a statistical model to learn only categorical network interactions in the heterogeneous network of Figure 2. As explained above, some network interactions may be represented by both categorical and numerical features, where the numerical features represent the strength of interactions between data within the network or within or between nodes in the network. To train a multimodal statistical model to learn both categorical and numerical network links, the numerical information may be used to scale the representation vectors represented in the joint modality representation. For example, the embedding interaction vectors concatenated with the joint representation vectors may be scaled by the numerical information.

マルチモーダル統計アーキテクチャの様々なパラメータ(例えば、ハイパーパラメータ)が、特定の実施のための最適化に基づいて修正され得る。そのようなパラメータには、埋め込み次元(例えば、1×10)、共同表現次元(例えば、1×100)、エンコーダおよびデコーダの隠れ層の次元(例えば、1×50)、エンコーダおよびデコーダの隠れ層の数(例えば、1)、エンコーダおよびデコーダの活性化関数、ならびに学習率が含まれるが、これらに限定されない。 Various parameters (e.g., hyperparameters) of the multimodal statistical architecture may be modified based on optimization for a particular implementation. Such parameters include, but are not limited to, the embedding dimension (e.g., 1×10), the joint representation dimension (e.g., 1×100), the dimension of the hidden layers of the encoder and decoder (e.g., 1×50), the number of hidden layers of the encoder and decoder (e.g., 1), the activation functions of the encoder and decoder, and the learning rate.

図3に関連して説明されたように、いったん訓練されたマルチモーダル統計モデルの全体的アーキテクチャは、複数の訓練されたモダリティ固有のエンコーダおよびデコーダと、訓練されたエンコーダを訓練されたデコーダに結合する共同モダリティ表現とを含む。図11で概略的に示されるように、訓練されたマルチモーダル統計モデルは、予測のために使用される訓練されたエンコーダおよびデコーダの適切なペアの選択を通じて、第1のモダリティを有する入力データと異なるモダリティを有する出力との間の予測を行うために使用され得る。具体的には、図11は、特定の薬物により治療可能であると見込まれる疾患について予測を行う、訓練されたマルチモーダル統計モデルの能力を示す。示されるように、予測は、訓練された薬物エンコーダおよび訓練された疾患デコーダを使用することによって部分的に行われる。訓練されたマルチモーダル統計ネットワークを使用して複数のタイプの予測を行うことが可能であり、予測のタイプには、所与の薬物の新たな疾患適応、所与の疾患または患者に対する候補薬物および併用療法、疾患に関連付けられたバイオマーカ、ならびに所与の薬物についての潜在的な遺伝子標的が含まれるが、これらに限定されない。そのような予測を行うことは、1つまたは2つのみのデータ・モダリティを考慮する生物学的データのモデリングのための従来の技法を用いることでは不可能である。 As described in relation to FIG. 3, the overall architecture of the multimodal statistical model once trained includes multiple trained modality-specific encoders and decoders and a joint modality representation that couples the trained encoders to the trained decoder. As shown in FIG. 11, the trained multimodal statistical model can be used to make predictions between input data having a first modality and outputs having different modalities through the selection of an appropriate pair of trained encoders and decoders used for the prediction. Specifically, FIG. 11 illustrates the ability of the trained multimodal statistical model to make predictions about diseases that are likely to be treatable by a particular drug. As shown, the predictions are made in part by using a trained drug encoder and a trained disease decoder. The trained multimodal statistical network can be used to make multiple types of predictions, including, but not limited to, new disease indications for a given drug, candidate drugs and combination therapies for a given disease or patient, biomarkers associated with the disease, and potential gene targets for a given drug. Making such predictions is not possible using conventional techniques for modeling biological data that consider only one or two data modalities.

いくつかの実施形態は、訓練されたマルチモーダル統計モデルを使用する教師なし予測技法を対象とする。図12は、第2のモダリティ(図12の例では疾患)のためのデコーダを使用して、第1のモダリティ(図12の例では薬物)の表現空間が第2のモダリティの表現空間上にマッピングされる、教師なし予測技法の例を示す。図12に示される予測技法において、訓練された統計モデルへの入力として提供される所定の薬物について、候補疾患適応が予測される。訓練された薬物エンコーダは、共同モダリティ表現における対象薬物の潜在表現ベクトルを計算するために使用され、潜在表現ベクトルは、訓練された疾患デコーダへの入力として提供される。訓練された疾患デコーダの出力は、疾患表現空間内に投影される入力薬物の表現である。 Some embodiments are directed to unsupervised prediction techniques that use trained multimodal statistical models. FIG. 12 shows an example of an unsupervised prediction technique in which a representation space of a first modality (drug in the example of FIG. 12) is mapped onto a representation space of a second modality (disease in the example of FIG. 12) using a decoder for the second modality (disease). In the prediction technique shown in FIG. 12, a candidate disease indication is predicted for a given drug that is provided as input to a trained statistical model. A trained drug encoder is used to calculate a latent representation vector of the target drug in the joint modality representation, and the latent representation vector is provided as input to a trained disease decoder. The output of the trained disease decoder is a representation of the input drug projected into the disease representation space.

入力薬物が疾患表現空間において特定の疾患にマッピングされるのではなく、図13に概略的に示されるように、疾患デコーダの出力が疾患表現空間において点1310として投影され得る。図13に示される疾患表現空間は、疾患データベースのサブセットのみを含む「疾患潜在空間」のt分布確率的近傍埋め込み(t-SNE:t-Distributed Stochastic Neighbor Embedding)表現である。また、マルチモーダル統計モデルが訓練された疾患のそれぞれは、n次元疾患表現空間における固有位置を有する。いくつかの実施形態では、新たな疾患の適応は、投影点1310と疾患表現空間における他の疾患の位置との間の距離に少なくとも部分的に基づいて予測される。例えば、薬物の新たな疾患適応は、投影点1310の最も近い近隣要素および疾患表現空間内で投影された候補疾患を見つけ出すことによって決定され得る。所与の薬物によって治療可能である可能性が最も高い候補疾患は、投影点1310と候補疾患の点との間の距離が小さい疾患を含み得る。例えば、図13に示されるように、痛風、片頭痛、および多発性硬化症の疾患はそれぞれ、所与の入力薬物についての投影点1310に最も近い疾患表現空間内の点に関連付けられる。したがって、これらの疾患は、対象の薬物の新たな疾患標的として有効な候補となり得る。 Instead of the input drugs being mapped to specific diseases in the disease representation space, the output of the disease decoder may be projected as a point 1310 in the disease representation space, as shown diagrammatically in FIG. 13. The disease representation space shown in FIG. 13 is a t-Distributed Stochastic Neighbor Embedding (t-SNE) representation of the "disease latent space" that contains only a subset of the disease database. Also, each of the diseases on which the multimodal statistical model is trained has a unique location in the n-dimensional disease representation space. In some embodiments, the indication of the new disease is predicted based at least in part on the distance between the projection point 1310 and the location of other diseases in the disease representation space. For example, the new disease indication of a drug may be determined by finding the closest neighbors of the projection point 1310 and the candidate disease projected in the disease representation space. The candidate diseases most likely to be treatable by a given drug may include those diseases with a small distance between the projection point 1310 and the point of the candidate disease. For example, as shown in FIG. 13, the diseases gout, migraine, and multiple sclerosis are each associated with the point in the disease representation space that is closest to the projection point 1310 for a given input drug. Thus, these diseases may be valid candidates as new disease targets for a drug of interest.

いくつかの実施形態では、投影点1310に最も近い距離を有する疾患のみが出力予測として提供され得る。他の実施形態では、投影点1310に最も近い距離に関連付けられた疾病の「n-best」リストが出力予測として提供され得る。さらに他の実施形態では、疾患表現空間における投影点1310からの閾値未満の距離を有する疾患のみが出力され得る。病名に加えて他の情報を出力されてもよく、他の情報には、距離に基づく類似性スコアが含まれるが、これに限定されない。 In some embodiments, only the disease with the closest distance to the projection point 1310 may be provided as the output prediction. In other embodiments, an "n-best" list of diseases associated with the closest distance to the projection point 1310 may be provided as the output prediction. In yet other embodiments, only diseases with a distance from the projection point 1310 in the disease representation space less than a threshold may be output. Other information may be output in addition to the disease name, including, but not limited to, a similarity score based on distance.

n次元表現空間における2点間の距離の任意の適切な尺度が使用されてよく、実施形態はこれに関して限定されない。予測のためのいくつかの実施形態に従って使用され得る距離測定の例には、ユークリッド距離、コサイン類似度、およびマンハッタン距離が含まれるが、これらに限定されない。共通表現空間における2つのベクトルの間のユークリッド距離の式は次のようになる。 Any suitable measure of distance between two points in an n-dimensional representation space may be used, and the embodiments are not limited in this respect. Examples of distance measures that may be used according to some embodiments for prediction include, but are not limited to, Euclidean distance, cosine similarity, and Manhattan distance. The formula for Euclidean distance between two vectors in a common representation space is:

図14は、2つの異なるモダリティ(図14の例では薬物および疾患)についての入力データが共同モダリティ表現空間に投影され、異なるモダリティからの共同表現ベクトル間の比較が行われ得る、別の教師なし予測技法の例を示す。図示されるように、図14の予測技法では、第1のモダリティ(図14の例では薬物)の入力データが第1のモダリティのための訓練されたエンコーダに提供される。第1モダリティのための訓練されたエンコーダの出力は、共通潜在空間における第1のモダリティ入力についての第1の共同表現ベクトルである。さらに、第2のモダリティ(図14の例における複数の疾患)の入力データが、第2のモダリティのための訓練されたエンコーダへの入力として提供される。第2のモダリティのための訓練されたエンコーダの出力は、共通潜在空間で表現される複数の第2の共同表現ベクトルであり、その各々は第2のモダリティの入力データに対応する。 FIG. 14 shows an example of another unsupervised prediction technique in which input data for two different modalities (drugs and diseases in the example of FIG. 14) are projected into a joint modality representation space and comparisons between joint representation vectors from different modalities can be made. As shown, in the prediction technique of FIG. 14, input data of a first modality (drugs in the example of FIG. 14) is provided to a trained encoder for the first modality. The output of the trained encoder for the first modality is a first joint representation vector for the first modality input in a common latent space. Additionally, input data of a second modality (diseases in the example of FIG. 14) is provided as input to a trained encoder for the second modality. The output of the trained encoder for the second modality is a plurality of second joint representation vectors represented in the common latent space, each of which corresponds to the input data of the second modality.

所与の薬物の候補疾患適応の予測は、共通潜在空間内の入力薬物についての第1の共同表現ベクトルの距離と、共通潜在空間内に投影された疾患についての第2の共同表現ベクトルの各々とを比較することによって決定され得る。例えば、薬物Aと4つの異なる疾患との関連性を予測するために、薬物エンコーダおよび疾患エンコーダを使用して、薬物Aおよび4つの疾患の各々の対応する潜在表現を計算してよい。薬物Aの潜在表現ベクトルと、共通潜在空間に投影された各疾患の潜在表現ベクトルとの間の距離が、薬物Aの表現に最も近い疾患表現を予測するために計算され得る。所与の薬物によって治療可能である可能性が最も高い候補疾患は、潜在表現空間内の対象の薬物の位置に最も近い潜在表現空間内の位置を有する疾患であり得る。 A prediction of a candidate disease indication for a given drug may be determined by comparing the distance of the first joint representation vector for the input drug in the common latent space with each of the second joint representation vectors for the disease projected into the common latent space. For example, to predict the association of drug A with four different diseases, a drug encoder and a disease encoder may be used to calculate the corresponding latent representations of drug A and each of the four diseases. The distance between the latent representation vector of drug A and the latent representation vector of each disease projected into the common latent space may be calculated to predict the disease representation closest to the representation of drug A. The candidate disease most likely to be treatable by a given drug may be the disease having a location in the latent representation space closest to the location of the drug of interest in the latent representation space.

図12および図14で説明される教師なし予測技法は、特定の薬物の新たな疾患適応を予測することに関するが、マルチモーダル統計モデル内の共通表現空間内で予測を可能にするために、適切な訓練されたエンコーダおよび/またはデコーダを選択することによって、訓練された統計モデルで表現される任意の2つのモダリティの間で予測を行うために、教師なし予測技法が使用され得ることを理解されたい。 While the unsupervised prediction techniques described in Figures 12 and 14 relate to predicting new disease indications for a particular drug, it should be understood that the unsupervised prediction techniques may be used to make predictions between any two modalities represented in a trained statistical model by selecting appropriate trained encoders and/or decoders to enable predictions within a common representation space within the multimodal statistical model.

いくつかの実施形態は、訓練されたマルチモーダル統計モデルを使用する教師あり予測技法を対象とする。図15は、2つの異なるモダリティの既知のネットワーク相互作用で訓練された教師あり分類器を使用する、教師あり予測技法を示す。教師あり分類器は、ニューラル・ネットワーク、ツリーベースの分類器、他の深層学習もしくは機械学習分類器を含むがこれらに限定されない任意の適切なアーキテクチャを使用して、または統計的相関技法を使用して実施され得る。分類器は、(例えば、FDA承認薬の承認された疾患適応からの)既知のネットワーク相互作用ペアの潜在表現を用いて訓練されてもよく、訓練された分類器を使用して、新たなペアが与えられた場合に真の関連性があるかどうかについての予測が行われてもよい。 Some embodiments are directed to supervised prediction techniques that use trained multimodal statistical models. FIG. 15 illustrates a supervised prediction technique that uses a supervised classifier trained on known network interactions of two different modalities. The supervised classifier may be implemented using any suitable architecture, including but not limited to neural networks, tree-based classifiers, other deep learning or machine learning classifiers, or using statistical correlation techniques. The classifier may be trained with latent representations of known network interaction pairs (e.g., from approved disease indications of FDA-approved drugs), and the trained classifier may be used to make predictions about whether there is a true association given a new pair.

図示されるように、図15の教師あり分類器は、FDAに承認された薬物-疾患ペアの表現ベクトルを用いて訓練され得る。薬物および疾患についての入力ベクトルは、疾患デコーダを使用して疾患表現空間に薬物を投影し、もしくは薬物デコーダを使用して薬物表現空間に疾患を投影する場合、データ埋め込み層に対応する次元(例えば、1×10)を有し、または、訓練された教師あり分類器を使用して分類決定を行うために両方のモダリティの潜在表現を使用する場合、潜在表現空間の次元(例えば、1×95)を有し得る。 As shown, the supervised classifier of FIG. 15 can be trained using representation vectors of FDA-approved drug-disease pairs. The input vectors for drugs and diseases can have dimensions corresponding to the data embedding layer (e.g., 1×10) if a disease decoder is used to project drugs onto a disease representation space, or a drug decoder is used to project diseases onto a drug representation space, or the dimensions of the latent representation space (e.g., 1×95) if a trained supervised classifier is used to use latent representations of both modalities to make classification decisions.

上述の予測例に加えて、実施形態によっては他のタイプの予測も企図される。例えば、所与の疾患の治療に有効であり得る新薬についての予測が行われてよい。対象の疾患およびすべての薬物が、マルチモーダル統計モデルにおける共通表現空間(例えば、モダリティ固有表現空間または共通潜在空間)に投影されてよく、共通表現空間におけるベクトル間の距離が、疾患を治療するための新薬を予測するために使用されてよい。 In addition to the prediction examples described above, other types of predictions are contemplated in some embodiments. For example, a prediction may be made about new drugs that may be effective in treating a given disease. The disease of interest and all drugs may be projected into a common representation space (e.g., modality specific representation space or common latent space) in a multimodal statistical model, and the distance between vectors in the common representation space may be used to predict new drugs to treat the disease.

マルチモーダル統計モデルで表現される異種ネットワーク内のすべてのエンティティは、同じ潜在空間内に表現を有し、エンコーダおよびデコーダは、潜在空間にアクセスするように訓練されているので、新たな薬物-疾患マッチに加えて他のモダリティ交差予測を行うことが可能である。例えば、疾患は、共通潜在空間における遺伝子標的を予測するために訓練された疾患エンコーダによってエンコードされることが可能であり、または、疾患潜在表現を遺伝子デコーダに通過させ、(例えば、近隣および他の前述の距離測定または類似技法により)遺伝子空間において直接表現を比較することによってエンコードされることが可能である。このように、所与の疾患に関連付けられた新薬を予測することに加えて、遺伝子、タンパク質、経路、解剖構造、および他の生物学的実体も疾患と関連付けられ、薬物-疾患予測にコンテキストを提供し得る。さらに、異種ネットワークにおける特異的変異は、薬物および疾患と強い関連性を有することが示され得るので、それにより、所与の薬物に反応する患者を同定するのに役立ち得るバイオマーカが示され得る。 Because all entities in the heterogeneous network represented by the multimodal statistical model have representations in the same latent space, and the encoders and decoders are trained to access the latent space, it is possible to make other modality cross-predictions in addition to new drug-disease matches. For example, diseases can be encoded by a disease encoder trained to predict gene targets in a common latent space, or by passing disease latent representations through a gene decoder and comparing the representations directly in gene space (e.g., by neighborhood and other aforementioned distance measures or similar techniques). In this way, in addition to predicting new drugs associated with a given disease, genes, proteins, pathways, anatomical structures, and other biological entities may also be associated with the disease, providing context to the drug-disease predictions. Furthermore, specific mutations in the heterogeneous network may be shown to have strong associations with drugs and diseases, thereby indicating biomarkers that may help identify patients who will respond to a given drug.

さらに別の予測シナリオでは、いくつかの実施形態に従って薬物の遺伝子標的が予測され得る。薬物は、遺伝子、変異、および他の異種ネットワーク・エンティティに関連付けられ、薬物作用の推定機構を提供し得る。これは、例えば、専門家の知識および従来の薬物工学に基づく薬物-疾患予測のさらなる微調整に有用であり得る。 In yet another prediction scenario, genetic targets of drugs may be predicted according to some embodiments. Drugs may be associated with genes, mutations, and other heterogeneous network entities to provide a putative mechanism of drug action. This may be useful, for example, for further fine-tuning drug-disease predictions based on expert knowledge and traditional drug engineering.

さらに別の予測技法は、患者固有の治療法を予測することに関する。訓練されたマルチモーダル統計モデルが、特定の患者に対する特定の薬物/治療法を予測するために使用され得る。例えば、上述のように、いくつかの実施形態は、所与の疾患に関連付けられたバイオマーカを予測するように構成される。これらのバイオマーカについて患者をスクリーニングすることができ、これらのバイオマーカを有する患者は、所与の薬物による治療のための適切な候補であると予測され得る。 Yet another predictive technique relates to predicting patient-specific treatments. A trained multimodal statistical model may be used to predict a particular drug/treatment for a particular patient. For example, as described above, some embodiments are configured to predict biomarkers associated with a given disease. Patients may be screened for these biomarkers, and patients with these biomarkers may be predicted to be suitable candidates for treatment with a given drug.

上述のように、図2に示されていない追加のモダリティが、本明細書に記載の技法に従って訓練されたマルチモーダル統計ネットワークによって表現される異種ネットワークに追加されてもよい。追加され得るそのようなモダリティの1つは患者に関する。例えば、患者情報は、異種ネットワーク内の他のエンティティに対する患者の特性(例えば、遺伝子発現、変異、コピー数多型、DNAメチル化)の近接によって異種ネットワークに含まれてよく、または(例えば、患者情報を共通潜在空間に投影するために使用される単一の患者エンコーダおよびデコーダを用いて)患者エンティティを異種ネットワーク内の新たなノードとして定義することによって異種ネットワーク内に含まれてよい。 As mentioned above, additional modalities not shown in FIG. 2 may be added to the heterogeneous network represented by the multimodal statistical network trained according to the techniques described herein. One such modality that may be added relates to the patient. For example, patient information may be included in the heterogeneous network by the proximity of patient characteristics (e.g., gene expression, mutations, copy number variation, DNA methylation) to other entities in the heterogeneous network, or by defining the patient entity as a new node in the heterogeneous network (e.g., with a single patient encoder and decoder used to project the patient information into a common latent space).

前者のシナリオでは、患者は、その遺伝子発現プロファイル(または他の実験的に得られた属性)に基づいてマルチモーダル統計モデルで表現され、この情報は、(例えば、薬物および疾患の既知の発現プロファイルに対する近接によって)他のノードにリンクされてよく、リンクされたノードは潜在空間への投影に使用され得る。 In the former scenario, patients are represented in a multimodal statistical model based on their gene expression profile (or other experimentally derived attributes), this information may be linked to other nodes (e.g., by proximity to known expression profiles of drugs and diseases), and the linked nodes may be used for projection into the latent space.

後者のシナリオでは、新たな患者エンティティまたはノードは、それ自身のエンコーダおよびデコーダをマルチモーダル統計モデルに含めて、異種ネットワークに追加され得る。異種ネットワークにおけるネットワーク・リンクは、例えば、特定の薬物によく反応することまたは疾患を有することが知られている患者に基づいて、(患者ノードで表現される)個々の患者とネットワーク内の薬物および疾患ノードとの間で形成され得る。さらに、類似した遺伝子発現プロファイルまたは他の実験的に得られた生物学的情報もしくは属性(例えば、DNA、RNA、タンパク質、医用画像)を有する2人の患者の間で、異種ネットワークにおけるリンクが形成され得る。患者エンコーダおよびデコーダは、上述されたような異種ネットワーク内の他のノードについてのエンコーダ/デコーダ・ペアと同様の方法で訓練されてもよい。訓練された患者エンコーダ/デコーダを使用する予測は、本明細書に記載の技法のうちの1つまたは複数を使用して、例えば、対象の患者と候補薬物の間で行われてよい。 In the latter scenario, a new patient entity or node may be added to the heterogeneous network with its own encoder and decoder included in the multimodal statistical model. Network links in the heterogeneous network may be formed between individual patients (represented by patient nodes) and drug and disease nodes in the network, for example, based on patients known to respond well to a particular drug or to have a disease. Additionally, links in the heterogeneous network may be formed between two patients with similar gene expression profiles or other experimentally derived biological information or attributes (e.g., DNA, RNA, protein, medical images). The patient encoder and decoder may be trained in a similar manner as the encoder/decoder pairs for other nodes in the heterogeneous network as described above. Predictions using the trained patient encoder/decoder may be made, for example, between patients of interest and candidate drugs, using one or more of the techniques described herein.

図16には、本明細書で提供される開示の実施形態のいずれかに関連して使用され得るコンピュータ・システム1600の例示的実施形態が示される。コンピュータ・システム1600は、1つまたは複数のコンピュータ・ハードウェア・プロセッサ1600と、非一時的コンピュータ可読記憶媒体(例えば、メモリ1620および1つまたは複数の不揮発性記憶装置1630)を含む1つまたは複数の製造品とを含み得る。プロセッサ1610は、任意の適切な方法で、メモリ1620および不揮発性記憶装置1630へのデータの書き込みおよびそれらからのデータの読み取りを制御し得る。本明細書に記載の機能のいずれかを実行するために、プロセッサ1610は、プロセッサ1610により実行するためのプロセッサ実行可能命令を記憶する非一時的コンピュータ可読記憶媒体として機能し得る1つまたは複数の非一時的コンピュータ可読記憶媒体(例えば、メモリ1620)に記憶された、1つまたは複数のプロセッサ実行可能命令を実行し得る。 16 illustrates an exemplary embodiment of a computer system 1600 that may be used in connection with any of the disclosed embodiments provided herein. The computer system 1600 may include one or more computer hardware processors 1600 and one or more articles of manufacture that include a non-transitory computer-readable storage medium (e.g., memory 1620 and one or more non-volatile storage devices 1630). The processor 1610 may control the writing and reading of data to and from the memory 1620 and the non-volatile storage device 1630 in any suitable manner. To perform any of the functions described herein, the processor 1610 may execute one or more processor-executable instructions stored in one or more non-transitory computer-readable storage media (e.g., memory 1620) that may function as a non-transitory computer-readable storage medium that stores processor-executable instructions for execution by the processor 1610.

用語「プログラム」または「ソフトウェア」は、本明細書では、一般的な意味で使用され、上述されたように実施形態の様々な態様を実装するためにコンピュータまたは他のプロセッサ(物理的または仮想的)をプログラムするために利用され得る、任意のタイプのコンピュータ・コードまたはセットのプロセッサ実行可能命令を指す。さらに、1態様によれば、実行されたときに本明細書で提供される開示の方法を実施する1つまたは複数のコンピュータ・プログラムは、単一のコンピュータまたはプロセッサ上に存在する必要はなく、本明細書で提供される開示の様々な態様を実装するために、異なるコンピュータまたはプロセッサ間でモジュラ方式で分散されてもよい。 The terms "program" or "software" are used herein in a general sense to refer to any type of computer code or set of processor-executable instructions that may be utilized to program a computer or other processor (physical or virtual) to implement various aspects of the embodiments as described above. Furthermore, according to one aspect, one or more computer programs that, when executed, perform the methods of the disclosure provided herein need not reside on a single computer or processor, but may be distributed in a modular manner among different computers or processors to implement various aspects of the disclosure provided herein.

プロセッサ実行可能命令は、1つまたは複数のコンピュータまたは他のデバイスによって実行されるプログラム・モジュールなど、多くの形態があり得る。一般に、プログラム・モジュールは、特定のタスクを実行しまたは特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。典型的には、プログラム・モジュールの機能は組み合わされても分散されてもよい。 Processor-executable instructions may be in many forms, such as program modules, executed by one or more computers or other devices. Generally, program modules include routines, programs, objects, components, data structures, etc. that perform particular tasks or implement particular abstract data types. Typically the functionality of program modules may be combined or distributed.

また、データ構造は、任意の適切な形態で1つまたは複数の非一時的コンピュータ可読記憶媒体に記憶されてよい。簡単に示すために、データ構造は、データ構造内の位置によって関係付けられたフィールドを有するように示されてもよい。そのような関係は、フィールド間の関係を伝える非一時的コンピュータ可読媒体における位置を有するフィールドについてストレージを割り当てることによって同様に達成され得る。しかしながら、データ構造のフィールドにおける情報間の関係を確立するために、データ要素間の関係を確立するポインタ、タグ、または他の機構の使用を含めて、任意の適切な機構が使用されてよい。 The data structure may also be stored in one or more non-transitory computer-readable storage media in any suitable form. For simplicity of illustration, the data structure may be illustrated as having fields related by location within the data structure. Such relationships may similarly be achieved by allocating storage for the fields with locations in the non-transitory computer-readable medium that convey the relationship between the fields. However, any suitable mechanism may be used to establish relationships between information in the fields of the data structure, including the use of pointers, tags, or other mechanisms that establish relationships between data elements.

様々な発明概念が、例が提供されている1つまたは複数の工程として具体化され得る。各工程の一部として実行される動作は、任意の適切な方法で順序付けられ得る。したがって、実施形態は、例示的実施形態では連続的な動作として示されているが、いくつかの動作を同時に実行することを含み得る例示とは異なる順序で動作が実行されるように構成されてもよい。 Various inventive concepts may be embodied as one or more processes, examples of which are provided. The operations performed as part of each process may be ordered in any suitable manner. Thus, while the embodiments are shown as sequential operations in the exemplary embodiments, the operations may be configured to be performed in an order different from that illustrated, which may include performing some operations simultaneously.

本明細書および特許請求の範囲において使用される場合、1つまたは複数の要素のリストを参照する「少なくとも1つ」という語句は、要素のリスト内の要素のうちの任意の1つまたは複数から選択される少なくとも1つの要素を意味するが、必ずしも要素のリスト内に具体的にリストされる個々およびすべての要素の少なくとも1つを含むものではなく、要素のリスト内の要素のいかなる組み合わせも排除するものではないと理解されるべきである。この定義はまた、「少なくとも1つ」という語句が参照する要素のリスト内で具体的に特定された要素以外の要素が、それらの具体的に特定された要素に関係するか関係しないかにかかわらず、任意選択で存在することを可能にする。したがって、例えば、「AおよびBのうちの少なくとも1つ」(または等価的に「AまたはBの少なくとも1つ」または等価的に「Aおよび/またはBの少なくとも1つ」)は、1実施形態では、Bの存在を伴わず任意選択で複数のAを含む(さらに任意選択でB以外の要素を含む)少なくとも1つのAを意味し、別の実施形態では、Aの存在を伴わず任意選択で複数のBを含む(さらに任意選択でA以外の要素を含む)少なくとも1つのBを意味し、さらに別の実施形態では、任意選択で複数を含む少なくとも1つのAおよび任意選択で複数を含む少なくとも1つのB(さらに任意選択で他の要素を含む)を指すことなどができる。 As used herein and in the claims, the phrase "at least one" referring to a list of one or more elements should be understood to mean at least one element selected from any one or more of the elements in the list of elements, but not necessarily including at least one of each and every element specifically listed in the list of elements, and not excluding any combination of elements in the list of elements. This definition also allows for the optional presence of elements other than those specifically identified in the list of elements to which the phrase "at least one" refers, whether related or unrelated to those specifically identified elements. Thus, for example, "at least one of A and B" (or, equivalently, "at least one of A or B" or, equivalently, "at least one of A and/or B") can refer in one embodiment to at least one A, optionally including multiple A's (and optionally including elements other than B) with no B present, in another embodiment to at least one B, optionally including multiple B's (and optionally including elements other than A) with no A present, in yet another embodiment to at least one A, optionally including multiple A's, and at least one B, optionally including multiple B's (and optionally including other elements), etc.

本明細書および請求の範囲で使用される「および/または」という語句は、そのように結合された要素、すなわち、いくつかの場合に連言的に存在し他の場合に選言的に存在する要素の「いずれかまたは両方」を意味すると理解されるべきである。「および/または」で列挙された複数の要素は、同じ形式で、すなわち、そのように結合された要素の「1つまたは複数」で解釈されるべきである。「および/または」節によって具体的に特定された要素以外に他の要素は、それらの具体的に特定された要素に関係するか関係しないかにかかわらず、選択的に存在し得る。したがって、非限定的例として、「Aおよび/またはB」への言及は、「含む」のような非限定的な言葉とともに使用される場合、1実施形態では、Aのみ(任意選択でB以外の要素を含む)を、別の実施形態では、Bのみ(任意選択でA以外の要素を含む)を、さらに別の実施形態では、AとBの両方(任意選択で他の要素を含む)を指すことなどができる。 The term "and/or" as used herein and in the claims should be understood to mean "either or both" of the elements so conjoined, i.e., elements that are conjunctive in some cases and disjunctive in other cases. Multiple elements listed with "and/or" should be interpreted in the same manner, i.e., "one or more" of the elements so conjoined. Other elements may be optionally present other than the elements specifically identified by the "and/or" clause, whether related or unrelated to those specifically identified elements. Thus, as a non-limiting example, a reference to "A and/or B", when used with non-limiting language such as "comprises", can refer in one embodiment to only A (optionally including elements other than B), in another embodiment to only B (optionally including elements other than A), in yet another embodiment to both A and B (optionally including other elements), etc.

クレーム要素を修飾するクレームにおける「第1」、「第2」、「第3」などの序数語の使用は、それ自体では、別の要素に対するいかなる優先、先行、もしくは順序、または方法の動作が行われる時間的順序を含意しない。そのような用語は、単に、ある名前を有する1つのクレーム要素を、(順序語の使用を別として)同じ名前を有する別の要素から区別するためのラベルとして使用される。本明細書で使用される表現および用語は説明を目的としており、限定するものとみなされるべきではない。「含む」、「備える」、「有する」、「含有する」、「伴う」、およびそれらの変形の使用は、そこで列挙される要素および追加の要素を包含することを意味する。 The use of ordinal terms such as "first," "second," "third," etc. in a claim to modify a claim element does not, by itself, imply any priority, precedence, or order relative to another element, or the chronological order in which the operations of a method are performed. Such terms are used merely as labels to distinguish one claim element having a certain name from another element having the same name (apart from the use of ordinal terms). The phraseology and terminology used herein are for purposes of description and should not be considered as limiting. The use of "including," "comprising," "having," "containing," "involving," and variations thereof, is meant to encompass the elements recited therein as well as additional elements.

本明細書に詳細に記載された技法のいくつかの実施形態が説明されているが、様々な修正および改良が当業者には容易に想到されよう。そのような修正および改良は、開示の趣旨および範囲内であることが意図される。したがって、上記の説明は単に例示であって限定するものではない。これらの技法は、添付の特許請求の範囲およびその均等物によって定義されるようにのみ限定される。
以下に、上記実施形態から把握できる技術思想を付記として記載する。
[付記1]
異種ネットワークにおけるデータの間のモダリティ間関連性を表現するように構成された統計モデルを訓練するための方法であって、
訓練データにアクセスする工程と、前記訓練データは、第1のモダリティについての訓練データ、および前記第1のモダリティとは異なる第2のモダリティについての訓練データを含んでおり、
前記統計モデルを訓練する工程と、前記統計モデルは、第1および第2のエンコーダと、第1および第2のデコーダと、前記第1および第2のエンコーダを前記第1および第2のデコーダに結合する共同モダリティ表現とを含み、前記訓練する工程は、
自己教師あり学習技法と、前記訓練データのうちの少なくともいくつかと、前記訓練データにおけるデータ・ペアの間の少なくとも1つのリンクを記述する情報とを使用して、前記第1および第2のエンコーダならびに前記第1および第2のデコーダのパラメータの値を推定する工程を含んでおり、
前記統計モデルの前記第1および第2のエンコーダならびに前記第1および第2のデコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程と、を含む方法。
[付記2]
前記第1のモダリティについての前記訓練データに基づいて第1のモダリティ埋め込みベクトルを作成する工程と、
前記第2のモダリティについての前記訓練データに基づいて第2のモダリティ埋め込みベクトルを作成する工程と、をさらに含み、前記訓練する工程は、
前記第1および第2のエンコーダへの入力として、前記第1および第2のモダリティ埋め込みベクトルをそれぞれ提供する工程をさらに含む、付記1に記載の方法。
[付記3]
前記統計モデルは、第1および第2の埋め込み層をさらに含み、前記訓練する工程は、前記第1および第2の埋め込み層のパラメータの値を推定する工程をさらに含む、付記2に記載の方法。
[付記4]
前記第1のモダリティについての前記訓練データにおけるデータ・ペアの間のリンクを記述するモダリティ内ベクトルを作成する工程をさらに含み、
前記共同モダリティ表現における情報は、前記モダリティ内ベクトルに少なくとも部分的に基づいて決定される、付記1に記載の方法。
[付記5]
前記第1のモダリティについての前記訓練データにおける前記データ・ペアの間の前記リンクの強さを示す数値的特徴に基づいて、前記モダリティ内ベクトルをスケーリングする工程をさらに含み、
前記共同モダリティ表現における情報は、スケーリングされたモダリティ内ベクトルに少なくとも部分的に基づいて決定される、付記4に記載の方法。
[付記6]
前記第1のエンコーダから出力された第1の特徴ベクトルと前記第2のエンコーダから出力された第2の特徴ベクトルとのそれぞれを前記モダリティ内ベクトルと連結して、第1および第2の連結された特徴ベクトルを生成する工程と、
前記第1および第2の連結されたベクトルを使用して、前記共同モダリティ表現内の共同表現ベクトルを計算する工程と、をさらに含む、付記4に記載の方法。
[付記7]
前記第1のエンコーダから出力された第1の特徴ベクトルと前記第2のエンコーダから出力された第2の特徴ベクトルとを使用して、共同特徴ベクトルを計算する工程と、
前記共同特徴ベクトルを前記モダリティ内ベクトルと連結して、前記共同モダリティ表現内の共同表現ベクトルを生成する工程と、をさらに含む、付記4に記載の方法。
[付記8]
前記第1および第2のエンコーダならびに前記第1および第2のデコーダは、前記第1のモダリティからのデータを処理するように構成され、前記訓練する工程は、
前記第1のエンコーダへの入力として、前記第1のモダリティ埋め込みベクトルのうちの第1の1つを提供する工程と、
前記第2のエンコーダへの入力として、前記第1のモダリティ埋め込みベクトルのうちの第2の1つを提供する工程と、
前記第1のエンコーダから出力された第1の特徴ベクトルと、前記第2のエンコーダから出力された第2の特徴ベクトルと、モダリティ内ベクトルとに基づいて、前記共同モダリティ表現における共同表現ベクトルを計算する工程と、
前記第1および第2のデコーダへの入力として前記共同表現ベクトルを提供して、第1および第2のデコードされたベクトルを生成する工程と、
前記第1のモダリティ埋め込みベクトルのうちの前記第1の1つおよび前記第2の1つと、前記第1および第2のデコードされたベクトルとに基づいて、前記第1および第2のエンコーダならびに前記第1および第2のデコーダのパラメータの値を推定する工程と、をさらに含む、付記2に記載の方法。
[付記9]
前記第1および第2のエンコーダならびに前記第1および第2のデコーダのパラメータの値を推定する工程は、負のサンプリング損失関数を使用する工程を含む、付記8に記載の方法。
[付記10]
前記統計モデルは、第1および第2の埋め込み層をさらに含み、前記訓練する工程は、前記負のサンプリング損失関数を使用して、前記第1および第2の埋め込み層のパラメータの値を推定する工程をさらに含む、付記9に記載の方法。
[付記11]
前記第1のモダリティについての前記訓練データにおけるデータ・ペアの間の複数のリンクのそれぞれについて前記統計モデルの訓練を繰り返す工程をさらに含む、付記9または10に記載の方法。
[付記12]
前記第1のモダリティについての前記訓練データと前記第2のモダリティについての前記訓練データとの間のリンクを記述するモダリティ内ベクトルを作成する工程をさらに含み、
前記共同モダリティ表現における情報は、前記モダリティ内ベクトルに少なくとも部分的に基づいて決定される、付記2に記載の方法。
[付記13]
前記第1のモダリティについての前記訓練データにおける前記データ・ペアの間の前記リンクの強さを示す数値的特徴に基づいて、前記モダリティ内ベクトルをスケーリングする工程をさらに含み、
前記共同モダリティ表現における情報は、スケーリングされたモダリティ内ベクトルに少なくとも部分的に基づいて決定される、付記12に記載の方法。
[付記14]
前記第1のエンコーダから出力された第1の特徴ベクトルと前記第2のエンコーダから出力された第2の特徴ベクトルとのそれぞれを前記モダリティ内ベクトルと連結して、第1および第2の連結された特徴ベクトルを生成する工程と、
前記第1および第2の連結されたベクトルを使用して、前記共同モダリティ表現内の共同表現ベクトルを計算する工程と、をさらに含む、付記12に記載の方法。
[付記15]
前記第1のエンコーダから出力された第1の特徴ベクトルと前記第2のエンコーダから出力された第2の特徴ベクトルとを使用して、共同特徴ベクトルを計算する工程と、
前記共同特徴ベクトルを前記モダリティ内ベクトルと連結して、前記共同モダリティ表現内の共同表現ベクトルを生成する工程と、をさらに含む、付記12に記載の方法。
[付記16]
前記第1のエンコーダおよび前記第1のデコーダは、前記第1のモダリティからのデータを処理するように構成され、前記第2のエンコーダおよび前記第2のデコーダは、前記第2のモダリティからのデータを処理するように構成され、前記訓練する工程は、
前記第1のエンコーダへの入力として、前記第1のモダリティ埋め込みベクトルのうちの1つを提供する工程と、
前記第2のエンコーダへの入力として、前記第2のモダリティ埋め込みベクトルのうちの1つを提供する工程と、
前記第1のエンコーダから出力された第1の特徴ベクトルと、前記第2のエンコーダから出力された第2の特徴ベクトルと、前記モダリティ内ベクトルとに基づいて、前記共同モダリティ表現における共同表現ベクトルを計算する工程と、
前記第1および第2のデコーダへの入力として前記共同表現ベクトルを提供して、第1および第2のデコードされたベクトルを生成する工程と、
前記第1のモダリティ埋め込みベクトルのうちの前記1つと、前記第2のモダリティ埋め込みベクトルのうちの前記1つと、前記第1および第2のデコードされたベクトルとに基づいて、前記第1および第2のエンコーダならびに前記第1および第2のデコーダのパラメータの値を推定する工程と、をさらに含む、付記12に記載の方法。
[付記17]
前記第1および第2のエンコーダならびに前記第1および第2のデコーダのパラメータの値を推定する工程は、負のサンプリング損失関数を使用する工程を含む、付記16に記載の方法。
[付記18]
前記第1のモダリティについての前記訓練データと前記第2のモダリティについての前記訓練データとの間の複数のリンクのそれぞれについて前記統計モデルの訓練を繰り返す工程をさらに含む、付記16に記載の方法。
[付記19]
前記訓練する工程の前に、前記第1のエンコーダについての前記パラメータの値を初期化する工程をさらに含み、前記初期化する工程は、自己教師あり学習技法を使用して前記第1のエンコーダを訓練した結果に基づいて行われる、付記16に記載の方法。
[付記20]
自己教師あり学習技法を使用した前記第1のエンコーダの訓練の前記結果は、前記第1のモダリティのみからの訓練データを使用して前記第1のエンコーダを訓練した結果を含む、付記19に記載の方法。
[付記21]
自己教師あり学習技法を使用した前記第1のエンコーダの訓練の前記結果は、前記第2のモダリティとは異なる第3のモダリティを有する訓練データを用いて前記第1のエンコーダを訓練した結果を含む、付記19に記載の方法。
[付記22]
前記訓練する工程の前に、前記第2のエンコーダについての前記パラメータの値を初期化する工程をさらに含み、前記初期化する工程は、自己教師あり学習技法を使用して前記第2のエンコーダを訓練した結果に基づいて行われる、付記19に記載の方法。
[付記23]
前記第1のモダリティ埋め込みベクトルを作成する工程は、
前記第1のモダリティについての前記訓練データにおける各データについて、長さV を有するワンホット・ベクトルを定義する工程と、
長さV の前記ワンホット・ベクトルのそれぞれに、次元V ×Eを有する第1の埋め込み行列を乗算する工程と、を含み、E<V であり、Eは前記第1のモダリティ埋め込みベクトルのそれぞれの長さである、付記2に記載の方法。
[付記24]
前記第2のモダリティ埋め込みベクトルを作成する工程は、
前記第2のモダリティについての前記訓練データにおける各データについて、長さV を有するワンホット・ベクトルを定義する工程と、
長さV の前記ワンホット・ベクトルのそれぞれに、次元V ×Eを有する埋め込み行列を乗算する工程と、を含み、E<V であり、Eは前記第2のモダリティ埋め込みベクトルのそれぞれの長さである、付記23に記載の方法。
[付記25]
前記第1および第2のエンコーダのそれぞれは、E個の入力を有する入力層およびR個の出力を有する出力層を含み、R>Eである、付記24に記載の方法。
[付記26]
前記第1および第2のエンコーダのそれぞれは、少なくとも1つの隠れ層を含む、付記25に記載の方法。
[付記27]
前記第1および第2のエンコーダのそれぞれは、ニューラル・ネットワークを含む、付記1に記載の方法。
[付記28]
前記訓練データは、前記第1のモダリティおよび前記第2のモダリティとは異なる第3のモダリティについての訓練データをさらに含み、前記統計モデルは、第3のエンコーダおよび第3のデコーダをさらに含み、
前記統計モデルを訓練する工程は、自己教師あり学習技法と、前記第3のモダリティの入力ベクトルと、前記第3のモダリティについての訓練データと前記第1または第2のモダリティについての訓練データとの間の少なくとも1つのリンクを記述する情報とを使用して、前記第3のエンコーダおよび前記第3のデコーダのパラメータの値を推定する工程をさらに含む、付記1に記載の方法。
[付記29]
前記第3のモダリティについての前記訓練データに基づいて第3のモダリティ埋め込みベクトルを作成する工程をさらに含み、前記統計モデルを訓練する工程は、前記第3のエンコーダへの入力として、前記第3のモダリティ埋め込みベクトルのうちの第1の1つを提供する工程をさらに含む、付記28に記載の方法。
[付記30]
第1のモダリティおよび第2のモダリティを含む複数のモダリティを有するデータの間のリンクを表現するように訓練された統計モデルを使用して、前記第1のモダリティにおける入力データと前記第2のモダリティにおけるデータとの間の関連性を予測するための方法であって、前記統計モデルは、前記複数のモダリティのうちの1つについてのデータを処理するようにそれぞれが訓練された複数のエンコーダおよびデコーダ、ならびに前記複数のエンコーダおよびデコーダを結合する共同モダリティ表現を含み、前記方法は、
前記第1のモダリティおよび前記第2のモダリティに基づいて、前記複数のエンコーダおよびデコーダから、エンコーダ/デコーダのペアまたはエンコーダのペアを選択する工程と、
前記共同モダリティ表現および選択されたエンコーダ/デコーダのペアまたはエンコーダのペアを用いて前記入力データを処理して、前記入力データと前記第2のモダリティにおけるデータとの間の関連性を予測する工程と、を含む方法。
[付記31]
前記第1のモダリティについてのデータを処理するように訓練されたエンコーダ、および前記第2のモダリティについてのデータを処理するように訓練されたデコーダを選択する工程をさらに含む、付記30に記載の方法。
[付記32]
前記第2のモダリティについての表現空間において、前記入力データと前記第2のモダリティにおける前記データとの間の前記関連性を予測する工程をさらに含む、付記31に記載の方法。
[付記33]
前記第2のモダリティについてのデータを処理するように訓練された前記デコーダから、前記第2のモダリティについての前記表現空間における出力ベクトルを出力する工程と、
前記第2のモダリティからのデータを前記第2のモダリティについての前記表現空間内に投影して、複数の投影されたベクトルを生成する工程と、
前記出力ベクトルと、前記第2のモダリティについての前記表現空間における投影されたベクトルとの比較に基づいて、前記入力データと前記第2のモダリティにおける前記データとの間の前記関連性を予測する工程と、をさらに含む、付記32に記載の方法。
[付記34]
前記出力ベクトルと前記複数の投影されたベクトルのそれぞれとの間の距離を計算する工程と、
計算された距離に基づいて前記関連性を予測する工程と、をさらに含む、付記33に記載の方法。
[付記35]
距離を計算する工程は、ユークリッド距離を計算する工程を含む、付記34に記載の方法。
[付記36]
前記第1のモダリティについてのデータを処理するように訓練された第1のエンコーダ、および前記第2のモダリティについてのデータを処理するように訓練された第2のエンコーダを選択する工程をさらに含む、付記30に記載の方法。
[付記37]
前記共同モダリティ表現に関連付けられた潜在表現空間において前記入力データと前記第2のモダリティにおける前記データとの間の前記関連性を予測する工程をさらに含む、付記36に記載の方法。
[付記38]
前記第1のエンコーダへの入力として前記入力データを提供して、前記潜在表現空間における第1のモダリティ特徴ベクトルを生成する工程と、
前記第2のエンコーダへの入力として前記第2のモダリティについてのデータを提供して、前記潜在表現空間における複数の第2のモダリティ特徴ベクトルを生成する工程と、
前記潜在表現空間における前記第1のモダリティ特徴ベクトルおよび前記複数の第2のモダリティ特徴ベクトルの比較に基づいて、前記入力データと前記第2のモダリティにおける前記データとの間の前記関連性を予測する工程と、をさらに含む、付記37に記載の方法。
[付記39]
前記潜在表現空間における前記第1のモダリティ特徴ベクトルと前記複数の第2のモダリティ特徴ベクトルとの間の距離を計算する工程と、
計算された距離に基づいて前記関連性を予測する工程と、をさらに含む、付記38に記載の方法。
[付記40]
前記距離を計算する工程は、ユークリッド距離を計算する工程を含む、付記39に記載の方法。
[付記41]
第1のモダリティおよび第2のモダリティを含む複数のモダリティを有するデータの間の相互作用を表現するように訓練された統計モデルを使用して、前記第1のモダリティにおけるデータと前記第2のモダリティにおけるデータとの間の関連性を予測するための方法であって、前記統計モデルは、前記複数のモダリティのうちの1つについてのデータを処理するようにそれぞれが訓練された複数のエンコーダおよびデコーダ、ならびに前記複数のエンコーダおよびデコーダを結合する共同モダリティ表現を含み、前記方法は、
前記第1のモダリティにおける前記データおよび前記第2のモダリティにおける前記データを、前記統計モデル内の共通表現空間内にマッピングする工程と、
ラベル付けされたデータを使用して訓練された統計的分類器にアクセスする工程と、前記ラベル付けされたデータは、前記第1のモダリティと前記第2のモダリティとにおけるデータの間の関連性を記述しており、
前記訓練された統計的分類器を使用して、前記共通表現空間内にマッピングされた前記第1のモダリティにおける前記データと前記第2のモダリティにおけるデータとの間の関連性を予測する工程と、を含む方法。
[付記42]
前記第1のモダリティにおける前記データおよび前記第2のモダリティにおける前記データを、共通表現空間内にマッピングする工程は、前記統計モデルの共同モダリティ表現空間内に前記データをマッピングする工程を含む、付記41に記載の方法。
[付記43]
前記第1のモダリティにおける前記データおよび前記第2のモダリティにおける前記データを、共通表現空間内にマッピングする工程は、前記第1のモダリティまたは前記第2のモダリティについてのモダリティ固有表現空間内に前記データをマッピングする工程を含む、付記41に記載の方法。
[付記44]
コンピュータ・システムであって、
少なくとも1つのコンピュータ・プロセッサと、
複数の命令がエンコードされている少なくとも1つの記憶装置と、を備え、前記複数の命令は、前記少なくとも1つのコンピュータ・プロセッサによる実行時に、データについてのモダリティ間関連性を表現するように統計モデルを訓練する方法を実施し、前記データは、第1のモダリティについてのデータ、および前記第1のモダリティとは異なる第2のモダリティについてのデータを含んでおり、前記方法は、
前記第1のモダリティについての訓練データおよび前記第2のモダリティについての訓練データを含む訓練データにアクセスする工程と、
前記統計モデルを訓練する工程と、前記統計モデルは、第1および第2のエンコーダと、第1および第2のデコーダと、前記第1および第2のエンコーダを前記第1および第2のデコーダに結合する共同モダリティ表現とを含み、前記訓練する工程は、
自己教師あり学習技法と、前記訓練データのうちの少なくともいくつかと、前記訓練データにおけるデータ・ペアの間の少なくとも1つのリンクを記述する情報とを使用して、前記第1および第2のエンコーダならびに前記第1および第2のデコーダのパラメータの値を推定する工程を含んでおり、
前記統計モデルの前記第1および第2のエンコーダならびに前記第1および第2のデコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程と、を含む、コンピュータ・システム。
[付記45]
前記方法は、
前記第1のモダリティについての前記訓練データに基づいて第1のモダリティ埋め込みベクトルを作成する工程と、
前記第2のモダリティについての前記訓練データに基づいて第2のモダリティ埋め込みベクトルを作成する工程と、をさらに含み、前記訓練する工程は、
前記第1および第2のエンコーダへの入力として、前記第1および第2のモダリティ埋め込みベクトルをそれぞれ提供する工程をさらに含む、付記44に記載のコンピュータ・システム。
[付記46]
前記統計モデルは、第1および第2の埋め込み層をさらに含み、前記訓練する工程は、前記第1および第2の埋め込み層のパラメータの値を推定する工程をさらに含む、付記45に記載のコンピュータ・システム。
[付記47]
前記方法は、前記第1のモダリティについての前記訓練データにおけるデータ・ペアの間のリンクを記述するモダリティ内ベクトルを作成する工程をさらに含み、
前記共同モダリティ表現における情報は、前記モダリティ内ベクトルに少なくとも部分的に基づいて決定される、付記44に記載のコンピュータ・システム。
[付記48]
前記方法は、前記第1のモダリティについての前記訓練データにおける前記データ・ペアの間の相互作用に関連付けられた数値的特徴に基づいて、前記モダリティ内ベクトルをスケーリングする工程をさらに含み、
前記共同モダリティ表現における情報は、スケーリングされたモダリティ内ベクトルに少なくとも部分的に基づいて決定される、付記47に記載のコンピュータ・システム。
[付記49]
前記方法は、
前記第1のエンコーダから出力された第1の特徴ベクトルと前記第2のエンコーダから出力された第2の特徴ベクトルとのそれぞれを前記モダリティ内ベクトルと連結して、第1および第2の連結された特徴ベクトルを生成する工程と、
前記第1および第2の連結されたベクトルを使用して、前記共同モダリティ表現内の共同表現ベクトルを計算する工程と、をさらに含む、付記47に記載のコンピュータ・システム。
[付記50]
前記方法は、
前記第1のエンコーダから出力された第1の特徴ベクトルと前記第2のエンコーダから出力された第2の特徴ベクトルとを使用して、共同特徴ベクトルを計算する工程と、
前記共同特徴ベクトルを前記モダリティ内ベクトルと連結して、前記共同モダリティ表現内の共同表現ベクトルを生成する工程と、をさらに含む、付記47に記載のコンピュータ・システム。
[付記51]
前記第1および第2のエンコーダならびに前記第1および第2のデコーダは、前記第1のモダリティからのデータを処理するように構成され、前記訓練する工程は、
前記第1のエンコーダへの入力として、前記第1のモダリティ埋め込みベクトルのうちの第1の1つを提供する工程と、
前記第2のエンコーダへの入力として、前記第1のモダリティ埋め込みベクトルのうちの第2の1つを提供する工程と、
前記第1のエンコーダから出力された第1の特徴ベクトルと、前記第2のエンコーダから出力された第2の特徴ベクトルと、モダリティ内ベクトルとに基づいて、前記共同モダリティ表現における共同表現ベクトルを計算する工程と、
前記第1および第2のデコーダへの入力として前記共同表現ベクトルを提供して、第1および第2のデコードされたベクトルを生成する工程と、
前記第1のモダリティ埋め込みベクトルのうちの前記第1の1つおよび前記第2の1つと、前記第1および第2のデコードされたベクトルとに基づいて、前記第1および第2のエンコーダならびに前記第1および第2のデコーダのパラメータの値を推定する工程と、をさらに含む、付記45に記載のコンピュータ・システム。
[付記52]
前記第1および第2のエンコーダならびに前記第1および第2のデコーダのパラメータの値を推定する工程は、負のサンプリング損失関数を使用する工程を含む、付記51に記載のコンピュータ・システム。
[付記53]
前記統計モデルは、第1および第2の埋め込み層をさらに含み、前記訓練する工程は、前記負のサンプリング損失関数を使用して、前記第1および第2の埋め込み層のパラメータの値を推定する工程をさらに含む、付記52に記載のコンピュータ・システム。
[付記54]
前記方法は、前記第1のモダリティについての前記訓練データにおけるデータ・ペアの間の複数のリンクのそれぞれについて前記統計モデルの訓練を繰り返す工程をさらに含む、付記52に記載のコンピュータ・システム。
[付記55]
前記方法は、前記第1のモダリティについての前記訓練データと前記第2のモダリティについての前記訓練データとの間のリンクを記述するモダリティ間ベクトルを作成する工程をさらに含み、
前記共同モダリティ表現における情報は、前記モダリティ間ベクトルに少なくとも部分的に基づいて決定される、付記45に記載のコンピュータ・システム。
[付記56]
前記第1のモダリティについての前記訓練データにおける前記データ・ペアの間の前記リンクに関連付けられた数値的特徴に基づいて、前記モダリティ間ベクトルをスケーリングする工程をさらに含み、
前記共同モダリティ表現における情報は、スケーリングされたモダリティ間ベクトルに少なくとも部分的に基づいて決定される、付記55に記載のコンピュータ・システム。
[付記57]
前記方法は、
前記第1のエンコーダから出力された第1の特徴ベクトルと前記第2のエンコーダから出力された第2の特徴ベクトルとのそれぞれを前記モダリティ間ベクトルと連結して、第1および第2の連結された特徴ベクトルを生成する工程と、
前記第1および第2の連結されたベクトルを使用して、前記共同モダリティ表現内の共同表現ベクトルを計算する工程と、をさらに含む、付記55に記載のコンピュータ・システム。
[付記58]
前記方法は、
前記第1のエンコーダから出力された第1の特徴ベクトルと前記第2のエンコーダから出力された第2の特徴ベクトルとを使用して、共同特徴ベクトルを計算する工程と、
前記共同特徴ベクトルを前記モダリティ間ベクトルと連結して、前記共同モダリティ表現内の共同表現ベクトルを生成する工程と、をさらに含む、付記55に記載のコンピュータ・システム。
[付記59]
前記第1のエンコーダおよび前記第1のデコーダは、前記第1のモダリティからのデータを処理するように構成され、前記第2のエンコーダおよび前記第2のデコーダは、前記第2のモダリティからのデータを処理するように構成され、前記訓練する工程は、
前記第1のエンコーダへの入力として、前記第1のモダリティ埋め込みベクトルのうちの1つを提供する工程と、
前記第2のエンコーダへの入力として、前記第2のモダリティ埋め込みベクトルのうちの1つを提供する工程と、
前記第1のエンコーダから出力された第1の特徴ベクトルと、前記第2のエンコーダから出力された第2の特徴ベクトルと、前記モダリティ間ベクトルとに基づいて、前記共同モダリティ表現における共同表現ベクトルを計算する工程と、
前記第1および第2のデコーダへの入力として前記共同表現ベクトルを提供して、第1および第2のデコードされたベクトルを生成する工程と、
前記第1のモダリティ埋め込みベクトルのうちの前記1つと、前記第2のモダリティ埋め込みベクトルのうちの前記1つと、前記第1および第2のデコードされたベクトルとに基づいて、前記第1および第2のエンコーダならびに前記第1および第2のデコーダのパラメータの値を推定する工程と、をさらに含む、付記55に記載のコンピュータ・システム。
[付記60]
前記第1および第2のエンコーダならびに前記第1および第2のデコーダのパラメータの値を推定する工程は、負のサンプリング損失関数を使用する工程を含む、付記59に記載のコンピュータ・システム。
[付記61]
前記方法は、前記第1のモダリティについての前記訓練データと前記第2のモダリティについての前記訓練データとの間の複数の相互作用のそれぞれについて前記統計モデルの訓練を繰り返す工程をさらに含む、付記59に記載のコンピュータ・システム。
[付記62]
前記方法は、前記訓練する工程の前に、前記第1のエンコーダについての前記パラメータの値を初期化する工程をさらに含み、前記初期化する工程は、自己教師あり学習技法を使用して前記第1のエンコーダを訓練した結果に基づいて行われる、付記59に記載のコンピュータ・システム。
[付記63]
前記自己教師あり学習技法を使用した前記第1のエンコーダの訓練の前記結果は、前記第1のモダリティのみからの訓練データを使用して前記第1のエンコーダを訓練した結果を含む、付記62に記載のコンピュータ・システム。
[付記64]
前記自己教師あり学習技法を使用した前記第1のエンコーダの訓練の前記結果は、前記第2のモダリティとは異なる第3のモダリティを有する訓練データを用いて前記第1のエンコーダを訓練した結果を含む、付記62に記載のコンピュータ・システム。
[付記65]
前記方法は、前記訓練する工程の前に、前記第2のエンコーダについての前記パラメータの値を初期化する工程をさらに含み、前記初期化する工程は、自己教師あり学習技法を使用して前記第2のエンコーダを訓練した結果に基づいて行われる、付記62に記載のコンピュータ・システム。
[付記66]
前記第1のモダリティ埋め込みベクトルを作成する工程は、
前記第1のモダリティについての前記訓練データにおける各データについて、長さV を有するワンホット・ベクトルを定義する工程と、
長さV の前記ワンホット・ベクトルのそれぞれに、次元V ×Eを有する第1の埋め込み行列を乗算する工程と、を含み、E<V であり、Eは前記第1のモダリティ埋め込みベクトルのそれぞれの長さである、付記45に記載のコンピュータ・システム。
[付記67]
前記第2のモダリティ埋め込みベクトルを作成する工程は、
前記第2のモダリティについての前記訓練データにおける各データについて、長さV を有するワンホット・ベクトルを定義する工程と、
長さV の前記ワンホット・ベクトルのそれぞれに、次元V ×Eを有する埋め込み行列を乗算する工程と、を含み、E<V であり、Eは前記第2のモダリティ埋め込みベクトルのそれぞれの長さである、付記66に記載のコンピュータ・システム。
[付記68]
前記第1および第2のエンコーダのそれぞれは、E個の入力を有する入力層およびR個の出力を有する出力層を含み、R>Eである、付記67に記載のコンピュータ・システム。
[付記69]
前記第1および第2のエンコーダのそれぞれは、少なくとも1つの隠れ層を含む、付記68に記載のコンピュータ・システム。
[付記70]
前記第1および第2のエンコーダのそれぞれは、ニューラル・ネットワークを含む、付記44に記載のコンピュータ・システム。
[付記71]
前記訓練データは、前記第1のモダリティおよび前記第2のモダリティとは異なる第3のモダリティについての訓練データをさらに含み、前記統計モデルは、第3のエンコーダおよび第3のデコーダをさらに含み、
前記統計モデルを訓練する工程は、自己教師あり学習技法と、前記第3のモダリティの入力ベクトルと、前記第3のモダリティについての訓練データと前記第1または第2のモダリティについての訓練データとの間の少なくとも1つのリンクを記述する情報とを使用して、前記第3のエンコーダおよび前記第3のデコーダのパラメータの値を推定する工程をさらに含む、付記44に記載のコンピュータ・システム。
[付記72]
前記第3のモダリティについての前記訓練データに基づいて第3のモダリティ埋め込みベクトルを作成する工程をさらに含み、前記統計モデルを訓練する工程は、前記第3のエンコーダへの入力として、前記第3のモダリティ埋め込みベクトルのうちの第1の1つを提供する工程をさらに含む、付記71に記載のコンピュータ・システム。
[付記73]
コンピュータ・システムであって、
少なくとも1つのコンピュータ・プロセッサと、
複数の命令がエンコードされた少なくとも1つの記憶装置と、を備え、前記複数の命令は、前記少なくとも1つのコンピュータ・プロセッサによる実行時に、第1のモダリティおよび第2のモダリティを含む複数のモダリティを有するデータの間の相互作用を表現するように訓練された統計モデルを使用して、前記第1のモダリティにおける入力データと前記第2のモダリティにおけるデータとの間の関連性を予測する方法を実施し、前記統計モデルは、前記複数のモダリティのうちの1つについてのデータを処理するようにそれぞれが訓練された複数のエンコーダおよびデコーダ、ならびに前記複数のエンコーダおよびデコーダを結合する共同モダリティ表現を含み、前記方法は、
前記第1のモダリティおよび前記第2のモダリティに基づいて、前記複数のエンコーダおよびデコーダから、エンコーダ/デコーダのペアまたはエンコーダのペアを選択する工程と、
前記共同モダリティ表現および選択されたエンコーダ/デコーダのペアまたはエンコーダのペアを用いて前記入力データを処理して、前記入力データと前記第2のモダリティにおけるデータとの間の関連性を予測する工程と、を含む、コンピュータ・システム。
[付記74]
前記方法は、前記第1のモダリティについてのデータを処理するように訓練されたエンコーダ、および前記第2のモダリティについてのデータを処理するように訓練されたデコーダを選択する工程をさらに含む、付記73に記載のコンピュータ・システム。
[付記75]
前記方法は、前記第2のモダリティについての表現空間において、前記入力データと前記第2のモダリティにおける前記データとの間の前記関連性を予測する工程をさらに含む、付記74に記載のコンピュータ・システム。
[付記76]
前記方法は、
前記第2のモダリティについてのデータを処理するように訓練された前記デコーダから、前記第2のモダリティについての前記表現空間における出力ベクトルを出力する工程と、
前記第2のモダリティからのデータを前記第2のモダリティについての前記表現空間内に投影して、複数の投影されたベクトルを生成する工程と、
前記出力ベクトルと、前記第2のモダリティについての前記表現空間における投影されたベクトルとの比較に基づいて、前記入力データと前記第2のモダリティにおける前記データとの間の前記関連性を予測する工程と、をさらに含む、付記75に記載のコンピュータ・システム。
[付記77]
前記方法は、
前記出力ベクトルと前記複数の投影されたベクトルのそれぞれとの間の距離を計算する工程と、
計算された距離に基づいて前記関連性を予測する工程と、をさらに含む、付記76に記載のコンピュータ・システム。
[付記78]
距離を計算する工程は、ユークリッド距離を計算する工程を含む、付記77に記載のコンピュータ・システム。
[付記79]
前記方法は、前記第1のモダリティについてのデータを処理するように訓練された第1のエンコーダ、および前記第2のモダリティについてのデータを処理するように訓練された第2のエンコーダを選択する工程をさらに含む、付記73に記載のコンピュータ・システム。
[付記80]
前記方法は、前記共同モダリティ表現に関連付けられた潜在表現空間において前記入力データと前記第2のモダリティにおける前記データとの間の前記関連性を予測する工程をさらに含む、付記79に記載のコンピュータ・システム。
[付記81]
前記第1のエンコーダへの入力として前記入力データを提供して、前記潜在表現空間における第1のモダリティ特徴ベクトルを生成する工程と、
前記第2のエンコーダへの入力として前記第2のモダリティについてのデータを提供して、前記潜在表現空間における複数の第2のモダリティ特徴ベクトルを生成する工程と、
前記潜在表現空間における前記第1のモダリティ特徴ベクトルおよび前記複数の第2のモダリティ特徴ベクトルの比較に基づいて、前記入力データと前記第2のモダリティにおける前記データとの間の前記関連性を予測する工程と、をさらに含む、付記80に記載のコンピュータ・システム。
[付記82]
前記第1のモダリティ特徴ベクトルと前記複数の第2のモダリティ特徴ベクトルそれぞれとの間の距離を計算する工程と、
計算された距離に基づいて前記関連性を予測する工程と、をさらに含む、付記81に記載のコンピュータ・システム。
[付記83]
前記距離を計算する工程は、ユークリッド距離を計算する工程を含む、付記82に記載のコンピュータ・システム。
[付記84]
コンピュータ・システムであって、
少なくとも1つのコンピュータ・プロセッサと、
複数の命令がエンコードされた少なくとも1つの記憶装置と、を備え、前記複数の命令は、前記少なくとも1つのコンピュータ・プロセッサによる実行時に、第1のモダリティおよび前記第1のモダリティとは異なる第2のモダリティを含む複数のモダリティを有するデータの間のリンクを表現するように訓練された統計モデルを使用して、前記第1のモダリティにおけるデータと前記第2のモダリティにおけるデータとの間の関連性を予測する方法を実施し、前記統計モデルは、前記複数のモダリティのうちの1つについてのデータを処理するようにそれぞれが訓練された複数のエンコーダおよびデコーダ、ならびに前記複数のエンコーダおよびデコーダを結合する共同モダリティ表現を含み、前記方法は、
前記第1のモダリティにおけるデータおよび前記第2のモダリティにおけるデータを、前記統計モデル内の共通表現空間内にマッピングする工程と、
ラベル付けされたデータを使用して訓練された統計的分類器にアクセスする工程と、前記ラベル付けされたデータは、前記第1のモダリティと前記第2のモダリティとにおけるデータの間の関連性を記述しており、
前記訓練された統計的分類器を使用して、前記共通表現空間内にマッピングされた前記第1のモダリティにおけるデータと前記第2のモダリティにおけるデータとの間の関連性を予測する工程と、を含む、コンピュータ・システム。
[付記85]
前記第1のモダリティにおける前記データおよび前記第2のモダリティにおける前記データを、共通表現空間内にマッピングする工程は、前記統計モデルの共同モダリティ表現空間内に前記データをマッピングする工程を含む付記84に記載のコンピュータ・システム。
[付記86]
前記第1のモダリティにおける前記データおよび前記第2のモダリティにおける前記データを、共通表現空間内にマッピングする工程は、前記第1のモダリティまたは前記第2のモダリティについてのモダリティ固有表現空間内に前記データをマッピングする工程を含む、付記84に記載のコンピュータ・システム。
[付記87]
薬物データ、遺伝子データ、および疾患データの間の関連性を表現するように統計モデルを訓練するための方法であって、
遺伝子訓練データ、薬物訓練データ、および疾患訓練データを含む訓練データにアクセスする工程と、
前記統計モデルを訓練する工程と、を含み、前記統計モデルは、遺伝子エンコーダ、薬物エンコーダ、および疾患エンコーダを含む複数のエンコーダと、遺伝子デコーダ、薬物デコーダ、および疾患デコーダを含む複数のデコーダと、前記複数のエンコーダを前記複数のデコーダに結合する共同表現とを含み、前記共同表現は、前記訓練データ間の相互作用を記述しており、前記訓練する工程は、
自己教師あり学習技法と、前記遺伝子訓練データと、前記遺伝子訓練データにおけるデータ・ペアの間の相互作用を記述する情報とを使用して、前記遺伝子エンコーダおよび前記遺伝子デコーダのパラメータの値を推定する工程と、
自己教師あり学習技法と、前記遺伝子訓練データおよび前記薬物訓練データと、前記遺伝子訓練データにおけるデータ要素と前記薬物訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記遺伝子エンコーダ、前記遺伝子デコーダ、前記薬物エンコーダ、および前記薬物デコーダのパラメータの値を推定する工程と、
自己教師あり学習技法と、前記遺伝子訓練データおよび前記疾患訓練データと、前記遺伝子訓練データにおけるデータ要素と前記疾患訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記遺伝子エンコーダ、前記遺伝子デコーダ、前記疾患エンコーダ、および前記疾患デコーダのパラメータの値を推定する工程と、を含んでおり、
前記統計モデルの前記遺伝子エンコーダ、前記遺伝子デコーダ、前記薬物エンコーダ、前記薬物デコーダ、前記疾患エンコーダ、および前記疾患デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程と、を含む方法。
[付記88]
前記遺伝子訓練データに基づいて遺伝子モダリティ埋め込みベクトルを作成する工程をさらに含み、前記訓練する工程は、前記遺伝子エンコーダへの入力として前記遺伝子モダリティ埋め込みベクトルを提供する工程をさらに含む、付記87に記載の方法。
[付記89]
前記遺伝子訓練データにおけるデータ・ペアの間の相互作用を記述する前記情報は、遺伝子-遺伝子相互作用に関する情報、遺伝子-遺伝子共変動に関する情報、および遺伝子-遺伝子制御に関する情報を含む、複数のタイプの相互作用に関する情報を含み、前記訓練する工程は、前記複数のタイプの相互作用のそれぞれについて、前記遺伝子エンコーダおよび前記遺伝子デコーダのパラメータの値を別々に推定する工程をさらに含む、付記87に記載の方法。
[付記90]
前記遺伝子訓練データにおけるデータ要素と前記薬物訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、薬物-遺伝子上方制御に関する情報、薬物-遺伝子下方制御に関する情報、および薬物-遺伝子結合に関する情報を含む、複数のタイプの相互作用に関する情報を含み、前記訓練する工程は、前記複数のタイプの相互作用のそれぞれについて、前記遺伝子エンコーダおよび前記薬物エンコーダならびに前記遺伝子デコーダおよび前記薬物デコーダのパラメータの値を別々に推定する工程をさらに含む、付記87に記載の方法。
[付記91]
前記遺伝子訓練データにおけるデータ要素と前記疾患訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、遺伝子-疾患上方制御に関する情報、遺伝子-疾患下方制御に関する情報、および遺伝子-疾患関連性に関する情報を含む、複数のタイプの相互作用に関する情報を含み、前記訓練する工程は、前記複数のタイプの相互作用のそれぞれについて、前記遺伝子エンコーダおよび前記疾患エンコーダならびに前記遺伝子デコーダおよび前記疾患デコーダのパラメータの値を別々に推定する工程をさらに含む、付記87に記載の方法。
[付記92]
前記訓練する工程は、
自己教師あり学習技法と、前記薬物訓練データおよび前記疾患訓練データと、前記薬物訓練データにおけるデータ要素と前記疾患訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記薬物エンコーダ、前記薬物デコーダ、前記疾患エンコーダ、および前記疾患デコーダのパラメータの値を推定する工程と、
前記統計モデルの前記薬物エンコーダ、前記薬物デコーダ、前記疾患エンコーダ、および前記疾患デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程と、を含む、付記87に記載の方法。
[付記93]
前記薬物訓練データにおけるデータ要素と前記疾患訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、薬物-疾患治療に関する情報を含む、付記92に記載の方法。
[付記94]
前記訓練データは、薬物クラス訓練データをさらに含み、
前記複数のエンコーダは、薬物クラス・エンコーダをさらに含み、
前記複数のデコーダは、薬物クラス・デコーダをさらに含み、
前記訓練する工程は、
自己教師あり学習技法と、前記薬物訓練データおよび前記薬物クラス訓練データと、前記薬物訓練データにおけるデータ要素と前記薬物クラス訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記薬物エンコーダ、前記薬物デコーダ、前記薬物クラス・エンコーダ、および前記薬物クラス・デコーダのパラメータの値を推定する工程をさらに含み、
前記方法は、前記統計モデルの前記薬物エンコーダ、前記薬物デコーダ、前記薬物クラス・エンコーダ、および前記薬物クラス・デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程をさらに含む、付記87に記載の方法。
[付記95]
前記薬物訓練データにおけるデータ要素と前記薬物クラス訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、薬物-薬物クラス包含に関する情報を含む、付記94に記載の方法。
[付記96]
前記訓練データは、生物学的経路訓練データをさらに含み、
前記複数のエンコーダは、経路エンコーダをさらに含み、
前記複数のデコーダは、経路デコーダをさらに含み、
前記訓練する工程は、
自己教師あり学習技法と、前記遺伝子訓練データおよび前記生物学的経路訓練データと、前記遺伝子訓練データにおけるデータ要素と前記生物学的経路訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記遺伝子エンコーダ、前記遺伝子デコーダ、前記経路エンコーダ、および前記経路デコーダのパラメータの値を推定する工程をさらに含み、
前記方法は、前記統計モデルの前記遺伝子エンコーダ、前記遺伝子デコーダ、前記経路エンコーダ、および前記経路デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程をさらに含む、付記87に記載の方法。
[付記97]
前記遺伝子訓練データにおけるデータ要素と前記生物学的経路訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、遺伝子-経路関与に関する情報を含む、付記96に記載の方法。
[付記98]
前記訓練データは、解剖構造訓練データをさらに含み、
前記複数のエンコーダは、解剖構造エンコーダをさらに含み、
前記複数のデコーダは、解剖構造デコーダをさらに含み、
前記訓練する工程は、
自己教師あり学習技法と、前記疾患訓練データおよび前記解剖構造訓練データと、前記疾患訓練データにおけるデータ要素と前記解剖構造訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記疾患エンコーダ、前記疾患デコーダ、前記解剖構造エンコーダ、および前記解剖構造デコーダのパラメータの値を推定する工程をさらに含み、
前記方法は、前記統計モデルの前記疾患エンコーダ、前記疾患デコーダ、前記解剖構造エンコーダ、および前記解剖構造デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程をさらに含む、付記87に記載の方法。
[付記99]
前記疾患訓練データにおけるデータ要素と前記解剖構造訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、疾患-解剖構造局在に関する情報を含む、付記98に記載の方法。
[付記100]
前記訓練する工程は、
自己教師あり学習技法と、前記遺伝子訓練データおよび前記解剖構造訓練データと、前記遺伝子訓練データにおけるデータ要素と前記解剖構造訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記遺伝子エンコーダ、前記遺伝子デコーダ、前記解剖構造エンコーダ、および前記解剖構造デコーダのパラメータの値を推定する工程をさらに含み、
前記方法は、前記統計モデルの前記遺伝子エンコーダ、前記遺伝子デコーダ、前記解剖構造エンコーダ、および前記解剖構造デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程をさらに含む、付記98に記載の方法。
[付記101]
前記遺伝子訓練データにおけるデータ要素と前記解剖構造訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、遺伝子-解剖構造上方制御に関する情報、遺伝子-解剖構造下方制御に関する情報、および遺伝子-解剖構造発現に関する情報を含む、複数のタイプの相互作用に関する情報を含み、前記訓練する工程は、前記複数のタイプの相互作用のそれぞれについて、前記遺伝子および解剖構造エンコーダならびに前記遺伝子および解剖構造デコーダのパラメータの値を別々に推定する工程をさらに含む、付記100に記載の方法。
[付記102]
コンピュータ・システムであって、
少なくとも1つのコンピュータ・プロセッサと、
複数の命令がエンコードされた少なくとも1つの記憶装置と、を備え、前記複数の命令は、前記少なくとも1つのコンピュータ・プロセッサによる実行時に、薬物データ、遺伝子データ、および疾患データの間の関連性を表現するように統計モデルを訓練する方法を実施し、前記方法は、
遺伝子訓練データ、薬物訓練データ、および疾患訓練データを含む訓練データにアクセスする工程と、
前記統計モデルを訓練する工程と、前記統計モデルは、遺伝子エンコーダ、薬物エンコーダ、および疾患エンコーダを含む複数のエンコーダと、遺伝子デコーダ、薬物デコーダ、および疾患デコーダを含む複数のデコーダと、前記複数のエンコーダを前記複数のデコーダに結合する共同表現とを含み、前記共同表現は、前記訓練データ間の相互作用を記述し、前記訓練する工程は、
自己教師あり学習技法と、前記遺伝子訓練データと、前記遺伝子訓練データにおけるデータ・ペアの間の相互作用を記述する情報とを使用して、前記遺伝子エンコーダおよび前記遺伝子デコーダのパラメータの値を推定する工程と、
自己教師あり学習技法と、前記遺伝子訓練データおよび前記薬物訓練データと、前記遺伝子訓練データにおけるデータ要素と前記薬物訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記遺伝子エンコーダ、前記遺伝子デコーダ、前記薬物エンコーダ、および前記薬物デコーダのパラメータの値を推定する工程と、
自己教師あり学習技法と、前記遺伝子訓練データおよび前記疾患訓練データと、前記遺伝子訓練データにおけるデータ要素と前記疾患訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記遺伝子エンコーダ、前記遺伝子デコーダ、前記疾患エンコーダ、および前記疾患デコーダのパラメータの値を推定する工程と、
前記統計モデルの前記遺伝子エンコーダ、前記遺伝子デコーダ、前記薬物エンコーダ、前記薬物デコーダ、前記疾患エンコーダ、および前記疾患デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程と、を含む、コンピュータ・システム。
[付記103]
前記方法は、前記遺伝子訓練データに基づいて遺伝子モダリティ埋め込みベクトルを作成する工程をさらに含み、前記訓練する工程は、前記遺伝子エンコーダへの入力として前記遺伝子モダリティ埋め込みベクトルを提供する工程をさらに含む、付記102に記載のコンピュータ・システム。
[付記104]
前記遺伝子訓練データにおけるデータ・ペアの間の相互作用を記述する前記情報は、遺伝子-遺伝子相互作用に関する情報、遺伝子-遺伝子共変動に関する情報、および遺伝子-遺伝子制御に関する情報を含む、複数のタイプの相互作用に関する情報を含み、前記訓練する工程は、前記複数のタイプの相互作用のそれぞれについて、前記遺伝子エンコーダおよび前記遺伝子デコーダのパラメータの値を別々に推定する工程をさらに含む、付記102に記載のコンピュータ・システム。
[付記105]
前記遺伝子訓練データにおけるデータ要素と前記薬物訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、薬物-遺伝子上方制御に関する情報、薬物-遺伝子下方制御に関する情報、および薬物-遺伝子結合に関する情報を含む、複数のタイプの相互作用に関する情報を含み、前記訓練する工程は、前記複数のタイプの相互作用のそれぞれについて、前記遺伝子エンコーダおよび前記薬物エンコーダならびに前記遺伝子デコーダおよび前記薬物デコーダのパラメータの値を別々に推定する工程をさらに含む、付記102に記載のコンピュータ・システム。
[付記106]
前記遺伝子訓練データにおけるデータ要素と前記疾患訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、遺伝子-疾患上方制御に関する情報、遺伝子-疾患下方制御に関する情報、および遺伝子-疾患関連性に関する情報を含む、複数のタイプの相互作用に関する情報を含み、前記訓練する工程は、前記複数のタイプの相互作用のそれぞれについて、前記遺伝子エンコーダおよび前記疾患エンコーダならびに前記遺伝子デコーダおよび前記疾患デコーダのパラメータの値を別々に推定する工程をさらに含む、付記102に記載のコンピュータ・システム。
[付記107]
前記訓練する工程は、
自己教師あり学習技法と、前記薬物訓練データおよび前記疾患訓練データと、前記薬物訓練データにおけるデータ要素と前記疾患訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記薬物エンコーダ、前記薬物デコーダ、前記疾患エンコーダ、および前記疾患デコーダのパラメータの値を推定する工程と、
前記統計モデルの前記薬物エンコーダ、前記薬物デコーダ、前記疾患エンコーダ、および前記疾患デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程と、を含む、付記102に記載のコンピュータ・システム。
[付記108]
前記薬物訓練データにおけるデータ要素と前記疾患訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、薬物-疾患治療に関する情報を含む、付記107に記載のコンピュータ・システム。
[付記109]
前記訓練データは、薬物クラス訓練データをさらに含み、
前記複数のエンコーダは、薬物クラス・エンコーダをさらに含み、
前記複数のデコーダは、薬物クラス・デコーダをさらに含み、
前記訓練する工程は、
自己教師あり学習技法と、前記薬物訓練データおよび前記薬物クラス訓練データと、前記薬物訓練データにおけるデータ要素と前記薬物クラス訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記薬物エンコーダ、前記薬物デコーダ、前記薬物クラス・エンコーダ、および前記薬物クラス・デコーダのパラメータの値を推定する工程をさらに含み、
前記方法は、前記統計モデルの前記薬物エンコーダ、前記薬物デコーダ、前記薬物クラス・エンコーダ、および前記薬物クラス・デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程をさらに含む、付記102に記載のコンピュータ・システム。
[付記110]
前記薬物訓練データにおけるデータ要素と前記薬物クラス訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、薬物-薬物クラス包含に関する情報を含む、付記109に記載のコンピュータ・システム。
[付記111]
前記訓練データは、生物学的経路訓練データをさらに含み、
前記複数のエンコーダは、経路エンコーダをさらに含み、
前記複数のデコーダは、経路デコーダをさらに含み、
前記訓練する工程は、
自己教師あり学習技法と、前記遺伝子訓練データおよび前記生物学的経路訓練データと、前記遺伝子訓練データにおけるデータ要素と前記生物学的経路訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記遺伝子エンコーダ、前記遺伝子デコーダ、前記経路エンコーダ、および前記経路デコーダのパラメータの値を推定する工程をさらに含み、
前記方法は、前記統計モデルの前記遺伝子エンコーダ、前記遺伝子デコーダ、前記経路エンコーダ、および前記経路デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程をさらに含む、付記102に記載のコンピュータ・システム。
[付記112]
前記遺伝子訓練データにおけるデータ要素と前記生物学的経路訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、遺伝子-経路関与に関する情報を含む、付記111に記載のコンピュータ・システム。
[付記113]
前記訓練データは、解剖構造訓練データをさらに含み、
前記複数のエンコーダは、解剖構造エンコーダをさらに含み、
前記複数のデコーダは、解剖構造デコーダをさらに含み、
前記訓練する工程は、
自己教師あり学習技法と、前記疾患訓練データおよび前記解剖構造訓練データと、前記疾患訓練データにおけるデータ要素と前記解剖構造訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記疾患エンコーダ、前記疾患デコーダ、前記解剖構造エンコーダ、および前記解剖構造デコーダのパラメータの値を推定する工程をさらに含み、
前記方法は、前記統計モデルの前記疾患エンコーダ、前記疾患デコーダ、前記解剖構造エンコーダ、および前記解剖構造デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程をさらに含む、付記102に記載のコンピュータ・システム。
[付記114]
前記疾患訓練データにおけるデータ要素と前記解剖構造訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、疾患-解剖構造局在に関する情報を含む、付記113に記載のコンピュータ・システム。
[付記115]
前記訓練する工程は、
自己教師あり学習技法と、前記遺伝子訓練データおよび前記解剖構造訓練データと、前記遺伝子訓練データにおけるデータ要素と前記解剖構造訓練データにおけるデータ要素との間の相互作用を記述する情報とを使用して、前記遺伝子エンコーダ、前記遺伝子デコーダ、前記解剖構造エンコーダ、および前記解剖構造デコーダのパラメータの値を推定する工程をさらに含み、
前記方法は、前記統計モデルの前記遺伝子エンコーダ、前記遺伝子デコーダ、前記解剖構造エンコーダ、および前記解剖構造デコーダのパラメータの推定された値を記憶することに少なくとも部分的によって、前記統計モデルを指定する情報を記憶する工程をさらに含む、付記113に記載のコンピュータ・システム。
[付記116]
前記遺伝子訓練データにおけるデータ要素と前記解剖構造訓練データにおけるデータ要素との間の相互作用を記述する前記情報は、遺伝子-解剖構造上方制御に関する情報、遺伝子-解剖構造下方制御に関する情報、および遺伝子-解剖構造発現に関する情報を含む、複数のタイプの相互作用に関する情報を含み、前記訓練する工程は、前記複数のタイプの相互作用のそれぞれについて、前記遺伝子および解剖構造エンコーダならびに前記遺伝子および解剖構造デコーダのパラメータの値を別々に推定する工程をさらに含む、付記115に記載のコンピュータ・システム。
[付記117]
所与の薬物の新たな疾患適応を予測するための方法であって、
前記所与の薬物の表現、および複数の疾患の表現を、訓練された統計モデルの共通表現空間内に投影する工程と、
前記共通表現空間における投影された前記所与の薬物の表現と前記複数の疾患の表現のうちの少なくとも1つとの比較に基づいて、前記所与の薬物の前記新たな疾患適応を予測する工程と、を含む方法。
[付記118]
前記新たな疾患適応を予測する工程は、前記共通表現空間における前記投影された前記所与の薬物の表現と前記複数の疾患の表現のうちの少なくとも1つとの間の距離を計算する工程と、計算された距離に基づいて前記新たな疾患適応を予測する工程とを含む、付記117に記載の方法。
[付記119]
コンピュータ・システムであって、
少なくとも1つのコンピュータ・プロセッサと、
複数の命令がエンコードされた少なくとも1つの記憶装置と、を備え、前記複数の命令は、前記少なくとも1つのコンピュータ・プロセッサによる実行時に、所与の薬物の新たな疾患適応を予測する方法を実施し、前記方法は、
前記所与の薬物の表現、および複数の疾患の表現を、訓練された統計モデルの共通表現空間内に投影する工程と、
前記共通表現空間における投影された前記所与の薬物の表現と前記複数の疾患の表現のうちの少なくとも1つとの比較に基づいて、前記所与の薬物の前記新たな疾患適応を予測する工程と、を含む、コンピュータ・システム。
[付記120]
前記新たな疾患適応を予測する工程は、前記共通表現空間における前記投影された前記所与の薬物の表現と前記複数の疾患の表現のうちの少なくとも1つとの間の距離を計算する工程と、計算された距離に基づいて前記新たな疾患適応を予測する工程とを含む付記119に記載のコンピュータ・システム。
[付記121]
所与の薬物の疾患適応を特定する方法であって、
統計モデルへの入力として、複数の薬物の表現および複数の疾患の表現を提供する工程と、
訓練された教師あり分類器を使用して前記複数の薬物の表現および前記複数の疾患の表現を処理して、前記複数の薬物のうちの薬物が前記複数の疾患のうちの疾患を治療するのに有効である可能性を特定する工程と、を含み、前記教師あり分類器は、連邦医薬品局(FDA)に承認された薬物-疾患ペアに関する情報で訓練される、方法。
[付記122]
コンピュータ・システムであって、
少なくとも1つのコンピュータ・プロセッサと、
複数の命令がエンコードされた少なくとも1つの記憶装置と、を備え、前記複数の命令は、前記少なくとも1つのコンピュータ・プロセッサによる実行時に、所与の薬物の疾患適応を特定する方法を実施し、前記方法は、
統計モデルへの入力として、複数の薬物の表現および複数の疾患の表現を提供する工程と、
訓練された教師あり分類器を使用して前記複数の薬物の表現および前記複数の疾患の表現を処理して、前記複数の薬物のうちの薬物が前記複数の疾患のうちの疾患を治療するのに有効である可能性を特定する工程と、を含み、前記教師あり分類器は、連邦医薬品局(FDA)に承認された薬物-疾患ペアに関する情報で訓練される、コンピュータ・システム。
Although several embodiments of the techniques described in detail herein have been described, various modifications and improvements will be readily apparent to those skilled in the art. Such modifications and improvements are intended to be within the spirit and scope of the disclosure. Accordingly, the above description is merely illustrative and not limiting. These techniques are limited only as defined by the appended claims and their equivalents.
The technical ideas that can be understood from the above-described embodiment will be described below as supplementary notes.
[Appendix 1]
1. A method for training a statistical model configured to represent cross-modality associations between data in a heterogeneous network, comprising:
accessing training data, the training data including training data for a first modality and training data for a second modality different from the first modality;
training the statistical model, the statistical model including first and second encoders, first and second decoders, and a joint modality representation coupling the first and second encoders to the first and second decoders, the training step comprising:
estimating values of parameters of the first and second encoders and the first and second decoders using self-supervised learning techniques, at least some of the training data, and information describing at least one link between data pairs in the training data;
and storing information specifying the statistical model at least in part by storing estimated values of parameters of the first and second encoders and the first and second decoders of the statistical model.
[Appendix 2]
creating a first modality embedding vector based on the training data for the first modality;
and generating a second modality embedding vector based on the training data for the second modality, the training step comprising:
2. The method of claim 1, further comprising providing the first and second modality embedding vectors as inputs to the first and second encoders, respectively.
[Appendix 3]
3. The method of claim 2, wherein the statistical model further comprises first and second embedding layers, and the training step further comprises estimating values of parameters of the first and second embedding layers.
[Appendix 4]
creating an intra-modality vector describing links between data pairs in the training data for the first modality;
2. The method of claim 1, wherein the information in the joint modality representation is determined based at least in part on the intra-modality vectors.
[Appendix 5]
scaling the intra-modality vectors based on a numerical feature indicative of a strength of the link between the data pairs in the training data for the first modality;
5. The method of claim 4, wherein the information in the joint modality representation is determined based at least in part on scaled intra-modality vectors.
[Appendix 6]
concatenating each of a first feature vector output from the first encoder and a second feature vector output from the second encoder with the intra-modality vector to generate first and second concatenated feature vectors;
5. The method of claim 4, further comprising: calculating a joint representation vector in the joint modality representation using the first and second concatenated vectors.
[Appendix 7]
calculating a joint feature vector using a first feature vector output from the first encoder and a second feature vector output from the second encoder;
5. The method of claim 4, further comprising: concatenating the joint feature vector with the intra-modality vector to generate a joint representation vector within the joint-modality representation.
[Appendix 8]
The first and second encoders and the first and second decoders are configured to process data from the first modality, and the training step comprises:
providing a first one of the first modality embedding vectors as an input to the first encoder;
providing a second one of the first modality embedding vectors as an input to the second encoder;
calculating a joint representation vector in the joint modality representation based on a first feature vector output from the first encoder, a second feature vector output from the second encoder, and an intra-modality vector;
providing the joint representation vector as input to the first and second decoders to generate first and second decoded vectors;
3. The method of claim 2, further comprising: estimating values of parameters of the first and second encoders and the first and second decoders based on the first and second one of the first modality embedding vectors and the first and second decoded vectors.
[Appendix 9]
9. The method of claim 8, wherein estimating values of parameters of the first and second encoders and the first and second decoders comprises using a negative sampling loss function.
[Appendix 10]
10. The method of claim 9, wherein the statistical model further comprises first and second embedding layers, and the training step further comprises estimating values of parameters of the first and second embedding layers using the negative sampling loss function.
[Appendix 11]
11. The method of claim 9 or 10, further comprising repeating training the statistical model for each of a plurality of links between data pairs in the training data for the first modality.
[Appendix 12]
creating an intra-modality vector describing a link between the training data for the first modality and the training data for the second modality;
3. The method of claim 2, wherein the information in the joint modality representation is determined based at least in part on the intra-modality vectors.
[Appendix 13]
scaling the intra-modality vectors based on a numerical feature indicative of a strength of the link between the data pairs in the training data for the first modality;
13. The method of claim 12, wherein the information in the joint modality representation is determined based at least in part on scaled intra-modality vectors.
[Appendix 14]
concatenating each of a first feature vector output from the first encoder and a second feature vector output from the second encoder with the intra-modality vector to generate first and second concatenated feature vectors;
13. The method of claim 12, further comprising: calculating a joint representation vector in the joint modality representation using the first and second concatenated vectors.
[Appendix 15]
calculating a joint feature vector using a first feature vector output from the first encoder and a second feature vector output from the second encoder;
13. The method of claim 12, further comprising: concatenating the joint feature vector with the intra-modality vector to generate a joint representation vector within the joint-modality representation.
[Appendix 16]
The first encoder and the first decoder are configured to process data from the first modality, and the second encoder and the second decoder are configured to process data from the second modality, and the training step comprises:
providing one of the first modality embedding vectors as an input to the first encoder;
providing one of the second modality embedding vectors as an input to the second encoder;
calculating a joint representation vector in the joint-modality representation based on a first feature vector output from the first encoder, a second feature vector output from the second encoder, and the intra-modality vector;
providing the joint representation vector as input to the first and second decoders to generate first and second decoded vectors;
estimating values of parameters of the first and second encoders and the first and second decoders based on the one of the first modality embedding vectors, the one of the second modality embedding vectors, and the first and second decoded vectors.
[Appendix 17]
17. The method of claim 16, wherein estimating values of parameters of the first and second encoders and the first and second decoders comprises using a negative sampling loss function.
[Appendix 18]
17. The method of claim 16, further comprising repeating training of the statistical model for each of a plurality of links between the training data for the first modality and the training data for the second modality.
[Appendix 19]
17. The method of claim 16, further comprising, prior to the training step, initializing values of the parameters for the first encoder, the initializing step being based on results of training the first encoder using a self-supervised learning technique.
[Appendix 20]
20. The method of claim 19, wherein the results of training the first encoder using self-supervised learning techniques include results of training the first encoder using training data from only the first modality.
[Appendix 21]
20. The method of claim 19, wherein the results of training the first encoder using self-supervised learning techniques include results of training the first encoder with training data having a third modality different from the second modality.
[Appendix 22]
20. The method of claim 19, further comprising, prior to the training step, initializing values of the parameters for the second encoder, the initializing step being performed based on results of training the second encoder using a self-supervised learning technique.
[Appendix 23]
The step of creating the first modality embedding vector comprises:
defining a one-hot vector having length V1 for each data in the training data for the first modality ;
and multiplying each of the one-hot vectors of length V1 by a first embedding matrix having dimensions V1 x E, where E < V1 and E is the length of each of the first modality embedding vectors.
[Appendix 24]
The step of generating the second modality embedding vector comprises:
defining a one-hot vector having length V2 for each data in the training data for the second modality ;
24. The method of claim 23, comprising: multiplying each of the one-hot vectors of length V2 by an embedding matrix having dimension V2 ×E, where E< V2 and E is the length of each of the second modality embedding vectors.
[Appendix 25]
25. The method of claim 24, wherein each of the first and second encoders includes an input layer having E inputs and an output layer having R outputs, where R>E.
[Appendix 26]
26. The method of claim 25, wherein each of the first and second encoders includes at least one hidden layer.
[Appendix 27]
2. The method of claim 1, wherein each of the first and second encoders comprises a neural network.
[Appendix 28]
the training data further includes training data for a third modality different from the first modality and the second modality, and the statistical model further includes a third encoder and a third decoder;
2. The method of claim 1, wherein training the statistical model further comprises estimating values of parameters of the third encoder and the third decoder using self-supervised learning techniques, input vectors of the third modality, and information describing at least one link between training data for the third modality and training data for the first or second modalities.
[Appendix 29]
29. The method of claim 28, further comprising creating a third modality embedding vector based on the training data for the third modality, wherein training the statistical model further comprises providing a first one of the third modality embedding vectors as an input to the third encoder.
[Appendix 30]
1. A method for predicting associations between input data in a first modality and data in a second modality using a statistical model trained to represent links between data having multiple modalities, the statistical model including a plurality of encoders and decoders, each trained to process data for one of the multiple modalities, and a joint modality representation combining the multiple encoders and decoders, the method comprising:
selecting an encoder/decoder pair or an encoder pair from the plurality of encoders and decoders based on the first modality and the second modality;
and processing the input data using the joint modality representation and a selected encoder/decoder pair or encoder pair to predict associations between the input data and data in the second modality.
[Appendix 31]
31. The method of claim 30, further comprising selecting an encoder trained to process data for the first modality and a decoder trained to process data for the second modality.
[Appendix 32]
32. The method of claim 31, further comprising predicting the association between the input data and the data in the second modality in a representation space for the second modality.
[Appendix 33]
outputting an output vector in the representation space for the second modality from the decoder trained to process data for the second modality;
projecting data from the second modality into the representation space for the second modality to generate a plurality of projected vectors;
33. The method of claim 32, further comprising predicting the association between the input data and the data in the second modality based on a comparison of the output vector and a projected vector in the representation space for the second modality.
[Appendix 34]
calculating a distance between the output vector and each of the plurality of projected vectors;
34. The method of claim 33, further comprising predicting the relevance based on the calculated distance.
[Appendix 35]
35. The method of claim 34, wherein calculating the distance comprises calculating a Euclidean distance.
[Appendix 36]
31. The method of claim 30, further comprising selecting a first encoder trained to process data for the first modality and a second encoder trained to process data for the second modality.
[Appendix 37]
37. The method of claim 36, further comprising predicting the association between the input data and the data in the second modality in a latent representation space associated with the joint-modality representation.
[Appendix 38]
providing the input data as an input to the first encoder to generate a first modality feature vector in the latent representation space;
providing data for the second modality as input to the second encoder to generate a plurality of second modality feature vectors in the latent representation space;
38. The method of claim 37, further comprising predicting the association between the input data and the data in the second modality based on a comparison of the first modality feature vector and the plurality of second modality feature vectors in the latent representation space.
[Appendix 39]
calculating a distance between the first modality feature vector and the plurality of second modality feature vectors in the latent representation space;
39. The method of claim 38, further comprising predicting the relevance based on the calculated distance.
[Appendix 40]
40. The method of claim 39, wherein calculating the distance comprises calculating a Euclidean distance.
[Appendix 41]
1. A method for predicting associations between data in a first modality and data in a second modality using a statistical model trained to represent interactions between data having multiple modalities, the data including a first modality and a second modality, the statistical model including a plurality of encoders and decoders, each trained to process data for one of the multiple modalities, and a joint modality representation combining the plurality of encoders and decoders, the method comprising:
mapping the data in the first modality and the data in the second modality into a common representation space within the statistical model;
accessing a statistical classifier trained using labeled data, the labeled data describing associations between data in the first modality and the second modality;
and using the trained statistical classifier to predict associations between the data in the first modality and the data in the second modality mapped into the common representation space.
[Appendix 42]
42. The method of claim 41, wherein mapping the data in the first modality and the data in the second modality into a common representation space comprises mapping the data into a joint-modality representation space of the statistical model.
[Appendix 43]
42. The method of claim 41, wherein mapping the data in the first modality and the data in the second modality into a common representation space comprises mapping the data into a modality-specific representation space for the first modality or the second modality.
[Appendix 44]
1. A computer system comprising:
at least one computer processor;
and at least one storage device encoded with a plurality of instructions that, when executed by the at least one computer processor, performs a method of training a statistical model to represent cross-modality associations for data, the data including data for a first modality and data for a second modality different from the first modality, the method comprising:
accessing training data, the training data including training data for the first modality and training data for the second modality;
training the statistical model, the statistical model including first and second encoders, first and second decoders, and a joint modality representation coupling the first and second encoders to the first and second decoders, the training step comprising:
estimating values of parameters of the first and second encoders and the first and second decoders using self-supervised learning techniques, at least some of the training data, and information describing at least one link between data pairs in the training data;
storing information specifying the statistical model at least in part by storing estimated values of parameters of the first and second encoders and the first and second decoders of the statistical model.
[Appendix 45]
The method comprises:
creating a first modality embedding vector based on the training data for the first modality;
and generating a second modality embedding vector based on the training data for the second modality, the training step comprising:
45. The computer system of claim 44, further comprising providing the first and second modality embedding vectors as inputs to the first and second encoders, respectively.
[Appendix 46]
46. The computer system of claim 45, wherein the statistical model further includes first and second embedding layers, and the training step further includes estimating values for parameters of the first and second embedding layers.
[Appendix 47]
The method further includes creating an intra-modality vector describing links between data pairs in the training data for the first modality;
45. The computer system of claim 44, wherein information in the joint modality representation is determined based at least in part on the intra-modality vectors.
[Appendix 48]
The method further includes scaling the intra-modality vectors based on numerical features associated with interactions between the data pairs in the training data for the first modality;
48. The computer system of claim 47, wherein the information in the joint modality representation is determined based at least in part on scaled intra-modality vectors.
[Appendix 49]
The method comprises:
concatenating each of a first feature vector output from the first encoder and a second feature vector output from the second encoder with the intra-modality vector to generate first and second concatenated feature vectors;
48. The computer system of claim 47, further comprising: calculating a joint representation vector in the joint modality representation using the first and second concatenated vectors.
[Appendix 50]
The method comprises:
calculating a joint feature vector using a first feature vector output from the first encoder and a second feature vector output from the second encoder;
48. The computer system of claim 47, further comprising: concatenating the joint feature vector with the intra-modality vector to generate a joint representation vector within the joint-modality representation.
[Appendix 51]
The first and second encoders and the first and second decoders are configured to process data from the first modality, and the training step comprises:
providing a first one of the first modality embedding vectors as an input to the first encoder;
providing a second one of the first modality embedding vectors as an input to the second encoder;
calculating a joint representation vector in the joint modality representation based on a first feature vector output from the first encoder, a second feature vector output from the second encoder, and an intra-modality vector;
providing the joint representation vector as an input to the first and second decoders to generate first and second decoded vectors;
estimating values of parameters of the first and second encoders and the first and second decoders based on the first and second one of the first modality embedding vectors and the first and second decoded vectors.
[Appendix 52]
52. The computer system of claim 51, wherein estimating values of parameters of the first and second encoders and the first and second decoders includes using a negative sampling loss function.
[Appendix 53]
53. The computer system of claim 52, wherein the statistical model further includes first and second embedding layers, and the training step further includes using the negative sampling loss function to estimate values of parameters of the first and second embedding layers.
[Appendix 54]
53. The computer system of claim 52, wherein the method further comprises repeating training the statistical model for each of a plurality of links between data pairs in the training data for the first modality.
[Appendix 55]
The method further includes creating a cross-modality vector describing links between the training data for the first modality and the training data for the second modality;
46. The computer system of claim 45, wherein information in the joint modality representation is determined based at least in part on the inter-modality vector.
[Appendix 56]
scaling the inter-modality vector based on numerical features associated with the links between the data pairs in the training data for the first modality;
56. The computer system of claim 55, wherein the information in the joint modality representation is determined based at least in part on scaled inter-modality vectors.
[Appendix 57]
The method comprises:
concatenating each of a first feature vector output from the first encoder and a second feature vector output from the second encoder with the cross-modality vector to generate first and second concatenated feature vectors;
56. The computer system of claim 55, further comprising: calculating a joint representation vector in the joint modality representation using the first and second concatenated vectors.
[Appendix 58]
The method comprises:
calculating a joint feature vector using a first feature vector output from the first encoder and a second feature vector output from the second encoder;
56. The computer system of claim 55, further comprising: concatenating the joint feature vector with the cross-modality vector to generate a joint representation vector in the joint-modality representation.
[Appendix 59]
The first encoder and the first decoder are configured to process data from the first modality, and the second encoder and the second decoder are configured to process data from the second modality, and the training step comprises:
providing one of the first modality embedding vectors as an input to the first encoder;
providing one of the second modality embedding vectors as an input to the second encoder;
calculating a joint representation vector in the joint-modality representation based on a first feature vector output from the first encoder, a second feature vector output from the second encoder, and the inter-modality vector;
providing the joint representation vector as an input to the first and second decoders to generate first and second decoded vectors;
estimating values of parameters of the first and second encoders and the first and second decoders based on the one of the first modality embedding vectors, the one of the second modality embedding vectors, and the first and second decoded vectors.
[Appendix 60]
60. The computer system of claim 59, wherein estimating values of parameters of the first and second encoders and the first and second decoders includes using a negative sampling loss function.
[Appendix 61]
60. The computer system of claim 59, wherein the method further includes repeating training of the statistical model for each of a plurality of interactions between the training data for the first modality and the training data for the second modality.
[Appendix 62]
60. The computer system of claim 59, wherein the method further includes, prior to the training step, initializing values of the parameters for the first encoder, the initializing step being performed based on results of training the first encoder using a self-supervised learning technique.
[Appendix 63]
63. The computer system of claim 62, wherein the results of training the first encoder using the self-supervised learning technique include results of training the first encoder using training data from only the first modality.
[Appendix 64]
63. The computer system of claim 62, wherein the results of training the first encoder using the self-supervised learning technique include results of training the first encoder with training data having a third modality different from the second modality.
[Appendix 65]
63. The computer system of claim 62, wherein the method further includes, prior to the training step, initializing values of the parameters for the second encoder, the initializing step being performed based on results of training the second encoder using a self-supervised learning technique.
[Appendix 66]
The step of creating the first modality embedding vector comprises:
defining a one-hot vector having length V1 for each data in the training data for the first modality ;
and multiplying each of the one-hot vectors of length V1 by a first embedding matrix having dimension V1 ×E, where E< V1 and E is the length of each of the first modality embedding vectors.
[Appendix 67]
The step of generating the second modality embedding vector comprises:
defining a one-hot vector having length V2 for each data in the training data for the second modality ;
and multiplying each of the one-hot vectors of length V2 by an embedding matrix having dimension V2 ×E, where E< V2 and E is the length of each of the second modality embedding vectors.
[Appendix 68]
70. The computer system of claim 67, wherein each of the first and second encoders includes an input layer having E inputs and an output layer having R outputs, where R>E.
[Appendix 69]
70. The computer system of claim 68, wherein each of the first and second encoders includes at least one hidden layer.
[Appendix 70]
45. The computer system of claim 44, wherein each of the first and second encoders includes a neural network.
[Appendix 71]
the training data further includes training data for a third modality different from the first modality and the second modality, and the statistical model further includes a third encoder and a third decoder;
45. The computer system of claim 44, wherein training the statistical model further comprises estimating values of parameters of the third encoder and the third decoder using self-supervised learning techniques, input vectors of the third modality, and information describing at least one link between training data for the third modality and training data for the first or second modalities.
[Appendix 72]
72. The computer system of claim 71, further comprising creating a third modality embedding vector based on the training data for the third modality, wherein training the statistical model further comprises providing a first one of the third modality embedding vectors as an input to the third encoder.
[Appendix 73]
1. A computer system comprising:
at least one computer processor;
and at least one storage device encoded with a plurality of instructions which, when executed by the at least one computer processor, perform a method of predicting associations between input data in a first modality and data in a second modality using a statistical model trained to represent interactions between data having a plurality of modalities, the statistical model including a plurality of encoders and decoders, each trained to process data for one of the plurality of modalities, and a joint modality representation combining the plurality of encoders and decoders, the method comprising:
selecting an encoder/decoder pair or an encoder pair from the plurality of encoders and decoders based on the first modality and the second modality;
and processing the input data using the joint modality representation and a selected encoder/decoder pair or encoder pair to predict associations between the input data and data in the second modality.
[Appendix 74]
74. The computer system of claim 73, wherein the method further comprises selecting an encoder trained to process data for the first modality and a decoder trained to process data for the second modality.
[Appendix 75]
75. The computer system of claim 74, wherein the method further comprises predicting the association between the input data and the data in the second modality in a representation space for the second modality.
[Appendix 76]
The method comprises:
outputting an output vector in the representation space for the second modality from the decoder trained to process data for the second modality;
projecting data from the second modality into the representation space for the second modality to generate a plurality of projected vectors;
76. The computer system of claim 75, further comprising predicting the association between the input data and the data in the second modality based on a comparison of the output vector and a projected vector in the representation space for the second modality.
[Appendix 77]
The method comprises:
calculating a distance between the output vector and each of the plurality of projected vectors;
77. The computer system of claim 76, further comprising predicting the relevance based on the calculated distance.
[Appendix 78]
78. The computer system of claim 77, wherein calculating the distance includes calculating a Euclidean distance.
[Appendix 79]
74. The computer system of claim 73, wherein the method further includes selecting a first encoder trained to process data for the first modality and a second encoder trained to process data for the second modality.
[Appendix 80]
80. The computer system of claim 79, wherein the method further comprises predicting the association between the input data and the data in the second modality in a latent representation space associated with the joint-modality representation.
[Appendix 81]
providing the input data as an input to the first encoder to generate a first modality feature vector in the latent representation space;
providing data for the second modality as input to the second encoder to generate a plurality of second modality feature vectors in the latent representation space;
81. The computer system of claim 80, further comprising: predicting the association between the input data and the data in the second modality based on a comparison of the first modality feature vector and the plurality of second modality feature vectors in the latent representation space.
[Appendix 82]
calculating a distance between the first modality feature vector and each of the plurality of second modality feature vectors;
82. The computer system of claim 81, further comprising predicting the relevance based on the calculated distance.
[Appendix 83]
83. The computer system of claim 82, wherein calculating the distance includes calculating a Euclidean distance.
[Appendix 84]
1. A computer system comprising:
at least one computer processor;
and at least one storage device encoded with a plurality of instructions which, when executed by the at least one computer processor, perform a method of predicting associations between data in a first modality and data in a second modality using a statistical model trained to represent links between data having a plurality of modalities, the data including a first modality and a second modality different from the first modality, the statistical model including a plurality of encoders and decoders, each trained to process data for one of the plurality of modalities, and a joint modality representation combining the plurality of encoders and decoders, the method comprising:
mapping the data in the first modality and the data in the second modality into a common representation space within the statistical model;
accessing a statistical classifier trained using labeled data, the labeled data describing associations between data in the first modality and the second modality;
and using the trained statistical classifier to predict associations between data in the first modality and data in the second modality mapped into the common representation space.
[Appendix 85]
85. The computer system of claim 84, wherein mapping the data in the first modality and the data in the second modality into a common representation space comprises mapping the data into a joint-modality representation space of the statistical model.
[Appendix 86]
85. The computer system of claim 84, wherein mapping the data in the first modality and the data in the second modality into a common representation space comprises mapping the data into a modality-specific representation space for the first modality or the second modality.
[Appendix 87]
1. A method for training a statistical model to represent associations between drug data, gene data, and disease data, comprising:
accessing training data, including gene training data, drug training data, and disease training data;
training the statistical model, the statistical model comprising a plurality of encoders including a gene encoder, a drug encoder, and a disease encoder; a plurality of decoders including a gene decoder, a drug decoder, and a disease decoder; and a joint representation coupling the plurality of encoders to the plurality of decoders, the joint representation describing interactions between the training data; and the training step comprising:
estimating values for parameters of the genetic encoder and the genetic decoder using self-supervised learning techniques, the genetic training data, and information describing interactions between data pairs in the genetic training data;
estimating values for parameters of the genetic encoder, the genetic decoder, the drug encoder, and the drug decoder using self-supervised learning techniques, the gene training data and the drug training data, and information describing interactions between data elements in the gene training data and data elements in the drug training data;
and estimating values for parameters of the gene encoder, the gene decoder, the disease encoder, and the disease decoder using self-supervised learning techniques, the gene training data and the disease training data, and information describing interactions between data elements in the gene training data and data elements in the disease training data;
storing information specifying the statistical model at least in part by storing estimated values of parameters of the gene encoder, the gene decoder, the drug encoder, the drug decoder, the disease encoder, and the disease decoder of the statistical model.
[Appendix 88]
88. The method of claim 87, further comprising creating a gene modality embedding vector based on the genetic training data, wherein the training step further comprises providing the gene modality embedding vector as an input to the genetic encoder.
[Appendix 89]
90. The method of claim 87, wherein the information describing interactions between data pairs in the genetic training data comprises information on a plurality of types of interactions, including information on gene-gene interactions, information on gene-gene covariation, and information on gene-gene regulation, and the training step further comprises estimating values of parameters of the genetic encoder and the genetic decoder separately for each of the plurality of types of interactions.
[Appendix 90]
90. The method of claim 87, wherein the information describing interactions between data elements in the gene training data and data elements in the drug training data comprises information on a plurality of types of interactions, including information on drug-gene upregulation, information on drug-gene downregulation, and information on drug-gene binding, and wherein the training step further comprises the step of estimating values for parameters of the gene encoder and drug encoder, and the gene decoder and drug decoder, separately, for each of the plurality of types of interactions.
[Appendix 91]
90. The method of claim 87, wherein the information describing interactions between data elements in the gene training data and data elements in the disease training data comprises information on a plurality of types of interactions, including information on gene-disease upregulation, information on gene-disease downregulation, and information on gene-disease association, and wherein the training step further comprises the step of estimating values for parameters of the gene encoder and disease encoder, and the gene decoder and disease decoder, separately, for each of the plurality of types of interactions.
[Appendix 92]
The training step includes:
estimating values for parameters of the drug encoder, the drug decoder, the disease encoder and the disease decoder using self-supervised learning techniques, the drug training data and the disease training data and information describing interactions between data elements in the drug training data and data elements in the disease training data;
88. The method of claim 87, comprising storing information specifying the statistical model, at least in part by storing estimated values of parameters of the drug encoder, the drug decoder, the disease encoder, and the disease decoder of the statistical model.
[Appendix 93]
93. The method of claim 92, wherein the information describing interactions between data elements in the drug training data and data elements in the disease training data includes information regarding drug-disease treatment.
[Appendix 94]
the training data further comprises drug class training data;
the plurality of encoders further comprises a drug class encoder;
the plurality of decoders further comprising a drug class decoder;
The training step includes:
estimating values of parameters of the drug encoder, the drug decoder, the drug class encoder, and the drug class decoder using self-supervised learning techniques, the drug training data and the drug class training data, and information describing interactions between data elements in the drug training data and data elements in the drug class training data;
88. The method of claim 87, further comprising storing information specifying the statistical model at least in part by storing estimated values of parameters of the drug encoder, the drug decoder, the drug class encoder, and the drug class decoder of the statistical model.
[Appendix 95]
95. The method of claim 94, wherein the information describing interactions between data elements in the drug training data and data elements in the drug class training data includes information regarding drug-drug class inclusion.
[Appendix 96]
the training data further comprises biological pathway training data;
the plurality of encoders further comprising a path encoder;
the plurality of decoders further comprising a path decoder;
The training step includes:
estimating values for parameters of the genetic encoder, the genetic decoder, the pathway encoder, and the pathway decoder using self-supervised learning techniques, the gene training data and the biological pathway training data, and information describing interactions between data elements in the gene training data and data elements in the biological pathway training data;
88. The method of claim 87, further comprising storing information specifying the statistical model, at least in part, by storing estimated values of parameters of the genetic encoder, the genetic decoder, the path encoder, and the path decoder of the statistical model.
[Appendix 97]
97. The method of claim 96, wherein the information describing interactions between data elements in the gene training data and data elements in the biological pathway training data includes information regarding gene-pathway involvement.
[Appendix 98]
the training data further comprises anatomical training data;
the plurality of encoders further comprising an anatomical encoder;
the plurality of decoders further comprising an anatomical decoder;
The training step includes:
estimating values of parameters of the disease encoder, the disease decoder, the anatomical encoder, and the anatomical decoder using self-supervised learning techniques, the disease training data and the anatomical training data, and information describing interactions between data elements in the disease training data and data elements in the anatomical training data;
88. The method of claim 87, further comprising storing information specifying the statistical model at least in part by storing estimated values of parameters of the disease encoder, the disease decoder, the anatomical structure encoder, and the anatomical structure decoder of the statistical model.
[Appendix 99]
99. The method of claim 98, wherein the information describing interactions between data elements in the disease training data and data elements in the anatomy training data includes information regarding disease-anatomy localization.
[Appendix 100]
The training step includes:
estimating values of parameters of the genetic encoder, the genetic decoder, the anatomical encoder, and the anatomical decoder using self-supervised learning techniques, the genetic training data and the anatomical training data, and information describing interactions between data elements in the genetic training data and data elements in the anatomical training data;
99. The method of claim 98, further comprising storing information specifying the statistical model at least in part by storing estimated values of parameters of the genetic encoder, the genetic decoder, the anatomical encoder, and the anatomical decoder of the statistical model.
[Appendix 101]
101. The method of claim 100, wherein the information describing interactions between data elements in the gene training data and data elements in the anatomical training data comprises information on a plurality of types of interactions, including information on gene-anatomical upregulation, information on gene-anatomical downregulation, and information on gene-anatomical expression, and the training step further comprises the step of estimating values of parameters of the gene and anatomy encoder and the gene and anatomy decoder separately for each of the plurality of types of interactions.
[Appendix 102]
1. A computer system comprising:
at least one computer processor;
and at least one storage device encoded with a plurality of instructions that, when executed by the at least one computer processor, implements a method for training a statistical model to represent associations between drug data, gene data, and disease data, the method comprising:
accessing training data, including gene training data, drug training data, and disease training data;
training the statistical model, the statistical model comprising a plurality of encoders including a gene encoder, a drug encoder, and a disease encoder; a plurality of decoders including a gene decoder, a drug decoder, and a disease decoder; and a joint representation coupling the plurality of encoders to the plurality of decoders, the joint representation describing interactions between the training data; and the training step comprising:
estimating values for parameters of the genetic encoder and the genetic decoder using self-supervised learning techniques, the genetic training data, and information describing interactions between data pairs in the genetic training data;
estimating values for parameters of the genetic encoder, the genetic decoder, the drug encoder, and the drug decoder using self-supervised learning techniques, the gene training data and the drug training data, and information describing interactions between data elements in the gene training data and data elements in the drug training data;
estimating values for parameters of the gene encoder, the gene decoder, the disease encoder, and the disease decoder using self-supervised learning techniques, the gene training data and the disease training data, and information describing interactions between data elements in the gene training data and data elements in the disease training data;
storing information specifying the statistical model by at least in part storing estimated values of parameters of the gene encoder, the gene decoder, the drug encoder, the drug decoder, the disease encoder, and the disease decoder of the statistical model.
[Appendix 103]
103. The computer system of claim 102, wherein the method further comprises creating a gene modality embedding vector based on the genetic training data, and the training further comprises providing the gene modality embedding vector as an input to the genetic encoder.
[Appendix 104]
103. The computer system of claim 102, wherein the information describing interactions between data pairs in the genetic training data comprises information on a plurality of types of interactions, including information on gene-gene interactions, information on gene-gene covariation, and information on gene-gene regulation, and the training step further comprises estimating values for parameters of the genetic encoder and the genetic decoder separately for each of the plurality of types of interactions.
[Appendix 105]
103. The computer system of claim 102, wherein the information describing interactions between data elements in the gene training data and data elements in the drug training data comprises information on a plurality of types of interactions, including information on drug-gene upregulation, information on drug-gene downregulation, and information on drug-gene binding, and wherein the training step further comprises the step of estimating values for parameters of the gene encoder and drug encoder, and the gene decoder and drug decoder, separately, for each of the plurality of types of interactions.
[Appendix 106]
103. The computer system of claim 102, wherein the information describing interactions between data elements in the gene training data and data elements in the disease training data comprises information on a plurality of types of interactions, including information on gene-disease upregulation, information on gene-disease downregulation, and information on gene-disease association, and wherein the training step further comprises the step of estimating values for parameters of the gene encoder and disease encoder, and the gene decoder and disease decoder, separately, for each of the plurality of types of interactions.
[Appendix 107]
The training step includes:
estimating values for parameters of the drug encoder, the drug decoder, the disease encoder and the disease decoder using self-supervised learning techniques, the drug training data and the disease training data and information describing interactions between data elements in the drug training data and data elements in the disease training data;
and storing information specifying the statistical model by at least in part storing estimated values of the drug encoder, the drug decoder, the disease encoder, and the disease decoder parameters of the statistical model.
[Appendix 108]
108. The computer system of claim 107, wherein the information describing interactions between data elements in the drug training data and data elements in the disease training data includes drug-disease treatment information.
[Appendix 109]
the training data further comprises drug class training data;
the plurality of encoders further comprises a drug class encoder;
the plurality of decoders further comprising a drug class decoder;
The training step includes:
estimating values of parameters of the drug encoder, the drug decoder, the drug class encoder, and the drug class decoder using self-supervised learning techniques, the drug training data and the drug class training data, and information describing interactions between data elements in the drug training data and data elements in the drug class training data;
103. The computer system of claim 102, wherein the method further includes storing information specifying the statistical model at least in part by storing estimated values of parameters of the drug encoder, the drug decoder, the drug class encoder, and the drug class decoder of the statistical model.
[Appendix 110]
110. The computer system of claim 109, wherein the information describing interactions between data elements in the drug training data and data elements in the drug-class training data includes information regarding drug-drug-class inclusion.
[Appendix 111]
the training data further comprises biological pathway training data;
the plurality of encoders further comprising a path encoder;
the plurality of decoders further comprising a path decoder;
The training step includes:
estimating values for parameters of the genetic encoder, the genetic decoder, the pathway encoder, and the pathway decoder using self-supervised learning techniques, the gene training data and the biological pathway training data, and information describing interactions between data elements in the gene training data and data elements in the biological pathway training data;
103. The computer system of claim 102, wherein the method further includes storing information specifying the statistical model at least in part by storing estimated values of parameters of the genetic encoder, the genetic decoder, the path encoder, and the path decoder of the statistical model.
[Appendix 112]
112. The computer system of claim 111, wherein the information describing interactions between data elements in the gene training data and data elements in the biological pathway training data includes information regarding gene-pathway involvement.
[Appendix 113]
the training data further comprises anatomical training data;
the plurality of encoders further comprising an anatomical encoder;
the plurality of decoders further comprising an anatomical decoder;
The training step includes:
estimating values of parameters of the disease encoder, the disease decoder, the anatomical encoder, and the anatomical decoder using self-supervised learning techniques, the disease training data and the anatomical training data, and information describing interactions between data elements in the disease training data and data elements in the anatomical training data;
103. The computer system of claim 102, wherein the method further includes storing information specifying the statistical model at least in part by storing estimated values of parameters of the disease encoder, the disease decoder, the anatomical structure encoder, and the anatomical structure decoder of the statistical model.
[Appendix 114]
114. The computer system of claim 113, wherein the information describing interactions between data elements in the disease training data and data elements in the anatomical training data includes information regarding disease-anatomical localization.
[Appendix 115]
The training step includes:
estimating values of parameters of the genetic encoder, the genetic decoder, the anatomical encoder, and the anatomical decoder using self-supervised learning techniques, the genetic training data and the anatomical training data, and information describing interactions between data elements in the genetic training data and data elements in the anatomical training data;
114. The computer system of claim 113, wherein the method further includes storing information specifying the statistical model at least in part by storing estimated values of parameters of the genetic encoder, the genetic decoder, the anatomical encoder, and the anatomical decoder of the statistical model.
[Appendix 116]
16. The computer system of claim 115, wherein the information describing interactions between data elements in the gene training data and data elements in the anatomical training data includes information on a plurality of types of interactions, including information on gene-anatomical upregulation, information on gene-anatomical downregulation, and information on gene-anatomical expression, and the training step further includes the step of estimating values of parameters of the gene and anatomy encoder and the gene and anatomy decoder separately for each of the plurality of types of interactions.
[Appendix 117]
1. A method for predicting a new disease indication for a given drug, comprising:
projecting the given drug representation and a number of disease representations into a common representation space of trained statistical models;
and predicting the new disease indication for the given drug based on a comparison of the projected representation of the given drug in the common representation space with at least one of the representations of the plurality of diseases.
[Appendix 118]
118. The method of claim 117, wherein predicting the new disease indication comprises calculating a distance between the projected representation of the given drug and at least one of the plurality of disease representations in the common representation space; and predicting the new disease indication based on the calculated distance.
[Appendix 119]
1. A computer system comprising:
at least one computer processor;
and at least one storage device encoded with a plurality of instructions that, when executed by the at least one computer processor, implements a method of predicting new disease indications for a given drug, the method comprising:
projecting the given drug representation and a number of disease representations into a common representation space of trained statistical models;
and predicting the new disease indication for the given drug based on a comparison of the projected representation of the given drug in the common representation space with at least one of the representations of the plurality of diseases.
[Appendix 120]
120. The computer system of claim 119, wherein predicting the new disease indication comprises calculating a distance between the projected representation of the given drug and at least one of the plurality of disease representations in the common representation space; and predicting the new disease indication based on the calculated distance.
[Appendix 121]
1. A method for identifying a disease indication for a given drug, comprising:
providing a plurality of drug representations and a plurality of disease representations as inputs to a statistical model;
and processing the plurality of drug representations and the plurality of disease representations using a trained supervised classifier to identify a likelihood that a drug from the plurality of drugs is effective for treating a disease from the plurality of diseases, wherein the supervised classifier is trained with information regarding Federal Drug Administration (FDA) approved drug-disease pairs.
[Appendix 122]
1. A computer system comprising:
at least one computer processor;
and at least one storage device encoded with a plurality of instructions that, when executed by the at least one computer processor, implements a method for identifying a disease indication for a given drug, the method comprising:
providing a plurality of drug representations and a plurality of disease representations as inputs to a statistical model;
and processing the plurality of drug representations and the plurality of disease representations using a trained supervised classifier to identify a likelihood that a drug from the plurality of drugs is effective for treating a disease from the plurality of diseases, wherein the supervised classifier is trained with information regarding Federal Drug Administration (FDA) approved drug-disease pairs.

Claims (11)

第1のモダリティおよび第2のモダリティを含む複数のモダリティを有するデータの間のリンクを表現するように訓練された統計モデルを使用して、前記第1のモダリティにおける入力データと前記第2のモダリティにおけるデータとの間の関連性を予測するための方法であって、前記統計モデルは、前記複数のモダリティのうちの1つについてのデータを処理するようにそれぞれが訓練された複数のエンコーダおよびデコーダ、ならびに前記複数のエンコーダおよびデコーダを結合する共同モダリティ表現を含み、前記方法は、
前記第1のモダリティおよび前記第2のモダリティに基づいて、前記複数のエンコーダおよびデコーダから、エンコーダ/デコーダのペアまたはエンコーダのペアを選択する工程と、
前記第1のモダリティにおける前記入力データと前記第2のモダリティにおける前記データとの間の関連性を予測する工程と、を含み、予測する工程は、
前記共同モダリティ表現および選択されたエンコーダ/デコーダのペアまたはエンコーダのペアを用いて前記入力データを処理して、前記統計モデルの表現空間への前記入力データの投影を取得すること、
前記表現空間において、前記入力データの投影と前記第2のモダリティにおける前記データとの間の類似性の尺度を決定することによって、前記第1のモダリティにおける前記入力データと前記第2のモダリティにおける前記データとの間の関連性を予測することを含む、方法。
1. A method for predicting associations between input data in a first modality and data in a second modality using a statistical model trained to represent links between data having multiple modalities, the statistical model including a plurality of encoders and decoders, each trained to process data for one of the multiple modalities, and a joint modality representation combining the plurality of encoders and decoders, the method comprising:
selecting an encoder/decoder pair or an encoder pair from the plurality of encoders and decoders based on the first modality and the second modality;
and predicting an association between the input data in the first modality and the data in the second modality, the predicting comprising:
processing the input data using the joint modality representation and a selected encoder/decoder pair or encoder pair to obtain a projection of the input data onto a representation space of the statistical model;
predicting an association between the input data in the first modality and the data in the second modality by determining a measure of similarity between a projection of the input data and the data in the second modality in the representation space .
前記第1のモダリティについてのデータを処理するように訓練されたエンコーダ、および前記第2のモダリティについてのデータを処理するように訓練されたデコーダを選択する工程をさらに含む、請求項1に記載の方法。 The method of claim 1, further comprising selecting an encoder trained to process data for the first modality and a decoder trained to process data for the second modality. 前記表現空間は、前記第2のモダリティについての表現空間であり、前記第1のモダリティにおける前記入力データと前記第2のモダリティにおける前記データとの間の関連性を予測する工程は、
前記第2のモダリティについての前記表現空間において、前記第1のモダリティにおける前記入力データと前記第2のモダリティにおける前記データとの間の前記関連性を予測することを含む、請求項2に記載の方法。
The representation space is a representation space for the second modality, and predicting the association between the input data in the first modality and the data in the second modality comprises:
The method of claim 2 , further comprising predicting the association between the input data in the first modality and the data in the second modality in the representation space for the second modality.
前記第1のモダリティにおける前記入力データと前記第2のモダリティにおける前記データとの間の関連性を予測する工程は、
前記第2のモダリティについてのデータを処理するように訓練された前記デコーダから、前記第2のモダリティについての前記表現空間における出力ベクトルを出力すること
前記第2のモダリティからのデータを前記第2のモダリティについての前記表現空間内に投影して、複数の投影されたベクトルを生成すること
前記出力ベクトルと、前記第2のモダリティについての前記表現空間における投影されたベクトルとの比較に基づいて、前記入力データと前記第2のモダリティにおける前記データとの間の前記関連性を予測することを含む、請求項3に記載の方法。
Predicting an association between the input data in the first modality and the data in the second modality includes:
outputting , from the decoder trained to process data for the second modality, an output vector in the representation space for the second modality;
projecting data from the second modality into the representation space for the second modality to generate a plurality of projected vectors;
4. The method of claim 3, further comprising predicting the association between the input data and the data in the second modality based on a comparison of the output vector and a projected vector in the representation space for the second modality.
前記出力ベクトルと前記複数の投影されたベクトルのそれぞれとの間の距離を計算する工程と、
計算された距離に基づいて前記関連性を予測する工程と、をさらに含む、請求項4に記載の方法。
calculating a distance between the output vector and each of the plurality of projected vectors;
The method of claim 4 , further comprising predicting the relevance based on the calculated distance.
距離を計算する工程は、ユークリッド距離を計算する工程を含む、請求項5に記載の方法。 The method of claim 5, wherein the step of calculating the distance includes the step of calculating the Euclidean distance. 前記第1のモダリティについてのデータを処理するように訓練された第1のエンコーダ、および前記第2のモダリティについてのデータを処理するように訓練された第2のエンコーダを選択する工程をさらに含む、請求項1に記載の方法。 The method of claim 1, further comprising selecting a first encoder trained to process data for the first modality and a second encoder trained to process data for the second modality. 前記表現空間は、前記共同モダリティ表現に関連付けられた潜在表現空間であり、前記第1のモダリティにおける前記入力データと前記第2のモダリティにおける前記データとの間の関連性を予測する工程は、
前記共同モダリティ表現に関連付けられた前記潜在表現空間において前記第1のモダリティにおける前記入力データと前記第2のモダリティにおける前記データとの間の前記関連性を予測することを含む、請求項7に記載の方法。
The representation space is a latent representation space associated with the joint modality representation, and predicting an association between the input data in the first modality and the data in the second modality comprises:
The method of claim 7 , further comprising predicting the association between the input data in the first modality and the data in the second modality in the latent representation space associated with the joint modality representation.
前記第1のモダリティにおける前記入力データと前記第2のモダリティにおける前記データとの間の関連性を予測する工程は、
前記第1のエンコーダへの入力として前記入力データを提供して、前記潜在表現空間における第1のモダリティ特徴ベクトルを生成すること
前記第2のエンコーダへの入力として前記第2のモダリティについてのデータを提供して、前記潜在表現空間における複数の第2のモダリティ特徴ベクトルを生成すること
前記潜在表現空間における前記第1のモダリティ特徴ベクトルおよび前記複数の第2のモダリティ特徴ベクトルの比較に基づいて、前記入力データと前記第2のモダリティにおける前記データとの間の前記関連性を予測することを含む、請求項8に記載の方法。
Predicting an association between the input data in the first modality and the data in the second modality includes:
providing the input data as an input to the first encoder to generate a first modality feature vector in the latent representation space;
providing data for the second modality as input to the second encoder to generate a plurality of second modality feature vectors in the latent representation space;
9. The method of claim 8, comprising predicting the association between the input data and the data in the second modality based on a comparison of the first modality feature vector and the plurality of second modality feature vectors in the latent representation space.
前記第1のモダリティにおける前記入力データと前記第2のモダリティにおける前記データとの間の関連性を予測する工程は、
前記潜在表現空間における前記第1のモダリティ特徴ベクトルと前記複数の第2のモダリティ特徴ベクトルとの間の距離を計算すること
計算された距離に基づいて前記関連性を予測することを含む、請求項9に記載の方法。
Predicting an association between the input data in the first modality and the data in the second modality includes:
calculating a distance between the first modality feature vector and the plurality of second modality feature vectors in the latent representation space;
The method of claim 9 , comprising predicting the relevance based on a calculated distance.
前記距離を計算する工程は、ユークリッド距離を計算する工程を含む、請求項10に記載の方法。 The method of claim 10, wherein the step of calculating the distance includes a step of calculating a Euclidean distance.
JP2020566792A 2018-05-30 2019-05-08 Method and apparatus for multimodal prediction using trained statistical models - Patents.com Active JP7490576B2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862678094P 2018-05-30 2018-05-30
US201862678083P 2018-05-30 2018-05-30
US62/678,083 2018-05-30
US62/678,094 2018-05-30
PCT/US2019/031260 WO2019231624A2 (en) 2018-05-30 2019-05-08 Methods and apparatus for multi-modal prediction using a trained statistical model

Publications (3)

Publication Number Publication Date
JP2021526259A JP2021526259A (en) 2021-09-30
JPWO2019231624A5 JPWO2019231624A5 (en) 2022-05-24
JP7490576B2 true JP7490576B2 (en) 2024-05-27

Family

ID=66625356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020566792A Active JP7490576B2 (en) 2018-05-30 2019-05-08 Method and apparatus for multimodal prediction using trained statistical models - Patents.com

Country Status (9)

Country Link
EP (1) EP3803884A2 (en)
JP (1) JP7490576B2 (en)
KR (1) KR20210018333A (en)
CN (1) CN112513990A (en)
AU (1) AU2019276730A1 (en)
BR (1) BR112020023429A2 (en)
CA (1) CA3100065A1 (en)
MX (1) MX2020012899A (en)
WO (1) WO2019231624A2 (en)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201904887D0 (en) 2019-04-05 2019-05-22 Lifebit Biotech Ltd Lifebit al
WO2021183256A1 (en) 2020-03-10 2021-09-16 Sri International Physics-guided deep multimodal embeddings for task-specific data exploitation
CN111540405B (en) * 2020-04-29 2023-07-07 新疆大学 Disease gene prediction method based on rapid network embedding
CN111627515B (en) * 2020-05-29 2023-07-18 上海商汤智能科技有限公司 Medicine recommendation method, device, electronic equipment and medium
WO2022006676A1 (en) * 2020-07-09 2022-01-13 Mcmaster University Machine learning prediction of biological effect in multicellular animals from microorganism transcriptional fingerprint patterns in non-inhibitory chemical challenge
CN112151127A (en) * 2020-09-04 2020-12-29 牛张明 Unsupervised learning drug virtual screening method and system based on molecular semantic vector
US11756572B2 (en) 2020-12-02 2023-09-12 Google Llc Self-supervised speech representations for fake audio detection
CN112700277B (en) * 2020-12-30 2024-05-28 北京爱笔科技有限公司 Processing method of user behavior data and multi-behavior sequence conversion model training method
CN112862727B (en) * 2021-03-16 2023-06-23 上海壁仞智能科技有限公司 Cross-modal image conversion method and device
CN113223655B (en) * 2021-05-07 2023-05-12 西安电子科技大学 Drug-disease association prediction method based on variation self-encoder
JP2023047983A (en) * 2021-09-27 2023-04-06 オムロン株式会社 Method for generating model, method for presenting data, method for generating data, method for estimation, model generation device, data presentation device, data generation device, and estimation device
CN114429787B (en) * 2021-12-30 2023-04-18 北京百度网讯科技有限公司 Omics data processing method and device, electronic device and storage medium
CN114334038B (en) * 2021-12-31 2024-05-14 杭州师范大学 Disease medicine prediction method based on heterogeneous network embedded model
CN114613450A (en) * 2022-03-09 2022-06-10 平安科技(深圳)有限公司 Method and device for predicting property of drug molecule, storage medium and computer equipment
CN114792573B (en) * 2022-04-18 2023-02-28 北京百度网讯科技有限公司 Drug combination effect prediction method, model training method, device and equipment
CN115587257B (en) * 2022-12-13 2023-04-07 阿里巴巴(中国)有限公司 Model hyper-parameter optimization method, storage medium and electronic device
CN116244484B (en) * 2023-05-11 2023-08-08 山东大学 Federal cross-modal retrieval method and system for unbalanced data
CN117133436A (en) * 2023-10-17 2023-11-28 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) Drug disease association prediction method, device and equipment based on multi-source data fusion

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000310997A (en) 1999-03-09 2000-11-07 Matsushita Electric Ind Co Ltd Method of discriminating unit overlapping area for coupling type speech synthesis and method of coupling type speech synthesis
JP2010152751A (en) 2008-12-25 2010-07-08 Nec Corp Statistic model learning device, statistic model learning method and program
JP2013211616A (en) 2012-03-30 2013-10-10 Sony Corp Terminal device, terminal control method, program, and information processing system
US20160170982A1 (en) 2014-12-16 2016-06-16 Yahoo! Inc. Method and System for Joint Representations of Related Concepts
WO2017122785A1 (en) 2016-01-15 2017-07-20 Preferred Networks, Inc. Systems and methods for multimodal generative machine learning
US20190197366A1 (en) 2016-09-05 2019-06-27 Kheiron Medical Technologies Ltd Multi-modal medical image processing

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000310997A (en) 1999-03-09 2000-11-07 Matsushita Electric Ind Co Ltd Method of discriminating unit overlapping area for coupling type speech synthesis and method of coupling type speech synthesis
JP2010152751A (en) 2008-12-25 2010-07-08 Nec Corp Statistic model learning device, statistic model learning method and program
JP2013211616A (en) 2012-03-30 2013-10-10 Sony Corp Terminal device, terminal control method, program, and information processing system
US20160170982A1 (en) 2014-12-16 2016-06-16 Yahoo! Inc. Method and System for Joint Representations of Related Concepts
WO2017122785A1 (en) 2016-01-15 2017-07-20 Preferred Networks, Inc. Systems and methods for multimodal generative machine learning
US20190197366A1 (en) 2016-09-05 2019-06-27 Kheiron Medical Technologies Ltd Multi-modal medical image processing
JP2019530116A (en) 2016-09-05 2019-10-17 ケイロン メディカル テクノロジーズ リミテッド Multimodal medical image processing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAPOLITANO Francesco et al.,Drug repositioning: a machine-learning approach through data integration,Journal of Cheminformatics volume 5, Article number: 30 (2013),英国,BIOMED CENTRAL LTD, UK,2013年06月22日,volume 5, Article number: 30 (2013),pp.1-9,[令和 5年4月24日検索],インターネット <URL:https://jcheminf.biomedcentral.com/counter/pdf/10.1186/1758-2946-5-30.pdf>,ISSN: 1758-2946、DOI: https://doi.org/10.1186/1758-2946-5-30,
Zhang, Ping et al.,Towards Drug Repositioning: A Unified Computational Framework for Integrating Multiple Aspects of Drug Similarity and Disease Similarity,AMIA Annual Symposium Proceedings 2014,米国,AMIA,2014年11月14日,pp.1258-1267,[令和 5年4月24日検索],インターネット <URL:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4419869/>

Also Published As

Publication number Publication date
BR112020023429A2 (en) 2021-02-23
EP3803884A2 (en) 2021-04-14
WO2019231624A2 (en) 2019-12-05
CA3100065A1 (en) 2019-12-05
MX2020012899A (en) 2021-02-26
AU2019276730A1 (en) 2020-12-10
JP2021526259A (en) 2021-09-30
CN112513990A (en) 2021-03-16
WO2019231624A3 (en) 2020-03-19
KR20210018333A (en) 2021-02-17

Similar Documents

Publication Publication Date Title
JP7490576B2 (en) Method and apparatus for multimodal prediction using trained statistical models - Patents.com
US11971963B2 (en) Methods and apparatus for multi-modal prediction using a trained statistical model
Jin et al. Application of deep learning methods in biological networks
Rafique et al. Machine learning in the prediction of cancer therapy
Lopez-Garcia et al. Transfer learning with convolutional neural networks for cancer survival prediction using gene-expression data
US11967436B2 (en) Methods and apparatus for making biological predictions using a trained multi-modal statistical model
WO2017122785A1 (en) Systems and methods for multimodal generative machine learning
Zhang et al. Review of the applications of deep learning in bioinformatics
Zou et al. Approaches for recognizing disease genes based on network
Ceci et al. Semi-supervised multi-view learning for gene network reconstruction
Teng et al. Adaptive feature selection using v-shaped binary particle swarm optimization
Sławek et al. ENNET: inferring large gene regulatory networks from expression data using gradient boosting
Kaur et al. Prediction of enhancers in DNA sequence data using a hybrid CNN-DLSTM model
Soleymani et al. ProtInteract: A deep learning framework for predicting protein–protein interactions
Yu et al. Perturbnet predicts single-cell responses to unseen chemical and genetic perturbations
Medina-Ortiz et al. Development of supervised learning predictive models for highly non-linear biological, biomedical, and general datasets
Wang et al. A new LSTM-based gene expression prediction model: L-GEPM
Coates et al. Radiomic and radiogenomic modeling for radiotherapy: strategies, pitfalls, and challenges
Yaqoob et al. Optimizing gene selection and cancer classification with hybrid sine cosine and cuckoo search algorithm
Wolkenhauer Systems medicine: integrative, qualitative and computational approaches
Jahanyar et al. MS-ACGAN: A modified auxiliary classifier generative adversarial network for schizophrenia's samples augmentation based on microarray gene expression data
Ray Machine learning in postgenomic biology and personalized medicine
Moore et al. Genetic analysis of prostate cancer using computational evolution, pareto-optimization and post-processing
Lee et al. The estimation of probability distribution for factor variables with many categorical values
Yousefi et al. Consensus clustering for robust bioinformatics analysis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220506

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230718

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240515

R150 Certificate of patent or registration of utility model

Ref document number: 7490576

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150