WO2020138590A1 - 신약 후보 물질의 효과 및 안전성 예측을 위한 데이터 처리 장치 및 방법 - Google Patents

신약 후보 물질의 효과 및 안전성 예측을 위한 데이터 처리 장치 및 방법 Download PDF

Info

Publication number
WO2020138590A1
WO2020138590A1 PCT/KR2019/002920 KR2019002920W WO2020138590A1 WO 2020138590 A1 WO2020138590 A1 WO 2020138590A1 KR 2019002920 W KR2019002920 W KR 2019002920W WO 2020138590 A1 WO2020138590 A1 WO 2020138590A1
Authority
WO
WIPO (PCT)
Prior art keywords
drug
network
data processing
ohmic
biological
Prior art date
Application number
PCT/KR2019/002920
Other languages
English (en)
French (fr)
Inventor
배영우
진승현
Original Assignee
주식회사 메디리타
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 메디리타 filed Critical 주식회사 메디리타
Priority to US17/059,417 priority Critical patent/US20210217498A1/en
Publication of WO2020138590A1 publication Critical patent/WO2020138590A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures

Definitions

  • the present invention relates to a data processing apparatus and method for predicting the effectiveness and safety of a new drug candidate.
  • omics is also called somatics ( ⁇ ), a term that refers to the entire collection of biological molecules, cells, tissues, organs, etc., including the genome, for example, genomics, proteomics And metabolomics.
  • somatics
  • the technical problem to be solved by the present invention is to provide a data processing apparatus and method for discovering new drug candidate substances.
  • Another technical problem to be solved by the present invention is to provide a data processing apparatus and method for securing the effectiveness and safety of a new drug through simulation from the molecular level to the entire body.
  • a data processing method for discovering new drug candidate substances in a data processing apparatus includes receiving a predetermined search word through a user interface unit; Extracting a plurality of drug-capable pathways and a drug-drugable path (DP) index for each drug-capable path using an artificial neural network (ANN) model; Selecting a portion of the plurality of drug-enabled pathways having a high DP index; Extracting ADMET information using an ADMET (absorption, distribution, metabolism, excretion, toxicity) model for some of the drug-capable pathways; And outputting DP index and ADMET information for each drug-capable pathway for the partial drug-capable pathway.
  • ANN artificial neural network
  • the artificial neural network model may be generated in advance according to a result of learning the biological network.
  • the biological network may be a plurality of drug-capable pathways and a DP index for each drug-capable pathway included in the biological network.
  • the biological network may be a multi-ohmic network in which some of the plurality of biological entities are included in different ohmic levels from the rest of the biological entities.
  • the multi-ohmic network includes: a DB (database) on at least some of the ohmic levels selected through the user interface unit among a plurality of ohmic levels constituting the ohmic; In addition, it may be extracted from a DB matrix consisting of a DB regarding at least some of the types of correlations selected through the user interface unit among a plurality of types of correlations forming the ohmic.
  • a DB database
  • the multi-ohmic network may connect a plurality of biological entities extracted in connection with a predetermined search word from the DB matrix according to a correlation degree between biological entities.
  • the predetermined search word may be one of a disease name, a compound name, and a drug name.
  • a data processing apparatus for discovering new drug candidate substances includes a user interface unit that receives a predetermined search word;
  • the artificial neural network (ANN) model is used to extract a plurality of drug-capable pathways and drug-related drug-related path (DP) indices related to the predetermined search term, and the DP index of the plurality of drug-capable pathways is A path selector for selecting a portion of the drug capable of high;
  • An ADMET information extraction unit for extracting ADMET information using an ADMET (absorption, distribution, metabolism, excretion, toxicity) model for some of the drug-capable pathways;
  • it includes an output unit for outputting the DP index and ADMET information for each drug-capable pathway for the partial drug-capable pathway.
  • a recording medium in which a computer readable program is recorded includes receiving a predetermined search word through a user interface unit; Extracting a plurality of drug-capable pathways and a drug-drugable path (DP) index for each drug-capable path using an artificial neural network (ANN) model; Selecting a portion of the plurality of drug-enabled pathways having a high DP index; Extracting ADMET information using an ADMET (absorption, distribution, metabolism, excretion, toxicity) model for some of the drug-capable pathways; And it executes a data processing method for discovering new drug candidate substances, including the step of outputting DP index and ADMET information for each drug-capable pathway for the partial drug-capable pathway.
  • DP drug-drugable path
  • ANN artificial neural network
  • FIG. 3 is a block diagram of a data processing system for discovering new drug candidate substances according to an embodiment of the present invention.
  • FIG. 4 is a flowchart of a data processing method for discovering new drug candidate substances in a data processing apparatus according to an embodiment of the present invention.
  • 5(a) to 5(c) are examples of results output by an output unit of a data processing apparatus according to an embodiment of the present invention.
  • FIG. 6 is a block diagram of a multi-ohmic network generating apparatus according to an embodiment of the present invention.
  • FIG. 7 is a block diagram of a multi-ohmic network generating apparatus according to an embodiment of the present invention.
  • FIG. 8 is a flowchart of a multi-ohmic network generation method of a multi-ohmic network generation apparatus according to an embodiment of the present invention.
  • step S1000 shows an example in which the ohmic level is input in step S1000 according to an embodiment of the present invention.
  • step S1100 shows an example in which a type of correlation is input in step S1100 according to an embodiment of the present invention.
  • step S1300 shows an example of a first matrix generated in step S1300 according to an embodiment of the present invention.
  • step S1500 is a part of an example of a second matrix showing the biological entities extracted in step S1500 and the correlation between them.
  • 15 is a diagram for explaining a method of generating an ANN model by a model generating apparatus according to an embodiment of the present invention.
  • first and second may be used to describe various components, but the components are not limited by the terms. The terms are used only for the purpose of distinguishing one component from other components.
  • the second component may be referred to as the first component without departing from the scope of the present invention, and similarly, the first component may also be referred to as the second component.
  • the term and/or includes a combination of a plurality of related described items or any one of a plurality of related described items.
  • a network may be composed of a plurality of nodes, and two nodes may be connected by edges.
  • the network may be a knowledge network, a biological network, a multi-ohmic network, a node may represent a biological entity, and an edge may represent a correlation between two biological entities.
  • FIG. 3 is a block diagram of a data processing system for discovering new drug candidate substances according to an embodiment of the present invention
  • FIG. 4 is a data processing method for discovering new drug candidate substances in a data processing apparatus according to an embodiment of the present invention It is a flowchart.
  • the data processing system 10 for discovering new drug candidate substances extracts a drug-capable pathway, and the data processing apparatus 100 predicts effects and safety, and biological entities belonging to different ohmic levels mutually
  • a model generating device that extracts drug-capable routes from the multi-omics network DB (200) that stores connected multi-omics networks according to the degree of association, and a data processing device (100), and generates models for predicting effects and safety 300.
  • the data processing apparatus 100 includes a user interface unit 110, a path selection unit 120, an ADMET information extraction unit 130, a storage unit 140 and an output unit 150.
  • a predetermined search word for example, a compound name, a drug name, or a disease name is input through the user interface 110 (S100).
  • the route selection unit 120 generates a pre-generated ANN model in the ANN model storage unit 142 and executes the ANN model previously stored in the ANN model storage unit 142.
  • the drug-capable pathway means a pathway in which the drug reacts or a pathway in which the drug acts, and may be mixed with a drug reaction pathway or a drug action pathway.
  • the drug-capable path may be displayed according to the degree of correlation between biological entities in different ohmic levels, and may be some paths in a multi-omics network extracted by a predetermined search term to be described later herein.
  • the DP index for each drug-capable route may be an index indicating a degree predicted to be suitable as a drug-capable route, and a higher DP index may be more suitable as a drug-capable route.
  • the DP index may be a probability value.
  • the route selector 120 selects a part of the drug-capable routes having a high DP index among the plurality of drug-capable routes extracted in step S110 (S120).
  • the number of selected drug-capable routes may be preset by a user or may be preset in software.
  • the ADMET information extracting unit 130 extracts ADMET information by executing an ADMET model that is previously generated for a part of the drug-capable path selected in step S120 and stored in the ADMET model storage unit 144 in advance (S130).
  • the ADMET information may be information indicating effectiveness and safety for a given compound, and may include a plurality of indicators indicating at least some of absorption, distribution, metabolism, excretion, and toxicity. Since ADMET information is an index for each compound, even if the DP index is different, if the compounds included in the corresponding drug possible route are the same, the same ADMET information can be extracted.
  • the output unit 150 outputs the DP index and ADMET information for each drug-capable route for some drug-capable routes extracted in step S120 in connection with a predetermined search term (S140).
  • 5(a) to 5(c) are examples of results output by an output unit of a data processing apparatus according to an embodiment of the present invention.
  • GRIN2A, GRM5 acamprosate constitute a biological entity
  • rufinamide constitute a biological entity
  • the DP index is 0.25 DP
  • GRIN2A, GABRA1, and acamprosate constitute a biological entity
  • DP 3 with a DP index of 0.1 may be selected as a possible drug route.
  • step S130 ADMET information for acamprosate, a compound contained in DP 1, ADMET information for rufinamide, a compound contained in DP 2, and ADMET information for acamprosate, a compound included in DP 3, are extracted and drugs are possible Route, DP index, and ADMET index may be exposed as shown in FIGS. 5(a) to 5(c) for each possible drug route.
  • ADMET information may include a plurality of indicators indicating at least a portion of absorption, distribution, metabolism, discharge, and toxicity, and herein, "AMES Toxicity", “Blood Brain Barrier”, “Caco-2 permeability ", "CYP450 2C9 inhibitor”, “CYP450 2C9 substrate”, “CYP450 2D6 inhibitor”, “CYP450 2D6 substrate”, “CYP450 3A4 inhibitor”, “CYP450 3A4 substrate”, “Human Intestinal”, “Absorption”, "P- Twelve indicators such as “glycoprotein inhibitor” and “P-glycoprotein substrate” were expressed as probability values, but this is an example, and is not limited thereto.
  • the ANN model and the ADMET model may be generated in advance in order for the data processing apparatus 100 to extract the drug-capable route and the DP index for a predetermined search term and extract ADMET information. have.
  • the model generation device 300 including the ANN model generation unit 310 and the ADMET model generation unit 320 is illustrated as being a separate configuration that is disposed outside the data processing device 100, but is not limited thereto. At least one of the ANN model generation unit 310 and the ADMET model generation unit 320 may be a configuration included in the data processing apparatus 100.
  • the ANN model generation unit 310 and the ADMET model generation unit 320 may use the multi-ohmic network DB 200 to generate the ANN model and the ADMET model.
  • a method of generating the multi-ohmic network DB 200 will be described in detail first, and then a method of generating the ANN model and the ADMET model using the multi-ohmic network DB 200 will be described.
  • the multi-ohmic network DB 200 may be a DB built by a multi-ohmic network generated in advance in connection with various search terms.
  • the multi-omics network refers to a network in which a plurality of nodes including a plurality of biological entities are connected according to a correlation degree between the plurality of biological entities, and a method for generating the multi-omics network can be described as follows. .
  • FIG. 6 is a block diagram of a multi-ohmic network generating apparatus according to an embodiment of the present invention
  • FIG. 7 is a block diagram of a multi-ohmic network generating apparatus according to an embodiment of the present invention
  • FIG. 8 Is a flow chart of a multi-ohmic network generation method of a multi-ohmic network generation apparatus according to an embodiment of the present invention.
  • the multi-ohmic network generation apparatus 1100 includes a user interface unit 1110, a DB extraction unit 1120, a data generation unit 1130, a data output unit 1140, and a multi-omics network DB ( 1150).
  • the user interface unit 1110 receives at least some of the ohmic levels among a plurality of levels constituting an ohmic (S1000), and at least some of a plurality of types of interrelationships forming an ohmic.
  • the correlation type is input (S1100).
  • the omics (omics) is also referred to as somatic, for example, genetic physics, transcriptional physics, metabolic physics, epigenetics, geological physics, etc., in detail anatomical structure (anatomy), biological path (biological) process), a pathway, a pharmacological class, symptoms, diseases, compounds, drugs, side effects, and the like, but may not be limited thereto.
  • Omics levels include gene level, transcription level, protein level, metabolic level, epigene level, lipid level, anatomical structure level, biological pathway level, conduction pathway level, pharmacological hierarchical level, symptom level, disease level , Compound level, drug level and side effect level, but is not limited thereto.
  • the anatomical structure may refer to tissue, organ, and the like
  • the biological pathway is a series of molecular components extracted from gene ontology, such as cellular components, such as location at the level of the intracellular structure. It may be an event, and the pharmacological layer may be a pharmacological effect or a mechanism of action.
  • a plurality of types of correlations are “interact”, “participate”, “covariate”, “regulate”, “associate”, “bind” “, “upregulate”, “cause”, “resemble”, “treat”, “downregulates”, “palliate”, “expression (present)”, “localize (localize)”, “include (include)”, “expression (express)” can include, identification number or identification symbol for each type can be randomly assigned. The identification number or identification symbol for each type may be set by the user or may be set automatically. 9 shows an example in which an ohmic level is input in step S1000 according to an embodiment of the present invention, and FIG.
  • a screen through which the plurality of ohmic levels can be selected may be exposed through the output unit 1140, and at least some of the ohmic levels may be displayed through the user interface 1110 among the plurality of ohmic levels. Can be selected.
  • a screen through which a plurality of types of correlations can be selected may be exposed through the output unit 1140, and at least a part of the plurality of types of correlations may be exposed through the user interface 1110.
  • the correlation type of can also be selected.
  • the DB extracting unit 1120 extracts a DB of at least some of the ohmic levels selected in step S1000 and a DB of at least some of the correlation types selected in step S1100 from the ohmic DB (S1200).
  • the ohmic DB 1200 may be a big data DB, may be a DB external to the multi-ohmic network generating apparatus 1100 according to an embodiment of the present invention, and can be accessed by anyone or authenticated under predetermined conditions It can be an accessible global public DB.
  • the ohmic DB 1200 may store information about the ohmic level and information on the correlation between biological entities in the ohmic level in advance. For example, as shown in FIG.
  • the ohmic DB 1200 may include a DB 1210 for each ohmic level and a DB 1220 for each type of correlation.
  • Omics level DB 1210 includes, for example, gene DB, transcription DB, protein DB, metabolism DB, epigenetic DB, lipid DB, anatomical structure DB, biological pathway DB, conduction pathway DB, symptom DB, Disease DB, compound DB, drug DB, and side effects DB.
  • the DB 1220 for each type of correlation is an interaction DB, a participation DB, a covariate DB, a regulation DB, an association DB, and a binding DB.
  • These DBs can be integrated and managed as one big data DB, or distributed and managed and operated.
  • the DB extracting unit 1120 generates a first matrix consisting of a DB regarding at least some of the ohmic levels extracted in step S1200 and a DB regarding at least some types of correlations (S1300).
  • the first matrix may be referred to as a set of DBs extracted in step S1200.
  • 11 shows an example of a first matrix generated in step S1300 according to an embodiment of the present invention. Referring to FIG. 11, the ohmic levels selected in step S1000 are disposed on each of the horizontal and vertical axes, and may be generated such that the types of correlations selected in step S1100 are displayed at a point where the horizontal and vertical axes intersect.
  • the genetic level, protein level, metabolism level, anatomical structure level, conduction pathway level, biological pathway level, compound level, side effect level, disease level, pharmacological hierarchical level and symptom level are horizontal axis of the first matrix. And it may be disposed on each of the vertical axis, the horizontal axis and the vertical axis at the intersection of the types of interaction (interact, Int), participation (participate, P), covariate (Co), regulation (regulate, Reg) , Association (A), binding (bind, B), upregulate (U), cause (Cause, Ca), resemble (R), treat (T), downregulate (downregulates) , D), palliate (Pa), expression (present, Pr), location (localize, L), include (include, Inc) and at least one of expression (express, E) may be displayed.
  • the user interface 1110 receives a predetermined search word (S1400).
  • the predetermined search term may be a search term that a user desires to search for information, and one of a plurality of biological entities included for each ohmic level, for example, a gene name, a protein name, a metabolic name, a symptom name, a disease name, and a compound It can include one of the following: name, drug name, side effect name.
  • 12 shows an example in which a predetermined search word is input. Referring to FIG. 12, a screen for inputting a predetermined search word may be exposed through the output unit 1140, and a predetermined search term may be input through the user interface 1110.
  • FIG. 12 shows an example in which the disease name is selected as a category, and epilepsy syndrome is input as a predetermined search term.
  • the data generating unit 1130 extracts at least one biological entity related to a predetermined search word received in step S1400 using the first matrix generated in step S1300, and uses the first matrix generated in step S1300. Then, a correlation between a predetermined search word and the extracted biological entity is extracted (S1500).
  • the biological entity may include at least one of genes, proteins, metabolites, symptoms, diseases, compounds, and drugs, and the ohmic level to which a given search term belongs may be the same as the ohmic level to which the biological entity belongs. , May be different. For example, as illustrated in FIG.
  • the biological entity extracted in step S1500 is a gene associated with epilepsy syndrome, a protein associated with epilepsy syndrome, and a metabolism associated with epilepsy syndrome , symptoms associated with epilepsy syndrome, diseases associated with epilepsy syndrome, compounds associated with epilepsy syndrome, and drugs associated with epilepsy syndrome.
  • the data generation unit 1130 comprises the gene DB, protein DB, metabolism DB, anatomical structure DB, conduction path DB, biological pathway DB, compound DB, side effects DB, disease that make up the first matrix in step S1300 Biological entities associated with epilepsy syndrome can be extracted from each of the DB, pharmacological hierarchical DB, and symptom DB.
  • the biological entity extracted in step S1500 includes multiple genes associated with epilepsy syndrome, multiple proteins associated with epilepsy syndrome, multiple metabolites associated with epilepsy syndrome, multiple symptoms associated with epilepsy syndrome, and multiple associated with epilepsy syndrome May include at least one of a plurality of compounds associated with a disease, epilepsy syndrome, and a plurality of drugs associated with epilepsy syndrome.
  • the amount of DB to be searched can be significantly reduced, and accordingly time and cost for searching for information It is possible to reduce, and it is possible to extract only the information desired by the user.
  • the data generating unit 1130 is based on artificial intelligence technology including machine learning, Natural language processing algorithms can be used.
  • natural language processing refers to various techniques that mechanically analyze language phenomena spoken by humans to make them understandable by computers, and express the forms understandable by computers in languages understandable by humans.
  • the Omix DB 1200 may be a language-based DB for each biological entity type, and may include information reflecting machine-learned results and feedback results.
  • the data generation unit 1130 is based on artificial intelligence technology including machine learning, You can also use deep neural network algorithms.
  • the deep neural network is an ANN composed of several hidden layers between the input layer and the output layer, and refers to various techniques used for classification, prediction, image recognition, and character recognition.
  • the O-MIX DB 1200 may be an image-based DB for each biological entity type, and may include information reflecting machine-learned results and feedback results.
  • FIG. 13 is a part of an example of a second matrix showing the biological entities extracted in step S1500 and the correlation between them.
  • a plurality of biological entities are sequentially arranged on each of the horizontal and vertical axes according to the hierarchical structure of the ohmic level, and the correlation between the plurality of biological entities is at a point where the horizontal and vertical axes intersect. It can be created in any way that is displayed.
  • the ohmic level selected in step S1000 is the gene level, the conduction path level, the protein level, the metabolic level, the disease level, the side effect level and the compound level
  • the predetermined search term input in step S1400 is one of the compounds
  • a plurality of genes associated with bupropion, a plurality of pathways, a plurality of proteins, a plurality of metabolites, a plurality of diseases, a plurality of diseases It can be seen that side effects, a plurality of compounds are extracted as biological entities, and these biological entities are sequentially arranged on each of the horizontal and vertical axes according to the hierarchical structure of the ohmic level.
  • the correlation between biological entities is displayed in different colors at the intersection of the horizontal axis and the vertical axis.
  • the form of the second matrix is exemplary, and is not limited thereto, and may be modified in various forms.
  • the data generation unit 1130 generates a multi-ohmic network using the results extracted in step S1500 (S1600).
  • the multi-omics network is a predetermined search term received in step S1400 and biological entities extracted in step S1500 as nodes, and a correlation between a predetermined search term extracted in step S1500 and a biological entity or a correlation between biological entities
  • a plurality of nodes may be connected using a connection line.
  • the path from node A, one of the nodes in the multi-omics network, to node B, the other, may vary, and all possible paths may be connected by a connection line.
  • the multi-omics network is a network consisting of correlations between biological entities, and can be mixed with biological networks.
  • some of the plurality of biological entities that become nodes may be included in different ohmic levels from the rest of the biological entities. That is, as illustrated in FIG. 14, the multi-ohmic network includes a plurality of different ohmic levels, such as gene level, conduction level, protein level, metabolic level, compound level, side effect level and disease level.
  • the biological entity is a node, and some of the plurality of biological entities included in the gene level may be connected to some of the plurality of biological entities included in the protein level or may be connected to some of the plurality of biological entities included in the conduction pathway level.
  • some of the plurality of biological entities included in the compound level are connected to some of the plurality of biological entities included in the protein level, connected to some of the plurality of biological entities included in the conduction level, or included in the side effect level It may be connected to some of the plurality of biological entities.
  • the DB and the name of the corresponding ohmic level Since the DB related to the association type is automatically extracted, the amount of information to be searched by the multi-ohmic network generation device 1100 may be significantly reduced, and accordingly, the multi-composition consisting of the desired ohmic level and the correlation type You can get an ohmic network.
  • the user when some of a plurality of ohmic levels and some of a plurality of types of interrelationships are input through the user interface unit 1110, the user wants the ohmic level and the correlation type It is possible to obtain a multi-ohmics network consisting of, and accordingly, a user can easily grasp a hierarchical structure between a plurality of biological entities associated with a predetermined search term within a desired ohmic level.
  • the multi-ohmic network generated according to the above method is stored, and when a plurality of multi-ohmic networks are stored, the multi-ohmic network DB 1150 may be constructed.
  • the multi-ohmic network DB 1150 is illustrated as being a part of the multi-ohmic network generating apparatus 1100, the present invention is not limited thereto, and the multi-ohmic network DB 1150 is a multi-ohmic network generating apparatus. It may be an external configuration of 1100. That is, the multi-ohmic network DB 1150 of FIG. 6 may be the multi-ohmic network DB 200 of FIG. 3. Alternatively, a plurality of multi-ohmic network DBs 1150 of FIG. 6 may be gathered to construct the multi-ohmic network DB 200 of FIG. 3.
  • the model generating device 300 generates an ANN model using the multi-ohmic network DB constructed by the above method.
  • 15 is a diagram for explaining a method of generating an ANN model by a model generating apparatus according to an embodiment of the present invention.
  • the model generation device 300 may generate an ANN model by learning a multi-ohmic network stored in the multi-ohmic network DB 200.
  • the ANN model generator 310 may use a convolutional neural network (CNN) algorithm, and the results of the ANN model generator 310 may include a plurality of drug-capable pathways and drugs available in each biological network. It may be a DP index for each route.
  • CNN convolutional neural network
  • the multi-ohmic network stored in the multi-ohmic network DB 200 may be input to the ANN model generator 310.
  • the multi-ohmic network may be input in the form of a plurality of divided images, and the plurality of divided images may be calculated through a convolutional neural network algorithm. That is, a plurality of divided images may be output in the form of a DP index for each drug-capable path after a computation and softmax process by a convolutional layer and a fully-connected hidden layer.
  • the DP index for each drug-capable pathway may be optimized by repeating the process of learning sensitivity and specificity with a training set previously learned. To this end, a plurality of drug-capable pathways or a plurality of segmented images in a multi-omics network may be pre-tagged.
  • the model generation device 300 may extract ADMET information for each compound from the multi-ohmic network DB 200 or the ohmic DB 1200, and learn this to generate an ADMET model.
  • the multi-ohmic network DB 200 or the ohmic DB 1200 may include at least one of a compound DB and a drug DB.
  • the ADMET model may be generated using a known modeling technique, for example, a method known as “Wang et al., 2015. In silico ADME/T modeling for rational drug design, Quarterly Reviews of Biophysics”, etc. This is illustrative and not limiting.
  • an ANN model and an ADMET model are generated using a multi-omics network reflecting the structural complexity of a human body and a relationship for each expression stage, and a predetermined search term is used using these ANN models and ADMET models Drugs for possible routes and ADMET information can be extracted. Accordingly, the effect of a whole body simulation can be obtained, and it is possible to easily obtain the effect and safety in consideration of the hierarchical structure of the human body for a new drug candidate substance.
  • the term' ⁇ unit' used in this embodiment means a software or hardware component such as a field-programmable gate array (FPGA) or an ASIC, and the' ⁇ unit' performs certain roles.
  • FPGA field-programmable gate array
  • ASIC application-specific integrated circuit
  • components and' ⁇ units' may be combined into a smaller number of components and' ⁇ units', or further separated into additional components and' ⁇ units'.
  • the components and' ⁇ unit' may be implemented to play one or more CPUs in the device or secure multimedia card.

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 한 실시예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법은 사용자 인터페이스부를 통하여 소정의 검색어를 입력 받는 단계; 인공신경망(artificial neural network, ANN) 모델을 이용하여 상기 소정의 검색어와 관련된 복수의 약물 가능 경로 및 약물 가능 경로 별 DP(druggable path) 지수를 추출하는 단계; 상기 복수의 약물 가능 경로 중 상기 DP 지수가 높은 일부의 약물 가능 경로를 선택하는 단계; 상기 일부의 약물 가능 경로에 대하여 ADMET(absorption, distribution, metabolism, excretion, toxicity) 모델을 이용하여 ADMET 정보를 추출하는 단계; 그리고 상기 일부의 약물 가능 경로에 대하여 각 약물 가능 경로 별 DP 지수 및 ADMET 정보를 출력하는 단계를 포함한다.

Description

신약 후보 물질의 효과 및 안전성 예측을 위한 데이터 처리 장치 및 방법
본 발명은 신약 후보 물질의 효과 및 안전성 예측을 위한 데이터 처리 장치 및 방법에 관한 것이다.
하나의 신약을 개발하기 위하여 평균적으로 총 15년의 기간이 소요되며, 2 내지 3조원의 비용이 발생하는 것으로 알려져 있다. 이 중에서도 전임상(preclinical trial) 이전의 신약 후보 물질을 발굴하기 위하여 약 6년의 기간이 소요되는 것으로 알려져 있다.
일반적으로, 신약을 개발하기 위한 파이프라인의 첫 단계인 신약 후보 물질을 발굴하기 위하여, 다수의 전문 연구 인력들이 막대한 양의 정보를 일일이 탐색하고, 이로부터 주요한 생물학적 엔티티(entity) 간의 연관성을 추론하는 과정을 거치고 있다.
최근 일본에서 출범된 라이프 인텔리전스 컨소시엄(Life Intelligence Consortium, 2017)에 따르면, 신약 개발에 인공지능 기술을 활용할 경우, 신약을 개발하기 위하여 소요되는 기간은 약 40% 수준으로 단축될 수 있고, 비용은 약 50% 수준으로 절감될 수 있는 것으로 예측되고 있다.
한편, 오믹스(omics)는 체학(體學)이라고도 하며, 유전체를 비롯한 망라적 생물 분자, 세포, 조직, 기관 등의 집합체 전부를 일컫는 용어로, 예컨데, 유전체학(genomics), 단백질체학(proteomics), 신진대사체학(metabolomics) 등이 있다. 최근, 서로 다른 오믹스 레벨 간의 총체적이고 통합적인 분석을 의미하는 멀티오믹스(multiomics)에 관한 개념이 소개되고 있다.
한편, 신약의 효과 및 안전성은 신약 후보 물질로 선정되기 위해 예측되어야 하는 중요한 요소이다. 도 1은 신체의 계층 구조를 나타낸다. 적중률이 높은 신약을 개발하고, 신약의 효과 및 안전성을 확보하기 위해서는 분자 수준에서부터 신체 전체에 이르는 인체의 구조적 복잡성 및 발현 단계 별 관계를 반영한 멀티오믹스 개념을 활용할 필요가 있다.
본 발명이 해결하고자 하는 기술적 과제는 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는 분자 수준에서부터 신체 전체에 이르는 시뮬레이션을 통하여 신약의 효과 및 안전성을 확보하기 위한 데이터 처리 장치 및 방법을 제공하는 것이다.
본 발명의 한 실시예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법은 사용자 인터페이스부를 통하여 소정의 검색어를 입력 받는 단계; 인공신경망(artificial neural network, ANN) 모델을 이용하여 상기 소정의 검색어와 관련된 복수의 약물 가능 경로 및 약물 가능 경로 별 DP(druggable path) 지수를 추출하는 단계; 상기 복수의 약물 가능 경로 중 상기 DP 지수가 높은 일부의 약물 가능 경로를 선택하는 단계; 상기 일부의 약물 가능 경로에 대하여 ADMET(absorption, distribution, metabolism, excretion, toxicity) 모델을 이용하여 ADMET 정보를 추출하는 단계; 그리고 상기 일부의 약물 가능 경로에 대하여 각 약물 가능 경로 별 DP 지수 및 ADMET 정보를 출력하는 단계를 포함한다.
복수의 생물학적 엔티티를 생물학적 엔티티들 간의 상호 연관도에 따라 연결한 생물학적 네트워크를 학습하는 단계; 그리고 상기 생물학적 네트워크를 학습한 결과에 따라 상기 인공신경망 모델을 미리 생성하는 단계를 더 포함할 수 있다.
상기 학습하는 단계에서는 컨벌루션 신경망 알고리즘을 이용하며, 상기 생물학적 네트워크를 학습한 결과는 상기 생물학적 네트워크에 포함되는 복수의 약물 가능 경로 및 약물 가능 경로 별 DP 지수일 수 있다.
상기 생물학적 네트워크는 상기 복수의 생물학적 엔티티 중 일부가 나머지 생물학적 엔티티와 서로 다른 오믹스 레벨에 포함되는 멀티오믹스 네트워크일 수 있다.
상기 멀티오믹스 네트워크는, 오믹스를 이루는 복수의 오믹스 레벨 중 사용자 인터페이스부를 통하여 선택된 적어도 일부의 오믹스 레벨에 관한 DB (database); 그리고 상기 오믹스를 이루는 복수의 상호 연관도 종류 중 상기 사용자 인터페이스부를 통하여 선택된 적어도 일부의 상호 연관도 종류에 관한 DB로 이루어진 DB 매트릭스로부터 추출될 수 있다.
상기 멀티오믹스 네트워크는, 상기 DB 매트릭스로부터 소정의 검색어와 관련하여 추출된 복수의 생물학적 엔티티를 생물학적 엔티티들 간 상호 연관도에 따라 연결할 수 있다.
상기 소정의 검색어는 질환명, 화합물명 및 약품명 중 하나일 수 있다.
본 발명의 한 실시예에 따른 신약 후보 물질 발굴을 위한 데이터 처리 장치는 소정의 검색어를 입력 받는 사용자 인터페이스부; 인공신경망(artificial neural network, ANN) 모델을 이용하여 상기 소정의 검색어와 관련된 복수의 약물 가능 경로 및 약물 가능 경로 별 DP(druggable path) 지수를 추출하며, 상기 복수의 약물 가능 경로 중 상기 DP 지수가 높은 일부의 약물 가능 경로를 선택하는 경로 선택부; 상기 일부의 약물 가능 경로에 대하여 ADMET(absorption, distribution, metabolism, excretion, toxicity) 모델을 이용하여 ADMET 정보를 추출하는 ADMET 정보 추출부; 그리고 상기 일부의 약물 가능 경로에 대하여 각 약물 가능 경로 별 DP 지수 및 ADMET 정보를 출력하는 출력부를 포함한다.
본 발명의 한 실시예에 따른 컴퓨터로 읽을 수 있는 프로그램이 기록된 기록 매체는 사용자 인터페이스부를 통하여 소정의 검색어를 입력 받는 단계; 인공신경망(artificial neural network, ANN) 모델을 이용하여 상기 소정의 검색어와 관련된 복수의 약물 가능 경로 및 약물 가능 경로 별 DP(druggable path) 지수를 추출하는 단계; 상기 복수의 약물 가능 경로 중 상기 DP 지수가 높은 일부의 약물 가능 경로를 선택하는 단계; 상기 일부의 약물 가능 경로에 대하여 ADMET(absorption, distribution, metabolism, excretion, toxicity) 모델을 이용하여 ADMET 정보를 추출하는 단계; 그리고 상기 일부의 약물 가능 경로에 대하여 각 약물 가능 경로 별 DP 지수 및 ADMET 정보를 출력하는 단계를 포함하는 신약 후보 물질을 발굴하기 위한 데이터 처리 방법을 실행시킨다.
본 발명의 실시예에 따르면, 적중률 높은 신약 후보 물질을 발굴하는데 소요되는 비용 및 기간을 현저히 줄일 수 있다.
특히, 본 발명의 실시예에 따르면, 효과 및 안전성이 보장되도록 약물이 작용하는 최적의 경로를 얻을 수 있으며, 이와 함께 경로 별 효과 및 안전성에 대한 정보도 얻을 수 있다.
도 1은 신체의 계층 구조를 나타낸다.
도 2는 네트워크의 개념을 설명한다.
도 3은 본 발명의 한 실시예에 따른 신약 후보 물질 발굴을 위한 데이터 처리 시스템의 블록도이다.
도 4는 본 발명의 한 실시예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법의 순서도이다.
도 5(a) 내지 (c)는 본 발명의 실시예에 따른 데이터 처리 장치의 출력부가 출력하는 결과의 한 예이다.
도 6은 본 발명의 한 실시예에 따른 멀티오믹스 네트워크 생성 장치의 블록도이다.
도 7은 본 발명의 한 실시예에 따른 멀티오믹스 네트워크 생성 장치가 오믹스 DB의 블록도이다.
도 8은 본 발명의 한 실시예에 따른 멀티오믹스 네트워크 생성 장치의 멀티오믹스 네트워크 생성 방법의 순서도이다.
도 9는 본 발명의 한 실시예에 따라 단계 S1000에서 오믹스 레벨이 입력되는 예를 나타낸다.
도 10은 본 발명의 한 실시예에 따라 단계 S1100에서 상호 연관도 종류가 입력되는 예를 나타낸다.
도 11은 본 발명의 한 실시예에 따라 단계 S1300에서 생성된 제1 매트릭스의 예를 나타낸다.
도 12는 소정의 검색어가 입력되는 예를 나타낸다.
도 13은 단계 S1500에서 추출된 생물학적 엔티티 및 이들 간 상호 연관도를 나타내는 제2 매트릭스의 일 예의 일부이다.
도 14는 본 발명의 실시예에 따라 생성된 멀티오믹스 네트워크의 일 예이다.
도 15는 본 발명의 한 실시예에 따른 모델 생성 장치가 ANN 모델을 생성하는 방법을 설명하는 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제2, 제1 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부된 도면을 참조하여 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 2는 네트워크의 개념을 설명한다.
도 2를 참조하면, 네트워크는 복수의 노드로 이루어질 수 있으며, 두 노드 사이는 에지에 의하여 연결될 수 있다. 본 명세서에서, 네트워크는 지식 네트워크, 생물학적 네트워크, 멀티오믹스 네트워크일 수 있으며, 노드는 생물학적 엔티티를 나타낼 수 있고, 에지는 두 생물학적 엔티티 간의 상호 연관도를 나타낼 수 있다.
도 3은 본 발명의 한 실시예에 따른 신약 후보 물질 발굴을 위한 데이터 처리 시스템의 블록도이고, 도 4는 본 발명의 한 실시예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법의 순서도이다.
도 3을 참조하면, 신약 후보 물질 발굴을 위한 데이터 처리 시스템(10)은 약물 가능 경로를 추출하고, 효과 및 안전성을 예측하는 데이터 처리 장치(100), 서로 다른 오믹스 레벨에 속하는 생물학적 엔티티들이 상호 연관도에 따라 연결된 멀티오믹스 네트워크를 저장하는 멀티오믹스 네트워크 DB(200), 그리고 데이터 처리 장치(100)에서 약물 가능 경로를 추출하고, 효과 및 안전성을 예측하기 위한 모델을 생성하는 모델 생성 장치(300)를 포함한다.
이때, 데이터 처리 장치(100)는 사용자 인터페이스부(110), 경로 선택부(120), ADMET 정보 추출부(130), 저장부(140) 및 출력부(150)를 포함한다.
도 3 내지 도 4를 참조하면, 사용자 인터페이스부(110)를 통하여 소정의 검색어, 예를 들어 화합물명, 약품명, 또는 질환명이 입력된다(S100).
이에 따라, 경로 선택부(120)는 미리 생성되어 ANN 모델 저장부(142)에 미리 저장된 ANN 모델을 실행시켜 단계 S100에서 입력된 소정의 검색어와 관련된 복수의 약물 가능 경로 및 약물 가능 경로 별 DP 지수를 추출한다(S110). 여기서, 약물 가능 경로는 약물이 반응하는 경로 또는 약물이 작용하는 경로를 의미하며, 약물 반응 경로 또는 약물 작용 경로와 혼용될 수 있다. 이때, 약물 가능 경로는 서로 다른 오믹스 레벨 내 생물학적 엔티티들 간 상호 연관도에 따라 표시될 수 있으며, 본 명세서에서 후술할 소정의 검색어에 의하여 추출된 멀티오믹스 네트워크 내 일부 경로일 수 있다. 그리고, 약물 가능 경로 별 DP 지수는 약물 가능 경로로 적합한 것으로 예측되는 정도를 나타낸 지수일 수 있으며, DP 지수가 높을수록 약물 가능 경로로 더욱 적합할 수 있다. 이때, DP 지수는 확률 값일 수 있다.
다음으로, 경로 선택부(120)는 단계 S110에서 추출한 복수의 약물 가능 경로 중 DP 지수가 높은 일부의 약물 가능 경로를 선택한다(S120). 여기서, 선택되는 일부의 약물 가능 경로의 개수는 사용자에 의하여 미리 설정되거나, 소프트웨어적으로 미리 설정될 수도 있다.
다음으로, ADMET 정보 추출부(130)는 단계 S120에서 선택된 일부의 약물 가능 경로에 대하여 미리 생성되어 ADMET 모델 저장부(144)에 미리 저장된 ADMET 모델을 실행시켜 ADMET 정보를 추출한다(S130). 여기서, ADMET 정보는 소정의 화합물에 대한 효과 및 안전성을 나타내는 정보일 수 있으며, 흡수, 분포, 대사, 배출 및 독성 중 적어도 일부를 나타내는 복수의 지표를 포함할 수 있다. ADMET 정보는 화합물 별 지표이므로, DP 지수가 다르다고 할지라도 해당 약물 가능 경로에 포함되는 화합물이 동일하다면, 동일한 ADMET 정보가 추출될 수 있다.
다음으로, 출력부(150)는 소정의 검색어와 관련되어 단계 S120에서 추출한 일부의 약물 가능 경로에 대하여 각 약물 가능 경로 별 DP 지수 및 ADMET 정보를 출력한다(S140).
도 5(a) 내지 5(c)는 본 발명의 실시예에 따른 데이터 처리 장치의 출력부가 출력하는 결과의 한 예이다. 예를 들어, 질환명인 "epilepsy syndrome"이 검색어로 입력된 경우, 단계 S120에서 GRIN2A, GRM5, acamprosate가 생물학적 엔티티를 이루며 DP 지수가 0.65인 DP1, GRM5, rufinamide가 생물학적 엔티티를 이루며 DP 지수가 0.25인 DP 2, GRIN2A, GABRA1, acamprosate가 생물학적 엔티티를 이루며 DP 지수가 0.1인 DP 3가 약물 가능 경로로 선택될 수 있다. 이에 따라, 단계 S130에서는 DP 1에 포함되는 화합물인 acamprosate에 대한 ADMET 정보, DP 2에 포함되는 화합물인 rufinamide에 대한 ADMET 정보, DP 3에 포함되는 화합물인 acamprosate에 대한 ADMET 정보를 추출하며, 약물 가능 경로, DP 지수 및 ADMET 지수를 약물 가능 경로 별로 도 5(a) 내지 도 5(c)와 같이 노출할 수 있다. 이때, ADMET 정보는, 전술한 바와 같이 흡수, 분포, 대사, 배출 및 독성 중 적어도 일부를 나타내는 복수의 지표를 포함할 수 있으며, 여기서는 "AMES Toxicity", "Blood Brain Barrier", "Caco-2 permeability", "CYP450 2C9 inhibitor", "CYP450 2C9 substrate", "CYP450 2D6 inhibitor", "CYP450 2D6 substrate", "CYP450 3A4 inhibitor", "CYP450 3A4 substrate", "Human Intestinal", "Absorption", "P-glycoprotein inhibitor", "P-glycoprotein substrate" 등의 12개의 지표가 확률 값으로 표현되었으나, 이는 예시적인 것으로, 이로 제한되는 것은 아니다.
한편, 본 발명의 한 실시예에 따라, 데이터 처리 장치(100)가 소정의 검색어에 대하여 약물 가능 경로 및 DP 지수를 추출하고, ADMET 정보를 추출하기 위하여, ANN 모델 및 ADMET 모델이 미리 생성될 수 있다.
여기서, ANN 모델 생성부(310) 및 ADMET 모델 생성부(320)를 포함하는 모델 생성 장치(300)가 데이터 처리 장치(100)의 외부에 배치되는 별도의 구성인 것으로 도시되어 있으나, 이로 제한되는 것은 아니며, ANN 모델 생성부(310) 및 ADMET 모델 생성부(320) 중 적어도 하나는 데이터 처리 장치(100)의 내부에 포함되는 구성일 수도 있다.
ANN 모델 생성부(310) 및 ADMET 모델 생성부(320)는 ANN 모델 및 ADMET 모델을 생성하기 위하여, 멀티오믹스 네트워크 DB(200)를 이용할 수 있다. 이하, 멀티오믹스 네트워크 DB(200)를 생성하는 방법에 대하여 먼저 상세하게 설명한 후, 멀티오믹스 네트워크 DB(200)를 이용하여 ANN 모델 및 ADMET 모델을 생성하는 방법을 설명한다.
먼저, 멀티오믹스 네트워크 DB(200)는 다양한 검색어와 관련되어 미리 생성된 멀티오믹스 네트워크에 의하여 구축된 DB일 수 있다. 멀티오믹스 네트워크는 복수의 생물학적 엔티티를 포함하는 복수의 노드를 상기 복수의 생물학적 엔티티 간 상호 연관도에 따라 연결한 네트워크를 의미하며, 멀티오믹스 네트워크를 생성하는 방법은 다음과 같이 설명될 수 있다.
도 6은 본 발명의 한 실시예에 따른 멀티오믹스 네트워크 생성 장치의 블록도이고, 도 7은 본 발명의 한 실시예에 따른 멀티오믹스 네트워크 생성 장치가 오믹스 DB의 블록도이며, 도 8은 본 발명의 한 실시예에 따른 멀티오믹스 네트워크 생성 장치의 멀티오믹스 네트워크 생성 방법의 순서도이다.
도 6을 참조하면, 멀티오믹스 네트워크 생성 장치(1100)는 사용자 인터페이스부(1110), DB 추출부(1120), 데이터 생성부(1130), 데이터 출력부(1140) 및 멀티오믹스 네트워크 DB(1150)을 포함한다.
도 6 내지 8을 참조하면, 사용자 인터페이스부(1110)는 오믹스를 이루는 복수의 레벨 중 적어도 일부의 오믹스 레벨을 입력 받으며(S1000), 오믹스를 이루는 복수의 상호 연관도 종류 중 적어도 일부의 상호 연관도 종류를 입력 받는다(S1100). 여기서, 오믹스(omics)는 체학이라고도 하며, 예를 들어 유전자체학, 전사체학, 단백질체학, 신진대사체학, 후성유전체학, 지질체학 등이 있고, 세부적으로 해부학적 구조(anatomy), 생물학적경로(biological process), 전도경로(pathway), 약리학적 계층(pharmacological class), 증상, 질환, 화합물, 약물, 부작용 등에 관련된 내용을 포함할 수 있으나, 이로 제한되는 것은 아니다. 복수의 오믹스 레벨은 유전자 레벨, 전사 레벨, 단백질 레벨, 신진대사체 레벨, 후성유전자 레벨, 지질 레벨, 해부학적 구조 레벨, 생물학적 경로 레벨, 전도경로 레벨, 약리학적 계층레벨, 증상 레벨, 질환 레벨, 화합물 레벨, 약물 레벨 및 부작용 레벨 등을 포함할 수 있으나, 이로 제한되는 것은 아니다. 여기서, 해부학적 구조는 조직(tissue), 기관(organ) 등을 의미할 수 있고, 생물학적 경로는 세포 내 구조의 레벨에서의 위치와 같은 세포 구성성분, 유전자 온톨로지로부터 추출된 분자 기능을 포함하는 일련의 이벤트일 수 있으며, 약리학적 계층은 약리학적 효과, 작용의 메커니즘일 수 있다. 그리고, 복수의 상호 연관도 종류는 "상호작용(interact)", "참여(participate)", "공변(covariate)", "조절(regulate)", "연관(associate)", "결합(bind)", "업레귤레이트(upregulate)", "원인(cause)", "유사(resemble)", "치료(treat)", "다운레귤레이트(downregulates)", "완화(palliate)", "발현(present)", "위치(localize)", "포함(include)", "표출(express)"을 포함할 수 있으며, 종류 별로 식별 번호 또는 식별 기호가 임의로 부여될 수 있다. 종류 별 식별 번호 또는 식별 기호는 사용자에 의하여 설정되거나, 자동으로 설정될 수 있다. 도 9는 본 발명의 한 실시예에 따라 단계 S1000에서 오믹스 레벨이 입력되는 예를 나타내고, 도 10은 본 발명의 한 실시예에 따라 단계 S1100에서 상호 연관도 종류가 입력되는 예를 나타낸다. 도 9를 참조하면, 출력부(1140)를 통하여 복수의 오믹스 레벨이 선택될 수 있는 화면이 노출될 수 있으며, 복수의 오믹스 레벨 중 사용자 인터페이스부(1110)를 통하여 적어도 일부의 오믹스 레벨이 선택될 수 있다. 그리고, 도 10을 참조하면, 출력부(1140)를 통하여 복수의 상호 연관도 종류가 선택될 수 있는 화면이 노출될 수 있으며, 복수의 상호 연관도 종류 중 사용자 인터페이스부(1110)를 통하여 적어도 일부의 상호 연관도 종류가 선택될 수 있다.
다음으로, DB 추출부(1120)는 오믹스 DB로부터 단계 S1000에서 선택된 적어도 일부의 오믹스 레벨에 관한 DB 및 단계 S1100에서 선택된 적어도 일부의 상호 연관도 종류에 관한 DB를 추출한다(S1200). 여기서, 오믹스 DB(1200)는 빅데이터 DB일 수 있으며, 본 발명의 실시예에 따른 멀티오믹스 네트워크 생성 장치(1100) 외부의 DB일 수 있고, 누구나 접근 가능하거나 소정의 조건 하에 인증 받은 자가 접근 가능한 글로벌 공공 DB일 수 있다. 오믹스 DB(1200)는 오믹스 레벨에 관한 정보 및 오믹스 레벨 내 생물학적 엔티티 간 상호 연관도에 관한 정보를 미리 저장할 수 있다. 예를 들어, 도 7에 도시된 바와 같이, 오믹스 DB(1200)는 오믹스 레벨 별 DB(1210) 및 상호 연관도 종류 별 DB(1220)를 포함할 수 있다. 오믹스 레벨 별 DB(1210)는, 예를 들어 유전자 DB, 전사 DB, 단백질 DB, 신진대사체 DB, 후성유전자 DB, 지질 DB, 해부학적 구조 DB, 생물학적 경로 DB, 전도경로 DB, 증상 DB, 질환 DB, 화합물 DB, 약물 DB 및 부작용 DB를 포함할 수 있다. 그리고, 상호 연관도 종류 별 DB(1220)는 상호작용(interact) DB, 참여(participate) DB, 공변(covariate) DB, 조절(regulate) DB, 연관(associate) DB, 결합(bind) DB, 업레귤레이트(upregulate) DB, 원인(cause) DB, 유사(resemble) DB, 치료(treat) DB, 다운레귤레이트(downregulates) DB, 완화(palliate) DB, 발현(present) DB, 위치(localize) DB, 포함(include) DB 및 표출(express) DB를 포함할 수 있다. 이들 DB는 하나의 빅데이터 DB로 통합하여 관리 및 운영되거나, 분산되어 관리 및 운용될 수 있다.
그리고, DB 추출부(1120)는 단계 S1200에서 추출된 적어도 일부의 오믹스 레벨에 관한 DB 및 적어도 일부의 상호 연관도 종류에 관한 DB로 이루어진 제1 매트릭스를 생성한다(S1300). 여기서, 제1 매트릭스는 단계 S1200에서 추출된 DB들의 집합이라 할 수 있다. 도 11은 본 발명의 한 실시예에 따라 단계 S1300에서 생성된 제1 매트릭스의 예를 나타낸다. 도 11을 참조하면, 단계 S1000에서 선택된 오믹스 레벨들이 가로축 및 세로축 각각에 배치되며, 가로축 및 세로축이 교차하는 지점에 단계 S1100에서 선택된 상호 연관도 종류들이 표시되도록 생성될 수 있다. 예를 들어, 유전자 레벨, 단백질 레벨, 신진대사체 레벨, 해부학적 구조 레벨, 전도경로 레벨, 생물학적 경로 레벨, 화합물 레벨, 부작용 레벨, 질병 레벨, 약리학적 계층 레벨 및 증상 레벨이 제1 매트릭스의 가로축 및 세로축 각각에 배치될 수 있으며, 가로축과 세로축이 교차하는 지점에 상호 연관도 종류인 상호작용(interact, Int), 참여(participate, P), 공변(covariate, Co), 조절(regulate, Reg), 연관(associate, A), 결합(bind, B), 업레귤레이트(upregulate, U), 원인(cause, Ca), 유사(resemble, R), 치료(treat, T), 다운레귤레이트(downregulates, D), 완화(palliate, Pa), 발현(present, Pr), 위치(localize, L), 포함(include, Inc) 및 표출(express, E) 중 적어도 하나가 표시될 수 있다.
한편, 사용자 인터페이스부(1110)는 소정의 검색어를 수신한다(S1400). 소정의 검색어는 사용자가 정보 탐색하기를 윈하는 검색어일 수 있고, 오믹스 레벨 별로 포함되는 복수의 생물학적 엔티티 중 하나, 예를 들어 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명, 약품명, 부작용명 중 하나를 포함할 수 있다. 도 12는 소정의 검색어가 입력되는 예를 나타낸다. 도 12를 참조하면, 출력부(1140)를 통하여 소정의 검색어를 입력하기 위한 화면이 노출될 수 있으며, 사용자 인터페이스부(1110)를 통하여 소정의 검색어가 입력될 수 있다. 도 12에서는 질환명을 범주로 선택하며, 소정의 검색어로 epilepsy syndrome를 입력하는 예를 나타낸다.
다음으로, 데이터 생성부(1130)는 단계 S1300에서 생성한 제1 매트릭스를 이용하여 단계 S1400에서 수신된 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티를 추출하며, 단계 S1300에서 생성한 제1 매트릭스를 이용하여 소정의 검색어와 추출한 생물학적 엔티티 간 상호 연관도를 추출한다(S1500). 여기서, 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 하나를 포함할 수 있으며, 소정의 검색어가 속한 오믹스 레벨은 생물학적 엔티티가 속한 오믹스 레벨과 동일할 수도 있고, 상이할 수도 있다. 예를 들어, 도 12에서 예시한 바와 같이, 소정의 검색어가 질환명인 epilepsy syndrome인 경우, 단계 S1500에서 추출되는 생물학적 엔티티는 epilepsy syndrome과 연관된 유전자, epilepsy syndrome과 연관된 단백질, epilepsy syndrome과 연관된 신진대사체, epilepsy syndrome과 연관된 증상, epilepsy syndrome과 연관된 질환, epilepsy syndrome과 연관된 화합물 및 epilepsy syndrome과 연관된 약품 중 적어도 하나를 포함할 수 있다. 이를 위하여, 데이터 생성부(1130)는 단계 S1300에서 제1 매트릭스를 구성하는 유전자 DB, 단백질 DB, 신진대사체 DB, 해부학적 구조 DB, 전도경로 DB, 생물학적 경로 DB, 화합물 DB, 부작용 DB, 질병 DB, 약리학적 계층 DB 및 증상 DB 각각으로부터 epilepsy syndrome과 연관된 생물학적 엔티티를 추출할 수 있다. 이에 따라, 단계 S1500에서 추출되는 생물학적 엔티티는 epilepsy syndrome과 연관된 복수의 유전자, epilepsy syndrome과 연관된 복수의 단백질, epilepsy syndrome과 연관된 복수의 신진대사체, epilepsy syndrome과 연관된 복수의 증상, epilepsy syndrome과 연관된 복수의 질환, epilepsy syndrome과 연관된 복수의 화합물 및 epilepsy syndrome과 연관된 복수의 약품 중 적어도 하나를 포함할 수도 있다.
이와 같이, 단계 S1300의 제1 매트릭스를 이용하여 소정의 검색어와 연관된 생물학적 엔티티 및 상호 연관도를 추출할 경우, 탐색되어야 할 DB의 양을 현저히 줄일 수 있으며, 이에 따라 정보를 탐색하기 위한 시간 및 비용을 줄일 수 있으며, 사용자가 원하는 정보만을 추출하는 것이 가능하다.
이때, 데이터 생성부(1130)가 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티 및 생물학적 엔티티 간 상호 연관도를 추출하기 위하여, 데이터 생성부(1130)는 기계 학습을 포함하는 인공지능 기술에 기반하며, 자연어 처리 알고리즘을 이용할 수 있다. 여기서, 자연어 처리는 인간이 발화하는 언어 현상을 기계적으로 분석하여 컴퓨터가 이해할 수 있는 형태로 만들고, 컴퓨터가 이해할 수 있는 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미한다. 이를 위하여, 오믹스 DB(1200)는 생물학적 엔티티 종류 별 언어 기반 DB일 수 있으며, 기계 학습된 결과 및 피드백 결과를 반영한 정보를 포함할 수 있다.
또는, 데이터 생성부(1130)가 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티 및 생물학적 엔티티 간 상호 연관도를 추출하기 위하여, 데이터 생성부(1130)는 기계 학습을 포함하는 인공지능 기술에 기반하며, 심층 신경망 알고리즘을 이용할 수도 있다. 여기서, 심층 신경망은 입력층과 출력층 사이의 여러 개의 은닉층들로 이루어진 ANN으로, 분류, 예측, 이미지 인식, 문자 인식 등에 사용되는 제반 기술을 의미한다. 이를 위하여, 오믹스 DB(1200)는 생물학적 엔티티 종류 별 이미지 기반 DB일 수 있으며, 기계 학습된 결과 및 피드백 결과를 반영한 정보를 포함할 수 있다.
도 13은 단계 S1500에서 추출된 생물학적 엔티티 및 이들 간 상호 연관도를 나타내는 제2 매트릭스의 일 예의 일부이다. 도 13을 참조하면, 제2 매트릭스는 복수의 생물학적 엔티티가 오믹스 레벨의 계층 구조에 따라 순차적으로 가로축 및 세로축 각각에 배치되며, 가로축 및 세로축이 교차하는 지점에 복수의 생물학적 엔티티 간 상호 연관도가 표시되는 방법으로 생성될 수 있다. 예를 들어, 단계 S1000에서 선택된 오믹스 레벨이 유전자 레벨, 전도경로 레벨, 단백질 레벨, 신진대사체 레벨, 질병 레벨, 부작용 레벨 및 화합물 레벨이고, 단계 S1400에서 입력된 소정의 검색어가 화합물 중 하나인 bupropion인 경우, 단계 S1500에서는 bupropion과 연관된 복수의 유전자(gene), 복수의 전도경로(pathway), 복수의 단백질(protein), 복수의 신진대사체(metabolite), 복수의 질병(disease), 복수의 부작용(side effect), 복수의 화합물(compound)이 생물학적 엔티티들로 추출되며, 이들 생물학적 엔티티들이 오믹스 레벨의 계층 구조에 따라 순차적으로 가로축 및 세로축 각각에 배치됨을 알 수 있다. 그리고, 가로축과 세로축이 교차하는 지점에 생물학적 엔티티 간 상호 연관도가 서로 다른 색깔로 표시됨을 알 수 있다.
이러한 제2 매트릭스의 형태는 예시적인 것으로, 이로 제한되는 것은 아니며, 다양한 형태로 변형될 수 있다.
다음으로, 데이터 생성부(1130)는 단계 S1500에서 추출한 결과를 이용하여 멀티오믹스 네트워크를 생성한다(S1600). 도 14는 본 발명의 실시예에 따라 생성된 멀티오믹스 네트워크의 일 예이다. 여기서, 멀티오믹스 네트워크는 단계 S1400에서 수신된 소정의 검색어와 단계 S1500에서 추출된 생물학적 엔티티들을 노드로 하며, 단계 S1500에서 추출한 소정의 검색어와 생물학적 엔티티 간의 상호 연관도 또는 생물학적 엔티티들 간의 상호 연관도에 따라 연결선을 이용하여 복수의 노드를 연결한 형태일 수 있다. 멀티오믹스 네트워크 내 노드 중 하나인 노드 A로부터 다른 하나인 노드 B로 가는 경로는 다양할 수 있으며, 가능한 모든 경로가 연결선에 의하여 연결될 수 있다. 여기서, 멀티오믹스 네트워크는 생물학적 엔티티 간의 상호 연관도로 이루어진 네트워크로, 생물학적 네트워크와 혼용될 수 있다. 멀티오믹스 네트워크에서, 노드가 되는 복수의 생물학적 엔티티 중 일부는 나머지 생물학적 엔티티와 서로 다른 오믹스 레벨에 포함될 수 있다. 즉, 도 14에 예시된 바와 같이, 멀티오믹스 네트워크는 유전자 레벨, 전도경로 레벨, 단백질 레벨, 신진대사체 레벨, 화합물 레벨, 부작용 레벨 및 질병 레벨과 같은 서로 다른 오믹스 레벨에 포함되는 복수의 생물학적 엔티티를 노드로 하며, 유전자 레벨에 포함된 복수의 생물학적 엔티티 중 일부는 단백질 레벨에 포함된 복수의 생물학적 엔티티 중 일부와 연결되거나 전도경로 레벨에 포함된 복수의 생물학적 엔티티 중 일부와 연결될 수 있다. 이와 마찬가지로, 화합물 레벨에 포함된 복수의 생물학적 엔티티 중 일부는 단백질 레벨에 포함된 복수의 생물학적 엔티티 중 일부와 연결되거나, 전도경로 레벨에 포함된 복수의 생물학적 엔티티 중 일부와 연결되거나, 부작용 레벨에 포함된 복수의 생물학적 엔티티 중 일부와 연결될 수도 있다.
이와 같이, 본 발명의 실시예에 따라, 복수의 오믹스 레벨 중 일부 및 복수의 상호연관도 종류 중 일부를 사용자 인터페이스부(1110)를 통하여 입력 받을 경우, 해당하는 오믹스 레벨에 관한 DB 및 상호 연관도 종류에 관한 DB가 자동으로 추출되므로, 멀티오믹스 네트워크 생성 장치(1100)가 탐색 해야 할 정보의 양이 현저히 줄어들 수 있으며, 이에 따라 사용자가 원하는 오믹스 레벨 및 상호 연관도 종류로 구성된 멀티오믹스 네트워크를 얻을 수 있다. 또한, 본 발명의 실시예에 따라, 복수의 오믹스 레벨 중 일부 및 복수의 상호연관도 종류 중 일부를 사용자 인터페이스부(1110)를 통하여 입력 받을 경우, 사용자가 원하는 오믹스 레벨 및 상호 연관도 종류로 구성된 멀티오믹스 네트워크를 얻을 수 있으며, 이에 따라 사용자가 원하는 오믹스 레벨 내에서 소정의 검색어와 연관된 복수의 생물학적 엔티티 간의 계층 구조를 용이하게 파악할 수도 있다.
이상의 방법에 따라 생성된 멀티오믹스 네트워크는 저장되며, 다수의 멀티오믹스 네트워크가 저장될 경우 멀티오믹스 네트워크 DB(1150)가 구축될 수 있다.
여기서, 멀티오믹스 네트워크 DB(1150)가 멀티오믹스 네트워크 생성 장치(1100)의 일부 구성인 것으로 도시되어 있으나, 이로 제한되는 것은 아니며, 멀티오믹스 네트워크 DB(1150)는 멀티오믹스 네트워크 생성 장치(1100)의 외부 구성일 수도 있다. 즉, 도 6의 멀티오믹스 네트워크 DB(1150)는 도 3의 멀티오믹스 네트워크 DB(200)일 수 있다. 또는, 도 6의 멀티오믹스 네트워크 DB(1150)가 다수 개 모여 도 3의 멀티오믹스 네트워크 DB(200)가 구축될 수도 있다.
다음으로, 모델 생성 장치(300)는 이상의 방법으로 구축된 멀티오믹스 네트워크 DB를 이용하여 ANN 모델을 생성한다.
도 15는 본 발명의 한 실시예에 따른 모델 생성 장치가 ANN 모델을 생성하는 방법을 설명하는 도면이다.
도 15를 참조하면, 모델 생성 장치(300)는 멀티오믹스 네트워크 DB(200)에 저장된 멀티오믹스 네트워크를 학습하여 ANN 모델을 생성할 수 있다. 이를 위하여, ANN 모델 생성부(310)는 컨벌루션 신경망(convolution neural network, CNN) 알고리즘을 이용할 수 있으며, ANN 모델 생성부(310)의 결과는 각 생물학적 네트워크에 포함되는 복수의 약물 가능 경로 및 약물 가능 경로 별 DP 지수일 수 있다.
더욱 구체적으로, ANN 모델 생성부(310)에는 멀티오믹스 네트워크 DB(200)에 저장된 멀티오믹스 네트워크가 입력될 수 있다. 이때, 멀티오믹스 네트워크는 복수 개로 분할된 이미지의 형태로 입력될 수 있으며, 복수 개의 분할된 이미지는 컨벌루션 신경망 알고리즘을 통하여 계산될 수 있다. 즉, 복수 개의 분할된 이미지는 컨볼루션 레이어 및 fully-connected 히든 레이어에 의한 연산 및 소프트맥스 과정을 거친 후 약물 가능 경로 별 DP 지수의 형태로 출력될 수 있다. 그리고, 약물 가능 경로 별 DP 지수는 미리 학습된 트레이닝 세트로 민감도(sensitivity)와 특이도(specificity)를 학습하는 과정을 반복하여 최적화될 수 있다. 이를 위하여, 멀티오믹스 네트워크 내 복수의 약물 가능 경로 또는 복수의 분할된 이미지는 미리 태깅될 수 있다.
이와 마찬가지로, 모델 생성 장치(300)는 멀티오믹스 네트워크 DB(200) 또는 오믹스 DB(1200)로부터 화합물 별 ADMET 정보를 추출하며, 이를 학습하여 ADMET 모델을 생성할 수 있다. 여기서, 멀티오믹스 네트워크 DB(200) 또는 오믹스 DB(1200)는 화합물 DB 및 약품 DB 중 적어도 하나를 포함할 수 있다. 또는, ADMET 모델은 공지의 모델링 기법, 예를 들어 "Wang et al., 2015. In silico ADME/T modeling for rational drug design, Quarterly Reviews of Biophysics" 등에 공지된 방법을 이용하여 생성될 수 있으나, 이는 예시적인 것으로, 이로 제한되는 것은 아니다.
이와 같이, 본 발명의 실시예에 따르면, 인체의 구조적 복잡성 및 발현 단계 별 관계를 반영한 멀티오믹스 네트워크를 이용하여 ANN 모델 및 ADMET 모델을 생성하며, 이들 ANN 모델 및 ADMET 모델을 이용하여 소정의 검색어에 대한 약물 가능 경로 및 ADMET 정보를 추출할 수 있다. 이에 따라, 신체 전체에 대한 시뮬레이션(whole body simulation)의 효과를 얻을 수 있으며, 신약 후보 물질에 대하여 인체의 계층적 구조를 고려한 효과 및 안전성을 용이하게 얻는 것이 가능하다.
본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (15)

  1. 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법에 있어서,
    사용자 인터페이스부를 통하여 소정의 검색어를 입력 받는 단계;
    인공신경망(artificial neural network, ANN) 모델을 이용하여 상기 소정의 검색어와 관련된 복수의 약물 가능 경로 및 약물 가능 경로 별 DP(druggable path) 지수를 추출하는 단계;
    상기 복수의 약물 가능 경로 중 상기 DP 지수가 높은 일부의 약물 가능 경로를 선택하는 단계;
    상기 일부의 약물 가능 경로에 대하여 ADMET(absorption, distribution, metabolism, excretion, toxicity) 모델을 이용하여 ADMET 정보를 추출하는 단계; 그리고
    상기 일부의 약물 가능 경로에 대하여 각 약물 가능 경로 별 DP 지수 및 ADMET 정보를 출력하는 단계
    를 포함하는 데이터 처리 방법.
  2. 제1항에 있어서,
    복수의 생물학적 엔티티를 생물학적 엔티티들 간의 상호 연관도에 따라 연결한 생물학적 네트워크를 학습하는 단계; 그리고
    상기 생물학적 네트워크를 학습한 결과에 따라 상기 인공신경망 모델을 미리 생성하는 단계
    를 더 포함하는 데이터 처리 방법.
  3. 제2항에 있어서,
    상기 학습하는 단계에서는 컨벌루션 신경망 알고리즘을 이용하며,
    상기 생물학적 네트워크를 학습한 결과는 상기 생물학적 네트워크에 포함되는 복수의 약물 가능 경로 및 약물 가능 경로 별 DP 지수인 데이터 처리 방법.
  4. 제3항에 있어서,
    상기 생물학적 네트워크는 상기 복수의 생물학적 엔티티 중 일부가 나머지 생물학적 엔티티와 서로 다른 오믹스 레벨에 포함되는 멀티오믹스 네트워크인 데이터 처리 방법.
  5. 제4항에 있어서,
    상기 멀티오믹스 네트워크는,
    오믹스를 이루는 복수의 오믹스 레벨 중 사용자 인터페이스부를 통하여 선택된 적어도 일부의 오믹스 레벨에 관한 DB; 그리고
    상기 오믹스를 이루는 복수의 상호 연관도 종류 중 상기 사용자 인터페이스부를 통하여 선택된 적어도 일부의 상호 연관도 종류에 관한 DB;
    로 이루어진 DB 매트릭스로부터 추출되는 데이터 처리 방법.
  6. 제5항에 있어서,
    상기 멀티오믹스 네트워크는,
    상기 DB 매트릭스로부터 소정의 검색어와 관련하여 추출된 복수의 생물학적 엔티티를 생물학적 엔티티들 간 상호 연관도에 따라 연결한 데이터 처리 방법.
  7. 제1항에 있어서,
    상기 소정의 검색어는 질환명, 화합물명 및 약품명 중 하나인 데이터 처리 방법.
  8. 신약 후보 물질 발굴을 위한 데이터 처리 장치에 있어서,
    소정의 검색어를 입력 받는 사용자 인터페이스부;
    인공신경망(artificial neural network, ANN) 모델을 이용하여 상기 소정의 검색어와 관련된 복수의 약물 가능 경로 및 약물 가능 경로 별 DP(druggable path) 지수를 추출하며, 상기 복수의 약물 가능 경로 중 상기 DP 지수가 높은 일부의 약물 가능 경로를 선택하는 경로 선택부;
    상기 일부의 약물 가능 경로에 대하여 ADMET(absorption, distribution, metabolism, excretion, toxicity) 모델을 이용하여 ADMET 정보를 추출하는 ADMET 정보 추출부; 그리고
    상기 일부의 약물 가능 경로에 대하여 각 약물 가능 경로 별 DP 지수 및 ADMET 정보를 출력하는 출력부
    를 포함하는 데이터 처리 장치.
  9. 제8항에 있어서,
    상기 인공신경망 모델을 저장하는 저장부;를 더 포함하고,
    상기 인공신경망 모델은 복수의 생물학적 엔티티를 생물학적 엔티티들 간의 상호 연관도에 따라 연결한 생물학적 네트워크를 학습한 결과에 따라 미리 생성되는 데이터 처리 장치.
  10. 제9항에 있어서,
    상기 인공신경망 모델을 생성하는 생성부를 더 포함하고,
    상기 생성부는 컨벌루션 신경망 알고리즘을 이용하여 복수의 생물학적 엔티티를 생물학적 엔티티들 간의 상호 연관도에 따라 연결한 생물학적 네트워크를 학습하며,
    상기 생물학적 네트워크를 학습한 결과는 상기 생물학적 네트워크에 포함되는 복수의 약물 가능 경로 및 약물 가능 경로 별 DP 지수인 데이터 처리 장치.
  11. 제10항에 있어서,
    상기 생물학적 네트워크는 상기 복수의 생물학적 엔티티 중 일부가 나머지 생물학적 엔티티와 서로 다른 오믹스 레벨에 포함되는 멀티오믹스 네트워크인 데이터 처리 장치.
  12. 제11항에 있어서,
    상기 멀티오믹스 네트워크는,
    오믹스를 이루는 복수의 오믹스 레벨 중 상기 사용자 인터페이스부를 통하여 선택된 적어도 일부의 오믹스 레벨에 관한 DB; 그리고
    상기 오믹스를 이루는 복수의 상호 연관도 종류 중 상기 사용자 인터페이스부를 통하여 선택된 적어도 일부의 상호 연관도 종류에 관한 DB;
    로 이루어진 DB 매트릭스로부터 추출되는 데이터 처리 장치.
  13. 제12항에 있어서,
    상기 멀티오믹스 네트워크는,
    상기 DB 매트릭스로부터 소정의 검색어와 관련하여 추출된 복수의 생물학적 엔티티를 생물학적 엔티티들 간 상호 연관도에 따라 연결한 데이터 처리 장치.
  14. 제8항에 있어서,
    상기 소정의 검색어는 질환명, 화합물명 및 약품명 중 하나인 데이터 처리 장치.
  15. 사용자 인터페이스부를 통하여 소정의 검색어를 입력 받는 단계;
    인공신경망(artificial neural network, ANN) 모델을 이용하여 상기 소정의 검색어와 관련된 복수의 약물 가능 경로 및 약물 가능 경로 별 DP(druggable path) 지수를 추출하는 단계;
    상기 복수의 약물 가능 경로 중 상기 DP 지수가 높은 일부의 약물 가능 경로를 선택하는 단계;
    상기 일부의 약물 가능 경로에 대하여 ADMET(absorption, distribution, metabolism, excretion, toxicity) 모델을 이용하여 ADMET 정보를 추출하는 단계; 그리고
    상기 일부의 약물 가능 경로에 대하여 각 약물 가능 경로 별 DP 지수 및 ADMET 정보를 출력하는 단계
    를 포함하는 신약 후보 물질을 발굴하기 위한 데이터 처리 방법을 실행시키기 위하여 컴퓨터로 읽을 수 있는 프로그램이 기록된 기록 매체.
PCT/KR2019/002920 2018-12-24 2019-03-13 신약 후보 물질의 효과 및 안전성 예측을 위한 데이터 처리 장치 및 방법 WO2020138590A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/059,417 US20210217498A1 (en) 2018-12-24 2019-03-13 Data processing apparatus and method for predicting effectiveness and safety of new drug candidate substance

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20180168658 2018-12-24
KR10-2018-0168658 2018-12-24
KR10-2019-0028790 2019-03-13
KR1020190028790A KR102026871B1 (ko) 2018-12-24 2019-03-13 신약 후보 물질의 효과 및 안전성 예측을 위한 데이터 처리 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2020138590A1 true WO2020138590A1 (ko) 2020-07-02

Family

ID=68578093

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/002920 WO2020138590A1 (ko) 2018-12-24 2019-03-13 신약 후보 물질의 효과 및 안전성 예측을 위한 데이터 처리 장치 및 방법

Country Status (3)

Country Link
US (1) US20210217498A1 (ko)
KR (1) KR102026871B1 (ko)
WO (1) WO2020138590A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037868A (zh) * 2020-11-04 2020-12-04 腾讯科技(深圳)有限公司 用于确定分子逆合成路线的神经网络的训练方法和装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102110176B1 (ko) * 2019-10-11 2020-05-13 주식회사 메디리타 신약 후보 물질 도출 방법 및 장치
KR102268144B1 (ko) * 2020-09-15 2021-06-22 (주)팜캐드 빅데이터를 이용한 신약 후보 물질의 독성 산출 장치 및 방법
US20220165359A1 (en) 2020-11-23 2022-05-26 Peptilogics, Inc. Generating anti-infective design spaces for selecting drug candidates
KR102259349B1 (ko) 2020-12-28 2021-06-01 주식회사 쓰리빌리언 병원성 유전자 변이 발생률 정보를 활용한 신약후보물질 안전성 예측 시스템
US11512345B1 (en) 2021-05-07 2022-11-29 Peptilogics, Inc. Methods and apparatuses for generating peptides by synthesizing a portion of a design space to identify peptides having non-canonical amino acids

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146380A (ja) * 2004-11-17 2006-06-08 Hitachi Ltd 化合物の機能予測方法及び機能予測システム
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146380A (ja) * 2004-11-17 2006-06-08 Hitachi Ltd 化合物の機能予測方法及び機能予測システム
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SANG, S. ET AL.: "GrEDeL: A Knowledge Graph Embedding Based Method for Drug Discovery From Biomedical Literatures", IEEE ACCESS, vol. 7, 12 December 2018 (2018-12-12), pages 8404 - 8415, XP011706307, DOI: 10.1109/ACCESS.2018.2886311 *
WANG, Y. ET AL.: "In silico ADME/T modelling for rational drug design", QUARTERLY REVIEWS OF BIOPHYSICS, vol. 48, no. 4, 2015, pages 488 - 515, XP055723623 *
YU , Y. ET AL.: "PreMedKB: an integrated precision medicine knowledgebase for interpreting relationships between diseases, genes, variants and drugs", NUCLEIC ACIDS RESEARCH., vol. 47, no. D1, 8 November 2018 (2018-11-08), pages D1090 - D1101, XP055723297 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037868A (zh) * 2020-11-04 2020-12-04 腾讯科技(深圳)有限公司 用于确定分子逆合成路线的神经网络的训练方法和装置
CN112037868B (zh) * 2020-11-04 2021-02-12 腾讯科技(深圳)有限公司 用于确定分子逆合成路线的神经网络的训练方法和装置

Also Published As

Publication number Publication date
KR102026871B1 (ko) 2019-11-04
US20210217498A1 (en) 2021-07-15

Similar Documents

Publication Publication Date Title
WO2020138590A1 (ko) 신약 후보 물질의 효과 및 안전성 예측을 위한 데이터 처리 장치 및 방법
WO2019164064A1 (ko) 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법
Jensen et al. Literature mining for the biologist: from information retrieval to biological discovery
US20220005608A1 (en) Method of predicting disease, gene or protein related to queried entity and prediction system built by using the same
KR102181058B1 (ko) 신약 후보 물질 도출을 위한 데이터 처리 방법
Dammann et al. Systems epidemiology: what’s in a name?
US20210183524A1 (en) Method and system for providing interpretation information on pathomics data
WO2021149913A1 (ko) Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치
WO2022060040A1 (ko) 빅데이터를 이용한 신약 후보 물질의 독성 산출 장치 및 방법
US7801841B2 (en) Method, system and software arrangement for reconstructing formal descriptive models of processes from functional/modal data using suitable ontology
Court et al. Virtual Fly Brain—An interactive atlas of the Drosophila nervous system
CN114141361B (zh) 基于症状术语映射与深度学习的中医处方推荐方法
Mihai et al. Representing and extracting knowledge from single-cell data
WO2020138589A1 (ko) 신약 후보 물질 발굴을 위한 멀티오믹스 데이터 처리 장치 및 방법
KR102187594B1 (ko) 신약 후보 물질 발굴을 위한 멀티오믹스 데이터 처리 장치 및 방법
WO2020184816A1 (ko) 신약 후보 물질 도출을 위한 데이터 처리 방법
Wu et al. Text mining for finding functional community of related genes using TCM knowledge
WO2020138588A1 (ko) 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법
CN109859813A (zh) 一种实体修饰词识别方法及装置
KR102187586B1 (ko) 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법
Tuggle et al. Introduction to systems biology for animal scientists
WO2011062311A1 (ko) 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크
WO2023013867A1 (ko) 헬스 스페이스 모델을 이용한 건강 상태 정보 시각화 장치 및 방법
WO2024096307A1 (ko) 의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치
Costa et al. Gennet: An integrated platform for unifying scientific workflow management and graph databases for transcriptome data analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19902341

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19902341

Country of ref document: EP

Kind code of ref document: A1